狠狠撸

狠狠撸Share a Scribd company logo
贬补诲辞辞辫を利用した新闻记事群の関係抽出に
          関する研究

 Hadoop based analyzing for relations among
           articles of newspaper


               複雑系工学講座
              調和系工学研究室
                4年 金 正福
背景
新聞記事を用いた分析
新聞記事は社会の動向を表す
人文学?社会学等の調査で利用


 分析手段
        従来:人手による解析




    近年:計算機による高速な解析
新闻データベース解析への
        アプローチ
? 従来研究:対象範囲が特定の分野に限定
内海ら,”社会課題とその解決に結びつく科学技術に関する有用知識の抽出”,
社会技術研究論文集、Vol.6, pp187-198, (2009)
                          従来の対
                          従来研究で
                          の対象範囲
                           象範囲
                医療
         政治
                     経済
               外交

              新聞記事          本研究での
                            対象範囲



     全紙面を対象とする情報抽出法の提案
新闻记事间の関连性に基づく
      解析手法
? 記事間の関連性
 – 日付
 – 掲載紙面
 – 文字数、段落数
 – 執筆者       名詞一般を「キーワード」と定義
 – 単語の重複     キーワードを共通で保持する
             記事群の特徴を調査

? キーワードの重複数の計算手法
 – 並列処理技術を用いて計算
並列処理
新聞記事データベースの関連性の計算のための分散データ処理の要件
1. 日々拡張されるデータ
    スケーラビリティを持った計算機構
2. それぞれのデータに対し変更が無い
    計算ノード間の同期は必要ない

 並列処理技術




                  特徴   本研究で利用

                   計算リソース
                                拡張性の高さ
                 分散ファイルシステム
キーワードの重复数に基づく记事间
         ネットワークの構築
重複数が最大となる記事間にネットワークのリンクを張る
                                               a2 ? a3
  記事集合 A ? {a1 , a2 ,..., am }
                                               の重複
                                                 数
         aroot ? a2              a1                      a1
          間の重
                         32
           複数                         25

                          120              45
         aroot                   a2                      a3
                           22
      ルート記事
                                 a3        3
                         17                               a4

                                 a4                   接続されるリンク
                                                     接続されないリンク
                                                         100リンクまで計算
贬补诲辞辞辫を用いた
      キーワードの重複数の計算

本研究でのHadoopサーバの構成

                    マスターノード(1台)
                    ?スレーブノードにタスクを割り当て
                    ?ジョブ(MapReduce処理)の監視
                    ?各スレーブノードによる計算結果の集約




                            スレーブノード(3台)
                            ?記事データの保存
                            ?割り当てられたタスクを処理する
ネットワーク解析実験
? 解析対象:北海道新聞データベース
  – 朝刊?夕刊(一日約500件)
  – 対象期間:1988年07月01日~2007年12月31日
  – 対象記事数:270万件

? 実験
  – ルート記事を複数選び、そのルート記事から始まるネットワークを、100リンク
    まで構築
  – 各記事に,”政治”, “スポーツ”などの,見出し内容に則したラベルを与える
    (見出しラベル)

    選挙     国際    経済     地方     政治   医療
    自治     外交    予算     観光     犯罪   スポーツ
    防災     法律    汚職     データ    人事   災害
   少子化   社会保障    社説     年金     憲法

                 表:見出しラベル
ネットワーク解析実験
?調査1
 接続の前後関係から事例を確認

?調査2
 記事をラベルでカテゴライズされたグループに分ける
 グループ間のネットワーク構造を俯瞰する




 選挙     国際    経済   地方    政治   医療
 自治     外交    予算   観光    犯罪   スポーツ
 防災     法律    汚職   データ   人事   災害
 少子化   社会保障   社説   年金    憲法

              表:見出しラベル
调査1:ネットワークの
                   前後関係の調査
? 事例1)民主党代表交代
  「代表辞任」から「新代表決定」へ直接つながる
                                     a92 ? a93
                                     の重複
                                        数

           17                   48                            10
                          a92               a93

  記事ID: 2004/05/11/0179               記事ID: 2004/05/14/0115

  日付            2004/05/11            日付          2004/05/15
  ラベル           政治                    ラベル         政治
  見出し           <視角触角>菅?民主代           見出し         民主代表 小沢氏受
                表が辞任*党再生「切り                       諾*「剛腕」に期待と
                札」不在*「小沢不信」根                      警戒*党イメージ
                強く*参院選へ増す不安
                                                  変質の懸念
调査1:ネットワークの
                 前後関係の調査
? 事例2)「スポーツ」→「汚職」
  – 「対決」という単語によって、無関係な記事同士がつながる

                                  a10 ? a11
                                  の重複
                                     数

       67                     8                            48
                        a10             a11

     記事ID: 2001/11/04/0104         記事ID: 2004/03/02/0191

     日付        2001/11/04          日付         2004/03/02
     ラベル       スポーツ                ラベル        汚職
     見出し       札幌J1残留*今            見出し        道警報償費疑惑
               季の札幌*「堅守                       *元弟子屈署次
               からの速攻」定着                       長の証言(要旨)
调査1:ネットワークの
                         前後関係の調査
? 事例3)人名などが羅列された記事(データ系記事)がつながる

                                  a10 ? a11                   a11 ? a12
                                 の重複                          の重複
                                  数                            数

    45                   64                           48                            9
                a10                           a11                   a12


記事ID: 2007/03/27/0180         記事ID: 2007/03/23/0285         記事ID: 1995/07/24/0345

日付        2007/03/27          日付          2007/03/23/0285   日付            1995/07/24
ラベル       選挙                  ラベル         人事                ラベル           選挙
見出し <2007統一地方選                見出し         <公立高、特殊学          見出し           <95参院選>道
         >道議選30日告示
                                          校の人事>教諭                         選挙区市町村別
         4月8日投開票(2の
         1)*48選挙区 構図
                                                                          投票率(3の2)
         鮮明に*道東、道北
調査2: グループ間のネットワーク構造
記事 ID: 2007/12/27/0112 「ブット元首相 暗殺*対テロ戦 米にも痛手 」
をルート記事としたネットワーク
                                           医
                                           療
    スポーツ
                                           地
            社会保障                           方    憲法
                             予       自
                             算       治
                     外
                     交
            災                                       防
            害                                       災
                                 政
            社                    治
        汚   説                        法
        職           選                律
                年                              国際
                金
                    挙                少子化
    人
    事                                               犯
                                           経        罪
                         観
                                 データ       済
                         光
グループ间ネットワークの次数分布
           記事ID: 2007/12/27/0112
           「ブット元首相 暗殺*対テロ戦 米にも痛手 」
           をルート記事としたネットワーク
    18


    16


    14


    12


    10
次
数    8


     6


     4


     2


     0




                  ラベルグループ
まとめ
新聞データベースの特性を生かした新たな解析手法の開発


 贬补诲辞辞辫を用いた道新データベースのネットワーク解析


? ネットワーク構造に関する実験結果
 ハブとなるラベルを持つ記事グループの存在
 (「選挙」、「国際」、「地方」、「経済」)
? 記事間の関連性の定義
 キーワード重複数だけでなく、意味論や
 日付も考慮することで
 より適切なネットワークの生成の可能性

More Related Content

Viewers also liked (20)

umeda_b
umeda_bumeda_b
umeda_b
harmonylab
?
miyamori_b_2013
miyamori_b_2013miyamori_b_2013
miyamori_b_2013
harmonylab
?
yamagata m
yamagata myamagata m
yamagata m
harmonylab
?
kin_m
kin_mkin_m
kin_m
harmonylab
?
sugawara m
sugawara msugawara m
sugawara m
harmonylab
?
itadani m
itadani mitadani m
itadani m
harmonylab
?
kikuchi_b
kikuchi_bkikuchi_b
kikuchi_b
harmonylab
?
kobayashi_m
kobayashi_mkobayashi_m
kobayashi_m
harmonylab
?
segawa_b
segawa_bsegawa_b
segawa_b
harmonylab
?

Similar to Kin b (9)

tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
Preferred Networks
?
20091031hasegawa ver03
20091031hasegawa ver0320091031hasegawa ver03
20091031hasegawa ver03
Toyohiro Hasegawa
?
データサイエンス?アドベンチャー杯2015 開催概要
データサイエンス?アドベンチャー杯2015 開催概要データサイエンス?アドベンチャー杯2015 開催概要
データサイエンス?アドベンチャー杯2015 開催概要
Analytics2014
?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
Masatsura IGAMI
?
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
Rakuten Group, Inc.
?
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
Takashi J OZAKI
?
行政コールセンターへの问い合わせデータを対象とした住民の要望分析
行政コールセンターへの问い合わせデータを対象とした住民の要望分析行政コールセンターへの问い合わせデータを対象とした住民の要望分析
行政コールセンターへの问い合わせデータを対象とした住民の要望分析
hirono kawashima
?
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd
Mika Yoshimura
?
データサイエンス?アドベンチャー杯2015 開催概要
データサイエンス?アドベンチャー杯2015 開催概要データサイエンス?アドベンチャー杯2015 開催概要
データサイエンス?アドベンチャー杯2015 開催概要
Analytics2014
?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
科学研究プロジェクトの动机は研究活动をどのように特徴づけるのか?
Masatsura IGAMI
?
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
Rakuten Group, Inc.
?
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
Takashi J OZAKI
?
行政コールセンターへの问い合わせデータを対象とした住民の要望分析
行政コールセンターへの问い合わせデータを対象とした住民の要望分析行政コールセンターへの问い合わせデータを対象とした住民の要望分析
行政コールセンターへの问い合わせデータを対象とした住民の要望分析
hirono kawashima
?
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd
Mika Yoshimura
?

More from harmonylab (20)

【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
harmonylab
?
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
harmonylab
?
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
harmonylab
?
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
?
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
?
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究 【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
harmonylab
?
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
?
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
?
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
?
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
?
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
?
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
harmonylab
?
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
harmonylab
?
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
?
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
?
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
?
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
?
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
【卒业论文】尝尝惭を用いたエージェントの相互作用による俳句の生成と评価に関する研究
harmonylab
?
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
【修士论文】帝国议会および国会议事速记録における可能表现の长期的変迁に関する研究
harmonylab
?
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
【修士论文】竞轮における注目レース选定と尝尝惭を用いたレース绍介记事生成に関する研究
harmonylab
?
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
?
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
?
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究 【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
【修士论文】尝尝惭を用いた俳句推敲と批评文生成に関する研究
harmonylab
?
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
?
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
?
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
?
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
?
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
?
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
【修士论文】代替出勤者の选定业务における依頼顺决定方法に関する研究   千坂知也
harmonylab
?
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
【修士论文】経路探索のための媒介中心性に基づく道路ネットワーク阶层化手法に関する研究
harmonylab
?
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
?
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
【卒业论文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
?
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
【卒业论文】大规模言语モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
?
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
?
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
?

Kin b

  • 1. 贬补诲辞辞辫を利用した新闻记事群の関係抽出に 関する研究 Hadoop based analyzing for relations among articles of newspaper 複雑系工学講座 調和系工学研究室 4年 金 正福
  • 3. 新闻データベース解析への アプローチ ? 従来研究:対象範囲が特定の分野に限定 内海ら,”社会課題とその解決に結びつく科学技術に関する有用知識の抽出”, 社会技術研究論文集、Vol.6, pp187-198, (2009) 従来の対 従来研究で の対象範囲 象範囲 医療 政治 経済 外交 新聞記事 本研究での 対象範囲 全紙面を対象とする情報抽出法の提案
  • 4. 新闻记事间の関连性に基づく 解析手法 ? 記事間の関連性 – 日付 – 掲載紙面 – 文字数、段落数 – 執筆者 名詞一般を「キーワード」と定義 – 単語の重複 キーワードを共通で保持する 記事群の特徴を調査 ? キーワードの重複数の計算手法 – 並列処理技術を用いて計算
  • 5. 並列処理 新聞記事データベースの関連性の計算のための分散データ処理の要件 1. 日々拡張されるデータ スケーラビリティを持った計算機構 2. それぞれのデータに対し変更が無い 計算ノード間の同期は必要ない 並列処理技術 特徴 本研究で利用 計算リソース 拡張性の高さ 分散ファイルシステム
  • 6. キーワードの重复数に基づく记事间 ネットワークの構築 重複数が最大となる記事間にネットワークのリンクを張る a2 ? a3 記事集合 A ? {a1 , a2 ,..., am } の重複 数 aroot ? a2 a1 a1 間の重 32 複数 25 120 45 aroot a2 a3 22 ルート記事 a3 3 17 a4 a4 接続されるリンク 接続されないリンク 100リンクまで計算
  • 7. 贬补诲辞辞辫を用いた キーワードの重複数の計算 本研究でのHadoopサーバの構成 マスターノード(1台) ?スレーブノードにタスクを割り当て ?ジョブ(MapReduce処理)の監視 ?各スレーブノードによる計算結果の集約 スレーブノード(3台) ?記事データの保存 ?割り当てられたタスクを処理する
  • 8. ネットワーク解析実験 ? 解析対象:北海道新聞データベース – 朝刊?夕刊(一日約500件) – 対象期間:1988年07月01日~2007年12月31日 – 対象記事数:270万件 ? 実験 – ルート記事を複数選び、そのルート記事から始まるネットワークを、100リンク まで構築 – 各記事に,”政治”, “スポーツ”などの,見出し内容に則したラベルを与える (見出しラベル) 選挙 国際 経済 地方 政治 医療 自治 外交 予算 観光 犯罪 スポーツ 防災 法律 汚職 データ 人事 災害 少子化 社会保障 社説 年金 憲法 表:見出しラベル
  • 9. ネットワーク解析実験 ?調査1 接続の前後関係から事例を確認 ?調査2 記事をラベルでカテゴライズされたグループに分ける グループ間のネットワーク構造を俯瞰する 選挙 国際 経済 地方 政治 医療 自治 外交 予算 観光 犯罪 スポーツ 防災 法律 汚職 データ 人事 災害 少子化 社会保障 社説 年金 憲法 表:見出しラベル
  • 10. 调査1:ネットワークの 前後関係の調査 ? 事例1)民主党代表交代 「代表辞任」から「新代表決定」へ直接つながる a92 ? a93 の重複 数 17 48 10 a92 a93 記事ID: 2004/05/11/0179 記事ID: 2004/05/14/0115 日付 2004/05/11 日付 2004/05/15 ラベル 政治 ラベル 政治 見出し <視角触角>菅?民主代 見出し 民主代表 小沢氏受 表が辞任*党再生「切り 諾*「剛腕」に期待と 札」不在*「小沢不信」根 警戒*党イメージ 強く*参院選へ増す不安 変質の懸念
  • 11. 调査1:ネットワークの 前後関係の調査 ? 事例2)「スポーツ」→「汚職」 – 「対決」という単語によって、無関係な記事同士がつながる a10 ? a11 の重複 数 67 8 48 a10 a11 記事ID: 2001/11/04/0104 記事ID: 2004/03/02/0191 日付 2001/11/04 日付 2004/03/02 ラベル スポーツ ラベル 汚職 見出し 札幌J1残留*今 見出し 道警報償費疑惑 季の札幌*「堅守 *元弟子屈署次 からの速攻」定着 長の証言(要旨)
  • 12. 调査1:ネットワークの 前後関係の調査 ? 事例3)人名などが羅列された記事(データ系記事)がつながる a10 ? a11 a11 ? a12 の重複 の重複 数 数 45 64 48 9 a10 a11 a12 記事ID: 2007/03/27/0180 記事ID: 2007/03/23/0285 記事ID: 1995/07/24/0345 日付 2007/03/27 日付 2007/03/23/0285 日付 1995/07/24 ラベル 選挙 ラベル 人事 ラベル 選挙 見出し <2007統一地方選 見出し <公立高、特殊学 見出し <95参院選>道 >道議選30日告示 校の人事>教諭 選挙区市町村別 4月8日投開票(2の 1)*48選挙区 構図 投票率(3の2) 鮮明に*道東、道北
  • 13. 調査2: グループ間のネットワーク構造 記事 ID: 2007/12/27/0112 「ブット元首相 暗殺*対テロ戦 米にも痛手 」 をルート記事としたネットワーク 医 療 スポーツ 地 社会保障 方 憲法 予 自 算 治 外 交 災 防 害 災 政 社 治 汚 説 法 職 選 律 年 国際 金 挙 少子化 人 事 犯 経 罪 観 データ 済 光
  • 14. グループ间ネットワークの次数分布 記事ID: 2007/12/27/0112 「ブット元首相 暗殺*対テロ戦 米にも痛手 」 をルート記事としたネットワーク 18 16 14 12 10 次 数 8 6 4 2 0 ラベルグループ
  • 15. まとめ 新聞データベースの特性を生かした新たな解析手法の開発 贬补诲辞辞辫を用いた道新データベースのネットワーク解析 ? ネットワーク構造に関する実験結果 ハブとなるラベルを持つ記事グループの存在 (「選挙」、「国際」、「地方」、「経済」) ? 記事間の関連性の定義 キーワード重複数だけでなく、意味論や 日付も考慮することで より適切なネットワークの生成の可能性