狠狠撸

狠狠撸Share a Scribd company logo
CRFを用いた
メディア情報の抽出とLinked Data化
~ ソーシャルメディアとマスメディアの比較事例 ~
                          JAWS 2012 発表資料

      <WEB?ネットワーク?ソーシャルメディア>
                 2012/10/26
             10:40~12:30 会場(A)



電気通信大学 大学院情報システム学研究科
越川兼地, 川村隆浩, 中川博之, 田原康之, 大須賀昭彦
UID:   29 CRFを用いたメディア情報の抽出とLinked Data化
     ~ ソーシャルメディアとマスメディアの比較事例 ~
発表者: 越川 兼地   所属: 電気通信大学 大須賀?田原研究室

                       マス/ソーシャルメディア
                      報じられる情報の差に着目
                                               J
                                換意ス 異    メ
                                               A
                                し   ト種
                                , 味情メ    デ     W
                ツイッターから構築した
                事象ネットワーク(RDF)
                                構
                                築ネかィ
                                    報デ   ィ     S
較に 機
事関オ
           日応
           配用
                を現見
                提す
                        事可
                         視
                                し ッ らア
                                た ト 事に
                                         ア
                                         比    新
                                    象投
                                              聞
                                ネ
例す         備事   案るえ     象化      ッ ワ を稿   較
をるス        さ例   すエ る    情す      トー さ
紹話プ        れと   るー       る      ワ   表    の
                                ーク た現れ   研
介題         たし   . ジ化    報こ
すの レ                            ク に すテ         発表日
           輸て     ェ を    と
る比イ        送先
                  ン
                  ト 実
                        ので      を 変 るキ   究   10月26日 金
.                          ,
セッション情報: <WEB?ネットワーク?ソーシャルメディア> 10:50~12: 40
事象情报の见える化エージェント
      デモ
ある事象(出来事)に関する本研究で構築した
事象ネットワークをお見せします.
<ネットワークの説明>
            例         山手線
? ノード:
                            状態
 – 概念 (キーワード)         時間

                9時頃        運転見合わせ
? エッジ:
 – ノード間の関係を明示的に表す.
         後述
                                    3
デモ(動画: 事象ネットワークの可視化)




       デモ動画




                   4
本研究の提案エージェント/貢献

? 提案するエージェント:
 「メディアの情報から
 事象情報(出来事)を見える化する」

? 貢献
 「事象把握の容易化につながる」
 – 各メディアでの主張?論点がわかり,
   多角的な視点での事象理解に貢献.


                       5
背景
ソーシャルメディアの爆発的普及.

マス?ソーシャルメディアで報道?投稿される
情報の違いが顕在化.
 => 「話題に上る」,「問題視される」など
 世間を賑わしている.
 e.g. 偏向報道, 情報操作

我々は,メディア間の情報差分が重要な情報に
つながると考えている.
                     6
問題点
多くの事象(出来事)について,
マス?ソーシャルメディアから情報収集/整理
し偏りのない情報理解を確立するのは困難.



目的
各メディア情報から事象情報の見える化
を行うエージェントを提案する.

                        7
目次
     デモ
     背景


     提案システム
     応用事例


     まとめ
     今後の課題
              8
システムの入出力




           9
提案システム概要
提案システム概要




           5. CRFを用いた
             事象の抽出
5. CRFを用いた事象属性の推定

ソリューション:                                                                                       [Lafferty 2001]

  条件付き確率場(CRF: Conditional Random Field)
  を用いて形態素毎に事情属性を推測する.


                       事象情報を表現するために定義した属性
                            (次スライドで説明)


[Lafferty 2001] Lafferty, J., McCallum, A., and Pereira, F.: Conditional random fields: Probabilistic models for
segmenting and labeling sequence data, in Proc. ICML2001 (2001)


                                                                                                                   12
事象の表现方法
       事象情報を表現するために,[Nguyen 12]の
       行動属性を拡張し9つの事象属性を定義した.
                         事象属性                                          意味
                         Subject                                       主題
                         Action                                        動作
                         What                                          動作の目的語
                         Target (new)                                  動作の対象者
                         Status (new)                                  主題の状態
                         Where                                         事象の起こる場所
                         When                                          事象の起こる時刻及び場面
                         Because of (new)                              事象の因果関係
                         According (new)                               情報の発信元
[Nguyen 12]
      The-Minh Nguyen, Takahiro Kawamura, Yasuyuki Tahara, and Akihiko Ohsuga: Self-Supervised Capturing of Users’ Activities from
      Weblogs. International Journal of Intelligent Information and Database Systems,Vol.6, No.1, pp.61-76, InderScience Publishers, 2012
                                                                                                                                       13
事象属性と意味ネットワークを用いた
事象の表现方法– 例1
文A:
 悪天候のため操縦が難しい.


   因果関係
                 状態



          主題


                      14
5. CRFを用いた事象属性の推定




オンライン処理   オフライン処理



             処理フロー 15
5. CRFを用いた事象属性の推定




オンライン処理              オフライン処理
5-1 データの分割(訓練/テスト)



                        処理フロー 16
5. CRFを用いた事象属性の推定




オンライン処理          オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成



                      処理フロー 17
前工程までの処理

Dataset


 Data (一部)
  オスプレイ       形態素解析
  軍用機シリーズが
  ブックオフにあったので
  10冊買ってきた…


                      18
5. CRFを用いた事象属性の推定:
  訓練データの作成方法


          人手で形態素毎に
          事象属性ラベルの
          付与を行う.




                     19
5. CRFを用いた事象属性の推定:
  訓練データの作成方法


          人手で形態素毎に
          事象属性ラベルの
          付与を行う.



           B:   Begin 表現の始まり
           I:   Inside表現の途中
           O:   Outside表現以外
                               20
5. CRFを用いた事象属性の推定




オンライン処理           オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成



                       処理フロー 21
5. CRFを用いた事象属性の推定




オンライン処理           オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成
                   5-3 学習モデルの構築


                       処理フロー 22
5. CRFを用いた事象属性の推定




オンライン処理           オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成
5-4 学習モデルを用いて      5-3 学習モデルの構築
   事象属性を推測
                       処理フロー 23
② 事象属性を推定する:
          4.事象ラベルの推測精度 1/2
   評価実験概要:
   正解データを用意し,5-交差検定を行った.
   精度指標(Precision/Recall/F値)は各回(5回)の平均
   値により算出した.(20%をテストデータとした.)

   正解データの概要:
          ラベル 文の Subjec                                          Because_ Accordin
 メディア                   Action What Target Status Where   When
           数   数   t                                                of       g

Twitter   2,482 170 274 307 262 10 160 46                   75        16      39
朝日新聞
デジタル      1,228 55      93 188 131 28 29 40                 44        17        4

                                                                               24
② 事象属性を推定する:
          4.事象ラベルの推測精度 2/2
結果:
  メディア       指標       Subject   Action   What   Target   Status   Where   When   Because_of   According    平均


Twitter   Presicion   64.14% 74.79% 50.17%        -      68.71% 82.48% 74.20%        -           80.00%   70.64%
          Recall      59.24% 74.32% 39.76%        -      33.16% 46.45% 45.76%        -           38.48%   48.17%
          F-
          measure
                      61.10% 74.35% 43.87%        -      44.60% 55.60% 54.51%        -           47.67%   54.53%
朝日新聞
デジタル      Presicion   70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81%               -           -        74.43%
          Recall      48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44%               -           -        61.07%
          F-
          measure
                      57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81%               -           -        64.98%



              Presicionはそこそこの精度.

                                                                                                             25
② 事象属性を推定する:
          4.事象ラベルの推測精度 2/2
結果:
  メディア       指標       Subject   Action   What   Target   Status   Where   When   Because_of   According    平均


Twitter   Presicion   64.14% 74.79% 50.17%        -      68.71% 82.48% 74.20%        -           80.00%   70.64%
          Recall      59.24% 74.32% 39.76%        -      33.16% 46.45% 45.76%        -           38.48%   48.17%
          F-
          measure
                      61.10% 74.35% 43.87%        -      44.60% 55.60% 54.51%        -           47.67%   54.53%
朝日新聞
デジタル      Presicion   70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81%               -           -        74.43%
          Recall      48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44%               -           -        61.07%
          F-
          measure
                      57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81%               -           -        64.98%

Twitterデータセット側の再現率の低さが目立つ.
   要因: ソーシャルメディア側の表現の崩れ,表現自体の多
   さなどのメディア独自の特性から学習データの不足がその
   一因と考えられる.
                                                                                                             26
5. CRFを用いた事象属性の推定




オンライン処理           オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成
5-4 学習モデルを用いて      5-3 学習モデルの構築
    事象属性を推測

                       処理フロー 27
5. CRFを用いた事象属性の推定

               [{ “When”: “10月から”,
                  “Action”: “本格運用される”,
                  “Subject”: “オスプレイ” },
                {…},]



オンライン処理             オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成
5-4 学習モデルを用いて      5-3 学習モデルの構築
    事象属性を推測
5-5 事象の抽出
   (using ヒューリスティックルール)    処理フロー 28
提案システム概要




                     [{ “When”: “10月から”,
  言語                    “Action”: “本格運用される”,
  ライブラリを                “Subject”: “オスプレイ” },
  用いて変換               {…},]
  (Python: rdflib)
なぜLinked Data形式で出力?
① 分析面での利点
 概念間の関係性が明示されたネットワークを表
 現できる.        太  2   二
                   郎     何関係?   郎
                  何関係?   1 花
② 供給のしやすさ        重みつき有向グラフ 子
 本システムで得た構造化された事象情報の利用
 機会を高めるために,将来性を考慮してLinked
 Data形式で出力することを選んだ.
 いずれは Linked Open Data (LOD)に。
                                    30
なぜLinked Data形式で出力?
① 分析面での利点
 概念間の関係性が明示されたネットワークを表
 現できる.        太  2
                恋人   二
                     二
              太
                   郎
                   郎   何関係?   郎
                              郎

                     友人
                  何関係? 1   花
                           花
② 供給のしやすさ                  子
                 重みつき有向グラフ 子
                  RDF
 本システムで得た構造化された事象情報の利用
 機会を高めるために,将来性を考慮してLinked
 Data形式で出力することを選んだ.
 いずれは Linked Open Data (LOD)に。
                                  31
目次
     デモ
     背景


     提案システム
     応用事例


     まとめ
     今後の課題
              32
メディア比較事例:
 話題: 「オスプレイ」

オスプレイに関する比較事例を紹介します.




   1月    4月
              7月       10月
応用事例: データセットについて
対象期間: 2012 4/01 ~ 2012 8/16
フィルタリングキーワード: 「オスプレイ」
フィルタリング後のデータセット情報:
             フィルタリングを                 1ツイートあたり
     メディア                 通過率 [%]                   総文字数
            通過したツイート数                   の文字数
  Twitter         3,084     0.0255%            76    234,168

                運営元                   1記事あたり
     ニュースメディア             記事数                       総文字数
                 媒体                   の平均文字数
  MSN 産経ニュース    新聞社          231            375      86,553
  朝日新聞デジタル      新聞社          116            358      41,559
  日テレ NEWS24    TV局          110             96      10,534
  FNN           TV局           78            503      39,235
                                                         34
ネットワーク可視化の工夫点
ノード?エッジの大小:
 => 頻度情報を表現


ノードの色:
 => メディア毎の ソーシャル                                                         マス
   出現割合を表現
                                                 共通の話題

エッジの色: => 関係の種類を識別
        subject            what           when            status     according

                                                               because
                  action          where          target
                                                                  of

※ 使用した可視化ライブラリ: Gephi 0.8.1 beta                                           35
ネットワークの可视化例




              36
ネットワークを通しての考察
1.   話題の多様性
2.   少数意見に関して (略)
3.   2種のオスプレイの存在
4.   偏在性に関して (future work)




                             37
ネットワークを通しての考察
1.   話題の多様性
2.   少数意見に関して (略)
3.   2種のオスプレイの存在
4.   偏在性に関して (future work)




                             38
考察例1: 「話題の多様性」
                                ノード数
Twitter × 産経ニュース
                                        Twitter


                        ノード数:   4218
                          産経ニュース(新聞)


                        ノード数:   2134

                                       FNN(TV)
ソーシャル              マス
                        ノード数:   917
        共通の話題                                 39
ネットワークを通しての考察
1.   話題の多様性
2.   少数意見に関して
3.   2種のオスプレイの存在
4.   偏在性に関して (future work)




                             40
考察例3: 「2種のオスプレイの存在」
          ソーシャル              マス

                  共通の話題




        日本に配備された機体: MV-22オスプレイ

ソーシャルメディア側のネットワークには
   「MV-22オスプレイ」, 「CV-22オスプレイ」
といったオスプレイの型番を示す関係が表現されていた. 41
考察例3: 「2種のオスプレイの存在」




「MV-22オスプレイ」ノードに着目:
=>「MV-22」 物資輸送用.「CV-22」の用途は?
                               42
考察例3: 「2種のオスプレイの存在」




「事故率」ノードに着目
                  43
「オスプレイの事故率」に着目

考察例3:
「2種のオスプレイ
  の存在」
 型番と事故率の関係が反映された(ソーシャル)
「1.93」に着目         「13.47」に着目




                          44
整理: MV-22 / CV-22
オスプレイの型番と事故率の関係
  型番         用途       事故率
 MV-22      輸送用        1.93
 (日本配備)
米海兵隊所属        -        2.45
航空機平均
 CV-22    特殊作戦用(空軍)   13.47

日本に配備される(た)機種 「MV-22」
の事故率は低い.
                              45
考察例3: 「2種のオスプレイの存在」
まとめ
マスメディアにおいて報道されてなかったこと:
  ? 異なる機種の存在
  ? 型番と事故率の関係
  ? 日本に配備される機体の事故率が低いという事実

本ネットワークを通して,
2種のオスプレイの存在及び事故率との関係が確認でき,
マスメディア側の偏向報道の疑いにたどり着くことができた.

偏向報道の疑い:
「故意に型番と事故率の情報を伏せ,
 反対ムードを換気するかのような報道姿勢」

                             46
ネットワークを通しての考察
1.   話題の多様性
2.   少数意見に関して
3.   2種のオスプレイの存在
4.   偏在性に関して (future work)




                             47
考察例4: 偏在性に関して (future work)
? ソーシャルメディアから得られる偏在性の
  差に着目: (地域間での意見/世論の差)
   ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
     5件と少なく実現できなかった.



               例
                   「関東地域」?「沖縄地域」か
                   ら得た事象ネットワークの
                   比較(地域間での比較)



                                    48
考察例4: 偏在性に関して (future work)
          反対 what        関心ない
       関
? ソーシャルメディアから得られる偏在性の what
       東
  差に着目: (地域間での意見/世論の差)
               オスプレイ配備
       地
   ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
       域
     5件と少なく実現できなかった.
                    what

           賛成
                例   Because of
                             かっこいい
                    「関東地域」?「沖縄地域」か
                    ら得た事象ネットワークの
                    比較(地域間での比較)



                                 49
考察例4: 偏在性に関して (future work)    沖
          反対 what
     反対         宜野湾市 関心ない縄
       関
? ソーシャルメディアから得られる偏在性の  what
  差に着目:東(地域間での意見/世論の差) 地
           what
       地        オスプレイ配備        域
   ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
       域 オスプレイ配備
     5件と少なく実現できなかった.
                  what      静か
        what
               賛成   Because of
                例 Because of かっこいい
                    「関東地域」?「沖縄地域」か
       賛成                   what
                     保護
                    ら得た事象ネットワークの
          Because of比較(地域間での比較)
                          尖閣諸島

                                 50
目次
     デモ
     背景


     提案システム
     応用事例


     まとめ
     今後の課題
              51
まとめ
◎本エージェントのできる(た)こと
 ○ 事象情報の見える化ができる
 ○ 異種メディアのネットワーク比較ができる.
 ○ 比較事例において,いくつかの有用な知見にたどり着
 くことができた.

?本エージェントのできないこと
 × 知識(発見)獲得はユーザが目視で行う必要がある.
 × ネットワークの重要箇所の特定ができない.
 × デマなどの誤情報がネットワークに反映されてしまう
   危険がある.

                              52
今後の課題
<注力したい課題>
?知見獲得の期待できる可視化ツールの開発
 – 重要箇所の推定
  ?ネットワーク指標 (次数?近接?媒介中心性など…)
  ?頻度情報 (tf-idf)
 – 効果的な可視化の実現

? 同じ概念をまとめる(シソーラスなどを使う)
? 抽出精度の改善
? ラベル付けコストの改善
 –半教師あり学習の導入など
                               53
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
ネットワークを通しての考察
1.   話題の多様性
2.   少数意見に関して
3.   2種のオスプレイの存在
4.   偏在性に関して (future work)




                             55
考察例2: 少数意見に関して




ソーシャルメディアでは,マスメディアには皆無だった情報
「オスプレイ賛成派」 の意見がネットワークに反映された.
      (少数派意見へのアクセスが容易)
                           56

More Related Content

[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~