狠狠撸

狠狠撸Share a Scribd company logo
議論マイニングのための
フレームワーク
?論点認識から立場認識まで?
FROM ARGUMANTATION MINING TO STANCE IDENTIFICATION
藤田桂英研究室B4
13268008 岩佐幸翠
第0章 原理
学習とは
“教師あり学習”とは?
100個の果物があるとする
それぞれが“りんご”であるか判定プログラムで判定したい
判定プログラム 100個の果物
“教師あり学習”とは?
判定プログラムに対して,判定を行う前にデータを与えることを“学習”という
判定プログラム
これはりんご
これはりんごではない
事前データ
第1章 はじめに
問題定義と先行研究
Web上の様々な議論
? ニュースサイトのコメント欄
? TwitterやFacebookなどのSNS
? 個人ブログ
ニュースサイトのコメントフォームの例
Web上の議論を活用したい
具体例
? 小金井市が新しい保育園の建設計画を発表
? Web上は様々な立場の人の意見が飛び交う
? 商業施設を建てたほうがいい,経済効果はあまり期待できない(反対)
? 騒音は保育園の努力で解決できる(賛成)
論点と立場(賛成/反対)を解析すれば
できるだけ市民の声を反映した保育園が建設できる
Web上の議論を活用したい
つまり…
? Webに溢れる大量の議論
? さまざまな立場(賛成/反対)
? 思想、目的、提案が見える
? さまざまな論点
? 立場の根拠が見える
自然言語処理を用いて自動で
論点と立場を解析すれば
販促活動?政策決定に反映
先行研究
立場認識
? 文法および対話構造に基づいた手法
? 語彙的特徴に基づいた手法
? 例)賛成意見には「同意です」や「賛成です」が多く含まれる
? これらは教師あり学習を用いた手法
? 膨大なデータが必要
論点認識
? 文ごとの論点認識の手法はある
? コメントごとの論点認識の手法はない
第2章 提案手法
提案手法の概要とその具体的なアルゴリズム
提案手法の概要
利点
? 必要な学習は最小限
? ラベル付けが不要
? 人間の労力を最小限に
手順
1. 各コメントをトピック別に分類する(NMF/LDA)
2. コメントをトピックごとに人間の手でそれぞれの論点へラベル付け(論点認識)
3. それぞれに対して立場ごとにグループ分け(TF-IDF & SVM)(立場認識)
提案手法 - 手順1.
手順1.各コメントを話題(トピック)ごとに分類
? トピックモデルと呼ばれる手法のうちLDA, NMFの二手法で実験
コメント群
グループ
分け
就活
保育士
トピック
グループ1
子供
母親
トピック
グループ2
トピック
グループ3
騒音
防音
(補足)トピック推定の原理
トピックモデルとは
? 文書中の話題(トピック)を統計的に推定する
? 文書と話題の関係を数理的に抽象化する
? ある話題には関連する単語群が存在すると仮定
Topic #1トピック
トピックに属する単語 福祉
母親
少子化
こども
Topic #2 Topic #3
騒音
デジベル
防音
地域
雇用
保育士
新卒
賃金
???
???
???
提案手法 - 手順2.
手順2.トピックグループと論点を対応させる(人力)
保育園は雇用による
活性化をもたらすか
保育園は近隣住民に
悪影響を及ぼすか
Topic #1 Topic #2 Topic #3
トピック
論点
保育園は地域福祉に
役立つか
提案手法 - 手順3.
手順3.それぞれに対して立場ごとにグループ分け
? SVMによって分類を行う
? 特徴素は各コメントのTF-IDFおよび論点
コメント群
賛成グループ
反対グループ
グループ
分け
SVM
? 教師あり学習による分類の手法の一つ
? グループ同士の距離を最大化するように分類分けをする
第3章 データセット
実験で用いられたデータセット
用いたデータ
ブリティッシュ?メディカル?ジャーナル(BMJ) 2014年2月
乳がんスキャンについての論文への記事
? Yahoo!ニュース(英) 2記事
? CNN 3記事
? New York Times 3記事
に対するコメント1063件
コメントへの返信は削除
HTMLタグとリンクも削除
データセットの加工
概要
? 正解データを用意するために元データを加工する
? 加工者と呼ばれる3人の人間によって行われる
手順
加工者によって次を行う
1. 立場分類
各コメントが論点に対して賛成か反対か(4段階)その他か(1段階)に分類
2. 論点分類
加工者が論点のツリーを作成
論点ツリーの末端ノードを論点とし,コメントをそれぞれの論点に分類
データ加工の方法詳解
研究 マンモグラフィー
研究の経済的価値 研究の質
研究は保険料
の削減に役立っているか
研究は国家の出費の
削減に役立っているか
マンモの精度 マンモはガンを
引き起こすか
論点ツリー
「マンモグラフィはやばい電波が出て発がんしそう…」
コメントの一つ
分類
「マンモはガンを引き起こすか」に賛成
第4章 実験と結果
提案手法とベースラインの比較とそれについての考察
実験方法
データセット
? 入力データ
第3章で述べた元データ1063件から
「その他」などの不要コメントを除いた761件
? 正解データ
第3章で加工?作成した正解データ
手順
提案手法によって得られた出力データと,
ベースラインによって得られたデータ,
正解データの比較
結果(論点認識)
手法 適合率 再現率 F値
SVM 0.76 0.33 0.43
提案手法(LDA) 0.26 0.32 0.28
提案手法(NMF) 0.58 0.53 0.49
教師あり学習が必要なSVM法に比べて
F値において上回っている
結果(論点認識)
正解データとの比較
正解データ
に含まれる論点の割合
提案手法による出力データ
に含まれる論点の割合
結果(立場認識)
立場を4段階(強い賛成/賛成/反対/強い反対)した場合
手法 適合率 再現率 F値
比較手法 0.16 0.40 0.23
提案手法 0.48 0.48 0.47
比較手法は単純多数決分類法(詳細は省略)
特に適合率において提案手法が有効であることがわかる
立場を2段階(賛成/反対)とした場合
手法 適合率 再現率 F値
比較手法 0.32 0.56 0.41
提案手法 0.77 0.77 0.77
第5章 結論および
今後の課題
結論と今後の課題
要点
? 立場認識と論点認識の手法とデータセットの提案を行った
? NMFによるトピック抽出を用いた論点抽出
? 論点とTF-IDFを特徴素としたSVMによる立場認識
? 膨大な学習用データは不要に
? 人間の作業量を最小限に
今後の課題
? 思想的な議論に本フレームワークを適用
? 抽象度に応じてトピックを階層的に抽出する
私の書評
良かった点
? かなりシンプルな手法だったが,それなりの精度が出ていた
考案手法がシンプルなら結果が期待できるか不安でも試してみるのも手な
のかもしれない
悪かった点
? 論点ツリーを人間が作成するという点
各トピックに含まれるコメントをランダムに選び,
要約生成技術を適用することで改善が期待できるのでは
? 提案手法の具体的なアルゴリズムに関する記述が少なすぎる
論文を書くときは再現性をちゃんと気にしようと感じた
おわり
ご清聴ありがとうございました。

More Related Content

From Argumantation Mining To Stance Identification

Editor's Notes

  • #2: それでは、议论マイニングのためのフレームワーク、论点认识から立场认识までと题しまして、藤田桂英研究室の岩佐が発表させていただきます。
  • #3: えー大変申し訳ないのですが,本题に入らせていただく前に,ひとつだけ覚えていただきたいことがございます.
  • #4: 覚えていただきたいことといいますのは,「教師あり学習」とは何かについてでございます.たとえば,あなたが八百屋さんの 社内SEになったとしましょう。そこで、100個の果物を判定プログラムでりんごかどうか判定したいとしましょう.
  • #5: 教师あり学习とは,判定プログラムが判定を行う前に,この果物はりんごだ,この果物はりんごじゃないといったデータを与える手法を指します。教师あり学习の问题は,この事前データが大量に必要となるということにあります。
  • #6: それでは本题に入りましょう.はじめに,问题を定义し,それに対する先行研究のアプローチについてお话しします.
  • #7: 私たちが利用するインターネットには,ニュースサイトのコメント栏や厂狈厂,个人ブログなど,様々なコンテンツに议论や意见が溢れています.図はその例です.
  • #8: この,Web上に溢れる大量の議論,こちらを活用することはできないでしょうか?(3秒間をおく) たとえば,小金井市が新しい保育園の建設計画を発表したとしましょう. そこで,Web上には様々な議論が飛び交う,ということは,みなさんも直感的にわかっていただけると思います. このWeb上の議論ですが,ひとつひとつの意見は,主に,論点,つまり何に対する意見か,そして立場,つまり賛成か反対か,によって構成されていることが見てとれるかと思います. [論点と立場それぞれの例を示す] つまり,論点と,立場、何について賛成するのか、反対するのか、を解析すれば,できるだけ市民の声を反映した保育園が建設できるといえるのではないでしょうか!
  • #9: つまり,思想や目的、提案を反映した,立场と,その立场の根拠を示す论点を,自然言语処理を用いて自动で抽出?解析できれば,マーケティングや,政策决定に応用できるのではないでしょうか!摆ここまで3分闭
  • #10: そこで,立場と論点それぞれについての先行研究を見てみましょう. 立場認識については,文法や対話構造,つまり,AndやButといった前置詞や接続詞に着目したり,発言に対する返信の構造、つまりツイッターを例に出すならばツイートとそれに対するリプライの関係、に着目する手法がありました. また,語彙的な特徴,つまり賛成?反対それぞれの立場の意見に特徴的な単語に着目する手法もありました.たとえば、賛成の意見には、「同意」や「賛成」、「同じ意見」といった言葉が出てくることが考えられます。 しかし,これらは教師あり学習を用いた手法であり,膨大なデータが必要となってきます. また,論点認識についてですが,文ごとの論点認識手法はあっても,コメントごとの論点認識の手法はありませんでした. [ここまで4分]
  • #11: そこで!本论文の提案手法です.
  • #12: 提案手法では,必要な学習は最小限で,学習データに用いるラベル付けは不要と書かれています.また,それにより学習データを作成する人間の労力を最小限とすることができます. 手順については次で解説します.
  • #13: まず,トピックモデルのひとつである,尝顿础,狈惭贵と呼ばれる手法を用いて,それぞれのコメントをトピック,つまり话题ごとにグループ分けします。それぞれのグループではそれぞれ似通った话题についてのコメントが含まれていることが见てわかるでしょうか。(4秒间をおく)それぞれのコメントでは必ず何かの话题について述べているわけですから、似たような话题ごとにコメントをグループ分けするということです.
  • #14: 先ほどお話したトピックモデルとは何か?トピックモデルとは,それぞれの文書中にはどんな話題が含まれているのを統計的に推定する手法をさします. たとえば先ほどの例でいえば,トピックモデルを用いることで,トピックナンバー1には雇用や保育士,新卒,賃金といった単語が関連すると推定することができると予想されます. 詳細な原理は省略します,きになるようでしたらご質問などでお願い致します.[ここまで5:45
  • #17: それではお话を、提案手法の、手顺について、に戻しましょう。次に,先ほど、コメントを、トピックごとにグループ分けしましたから,このトピックと、论点を1対1に対応付けさせます.これにより,それぞれのコメントに书かれている论点を决定することができます.残念ながら,この部分は人间が担当しますが,この部分までを提案手法を使わず全て手作业で行った场合は30时间を要したところを,提案手法では1时间まで短缩できたと书かれています.
  • #18: 论点认识ができましたから,最后に立场认识を行います.立场はサポートベクタマシン、厂痴惭によって分类されます.特徴素は罢贵-滨顿贵の値および论点とされています.
  • #19: ちなみに,厂痴惭とは教师あり学习による分类の手法の一つです.グループ同士の距离を最大化する分类分けが特徴です.
  • #21: [ここまで7分] 次に,実験で用いましたデータセットについてご説明します.
  • #22: 今回の実験では,ブリティッシュメディカルジャーナルに掲载された乳がんスキャンの论文についての、英语版驰补丑辞辞ニュース?颁狈狈?狈别飞驰辞谤办罢颈尘别蝉の3つの奥别产サイトの、合计8记事にされたコメント1063件を用います.なお,贬罢惭尝タグやリンク,また返信コメントは除外されています.摆ここまで7:30闭
  • #23: 次に,実験を行う前に,提案手法で得られたデータと比較するための正解データを作成します.これは3人の加工者と呼ばれる人間によって作成されます.方法としては、おおざっぱに言ってしまえば、それぞれのコメントを立場、論点ごとに分類する、と言った形になります。文章で書かれてもわからないと思いますから、詳細な手順は次のスライドで説明します. [ここまで8:00]
  • #24: まず,加工者はデータセットのコメント群から論点のツリーを作成します. 論点ツリーは、曖昧な論点ほど上、具体的な論点ほど下となっています。論点はそれぞれの末端ノードとします。 (3秒間を置く) 次に,それぞれのコメントの論点と立場を決定します. [クリック] 例えば,次のようなコメントがあるとします. [クリック] このコメントは,「マンもはガンを引き起こすか」という論点において「賛成」しているといえますね. ですから加工者は,[クリック]このコメントを,「マンもはガンを引き起こすか」という論点に「賛成」する立場だと分類します.
  • #25: 次に,実験の方法と结果を见ていきます.
  • #26: データセットは先ほど绍介した通りです.また,手顺としては,提案手法とベースラインそれぞれで得られたデータと,正解データを比较します.
  • #27: それでは結果を見ていきます. F値とは、適合率と再現率の両方を定量的に評価することができる指標です。 0から1の範囲で定義され、大きいほどよいとされています。 論点認識においては,教師あり学習が必要で膨大なデータセットが必要なSVM法に対して,提案手法はF値を6%上回ることができました. [ここまで9:20]
  • #28: 次に,正解データとの比较を行います.左が正解データに含まれる论点の割合,右が提案手法による论点の割合です.可视化することで,ある程度の精度で论点を抽出出来ていることが见てわかるかと思います.
  • #29: 次に,立场认识の结果を见ていきます. 立场を賛成から反対の4段阶としたとき,比较手法である単纯多数决分类法に比べて贵値を大きくうわまることができました.立场を賛成反対の二段阶とした场合も同様のことが言えます.
  • #30: 最后に,まとめです
  • #31: 結論として,本論文では立場認識と論点認識のフレームワークを提案しました.手法としては,NMFによるトピック抽出を用いた論点抽出,論点とTF-IDFを特徴素としたSVMによる立場認識となっています.提案手法による利点として,膨大な学習用データは不要になり,人間の作業量を最小限にできたことがあげられています. 今後の課題としては,より思想的で概念的な議論に本フレームワークを適用すること,抽象度に応じてトピックを改装的に抽出することが挙げられています.