狠狠撸

狠狠撸Share a Scribd company logo
2ちゃんねるを対象とした
  悪口表現の抽出

  長岡技術科学大学
 石坂達也 山本和英
             1
背景
Web上には他者を誹謗中傷する書き込みが存在
 最悪の場合, 自殺のきっかけとなる

悪口書き込みはより厳重に管理されるべき

          堅実な方法として…



 辞書を使用したフィルタリング
                      2
目的

 悪口表現辞書の構築
     悪口表現の抽出が必須

今回
     悪口表現抽出の手法を検討


                    3
悪口表現の定義

他の情報を必要としない侮辱や誹謗中傷し
ている単語,句

(例)
 ?あの政治家死ね
?奴らはバカな暇人野郎


                      4
悪口表現の定義

他の情報を必要としない侮辱や誹謗中傷し
ている単語,句
            皮肉は対象外
(例)
 ?あの政治家死ね
?奴らはバカな暇人野郎


                      5
悪口表現の定義

他の情報を必要としない侮辱や誹謗中傷し
ている単語,句

(例)         「バカ」は悪口ではない場合がある
             (例)バカうまい
 ?あの政治家死ね
?奴らはバカな暇人野郎


                               6
なぜ 「2ちゃんねる」なのか

2ちゃんねるは多くの人が利用している
さらに, 悪口書き込みが多い



仮説
  Web全体と2ちゃんねるでは
 悪口表現の種類数 に大きな差はない

                     7
問題点 と 基本方針

2ちゃんねるを対象にすることで生じる問題点
 形態素解析器の解析ミス(単語の区切り、品詞情報)
 文の区切りが句点とは限らない
 造語, 隠語が多い
基本方針
 品詞情報を無視
 単語の過分割にも対応可能


                            8
手法の流れ

1.   悪口表現種辞書の構築
2.   悪口文の収集
3.   悪口n-gram モデルの作成
4.   悪口表現抽出


                       9
悪口表現種辞書の構築

人手で2ちゃんねるから悪口表現を抽出
 103件

(例)
   みんなまとめて逝け
   うざい
   キモイ
   ヲタは地獄に落ちろ
                     10
悪口文の収集

 種辞書の登録表現を含む文(悪口文)を収集
  毎日 約2000スレッドを解析
  約20万文を収集できた
(例)
  つか,官僚死ねや
  泥棒ゴミクズ団体はさっさと吊ってこい!
  こんなんでイチイチ騒ぐなボケカス。

                        11
悪口n-gram モデルの作成 1/2

悪口文と非悪口文からモデルを作成
 悪口文を約20万文, 非悪口文を約50万文
 単語n-gram
 1~5-gram
 前向きと後ろ向きn-gramの2パターン
 SRILMを使用
悪口表現を持つn-gramを抽出

                         12
悪口n-gram モデルの作成 2/2

- 前処理 -
   悪口表現は1語に合成、汎化
 (例) 男 って バカ な 暇人 野郎 ばっか
     男 って <悪口> ばっか

  単語は原形にして扱う



                           13
悪口n-gram モデルの例

  0.743      は 底抜け に <悪口>

n-gram 確率   悪口表現の直前に連接する単語列
この場合n=4         (左連接属性)


  0.67      <悪口> は さっさと 日本 から

n-gram 確率   悪口表現の直後に連接する単語列
この場合n=5         (右連接属性)
                                14
悪口n-gram モデルの例

  0.743      は 底抜け に <悪口>

n-gram 確率   悪口表現の直前に連接する単語列
                    この単語列があった時に
この場合n=4         (左連接属性)
                    右側を抽出


  0.67      <悪口> は さっさと 日本 から

n-gram 確率 悪口表現の直後に連接する単語列
   この単語列があった時に
  左側を抽出
この場合n=5           (右連接属性)
                                  15
悪口表現獲得までの例
入力文
 マスゴミのクズどもって,何でこうなる事が…

形態素解析後
 マス ゴミ の クズ どもる て ,何 で こう なる
 事が…
 適用されるn-gram
      <悪口> どもる て ,
 抽出される悪口表現
      マスゴミのクズ
                               16
評価実験

評価セット
 悪口文378文, 非悪口文382文
評価方法
 抽出された文字列を人手で悪口表現か評価

実験条件
 n-gram確率を閾値

                       17
実験结果(适合率)




            18
実験结果(适合率)


  閾値が高い場合は高確率で
  悪口表現抽出が可能




                 19
実験结果(适合率)


  閾値が高い場合は高確率で
  悪口表現抽出が可能


 しかし、3件
 閾値を下げても再現率は最高で0.3


                     20
考察:適合率と再現率

悪口表現のみに連接しやすい単語列は少ない
(定型的に存在するわけではない)



より悪口表現の特徴に適した指標も必要




                     21
予備実験

新しい悪口表現の獲得数

辞書の拡張のためには新しい悪口表現の
獲得が必要

 今回の手法でいくつ獲得できているか




                     22
実験結果 (獲得数)




             23
実験結果 (獲得数)



    閾値が低い時に
    新しい悪口表現の獲得可能




                   24
獲得した悪口表現

キモオタロリコン
消えてしまえ,馬鹿
デブ婆ァ
スタイル悪い
カス芸人
馬鹿男女


            25
考察:新しい悪口表現の獲得

閾値が低い場合に, 新しい悪口表現の獲得
 閾値が低い場合は非悪口表現も多く獲得


 同じ単語を使用する悪口表現を多く獲得
(例) 糞○○ 糞ガキ, 糞ゲー

同じ単語を使用する造語の獲得には有効

                       26
まとめ

n-gram確率で悪口表現を抽出する手法を検討


閾値が高い場合に高確率で抽出可能
種辞書にない表現も獲得可能




                          27
ご清聴有难うございました




               28
実験结果(再现率)

More Related Content

2ちゃんねるを対象とした悪口表现の抽出