狠狠撸

頻出語ではなく使用者が多い語が
自然な日本語である
荒牧英治?増川佐知子?宮部真衣?森田瑞樹?保田祥
言語処理学会第19回年次大会発表論文集pp.544 547
発表者：塩田健人
1

概要
?? どういう問題を解いたのか
?
o? 日本語を構成する語の集合は不明確であり、自然な日本語かど
うかの明確な区切りが必要な時がある
?
例?「腐女子」「イクメン」「DVD」
?
o? 語の使用統計をもとにして、自然の日本語と不自然な日本語を
選別及び、辞書に載せるべき語かどうかの振り分け
?
?? どうやって解いたのか
?
1.? 岩波国語辞典に収載されている語を?自然な?日本語
2.? 使?用頻度度が?高い語ではなく、使?用者が多い語が?自然な?日本語
3.? ツイートを形態素解析して、出?力力された語の使?用者数が多いも
のが辞書に収載されるべき?自然な?日本語とする
2

分析する材料
?? データ期間
o? 2009/11/03～2010/03/25の143日間
?? 総ツイート数
o? 約2.5億ツイート（253,482,784ツイート）
?? ユーザー数
o? 約10万人（99,964人）
?? ユーザー抽出条件
o? 毎月5ツイート以上投稿していること
o? 総ツイート数が5,000以上
?? 形態素解析にはjuman7.0を使用
o? 解析器が出力した形態素の単位を語とする
3

提案?手法
?? 解析器が出力した語wを辞書に載せるかどうかの指標
?
o? freq(w)：語wの出現頻度
?
o? Rfreq(w)：語wの出現頻度の順位
?
o? user(w)：語wの使用者数
?
o? Ruser(w)：語wの使用者数の順位
?
?? ベースライン
?
o? 出現頻度が多いものが辞書に収載されるとする
?
?→Rfreq(w)が閾値順以内の語
?
?? 提案手法
?
o? 使用者数が多いものが辞書に収載されるとする
?
?→Ruser(w)が閾値順以内の語
?
4

比較するベース
?? 頻度ベース：Rfreq
?
Rfreq(w)
?<
?α1
?
?? 使用者数ベース：Ruser
?
Rfreq(w)
?<
?α2
?
?? 頻度重み付け使用者数ベース：Ruser’
?
-?‐log(freq(w))?user(w)
?<
?α3
?
?? 使用者数と頻度の比ベース：Ruser/Rfreq
?
Ruser(w)
?/
?Rfreq(w)
?<
?α4
?

?
（パラメータαを０～∞に動かす）
?
5

評価尺度
?? 出現頻度と使用者数のバランスを考える
?
?? Ruser(w)
?=
?Rfreq(w)
?
語の使用に個人の偏りがないとき
?

?
?? Ruser(w)
?>
?Rfreq(w)
?
限られた使用者のみが複数回使っている語があるとき
?
?? Ruser(w)
?<
?Rfreq(w)
?
使用者に偏りなく使われる語
?

?
?? 以下の式によって辞書収載を判定することが出来る
?? Ruser(w)
?=
?α?Rfreq(w)
?
?? 重み定数α
6

実験
?? 対象の語
?
o? Wikipediaの日本語エントリーの語で、Twitter上から抽出した
2.5億ツイートからさらに無作為に選んだ4,000語
?
?? このうち2,598語は岩波国語辞典に収載
?
?? 語の集計
?
o? 語ごとに独立に集計
?
o? 「東京大学」→「東京｜大学」「東京」「大学」
?
o? 形態素境界が一致しない「京大」は×
7

結果
最?大のF値最?大の適合率率率
F値 Precision Recall F値 Precision Recall
Rfreq 0.804 0.716 0.916 0.062 0.890 0.003
Ruser 0.813 0.734 0.912 0.066 0.950 0.066
Ruser?’ 0.812 0.733 0.911 0.066 0.940 0.034
Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035
10
?Ruserは安定して高い精度を保っている
?

?
?高い精度が必要な場合はRuser/Rfreq

辞書に収載されておらず、Ruser/Rfreqが低い語
11

まとめ
?? 調査の限界
?
o? 使用者バイアス
?
今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー
が多い
?
o? 環境バイアス
?
キーボード/スマートフォンの入力にはIMEの語が好まれて使われ
ている
?
?? 応用可能性
?
o? 特定のコミュニティで使われている語彙から学習することに
よって今までより効率的な語彙学習が可能
?
o? 同じような語彙力を持つ使用者の特定も可能
?
12

まとめ
?? 使用者数順位が安定して高精度（Ruser）
?
?? 一部について
?
?使用者数順位(Ruser)／頻度順位(Rfreq)比が高精度
?

?
?? 使用者数は単語の使用頻度よりも語の辞書収載に
?
?関して重要な要因である
?
13

狠狠撸

読解支援 5 19

Recommended

More Related Content

Viewers also liked (13)

Similar to 読解支援 5 19 (11)

読解支援 5 19