狠狠撸

狠狠撸Share a Scribd company logo
頻出語ではなく使用者が多い語が
自然な日本語である
荒牧英治?増川佐知子?宮部真衣?森田瑞樹?保田祥
言語処理学会第19回年次大会発表論文集pp.544 547
発表者:塩田健人
1
概要
?? どういう問題を解いたのか	
 ?
o? 日本語を構成する語の集合は不明確であり、自然な日本語かど
うかの明確な区切りが必要な時がある	
 ?
例?「腐女子」「イクメン」「DVD」	
 ?
o? 語の使用統計をもとにして、自然の日本語と不自然な日本語を
選別及び、辞書に載せるべき語かどうかの振り分け	
 ?
?? どうやって解いたのか	
 ?
1.? 岩波国語辞典に収載されている語を?自然な?日本語
2.? 使?用頻度度が?高い語ではなく、使?用者が多い語が?自然な?日本語
3.? ツイートを形態素解析して、出?力力された語の使?用者数が多いも
のが辞書に収載されるべき?自然な?日本語とする
2
分析する材料
?? データ期間
o? 2009/11/03~2010/03/25の143日間
?? 総ツイート数
o? 約2.5億ツイート(253,482,784ツイート)
?? ユーザー数
o? 約10万人(99,964人)
?? ユーザー抽出条件
o? 毎月5ツイート以上投稿していること
o? 総ツイート数が5,000以上
?? 形態素解析にはjuman7.0を使用
o? 解析器が出力した形態素の単位を語とする
3
提案?手法
?? 解析器が出力した語wを辞書に載せるかどうかの指標	
 ?
o? freq(w):語wの出現頻度	
 ?
o? Rfreq(w):語wの出現頻度の順位	
 ?
o? user(w):語wの使用者数	
 ?
o? Ruser(w):語wの使用者数の順位	
 ?
?? ベースライン	
 ?
o? 出現頻度が多いものが辞書に収載されるとする	
 ?
?→Rfreq(w)が閾値順以内の語	
 ?
?? 提案手法	
 ?
o? 使用者数が多いものが辞書に収載されるとする	
 ?
?→Ruser(w)が閾値順以内の語	
 ?
4
比較するベース
?? 頻度ベース:Rfreq	
 ?
Rfreq(w)	
 ?<	
 ?α1	
 ?
?? 使用者数ベース:Ruser	
 ?
Rfreq(w)	
 ?<	
 ?α2	
 ?
?? 頻度重み付け使用者数ベース:Ruser’	
 ?
-?‐log(freq(w))?user(w)	
 ?<	
 ?α3	
 ?
?? 使用者数と頻度の比ベース:Ruser/Rfreq	
 ?
Ruser(w)	
 ?/	
 ?Rfreq(w)	
 ?<	
 ?α4	
 ?
	
 ?
(パラメータαを0~∞に動かす)	
 ?
5
評価尺度
?? 出現頻度と使用者数のバランスを考える	
 ?
?? Ruser(w)	
 ?=	
 ?Rfreq(w)	
 ?
語の使用に個人の偏りがないとき	
 ?
	
 ?
?? Ruser(w)	
 ?>	
 ?Rfreq(w)	
 ?
限られた使用者のみが複数回使っている語があるとき	
 ?
?? Ruser(w)	
 ?<	
 ?Rfreq(w)	
 ?
使用者に偏りなく使われる語	
 ?
	
 ?
?? 以下の式によって辞書収載を判定することが出来る
?? Ruser(w)	
 ?=	
 ?α?Rfreq(w)	
 ?
?? 重み定数α
6
実験
?? 対象の語	
 ?
o? Wikipediaの日本語エントリーの語で、Twitter上から抽出した
2.5億ツイートからさらに無作為に選んだ4,000語	
 ?
?? このうち2,598語は岩波国語辞典に収載	
 ?
?? 語の集計	
 ?
o? 語ごとに独立に集計	
 ?
o? 「東京大学」→「東京|大学」「東京」「大学」	
 ?
o? 形態素境界が一致しない「京大」は×
7
結果
8
結果
9
結果
最?大のF値 最?大の適合率率率
F値 Precision Recall F値 Precision Recall
Rfreq 0.804 0.716 0.916 0.062 0.890 0.003
Ruser 0.813 0.734 0.912 0.066 0.950 0.066
Ruser?’ 0.812 0.733 0.911 0.066 0.940 0.034
Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035
10
?Ruserは安定して高い精度を保っている	
 ?
	
 ?
?高い精度が必要な場合はRuser/Rfreq
辞書に収載されておらず、Ruser/Rfreqが低い語
11
まとめ
?? 調査の限界	
 ?
o? 使用者バイアス	
 ?
今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー
が多い	
 ?
o? 環境バイアス	
 ?
キーボード/スマートフォンの入力にはIMEの語が好まれて使われ
ている	
 ?
?? 応用可能性	
 ?
o? 特定のコミュニティで使われている語彙から学習することに
よって今までより効率的な語彙学習が可能	
 ?
o? 同じような語彙力を持つ使用者の特定も可能	
 ?
12
まとめ
?? 使用者数順位が安定して高精度(Ruser)	
 ?
?? 一部について	
 ?
?使用者数順位(Ruser)/頻度順位(Rfreq)比が高精度	
 ?
	
 ?
?? 使用者数は単語の使用頻度よりも語の辞書収載に	
 ?
?関して重要な要因である	
 ?
13

More Related Content

読解支援 5 19

  • 2. 概要 ?? どういう問題を解いたのか ? o? 日本語を構成する語の集合は不明確であり、自然な日本語かど うかの明確な区切りが必要な時がある ? 例?「腐女子」「イクメン」「DVD」 ? o? 語の使用統計をもとにして、自然の日本語と不自然な日本語を 選別及び、辞書に載せるべき語かどうかの振り分け ? ?? どうやって解いたのか ? 1.? 岩波国語辞典に収載されている語を?自然な?日本語 2.? 使?用頻度度が?高い語ではなく、使?用者が多い語が?自然な?日本語 3.? ツイートを形態素解析して、出?力力された語の使?用者数が多いも のが辞書に収載されるべき?自然な?日本語とする 2
  • 3. 分析する材料 ?? データ期間 o? 2009/11/03~2010/03/25の143日間 ?? 総ツイート数 o? 約2.5億ツイート(253,482,784ツイート) ?? ユーザー数 o? 約10万人(99,964人) ?? ユーザー抽出条件 o? 毎月5ツイート以上投稿していること o? 総ツイート数が5,000以上 ?? 形態素解析にはjuman7.0を使用 o? 解析器が出力した形態素の単位を語とする 3
  • 4. 提案?手法 ?? 解析器が出力した語wを辞書に載せるかどうかの指標 ? o? freq(w):語wの出現頻度 ? o? Rfreq(w):語wの出現頻度の順位 ? o? user(w):語wの使用者数 ? o? Ruser(w):語wの使用者数の順位 ? ?? ベースライン ? o? 出現頻度が多いものが辞書に収載されるとする ? ?→Rfreq(w)が閾値順以内の語 ? ?? 提案手法 ? o? 使用者数が多いものが辞書に収載されるとする ? ?→Ruser(w)が閾値順以内の語 ? 4
  • 5. 比較するベース ?? 頻度ベース:Rfreq ? Rfreq(w) ?< ?α1 ? ?? 使用者数ベース:Ruser ? Rfreq(w) ?< ?α2 ? ?? 頻度重み付け使用者数ベース:Ruser’ ? -?‐log(freq(w))?user(w) ?< ?α3 ? ?? 使用者数と頻度の比ベース:Ruser/Rfreq ? Ruser(w) ?/ ?Rfreq(w) ?< ?α4 ? ? (パラメータαを0~∞に動かす) ? 5
  • 6. 評価尺度 ?? 出現頻度と使用者数のバランスを考える ? ?? Ruser(w) ?= ?Rfreq(w) ? 語の使用に個人の偏りがないとき ? ? ?? Ruser(w) ?> ?Rfreq(w) ? 限られた使用者のみが複数回使っている語があるとき ? ?? Ruser(w) ?< ?Rfreq(w) ? 使用者に偏りなく使われる語 ? ? ?? 以下の式によって辞書収載を判定することが出来る ?? Ruser(w) ?= ?α?Rfreq(w) ? ?? 重み定数α 6
  • 7. 実験 ?? 対象の語 ? o? Wikipediaの日本語エントリーの語で、Twitter上から抽出した 2.5億ツイートからさらに無作為に選んだ4,000語 ? ?? このうち2,598語は岩波国語辞典に収載 ? ?? 語の集計 ? o? 語ごとに独立に集計 ? o? 「東京大学」→「東京|大学」「東京」「大学」 ? o? 形態素境界が一致しない「京大」は× 7
  • 10. 結果 最?大のF値 最?大の適合率率率 F値 Precision Recall F値 Precision Recall Rfreq 0.804 0.716 0.916 0.062 0.890 0.003 Ruser 0.813 0.734 0.912 0.066 0.950 0.066 Ruser?’ 0.812 0.733 0.911 0.066 0.940 0.034 Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035 10 ?Ruserは安定して高い精度を保っている ? ? ?高い精度が必要な場合はRuser/Rfreq
  • 12. まとめ ?? 調査の限界 ? o? 使用者バイアス ? 今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー が多い ? o? 環境バイアス ? キーボード/スマートフォンの入力にはIMEの語が好まれて使われ ている ? ?? 応用可能性 ? o? 特定のコミュニティで使われている語彙から学習することに よって今までより効率的な語彙学習が可能 ? o? 同じような語彙力を持つ使用者の特定も可能 ? 12
  • 13. まとめ ?? 使用者数順位が安定して高精度(Ruser) ? ?? 一部について ? ?使用者数順位(Ruser)/頻度順位(Rfreq)比が高精度 ? ? ?? 使用者数は単語の使用頻度よりも語の辞書収載に ? ?関して重要な要因である ? 13