狠狠撸
Submit Search
読解支援 5 19
?
0 likes
?
248 views
K
kentshioda
Follow
読解支援
Read less
Read more
1 of 13
Download now
Download to read offline
More Related Content
読解支援 5 19
1.
頻出語ではなく使用者が多い語が 自然な日本語である 荒牧英治?増川佐知子?宮部真衣?森田瑞樹?保田祥 言語処理学会第19回年次大会発表論文集pp.544 547 発表者:塩田健人 1
2.
概要 ?? どういう問題を解いたのか ? o?
日本語を構成する語の集合は不明確であり、自然な日本語かど うかの明確な区切りが必要な時がある ? 例?「腐女子」「イクメン」「DVD」 ? o? 語の使用統計をもとにして、自然の日本語と不自然な日本語を 選別及び、辞書に載せるべき語かどうかの振り分け ? ?? どうやって解いたのか ? 1.? 岩波国語辞典に収載されている語を?自然な?日本語 2.? 使?用頻度度が?高い語ではなく、使?用者が多い語が?自然な?日本語 3.? ツイートを形態素解析して、出?力力された語の使?用者数が多いも のが辞書に収載されるべき?自然な?日本語とする 2
3.
分析する材料 ?? データ期間 o? 2009/11/03~2010/03/25の143日間 ??
総ツイート数 o? 約2.5億ツイート(253,482,784ツイート) ?? ユーザー数 o? 約10万人(99,964人) ?? ユーザー抽出条件 o? 毎月5ツイート以上投稿していること o? 総ツイート数が5,000以上 ?? 形態素解析にはjuman7.0を使用 o? 解析器が出力した形態素の単位を語とする 3
4.
提案?手法 ?? 解析器が出力した語wを辞書に載せるかどうかの指標 ? o?
freq(w):語wの出現頻度 ? o? Rfreq(w):語wの出現頻度の順位 ? o? user(w):語wの使用者数 ? o? Ruser(w):語wの使用者数の順位 ? ?? ベースライン ? o? 出現頻度が多いものが辞書に収載されるとする ? ?→Rfreq(w)が閾値順以内の語 ? ?? 提案手法 ? o? 使用者数が多いものが辞書に収載されるとする ? ?→Ruser(w)が閾値順以内の語 ? 4
5.
比較するベース ?? 頻度ベース:Rfreq ? Rfreq(w)
?< ?α1 ? ?? 使用者数ベース:Ruser ? Rfreq(w) ?< ?α2 ? ?? 頻度重み付け使用者数ベース:Ruser’ ? -?‐log(freq(w))?user(w) ?< ?α3 ? ?? 使用者数と頻度の比ベース:Ruser/Rfreq ? Ruser(w) ?/ ?Rfreq(w) ?< ?α4 ? ? (パラメータαを0~∞に動かす) ? 5
6.
評価尺度 ?? 出現頻度と使用者数のバランスを考える ? ??
Ruser(w) ?= ?Rfreq(w) ? 語の使用に個人の偏りがないとき ? ? ?? Ruser(w) ?> ?Rfreq(w) ? 限られた使用者のみが複数回使っている語があるとき ? ?? Ruser(w) ?< ?Rfreq(w) ? 使用者に偏りなく使われる語 ? ? ?? 以下の式によって辞書収載を判定することが出来る ?? Ruser(w) ?= ?α?Rfreq(w) ? ?? 重み定数α 6
7.
実験 ?? 対象の語 ? o?
Wikipediaの日本語エントリーの語で、Twitter上から抽出した 2.5億ツイートからさらに無作為に選んだ4,000語 ? ?? このうち2,598語は岩波国語辞典に収載 ? ?? 語の集計 ? o? 語ごとに独立に集計 ? o? 「東京大学」→「東京|大学」「東京」「大学」 ? o? 形態素境界が一致しない「京大」は× 7
8.
結果 8
9.
結果 9
10.
結果 最?大のF値 最?大の適合率率率 F値 Precision
Recall F値 Precision Recall Rfreq 0.804 0.716 0.916 0.062 0.890 0.003 Ruser 0.813 0.734 0.912 0.066 0.950 0.066 Ruser?’ 0.812 0.733 0.911 0.066 0.940 0.034 Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035 10 ?Ruserは安定して高い精度を保っている ? ? ?高い精度が必要な場合はRuser/Rfreq
11.
辞書に収載されておらず、Ruser/Rfreqが低い語 11
12.
まとめ ?? 調査の限界 ? o?
使用者バイアス ? 今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー が多い ? o? 環境バイアス ? キーボード/スマートフォンの入力にはIMEの語が好まれて使われ ている ? ?? 応用可能性 ? o? 特定のコミュニティで使われている語彙から学習することに よって今までより効率的な語彙学習が可能 ? o? 同じような語彙力を持つ使用者の特定も可能 ? 12
13.
まとめ ?? 使用者数順位が安定して高精度(Ruser) ? ??
一部について ? ?使用者数順位(Ruser)/頻度順位(Rfreq)比が高精度 ? ? ?? 使用者数は単語の使用頻度よりも語の辞書収載に ? ?関して重要な要因である ? 13
Download