狠狠撸

狠狠撸Share a Scribd company logo
梶原智之、山本和英
発表者:塩田健人
u?? どのような問題を解いたか?
平易な語ほど頻度が高く、頻度が高い語ほど
文脈の種類数が多くなるとの仮定
語の難易度と頻度と文脈の種類数の関係
u?? どうやって解いたか?
u?? コーパス中の語、テキスト間の相関係数を計算し
て相関を調査
u?? 難易度
u?? 単語親密度が低い単語ほど難解な語、高い単語
ほど平易な語
u?? 日本語能力試験(JLPT)の出題基準
→1級(難解)から4級(平易)の4段階
u?? 文脈の定義
u?? 対象の語が含まれる文節と係り受け関係にある文
節中の内容語とする
→内容語:名詞、動詞、形容詞、副詞
u?? 新聞記事
u?? 1990年~2004年までの15年分の日経新聞
u?? Wikipedia
u?? 2014年3月時点の全日本語記事の本文
u?? 論文
u?? ANLP-20コーパスとして公開されている自然言語処
理年次大会予稿集のうち、論文PDFの抽出テキスト
記事数	
 単語数	
 異なり単語数	
新聞記事	
 2,479,065	
 703,761,303	
 151,514	
Wikipedia	
 853,134	
 357,761,882	
 158,971	
論文	
 4,082	
 14,787,129	
 37,282
読解支援6 26
u?? 平易な語ほど頻度が高い
→強い相関はない(最大の順位相関係数が0.65)
u?? 頻度が高いほど文脈の種類数が多い
→強い相関がある(最大の順位相関係数0.99)
u?? 平易な語ほど文脈の種類数が多い
→強い相関はない(最大の順位相関関数0.64)
読解支援6 26
読解支援6 26
読解支援6 26
読解支援6 26
読解支援6 26
u?? 平易な 語ほど頻度が高く、頻度が高い語ほど
文脈の種類数も多くなるという仮説
ü?? 頻度が高い語ほど平易な語
ü?? 文脈の種類が多いほど平易な語
ü?? しかし、頻度が低くても平易な語
ü?? 文脈の種類数が少なくても平易な語もある
ü?? 語の難易度と頻度、文脈の種類数の間に強い相関は無い

More Related Content

読解支援6 26