狠狠撸

u?? どんな問題を解いた？
u?? 理解されている語彙数の調査はされてきたが、使用されて
いる語彙数の調査は行われていなかった。
→今までは時間とコストがかかりすぎる手法しかなかった
被験者が発する単語を24時間ずっと録音したり、速記したりした
3人しか調査できてない…
→バイアスがかかる
「調査している」という環境が被験者の平常時とは異なるため、調
査時の発話内容は平常時と異なってしまう
u?? どうやって解いた？
u?? Twitterの発言を利用
u?? 10万人の対象者が実際に使用した語彙を調査

調査方向
網羅性
調査間隔
調査期間
SLS 前向き
6,000人
（現在まで26人継続）
7年間隔
49年?
岡崎敬語調査
前向き
300?400人
（現在まで20人継続)
20年?36年間隔
55年?
鶴岡調査
前向き
500人
（現在まで53人継続）
うち24時間調査は3人
20年間隔
50年?
本研究
後ろ向き
100,000人
1日間隔
5ヶ月
前向き：観察対象を定期的に調査する方法
後ろ向き：過去のデータを使用し、調査する方法
口語体の書き言葉をみなせるが、実際の発話とは異なる
短期間であることは言語変化の観察期間には不十分
本研究の場合、Twitterが潰れたら調査できなくなる

u?? 調査対象
u?? データ期間： 2009/11/3 ~ 2010/3/25 （125日間）
u?? ユーザー数：約10万人
u?? ユーザー抽出条件
u?? 毎月5ツイート以上していること
u?? 総発言数が5,000件以上
u?? 最初の100ツイート中に「の」が含まれていること
→非日本語使用者を除くため
「線」、「曲」などは日本語使用者でなくても使う可能性があるから
u?? 全ツイート数: 約2.5億ツイート
u?? 全形態素数: 約43億語
u?? 形態素解析にはjuman7.0

u?? 数万語が使われるには相当時間がかかる
u?? どれだけ観察しても対象者の使用する全ての語が使
われたなどの保証はない
ジップの法則を使う
出現頻度がk番目に大きい要素が1/kに比例する経験則
ジップの法則を使って…
一定期間に対象者が発言した語数からその対象者が
使用するであろう潜在的な語彙数Nを推測する

例
逆に1,000トークン集めて509タイプ得られたならば…
→その人の語彙数は10,000語である

N = 1,000 ~ 50,000まで1,000刻みの語彙数の曲線50本を利用

X : 語彙数
Y:ユーザー数

ユーザーが使用している語彙数
ある語がどれくらい使われているかを調査可能
u?? 同じ出現頻度であっても多くの人が使っていれば、
その語はより一般的な語であると言える

Y:語のユーザー数
X : 語の使用頻度

u?? 形態素単位での集計バイアス
u?? 単語の集計を形態素単位で行っているため、複合動詞で
カウントされない語が存在する
例　サンシャイン牧場　→　サンシャイン　＋　牧場
u?? ユーザーのバイアス
u?? Twitterを使用している人に限定される
u?? 30%のユーザーが東京に集中、20代のユーザーが多い
u?? 環境のバイアス
u?? キーボード、スマートフォンでの入力が語彙に影響してい
る可能性あり

u?? これまで、日本人の平均使用語彙量についてわからないとさ
れてきたが、本研究で8,000語と推定
u?? 関連研究で推定されていた理解語彙数は40,000語
u?? 語のユーザー数を調査
語の使用率によって一般的な語と非一般的な語のリストを作成
理解できている語の1/5しか使用していない
なぜこの差が生じるのか要研究

狠狠撸

読解支援6 19

More Related Content

読解支援6 19