狠狠撸

狠狠撸Share a Scribd company logo
Jaccard係数の計算式(1)
KH CoderではJaccard係数を多用しています。たと
えば語Aと語Bの共起の程度をJaccard係数で測る計
算式は以下のようになります。
「語Aを含み」なおかつ「語Bを含む」文書の数
「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
語Aを含む文書 语叠を含む文书
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 语叠を含む文书
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 语叠を含む文书
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 语叠を含む文书
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると?
語Cを含む文書
? 単純に共起する数をかぞえると、語Aの有無に関係
なくどこにでも多く出現する語Cが上位に。
? Jaccard係数では割合を見るので、語Cは下位になり、
語Aがある時に特によく出てくる共起語が上位に
語Aを含む文書
それでも、ある程度は数も必要
語Dを含む文書
? 語Dはほぼすべて語Aと共起しているが、数が少ない
ので「語Aが出てくるときには語Dもよく出てくる」
とは言えない
? Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視
? 一部の係数は、(c) 語Aも語Bも含まない文書がたく
さんあると、語Aと語Bの類似度が高いと見なす
? 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
語Aを含む文書 语叠を含む文书
すべての文書
(c) 語Aも語Bも含まない文書
ところで「文書」ってなに?
? 設定を変えなければ(デフォルトでは)
– Excel?CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
? 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
? KH CoderではH1からH5による見出しを加えることで、
節?章?部など様々な単位での分析が可能

More Related Content

闯补肠肠补谤诲係数の计算式と特徴(1)