2. WHO
? バクフー株式会社?柏野 雄太
? 大規模リアルタイムデータのPPPP (P4)
? preprocess /process /persistence /providing
Wednesday, June 3, 15
3. WHAT IS LDA
? Latent Dirichlet Allocation
? 文章群から教師なしで「トピック」を探し出す
? トピック:複数単語のまとまり
? トピックは単語の分布関数を持つ
? 文章はトピックの分布関数を持つ
w
w
w
w
w
w
w1 w2 w3 w4
k
k1
トピック毎単語分布
z1 z2 z3
w
w
w
w
w
w
z1
z2
?d
ドキュメント毎トピック分布
Wednesday, June 3, 15
4. WHAT IS LDA
? グラフィカルモデル
?d zd,i wd,i k
N K
M
zd,i ? Multi(?d)
wd,i ? Multi( zd,i
) k ? Dirichlet( )
?
?d ? Dirichlet(?)
z1 z2 z3
w
w
w
w
w
w
w
w
w
w
z1
z2
?d
ドキュメント毎トピック分布
w
w
w
w
w
w
w1 w2 w3 w4
k
k1
トピック毎単語分布
Wednesday, June 3, 15
5. WHAT IS LDA
? 何をするの?
w1 w2
w3 w4
w5 w6
w7 w8...
LDA
w
w
w
w
w
w
w
w
w
w
w
w w
w
w
w
w
w
w
w
w
w
w w
w
w
w
w w
w
w
w
w
w
w
w
w
w
w1 w2 w3 w4
k
k1
k2
k1
k3k4
z1 z2 z3
w
w
w
w
w
w
w
w
w
w
w
z1
z2
?d
単語をトピック別にクラスタリング
トピック毎単語分布
ドキュメント毎トピック分布
ドキュメント群
Wednesday, June 3, 15
6. WHAT IS LDA
? パイプライン
w1 w2
w3 w4
w5 w6
w7 w8...
LDA
w
w
w
w
w
w
w
w
w
w
w
w w
w
w
w
w
w
w
w
w
w
w w
w
w
w
w w
w
w
w
w
w
w
w
w
w
w1 w2 w3 w4
k
k1
k2
k1
k3k4
z1 z2 z3
w
w
w
w
w
w
w
w
w
w
w
z1
z2
?d
単語をトピック別にクラスタリング
トピック毎単語分布
ドキュメント毎トピック分布
ドキュメント群
tokenize vectorizing modeling
word
dictionary
corpus BoW
Variational
Bayes
Gibbs
sampling
word id: word
1: 政治
2: 自民
3: 総理
[(word id, freq)…]
[(1, 2), (3, 2), …]
[(1, 19), (4, 1), …]
...
Wednesday, June 3, 15
7. LDA IN PYTHON 1/7
? lda-c Blei et al. 2003
? https://www.cs.princeton.edu/~blei/lda-c/
index.html
? 実装: C
? モデル: 変分ベイズ
? 全ての始まり?コーパス固定/辞書固定
Wednesday, June 3, 15
8. LDA IN PYTHON 2/7
? onlineldavb.py Hoffman et al. 2010
? http://www.cs.princeton.edu/~blei/
downloads/onlineldavb.tar
? model: 変分ベイズEM
? オンラインLDA
? メモリ効率はいいが,遅い.
Wednesday, June 3, 15