狠狠撸

狠狠撸Share a Scribd company logo
第1章 統計的潜在意味解析
第 1 回「 統計的潜在意味解析」
読書会
@ksmzn
会場:株式会社 ALBERT 西新宿
June 4, 2015
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 1 / 34
自己紹介
Koshi @ksmzn
某大学 M2 → 社会人一年目
法 研究
SQL 日々
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 2 / 34
https://speakerdeck.com/yamano357/tokyowebmining46th
先日 TokyoWebmining 資料 参考
、見 !!
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 3 / 34
目次
1 1.1 潜在的意味? 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 4 / 34
目次
1 1.1 潜在的意味? 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 5 / 34
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 6 / 34
潜在的意味? 潜在的共起性
潜在的意味
? 「音楽」 「 」 単語 無
、単語群 見 想起
? 複数 単語 共起性 創発 情報
? 潜在的意味 呼
→「単語 共起性 数学的 化 ?」
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 7 / 34
目次
1 1.1 潜在的意味? 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 8 / 34
潜在意味解析 歴史
? 行列分解 (1988)
Latent Semantic Indexing/Analysis (LSI/LSA)
? 確率 (1998)
Probabilistic LSI/LSA (PLSI/PLSA)
? 階層 (2003)
Latent Dirichlet Allocation (LDA)
? 拡張 多数 (2004 )
? 大規模 高速化 (2007)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 9 / 34
特異値分解
特異値分解
? 単語文書行列 X 3 行列 分解
X =US VT
? U, S, V 各列 特異値 大 順 K
個用 、 ?U, ?S , ?V 作 、 K 低
近似行列 ?X 得
?X = ?U ?S ?VT
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 10 / 34
特異値分解
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 11 / 34
特異値分解 潜在意味解析
文書 含 単語 抽出 、 頻度
単語文書行列 X 作成
? 「car」 検索 、文書 1 発見
? 「automobile」 、文書 2 発見
→単語 持 潜在的 意味 考
→特異値分解
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 12 / 34
特異値分解 結果
文書 1?2 、「car」「automobile」 頻度 0
!
→「drive」 共起性 、潜在的 意味 抽出
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 13 / 34
?V 情報
各列 、複数 単語 共起性 表 。
→潜在
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 14 / 34
?U 情報
各列 、文書 共起性 表
。
→間接的 、文書 単語 共起性 抽出
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 15 / 34
LSI 問題点
? ?U, ?S 解釈 難
? 特異値分解 性質 、 軸 互
直交 、 対 非常 強 制約
→ PLSI, 階層 , etc...
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 16 / 34
目次
1 1.1 潜在的意味? 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 17 / 34
確率的潜在変数
確率的潜在変数
1
観測 潜在変数 仮定 数理
2
潜在変数 推定 、 間
類似性 意味 解析
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 18 / 34
例: 間 類似性
? x = {x1, x2, . . . , xn} : 観測変数
? z = {z1, z2, . . . , zn} : 潜在変数
? ? = {?1, ?2, . . . , ?K} :
類似 表 確率変数
z1 = z2 = k ?
x1 x2 ?k 意味 類似
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 19 / 34
目次
1 1.1 潜在的意味? 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 20 / 34
確率的生成
確率的生成
生成過程 確率 表現 数理
確率的生成 視覚的 表現
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 21 / 34
生成過程
確率変数 xi(x = 1, . . . , n) 確率分布 p(xi|?) 従
,
xi ~ p(xi|?) (i = 1, . . . , n)
記述 。
↓
確率変数 xi 値 , 確率分布 p(xi|?) 生成
示 。
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 22 / 34
考
K 個 目 出 n 回振 出 目
生成 考
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 23 / 34
? 確率変数間 条件付 依存構造 表現
? 生成 π zi 関係
以下 表
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 24 / 34
定理 条件付 独立性
、 定理 条件付 独立
性 同時確率 展開 役立 。
定理
p (x|y) =
p (y|x) p (x)
p (y)
条件付 独立性
z 与 下 x y 条件付 確率分布 p(x|z), p(y|z)
, (x, y) 条件付 同時分布 p(x, y|z) 。
、 x, y 対 p(x, y|z) = p(x|z)p(y|z) 成 立
、「z 与 下 x y 条件付 独立 」 、
x y|z 表
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 25 / 34
tail-to-tail型
tail-to-tail 型
条件付 独立性:a b|c
? p(a, b|c) = p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(a|c)p(b|c)p(c)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 26 / 34
head-to-tail型
head-to-tail 型
条件付 独立性:a b|c
? p(a, b|c) = p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(b|c)p(c|a)p(a)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 27 / 34
head-to-head型
head-to-head 型
条件付 独立性:a ? b|c
? p(a, b|c) p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(c|a, b)p(a)p(b)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 28 / 34
生成 同時分布
同時分布 p(x, z, π, ?, η) 展開
? π 生成確率 p(π)
? η 生成確率 p(η)
? π 与 下 z
tail-to-tail 型 、
p(z|π) =
n∏
i=1
p(zi|π)
? η 与 下 ?
tail-to-tail 型 、
p(?|η) =
K∏
k=1
p(?k|η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 29 / 34
生成 同時分布
? z ? 与 下 x tail-to-tail 型 、
p(x|z, π, ?, η) = p(x|z, ?)
=
n∏
i=1
p(xi|zi, ?)
? 同時分布 以下 展開
p(x, z, π, ?, η) = p(x|z, π, ?, η)p(z, π, ?, η)
= p(x|z, ?)p(z|π)p(π)p(?|η)p(η)
=
n∏
i=1
p(xi|zi, ?)
n∏
i=1
p(zi|π)p(π)
K∏
k=1
p(?k|η)p(η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 30 / 34
生成 条件付 分布1
条件付 分布 p(z|x, π, ?, η) 計算
? π x z 繋
依存関係
? x 与 、
? z 対 独立
(head-to-head 型)
? ? 与 、
η x 条件付 独立
(head-to-tail 型)。従 、
η z 条件付 独立
? 、
p(z|x, π, ?, η) = p(z|x, π, ?)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 31 / 34
生成 条件付 分布2
条件付 分布 p(?|x, π, z, η) 計算
? η x ? 繋
依存関係
? x 与 、
? z 対 独立
(head-to-head 型)
? z 与 、
π x 条件付 独立
(head-to-tail 型)。従 、
π ? 条件付 独立
? 、
p(?|x, z, π, η) = p(?|x, z, η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 32 / 34
1. 潜在的意味 呼
2. 特異値分解 行 、文書 潜在的 意味 解析
3. 書 、同時分布 展
開 容易
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 33 / 34
清聴 .
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 34 / 34

More Related Content

「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

  • 1. 第1章 統計的潜在意味解析 第 1 回「 統計的潜在意味解析」 読書会 @ksmzn 会場:株式会社 ALBERT 西新宿 June 4, 2015 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 1 / 34
  • 2. 自己紹介 Koshi @ksmzn 某大学 M2 → 社会人一年目 法 研究 SQL 日々 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 2 / 34
  • 3. https://speakerdeck.com/yamano357/tokyowebmining46th 先日 TokyoWebmining 資料 参考 、見 !! @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 3 / 34
  • 4. 目次 1 1.1 潜在的意味? 潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 4 / 34
  • 5. 目次 1 1.1 潜在的意味? 潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 5 / 34
  • 6. @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 6 / 34
  • 7. 潜在的意味? 潜在的共起性 潜在的意味 ? 「音楽」 「 」 単語 無 、単語群 見 想起 ? 複数 単語 共起性 創発 情報 ? 潜在的意味 呼 →「単語 共起性 数学的 化 ?」 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 7 / 34
  • 8. 目次 1 1.1 潜在的意味? 潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 8 / 34
  • 9. 潜在意味解析 歴史 ? 行列分解 (1988) Latent Semantic Indexing/Analysis (LSI/LSA) ? 確率 (1998) Probabilistic LSI/LSA (PLSI/PLSA) ? 階層 (2003) Latent Dirichlet Allocation (LDA) ? 拡張 多数 (2004 ) ? 大規模 高速化 (2007) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 9 / 34
  • 10. 特異値分解 特異値分解 ? 単語文書行列 X 3 行列 分解 X =US VT ? U, S, V 各列 特異値 大 順 K 個用 、 ?U, ?S , ?V 作 、 K 低 近似行列 ?X 得 ?X = ?U ?S ?VT @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 10 / 34
  • 11. 特異値分解 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 11 / 34
  • 12. 特異値分解 潜在意味解析 文書 含 単語 抽出 、 頻度 単語文書行列 X 作成 ? 「car」 検索 、文書 1 発見 ? 「automobile」 、文書 2 発見 →単語 持 潜在的 意味 考 →特異値分解 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 12 / 34
  • 13. 特異値分解 結果 文書 1?2 、「car」「automobile」 頻度 0 ! →「drive」 共起性 、潜在的 意味 抽出 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 13 / 34
  • 14. ?V 情報 各列 、複数 単語 共起性 表 。 →潜在 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 14 / 34
  • 15. ?U 情報 各列 、文書 共起性 表 。 →間接的 、文書 単語 共起性 抽出 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 15 / 34
  • 16. LSI 問題点 ? ?U, ?S 解釈 難 ? 特異値分解 性質 、 軸 互 直交 、 対 非常 強 制約 → PLSI, 階層 , etc... @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 16 / 34
  • 17. 目次 1 1.1 潜在的意味? 潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 17 / 34
  • 18. 確率的潜在変数 確率的潜在変数 1 観測 潜在変数 仮定 数理 2 潜在変数 推定 、 間 類似性 意味 解析 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 18 / 34
  • 19. 例: 間 類似性 ? x = {x1, x2, . . . , xn} : 観測変数 ? z = {z1, z2, . . . , zn} : 潜在変数 ? ? = {?1, ?2, . . . , ?K} : 類似 表 確率変数 z1 = z2 = k ? x1 x2 ?k 意味 類似 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 19 / 34
  • 20. 目次 1 1.1 潜在的意味? 潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 20 / 34
  • 21. 確率的生成 確率的生成 生成過程 確率 表現 数理 確率的生成 視覚的 表現 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 21 / 34
  • 22. 生成過程 確率変数 xi(x = 1, . . . , n) 確率分布 p(xi|?) 従 , xi ~ p(xi|?) (i = 1, . . . , n) 記述 。 ↓ 確率変数 xi 値 , 確率分布 p(xi|?) 生成 示 。 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 22 / 34
  • 23. 考 K 個 目 出 n 回振 出 目 生成 考 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 23 / 34
  • 24. ? 確率変数間 条件付 依存構造 表現 ? 生成 π zi 関係 以下 表 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 24 / 34
  • 25. 定理 条件付 独立性 、 定理 条件付 独立 性 同時確率 展開 役立 。 定理 p (x|y) = p (y|x) p (x) p (y) 条件付 独立性 z 与 下 x y 条件付 確率分布 p(x|z), p(y|z) , (x, y) 条件付 同時分布 p(x, y|z) 。 、 x, y 対 p(x, y|z) = p(x|z)p(y|z) 成 立 、「z 与 下 x y 条件付 独立 」 、 x y|z 表 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 25 / 34
  • 26. tail-to-tail型 tail-to-tail 型 条件付 独立性:a b|c ? p(a, b|c) = p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(a|c)p(b|c)p(c) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 26 / 34
  • 27. head-to-tail型 head-to-tail 型 条件付 独立性:a b|c ? p(a, b|c) = p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(b|c)p(c|a)p(a) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 27 / 34
  • 28. head-to-head型 head-to-head 型 条件付 独立性:a ? b|c ? p(a, b|c) p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(c|a, b)p(a)p(b) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 28 / 34
  • 29. 生成 同時分布 同時分布 p(x, z, π, ?, η) 展開 ? π 生成確率 p(π) ? η 生成確率 p(η) ? π 与 下 z tail-to-tail 型 、 p(z|π) = n∏ i=1 p(zi|π) ? η 与 下 ? tail-to-tail 型 、 p(?|η) = K∏ k=1 p(?k|η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 29 / 34
  • 30. 生成 同時分布 ? z ? 与 下 x tail-to-tail 型 、 p(x|z, π, ?, η) = p(x|z, ?) = n∏ i=1 p(xi|zi, ?) ? 同時分布 以下 展開 p(x, z, π, ?, η) = p(x|z, π, ?, η)p(z, π, ?, η) = p(x|z, ?)p(z|π)p(π)p(?|η)p(η) = n∏ i=1 p(xi|zi, ?) n∏ i=1 p(zi|π)p(π) K∏ k=1 p(?k|η)p(η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 30 / 34
  • 31. 生成 条件付 分布1 条件付 分布 p(z|x, π, ?, η) 計算 ? π x z 繋 依存関係 ? x 与 、 ? z 対 独立 (head-to-head 型) ? ? 与 、 η x 条件付 独立 (head-to-tail 型)。従 、 η z 条件付 独立 ? 、 p(z|x, π, ?, η) = p(z|x, π, ?) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 31 / 34
  • 32. 生成 条件付 分布2 条件付 分布 p(?|x, π, z, η) 計算 ? η x ? 繋 依存関係 ? x 与 、 ? z 対 独立 (head-to-head 型) ? z 与 、 π x 条件付 独立 (head-to-tail 型)。従 、 π ? 条件付 独立 ? 、 p(?|x, z, π, η) = p(?|x, z, η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 32 / 34
  • 33. 1. 潜在的意味 呼 2. 特異値分解 行 、文書 潜在的 意味 解析 3. 書 、同時分布 展 開 容易 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 33 / 34
  • 34. 清聴 . @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 34 / 34