狠狠撸
Submit Search
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
?
11 likes
?
2,551 views
ksmzn
Follow
第7回「トピックモデルによる统计的潜在意味解析」読书会
Read less
Read more
1 of 39
Download now
Downloaded 25 times
More Related Content
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
1.
第5章 時系列 補助情報 考慮 第
7 回「 統計的潜在意味解析」 読書会 @ksmzn 会場:株式会社 ALBERT 西新宿 December 17, 2015 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 1 / 39
2.
自己紹介 Koshi @ksmzn 分析 仕事
。 法 研究 最近 Python @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 2 / 39
3.
@ksmzn 第 5
章 時系列 補助情報 考慮 December 17, 2015 3 / 39
4.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 4 / 39
5.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 5 / 39
6.
必要 要件 ? 対象
性質 ? 時系列的 変化 ? 時間的 近接 文書集合 類似 共有 ? 情報 抽出 ? 各 単語出現確率 ?k 変化 例: ? 記事 考 ? 十年前 政治 今年 政治 変化 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 6 / 39
7.
DTM ? Dynamic Topic
Model (Blei [2008]) ? LDA 状態空間 組 合 ? 各時刻 k 単語分布 ?(1:T) k 考 ?(1:T) k = ( ?(1) k , ?(2) k , . . . , ?(T) k ) ? 時刻 t t ? 1 間 依存関係 仮定 ? ?(t) k ~ N ( ?(t?1) k , σ2 I ) 生成 、 確率化 ?(t) k @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 7 / 39
8.
DTM @ksmzn 第 5
章 時系列 補助情報 考慮 December 17, 2015 8 / 39
9.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 9 / 39
10.
章 ? 状態空間 、全
条件付 分布 、 対角行列 分散 持 正規分布 証明 ? 事前分布 事後分布間 KL 情報量 計算 ? 事後分布 情報 計算 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 10 / 39
11.
状態空間 y(t) ~ N ( x(t) , ρ2 I ) ,
x(t) ~ N ( x(t?1) , σ2 I ) 隠 状態 推定値 、?x(t) 考 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 11 / 39
12.
事後確率 期待値 求 ?
観測 y(1:T) 与 下 条件付 平均二乗誤 差 最小 ?x(t) 、本書 (5.44) 式 ?x(t) = E[x(t) |y(1:T) ] ? 、観測 y(1:T) 与 下 、 隠 状態 x(t) 事後確率 p ( x(t) |y(1:T) ) 推定 、 期待値 求 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 12 / 39
13.
事後確率 変形 定理 条件付
独立性 用 、p189-190 、(途中式略) p ( x(t) |y(1:T) ) = ∫ p ( x(t+1) |x(t) , σ2 ) p ( x(t+1)|y(1:t), σ2, ρ2 ) × p ( x(t) |y(1:t) , σ2 , ρ2 ) × p ( x(t+1) |y(1:T) , σ2 , ρ2 ) dx(t+1) ? p ( x(t) |y(1:t) , σ2 , ρ2 ) 考 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 13 / 39
14.
事後確率 変形 定理 条件付
独立性、正規分布 対称性 用 、 p ( x(t) |y(1:t) , σ2 , ρ2 ) ∝ N ( x(t) |y(t) , ρ2 ) p ( x(t) |y(1:t?1) , σ2 , ρ2 ) 、 「p ( x(t) |y(1:t?1) , σ2 , ρ2 ) 正規分布 、 p ( x(t) |y(1:t) , σ2 , ρ2 ) 正規分布 」 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 14 / 39
15.
事後確率 変形 、 p ( x(t+1) |y(1:t) , σ2 ,
ρ2 ) = ∫ p ( x(t+1) |x(t) , σ2 ) p ( x(t) |y(1:t) , σ2 , ρ2 ) dx(t) 、 「p ( x(t) |y(1:t) , σ2 , ρ2 ) 正規分布 、 p ( x(t+1) |y(1:t) , σ2 , ρ2 ) 正規分布 」 ! @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 15 / 39
16.
事後確率 変形 、 「p ( x(t) |y(1:t?1) , σ2 ,
ρ2 ) 正規分布 、 p ( x(t) |y(1:t) , σ2 , ρ2 ) 正規分布 、 p ( x(t+1) |y(1:t) , σ2 , ρ2 ) 正規分布 」 、p ( x(1) |y(0) ) 正規分布 仮定 、 再帰的 p ( x(t) |y(1:t?1) ) 正規分布 、 全 条件付 分布 正規分布 。 、p ( x(t) |y(1:t) ) 正規分布 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 16 / 39
17.
事後確率 変形 式 (5.46)
戻 、 p ( x(t) |y(1:T) ) = ∫ p ( x(t+1) |x(t) , σ2 ) p ( x(t+1)|y(1:t), σ2, ρ2 ) × p ( x(t) |y(1:t) , σ2 , ρ2 ) × p ( x(t+1) |y(1:T) , σ2 , ρ2 ) dx(t+1) 、式 (5.54) p ( x(t+1) |y(1:t) , σ2 , ρ2 ) 正規分布 。 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 17 / 39
18.
事後確率 変形 先 式
t 減 向 再帰的構造 、p ( x(T) |y(1:T) , σ2 , ρ2 ) 正規分布 、 p ( x(t) |y(1:T) , σ2 , ρ2 ) 正規分布 。 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 18 / 39
19.
事後確率 期待値 求 欲
値 、p ( x(t) |y(1:T) , σ2 , ρ2 ) 期待値 。 p191, p195 、p ( x(t) |y(1:t) , σ2 , ρ2 ) p ( x(t) |y(1:T) , σ2 , ρ2 ) 分散 対角行列 、 p ( x(t) |y(1:t) , σ2 , ρ2 ) = N ( x(t) |m(t) , ν(t)2 I ) p ( x(t) |y(1:T) , σ2 , ρ2 ) = N ( x(t) | ?m(t) , ?ν(t)2 I ) 。 計算 ?m(t) m(t) ?m(t+1) 式 表 、 再帰的 求 。 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 19 / 39
20.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 20 / 39
21.
再掲:DTM @ksmzn 第 5
章 時系列 補助情報 考慮 December 17, 2015 21 / 39
22.
LDA+状態空間 ? 各時刻 k
単語分布 ?(1:T) k ?(t) k,v = exp ( ?k,v (t) ) ∑V v′=1 exp ( ?(t) k,v′ ), ?(t) k ~ N ( ?(t?1) k , σ2 I ) ? 単語、 、 分布 、 w(t) d,i ~ Multi ( ?(t) d ) , z(t) d,i ~ Multi ( θ(t) d ) , θ(t) d ~ Dir ( α(t) ) @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 22 / 39
23.
変分 法 目的 ? KL[q
(z, θ, ?) || p (z, θ, ? | w, α, β)] 最小 q (z, θ, ?) 求 . 手法 ? 対数周辺尤度 log p (w | α, β) 変分下限 F[q (z, θ, ?)] 求 、 最大 q (z, θ, ?) 変分法 求 . ? q (z, θ, ?) 対 因子分解仮定 , q (z), q (θ), q (?) 順 繰 返 更新 . @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 23 / 39
24.
DTM 近似事後分布 、近似事後分布 以下
仮定 q ( ?(1:T) , θ(1:T) , z(1:T) ) = K∏ k=1 q ( ?(1:T) k ) T∏ t=1 M(t) ∏ d=1 q ( θ(t) d ) q ( z(t) d ) ? μ 時系列関係 壊 仮定 ? 、 仮定 、 学 章 最大 ( 気 ) @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 24 / 39
25.
q ( ?(1:T) k ) 導出 ? 仮想的 観測
??(1:T) k 。 ? 値 大小 現実 現象 何 表 … 。 仮想的 ? ? ??(1:T) k 選 、変分下限 最大 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 25 / 39
26.
q ( ?(1:T) k ) 導出 ??(1:T) k 導入 、q ( ?(t) k ) 以下 q ( ?(t) k
|??(1:T) k ) = N ( ?(t) k | ?m(t) k , ?ν(t)2 k I ) 、??(1:T) k 値 推定 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 26 / 39
27.
変分下限 導出 p207-208 、変分下限 logp ( w(1:T) ) ≥
?F [ q ( ?(1:T) )] + ( q ( θ(t) d ) q ( z(t) d ) 関係 項 ) ≥ ?L [ q ( ?(1:T) )] + ( q ( θ(t) d ) q ( z(t) d ) 関係 項 ) 、(具体的 式 本書 参照) ?L [ q ( ?(1:T) )] 最大 q ( ?(t) k |??(1:T) k ) 求 。 q ( θ(t) d ) , q ( z(t) d ) 関 解析的 求 。 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 27 / 39
28.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 28 / 39
29.
DTM 何 Science 解析 ?
1881~1999 年 120 年間 15955 単語 ? 20 時系列変化 考 ? 「 」 単語変化 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 29 / 39
30.
他 記事 「太宰治 文学
変化 Topic Model 分析 」 ? 太宰治 私生活 変化 、 時系列変化 連動 ? 公開 ? 「 用 Web小説 ?流行 分析 」 ? 各 流行 廃 変化 推察 ? 「異世界転生 」 人気急上昇 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 30 / 39
31.
DTM ? R 見当
。 ? gensim https: //radimrehurek.com/gensim/models/dtmmodel.html ? Sean M Gerrish C++実装 https://code.google.com/p/ princeton-statistical-learning/downloads/detail? name=dtm_release-0.8.tgz ? berobero11 Stan 例 http: //heartruptcy.blog.fc2.com/blog-entry-138.html @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 31 / 39
32.
目次 1 5.3.1 2 5.3.2
基礎 3 5.3.3 学習 4 DTM 5 5.4 補助情報 考慮 6 References @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 32 / 39
33.
補助情報 考慮 補助情報 ? 分析対象
付加 情報 ? 論文 場合 、著者情報?参照 文献 ? 購入履歴 場合 、 属性 ? 情報 推定 役立 ! 要件 1. 文書 付加 補助情報 推定 用 2. 補助情報 関係 明示的 抽出 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 33 / 39
34.
補助情報 LDA 組
込 文書- 分布θd 補助情報 ? θd ~ Dir (α) 補助情報 入 ? α 補助情報 、文書 変化 補助情報 ? 補助情報 xd = ( xd,1, xd,2, . . . , xd,C ) ? 著者名 補助情報 、C 文書全体 著 者数 ? 文書 d 著者 a 名前 場合 、xd = 1, 場合 xd = 0 ? xd 用 αk 文書 変化 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 34 / 39
35.
補助情報 LDA 組
込 Mimno 方法 ? 「αk xd 関数」 ? 線形回帰 f (xd) = λT k xd ? λk 要素 、 寄与 情報 重要度 ? Dirichlet 分布 、 αk = exp ( λT k xd ) Dirichlet多項回帰 λk ~ N ( 0, σ2 I ) θd ~ Dir ( exp ( λT 1 xd ) , exp ( λT 2 xd ) , . . . , exp ( λT k xd )) @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 35 / 39
36.
学習 ? 周辺化 用
、zd,i ? 基本的 αk exp ( λT k xd ) 置 換 ? z 与 上 、勾配法 用 λ 対数尤 度 最大化 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 36 / 39
37.
論文 著者情報 組
込 例 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 37 / 39
38.
References [1] 佐藤一誠 (2015)
『 統計的潜在意味解析』 (自然言語処理 ) 社 [2] Blei, D.M. and Lafferty, J.D. (2006) Dynamic Topic Models. Proceedings of the 23rd international Conference on Machine Learning. 113-120. [3] Mimno, D.M. and McCallum, A. (2008) Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression. in UAI. 411-418. [4] 太宰治 文学 変化 Topic Model 分析 - NAOKI ORII’S BLOG http://mrorii.github.io/blog/2013/12/27/ analyzing-dazai-osamu-literature-using-topic-models/ [5] 用 Web 小説 ?流行 分析 - #kichi-memo http://seikichi.hatenablog.com/entry/2013/04/29/013608 @ksmzn 第 5 章 時系列 補助情報 考慮 December 17, 2015 38 / 39
39.
清聴 . @ksmzn 第
5 章 時系列 補助情報 考慮 December 17, 2015 39 / 39
Download