狠狠撸

狠狠撸Share a Scribd company logo
『トピックモデルによる潜在的意味解析』読書会
「3.3 変分近似法 (3.3.1~3.3.3)」
#トピ本 2015.7.7
by @tn1031
contents
? 変分法 [3.3.1]
? 変分ベイズ法 [3.3.2,3.3.3]
– まとめ
– 因子分解
– 重要ポイント
– アルゴリズムと疑似コード
– (補足)アルゴリズムの幾何的解釈
? まとめ
1
変分法
2
変分法
? 関数 を入力とする汎関数 の極値となる関数
を求めるための方法
? 関数を関数で微分する方法
のとき
??
?
0
)()]([ dxxfxfL
)cos(x
)sin(x
0)cos()]([
0
?? ?
?
dxxxfL
2)sin()]([
0
?? ?
?
dxxxfL
KL情報量の最適化に使う予定
L[ f (x)]f
のとき
汎関数の例)積分
(3.39)
3
変分法
? 関数 が関数 によって構成されている場合,
と表記する
)(log)(),( xqxqqxf ??
(変分ベイズ法で頻繁に登場する関数)
0
)(
),(
?
?
?
xq
qxf
f (x) q(x) f (x,q)
(3.40)
? 汎関数 の極値を与える は,以下の
オイラー?ラグランジュ方程式(微分方程式)によって
与えられる
?? dxqxfxfL ),()]([ q
4
変分ベイズ法
5
変分ベイズ法まとめ
? 観測 に対して,潜在変数 ,パラメータ
をすべて確率変数として,その確率分布を求める
(事後確率でない!)
),|(log :1 ??nxp
?
?
???
? d
qzq
zxp
qzq
n
nn
n???
)()(
),|,,(
log)()(
;1
;1:1
;1
)(qF?
??
?
?
?
?
?
)(:1:1
)(:1:1:1
:1
)|,(logexp)()(
)|,(logexp)(
nzqnn
qnnn
zxppq
zxpzq
???
? ?
???? dzxp nn??? ),|,,(log ;1:1
)|(~ izii xpx ?
)|(~ ?ii zMultiz
)|(~ ??? kk p
)|(~ ??? Dir
生成過程(今回扱うモデル)
n
K
?
iz
k?
?
ix
?
潜在変数とパラメータの分布を交互に更新
z1:n },{ ??? ?
? を , について最大化F(q) )(?q q(z1:n )
x1:n
6http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより
因子分解
? 解析的に解けない事後分布を,計算が可能な分布で近似する
? 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ
),,|,,( :1:1 ???? nn xzp
n
K
iz
k?
ix?
?
?
事後分布(解析的に解けない)
),|,,( :1
??
????nzq
変分事後分布(解析的に解ける分布で近似)
??? ??
??
?
????????
??????
ddppzpzxp
ppzpzxp
z k
k
i
ikii
k
k
i
ikii
)|()|()|(),|(
)|()|()|(),|(
分母の組み合わせがツライ
その1:共役性がある場合[3.3.2]
n
K
iz
k?
ix?
その2:共役性がない場合[3.3.3]
),,( :1 ??nzq
n
K
iz
k?
ix??
?
?
?
? ?)|()|()(
11
??
???? qqzq
K
k
k
n
i
i
k
?
?
?
?
?
?
?
?
?
?
?
?
? ?? ??
特定の確率分布を仮定しない
Dir
Dir
ディリクレ分布を仮定
確率分布を決め打ち
因子分解
(3.72)
(3.42)
?? ??
?
K
k
k
n
i
i qqzq
11
)()()( ??
7
変分ベイズ法の最重要ポイント
),|(log :1 ??nxp
??
??
????
?? dd
qqzq
zxp
qqzq
n
nn
n???
)()()(
),|,,,(
log)()()(
;1
;1:1
;1)],,([ :1 ??nzqF
)],,|,,(||),,([)],,([ :1:1:1:1 ???????? nnnn xzpzqKLzqF ??
変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい
),,( :1 ??nzq?
)],,|,,(||),,([minarg :1:1:1
),,( :1
??????
??
nnn
Qzq
xzpzqKL
n ?
?
ところが、式(3.43) は計算が困難な項 を含む),,|,,( :1:1 ???? nn xzp
)43.3(
対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能
対数周辺尤度とKL情報量の満たす関係
変分下限 KL情報量
(3.46)
(3.47)
8
変分ベイズ法の最重要ポイント(続き)
),|(log :1 ??nxp対数周辺尤度 は,変分事後分布 と無関係),,( :1 ??nzq
変分下限最適化のイメージ
? は の変化に影響されず一定),|(log :1 ??nxp ),,( :1 ??nzq
変分下限
最適化
),|(log :1 ??nxp
][qF
]||[ pqKL
),|(log :1 ??nxp
]||[ pqKL
][qF
得られる解 は, とのKL情報量を最小にする),,( :1 ??nzq?
),|(log :1 ??nxp
9
(一定) (一定)
解きたい問題
結局、変分ベイズ法では以下の最適化問題を解くことになる
)],,([maxarg),,( :1
),,(
:1
:1
????
??
n
Qzq
n zqFzq
n ?
?
?
展開すると、
)],,([ :1 ??nzqF
???
nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1 ??
??
??
)]|(||)([)]|(||)([
1
?????? pqKLpqKL
K
k
k ?? ??
式(3.52)と式(3.53)は,それぞれが変分ベイズ法の性質を説明している
? 式(3.52) ??? (特定の条件下で)最尤推定としてみなせる項
? 式(3.53) ??? 正則化項
)51.3(
)52.3(
)53.3(
10
式から見る変分ベイズ法の性質(1)
(3.52)について
??
nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1 ??
??
??
??
nz n
nn
n
zq
zxp
zq
:1
)(
),|,(
log)(
:1
:1:1
:1
??
?
一般的にイメージする連続分布
今考えている確率分布
【参考】EMアルゴリズム
)),(()|(log :1:1 ?? nn zqFxp ?
??
nz nn
nn
nn
xzq
zxp
xzq
:1
)?,|(
)|,(
log)?,|(
:1:1
:1:1
:1:1
?
?
?
として下限 を について交互に最大化する)),(( :1 ?nzqF ?),( :1 nzq
? これを最大化する を求める手法はEMアルゴリズム??,),( izq
)52.3(
(3.54)
11
式から見る変分ベイズ法の性質(2)
(3.53)について
? この項は変分事後分布とそれぞれの事前分布のKL情報量
? 変分事後分布が事前分布から離れすぎることを防止
)]|(||)([)]|(||)([
1
?????? pqKLpqKL
K
k
k ????
)53.3(
: の類似度(離れると値が増加))|(),( ??? pq)]|(||)([ ??? pqKL k
)]|(||)([ ??? pqKL : の類似度(離れると値が増加))|(),( ??? pq
変分事後分布(求めたい分布)
事前分布
(既知?データに依らない)
正則化の効果
ちなみに、
? データ数∞でMDL/BICと一致
))?()?(log(log)
2
|?|
2
|?|
( ??
??
ppN ???MDL,BIC:
12
アルゴリズムと疑似コード
? 変分事後分布の更新式は以下のようになる
? 実装上はこれらをひたすら更新することになる
? Step1:初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
? Step2:以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
)( kzq i ? ?
?
?
?
?
?
? ? )|(log)(exp)|()( :1:1
:1
???? n
z
n zpzqpq
n
?
?
?
?
?
?
?? ??
)|(log)(exp)|()(
1
k
n
i
iikk xpkzqpq ????
潜在変数の更新(E-step) パラメータの更新(M-step)
? ?? ?? ?????? ddkzxpqq ii ),|,(log)()(exp
(3.61)
(3.67)
(3.71)
変分ベイズ法
13
アルゴリズム理解のための補足
(本の内容から外れます)
14
情報幾何
? ある構造をもつ空間の中で確率分布を解釈する
? 統計,情報理論など異分野の問題を統一的に解釈できる
? 幾何学は直感的理解を得られる可能性がある(なお実際は…)
情報幾何の分野では,確率分布(確率モデル)を点と空間で表現する
例) 正規分布
?
1? 2?
1?
2?
ここまで扱ってきたモデルの場合は,モデル空間は の軸で表現可能
?
?
1? 2?
1?
2?
),,( :1
1
??nzq
?
?
z
),,( :1 ??nzq
??,,z
),,( :1
2
??nzq
?),,( :1 ??nzq?
? ?? ?
?
n
i
K
k
ki qqzq
1 1
)()()( ??
変分事後分布
最適なモデルに対応する座標はどこか? 15
点の間隔の大きさを
表す量がKL情報量
情報幾何的世界観
? 情報幾何的に解釈すると,機械学習はデータをモデル空間(部分空間)に
射影した時のモデル空間上の座標を求める問題
? この考え方は変分ベイズ法だけでなく,EMアルゴリズムやアンサンブル学
習など様々な学習アルゴリズムを説明することが可能
モデル
データ
結果
世の中
部分空間M
十分統計量
射影
16
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
情報幾何を用いた
変分ベイズアルゴリズムの解釈
直感的解釈
真の分布p
モデルM(e平坦)
S
e射影
初期解
? 因子分解によってモデル空間が得られる
? KL情報量から目指す座標を特定
? E/M各Stepで1変数についての最適化を繰り返す
)()()(),,|,,( :1:1:1 ?????? qqzqxzp nnn ?
)],,|,,(||)()()([min :1:1
)()(
:1
)(
?????? nn
tt
n
t
xzpqqzqKL
:モデルM(e平坦)
:e射影
? Step1:初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
? Step2:以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
変分ベイズ法
17
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
交互最適化の軌跡
まとめ
18
まとめ
? 解析的に計算不可能なモデルに対する近似解法
– 因子分解を利用して事後分布を解析可能な分布で近似
? MCMCのような確率的な手法とは異なる,決定論的なアルゴリズム
– 目標とする対数周辺尤度は定数
– これの下限(変分下限)を最大化する
– 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化
? EMアルゴリズムを内包する
– パラメータの分布q(z),q(θ)が求まる
– q(θ)がデルタ関数のとき,EMアルゴリズムと一致する
? 過学習を防止する仕組みを有する
– パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する
19
参考
? トピックモデルによる統計的潜在意味解析
? パターン認識と機械学習(下)
? http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf
? https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf
? http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf
20

More Related Content

3.3節 変分近似法(前半)