狠狠撸

狠狠撸Share a Scribd company logo
Salimans, T., Kingma, D. P., & Welling, M.
Proceedings of The 32nd International Conference on Machine Learning,
pp. 1218–1226, 2015 (ICML 2015)
Markov Chain Monte Carlo and
Variational Inference: Bridging the Gap
Presenter : S5lab. Shuuji Mihara
Abstract in this paper
1
? 潜在変数モデルにおいて, 主流なパラメータのベイズ
推定の方法に, MCMCとVI (Variational Inference, 変分
ベイズ法)がある.
? 本論文では, MCMCにSGVIを組み込んだ手法(MCVI,
HMCVI, SMCVI)とその理論的背景を示す.
Table of Contents 2
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
論文ではHMC(ハミルトニアンモンテカルロ法)についても言及がありますが,
前提知識が多いため今回は簡単にしか触れません
※
Table of Contents 3
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
生成モデル 4
観測データは未知の真の確率分布から生起していると考え,
その確率分布を推定することでデータの振る舞いを分析す
る考え方
Ex. サイコロ
観測データ
? = {1,5,4,3,2, … }
真の分布
?(?)
? ? : すべての目が
1/6の確率で出る?
潜在変数モデル 5
生成モデルにおいて, 観測不可能なデータが本来持つ特性
(クラス情報など)や欠損値があると考え, それらを潜在変数
(観測できないデータに関する情報)として扱うモデル
Ex.
LDA(NLPでよく用いられる)GMMを用いたクラスタリング
ベイズ推定 6
推定対象をベイズの定理を用いて分布推定する方法の
総称?(?点推定(最尤推定))
? ?
最尤推定
(点推定)
ベイズ推定
(区間推定)
Markov Chain Monte Calro(MCMC) 7
調べたい真の分布からのサンプリング系列(マルコフ連鎖)
を構成することによって, 分布に関する情報を調べる方法
http://visualize-
mcmc.appspot.com/2_metropolis.html
◎
分布にパラメトリックな
仮定をおかない
×
計算コスト大
Variational Inference 8
調べたい真の分布に対してパラメトリックな仮定をおき,
一部のパラメータ群の独立性を仮定した近似事後確率を
KL情報量の最小化(変分下限(ELBO)の最大化)により, 解析的に計
算する.
? = log ?(?) ? ??(? ? ? ? || ?(?|?))
最大化 最小化
◎
大規模なモデルでも
比較的計算が早い
×
事前に解析的な手計算
が必要
= ? ? ?(?|?)[log ? ?, ? ? log ? ? (?|?)]
(1), (2)式
事後確率の計算に近似を導入し, 計算量を減らす.
計算式が解析的に導け, 計算コストが少ない,
しかし, 精度は損なわれる.
理論上, 任意の精度での計算が可能. しかし計算コスト大
MCMCとVI 9
大抵の計算問題では正確さと計算量はトレードオフ
MCMC(マルコフ連鎖モンテカルロ法)
VI(Variational Bayes, 変分ベイズ法)
大規模問題への適用が困難!
本論文ではこの2つの手法を融合させる
Abstract in this paper
10
? 潜在変数モデルにおいて, 主流なパラメータのベイズ
推定の方法に, MCMCとVI (Variational Inference, 変分
ベイズ法)がある.
? 本論文では, MCMCにSGVIを組み込んだ手法(MCVI,
HMCVI, SMCVI)とその理論的背景を示す.
Table of Contents 11
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
What’s difficult in MCMC? 12
MCMC(MH法)の難しい点
? 提案分布をどのように構成するか
? 何回サンプリングを繰り返せば精度のいい
近似事後分布が得られるかわからない
What’s difficult in MCMC? 13
MCMC(MH法)の難しい点
? 提案分布をどのように構成するか
? 何回サンプリングを繰り返せば精度のいい
近似事後分布が得られるかわからない
提案手法で解決
The central idea of this paper(1) 14
MCMCで得られる事後分布はマルコフ連鎖なので
以下のように分解できる.
? ? ? = ?(?0|?)
?=1
?
?(??|???1, ?)
補助変数の集合 ? = ?0, ?1, … , ???1
および補助分布 ?(?|?, ? ?)
を導入することで, (2)式で見た補助変分下限(変分下限の下限)
が(3)式のように求められる
The central idea of this paper(2) 15
? ≥ ? ??? = ? ?(?,? ?|?) [log ? ?, ? ? ? ? ?, ? ? ? log ?(?, ? ?|?)]
= ? ? ? ?(? ?|?)
{? ??[? ? ? ?, ? ||?(? |? ?, ?)]}
(3)式
The central idea of this paper(3) 16
さらに補助分布?にマルコフ性を仮定することで,
以下の補助変分下限の逐次更新式を得る.((4)式)
? ???
= ? ?[log ? ?, ? ? ? log ? ?0 ?
+
?=1
?
log[??(???1|?, ??)/??(??|?, ???1)]]
MCMCの各ステップで変分下限の推定量が得られる
Algorithm1
Table of Contents 17
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
Algorithm 1 18
Table of Contents 19
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
20
Stochastic Gradient Variational Bayes
Reparameterization Trick:
? ? ? から直接?をサンプリングする代わりに、
? = ? ?, ? , ?~? ? が? ? ? に従うよう?, ? ? を決める
例)
? ?, ? からサンプリングする代わりに、
? = ? + ??, ?~? 0,1 とする
MCVI概要 21
Algorithm1において提案分布にReparameterization trick
(?? = ? ?(? ?, ?))を導入することで, ?の推定量を
?の関数として表す.
?の確率的最適化により, ?を計算
=提案分布のパラメータが決定される
Algorithm 2 22
Example : bivariate Gaussian 23
Hamiltonian Variational Inference 24
State of the art
Table of Contents 25
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
SMCVI 26
MCVIは全ステップで変分下限の最適化を行うのに対して,
代わりに各ステップでの変分下限の更新量の期待値
(? ? log ? ?)の最適化を行い,
各ステップで潜在変数の事後分布を計算する.
Algorithm4 27
Table of Contents 28
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Review
Review 29
? VIをMCMCに組み込む手法を開発し, VIの手法を
MCMCのフレームワークに組み込むことに成功した.
? 数値実験で推定速度の向上を示し, HMCVIでは画像
の生成モデルを推定する問題でState of the artの手
法と遜色ない結果が得られた.
Table of Contents 30
1. Introduction
2. MCMC and Auxiliary Variables
3. MCMC lower bound estimate
4. MCVI
5. SMCVI
6. Specification of the Markov chain
7. Review
Detailed balance 31
MCMCでは通常, 得られる分布が普遍分布となるよう
以下の詳細釣り合い条件をみたすようにマルコフ連鎖
を構成する.
このときAlgorithm1のlog ? ?の式が以下のように書き換え
られる.

More Related Content

論文紹介 Markov chain monte carlo and variational inferences bridging the gap

Editor's Notes

  1. SFAには最初に提案された決定論的なSFAとその確率的な拡張である確率的SFAがあり, 確率的SFAを実データに適用した論文は私が知る限り初めて
  2. 真の分布はパラメトリックであるとは限らない 真の分布をパラメトリックな分布として考えて, パラメータの推定を行う方法が最尤法
  3. パラメーターもまとめて潜在変数として考えることも
  4. SFAには最初に提案された決定論的なSFAとその確率的な拡張である確率的SFAがあり, 確率的SFAを実データに適用した論文は私が知る限り初めて