狠狠撸

狠狠撸Share a Scribd company logo
あなたの心に Bridge Sampling
私とあなたの Bayes Factor を求めよう
- Bridgeサンプリングを用いたベイズモデルの評価 –
専修大学大学院 文学研究科 M2 北條大樹
2017/10/15
IRT勉強会@専修大学
の資料を修正したものです?
目次
? ベイズファクター
? 様々なBF算出方法
? Bridge Sampling
? WARP-III
? 実際の心理学研究での応用例
? まとめ
2
本スライドの主な文献 ( 上から順に多く引用 )
Gronau? , Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U.,
Marsman, M., ... & Steingroever, H. (2017). A tutorial on bridge
sampling. arXiv preprint arXiv:1703.05984v2.
Gronau? , Q. F., Wagenmakers, E. J., Heck, D. W., & Matzke, D.
(2017). A Simple Method for Comparing Complex Models: Bayesian
Model Comparison for Hierarchical Multinomial Processing Tree
Models using Warp-III Bridge Sampling.
Wang, L., & Meng, X. L. (? 2016). Warp bridge sampling: the next
generation. arXiv preprint arXiv:1609.07690.
Meng, X. L., & Schilling, S. (? 2002). Warp bridge sampling. Journal
of Computational and Graphical Statistics, 11(3), 552-586.
3
ベイズファクター
? パラメータ推定の文脈で?我々の興味のあるパラメータθの不
確かさを観測データyから求めるとき
? ? ? =
? ? ? ?(?)
?(?)
と表される?
? モデル比較の文脈では? m 個の候補モデルがあり?データ y を
所与としたときの i 番目のモデルの相対的な最もらしさを表す
モデル事後確率は?
?(??|?) =
? ? ?? ?(??)
Σ?=1
?
?(?|??)?(??)
事前分布尤度
事後分布
周辺尤度
Σ 周辺尤度×事前モデル確率
事後モデル確率
事後モデル確率 = 周辺尤度×事前モデル確率 / 候補すべての周辺尤度×事前モデル確率
4
ベイズファクター
? もしここでm=2だったら... (比較したいモデルが2つのみ)
? つまりオッズで表すことが可能
? 次のようにも
5
?(?1|?) =
? ? ?1 ?(?1)
Σ?=1
?
?(?|??)?(??)
?(?2|?) =
? ? ?2 ?(?2)
Σ?=1
?
?(?|??)?(??)
同じ
? ?1 ?
? ?2 ?
=
? ? ?1
? ? ?2
×
? ?1
?(?2)
事後オッズ 事前オッズベイズファクター
??12 =
? ? ?1
? ? ?2
=
? ?1 ?
? ?2 ?
? ?1
?(?2)
ベイズファクター
事後オッズ
事前オッズ
ベイズファクターとは?データによって与えられたモデル? ?に比して
モデル? ?を支持する程度(オッズ)の変化を表す
ベイズファクターって何?
ある? 者は???
“standard Bayesian solution to the hypothesis testing and model
selection problems” (Lewis & Rftery, 1997, p648)
またある? 者は???
“the primary tool used in Bayesian inference for hypothesis testing
and model selection” (Berger, 2006, p.378)
それなのになぜBFを使わないのか?
6
Q. なぜBFを使わないのか?
A. 使わないというよりは?使えない(解析的に周辺尤度を計算で
きない)ケースが多い???(‘?’?? ) ??? ??? ??? ??? ???( ??‘?’)??多重積分ワッショイ
どんなケースで使えないのか?
非線形? モデル
パラメータ? 数が多い場合(特に階層モデル)
?むしろ?ベイズファクターを使えるモデルを探すほうが?使え
ないモデルを挙げていくより早いかも???
7
じゃあ?結局BFは求められないのか?
MCMCによる様々なBF(周辺尤度)への近似法
1. Naive Monte Carlo Estimator
2. Importance Sampling Estimator (重点サンプリング法)
3. Generalized Harmonic Mean Estimator (一般化調和平均法??)
4. Bridge Sampling (ブリッジサンプリング)
5. WARP-III bridge sampling or WARP-U bridge sampling
8
今回は?4. 5. の手法を重点的に紹介
1,2,3の詳しい話については?Gronau et al. (2017)を参照し?その後原著へ
再確認: 求めたいもの
BF? を求めたい?すなわち?周辺尤度を求めれば勝ち
周辺尤度? って?
? 次のようにも…
9
??12 =
? ? ?1
? ? ?2
? ? ? = ∫ ? ? ?, ? ? ? ? ??
周辺尤度 尤度 事前分布
興味のあるモデルで
yが観測される確率
= 事前分布を通した尤度の積分
= θを所与とするときの尤度の重み付き平均
(重みというのは事前分布θの最もらしさのこと)
? ? ? = ? ????? ? ? ?, ?
? ?????は事前分布の期待値を表す?
速習 Naive Monte Carlo Estimator
? 周辺尤度を求めたい?ただ?ここでどのモデルのとかはない
? これを近似するには?θにおける事前分布からのN個のサンプル
で尤度を評価し?その結果を平均すればよい?
? コインの例で考えた具体例は?Gronau et al. (2017) p8-9 にて
10
? ? ? = ? ????? ? ? ?, ? ?(?) = ? ????? ? ? ?
?(?) = ? ????? ? ? ?
??1 ? =
1
?
Σ?=1
?
? ? ???
???~?(?)
事前分布からのサンプル尤度の平均
この方法が使えるのは?事前分布と事後分布の形が似ていて?オーバーラップ
していることが条件?
速習 Importance Sampling Estimator
事後分布? と’似ていない’事前分布を使うのではなく?importance
density(重点密度) ???(?)を導入?
重点密度? の特徴は?尤度の高いところのθを重点的にサンプリ
ングし?尤度の低いところはあまりサンプリングしない?
以下? のようにして???(?)を導入できる?
11
?(?) = ∫ ? ? ? ? ? ??
= ∫ ? ? ? ? ?
??? ?
??? ?
??
= ?
? ? ? ? ?
??? ?
??? ? ??
= ? ? ?? ?
? ? ? ? ?
??? ?
速習 Importance Sampling Estimator
実際? に推定するときは???
適切? な重点密度はどのような特徴をもつべき?
評価? が簡単
事後分布? と同一の定義域をもつ
事後分布? によく似ている
事後分布? よりも厚い裾(fatter tail)を持つこと
12
??2 ? =
1
?
Σ?=1
? ? ? ??? ? ???
???( ???)
???~???(?)
重点密度からのサンプル調整された尤度の平均
速習 Importance Sampling Estimator
? どのように重点密度を決めるか?
? コインの例では?事後分布はβ分布で表せる?そのため適切な重点密度をβ
分布と一様分布の混合分布で定義しようとしている?
? この際?混合分布におけるベータ分布は?事後分布からのサンプルを使っ
てモーメント推定をして得たモーメントを用いている?
? モーメント:β分布でいえばα?βパラメータを指し?正規分布でいえば平均と標
準偏差パラメータをさす?
? 最後に?ベータ分布と一様分布の混合具合を決めるチューニング(重み)
パラメータを?を用意し?これによってどっちの分布を多めにチューニン
グするかを決めて?重点密度分布からのサンプリングを行う?
13
※ ?の調節が大変?
速習 Generalized Harmonic Mean Estimator
? Importance Samplingとは対照的で?thinner tailになるようにする?
? そして?事後分布からのサンプルを使って計算するように変更?
14
1
? ?
= ?
1
? ?
??? ? ??
= ?
?(?|?)
? ? ? ? ?
??? ? ??
= ?
??? ?
? ? ? ? ?
?(?|?)??
= ? ????
??? ?
? ? ? ? ?
? ? = ? ????
??? ?
? ? ? ? ?
?1
p(y) = ? ? ?? ?
? ? ? ? ?
??? ?
参考:Importance Sampling
? 逆数になっている
? 事後分布からのサンプルを使う
速習 Generalized Harmonic Mean Estimator
? 実際に推定するときは???
? 適切な重点密度はどのような特徴をもつべき?
? 評価が簡単
? 事後分布と同一の定義域をもつ
? 事後分布によく似ている
? 事後分布よりも薄い裾(thinner tail)を持つこと
? コインの例では?事後サンプルが0-1の範囲しか取らないので?
サンプルをまず?プロビット変換して?-∞~∞(正規分布)の範囲
で考えられるようにして?Importance Sampling 同様にモーメン
ト推定を行う?
15
??3 ? =
1
?
Σ?=1
?
??? ??
?
? ? ??
?
? ??
?
?1
??
?
~?(?|?)
重点密度
尤度 事前分布
事後分布からの
サンプル
注: ??
?
と ???は?違う分布
からサンプリングされ
ていることに注意
速習 Generalized Harmonic Mean Estimator
プロビット? 変換をして考える場合
と表現できる
16
??3 ? =
1
?
Σ?=1
?
??? ??
?
? ? ??
?
? ??
?
?1
??
?
~?(?|?)
重点密度
尤度 事前分布
事後分布からの
サンプル
注: ??
?
と ???は?違う分布
からサンプリングされ
ていることに注意
??3 ? =
1
?
Σ?=1
?
1
??
?
??
?
? ??
??
? ? Φ(??
?
) ? ??
?
?1
重点密度
尤度 事前分布
??
?
= Φ?1 ??
?
??? ??
?
~?(?|?)
事後分布からのサンプル??
?
を
プロビット変換したサンプル??
?
ここまでまとめ
Importance Sampling? では?重点密度分布からのサンプル ???を利
用して?周辺尤度を求めようとする?
Generalized Harmonic Mean Estimator? では?上記の逆数を考える
ことで事後分布からのサンプル??
?
から最適な重点密度分布を
探して周辺尤度を求めようとした?
ただ? ?2つの方法の欠点は?分布の裾に強い仮定(厚いか?薄いか)
を置いており?これが高次元空間では満たすことができない?
どうする? ?
?ようやく Bridge Sampler が登場?
17
??? ??
?
?()
Bridge Sampling Estimator
WARP-I
WARP-II
WARP-III
WARP-U
18
Bridge Sampling
ここで? 適当に比を書いてみる?
なんとなく? 周辺尤度?(?)を両辺に掛けてみる?
19
1 =
∫ ? ? ? ? ? ? ? ? ? ??
∫ ? ? ? ? ? ? ? ? ? ??
尤度 事前分布 Bridge関数 提案分布
尤度 事前分布 Bridge関数 提案分布
? ? =
∫ ? ? ? ? ? ? ? ? ? ??
∫
? ? ? ? ?
? ?
? ? ? ? ??
=
∫ ? ? ? ? ? ? ? ? ? ??
∫ ? ? ? ? ?(?|?)??
提案分布
事後分布
Bridge Sampling
つづき?
実際? の推定では?
20
? ? =
∫ ? ? ? ? ? ? ? ? ? ??
∫
? ? ? ? ?
? ?
? ? ? ? ??
=
∫ ? ? ? ? ? ? ? ? ? ??
∫ ? ? ? ? ?(?|?)??
=
? ? ? (? ? ? ? ? ? ? )
? ????(? ? ? ? )
提案分布
事後分布
?? ? =
1
?2
Σ?=1
?2
? ? ??? ? ??? ? ???
1
?1
Σ?=1
?1
? ??
?
? ??
?
提案分布
Bridge関数
Bridge関数
??
?
~?(?|?)???~?(?)
提案分布から
のサンプル
事後分布から
のサンプル
Bridge Sampling
? つづき
? 実際の推定では?
21
? ? =
∫ ? ? ? ? ? ? ? ? ? ??
∫
? ? ? ? ?
? ?
? ? ? ? ??
=
∫ ? ? ? ? ? ? ? ? ? ??
∫ ? ? ? ? ?(?|?)??
=
? ? ? (? ? ? ? ? ? ? )
? ????(? ? ? ? )
提案分布
事後分布
?? ? =
1
?2
Σ?=1
?2
? ? ??? ? ??? ? ???
1
?1
Σ?=1
?1
? ??
?
? ??
?
提案分布
Bridge関数
Bridge関数
??
?
~?(?|?)???~?(?)
提案分布から
のサンプル
事後分布から
のサンプル
おわかりいただけただろうか?
22
提案分布はImportance Samplingのあれ
? Importance Sampling
? Generalized Harmonic Mean Estimator
? Bridge Sampling
23
これをみたときの俺 24
25
最適なBridge関数?()って
どんな関数なんだろう?
?? ? =
1
?2
Σ?=1
?2
? ? ??? ? ??? ? ???
1
?1
Σ?=1
?1
? ??
?
? ??
?
提案分布
Bridge関数
Bridge関数
最適なBridge関数(Meng & Wong, 1996)
? これが最適?相対的なMSE(平均二乗誤差)を最小にできる
? ここで問題がある?
? 周辺尤度?(?)を評価するため?(?)を導入したのに?その最適関数に周辺
尤度?(?)が入っている?
? 周辺尤度を求めたいのに周辺尤度を求めないと周辺尤度がわ
からない?
?どうする?
26
? ? = ? ?
1
?1 ? ? ? ? ? + ?2 ? ? ?(?)
ここで??1 =
N1
?2+?1
, ?2 =
N2
?2+?1
, Cは定数
尤度 事前分布 提案分布周辺尤度
何回もこれを計算して収束させたものを使おう
? t回目の最適関数?(?)をt+1回目の周辺尤度?(??)の式に代入
そして? ?整理した結果
27
? ? = ? ?
1
?1 ? ? ? ? ? + ?2 ?? ? ? ?(?)
?? ? ?+1 =
1
?2
Σ?=1
?2
? ? ??? ? ???
?1 ? ? ??? ? ??? + ?2 ?? ? ? ?( ???)
1
?1
Σ?=1
?1
? ??
?
?1 ? ? ??
?
? ??
?
+ ?2 ?? ? ? ?(??
?
)
??
?
~?(?|?) ???~?(?)
提案分布から
のサンプル
事後分布から
のサンプル
??4 ? ?+1 =
1
?2
Σ?=1
?2
?2,?
?1 ?2,? + ?2 ??4 ? ?
1
?1
Σ?=1
?1 1
?1 ?1,? + ?2 ??4 ? ?
?2,? =
? ? ??? ? ???
?( ???)
?1,? =
? ? ??
?
? ??
?
?(??
?
)
?1 =
N1
?2 + ?1
, ?2 =
N2
?2 + ?1
計算の手順 Gronau, et al.(2017)より引用 28
手順
1. 推定した事後分布から2×N個のサンプルを抽出してくる?
半分? (奇数番目)を?1?半分(偶数番目)を?1に分けておく?
提案分布2. を選ぶ
ex) (? 多変量)正規分布
3. ?1サンプルを正規分布(提案分布)に合うように(今回は)プロ
ビット変換する
4. 3.で変換した者を利用して正規分布のモーメント(平均?標準
偏差)を推定する?
5. 4.の正規分布から?2サンプルを生成する?
そのサンプルから6. ?2,?を計算する(R等で簡単にできる)?
7. 一番はじめに使っていない方の?1のサンプルを(今回は)プロ
ビット変換する?
事後分布8. を用いて? ?1,?を計算する(6.と同様に)?
ブリッジサンプリングの9. 更新を始める?
29
Bridge Samplingの弱点
1. 推定した事後分布から2×N個のサンプルを抽出してくる?
? 半分(奇数番目)を?1?半分(偶数番目)を?1に分けておく?
2. 提案分布を選ぶ
? ex) (多変量)正規分布
3. ?1サンプルを正規分布(提案分布)に合うように(今回は)プロ
ビット変換する
4. 3.で変換した者を利用して正規分布のモーメント(平均?標準
偏差)を推定する?
5. 4.の正規分布から?2サンプルを生成する?
6. そのサンプルから?2,?を計算する(R等で簡単にできる)?
7. 一番はじめに使っていない方の?1のサンプルを(今回は)プロ
ビット変換する?
8. 事後分布を用いて? ?1,?を計算する(6.と同様に)?
9. ブリッジサンプリングの更新を始める?
30
Bridge Samplingの弱点
? 他の近似方法よりも仮定は緩いが?事後分布と提案分布が似て
いて?オーバーラップしている必要がある?
これがかなり? 大事で?ダメだと推定できなくなってしまう?
どうしようか? ?
WARP? -III Bridge Sampling
?mean/scale/skewness(歪度)を調整する方法
WARP? -U Bridge Sampling
?混合分布のようなmulti-modal(多峰)な分布でも上記のよう
な調整を行う方法
31
WARP-III Gronau et al. (2017) Fig.2
? ヒストグラムが事後分布?実線が標準正規分布(提案分布)
32
この方法で大事なことは
正規化定数を維持した変
換であること?
WARP-U Wang & Meng (2016) Fig.3-4 33
WARP-U Wang & Meng (2016) Fig.3-4 34
多峰でもやっ
ていることは
大体同じ?
Bridge Samplingを用いた実際の研究
35
BridgeSamplingを用いた心理系論文
IGT? 課題でのモデル比較 Gronau et al.(2017)
Importance Sampling? で算出した対数周辺尤度とBridgeSamplingで算出し
た対数周辺尤度の一致率を示した研究
そして? ?BridgeSamplingを用いて?個人差を考慮した階層モデルにおける
周辺尤度を算出した?
36
今日のまとめ
? BridgeSamplingは昔からある方法だが?WARPという計算方法?
によってオーバーラップ力を挙げて?BFの計算が正確にできる
ようになった?
? StanとJAGSでWARP-III Bridge Samplingを行うパッケー
ジ”BridgeSampling”がこの前公開された(WARP-Uは搭載されて
いない模様)?
? パッケージの開発者曰く?Stanコードが書ける人なら誰でも
OKといっていたので?皆さんならBridge Samplingができないわ
けがない?
? BF出してみたいデータがある?なんかやり方よくわからねぇ...
?いつでも共同研究のご相談お待ちしています?
37
あなたの心に Bridge Sampling
私とあなたの Bayes Factor を求めよう
- Bridgeサンプリングを用いたベイズモデルの評価 –
専修大学大学院 文学研究科 M2 北條大樹
2017/10/15
ベイズとIRT勉強会@専修大学

More Related Content

あなたの心に叠谤颈诲驳别厂补尘辫濒颈苍驳

  • 1. あなたの心に Bridge Sampling 私とあなたの Bayes Factor を求めよう - Bridgeサンプリングを用いたベイズモデルの評価 – 専修大学大学院 文学研究科 M2 北條大樹 2017/10/15 IRT勉強会@専修大学 の資料を修正したものです?
  • 2. 目次 ? ベイズファクター ? 様々なBF算出方法 ? Bridge Sampling ? WARP-III ? 実際の心理学研究での応用例 ? まとめ 2
  • 3. 本スライドの主な文献 ( 上から順に多く引用 ) Gronau? , Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U., Marsman, M., ... & Steingroever, H. (2017). A tutorial on bridge sampling. arXiv preprint arXiv:1703.05984v2. Gronau? , Q. F., Wagenmakers, E. J., Heck, D. W., & Matzke, D. (2017). A Simple Method for Comparing Complex Models: Bayesian Model Comparison for Hierarchical Multinomial Processing Tree Models using Warp-III Bridge Sampling. Wang, L., & Meng, X. L. (? 2016). Warp bridge sampling: the next generation. arXiv preprint arXiv:1609.07690. Meng, X. L., & Schilling, S. (? 2002). Warp bridge sampling. Journal of Computational and Graphical Statistics, 11(3), 552-586. 3
  • 4. ベイズファクター ? パラメータ推定の文脈で?我々の興味のあるパラメータθの不 確かさを観測データyから求めるとき ? ? ? = ? ? ? ?(?) ?(?) と表される? ? モデル比較の文脈では? m 個の候補モデルがあり?データ y を 所与としたときの i 番目のモデルの相対的な最もらしさを表す モデル事後確率は? ?(??|?) = ? ? ?? ?(??) Σ?=1 ? ?(?|??)?(??) 事前分布尤度 事後分布 周辺尤度 Σ 周辺尤度×事前モデル確率 事後モデル確率 事後モデル確率 = 周辺尤度×事前モデル確率 / 候補すべての周辺尤度×事前モデル確率 4
  • 5. ベイズファクター ? もしここでm=2だったら... (比較したいモデルが2つのみ) ? つまりオッズで表すことが可能 ? 次のようにも 5 ?(?1|?) = ? ? ?1 ?(?1) Σ?=1 ? ?(?|??)?(??) ?(?2|?) = ? ? ?2 ?(?2) Σ?=1 ? ?(?|??)?(??) 同じ ? ?1 ? ? ?2 ? = ? ? ?1 ? ? ?2 × ? ?1 ?(?2) 事後オッズ 事前オッズベイズファクター ??12 = ? ? ?1 ? ? ?2 = ? ?1 ? ? ?2 ? ? ?1 ?(?2) ベイズファクター 事後オッズ 事前オッズ ベイズファクターとは?データによって与えられたモデル? ?に比して モデル? ?を支持する程度(オッズ)の変化を表す
  • 6. ベイズファクターって何? ある? 者は??? “standard Bayesian solution to the hypothesis testing and model selection problems” (Lewis & Rftery, 1997, p648) またある? 者は??? “the primary tool used in Bayesian inference for hypothesis testing and model selection” (Berger, 2006, p.378) それなのになぜBFを使わないのか? 6
  • 7. Q. なぜBFを使わないのか? A. 使わないというよりは?使えない(解析的に周辺尤度を計算で きない)ケースが多い???(‘?’?? ) ??? ??? ??? ??? ???( ??‘?’)??多重積分ワッショイ どんなケースで使えないのか? 非線形? モデル パラメータ? 数が多い場合(特に階層モデル) ?むしろ?ベイズファクターを使えるモデルを探すほうが?使え ないモデルを挙げていくより早いかも??? 7 じゃあ?結局BFは求められないのか?
  • 8. MCMCによる様々なBF(周辺尤度)への近似法 1. Naive Monte Carlo Estimator 2. Importance Sampling Estimator (重点サンプリング法) 3. Generalized Harmonic Mean Estimator (一般化調和平均法??) 4. Bridge Sampling (ブリッジサンプリング) 5. WARP-III bridge sampling or WARP-U bridge sampling 8 今回は?4. 5. の手法を重点的に紹介 1,2,3の詳しい話については?Gronau et al. (2017)を参照し?その後原著へ
  • 9. 再確認: 求めたいもの BF? を求めたい?すなわち?周辺尤度を求めれば勝ち 周辺尤度? って? ? 次のようにも… 9 ??12 = ? ? ?1 ? ? ?2 ? ? ? = ∫ ? ? ?, ? ? ? ? ?? 周辺尤度 尤度 事前分布 興味のあるモデルで yが観測される確率 = 事前分布を通した尤度の積分 = θを所与とするときの尤度の重み付き平均 (重みというのは事前分布θの最もらしさのこと) ? ? ? = ? ????? ? ? ?, ? ? ?????は事前分布の期待値を表す?
  • 10. 速習 Naive Monte Carlo Estimator ? 周辺尤度を求めたい?ただ?ここでどのモデルのとかはない ? これを近似するには?θにおける事前分布からのN個のサンプル で尤度を評価し?その結果を平均すればよい? ? コインの例で考えた具体例は?Gronau et al. (2017) p8-9 にて 10 ? ? ? = ? ????? ? ? ?, ? ?(?) = ? ????? ? ? ? ?(?) = ? ????? ? ? ? ??1 ? = 1 ? Σ?=1 ? ? ? ??? ???~?(?) 事前分布からのサンプル尤度の平均 この方法が使えるのは?事前分布と事後分布の形が似ていて?オーバーラップ していることが条件?
  • 11. 速習 Importance Sampling Estimator 事後分布? と’似ていない’事前分布を使うのではなく?importance density(重点密度) ???(?)を導入? 重点密度? の特徴は?尤度の高いところのθを重点的にサンプリ ングし?尤度の低いところはあまりサンプリングしない? 以下? のようにして???(?)を導入できる? 11 ?(?) = ∫ ? ? ? ? ? ?? = ∫ ? ? ? ? ? ??? ? ??? ? ?? = ? ? ? ? ? ? ??? ? ??? ? ?? = ? ? ?? ? ? ? ? ? ? ??? ?
  • 12. 速習 Importance Sampling Estimator 実際? に推定するときは??? 適切? な重点密度はどのような特徴をもつべき? 評価? が簡単 事後分布? と同一の定義域をもつ 事後分布? によく似ている 事後分布? よりも厚い裾(fatter tail)を持つこと 12 ??2 ? = 1 ? Σ?=1 ? ? ? ??? ? ??? ???( ???) ???~???(?) 重点密度からのサンプル調整された尤度の平均
  • 13. 速習 Importance Sampling Estimator ? どのように重点密度を決めるか? ? コインの例では?事後分布はβ分布で表せる?そのため適切な重点密度をβ 分布と一様分布の混合分布で定義しようとしている? ? この際?混合分布におけるベータ分布は?事後分布からのサンプルを使っ てモーメント推定をして得たモーメントを用いている? ? モーメント:β分布でいえばα?βパラメータを指し?正規分布でいえば平均と標 準偏差パラメータをさす? ? 最後に?ベータ分布と一様分布の混合具合を決めるチューニング(重み) パラメータを?を用意し?これによってどっちの分布を多めにチューニン グするかを決めて?重点密度分布からのサンプリングを行う? 13 ※ ?の調節が大変?
  • 14. 速習 Generalized Harmonic Mean Estimator ? Importance Samplingとは対照的で?thinner tailになるようにする? ? そして?事後分布からのサンプルを使って計算するように変更? 14 1 ? ? = ? 1 ? ? ??? ? ?? = ? ?(?|?) ? ? ? ? ? ??? ? ?? = ? ??? ? ? ? ? ? ? ?(?|?)?? = ? ???? ??? ? ? ? ? ? ? ? ? = ? ???? ??? ? ? ? ? ? ? ?1 p(y) = ? ? ?? ? ? ? ? ? ? ??? ? 参考:Importance Sampling ? 逆数になっている ? 事後分布からのサンプルを使う
  • 15. 速習 Generalized Harmonic Mean Estimator ? 実際に推定するときは??? ? 適切な重点密度はどのような特徴をもつべき? ? 評価が簡単 ? 事後分布と同一の定義域をもつ ? 事後分布によく似ている ? 事後分布よりも薄い裾(thinner tail)を持つこと ? コインの例では?事後サンプルが0-1の範囲しか取らないので? サンプルをまず?プロビット変換して?-∞~∞(正規分布)の範囲 で考えられるようにして?Importance Sampling 同様にモーメン ト推定を行う? 15 ??3 ? = 1 ? Σ?=1 ? ??? ?? ? ? ? ?? ? ? ?? ? ?1 ?? ? ~?(?|?) 重点密度 尤度 事前分布 事後分布からの サンプル 注: ?? ? と ???は?違う分布 からサンプリングされ ていることに注意
  • 16. 速習 Generalized Harmonic Mean Estimator プロビット? 変換をして考える場合 と表現できる 16 ??3 ? = 1 ? Σ?=1 ? ??? ?? ? ? ? ?? ? ? ?? ? ?1 ?? ? ~?(?|?) 重点密度 尤度 事前分布 事後分布からの サンプル 注: ?? ? と ???は?違う分布 からサンプリングされ ていることに注意 ??3 ? = 1 ? Σ?=1 ? 1 ?? ? ?? ? ? ?? ?? ? ? Φ(?? ? ) ? ?? ? ?1 重点密度 尤度 事前分布 ?? ? = Φ?1 ?? ? ??? ?? ? ~?(?|?) 事後分布からのサンプル?? ? を プロビット変換したサンプル?? ?
  • 17. ここまでまとめ Importance Sampling? では?重点密度分布からのサンプル ???を利 用して?周辺尤度を求めようとする? Generalized Harmonic Mean Estimator? では?上記の逆数を考える ことで事後分布からのサンプル?? ? から最適な重点密度分布を 探して周辺尤度を求めようとした? ただ? ?2つの方法の欠点は?分布の裾に強い仮定(厚いか?薄いか) を置いており?これが高次元空間では満たすことができない? どうする? ? ?ようやく Bridge Sampler が登場? 17 ??? ?? ? ?()
  • 19. Bridge Sampling ここで? 適当に比を書いてみる? なんとなく? 周辺尤度?(?)を両辺に掛けてみる? 19 1 = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ? ? ? ? ? ?? 尤度 事前分布 Bridge関数 提案分布 尤度 事前分布 Bridge関数 提案分布 ? ? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ? ? ? ? ? ? ? ?? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ?(?|?)?? 提案分布 事後分布
  • 20. Bridge Sampling つづき? 実際? の推定では? 20 ? ? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ? ? ? ? ? ? ? ?? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ?(?|?)?? = ? ? ? (? ? ? ? ? ? ? ) ? ????(? ? ? ? ) 提案分布 事後分布 ?? ? = 1 ?2 Σ?=1 ?2 ? ? ??? ? ??? ? ??? 1 ?1 Σ?=1 ?1 ? ?? ? ? ?? ? 提案分布 Bridge関数 Bridge関数 ?? ? ~?(?|?)???~?(?) 提案分布から のサンプル 事後分布から のサンプル
  • 21. Bridge Sampling ? つづき ? 実際の推定では? 21 ? ? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ? ? ? ? ? ? ? ?? = ∫ ? ? ? ? ? ? ? ? ? ?? ∫ ? ? ? ? ?(?|?)?? = ? ? ? (? ? ? ? ? ? ? ) ? ????(? ? ? ? ) 提案分布 事後分布 ?? ? = 1 ?2 Σ?=1 ?2 ? ? ??? ? ??? ? ??? 1 ?1 Σ?=1 ?1 ? ?? ? ? ?? ? 提案分布 Bridge関数 Bridge関数 ?? ? ~?(?|?)???~?(?) 提案分布から のサンプル 事後分布から のサンプル
  • 23. 提案分布はImportance Samplingのあれ ? Importance Sampling ? Generalized Harmonic Mean Estimator ? Bridge Sampling 23
  • 25. 25 最適なBridge関数?()って どんな関数なんだろう? ?? ? = 1 ?2 Σ?=1 ?2 ? ? ??? ? ??? ? ??? 1 ?1 Σ?=1 ?1 ? ?? ? ? ?? ? 提案分布 Bridge関数 Bridge関数
  • 26. 最適なBridge関数(Meng & Wong, 1996) ? これが最適?相対的なMSE(平均二乗誤差)を最小にできる ? ここで問題がある? ? 周辺尤度?(?)を評価するため?(?)を導入したのに?その最適関数に周辺 尤度?(?)が入っている? ? 周辺尤度を求めたいのに周辺尤度を求めないと周辺尤度がわ からない? ?どうする? 26 ? ? = ? ? 1 ?1 ? ? ? ? ? + ?2 ? ? ?(?) ここで??1 = N1 ?2+?1 , ?2 = N2 ?2+?1 , Cは定数 尤度 事前分布 提案分布周辺尤度
  • 27. 何回もこれを計算して収束させたものを使おう ? t回目の最適関数?(?)をt+1回目の周辺尤度?(??)の式に代入 そして? ?整理した結果 27 ? ? = ? ? 1 ?1 ? ? ? ? ? + ?2 ?? ? ? ?(?) ?? ? ?+1 = 1 ?2 Σ?=1 ?2 ? ? ??? ? ??? ?1 ? ? ??? ? ??? + ?2 ?? ? ? ?( ???) 1 ?1 Σ?=1 ?1 ? ?? ? ?1 ? ? ?? ? ? ?? ? + ?2 ?? ? ? ?(?? ? ) ?? ? ~?(?|?) ???~?(?) 提案分布から のサンプル 事後分布から のサンプル ??4 ? ?+1 = 1 ?2 Σ?=1 ?2 ?2,? ?1 ?2,? + ?2 ??4 ? ? 1 ?1 Σ?=1 ?1 1 ?1 ?1,? + ?2 ??4 ? ? ?2,? = ? ? ??? ? ??? ?( ???) ?1,? = ? ? ?? ? ? ?? ? ?(?? ? ) ?1 = N1 ?2 + ?1 , ?2 = N2 ?2 + ?1
  • 28. 計算の手順 Gronau, et al.(2017)より引用 28
  • 29. 手順 1. 推定した事後分布から2×N個のサンプルを抽出してくる? 半分? (奇数番目)を?1?半分(偶数番目)を?1に分けておく? 提案分布2. を選ぶ ex) (? 多変量)正規分布 3. ?1サンプルを正規分布(提案分布)に合うように(今回は)プロ ビット変換する 4. 3.で変換した者を利用して正規分布のモーメント(平均?標準 偏差)を推定する? 5. 4.の正規分布から?2サンプルを生成する? そのサンプルから6. ?2,?を計算する(R等で簡単にできる)? 7. 一番はじめに使っていない方の?1のサンプルを(今回は)プロ ビット変換する? 事後分布8. を用いて? ?1,?を計算する(6.と同様に)? ブリッジサンプリングの9. 更新を始める? 29
  • 30. Bridge Samplingの弱点 1. 推定した事後分布から2×N個のサンプルを抽出してくる? ? 半分(奇数番目)を?1?半分(偶数番目)を?1に分けておく? 2. 提案分布を選ぶ ? ex) (多変量)正規分布 3. ?1サンプルを正規分布(提案分布)に合うように(今回は)プロ ビット変換する 4. 3.で変換した者を利用して正規分布のモーメント(平均?標準 偏差)を推定する? 5. 4.の正規分布から?2サンプルを生成する? 6. そのサンプルから?2,?を計算する(R等で簡単にできる)? 7. 一番はじめに使っていない方の?1のサンプルを(今回は)プロ ビット変換する? 8. 事後分布を用いて? ?1,?を計算する(6.と同様に)? 9. ブリッジサンプリングの更新を始める? 30
  • 31. Bridge Samplingの弱点 ? 他の近似方法よりも仮定は緩いが?事後分布と提案分布が似て いて?オーバーラップしている必要がある? これがかなり? 大事で?ダメだと推定できなくなってしまう? どうしようか? ? WARP? -III Bridge Sampling ?mean/scale/skewness(歪度)を調整する方法 WARP? -U Bridge Sampling ?混合分布のようなmulti-modal(多峰)な分布でも上記のよう な調整を行う方法 31
  • 32. WARP-III Gronau et al. (2017) Fig.2 ? ヒストグラムが事後分布?実線が標準正規分布(提案分布) 32 この方法で大事なことは 正規化定数を維持した変 換であること?
  • 33. WARP-U Wang & Meng (2016) Fig.3-4 33
  • 34. WARP-U Wang & Meng (2016) Fig.3-4 34 多峰でもやっ ていることは 大体同じ?
  • 36. BridgeSamplingを用いた心理系論文 IGT? 課題でのモデル比較 Gronau et al.(2017) Importance Sampling? で算出した対数周辺尤度とBridgeSamplingで算出し た対数周辺尤度の一致率を示した研究 そして? ?BridgeSamplingを用いて?個人差を考慮した階層モデルにおける 周辺尤度を算出した? 36
  • 37. 今日のまとめ ? BridgeSamplingは昔からある方法だが?WARPという計算方法? によってオーバーラップ力を挙げて?BFの計算が正確にできる ようになった? ? StanとJAGSでWARP-III Bridge Samplingを行うパッケー ジ”BridgeSampling”がこの前公開された(WARP-Uは搭載されて いない模様)? ? パッケージの開発者曰く?Stanコードが書ける人なら誰でも OKといっていたので?皆さんならBridge Samplingができないわ けがない? ? BF出してみたいデータがある?なんかやり方よくわからねぇ... ?いつでも共同研究のご相談お待ちしています? 37
  • 38. あなたの心に Bridge Sampling 私とあなたの Bayes Factor を求めよう - Bridgeサンプリングを用いたベイズモデルの評価 – 専修大学大学院 文学研究科 M2 北條大樹 2017/10/15 ベイズとIRT勉強会@専修大学