狠狠撸

狠狠撸Share a Scribd company logo
モデル選択 part 2
6/1/2019
榎本昌文
酒井一徳
Kwansei Gakuin Univ. Okadome Lab.
目次 2/60
1. はじめに
2. AIC, BIC, ABIC, PIC, MDL
3. WAIC, WBIC
BIC (Bayesian Information Criterion)
BICとは 4/60
対数周辺尤度の(漸近)近似値。
自由エネルギー:
(β=1で対数周辺尤度)
をガウス積分したものがBIC。
一言でBIC:
BICによるモデル比較の理念 5/60
? m個の確率モデル を用意。
? データ についてモデルごとの周辺尤度、
はそのモデルからデータ が得られる尤もらしさ。
BICによるモデル比較の理念 6/60
? i番目のモデルの生起確率を として、その事後分布
はデータ が観測された時、i番目のモデルから生起する確率。
? とすれば周辺尤度が最大のモデルの選択をすれば良い。
BICの導出 7/60
上記を用いて自由エネルギーは、
と書ける。
を最小にする について以下が成立。
?
? 行列 が正定値。
BICの導出 8/60
仮定: パラメータの事後分布が正規分布で近似可能。
仮定から言える。
BICの導出 9/60
の近傍において
を用いて自由エネルギーは、
と書けるので→
BICの導出 10/60
ガウス積分
対数とってβで割る
誤差吸収項
BICの導出 11/60
で
定数以上オーダー
以上オーダー
BICと事前分布 12/60
? 事前分布に超パラメータを導入しても、
BICは超パラメータに依らない。
尤度関数のみ
ならば事前分布の影響もあるんじゃないか?
? 叠滨颁では超パラメータの决定はできない。
BICと事前分布 13/60
結論から言うと、 だから。
BICの導出において何を使ったか 14/60
事後分布がガウス分布で近似できること。
意訳すると、事後分布がパラメータ空間で局在すること。
同じ高さの峰は許されない。
は一つだけ。
バイアスを戻すなどの考えはない。
あくまでも周辺尤度の近似。
BICの適用例 (x-means) 15/60
BICの適用例 (x-means) 16/60
? あるクラスタ について、
モデル1:
モデル2:
ハード割り当て
ABIC (Akaike’s Bayesian information criterion)
17/60
ABIC (Akaike’s Bayesian information criterion) 18/60
? 超パラメータを周辺尤度最大化で決定しよう。
事前分布 を導入する。
周辺尤度:
を予測分布とし、汎化性能を測りたい→
として
ABIC (Akaike’s Bayesian information criterion) 19/60
AICのモデル(尤度関数)に周辺尤度を入れたもの。
予測分布の汎化損失を測る意図。
ABIC (Akaike’s Bayesian information criterion) 20/60
そもそもこれは周辺尤度
どのモデルがデータをより説明するか、の指標とも取れる。
? そも周辺尤度計算できるの?
? 近似。
それでいいのか
PIC (predictive information criterion)
21/60
統計的モデルを作る目的 (再掲) 22/60
予測分布
? 最尤推測
の作り方
? MAP推測
? 平均プラグイン推測
? ベイズ推測
超パラメータ を導入した事前分布 による予測分布
PIC (predictive information criterion) 23/60
? 予測分布の良さは汎化損失で測る。
事後分布
不偏推定量 (再掲) 24/60
? 最尤推測による予測分布 の汎化損失は
学習とは別サンプルを用いて、
は、
(不偏推定量)
? ベイズ推測による予測分布 においても
別サンプルを評価に使えば問題ない。
でもサンプルは節約したい バイアス補正しよう
ベイズ予測分布のバイアス 25/60
バイアス期待汎化損失
予測分布:
汎化損失:
予測分布の
負の対数平均:
PIC (predictive information criterion) 26/60
バイアス
ただし、
解析的に計算は困難
バイアス計算 (解析的に計算できる例) 27/60
? 線形ガウス。
尤度関数:
事前分布:
予測分布:
事後もガウス
バイアス計算 (解析的に計算できる例) 28/60
真の分布もガウス系と仮定
バイアス計算 (解析的に計算できない例) 29/60
MDLというのがあるらしいぞ 30/60
MDL (minimum description length)
31/60
可逆圧縮と鳩の巣理論 32/60
? 復元可能な範囲で情報圧縮、
N 個の椅子に N+1 人は座れない。
可逆圧縮は一対一対応。
出現確率の高いパターンに短い符号を
出現確率の低いパターンに長い符号を
わりあてよう。
古典例 33/60
? 英語のアルファベットの出現頻度
※wikiより。図の出典不明。
平均符号長 34/60
情報量の少ないパターンに短い符号を
情報量の多いパターンに長い符号をわりあてよう。
理論最小値
真の分布がわかる場合の可逆圧縮 35/60
abc
01011
頻度 符号 符号長
a 5/10 0 1
b 3/10 10 2
c 2/10 11 2
データ列
の符号長関数 がクラフトの不等式、
を満たす時、その符号長の語頭符号が
存在する。(証明略)
発生確率 が既知ならば、
により満たすことができる(シャノンの情報理論)。
真の分布がわからない場合の可逆圧縮 36/60
abc
???????....
頻度 符号 符号長
a ? ? ?
b ? ? ?
c ? ? ?
? 近似分布 を定義。
? 平均符号長は、
冗長度
冗長度を最小化するモデルが
最小平均符号長を達成する。
未知の分布
Rissanen の2段階符号化 37/60
MDL (Minimum Description Length):
? 符号長は2つからなる
モデルの記述長 モデルを用いた
データの記述長
? パラメータ で指定されるモデル を定義。
? データ列 から最尤推定量 を計算。
? 推定量を適当な符号長 を用いて語頭符号化。
? モデル を用いてデータを符号化。
2段階符号化からMDL基準の導出 38/60
全体の符号長は、
手順:
の各軸方向に の幅を持つセルに分割。
このままでは
量子化 39/60
(実数値の符号化には無限桁必要)
パラメータ空間 を微小なセルに分割し、
の値を代表値(有限桁) に置きかえよう。
量子化 40/60
パラメータ空間 上の任意の事前分布 を定めると、
を含むセルの生起確率( の生起確率)はおよそ、
であるからその符号長は、
よって全符号長は、
注意
量子化幅 によって第一項と第二項はトレードオフ。
量子化 41/60
第一項は小、第二項は大
第一項は大、第二項は小
最適な量子化幅が存在するはず。
? を の周りで展開。
量子化 42/60
より、
ここで行列 は、 が正則の場合、
において
に収束する。
以後、上記で置き換えて最小化を考える。
ただし、全ての軸方向の量子化幅について
? について、以下を最小化。
量子化 43/60
解くと
を得る。
量子化した時の符号長 44/60
までの項を取り出すと、
MDL基準 45/60
第一項:
第二項: の精度で符号化するための符号長。
によるデータの符号長。
パラメータの推定は 以下にできない。
3 WAIC, WBIC
正則モデルとは 47/60
パラメータの事後分布が正規分布で近似可能。
必要条件
KL距離 の最適値 が一つだけ
→1つだけじゃないときはどうするねん
パラメータ空間の特異点を考えざるをえない
特異点 48/60
KL距離:
の中で特別な条件を満たすパラメータ特異点:
非正則な場合の挙動 49/60
KL距離:
上の関数に値をとる確率変数パラメータ集合 は
が特異点をもつときに, どのような挙動をもつだろうか
→ 特異点解消定理(平中)を用いる. 代数幾何の世界へ…
学習理論への架け橋 50/60
特異点
代数幾何
超関数
経験過程
学習理論
WAIC, WBIC
3.1 WAIC
WAICの定義 52/60
経験損失:
汎化損失:
ベイズ予測分布
学習と同じデータを用いている
バイアスを戻す必要あり
WAICの定義 53/60
WAIC (Widely Applicable Information Criterion):
経験損失:
汎関数損失:
WAICの定義 54/60
3.2 WBIC
WBICの定義 56/60
自由エネルギー:
経験対数損失:
事後分布:
WBICの定義 57/60
WBIC (Widely Applicable Bayesian Information Criterion):
ただし
事後分布:
経験対数損失:
参考文献
参考文献 59/60
[1] 韓太舜?小林欣吾 (1999). 情報と符号化の数理, 培風館.
[2] 渡辺澄夫 (2012). ベイズ統計の理論と方法, コロナ社.
[3] 小西貞則?北側源四郎 (2004). 情報量基準(予測と発見の科学), 朝倉書店.
[4] 坂元慶行?石黒真木夫?北川源四郎 (1983). 情報量統計学(情報科学講座 A?5?4), 共立出版.
[5] 赤池弘次?甘利俊一?北川源四郎?樺島祥介?下平英寿 (2007).
赤池情報量基準AIC(モデリング?予測?知識発見), 共立出版.
[6] 渡辺澄夫 (2014). ラフ?ラスとフィッシャーから荒野へ,
電子情報通信学会 情報?システムソサイエティ, 18, 4, 17-18.
参考文献 60/60
[7] 山西健司 (2017). 記述長最小原理の進化(基礎から最新の展開).
電子情報通信学会 基礎?境界ソサイエティ, 10, 3, 186-194.
[8] Pelleg, D., & Moore, A. W. (2000, June).
X-means: extending k-means with efficient estimation of the number of clusters.
In Icml (Vol. 1, pp. 727-734).
[9] Burnham, K. P., & Anderson, D. R. (2004).
Multimodel inference: understanding AIC and BIC in model selection.
Sociological methods & research, 33(2), 261-304.
[10] 渡辺澄夫, Sumio Watanabe Home Page,
<http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/index-j.html>,
2019年6月1日アクセス.

More Related Content

model selection and information criteria part 2

Editor's Notes

  • #9: 最小値を与える尘补辫値が一つだけなのも事后分布が正规分布で近似できるという仮定から
  • #34: https://ja.wikipedia.org/wiki/%E9%A0%BB%E5%BA%A6%E5%88%86%E6%9E%90_(%E6%9A%97%E5%8F%B7) qの後はほぼuなどの条件つき分布も 考えられる。 ブロック化などもできる。そこまで今回は触れない。全部iidとする。
  • #37: 正確にはデータの数で割ったものが冗長度 平均符号長の最小化の意義
  • #43: 情报行列の値は二次导関数的に考えれば、大きい値はその周りで変化が大きいため、尖ってるとみなせる。