狠狠撸

狠狠撸Share a Scribd company logo
モデル選択 part1
5/29/2019
榎本昌文
酒井一徳
Kwansei Gakuin Univ. Okadome Lab.
目次 2/83
1. はじめに
1.1 統計的モデリング, その目的と手段
1.2 情報量規準
2. AIC
2.1 正則条件
2.2 AICの導出
参考文献
1. はじめに
3/83
1.1 統計的モデリング, その目的と手段
4/83
表記 5/83
: 真の分布
: 確率モデル(尤度関数)
: 事前分布
サンプル確率変数
: 予測分布
表記 6/83
? サンプルの現れ方に対する期待値
? 確率変数 に対する期待値
? 事後分布による期待値
統計的モデリングとは何か 7/83
確率モデル を設計すること
データが生成される真の分布 の推測において
と事前分布
→ 目的によって, モデルの評価は異なるべき
統計的モデルを作る目的 8/83
? 新たなデータの予測
真の分布 と予測分布 を近づける
→ KL距離で定量化
統計的モデルを作る目的 9/83
汎化損失の期待値
汎化損失 は予測分布を介して, サンプルに依存するので,
を最小化したい
予測分布 は確率モデル, 事前分布に依存することに注意
統計的モデルを作る目的 10/83
予測分布
? 最尤推測
の作り方
? MAP推測
? 平均プラグイン推測
? ベイズ推測
統計的モデルを作る目的 11/83
? データが生成される構造の推定
真の分布 と周辺尤度 を近づける
→ KL距離で定量化
統計的モデルを作る目的 12/83
逆温度1での自由エネルギーの期待値
を最小化したい
逆温度1での自由エネルギー :
周辺尤度が確率モデル, 事前分布に依存することに注意
統計的モデルを作る目的 13/83
自由エネルギーとは何か?
事後分布 :
分配関数 :
自由エネルギー :
逆温度が1のとき
汎化損失と自由エネルギーの関係 14/83
目的 : 新たなデータの予測
手段 :
目的 : データが生成される構造の推定
手段 :
の最小化
汎化損失の期待値 の最小化
逆温度1での自由エネルギーの期待値 同じ?
汎化損失と自由エネルギーの関係 15/83
一般の予測分布のとき, 関係は不明
ベイズ予測分布 を使うと
新たなデータの予測 データが生成される構造の推測
? 予測と構造の推測は等価ではない
? しかし, 何らかの関係がある
目的となる期待値の推定量 再掲 16/83
目的 : 新たなデータの予測
手段 :
目的 : データが生成される構造の推定
手段 :
の最小化
汎化損失の期待値 の最小化
逆温度1での自由エネルギーの期待値
17/83
目的 : 新たなデータの予測
手段 : 汎化損失の期待値 の最小化
の不偏推定量
? 真の分布 は不明
? 汎化損失 は
つまり良い推定量
目的となる期待値の推定量
18/83
目的 : 新たなデータの予測
手段2 : 汎化損失サンプルに対して
(不偏推定量)
? やっぱり は不明なので,
? なるべく
が最小のモデルを選ぶ
計算できる で近似
となってほしい
目的となる期待値の推定量
* クロスバリデーションは の構成法の1つ (後述)
19/83
となってほしい
目的となる期待値の推定量
20/83
手段 :
目的 : データが生成される構造の推定
の最小化逆温度1での自由エネルギーの期待値
の不偏推定量
? 真の分布 は不明
? 自由エネルギー は
つまり良い推定量
目的となる期待値の推定量
21/83
手段2 : 自由エネルギーサンプルに対して
(不偏推定量)
? 解析的な は不明なので,
? なるべく
が最小のモデルを選ぶ
計算できる で近似
となってほしい
目的 : データが生成される構造の推定
目的となる期待値の推定量
22/83統計的モデリング, その目的と手段 まとめ
モデル選択の目的
予測精度の向上 構造の推定
汎化損失の近似
が最小なモデルを選択
自由エネルギーの近似
が最小なモデルを選択
? 近似量は計算可能である必要がある
? 近似量は不偏推定量であることが望ましい
1.2 情報量規準
23/83
24/83情報量規準とは何か
汎化損失の近似
自由エネルギーの近似
の総称情報量規準とは
? ほとんどの情報量規準は確率モデルと真の分布との関係にある仮定
を置いて, 導出される
? それは正則理論と呼ばれる枠組みで議論されてきた
? 正則理論が使えない場合も, 使える情報量規準が存在する
25/83情報量規準マップ
汎化損失の近似 自由エネルギーの近似
予測分布
正則
非正則
TIC
AIC DIC
RIC
NICGIC
BIC
ABIC
WAIC WBIC
PIC
26/83これから何を話すか
汎化損失の近似 自由エネルギーの近似
予測分布
正則
非正則
TIC
AIC DIC
RIC
NICGIC
BIC
ABIC
WAIC WBIC
part1
の形
PIC
part2
2. AIC
27/83
2.1 正則条件
28/83
正則モデルとは 29/83
パラメータの事後分布が正規分布で近似可能。
必要条件
① の最適値 が一つだけ。
② におけるヘッセ行列が正定値。
③ サンプル数が非常に大きい。
直感的理解 30/83
事前尤度(モデル)
事後
パラメータの事後分布が正規分布で近似可能。
直感的理解 31/83
尤度(モデル)
パラメータの事後分布が正規分布で近似可能。
真の分布
nが大きくなるにつれ、
事前分布は無視される
事後分布はこの
2つに強く依存
直感的理解 32/83
同じ高さの峰は許されない。
は一つだけ。
が に対して正則とは、
正則 33/83
① の最適値 が一つだけ。
② におけるヘッセ行列が正定値。
かつ
(=フィッシャー情報量行列が正定値)
サンプル数が十分に大きい? (再掲) 34/83
パラメータの事後分布が正規分布で近似可能。
必要条件
① の最適値 が一つだけ。
② におけるヘッセ行列が正定値。
③ サンプル数が非常に大きい。
どのくらい?
データ数の多寡と構造の発見 35/83
データ空間
“ラプラスとフィッシャーから荒野へ”より
30個 300個
正則理論はサンプル数によらず
構造が固定のもとでの理論。
十分に構造を捉えられるだけの
サンプル数が必要。
どのくらいのデータ数が必要か 36/83
? 事後分布とデータ数の関係を具体例で確認。
モデル:
パラメータ空間と事前分布を以下に制限。
5
どのくらいのデータ数が必要か 37/83
真の分布:
上記3通りで比較。
(0.5, 3.0) (0.5, 1.0) (0.5, 0.5)
どのくらいのデータ数が必要か 38/83
? samples=100 での事後分布の形状。
(0.5, 3.0)
(0.5, 1.0) (0.5, 0.5)
MLE
=(0.47, 3.05)
MLE
=(0.65, 0.55)
MLE
=(0.15, 0.71)
サンプルの出方に
ほぼ依存しない
依存しまくり
どのくらいのデータ数が必要か 39/83
? samples=25 での事後分布の形状。
(0.5, 3.0)
(0.5, 1.0) (0.5, 0.5)
MLE
=(0.55, 2.35)
MLE
=(1.0, 0.25)
MLE
=(1.0, -0.25)
(データ空間で)
単峰ガウスだと
勘違いしている
データ数の多寡と構造の発見 40/83
MLE=(1.0, 0.25) MLE=(0.65, 0.55)
samples=100samples=25
? の場合。
? 構造の発見(できてるかは微妙かも)
データ数の多寡と構造の発見 41/83
? 事後分布はMCMCで計算。
? 真のパラメータ点での
フィッシャー情報行列は
正定値。
? nはデータ数。
パラメータ2つ、
データ1万でも正規分布に
近似できない。
http://watanabe-
www.math.dis.titech.ac.jp/use
rs/swatanab/likelihood.html
正則モデルとは (再々掲) 42/83
パラメータの事後分布が正規分布で近似可能。
必要条件
① の最適値 が一つだけ。
② におけるヘッセ行列が正定値。
③ サンプル数が非常に大きい。 曲者
必要数は真の分布とモデルに強く依存
正則理論の注意点 43/83
① の最適値 が一つだけ。
② におけるヘッセ行列が正定値。
③ サンプル数が非常に大きい。
真の分布とモデルの組み合わせに依存。
適用していいのか判断不可能。
あんまり
わかんない
わかんない
2.2 AICの導出
44/83
45/83大まかな目次
確率モデルの評価
最尤推定量を使った尤度によるモデル選択の問題点
最尤推定量の漸近的性質
バイアスの導出
確率モデルの評価
46/83
47/83予測分布のスキーム
を確率モデル予測分布 の形に制限
汎化損失は
と書ける
汎化損失を最小にするパラメータ
を最適なパラメータと呼ぶ
48/83予测分布のスキーム
49/83最尤推定量から予測分布を構成
1. 確率モデル を用意
2. サンプルから最尤推定量 を計算
3. 確率モデルのパラメータに最尤推定量を代入
これを予測分布とする
50/83確率モデルの良さを定量化
得られたサンプルによって最尤推定量
従って確率モデルを選択するために, 予測分布の平均的良さを知りたい
が異なる
つまり サンプルによって予測分布 が異なる
汎化損失の期待値
51/83確率モデルの良さを定量化
汎化損失の期待値
最尤推定量を使った尤度による
モデル選択の問題点
52/83
53/83最尤法によるモデル選択 & 予測
最尤推定量
2. 真の分布 からn個のサンプル が得られたとき
対数尤度関数 を定義する
を計算する
1. m個の確率モデル を用意しておく
それぞれ
3. 負の対数尤度を最小にするモデルを選択
54/83最尤法によるモデル選択 & 予測
4. 予測分布を とする
予測分布 は汎化性能が良くない
→ 尤度の比較はよくない手法なのか?
55/83尤度比較はよくない?
m個の確率モデル を用意するパラメータが固定された
この中から予測分布 を選ぶとする
予測分布の候補の汎化損失は
真の分布 からn個のサンプル が得られたとき
負の対数尤度の平均は
56/83尤度比較はよくない?
汎化損失
負の対数尤度の平均
大数の法則により
? サンプルが多ければ, 汎化損失の代わりに尤度を使っても問題ない
? モデルの评価だけにサンプルが使われている
57/83学習サンプルと評価サンプル
汎化損失の期待値
もし真の分布 から別のサンプル をとってきて
汎化損失の近似
を作ると
(不偏推定量)
58/83学習サンプルと評価サンプル
期待汎化損失の不偏推定量
? 最尤推定でパラメータを決定する場合でも, 学習と評価で異なる
サンプルを使えば, 尤度比較は良い手法
→ 学習と評価で同じサンプルを使うと, 尤度比較は良くない?
59/83学習サンプルと評価サンプル 再掲
汎化損失の期待値
もし真の分布 から全く同じサンプル をとると
汎化損失の近似は
負の平均対数尤度になる
60/83学習サンプルと評価サンプル 再掲
負の平均対数尤度
この推定量は一般に不偏推定量ではなさそう
? 学習と評価で同じサンプルを用いたことで, 何らかのバイアスが
生じたと考えられる
? このバイアスを補正することで, 良い推定量が作れるかも
61/83最尤推定量を使った尤度のバイアス
汎化損失の期待値を分解
バイアス期待汎化損失 負の期待対数尤度
バイアスは真の分布に依存するので, 直接計算はできない
従って, テイラー展開を使って2次近似をおこなう
の分布が正規分布に従えば, 近似が簡単になる更に
最尤推定量の漸近的性質
62/83
63/83最尤推定量の漸近的性質
の分布はd次元正規分布
汎化損失
確率モデルが正則モデルの条件を満たすとき次が成り立つ
を最小にするパラメータを と置く
? 最尤推定量 は のとき に確率収束する
? 確率変数
に法則収束する
ただし
バイアスの導出
64/83
65/83最尤推定量を使った尤度のバイアス
期待汎化損失を分解
バイアス期待汎化損失 期待対数尤度
何これ?
66/83尤度関数と真の尤度との差
真の尤度過大評価された尤度
真の尤度
過大評価された尤度
はサンプル に対して最適
67/83尤度関数と真の尤度との差
真の尤度過大評価された尤度
68/83バイアスの分解
69/83バイアスの分解
70/83バイアスの分解
71/83バイアスの分解
の期待値
とおくと
(テイラー展開)
72/83バイアスの分解
(漸近正則性)
従って
73/83バイアスの分解
の期待値
(テイラー展開)
は のとき に確率収束する
かつ大数の法則 より
は のとき に確率収束する
74/83バイアスの分解
の期待値
(漸近正則性)
従って
75/83バイアスの分解
真の尤度過大評価された尤度
76/83期待汎化損失の近似
期待汎化損失を分解
バイアス期待汎化損失 期待対数尤度
バイアス を代入
を得る
77/83TIC
結局 の計算には真の分布が必要なので
これも推定するしかない
汎化誤差の近似
78/83TIC
行列 を一致推定量に置き換えたものは
TIC(Takeuchi Information 颁谤颈迟别谤颈辞苍)と呼ばれる
79/83AIC
汎化誤差の近似
もし 真の分布がモデルに含まれるなら
が成り立つ
そのとき
従って
この場合の汎化損失の近似は赤池情報量と呼ばれる
80/83AIC
AIC(Akaike Information Criterion)
? おおまかにパラメータの数に比例して, 尤度は過大評価される
AICはそれを補正する
? 尤度さえ計算できればAICは簡単に計算できる
81/83AIC, TICのオーダー
最尤推定量が正規分布に従うほどサンプルが多い場合は
? AICもTICも不偏推定量に近い
82/83参考文献
[1] 韓太舜?小林欣吾 (1999). 情報と符号化の数理, 培風館.
[2] 渡辺澄夫 (2012). ベイズ統計の理論と方法, コロナ社.
[3] 小西貞則?北側源四郎 (2004). 情報量基準(予測と発見の科学), 朝倉書店.
[4] 坂元慶行?石黒真木夫?北川源四郎 (1983). 情報量統計学(情報科学講座 A?5?4), 共立出版.
[5] 赤池弘次?甘利俊一?北川源四郎?樺島祥介?下平英寿 (2007).
赤池情報量基準AIC(モデリング?予測?知識発見), 共立出版.
[6] 渡辺澄夫 (2014). ラフ?ラスとフィッシャーから荒野へ, 電子情報通信学会 基礎?境界ソサイエ
ティ,
10, 3, 186-194.
83/83参考文献
[7] 山西健司 (2017). 記述長最小原理の進化(基礎から最新の展開). 電子情報通信学会 基礎?境界
ソサイエティ, 10, 3, 186-194.
[8] Pelleg, D., & Moore, A. W. (2000, June). X-means: extending k-means with efficient
estimation of the number of clusters. In Icml (Vol. 1, pp. 727-734).
[9] Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: understanding AIC and
BIC in model selection. Sociological methods & research, 33(2), 261-304.
[10] 渡辺澄夫, Sumio Watanabe Home Page, <http://watanabe-www.math.dis.titech.ac.jp/
users/swatanab/index-j.html>, 2019年6月1日アクセス.

More Related Content

model selection and information criteria part 1