狠狠撸

PRML
3.5.2, 3.5.3, 3.6
2012/8/5
@tomity

3.5.2 エビデンス関数の最大化
? 概要
– エビデンス関数 P(t|α, β) を最大化するαを求め
る
– エビデンス関数 P(t|α, β) を最大化するβを求め
る

(1/6)
? エビデンス関数 P(t|α, β) を最大化するαを求め
る
? α: 事前分布の精度パラメータ
? β: ガウスノイズの精度パラメータ
? t：訓練データの目標値からなるベクトル (3.86)

: 正則化最小二乗和誤差関数 (3.79)

: 事後分布の平均 (3.84)

：E(w)のヘッセ行列 (3.81)

? Φ: 計画行列

(2/6)
? エビデンス関数 P(t|α, β) を最大化するαを求
める
(3.86)

下線: αに関連する項

(3.79)
(3.84)
(3.81)

を求めた後 P(t|α, β)を最大化する

(3/6)
? を求める
(3.81)

– βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
を持ち、(3.87)が成立する
(3.87)

? Aは固有値α + λ_i を持つ

(4/6)
? Aは固有値λ_i+αを持つ

より

, より

(3.88)

(5/6)
をαで微分

(3.89)

m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの？

(3.90)

(3.91)

(3.92)

? γはαの関数, m_Nは陰にαに依存
? 繰り返し法で求める
– M_N, γを求め, αを再推定。これを繰り返す
? γの解釈は3.5.3節で

(6/6)
? を求める
(3.87)

? (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β

= γ /β (3.93)

(3.95)

? βも繰り返し法で解を求める
? βの解釈も3.5.3節で

3.5.3 有効パラメータ数
? 概要
– γの解釈
– βの解釈
– 実例を用いてγ, α, w_iの関係を確認する
– N >> M のケースについて

(1/7)
? γの解釈について考える

? そもそもλ_iってなんぞや
– βΦ^TΦの固有値
– βΦ^TΦ: – ln p(t|w) のヘッセ行列
– 尤度関数のu_iに対応する軸に対
する曲率 <= ？？？

図3.15
赤:尤度関数の等高線
緑: 事前分布の等高線
u_iとw_iが重なるように
座標変換済み
図では, λ_1 < α < λ_2を想定

(2/7)
? γの解釈について考える

? wML_iが鋭く尖っている場合
– λ_i / (α + λ_i) -> 1 (ex. i=2)
– wMAP_iがwML_iに近い
– 値がデータによって強く制
約される
= well-determinedパラメータ
? wML_iがなだらか図3.15
– λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線
– ｗMAP_iがwML_iから遠い緑: 事前分布の等高線
? γ = well-determinedパラメー u_iとw_iが重なるように
タの有効数座標変換済み
図では, λ_1 < α < λ_2を想定

(3/7)
? βの解釈
? 不定推定量に酷似
– 最尤推定値:
(3.96)

– 不偏推定量:
(3.97)

– β
(3.95)

? 不偏推定量は自由度の一つを平均フィッティングと最尤推定
用のバイアスを取り除くのに用いている。
? βを同様の考え方で解釈してみよう…

(4/7)
? 最尤推定によりβを推定(3.1.1節)
– 事前分布を導入していない

(3.21)

? γ個のパラメータが有効, 残りが無効
? 有効パラメータ:
データにより決定される
? 有効パラメータでない:
データによらず事前分布により小さい値に設定される
? パラメータの決定のために自由度γを使用 => 自由度N-γ
? m_N = w_MAP
(3.95)

(5/7)
? 三角関数の例(1.1節)を9個の基底関数から
なるガウス規定関すモデルによって近似
? M=10 ln 尤度関数
? β=11.1 2αE_w(m_N)
テスト集合に対する誤差
= α m_N *m_N
? αの決定
γ

図3.16

(6/7)
? 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
化を見る
– α -> ∞
=> γ -> 0
=> w_i -> 0
– α -> 0
=> γ -> M
=> w_iは大きくなる

図 3.17

(7/7)
? N >> M
=> 尤度関数があらゆるパラメータで鋭く
尖る
=> λ_i が大きい
=> 全てのパラメータがwell-determined
=> γ = M
γ = Mを代入
(3.98)

(3.99)

3.6 固定された基底関数の限界
? 線形モデルの致命的な欠点がいくつか
– 次元の呪い(1.4節)
? 次元数が増える => 基底関数は指数的に増える
– D次元のM次の多項式での係数の数は: D^M
? 軽減するために役立つ2つの性質
– 本質的な次元数が入力空間の次元数よりも小さい
? 局所的な基底関数を用いる(12章)
? RBFネットワーク, SVM, RVMでも用いられる
? ニューラルネットワークでは基底関数をデータ多
様体に対応するようにパラメータを調整
– 目標変数がほんの尐数の可能な方向にしか強く依存しない
? ニューラルネットワークでもこの性質を活用

狠狠撸

PRML 3.5.2, 3.5.3, 3.6

More Related Content

PRML 3.5.2, 3.5.3, 3.6