狠狠撸
Submit Search
PRML 3.5.2, 3.5.3, 3.6
?
Download as PPTX, PDF
?
1 like
?
2,529 views
Kohei Tomita
PRML復々習レーン(2012/08/05)で発表させていただいたスライドです 3.5.2 エビデンス関数の最大化 3.5.3 有効パラメータ数 3.6 固定された基底関数の限界
Read less
Read more
1 of 17
Download now
Downloaded 28 times
More Related Content
PRML 3.5.2, 3.5.3, 3.6
1.
PRML 3.5.2, 3.5.3, 3.6
2012/8/5 @tomity
2.
3.5.2 エビデンス関数の最大化 ? 概要
– エビデンス関数 P(t|α, β) を最大化するαを求め る – エビデンス関数 P(t|α, β) を最大化するβを求め る
3.
3.5.2 エビデンス関数の最大化
(1/6) ? エビデンス関数 P(t|α, β) を最大化するαを求め る ? α: 事前分布の精度パラメータ ? β: ガウスノイズの精度パラメータ ? t: 訓練データの目標値からなるベクトル (3.86) : 正則化最小二乗和誤差関数 (3.79) : 事後分布の平均 (3.84) :E(w)のヘッセ行列 (3.81) ? Φ: 計画行列
4.
3.5.2 エビデンス関数の最大化
(2/6) ? エビデンス関数 P(t|α, β) を最大化するαを求 める (3.86) 下線: αに関連する項 (3.79) (3.84) (3.81) を求めた後 P(t|α, β)を最大化する
5.
3.5.2 エビデンス関数の最大化
(3/6) ? を求める (3.81) – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i を持ち、(3.87)が成立する (3.87) ? Aは固有値α + λ_i を持つ
6.
3.5.2 エビデンス関数の最大化
(4/6) ? Aは固有値λ_i+αを持つ より , より (3.88)
7.
3.5.2 エビデンス関数の最大化
(5/6) をαで微分 (3.89) m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの? (3.90) (3.91) (3.92) ? γはαの関数, m_Nは陰にαに依存 ? 繰り返し法で求める – M_N, γを求め, αを再推定。これを繰り返す ? γの解釈は3.5.3節で
8.
3.5.2 エビデンス関数の最大化
(6/6) ? を求める (3.87) ? (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β = γ /β (3.93) (3.95) ? βも繰り返し法で解を求める ? βの解釈も3.5.3節で
9.
3.5.3 有効パラメータ数 ? 概要
– γの解釈 – βの解釈 – 実例を用いてγ, α, w_iの関係を確認する – N >> M のケースについて
10.
3.5.3 有効パラメータ数
(1/7) ? γの解釈について考える ? そもそもλ_iってなんぞや – βΦ^TΦの固有値 – βΦ^TΦ: – ln p(t|w) のヘッセ行列 – 尤度関数のu_iに対応する軸に対 する曲率 <= ??? 図3.15 赤:尤度関数の等高線 緑: 事前分布の等高線 u_iとw_iが重なるように 座標変換済み 図では, λ_1 < α < λ_2を想定
11.
3.5.3 有効パラメータ数
(2/7) ? γの解釈について考える ? wML_iが鋭く尖っている場合 – λ_i / (α + λ_i) -> 1 (ex. i=2) – wMAP_iがwML_iに近い – 値がデータによって強く制 約される = well-determinedパラメータ ? wML_iがなだらか 図3.15 – λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線 – wMAP_iがwML_iから遠い 緑: 事前分布の等高線 ? γ = well-determinedパラメー u_iとw_iが重なるように タの有効数 座標変換済み 図では, λ_1 < α < λ_2を想定
12.
3.5.3 有効パラメータ数
(3/7) ? βの解釈 ? 不定推定量に酷似 – 最尤推定値: (3.96) – 不偏推定量: (3.97) – β (3.95) ? 不偏推定量は自由度の一つを平均フィッティングと最尤推定 用のバイアスを取り除くのに用いている。 ? βを同様の考え方で解釈してみよう…
13.
3.5.3 有効パラメータ数
(4/7) ? 最尤推定によりβを推定(3.1.1節) – 事前分布を導入していない (3.21) ? γ個のパラメータが有効, 残りが無効 ? 有効パラメータ: データにより決定される ? 有効パラメータでない: データによらず事前分布により小さい値に設定される ? パラメータの決定のために自由度γを使用 => 自由度N-γ ? m_N = w_MAP (3.95)
14.
3.5.3 有効パラメータ数
(5/7) ? 三角関数の例(1.1節)を9個の基底関数から なるガウス規定関すモデルによって近似 ? M=10 ln 尤度関数 ? β=11.1 2αE_w(m_N) テスト集合に対する誤差 = α m_N *m_N ? αの決定 γ 図3.16
15.
3.5.3 有効パラメータ数
(6/7) ? 0<= α <= ∞の範囲で変化させ γ, w_i, αの変 化を見る – α -> ∞ => γ -> 0 => w_i -> 0 – α -> 0 => γ -> M => w_iは大きくなる 図 3.17
16.
3.5.3 有効パラメータ数
(7/7) ? N >> M => 尤度関数があらゆるパラメータで鋭く 尖る => λ_i が大きい => 全てのパラメータがwell-determined => γ = M γ = Mを代入 (3.98) (3.99)
17.
3.6 固定された基底関数の限界 ? 線形モデルの致命的な欠点がいくつか
– 次元の呪い(1.4節) ? 次元数が増える => 基底関数は指数的に増える – D次元のM次の多項式での係数の数は: D^M ? 軽減するために役立つ2つの性質 – 本質的な次元数が入力空間の次元数よりも小さい ? 局所的な基底関数を用いる(12章) ? RBFネットワーク, SVM, RVMでも用いられる ? ニューラルネットワークでは基底関数をデータ多 様体に対応するようにパラメータを調整 – 目標変数がほんの尐数の可能な方向にしか強く依存しない ? ニューラルネットワークでもこの性質を活用
Download