狠狠撸

狠狠撸Share a Scribd company logo
PRML
3.5.2, 3.5.3, 3.6
    2012/8/5
    @tomity
3.5.2 エビデンス関数の最大化
? 概要
 – エビデンス関数 P(t|α, β) を最大化するαを求め
   る
 – エビデンス関数 P(t|α, β) を最大化するβを求め
   る
3.5.2 エビデンス関数の最大化
           (1/6)
? エビデンス関数 P(t|α, β) を最大化するαを求め
  る
   ? α: 事前分布の精度パラメータ
   ? β: ガウスノイズの精度パラメータ
   ? t: 訓練データの目標値からなるベクトル              (3.86)

                      : 正則化最小二乗和誤差関数   (3.79)

               : 事後分布の平均               (3.84)

               :E(w)のヘッセ行列             (3.81)




   ? Φ: 計画行列
3.5.2 エビデンス関数の最大化
           (2/6)
? エビデンス関数 P(t|α, β) を最大化するαを求
  める
                                      (3.86)

                                 下線: αに関連する項


                                      (3.79)
                                      (3.84)
                                      (3.81)



         を求めた後 P(t|α, β)を最大化する
3.5.2 エビデンス関数の最大化
             (3/6)
?        を求める
                                      (3.81)

    – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
      を持ち、(3.87)が成立する
                                      (3.87)




      ? Aは固有値α + λ_i を持つ
3.5.2 エビデンス関数の最大化
           (4/6)
? Aは固有値λ_i+αを持つ



           より



       ,        より



                     (3.88)
3.5.2 エビデンス関数の最大化
              (5/6)
                                      をαで微分

                                       (3.89)

      m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの?

                                       (3.90)

                                       (3.91)

                                       (3.92)

?   γはαの関数, m_Nは陰にαに依存
?   繰り返し法で求める
    – M_N, γを求め, αを再推定。これを繰り返す
?   γの解釈は3.5.3節で
3.5.2 エビデンス関数の最大化
             (6/6)
?           を求める
                                                    (3.87)

? (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β


                                        = γ /β      (3.93)


                                                    (3.95)

? βも繰り返し法で解を求める
? βの解釈も3.5.3節で
3.5.3 有効パラメータ数
? 概要
 – γの解釈
 – βの解釈
 – 実例を用いてγ, α, w_iの関係を確認する
 – N >> M のケースについて
3.5.3 有効パラメータ数
                 (1/7)
? γの解釈について考える



? そもそもλ_iってなんぞや
  – βΦ^TΦの固有値
  – βΦ^TΦ: – ln p(t|w) のヘッセ行列
  – 尤度関数のu_iに対応する軸に対
    する曲率 <= ???


                                図3.15
                                    赤:尤度関数の等高線
                                    緑: 事前分布の等高線
                                    u_iとw_iが重なるように
                                    座標変換済み
                                    図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
                     (2/7)
? γの解釈について考える



?   wML_iが鋭く尖っている場合
    – λ_i / (α + λ_i) -> 1 (ex. i=2)
    – wMAP_iがwML_iに近い
    – 値がデータによって強く制
      約される
      = well-determinedパラメータ
? wML_iがなだらか                           図3.15
    – λ_i / (α + λ_i) -> 0 (ex. i=1)       赤:尤度関数の等高線
    – wMAP_iがwML_iから遠い                     緑: 事前分布の等高線
? γ = well-determinedパラメー                  u_iとw_iが重なるように
  タの有効数                                    座標変換済み
                                           図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
               (3/7)
? βの解釈
? 不定推定量に酷似
 – 最尤推定値:
                          (3.96)

 – 不偏推定量:
                          (3.97)

 – β
                          (3.95)

? 不偏推定量は自由度の一つを平均フィッティングと最尤推定
  用のバイアスを取り除くのに用いている。
? βを同様の考え方で解釈してみよう…
3.5.3 有効パラメータ数
             (4/7)
? 最尤推定によりβを推定(3.1.1節)
 – 事前分布を導入していない

                                   (3.21)

? γ個のパラメータが有効, 残りが無効
 ? 有効パラメータ:
     データにより決定される
 ? 有効パラメータでない:
     データによらず事前分布により小さい値に設定される
 ? パラメータの決定のために自由度γを使用 => 自由度N-γ
 ? m_N = w_MAP
                                   (3.95)
3.5.3 有効パラメータ数
               (5/7)
? 三角関数の例(1.1節)を9個の基底関数から
  なるガウス規定関すモデルによって近似
? M=10                  ln 尤度関数
? β=11.1   2αE_w(m_N)
                              テスト集合に対する誤差
           = α m_N *m_N
? αの決定
           γ




          図3.16
3.5.3 有効パラメータ数
             (6/7)
? 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
  化を見る
 – α -> ∞
   => γ -> 0
   => w_i -> 0
 – α -> 0
   => γ -> M
   => w_iは大きくなる

                  図 3.17
3.5.3 有効パラメータ数
             (7/7)
? N >> M
  => 尤度関数があらゆるパラメータで鋭く
  尖る
  => λ_i が大きい
  => 全てのパラメータがwell-determined
  => γ = M
 γ = Mを代入
                          (3.98)

                          (3.99)
3.6 固定された基底関数の限界
? 線形モデルの致命的な欠点がいくつか
 – 次元の呪い(1.4節)
   ? 次元数が増える => 基底関数は指数的に増える
     – D次元のM次の多項式での係数の数は: D^M
   ? 軽減するために役立つ2つの性質
     – 本質的な次元数が入力空間の次元数よりも小さい
        ? 局所的な基底関数を用いる(12章)
           ? RBFネットワーク, SVM, RVMでも用いられる
           ? ニューラルネットワークでは基底関数をデータ多
             様体に対応するようにパラメータを調整
     – 目標変数がほんの尐数の可能な方向にしか強く依存しない
        ? ニューラルネットワークでもこの性質を活用

More Related Content

PRML 3.5.2, 3.5.3, 3.6

  • 1. PRML 3.5.2, 3.5.3, 3.6 2012/8/5 @tomity
  • 2. 3.5.2 エビデンス関数の最大化 ? 概要 – エビデンス関数 P(t|α, β) を最大化するαを求め る – エビデンス関数 P(t|α, β) を最大化するβを求め る
  • 3. 3.5.2 エビデンス関数の最大化 (1/6) ? エビデンス関数 P(t|α, β) を最大化するαを求め る ? α: 事前分布の精度パラメータ ? β: ガウスノイズの精度パラメータ ? t: 訓練データの目標値からなるベクトル (3.86) : 正則化最小二乗和誤差関数 (3.79) : 事後分布の平均 (3.84) :E(w)のヘッセ行列 (3.81) ? Φ: 計画行列
  • 4. 3.5.2 エビデンス関数の最大化 (2/6) ? エビデンス関数 P(t|α, β) を最大化するαを求 める (3.86) 下線: αに関連する項 (3.79) (3.84) (3.81) を求めた後 P(t|α, β)を最大化する
  • 5. 3.5.2 エビデンス関数の最大化 (3/6) ? を求める (3.81) – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i を持ち、(3.87)が成立する (3.87) ? Aは固有値α + λ_i を持つ
  • 6. 3.5.2 エビデンス関数の最大化 (4/6) ? Aは固有値λ_i+αを持つ より , より (3.88)
  • 7. 3.5.2 エビデンス関数の最大化 (5/6) をαで微分 (3.89) m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの? (3.90) (3.91) (3.92) ? γはαの関数, m_Nは陰にαに依存 ? 繰り返し法で求める – M_N, γを求め, αを再推定。これを繰り返す ? γの解釈は3.5.3節で
  • 8. 3.5.2 エビデンス関数の最大化 (6/6) ? を求める (3.87) ? (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β = γ /β (3.93) (3.95) ? βも繰り返し法で解を求める ? βの解釈も3.5.3節で
  • 9. 3.5.3 有効パラメータ数 ? 概要 – γの解釈 – βの解釈 – 実例を用いてγ, α, w_iの関係を確認する – N >> M のケースについて
  • 10. 3.5.3 有効パラメータ数 (1/7) ? γの解釈について考える ? そもそもλ_iってなんぞや – βΦ^TΦの固有値 – βΦ^TΦ: – ln p(t|w) のヘッセ行列 – 尤度関数のu_iに対応する軸に対 する曲率 <= ??? 図3.15 赤:尤度関数の等高線 緑: 事前分布の等高線 u_iとw_iが重なるように 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 11. 3.5.3 有効パラメータ数 (2/7) ? γの解釈について考える ? wML_iが鋭く尖っている場合 – λ_i / (α + λ_i) -> 1 (ex. i=2) – wMAP_iがwML_iに近い – 値がデータによって強く制 約される = well-determinedパラメータ ? wML_iがなだらか 図3.15 – λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線 – wMAP_iがwML_iから遠い 緑: 事前分布の等高線 ? γ = well-determinedパラメー u_iとw_iが重なるように タの有効数 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 12. 3.5.3 有効パラメータ数 (3/7) ? βの解釈 ? 不定推定量に酷似 – 最尤推定値: (3.96) – 不偏推定量: (3.97) – β (3.95) ? 不偏推定量は自由度の一つを平均フィッティングと最尤推定 用のバイアスを取り除くのに用いている。 ? βを同様の考え方で解釈してみよう…
  • 13. 3.5.3 有効パラメータ数 (4/7) ? 最尤推定によりβを推定(3.1.1節) – 事前分布を導入していない (3.21) ? γ個のパラメータが有効, 残りが無効 ? 有効パラメータ: データにより決定される ? 有効パラメータでない: データによらず事前分布により小さい値に設定される ? パラメータの決定のために自由度γを使用 => 自由度N-γ ? m_N = w_MAP (3.95)
  • 14. 3.5.3 有効パラメータ数 (5/7) ? 三角関数の例(1.1節)を9個の基底関数から なるガウス規定関すモデルによって近似 ? M=10 ln 尤度関数 ? β=11.1 2αE_w(m_N) テスト集合に対する誤差 = α m_N *m_N ? αの決定 γ 図3.16
  • 15. 3.5.3 有効パラメータ数 (6/7) ? 0<= α <= ∞の範囲で変化させ γ, w_i, αの変 化を見る – α -> ∞ => γ -> 0 => w_i -> 0 – α -> 0 => γ -> M => w_iは大きくなる 図 3.17
  • 16. 3.5.3 有効パラメータ数 (7/7) ? N >> M => 尤度関数があらゆるパラメータで鋭く 尖る => λ_i が大きい => 全てのパラメータがwell-determined => γ = M γ = Mを代入 (3.98) (3.99)
  • 17. 3.6 固定された基底関数の限界 ? 線形モデルの致命的な欠点がいくつか – 次元の呪い(1.4節) ? 次元数が増える => 基底関数は指数的に増える – D次元のM次の多項式での係数の数は: D^M ? 軽減するために役立つ2つの性質 – 本質的な次元数が入力空間の次元数よりも小さい ? 局所的な基底関数を用いる(12章) ? RBFネットワーク, SVM, RVMでも用いられる ? ニューラルネットワークでは基底関数をデータ多 様体に対応するようにパラメータを調整 – 目標変数がほんの尐数の可能な方向にしか強く依存しない ? ニューラルネットワークでもこの性質を活用