狠狠撸

狠狠撸Share a Scribd company logo
PRML輪読会 2. 確率分布

2012.9.24    @americiumian
発表概要
?   2.1   二値変数
?   2.2   多値変数
?   2.3   ガウス分布
?   2.4   指数型分布族
?   2.5   ノンパラメトリック法




                       2
この章の目的
?   密度推定
    ?   観測値の有限集合?1 , … , ? ? が与えられた時,確率変数?
        の確率分布?(?)をモデル化すること
        ?   このような確率分布は無限に存在しうる
    ?   パラメトリック
        ?   分布の形を仮定し,観測値に合わせてパラメータを調整する
            手法
    ?   ノンパラメトリック
        ?   分布の形を仮定せず,観測値によって分布を決める手法



                                          3
4   2.1 二値変数
    ?   ベルヌーイ分布
    ?   二项分布
    ?   ベータ分布
ベルヌーイ分布 – 記号の定義
?   二値確率変数 x ∈ {0,1}
    ?   ex. コインを投げて,表なら ? = 1 裏なら ? = 0
?   パラメータ μ
    ? ? = 1となる確率
    ?0≦ ? ≦1

    ? ? ? = 1 ?) = ?, ? ? = 0   ? =1? ?
計算例:? = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
           ? ? = 1 ? = 0.7) = 0.7
           ? ? = 0 ? = 0.7 = 0.3          5
ベルヌーイ分布
?   ベルヌーイ分布
    ? Bern x ?) = ? ? (1 ? ?)1?? (2.2)
    ? 確率?で表が出るコインを一回投げ,表(裏)が出る確率

?   特徴
    ?   ?[?] = ?                                 (2.3)
    ?   ???[?] = ?(1 ? ?)                        (2.4)

計算例:? = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
   ???? ? = 1 ? = 0.7) = 0.71 (1 ? 0.7)0 = 0.7
   ???? ? = 0 ? = 0.7 = 0.70 (1 ? 0.7)1 = 0.3            6
複数回観測した時の尤度関数
?   設定
    ?D = ?1 , … , ? ?
    ? ? ? は,?(? | ?)から独立に得られたと仮定



?   尤度関数
    ? ? ? ?) = ?=1 ? ? ? ?) = ?=1 ? ? ? (1 ? ?)1?? ? (2.5)
               ?              ?

    ? ?が与えられた時,どのくらい,観測したデータが生起
     しやすいかを表す


                                                        7
パラメータ?の値を最尤推定
?   対数尤度
                         ?

        ln ?(? | ?) =         ln ? ? ?   ?)
                        ?=1
                          ?

                   =          { ? ? ln ? + 1 ? ? ? ln 1 ? ? }      (2.6)
                        ?=1
                                               ?

                   = ln ? ? ln 1 ? ?                ? ? + ? ln(1 ? ?)
                                              ?=1
              ?
    ?   この式は, ?=1 ? ? のみに依存しているため,この式は,
        この分布の下,このデータに対する十分统计量の例
                                                                        8
パラメータ?の値を最尤推定
?   最尤推定
    ?   ln ? ?           ?) を?で偏微分して0とおいて解く
                     1    ?
    ?   ?   ??   =        ?=1   ??   (2.7)
                     ?
        ?   サンプル平均と呼ばれる


?   結果の違った見方
    ?   データ集合中で,? = 1になる回数を?とすると,
                ?       データ集合中での表の観測値の割合が
         ? ?? =   (2.8)
                ?       表が出る確率となる
                                              9
二项分布
?   記号の定義
    ?   ? : 大きさ?のデータ集合のうち,? = 1となる観測値の数
?   二项分布
                              ?
    ?   ???(? | ?, ?) =       ?
                                  ? ? (1 ? ?) ???   (2.9)
        ?
            ?
                =
                      ?!                            (2.10)
            ?       ??? !?!

    ?   確率?で表が出るコインを?回投げた時,
        表が出る回数?の確率分布
?   特徴
    ?   ?[?] = ??                                   (2.11)
    ?   ???[?] = ??(1 ? ?)                           (2.12)
                                                              10
二项分布




       11
ベータ分布
?   ベルヌーイ分布のパラメータ?の最尤推定
    ? 3回表が出ると,以降ずっと表が出る?                                         ?
                                                        1
    ? 過学習の問題                                ?   ??    =               ??
                                                        ?
                                                                ?=1


?   ベイズ主義的に扱う
    ? 事前分布?(?)を導入する必要性                  ?
                                                     ? ? (1 ?
                          ? ?   ?) =            ?               ?)1?? ?
    ? 事後分布が事前分布と同様の
                                       ?=1
      形式となる事前分布を選びたい
        ?   共役性
    ?   ?と(1 ? ?) のべきに比例する事前分布を導入

                                                                      12
ベータ分布

                           Γ(a + b) ??1
         ???? ?    ?, ?) =          ?   (1 ? ?) ??1 (2.13)
                           Γ a Γ(b)

?   特徴
                  ?
    ?   ?[?] =                         (2.15)
                 ?+?
                             ??
    ?   ???[?] =                       (2.16)
                       ?+? 2 (?+?+1)
    ?   ?, ?は,?の分布を決めるので,ハイパーパラメータと
        呼ばれる

                                                             13
ベータ分布




        14
事後分布を求める
?   事前分布
                        Γ(a + b) ??1
      ???? ?    ?, ?) =          ? (1 ? ?) ??1
                        Γ a Γ(b)
?   尤度関数
                          ?
      ???(? | ?, ?) =         ? ? (1 ? ?) ?       (? = ? ? ?)
                          ?
?   事後分布
                             Γ(m + a + b + l)     ?+??1
       ? ?     ?, ?, ?, ?) =        (1 ? ?) ?+??1
                                              ?
                             Γ m + a Γ(b + l)
                                              (2.18)
    ? ? = 1の観測値が?個,? = 0の観測値が?個あった時,
      事後分布を求めるには,?を?, ?を?だけ増やせばよい
    ? ?, ?はそれぞれ,? = 1, ? = 0の有効観測数と解釈できる
                                                                15
逐次学習
?   事後分布の特徴
    ?   事後分布は,事前分布と形式が同じなので,
        事後分布を新たな事前分布として扱える
?   逐次学習
    ?   データがひとつづつ与えられ,データが与えられる度に
        パラメータを更新していく学習法
             ?1         ?2

    ?(?)        ?(?|?1 )   ?(?|?1,2 )


                                        16
逐次学习の例

             x=1を1つ
?=2          観測した時の
?=2          尤度関数
β分布          (N=m=1の
              二项分布)



       ?=3
       ?=2
      β分布


                  17
逐次学習の長所?短所
?   長所
    ?   実時間での学習に利用できる
        ?   毎観測値ごとに事後確率を算出するので,全てのデータが
            なくともよい
    ?   大規模データ集合に有用
        ?   観測値の処理が終わった後,そのデータはもう捨ててよい


?   短所
    ?   学習の早さと,正しい解への収束性のトレードオフ

                                         18
?の予测分布
?   これまでの議論
    ?  ?(? | ?)の推定
    ? 観測データ集合?から,パラメータ?の確率分布を推定



?   ここからの議論
    ? ?(? = 1 | ?)の推定
    ? 観測データ集合?から,? = 1となる確率を推定




                                  19
?の予测分布
                         1
        ?(? = 1 | ?) =        ? ?=1    ?)? ?    ?) ??
                         0
                          1
                    =         ?? ?   ?) ??
                         0
                    = ? ?
                        ?]                     (2.19)
                       ?+ ?
                   =                           (2.20)
                     ?+ ?+ ?+ ?
?観測値のうち,? = 1に相当するものの割合
? ?, ?がとても大きい時,最尤推定の結果と一致する
    ? このような特性は,多くの例で見られる
    ? 有限のデータ集合では,事後平均は事前平均と
      μ の最尤推定量の間になる         →演習2.7 20
事後分布の特性
?   事後分布(ベータ分布)の分散
                       ??
    ?   ??? ? =
                  ?+? 2 ?+?+1
    ? ? → ∞や? → ∞の時,分散は0に近づく
    ? 多くのデータを学習すればするほど,
      一般的に事後分布の不確実性は減少する?




                                21
平均?分散の不確実性
?   事前平均と事後平均
            ? ? ? = ? ? [? ? ? | ? ]                          (2.21)
    ?   ?の事後平均を,データを生成する分布上で平均すると,
        ?の事前平均に等しい

?   事前分散と事後分散
        ??? ? ? = ? ? [??? ? ?     ?]] + ??? ? [? ? ?   ?]]   (2.24)
        事前分散         事後分散の平均              事後平均の分散
         の平均

    ?   平均的には 事前分散 > 事後分散
        ?   成り立たないデータセットもある
                                                                   22
23   2.2 多値変数
     ?   多项分布
     ?   ディリクレ分布
例えば
?   サイコロを投げる
    ?   6通りの状態がありうる

?   1-of-K 符号化法
    ? K個の状態を取りうる離散変数を扱う際に用いられる
    ? 要素の一つ? ? のみが1で他が0
       ?
    ?  ?=1 ? ? = 1を満たす


    ?   ex. サイコロの目を観測値?として,3が出た時
        ?   ? = (0,0,1,0,0,0) ?

                                   24
歪んだサイコロ
?   記号の定義
    ?   ? ? ∶ ? ? = 1となる確率

?   正確なサイコロの場合
             1 1 1 1 1 1
    ?   ?=( , , , , , )
             6 6 6 6 6 6


?   シゴロ賽の場合
                   1 1 1
    ?   ? = (0,0,0, , , )
                   3 3 3


?   ピンゾロ賽の場合
    ?   ? = (1,0,0,0,0,0)
                             25
多项分布
?   ?の分布
                  ?
                               ??                   ベルヌーイ分布を2種類以上の
    ? ?   ?) =         ??           (2.26)
                                                    出力に一般化したもの
                 ?=1
?   観測値が複数あった場合
    ? ?個の独立な観測値?1 … ? ?
    ? 尤度関数
                       ?        ?                    ?                             ?

        ? ?   ?) =                  ??   ? ??   =         ? ?(   ?   ? ?? )   =         ??   ??

                      ?=1 ?=1                       ?=1                           ?=1             (2.29)
              ?? =              ? ??  : この分布の十分统计量
                                                                                                    26
                           ?
?の最尤推定
 ?    制約付き対数尤度最大化
      ?    ラグランジュの未定乗数法を用いる
      ?                      ?
                                             ? ? = 1 に代入して,
?=         ? ? ln ? ? + ?         ???1
                                         ?
     ?=1                    ?=1                      ??
             ??      ??                            ?    =1
                  =     + ?                          ?
             ?? ?    ??                      ?
             ??                              ?         ?? = ?
                  = 0 より,
             ?? ?                                  ?
                        ??                          ? = ??
              ?? =?                                       ??
                        ?                        ? ? ?? =
                                                           ?    27
多项分布
                                               ?
                                     ?                   ??
    ???? ?1 , … ? ?   ?, ?) =                       ??        (2.34)
                                ?1 ?2 … ? ?
                                              ?=1
                           ?               ?!
           ただし,                   =
                      ?1 ?2 … ? ?   ?1 ! ?2 ! … ? ? !
                           ?

                                ?? = ?
                          ?=1

?   パラメータ?と観測値の総数?が与えられた条件の下,
    ?1 … ? ? の同時確率


                                                                       28
ディリクレ分布
?   多项分布の? ? についての事前分布
    ?   共役分布の形は以下の通り
                       ?
                                    ? ? ?1                               (2.37)
         ? ?   ?) ∝            ??
                      ?=1
    ただし,0 ≦ ? ? ≦ 1, ? ? ? = 1
    ハイパーパラメータ ? = (?1 , … , ? ? ) ?

?   ディリクレ分布
                                                      ?
                                        Γ(?0 )
               ??? ?           ?) =                        ??   ? ? ?1   (2.38)
                                    Γ ?1 … Γ(? ? )
                                                     ?=1
        ただし,?0 =           ?   ??
                                                                                  29
共役性の確認
?   事前分布
                                          ?
                        Γ(?0 )                          ? ? ?1
      ? ?      ?) =                                ??                  (2.38)
                    Γ ?1 … Γ(? ? )
                                         ?=1

?   尤度関数
                                     ?
                           ?
       ? ?     ?) =
                      ?1 ?2 … ? ?
                                              ??   ??
                                                                       (2.34)
                                    ?=1

?   事後分布
    ? ?      ?, ?) = ??? ?    ? + ?)
                                              ?
             Γ(?0 + ?)
    =                                               ??   ? ? +? ? ?1   (2.41)
      Γ ?1 + ?1 … Γ(? ? + ? ? )                                                 30
                                          ?=1
31   2.4 指数型分布族
     ?   最尤推定と十分统计量
     ?   共役事前分布
     ?   無情報事前分布
指数型分布族とは
                    ?上の指数型分布族 ∶
              ? ?   ?) = ? ? ? ? exp{? ? ? ? }
    ?   ?:分布の自然パラメータ
    ?   ? : ベクトル or スカラー,離散 or 連続
    ?   ? ? ∶ ?の任意の関数
    ?   ? ? ∶ 正規化係数. ? ? ? ? exp{? ? ? ? } ?? = 1
?   指数型分布族の例
    ?   ベルヌーイ分布
    ?   多项分布                本当に指数型分布族なのか確かめる
                            →指数型分布族の形式で書けるか調べる
    ?   ガウス分布

                                                    32
ベルヌーイ分布は指数型分布族?(1/2)

                  ?上の指数型分布族 ∶
            ? ?   ?) = ? ? ? ? exp{? ? ? ? }
  ?(? | ?) = Bern x   ?) = ? ? (1 ? ?)1??

?(? | ?) = exp{? log ? + 1 ? ? log 1 ? ? }   右辺の対数の指数をとる
                              ?
        = 1 ? ? exp log           ?
                           1? ?

                        ?
            ∴ ? = log                   指数型分布族の式と係数比較
                      1? ?
                      1
             ?=                                μについて解く
                1 + exp(??)                              33
                  → ロジスティックシグモイド関数 ?(?)
ベルヌーイ分布は指数型分布族?(2/2)

           ?上の指数型分布族 ∶
     ? ?   ?) = ? ? ? ? exp{? ? ? ? }
                                 ?
   ?(? | ?) = 1 ? ? exp log             ?
                              1? ?
          ?(? | ?) = ?(??)exp ??

              ∴ ?(?) = ?
                ?(?) = 1
                ?(?) = ?(??)

  より,ベルヌーイ分布は指数型分布族.
                                            34
多项分布は指数型分布族?(1/8)
                        ?上の指数型分布族 ∶
                  ? ?   ?) = ? ? ? ? exp{? ? ? ? }
                                                  ?
カテゴリカル分布
                                                             ??
                   ?(? | ?) = ???? ?      ?) =          ??
                                                 ?=1
                          ?                         ?
                                    ??
            = exp ln           ??        = exp           ? ? ln ? ?
                         ?=1                      ?=1
 ここで ? ? = ln ? ? , ? = (?1 , ?2 , … , ? ? ) ? と定義すると,
                                  ?(?) = ?
                                ?(?) = 1
                                  ?(?) = 1

           ?                                                          35
 ただし,      ?=1   ? ? = 1より,ηは独立ではない
多项分布は指数型分布族?(2/8)
?   前スライドのまとめ
    ? 多项分布を指数型分布族の形に書き表すことができた
    ? しかし,?は独立ではない



?   なので
         ?
    ?    ?=1   ? ? = 1を用いて,? ? を ? ? (? = 1,2, … ? ? 1)で
      表し, ? ? を消去する
    ? 他にも以下の制約がある
                       ??1

        0 ≦ ? ? ≦ 1,         ?? ≦1
                                                       36
                       ?=1
多项分布は指数型分布族?(3/8)
        ?

exp          ? ? ln ? ?                             pp.73 上の式より,
      ?=1                                                  ?
         ??1                                                     ?? = 1
                                                           ?=1
= exp             ? ? ln ? ? + ? ? ln ?   ?
            ?=1
            ??1                        ??1                 ??1

= exp             ? ? ln ? ? + 1 ?            ? ? ln 1 ?            ??
            ?=1                        ?=1                 ?=1
            ??1                                          ??1
                                ??
= exp             ? ? ln         ??1          + ln 1 ?         ??
                           1?   ?=1    ??
            ?=1                                          ?=1

                                                                          37
多项分布は指数型分布族?(4/8)
                                 ?上の指数型分布族 ∶
                      ? ?        ?) = ? ? ? ? exp{? ? ? ? }
      ??1                                                  ??1
                             ??
exp         ? ? ln                ??1        + ln 1 ?             ??
                      1?         ?=1    ??
      ?=1                                                  ?=1
           ??1                    ??1
                                                      ??
= 1?             ? ? exp                ? ? ln         ??1
                                                 1?   ?=1    ??
           ?=1                    ?=1
よって,
                                                             ??1
                     ??
? ? = ln              ??1                             1?           ? ? を求めるため,
            1?       ?=1    ??
                                                             ?=1
                                                           ? ? = ? の形にする         38
多项分布は指数型分布族?(5/8)

                   ??
? ? = ln            ??1
           1?      ?=1       ??

                        ??
exp(? ? ) =              ??1
                                                     両辺の指数をとる
              1?        ?=1 ? ?
                            ??1

? ? = exp(? ? ) 1 ?                ??
                             ?=1


??1                 ??1            ??1

      ?? = 1?                ??          exp(? ? )   k=1からM-1まで足し合わせる
?=1                 ?=1            ?=1
                                                                        39
多项分布は指数型分布族?(6/8)

??1               ??1
                  ?=1 exp(? ? )
      ?? =          ??1
                                    赤字について解く
             1+     ?=1 exp(? ? )
?=1
                         ??1

? ? = exp(? ? ) 1 ?            ? ? に代入して,
                         ?=1


         exp(? ? )
?? =      ??1
     1 + ?=1 exp(? ? )

この式を,ソフトマックス関数,正規化指数関数と呼ぶ.

                                               40
多项分布は指数型分布族?(7/8)
                        ??1                 ??1
                                                                ??
?(? | ?) = 1 ?                ? ? exp             ? ? ln         ??1        ,
                                                           1?   ?=1    ??
                        ?=1                 ?=1
                  ??
? ? = ln               ??1      ,
        1?         ?? ?=1
         exp(? ? )
?? =      ??1
     1 + ?=1 exp(? ? )
           ??1                           ??1
                                         ?=1 exp ? ?
? 1?             ??     =1?                ??1              より,
                                    1+     ?=1 exp ? ?
           ?=1
                                           ?1
                        ??1

? ?   ?) = 1 +                exp(? ? )         exp ? ? ?
                        ?=1                                                     41
多项分布は指数型分布族?(8/8)
               ?上の指数型分布族 ∶
       ? ?     ?) = ? ? ? ? exp{? ? ? ? }

                                          ?1
                        ??1

     ? ?     ?) = 1 +         exp(? ? )         exp ? ? ?
                        ?=1
                                                ?
               ? = ?1 , ?2 , … , ? ??1 , 0
                       ?(?) = ?
                    ?(?) = 1
                                                    ?1
                              ??1

             ?(?) =     1+          exp(? ? )
                              ?=1
とすると,多项分布は指数型分布族のひとつ                                        42
ガウス分布は指数型分布族?(1/3)

                         ?上の指数型分布族 ∶
                 ? ?     ?) = ? ? ? ? exp{? ? ? ? }
                      1             (? ? ?)2
    ? ? ?, ?) =               exp ?
                  (2?? 2 )1/2         2? 2
         1                 1 2      ?      ?2
    =             exp ? 2 ? + 2 ? ? 2
      (2?? 2 )1/2         2?       ?      2?

                                                ?
        1    1        ?2            ?/? 2            ?
    =           exp ? 2 exp
      (2?)1/2 ?      2?            ?1/2? 2          ?2



         1                          ?1    ?/? 2                    ?
?(?) =             ? ?        ?=       =                 ?(?) =
       (2?)1/2                      ?2   ?1/2? 2                  ?2   43
ガウス分布は指数型分布族?(2/3)

      ?1    ?/? 2
?=       =        2
                    より,
      ?2   ?1/2?
1
  = (?2?2 )1/2
?
        2
                ?1
? = ?1 ? = ?
               2?2

よって,
1       ?2
  exp ? 2
?      2?
                    ?1 2 1
= (?2?2 )1/2 exp ?         (?2?2 )
                   4?2 2 2
                   ?1 2
= (?2?2 )1/2 exp ?                   ← ?で表された!
                   4?2
                                                 44
ガウス分布は指数型分布族?(3/3)

                   ?上の指数型分布族 ∶
            ? ?    ?) = ? ? ? ? exp{? ? ? ? }
                                                         ?
             1                      ?1 2        ?/? 2         ?
? ?   ?) =         (?2?2 )1/2 exp ?      exp                      より
           (2?)1/2                  4?2        ?1/2? 2       ?2

       1
? ? =
      2? 1/2
                         ?1 2
? ? = (?2?2 )1/2 exp ?
                        4?2
     ?1       ?/? 2               ?
?=      =           2
                      , ? ? =      2
                                     とすると,
     ?2    ?1/2?                 ?

ガウス分布は指数型分布族のひとつ                                                       45
?の値を最尤推定

正規化条件より,
? ?     ? ? exp{? ? ? ? } ?? = 1

?について,両辺の勾配を求めて,                               (fg)’=f’g+fg’

?? ?     ? ? exp{? ? ? ? } ?? + ? ?    ? ? exp ? ? ? ?   ? ? ?? = 0

  ?? ?
?      = ? ?       ? ? exp ? ? ? ?    ? ? ?? = ? ? ?
  ? ?
? ? ?    = ? ?ln ? ?

 ?(?)の期待値は,?(?)のみに依存
 (?(?)の?次モーメントは?(?)の?階微分で求められる)                                  46
?の値を最尤推定

独立に同分布に従うデータ集合? = {?1 , ?2 , … , ? ? }に対する尤度関数は
                        ?                                     ?
                                                ? exp
? ?      ?) =                ? ??         ? ?           ??         ? ??
                       ?=1                                   ?=1
両辺の対数をとって,
                        ?                                           ?

ln ? ?     ?) =              ln ? ? ? + ? ln ?(?) + ? ?                  ? ??
                       ?=1                                         ?=1
(?についての勾配) = 0より,
                              ?

?? ln ?(?       ?? )   +           ? ?? =0
                             ?=1
                                   ?
                         1
?? ln ? ?       ??     =                ? ??       → この式を解けば?                   ?? が得られる   47
                         ?
                                  ?=1
十分统计量
                             ?
                        1
?? ln ? ?        ??   =           ? ??
                        ?
                            ?=1
?   ?? は     ?   ? ? ? のみに依存している

→       ?   ? ? ? を,?(? | ?)の十分统计量と呼ぶ

?   十分统计量の例
    ?   ベルヌーイ分布
        ?    ? ? = ?より, ? ? の総和
    ?   ガウス分布
        ?   ? ? = (?, ? 2 ) ? より, ? ? の総和, ? ? 2 の総和
                                                       48
指数型分布族の共役事前分布
?   共役事前分布
     ?   尤度関数と掛けて事後分布を求めると,その関数形が同じ
         になるような事前分布.
    指数型分布族
                    ?                                      ?
                                           ?
    ? ?     ?) =         ? ??    ? ?           exp   ??         ? ??
                   ?=1                                    ?=1
    に対する共役事前分布は,

                                      ?
    ? ?     ?, ?) = ? ?, ? ? ?            exp ?? ? ?

                                                      ?
                                ?+?
    ∵ ? ?     ?, ?, ?) ∝ ? ?          exp       ??         ?(? ? ) + ??
                                                                          50
                                                     ?=1
これまで出てきた共役事前分布

確率分布                  共役事前分布
ベルヌーイ分布(二项分布)         ベータ分布
多项分布                  ディリクレ分布
ガウス分布の平均(分散は既知)       ガウス分布
ガウス分布の精度(平均は既知)       ガンマ分布
ガウス分布の分散(平均は既知)       逆ガンマ分布
ガウス分布(平均?精度が未知)       ガウス-ガンマ分布
多変量ガウス分布の平均(共分散は既知)   ガウス分布
多変量ガウス分布の精度(平均は既知)    ウィッシャート分布
多変量ガウス分布の共分散(平均は既知)   逆ウィッシャート分布
多変量ガウス分布(平均?精度が未知)    ガウス-ウィッシャート分布
                                      51
無情報事前分布
?   概要
    ? その事前分布を用いて得られる事後分布に,
      その事前分布ができるだけ影響しないような事前分布
    ? 事前分布に対する知見がない時に用いられる

?   単純に考えると...
    ?   離散変数の時
        ?   K個の状態をとりうるなら,各状態を1/?で取ればよい
    ?   連続変数の時
        ?   分布? ?   ?)について, ?(?) = ?????.とすればよい?


                                                   52
無情報事前分布 - ?(?)=?????.?
?   ?(?)=?????.という事前分布の問題点
    ?   ?の定義域が有界でないため, ?上での積分が発散する
        ?   変則事前分布(不完全事前分布)と呼ばれる


    ?   非線形な変数変換が上手く行えない
        ?   ex. ? ? ? が定数だとする.
                    ? = ? 2 と変数変換を行うと,
                                ??
                    ?? ? = ?? ?    = ? ? ? 2 2? ∝ ?
                                ??
                   η上の密度は定数とはならない.
    事後分布が適切(正規化されている)という条件下であれば
    使われることも多い                                         53
無情報事前分布 - ?(?)=?????.?
 ?   最尤推定ではこの問題は生じない
     ?   尤度関数?(? | ?)は?について単純な式だから(? )

例
データ? ? が,平均?で分散? 2 の正規分布? ?; ?, ? 2 から生じるとする.
σ2 を既知とし,平均?を推定する.
事前分布に?(?) = ?????. の分布を考える.


この時,事後分布は,
p(μ | D)∝p(D | μ)*const.
より,事後確率が最大となるμの解は最尤推定解に一致.
よって,事前確率は推定に影響を与えない.                       54
無情報事前分布の例1
?   平行移動不変性を持つ事前分布
    ?       平行移動不変性とは
             ? ? ?) = ?(? ? ?)
                       位置パラメータ
    ?       xを定数分移動しても,同じ形式が保たれる
?   求めてみよう
    ? ≦ ? ≦ ?に入る確率と? ? ? ≦ ? ≦ ? ? ?に入る確率が等しいので,
        ?              ???                  ?
            ? ? ?? =         ? ? ?? =           ? ? ? ? ??
    ?                  ???              ?


    この式が任意のA,Bについて成立するため,
    ?(?) = ?(? ? ?)                                          55
    よって,?(?)は定数
無情報事前分布の例1
?   位置パラメータの例
    ? ガウス分布の平均?
    ? μ の共役事前分布はガウス分布? ?  ?0 , ?0 )
    ? σ0 → ∞の極限をとれば,無情報事前分布になる



?   事前分布が事後分布に影響を与えていないか
        ?2           ??0 2            ?0 → ∞
μ?=           ? +
       2+ ? 2 0       2 + ?2
                             ?   ??            μ?= ?
    ??     0      ??0                                  ??

                                      ?0 → ∞   1       ?
                   1      1   ?                     = 2
                      2
                        = 2+ 2                 ?? 2   ?
                   ??    ?0  ?
                                                            56
無情報事前分布の例2
?   尺度不変性を持つ事前分布
    ?   尺度不変性とは
                1  ?
        ? ? ?) = ?
                ?  ?
                尺度パラメータ
    ?   xを定数倍だけ拡大縮小しても,同じ形式が保たれる
?   求めてみよう
    ? ≦ ? ≦ ?に入る確率と?/? ≦ ? ≦ ?/?に入る確率が等しいので,
       ?           ?/?            ?
                                    1   ?
         ? ? ?? =      ? ? ?? =       ?   ??
     ?            ?/?           ?   ?   ?
    この式が任意のA,Bについて成り立つので,
         1  ?                                  57
    ? ? = ?
         ?  ?
無情報事前分布の例 2-2
?   求めてみよう(続き)
    したがって,?(?) ∝ 1/?

?   特徴
    ?変則事前分布となる
    ? ? ln ? = ?????.
                  1                ?
        ?   p σ ∝ より,? ? =             ?は定数 とおき,
                  σ                ?
                                         ??
            t= ln ?と変数変換をすると,            ??
                                              = ?より,
                        ??     ?
            ? ? = ? ?        = ? σ=const.
                        ??
            ∴? ln ? = ?????.

                                                       58
無情報事前分布の例1
?   尺度パラメータの例
    ?   ?を考慮済みのガウス分布の標準偏差σ
         ?(? | ?, σ2 ) ∝ σ?1 exp {?(? /?)2 }           (? = ? ? ?)
    ?   精度? = 1/? 2 を考え,密度を変換すると
                       1        1
                  ? ? ∝ ? ? ? ∝
                       ?        ?
?   事前分布が事後分布に影響を与えていないか
                            ?0 = 0, ?0 = 0         ?
               ?
    ? ? = ?0 +                                 ??=
               2                                   2

              ?             ?0 = 0, ?0 = 0          ?
    ? ? = ?0 + ? ?? 2                          ? ? = ? ?? 2
              2                                     2                59
计算の补足
                  1       1
             ? ? ∝ ? ? ? ∝ の証明
                  ?        ?
                                    2
             1           ?? ?
 ? ? =           1 exp ?  2? 2
         2?? 2   2
 ? = 1/? 2 とおくと,
      ?1/2 ,
               ??   1 ?3
 ?= ?             =? ? 2
               ??   2
 したがって,
           1
          ?2           ? ?? ?   2         1 ?3/2
 ? ? =         1 exp ?                  ?   ?
                          2               2
        2?     2
       1
 ? ? ∝                                             60
       ?
61   2.5 ノンパラメトリック法
     ?   ヒストグラム密度推定法
     ?   カーネル密度推定法
     ?   最近傍法
ノンパラメトリック法

      パラメトリック : 少数のパラメータから
                確率変数の分布の形状を決める
    ノンパラメトリック : 分布の形状が制限されず,
                データによって形状が決まる

?   パラメトリックなアプローチ
                      仮定した分布が適切でない場合
    ?   確率分布の形状を仮定    予測性能が悪くなりうる

?   ノンパラメトリックなアプローチ
                      分布の形状について
    ?   確率密度関数の形が
        データに依存して決まる   わずかな仮定しかない

                                   62
ヒストグラム密度推定法
      ?   記号の定義
          ? ? ∶    連続変数
          ? ?? ∶   ?番目の幅
          ? ?? ∶   ?番目の観測値の数
          ? ? ∶    観測値の総数


      ?   確率密度
                      ??
          ?   ?? =
                     ?? ?


                               63
ヒストグラム密度推定法
?   ?の値による推定の変化
    ?   ?は適切な値に設定しないと分布の特徴を捉えきれない




                               64
ヒストグラム密度推定法
?   利点
    ? 一度ヒストグラムを求めると,元データを廃棄できる
      →大規模データに有利
    ? データが逐次的に与えられた時に容易に適用できる

?   欠点
    ? 推定した密度が区間の縁で不連続になる
    ? 次元数が増えると,指数的に区間の総数が増え,計算
      規模が増大する(次元の呪い)

ヒストグラム法は1次元か2次元のデータの可視化には役に立つが
他のほとんどの密度推定の応用問題には適さない
                                 65
ヒストグラム密度推定法
?   ヒストグラム密度推定法から分かること
    ?   特定の位置の確率密度を推定するにはその点の近傍の
        データ点も考慮すべき
        ? 近傍の特性は区間によって定義されている
        ? 区間の幅→平滑化パラメータ



    ?   平滑化パラメータの値は,大きすぎず,小さすぎず適切な
        値にすべき
        ?   cf. 多項式曲線フィッティングのモデル複雑度の選択


                                         66
近傍を考虑した密度推定
?   目的
    ?   ある?次元のユークリッド空間中の未知の確率密度? ? から,
        観測値の集合が得られている.この集合から?(?)を推定
xを含むある小さな領域Rに割り当てられた確率Pは

?=          ? ? ??
        ?
p(x)から得られたN個の観測値からなるデータ集合を集める
各データ点が領域R中にある確率はP
→R内の点の総数Kは二项分布に従う
                  ?!
Bin K N, P) =            ? ? (1 ? ?) ???
              ?! ? ? ? !
                                           67
近傍を考虑した密度推定

?[?/?] = ?
???[?/?] = ?(1 ? ?)/?
Nが大きい時,??? ?/? ≒ 0より,
? ? ??
また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど
十分に小さいと仮定できる時,
P? ? ? ?     (ただし,?は?の体積)
よって,
       ?       領域Rは近似的に密度が一定とみなせるほど小さく
?(?) =
       ??      二项分布が鋭く尖るほど十分な量のKが存在する
                                     68
近傍を考虑した密度推定

                    ?
             ?(?) =
                    ??

Vを固定し,Kを推定               Kを固定し,Vを推定



カーネル密度推定法                碍近傍法



  Nが大きくなる時Vが縮小し,Kが大きくなるなら,
  N→∞で,どちらも真の確率密度に収束する                69
カーネル密度推定法
?   記号の定義
    ?   ?   ∶ 確率密度を求めたいデータ点
    ?   ?   ∶ ?を中心とした超立方体
                           1
                1, ? ? ≦     ,   ? = 1,2, … ?の時
    ?   ? ? =              2
                0,それ以外の時
        ? カーネル関数の一例
        ? Parzen窓と呼ばれる
        ? ?((? ? ? ? )/?)は,xを中心とする一変がhの立方体の内部に,
          データ点? ? があれば1, そうでなければ0となる関数


                                                  70
カーネル密度推定法

立方体内部の総点数は                      ?   結果の解釈
      ?                             ? 1.求めたいデータ点の近傍
             ?? ??
?=         ?                          (超立方体の範囲)にある
              ?
     ?=1                              データ点の数を考慮
      ?
? ? =    , ? = ? ? より,
      ??
                                    ? 2.
                                       各データ点の近傍に,
推定確率密度は                               求めたいデータ点を含む
             ?
       1           1    ?? ??         データ点の数を考慮
?(?) =              ? ?
       ?          ?      ?
            ?=1


                                                    71
カーネル密度推定法
?   Parzen窓の問題点
    ?   立方体の”縁”で確率密度が不連続となってしまう
?   解決策
    ?   ガウスカーネルを使う
                                         2
                            ? ? ? ??
        ? ? ?, ??   = exp ?
                               2?2
    ?   確率密度モデルは以下の通り
                      ?                                2
               1             1              ? ? ? ??
        ?(?) =                        exp ?
               ?           2??2   1/2          2? 2
                     ?=1

                                                           72
カーネル密度推定法
?   ?の値による推定の変化
    ?   小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      73
カーネル密度推定法
?   カーネル関数
    ?   カーネル関数は,以下の条件を満たす任意の関数
        ?(?) ≧ 0
          ? ? ?? = 1


?   カーネル密度推定法の利点?欠点
    ? 訓練段階では単に訓練集合を保存しておけばよい
    ? 密度の評価にかかる計算コストがデータ集合の大きさ
      に比例

                                 74
最近傍法
?   カーネル密度推定法の問題点
    ?   カーネル幅(密度推定の粒度)を決めるパラメータ?が
        すべてのカーネルで一定となっている
        ? ?が大きいと,全体的に平滑化される
        ? ?が小さいと,全体的にノイズの多い推定




?   解決策
    ?   データ空間内の位置に応じて?を変える
        =最近傍法

                                    75
碍近傍法

                ?    Kを固定し,Vを推定
         ?(?) =                   碍近傍法
                ??

?   碍近傍法
    ?   ?(?)を推定したい点xを中心とした小球を考え,その
        半径を,?個のデータ点を含むようになるまで広げる.
                              ?
    ?   この時の体積を?とし, ?(?) =       から密度推定
                              ??




                                          76
碍近傍法
?   Kの値による推定の変化
    ?   小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      77
碍近傍法を用いたクラス分類
?   目的
    ?   クラス? ? 中に? ? 個の点があり,点の総数は?である
        データ集合に対し,新たな点?を分類する
?   分類方針
    ? ?を中心として,クラスを考えずに?個の点を含む球を
      見つける
    ? 各クラスについてベイズの定理を適用し,各クラスに
      属する事後確率を求める
    ? 事後確率が最大のクラスに割り当てる



                                        78
碍近傍法を用いたクラス分類

?を中心とし,?個の点を含む球が,体積?であり,
クラスC ? に属する点をそれぞれ? ? 個含んでいたとする


この時,各クラスの密度,クラス条件のない密度,
クラスの事前分布の推定値はそれぞれ
               ??
? ? ? ?) =
              ?? ?
          ?
?(?) =
          ??
           ??
?(? ? ) =                        79
            ?
碍近傍法を用いたクラス分類

ベイズの定理より,
           ? ? ? ? )?(? ? )    ? ? ? ? ??   ??
? ? ? ?) =                  =             =
               ?(?)           ?? ? ? ?      ?
誤分類の確率を最小にする ? 事後確率を最大化する

?   分類手順
    ? 1. 訓練データ集合から?近傍の点集合を選ぶ
    ? 2. この集合の中で最も多数派にクラスを割り当てる.
         ただし,同順位だった場合はランダム

?   ? = 1の時を最近傍則という
                                                 80
碍近傍法を用いたクラス分類




http://www.nag-j.co.jp/nagdmc/knn.htmから引用   81
碍近傍法の例
?   Kの値を変えて分類
    ?   Kによって平滑化の度合いが調整されている




                               82
その他の特徴
?   最近傍則の特徴
    ? ? → ∞の極限で,誤分類率は,真のクラス分布を
      用いた最適な分類器で達成可能な最小誤分類率の,
      たかだか2倍にしかならない
    ? 単純だけど意外とすごい



?   碍近傍法?カーネル密度推定法共通の特徴
    ?   データ集合全体を保持しなくてはならない
        ?   データ集合が大きいと膨大な計算量
    ?   探索用の木構造の構築で対処可
                                 83
参考サイト
?   朱鷺の杜Wiki
    ?   http://ibisforest.org/index.php?FrontPage
?   Bishopさんのサイト
    ?   http://research.microsoft.com/en-
        us/um/people/cmbishop/PRML/
?   prml_note@wiki
    ?   http://www43.atwiki.jp/prml_note/pages/1.html
?   十分统计量について
    ?   http://www012.upp.so-
        net.ne.jp/doi/math/anova/sufficientstatistic.pdf
                                                           85

More Related Content

Prml2.1 2.2,2.4-2.5

  • 2. 発表概要 ? 2.1 二値変数 ? 2.2 多値変数 ? 2.3 ガウス分布 ? 2.4 指数型分布族 ? 2.5 ノンパラメトリック法 2
  • 3. この章の目的 ? 密度推定 ? 観測値の有限集合?1 , … , ? ? が与えられた時,確率変数? の確率分布?(?)をモデル化すること ? このような確率分布は無限に存在しうる ? パラメトリック ? 分布の形を仮定し,観測値に合わせてパラメータを調整する 手法 ? ノンパラメトリック ? 分布の形を仮定せず,観測値によって分布を決める手法 3
  • 4. 4 2.1 二値変数 ? ベルヌーイ分布 ? 二项分布 ? ベータ分布
  • 5. ベルヌーイ分布 – 記号の定義 ? 二値確率変数 x ∈ {0,1} ? ex. コインを投げて,表なら ? = 1 裏なら ? = 0 ? パラメータ μ ? ? = 1となる確率 ?0≦ ? ≦1 ? ? ? = 1 ?) = ?, ? ? = 0 ? =1? ? 計算例:? = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, ? ? = 1 ? = 0.7) = 0.7 ? ? = 0 ? = 0.7 = 0.3 5
  • 6. ベルヌーイ分布 ? ベルヌーイ分布 ? Bern x ?) = ? ? (1 ? ?)1?? (2.2) ? 確率?で表が出るコインを一回投げ,表(裏)が出る確率 ? 特徴 ? ?[?] = ? (2.3) ? ???[?] = ?(1 ? ?) (2.4) 計算例:? = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, ???? ? = 1 ? = 0.7) = 0.71 (1 ? 0.7)0 = 0.7 ???? ? = 0 ? = 0.7 = 0.70 (1 ? 0.7)1 = 0.3 6
  • 7. 複数回観測した時の尤度関数 ? 設定 ?D = ?1 , … , ? ? ? ? ? は,?(? | ?)から独立に得られたと仮定 ? 尤度関数 ? ? ? ?) = ?=1 ? ? ? ?) = ?=1 ? ? ? (1 ? ?)1?? ? (2.5) ? ? ? ?が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す 7
  • 8. パラメータ?の値を最尤推定 ? 対数尤度 ? ln ?(? | ?) = ln ? ? ? ?) ?=1 ? = { ? ? ln ? + 1 ? ? ? ln 1 ? ? } (2.6) ?=1 ? = ln ? ? ln 1 ? ? ? ? + ? ln(1 ? ?) ?=1 ? ? この式は, ?=1 ? ? のみに依存しているため,この式は, この分布の下,このデータに対する十分统计量の例 8
  • 9. パラメータ?の値を最尤推定 ? 最尤推定 ? ln ? ? ?) を?で偏微分して0とおいて解く 1 ? ? ? ?? = ?=1 ?? (2.7) ? ? サンプル平均と呼ばれる ? 結果の違った見方 ? データ集合中で,? = 1になる回数を?とすると, ? データ集合中での表の観測値の割合が ? ?? = (2.8) ? 表が出る確率となる 9
  • 10. 二项分布 ? 記号の定義 ? ? : 大きさ?のデータ集合のうち,? = 1となる観測値の数 ? 二项分布 ? ? ???(? | ?, ?) = ? ? ? (1 ? ?) ??? (2.9) ? ? = ?! (2.10) ? ??? !?! ? 確率?で表が出るコインを?回投げた時, 表が出る回数?の確率分布 ? 特徴 ? ?[?] = ?? (2.11) ? ???[?] = ??(1 ? ?) (2.12) 10
  • 12. ベータ分布 ? ベルヌーイ分布のパラメータ?の最尤推定 ? 3回表が出ると,以降ずっと表が出る? ? 1 ? 過学習の問題 ? ?? = ?? ? ?=1 ? ベイズ主義的に扱う ? 事前分布?(?)を導入する必要性 ? ? ? (1 ? ? ? ?) = ? ?)1?? ? ? 事後分布が事前分布と同様の ?=1 形式となる事前分布を選びたい ? 共役性 ? ?と(1 ? ?) のべきに比例する事前分布を導入 12
  • 13. ベータ分布 Γ(a + b) ??1 ???? ? ?, ?) = ? (1 ? ?) ??1 (2.13) Γ a Γ(b) ? 特徴 ? ? ?[?] = (2.15) ?+? ?? ? ???[?] = (2.16) ?+? 2 (?+?+1) ? ?, ?は,?の分布を決めるので,ハイパーパラメータと 呼ばれる 13
  • 15. 事後分布を求める ? 事前分布 Γ(a + b) ??1 ???? ? ?, ?) = ? (1 ? ?) ??1 Γ a Γ(b) ? 尤度関数 ? ???(? | ?, ?) = ? ? (1 ? ?) ? (? = ? ? ?) ? ? 事後分布 Γ(m + a + b + l) ?+??1 ? ? ?, ?, ?, ?) = (1 ? ?) ?+??1 ? Γ m + a Γ(b + l) (2.18) ? ? = 1の観測値が?個,? = 0の観測値が?個あった時, 事後分布を求めるには,?を?, ?を?だけ増やせばよい ? ?, ?はそれぞれ,? = 1, ? = 0の有効観測数と解釈できる 15
  • 16. 逐次学習 ? 事後分布の特徴 ? 事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える ? 逐次学習 ? データがひとつづつ与えられ,データが与えられる度に パラメータを更新していく学習法 ?1 ?2 ?(?) ?(?|?1 ) ?(?|?1,2 ) 16
  • 17. 逐次学习の例 x=1を1つ ?=2 観測した時の ?=2 尤度関数 β分布 (N=m=1の 二项分布) ?=3 ?=2 β分布 17
  • 18. 逐次学習の長所?短所 ? 長所 ? 実時間での学習に利用できる ? 毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい ? 大規模データ集合に有用 ? 観測値の処理が終わった後,そのデータはもう捨ててよい ? 短所 ? 学習の早さと,正しい解への収束性のトレードオフ 18
  • 19. ?の予测分布 ? これまでの議論 ? ?(? | ?)の推定 ? 観測データ集合?から,パラメータ?の確率分布を推定 ? ここからの議論 ? ?(? = 1 | ?)の推定 ? 観測データ集合?から,? = 1となる確率を推定 19
  • 20. ?の予测分布 1 ?(? = 1 | ?) = ? ?=1 ?)? ? ?) ?? 0 1 = ?? ? ?) ?? 0 = ? ? ?] (2.19) ?+ ? = (2.20) ?+ ?+ ?+ ? ?観測値のうち,? = 1に相当するものの割合 ? ?, ?がとても大きい時,最尤推定の結果と一致する ? このような特性は,多くの例で見られる ? 有限のデータ集合では,事後平均は事前平均と μ の最尤推定量の間になる →演習2.7 20
  • 21. 事後分布の特性 ? 事後分布(ベータ分布)の分散 ?? ? ??? ? = ?+? 2 ?+?+1 ? ? → ∞や? → ∞の時,分散は0に近づく ? 多くのデータを学習すればするほど, 一般的に事後分布の不確実性は減少する? 21
  • 22. 平均?分散の不確実性 ? 事前平均と事後平均 ? ? ? = ? ? [? ? ? | ? ] (2.21) ? ?の事後平均を,データを生成する分布上で平均すると, ?の事前平均に等しい ? 事前分散と事後分散 ??? ? ? = ? ? [??? ? ? ?]] + ??? ? [? ? ? ?]] (2.24) 事前分散 事後分散の平均 事後平均の分散 の平均 ? 平均的には 事前分散 > 事後分散 ? 成り立たないデータセットもある 22
  • 23. 23 2.2 多値変数 ? 多项分布 ? ディリクレ分布
  • 24. 例えば ? サイコロを投げる ? 6通りの状態がありうる ? 1-of-K 符号化法 ? K個の状態を取りうる離散変数を扱う際に用いられる ? 要素の一つ? ? のみが1で他が0 ? ? ?=1 ? ? = 1を満たす ? ex. サイコロの目を観測値?として,3が出た時 ? ? = (0,0,1,0,0,0) ? 24
  • 25. 歪んだサイコロ ? 記号の定義 ? ? ? ∶ ? ? = 1となる確率 ? 正確なサイコロの場合 1 1 1 1 1 1 ? ?=( , , , , , ) 6 6 6 6 6 6 ? シゴロ賽の場合 1 1 1 ? ? = (0,0,0, , , ) 3 3 3 ? ピンゾロ賽の場合 ? ? = (1,0,0,0,0,0) 25
  • 26. 多项分布 ? ?の分布 ? ?? ベルヌーイ分布を2種類以上の ? ? ?) = ?? (2.26) 出力に一般化したもの ?=1 ? 観測値が複数あった場合 ? ?個の独立な観測値?1 … ? ? ? 尤度関数 ? ? ? ? ? ? ?) = ?? ? ?? = ? ?( ? ? ?? ) = ?? ?? ?=1 ?=1 ?=1 ?=1 (2.29) ?? = ? ??  : この分布の十分统计量 26 ?
  • 27. ?の最尤推定 ? 制約付き対数尤度最大化 ? ラグランジュの未定乗数法を用いる ? ? ? ? = 1 に代入して, ?= ? ? ln ? ? + ? ???1 ? ?=1 ?=1 ?? ?? ?? ? =1 = + ? ? ?? ? ?? ? ?? ? ?? = ? = 0 より, ?? ? ? ?? ? = ?? ?? =? ?? ? ? ? ?? = ? 27
  • 28. 多项分布 ? ? ?? ???? ?1 , … ? ? ?, ?) = ?? (2.34) ?1 ?2 … ? ? ?=1 ? ?! ただし, = ?1 ?2 … ? ? ?1 ! ?2 ! … ? ? ! ? ?? = ? ?=1 ? パラメータ?と観測値の総数?が与えられた条件の下, ?1 … ? ? の同時確率 28
  • 29. ディリクレ分布 ? 多项分布の? ? についての事前分布 ? 共役分布の形は以下の通り ? ? ? ?1 (2.37) ? ? ?) ∝ ?? ?=1 ただし,0 ≦ ? ? ≦ 1, ? ? ? = 1 ハイパーパラメータ ? = (?1 , … , ? ? ) ? ? ディリクレ分布 ? Γ(?0 ) ??? ? ?) = ?? ? ? ?1 (2.38) Γ ?1 … Γ(? ? ) ?=1 ただし,?0 = ? ?? 29
  • 30. 共役性の確認 ? 事前分布 ? Γ(?0 ) ? ? ?1 ? ? ?) = ?? (2.38) Γ ?1 … Γ(? ? ) ?=1 ? 尤度関数 ? ? ? ? ?) = ?1 ?2 … ? ? ?? ?? (2.34) ?=1 ? 事後分布 ? ? ?, ?) = ??? ? ? + ?) ? Γ(?0 + ?) = ?? ? ? +? ? ?1 (2.41) Γ ?1 + ?1 … Γ(? ? + ? ? ) 30 ?=1
  • 31. 31 2.4 指数型分布族 ? 最尤推定と十分统计量 ? 共役事前分布 ? 無情報事前分布
  • 32. 指数型分布族とは ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ? ?:分布の自然パラメータ ? ? : ベクトル or スカラー,離散 or 連続 ? ? ? ∶ ?の任意の関数 ? ? ? ∶ 正規化係数. ? ? ? ? exp{? ? ? ? } ?? = 1 ? 指数型分布族の例 ? ベルヌーイ分布 ? 多项分布 本当に指数型分布族なのか確かめる →指数型分布族の形式で書けるか調べる ? ガウス分布 32
  • 33. ベルヌーイ分布は指数型分布族?(1/2) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ?(? | ?) = Bern x ?) = ? ? (1 ? ?)1?? ?(? | ?) = exp{? log ? + 1 ? ? log 1 ? ? } 右辺の対数の指数をとる ?   = 1 ? ? exp log ? 1? ? ? ∴ ? = log 指数型分布族の式と係数比較 1? ? 1 ?= μについて解く 1 + exp(??) 33 → ロジスティックシグモイド関数 ?(?)
  • 34. ベルヌーイ分布は指数型分布族?(2/2) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ? ?(? | ?) = 1 ? ? exp log ? 1? ? ?(? | ?) = ?(??)exp ?? ∴ ?(?) = ?   ?(?) = 1      ?(?) = ?(??) より,ベルヌーイ分布は指数型分布族. 34
  • 35. 多项分布は指数型分布族?(1/8) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ? カテゴリカル分布 ?? ?(? | ?) = ???? ? ?) = ?? ?=1 ? ? ?? = exp ln ?? = exp ? ? ln ? ? ?=1 ?=1 ここで ? ? = ln ? ? , ? = (?1 , ?2 , … , ? ? ) ? と定義すると, ?(?) = ? ?(?) = 1 ?(?) = 1 ? 35 ただし, ?=1 ? ? = 1より,ηは独立ではない
  • 36. 多项分布は指数型分布族?(2/8) ? 前スライドのまとめ ? 多项分布を指数型分布族の形に書き表すことができた ? しかし,?は独立ではない ? なので ? ? ?=1 ? ? = 1を用いて,? ? を ? ? (? = 1,2, … ? ? 1)で 表し, ? ? を消去する ? 他にも以下の制約がある ??1 0 ≦ ? ? ≦ 1, ?? ≦1 36 ?=1
  • 37. 多项分布は指数型分布族?(3/8) ? exp ? ? ln ? ? pp.73 上の式より, ?=1 ? ??1 ?? = 1 ?=1 = exp ? ? ln ? ? + ? ? ln ? ? ?=1 ??1 ??1 ??1 = exp ? ? ln ? ? + 1 ? ? ? ln 1 ? ?? ?=1 ?=1 ?=1 ??1 ??1 ?? = exp ? ? ln ??1 + ln 1 ? ?? 1? ?=1 ?? ?=1 ?=1 37
  • 38. 多项分布は指数型分布族?(4/8) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ??1 ??1 ?? exp ? ? ln ??1 + ln 1 ? ?? 1? ?=1 ?? ?=1 ?=1 ??1 ??1 ?? = 1? ? ? exp ? ? ln ??1 1? ?=1 ?? ?=1 ?=1 よって, ??1 ?? ? ? = ln ??1 1? ? ? を求めるため, 1? ?=1 ?? ?=1 ? ? = ? の形にする 38
  • 39. 多项分布は指数型分布族?(5/8) ?? ? ? = ln ??1 1? ?=1 ?? ?? exp(? ? ) = ??1 両辺の指数をとる 1? ?=1 ? ? ??1 ? ? = exp(? ? ) 1 ? ?? ?=1 ??1 ??1 ??1 ?? = 1? ?? exp(? ? ) k=1からM-1まで足し合わせる ?=1 ?=1 ?=1 39
  • 40. 多项分布は指数型分布族?(6/8) ??1 ??1 ?=1 exp(? ? ) ?? = ??1 赤字について解く 1+ ?=1 exp(? ? ) ?=1 ??1 ? ? = exp(? ? ) 1 ? ? ? に代入して, ?=1 exp(? ? ) ?? = ??1 1 + ?=1 exp(? ? ) この式を,ソフトマックス関数,正規化指数関数と呼ぶ. 40
  • 41. 多项分布は指数型分布族?(7/8) ??1 ??1 ?? ?(? | ?) = 1 ? ? ? exp ? ? ln ??1 , 1? ?=1 ?? ?=1 ?=1 ?? ? ? = ln ??1 , 1? ?? ?=1 exp(? ? ) ?? = ??1 1 + ?=1 exp(? ? ) ??1 ??1 ?=1 exp ? ? ? 1? ?? =1? ??1 より, 1+ ?=1 exp ? ? ?=1 ?1 ??1 ? ? ?) = 1 + exp(? ? ) exp ? ? ? ?=1 41
  • 42. 多项分布は指数型分布族?(8/8) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ?1 ??1 ? ? ?) = 1 + exp(? ? ) exp ? ? ? ?=1 ? ? = ?1 , ?2 , … , ? ??1 , 0 ?(?) = ? ?(?) = 1 ?1 ??1 ?(?) = 1+ exp(? ? ) ?=1 とすると,多项分布は指数型分布族のひとつ 42
  • 43. ガウス分布は指数型分布族?(1/3) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } 1 (? ? ?)2 ? ? ?, ?) = exp ? (2?? 2 )1/2 2? 2 1 1 2 ? ?2 = exp ? 2 ? + 2 ? ? 2 (2?? 2 )1/2 2? ? 2? ? 1 1 ?2 ?/? 2 ? = exp ? 2 exp (2?)1/2 ? 2? ?1/2? 2 ?2 1 ?1 ?/? 2 ? ?(?) = ? ? ?= = ?(?) = (2?)1/2 ?2 ?1/2? 2 ?2 43
  • 44. ガウス分布は指数型分布族?(2/3) ?1 ?/? 2 ?= = 2 より, ?2 ?1/2? 1 = (?2?2 )1/2 ? 2 ?1 ? = ?1 ? = ? 2?2 よって, 1 ?2 exp ? 2 ? 2? ?1 2 1 = (?2?2 )1/2 exp ? (?2?2 ) 4?2 2 2 ?1 2 = (?2?2 )1/2 exp ? ← ?で表された! 4?2 44
  • 45. ガウス分布は指数型分布族?(3/3) ?上の指数型分布族 ∶ ? ? ?) = ? ? ? ? exp{? ? ? ? } ? 1 ?1 2 ?/? 2 ? ? ? ?) = (?2?2 )1/2 exp ? exp より (2?)1/2 4?2 ?1/2? 2 ?2 1 ? ? = 2? 1/2 ?1 2 ? ? = (?2?2 )1/2 exp ? 4?2 ?1 ?/? 2 ? ?= = 2 , ? ? = 2 とすると, ?2 ?1/2? ? ガウス分布は指数型分布族のひとつ 45
  • 46. ?の値を最尤推定 正規化条件より, ? ? ? ? exp{? ? ? ? } ?? = 1 ?について,両辺の勾配を求めて, (fg)’=f’g+fg’ ?? ? ? ? exp{? ? ? ? } ?? + ? ? ? ? exp ? ? ? ? ? ? ?? = 0 ?? ? ? = ? ? ? ? exp ? ? ? ? ? ? ?? = ? ? ? ? ? ? ? ? = ? ?ln ? ? ?(?)の期待値は,?(?)のみに依存 (?(?)の?次モーメントは?(?)の?階微分で求められる) 46
  • 47. ?の値を最尤推定 独立に同分布に従うデータ集合? = {?1 , ?2 , … , ? ? }に対する尤度関数は ? ? ? exp ? ? ?) = ? ?? ? ? ?? ? ?? ?=1 ?=1 両辺の対数をとって, ? ? ln ? ? ?) = ln ? ? ? + ? ln ?(?) + ? ? ? ?? ?=1 ?=1 (?についての勾配) = 0より, ? ?? ln ?(? ?? ) + ? ?? =0 ?=1 ? 1 ?? ln ? ? ?? = ? ?? → この式を解けば? ?? が得られる 47 ? ?=1
  • 48. 十分统计量 ? 1 ?? ln ? ? ?? = ? ?? ? ?=1 ? ?? は ? ? ? ? のみに依存している → ? ? ? ? を,?(? | ?)の十分统计量と呼ぶ ? 十分统计量の例 ? ベルヌーイ分布 ? ? ? = ?より, ? ? の総和 ? ガウス分布 ? ? ? = (?, ? 2 ) ? より, ? ? の総和, ? ? 2 の総和 48
  • 49. 指数型分布族の共役事前分布 ? 共役事前分布 ? 尤度関数と掛けて事後分布を求めると,その関数形が同じ になるような事前分布. 指数型分布族 ? ? ? ? ? ?) = ? ?? ? ? exp ?? ? ?? ?=1 ?=1 に対する共役事前分布は, ? ? ? ?, ?) = ? ?, ? ? ? exp ?? ? ? ? ?+? ∵ ? ? ?, ?, ?) ∝ ? ? exp ?? ?(? ? ) + ?? 50 ?=1
  • 50. これまで出てきた共役事前分布 確率分布 共役事前分布 ベルヌーイ分布(二项分布) ベータ分布 多项分布 ディリクレ分布 ガウス分布の平均(分散は既知) ガウス分布 ガウス分布の精度(平均は既知) ガンマ分布 ガウス分布の分散(平均は既知) 逆ガンマ分布 ガウス分布(平均?精度が未知) ガウス-ガンマ分布 多変量ガウス分布の平均(共分散は既知) ガウス分布 多変量ガウス分布の精度(平均は既知) ウィッシャート分布 多変量ガウス分布の共分散(平均は既知) 逆ウィッシャート分布 多変量ガウス分布(平均?精度が未知) ガウス-ウィッシャート分布 51
  • 51. 無情報事前分布 ? 概要 ? その事前分布を用いて得られる事後分布に, その事前分布ができるだけ影響しないような事前分布 ? 事前分布に対する知見がない時に用いられる ? 単純に考えると... ? 離散変数の時 ? K個の状態をとりうるなら,各状態を1/?で取ればよい ? 連続変数の時 ? 分布? ? ?)について, ?(?) = ?????.とすればよい? 52
  • 52. 無情報事前分布 - ?(?)=?????.? ? ?(?)=?????.という事前分布の問題点 ? ?の定義域が有界でないため, ?上での積分が発散する ? 変則事前分布(不完全事前分布)と呼ばれる ? 非線形な変数変換が上手く行えない ? ex. ? ? ? が定数だとする. ? = ? 2 と変数変換を行うと, ?? ?? ? = ?? ? = ? ? ? 2 2? ∝ ? ?? η上の密度は定数とはならない. 事後分布が適切(正規化されている)という条件下であれば 使われることも多い 53
  • 53. 無情報事前分布 - ?(?)=?????.? ? 最尤推定ではこの問題は生じない ? 尤度関数?(? | ?)は?について単純な式だから(? ) 例 データ? ? が,平均?で分散? 2 の正規分布? ?; ?, ? 2 から生じるとする. σ2 を既知とし,平均?を推定する. 事前分布に?(?) = ?????. の分布を考える. この時,事後分布は, p(μ | D)∝p(D | μ)*const. より,事後確率が最大となるμの解は最尤推定解に一致. よって,事前確率は推定に影響を与えない. 54
  • 54. 無情報事前分布の例1 ? 平行移動不変性を持つ事前分布 ? 平行移動不変性とは ? ? ?) = ?(? ? ?) 位置パラメータ ? xを定数分移動しても,同じ形式が保たれる ? 求めてみよう ? ≦ ? ≦ ?に入る確率と? ? ? ≦ ? ≦ ? ? ?に入る確率が等しいので, ? ??? ? ? ? ?? = ? ? ?? = ? ? ? ? ?? ? ??? ? この式が任意のA,Bについて成立するため, ?(?) = ?(? ? ?) 55 よって,?(?)は定数
  • 55. 無情報事前分布の例1 ? 位置パラメータの例 ? ガウス分布の平均? ? μ の共役事前分布はガウス分布? ? ?0 , ?0 ) ? σ0 → ∞の極限をとれば,無情報事前分布になる ? 事前分布が事後分布に影響を与えていないか ?2 ??0 2 ?0 → ∞ μ?= ? + 2+ ? 2 0 2 + ?2 ? ?? μ?= ? ?? 0 ??0 ?? ?0 → ∞ 1 ? 1 1 ? = 2 2 = 2+ 2 ?? 2 ? ?? ?0 ? 56
  • 56. 無情報事前分布の例2 ? 尺度不変性を持つ事前分布 ? 尺度不変性とは 1 ? ? ? ?) = ? ? ? 尺度パラメータ ? xを定数倍だけ拡大縮小しても,同じ形式が保たれる ? 求めてみよう ? ≦ ? ≦ ?に入る確率と?/? ≦ ? ≦ ?/?に入る確率が等しいので, ? ?/? ? 1 ? ? ? ?? = ? ? ?? = ? ?? ? ?/? ? ? ? この式が任意のA,Bについて成り立つので, 1 ? 57 ? ? = ? ? ?
  • 57. 無情報事前分布の例 2-2 ? 求めてみよう(続き) したがって,?(?) ∝ 1/? ? 特徴 ?変則事前分布となる ? ? ln ? = ?????. 1 ? ? p σ ∝ より,? ? = ?は定数 とおき, σ ? ?? t= ln ?と変数変換をすると, ?? = ?より, ?? ? ? ? = ? ? = ? σ=const. ?? ∴? ln ? = ?????. 58
  • 58. 無情報事前分布の例1 ? 尺度パラメータの例 ? ?を考慮済みのガウス分布の標準偏差σ ?(? | ?, σ2 ) ∝ σ?1 exp {?(? /?)2 } (? = ? ? ?) ? 精度? = 1/? 2 を考え,密度を変換すると 1 1 ? ? ∝ ? ? ? ∝ ? ? ? 事前分布が事後分布に影響を与えていないか ?0 = 0, ?0 = 0 ? ? ? ? = ?0 + ??= 2 2 ? ?0 = 0, ?0 = 0 ? ? ? = ?0 + ? ?? 2 ? ? = ? ?? 2 2 2 59
  • 59. 计算の补足 1 1 ? ? ∝ ? ? ? ∝ の証明 ? ? 2 1 ?? ? ? ? = 1 exp ? 2? 2 2?? 2 2 ? = 1/? 2 とおくと, ?1/2 , ?? 1 ?3 ?= ? =? ? 2 ?? 2 したがって, 1 ?2 ? ?? ? 2 1 ?3/2 ? ? = 1 exp ? ? ? 2 2 2? 2 1 ? ? ∝ 60 ?
  • 60. 61 2.5 ノンパラメトリック法 ? ヒストグラム密度推定法 ? カーネル密度推定法 ? 最近傍法
  • 61. ノンパラメトリック法 パラメトリック : 少数のパラメータから 確率変数の分布の形状を決める ノンパラメトリック : 分布の形状が制限されず, データによって形状が決まる ? パラメトリックなアプローチ 仮定した分布が適切でない場合 ? 確率分布の形状を仮定 予測性能が悪くなりうる ? ノンパラメトリックなアプローチ 分布の形状について ? 確率密度関数の形が データに依存して決まる わずかな仮定しかない 62
  • 62. ヒストグラム密度推定法 ? 記号の定義 ? ? ∶ 連続変数 ? ?? ∶ ?番目の幅 ? ?? ∶ ?番目の観測値の数 ? ? ∶ 観測値の総数 ? 確率密度 ?? ? ?? = ?? ? 63
  • 63. ヒストグラム密度推定法 ? ?の値による推定の変化 ? ?は適切な値に設定しないと分布の特徴を捉えきれない 64
  • 64. ヒストグラム密度推定法 ? 利点 ? 一度ヒストグラムを求めると,元データを廃棄できる →大規模データに有利 ? データが逐次的に与えられた時に容易に適用できる ? 欠点 ? 推定した密度が区間の縁で不連続になる ? 次元数が増えると,指数的に区間の総数が増え,計算 規模が増大する(次元の呪い) ヒストグラム法は1次元か2次元のデータの可視化には役に立つが 他のほとんどの密度推定の応用問題には適さない 65
  • 65. ヒストグラム密度推定法 ? ヒストグラム密度推定法から分かること ? 特定の位置の確率密度を推定するにはその点の近傍の データ点も考慮すべき ? 近傍の特性は区間によって定義されている ? 区間の幅→平滑化パラメータ ? 平滑化パラメータの値は,大きすぎず,小さすぎず適切な 値にすべき ? cf. 多項式曲線フィッティングのモデル複雑度の選択 66
  • 66. 近傍を考虑した密度推定 ? 目的 ? ある?次元のユークリッド空間中の未知の確率密度? ? から, 観測値の集合が得られている.この集合から?(?)を推定 xを含むある小さな領域Rに割り当てられた確率Pは ?= ? ? ?? ? p(x)から得られたN個の観測値からなるデータ集合を集める 各データ点が領域R中にある確率はP →R内の点の総数Kは二项分布に従う ?! Bin K N, P) = ? ? (1 ? ?) ??? ?! ? ? ? ! 67
  • 67. 近傍を考虑した密度推定 ?[?/?] = ? ???[?/?] = ?(1 ? ?)/? Nが大きい時,??? ?/? ≒ 0より, ? ? ?? また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど 十分に小さいと仮定できる時, P? ? ? ? (ただし,?は?の体積) よって, ? 領域Rは近似的に密度が一定とみなせるほど小さく ?(?) = ?? 二项分布が鋭く尖るほど十分な量のKが存在する 68
  • 68. 近傍を考虑した密度推定 ? ?(?) = ?? Vを固定し,Kを推定 Kを固定し,Vを推定 カーネル密度推定法 碍近傍法 Nが大きくなる時Vが縮小し,Kが大きくなるなら, N→∞で,どちらも真の確率密度に収束する 69
  • 69. カーネル密度推定法 ? 記号の定義 ? ? ∶ 確率密度を求めたいデータ点 ? ? ∶ ?を中心とした超立方体 1 1, ? ? ≦ , ? = 1,2, … ?の時 ? ? ? = 2 0,それ以外の時 ? カーネル関数の一例 ? Parzen窓と呼ばれる ? ?((? ? ? ? )/?)は,xを中心とする一変がhの立方体の内部に, データ点? ? があれば1, そうでなければ0となる関数 70
  • 70. カーネル密度推定法 立方体内部の総点数は ? 結果の解釈 ? ? 1.求めたいデータ点の近傍 ?? ?? ?= ? (超立方体の範囲)にある ? ?=1 データ点の数を考慮 ? ? ? = , ? = ? ? より, ?? ? 2. 各データ点の近傍に, 推定確率密度は 求めたいデータ点を含む ? 1 1 ?? ?? データ点の数を考慮 ?(?) = ? ? ? ? ? ?=1 71
  • 71. カーネル密度推定法 ? Parzen窓の問題点 ? 立方体の”縁”で確率密度が不連続となってしまう ? 解決策 ? ガウスカーネルを使う 2 ? ? ? ?? ? ? ?, ?? = exp ? 2?2 ? 確率密度モデルは以下の通り ? 2 1 1 ? ? ? ?? ?(?) = exp ? ? 2??2 1/2 2? 2 ?=1 72
  • 72. カーネル密度推定法 ? ?の値による推定の変化 ? 小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 73
  • 73. カーネル密度推定法 ? カーネル関数 ? カーネル関数は,以下の条件を満たす任意の関数 ?(?) ≧ 0 ? ? ?? = 1 ? カーネル密度推定法の利点?欠点 ? 訓練段階では単に訓練集合を保存しておけばよい ? 密度の評価にかかる計算コストがデータ集合の大きさ に比例 74
  • 74. 最近傍法 ? カーネル密度推定法の問題点 ? カーネル幅(密度推定の粒度)を決めるパラメータ?が すべてのカーネルで一定となっている ? ?が大きいと,全体的に平滑化される ? ?が小さいと,全体的にノイズの多い推定 ? 解決策 ? データ空間内の位置に応じて?を変える =最近傍法 75
  • 75. 碍近傍法 ? Kを固定し,Vを推定 ?(?) = 碍近傍法 ?? ? 碍近傍法 ? ?(?)を推定したい点xを中心とした小球を考え,その 半径を,?個のデータ点を含むようになるまで広げる. ? ? この時の体積を?とし, ?(?) = から密度推定 ?? 76
  • 76. 碍近傍法 ? Kの値による推定の変化 ? 小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 77
  • 77. 碍近傍法を用いたクラス分類 ? 目的 ? クラス? ? 中に? ? 個の点があり,点の総数は?である データ集合に対し,新たな点?を分類する ? 分類方針 ? ?を中心として,クラスを考えずに?個の点を含む球を 見つける ? 各クラスについてベイズの定理を適用し,各クラスに 属する事後確率を求める ? 事後確率が最大のクラスに割り当てる 78
  • 78. 碍近傍法を用いたクラス分類 ?を中心とし,?個の点を含む球が,体積?であり, クラスC ? に属する点をそれぞれ? ? 個含んでいたとする この時,各クラスの密度,クラス条件のない密度, クラスの事前分布の推定値はそれぞれ ?? ? ? ? ?) = ?? ? ? ?(?) = ?? ?? ?(? ? ) = 79 ?
  • 79. 碍近傍法を用いたクラス分類 ベイズの定理より, ? ? ? ? )?(? ? ) ? ? ? ? ?? ?? ? ? ? ?) = = = ?(?) ?? ? ? ? ? 誤分類の確率を最小にする ? 事後確率を最大化する ? 分類手順 ? 1. 訓練データ集合から?近傍の点集合を選ぶ ? 2. この集合の中で最も多数派にクラスを割り当てる. ただし,同順位だった場合はランダム ? ? = 1の時を最近傍則という 80
  • 81. 碍近傍法の例 ? Kの値を変えて分類 ? Kによって平滑化の度合いが調整されている 82
  • 82. その他の特徴 ? 最近傍則の特徴 ? ? → ∞の極限で,誤分類率は,真のクラス分布を 用いた最適な分類器で達成可能な最小誤分類率の, たかだか2倍にしかならない ? 単純だけど意外とすごい ? 碍近傍法?カーネル密度推定法共通の特徴 ? データ集合全体を保持しなくてはならない ? データ集合が大きいと膨大な計算量 ? 探索用の木構造の構築で対処可 83
  • 83. 参考サイト ? 朱鷺の杜Wiki ? http://ibisforest.org/index.php?FrontPage ? Bishopさんのサイト ? http://research.microsoft.com/en- us/um/people/cmbishop/PRML/ ? prml_note@wiki ? http://www43.atwiki.jp/prml_note/pages/1.html ? 十分统计量について ? http://www012.upp.so- net.ne.jp/doi/math/anova/sufficientstatistic.pdf 85