狠狠撸

狠狠撸Share a Scribd company logo
几何を使った统计のはなし
    ー統計を可視化するー


          2012/9/27
            #zansa




         @motivic_
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        1
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        2
自己紹介(略歴)
 大学?院
 アメリカの大学で純粋数学(学部:低次元トポロジー、院:代数幾何)を勉強


 社会人時代
 国の機関で…


 再び院へ
 興味―生物統計
   ―情報幾何
   ―代数統計




                                       3
自己紹介(略歴)
 大学?院
 アメリカの大学で純粋数学(学部:低次元トポロジー、院:代数幾何)を勉強


 社会人時代
 国の機関で…


 再び院へ
 興味―生物統計
   ―情報幾何
   ―代数統計



            人生ランダムウォーク気味?
                                       4
モチベーション
 統計って計算ばっかり

      統計手法を視覚的に見たい!



 統計を幾何の世界に持ち込めば、幾何学的な
 手法が使える!




                        5
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        6
情報幾何って何?


母数を局所座標系として確率密度関数の集まり
を多様体とみて、フィッシャー情報行列をリーマ
ン計量としたリーマン幾何




       ?
       ?
       ?
       ?


                         7
??

          ____  ━┓ ___        ━┓
        / ― \ ┏┛/ ―\          ┏┛
       / (●) \ ヽ ? /ノ (●) \ ?
     /  (⌒ (●) / | (●) ⌒) \
   /      ̄ヽ__) / |     (__ノ ̄ |
 /        ___ /    \          /
 |        \          \      _ノ
 |          |         /     \



                                   8
本日の方針


微分幾何や代数幾何を(直接)使いません




グラフと図を中心に説明します




                      9
情報幾何の始まり


 C.R. Rao 「フィッシャー情報行列をリーマン計量
 として考えるのが重要じゃね?」(1945)




    これの意味の解説から始めます




                               10
正規分布N(μ, σ?)の母数空間




                    11
分布の离れ度合        Kullback-Leibler divergence

  p1      q1




  p2      q2




                                             12
ユークリッドじゃない!




              13
碍尝-顿颈惫别谤驳别苍肠别と贵颈蝉丑别谤情报量との関係
    対数尤度を             として、フィッシャー情報量
を                と定義する。


    今、   と        のKullback-Leibler divergenceにマクロ
    ーリン展開を使うと、




        Iが長さを測るものさしとして使えそう!
(参考)
 「良い計量」は(定数倍を除き)Iのみであることが証明されています(Cencov)
                                                     14
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        15
漸近的に等しい3つの検定
H0:θ=θ0を帰無仮説とした検定
 尤度比検定
  l(θmle)- l(θ0) の差を見る (統計量は2(l(θ )- l(θ )))
                                        mle           0


 Wald検定
  θmle- θ0の差を見る        (統計量は(θ - θ )^2/V(θ ))
                                  mle         0           mle



 スコア検定(ラオ検定、ラグランジュ乗数検定)
  θ0の傾きを見る             (統計量はl’(θ )^2/V(θ ))
                                    0             0




         漸近的には全てχ2分布
                                                                16
渐近的に等しい3つの検定のよく见るグラフ




                       17
検定理論への応用
このグラフでは各検定の性質は分からない。

1次有効な各種検定(尤度比検定、スコア検定、
ワルド検定等々)の比較をするには、従来は各
モデルに対し個別の解析又はシミュレーション
等で調べるしかなかった。

情報幾何を使うことにより、シミュレーションをし
なくても(!)、各種検定の検出力に関する一般
的な性質が分かるようになった。
                          18
k-検定
 この3つの検定は情報幾何を使うと、1つのクラ
 スの検定(k-検定)で表現でき、

  k=0 の時はWald検定
  k=0.5の時は尤度比検定
  k=1 の時はスコア検定

 と対応付けが出来る。

 ※ちなみにkは情報幾何的には検定の受容域の境界面とモデルとの角度の
 係数を意味してます。
                                     19
定理の前に記号の準備
H0:θ=θ0の検定を考える
         ,where N is # of samples and I is Fisher Information

   を検出力関数
   を における最強力検定の検出力関数

検出力損出:


 最強力検定に対して、同じ検出力を得るにはどれだけ余分に標
 本を取らないといけないかを表す。

u(α)を標準正規分布の両側α%点

                                                                20
k-検定の検出力損失の定理

  定理



 ここで      ,       ,   はそれぞれ、




       はEfron曲率




                               21
検出力损出グラフ(α=0.05%)




                    22
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        23
最尤法を見る前に


 情報幾何を使った最尤法の几何学的解釈の前
 に、最小二乗法の古典的な幾何学的解釈を復
 習しましょう!




                        24
最小二乗法の几何
 線形回帰モデル




 としたとき、最小二乗推定量     は =argmin

 これを解くと、

 よって、予測値ベクトル   は

 またハット行列HはH^2=H、HX=Xを満たすことから、yから への対応は、
 yからXの列ベクトルが生成するベクトル空間への射影と考えることができる




                                          25
最小二乗法の几何




           26
最尤法の几何
 ここでは空間として指数型分布族を考えます
確率質量関数又は確率密度関数   が次のように書けるとき、
指数型分布族と呼びます:

例)正規分布




                                27
最尤法の几何




         28
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        29
EMアルゴリズム
 尤度が最大となるパラメータを解析的に見つける代わりに、極限
 が尤度を最大にするような数列を作るアルゴリズム

 最尤推定量が解析的に求めるのが難しい時や、不完全データ
 の解析に使える

 eg) 混合正規分布、欠測を含むデータの解析


 ここで、
 Yを観測されたデータに対応する確率変数
 Zを欠測データに対応する確率変数
 X=(Y,Z)を完全データに対応する確率変数
 とする。

                                 30
EMアルゴリズム
 計算手順
(1) 適当に初期値        を取る
(2) 以下のE-ステップとM-ステップを繰り返す
E(Expectation)-ステップ:
    下記のQを計算する



M(Maximization)-ステップ:
  Qを最大化するθを見つけてθを更新する




                            31
emアルゴリズムのための言葉の準備
 不完全データの場合、空間内の1点ではなく点の集まり
 である多様体となる。これをデータ多様体と呼ぶ。また
 、データ多様体のパラメータをηとし、確率密度関数をq
 と書く。

 e-射影とm-射影は双対的な射影で、それぞれデータ多
 様体、モデル多様体への(最短距離での)直交射影と
 なってます。m-射影は最尤法で出てきたものと同じで、
 最尤推定をしていることになります。




                              32
emアルゴリズム
(1)初期値        をモデル内に適当に取る
(2)以下のe-ステップとm-ステップを繰り返す
   e(exponential)-ステップ
   以下のKullback-Leibler divergenceが最小になるηを見つける
   (    からデータ多様体にe-射影をする)



 m(mixture)-ステップ
 以下のKullback-Leibler divergenceが最小になるθを見つける
 (     からモデル多様体にm-射影をする)




                                                33
别尘アルゴリズムの几何




              34
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                     35
情報幾何の応用
 マルチスケール?ブートストラップ法
?通常のブートストラップに対し、精度が格段に上
 (通常のが1次の精度に対して、3次の精度)
?計算量のオーダーは変わらない
?曲率とかの幾何的な量を計算

?バイオインフォマティックスの分子系統樹推定で標準
 的に使われている




                            36
(参考)ブートストラップ法
 統計学におけるモンテカルロ法

 リサンプリング法の1つ

 分布が複雑であったり分からない場合に力を発
 揮

 サンプルを基に経験分布関数を作り、そこから
 乱数を発生させ計算する

                         37
他にも
 ブートストラップ&マルチスケール?ブートストラ
 ップも情報幾何を使って「見る」ことができる

 Jeffreys priorが情報幾何の世界で見ると一様と
 なる(アメリカの大学だとこのあたりの事実は学
 部の低学年向けの統計入門のクラスで教えて
 いたりします)




                                 38
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        39
代数統計って何?
代数幾何を使った統計
Q:代数幾何って?
A:多項式の零点の集まりの研究

本日は2×2分割表への代数幾何的アプローチ
と特異学習理論への応用の話をします




                        40
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        41
分割表について
分割表のセル内の数が少ない場合だと、漸近
理論が使えないため、正確検定の方が良い

が、フィッシャーの正確検定は、セル数が多い場
合には(分割表の列挙がNP問題のため)無理

      分割表が大きい&疎な場合にも
      使える統計手法を作りたい!



                         42
2×2分割表の代数几何

        Y1    Y2    Total           Y1    Y2    Total
 X1     n11   n12    n1+     X1     p11   p12    p1+
 X2     n21   n22    n2+     X2     p21   p22    p2+
Total   n+1   n+2    n++    Total   p+1   p+2    1




         ,を満たすので
        の集まりは、重心座標を考えると
  4面体の内部となる




                                                        43
2×2分割表の代数几何




              44
Simpson’s paradox

                    治らな
             治った
                    かった     新薬は効いてない?

     プラセボ     500   500     新薬のオッズ比
                            OR=0.1
      新薬      100   1,000




                                        45
Simpson’s paradox

                                治らな          新薬は効いてない?
                   治った
                                かった

       プラセボ        500          500          新薬のオッズ比
        新薬         100          1,000
                                             OR=0.1

                   男女で分けると???

                     治らな                                治らな
  男性         治った                        女性      治った
                     かった                                かった

 プラセボ         5          100            プラセボ    495     400

  新薬          80         990            新薬       20     10

         OR≒1.6                                OR≒1.6

                               効いてる!
                                                              46
Simpson’s paradoxの幾何




曲面の逆側に点があると
Simpson’s paradoxが起きる


                        47
現実的な応用として
 グレブナー基底?マルコフ基底を使って分割表を
 分析する方法(惭颁惭颁法)があります。



 (フィッシャーの方法に比べれば全然良いけど)
 まだ計算に少し時間がかかるので、現在は計算
 の効率を上げるような研究が進んでいます。




                          48
本日の発表内容
自己紹介
情報幾何のはなし
  情報幾何って何?
  検定への応用
  最尤法を「見る」
  EMアルゴリズムを「見る」
  応用:マルチスケール?ブートストラップ
代数統計のはなし
  代数統計って何?
  2×2分割表における代数幾何
  一般学習モデルへの応用
                        49
代数統計の一般学習モデルへの応用
一般モデルは特異点を持つので、代数幾何を使わない
と扱うのが難しい

                   正則モデル         一般モデル

                    正規分布         混合正規分布
     具体例
                   線形回帰等       隠れマルコフモデル等

 Cramér-Raoの不等式     成立する         成立しない

                                存在しないか、
    最尤推定量         漸近有効性がある
                               漸近有効性がない
                                 WAIC, EoSのみ
    情報量基準         AIC, BIC等々
                               (AIC等は使えない)




                                               50
WAICのポイント
 特異点に対して特異点解消定理を使う。(代数
 幾何だからこそできる技)




 WAICの計算自体は簡単。(代数幾何を使うの
 は数学的な保証の部分です)




                          51
おわり
 他にもまだまだ応用があり、今後色々な分野で
 活躍をしていく(???ハズ) !




 ご清聴ありがとうございました!




                         52
参考文献
S-I.Amari and H.Nagaoka. Methods of information geometry, Translations of
    mathematical monographs; v. 191, American Mathematical Society, 2000

S-I.Amari. Information geometry of the EM and em algorithms for neural
    networks. Neural Networks. 8(9) 1379-1408, 1995

P.Gibilisco, et al. Algebraic and Geometric Methods in Statistics, Cambridge
   University Press, 2009




                                                                               53

More Related Content

What's hot (20)

PDF
ベイズ统计入门
Miyoshi Yuya
?
PDF
机械学习のためのベイズ最适化入门
hoxo_m
?
PDF
阶层モデルの分散パラメータの事前分布について
hoxo_m
?
PDF
変分推论法(変分ベイズ法)(笔搁惭尝第10章)
Takao Yamanaka
?
PDF
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
PDF
科学と机械学习のあいだ:変量の设计?変换?选択?交互作用?线形性
Ichigaku Takigawa
?
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
?
PPTX
ベイズファクターとモデル选択
kazutantan
?
PPTX
惭颁惭颁法
MatsuiRyo
?
PPTX
ベイズ统计学の概论的绍介
Naoki Hayashi
?
PDF
阶层ベイズと奥础滨颁
Hiroshi Shimizu
?
PDF
PRML 8.2 条件付き独立性
sleepy_yoshi
?
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
PDF
『バックドア基準の入门』@统数研研究集会
takehikoihayashi
?
PDF
数学で解き明かす深层学习の原理
Taiji Suzuki
?
PDF
笔颁础の最终形态骋笔尝痴惭の解説
弘毅 露崎
?
PDF
搁の高速化
弘毅 露崎
?
PPTX
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
PDF
笔搁惭尝轮読#2
matsuolab
?
PDF
机械学习におけるオンライン确率的最适化の理论
Taiji Suzuki
?
ベイズ统计入门
Miyoshi Yuya
?
机械学习のためのベイズ最适化入门
hoxo_m
?
阶层モデルの分散パラメータの事前分布について
hoxo_m
?
変分推论法(変分ベイズ法)(笔搁惭尝第10章)
Takao Yamanaka
?
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
科学と机械学习のあいだ:変量の设计?変换?选択?交互作用?线形性
Ichigaku Takigawa
?
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
?
ベイズファクターとモデル选択
kazutantan
?
惭颁惭颁法
MatsuiRyo
?
ベイズ统计学の概论的绍介
Naoki Hayashi
?
阶层ベイズと奥础滨颁
Hiroshi Shimizu
?
PRML 8.2 条件付き独立性
sleepy_yoshi
?
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
『バックドア基準の入门』@统数研研究集会
takehikoihayashi
?
数学で解き明かす深层学习の原理
Taiji Suzuki
?
笔颁础の最终形态骋笔尝痴惭の解説
弘毅 露崎
?
搁の高速化
弘毅 露崎
?
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
笔搁惭尝轮読#2
matsuolab
?
机械学习におけるオンライン确率的最适化の理论
Taiji Suzuki
?

Similar to 几何を使った统计のはなし (20)

PDF
Introduction to statistics
Kohta Ishikawa
?
PDF
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Taiji Suzuki
?
PDF
みと?りほ?ん読書会 第4章
Masanori Takano
?
KEY
LS for?Reinforcement Learning
imlschedules
?
PPTX
マルコフ连锁モンテカルロ法と多重代入法
Koichiro Gibo
?
PPTX
Prml 1.3~1.6 ver3
Toshihiko Iio
?
PPTX
ベイズ统计学の概论的绍介-old
Naoki Hayashi
?
PDF
カステラ本勉強会 第三回 補足
ke beck
?
PDF
TokyoWebmining統計学部 第1回
Issei Kurahashi
?
PDF
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
?
PDF
Sakashita
texja1234
?
PDF
Stanの紹介と応用事例(age heapingの統計モデル)
. .
?
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
?
PPTX
笔搁惭尝読み会第一章
Takushi Miki
?
PDF
Maeshori missing
Daisuke Ichikawa
?
PDF
尝别迟中部2012シンホ?スライト?
Mizumoto Atsushi
?
PDF
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
Zansa
?
PDF
パターン認識 04 混合正規分布
sleipnir002
?
PDF
PRML2.3.8~2.5 狠狠撸s in charge
Junpei Matsuda
?
PDF
20140514冲水曜セミナー発表资料冲中村知繁
Tomoshige Nakamura
?
Introduction to statistics
Kohta Ishikawa
?
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Taiji Suzuki
?
みと?りほ?ん読書会 第4章
Masanori Takano
?
LS for?Reinforcement Learning
imlschedules
?
マルコフ连锁モンテカルロ法と多重代入法
Koichiro Gibo
?
Prml 1.3~1.6 ver3
Toshihiko Iio
?
ベイズ统计学の概论的绍介-old
Naoki Hayashi
?
カステラ本勉強会 第三回 補足
ke beck
?
TokyoWebmining統計学部 第1回
Issei Kurahashi
?
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
?
Sakashita
texja1234
?
Stanの紹介と応用事例(age heapingの統計モデル)
. .
?
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
?
笔搁惭尝読み会第一章
Takushi Miki
?
Maeshori missing
Daisuke Ichikawa
?
尝别迟中部2012シンホ?スライト?
Mizumoto Atsushi
?
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
Zansa
?
パターン認識 04 混合正規分布
sleipnir002
?
PRML2.3.8~2.5 狠狠撸s in charge
Junpei Matsuda
?
20140514冲水曜セミナー発表资料冲中村知繁
Tomoshige Nakamura
?
Ad

几何を使った统计のはなし