狠狠撸

狠狠撸Share a Scribd company logo
?
多項式あてはめで眺めるベイズ推定
~今日からきみもベイジアン~
自己紹介
?情報系 M2
?研究:グラフィカルモデルの推定手法
?twitter : @tanutarou730
?mastodon : tanutarou@mathtod.online
?ベイズ見習い
はじめに
今日の内容は個人的な主観や誤りが含まれている可能性が
あるので、盲信するのはやめてください
質問があればtwitter経由や、
以下のslackチャンネルに疑問を書いてください(推奨)
#statistics
多項式あてはめ
今日は多項式あてはめを例にベイズ推定を説明
データ:N個 (ti, xi)
モデル:
パラメータ:ai, b
[1] https://www.r-bloggers.com/fitting-polynomial-regression-in-r/
データにフィットする
ような多項式を求める
目的:
決定的手法と確率的手法
決定的手法:確率使わずにモデルを表現
確率的手法:確率を使ってモデルを表現
注:ベイズ的手法は確率的手法に含まれる
決定的手法 確率的手法 ベイズ的手法
最小二乗法 ガウスノイズモデル ベイズ線形回帰モデル
ニューラルネットワーク 確率的ニューラルネット
ワーク
ベイジアンニューラル
ネットワーク
SVM ロジスティック回帰 ベイズロジスティック回
帰
Adaboost ランダムフォレスト ガウス過程回帰
k-means法 関連ベクトルマシン
今日の流れ
今日はこの拡張を順番に行っていき、ベイズ推定と
は何かについてみていく
Edwardによる実装 (Jupyter notebook):
https://gist.github.com/tanutarou/309cd8c0c725224d96526f25c20d3262
最小二乗法 ガウスノイズモデル ベイズ線形回帰モデル
決定的手法 確率的手法 ベイズ的手法
最小二乗法
データ点とモデルの予測値との差の平方和の最小化
微分してイコールゼロで極値を求めることで解析的に解ける
予測値
M=1(直線)のとき
1
最小二乗法の結果
多項式の次数Mは3が良さそう。 これで満足?(??ω?`)
過学習!
ガウスノイズモデル
データにフィットする
ような確率分布を求める
確率的なモデルで多項式を表現してみる
データ:N個 (ti, xi)
モデル:
パラメータ:
[1] https://www.r-bloggers.com/fitting-polynomial-regression-in-r/
目的:
最尤推定
モデル:
データ:N個 (ti, xi)
今このモデルからデータが(独立に)得られたと仮定する。
今持っているデータが得られる確率は?
同時確率:
今得られているデータが最も高い確率で得られるようにしよう!
最尤推定
最尤推定
a, b, σについて微分してイコールゼロとおけばいい
尤度の最大化が、2乗誤差の最小化と等しい
最小二乗法はノイズに正規分布を仮定した尤度最大化
ガウスノイズモデルによる推定結果
結果として確率分布が得られる
確率的なモデルにして何がうれしい?
?正規分布の分散σも推定できるようになった
?ノイズの分布がガウス分布でない場合も最尤推定という統
一的な枠組みで推定できるようになった(柔軟なモデル設計)
?データに関する不確かさがわかる。データの分散。
いよいよベイズ
ほんとにこの分布でうれしいのだろうか?
いよいよベイズ
縮尺を下げると???
これで不確かさをちゃんと表現できているのか?
頻度主義とベイズ主義
頻度主義:データを生成している真の分布は1つと仮定
ベイズ主義:パラメータも確率分布を持つと考える
ベイズ主義はデータが定数だとする表が
世の中に出回っている気がする(個人的に納得できない)。
頻度主義 ベイズ主義
母数
(パラメータ)
定数 確率変数
データ 確率変数 確率変数
ベイズ的アプローチ
?頻度主義
?ベイズ主義
定数
定数
定数
確率分布!
確率分布!
確率分布!
事後確率分布
パラメータを確率変数とすると、事後確率分布を考えられる!
ベイズの定理:
何を意味しているか?
データが与えられたときに、データを生成した分布の
パラメータがθである確率
Θ:パラメータ
尤度 事前分布
エビデンス
ベイズ主義の推定方法
?MAP推定(最大事後確率推定)
?ベイズ推定
パラメータの事後分布で尤度の期待値をとって推定を行う
MAP推定を実際にやってみる
モデル
aの事前分布:
bの事前分布:
予測分布:
今回、各正規分布の標準偏差はσa=σb=1, σ=√2と仮定
MAP推定を実際にやってみる
?事後確率分布を計算しよう!
この計算は一般に非常に難しい
解析的に求められるケースは非常に限られている(共役分布)。
これが理由で、ベイズ的アプローチは式が求められても特定
のケース以外は計算が困難とされていた??(?)
MCMCによるベイジアンの革命
MCMC(マルコフ連鎖モンテカルロ法):
計算パワーによるゴリ押しで、どんな分布を使っても事後確
率分布からのサンプリングを得られるようになった。
その他にも変分ベイズで計算時間の問題を解決するのが現在
の主流に見える
実際のサンプリング結果
a1の事前分布: bの事前分布:
a1の事後確率分布: bの事後確率分布:
3次の多項式(M=3)によるあてはめ
MAP推定の結果
3次の多項式(M=3)によるあてはめ
それほど最尤推定と比較して大きな変化はない
MAP推定(過学習の抑制)
15次の多項式(M=15)のとき
事前分布によりMAP推定のほうが過学習を抑制できてそう(?)
最尤推定
MAP推定
ベイズ推定の結果
まず事前分布からパラメータをサンプリングした結果を見て
みる(学習していない状態)
当然、とてもフィッティングしているように見えない。
ベイズ推定の結果
事後分布からのサンプリング結果。
フィッティングした。なにやらデータのないところの確率が
低そう??
ベイズ推定の結果
縮尺を下げてみると???
フィッティングして、なおかつデータのないところの不確か
さが表現できている!
結果の比較
最小二乗法 ガウスノイズモデル
MAP推定 ベイズ推定
結局ベイズ主義は何がいいのか
?事前分布によって事前知識を柔軟に取り入れることが出来
る(さらなるモデルの柔軟な設計, 過学習の抑制)とくに、デー
タが少ない場合に有効。
?ベイズ推定では、不確かな部分(モデルの自信のない部分)
をデータが教えてくれる。次にどこのデータを手に入れるべ
きかがわかる(ベイズ最適化?)。
?ベイズ推定は、事後分布のすべての情報を使うので信頼の
おける推定が出来る(点推定ではない)。
?ベイズ更新ができる(事後確率分布をまた事前分布にして学
習, データが与えられるたびに更新できる)
ベイズ的アプローチのデメリット
?計算コストが高い
?事前分布の選び方の問題
最尤推定はベイズ推定の特殊な場合とみなせるので、基本的
には最尤推定に対して出来ることに関しての欠点はない(?)
ライブラリの充実
今日行ったようなプログラムは、ライブラリを使えば推定部
分は15L程度で出来る
最近Edwardは、Tensorflowに取り込まれることが決まった
python R
ベイズの学び方
ベイズ推定とグラフィカルモデル(玉木先生)
関連する部分を読む
わからない
ときは???
#statistics
先生
まとめ
?こんなに素晴らしいベイズ推定を手段の一つとして持た
ない理由はないです。学びましょう。
?一人で学ぶとどうしても、わかった気になってしまいま
す。そうならないようにstatisticsチャットで素朴な質問を投
げあいましょう。

More Related Content

多項式あてはめで眺めるベイズ推定 ~今日からきみもベイジアン~