Prml2.1 2.2,2.4-2.5
- 2. 発表概要
? 2.1 二値変数
? 2.2 多値変数
? 2.3 ガウス分布
? 2.4 指数型分布族
? 2.5 ノンパラメトリック法
2
- 3. この章の目的
? 密度推定
? 観測値の有限集合?1 , … , ? ? が与えられた時,確率変数?
の確率分布?(?)をモデル化すること
? このような確率分布は無限に存在しうる
? パラメトリック
? 分布の形を仮定し,観測値に合わせてパラメータを調整する
手法
? ノンパラメトリック
? 分布の形を仮定せず,観測値によって分布を決める手法
3
- 4. 4 2.1 二値変数
? ベルヌーイ分布
? 二项分布
? ベータ分布
- 5. ベルヌーイ分布 – 記号の定義
? 二値確率変数 x ∈ {0,1}
? ex. コインを投げて,表なら ? = 1 裏なら ? = 0
? パラメータ μ
? ? = 1となる確率
?0≦ ? ≦1
? ? ? = 1 ?) = ?, ? ? = 0 ? =1? ?
計算例:? = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
? ? = 1 ? = 0.7) = 0.7
? ? = 0 ? = 0.7 = 0.3 5
- 6. ベルヌーイ分布
? ベルヌーイ分布
? Bern x ?) = ? ? (1 ? ?)1?? (2.2)
? 確率?で表が出るコインを一回投げ,表(裏)が出る確率
? 特徴
? ?[?] = ? (2.3)
? ???[?] = ?(1 ? ?) (2.4)
計算例:? = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
???? ? = 1 ? = 0.7) = 0.71 (1 ? 0.7)0 = 0.7
???? ? = 0 ? = 0.7 = 0.70 (1 ? 0.7)1 = 0.3 6
- 7. 複数回観測した時の尤度関数
? 設定
?D = ?1 , … , ? ?
? ? ? は,?(? | ?)から独立に得られたと仮定
? 尤度関数
? ? ? ?) = ?=1 ? ? ? ?) = ?=1 ? ? ? (1 ? ?)1?? ? (2.5)
? ?
? ?が与えられた時,どのくらい,観測したデータが生起
しやすいかを表す
7
- 8. パラメータ?の値を最尤推定
? 対数尤度
?
ln ?(? | ?) = ln ? ? ? ?)
?=1
?
= { ? ? ln ? + 1 ? ? ? ln 1 ? ? } (2.6)
?=1
?
= ln ? ? ln 1 ? ? ? ? + ? ln(1 ? ?)
?=1
?
? この式は, ?=1 ? ? のみに依存しているため,この式は,
この分布の下,このデータに対する十分统计量の例
8
- 9. パラメータ?の値を最尤推定
? 最尤推定
? ln ? ? ?) を?で偏微分して0とおいて解く
1 ?
? ? ?? = ?=1 ?? (2.7)
?
? サンプル平均と呼ばれる
? 結果の違った見方
? データ集合中で,? = 1になる回数を?とすると,
? データ集合中での表の観測値の割合が
? ?? = (2.8)
? 表が出る確率となる
9
- 10. 二项分布
? 記号の定義
? ? : 大きさ?のデータ集合のうち,? = 1となる観測値の数
? 二项分布
?
? ???(? | ?, ?) = ?
? ? (1 ? ?) ??? (2.9)
?
?
=
?! (2.10)
? ??? !?!
? 確率?で表が出るコインを?回投げた時,
表が出る回数?の確率分布
? 特徴
? ?[?] = ?? (2.11)
? ???[?] = ??(1 ? ?) (2.12)
10
- 12. ベータ分布
? ベルヌーイ分布のパラメータ?の最尤推定
? 3回表が出ると,以降ずっと表が出る? ?
1
? 過学習の問題 ? ?? = ??
?
?=1
? ベイズ主義的に扱う
? 事前分布?(?)を導入する必要性 ?
? ? (1 ?
? ? ?) = ? ?)1?? ?
? 事後分布が事前分布と同様の
?=1
形式となる事前分布を選びたい
? 共役性
? ?と(1 ? ?) のべきに比例する事前分布を導入
12
- 13. ベータ分布
Γ(a + b) ??1
???? ? ?, ?) = ? (1 ? ?) ??1 (2.13)
Γ a Γ(b)
? 特徴
?
? ?[?] = (2.15)
?+?
??
? ???[?] = (2.16)
?+? 2 (?+?+1)
? ?, ?は,?の分布を決めるので,ハイパーパラメータと
呼ばれる
13
- 15. 事後分布を求める
? 事前分布
Γ(a + b) ??1
???? ? ?, ?) = ? (1 ? ?) ??1
Γ a Γ(b)
? 尤度関数
?
???(? | ?, ?) = ? ? (1 ? ?) ? (? = ? ? ?)
?
? 事後分布
Γ(m + a + b + l) ?+??1
? ? ?, ?, ?, ?) = (1 ? ?) ?+??1
?
Γ m + a Γ(b + l)
(2.18)
? ? = 1の観測値が?個,? = 0の観測値が?個あった時,
事後分布を求めるには,?を?, ?を?だけ増やせばよい
? ?, ?はそれぞれ,? = 1, ? = 0の有効観測数と解釈できる
15
- 16. 逐次学習
? 事後分布の特徴
? 事後分布は,事前分布と形式が同じなので,
事後分布を新たな事前分布として扱える
? 逐次学習
? データがひとつづつ与えられ,データが与えられる度に
パラメータを更新していく学習法
?1 ?2
?(?) ?(?|?1 ) ?(?|?1,2 )
16
- 17. 逐次学习の例
x=1を1つ
?=2 観測した時の
?=2 尤度関数
β分布 (N=m=1の
二项分布)
?=3
?=2
β分布
17
- 18. 逐次学習の長所?短所
? 長所
? 実時間での学習に利用できる
? 毎観測値ごとに事後確率を算出するので,全てのデータが
なくともよい
? 大規模データ集合に有用
? 観測値の処理が終わった後,そのデータはもう捨ててよい
? 短所
? 学習の早さと,正しい解への収束性のトレードオフ
18
- 19. ?の予测分布
? これまでの議論
? ?(? | ?)の推定
? 観測データ集合?から,パラメータ?の確率分布を推定
? ここからの議論
? ?(? = 1 | ?)の推定
? 観測データ集合?から,? = 1となる確率を推定
19
- 20. ?の予测分布
1
?(? = 1 | ?) = ? ?=1 ?)? ? ?) ??
0
1
= ?? ? ?) ??
0
= ? ?
?] (2.19)
?+ ?
= (2.20)
?+ ?+ ?+ ?
?観測値のうち,? = 1に相当するものの割合
? ?, ?がとても大きい時,最尤推定の結果と一致する
? このような特性は,多くの例で見られる
? 有限のデータ集合では,事後平均は事前平均と
μ の最尤推定量の間になる →演習2.7 20
- 21. 事後分布の特性
? 事後分布(ベータ分布)の分散
??
? ??? ? =
?+? 2 ?+?+1
? ? → ∞や? → ∞の時,分散は0に近づく
? 多くのデータを学習すればするほど,
一般的に事後分布の不確実性は減少する?
21
- 22. 平均?分散の不確実性
? 事前平均と事後平均
? ? ? = ? ? [? ? ? | ? ] (2.21)
? ?の事後平均を,データを生成する分布上で平均すると,
?の事前平均に等しい
? 事前分散と事後分散
??? ? ? = ? ? [??? ? ? ?]] + ??? ? [? ? ? ?]] (2.24)
事前分散 事後分散の平均 事後平均の分散
の平均
? 平均的には 事前分散 > 事後分散
? 成り立たないデータセットもある
22
- 23. 23 2.2 多値変数
? 多项分布
? ディリクレ分布
- 24. 例えば
? サイコロを投げる
? 6通りの状態がありうる
? 1-of-K 符号化法
? K個の状態を取りうる離散変数を扱う際に用いられる
? 要素の一つ? ? のみが1で他が0
?
? ?=1 ? ? = 1を満たす
? ex. サイコロの目を観測値?として,3が出た時
? ? = (0,0,1,0,0,0) ?
24
- 25. 歪んだサイコロ
? 記号の定義
? ? ? ∶ ? ? = 1となる確率
? 正確なサイコロの場合
1 1 1 1 1 1
? ?=( , , , , , )
6 6 6 6 6 6
? シゴロ賽の場合
1 1 1
? ? = (0,0,0, , , )
3 3 3
? ピンゾロ賽の場合
? ? = (1,0,0,0,0,0)
25
- 26. 多项分布
? ?の分布
?
?? ベルヌーイ分布を2種類以上の
? ? ?) = ?? (2.26)
出力に一般化したもの
?=1
? 観測値が複数あった場合
? ?個の独立な観測値?1 … ? ?
? 尤度関数
? ? ? ?
? ? ?) = ?? ? ?? = ? ?( ? ? ?? ) = ?? ??
?=1 ?=1 ?=1 ?=1 (2.29)
?? = ? ?? : この分布の十分统计量
26
?
- 27. ?の最尤推定
? 制約付き対数尤度最大化
? ラグランジュの未定乗数法を用いる
? ?
? ? = 1 に代入して,
?= ? ? ln ? ? + ? ???1
?
?=1 ?=1 ??
?? ?? ? =1
= + ? ?
?? ? ?? ?
?? ? ?? = ?
= 0 より,
?? ? ?
?? ? = ??
?? =? ??
? ? ? ?? =
? 27
- 28. 多项分布
?
? ??
???? ?1 , … ? ? ?, ?) = ?? (2.34)
?1 ?2 … ? ?
?=1
? ?!
ただし, =
?1 ?2 … ? ? ?1 ! ?2 ! … ? ? !
?
?? = ?
?=1
? パラメータ?と観測値の総数?が与えられた条件の下,
?1 … ? ? の同時確率
28
- 29. ディリクレ分布
? 多项分布の? ? についての事前分布
? 共役分布の形は以下の通り
?
? ? ?1 (2.37)
? ? ?) ∝ ??
?=1
ただし,0 ≦ ? ? ≦ 1, ? ? ? = 1
ハイパーパラメータ ? = (?1 , … , ? ? ) ?
? ディリクレ分布
?
Γ(?0 )
??? ? ?) = ?? ? ? ?1 (2.38)
Γ ?1 … Γ(? ? )
?=1
ただし,?0 = ? ??
29
- 30. 共役性の確認
? 事前分布
?
Γ(?0 ) ? ? ?1
? ? ?) = ?? (2.38)
Γ ?1 … Γ(? ? )
?=1
? 尤度関数
?
?
? ? ?) =
?1 ?2 … ? ?
?? ??
(2.34)
?=1
? 事後分布
? ? ?, ?) = ??? ? ? + ?)
?
Γ(?0 + ?)
= ?? ? ? +? ? ?1 (2.41)
Γ ?1 + ?1 … Γ(? ? + ? ? ) 30
?=1
- 31. 31 2.4 指数型分布族
? 最尤推定と十分统计量
? 共役事前分布
? 無情報事前分布
- 32. 指数型分布族とは
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
? ?:分布の自然パラメータ
? ? : ベクトル or スカラー,離散 or 連続
? ? ? ∶ ?の任意の関数
? ? ? ∶ 正規化係数. ? ? ? ? exp{? ? ? ? } ?? = 1
? 指数型分布族の例
? ベルヌーイ分布
? 多项分布 本当に指数型分布族なのか確かめる
→指数型分布族の形式で書けるか調べる
? ガウス分布
32
- 33. ベルヌーイ分布は指数型分布族?(1/2)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
?(? | ?) = Bern x ?) = ? ? (1 ? ?)1??
?(? | ?) = exp{? log ? + 1 ? ? log 1 ? ? } 右辺の対数の指数をとる
?
= 1 ? ? exp log ?
1? ?
?
∴ ? = log 指数型分布族の式と係数比較
1? ?
1
?= μについて解く
1 + exp(??) 33
→ ロジスティックシグモイド関数 ?(?)
- 34. ベルヌーイ分布は指数型分布族?(2/2)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
?
?(? | ?) = 1 ? ? exp log ?
1? ?
?(? | ?) = ?(??)exp ??
∴ ?(?) = ?
?(?) = 1
?(?) = ?(??)
より,ベルヌーイ分布は指数型分布族.
34
- 35. 多项分布は指数型分布族?(1/8)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
?
カテゴリカル分布
??
?(? | ?) = ???? ? ?) = ??
?=1
? ?
??
= exp ln ?? = exp ? ? ln ? ?
?=1 ?=1
ここで ? ? = ln ? ? , ? = (?1 , ?2 , … , ? ? ) ? と定義すると,
?(?) = ?
?(?) = 1
?(?) = 1
? 35
ただし, ?=1 ? ? = 1より,ηは独立ではない
- 36. 多项分布は指数型分布族?(2/8)
? 前スライドのまとめ
? 多项分布を指数型分布族の形に書き表すことができた
? しかし,?は独立ではない
? なので
?
? ?=1 ? ? = 1を用いて,? ? を ? ? (? = 1,2, … ? ? 1)で
表し, ? ? を消去する
? 他にも以下の制約がある
??1
0 ≦ ? ? ≦ 1, ?? ≦1
36
?=1
- 37. 多项分布は指数型分布族?(3/8)
?
exp ? ? ln ? ? pp.73 上の式より,
?=1 ?
??1 ?? = 1
?=1
= exp ? ? ln ? ? + ? ? ln ? ?
?=1
??1 ??1 ??1
= exp ? ? ln ? ? + 1 ? ? ? ln 1 ? ??
?=1 ?=1 ?=1
??1 ??1
??
= exp ? ? ln ??1 + ln 1 ? ??
1? ?=1 ??
?=1 ?=1
37
- 38. 多项分布は指数型分布族?(4/8)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
??1 ??1
??
exp ? ? ln ??1 + ln 1 ? ??
1? ?=1 ??
?=1 ?=1
??1 ??1
??
= 1? ? ? exp ? ? ln ??1
1? ?=1 ??
?=1 ?=1
よって,
??1
??
? ? = ln ??1 1? ? ? を求めるため,
1? ?=1 ??
?=1
? ? = ? の形にする 38
- 39. 多项分布は指数型分布族?(5/8)
??
? ? = ln ??1
1? ?=1 ??
??
exp(? ? ) = ??1
両辺の指数をとる
1? ?=1 ? ?
??1
? ? = exp(? ? ) 1 ? ??
?=1
??1 ??1 ??1
?? = 1? ?? exp(? ? ) k=1からM-1まで足し合わせる
?=1 ?=1 ?=1
39
- 40. 多项分布は指数型分布族?(6/8)
??1 ??1
?=1 exp(? ? )
?? = ??1
赤字について解く
1+ ?=1 exp(? ? )
?=1
??1
? ? = exp(? ? ) 1 ? ? ? に代入して,
?=1
exp(? ? )
?? = ??1
1 + ?=1 exp(? ? )
この式を,ソフトマックス関数,正規化指数関数と呼ぶ.
40
- 41. 多项分布は指数型分布族?(7/8)
??1 ??1
??
?(? | ?) = 1 ? ? ? exp ? ? ln ??1 ,
1? ?=1 ??
?=1 ?=1
??
? ? = ln ??1 ,
1? ?? ?=1
exp(? ? )
?? = ??1
1 + ?=1 exp(? ? )
??1 ??1
?=1 exp ? ?
? 1? ?? =1? ??1 より,
1+ ?=1 exp ? ?
?=1
?1
??1
? ? ?) = 1 + exp(? ? ) exp ? ? ?
?=1 41
- 42. 多项分布は指数型分布族?(8/8)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
?1
??1
? ? ?) = 1 + exp(? ? ) exp ? ? ?
?=1
?
? = ?1 , ?2 , … , ? ??1 , 0
?(?) = ?
?(?) = 1
?1
??1
?(?) = 1+ exp(? ? )
?=1
とすると,多项分布は指数型分布族のひとつ 42
- 43. ガウス分布は指数型分布族?(1/3)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
1 (? ? ?)2
? ? ?, ?) = exp ?
(2?? 2 )1/2 2? 2
1 1 2 ? ?2
= exp ? 2 ? + 2 ? ? 2
(2?? 2 )1/2 2? ? 2?
?
1 1 ?2 ?/? 2 ?
= exp ? 2 exp
(2?)1/2 ? 2? ?1/2? 2 ?2
1 ?1 ?/? 2 ?
?(?) = ? ? ?= = ?(?) =
(2?)1/2 ?2 ?1/2? 2 ?2 43
- 44. ガウス分布は指数型分布族?(2/3)
?1 ?/? 2
?= = 2
より,
?2 ?1/2?
1
= (?2?2 )1/2
?
2
?1
? = ?1 ? = ?
2?2
よって,
1 ?2
exp ? 2
? 2?
?1 2 1
= (?2?2 )1/2 exp ? (?2?2 )
4?2 2 2
?1 2
= (?2?2 )1/2 exp ? ← ?で表された!
4?2
44
- 45. ガウス分布は指数型分布族?(3/3)
?上の指数型分布族 ∶
? ? ?) = ? ? ? ? exp{? ? ? ? }
?
1 ?1 2 ?/? 2 ?
? ? ?) = (?2?2 )1/2 exp ? exp より
(2?)1/2 4?2 ?1/2? 2 ?2
1
? ? =
2? 1/2
?1 2
? ? = (?2?2 )1/2 exp ?
4?2
?1 ?/? 2 ?
?= = 2
, ? ? = 2
とすると,
?2 ?1/2? ?
ガウス分布は指数型分布族のひとつ 45
- 46. ?の値を最尤推定
正規化条件より,
? ? ? ? exp{? ? ? ? } ?? = 1
?について,両辺の勾配を求めて, (fg)’=f’g+fg’
?? ? ? ? exp{? ? ? ? } ?? + ? ? ? ? exp ? ? ? ? ? ? ?? = 0
?? ?
? = ? ? ? ? exp ? ? ? ? ? ? ?? = ? ? ?
? ?
? ? ? = ? ?ln ? ?
?(?)の期待値は,?(?)のみに依存
(?(?)の?次モーメントは?(?)の?階微分で求められる) 46
- 47. ?の値を最尤推定
独立に同分布に従うデータ集合? = {?1 , ?2 , … , ? ? }に対する尤度関数は
? ?
? exp
? ? ?) = ? ?? ? ? ?? ? ??
?=1 ?=1
両辺の対数をとって,
? ?
ln ? ? ?) = ln ? ? ? + ? ln ?(?) + ? ? ? ??
?=1 ?=1
(?についての勾配) = 0より,
?
?? ln ?(? ?? ) + ? ?? =0
?=1
?
1
?? ln ? ? ?? = ? ?? → この式を解けば? ?? が得られる 47
?
?=1
- 48. 十分统计量
?
1
?? ln ? ? ?? = ? ??
?
?=1
? ?? は ? ? ? ? のみに依存している
→ ? ? ? ? を,?(? | ?)の十分统计量と呼ぶ
? 十分统计量の例
? ベルヌーイ分布
? ? ? = ?より, ? ? の総和
? ガウス分布
? ? ? = (?, ? 2 ) ? より, ? ? の総和, ? ? 2 の総和
48
- 49. 指数型分布族の共役事前分布
? 共役事前分布
? 尤度関数と掛けて事後分布を求めると,その関数形が同じ
になるような事前分布.
指数型分布族
? ?
?
? ? ?) = ? ?? ? ? exp ?? ? ??
?=1 ?=1
に対する共役事前分布は,
?
? ? ?, ?) = ? ?, ? ? ? exp ?? ? ?
?
?+?
∵ ? ? ?, ?, ?) ∝ ? ? exp ?? ?(? ? ) + ??
50
?=1
- 50. これまで出てきた共役事前分布
確率分布 共役事前分布
ベルヌーイ分布(二项分布) ベータ分布
多项分布 ディリクレ分布
ガウス分布の平均(分散は既知) ガウス分布
ガウス分布の精度(平均は既知) ガンマ分布
ガウス分布の分散(平均は既知) 逆ガンマ分布
ガウス分布(平均?精度が未知) ガウス-ガンマ分布
多変量ガウス分布の平均(共分散は既知) ガウス分布
多変量ガウス分布の精度(平均は既知) ウィッシャート分布
多変量ガウス分布の共分散(平均は既知) 逆ウィッシャート分布
多変量ガウス分布(平均?精度が未知) ガウス-ウィッシャート分布
51
- 51. 無情報事前分布
? 概要
? その事前分布を用いて得られる事後分布に,
その事前分布ができるだけ影響しないような事前分布
? 事前分布に対する知見がない時に用いられる
? 単純に考えると...
? 離散変数の時
? K個の状態をとりうるなら,各状態を1/?で取ればよい
? 連続変数の時
? 分布? ? ?)について, ?(?) = ?????.とすればよい?
52
- 52. 無情報事前分布 - ?(?)=?????.?
? ?(?)=?????.という事前分布の問題点
? ?の定義域が有界でないため, ?上での積分が発散する
? 変則事前分布(不完全事前分布)と呼ばれる
? 非線形な変数変換が上手く行えない
? ex. ? ? ? が定数だとする.
? = ? 2 と変数変換を行うと,
??
?? ? = ?? ? = ? ? ? 2 2? ∝ ?
??
η上の密度は定数とはならない.
事後分布が適切(正規化されている)という条件下であれば
使われることも多い 53
- 53. 無情報事前分布 - ?(?)=?????.?
? 最尤推定ではこの問題は生じない
? 尤度関数?(? | ?)は?について単純な式だから(? )
例
データ? ? が,平均?で分散? 2 の正規分布? ?; ?, ? 2 から生じるとする.
σ2 を既知とし,平均?を推定する.
事前分布に?(?) = ?????. の分布を考える.
この時,事後分布は,
p(μ | D)∝p(D | μ)*const.
より,事後確率が最大となるμの解は最尤推定解に一致.
よって,事前確率は推定に影響を与えない. 54
- 54. 無情報事前分布の例1
? 平行移動不変性を持つ事前分布
? 平行移動不変性とは
? ? ?) = ?(? ? ?)
位置パラメータ
? xを定数分移動しても,同じ形式が保たれる
? 求めてみよう
? ≦ ? ≦ ?に入る確率と? ? ? ≦ ? ≦ ? ? ?に入る確率が等しいので,
? ??? ?
? ? ?? = ? ? ?? = ? ? ? ? ??
? ??? ?
この式が任意のA,Bについて成立するため,
?(?) = ?(? ? ?) 55
よって,?(?)は定数
- 55. 無情報事前分布の例1
? 位置パラメータの例
? ガウス分布の平均?
? μ の共役事前分布はガウス分布? ? ?0 , ?0 )
? σ0 → ∞の極限をとれば,無情報事前分布になる
? 事前分布が事後分布に影響を与えていないか
?2 ??0 2 ?0 → ∞
μ?= ? +
2+ ? 2 0 2 + ?2
? ?? μ?= ?
?? 0 ??0 ??
?0 → ∞ 1 ?
1 1 ? = 2
2
= 2+ 2 ?? 2 ?
?? ?0 ?
56
- 56. 無情報事前分布の例2
? 尺度不変性を持つ事前分布
? 尺度不変性とは
1 ?
? ? ?) = ?
? ?
尺度パラメータ
? xを定数倍だけ拡大縮小しても,同じ形式が保たれる
? 求めてみよう
? ≦ ? ≦ ?に入る確率と?/? ≦ ? ≦ ?/?に入る確率が等しいので,
? ?/? ?
1 ?
? ? ?? = ? ? ?? = ? ??
? ?/? ? ? ?
この式が任意のA,Bについて成り立つので,
1 ? 57
? ? = ?
? ?
- 57. 無情報事前分布の例 2-2
? 求めてみよう(続き)
したがって,?(?) ∝ 1/?
? 特徴
?変則事前分布となる
? ? ln ? = ?????.
1 ?
? p σ ∝ より,? ? = ?は定数 とおき,
σ ?
??
t= ln ?と変数変換をすると, ??
= ?より,
?? ?
? ? = ? ? = ? σ=const.
??
∴? ln ? = ?????.
58
- 58. 無情報事前分布の例1
? 尺度パラメータの例
? ?を考慮済みのガウス分布の標準偏差σ
?(? | ?, σ2 ) ∝ σ?1 exp {?(? /?)2 } (? = ? ? ?)
? 精度? = 1/? 2 を考え,密度を変換すると
1 1
? ? ∝ ? ? ? ∝
? ?
? 事前分布が事後分布に影響を与えていないか
?0 = 0, ?0 = 0 ?
?
? ? = ?0 + ??=
2 2
? ?0 = 0, ?0 = 0 ?
? ? = ?0 + ? ?? 2 ? ? = ? ?? 2
2 2 59
- 59. 计算の补足
1 1
? ? ∝ ? ? ? ∝ の証明
? ?
2
1 ?? ?
? ? = 1 exp ? 2? 2
2?? 2 2
? = 1/? 2 とおくと,
?1/2 ,
?? 1 ?3
?= ? =? ? 2
?? 2
したがって,
1
?2 ? ?? ? 2 1 ?3/2
? ? = 1 exp ? ? ?
2 2
2? 2
1
? ? ∝ 60
?
- 60. 61 2.5 ノンパラメトリック法
? ヒストグラム密度推定法
? カーネル密度推定法
? 最近傍法
- 61. ノンパラメトリック法
パラメトリック : 少数のパラメータから
確率変数の分布の形状を決める
ノンパラメトリック : 分布の形状が制限されず,
データによって形状が決まる
? パラメトリックなアプローチ
仮定した分布が適切でない場合
? 確率分布の形状を仮定 予測性能が悪くなりうる
? ノンパラメトリックなアプローチ
分布の形状について
? 確率密度関数の形が
データに依存して決まる わずかな仮定しかない
62
- 62. ヒストグラム密度推定法
? 記号の定義
? ? ∶ 連続変数
? ?? ∶ ?番目の幅
? ?? ∶ ?番目の観測値の数
? ? ∶ 観測値の総数
? 確率密度
??
? ?? =
?? ?
63
- 64. ヒストグラム密度推定法
? 利点
? 一度ヒストグラムを求めると,元データを廃棄できる
→大規模データに有利
? データが逐次的に与えられた時に容易に適用できる
? 欠点
? 推定した密度が区間の縁で不連続になる
? 次元数が増えると,指数的に区間の総数が増え,計算
規模が増大する(次元の呪い)
ヒストグラム法は1次元か2次元のデータの可視化には役に立つが
他のほとんどの密度推定の応用問題には適さない
65
- 65. ヒストグラム密度推定法
? ヒストグラム密度推定法から分かること
? 特定の位置の確率密度を推定するにはその点の近傍の
データ点も考慮すべき
? 近傍の特性は区間によって定義されている
? 区間の幅→平滑化パラメータ
? 平滑化パラメータの値は,大きすぎず,小さすぎず適切な
値にすべき
? cf. 多項式曲線フィッティングのモデル複雑度の選択
66
- 66. 近傍を考虑した密度推定
? 目的
? ある?次元のユークリッド空間中の未知の確率密度? ? から,
観測値の集合が得られている.この集合から?(?)を推定
xを含むある小さな領域Rに割り当てられた確率Pは
?= ? ? ??
?
p(x)から得られたN個の観測値からなるデータ集合を集める
各データ点が領域R中にある確率はP
→R内の点の総数Kは二项分布に従う
?!
Bin K N, P) = ? ? (1 ? ?) ???
?! ? ? ? !
67
- 67. 近傍を考虑した密度推定
?[?/?] = ?
???[?/?] = ?(1 ? ?)/?
Nが大きい時,??? ?/? ≒ 0より,
? ? ??
また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど
十分に小さいと仮定できる時,
P? ? ? ? (ただし,?は?の体積)
よって,
? 領域Rは近似的に密度が一定とみなせるほど小さく
?(?) =
?? 二项分布が鋭く尖るほど十分な量のKが存在する
68
- 68. 近傍を考虑した密度推定
?
?(?) =
??
Vを固定し,Kを推定 Kを固定し,Vを推定
カーネル密度推定法 碍近傍法
Nが大きくなる時Vが縮小し,Kが大きくなるなら,
N→∞で,どちらも真の確率密度に収束する 69
- 69. カーネル密度推定法
? 記号の定義
? ? ∶ 確率密度を求めたいデータ点
? ? ∶ ?を中心とした超立方体
1
1, ? ? ≦ , ? = 1,2, … ?の時
? ? ? = 2
0,それ以外の時
? カーネル関数の一例
? Parzen窓と呼ばれる
? ?((? ? ? ? )/?)は,xを中心とする一変がhの立方体の内部に,
データ点? ? があれば1, そうでなければ0となる関数
70
- 70. カーネル密度推定法
立方体内部の総点数は ? 結果の解釈
? ? 1.求めたいデータ点の近傍
?? ??
?= ? (超立方体の範囲)にある
?
?=1 データ点の数を考慮
?
? ? = , ? = ? ? より,
??
? 2.
各データ点の近傍に,
推定確率密度は 求めたいデータ点を含む
?
1 1 ?? ?? データ点の数を考慮
?(?) = ? ?
? ? ?
?=1
71
- 71. カーネル密度推定法
? Parzen窓の問題点
? 立方体の”縁”で確率密度が不連続となってしまう
? 解決策
? ガウスカーネルを使う
2
? ? ? ??
? ? ?, ?? = exp ?
2?2
? 確率密度モデルは以下の通り
? 2
1 1 ? ? ? ??
?(?) = exp ?
? 2??2 1/2 2? 2
?=1
72
- 72. カーネル密度推定法
? ?の値による推定の変化
? 小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
に平滑化されてしまう
73
- 73. カーネル密度推定法
? カーネル関数
? カーネル関数は,以下の条件を満たす任意の関数
?(?) ≧ 0
? ? ?? = 1
? カーネル密度推定法の利点?欠点
? 訓練段階では単に訓練集合を保存しておけばよい
? 密度の評価にかかる計算コストがデータ集合の大きさ
に比例
74
- 74. 最近傍法
? カーネル密度推定法の問題点
? カーネル幅(密度推定の粒度)を決めるパラメータ?が
すべてのカーネルで一定となっている
? ?が大きいと,全体的に平滑化される
? ?が小さいと,全体的にノイズの多い推定
? 解決策
? データ空間内の位置に応じて?を変える
=最近傍法
75
- 75. 碍近傍法
? Kを固定し,Vを推定
?(?) = 碍近傍法
??
? 碍近傍法
? ?(?)を推定したい点xを中心とした小球を考え,その
半径を,?個のデータ点を含むようになるまで広げる.
?
? この時の体積を?とし, ?(?) = から密度推定
??
76
- 76. 碍近傍法
? Kの値による推定の変化
? 小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
に平滑化されてしまう
77
- 77. 碍近傍法を用いたクラス分類
? 目的
? クラス? ? 中に? ? 個の点があり,点の総数は?である
データ集合に対し,新たな点?を分類する
? 分類方針
? ?を中心として,クラスを考えずに?個の点を含む球を
見つける
? 各クラスについてベイズの定理を適用し,各クラスに
属する事後確率を求める
? 事後確率が最大のクラスに割り当てる
78
- 79. 碍近傍法を用いたクラス分類
ベイズの定理より,
? ? ? ? )?(? ? ) ? ? ? ? ?? ??
? ? ? ?) = = =
?(?) ?? ? ? ? ?
誤分類の確率を最小にする ? 事後確率を最大化する
? 分類手順
? 1. 訓練データ集合から?近傍の点集合を選ぶ
? 2. この集合の中で最も多数派にクラスを割り当てる.
ただし,同順位だった場合はランダム
? ? = 1の時を最近傍則という
80
- 81. 碍近傍法の例
? Kの値を変えて分類
? Kによって平滑化の度合いが調整されている
82
- 82. その他の特徴
? 最近傍則の特徴
? ? → ∞の極限で,誤分類率は,真のクラス分布を
用いた最適な分類器で達成可能な最小誤分類率の,
たかだか2倍にしかならない
? 単純だけど意外とすごい
? 碍近傍法?カーネル密度推定法共通の特徴
? データ集合全体を保持しなくてはならない
? データ集合が大きいと膨大な計算量
? 探索用の木構造の構築で対処可
83
- 83. 参考サイト
? 朱鷺の杜Wiki
? http://ibisforest.org/index.php?FrontPage
? Bishopさんのサイト
? http://research.microsoft.com/en-
us/um/people/cmbishop/PRML/
? prml_note@wiki
? http://www43.atwiki.jp/prml_note/pages/1.html
? 十分统计量について
? http://www012.upp.so-
net.ne.jp/doi/math/anova/sufficientstatistic.pdf
85