18. ベイズの定理
??事後確率
?? 観測データ x が与えられた下で、それがクラス Ci に属する条件
付き確率
?? 事前確率
?? Ci の生起確率
?? データを観測する前からわかっている確率
P Ci x( )=
p x Ci( )
p x( )
× P Ci( )
事後確率
尤度
周辺確率
事前確率
20. ベイズの定理
??周辺確率
?? 観測データ x の生起確率
?? 全てのクラスに対する観測データ x の同時確率を合計(周辺化)
することで得られる。
P Ci x( )=
p x Ci( )
p x( )
× P Ci( )
事後確率
尤度
周辺確率
事前確率
p x( )= p Ci, x( )
i=1
K
∑
21. 最大事後確率基準による識別
?? 識別においては、観測データ x に対して事後確率が一番大きなクラ
スを採用する。
?? 事前確率p(x) はクラスが異なっても一定であるため、識別において
は無視できる。
argmax
i
P Ci x( )
= argmax
i
p x Ci( )P Ci( )
p x( )
= argmax
i
p x Ci( )P Ci( )
24. 演算の目標
??最終的に求めたいものはS, T, G 全ての組み合わせ
(8通り)における事後確率
??右辺の確率を順番に演算していく
サンプル数
喫煙する人
(S=1)
飲酒する人
(T=1)
健康な人(G=1)
800人
320人
640人
健康でない人(G=0)
200人
160人
40人
P G | S,T( )=
P S,T |G( )P G( )
P S,T( )
25. 事前確率の演算
??P(G=1) = 800/1000 = 4/5
??P(G=0) = 200/1000 = 1/5
サンプル数
喫煙する人
(S=1)
飲酒する人
(T=1)
健康な人(G=1)
800人
320人
640人
健康でない人(G=0)
200人
160人
40人
P G | S,T( )=
P S,T |G( )P G( )
P S,T( )
26. 尤度の演算
??条件付き独立 P(S,T|G) = P(S|G) P(T|G) を仮定
サンプル数
喫煙する人
(S=1)
飲酒する人
(T=1)
健康な人(G=1)
800人
320人
640人
健康でない人(G=0)
200人
160人
40人
S=1
S=0
G=1
320/800
480/800
G=0
160/200
40/200
T=1
T=0
G=1
640/800
160/800
G=0
40/200
160/200
P(S|G)の演算
P(T|G)の演算
P G | S,T( )=
P S,T |G( )P G( )
P S,T( )
S=1, T=1
S=0, T=1
S=1, T=0
S=0, T=0
G=1
(2/5) X (4/5)
(3/5) X (4/5)
(2/5) X (1/5)
(3/5) X (1/5)
G=0
(4/5) X (1/5)
(1/5) X (1/5)
(4/5) X (4/5)
(1/5) X (4/5)
P(S,T|G)の演算
27. 周辺確率の演算
?? 周辺化により P(S,T) を演算
P G | S,T( )=
P S,T |G( )P G( )
P S,T( )
S=1, T=1
S=0, T=1
S=1, T=0
S=0, T=0
P(S,T|G=1)
(2/5) X (4/5)
(3/5) X (4/5)
(2/5) X (1/5)
(3/5) X (1/5)
P(S,T|G=0)
(4/5) X (1/5)
(1/5) X (1/5)
(4/5) X (4/5)
(1/5) X (4/5)
P(S,T,G=1)
(8/25) X (4/5)
(12/25) X (4/5)
(2/25) X (4/5)
(3/25) X (4/5)
P(S,T,G=0)
(4/25) X (1/5)
(1/25) X (1/5)
(16/25) X (1/5)
(4/25) X (1/5)
P(S,T)
36/125
49/125
24/125
16/125
?? ①→②: P(S,T,G) = P(S,T|G) X P(G)
?? ②→③: P(S,T) = P(S,T,G=0) + P(S,T,G=1) (←周辺化)
①
②
③
28. 事後確率の演算
?? ベイズの定理より事後確率を演算
P G | S,T( )=
P S,T |G( )P G( )
P S,T( )
S=1, T=1
S=0, T=1
S=1, T=0
S=0, T=0
P(G=1|S,T)
8/9
48/49
1/3
3/4
P(G=0|S,T)
1/9
1/49
2/3
1/4
??観測データ S, T に対して事後確率の大きい方のクラ
スとして判定される。
29. 3.1.3. 尤度比
?? ある観測データ x が2つのクラスのどちらであるかを識別する
際、尤度の比と事前確率の比を比べれば識別ができるという
だけのお話。
p x Ci( )P Ci( )
>
<
!
"
#
$
%
&
p x Cj( )P Cj( )
? Ci
? Cj
!
"
#
$
%
&
p x Ci( )
p x Cj( )
>
<
!
"
#
$
%
&
P Cj( )
P Ci( )
? Ci
? Cj
!
"
#
$
%
&
41. 最小損失基準に基づく識別
?? 観測データ x をクラス Ci と判断した時に被る損失を定義
r Ci x( )= LikP Ck x( )
k=1
K
∑
観測データ x を
Ckと判断する確率
?? 観測データ x に対して損失が最も小さいクラスに識別する
argmin
i
r Ci x( )
42. 最小損失基準に基づく識別の例(2 クラス)
?? 事後確率は下記の通りとする
?? P(C1|x) = 0.6
?? P(C2|x) = 0.4
?? 最大事後確率基準では観測データ x は C1 と判定される
?? 下記の損失行列を定義
r Ci x( )= LikP Ck x( )
k=1
K
∑
L11 L12
L21 L22
!
"
#
#
$
%
&
&
=
0 20
10 0
!
"
#
$
%
&
真のクラス:C1 (k=1)
真のクラス:C2 (k=2)
合計
識別:C1 (i=1)
0 x 0.6
20 x 0.4
8
識別:C2 (i=2)
10 x 0.6
0 x 0.4
6
C2をC1と識別した時
の損失が大きいので、
最小損失基準に基づ
く識別ではC2と判定
損失
L12 × P(C1|x)
L22 × P(C2|x)