狠狠撸

狠狠撸Share a Scribd company logo
确率的主成分分析
PRML 12.2
2015.08.25 PCA勉強会
Mika Yoshimura
PCA(最小二乗法)
xn
!xn =Uzn + x
→UはJを最小化する固有ベクトル
zn =UT
(xn ? x)
The	
 ?op'mal	
 ?linear	
 ?reconstruc'on	
J =
1
N
xn ? !xn
2
n=1
N
∑
https://liorpachter.wordpress.com/tag/probabilistic-pca/
確率的PCA
x = y(z;w)+ε潜在変数モデル:
→潜在変数zの事前分布+ノイズεの分布から
データ空間のxを生成する
等方性の
Gaussian noise
y(z;w)
N(0,σ 2
I)
xn
部分空間上の
潜在データ点
x = Wz +? +ε
?? W : D*M行列, 部分空間を張る
?? z : M次元の潜在変数
?? μ : D次元ベクトル
?? ε : D次元の平均0,共分散σ^2I の
ガウス分布に従うノイズ変数
確率モデルとしてのPCA
?? 潜在変数zの事前分布と条件付き確率
x = Wz +? +ε
p(z) = (2π)?M /2
exp ?
1
2
zT
z
"
#
$
%
&
'
=N(z | 0, I)
p(x | z) = (2πσ 2
)?D/2
exp ?
1
2σ 2
x ?Wz ??
2"
#
$
%
&
'
= N(x |Wz +?,σ 2
I)
p(x) = p(x | z)p(z)dx = (2π)?D/2
C
?1/2
exp ?
1
2
(x ??)T
C?1
(x ??)
"
#
$
%
&
'
∫ = N(x | ?,C)
C =σ 2
I +WWT
?? W : D*M行列, 線形部分空間を張る
?? z : M次元の潜在変数
?? μ : D次元ベクトル
?? ε : D次元の平均0,共分散σ^2I の
ガウス分布に従うノイズ変数
→ p(x)を求めるには、Cの逆行列が必要
C?1
=σ ?2
I ?σ ?2
WM?1
WT
M = WT
W +σ 2
I
逆行列の恒等式によると
→M*M次元の計算になる!
事後分布と尤度関数
?? 事後分布
	
 ?
	
 ?
	
 ?
	
 ?
?? 尤度関数
p(z | x) = p(x | z)p(z) / p(x)
p(z | x) = (2π)?M /2
σ ?2
M
1/2
exp ?
1
2
x ? M?1
WT
(x ??){ }
T
(σ ?2
M) x ? M?1
WT
(x ??){ }
"
#$
%
&'
= N(z | M?1
WT
(x ??),σ 2
M?1
)
L = ln p(xn |W,?,σ 2
){ }= ?
N
2n=1
N
∑ Dln(2π)+ ln C +tr(C?1
S){ }
S =
1
N
(x ??)(x ??)T
n=1
N
∑ →xの標本共分散行列
N(z |(I +σ ?2
WT
W)?1
WT
σ ?2
I(x ??),(I +σ ?2
WT
W)?1
)
= N(z | M?1
WT
(x ??),σ 2
M?1
)
PRML
演習12.8 →
M = WT
W +σ 2
I
C =σ 2
I +WWT
最尤法を使う
?ML =
1
N
xn
n=1
N
∑
?L
?W
= N(C?1
SC?1
W ?C?1
W) WML =UM (ΛM ?σ 2
I)1/2
R
※Tipping and Bishop(1999b) による閉形式の厳密解
Um :D*M行列。共分散行列Sの固有ベクトルの部分集合
Λm:M*M対角行列。固有値λiを要素にもつ
R:任意のM*M直交行列。M次元の潜在変数空間の回転行列
尤度関数の最大値は、上記M個の固有ベクトルを固有値の上位M個に属するものに
なるように選ぶことで得られる。(その他のすべての停留点は鞍点となる)
→Λmは、共分散行列Sの固有値上位λ1,…λm
σ 2
ML =
1
D ? M
λi
i=M+1
D
∑ →切り捨てられた次元に関連する分散の平均
SC?1
W = W
次元削減と再構成
?? PCA
?? 確率的PCA
?? 最適化
–?確率的PCAの式では、直交射影が歪む
–?再構成式の修正
–?期待値を使わなくても良いらしい
!xn =UM zn +?zn =UM
T
(xn ??)
<z_n> : 事後分布p(z?x)から求めた期待値
!xn = WML zn +?
!zn = WML
T
(xn ??) !xn = WML (WML
T
WML )?1
!zn +?
!xn = WML (WML
T
WML )?1
M zn +?
Mixtures of probabilistic principal component analysers , Neural Computation 11(2), pp 443?482. MIT Press.
zn = M?1
WML
T
(xn ??)
WML = WML (WML
T
WML )?1
M
ノイズ項の効果 (D=2,M=1)
等方性の
Gaussian noise
y(z;w)
N(0,σ 2
I)
xn
部分空間上の
潜在データ点
最尤推定した
モデル
主成分空間に
射影された
データ点
最小二乗法で得られた直線
(ノイズパラメータあり)
最小二乗法で得られた直線
(ノイズパラメータなし)
EMアルゴリズム
?? 利点
–?高次元空間では計算量的に有利
–?見通しよく欠損データを扱える
?? 完全データの対数尤度関数
?? EステップとMステップはいつもの
ln p(X, Z | ?,W,σ 2
) = ln p(xn | zn )+ ln p(zn ){ }
n=1
N
∑
Ε p(X, Z | ?,W,σ 2
)"
#
$
% Wnew σ 2
new
ベイズ的な扱い
?? 各パラメータの事前分布を与える
?? ベイズ的パラメータ推定を適用する
?? 利点
–?自動次元数選択ができる
?? しかし
–?厳密なベイズ推定は実行不可能(周辺化無理)
–?部分ベイスや変分ベイズで近似的に実行する
確率的PCAの利点まとめ
?? 要約すると
–?EMアルゴリズムが使える
–?ベイズ的取り扱いの基礎を与える
?? 何がいいのか
–?共分散行列を計算しなくていい(EM)
–?オンライン化できる(EM)
–?データ集合内の欠損値を扱える(EM)
–?確率的PCAの混合モデルを定式化できる(EM)
–?次元数を自動的に見出せる(ベイズ)
–?などなど

More Related Content

确率的主成分分析