狠狠撸

狠狠撸Share a Scribd company logo
条件付き确率场の推论と学习

東北大学情報科学研究科 システム情報科学専攻
岡谷研究室 博士後期課程1年
齋藤 真树
目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習

参考文献
Conditional Random Fields(CVPR2011 Tutorial)
http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf
Understanding Belief Propagation and Its Generalizations
http://www.merl.com/papers/docs/TR2001-22.pdf
目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習
条件付き確率場
? 最も多く使われている確率モデルの一つ
– 多くの論文に直接/間接的に現れる
? サイト間の隣接関係を考えた確率モデル

入力

条件付き確率
出力
(マルコフ確率場の構造をもつ)
例1: 二値セグメンテーション(GrabCut)
? ブラシで指定された情報を元に,領域を2つに分割
? 入力: 画像とブラシ情報
? 出力: 分割された領域の画像
例2: ステレオマッチング
? 左右2枚の画像を元に,各画素ごとの深度を推定
? 入力: 左右2枚の画像
? 出力: 各画素の深度を表す画像
例3: ノイズ除去
? ノイズを含む画像を元に,ノイズの無い画像を推定
? 入力: ノイズを含む画像
? 出力: ノイズが含まれない画像
Face Detection, Pose Estimation, and Landmark
Zhu et. al. CVPR2012
Localization in the Wild
? 写真から複数の顔の位置,
表情を認識
? 顔のパーツ位置同士の関係
を平滑化項として指定
? 木構造のGaussian MRFを
利用,ピーク位置をExact
に求めている
Efficient Inference in Fully-Connected CRFs
Krahenbuhl et. al. NIPS2010
with Gaussian Edge Potentials

?
?
?
?

ピクセル毎の一般物体認識
すべての画素がすべての画素に接続(Fully-Connected CRF)
平均場近似を用いて畳み込み積分の形に変形,高速に推論可能
学習は平均場近似を用いた近似学習
条件付き確率場の学習と推論
? 推論: 入力が与えられた際の出力の条件付き確率を使う

? (教師あり)学習: データを元に,分布を定めるパラメータを決定

フィッティング
目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習
Pairwise Markov Random Field
MRFの多くは,全体の結合確率分布を以下で表現する:
エネルギー関数
ボルツマン分布

分配関数(partition function)

(エネルギーが低いほど
確率は高くなる)

ここで,E(x)は次の形をとる:

データ項

平滑化項
例: 二値ラベルセグメンテーション
? 対象のサイトが{0, 1}の二値しかとりえない問題
– それでも,取りうる状態数は2Nと指数的に増加!

データ項

平滑化項
データ項だけで
最適化

平滑化項を
加えて最適化
確率モデルにとって重要な2つの操作
? MAP推定
– 推定値を求める目的で,p(x)が最大となるxを求める
– ボルツマン分布ではエネルギーの最小化問題と等価

? 周辺分布の推定
– 確率分布を周辺化した周辺分布pi(xi)を求める
– 推定値を求めたり,パラメータ学習の際に使用(後述)

どちらも,そのまま計算することは非常に困難
→確率伝搬法などの最適化手法を用いる
周辺分布の直感的な理解

? 周辺分布は結局どのような分布なのか?
– サイトi『だけ』を観測した際に得られる確率分布

全体を
観測

一部を
観測
目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習
平均場近似
? MRFの周辺分布を近似的に求めるための手法
– 物理学がそのルーツ
? 確率伝搬法(LBP)よりも精度は悪い分,計算速度が早い
? 機械学習では変分ベイズなどの別名でよく用いられる

マルコフ
確率場

ベーテ
近似

=

CS?CV

平均場
近似

イジング
模型

=

ワイス
理論

=

物理学

確率
伝播法
?

計算困難性
? 真の分布Pから周辺分布を直接求めることは困難

周辺分布を
計算しやすい
近似分布Qを導入

近似分布Qを
真の分布Pに
近づける

Qから
周辺分布を
求める

P
すべてのサイトが独立と仮定
現実にはあり得ないものの,
高速に周辺分布を計算できる

Q

?
?

カルバック?ライブラー距離
? 真の分布Pから周辺分布を直接求めることは困難

周辺分布を
計算しやすい
近似分布Qを導入

近似分布Qを
真の分布Pに
近づける

Qから
周辺分布を
求める

P
『カルバック?ライブラー距離』
確率分布間の近さを測る指標

Q

?
反復方程式の導出
? KL距離の停留点を求め,以下の反復方程式を得る:

まず,適当な分布ですべてのqiを初期化する

サイトi近傍の
サイト集合
反復方程式の導出
? KL距離の停留点を求め,以下の反復方程式を得る:

次に,サイトi近傍の分布q jを参照して,qiを更新する
反復方程式の導出
? KL距離の停留点を求め,以下の反復方程式を得る:

同様の操作をすべてのサイトに対して行い,
収束するまで繰り返す
確率伝搬法(1)
? MAP推定解や周辺分布解を求めるための有名な手法
– Max-product, Sum-productとも呼ばれる
? グラフ上でメッセージをやりとりして,解を求める
Judea Pearl(1936-)
1982年に確率伝搬法を提唱
2011年にチューリング賞受賞
確率伝搬法(1)
? MAP推定解や周辺分布解を求めるための有名な手法
– Max-product, Sum-productとも呼ばれる
? 対象のグラフィカルモデルが木構造である場合は
どちらも必ず厳密解が求められる!
– 木構造でない場合でも,比較的精度の高い結果が
得られることが知られている
(Loopy Belief Propagation, LBP)
厳密解を
求められる

近似解のみ
確率伝搬法(1)
? 確率伝搬法を用いて,以下のMRFモデルの最適化を行う:

厳密解を
求められる

近似解のみ
周辺分布の推定(Sum-product)

確率伝搬法(2)
? 『メッセージ』と呼ばれる関数を伝搬させることで
MAP推定解や周辺分布を求めていく
メッセージの伝搬則

周辺分布の計算規則
MAP推定(Max-product)

確率伝搬法(2)
? 『メッセージ』と呼ばれる関数を伝搬させることで
MAP推定解や周辺分布を求めていく
メッセージの伝搬則

MAP推定解の計算規則
確率伝搬法(3)
? 単純な木構造の場合を例に,確率伝搬法を説明する
? まず,根のサイトから親へ向かうメッセージを計算

この場合は考える必要なし
確率伝搬法(3)
? 単純な木構造の場合を例に,確率伝搬法を説明する
? まず,根のサイトから親へ向かうメッセージを計算

この場合は考える必要なし
確率伝搬法(3)
? 前回計算されたメッセージを元に,中間部分のメッ
セージを計算する
確率伝搬法(3)
? 前回計算されたメッセージを元に,根に向かうメッ
セージを計算する
確率伝搬法(3)
? 前回計算されたメッセージを元に,根に向かうメッ
セージを計算する
確率伝搬法(3)
? 周囲のメッセージを取り込んで,周辺分布を計算
? Max-productの場合もやり方は同じ

等価
確率伝搬法(4)
? 対象のグラフが鎖状である場合の確率伝搬法は
Forward-Backwardアルゴリズムと等価

? ループを含む場合は,適当に初期化したメッセージを
反復させることで更新する(Loopy Belief Propagation).
– メッセージが収束する保証はない
– 得られる解も推定解で,厳密解でない

…
目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習
最尤推定によるCRFのパラメータ学習
? (教師あり)学習: データを元に,分布を定めるパラメータを決定

フィッティング

? 具体的には,観測されたND個のデータを用いて,
パラメータによって変化する確率分布から最も尤もらしい
分布を推定する(最尤推定)
例: 1次元ガウス分布
? 例として,1次元ガウス分布の最尤推定を行う:

? Lをそれぞれのパラメータで微分,停留点を求めることで
最終的に以下の推定値を得る:

平均
標準偏差
Kullback-Leibler距離(1)
? Kullback-Leibler距離を次のように定義する:

? KL距離は確率分布間の近さを測る距離のようなもの
(厳密には距離でない)
Q

P

?
Kullback-Leibler距離(2)
? KL距離を用いて,最尤推定を拡張
– 様々な分布の最適化問題を統一的に理解できる
? 『経験分布』qを,次で定義する:

経験分布: 観測データを表す分布

? 次に,条件付き分布間の近さを次のKL距離で定義する:
Kullback-Leibler距離(3)

? 最後に,yについての期待値をとることで次を得る:

? ここで,<?>は期待値を表す記号である.すなわち
Kullback-Leibler距離(4)

? このKL距離の最小化は,対数尤度の最大化と等価!

Q

P

?
Kullback-Leibler距離(5)
? CRFのKL距離をパラメータで微分し,次を得る:

データ項

モデル項
観測データで定まる分布

モデルの形で定まる分布

? 勾配を評価し,パラメータを繰り返し更新していく
– モデル项の计算には周辺分布の计算が必要
最適解の一意性
? エネルギー分布が以下の形をとる場合に対して,
前述の更新則で求めるパラメータは一意の解をもつ:
– KL距離を二階微分,半正定値の共分散行列となる

? このような分布族を『指数型分布族』という
– 最適なパラメータが必ず学習できる
? 学習にはモデル分布の周辺分布が必要
– 変分原理(平均場近似,確率伝搬法)で求める方法と,
Gibbs Samplingなどを用いて解く方法の二通りがある
CRF学習の一例(1)
? 以下の離散的なエネルギー分布をもつCRFを学習する:
– 各サイト,エッジ毎の重みが変わってくるモデル

パラメータ

既知

? 碍尝距离をそれぞれのパラメータで微分し,次を得る:
CRF学習の一例(1)

? 式を整理,最終的に次を得る:

周辺分布
CRF学習の一例(2)
? 以下の離散的なエネルギー分布をもつCRFを学習する:
– データ項,平滑化項それ自体を学習で求める

パラメータ

既知

? 碍尝距离をそれぞれのパラメータで微分,解を求める
CRF学習の一例(2)
? 最終的に次の式を得る:

周辺分布

? 学習によって,CRFのパラメータを高精度に求められる

More Related Content

条件付き确率场の推论と学习