狠狠撸

狠狠撸Share a Scribd company logo
論文紹介
Advances in Learning Bayesian
Networks of Bounded Treewidth
楠本 充
Preferred Networks, Inc.
2015/01/20
発表論文
Advances in Learning Bayesian Networks of Bounded Treewidth
? S. Nie, D. Maua, C. de Campos, Q. Ji.
概要
? 木幅制約付きベイジアンネットワークの学習手法の提案
? 10~100変数くらいのデータセットで実験 → 高速、高精度
2
問題設定 & 背景
3
復習:ベイジアンネットワークとは何だったのか
ベイジアンネットワークとは
確率変数間の条件付き独立関係を有向無閉路グラフ(DAG)によって表現したもの
(グラフィカルモデルの一種)
? グラフの頂点が変数に対応する
? ある変数の確率値はその親の変数に依存する
例えば右の例なら同時確率が以下で表せる:
P(C,S,R,W) = P(C)P(R|C)P(S|C)P(W|S,R)
4
http://www.ra.cs.uni-
tuebingen.de/software/JCell/images/docbook/bayesianGraph
.png
ベイジアンネットワークの学習
考えたい問題
? データとして、観測された変数の組が与えられるので、(生成過程がベイジアン
ネットワークであると仮定した上で)元のネットワークを予測したい
? これは様々な指標 (最小記述長、BDeu等) による最適化問題として定義できて
一般に以下の形で書ける
5
C S R W
?
頂点 i の親集合
頂点 i のスコア関数
n 頂点 DAG 全体
頂点集合
ベイジアンネットワークの学習 (cont.)
ここで
? 各スコア関数 si は前処理段階で計算しておくことで O(1) 時間で計算できるも
のとする
? ただし親集合 πi としてありうるもの 2n-1 通り全部考えると多すぎなので
一部分だけ(たとえば |πi|≤3 のものだけとか)を考えることにする
6
頂点 i の親集合
頂点 i のスコア関数
n 頂点 DAG 全体
頂点集合
既存研究
困難性
? 残念ながらこの最適化問題は NP 困難 (近似でも[1,18,19,21,38])
– i.e., 変数の個数 n が増えると(理論的にはP≠NP予想の下で)指数時間必要になる
? 高速なヒューリスティックはあるが良い解が得られる保証が無い
問題の緩和?
? 木幅が小さいものだけ考えて問題を緩和 [11,33]
? 木幅を制限するとモデルの表現力が落ちる;計算速度とのトレードオフ
– 実データだとそんなに表現力が落ちないという報告はある [23, 37, 7]
? 既存手法では木幅が大きいときの計算時間が指数的だった [32]
7
C S R W
?
提案手法
提案手法
木幅が大きい時でも高速なベイジアンネットワーク推定手法の提案
? 厳密手法 : MILP(整数 & 線形計画法) による定式化
? 近似手法:ランダムサンプリングによる手法
8
C S R W
?
木幅とは何か
9
無向グラフの木幅
木幅 = (無向グラフの)木っぽさを表す指標
以下あまり直感的でない定義
Chordal グラフ: 無向グラフで、どんな長さ4以上のサイクルにもそのサイクル内
でより小さなサイクルがあるようなもの
(無向グラフの)木幅: (グラフに辺を足して Chordal グラフにするときにできる最
大クリークの大きさで取りうるもののうち最も小さいもの) - 1
10
木幅 1
木幅 2
木幅 3
木幅とは何か (cont.)
(DAGの)モラルグラフ: 無向グラフで、共通の子をもつ頂点同士を枝で結びかつ
既存の枝の向きをなくしたもの
(DAGの)木幅: モラルグラフの木幅
11
木幅5
木幅1 木幅3?
Part 1 : 厳密手法
12
木幅制限の MILP による定式化
この問題を MILP (整数&線形計画問題) として定式化することを考える
次の2種類の制約が必要になる
? 「木幅≤w」を表す制約
? 「DAG」を表す制約
13
頂点 i の親集合
頂点 i のスコア関数
n 頂点の DAG で
木幅≤w なもの全体 頂点集合
木幅制限の MILP による定式化 (cont.)
「木幅≤w」を表す制約
? 「あるグラフが Chordal ? elimination order を付けられる」という性質を
利用
? 推定したいグラフではなく、推定したいグラフを Chordal にしたものの
elimination order を変数とする制約を入れる
「DAG」を表す制約
? DAG であるならばトポロジカル順序を付けられる
? トポロジカル順序と枝の有無を表す変数を導入し、トポロジカル順序が守られ
ているかどうかを制約にいれる
これらをまとめると論文中の式(6a)-(6k)のように定式化できる
14
論文中の式(6a)-(6k)
15
実験結果
16
提案手法
(CPLEX利用)
既存手法
(動的計画法)
途中で打ち切ったらしい
(% はそのときの最適解までの誤差)
Part 2 : 近似手法
17
DAGのサンプリング
ここで近似的に解く手法を考えよう (ノリが唐突… MILP だと遅かったから?)
提案手法(近似)
反復法で解を改善していくタイプの手法 (雰囲気はさっきのMILPの手法に基づく)
18
k-tree (極大な木幅 k のグラフ)
をランダムサンプリングする
(既存手法[32]) その k-tree がモラ
ルグラフの superset であるような
最適な DAG を計算(遅い)
何回か反復する
代替手法:DAG のトポロジカル
順序をランダムサンプリングして
一番良いやつを取る
実験結果
19
既存手法 代替手法
まとめ
? 2種類(厳密?近似)のベイジアンネットワークの学習アルゴリズムの提案
– MILP による定式化
– ランダムサンプリングによる近似手法 (精度証明のようなものは無い)
? 同年に似た研究が2つ出てきて被ってしまったらしい。競争が激しい分野なのか
個人の感想
? 直感的には木幅が増えるほど探索範囲が広がって問題が難しくなりそうだけど
ソルバ上では高速になっているのは何故なのか
– 既存のソルバ使う系の手法との本質的な差はどこなのか
? 近似手法が結構単純そうなのにうまくいくのは面白い
? 木幅の計算はNP困難なので難しいということが繰り返し書かれていたが
100頂点くらいなら適当なヒューリスティックで求まるんでは? [要出典]
20

More Related Content

論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth