狠狠撸

狠狠撸Share a Scribd company logo
スライド:楠本
論文概要
Optimal and Adaptive Algorithms for Online Boosting (ICML2015 Best Paper)
Alina Beygelzimer, Satyen Kale, and Haipeng Luo (Yahoo Lab & プリンストン大)
オンラインのブースティング手法を2つ提案する.
? 理論上最適な手法
? Adaptive な手法
選んだ理由: 理論寄りの論文で ICML の Best paper に選ばれるようなものが
どんなものか知りたかったため
なお解析部分は準備する時間がなかったのでほとんど説明しません…
目次
? 復習
?ブースティング
?オンライン学習
? 問題設定
? 提案手法
? (おまけ)実験結果
? 感想
前置き: この発表では
2値分類だけを扱います
復習:ブースティング
弱い学習器をいっぱい集めて強い学習器を作る手法
ランダムよりはちょっとマシ
くらいの分類器
精度が良い分類器
0/1ロスが ≤ 0.5 - γ 0/1ロスが ≤ ε
復習:ブースティング
弱い学習器をいっぱい集めて強い学習器を作る手法
h1
h2
h3
h4
AdaBoost:
次の反復を繰り返す:
? 訓練データに対し重みを割り振る
? 重みの付いた訓練データで弱い
学習器を学習
? 訓練データに対する重みを更新
このとき今の分類器が大きく間違え
る訓練データを重くするようにする
出力は,今まで作った弱い学習器の
(重み付き)の和
復習:バッチ学習 vs. オンライン学習
※「Jubatusにおける大規模分散オンライン機械学習」より拝借
学習理論におけるエラー評価
バッチ学習:
? データはある未知の分布から i.i.d.
にサンプリングされるとする
? エラーは汎化誤差で評価
オンライン学習:
? データは敵対者から渡される
? エラーはリグレットで評価
ここから本題です
オンラインでブースティングしたい!!!!
前提: オンライン版の弱い学習器が与えられる
ある定数 γ, S があって,任意の T ≥ 1 に対し,データが
何らかの分布から T 個オンラインで与えられた時に
(0/1ロス) ≤ (0.5 - γ)T + S
と(高確率で)なるもの
T が小さい時にはどうやってもロスが発生するので余分に必要
逆に T が十分大きくなるとミス回数は (0.5-γ)T に近づいていく
(理由:) T がでかいと S << (0.5 – γ)T みたいになる
アルゴリズム(x1, y1)
(x2, y2)
(x3, y3)
ここから本題です
オンラインでブースティングしたい!!!!
前提: オンライン版の弱い学習器が与えられる
目標 : オンライン版の強い学習器を作りたい
アルゴリズムの性能は,条件と目標(γ, S, ε) に対し以下で評価する
? (N) 弱い学習器がいくつ必要か
? (T) サンプル数がいくつ必要か
ある定数ε, S’ があって,任意の T ≥ 1 に対し,データが
何らかの分布から T 個オンラインで与えられた時に
(0/1ロス) ≤ εT + S’
と(高確率で)なるもの
アルゴリズム(x1, y1)
(x2, y2)
(x3, y3)
オンラインブースティング
基本的には弱い学習器ごとの重み α(t, i) を逐次管理していく
重点サンプリング:
各学習器の update 時に,ある確率 p(t, i) でしか訓練データを渡さないようにする
アルゴリズム:
各 t = 1,…,T について:
? 予測 = (Σi α(t, i)?学習器i(xt) )の符号
? 各学習器と α を update
(xi, yi)
p(t, i)
1 - p(t, i)
提案手法
? Online BBM (Boost-By-Majority)
?(ある常識的な条件下で) N, T が共に最適なオンラインブースティング法
? AdaBoost. OL
?弱い学習器の精度 γ を入力に要求しないアルゴリズム
?弱い学習器の性能がばらついてる場合でも上手く処理できる
提案手法
既存手法
弱い学習器 サンプル数
提案手法(Optimal な方)
大胆にも,α = 1 にセットする.
解析のふんいき
次のポテンシャル関数 Φi(s) を考える(唐突?)
ここで p(t, i) をこのポテンシャル関数を使って決める(式が少しややこしいので略)と,
0/1 ロスを以下のように抑えられる
アルゴリズム(再掲):
各 t = 1,…,T について:
? 予測 = (Σi α(t, i)?学習器i(xt) )の符号
? 各学習器と α を update
p(t, i) に従い重点サンプリングする
Φをいい感じに設計すると
この項が小さくなることが
言える
(おまけ)実験結果
理論の論文だが,ブースティング用のベンチマークで実験もしている
弱い学習器 提案手法
ほとんど僅差?
まとめ&感想
論文のまとめ
Online boosting で理論的に最適な手法と,adaptive な手法の2つを提案
下界も証明してる
感想
? Online boosting という分野はこれでほぼやり尽くされた?
? どこからアイデアが出てきたのか素人には謎だった
?魔法の重みが突然出てきて何故かいい感じに解析できるみたいに見える
?実際は様々な先行研究に基いて手法を考えてそう

More Related Content

ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting