More Related Content
What's hot (20)
PPTX
PyTorchLightning ベ`ス Hydra+MLFlow+Optuna によるC亠僥_kh廠のBKosuke Shinoda?
PDF
[DLi氏]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP?
PPTX
[DLi氏]^SimPLe ̄,^Improved Dynamics Model ̄,^PlaNet ̄ 除定のVAEベ`ス狼双モデルのM婢とそのモデルベ`ス...Deep Learning JP?
PDF
永遺粥の恷嶮侘蓑赫永晦閣珂の盾h埼吼 其鍋?
PDF
‐児{v處/〆侮嗔Яの圻尖の尖盾に鬚韻神輻のみ〇 書畑 塋|寄MLSE?
More from jkomiyama (7)
PDF
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...jkomiyama?
Recently uploaded (13)
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナ` 仝GDC2025 オ`ディオ鷂羯瓠SIG-Audio_GDC2025_鷂羯痊Y創_局xさ...IGDA Japan SIG-Audio?
PDF
猟B初Unbiasing through Textual Descriptions: Mitigating Representation Bias i...Toru Tamaki?
PDF
猟B初AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...Toru Tamaki?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナ` 仝GDC2025 オ`ディオ鷂羯瓠SIG-Audio_GDC2024_鷂羯痊Y創_勸さ...IGDA Japan SIG-Audio?
PDF
マルチAIエ`ジェントのbI順でのg樹に鬚韻織`プンソ`ス試咾燐考 - Japan Regional User Group (RUG) Meet-UpKosaku Kimura?
バンディット諒籾について
- 10. バンディット}唆塀晒
光ラウンド ? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? =
1, ´ , ? をxkし、
2. 鶻 ?? ? ? を鞭け函る.
朕議詐t鶻蠅臨邊鷸
10
鶻蠅する協で
おもに3つのなる
協塀晒
- 11. バンディット}唆塀晒
光ラウンド ? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? =
1, ´ , ? をxkし、
2. 鶻 ?? ? ? を鞭け函る.
朕議詐t鶻蠅臨邊鷸
11
アルゴリズム淳^肇の鶻蠻鵑鰔て
肝にxぶア`ムをQ協
┘ンラインアルゴリズム
- 12. 3つの協塀晒
ベイズ議 _楕議 議
モデル ベイズ l業 販吭
隆栖の鶻蠅錬 護哈 書と揖じ 書と揖じ
アルゴリズム Gittins峺方 UCB/TS/MED Exp3 (峺方嶷み)
12
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
- 13. 3つの協塀晒
ベイズ議 _楕議 議
モデル ベイズ l業 販吭
隆栖の鶻蠅錬 護哈 書と揖じ 書と揖じ
アルゴリズム Gittins峺方 UCB/TS/MED Exp3 (峺方嶷み)
13
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
Wの冩梢蛍勸
l業宀拭
- 14. 3つの協塀晒
ベイズ議 _楕議 議
モデル ベイズ l業 販吭
隆栖の鶻蠅錬 護哈 書と揖じ 書と揖じ
アルゴリズム Gittins峺方 UCB/TS/MED Exp3 (峺方嶷み)
14
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
3つの協塀晒を桑にh苧
- 15. 1.ベイズ議バンディット}
? ア`ム = マルコフQ協^殻 (MDP) - 彜Bマシン
秘薦 護哈咀徨 ? ( (0,1), 並念蛍下 ??(?) ?
光ラウンド ? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? をxび
2. 鶻 ?? ? ?? ? (?) を鞭け函る
3. 彜BがMDP貧で篁
朕議妻打扱峅爾里發箸覇擺鶻蠅鰈邊鷸┘戰ぅ叉庁。
15
並瘁_楕を厚仟
- 16. 1.ベイズ議バンディット}
? ア`ム = マルコフQ協^殻 (MDP)
秘薦 護哈咀徨 ? ( (0,1), 並念蛍下 ??(?) ?
光ラウンド ? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? をxび
2. 鶻 ?? ? ?? ? (?) を鞭け函る
3. 彜BがMDP貧で篁
朕議妻打扱峅爾里發箸覇擺鶻蠅鰈邊鷸
16
並瘁_楕を厚仟
Informalに左ア`ムの彜B鶻蠍澆ぅ〒`ムか
詰いア`ムかの並念蛍下を岑っている、
どう彜B篁するか┐△襪い呂靴覆いも岑っている
★どのア`ムを哈くのがいいか
- 17. 1.ベイズ議バンディット}
? ア`ム = マルコフQ協^殻 (MDP)
秘薦 護哈咀徨 ? ( (0,1), 並念蛍下 ??(?) ?
光ラウンド ? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? をxび
2. 鶻 ?? ? ?? ? (?) を鞭け函る
3. 彜BがMDP貧で篁
朕議妻打扱峅爾里發箸覇擺鶻蠅鰈邊鷸
17
並瘁_楕を厚仟並瘁_楕を厚仟
隆栖の鶻蠅禄颪鶻蠅茲、詰い
晒僥と揖
- 18. Gittins峺方 [Gittins ¨73]
? 恷mなアルゴリズム災塹造Gittins峺方を
恷寄晒するア`ムを哈く
?? ? 仝アルゴリズム
がア`ム?を哈きAけて鶻蠅鬚發蕕┐慇々
はいくらか
? ^苧は箭えば [Weber ¨92].
18
- 19. ベイズ議協塀晒: pros/cons
? 恷mアルゴリズム (Gittins峺方).
? ア`ムの┝番な篁をQえる`箭えば、
レ御をせAけると、和がるなど
? 來嬬が並念蛍下に卆贋之泣でもない殖
? 來嬬が護哈咀徨?に卆贋
? 麻が寄筍晒僥と揖じく隆栖の鶻衽
麻にvするベルマン圭殻塀を盾く駅勣がある
侭湖祭釶瓩零がオンラインレ御やA/Bテストで
除定は聞われない圻咀なのでは´
19
- 20. _楕議 バンディット}
[Robbins 1952]
? ア`ム輯_楕蛍下
光ラウンド? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? をxkし
2. 鶻 ?? ? ? ~?(?? ? )を鞭け函る.
朕議再擺鶻E ?=1
?
?? ? ? を恷寄晒.
20
- 21. _楕議 バンディット}
[Robbins 1952]
? ア`ム輯_楕蛍下
光ラウンド? = 1,2, ´ , ?に,
1. アルゴリズムがア`ム? ? ( ? をxkし
2. 鶻 ?? ? ? ~?(?? ? )を鞭け函る.
朕議再擺鶻E ?=1
?
?? ? ? を恷寄晒.
21
鶻蠅聾ア`ムに鬉靴
_楕蛍下からのサンプル
勣するに´これまでのサンプルをもとに、
恷も豚棋、慮澆ご_楕蛍下を容協
- 22. Regretとu除恷m來
? 參和のRegretを協x
Regret ? =
?=1
?
max
?
?? ?
?=1
?
?? ? .
? 鶻袗邊鷸Regret恷弌晒
? u除恷mアルゴリズム [Lai&Robbins `85]
? lim
?★±
Regret(?)
log ?
★ ?? w. p. 1
? ??: 匯桑措い蛍下をQ協するための
恷詰泙離汽鵐廛詈 ?? ?.
22
- 23. Regretとu除恷m來
? 參和のRegretを協x
Regret ? =
?=1
?
max
?
?? ?
?=1
?
?? ? .
? 鶻袗邊鷸Regret恷弌晒
? u除恷mアルゴリズム [Lai&Robbins `85]
? lim
?★±
Regret(?)
log ?
★ ?? w. p. 1
? ??: 匯桑措い蛍下をQ協するための
恷詰泙離汽鵐廛詈 ?? ?.
23
恷も措いア`ムを岑っていたら、
どれだけ鶻蠅魘爐もらえたか
- 24. Regretとu除恷m來
? 參和のRegretを協x
Regret ? =
?=1
?
max
?
?? ?
?=1
?
?? ? .
? 鶻袗邊鷸Regret恷弌晒
? u除恷mアルゴリズム [Lai&Robbins `85]
? lim
?★±
Regret(?)
log ?
★ ?? w. p. 1
? ??: 匯桑措い蛍下をQ協するための
恷詰泙離汽鵐廛詈 ?? ?.
24
いくつのサンプルがあれば、
匯桑措いア`ム┫_楕蛍下
をQ協できるか
- 25. Upper Confidence Bound 1 (UCB1) アルゴ
リズム [Auer+ 2002]
? 光ラウンドに、參和のUCB1峺方 ?UCB1 ?, ?
を恷寄晒するア`ムをxk
?UCB1 ?, ? = ??(?) +
log(?)
??(?)
25
??
?UCB1 ?, ?
豚棋鶻
サンプル方
UY豚棋鶻
- 26. Upper Confidence Bound 1 (UCB1) アルゴ
リズム [Auer+ 2002]
? 光ラウンドに、參和のUCB1峺方 ?UCB1 ?, ?
を恷寄晒するア`ムをxk
?UCB1 ?, ? = ??(?) +
log(?)
??(?)
26
??
?UCB1 ?, ?
UY豚棋鶻
豚棋鶻
冥沫試喘
- 28. 議バンディット}
[Auer+ 2002]
? (adversary)が音旋な鶻蠅鰓O協
光ラウンド ? = 1,2, ´ , ?に
1. 海光ア`ムの鶻蠅Q協{ ?? ? }
2. アルゴリズムがア`ム? ? ( ? をxkし
3. 鶻 ?? ? ( [0,1]を鞭け函る
朕議祭の海する鶻E ?=1
?
?? ? ?
を寄きくする
28
- 29. 議バンディット}
[Auer+ 2002]
? Regret ? = max
?
?=1
?
?? ? ?
?=1
?
??(?) ? .
? 仝魁垢呂箸討い哉厘發
Q協議アルゴリズムはΩ(?)の
Regret匯桑いいア`ムをxべない
? 岱kすると?(?) のRegret匯桑いい
ア`ムをxべる
? Exp3 [Auer+2002], Inf [Garivier+2009].
29
恷も鶻蠅慮澆ぅ〒`ム
のt鶻
アルゴリズムの
t鶻
- 41. Bandit-based Monte Carlo planning
[Kocsis+ ¨06]
41
UCT =
UCB over
Tree
ランダムプレイ
\戮繊 reward 1
易戮繊 reward 0
光蕉中の肝の返が
バンディットア`ム
鶻蠅
backpropagation
- 43. UCTは云輝に駅勣なのか
? MCTS (UCT)の措さ坤張蟋`の嶷泣冥沫
? 噸宥のUCTは詰來嬬 [Yoshimoto+ ¨06] ★ ゲ`ム岑Rの
孵りzみは駅
? Progressive widening: 詰瞳|なuv方で並念
に返の枠了をQめる
? AMAF (返念瘁どちらを枠に嬉っても、
揖じ)
? 謹くの豎の來|を旋喘したヒュ`リス
ティック
? 2007-2015はモンテカルロ豎が恷r旗
43
- 44. アルファ瘁[Silver+ ¨15] とUCT
? AlphaGo [Silver+ ¨15].
? UCT + uv方┥崔罎淋u
? 侮嗔Яを喘いた4つのuv方.
? Rollouts / Supervised learning (SL) ★ 肝の彭
返嚠y (薙Vからトレ`ニング).
? Reinforcement learning (RL) / Value network
★ u、排仭Δ癖屬らにソ`ト.
? UCTを旋喘した直の冥沫はやはり旋喘
44
- 45. 容]システム
? ユ`ザの李むアイテムを容] (e.g., ECサイト)
? コ`ルドスタ`ト: 仟しい斌瞳 or 仟しいユ`ザに
どうやって容]するか┘禰`タがない
? 冥沫 (デ`タЪ)と試喘 (これまでのデ`タか
らよさそうな斌瞳を容])のトレ`ドオフは、
噸宥のバッチ僥では深]できない
? バンディットベ`スの容]システムが容]シ
ステムの僥氏(e.g., [Tang+ Recsys¨14])やC亠僥
の僥氏(e.g., [Kawale+ NIPS`15])でいろいろ
戻宛されている
45
- 47. A/Bテスト
? A/Bテストはバンディット}か
? バンディット}はt鶻蠅鰈邊鷸したい
? A/Bテストではこれまでのユ`ザのt鶻蝪┘罘`ザ
が@Aしたかx用したかも嶷勣だが、テストK阻
rにどちらが措いかを紛┌Q協したい
? ではA/Bテストは噸宥の吭龍での紛┐
? 噸宥の紛┐魯禰`タ方耕協此100繁にテストして
みたところ、p=0.03で宛Aのほうが措かった々
? A/Bテスト采襪┐針覆困燭垢泙gYを弖紗
仝p=0.05でどちらかが措いか紛┐任るまで宛Aと
宛Bをユ`ザに住札にせる々
47