際際滷

�晒僥� その5
何蛍�Q�yモンテカルロ柴鮫隈
(何蛍�Q霞マルコフ畳協狛殻2)
2017-08-07 @ �C亠僥�茶�氏
サイボウズ?ラボ廉硫密才
�^肇の�Y創: https://github.com/nishio/reinforcement_learning

このスライドの朕議
寄�庁なデ�`タを媼嗤してない二�Iにとって
�晒僥�の深え圭が嗤喘なので
児�Aからきちんと尖盾したい。
そのために�C亠僥�茶�氏の採指かに蛍けて
�晒僥�の�を�B�dする。
2

歌深猟�
2016定10埖に恣の云が竃た。
これを�iんでいく。
嘔和の云が�Lらくバイブル
だったが2000定(圻广1998定)
�k佩。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg冱式する�r [こ] と柵ぶことにする(广宀謹いので)

書瘁の嚠協
及4指(念指): 1嫗5� 何蛍�Q霞マルコフ畳協狛殻
及5指: 1嫗5� 何蛍�Q霞マルコフ畳協狛殻であま
り乾れられていないモデルフリ�`のPOMCP
4

書瘁の嚠協
及6指
2.1 �y�僥�の�Q泣から�たTD僥�
2.1.1 �晒僥�と縮�原き僥�の僥��t
2.1.2~3 �v方除貌を(する/しない)��v方容協
(ここまで28ペ�`ジ)
及7指
2.1.4 セミパラメトリック�y�僥�に児づく協塀
晒(10ペ�`ジ)
2.2 尖�來嬬盾裂とベイズ
(尖�院めでやる。13ペ�`ジ)
5

書瘁の嚠協
及8指 2.3 剃�晒僥�
及9指 2.4 �U�Y�晒侏僥�
2.5 蛤�晒僥�(�wばします)
及10指 2.6 リスク深�]侏�晒僥�
2.7 �}旋侏�晒僥�(�wばします)
及11指
3 �晒僥�の垢僥鮄�
3.3 ��I尖における�晒僥�
6

書瘁の嚠協
及12指 3.5 徭隼冱�Z�I尖における剃�晒僥�と庁
��僥�
及13指 3.7 侮�嗔Я�を喘いたQ�v方の僥�
及14指 4 岑嬬のモデルとしての�晒僥�
7

念指のおさらい
何蛍�Q霞マルコフ畳協狛殻について僥んだ。
2彜�Bの弌さい箭について�g�Yした。
8

何蛍�Q霞マルコフ畳協狛殻(POMDP)
噸宥のマルコフ�^殻と�`って
彜�Bの匯何が�Q�y音辛嬬
そこで仝きっとこうに�`いない々という
仝佚廷彜�B々を��襪靴鳶造燭�MDP
(belief MDP)を��Bする
9

圷のMDPがD肝圷ならbelief MDPの佚廷彜�Bbは
? （ ? ?
になって寄��
侑いbelief MDP貧の��v方Vは曝蛍�侘で和に
郵なので、D肝圷ベクトルの鹿栽で�紳糞弔鳳蹶F
できる
しかし��畜に�麻するとベクトルの方が峺方議
オ�`ダ�`で��える。そこで協方��のベクトルで除
貌するのがPoint Based Value Iteration
この�I宀を�g廾して2彜�B3佩�咾�g�Yした。
10

PBVIの��}泣
1. 彜�B�w卞�_楕を繁�gが�峰して嚥える
2. (どこまでの彜�B方でできるか�g�Yしてないが)
寄�庁な��}を盾くことが是�y(かも)
11

POMCP
＾Monte-Carlo Planning in Large POMDPs￣*
彜�B�w卞�_楕を繁�gが�に嚥えるのではなく
ブラックボックスのシミュレ�`タを嚥えて
�Rり卦し�g�Yによって�_楕を�麻していく
12
* David Silver and Joel Veness(2010)

POMCPの碧�Mみ
? 佚廷彜�Bの容協にパ�`ティクルフィルタ
(またの兆を幟肝議モンテカルロ)を聞う
? ��v方の燕�Fにモンテカルロ直冥沫を聞う
13

醤悶箭を枠に竃そう
書までの茶�氏では方塀を弖ってから�g�Yをする
送れだったが、書指の周に�vしては枠に醤悶箭を
�B初して醤悶議に深えて佩った圭が措さそう。
14

ガイスタ�`
15
? 2繁��蚩優鴬`ム、�P中は6x6
? 光プレイヤ�`は橿のコマ4つ
楳のコマ4つを隔つ。貧和恣嘔に�咾�
? ��薀廛譽ぅ筴`のコマの弼は
そのコマを函るまでわからない

ガイスタ�`の�拈箞��
和�3つのいずれかの訳周を�困燭�
? �返の楳コマをすべて函る
? 徭蛍の橿コマをすべて函られる
? 徭蛍の楳コマがゴ�`ルから用竃する
16
兜豚塘崔

何蛍�Q�y來
＾��薀廛譽ぅ筴`のコマの弼は
そのコマを函るまでわからない￣
なので、兜豚彜�Bで�返の8つのコマのうち
どの4つが橿であるのか
8C4 = 70宥りの辛嬬來がある
17
廣: 2^8 = 256宥りと深えると、コマが函られて弼が�_協したことによる
麿のコマの佚廷の厚仟が燕�Fできなくなる

Tiny井
繁�gが��}を尖盾しやすくするために
4x4�P中に橿と楳が1コマずつのバ�`ジョンを深
える
この��蓮�拈箞��
? �返の楳コマを函る
? 徭蛍の橿コマを函られる
? 徭蛍の楳コマがゴ�`ルから用竃する
となる
18

繁�gが深えてみる
Q1: 徭蛍の返桑であるコマを�Mめると、�返のコ
マに俊乾し、肝の返桑で�返にそのコマを函られ
る訊れがある。�Mめるか�
19

A1: そのコマが楳である��蓮�，蕕譴襪�￣院�
そのコマが橿である��蓮�，蕕譴襪�拈犾�
函られずに�@�Aした��呂留P中�u��亡鵑④焚遒�
ないなら、橿の��呂�Mむべき、楳の��呂�Mま
ないべき。
20

Q2: (A1をふまえて)
�返のコマが�Mんで徭蛍のコマに俊乾した。
函るべき�
21

A2: A1をふまえると、函られる了崔に�Mんできた
そのコマは橿であるので、函ると�￣院Ｈ，辰討�
いけない。
22

恷兜に楳のコマと橿のコマ、
どちらを�咾�垢戮③�
23

A3: A2をふまえると�返はコマを函らないので
函られることを訊れずに楳でゴ�`ルまでの恷玉�U
揃を�Mむべき
24

函るべき�
25

A4: A3をふまえると�返は楳コマを、函られると
房わずに�Mめてくるので、もちろん函るべき。
26

狸芹
Q2=Q4:
函るべき�
A2: A1をふまえると、函られる了崔に�Mんできた
そのコマは橿であるので、函ると�￣院Ｈ，辰討�
いけない。
A4: A3をふまえると�返は楳コマを、函られると
房わずに�Mめてくるので、もちろん函るべき。
★狸芹�
27

採がいけなかったか�
�|��に��してTrue or Falseの屈�ﾕ�尖で基えよう
としている。
True100%もFalse100%も恷�m盾ではなく、
�_楕議に詞栽されたものが恷�m。
28

おさらい�圭貨(policy)
圭貨 ? ?, ? = ? ? ?
圭貨はある彜�Bで函る返の�_楕蛍下。
恷�mな圭貨を�つけるのが�晒僥�。
29

佚廷彜�Bの厚仟
? 俊乾してきたから橿の辛嬬來が互いだろう
? 恷兜に�咾い織灰泙世�蘿爐凌苗榻圓�澆い�
ろう
? など、�Q�yを圷に佚廷彜�Bを厚仟する
30

パ�`ティクルフィルタ
�返がコマを俊乾させてきた�これは橿か�楳
か�
�Lれ彜�Bには70宥りの辛嬬來がある。まずこの
70宥りの仝パ�`ティクル々の鹿栽を深える
ここから1��サンプリングする。�Lれ彜�Bがその
彜�Bだと��┐靴謄轡潺絅讒`タに肝の匯返を嬉た
せる。その肝の匯返が、�g�Hに�Q�yされた�返の
返に匯崑するものを火す。
これを噴蛍な指方�Rり卦す。
31

�g�Yに駅勣なもの
? シミュレ�`タ
? 翌から仝書の彜�Bはこれだとせよ々と峺協できる
ものでなければならない
? 佩�咾鰡x�kして卦す
? つまり?(?|?)
? agentはsを岷俊�Q�yできない�ガイスタ�`のプレ
イヤ�`は�返の弼を�Q�yできない
? �せていい秤�鵑世円xんでagentに局す
32

agentの�g廾
ようは圭貨をどうするか
返�Xなベ�`スラインは
仝ランダムにプレイする々だが
書指のケ�`スでそれをやると
仝佩�咾鰔�ても弼の容協に叨羨たない々
という�Y惚になってしまってイマイチ
33

モンテカルロ
光返ごとに10指ランダムに�K蕉までプレイしそ
の�拌覆�遒盡澆�辰進屬魴気�
�g廾したが、1��蕕�4蛍�譴��(個鋲の噫仇あり)
34

殆酉な�g廾
楳コマで恷玉�U揃でゴ�`ルを朕峺すFastest
繁�gでもわかる仝これ楳だろうな々
35
.vvvv.
..vvv.
v.....
......
.xoox.
.xoo.x
1: 44.30%
2: 38.99%
3: 44.30%
4: 24.67%
8: 42.71%
9: 64.19%
10: 40.85%
12: 100.00%

しばらく�Mんで
�Mんできたコマを函った岷瘁、�返の�咾④鰔�て
楳のコマが畠何わかったと登僅(�g�`い)
36
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
2: 100.00%
10: 100.00%
15: 100.00%
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
これが屎盾
�F彜の�g廾では�Q�y�Y惚と佚廷が狸芹した�rには佚廷を畠何��してやり岷し

��拌�
FastestはRandomに��しては�い
{｀WIN¨: 979, ｀LOSE¨: 21}: �拌�98%
Randomにたまに函られることがあっても
�o貨なRandomよりはだいぶマシだから。
匯圭FastestとPOMCPだと
{｀LOSE¨: 95, ｀WIN¨: 5}: �拌�5%
Fastestは佩�咾�乕��丱譽丱譴世�蕁�
37
瘁宀の�g�Yに24蛍�譴��

�しい�g�Yの念に
�しい�g�Yに�Mむ念にPOMCPの嶄附を盾�h
38

POMCP勣殆盾�h
パ�`ティクルフィルタ(幟肝モンテカルロ)と
モンテカルロ直冥沫の�Mみ栽わせ、と�h苧したが
�g廾貧は音辛蛍に栽悶している。
モンテカルロ直冥沫は何蛍�Q�yでは�g佩できない
ので、まず佚廷から彜�Bをサンプリング、その彜
�Bを��┐靴凸祝�垢襦�
39

モンテカルロ直冥沫
�晒僥�の冱�~でいえば2つの圭貨の�Mみ栽わせ
で冥沫して、佩��v方Q(s, a)を容協する返隈
2つの圭貨:
?Tree Policy
?Rollout Policy
40

Rollout Policy
�F壓の彜�BがTreeに根まれていない�rに聞う圭貨
醤悶議には�彭返辛嬬返からランダムに返を�xぶ
41
Rollout Policyで返を�Qめ、�P中を厚仟、仟しいs¨をシミュレ�`タに局して
��蚣猜屬諒�a¨を誼る、�P中を厚仟、仟しいs¨¨に��してRPで返を�Qめ´

廣吭泣
? 書�g廾しているエ�`ジェント(A1)がRollout
Policyを聞っていることと、シミュレ�`タの嶄
のエ�`ジェント(A2)がどういうポリシ�`で�咾�
かとは�o�v�S
42
そもそも、たまたまシミュレ�`タ
も�Wが�g廾しているからA1とA2を
詞揖しそうになるだけであって、
シミュレ�`タはブラックボックス
で麿からgivenでもよい。その��
嶄に採が秘っているかは岑りえな
いし、POMCPはそれを岑らなくて
もよいアルゴリズム。
モンテカルロ直冥沫の盾�hで仝札
いにランダムに佩�咾靴峠K蕉まで
プレイ々と冱われることがあるが、
これはたまたま�I圭のエ�`ジェン
トがランダムに返を�xぶ圭貨なだ
けで、駅勣訳周ではない。

廣吭泣
? モンテカルロ直冥沫はよく仝ランダムに返を
�xんで�K蕉までプレイ、�拌覆敗u��垢晩h苧
されるが、これは�晒僥�の冱�~でいえば
�r�g嫌T★±での�鶻蠅�б罎箸垢襪海函�
? これは駅勣訳周ではない。
? POMCPの�猟では�б罎龍�xとして
護哈�鶻蟶佑鯤垢辰討い襦�
? また護り哈いた�Y惚が噴蛍弌さくなるところ
で嬉ち俳るため、�g�|議に仝直の侮さに貧�
を�Oけている々という侘になる。
43

Tree Policy
�F壓の彜�BがTreeに根まれているときに聞う圭貨
Treeの光ノ�`ドは
?光actionことの�б罎瞭従� V(h, a)
?光actionの�x�k指方 N(h, a)
?佚廷 B(h)
を隔っている。
圻兵議なgreedy圭貨:仝Vが恷寄になるaを�xぶ々
よく聞われるUCB1は�x�k指方が富ない�x�k岔を
互めに�u��垢襪海箸農繒辰般祝�離肇讒`ドオフ
44

廣吭泣
仝�F壓の彜�Bが゛々と�h苧してたけど、
ツリ�`のノ�`ドは彜�Bではなく
堕�s(history)に��鬉鼎い討い襦�
Q: stateに��鬺兇韻討魯瀬瓩覆里��
A: �Lれ彜�Bは�Q�yできないのでエ�`ジェントが
どのノ�`ドを�xんだらいいかがわからない
Q: じゃあ書の�Q�y辛嬬彜�Bに��鬺兇韻燭蕋�
A: �Q�y辛嬬な�P中彜�rが揖じでも�^肇に宥った
�U揃によって佚廷が�なるからダメ
45

堕�s
堕�sは參和のような侏
? 兜豚彜�B: empty
? もしくは參和の�Mみ栽わせ
? 岷念までの堕�s h
? 徭蛍が函った佩�� a
? その�Y惚誼られた�Q�y o
a, o, a, o, ´という音協�Lの双になる
46

ツリ�`はこんな侘(�R�s)
hの�r、hはツリ�`に根まれているので
Tree Policyがつかわれる。
返a0を�xび佩�咾靴申Y惚、o2を�Q�yしたとする
(h, a0, o2)はツリ�`にないのでノ�`ドを伏撹し、
Rollout Policyで�Aきを�g佩する。
48

�g�Y�Y惚
�協するエ�`ジェントA2がFastestのまま、
��蚣猜屮┤`ジェントA0を
0.1の�_楕でランダムに佩�咾垢�FastestP(0.1)
★{'LOSE': 98, 'WIN': 2}
50

�_楕を�笋┐�g�Y
Fastest★ {｀LOSE¨: 95, ｀WIN¨: 5}
FastestP(0.1)★ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)★ {｀LOSE¨: 95, ｀WIN¨: 5}
Random★ {'LOSE': 88, 'WIN': 12}
ランダム�藺圓�Fastest�藺圓里匹鵑扮搬覆任了貂�
に��してもPOMCPは9護參貧の�拌�
51

堀業が��}
A2がFastest狼のままでは、繁�gがA0をする�rに
仝橿コマで楳コマのようにゴ�`ルを朕峺す々とい
う徭苧な好待隈が贋壓して中易くない。
せめてA2をモンテカルロにしたいが堀業が��}
52

�Wい尖喇
參念、云栖�てはいけない��蚣猜屬稜�鵑鰔�て
しまうバグを秘れたことがあり、それを少巡する
あまり仝Gameオブジェクトはsideを哈方として
函ってViewオブジェクトを卦し、エ�`ジェント
はViewオブジェクトだけを�る々という�O�に
している。
この�Y惚、�飴悒ぅ鵐好織鵐貢�疋灰好箸��
53

�Wい尖喇2
Treeの�g廾が返�iきで、ハッシュに(h, a, o)を
キ�`としてツッコんでいる。
Treeを寔中朕にツリ�`で�g廾しようと房ったら
a(醤悶議には�咾�好灰泙箸修�咾�鬚�)や
o(醤悶議には�P中彜�r)を屁方にマップする駅勣
があるが中宜だったので(h, a, o)のタプルにして
Pythonにハッシュ�､鰉�麻させている。
どう深えてもメモリの�o�j撚い。
54

�Wい尖喇3
恍晩の匚に�欷兇い燭里�g�Yする肋がなかったの
だが
仝光返ごとに10指ランダムに�K蕉までプレイ々
ってガイスタ�`の��}�O協だと�K蕉までに返方が
かなり謹くなるのではないか�
護哈�鶻蟶優織ぅ廚砲靴燭蕕茲い里任蓮①�
因�^: POMCP��Fastestは100��24蛍だがPOMCP
��Randomは100��49蛍。
55

まとめ
? Point Based Value Iterationは彜�B�w卞�_楕を嚥
える駅勣がある
? そこでブラックボックスシミュレ�`タを聞う
何蛍�Q�yモンテカルロ柴鮫隈(POMCP)を�g廾
? ガイスタ�`に�m喘して、ある�_楕で楳コマで
のゴ�`ルを朕峺すような�返に��しては�Lれ
彜�Bを容協して9護除い�拌覆魍�靴�
? もっと繁�gにとって徭苧でない房深ル�`チン
で�g�Yをしたい
56

歌深猟�
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57

際際滷

膿晒僥楼その5

Recommended

More Related Content

What's hot (20)

More from nishio (20)

Recently uploaded (6)

膿晒僥楼その5