際際滷

�晒僥� その2
2017-01-26 @ �C亠僥�茶�氏
サイボウズ?ラボ廉硫密才
�v�Bスライド匯�E https://github.com/nishio/reinforcement_learning
2017-02-24 紗�P

このスライドの朕議
寄�庁なデ�`タを媼嗤してない二�Iにとって
�晒僥�の深え圭が嗤喘なので
児�Aからきちんと尖盾したい。
そのために�C亠僥�茶�氏の採指かに蛍けて
�晒僥�の�を�B�dする。
2

歌深猟�
2016定10埖に恣の云が竃た。
これを�iんでいく。
嘔和の云が�Lらくバイブル
だったが2000定(圻广1998定)
�k佩。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg

Sutton & Barto の仟恬
draftが�iめる。朕肝を匯何�B初:
及1何: Tabular Solution Methods
6 Temporal-Difference Learning
8 Planning and Learning with Tabular Methods
及2何: Approximate Solution Methods
12 Eligibility Traces
13 Policy Gradient Methods
及3何: Looking Deeper
16 Applications and Case Studies
16.6 Human-Level Video Game Play
16.7 Mastering the Game of Go
16.8 Personalized Web Services
4
https://webdocs.cs.ualberta.ca/~sutton/book/the-book-2nd.html

書瘁の嚠協
及1指(念指):
會嫗
1嫗 �晒僥�の児�A議尖�
1� �晒僥�とは
及2指:
2� �晒僥�の��撹勣殆
3� ��ｷ�佑忙銈鼎�▲襯乾螢坤�
及3指: 4� 圭貨拘塘に児づくアルゴリズム
及4指: 5� 何蛍�Q霞マルコフ畳協狛殻
5

書瘁の嚠協
及5指
2.1 �y�僥�の�Q泣から�たTD僥�
2.1.1 �晒僥�と縮�原き僥�の僥��t
2.1.2~3 �v方除貌を(する/しない)��v方容協
(ここまで28ペ�`ジ)
及6指
2.1.4 セミパラメトリック�y�僥�に児づく協塀
晒(10ペ�`ジ)
2.2 尖�來嬬盾裂とベイズ
(尖�院めでやる。13ペ�`ジ)
6

書瘁の嚠協
及7指 2.3 剃�晒僥�
及8指 2.4 �U�Y�晒侏僥�
2.5 蛤�晒僥�(�wばします)
及9指 2.6 リスク深�]侏�晒僥�
2.7 �}旋侏�晒僥�(�wばします)
及10指
3 �晒僥�の垢僥鮄�
3.3 ��I尖における�晒僥�
7

書瘁の嚠協
及11指 3.5 徭隼冱�Z�I尖における剃�晒僥�と庁
��僥�
及12指 3.7 侮�嗔Я�を喘いたQ�v方の僥�
(いわゆるDQN)
及13指 4 岑嬬のモデルとしての�晒僥�
8

念指のおさらい
エ�`ジェント、�h廠、佩�咫�鶻蝓�讐漾△箸い�
児云議な喘�Zの協�xについて僥んだ。
仝謹欄バンディット��}々を�}可に
仝旋喘と冥沫のトレ�`ドオフ々と、
それに��する仝音�_�gなときには�S�Q議に々圻尖
について僥んだ。
9

謹欄バンディットは��g
謹欄バンディット��}は
? �h廠は佩�咾砲茲辰�篁�靴覆�
? �W决�鶻蠅呂覆��r�鶻蠅世�
という��gな��}だった。
匯違には�h廠は�篁�掘�鶻蠅�W决する。
これをどうやって�Qうか�
10

マルコフ�Q協�^殻
マルコフ�Q協�^殻(Markov Decision Process)
�h廠は彜�Bを隔っていて、その彜�Bは
岷念の彜�Bとエ�`ジェントの佩�咾砲茲辰�
givenな�_楕で�w卞する、とモデル晒する。
彜�Bは�Q�yできる、とする。そうでないケ�`スは
1.5�仝何蛍�Q霞マルコフ畳協狛殻々で�Qう。
11

�h廠をMDPで�峰する
彜�B腎�g ? = ?1, ?2, ´ , ? ?
佩�喊實g ?(?) = {?1, ?2, ´ , ? ?}
兜豚彜�B蛍下 ?0
彜�B�w卞�_楕 ?(?＞
|?, ?)
�鶻裼v方 ?(?, ?, ?＞)
�r震tの�� ??, ? ?, ??
12

�h廠をMDPで�峰する
兜豚彜�B ?0~?0
肝の彜�B ??+1~? ?＞
??, ? ?
�鶻� ??+1 = ? ??, ? ?, ??+1
13
??+1がtより念の彜�Bや佩�咾牧栖罎靴討い覆�
�マルコフ來

佩�咾錬�
佩��Aを�Qめるのは�h廠ではなくて
エ�`ジェントなので貧��Mみにない。
圭貨 ? ? ?
佩�� ? ?~? ? ??
14
�|夘Q: ? ?~? ? ??, ???1, ???2, ´ と深えてはダメか�
�F�g議な�g廾は�^肇の畠何の�Q�yに卆贋するのでは�
A: �晒僥�は僥�によって?を厚仟していくので、
�r震tとt-1とで?が�なると深えればこの協塀晒でもその�g廾に狸芹しない。

�W决�鶻蠅�Qい
�鶻蠅��rでないので、
�r震tの�鶻蠅��eに�Qうのではなく、
まとめて仝�б�(return, income)々にする。
弼？な圭隈がある。その1つが護哈�鶻蟶唯�
?? = ?
?=0
±
? ?
??+1+?
15
?は護哈�S方、0參貧1隆�困�g方。ようは峺方峠錆峠譲。

�のバックトラック
ここまでで
仝�h廠は�篁�掘�鶻蠅�W决する々
をどうやって�Qうかを�Qめた。
で、採がしたかったんだっけ�
★ 恷�mな圭貨を�つけたい
16

恷�mな圭貨を�つけたい
圭隈1�圭貨郡畗�
圭貨をモデル晒して岷俊恷�m晒する。
AlphaGoのアプロ�`チ
★1.4� 圭貨拘塘隈を歌孚
圭隈2��ｷ�遊�
圭貨を仝彜�Bの��｡垢�蚌�麻できるものに
�協して、��､陵洞┐鴈B�る。
DQNのアプロ�`チ
★こちらの圭が�s雰が�Lい。書指�す。
17

仝彜�Bの��｡垢箸錬�
蒙協の彜�B參週の�б罎瞭擺�､�
仝彜�B��v方々と柵ぶ。
? ? = ?[??|?? = ?]
蒙協の彜�Bで蒙協の佩�咾鬚靴吹瓩�
�б罎瞭擺�､髻湖��v方々と柵ぶ。
? ?, ? = ?[??|?? = ?, ? ? = ?]
18
このQがDQNのQ

モンテカルロで彜�B��､鯒鵑瓩�
彜�B��
? ? = ?[??|?? = ?]
をどうすれば箔められるか�
�m輝に�佩�e�`して、誼られた�Q�yデ�`タの
峠譲�､鯣，譴个茲ぁ�*
´だけどこの圭隈は�麻コストが寄きい。
もっといい圭隈があるのでそれを�よう。
19
* ゲ�`ムの房深エンジンで仝光蕉中からランダムにプレイして光返の�拌覆鯒鵑瓩襦�r
これは佩��v方をこの圭隈で箔めることに�輝する。

Vを�簧�
? ? = ? ?? ?? = ?
= ?[??+1 + ???+2 + ?2
??+3 + ? |?? = ?]
= ? ??+1 ?? = ? + ??[??+2 + ???+3 + ? |?? = ?]
? ??+1 ?? = ? = ?
?
?
?＞
? ? ? ? ?＞
?, ? ?(?, ?, ?＞
)
? ??+2 + ???+3 + ? ?? = ?
= ?
?
?
?＞
? ? ? ? ?＞
?, ? ?(?＞
)
20

ベルマン圭殻塀
? ? = ?
?
?
?＞
? ? ? ? ?＞
?, ? ? ?, ?, ?＞
+ ?? ?＞
揖��に
? ?, ?
= ?
?＞
?
?＞
? ?＞
?, ? ? ?, ?, ?＞
+ ?? ?＞
?＞
? ?＞
, ?＞
これをベルマン圭殻塀と柵ぶ。
21

ベルマン圭殻塀を盾く
彜�B�w卞�_楕が屡岑ならベルマン圭殻塀を
盾くことで彜�Bや佩�咾��､�錣�襦�
しかし匯違に彜�B�w卞�_楕は音苧。
�佩�e�`で彜�B�w卞�_楕を容�yできないか�
22

Sarsa
SarsaはQを參和の塀で厚仟する僥�アルゴリズム�
? ??, ? ? ○ ? ??, ? ? + ? ??+1 + ?? ??+1, ? ?+1 ? ? ??, ? ?
?は僥�楕(0參貧1參和の�g方)
和�ベルマン圭殻塀ではs¨やa¨についてsumを函っているが、
それを仝�g�Hに竃てきたもの々で崔き�Qえて、
仝Pやπは隆岑だけど、�g�Hの�Q�yをたくさん鹿めれば
Pやπを�譴韻�sumしたのと揖じところに��垢襪茲諭�
という�k�。
? ?, ? = ?
?＞
?
?＞
? ?＞ ?, ? ? ?, ?, ?＞ + ?? ?＞ ?＞ ? ?＞, ?＞
23

On-policyとOff-policy
晩云�Zだと仝圭貨オン侏/圭貨オフ侏々と冱う
Sarsaの圷になったベルマン圭殻塀はπを根んでい
る。つまり、圭貨πが�笋錣譴仆發�笋錣襦�
(これを燕�Fするために? ?
(?, ?) と��い燭蠅垢�)
? ?, ?
= ?
?＞
?
?＞
? ?＞
?, ? ? ?, ?, ?＞
+ ?? ?＞
?＞
? ?＞
, ?＞
SarsaはOn-policy。
24

ベルマン恷�m圭殻塀
��Qがわかってるなら仝��､�邊鵑緑�咾鬚�
る々という圭貨(greedy圭貨)が恷�m。じゃあベル
マン圭殻塀のπをその圭貨で崔き�Qえたら�
??
?, ?
= ?
?＞
?
?＞
? ?＞
?, ? ? ?, ?, ?＞
+ ?max
?＞
??
?＞
, ?＞
これをベルマン恷�m圭殻塀という。
25

Q僥�(Q-learning)
Q僥�はQを參和の塀で厚仟する僥�アルゴ
リズム�
? ??, ? ? ○ ? ??, ? ? + ? ??+1 + ?max
?＞
? ??+1, ?＞ ? ? ??, ? ?
勣はSarsaのベルマン圭殻塀をベルマン恷�m圭殻
塀に�笋┐燭發痢�Q僥�は塀に圭貨が秘っていな
いのでOff-policy。
26
盾は圭貨の唹�を鞭けないけど、冥沫��譴笋匹海鰆惶禝弔北祝�垢襪��
圭貨によって唹�を鞭けるので、��拔箸砲腕壱�があるよ。

Q: 採がしたかったんだっけ�
A: 恷�mな圭貨を�つけたい。そのためには寄き
く蛍けて2つ圭隈がある。
圭隈1�圭貨郡畗�
圭貨をモデル晒して岷俊恷�m晒する。
圭隈2��ｷ�遊�
圭貨を仝彜�Bの��｡垢�蚌�麻できるものに
�協して、��､陵洞┐鴈B�る。
��､陵洞┠酬�(Sarsa, Q-learning)を2つ僥んだ。
27

尖盾の�編^
徭蛍が屎しく尖盾できているかどうか
�g廾してみて�編^したい。
書指僥んだ��譴世��ｷ�遊┐世韻世韻鼻�
繍栖議に圭貨郡畗┐粡v方で除貌する圭隈も
揖じ��}�O協で�してみたい。
28

眉朕�Kべ
2繁のプレイヤ�`が住札に＄と～を��い�
枠に3つ�Kんだ圭が�戮舛林价獷淵鴬`ム。
この頭圭のプレイヤ�`をエ�`ジェントとする。
�h廠�
佩�咤�
�鶻蝪�
圭貨�
29

眉朕�Kべ
2繁のプレイヤ�`が住札に＄と～を��い�
枠に3つ�Kんだ圭が�戮舛林价獷淵鴬`ム。
この頭圭のプレイヤ�`をエ�`ジェントとする。
�h廠� �P中ともう頭圭のプレイヤ�`
佩�咤� どこに��Qめて、��
�鶻蝪� �戮辰燭��けたか
圭貨� �h廠の彜�Bと�鶻蠅鯤椶曳，辰董∃�咾�
�Qめる�v方
30

彜�Bと佩��
彜�Bは採か�
佩�咾郎里��
Q�v方の�g廾は�
31

Q�v方の�jな�g廾
恷兜は殆酉に�g廾する(瘁で個鋲して曳�^する)
彜�Bは�P中の彜�rで、3 ** 9(=19683)參和。
佩�咾榔P中のどこを�xぶかで、9宥り。
Q�v方は仝彜�B～佩�咫垢�177147勣殆の塘双。
32
Pythonのリストで恬っても1~2msで恬れる。
もちろん欺�_音嬬蕉中や掲栽隈返も根んでいるので
個鋲の噫仇があるがそれはあとでやって曳�^する嚠協。

�jな��eもり
1�栽すると9周のデ�`タが誼られる。
なので20嵐�栽すればQの光s,a��に
峠譲10��のデ�`タが誼られる�
(すごく僥��Wそう)
33

�g�Y
ランダム揖平の��蕕�1嵐指嶄
枠返�戮�: 5785, 瘁返�戮�: 2918, 哈き蛍け: 1297
だったので、0.578をベ�`スラインとする。
Sarsa(枠返)とランダム(瘁返)で10000�栽し、
100�栽ごとの�拌覆鬟廛蹈奪箸靴拭�
Sarsaのパラメ�`タ: π=greedy圭貨, α=0.5, γ=0.9
34

�g�Y�Y惚
吭翌と僥�が壼い´´
35

嚠豚せぬ撹孔
仝20嵐�栽ぐらいかな々の��eもりに郡して
1000�栽で僥�しきっている。
Sarsaがもっと��い來嬬になって
光�N個措によって個鋲していくって
スト�`リ�`にするつもりだったのだが´´。
36

Qテ�`ブルを�Q賀
177147勣殆のQ�方のテ�`ブルのうち、
掲ゼロの�､�襪辰討い襪里�450周だった。
17嵐勣殆は欺�_音嬬蕉中や掲栽隈返を根む��
なので、�g�Hの冥沫腎�gはもっと倭かった。
37

採が栽隈返か縮えない�g�Y
ランダムプレイヤ�`は
仝栽隈返の嶄からランダムに�xぶ々
念指のSarsaは
仝栽隈返の嶄からQの恷も寄きいのを�xぶ々
だった。採が栽隈返かを縮えていることになる。
Sarsaに�vしてこれを縮えず、
9宥りすべての嶄から�xばせる。
もちろん掲栽隈返を嬉つ辛嬬來が竃るが、
その��蓮⊆閑銈殆�けとする。
38

�Y惚
恷兜はランダムより樋いが、すぐ�くなる。
39

僥�楕による�`い
僥�楕を0.5にしたのは來嬬が��い。
40

僥�楕による�`いの深賀
Sarsaの厚仟塀は、Qを峺方峠錆峠譲している侘
αが寄きいと、より堀く�^肇のことを梨れる。
41
仝峺方峠錆峠譲じゃなくてちゃんと峠譲函ったらどうなる�々
仝そしてUCB1とかで返を�xんだら�々という夘��は瘁で�g�Yする嚠協。
氏��灰瓮鵐�:
掲栽隈返が嬉たれた�_楕を
�ると中易そう。

�の送れの屁尖
�すことのキュ�`が�Lくなってきたので屁尖
? Sarsaを�したのでQ-learningを�して曳�^
? Greedy圭貨を�したのでε-Greedy圭貨を
�して曳�^
? その麿
? 彜�Bを�R�sしたら�
? 峺方峠錆峠譲をやめたら�
42

Q-LearningとSarsa+Greedy
よしQ-Learningをためそう�と深えて�
Sarsa:
? ??, ? ? ○ ? ??, ? ? + ? ??+1 + ?? ??+1, ? ?+1 ? ? ??, ? ?
Q-Learning:
? ??, ? ? ○ ? ??, ? ? + ? ??+1 + ?max
?＞
? ??+1, ?＞ ? ? ??, ? ?
Sarsaにgreedy圭貨を�Mみ栽わせた��蓮�
揖じ厚仟塀になりそうに房うが、屎しいか�
43

夘貌コ�`ドを曳�^
Sarsa(貧)では
佩�咾垢�
肝の佩�咾鰡xぶ
Qを厚仟する
Q-Learning(和)は
佩�咾垢�
Qを厚仟する
肝の佩�咾鰡xぶ
と�桑が�`う
44
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node64.html

�g�Y�Y惚
Sarsa揖��α=0.5だけ��い
45

Sarsaとの曳�^
光3指ずつやってみたけど寄きな餓は�oい
46

ε-Greedy圭貨
肝はε-Greedy圭貨を�そう�
ここまでの�g�YではGreedy圭貨を聞っていた。
これはつまり仝旋喘と冥沫のトレ�`ドオフ々の
冥沫をほとんどやらないことに�輝する。
冥沫をさせるための圭貨として嗤兆なものに
�_楕εでランダムな返を�xぶε-Greedyがある。
これを�してみよう。
47

�g�Y�Y惚
ε-Greedyはかなり��い
48

10蔚の�栽方にした�g�Y
�佩を��やしても畠隼弖い原かない
49
10嵐�栽し、1000�栽ごとの�拌覆鬟廛蹈奪�

深賀
書指の��}�O協では
?1000�佩で噴蛍冥沫できる
?掲栽隈返が嬉てて、嬉つと�け
が尖喇で冥沫のデメリットが寄きい。
ε-Greedyは耕協�_楕で冥沫のコストを�Bう。
これがGreedyに曳べて�拌覆��い圻咀なので、
�佩指方を��やしてもGreedyに弖いつかない。
50

100蔚の�栽方にした�g�Y
51
100嵐�栽し、1000�栽ごとの�拌覆鬟廛蹈奪�
仝SarsaがQ-Learnよりよい々という�A�がはっきりと竃ている。
(念の�g�Yでも富し竃ていた)

SarsaとQ-learningの�`い
箭えば仝スタ�`トからゴ�`ルまで1�iごとに-1
兮から鯛ちると-100々という��}�O協の�r、
Q-learningでは仝恷�m圭貨=兮から鯛ちない々
を念戻しているので兮ギリギリを�iく。
ε-Greedyは�_楕で冥沫するので�r？兮から鯛ちる
Sarsaはon-policyだから兮から�xれた祇を宥る。
52

�|夘
Q: なぜSarsaは兮から�xれたのか�
A: 兮のそばが仝�_楕εで-100奮らう々詰��､淵�
ス朕なので、��､慮澆し修盆Mんだ
Q: 払��rのダメ�`ジが寄きい��}�O協だとSarsa
の圭が械に措い�
A: とも冱えない。��}�O協肝及。この際際滷の箸
崋は仝Q僥�が械に措いわけではない々
53

恷�mな圭貨を�つけたい
その圭隈に圭貨郡畗┐��ｷ�遊┐�△�
��ｷ�遊┐老讐澆��､�蚌�麻できるものに
�協して、��､陵洞┐鴈B�る圭隈
��､臨邊鵑癖屬鯣，�Greedy圭貨と、
匯協�_楕で冥沫するε-Greedy圭貨を喘い、
��､陵洞�峽┐箸靴�SarsaとQ-learningを喘い
て�g�Yをした。
54

原�h
ここまでで縮親��弔砲魯好肌`リ�`が匯粁鯛で
火りは畠何原�h。
?彜�Bとは採か�★彜�Bを�R�sする
?仝�v方々について
?minimaxについて
?モンテカルロ直冥沫について
?Quartoの�g�Y(Sarsaまで)
55

原�h: 彜�Bとは採か�
書までの�g�Yでは
仝彜�B��P中々
としてきたがこれは屎しいか�
�h廠から�Q�yできるすべての秤�鵑鰓��
仝秤�鵑��なるなら、�なる彜�Bである々
と深えるのは屎しいか�
56

彜�Bは�R�sできる
箭えば3朕�Kべの��蓮�
�P中の指�?�R啌で札いに卞りあう
8宥りの�P中は揖匯�できる。
いくつかの彜�Bを揖匯�することによって
冥沫腎�gが倭まり、より富ない�佩で
よい圭貨を�k�できるはず。
57

�g�Y
書までの�g�Yで1000�栽殻業で僥�しきること
がわかっているのでそこをクロ�`ズアップしたい
しかしグラフの1泣輝たりの�栽方を�pらすと
岱方の唹�が寄きくなってグラフが�づらい
そこで10�栽僥�するごとに、�e余僥�しない
�栽を1000指佩い、その�拌覆鬟廛蹈奪箸垢�
58

�g�Y
彜�Bを�R�sする圭隈は3宥り喘吭した
指�?�R啌の8宥りを畠何3**9の屁方にして
匯桑弌さいものを函る(Sym)
3**9の�P中をまず光ラインに蛍盾し((3**3) ** 8)
ライン坪をソ�`ト(3**3★10)、
光ラインもソ�`トし、10**8の屁方にする(Line1)
Line1の(3**3★10)の侭で2弼の�xが贋壓するもの
を揖匯�(10★6)して6**8の屁方にする(Line2)
59

�g�Y�Y惚
匯周措さそうに�えるが´
60

岱方の�F
�Rり卦し�g�Yすると、護と�會が秘れ紋わる
�\よく嶷勣な蕉中に竃氏ったことで
殆壼く僥�するケ�`スがあるので
1指の�g�Yでは採も登僅できない。
★100指仝300�栽瘁の�拌福垢魍�靴�
峠譲と��米�遒鰔�る
61

(彜�B, 佩��)��
輝兜仝彜�Bの�R�s々と柵んでいたが
Qへの�､粒�携襪譴�(彜�B, 佩��)��がキ�`なので
佩�咾肇札奪箸�R�sしないといけない。
これに�欷兇い討い覆�辰燭里�SymがRawより
��くなるという�Y惚が竃た。
62

�g�Y
(彜�B, 佩��)��を�R�sする圭隈は3宥り喘吭した。
まず佩�咾梅xばれている��銈�+3する。
指�?�R啌の8宥りを畠何6**9の屁方にして
匯桑弌さいものを函る(Sym)
3**9の�P中をまず光ラインに蛍盾し((6**3) ** 8)
ライン坪をソ�`ト(6**3★18)、
光ラインもソ�`トし、18**8のtupleにする(Line1)
Line1の(6**3★18)の侭で2弼の�xが贋壓するor3を
根まないもの揖匯�(18★6)して6**8のtupleにす
る(Line2)
63

�Y惚
Raw: 0.45+-0.16
Sym: 0.80+-0.19
Line1: 0.74+-0.14
Line2: 0.72+-0.12
どの�R�s返隈も伏の圭隈に曳べて
2SD參貧個鋲する
Line*はもっと措くなると豚棋したのだが
吭翌とそうでもなかった。
64
(燕�は仝峠譲+-��米��*2々)

�g廾貧の僥び
Sarsaの僥��^殻で�r震tの彜�Bと�r震t+1の彜�B
の�I圭にアクセスする。
輝兜、�h廠を佩�咾埜﨩造靴�rには、屁方にエン
コ�`ドした彜�Bが卦るようにしていたが、書指の
�g�Yの�Hに屁方にエンコ�`ドされた彜�Bでは��各
來を深えにくいので�h廠(とその奉來である�P中)
を聞ってエンバグした
�h廠が篤�乙弔妨﨩造気譴誑O�になっていたため
65
いまは篤�欧気譴襪叛Г詛�鵑�copyしてるけど、
C++で�g廾する��呂砲廊h廠が徭蛍の1つ念の彜�Bを隠隔するようにして
��I囃をswapで聞いまわした圭が、mallocしまくるよりよいのかも。

�g廾貧の僥び
Qテ�`ブルは(彜�B, 佩��)��での�iみ��④世韻�
サポ�`トするので、そのインタ�`フェイスを�g廾
した�}方のクラスを恬る侘にした。
嶄で秤�鵑�匹Τ屬燭譴討い襪�(listかdictか)や
キ�`の侘がどうであるか(longかtupleか)は
Sarsa�箸��覬慴��覆ぁ�
このQテ�`ブルクラスを圭貨のコンストラクタに
局すようにした。
66

原�h: 仝�v方々という冱�~
仝�v方々と柵んできたけども、
圭貨や�h廠は坪何彜�Bを隔つので
方僥議な吭龍での�v方ではない。
プログラミング議に冱っても
�v方よりクラスで�g廾した圭が殆岷かも。
Sarsa�g廾の�^殻で�h廠と圭貨はクラスにした。
�h廠は�P中と��蚣猜屬魍屬辰討い董�
Greedy圭貨はQテ�`ブルを隔っている�g廾。
67

原�h: minimaxとの曳�^
コンピュ�`タ繍薙などでよく聞われる
minimaxは仝�返は〆徭蛍に匯桑音脅栽な返=
�w卞辛嬬な蕉中のうち恷も�u��､竜佑い發里悗�
�w卞〇を�xぶ々という�協で枠�iみをする。
この仝蕉中の�u��｡垢��晒僥�で冱うところの
彜�B��v方Vに�輝する。
繍薙では�u��､髻姑哩gが垢健して�g廾した�u��
�v方々で燕�Fするアプロ�`チが壼豚に撹孔したが
�豎�ではうまくいかなかった。
★2006定にモンテカルロ直冥沫が鞠��垢襦�
68

原�h: モンテカルロ直冥沫とは
圻兵議モンテカルロ(すべての返を揖じ指方�佩)
は�紳覆��い。
念指Multi-Armed Bandit��}で�たUCB1アルゴ
リズムを喘いて、嗤李そうな返を嶷泣議に冥沫。
冥沫指方の謹い返を1返枠まで婢�_し
minimaxな直冥沫と栽悶する
★これがUCT(UCB applied to Trees)
69

原�h: Quarto
児云は膨朕�Kべ。�xが16�N�あって4bit。
匯つ參貧のbitで4つ�Kべば�戮繊�
どの�xを�xぶかは��蚣猜屬�原┐垢襦�
3朕�Kべよりも�yしい��}�O協として
Quartoを�してみた。
(Sarsaまでしかやってない)
70

彜�B方の�jな��eもり
仝16�N�の�x+腎�據垢�16か侭あるので
17^16 だから 4.6e+19。46エクサ��。
´´これはさすがにPythonのリストでは�o尖だ。
71
なおオセロが1e+28, チェスが1e+50, 繍薙が1e+71, �豎�が1e+160,
という��eもりがあるので��議にはかなりやさしい��}である

富しマジメに��eもる
マジメに深えるとn�N�の�R�eされる�xをmマス
に崔く、すべて崔かなくてもよい崔き圭は
? ?, ? = ?
? + 1 ´ ? = 1
?? ? ? 1, ? ? 1 + ? ?, ? ? 1 ´ else
なので、
f(16, 16)=6199668952527617
f(15, 16)=1290434218669921
6e+13。4ケタ�pったけどまだペタ��オ�`ダ�`。
72

scipy.sparse.dok_matrix
たぶん欺�_音嬬蕉中が�Y��あると房うので
�jにdok_matrixにつっこむことにする。
dok_matrixはDictionary of Keys侏スパ�`ス佩双で
ランダムアクセス來嬬がO(1)なので書指の朕議に
�mしている。
<48661191875666868481x256
sparse matrix of type ｀<type ¨numpy.float64｀>｀
with 0 stored elements in Dictionary Of Keys format>
�o画なサイズだが、��}なく�咾��(see: 原�h1)
73

�g�Y訳周
Sarsa(瘁返)とランダムで100,000�栽し、
Sarsaの1000�栽ごとの�拌覆鬟廛蹈奪箸靴拭�
ランダム揖平の��蕕�1嵐指嶄
枠返�戮�: 5063, 瘁返�戮�: 4757, 哈き蛍け: 180
だったので、0.475をベ�`スラインとする。
Sarsaのパラメ�`タ: π=greedy圭貨, α=0.5, γ=0.9
74

�Y惚
俾？に措くなって0.5は階えてそう
75

10嵐�栽で冥沫した��
10嵐�栽�K阻瘁のQtableの
stored elementsは97956��。
嚠�宥り�g�Hに駅勣な彜�B方は富ない。
なおこの�rのメモリ��Mは535MB殻業なので
まだまだいけそう。
★100嵐�栽に��やしてみる。
76

100嵐�栽で冥沫した��
10嵐�栽�K阻瘁のQtableの
stored elementsは89嵐��。
メモリ��Mは1GB殻業だった。
78

1蛍あたりの�佩方
79
會�Pは堀業にバラツキがある(恷互82804指/蛍)が恷�K議に14000指/蛍に鯛ち彭いた。
これが看��淋O�によるものかSarsaの僥�が阜び峭まったことによるかは
�e余�g�Yしないとわからなさそう。

僥�楕0.05の��(嘔)
ここでもやはり僥�楕0.5は��い
80

�g廾貧の僥び
dok_matrixの耶え忖がオ�`バ�`フロ�`しないか
伉塘になってソ�`スを�iんでみたが、吭翌と
Python�g廾で、タプルがキ�`の看��世辰拭�
なのでnp.arrayとの札�Q來が勣らない書指のよう
なケ�`スでは伏で看��鯤垢辰新修�戮い�癲�
蒙にdok_matrixが2肝圷�協なせいで耶え忖が�L
屁方の�I囃に秘ってしまっているが、その�L屁方
を恬るための�麻は、どうせすぐhashするので
�o�jなオ�`バ�`ヘッドなのではないか´´。
81

歌深猟�
仝コンピュ�`タ�豎�におけるモンテカルロ隈 ~
尖��~々(2008定)
http://minerva.cs.uec.ac.jp/~ito/entcog/contents/l
ecture/date/20080614.html
これからの�晒僥� http://amzn.to/2josIJ1
Reinforcement Learning: An Introduction
https://webdocs.cs.ualberta.ca/~sutton/book/ebo
ok/the-book.html
82

際際滷

膿晒僥楼その2

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

More from nishio (20)

Recently uploaded (6)

膿晒僥楼その2