4. 状態 b ?動2状態 a?動 1
観測状態?
不完全知覚への問題
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
4
POMDP が困難な理由の?つは観測に対する真の状態の混同
→ ?動の選択確率 π は観測状態に対し?意しか持てない事
状態 b ?動2状態 a?動 1
観測状態?
本来左に?くべき状態 a 本来右に?くべき状態 b
→ 何らかの?法で分離してやれば良い
15. FuNs の特徴
1. Transition policy gradient for training the Manager
? Manager 訓練のための遷移?策勾配 (遷移?策=上位層?策)
2. Relative rather than absolute goals
? 絶対的ではなく相対的な定義によるサブゴール形成
? 獲得された潜在状態ベクトル s に対する差分を g として学習
3. Lower temporal resolution for Manager
? Manager の扱う時間間隔の低解像度化
? 意思決定タイミングと Dilated LSTM
4. Intrinsic motivation for the Worker
? 内部報酬(といっても?較的弱め)
FeUdal Networks - 特徴
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
20. 結果 - Montezuma?s Revenge
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
20
↓ 以前の時系列出?にとって goal になってる数
← 素の LSTM より良い
200 epoch 未満で最初の部屋を突破
(1 epoch = 100万 step )
※ [Vezhnevets et al., 2017]
21. 結果 - サブ?策の確認
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
ゴール固定時の動き :
Manager がゲーム中経験したサブゴール g を記憶しておき,あえて固定
して?動させる事でサブ?策の動きを確認できる
上記グラデーションマップは Agent の空間滞在?率を平均化したもの
→ 異なる動きが確認できる
例 : sub-policy 3 は空気を補充している
※ [Vezhnevets et al., 2017]
22. 結果 - Option-Critic との?較
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
22
FuNs : Option-Critic :
同じ End-to-End な階層型強化学習 Option-Critic と?較して良い成績
停滞気味の Option-Critic に?べて,FuN は更に上がり続けている
※ [Vezhnevets et al., 2017]
23. 結果 - アイディアの正しさ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
23
4種の?損型 FuN との?較:
Non feudal FuN : ?策勾配で訓練,内部報酬も使わない (Option-Criticに近い)
Pure feudal FuN : Worker に内部報酬を使わない
Manager via PG FuN : Manager を?策勾配で訓練
Absolute goals Fun : 絶対ゴールを使? (具体的な定義は読みきれなかった)
→ 全てにおいて FuN が勝利 = 3つのアイディアの有効性
※ [Vezhnevets et al., 2017]
24. 結果 - アイディアの正しさ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
24
Dilated LSTM に関する?較:
No dilation : Manager に通常 LSTM を使?
Manager horizon = 1 : c = 1 で Manager と Dilated LSTM を運?
→ 全てにおいて FuN が勝利 = Dilated LSTM の有効性
c = 1 でも上がってはいる
※ [Vezhnevets et al., 2017]
25. 結果 - アイディアの正しさ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
Dilated LSTM に関する?較:
dLSTM : FuN ではなく通常の A3C にDilated LSTMのみを使?
→ 基本的には FuN と 通常LSTM が勝利
= Dilated LSTM は Manager レベルだから有効
※ [Vezhnevets et al., 2017]
26. 結果 - 転移への試み
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
Action repeat of 4 から Action repeat 無しへの重み転
?定フレーム数 (論?中では 4 frame) の間同じ?動をする通常のやり?
で学習した重みを,1 frame ごとに?動を意思決定するタスクに転?
その学習しないでの成績 (流?に各時間関係パラメータは 4 倍にする)
→ FuN の?い成績は Manager で学習した上位?策の有?性を意味する
→ 同?タスクだと Maneger の汎?性の?さの証明にはならない気も?
※ [Vezhnevets et al., 2017]
27. 感想
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
End-to-End なサブゴール形成
? 絶対的ではなく相対的なゴール定義 (ある種の未来?向予測) という
アイディアで成したのは興味深い
? 固定?時間 c step を可変?にできるとなお良い
? ?い時間?でゴールを定義したい場合への対処を考えて
? ?的論的には Option の?がサブゴールと?える
※ [Vezhnevets et al., 2017]
29. 引??献 (スライド中)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
[Vezhnevets et al., 2017] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and
Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://
arxiv.org/abs/1703.01161 (2017).
[Bellmare et al., 2012] Bellemare, M. G., Naddaf, Y., Veness, J., and Bowling, M. The arcade learning
environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research. (2012).
[Dayan and Hinton, 1993] Dayan, P., and Hinton, G. E. Feudal reinforcement learning. In NIPS . Morgan
Kaufmann Publishers. (1993).
[Sutton et al., 1999] Sutton, R. S., Precup, D., and Singh, S. Between mdps and semi-mdps: A framework for
temporal abstraction in reinforcement learning. Artificial intelligence. (1999).
[Bacon et al., 2017] Bacon, P. L., Precup, D., and Harb, J. The option-critic architecture. In AAAI. (2017).
[Von Mises–Fisher distribution] https://en.wikipedia.org/wiki/Von_Mises-Fisher_distribution
30. 結果 - オマケ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
Water maze で実際に獲得された?動 :
Staet (緑)位置からの?動以外,同じ半径で回転して探索するサブ?策が
学習される
右端は goal をランダムに設定,200step 固定して学習して得られたサ
ブ?策ケース
※ [Vezhnevets et al., 2017]