狠狠撸

狠狠撸Share a Scribd company logo
論文紹介: VALUE PREDICTION NETWORK
2018/1/13 NIPS2017 読み会 KATSUKI OHTO
概要 (VALUE PREDICTION NETWORK)
? 複雑な強化学習タスクを効率的に解く
? ニューラルネットワークアーキテクチャと学習、実行法の提案
? 未知環境にて環境のモデルを学習しながら状態の価値を学習
? 効率な経路を選択する課題やAtariゲームにて
既存研究(DQN)を上回る成果をあげた
以降、特に注釈がない場合には
図はValue Prediction Network (Oh et al, 2017)
からの引用
強化学習 REINFORCEMENT LEARNING
? 強化学習課題
? (ここでは)エージェントが未知の環境で試行錯誤しながら
段々上手くなっていくような問題設定
? 目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること
DQNが
ブロック崩しを
上達する様子
Mnih et al.
(2015)
モデルベース強化学習 ORモデルフリー強化学習
? 未知の環境で上手く動けるようになるには?
? ①環境のモデル(ルール)を覚えて考える
? モデルベース強化学習
? ②環境のモデルを明示的に扱わずに直接行動を選ぶ
? モデルフリー強化学習 (DQN など)
モデルフリー強化学習の例
? Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015)
? 左側で現在状態の画像入力を受け取り、
Convolutional Neural Network を通じて
行動の価値(以後の報酬合計の期待値)
を予測(右側)
? 学習後には予測された行動価値が大きい
行動を選ぶ
? 特徴:
- 入力から直接計算して答えを出す
-「直感」的行動のみ学習される
モデルベース強化学習 VPN導入
? モデルベース強化学習 :
- 環境のモデル(状態遷移、報酬ら)を一緒に学習
- 深く思慮できる(探索)
? 困難な点: 少ない観測サンプルから環境のモデルを作ることは、
ゲームのような小さな課題でも難しい
? 先行研究やVPNのアプローチ: 観測した状態を
「抽象的な状態(abstract state)」にエンコーディングし、
「抽象的な状態」の上で遷移モデルを学習
? 「抽象的な状態」一体何ぞや?
抽象的状態表現 (ABSTRACT STATE REPRESENTATION)
? Word2Vecのイメージに近い
- 単語の意味を数値ベクトルで表現
- 数値として演算できる
? 単語→数値ベクトルへの変換を、
環境からの観測→数値ベクトル(or行列)に置き換えてみる
- 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待
(背景など、課題に不要な情報が抜ける)
- ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も
- 実用的なのか?→先行研究(Predictron)が有効性を示唆
(Mikolov et al., 2013)
先行研究: PREDICTRON
? The Predictron: End-To-End Learning and Planning (Silver et al., 2017)
? マルコフ報酬過程(時系列で観測と報酬を得るが、
自分で行動を選べない過程)にて
良い価値推定を得るのに抽象状態表現による先読みを使う
? 遷移モデルの表現としてCNNを利用
? 右図がアーキテクチャの概要
(図は1層分、事前に抽象状態へのエンコーディング済)
下から、kステップ後の抽象状態 ? ?
を受けとり、
途中で抽象状態の価値 ? ?
即時報酬 ? ?+1
割引率 ? ?+1
収益の重み ? ?
(TD(?) の?)
最後に 次の抽象状態 ? ?+1 を出力
? 先読みして価値を推定することで単純な純伝搬ネットより高精度
Predictronの
1層分の構造
VALUE PREDICTION NETWORK (VPN)
? Predictronは行動決定のない系での価値推定
? 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案
? VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って
数手分探索し行動を決められる
? 抽象状態空間上での先読みを
行動候補で枝分かれさせて、
数手先まで探索
+ロールアウト(分岐させずに先読み)
によって行動を決定
? 探索によって得る価値推定の式: (モンテカルロ的に平均)
? 探索の残り深さ
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
? VPNのアーキテクチャ
? VPNを構成するモジュール
- ① Encoding (環境の観測 ? から 抽象状態 ? へ変換),
- ② Value (抽象状態 ? から 価値 ? を出力)
- ③ Outcome (抽象状態 ? から 報酬 ? 割引率 ? を出力) ※ ? はVPNではなし
- ④ Transition (抽象状態 ? から 次の抽象状態 ?′
を出力)
? 行動(オプション)? の入力が追加
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
? VPNのアーキテクチャ
? 抽象状態の遷移関数の詳細
(Appendix E)
? 全体を Residual Net として
抽象状態の変化分だけを学習
(変化は全体に対して小さめという仮定)
VALUE PREDICTION NETWORK (VPN) 学習
? 学習法
? 右図横軸が実時間、縦軸が先読み
? 学習の誤差関数
? ? は探索ありの先読みをして推定した価値
? は探索なしの推定価値
マルチステップQ学習(価値=最善の手の価値)
? 即時報酬 ? は実際の観測値に近づける
? 割引率 ? は掛け算スケールなので log を取ってMSEに入れる
? 学習時の行動系列生成(実際の行動)は ? ?グリーディで生成
実験① CORRECT TASK
? 制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか
? 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる
? 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
実験① CORRECT TASK 結果
? DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較
Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)
? 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った
? OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。
現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
実験② ATARI GAMES
? Atari の
9種類のゲーム
? DQNと比較し、
Alien, Ms. Pacman
以外で上回った
実験② ATARI GAMES VPNの出力例
? 行動系列とVPNの評価
? 相手を避ける動きをした (b) に高い評価がついている
? 逆に相手にぶつかって死ぬ (e) は低評価
実験③ 学習時と実行時の探索深さ
? 学習時の探索深さ(凡例のかっこ内)より
実行時の探索深さ(グラフの横軸)
が深い場合
? Collect Task (Deterministic) で検証
? 学習時 深さ 3以上でやれば
実行時の悪化は少なかった
? 特に、学習時にロールアウトだけ深くした
VPN(5)* は実行時深くても安定
?
逆に深さ 1 で学習した VPN(1) は性能低下
感想
? 初夏にPredictron論文(行動決定がない想定)を読んだ時に、
行動決定ありのバージョンが冬には出るんではと話していたがその通りだった
(Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain)
ただ思うのと実際にやるのは大違い
? 全探索でなく行動を数個選んで進めるだけで性能が上がるのは
モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い
? 行動候補が多い場合や連続の場合にサンプリングで頑張れそう?
? 環境のモデルが既知な課題においても、
不確定性ありの場合などで抽象状態表現が有効か気になる

More Related Content

論文紹介: Value Prediction Network

  • 1. 論文紹介: VALUE PREDICTION NETWORK 2018/1/13 NIPS2017 読み会 KATSUKI OHTO
  • 2. 概要 (VALUE PREDICTION NETWORK) ? 複雑な強化学習タスクを効率的に解く ? ニューラルネットワークアーキテクチャと学習、実行法の提案 ? 未知環境にて環境のモデルを学習しながら状態の価値を学習 ? 効率な経路を選択する課題やAtariゲームにて 既存研究(DQN)を上回る成果をあげた 以降、特に注釈がない場合には 図はValue Prediction Network (Oh et al, 2017) からの引用
  • 3. 強化学習 REINFORCEMENT LEARNING ? 強化学習課題 ? (ここでは)エージェントが未知の環境で試行錯誤しながら 段々上手くなっていくような問題設定 ? 目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること DQNが ブロック崩しを 上達する様子 Mnih et al. (2015)
  • 4. モデルベース強化学習 ORモデルフリー強化学習 ? 未知の環境で上手く動けるようになるには? ? ①環境のモデル(ルール)を覚えて考える ? モデルベース強化学習 ? ②環境のモデルを明示的に扱わずに直接行動を選ぶ ? モデルフリー強化学習 (DQN など)
  • 5. モデルフリー強化学習の例 ? Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015) ? 左側で現在状態の画像入力を受け取り、 Convolutional Neural Network を通じて 行動の価値(以後の報酬合計の期待値) を予測(右側) ? 学習後には予測された行動価値が大きい 行動を選ぶ ? 特徴: - 入力から直接計算して答えを出す -「直感」的行動のみ学習される
  • 6. モデルベース強化学習 VPN導入 ? モデルベース強化学習 : - 環境のモデル(状態遷移、報酬ら)を一緒に学習 - 深く思慮できる(探索) ? 困難な点: 少ない観測サンプルから環境のモデルを作ることは、 ゲームのような小さな課題でも難しい ? 先行研究やVPNのアプローチ: 観測した状態を 「抽象的な状態(abstract state)」にエンコーディングし、 「抽象的な状態」の上で遷移モデルを学習 ? 「抽象的な状態」一体何ぞや?
  • 7. 抽象的状態表現 (ABSTRACT STATE REPRESENTATION) ? Word2Vecのイメージに近い - 単語の意味を数値ベクトルで表現 - 数値として演算できる ? 単語→数値ベクトルへの変換を、 環境からの観測→数値ベクトル(or行列)に置き換えてみる - 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待 (背景など、課題に不要な情報が抜ける) - ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も - 実用的なのか?→先行研究(Predictron)が有効性を示唆 (Mikolov et al., 2013)
  • 8. 先行研究: PREDICTRON ? The Predictron: End-To-End Learning and Planning (Silver et al., 2017) ? マルコフ報酬過程(時系列で観測と報酬を得るが、 自分で行動を選べない過程)にて 良い価値推定を得るのに抽象状態表現による先読みを使う ? 遷移モデルの表現としてCNNを利用 ? 右図がアーキテクチャの概要 (図は1層分、事前に抽象状態へのエンコーディング済) 下から、kステップ後の抽象状態 ? ? を受けとり、 途中で抽象状態の価値 ? ? 即時報酬 ? ?+1 割引率 ? ?+1 収益の重み ? ? (TD(?) の?) 最後に 次の抽象状態 ? ?+1 を出力 ? 先読みして価値を推定することで単純な純伝搬ネットより高精度 Predictronの 1層分の構造
  • 9. VALUE PREDICTION NETWORK (VPN) ? Predictronは行動決定のない系での価値推定 ? 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案 ? VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って 数手分探索し行動を決められる ? 抽象状態空間上での先読みを 行動候補で枝分かれさせて、 数手先まで探索 +ロールアウト(分岐させずに先読み) によって行動を決定 ? 探索によって得る価値推定の式: (モンテカルロ的に平均) ? 探索の残り深さ
  • 10. VALUE PREDICTION NETWORK (VPN) アーキテクチャ ? VPNのアーキテクチャ ? VPNを構成するモジュール - ① Encoding (環境の観測 ? から 抽象状態 ? へ変換), - ② Value (抽象状態 ? から 価値 ? を出力) - ③ Outcome (抽象状態 ? から 報酬 ? 割引率 ? を出力) ※ ? はVPNではなし - ④ Transition (抽象状態 ? から 次の抽象状態 ?′ を出力) ? 行動(オプション)? の入力が追加
  • 11. VALUE PREDICTION NETWORK (VPN) アーキテクチャ ? VPNのアーキテクチャ ? 抽象状態の遷移関数の詳細 (Appendix E) ? 全体を Residual Net として 抽象状態の変化分だけを学習 (変化は全体に対して小さめという仮定)
  • 12. VALUE PREDICTION NETWORK (VPN) 学習 ? 学習法 ? 右図横軸が実時間、縦軸が先読み ? 学習の誤差関数 ? ? は探索ありの先読みをして推定した価値 ? は探索なしの推定価値 マルチステップQ学習(価値=最善の手の価値) ? 即時報酬 ? は実際の観測値に近づける ? 割引率 ? は掛け算スケールなので log を取ってMSEに入れる ? 学習時の行動系列生成(実際の行動)は ? ?グリーディで生成
  • 13. 実験① CORRECT TASK ? 制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか ? 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる ? 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
  • 14. 実験① CORRECT TASK 結果 ? DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較 Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解) ? 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った ? OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。 現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
  • 15. 実験② ATARI GAMES ? Atari の 9種類のゲーム ? DQNと比較し、 Alien, Ms. Pacman 以外で上回った
  • 16. 実験② ATARI GAMES VPNの出力例 ? 行動系列とVPNの評価 ? 相手を避ける動きをした (b) に高い評価がついている ? 逆に相手にぶつかって死ぬ (e) は低評価
  • 17. 実験③ 学習時と実行時の探索深さ ? 学習時の探索深さ(凡例のかっこ内)より 実行時の探索深さ(グラフの横軸) が深い場合 ? Collect Task (Deterministic) で検証 ? 学習時 深さ 3以上でやれば 実行時の悪化は少なかった ? 特に、学習時にロールアウトだけ深くした VPN(5)* は実行時深くても安定 ? 逆に深さ 1 で学習した VPN(1) は性能低下
  • 18. 感想 ? 初夏にPredictron論文(行動決定がない想定)を読んだ時に、 行動決定ありのバージョンが冬には出るんではと話していたがその通りだった (Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain) ただ思うのと実際にやるのは大違い ? 全探索でなく行動を数個選んで進めるだけで性能が上がるのは モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い ? 行動候補が多い場合や連続の場合にサンプリングで頑張れそう? ? 環境のモデルが既知な課題においても、 不確定性ありの場合などで抽象状態表現が有効か気になる

Editor's Notes

  1. 例えば自动运転
  2. やりたいことはモデルベース学习
  3. 例えば自动运転
  4. 例えば自动运転
  5. 例えば自动运転
  6. 例えば自动运転
  7. 自分がここにいるかもしれないしいないかもしれない OK だが 自分の体が真っ二つで半分だけ