狠狠撸

狠狠撸Share a Scribd company logo
论文绍介: VALUE PREDICTION NETWORK
2018/1/13 NIPS2017 読み会 KATSUKI OHTO
概要 (VALUE PREDICTION NETWORK)
? 複雑な強化学習タスクを効率的に解く
? ニューラルネットワークアーキテクチャと学習、実行法の提案
? 未知環境にて環境のモデルを学習しながら状態の価値を学習
? 効率な経路を選択する課題やAtariゲームにて
既存研究(DQN)を上回る成果をあげた
以降、特に注釈がない場合には
図はValue Prediction Network (Oh et al, 2017)
からの引用
強化学習 REINFORCEMENT LEARNING
? 強化学習課題
? (ここでは)エージェントが未知の環境で試行錯誤しながら
段々上手くなっていくような問題設定
? 目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること
DQNが
ブロック崩しを
上達する様子
Mnih et al.
(2015)
モデルベース強化学習 ORモデルフリー強化学習
? 未知の環境で上手く動けるようになるには?
? ①環境のモデル(ルール)を覚えて考える
? モデルベース強化学習
? ②環境のモデルを明示的に扱わずに直接行動を選ぶ
? モデルフリー強化学習 (DQN など)
モデルフリー強化学習の例
? Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015)
? 左側で現在状態の画像入力を受け取り、
Convolutional Neural Network を通じて
行動の価値(以後の報酬合計の期待値)
を予測(右側)
? 学習後には予測された行動価値が大きい
行動を選ぶ
? 特徴:
- 入力から直接計算して答えを出す
-「直感」的行動のみ学習される
モデルベース強化学習 VPN導入
? モデルベース強化学習 :
- 環境のモデル(状態遷移、報酬ら)を一緒に学習
- 深く思慮できる(探索)
? 困難な点: 少ない観測サンプルから環境のモデルを作ることは、
ゲームのような小さな課題でも難しい
? 先行研究やVPNのアプローチ: 観測した状態を
「抽象的な状態(abstract state)」にエンコーディングし、
「抽象的な状態」の上で遷移モデルを学習
? 「抽象的な状態」一体何ぞや?
抽象的状態表現 (ABSTRACT STATE REPRESENTATION)
? Word2Vecのイメージに近い
- 単語の意味を数値ベクトルで表現
- 数値として演算できる
? 単語→数値ベクトルへの変換を、
環境からの観測→数値ベクトル(or行列)に置き換えてみる
- 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待
(背景など、課題に不要な情報が抜ける)
- ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も
- 実用的なのか?→先行研究(Predictron)が有効性を示唆
(Mikolov et al., 2013)
先行研究: PREDICTRON
? The Predictron: End-To-End Learning and Planning (Silver et al., 2017)
? マルコフ報酬過程(時系列で観測と報酬を得るが、
自分で行動を選べない過程)にて
良い価値推定を得るのに抽象状態表現による先読みを使う
? 遷移モデルの表現としてCNNを利用
? 右図がアーキテクチャの概要
(図は1層分、事前に抽象状態へのエンコーディング済)
下から、kステップ後の抽象状態 ? ?
を受けとり、
途中で抽象状態の価値 ? ?
即時報酬 ? ?+1
割引率 ? ?+1
収益の重み ? ?
(TD(?) の?)
最後に 次の抽象状態 ? ?+1 を出力
? 先読みして価値を推定することで単純な純伝搬ネットより高精度
Predictronの
1層分の構造
VALUE PREDICTION NETWORK (VPN)
? Predictronは行動決定のない系での価値推定
? 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案
? VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って
数手分探索し行動を決められる
? 抽象状態空間上での先読みを
行動候補で枝分かれさせて、
数手先まで探索
+ロールアウト(分岐させずに先読み)
によって行動を決定
? 探索によって得る価値推定の式: (モンテカルロ的に平均)
? 探索の残り深さ
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
? VPNのアーキテクチャ
? VPNを構成するモジュール
- ① Encoding (環境の観測 ? から 抽象状態 ? へ変換),
- ② Value (抽象状態 ? から 価値 ? を出力)
- ③ Outcome (抽象状態 ? から 報酬 ? 割引率 ? を出力) ※ ? はVPNではなし
- ④ Transition (抽象状態 ? から 次の抽象状態 ?′
を出力)
? 行動(オプション)? の入力が追加
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
? VPNのアーキテクチャ
? 抽象状態の遷移関数の詳細
(Appendix E)
? 全体を Residual Net として
抽象状態の変化分だけを学習
(変化は全体に対して小さめという仮定)
VALUE PREDICTION NETWORK (VPN) 学習
? 学習法
? 右図横軸が実時間、縦軸が先読み
? 学習の誤差関数
? ? は探索ありの先読みをして推定した価値
? は探索なしの推定価値
マルチステップQ学習(価値=最善の手の価値)
? 即時報酬 ? は実際の観測値に近づける
? 割引率 ? は掛け算スケールなので log を取ってMSEに入れる
? 学習時の行動系列生成(実際の行動)は ? ?グリーディで生成
実験① CORRECT TASK
? 制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか
? 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる
? 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
実験① CORRECT TASK 結果
? DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較
Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)
? 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った
? OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。
現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
実験② ATARI GAMES
? Atari の
9種類のゲーム
? DQNと比較し、
Alien, Ms. Pacman
以外で上回った
実験② ATARI GAMES VPNの出力例
? 行動系列とVPNの評価
? 相手を避ける動きをした (b) に高い評価がついている
? 逆に相手にぶつかって死ぬ (e) は低評価
実験③ 学習時と実行時の探索深さ
? 学習時の探索深さ(凡例のかっこ内)より
実行時の探索深さ(グラフの横軸)
が深い場合
? Collect Task (Deterministic) で検証
? 学習時 深さ 3以上でやれば
実行時の悪化は少なかった
? 特に、学習時にロールアウトだけ深くした
VPN(5)* は実行時深くても安定
?
逆に深さ 1 で学習した VPN(1) は性能低下
感想
? 初夏にPredictron論文(行動決定がない想定)を読んだ時に、
行動決定ありのバージョンが冬には出るんではと話していたがその通りだった
(Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain)
ただ思うのと実際にやるのは大違い
? 全探索でなく行動を数個選んで進めるだけで性能が上がるのは
モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い
? 行動候補が多い場合や連続の場合にサンプリングで頑張れそう?
? 環境のモデルが既知な課題においても、
不確定性ありの場合などで抽象状態表現が有効か気になる

More Related Content

What's hot (20)

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
?
DeepLearningTutorial
DeepLearningTutorialDeepLearningTutorial
DeepLearningTutorial
Takayoshi Yamashita
?
【2017年】ディープラーニングのフレームワーク比较
【2017年】ディープラーニングのフレームワーク比较【2017年】ディープラーニングのフレームワーク比较
【2017年】ディープラーニングのフレームワーク比较
Ryota Suzuki
?
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
Takayoshi Yamashita
?
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
maruyama097
?
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
?
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackgan
Kenichi Sonoda
?
20160329.诲苍苍讲演
20160329.诲苍苍讲演20160329.诲苍苍讲演
20160329.诲苍苍讲演
Hayaru SHOUNO
?
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
?
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
Deep Learning JP
?
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
?
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
?
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
?
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
Kotaro Asami
?
Maxout networks
Maxout networksMaxout networks
Maxout networks
Junya Saito
?
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
?
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep Learning
Tadaichiro Nakano
?
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
Deep Learning JP
?
论文绍介 Pixel Recurrent Neural Networks
论文绍介 Pixel Recurrent Neural Networks论文绍介 Pixel Recurrent Neural Networks
论文绍介 Pixel Recurrent Neural Networks
Seiya Tokui
?
Pythonて?体験する深層学習 5章
Pythonて?体験する深層学習 5章Pythonて?体験する深層学習 5章
Pythonて?体験する深層学習 5章
孝好 飯塚
?
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
?
【2017年】ディープラーニングのフレームワーク比较
【2017年】ディープラーニングのフレームワーク比较【2017年】ディープラーニングのフレームワーク比较
【2017年】ディープラーニングのフレームワーク比较
Ryota Suzuki
?
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
罢别苍蝉辞谤贵濒辞飞と颁狈罢碍
maruyama097
?
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
?
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackgan
Kenichi Sonoda
?
20160329.诲苍苍讲演
20160329.诲苍苍讲演20160329.诲苍苍讲演
20160329.诲苍苍讲演
Hayaru SHOUNO
?
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
?
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
Deep Learning JP
?
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
?
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
?
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
?
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
Kotaro Asami
?
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
?
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep Learning
Tadaichiro Nakano
?
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
Deep Learning JP
?
论文绍介 Pixel Recurrent Neural Networks
论文绍介 Pixel Recurrent Neural Networks论文绍介 Pixel Recurrent Neural Networks
论文绍介 Pixel Recurrent Neural Networks
Seiya Tokui
?
Pythonて?体験する深層学習 5章
Pythonて?体験する深層学習 5章Pythonて?体験する深層学習 5章
Pythonて?体験する深層学習 5章
孝好 飯塚
?

Similar to 论文绍介: Value Prediction Network (20)

摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
1017 论文绍介第四回
1017 论文绍介第四回1017 论文绍介第四回
1017 论文绍介第四回
Kohei Wakamatsu
?
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
Takayoshi Yamashita
?
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
?
农业础滨ハッカソンマイクロソフト様発表资料
农业础滨ハッカソンマイクロソフト様発表资料农业础滨ハッカソンマイクロソフト様発表资料
农业础滨ハッカソンマイクロソフト様発表资料
Kohei Mochida
?
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
Narihira Takuya
?
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
?
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
RCCSRENKEI
?
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
?
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Keiichi Namikoshi
?
时系列予测モデルを导入した価値関数に基づく强化学习
时系列予测モデルを导入した価値関数に基づく强化学习时系列予测モデルを导入した価値関数に基づく强化学习
时系列予测モデルを导入した価値関数に基づく强化学习
MILab
?
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Akisato Kimura
?
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
?
大规模画像认识とその周辺
大规模画像认识とその周辺大规模画像认识とその周辺
大规模画像认识とその周辺
n_hidekey
?
论文绍介:Tracking Anything with Decoupled Video Segmentation
论文绍介:Tracking Anything with Decoupled Video Segmentation论文绍介:Tracking Anything with Decoupled Video Segmentation
论文绍介:Tracking Anything with Decoupled Video Segmentation
Toru Tamaki
?
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Akisato Kimura
?
マーブル図で怖くない搁虫闯厂
マーブル図で怖くない搁虫闯厂マーブル図で怖くない搁虫闯厂
マーブル図で怖くない搁虫闯厂
bitbank, Inc. Tokyo, Japan
?
Entity Framework 5.0 deep dive
Entity Framework 5.0 deep diveEntity Framework 5.0 deep dive
Entity Framework 5.0 deep dive
Atsushi Fukui
?
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
Toru Tamaki
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
论文绍介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
?
农业础滨ハッカソンマイクロソフト様発表资料
农业础滨ハッカソンマイクロソフト様発表资料农业础滨ハッカソンマイクロソフト様発表资料
农业础滨ハッカソンマイクロソフト様発表资料
Kohei Mochida
?
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
Narihira Takuya
?
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
论文绍介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
?
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング?インファレンスのGPUによる高速化
RCCSRENKEI
?
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
?
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Keiichi Namikoshi
?
时系列予测モデルを导入した価値関数に基づく强化学习
时系列予测モデルを导入した価値関数に基づく强化学习时系列予测モデルを导入した価値関数に基づく强化学习
时系列予测モデルを导入した価値関数に基づく强化学习
MILab
?
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Akisato Kimura
?
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
?
大规模画像认识とその周辺
大规模画像认识とその周辺大规模画像认识とその周辺
大规模画像认识とその周辺
n_hidekey
?
论文绍介:Tracking Anything with Decoupled Video Segmentation
论文绍介:Tracking Anything with Decoupled Video Segmentation论文绍介:Tracking Anything with Decoupled Video Segmentation
论文绍介:Tracking Anything with Decoupled Video Segmentation
Toru Tamaki
?
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Akisato Kimura
?
Entity Framework 5.0 deep dive
Entity Framework 5.0 deep diveEntity Framework 5.0 deep dive
Entity Framework 5.0 deep dive
Atsushi Fukui
?
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
Toru Tamaki
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?

More from Katsuki Ohto (8)

论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
论文绍介 Anomaly Detection using One-Class Neural Networks (修正版论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
?
ゲーム础滨を学んで1000年生きた话
ゲーム础滨を学んで1000年生きた话ゲーム础滨を学んで1000年生きた话
ゲーム础滨を学んで1000年生きた话
Katsuki Ohto
?
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Katsuki Ohto
?
将棋ニューラルネットとこれからのゲーム础滨
将棋ニューラルネットとこれからのゲーム础滨将棋ニューラルネットとこれからのゲーム础滨
将棋ニューラルネットとこれからのゲーム础滨
Katsuki Ohto
?
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithm
Katsuki Ohto
?
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
Katsuki Ohto
?
论文绍介 : Unifying count based exploration and intrinsic motivation
论文绍介 : Unifying count based exploration and intrinsic motivation论文绍介 : Unifying count based exploration and intrinsic motivation
论文绍介 : Unifying count based exploration and intrinsic motivation
Katsuki Ohto
?
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
Katsuki Ohto
?
论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
论文绍介 Anomaly Detection using One-Class Neural Networks (修正版论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
论文绍介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
?
ゲーム础滨を学んで1000年生きた话
ゲーム础滨を学んで1000年生きた话ゲーム础滨を学んで1000年生きた话
ゲーム础滨を学んで1000年生きた话
Katsuki Ohto
?
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Katsuki Ohto
?
将棋ニューラルネットとこれからのゲーム础滨
将棋ニューラルネットとこれからのゲーム础滨将棋ニューラルネットとこれからのゲーム础滨
将棋ニューラルネットとこれからのゲーム础滨
Katsuki Ohto
?
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithm
Katsuki Ohto
?
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
Katsuki Ohto
?
论文绍介 : Unifying count based exploration and intrinsic motivation
论文绍介 : Unifying count based exploration and intrinsic motivation论文绍介 : Unifying count based exploration and intrinsic motivation
论文绍介 : Unifying count based exploration and intrinsic motivation
Katsuki Ohto
?
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
Katsuki Ohto
?

论文绍介: Value Prediction Network

  • 1. 论文绍介: VALUE PREDICTION NETWORK 2018/1/13 NIPS2017 読み会 KATSUKI OHTO
  • 2. 概要 (VALUE PREDICTION NETWORK) ? 複雑な強化学習タスクを効率的に解く ? ニューラルネットワークアーキテクチャと学習、実行法の提案 ? 未知環境にて環境のモデルを学習しながら状態の価値を学習 ? 効率な経路を選択する課題やAtariゲームにて 既存研究(DQN)を上回る成果をあげた 以降、特に注釈がない場合には 図はValue Prediction Network (Oh et al, 2017) からの引用
  • 3. 強化学習 REINFORCEMENT LEARNING ? 強化学習課題 ? (ここでは)エージェントが未知の環境で試行錯誤しながら 段々上手くなっていくような問題設定 ? 目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること DQNが ブロック崩しを 上達する様子 Mnih et al. (2015)
  • 4. モデルベース強化学習 ORモデルフリー強化学習 ? 未知の環境で上手く動けるようになるには? ? ①環境のモデル(ルール)を覚えて考える ? モデルベース強化学習 ? ②環境のモデルを明示的に扱わずに直接行動を選ぶ ? モデルフリー強化学習 (DQN など)
  • 5. モデルフリー強化学習の例 ? Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015) ? 左側で現在状態の画像入力を受け取り、 Convolutional Neural Network を通じて 行動の価値(以後の報酬合計の期待値) を予測(右側) ? 学習後には予測された行動価値が大きい 行動を選ぶ ? 特徴: - 入力から直接計算して答えを出す -「直感」的行動のみ学習される
  • 6. モデルベース強化学習 VPN導入 ? モデルベース強化学習 : - 環境のモデル(状態遷移、報酬ら)を一緒に学習 - 深く思慮できる(探索) ? 困難な点: 少ない観測サンプルから環境のモデルを作ることは、 ゲームのような小さな課題でも難しい ? 先行研究やVPNのアプローチ: 観測した状態を 「抽象的な状態(abstract state)」にエンコーディングし、 「抽象的な状態」の上で遷移モデルを学習 ? 「抽象的な状態」一体何ぞや?
  • 7. 抽象的状態表現 (ABSTRACT STATE REPRESENTATION) ? Word2Vecのイメージに近い - 単語の意味を数値ベクトルで表現 - 数値として演算できる ? 単語→数値ベクトルへの変換を、 環境からの観測→数値ベクトル(or行列)に置き換えてみる - 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待 (背景など、課題に不要な情報が抜ける) - ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も - 実用的なのか?→先行研究(Predictron)が有効性を示唆 (Mikolov et al., 2013)
  • 8. 先行研究: PREDICTRON ? The Predictron: End-To-End Learning and Planning (Silver et al., 2017) ? マルコフ報酬過程(時系列で観測と報酬を得るが、 自分で行動を選べない過程)にて 良い価値推定を得るのに抽象状態表現による先読みを使う ? 遷移モデルの表現としてCNNを利用 ? 右図がアーキテクチャの概要 (図は1層分、事前に抽象状態へのエンコーディング済) 下から、kステップ後の抽象状態 ? ? を受けとり、 途中で抽象状態の価値 ? ? 即時報酬 ? ?+1 割引率 ? ?+1 収益の重み ? ? (TD(?) の?) 最後に 次の抽象状態 ? ?+1 を出力 ? 先読みして価値を推定することで単純な純伝搬ネットより高精度 Predictronの 1層分の構造
  • 9. VALUE PREDICTION NETWORK (VPN) ? Predictronは行動決定のない系での価値推定 ? 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案 ? VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って 数手分探索し行動を決められる ? 抽象状態空間上での先読みを 行動候補で枝分かれさせて、 数手先まで探索 +ロールアウト(分岐させずに先読み) によって行動を決定 ? 探索によって得る価値推定の式: (モンテカルロ的に平均) ? 探索の残り深さ
  • 10. VALUE PREDICTION NETWORK (VPN) アーキテクチャ ? VPNのアーキテクチャ ? VPNを構成するモジュール - ① Encoding (環境の観測 ? から 抽象状態 ? へ変換), - ② Value (抽象状態 ? から 価値 ? を出力) - ③ Outcome (抽象状態 ? から 報酬 ? 割引率 ? を出力) ※ ? はVPNではなし - ④ Transition (抽象状態 ? から 次の抽象状態 ?′ を出力) ? 行動(オプション)? の入力が追加
  • 11. VALUE PREDICTION NETWORK (VPN) アーキテクチャ ? VPNのアーキテクチャ ? 抽象状態の遷移関数の詳細 (Appendix E) ? 全体を Residual Net として 抽象状態の変化分だけを学習 (変化は全体に対して小さめという仮定)
  • 12. VALUE PREDICTION NETWORK (VPN) 学習 ? 学習法 ? 右図横軸が実時間、縦軸が先読み ? 学習の誤差関数 ? ? は探索ありの先読みをして推定した価値 ? は探索なしの推定価値 マルチステップQ学習(価値=最善の手の価値) ? 即時報酬 ? は実際の観測値に近づける ? 割引率 ? は掛け算スケールなので log を取ってMSEに入れる ? 学習時の行動系列生成(実際の行動)は ? ?グリーディで生成
  • 13. 実験① CORRECT TASK ? 制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか ? 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる ? 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
  • 14. 実験① CORRECT TASK 結果 ? DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較 Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解) ? 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った ? OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。 現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
  • 15. 実験② ATARI GAMES ? Atari の 9種類のゲーム ? DQNと比較し、 Alien, Ms. Pacman 以外で上回った
  • 16. 実験② ATARI GAMES VPNの出力例 ? 行動系列とVPNの評価 ? 相手を避ける動きをした (b) に高い評価がついている ? 逆に相手にぶつかって死ぬ (e) は低評価
  • 17. 実験③ 学習時と実行時の探索深さ ? 学習時の探索深さ(凡例のかっこ内)より 実行時の探索深さ(グラフの横軸) が深い場合 ? Collect Task (Deterministic) で検証 ? 学習時 深さ 3以上でやれば 実行時の悪化は少なかった ? 特に、学習時にロールアウトだけ深くした VPN(5)* は実行時深くても安定 ? 逆に深さ 1 で学習した VPN(1) は性能低下
  • 18. 感想 ? 初夏にPredictron論文(行動決定がない想定)を読んだ時に、 行動決定ありのバージョンが冬には出るんではと話していたがその通りだった (Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain) ただ思うのと実際にやるのは大違い ? 全探索でなく行動を数個選んで進めるだけで性能が上がるのは モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い ? 行動候補が多い場合や連続の場合にサンプリングで頑張れそう? ? 環境のモデルが既知な課題においても、 不確定性ありの場合などで抽象状態表現が有効か気になる

Editor's Notes

  • #7: 例えば自动运転
  • #8: やりたいことはモデルベース学习
  • #10: 例えば自动运転
  • #11: 例えば自动运転
  • #12: 例えば自动运転
  • #13: 例えば自动运転
  • #15: 自分がここにいるかもしれないしいないかもしれない OK だが 自分の体が真っ二つで半分だけ