狠狠撸

狠狠撸Share a Scribd company logo
【論文紹介】
PGQ: Combining Policy Gradient
And Q-learning
O’Donoghue et al. ICLR 2017
Sotetsu KOYAMADA (@sotetsuk)
Table of Contents
■ 论文概要
■ 强化学习の问题设定と定义
■ Q学習と方策勾配法のReview
■ 論文の理論的結果 (1)
■ 論文の理論的結果 (2)
■ 提案手法の説明: PGQ
■ 実験結果
■ 参考文献
论文概要
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
紹介する理由
1. 強化学習における二つの別々の主要なアプローチの統
合を試みている
■ 理論的に興味深い
■ 実用面からも長所を組み合わせることが期待できる
2. Atariベンチマークでの強い実験結果
ICLR2017レビュアーのコメント
https://openreview.net/forum?id=B1kJ6H9ex
It has the potential to be an impactful paper, with the
most positive comment noting that it "will likely in?uence
a broad swath of RL".
TL;DR (1)
理論的貢献 (1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数(Q関数)の間に次式の関
係性を示し、この関係から方策勾配法において明示的に
推定しなくても適切な行動価値関数を導出できる。
理論的貢献 (2)
エントロピー正則化付きのActor-critic法と行動価値を推
定する手法 (Q学習やSARSA) は更新則が等しくなる(特
別な場合)。とくに、Actor-critc法をAdvantage
function learningと見なすことが出来る。
TL;DR (3)
PGQの提案と評価
理論的貢献(1)の結果から得られる行動価値関数をベルマ
ン最適方程式を満たすように正則化をかけたアルゴリズ
ムPGQを提案。これは のときはエントロピー正則
化付きの方策勾配法、 のときは特殊な構造のQ学
習をしていると捉えられる。AtariドメインでMedianで
も人を上回り、DQNやA3Cと比べても一人負けするゲー
ムが存在しないという安定性を見せた。
η = 0
η = 1
强化学习の问题设定と定义
一般的な強化学習の問題設定 (1)
マルコフ決定過程 (MDP)
環境 は現在の 状態 と 行動 にだけ依存して未知の 状態遷
移確率 から次の 状態 と 即時報酬 を返す
エージェント は現在の 状態 と 報酬 を観測し、現在の 方
策 に基づいて次の 行動 を返す
サンプル系列 が生成される
P
( , ) ~ P(? | , )Xt+1 Rt+1 Xt At
π
~ π(? | )At Xt
( , , , , , …)X0 A0 R1 X1 A1
一般的な強化学習の問題設定 (2)
コントロール
目的関数 を最適化するように方策を学習する(例: 割
引報酬和の期待値)
J
J(π) = E
[ ]∑
t=1
∞
γ
t
Rt+1
ある方策に基づく価値関数
Def. 行動価値関数 (期待値は状態遷移確率と方策 )
Def. 方策 に基づくベルマン作用素
(ただし、 )
この行動価値関数 は、ベルマン作用素の不動点 (i.e.,
) として求まる(める)
π
(x, a) := E
[
| = x, = a
]
Q
π
∑
t=0
∞
γ
t
Rt+1 X0 A0
π
Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T
π
∑
,x
′
a
′
a
′
x
′
x
′
x
′
a
′
r(x, a) = E [ | = x, = a]Rt+1 Xt At
Q
π
Q = QT
π
最適行動価値
理想的な行動を取ったとすると、最適化したい指標が期
待的にどうなるか
Def. 最適行動価値関数
Def. ベルマン最適作用素
最適行動価値関数 は、ベルマン最適作用素の不動点
(i.e., ) として求まる(める)
(x, a) := (x, a)Q
?
max
π
Q
π
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
?
∑
x
′
x
′
max
a
′
x
′
a
′
Q
?
Q = QT
?
強化学習(コントロール)の二系統
価値ベース
■ (行動)価値関数を直接推定?最適化する
■ Q学習 [Watkins89] SARSA [Rummery&Niranjan94]
■ w/ 深層学習: DQN [Mnih+13, 15]
方策ベース
■ 方策を直接推定?最適化する
■ 方策勾配法 [Sutton+99]
■ w/ 深層学習: A3C [Mnih+16]
Q学習, SARSA, 方策勾配法
のReview
SARSA, Q学習
SARSAは現在の方策に基づく行動価値関数を、Q学習は
最適行動価値関数をパラメトライズしてベルマン作用素
の不動点を求めるよう更新する:
■ サンプリングは現在の に基づいた -グリーディ方
策かボルツマン方策が用いられることが多い
■ ターゲットが現在の推定している に依存している
のでブートストラップになっている(TD法全般に共通)
■ それぞれ適切な条件下で最適行動価値関数へ収束する
(SARSAは 方策改善 も必要とする (e.g., GLIEを満たす方
策を用いる[Singh+00]))
( ? ) = E [( ? ) ]?θ T
π
Qθ Qθ T
π
Qθ Qθ ?θ Qθ
( ? ) = E [( ? ) ]?θ T
?
Qθ Qθ T
?
Qθ Qθ ?θ Qθ
Qθ
?
Qθ
方策勾配法
方策 をパラメトライズした上で を直接最適化する
■ 方策勾配定理 [Sutton+99]
■ からサンプルを生成してサンプル平均を取れば 不偏
推定量が計算できるので、それを使って更新を行なう
■ 逆に のような推定している分布に関するサンプリン
グが必要なような確率的最適化の場面では強化学習以外
の文脈でも使われる (e.g., hard attention [Mnih+14,
Xu+15] , sequence generatioon [Ranzato+16,
Bahdanau+17])
π πθ
J(θ) = E [ (x, a) log(π(a|x))]?θ Q
π
?θ
π
π
方策勾配法
は現実的には他のものが使われる
■ 実際の即時報酬 (REINFORCE[Williams+92])
■ 実際の報酬の複数ステップ先読み版
また、推定量の分散を抑えるため、 と関係のないベー
スライン が上記の最適化するものから引かれる。bの例
としては
■
現実的には複数ステップ先読みした(推定)収益と、ベ
ースライン を使われ[Mnih+16]、方策と価値関数を推
定するのでActor-critic法になる
Q
π
R
a
b
(x)V
π
V
π
方策勾配法におけるエントロピー正則
化
■ 方策勾配法の問題点として探索と活用のトレードオフ
を特に考慮してない点がある
■ 方策に関するエントロピー正則化項を加えて方策が決
定論的にならないよう正則化するのは一般的
[Williams&Peng91]
この観点からのより興味深い分析が、ごく最近arXivに投
稿されている [Nachum+17]
Q学習と方策勾配法の特徴
この研究のモチベーションを理解するため、Q学習と方策
勾配法の特徴とPros/Consを説明する。
■ Q学習: 本質的に 方策オフ型学習(後述)の手法
■ 方策勾配法: 本質的に 方策オン型学習(後述)の手法
方策オフ?オン型アルゴリズムの性質由来のPros/Cons
が存在(後述)
... Q-learning is an inherently o?-policy algorithm ...
[Szepesvari10]
方策オンと方策オフ
現在推定している方策(推定方策)と、実際に行動を選
択肢、サンプルを生成している方策(行動方策)が等し
い場合は 方策オン型 といい、そうでない場合は 方策オ
フ型 という。
Q学習は本質的に方策オフ型
Review: Q学習の更新則
■ 更新則の期待値のサンプル平均が推定方策に依存して
いないため、 関係無い分布からサンプリングをしてもサ
ンプル平均が不偏推定量になる
■ 逆に、現在の に基づく最適方策
のサンプルだけから学習するのは不可能( の -グリ
ーディ方策やボルツマン方策など探索的行動も取らなけ
れば任意の状態?行動に対し十分なサンプルが得られな
い)
∝ ( ? ) = E [( ? ) ]Δθ ?θ T
?
Qθ Qθ T
?
Qθ Qθ ?θ Qθ
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
?
∑
x
′
x
′
max
a
′
x
′
a
′
Qθ
(x, a)argmaxa
Qθ
Qθ
?
Q学習のPros/Cons
■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的
■ Pros: 任意の方策からサンプリングされたデータで学
習可能(サンプルサイズが十分あれば)
■ Cons: 複数ステップ法への拡張が難しい(サンプル平
均がサンプリングする方策に依存するようになるのでバ
イアスが生じる)
このConsを解決するアプローチ
■ Importance sampling (IS) [Precup+00] 推定方策と
行動方策の分布比に応じて重み付け
■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長
く先読みできるよう工夫
■ PCL [Nachum+17] 本論文を踏まえた発展
方策勾配法は本質的に方策オン型
Review: 方策勾配法の更新則
この期待値は推定方策に依存しているためサンプル平均
が、方策オンでサンプリングされていないと不偏推定量
になってくれない
∝ J(θ) = E [ (x, a) log(π(a|x))]Δθ ?θ Q
π
?θ
方策勾配法のPros/Cons
■ Pros: サンプル平均が行動方策に依存する場合でもバ
イアスがない
■ Pros: 複数ステップ法が使えるのでバイアス?バリア
ンスのトレードオフがとれる
■ Cons: 経験再生と相性が悪くサンプルが使い捨てにな
りデータ効率が良くない
■ Cons: 探索?活用のトレードオフを考慮してない
このConsを解決しようとするアプローチ
■ ACER [Wang+17]
■ PGQ [O’Donoghue+17]
この论文の理论的な贡献
理論的貢献(1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数の間に次式の関係性を示
した(式4)
この関係から逆に停留点での方策を使ってアドバンテー
ジ関数とQ関数を 、 と表すことができ、 方策勾配
法でもQ関数の推定をしているとみなすことが出来るよう
になった(式6)。
PGQではこのQ関数にベルマン最適方程式を満たすよう
正則化をかけている。 また、この貢献は と から
を表せていることになり、非自明
π(a|x) ∝ exp( (x, a)/α)A
π
A
??
π
Q
??
π
Δθ ∝ E [( (x, a) ? (x, a)) log π(x, a)]Q
π
Q??
π
?θ
π V
π
Q
π
理論的貢献(2)
SARSA, Q学習の更新則
エントロピー正則化付き方策勾配法の更新則
が似てる気がする... 一緒では?
Actor-critic法と行動価値を推定する手法 (Q学習や
SARSA) は更新則が(特別な場合に)等しくなる。とく
に、Actor-critc法をAdvantage function learningと
見なすことが出来る
( ? ) = E [( ? ) ]?θ T
π
Qθ Qθ T
π
Qθ Qθ ?θ Qθ
( ? ) = E [( ? ) ]?θ T
?
Qθ Qθ T
?
Qθ Qθ ?θ Qθ
Δθ ∝ E [( (x, a) ? (x, a)) log π(x, a)]Q
π
Q??
π
?θ
理論的貢献(2)
仮定一覧
■ 引き続きエントロピー正則化は仮定として必要
■ Actor-criticの方策は の形で
書ける
■ 行動価値の学習ではDueling architecture[Wang+16]
を用いる
最小化する誤差の選び方の例
SARSAの場合もQ学習の場合も、現在の方策から求まるQ
関数でターゲットをブートストラップすれば良い
π(a|x) ∝ exp(W(x, a))
アルゴリズム
提案アルゴリズム: PGQ
PGQでは今までの議論からエントロピー正則化によって
から導かれるQ関数 にベルマン最適方程式を満た
すよう正則化をかけている(式12, 14)
■ 各更新則の前項は通常のエントロピー付きの方策勾配
法に対応し、後項は新たに追加したベルマン最適方程式
による正則化である。
■ でで通常のエントロピー付きの方策勾配法と見
なすことができ、逆に で(特殊な)Q学習と見な
すことができる(Dueling architecture[Wang+16]に似
ている)
π Q
??
π
η = 0
η = 0
経験再生を使った実際の更新則
現実的には式14のアップデートを同時にバッチで行なわ
ない(方策勾配法を活かせない)
■ 方策オンでサンプルを並列で生成し、方策勾配法によ
り方策と価値関数を更新する
■ 上記で観測されたサンプル系列はリプレイバッファへ
と貯められる
■ 別プロセスがリプレイバッファに貯まったサンプルを
バッチで、ベルマン最適方程式を満たすよう更新する
アーキテクチャ
Dueling architecture[Wang+16]にかなり似てる
[O’Donoghue+17]より引用
実験
Atariにおける性能評価
■ DQN, A3Cと人のスコアを100で正規化したスコア
■ 人のスコアにMedianでも勝利
[O’Donoghue+17]より引用
PGQが上手くいってる例
[O’Donoghue+17]より引用
PGQが上手くいかなかった例
とはいえ、最下位にはなっていない
[O’Donoghue+17]より引用
感想
■ 方策勾配法が一ミリも探索?活用のトレードオフを考
慮しないのは理論的な側面からいっても不自然な気がす
る(Q学習もSARSAも最適行動価値へ収束するためには
十分な探索が条件になってる)ので、そういう意味では
実はエントロピー正則化付きの目的関数を考えた方が逆
に自然ということはさもありなんと言う気もする(この
観点からは[Nachum+17]がさらに研究を進めている)
■ アルゴリズム(PGQ)の提案が急に雑な気がする。要
するに通常のエントロピー正則化付き方策勾配法で推定
している方策と状態の価値関数から適当にQ関数を作って
それにベルマン最適方程式で正則化をかけただけに見え
てしまう
■ とはいえ、AtariにおいてMedianでも初めて(?)人
間レベルを上回った意義は大きいように思える
参考文献(年代顺)
■ [Watkins89] Learning from delayed rewards. PhD
thesis 1989
■ [Williams&Peng91] Function Optimization Using
Connectionist Reinforcement Learning Algorithms.
Connection Science 1991
■ [Williams+92] Simple statistical gradient-
following algorithms for connectionist reinforcement
learning Machine Learning 1992.
■ [Lin92] Self-Improving Reactive Agents Based On
Reinforcement Learning, Planning and Teaching.
Machine Leanring
■ [Sutton+99] Policy Gradient Methods for
Reinforcement Learning with Function
Approximation. NIPS 1999
■ [Rummery&Niranjan94] On-line Q-learning using
connectionist systems. 1994
■ [Singh+00] Convergence Results for Single-Step
On-Policy Reinforcement-Learning Algorithms.
Machine Learning 2000
■ [Precup+00] Eligibility Traces for O?-Policy Policy
Evaluation. ICML 2000
■ [Szepesvari10] Algorithms for Reinforcement
Learning. 2010
■ [Mnih+13] Playing atari with deep reinforcement
learning. NIPS-WS 2013
■ [Mnih+14] Recurrent Models of Visual Attention.
NIPS 2014
■ [Mnih+15] Human-level control through deep
reinforcement learning. Nature 2015
■ [Xu+15] Show, attend and tell: Neural image
caption generation with visual attention ICML 2015
■ [Mnih+16] Asynchronous Methods for Deep
Reinforcement Learning ICML 2016
■ [Ranzato+16] Sequence level training with
recurrent neural networks ICLR 2016
■ [Wang+16] Dueling Network Architectures for
Deep Reinforcement Learning ICML 2016
■ [Bahdanau+17] An Actor-Critic Algorithm for
Sequence Prediction. ICLR 2017
■ [Munos+16] Safe and e?cient o?-policy
reinforcement learning. NIPS 2016
■ [Wang+17] Sample E?cient Actor-Critic with
Experience Replay. ICLR 2017
■ [O’Donoghue+17] PGQ: Combining Policy Gradient
and Q-learning. ICLR 2017
■ [Nachum+17] Bridging the Gap Between Value and
Policy Based Reinforcement Learning. submitted to
ICML 2017

More Related Content

【論文紹介】PGQ: Combining Policy Gradient And Q-learning