狠狠撸

狠狠撸Share a Scribd company logo
強くなるロボティク?プレイヤーの作り方
~5章 連続空間での学習~
@gen_goose_gen
発表スタンス
●
テキストの式について追っていきます
●
テキストが間違えていそうなところがあるのでそこ
は随時皆様と確認していきます
●
参考文献に投げている部分は認めるものとして発
表します
(全部探して読む時間なんてありませんでした…)
●
実装系は実行できてないです…
スライドで用いる表記
●
スカラー:ローマン体
●
ベクトル:小文字のボールド体
●
行列:大文字のボールド体
●
近似した量:ハットをつける
●
集合:カリグラフィー文字
(特に断らない場合列ベクトルとする)
導入
● 4章:離散空間
●
状態空間と行動空間が有限でかつ離散
●
実世界に近くなるほど物理量などを連続で扱う必要が
ある
● (離散空間でモデリングしようとすると計算量が大きい)
連続した状態空間?行動空間での学習を考える
※この本では簡単化のために状態空間だけを連続として扱っている
マウンテンカー問題
斜面が急な部分:推力の最大<斜面を下る方向に働く力
→ただ進むだけでは上り切れない
坂道を行ったり来たりして勢いをつけて上がる必要がある
マウンテンカー問題
斜面が急な部分:推力の最大<斜面を下る方向に働く力
→ただ進むだけでは上り切れない
坂道を行ったり来たりして勢いをつけて上がる必要がある
どのように推力を調整すればうまく行くか?
↑習得したい政策(制御則)
マウンテンカー問題
○モデル化
状態 位置:
   速度:
行動 推力:
(右への力)
(推力なし)
(左への力)
連続空間
離散空間
諸条件
台車の質量:m=0.2[kg]
摩擦係数:k=0.3[-]
ステップ幅:⊿t=0.1[s]
報酬関数
この式は変だとは思います…
マウンテンカー問題
○状態空間を離散化して考えると…?
(Ex:部分観測可能マルコフ決定過程、隠れマルコフ過程)
モデルがマルコフ決定過程に従わない可能性がある
 →新たなモデル化を考えなければならない
マウンテンカー問題
○状態空間を離散化して考えると…?
次元が高くなるに連れて状態数も指数関数的に増加
 →計算量も指数的に増加(次元の呪い、状態爆発)
マウンテンカー問題
<グリッドが荒い場合>
?新しいモデル化をする必要がある
<グリッドが細かい場合>
?計算量に対して対策をする必要がある
→連続な状態空間をそのまま扱うのが理想的
連続な価値関数を近似する方法をこれから考えていく
連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
主にこの2つを扱う
連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
汎化誤差
:初期状態分布
:政策
:状態遷移確率
:近似誤差
:真の価値関数
:価値観数の近似モデル
汎化誤差
Tステップのエピソードに関する期待値
無限ステップの割引報酬の期待値
真の価値関数を標本することができない
(∵Tステップまでしか行わないから)
 
→価値関数の近似誤差を間接的に表現する基準を導入
※モンテカルロ法を用いれば近似的に標本が得られる
場合もある
TD 二乗誤差
状態sからs’に遷移した時の実際の報酬rと
近似モデルから求められる期待報酬関数の二乗誤差を基準
+
汎化誤差
の近似
エピソードの平均
(4.27)
:状態sと行動aの対(s,a)を含むデータ(s,a,r,s')の集合
Cf:
ベルマン二乗残差
ベルマン方程式
(4.15)
→
両辺の差をとって二乗
ベルマン二乗残差
TD二乗誤差同様にエピソードデータを用いて汎化誤差を
近似できる
ベルマン二乗残差
Cf:
→期待報酬と期待報酬の近似の差と解釈できる
○ベルマン二乗残差を変形してみる
TD(λ)二乗誤差
λ収益と近似価値関数の誤差を基準として考える
→適格度トレースを用いたTD(λ)誤差の二乗で定義
Cf: (4.38)
TD二乗誤差同様、汎化誤差をエピソードデータを用いて
近似出来る
真の価値関数と近似モデルの
近似誤差の基準のまとめ
+
連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
線形モデル
モデルパラメータ
線形独立な基底関数
基底関数の例:ガウス関数
ガウス関数の中心ベクトル
標準偏差
変数ベクトル
カーネルモデル
モデルパラメ?タ
高次元ベクトル空間への非線形写像
標本のエピソード数
標本のステップ数
入力データ
m番目のエピソードのtステップ目の標本
カーネルモデル
高次元空間で内積
→類似度が高いほど大きな値を取る
高次元ベクトルの内積:計算コストが大きい
カーネルトリックを使って計算コストを落とす!
カーネルモデル
○正定値カーネル関数の導入
以下の性質を持つものを正定値カーネルという
?対称性
?正定値性
?カーネル関数
任意の自然数:n
任意の   上の点:
任意の実数:
カーネルモデル
○カーネルトリックの導入
カーネルモデル
カーネル
トリック
高次空間上での内積(計算量が多い)
状態?行動空間上でのカーネル関数(計算量が少ない)
カーネル関数の例
(ガウスカーネル)
カーネルモデル
○カーネル関数表記の書き換え
(後で説明で使いたいのでここで定義します)
連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
線形モデルの最小二乗法
標本による近似
線形モデルの代入
線形モデルの最小二乗法
B:基底関数の数
M×T:データDの中でとる
(s,a)の対の数(標本数)
1
B
に対応する基底
の状態の差
1
M×T
1
M×T
線形モデルの最小二乗法
○ をパラメータで微分して最小になるものを求める
モデルパラメータの最小二乗推定量
最良線形不偏推定量
良い推定量: ?推定量の期待値が真の値と一致する
?分散が小さい
最良線形不偏推定量
線形推定量:確率変数の一次式として表現できるもの
線形不偏推定量:期待値が真の値と等しい線形推定量
:B×(M×T)の行列
確率変数
最良線形不偏推定量:分散が最小な線形不偏推定量
:最良線形不偏推定量
:任意の線形不偏推定量
:真の値
(ガウス?マルコフの定理)
最小二乗推定量はこれを満たす=良い推定量
線形モデル最小二乗法による
政策反復アルゴリズム
Qはモデルパラメータのみに依存して変化
更新式:
線形モデルを用いた
価値関数近似の例
マウンテンカー問題を例に上げる
…が
「こう設定したらこんな感じにうまくいったよ!」っていう話…
(あんまりツッコまないでください…)
マウンテンカー問題
○モデル化
状態 位置:
   速度:
行動 推力:
(右への力)
(推力なし)
(左への力)
連続空間
離散空間
諸条件
台車の質量:m=0.2[kg]
摩擦係数:k=0.3[-]
ステップ幅:⊿t=0.1[s]
報酬関数
線形モデルを用いた
価値関数近似の例
基底関数
((36個のガウス関数)
政策
二次元状態空間上のグリッドの中心点
{-1.2, -0.35, 0.5}×{-1.5, -0.5, 0.5, 1.5}
位置 速度
関数I(x)の定義
エピソード数M=20、ステップ数T=20の標本データ、割引率γ=0.95
線形モデルを用いた
価値関数近似の例
σ=0.5の時の各行動に関する価値関数近似の例
σ=2の時の各行動に関する価値関数近似の例
線形モデルを用いた
価値関数近似の例
?ゴール付近ではゴールに近づく方向への
速度の大きい状態の価値が大きい
?ゴール付近でもゴールから離れる方向への
速度の状態は価値が小さい
?ゴールの反対でも山を下って加速する方向
(ゴールの方向)への速度を持つ価値が大きい
カーネルモデルの最小二乗法
標本による近似
カーネルモデルの代入
カーネルモデルの最小二乗推定
M×T:データDの中でとる
(s,a)の対の数(標本数)
M×T M×T
1
に対応する
カーネルの状態の差
:     の状態(入力データ)
:カーネルモデルの定義における標本
:     の状態の次に取る   の状態
カーネルモデルの最小二乗法
○ をパラメータで微分して最小になるものを求める
モデルパラメータの最小二乗推定量
計算が不安定なことがある場合
→
ε:十分に小さいスカラー
I:単位行列
線形モデル最小二乗法による
政策反復アルゴリズム
Qはモデルパラメータのみに依存して変化
更新式:
カーネルモデルを用いた
価値関数近似の例
マウンテンカー問題を例に上げる
…が
「こう設定したらこんな感じにうまくいったよ!」っていう話…
(あんまりツッコまないでください…)
マウンテンカー問題
○モデル化
状態 位置:
   速度:
行動 推力:
(右への力)
(推力なし)
(左への力)
連続空間
離散空間
諸条件
台車の質量:m=0.2[kg]
摩擦係数:k=0.3[-]
ステップ幅:⊿t=0.1[s]
報酬関数
カーネルモデルを用いた
価値関数近似の例
カーネル関数
(ガウスカーネル)
政策
エピソード数M=20、ステップ数T=20の標本データ、割引率γ=0.95
カーネルモデルを用いた
価値関数近似の例
σ=0.5の時の各行動に関する価値関数近似の例
σ=2の時の各行動に関する価値関数近似の例
アクロボット
?人間の鉄棒運動を単純にモデル化した2関節からなる
マニピュレータ
?第2関節のみにアクチュエータを持つ
→制御設計が困難な非線形問題
?目的:鉄棒の上で倒立すること
○問題設定
アクロボット
○状態空間と行動空間の設計
:左回転のトルク
:トルクなし
:右回転のトルク
関節の角度[rad] 関節の角速度[rad/s]
状態空間(連続):
行動空間(離散):
○報酬関数の設計
:アクロボットの上半身が垂直に
近いほど報酬が大きくなる
アクロボット:線形モデル最小二乗法
による政策反復
アクロボット:カーネルモデル
最小二乗法による政策反復
アクロボット:線形モデル最小二乗法
による実行結果例
基底関数:ガウス関数(32×3=96)
モデルパラメータ数:96
反復回数:L=10
エピソード数:M=20
ステップ数:N=500
政策改善:softmax法(温度係数T=1)
割引率:γ=0.95
学習率:α=0.2
σ=2πの時が学習パフォーマンスが良い
ありがとうございました!!
Ad

Recommended

強くなるロボティック?プレイヤーの作り方 6章
強くなるロボティック?プレイヤーの作り方 6章
Akiyoshi Hara
?
#2 プログラミングせよ!
#2 プログラミングせよ!
Ryouta Takeuchi
?
强化学习その4
强化学习その4
nishio
?
强化学习その2
强化学习その2
nishio
?
みんな大好き机械学习
みんな大好き机械学习
sady_nitro
?
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
?
GCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML Night
陽平 山口
?
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
DeepLoco
DeepLoco
harmonylab
?
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
Practical topology
Practical topology
Tatsuki SHIMIZU
?
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
驰补丑辞辞!デベロッパーネットワーク
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
?
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?

More Related Content

Similar to 強くなるロボティック?プレイヤーの作り方 5章 (20)

强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
DeepLoco
DeepLoco
harmonylab
?
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
Practical topology
Practical topology
Tatsuki SHIMIZU
?
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
驰补丑辞辞!デベロッパーネットワーク
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
?
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?

強くなるロボティック?プレイヤーの作り方 5章