狠狠撸

強くなるロボティク?プレイヤーの作り方
~5章　連続空間での学習~
@gen_goose_gen

発表スタンス
●
テキストの式について追っていきます
●
テキストが間違えていそうなところがあるのでそこ
は随時皆様と確認していきます
●
参考文献に投げている部分は認めるものとして発
表します
（全部探して読む時間なんてありませんでした…）
●
実装系は実行できてないです…

スライドで用いる表記
●
スカラー：ローマン体
●
ベクトル：小文字のボールド体
●
行列：大文字のボールド体
●
近似した量：ハットをつける
●
集合：カリグラフィー文字
（特に断らない場合列ベクトルとする）

導入
● 4章：離散空間
●
状態空間と行動空間が有限でかつ離散
●
実世界に近くなるほど物理量などを連続で扱う必要が
ある
● (離散空間でモデリングしようとすると計算量が大きい）
連続した状態空間?行動空間での学習を考える
※この本では簡単化のために状態空間だけを連続として扱っている

マウンテンカー問題
斜面が急な部分：推力の最大＜斜面を下る方向に働く力
→ただ進むだけでは上り切れない
坂道を行ったり来たりして勢いをつけて上がる必要がある

斜面が急な部分：推力の最大＜斜面を下る方向に働く力
→ただ進むだけでは上り切れない
坂道を行ったり来たりして勢いをつけて上がる必要がある
どのように推力を調整すればうまく行くか？
↑習得したい政策（制御則）

○モデル化
状態　位置：
　　　速度：
行動　推力：
（右への力）
（推力なし）
（左への力）
連続空間
離散空間
諸条件
台車の質量：m=0.2[kg]
摩擦係数：k=0.3[-]
ステップ幅：⊿t=0.1[s]
報酬関数
この式は変だとは思います…

○状態空間を離散化して考えると…？
(Ex:部分観測可能マルコフ決定過程、隠れマルコフ過程)
モデルがマルコフ決定過程に従わない可能性がある
　→新たなモデル化を考えなければならない

○状態空間を離散化して考えると…？
次元が高くなるに連れて状態数も指数関数的に増加
　→計算量も指数的に増加（次元の呪い、状態爆発）

＜グリッドが荒い場合＞
?新しいモデル化をする必要がある
＜グリッドが細かい場合＞
?計算量に対して対策をする必要がある
→連続な状態空間をそのまま扱うのが理想的
連続な価値関数を近似する方法をこれから考えていく

連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す

連続空間での強化学習
●
これからの方針
1.パラメータを用いて連続した価値関数の近似モデルを
作る
2.真の価値関数と近似モデルの差を取り、最小となるパ
ラメータを探して近似モデルを決定する
3.求められた価値関数の近似モデルが大きくなるように
政策を更新する
4.2-3を繰り返す
主にこの２つを扱う

汎化誤差
：初期状態分布
：政策
：状態遷移確率
：近似誤差
：真の価値関数
：価値観数の近似モデル

汎化誤差
Tステップのエピソードに関する期待値
無限ステップの割引報酬の期待値
真の価値関数を標本することができない
（∵Tステップまでしか行わないから）
　
→価値関数の近似誤差を間接的に表現する基準を導入
※モンテカルロ法を用いれば近似的に標本が得られる
場合もある

TD 二乗誤差
状態sからs’に遷移した時の実際の報酬rと
近似モデルから求められる期待報酬関数の二乗誤差を基準
+
汎化誤差
の近似
エピソードの平均
（4.27）
：状態sと行動aの対(s,a)を含むデータ(s,a,r,s')の集合
Cf:

ベルマン二乗残差
ベルマン方程式
(4.15)
→
両辺の差をとって二乗
TD二乗誤差同様にエピソードデータを用いて汎化誤差を
近似できる

Cf:
→期待報酬と期待報酬の近似の差と解釈できる
○ベルマン二乗残差を変形してみる

TD(λ)二乗誤差
λ収益と近似価値関数の誤差を基準として考える
→適格度トレースを用いたTD(λ)誤差の二乗で定義
Cf: (4.38)
TD二乗誤差同様、汎化誤差をエピソードデータを用いて
近似出来る

真の価値関数と近似モデルの
近似誤差の基準のまとめ
+

線形モデル
モデルパラメータ
線形独立な基底関数
基底関数の例:ガウス関数
ガウス関数の中心ベクトル
標準偏差
変数ベクトル

カーネルモデル
モデルパラメ?タ
高次元ベクトル空間への非線形写像
標本のエピソード数
標本のステップ数
入力データ
m番目のエピソードのtステップ目の標本

高次元空間で内積
→類似度が高いほど大きな値を取る
高次元ベクトルの内積：計算コストが大きい
カーネルトリックを使って計算コストを落とす！

○正定値カーネル関数の導入
以下の性質を持つものを正定値カーネルという
?対称性
?正定値性
?カーネル関数
任意の自然数：ｎ
任意の　　　上の点：
任意の実数：

○カーネルトリックの導入

カーネル
トリック
高次空間上での内積（計算量が多い）
状態?行動空間上でのカーネル関数（計算量が少ない）
カーネル関数の例
（ガウスカーネル）

○カーネル関数表記の書き換え
（後で説明で使いたいのでここで定義します）

線形モデルの最小二乗法
標本による近似
線形モデルの代入

B:基底関数の数
M×T:データDの中でとる
(s,a)の対の数（標本数）
1
B
に対応する基底
の状態の差
1
M×T
1
M×T

○ をパラメータで微分して最小になるものを求める
モデルパラメータの最小二乗推定量

最良線形不偏推定量
良い推定量： ?推定量の期待値が真の値と一致する
?分散が小さい

最良線形不偏推定量
線形推定量：確率変数の一次式として表現できるもの
線形不偏推定量：期待値が真の値と等しい線形推定量
：B×（M×T)の行列
確率変数
最良線形不偏推定量：分散が最小な線形不偏推定量
：最良線形不偏推定量
：任意の線形不偏推定量
：真の値
(ガウス?マルコフの定理）
最小二乗推定量はこれを満たす＝良い推定量

線形モデル最小二乗法による
政策反復アルゴリズム
Qはモデルパラメータのみに依存して変化
更新式：

線形モデルを用いた
価値関数近似の例
マウンテンカー問題を例に上げる
…が
「こう設定したらこんな感じにうまくいったよ！」っていう話…
（あんまりツッコまないでください…）

○モデル化
状態　位置：
　　　速度：
行動　推力：
（右への力）
（推力なし）
（左への力）
連続空間
離散空間
諸条件
台車の質量：m=0.2[kg]
摩擦係数：k=0.3[-]
ステップ幅：⊿t=0.1[s]
報酬関数

基底関数
((36個のガウス関数）
政策
二次元状態空間上のグリッドの中心点
{-1.2, -0.35, 0.5}×{-1.5, -0.5, 0.5, 1.5}
位置速度
関数I(x)の定義
エピソード数M＝20、ステップ数T=20の標本データ、割引率γ＝0.95

σ＝0.5の時の各行動に関する価値関数近似の例
σ＝2の時の各行動に関する価値関数近似の例

?ゴール付近ではゴールに近づく方向への
速度の大きい状態の価値が大きい
?ゴール付近でもゴールから離れる方向への
速度の状態は価値が小さい
?ゴールの反対でも山を下って加速する方向
（ゴールの方向）への速度を持つ価値が大きい

カーネルモデルの最小二乗法
標本による近似
カーネルモデルの代入

カーネルモデルの最小二乗推定
M×T:データDの中でとる
(s,a)の対の数（標本数）
M×T M×T
1
に対応する
カーネルの状態の差
：　　　　　の状態（入力データ）
：カーネルモデルの定義における標本
：　　　　　の状態の次に取る　　　の状態

カーネルモデルの最小二乗法
○ をパラメータで微分して最小になるものを求める
モデルパラメータの最小二乗推定量
計算が不安定なことがある場合
→
ε：十分に小さいスカラー
I：単位行列

カーネルモデルを用いた
マウンテンカー問題を例に上げる
…が
「こう設定したらこんな感じにうまくいったよ！」っていう話…
（あんまりツッコまないでください…）

カーネル関数
（ガウスカーネル）
政策
エピソード数M＝20、ステップ数T=20の標本データ、割引率γ＝0.95

σ＝0.5の時の各行動に関する価値関数近似の例
σ＝2の時の各行動に関する価値関数近似の例

アクロボット
?人間の鉄棒運動を単純にモデル化した2関節からなる
マニピュレータ
?第２関節のみにアクチュエータを持つ
→制御設計が困難な非線形問題
?目的：鉄棒の上で倒立すること
○問題設定

アクロボット
○状態空間と行動空間の設計
：左回転のトルク
：トルクなし
：右回転のトルク
関節の角度[rad] 関節の角速度[rad/s]
状態空間（連続）：
行動空間（離散）：
○報酬関数の設計
：アクロボットの上半身が垂直に
近いほど報酬が大きくなる

アクロボット：線形モデル最小二乗法
による政策反復

アクロボット：カーネルモデル
最小二乗法による政策反復

アクロボット：線形モデル最小二乗法
による実行結果例
基底関数：ガウス関数（３２×３＝９６）
モデルパラメータ数：９６
反復回数：L=10
エピソード数：M=20
ステップ数：N=500
政策改善：softmax法（温度係数T=1)
割引率：γ＝0.95
学習率：α＝0.2
σ=2πの時が学習パフォーマンスが良い

ありがとうございました！！

狠狠撸

強くなるロボティック?プレイヤーの作り方 5章

Recommended

More Related Content

Similar to 強くなるロボティック?プレイヤーの作り方 5章 (20)

強くなるロボティック?プレイヤーの作り方 5章