狠狠撸
Submit Search
強くなるロボティック?プレイヤーの作り方 5章
1 like
413 views
Akiyoshi Hara
強くなるロボティック?プレイヤーの作り方 5章 間違えているところや疑問点などがありましたら下記のツイッターアカウントまでご一報ください。 @gen_goose_gen
Read more
1 of 54
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
Ad
Recommended
強くなるロボティック?プレイヤーの作り方 6章
強くなるロボティック?プレイヤーの作り方 6章
Akiyoshi Hara
?
強くなるロボティック?プレイヤーの作り方 6章 間違えているところや疑問点などがありましたら下記のツイッターアカウントまでご一報ください。 @gen_goose_gen
#2 プログラミングせよ!
#2 プログラミングせよ!
Ryouta Takeuchi
?
20120512
20120512
YAMANE Toshiaki
?
强化学习その4
强化学习その4
nishio
?
部分観测マルコフ决定过程
强化学习その2
强化学习その2
nishio
?
社内勉强会での讲演资料
みんな大好き机械学习
みんな大好き机械学习
sady_nitro
?
2013-03-24 第23回オープンラボ岡山
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
?
東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ?マルコフ決定過程 ?ベルマン方程式 ?モデルフリー強化学習 ?モデルベース強化学習 ?TD学習 ?Q学習 ?SARSA ?適格度トレース ?関数近似 ?方策勾配法 ?方策勾配定理 ?DPG ?DDPG ?TRPO ?PPO ?SAC ?Actor-Critic ?DQN(Deep Q-Network) ?経験再生 ?Double DQN ?Prioritized Experience Replay ?Dueling Network ?Categorical DQN ?Noisy Network ?Rainbow ?A3C ?A2C ?Gorila ?Ape-X ?R2D2 ?内発的報酬 ?カウントベース ?擬似カウントベース ?RND(Random Network Distillation) ?ICM(Intrinsic Curiosity Module) ?Go-Explore ?世界モデル(World Models) ?MuZero ?SimPLe ?NGU(Never Give Up) ?Agent57 ?AlphaGo ?AlphaGo Zero ?AlphaZero ?OpenAI Five ?AlphaStar ?マルチエージェント強化学習
GCPUG Sapporo vol.2 ML Night
GCPUG Sapporo vol.2 ML Night
陽平 山口
?
来栖川電算における機械学習活用事例です。今回は、毎朝体操の採点エンジンを深層学習に切り替えた話です。TensorFlow も使っています。深層学習をモバイルに組み込む際に参考になるかもしれません。 TensorFlow を基盤とするエコシステムを作ろうとしているので、興味がある方はお声がけください。
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
第25回ステアラボ人工知能セミナー https://stair.connpass.com/event/143745/
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
Q学習を用いてロボットにボールを運ぶ行動を学習させてみました。資料では学習の概要を説明しています。動画に飛べない方は、こちら https://youtu.be/7fUrinWahZs
DeepLoco
DeepLoco
harmonylab
?
础滨勉强会発表用
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
社内向けに発表した研究会のスライドです。ハイライト版が以下のブログです。 「深層強化学習のself-playで遊んでみた」:https://recruit.gmo.jp/engineer/jisedai/blog/self-play/ 結果のアニメーションが以下のgithubにあります。 https://github.com/jkatsuta/17_4q_supplement 2017/10に発表されたBansal+17を参考に、深層強化学習のself-playを使って、2体のAgentを戦わせることで複雑な行動の学習を試みた結果について話しました。論文にはない初期位置などでも学習をさせて、どのように変化するかの考察などもしました。
Practical topology
Practical topology
Tatsuki SHIMIZU
?
motion planning problem applied topology
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
驰补丑辞辞!デベロッパーネットワーク
?
The Report of the beneficial papers and the tutorial at ICML 2017 Sydney.
yamauchi b
yamauchi b
harmonylab
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
深層学習(岡本孝之 著)の1?2章の紹介スライド.B4, M1向けのゼミ資料.これから深層学習を学びたい理系学生の入門者用に公開.
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
?
Playing Atari with Deep Reinforcement Learningの解説 強化学習の説明を含んでいます
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
20180830 implement dqn_platinum_data_meetup_vol1
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
ラビットチャレンジ 深层学习顿补测4
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
2018/11/30 Deep Learning JP: http://deeplearning.jp/seminar-2/
Deeplearning lt.pdf
Deeplearning lt.pdf
Deep Learning JP
?
4/6
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
The review of 'Explaining nonlinear classification decisions with deep Taylor decomposition'
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
2023/8/4 Deep Learning JP http://deeplearning.jp/seminar-2/
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
2016/11/18 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
2021/03/12 Deep Learning JP: http://deeplearning.jp/seminar-2/
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
この続きで罢丑别补苍辞の使い方について简単に书きました:丑迟迟辫://辩颈颈迟补.肠辞尘/颈迟别尘蝉/3蹿产蹿6补蹿714肠1蹿66蹿99别9
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
?
研究室内発表で使った资料です
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
2022/06/10 Deep Learning JP: http://deeplearning.jp/seminar-2/
More Related Content
Similar to 強くなるロボティック?プレイヤーの作り方 5章
(20)
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
第25回ステアラボ人工知能セミナー https://stair.connpass.com/event/143745/
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
Q学習を用いてロボットにボールを運ぶ行動を学習させてみました。資料では学習の概要を説明しています。動画に飛べない方は、こちら https://youtu.be/7fUrinWahZs
DeepLoco
DeepLoco
harmonylab
?
础滨勉强会発表用
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
社内向けに発表した研究会のスライドです。ハイライト版が以下のブログです。 「深層強化学習のself-playで遊んでみた」:https://recruit.gmo.jp/engineer/jisedai/blog/self-play/ 結果のアニメーションが以下のgithubにあります。 https://github.com/jkatsuta/17_4q_supplement 2017/10に発表されたBansal+17を参考に、深層強化学習のself-playを使って、2体のAgentを戦わせることで複雑な行動の学習を試みた結果について話しました。論文にはない初期位置などでも学習をさせて、どのように変化するかの考察などもしました。
Practical topology
Practical topology
Tatsuki SHIMIZU
?
motion planning problem applied topology
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
驰补丑辞辞!デベロッパーネットワーク
?
The Report of the beneficial papers and the tutorial at ICML 2017 Sydney.
yamauchi b
yamauchi b
harmonylab
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
深層学習(岡本孝之 著)の1?2章の紹介スライド.B4, M1向けのゼミ資料.これから深層学習を学びたい理系学生の入門者用に公開.
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
?
Playing Atari with Deep Reinforcement Learningの解説 強化学習の説明を含んでいます
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
20180830 implement dqn_platinum_data_meetup_vol1
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
ラビットチャレンジ 深层学习顿补测4
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
2018/11/30 Deep Learning JP: http://deeplearning.jp/seminar-2/
Deeplearning lt.pdf
Deeplearning lt.pdf
Deep Learning JP
?
4/6
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
The review of 'Explaining nonlinear classification decisions with deep Taylor decomposition'
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
2023/8/4 Deep Learning JP http://deeplearning.jp/seminar-2/
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
2016/11/18 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
2021/03/12 Deep Learning JP: http://deeplearning.jp/seminar-2/
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
この続きで罢丑别补苍辞の使い方について简単に书きました:丑迟迟辫://辩颈颈迟补.肠辞尘/颈迟别尘蝉/3蹿产蹿6补蹿714肠1蹿66蹿99别9
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
?
研究室内発表で使った资料です
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
2022/06/10 Deep Learning JP: http://deeplearning.jp/seminar-2/
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
础滨(强化学习)でロボットに学习させてみた
础滨(强化学习)でロボットに学习させてみた
akmtt
?
DeepLoco
DeepLoco
harmonylab
?
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
Junichiro Katsuta
?
Practical topology
Practical topology
Tatsuki SHIMIZU
?
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
驰补丑辞辞!デベロッパーネットワーク
?
yamauchi b
yamauchi b
harmonylab
?
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
?
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
?
20180830 implement dqn_platinum_data_meetup_vol1
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
?
レポート深层学习顿补测4
レポート深层学习顿补测4
ssuser9d95b3
?
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
?
Deeplearning lt.pdf
Deeplearning lt.pdf
Deep Learning JP
?
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
tetsuo ishigaki
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
?
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
?
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
?
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
強くなるロボティック?プレイヤーの作り方 5章
1.
強くなるロボティク?プレイヤーの作り方 ~5章 連続空間での学習~ @gen_goose_gen
2.
発表スタンス ● テキストの式について追っていきます ● テキストが間違えていそうなところがあるのでそこ は随時皆様と確認していきます ● 参考文献に投げている部分は認めるものとして発 表します (全部探して読む時間なんてありませんでした…) ● 実装系は実行できてないです…
3.
スライドで用いる表記 ● スカラー:ローマン体 ● ベクトル:小文字のボールド体 ● 行列:大文字のボールド体 ● 近似した量:ハットをつける ● 集合:カリグラフィー文字 (特に断らない場合列ベクトルとする)
4.
導入 ● 4章:離散空間 ● 状態空間と行動空間が有限でかつ離散 ● 実世界に近くなるほど物理量などを連続で扱う必要が ある ● (離散空間でモデリングしようとすると計算量が大きい) 連続した状態空間?行動空間での学習を考える ※この本では簡単化のために状態空間だけを連続として扱っている
5.
マウンテンカー問題 斜面が急な部分:推力の最大<斜面を下る方向に働く力 →ただ進むだけでは上り切れない 坂道を行ったり来たりして勢いをつけて上がる必要がある
6.
マウンテンカー問題 斜面が急な部分:推力の最大<斜面を下る方向に働く力 →ただ進むだけでは上り切れない 坂道を行ったり来たりして勢いをつけて上がる必要がある どのように推力を調整すればうまく行くか? ↑習得したい政策(制御則)
7.
マウンテンカー問題 ○モデル化 状態 位置: 速度: 行動 推力: (右への力) (推力なし) (左への力) 連続空間 離散空間 諸条件 台車の質量:m=0.2[kg] 摩擦係数:k=0.3[-] ステップ幅:⊿t=0.1[s] 報酬関数 この式は変だとは思います…
8.
マウンテンカー問題 ○状態空間を離散化して考えると…? (Ex:部分観測可能マルコフ決定過程、隠れマルコフ過程) モデルがマルコフ決定過程に従わない可能性がある →新たなモデル化を考えなければならない
9.
マウンテンカー問題 ○状態空間を離散化して考えると…? 次元が高くなるに連れて状態数も指数関数的に増加 →計算量も指数的に増加(次元の呪い、状態爆発)
10.
マウンテンカー問題 <グリッドが荒い場合> ?新しいモデル化をする必要がある <グリッドが細かい場合> ?計算量に対して対策をする必要がある →連続な状態空間をそのまま扱うのが理想的 連続な価値関数を近似する方法をこれから考えていく
11.
連続空間での強化学習 ● これからの方針 1.パラメータを用いて連続した価値関数の近似モデルを 作る 2.真の価値関数と近似モデルの差を取り、最小となるパ ラメータを探して近似モデルを決定する 3.求められた価値関数の近似モデルが大きくなるように 政策を更新する 4.2-3を繰り返す
12.
連続空間での強化学習 ● これからの方針 1.パラメータを用いて連続した価値関数の近似モデルを 作る 2.真の価値関数と近似モデルの差を取り、最小となるパ ラメータを探して近似モデルを決定する 3.求められた価値関数の近似モデルが大きくなるように 政策を更新する 4.2-3を繰り返す 主にこの2つを扱う
13.
連続空間での強化学習 ● これからの方針 1.パラメータを用いて連続した価値関数の近似モデルを 作る 2.真の価値関数と近似モデルの差を取り、最小となるパ ラメータを探して近似モデルを決定する 3.求められた価値関数の近似モデルが大きくなるように 政策を更新する 4.2-3を繰り返す
14.
汎化誤差 :初期状態分布 :政策 :状態遷移確率 :近似誤差 :真の価値関数 :価値観数の近似モデル
15.
汎化誤差 Tステップのエピソードに関する期待値 無限ステップの割引報酬の期待値 真の価値関数を標本することができない (∵Tステップまでしか行わないから) →価値関数の近似誤差を間接的に表現する基準を導入 ※モンテカルロ法を用いれば近似的に標本が得られる 場合もある
16.
TD 二乗誤差 状態sからs’に遷移した時の実際の報酬rと 近似モデルから求められる期待報酬関数の二乗誤差を基準 + 汎化誤差 の近似 エピソードの平均 (4.27) :状態sと行動aの対(s,a)を含むデータ(s,a,r,s')の集合 Cf:
17.
ベルマン二乗残差 ベルマン方程式 (4.15) → 両辺の差をとって二乗 ベルマン二乗残差 TD二乗誤差同様にエピソードデータを用いて汎化誤差を 近似できる
18.
ベルマン二乗残差 Cf: →期待報酬と期待報酬の近似の差と解釈できる ○ベルマン二乗残差を変形してみる
19.
TD(λ)二乗誤差 λ収益と近似価値関数の誤差を基準として考える →適格度トレースを用いたTD(λ)誤差の二乗で定義 Cf: (4.38) TD二乗誤差同様、汎化誤差をエピソードデータを用いて 近似出来る
20.
真の価値関数と近似モデルの 近似誤差の基準のまとめ +
21.
連続空間での強化学習 ● これからの方針 1.パラメータを用いて連続した価値関数の近似モデルを 作る 2.真の価値関数と近似モデルの差を取り、最小となるパ ラメータを探して近似モデルを決定する 3.求められた価値関数の近似モデルが大きくなるように 政策を更新する 4.2-3を繰り返す
22.
線形モデル モデルパラメータ 線形独立な基底関数 基底関数の例:ガウス関数 ガウス関数の中心ベクトル 標準偏差 変数ベクトル
23.
カーネルモデル モデルパラメ?タ 高次元ベクトル空間への非線形写像 標本のエピソード数 標本のステップ数 入力データ m番目のエピソードのtステップ目の標本
24.
カーネルモデル 高次元空間で内積 →類似度が高いほど大きな値を取る 高次元ベクトルの内積:計算コストが大きい カーネルトリックを使って計算コストを落とす!
25.
カーネルモデル ○正定値カーネル関数の導入 以下の性質を持つものを正定値カーネルという ?対称性 ?正定値性 ?カーネル関数 任意の自然数:n 任意の 上の点: 任意の実数:
26.
カーネルモデル ○カーネルトリックの導入
27.
カーネルモデル カーネル トリック 高次空間上での内積(計算量が多い) 状態?行動空間上でのカーネル関数(計算量が少ない) カーネル関数の例 (ガウスカーネル)
28.
カーネルモデル ○カーネル関数表記の書き換え (後で説明で使いたいのでここで定義します)
29.
連続空間での強化学習 ● これからの方針 1.パラメータを用いて連続した価値関数の近似モデルを 作る 2.真の価値関数と近似モデルの差を取り、最小となるパ ラメータを探して近似モデルを決定する 3.求められた価値関数の近似モデルが大きくなるように 政策を更新する 4.2-3を繰り返す
30.
線形モデルの最小二乗法 標本による近似 線形モデルの代入
31.
線形モデルの最小二乗法 B:基底関数の数 M×T:データDの中でとる (s,a)の対の数(標本数) 1 B に対応する基底 の状態の差 1 M×T 1 M×T
32.
線形モデルの最小二乗法 ○ をパラメータで微分して最小になるものを求める モデルパラメータの最小二乗推定量
33.
最良線形不偏推定量 良い推定量: ?推定量の期待値が真の値と一致する ?分散が小さい
34.
最良線形不偏推定量 線形推定量:確率変数の一次式として表現できるもの 線形不偏推定量:期待値が真の値と等しい線形推定量 :B×(M×T)の行列 確率変数 最良線形不偏推定量:分散が最小な線形不偏推定量 :最良線形不偏推定量 :任意の線形不偏推定量 :真の値 (ガウス?マルコフの定理) 最小二乗推定量はこれを満たす=良い推定量
35.
線形モデル最小二乗法による 政策反復アルゴリズム Qはモデルパラメータのみに依存して変化 更新式:
36.
線形モデルを用いた 価値関数近似の例 マウンテンカー問題を例に上げる …が 「こう設定したらこんな感じにうまくいったよ!」っていう話… (あんまりツッコまないでください…)
37.
マウンテンカー問題 ○モデル化 状態 位置: 速度: 行動 推力: (右への力) (推力なし) (左への力) 連続空間 離散空間 諸条件 台車の質量:m=0.2[kg] 摩擦係数:k=0.3[-] ステップ幅:⊿t=0.1[s] 報酬関数
38.
線形モデルを用いた 価値関数近似の例 基底関数 ((36個のガウス関数) 政策 二次元状態空間上のグリッドの中心点 {-1.2, -0.35, 0.5}×{-1.5,
-0.5, 0.5, 1.5} 位置 速度 関数I(x)の定義 エピソード数M=20、ステップ数T=20の標本データ、割引率γ=0.95
39.
線形モデルを用いた 価値関数近似の例 σ=0.5の時の各行動に関する価値関数近似の例 σ=2の時の各行動に関する価値関数近似の例
40.
線形モデルを用いた 価値関数近似の例 ?ゴール付近ではゴールに近づく方向への 速度の大きい状態の価値が大きい ?ゴール付近でもゴールから離れる方向への 速度の状態は価値が小さい ?ゴールの反対でも山を下って加速する方向 (ゴールの方向)への速度を持つ価値が大きい
41.
カーネルモデルの最小二乗法 標本による近似 カーネルモデルの代入
42.
カーネルモデルの最小二乗推定 M×T:データDの中でとる (s,a)の対の数(標本数) M×T M×T 1 に対応する カーネルの状態の差 : の状態(入力データ) :カーネルモデルの定義における標本 : の状態の次に取る の状態
43.
カーネルモデルの最小二乗法 ○ をパラメータで微分して最小になるものを求める モデルパラメータの最小二乗推定量 計算が不安定なことがある場合 → ε:十分に小さいスカラー I:単位行列
44.
線形モデル最小二乗法による 政策反復アルゴリズム Qはモデルパラメータのみに依存して変化 更新式:
45.
カーネルモデルを用いた 価値関数近似の例 マウンテンカー問題を例に上げる …が 「こう設定したらこんな感じにうまくいったよ!」っていう話… (あんまりツッコまないでください…)
46.
マウンテンカー問題 ○モデル化 状態 位置: 速度: 行動 推力: (右への力) (推力なし) (左への力) 連続空間 離散空間 諸条件 台車の質量:m=0.2[kg] 摩擦係数:k=0.3[-] ステップ幅:⊿t=0.1[s] 報酬関数
47.
カーネルモデルを用いた 価値関数近似の例 カーネル関数 (ガウスカーネル) 政策 エピソード数M=20、ステップ数T=20の標本データ、割引率γ=0.95
48.
カーネルモデルを用いた 価値関数近似の例 σ=0.5の時の各行動に関する価値関数近似の例 σ=2の時の各行動に関する価値関数近似の例
49.
アクロボット ?人間の鉄棒運動を単純にモデル化した2関節からなる マニピュレータ ?第2関節のみにアクチュエータを持つ →制御設計が困難な非線形問題 ?目的:鉄棒の上で倒立すること ○問題設定
50.
アクロボット ○状態空間と行動空間の設計 :左回転のトルク :トルクなし :右回転のトルク 関節の角度[rad] 関節の角速度[rad/s] 状態空間(連続): 行動空間(離散): ○報酬関数の設計 :アクロボットの上半身が垂直に 近いほど報酬が大きくなる
51.
アクロボット:線形モデル最小二乗法 による政策反復
52.
アクロボット:カーネルモデル 最小二乗法による政策反復
53.
アクロボット:線形モデル最小二乗法 による実行結果例 基底関数:ガウス関数(32×3=96) モデルパラメータ数:96 反復回数:L=10 エピソード数:M=20 ステップ数:N=500 政策改善:softmax法(温度係数T=1) 割引率:γ=0.95 学習率:α=0.2 σ=2πの時が学習パフォーマンスが良い
54.
ありがとうございました!!
Download