狠狠撸

狠狠撸Share a Scribd company logo
报酬设计と逆强化学习
千葉大学大学院 荒井研究室 修士2年
中田 勇介
2018/6/23 現在の強化学習に何が足りないのか?
362 /
中田勇介
専門
強化学習,逆強化学習
経歴
千葉大学大学院 都市環境システムコース
千葉大学 都市環境システム学科
明石高専 建築学科
Github: https://github.com/uidilr
chainer/chainerrl, openai/gymに,ほんの少し貢献
自己紹介
363 /
1. 強化学習における報酬設計問題
2. 逆強化学習
3. デモンストレーションを用いる強化学習
4. まとめ
目次
364 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
? ? ?
365 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
? ? ?
366 /
強化学習(RL)
報酬の期待値が最大の方策を学習
設計者自身が解けない問題を強化学習で解ける
例: 囲碁の素人がAlphaGoをトレーニング
367 /
強化学習(RL)
報酬の期待値が最大の方策を学習
人が設計
368 /
強化学習(RL)
報酬の期待値が最大の方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
人が設計
369 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
人が設計
3610 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
→目標状態以外にも報酬を与える?
人が設計
3611 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
→目標状態以外にも報酬を与える?
→意図しない方策が最適になる場合も
人が設計
报酬设计と逆强化学习
3613 /
強化学習(RL)
意図しない方策の学習を防ぐために報酬設計を試行錯誤
3614 /
強化学習(RL)
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3615 /
強化学習(RL)
設計者が解ける 設計者が解けない
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3616 /
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易
報酬設計 困難
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3617 /
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 -
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3618 /
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
設計者が解ける(デモンストレーションできる)
→方策や軌跡から報酬を推定すれば良い
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 逆強化学習 -
3619 /
強化学習(RL)
環境のモデル
報酬
3620 /
強化学習(RL)
環境のモデル
方策報酬
3621 /
逆強化学習(IRL)
環境のモデル
方策, 軌跡
3622 /
逆強化学習(IRL)
報酬
環境のモデル
方策, 軌跡
3623 /
逆強化学習(IRL)
報酬
環境のモデル
方策, 軌跡
? ? ?
3624 /
逆強化学習(IRL)
環境のモデル
方策報酬
3625 /
逆強化学習(IRL)
報酬更新
強化学習
エキスパート
と比較
3626 /
1. Maximum Entropy IRL [Ziebart et al., 2008]
- Guided Cost Learning[Finn et al., 2016]
- GAIL [Ho et al., 2016]
- AIRL [Fu et al., 2018]
2. Bayesian IRL [Ramachandran et al., 2007]
- BNFIRL [Choi et al., 2013]
3. IRL in Linearly solvable MDP [Dvijotham et al., 2010]
- LogReg IRL [Uchibe, 2018]
逆強化学習(IRL)
3627 /
1. エキスパート方策の模倣
- ロボットアームの制御[Finn et al., 2016]
- 自動運転 [Sharifzadeh et al., 2017]
2. 動物や人の行動の解析
- 線虫の行動解析[Yamaguchi et al., 2018]
- 歩行者の行動解析 [Kitani et al., 2012]
- SNSユーザーのトピック変化解析 [Yang et al., 2018]
逆強化学習問題を解くモチベーション
3628 /
設計者が解ける(デモンストレーションできる)
逆強化学習と教師あり学習
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 逆強化学習 -
3629 /
設計者が解ける(デモンストレーションできる)
逆強化学習と教師あり学習
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難
逆強化学習
教師あり学習
-
3630 /
逆強化学習と教師あり学習
逆強化学習 教師あり学習
所与 教師データ
シミュレータ
教師データ
出力 方策,報酬 方策
メリット 教師データ数: 少
確率的な状態遷移に強い
報酬の転移可能
シミュレータ不要
デメリット シミュレータ必要 教師データ数: 多
3631 /
対象問題の分類と解法
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難
逆強化学習
教師あり学習
-
3632 /
対象問題の分類と入力
設計者が解ける 設計者が解けない
報酬設計 容易 報酬 報酬
報酬設計 困難 デモンストレーション -
3633 /
対象問題の分類と入力
設計者が解ける 設計者が解けない
報酬設計 容易
報酬
デモンストレーション
報酬
報酬設計 困難 デモンストレーション -
3634 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
デモンストレーションを用いる強化学習
3635 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
報酬設計が容易なスパースな報酬でも方策が学習可能に
デモンストレーションを用いる強化学習
3636 /
報酬設計は,意図通りの問題を設定する方法としては脆弱
→疎な報酬では学習が困難
→複雑な報酬では,意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
まとめ
3637 /
報酬設計は,意図通りの問題を設定する方法としては脆弱
→スパースな報酬では学習が困難
→複雑な報酬では,意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
設計者の知識を報酬以外の形で問題に反映する方法が必要
まとめ
3638 /
予備スライド
3639 /
逆強化学習と教師あり学習
初期状態
目標状態
3640 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3641 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3642 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3643 /
教師あり学習
逆強化学習と教師あり学習
初期状態
目標状態
3644 /
教師あり学習
強化学習
逆強化学習と教師あり学習
最大エントロピー
报酬设计と逆强化学习

More Related Content

报酬设计と逆强化学习

Editor's Notes

  1. 本発表の目次です. はじめに,強化学習を簡単にご紹介し,強化学習における報酬設計問題を取り上げます. その後に,報酬設計の試行錯誤を回避する方法として, 逆強化学習とデモンストレーションを用いる強化学習を取り上げます.
  2. 强化学习は,マルコフ决定过程における最适方策を学习します.
  3. 最适方策とは,方策の下で得られる报酬の期待値が最大の方策を指します.
  4. 強化学習は,報酬に対する最適方策を学習をするため,設計者自身が解けない問題を解くことができます. そのような例として,AlphaGoなどがあります.強化学習によって,設計者よりも囲碁が強いエージェントを作ることができます. 強化学習では,設計者よりも優れた方策を学習できる点が,教師あり学習との大きな違いです.
  5. 強化学習の報酬は人が設計します. その報酬は,設計者がエージェントに解かせたい問題を反映している必要があります. 解かせたい問題を正しく反映する報酬は簡単に設計できるのでしょうか.
  6. よくある報酬設計の例として, 目標とする状態に正の報酬,それ以外の状態に0や負の報酬を与える方法があります. 先ほどの囲碁の例でいうと,勝利で正の報酬,それ以外で0の報酬といった感じです. 確かに,これなら簡単に定義できそうです.
  7. しかし,このようにスパースな報酬では,状態空間が大きい場合に,最適方策の獲得が困難である場合が多いです. なぜなら,強化学習は,報酬が得られる状態を訪れなければ,学習が進まないからです.
  8. では,目標状態以外にも報酬を割り振ったらいいんじゃないか. 学習が進むんじゃないかと考える訳です. そうすれば,報酬が得られる状態を訪れやすくなって,学習が進みやすくなりそうですよね.
  9. 果たして,目標状態以外にも報酬を与えた問題は,本当に意図した問題なのでしょうか. 強化学習は報酬の期待値が最大となる方策を学習をします. 報酬の設計を誤ると,本来意図した問題と異なる問題を解かせることになってしまいます. ここでは,動画で,そのような例をお見せします.
  10. Live狠狠撸 Site https://www.youtube.com/watch?time_continue=46&v=tlOIHko8ySg
  11. 報酬の設計によって,意図しない方策が学習されることがお分かり頂けたと思います. よし,今回の反省を生かして,報酬の設計を変えてみよう.となりそうですが. ここではまず,解きたい问题を,二つの指标で分类してみます.
  12. ここではまず,解きたい问题を,二つの指标で分类してみます.
  13. 一つ目の指標を設計者が解ける問題か,解けない問題かで分類します. 言い換えれば,人が既にこなせるタスクを機械学習で自動化したいのか,人がこなせないタスクを機械学習にやらせたいのかです. 例えば,自動運転なら,人は運転できますから,設計者が解ける問題ですし, 私が,AlphaGoをトレーニングする場合は,囲碁は弱いんで,後者です.
  14. 次に,報酬設計の難易度で問題を分類します. 人が,解けても,報酬設計が難しい問題があります.先ほどのボートレースのゲームや自動運転がこれに当たります. これらの問題をどのように解くべきでしょうか. 5:30 NNのハイパーパラメータ調整, 囲碁, 車の運転
  15. 上側は,報酬が設計できる問題ですので,強化学習を適用するのが良さそうです. では下側はどうでしょうか. 右下の設計者が解けず,報酬設計困難な場合は,お手上げです. 報酬を試行錯誤で設計するしかありません. 設計者が解けて,報酬設計が困難な場合はどうでしょうか.
  16. 設計者が解けるというのは,自動車の運転みたいにデモンストレーションができる訳です. 報酬を人が設計する代わりに, デモンストレーションを生成する方策が最適方策となる報酬を推定する方法が考えられます. これが逆強化学習です.
  17. 一旦強化学習から整理すると, 強化学習は,環境のモデルと,報酬を所与として,
  18. 报酬の期待値が最大の最适方策を学习します.
  19. 一方,逆强化学习は,环境のモデルと,エキスパートの方策や轨跡などのデータから报酬を推定します.
  20. ここで,轨跡とは,状态と行动の系列,意思决定系列を指します.
  21. 逆強化学習で推定した報酬に対する最適方策はエキスパート方策と一致するため,エキスパート方策 pi_Eが模倣できます.
  22. 逆強化学習の基本的な流れを示します. まず報酬を初期化して,推定報酬に対して強化学習をし,最適方策を求める. 最適方策とエキスパート方策を比較し,比較の結果に基づいて報酬を更新します. これを繰り返します. 7:00
  23. こちらが
  24. ここで,逆強化学習を解くモチベーションをご紹介します. 一つは,エキスパート方策の模倣です. もう一つは,行動解析で,報酬自体が関心であることもあります.
  25. ここまでで,ご説明した通り,逆强化学习は,デモンストレーション,いわば教师データが用意できる场合の手法です.
  26. 当然,教师あり学习でいいのではないかという疑问が出ると思います.
  27. ここで,逆強化学習と教師あり学習を比較した表です. 逆強化学習は,シミュレータ等の試行錯誤が可能な環境を必要としますが, 教師データ数が少なくて良く,確率的な状態遷移に強いことが挙げられます. また,エキスパートの報酬が推定できていれば,状態遷移確率が異なる環境における,エキスパートの方策を学習できます.
  28. ここまで,対象問題を4つに分類し,強化学習,逆強化学習,教師あり学習の三つの機械学習手法を取り上げました. そして,報酬設計が容易な時には,報酬を用いて方策を学習し, 報酬設計が困難だが,設計者が解ける問題では,デモンストレーションから方策を学習する方が良い. そうすることで報酬設計の試行錯誤を回避することができます.
  29. それぞれの问题で使える入力を表に示しています.
  30. 左上の设计者が解けて,报酬设计が容易な场合には,デモンストレーションが使えることがお分かり顶けると思います.
  31. 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています. デモンストレーションを用いて探索範囲を誘導することによって
  32. 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています. デモンストレーションを用いて
  33. 設計者が持つ知識を報酬に反映するほかない. 報酬設計を試行錯誤する前に, ほかの方法で,自分が持つ問題に対する知識を反映できないか考えるのが良いと思います. そして,
  34. このような报酬が推定されたとします.
  35. Live狠狠撸 Site https://www.youtube.com/watch?v=Ej-Jb_y25Pc