狠狠撸

狠狠撸Share a Scribd company logo
A Connection Between Generative Adversarial
Networks, Inverse Reinforcement Learning, and
Energy-Based Models
Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1
@NIPS読み会?関西
2017/03/18
担当者: 大阪大学 堀井隆斗
1 University of California, Berkeley
? 氏名
– 堀井隆斗 (大阪大学工学研究科 浅田研究室)
? 研究内容:
– 人の情動発達過程のモデル化
– HRIにおける情動コミュニケーション
? 論文選択理由
– 生成モデルの最新動向を知りたい
– 教師なし最高
– 研究内容にかなり関係する
自己紹介
Multimodal Deep
Boltzmann Machine
情動の表現獲得
情動推定 情動表出
1/22
NHK総合 SFリアル#2アトムと暮らす日
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
2/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? 目的
– GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ
の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ
ムを提案できるよう示唆を与える
? キーアイディア
– GANとエントロピー最大化IRLが数学的に等価であることを示す
– エントロピー最大化IRLがEBMの1つのモデルであることから,GAN
とEBMの関係性を示す
論文概要
3/22
いめーじ
GAN
4/22
いめーじ
GAN EBM
4/22
いめーじ
GAN IRL EBM
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
4/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
GANとは?
[Goodfellow+, 2014]
Generator(G) Discriminator(D)Data True data
or
Generated data
5/22
? GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
? G: 生成用ベクトル?からデータを生成
? D: 対象データが本物(データセット)か
偽物(Gによって生成)かを識別
GANとは
目的関数
[Goodfellow+, 2014]
データセットのデータ
を「本物」と識別
生成されたデータを「偽物」と識別
6/22
? 識別器 D: 対象がデータセットのデータである確率を出力
GANとは
7/22
? ? ∈ [0,1] ? ? = ? ?
? ? +? ?
? ? : 実際のデータ分布
? ? : 生成器の分布
→ 1
2
? 生成器 G: ノイズからデータを生成
– 一般的にCNNが用いられる(ただし分布? ? が評価できない)
– 今回は分布? ? が評価できるモデルを想定(自己回帰モデルなど)
損失関数
損失関数
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? EBM: Energy-Based Model
– データ分布がエネルギー関数? ?(?)によるボルツマン分布
で表現されるモデル (e.g., RBM)
– ?: 分配関数を推定するのが主な課題
? ? = ? ?(?) d? ←積分や総和ができない場合が多い
? 分布? ?(?)からMCMCなどによるサンプリングで近似
EBMとは
8/22
データ分布
エネルギー ? ? ?
? ? ?
エネルギーの低いデータほど高確率で出現
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? IRL: Inverse Reinforcement Learning
– 強化学習: 報酬関数を基に最適な
行動方策を推定する
? 報酬関数の決め方が難しい
IRLとは
9/22
– 逆強化学習: 目標となる行動から
報酬関数を推定しさらに方策を推定
? ロボットの模倣学習などで利用される
? Maximum entropy IRL (MaxEnt IRL)
– 「最適な軌道は最も尤度が高く準最適軌道は指数関数的
に生起確率が減少する」と仮定
IRLとは
10/22
? = {?1, ?1, ? , ? ?, ? ?} ? ? ? =
?
? ?(? ?, ? ?)
– 目標軌道?がコスト関数? ?(?)のボルツマン分布に従う
軌道の分布
最適軌道はコスト(エネルギー)が低い
エネルギー: 低 = エントロピー: 大
やはり分配関数?を推定することは困難
特に? ?(? ?+1|? ?, ? ?)が未知の時は不可能
[Ng and Russell, 2000]
? Guided cost learning
– 分配関数を推定するためのサンプリング手法
– 新規分布?(?)の学習と重点サンプリングにより推定
IRLとは
11/22
[Finn+, 2016]
– Guided cost learningでは? ?(?)の最適化と?(?)の最適化
を交互に行う
? Guided cost learning
– 最適な分布?(?)は
? KL最小化,またはコスト最小化とエントロピー最大化により最適化
IRLとは
12/22
[Finn+, 2016]
– 分布?(?)のイマイチ具合を考慮して他の分布と混合する
? ここでは? =
1
2
? +
1
2
?
? ?(?)は現在までの推定値を利用 or 他の推定方法で作る
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GANとIRLの等価性を数式で示す
– まずはGANの識別器を変形
? 生成器の密度?(?)を利用して識別器を書き下す
? 実データ分布?(?)をコスト関数を利用して書き直す
GANとIRLの関係
13/22
[Goodfellow+, 2014]
→ 普通のGANはこの?(?)の値をNNなどで直接推定
? GANとIRLの等価性を数式で示す
– 損失関数を見直す
GANとIRLの関係
14/22
GAN識別器の損失関数
MaxEnt IRLのコスト関数の損失関数
次の3つの方法で等価性を示す
1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
– 損失関数を書き下す
GANとIRLの関係
15/22
– ?での最小化は
MaxEnt IRLでのGCLによるサンプリングに対応 ↑
1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
– 識別器の損失関数をパラメータ?で偏微分
GANとIRLの関係
16/22
2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる
– MaxEnt IRLの目的関数をパラメータ?で偏微分
→ 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
– 生成器の損失関数を で書き直す
GANとIRLの関係
17/22
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
→ GANで生成器の最適化はIRLで方策の最適化に対応
? ここまでをまとめると
– MaxEnt IRLとGANは異なるモデルであったが
? GANの生成器の確率密度?(?)を利用して識別器を書き直す
? GANがMaxEnt IRLに対するサンプリング手法とみなせる
? うれしさ?
– IRLで?(?)が評価できるのであれば直接最大化すればよい?
? IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな
い(らしい)
? GAN学習を適応することでサンプリングの質改善につながりそう
GANとIRLの関係
18/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
19/22
? EBMでも分配関数の推定が大きな問題
– IRLのGCLと同様にGANによるサンプリングを考える
? 実は先行研究あり
? 先行研究では生成器の確率密度?(?)を推定
できると仮定しないので推定量に偏りがある
– GAN→IRLと同様に考えると
GANとEBMの関係
20/22
[Kim and Bengio, 2016] [Zhao+, 2016]
?の不変推定量
| |
識別器D
σ ? ? ? ? log?(?)
↑ 生成データのエネルギー
に基づいて識別
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GAIL: Generative Adversarial Imitation Learning
関連研究
21/22
[Ho and Ermon, 2016]
[https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? この論文では:
– GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した
– 導入として生成器の尤度を利用する識別器を用いて基本的な
エネルギー関数の不変推定量を導いた
– EBMの学習に対しGANを用いた新しい手法を提案した
? 今後の課題:
– 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル
のように確率密度を与える生成器を利用した実験
まとめ
22/22
[Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial
Nets,NIPS2014
[Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning,
ICML2000
[Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse
Optimal Control via Policy Optimization, ICML2016
[Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy-
based probability estimation, ICLR2016 Workshop Track
[Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial
network, arXiv:1609.03126
[Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning,
NIPS2016
GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-
learning
参考文献

More Related Content

第3回狈滨笔厂読み会?関西発表资料

  • 1. A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1 @NIPS読み会?関西 2017/03/18 担当者: 大阪大学 堀井隆斗 1 University of California, Berkeley
  • 2. ? 氏名 – 堀井隆斗 (大阪大学工学研究科 浅田研究室) ? 研究内容: – 人の情動発達過程のモデル化 – HRIにおける情動コミュニケーション ? 論文選択理由 – 生成モデルの最新動向を知りたい – 教師なし最高 – 研究内容にかなり関係する 自己紹介 Multimodal Deep Boltzmann Machine 情動の表現獲得 情動推定 情動表出 1/22 NHK総合 SFリアル#2アトムと暮らす日
  • 3. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda 2/22
  • 4. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 5. ? 目的 – GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ ムを提案できるよう示唆を与える ? キーアイディア – GANとエントロピー最大化IRLが数学的に等価であることを示す – エントロピー最大化IRLがEBMの1つのモデルであることから,GAN とEBMの関係性を示す 論文概要 3/22
  • 9. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 4/22
  • 10. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである 4/22
  • 11. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 4/22
  • 12. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 13. ? GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル GANとは? [Goodfellow+, 2014] Generator(G) Discriminator(D)Data True data or Generated data 5/22
  • 14. ? GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル ? G: 生成用ベクトル?からデータを生成 ? D: 対象データが本物(データセット)か 偽物(Gによって生成)かを識別 GANとは 目的関数 [Goodfellow+, 2014] データセットのデータ を「本物」と識別 生成されたデータを「偽物」と識別 6/22
  • 15. ? 識別器 D: 対象がデータセットのデータである確率を出力 GANとは 7/22 ? ? ∈ [0,1] ? ? = ? ? ? ? +? ? ? ? : 実際のデータ分布 ? ? : 生成器の分布 → 1 2 ? 生成器 G: ノイズからデータを生成 – 一般的にCNNが用いられる(ただし分布? ? が評価できない) – 今回は分布? ? が評価できるモデルを想定(自己回帰モデルなど) 損失関数 損失関数
  • 16. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 17. ? EBM: Energy-Based Model – データ分布がエネルギー関数? ?(?)によるボルツマン分布 で表現されるモデル (e.g., RBM) – ?: 分配関数を推定するのが主な課題 ? ? = ? ?(?) d? ←積分や総和ができない場合が多い ? 分布? ?(?)からMCMCなどによるサンプリングで近似 EBMとは 8/22 データ分布 エネルギー ? ? ? ? ? ? エネルギーの低いデータほど高確率で出現
  • 18. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 19. ? IRL: Inverse Reinforcement Learning – 強化学習: 報酬関数を基に最適な 行動方策を推定する ? 報酬関数の決め方が難しい IRLとは 9/22 – 逆強化学習: 目標となる行動から 報酬関数を推定しさらに方策を推定 ? ロボットの模倣学習などで利用される
  • 20. ? Maximum entropy IRL (MaxEnt IRL) – 「最適な軌道は最も尤度が高く準最適軌道は指数関数的 に生起確率が減少する」と仮定 IRLとは 10/22 ? = {?1, ?1, ? , ? ?, ? ?} ? ? ? = ? ? ?(? ?, ? ?) – 目標軌道?がコスト関数? ?(?)のボルツマン分布に従う 軌道の分布 最適軌道はコスト(エネルギー)が低い エネルギー: 低 = エントロピー: 大 やはり分配関数?を推定することは困難 特に? ?(? ?+1|? ?, ? ?)が未知の時は不可能 [Ng and Russell, 2000]
  • 21. ? Guided cost learning – 分配関数を推定するためのサンプリング手法 – 新規分布?(?)の学習と重点サンプリングにより推定 IRLとは 11/22 [Finn+, 2016] – Guided cost learningでは? ?(?)の最適化と?(?)の最適化 を交互に行う
  • 22. ? Guided cost learning – 最適な分布?(?)は ? KL最小化,またはコスト最小化とエントロピー最大化により最適化 IRLとは 12/22 [Finn+, 2016] – 分布?(?)のイマイチ具合を考慮して他の分布と混合する ? ここでは? = 1 2 ? + 1 2 ? ? ?(?)は現在までの推定値を利用 or 他の推定方法で作る
  • 23. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 24. ? GANとIRLの等価性を数式で示す – まずはGANの識別器を変形 ? 生成器の密度?(?)を利用して識別器を書き下す ? 実データ分布?(?)をコスト関数を利用して書き直す GANとIRLの関係 13/22 [Goodfellow+, 2014] → 普通のGANはこの?(?)の値をNNなどで直接推定
  • 25. ? GANとIRLの等価性を数式で示す – 損失関数を見直す GANとIRLの関係 14/22 GAN識別器の損失関数 MaxEnt IRLのコスト関数の損失関数 次の3つの方法で等価性を示す 1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である 2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
  • 26. – 損失関数を書き下す GANとIRLの関係 15/22 – ?での最小化は MaxEnt IRLでのGCLによるサンプリングに対応 ↑ 1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
  • 27. – 識別器の損失関数をパラメータ?で偏微分 GANとIRLの関係 16/22 2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる – MaxEnt IRLの目的関数をパラメータ?で偏微分 → 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
  • 28. – 生成器の損失関数を で書き直す GANとIRLの関係 17/22 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる → GANで生成器の最適化はIRLで方策の最適化に対応
  • 29. ? ここまでをまとめると – MaxEnt IRLとGANは異なるモデルであったが ? GANの生成器の確率密度?(?)を利用して識別器を書き直す ? GANがMaxEnt IRLに対するサンプリング手法とみなせる ? うれしさ? – IRLで?(?)が評価できるのであれば直接最大化すればよい? ? IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな い(らしい) ? GAN学習を適応することでサンプリングの質改善につながりそう GANとIRLの関係 18/22
  • 30. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 31. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 19/22
  • 32. ? EBMでも分配関数の推定が大きな問題 – IRLのGCLと同様にGANによるサンプリングを考える ? 実は先行研究あり ? 先行研究では生成器の確率密度?(?)を推定 できると仮定しないので推定量に偏りがある – GAN→IRLと同様に考えると GANとEBMの関係 20/22 [Kim and Bengio, 2016] [Zhao+, 2016] ?の不変推定量 | | 識別器D σ ? ? ? ? log?(?) ↑ 生成データのエネルギー に基づいて識別
  • 33. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 34. ? GAIL: Generative Adversarial Imitation Learning 関連研究 21/22 [Ho and Ermon, 2016] [https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
  • 35. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 36. ? この論文では: – GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した – 導入として生成器の尤度を利用する識別器を用いて基本的な エネルギー関数の不変推定量を導いた – EBMの学習に対しGANを用いた新しい手法を提案した ? 今後の課題: – 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル のように確率密度を与える生成器を利用した実験 まとめ 22/22
  • 37. [Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial Nets,NIPS2014 [Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning, ICML2000 [Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization, ICML2016 [Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy- based probability estimation, ICLR2016 Workshop Track [Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial network, arXiv:1609.03126 [Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning, NIPS2016 GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation- learning 参考文献