狠狠撸

狠狠撸Share a Scribd company logo
A Connection Between Generative Adversarial
Networks, Inverse Reinforcement Learning, and
Energy-Based Models
Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1
@NIPS読み会?関西
2017/03/18
担当者: 大阪大学 堀井隆斗
1 University of California, Berkeley
? 氏名
– 堀井隆斗 (大阪大学工学研究科 浅田研究室)
? 研究内容:
– 人の情動発達過程のモデル化
– HRIにおける情動コミュニケーション
? 論文選択理由
– 生成モデルの最新動向を知りたい
– 教師なし最高
– 研究内容にかなり関係する
自己紹介
Multimodal Deep
Boltzmann Machine
情動の表現獲得
情動推定 情動表出
1/22
NHK総合 SFリアル#2アトムと暮らす日
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
2/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? 目的
– GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ
の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ
ムを提案できるよう示唆を与える
? キーアイディア
– GANとエントロピー最大化IRLが数学的に等価であることを示す
– エントロピー最大化IRLがEBMの1つのモデルであることから,GAN
とEBMの関係性を示す
論文概要
3/22
いめーじ
GAN
4/22
いめーじ
GAN EBM
4/22
いめーじ
GAN IRL EBM
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
4/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
GANとは?
[Goodfellow+, 2014]
Generator(G) Discriminator(D)Data True data
or
Generated data
5/22
? GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
? G: 生成用ベクトル?からデータを生成
? D: 対象データが本物(データセット)か
偽物(Gによって生成)かを識別
GANとは
目的関数
[Goodfellow+, 2014]
データセットのデータ
を「本物」と識別
生成されたデータを「偽物」と識別
6/22
? 識別器 D: 対象がデータセットのデータである確率を出力
GANとは
7/22
? ? ∈ [0,1] ? ? = ? ?
? ? +? ?
? ? : 実際のデータ分布
? ? : 生成器の分布
→ 1
2
? 生成器 G: ノイズからデータを生成
– 一般的にCNNが用いられる(ただし分布? ? が評価できない)
– 今回は分布? ? が評価できるモデルを想定(自己回帰モデルなど)
損失関数
損失関数
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? EBM: Energy-Based Model
– データ分布がエネルギー関数? ?(?)によるボルツマン分布
で表現されるモデル (e.g., RBM)
– ?: 分配関数を推定するのが主な課題
? ? = ? ?(?) d? ←積分や総和ができない場合が多い
? 分布? ?(?)からMCMCなどによるサンプリングで近似
EBMとは
8/22
データ分布
エネルギー ? ? ?
? ? ?
エネルギーの低いデータほど高確率で出現
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? IRL: Inverse Reinforcement Learning
– 強化学習: 報酬関数を基に最適な
行動方策を推定する
? 報酬関数の決め方が難しい
IRLとは
9/22
– 逆強化学習: 目標となる行動から
報酬関数を推定しさらに方策を推定
? ロボットの模倣学習などで利用される
? Maximum entropy IRL (MaxEnt IRL)
– 「最適な軌道は最も尤度が高く準最適軌道は指数関数的
に生起確率が減少する」と仮定
IRLとは
10/22
? = {?1, ?1, ? , ? ?, ? ?} ? ? ? =
?
? ?(? ?, ? ?)
– 目標軌道?がコスト関数? ?(?)のボルツマン分布に従う
軌道の分布
最適軌道はコスト(エネルギー)が低い
エネルギー: 低 = エントロピー: 大
やはり分配関数?を推定することは困難
特に? ?(? ?+1|? ?, ? ?)が未知の時は不可能
[Ng and Russell, 2000]
? Guided cost learning
– 分配関数を推定するためのサンプリング手法
– 新規分布?(?)の学習と重点サンプリングにより推定
IRLとは
11/22
[Finn+, 2016]
– Guided cost learningでは? ?(?)の最適化と?(?)の最適化
を交互に行う
? Guided cost learning
– 最適な分布?(?)は
? KL最小化,またはコスト最小化とエントロピー最大化により最適化
IRLとは
12/22
[Finn+, 2016]
– 分布?(?)のイマイチ具合を考慮して他の分布と混合する
? ここでは? =
1
2
? +
1
2
?
? ?(?)は現在までの推定値を利用 or 他の推定方法で作る
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GANとIRLの等価性を数式で示す
– まずはGANの識別器を変形
? 生成器の密度?(?)を利用して識別器を書き下す
? 実データ分布?(?)をコスト関数を利用して書き直す
GANとIRLの関係
13/22
[Goodfellow+, 2014]
→ 普通のGANはこの?(?)の値をNNなどで直接推定
? GANとIRLの等価性を数式で示す
– 損失関数を見直す
GANとIRLの関係
14/22
GAN識別器の損失関数
MaxEnt IRLのコスト関数の損失関数
次の3つの方法で等価性を示す
1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
– 損失関数を書き下す
GANとIRLの関係
15/22
– ?での最小化は
MaxEnt IRLでのGCLによるサンプリングに対応 ↑
1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
– 識別器の損失関数をパラメータ?で偏微分
GANとIRLの関係
16/22
2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる
– MaxEnt IRLの目的関数をパラメータ?で偏微分
→ 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
– 生成器の損失関数を で書き直す
GANとIRLの関係
17/22
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
→ GANで生成器の最適化はIRLで方策の最適化に対応
? ここまでをまとめると
– MaxEnt IRLとGANは異なるモデルであったが
? GANの生成器の確率密度?(?)を利用して識別器を書き直す
? GANがMaxEnt IRLに対するサンプリング手法とみなせる
? うれしさ?
– IRLで?(?)が評価できるのであれば直接最大化すればよい?
? IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな
い(らしい)
? GAN学習を適応することでサンプリングの質改善につながりそう
GANとIRLの関係
18/22
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
19/22
? EBMでも分配関数の推定が大きな問題
– IRLのGCLと同様にGANによるサンプリングを考える
? 実は先行研究あり
? 先行研究では生成器の確率密度?(?)を推定
できると仮定しないので推定量に偏りがある
– GAN→IRLと同様に考えると
GANとEBMの関係
20/22
[Kim and Bengio, 2016] [Zhao+, 2016]
?の不変推定量
| |
識別器D
σ ? ? ? ? log?(?)
↑ 生成データのエネルギー
に基づいて識別
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? GAIL: Generative Adversarial Imitation Learning
関連研究
21/22
[Ho and Ermon, 2016]
[https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
? 論文概要
? 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
? GANとIRLの関係
? GANとEBMの関係
? 関連研究
? まとめ
Agenda
? この論文では:
– GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した
– 導入として生成器の尤度を利用する識別器を用いて基本的な
エネルギー関数の不変推定量を導いた
– EBMの学習に対しGANを用いた新しい手法を提案した
? 今後の課題:
– 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル
のように確率密度を与える生成器を利用した実験
まとめ
22/22
[Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial
Nets,NIPS2014
[Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning,
ICML2000
[Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse
Optimal Control via Policy Optimization, ICML2016
[Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy-
based probability estimation, ICLR2016 Workshop Track
[Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial
network, arXiv:1609.03126
[Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning,
NIPS2016
GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-
learning
参考文献

More Related Content

What's hot (20)

強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识
佑 甲野
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
?
厂贬础笔値の考え方を理解する(木构造编)
厂贬础笔値の考え方を理解する(木构造编)厂贬础笔値の考え方を理解する(木构造编)
厂贬础笔値の考え方を理解する(木构造编)
Kazuyuki Wakasugi
?
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
?
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
Deep Learning JP
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
方策勾配型强化学习の基础と応用
方策勾配型强化学习の基础と応用方策勾配型强化学习の基础と応用
方策勾配型强化学习の基础と応用
Ryo Iwaki
?
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
?
报酬设计と逆强化学习
报酬设计と逆强化学习报酬设计と逆强化学习
报酬设计と逆强化学习
Yusuke Nakata
?
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
?
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
Naoki Matsunaga
?
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
Ichigaku Takigawa
?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识
佑 甲野
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
?
厂贬础笔値の考え方を理解する(木构造编)
厂贬础笔値の考え方を理解する(木构造编)厂贬础笔値の考え方を理解する(木构造编)
厂贬础笔値の考え方を理解する(木构造编)
Kazuyuki Wakasugi
?
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
?
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
Deep Learning JP
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
方策勾配型强化学习の基础と応用
方策勾配型强化学习の基础と応用方策勾配型强化学习の基础と応用
方策勾配型强化学习の基础と応用
Ryo Iwaki
?
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
?
报酬设计と逆强化学习
报酬设计と逆强化学习报酬设计と逆强化学习
报酬设计と逆强化学习
Yusuke Nakata
?
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
?
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
Naoki Matsunaga
?
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学?材料科学の教訓とこれから
Ichigaku Takigawa
?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?

Similar to 第3回狈滨笔厂読み会?関西発表资料 (14)

東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
?
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
?
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
?
[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation
Deep Learning JP
?
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
Hakky St
?
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow
?
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
?
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
?
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
Naoki Hayashi
?
ベイズ最适化によるハイパラーパラメータ探索
ベイズ最适化によるハイパラーパラメータ探索ベイズ最适化によるハイパラーパラメータ探索
ベイズ最适化によるハイパラーパラメータ探索
西岡 賢一郎
?
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
?
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
Deep Learning JP
?
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
?
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
?
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
?
[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation
Deep Learning JP
?
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
Hakky St
?
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow
?
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
?
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
?
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
修士论文発表:「非负値行列分解における渐近的叠补测别蝉汎化误差」
Naoki Hayashi
?
ベイズ最适化によるハイパラーパラメータ探索
ベイズ最适化によるハイパラーパラメータ探索ベイズ最适化によるハイパラーパラメータ探索
ベイズ最适化によるハイパラーパラメータ探索
西岡 賢一郎
?
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
?
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
Deep Learning JP
?

第3回狈滨笔厂読み会?関西発表资料

  • 1. A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1 @NIPS読み会?関西 2017/03/18 担当者: 大阪大学 堀井隆斗 1 University of California, Berkeley
  • 2. ? 氏名 – 堀井隆斗 (大阪大学工学研究科 浅田研究室) ? 研究内容: – 人の情動発達過程のモデル化 – HRIにおける情動コミュニケーション ? 論文選択理由 – 生成モデルの最新動向を知りたい – 教師なし最高 – 研究内容にかなり関係する 自己紹介 Multimodal Deep Boltzmann Machine 情動の表現獲得 情動推定 情動表出 1/22 NHK総合 SFリアル#2アトムと暮らす日
  • 3. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda 2/22
  • 4. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 5. ? 目的 – GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ ムを提案できるよう示唆を与える ? キーアイディア – GANとエントロピー最大化IRLが数学的に等価であることを示す – エントロピー最大化IRLがEBMの1つのモデルであることから,GAN とEBMの関係性を示す 論文概要 3/22
  • 9. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 4/22
  • 10. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである 4/22
  • 11. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 4/22
  • 12. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 13. ? GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル GANとは? [Goodfellow+, 2014] Generator(G) Discriminator(D)Data True data or Generated data 5/22
  • 14. ? GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル ? G: 生成用ベクトル?からデータを生成 ? D: 対象データが本物(データセット)か 偽物(Gによって生成)かを識別 GANとは 目的関数 [Goodfellow+, 2014] データセットのデータ を「本物」と識別 生成されたデータを「偽物」と識別 6/22
  • 15. ? 識別器 D: 対象がデータセットのデータである確率を出力 GANとは 7/22 ? ? ∈ [0,1] ? ? = ? ? ? ? +? ? ? ? : 実際のデータ分布 ? ? : 生成器の分布 → 1 2 ? 生成器 G: ノイズからデータを生成 – 一般的にCNNが用いられる(ただし分布? ? が評価できない) – 今回は分布? ? が評価できるモデルを想定(自己回帰モデルなど) 損失関数 損失関数
  • 16. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 17. ? EBM: Energy-Based Model – データ分布がエネルギー関数? ?(?)によるボルツマン分布 で表現されるモデル (e.g., RBM) – ?: 分配関数を推定するのが主な課題 ? ? = ? ?(?) d? ←積分や総和ができない場合が多い ? 分布? ?(?)からMCMCなどによるサンプリングで近似 EBMとは 8/22 データ分布 エネルギー ? ? ? ? ? ? エネルギーの低いデータほど高確率で出現
  • 18. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 19. ? IRL: Inverse Reinforcement Learning – 強化学習: 報酬関数を基に最適な 行動方策を推定する ? 報酬関数の決め方が難しい IRLとは 9/22 – 逆強化学習: 目標となる行動から 報酬関数を推定しさらに方策を推定 ? ロボットの模倣学習などで利用される
  • 20. ? Maximum entropy IRL (MaxEnt IRL) – 「最適な軌道は最も尤度が高く準最適軌道は指数関数的 に生起確率が減少する」と仮定 IRLとは 10/22 ? = {?1, ?1, ? , ? ?, ? ?} ? ? ? = ? ? ?(? ?, ? ?) – 目標軌道?がコスト関数? ?(?)のボルツマン分布に従う 軌道の分布 最適軌道はコスト(エネルギー)が低い エネルギー: 低 = エントロピー: 大 やはり分配関数?を推定することは困難 特に? ?(? ?+1|? ?, ? ?)が未知の時は不可能 [Ng and Russell, 2000]
  • 21. ? Guided cost learning – 分配関数を推定するためのサンプリング手法 – 新規分布?(?)の学習と重点サンプリングにより推定 IRLとは 11/22 [Finn+, 2016] – Guided cost learningでは? ?(?)の最適化と?(?)の最適化 を交互に行う
  • 22. ? Guided cost learning – 最適な分布?(?)は ? KL最小化,またはコスト最小化とエントロピー最大化により最適化 IRLとは 12/22 [Finn+, 2016] – 分布?(?)のイマイチ具合を考慮して他の分布と混合する ? ここでは? = 1 2 ? + 1 2 ? ? ?(?)は現在までの推定値を利用 or 他の推定方法で作る
  • 23. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 24. ? GANとIRLの等価性を数式で示す – まずはGANの識別器を変形 ? 生成器の密度?(?)を利用して識別器を書き下す ? 実データ分布?(?)をコスト関数を利用して書き直す GANとIRLの関係 13/22 [Goodfellow+, 2014] → 普通のGANはこの?(?)の値をNNなどで直接推定
  • 25. ? GANとIRLの等価性を数式で示す – 損失関数を見直す GANとIRLの関係 14/22 GAN識別器の損失関数 MaxEnt IRLのコスト関数の損失関数 次の3つの方法で等価性を示す 1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である 2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
  • 26. – 損失関数を書き下す GANとIRLの関係 15/22 – ?での最小化は MaxEnt IRLでのGCLによるサンプリングに対応 ↑ 1. 識別器の損失関数を最小化する?がGCLの重点サンプリング推定器である
  • 27. – 識別器の損失関数をパラメータ?で偏微分 GANとIRLの関係 16/22 2. 識別器の損失関数の?での導関数がMaxEnt IRLの損失関数の導関数となる – MaxEnt IRLの目的関数をパラメータ?で偏微分 → 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
  • 28. – 生成器の損失関数を で書き直す GANとIRLの関係 17/22 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる → GANで生成器の最適化はIRLで方策の最適化に対応
  • 29. ? ここまでをまとめると – MaxEnt IRLとGANは異なるモデルであったが ? GANの生成器の確率密度?(?)を利用して識別器を書き直す ? GANがMaxEnt IRLに対するサンプリング手法とみなせる ? うれしさ? – IRLで?(?)が評価できるのであれば直接最大化すればよい? ? IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな い(らしい) ? GAN学習を適応することでサンプリングの質改善につながりそう GANとIRLの関係 18/22
  • 30. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 31. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 19/22
  • 32. ? EBMでも分配関数の推定が大きな問題 – IRLのGCLと同様にGANによるサンプリングを考える ? 実は先行研究あり ? 先行研究では生成器の確率密度?(?)を推定 できると仮定しないので推定量に偏りがある – GAN→IRLと同様に考えると GANとEBMの関係 20/22 [Kim and Bengio, 2016] [Zhao+, 2016] ?の不変推定量 | | 識別器D σ ? ? ? ? log?(?) ↑ 生成データのエネルギー に基づいて識別
  • 33. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 34. ? GAIL: Generative Adversarial Imitation Learning 関連研究 21/22 [Ho and Ermon, 2016] [https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
  • 35. ? 論文概要 ? 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning ? GANとIRLの関係 ? GANとEBMの関係 ? 関連研究 ? まとめ Agenda
  • 36. ? この論文では: – GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した – 導入として生成器の尤度を利用する識別器を用いて基本的な エネルギー関数の不変推定量を導いた – EBMの学習に対しGANを用いた新しい手法を提案した ? 今後の課題: – 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル のように確率密度を与える生成器を利用した実験 まとめ 22/22
  • 37. [Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial Nets,NIPS2014 [Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning, ICML2000 [Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization, ICML2016 [Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy- based probability estimation, ICLR2016 Workshop Track [Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial network, arXiv:1609.03126 [Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning, NIPS2016 GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation- learning 参考文献