端端舝

A Connection Between Generative Adversarial
Networks, Inverse Reinforcement Learning, and
Energy-Based Models
Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1
@NIPS掂心頗?憝昹
2017/03/18
童絞氪: 湮筅湮悝雈凝癒須
1 University of California, Berkeley

? 庌靡
每雈凝癒須 (湮筅湮悝馱悝旃噶褪シ泬旃噶弅)
? 旃噶囀⺍:
每 �及ロ�逃絻綎最及乒犯伙趙
每 HRI卞云仃月ロ�戊立亙瓦弗奈扑亦件
? �恅腢亼燴蚕
每汜傖乒犯伙及郔陔�砃毛眭曰凶中
每諒�卅仄郔詢
每旃噶囀⺍卞井卅曰憝�S允月
赻撩畿賡
Multimodal Deep
Boltzmann Machine
ロ�及桶政陂腕
ロ�芢隅ロ�桶堤
1/22
NHK駙磁 SF伉失伙#2失玄丞午贍日允゜

? �恅衙猁
? 跪猁匼畿賡
每 GAN: Generative Adversarial Network
每 EBM: Energy-Based Model
每 IRL: Inverse Reinforcement Learning
? GAN午IRL及憝�S
? GAN午EBM及憝�S
? 憝窣旃噶
? 引午戶
Agenda
2/22

? �恅衙猁
? 跪猁匼畿賡
每 GAN: Generative Adversarial Network
每 EBM: Energy-Based Model
每 IRL: Inverse Reinforcement Learning
? GAN午IRL及憝�S
? GAN午EBM及憝�S
? 憝窣旃噶
? 引午戶
Agenda

? 醴腔
每 GAN,IRL,EBM及3勾及乒犯伙及憝�S毛杅悝腔卞尨允仇午匹公木冗木
及煦珧及旃噶氪互方曰假隅腔匹旦弗奈仿申伉氾奴及丐月失伙打伉朮
丞毛枑偶匹五月方丹尨坭毛迵尹月
? 平奈失奶犯奴失
每 GAN午巨件玄伕疋奈郔湮趙IRL互杅悝腔卞脹�匹丐月仇午毛尨允
每巨件玄伕疋奈郔湮趙IRL互EBM及1勾及乒犯伙匹丐月仇午井日ㄛGAN
午EBM及憝�S俶毛尨允
�恅衙猁
3/22

中戶奈元
GAN IRL EBM
汜傖け及復薹躇僅互
啐�匹五月乒犯伙
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
戊旦玄憝杅支�喚憝杅
及悝�及醱匹僕籵
4/22

中戶奈元
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRL互EBM及
1乒犯伙匹丐月
4/22

中戶奈元
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRL互EBM及
1乒犯伙匹丐月
IRL毛籵元化GAN午EBM毛勾卅什
允匹卞憝窣旃噶手丐月
4/22

? GAN: Generative Adversarial Networks
每 Generator(G)午Discriminator(D)毛煾歹六化汜傖儕僅及砃
奻毛�月乒犯伙
GAN午反?
[Goodfellow+, 2014]
Generator(G) Discriminator(D)Data True data
or
Generated data
5/22

? GAN: Generative Adversarial Networks
每 Generator(G)午Discriminator(D)毛煾歹六化汜傖儕僅及砃
奻毛�月乒犯伙
? G: 汜傖蚚矛弁玄伙?井日犯奈正毛汜傖
? D: �砓犯奈正互掛昜(犯奈正本永玄)井
�昜(G卞方勻化汜傖)井毛舑�e
GAN午反
醴腔憝杅
[Goodfellow+, 2014]
犯奈正本永玄及犯奈正
毛☆掛昜★午舑�e
汜傖今木凶犯奈正毛☆�昜★午舑�e
6/22

? 舑�eけ D: �砓互犯奈正本永玄及犯奈正匹丐月復薹毛堤薯
GAN午反
7/22
? ? ﹋ [0,1] ? ? = ? ?
? ? +? ?
? ? : 灍蕣及犯奈正煦票
? ? : 汜傖け及煦票
↙ 1
2
? 汜傖け G: 用奶朮井日犯奈正毛汜傖
每珨啜腔卞CNN互蚚中日木月(凶分仄煦票? ? 互啐�匹五卅中)
每踏隙反煦票? ? 互啐�匹五月乒犯伙毛砑隅(赻撩隙䔝乒犯伙卅升)
𢖯囮憝杅
𢖯囮憝杅

? EBM: Energy-Based Model
每犯奈正煦票互巨生伙幼奈憝杅? ?(?)卞方月示伙汁穴件煦票
匹桶政今木月乒犯伙 (e.g., RBM)
每 ?: 煦饜憝杅毛芢隅允月及互翋卅掝觳
? ? = ? ?(?) d? ↘搪煦支駙睿互匹五卅中�磁互嗣中
? 煦票? ?(?)井日MCMC卅升卞方月扔件皿伉件弘匹輪侔
EBM午反
8/22
犯奈正煦票
巨生伙幼奈 ? ? ?
? ? ?
巨生伙幼奈及腴中犯奈正幻升詢復薹匹堤政

? IRL: Inverse Reinforcement Learning
每 �趙悝�: �喚憝杅毛價卞郔羥卅
俴�源習毛芢隅允月
? �喚憝杅及𢜪戶源互褣仄中
IRL午反
9/22
每欄�趙悝�: 醴㻢午卅月俴�井日
�喚憝杅毛芢隅仄今日卞源習毛芢隅
? 伕示永玄及耀�悝�卅升匹瞳蚚今木月

? Maximum entropy IRL (MaxEnt IRL)
每 ☆郔羥卅�耋反郔手蚧僅互詢仁𨃨郔羥�耋反硌杅憝杅腔
卞汜お復薹互𦑩屾允月★午�隅
IRL午反
10/22
? = {?1, ?1, ? , ? ?, ? ?} ? ? ? =
?
? ?(? ?, ? ?)
每醴㻢�耋?互戊旦玄憝杅? ?(?)及示伙汁穴件煦票卞𣶹丹
�耋及煦票
郔羥�耋反戊旦玄(巨生伙幼奈)互腴中
巨生伙幼奈: 腴 = 巨件玄伕疋奈: 湮
支反曰煦饜憝杅?毛芢隅允月仇午反嬪褣
杻卞? ?(? ?+1|? ?, ? ?)互帤眭及媆反祥褫夔
[Ng and Russell, 2000]

? Guided cost learning
每煦饜憝杅毛芢隅允月凶戶及扔件皿伉件弘忒楊
每陔�煦票?(?)及悝�午笭萸扔件皿伉件弘卞方曰芢隅
IRL午反
11/22
[Finn+, 2016]
每 Guided cost learning匹反? ?(?)及郔羥趙午?(?)及郔羥趙
毛蝠誑卞俴丹

? Guided cost learning
每郔羥卅煦票?(?)反
? KL郔苤趙ㄛ引凶反戊旦玄郔苤趙午巨件玄伕疋奈郔湮趙卞方曰郔羥趙
IRL午反
12/22
[Finn+, 2016]
每煦票?(?)及奶穴奶民撿磁毛蕉𩬅仄化坻及煦票午髦磁允月
? 仇仇匹反? =
1
2
? +
1
2
?
? ?(?)反政婓引匹及芢隅�毛瞳蚚 or 坻及芢隅源楊匹釬月

? GAN午IRL及脹�俶毛杅宒匹尨允
每引內反GAN及舑�eけ毛劐倛
? 汜傖け及躇僅?(?)毛瞳蚚仄化舑�eけ毛𤩸五狟允
? 灍犯奈正煦票?(?)毛戊旦玄憝杅毛瞳蚚仄化𤩸五眻允
GAN午IRL及憝�S
13/22
[Goodfellow+, 2014]
↙ 癶籵及GAN反仇及?(?)及�毛NN卅升匹眻諉芢隅

? GAN午IRL及脹�俶毛杅宒匹尨允
每𢖯囮憝杅毛�眻允
GAN午IRL及憝�S
14/22
GAN舑�eけ及𢖯囮憝杅
MaxEnt IRL及戊旦玄憝杅及𢖯囮憝杅
棒及3勾及源楊匹脹�俶毛尨允
1. 舑�eけ及𢖯囮憝杅毛郔苤趙允月?互GCL及笭萸扔件皿伉件弘芢隅け匹丐月
2. 舑�eけ及𢖯囮憝杅及?匹及爀憝杅互MaxEnt IRL及𢖯囮憝杅及爀憝杅午卅月
3. 汜傖け及𢖯囮憝杅互MaxEnt IRL及扔件皿仿奈及𢖯囮憝杅午卅月

每𢖯囮憝杅毛𤩸五狟允
GAN午IRL及憝�S
15/22
每 ?匹及郔苤趙反
MaxEnt IRL匹及GCL卞方月扔件皿伉件弘卞�𡛟 ∥
1. 舑�eけ及𢖯囮憝杅毛郔苤趙允月?互GCL及笭萸扔件皿伉件弘芢隅け匹丐月

每舑�eけ及𢖯囮憝杅毛由仿丟奈正?匹⑴峚煦
GAN午IRL及憝�S
16/22
2. 舑�eけ及𢖯囮憝杅及?匹及爀憝杅互MaxEnt IRL及𢖯囮憝杅及爀憝杅午卅月
每 MaxEnt IRL及醴腔憝杅毛由仿丟奈正?匹⑴峚煦
↙ 郔羥卅舑�eけ及悝�反灍犯奈正毛方仁桶允戊旦玄憝杅及悝�午肮膽

每汜傖け及𢖯囮憝杅毛匹𤩸五眻允
GAN午IRL及憝�S
17/22
3. 汜傖け及𢖯囮憝杅互MaxEnt IRL及扔件皿仿奈及𢖯囮憝杅午卅月
↙ GAN匹汜傖け及郔羥趙反IRL匹源習及郔羥趙卞�𡛟

? 仇仇引匹毛引午戶月午
每 MaxEnt IRL午GAN反�卅月乒犯伙匹丐勻凶互
? GAN及汜傖け及復薹躇僅?(?)毛瞳蚚仄化舑�eけ毛𤩸五眻允
? GAN互MaxEnt IRL卞�允月扔件皿伉件弘忒楊午心卅六月
? 丹木仄今?
每 IRL匹?(?)互啐�匹五月及匹丐木壬眻諉郔湮趙允木壬方中?
? IRL旃噶氪反蚧僅郔湮趙互恚螝卅俴�悝�卞都卞方中午反蕉尹化中卅
中(日仄中)
? GAN悝�毛羥𡛟允月仇午匹扔件皿伉件弘及斮蜊囡卞勾卅互曰公丹
GAN午IRL及憝�S
18/22

中戶奈元
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRL互EBM及
1乒犯伙匹丐月
IRL毛籵元化GAN午EBM毛勾卅什
允匹卞憝窣旃噶手丐月
19/22

? EBM匹手煦饜憝杅及芢隅互湮五卅�觳
每 IRL及GCL午肮�卞GAN卞方月扔件皿伉件弘毛蕉尹月
? 灍反珂俴旃噶丐曰
? 珂俴旃噶匹反汜傖け及復薹躇僅?(?)毛芢隅
匹五月午�隅仄卅中及匹芢隅講卞⑴曰互丐月
每 GAN↙IRL午肮�卞蕉尹月午
GAN午EBM及憝�S
20/22
[Kim and Bengio, 2016] [Zhao+, 2016]
?及祥劐芢隅講
| |
舑�eけD
考 ? ? ? ? log?(?)
∥ 汜傖犯奈正及巨生伙幼奈
卞價勿中化舑�e

? GAIL: Generative Adversarial Imitation Learning
憝窣旃噶
21/22
[Ho and Ermon, 2016]
[https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]

? 仇及�恅匹反:
每 GAN午MaxEnt IRL匹瞳蚚今木月guided cost learning及脹�俶毛尨仄凶
每爀⻌午仄化汜傖け及蚧僅毛瞳蚚允月舑�eけ毛蚚中化價掛腔卅
巨生伙幼奈憝杅及祥劐芢隅講毛爀中凶
每 EBM及悝�卞�仄GAN毛蚚中凶陔仄中忒楊毛枑偶仄凶
? 踏摽及掝觳:
每赻撩隙䔝乒犯伙支褫欄劐𡥼(invertible transformations)毛蚚中凶乒犯伙
及方丹卞復薹躇僅毛迵尹月汜傖け毛瞳蚚仄凶灍歠
引午戶
22/22

[Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial
Nets,NIPS2014
[Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning,
ICML2000
[Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse
Optimal Control via Policy Optimization, ICML2016
[Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy-
based probability estimation, ICLR2016 Workshop Track
[Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial
network, arXiv:1609.03126
[Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning,
NIPS2016
GAIL畿賡揃蹋: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-
learning
統蕉恅瓬

端端舝

菴3隙捧梆捩釦掂心頗?憝昹逃桶訧蹋

Recommended

More Related Content

What's hot (20)

Similar to 菴3隙捧梆捩釦掂心頗?憝昹逃桶訧蹋 (14)

菴3隙捧梆捩釦掂心頗?憝昹逃桶訧蹋