狠狠撸

狠狠撸Share a Scribd company logo
2018/05/15
¤
¤ 2013 3
¤ 2015 3
¤ 2018 3
¤
¤ 2018 4 ~
¤
¤
¤
¤ Deep Learning
¤ Goodfellow Deep Learning
¤ World Models
¤ David Ha, Jürgen Schmidhuber
¤ arXiv: 1803.10122 Web https://worldmodels.github.io/
¤ Ha hardmaru
¤
¤
¤
¤
3
¤
¤
¤ “World Model”
¤
「世界モデル」と関连研究について
¤
¤
¤
¤ internal model
¤
¤ world model
¤ dynamics model
¤ “The image of the world around us, which we carry in our head, is just a model.
Nobody in his head imagines all the world, government or country. He has only
selected concepts, and relationships between them, and uses those to represent the
real system. (Forrester, 1971)”
¤
¤ [Chang+ 17, Cell]
->
¤
¤ Jeff Hawkins On Intelligence
¤
¤
¤
->
8
¤
¤
¤
¤
¤
¤
¤ PredNet [Watanabe+ 18]
http://www.psy.ritsumei.ac.jp/~akitaoka/rotsnakes.html
AI
¤ AI AI
¤ AI
1.
2.
「世界モデル」と関连研究について
¤
¤ ! " # $ !’
¤ &("|!)
¤ MDP
Recap: the reinforcement learning objective
The Anatomy of a Reinforcement Learning Problem
狠狠撸 from Sergey Levine
Recap: the reinforcement learning objective
¤
¤
¤
->
¤
¤
¤
¤
1.
2.
3.
4. 2
Model-based RL Review
improve the
policy
Correcting for model errors:
refitting model with new data, replanning with MPC, using local models
Model-based RL from raw observations:
learn latent space, typically with unsupervised learning, or
model &plan directly in observational space
e.g., backprop through model
supervised learning
Even simpler…
generic trajectory
optimization, solve
however you want
? How can we impose constraints on trajectory optimization?
¤
¤
¤
¤
¤
¤ RBF DNN
¤
¤
¤
¤ PILCO
¤ Guided policy search (trajectory optimization)
¤ CMA-ES
Policy Search Classification
Yet, it’s a grey zone…
Important Extensions:
? Contextual Policy Search [Kupscik, Deisenroth, Peters & Neumann, AAAI 2013], [Silva, Konidaris & Barto, ICML 2012], [Kober & Peters, IJCAI 2011], [Paresi &
Peters et al., IROS 2015]
? Hierarchical Policy Search [Daniel, Neumann & Peters., AISTATS 2012], [Wingate et al., IJCAI 2011], [Ghavamzadeh & Mahedevan, ICML 2003]
9
Direct Policy
Search
Value-Based
RL
Evolutionary
Strategies,
CMA-ES
Episodic
REPS
Policy
Gradients,
eNAC
Actor Critic,
Natural Actor Critic
Model-based REPS
PS by Trajectory
Optimization
Q-Learning,
Fitted Q
LSPIPILCO
Advantage
Weighted
Regression
Conservative
Policy Iteration
Model-Based Policy Search Methods
85
Learn dynamics model from data-set
+ More data efficient than model-free methods
+ More complex policies can be optimized
? RBF networks [Deisenroth & Rasmussen, 2011]
? Time-dependent feedback controllers [Levine & Koltun, 2014]
? Gaussian Processes [Von Hoof, Peters & Nemann, 2015]
? Deep neural nets [Levine & Koltun, 2014][Levine & Abbeel, 2014]
Limitations:
- Learning good models is often very hard
- Small model errors can have drastic damage
on the resulting policy (due to optimization)
- Some models are hard to scale
- Computational Complexity
PILCO
¤ PILCO (probabilistic inference for learning control) [Deisenroth+ 11]
¤
¤
¤ RBF
¤
1.
2.
¤
¤
3.
Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011]
Model Learning:
? Use Bayesian models which integrate out model
uncertainty Gaussian Processes
? Reward predictions are not specialized to a single model
Internal Stimulation:
? Iteratively compute
? Moment matching: deterministic approximate inference
Policy Update:
? Analytically compute expected return and its gradient
? Greedily Optimize with BFGS
88
Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011]
Model Learning:
? Use Bayesian models which integrate out model
uncertainty Gaussian Processes
? Reward predictions are not specialized to a single model
Internal Stimulation:
? Iteratively compute
? Moment matching: deterministic approximate inference
Policy Update:
? Analytically compute expected return and its gradient
? Greedily Optimize with BFGS
88
Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011]
Model Learning:
? Use Bayesian models which integrate out model
uncertainty Gaussian Processes
? Reward predictions are not specialized to a single model
Internal Stimulation:
? Iteratively compute
? Moment matching: deterministic approximate inference
Policy Update:
? Analytically compute expected return and its gradient
? Greedily Optimize with BFGS
88
Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011]
Model Learning:
? Use Bayesian models which integrate out model
uncertainty Gaussian Processes
? Reward predictions are not specialized to a single model
Internal Stimulation:
? Iteratively compute
? Moment matching: deterministic approximate inference
Policy Update:
? Analytically compute expected return and its gradient
? Greedily Optimize with BFGS
88
Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011]
Model Learning:
? Use Bayesian models which integrate out model
uncertainty Gaussian Processes
? Reward predictions are not specialized to a single model
Internal Stimulation:
? Iteratively compute
? Moment matching: deterministic approximate inference
Policy Update:
? Analytically compute expected return and its gradient
? Greedily Optimize with BFGS
88
What’s the problem?
backprop backprop
backprop
? Similar parameter sensitivity problems as shooting methods
? But no longer have convenient second order LQR-like method, because policy
parameters couple all the time steps, so no dynamic programming
? Similar problems to training long RNNs with BPTT
? Vanishing and exploding gradients
? Unlike LSTM, we can’t just “choose” a simple dynamics, dynamics are chosen by
nature
Guided Policy Search via trajectory optimization
¤
¤
¤ trajectory optimization
¤ DNN trajectory optimization+
guided policy search
[Levine+ 14]
CMA-ES
¤ Model-based 1
¤ Evolution Strategy ES
¤
¤
¤
¤ CMA-ES (
¤
¤
¤
1.
2.
3. 2
http://yuki-koyama.hatenablog.com/entry/2017/01/20/172109
¤
¤ [Gu+ 16]
¤ etc.
¤
¤
¤
¤
¤ 1980 Feed-forward neural networks FNN
¤ 1990 RNN
->
¤ RNN
¤ “Making the World Differentiable” [Schmidhuber, 1990]
¤ RNN
RNN
¤
¤ Learning deep dynamical models from image pixels [Wahlstr?m+ 14] From Pixels to
Torques: Policy Learning with Deep Dynamical Models [Wahlstrom+ 15]
¤ deep dynamical model DDM
¤
VAE
¤ ! "; $
¤
¤ "
¤
¤ Variational autoencoder VAE [Kingma+ 13] [Rezende+ 14]
¤
"
%
&'(%|")
" ~ !,("|%)
% ~ !(%)
&' % " = .(%|/ " , 12
(")) !, " % = ?("|/ " )
VAE
¤ ! "~$ " !
¤
¤ !
(a) Learned Frey Face manifold (b) Learned MNIST manifold
Figure 4: Visualisations of learned data manifold for generative models with two-dimensional latent
space, learned with AEVB. Since the prior of the latent space is Gaussian, linearly spaced coor-
dinates on the unit square were transformed through the inverse CDF of the Gaussian to produce
values of the latent variables z. For each of these values z, we plotted the corresponding generative
p?(x|z) with the learned parameters ?.
[Kingma+ 13]
VAE
¤ VAE
¤
¤ GAN
¤ disentangle
¤
¤
¤ β-VAE[Higgins+ 17]
¤
¤ [Burgess+ 18]
“World Model”
¤ Schmidhuber
¤
¤
¤ +
25
¤
¤ 3
¤ Vision Model V
¤ Memory RNN M
¤ Controller C V M
26
Vision Model V
¤ 2D Variational Autoencoder VAE
¤
27
MDN-RNN M
¤ M !" !"#$
¤ %(!"#$|(", !", ?")
¤ ( ? RNN
¤ !"#$
¤ M MDN-RNN[Graves + 13, Ha+ 17]
¤ RNN
¤
¤ Ha
28
¤ [Bishop+ 94]
¤
¤
¤ ! "
¤
29
MDN-RNN
¤ SketchRNN[Ha+ 17]
¤ MDN-RNN
30
Controller (C) Model
¤
¤ C
¤ ! RNN ?
¤
¤ CMA-ES
¤ 1 867
31
¤ V M C
32
h
z C
1
¤
¤ 3
¤ 10000
¤
33
V M
¤ VAE V
¤ V ! M
¤ "
¤
34
1. V
¤ M
¤
¤
35
2. V M
¤
¤
36
¤
¤ OpenAI Gym leaderboard
¤ RGB
¤
37
¤ SketchRNN
¤ VAE
38
2 VizDoom
¤ VizDoom Doom
¤
¤ 750
39
¤ M
¤ !"#$% (!%) 2
¤ ( )%*+, !%*+ -%, )%, ?%)
¤ C
40
¤ 900
¤
¤ !
¤
41
¤
¤ 1000
¤
42
¤
¤ 13 BB
¤
¤
¤
¤
43
¤ MDN-RNN
¤ C M
¤ !
¤
44
¤
¤
¤
¤ Learning To Think[Schmidhuber+ 15]
1. M C
2.
3. M M C
4. 2
¤ 1
¤ 2
¤ curiosity
¤
45
¤
¤
¤
¤ Replay Comes of Age
¤
46
¤
¤ MDN-RNN VAE
¤ VAE
¤
¤
¤ Friston
¤ Wahlstr?m M V
¤ VRNN[Chung+ 15]
47
Friston
¤
¤ !"($)
¤
¤
¤
https://en.wikipedia.org/wiki/Free_energy_principle
164 第 9 章 考察
ると,内部モデルは生成モデルによって実現される.
内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが
Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル
ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩
序を維持していると考えている.
状態 x*8
と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする.
また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) =
?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動
a は,(変分)自由エネルギーを最小化するように更新すると考える.
?φ = arg min
φ
F(x; φ, θ),
?a = arg min
a
F(x; φ, θ).
なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい
うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した
後に更新する.
自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け
取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる
ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ
ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ
164
ると,内部モデルは生成モデルによって実現される.
内部モデルを機械学習における生成モデルと捉え,行動と結びつけ
Friston による自由エネルギー原理(free-energy principle) [Friston 10
ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化
序を維持していると考えている.
状態 x*8
と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分
また,負の周辺尤度の上界である変分自由エネルギー(負の変分下
?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部
a は,(変分)自由エネルギーを最小化するように更新すると考える.
?φ = arg min
φ
F(x; φ, θ),
?a = arg min
a
F(x; φ, θ).
なお,ここでの arg mina は,自由エネルギーが最小になるような x を選
うことである.また,生成モデルのパラメータ θ については,上記の更新
後に更新する.
自由エネルギー原理では,入力は単純に状態 x として考えられている
取ったときに内部状態が更新され,その後生成モデルを元に,自由エネ
ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺
第 9 章 考察
デルは生成モデルによって実現される.
を機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが
自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル
,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩
いると考えている.
潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする.
辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) =
x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動
自由エネルギーを最小化するように更新すると考える.
?φ = arg min
φ
F(x; φ, θ),
?a = arg min
a
F(x; φ, θ).
の arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい
.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した
.
ギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け
内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる
164 第 9 章 考察
ると,内部モデルは生成モデルによって実現される.
内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが
Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル
ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩
序を維持していると考えている.
状態 x*8
と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする.
また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) =
?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動
a は,(変分)自由エネルギーを最小化するように更新すると考える.
?φ = arg min
φ
F(x; φ, θ),
?a = arg min
a
F(x; φ, θ).
なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい
うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した
後に更新する.
自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け
取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる
ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ
ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ
LeCun
Y LeCun
How Much Information Does the Machine Need to Predict?
“Pure” Reinforcement Learning (cherry)
The machine predicts a scalar
reward given once in a while.
A few bits for some samples
Supervised Learning (icing)
The machine predicts a category
or a few numbers for each input
Predicting human-supplied data
10 10,000 bits per sample→
Unsupervised/Predictive Learning (cake)
The machine predicts any part of
its input for any observed part.
Predicts future frames in videos
Millions of bits per sample
(Yes, I know, this picture is slightly offensive to RL folks. But I’ll make it up)
¤
¤ C
¤
¤ PredNet [Lotter+ 16]
¤
¤
¤ …
¤
51
内部モデル
外界
行動
刺激
(マルチモーダル情報)
¤
¤
¤ Schmidhuber
¤
¤
¤
¤ POMDP
52
Ad

Recommended

強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
?
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
?
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
?
深层生成モデルと世界モデル(2020/11/20版)
深层生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
?
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
?
[DL輪読会]World Models
[DL輪読会]World Models
Deep Learning JP
?
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
?
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
?
【メタサーベイ】数式ドリブン教师あり学习
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
Deep Learning JP
?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
?
摆顿尝轮読会闭相互情报量最大化による表现学习
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
笔翱惭顿笔下での强化学习の基础と応用
笔翱惭顿笔下での强化学习の基础と応用
Yasunori Ozaki
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
?
画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ
cvpaper. challenge
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
cvpaper. challenge
?
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
?
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII
?
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
Deep Learning JP
?
モデル高速化百选
モデル高速化百选
Yusuke Uchida
?
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
?
确率的深层学习における中间层の改良と高性能学习法の提案
确率的深层学习における中间层の改良と高性能学习法の提案
__106__
?
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
Masahiro Suzuki
?

More Related Content

What's hot (20)

【メタサーベイ】数式ドリブン教师あり学习
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
Deep Learning JP
?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
?
摆顿尝轮読会闭相互情报量最大化による表现学习
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
笔翱惭顿笔下での强化学习の基础と応用
笔翱惭顿笔下での强化学习の基础と応用
Yasunori Ozaki
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
?
画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ
cvpaper. challenge
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
cvpaper. challenge
?
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
?
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII
?
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
Deep Learning JP
?
モデル高速化百选
モデル高速化百选
Yusuke Uchida
?
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
?
【メタサーベイ】数式ドリブン教师あり学习
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
摆顿尝轮読会闭画像を使った厂颈尘2搁别补濒の现况
Deep Learning JP
?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
?
摆顿尝轮読会闭相互情报量最大化による表现学习
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
笔翱惭顿笔下での强化学习の基础と応用
笔翱惭顿笔下での强化学习の基础と応用
Yasunori Ozaki
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
?
画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ
cvpaper. challenge
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
cvpaper. challenge
?
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
?
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII2022 [SS1] ニューラル3D表現の最新動向? ニューラルネットでなんでも表せる?? ??
SSII
?
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
摆顿尝轮読会闭滨颁尝搁2020の分布外検知速报
Deep Learning JP
?
モデル高速化百选
モデル高速化百选
Yusuke Uchida
?
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
?

Similar to 「世界モデル」と関连研究について (16)

确率的深层学习における中间层の改良と高性能学习法の提案
确率的深层学习における中间层の改良と高性能学习法の提案
__106__
?
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
Masahiro Suzuki
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
Datafesta 20141004_05
Datafesta 20141004_05
博三 太田
?
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術?? イラストレーションやデザインの基礎から最新鋭の技術まで ??
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術?? イラストレーションやデザインの基礎から最新鋭の技術まで ??
SSII
?
コンピュータビジョンで作る未来の栽培技术笔翱尝共催セミナー冲20220527
コンピュータビジョンで作る未来の栽培技术笔翱尝共催セミナー冲20220527
ssuser5ec200
?
Deep Learning 20章 輪講会 資料
Deep Learning 20章 輪講会 資料
sorashido
?
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
?
大规模画像认识とその周辺
大规模画像认识とその周辺
n_hidekey
?
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
?
(文献绍介)深层学习による动被写体ロバストなカメラの动き推定
(文献绍介)深层学习による动被写体ロバストなカメラの动き推定
Morpho, Inc.
?
おしゃスタ蔼リクルート
おしゃスタ蔼リクルート
Issei Kurahashi
?
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
?
【招待讲演】パラメータ制约付き行列分解のベイズ汎化误差解析【厂迟补迟蝉惭尝若手シンポ2020】
【招待讲演】パラメータ制约付き行列分解のベイズ汎化误差解析【厂迟补迟蝉惭尝若手シンポ2020】
Naoki Hayashi
?
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
Masanari Kimura
?
确率的深层学习における中间层の改良と高性能学习法の提案
确率的深层学习における中间层の改良と高性能学习法の提案
__106__
?
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深层生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
Masahiro Suzuki
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術?? イラストレーションやデザインの基礎から最新鋭の技術まで ??
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術?? イラストレーションやデザインの基礎から最新鋭の技術まで ??
SSII
?
コンピュータビジョンで作る未来の栽培技术笔翱尝共催セミナー冲20220527
コンピュータビジョンで作る未来の栽培技术笔翱尝共催セミナー冲20220527
ssuser5ec200
?
Deep Learning 20章 輪講会 資料
Deep Learning 20章 輪講会 資料
sorashido
?
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
?
大规模画像认识とその周辺
大规模画像认识とその周辺
n_hidekey
?
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
?
(文献绍介)深层学习による动被写体ロバストなカメラの动き推定
(文献绍介)深层学习による动被写体ロバストなカメラの动き推定
Morpho, Inc.
?
おしゃスタ蔼リクルート
おしゃスタ蔼リクルート
Issei Kurahashi
?
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
?
【招待讲演】パラメータ制约付き行列分解のベイズ汎化误差解析【厂迟补迟蝉惭尝若手シンポ2020】
【招待讲演】パラメータ制约付き行列分解のベイズ汎化误差解析【厂迟补迟蝉惭尝若手シンポ2020】
Naoki Hayashi
?
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
Masanari Kimura
?
Ad

More from Masahiro Suzuki (18)

确率的推论と行动选択
确率的推论と行动选択
Masahiro Suzuki
?
深层生成モデルと世界モデル
深层生成モデルと世界モデル
Masahiro Suzuki
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
深层生成モデルを用いたマルチモーダルデータの半教师あり学习
深层生成モデルを用いたマルチモーダルデータの半教师あり学习
Masahiro Suzuki
?
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
Masahiro Suzuki
?
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
Masahiro Suzuki
?
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
Masahiro Suzuki
?
深层生成モデルを用いたマルチモーダル学习
深层生成モデルを用いたマルチモーダル学习
Masahiro Suzuki
?
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
Masahiro Suzuki
?
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence
Masahiro Suzuki
?
(DL hacks輪読) Deep Kalman Filters
(DL hacks輪読) Deep Kalman Filters
Masahiro Suzuki
?
(研究会輪読) Weight Uncertainty in Neural Networks
(研究会輪読) Weight Uncertainty in Neural Networks
Masahiro Suzuki
?
(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning
Masahiro Suzuki
?
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
Masahiro Suzuki
?
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
Masahiro Suzuki
?
(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation
Masahiro Suzuki
?
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
Masahiro Suzuki
?
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?
Masahiro Suzuki
?
确率的推论と行动选択
确率的推论と行动选択
Masahiro Suzuki
?
深层生成モデルと世界モデル
深层生成モデルと世界モデル
Masahiro Suzuki
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
深层生成モデルを用いたマルチモーダルデータの半教师あり学习
深层生成モデルを用いたマルチモーダルデータの半教师あり学习
Masahiro Suzuki
?
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
Masahiro Suzuki
?
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
Masahiro Suzuki
?
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
Masahiro Suzuki
?
深层生成モデルを用いたマルチモーダル学习
深层生成モデルを用いたマルチモーダル学习
Masahiro Suzuki
?
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
Masahiro Suzuki
?
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence
Masahiro Suzuki
?
(DL hacks輪読) Deep Kalman Filters
(DL hacks輪読) Deep Kalman Filters
Masahiro Suzuki
?
(研究会輪読) Weight Uncertainty in Neural Networks
(研究会輪読) Weight Uncertainty in Neural Networks
Masahiro Suzuki
?
(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning
Masahiro Suzuki
?
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
Masahiro Suzuki
?
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
Masahiro Suzuki
?
(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation
Masahiro Suzuki
?
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
Masahiro Suzuki
?
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?
Masahiro Suzuki
?
Ad

「世界モデル」と関连研究について

  • 2. ¤ ¤ 2013 3 ¤ 2015 3 ¤ 2018 3 ¤ ¤ 2018 4 ~ ¤ ¤ ¤ ¤ Deep Learning ¤ Goodfellow Deep Learning
  • 3. ¤ World Models ¤ David Ha, Jürgen Schmidhuber ¤ arXiv: 1803.10122 Web https://worldmodels.github.io/ ¤ Ha hardmaru ¤ ¤ ¤ ¤ 3
  • 6. ¤ ¤ ¤ ¤ internal model ¤ ¤ world model ¤ dynamics model
  • 7. ¤ “The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system. (Forrester, 1971)” ¤ ¤ [Chang+ 17, Cell] ->
  • 8. ¤ ¤ Jeff Hawkins On Intelligence ¤ ¤ ¤ -> 8
  • 9. ¤ ¤ ¤ ¤ ¤ ¤ ¤ PredNet [Watanabe+ 18] http://www.psy.ritsumei.ac.jp/~akitaoka/rotsnakes.html
  • 10. AI ¤ AI AI ¤ AI 1. 2.
  • 12. ¤ ¤ ! " # $ !’ ¤ &("|!) ¤ MDP Recap: the reinforcement learning objective The Anatomy of a Reinforcement Learning Problem 狠狠撸 from Sergey Levine Recap: the reinforcement learning objective
  • 13. ¤ ¤ ¤ -> ¤ ¤ ¤ ¤ 1. 2. 3. 4. 2 Model-based RL Review improve the policy Correcting for model errors: refitting model with new data, replanning with MPC, using local models Model-based RL from raw observations: learn latent space, typically with unsupervised learning, or model &plan directly in observational space e.g., backprop through model supervised learning Even simpler… generic trajectory optimization, solve however you want ? How can we impose constraints on trajectory optimization?
  • 14. ¤ ¤ ¤ ¤ ¤ ¤ RBF DNN ¤ ¤ ¤ ¤ PILCO ¤ Guided policy search (trajectory optimization) ¤ CMA-ES Policy Search Classification Yet, it’s a grey zone… Important Extensions: ? Contextual Policy Search [Kupscik, Deisenroth, Peters & Neumann, AAAI 2013], [Silva, Konidaris & Barto, ICML 2012], [Kober & Peters, IJCAI 2011], [Paresi & Peters et al., IROS 2015] ? Hierarchical Policy Search [Daniel, Neumann & Peters., AISTATS 2012], [Wingate et al., IJCAI 2011], [Ghavamzadeh & Mahedevan, ICML 2003] 9 Direct Policy Search Value-Based RL Evolutionary Strategies, CMA-ES Episodic REPS Policy Gradients, eNAC Actor Critic, Natural Actor Critic Model-based REPS PS by Trajectory Optimization Q-Learning, Fitted Q LSPIPILCO Advantage Weighted Regression Conservative Policy Iteration Model-Based Policy Search Methods 85 Learn dynamics model from data-set + More data efficient than model-free methods + More complex policies can be optimized ? RBF networks [Deisenroth & Rasmussen, 2011] ? Time-dependent feedback controllers [Levine & Koltun, 2014] ? Gaussian Processes [Von Hoof, Peters & Nemann, 2015] ? Deep neural nets [Levine & Koltun, 2014][Levine & Abbeel, 2014] Limitations: - Learning good models is often very hard - Small model errors can have drastic damage on the resulting policy (due to optimization) - Some models are hard to scale - Computational Complexity
  • 15. PILCO ¤ PILCO (probabilistic inference for learning control) [Deisenroth+ 11] ¤ ¤ ¤ RBF ¤ 1. 2. ¤ ¤ 3. Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: ? Use Bayesian models which integrate out model uncertainty Gaussian Processes ? Reward predictions are not specialized to a single model Internal Stimulation: ? Iteratively compute ? Moment matching: deterministic approximate inference Policy Update: ? Analytically compute expected return and its gradient ? Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: ? Use Bayesian models which integrate out model uncertainty Gaussian Processes ? Reward predictions are not specialized to a single model Internal Stimulation: ? Iteratively compute ? Moment matching: deterministic approximate inference Policy Update: ? Analytically compute expected return and its gradient ? Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: ? Use Bayesian models which integrate out model uncertainty Gaussian Processes ? Reward predictions are not specialized to a single model Internal Stimulation: ? Iteratively compute ? Moment matching: deterministic approximate inference Policy Update: ? Analytically compute expected return and its gradient ? Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: ? Use Bayesian models which integrate out model uncertainty Gaussian Processes ? Reward predictions are not specialized to a single model Internal Stimulation: ? Iteratively compute ? Moment matching: deterministic approximate inference Policy Update: ? Analytically compute expected return and its gradient ? Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: ? Use Bayesian models which integrate out model uncertainty Gaussian Processes ? Reward predictions are not specialized to a single model Internal Stimulation: ? Iteratively compute ? Moment matching: deterministic approximate inference Policy Update: ? Analytically compute expected return and its gradient ? Greedily Optimize with BFGS 88 What’s the problem? backprop backprop backprop ? Similar parameter sensitivity problems as shooting methods ? But no longer have convenient second order LQR-like method, because policy parameters couple all the time steps, so no dynamic programming ? Similar problems to training long RNNs with BPTT ? Vanishing and exploding gradients ? Unlike LSTM, we can’t just “choose” a simple dynamics, dynamics are chosen by nature
  • 16. Guided Policy Search via trajectory optimization ¤ ¤ ¤ trajectory optimization ¤ DNN trajectory optimization+ guided policy search [Levine+ 14]
  • 17. CMA-ES ¤ Model-based 1 ¤ Evolution Strategy ES ¤ ¤ ¤ ¤ CMA-ES ( ¤ ¤ ¤ 1. 2. 3. 2 http://yuki-koyama.hatenablog.com/entry/2017/01/20/172109
  • 18. ¤ ¤ [Gu+ 16] ¤ etc. ¤ ¤ ¤
  • 19. ¤ ¤ 1980 Feed-forward neural networks FNN ¤ 1990 RNN -> ¤ RNN ¤ “Making the World Differentiable” [Schmidhuber, 1990] ¤ RNN RNN
  • 20. ¤ ¤ Learning deep dynamical models from image pixels [Wahlstr?m+ 14] From Pixels to Torques: Policy Learning with Deep Dynamical Models [Wahlstrom+ 15] ¤ deep dynamical model DDM ¤
  • 21. VAE ¤ ! "; $ ¤ ¤ " ¤ ¤ Variational autoencoder VAE [Kingma+ 13] [Rezende+ 14] ¤ " % &'(%|") " ~ !,("|%) % ~ !(%) &' % " = .(%|/ " , 12 (")) !, " % = ?("|/ " )
  • 22. VAE ¤ ! "~$ " ! ¤ ¤ ! (a) Learned Frey Face manifold (b) Learned MNIST manifold Figure 4: Visualisations of learned data manifold for generative models with two-dimensional latent space, learned with AEVB. Since the prior of the latent space is Gaussian, linearly spaced coor- dinates on the unit square were transformed through the inverse CDF of the Gaussian to produce values of the latent variables z. For each of these values z, we plotted the corresponding generative p?(x|z) with the learned parameters ?. [Kingma+ 13]
  • 23. VAE ¤ VAE ¤ ¤ GAN ¤ disentangle ¤ ¤ ¤ β-VAE[Higgins+ 17] ¤ ¤ [Burgess+ 18]
  • 26. ¤ ¤ 3 ¤ Vision Model V ¤ Memory RNN M ¤ Controller C V M 26
  • 27. Vision Model V ¤ 2D Variational Autoencoder VAE ¤ 27
  • 28. MDN-RNN M ¤ M !" !"#$ ¤ %(!"#$|(", !", ?") ¤ ( ? RNN ¤ !"#$ ¤ M MDN-RNN[Graves + 13, Ha+ 17] ¤ RNN ¤ ¤ Ha 28
  • 31. Controller (C) Model ¤ ¤ C ¤ ! RNN ? ¤ ¤ CMA-ES ¤ 1 867 31
  • 32. ¤ V M C 32 h z C
  • 34. V M ¤ VAE V ¤ V ! M ¤ " ¤ 34
  • 37. ¤ ¤ OpenAI Gym leaderboard ¤ RGB ¤ 37
  • 39. 2 VizDoom ¤ VizDoom Doom ¤ ¤ 750 39
  • 40. ¤ M ¤ !"#$% (!%) 2 ¤ ( )%*+, !%*+ -%, )%, ?%) ¤ C 40
  • 44. ¤ MDN-RNN ¤ C M ¤ ! ¤ 44
  • 45. ¤ ¤ ¤ ¤ Learning To Think[Schmidhuber+ 15] 1. M C 2. 3. M M C 4. 2 ¤ 1 ¤ 2 ¤ curiosity ¤ 45
  • 46. ¤ ¤ ¤ ¤ Replay Comes of Age ¤ 46
  • 47. ¤ ¤ MDN-RNN VAE ¤ VAE ¤ ¤ ¤ Friston ¤ Wahlstr?m M V ¤ VRNN[Chung+ 15] 47
  • 48. Friston ¤ ¤ !"($) ¤ ¤ ¤ https://en.wikipedia.org/wiki/Free_energy_principle 164 第 9 章 考察 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = ?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 a は,(変分)自由エネルギーを最小化するように更新すると考える. ?φ = arg min φ F(x; φ, θ), ?a = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ 164 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけ Friston による自由エネルギー原理(free-energy principle) [Friston 10 ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分 また,負の周辺尤度の上界である変分自由エネルギー(負の変分下 ?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部 a は,(変分)自由エネルギーを最小化するように更新すると考える. ?φ = arg min φ F(x; φ, θ), ?a = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選 うことである.また,生成モデルのパラメータ θ については,上記の更新 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネ ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺 第 9 章 考察 デルは生成モデルによって実現される. を機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが 自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 いると考えている. 潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. 辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 自由エネルギーを最小化するように更新すると考える. ?φ = arg min φ F(x; φ, θ), ?a = arg min a F(x; φ, θ). の arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい .また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した . ギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる 164 第 9 章 考察 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = ?Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 a は,(変分)自由エネルギーを最小化するように更新すると考える. ?φ = arg min φ F(x; φ, θ), ?a = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ
  • 49. LeCun Y LeCun How Much Information Does the Machine Need to Predict? “Pure” Reinforcement Learning (cherry) The machine predicts a scalar reward given once in a while. A few bits for some samples Supervised Learning (icing) The machine predicts a category or a few numbers for each input Predicting human-supplied data 10 10,000 bits per sample→ Unsupervised/Predictive Learning (cake) The machine predicts any part of its input for any observed part. Predicts future frames in videos Millions of bits per sample (Yes, I know, this picture is slightly offensive to RL folks. But I’ll make it up)
  • 50. ¤ ¤ C ¤ ¤ PredNet [Lotter+ 16] ¤