�ݺ�ߣ

What is the World Model Algorithm?
Aug 29, 2018

Sooyoung Moon

2
World Model 전반적 모식도

3
World Model 전반적 모식도
만약 RNN파트가 없다면? 학습이 되긴 되나 RNN을 넣었을 때 더 잘 됨.

4
World Model 전반적 process (simple tasks ver.)
<Car Racing> Random Policy로 Exploration
Fake environment
Exploration & Flexibility
When training (M)When testing

When training (C)
5
<Car Racing>
Training
Simulate
1. Environment reset 처음에 obs 제공

2. Agent가 obs에 따라 random action을 취함

3. obs, reward, done, info = model.env.step(action)

4. [encoded_obs, action]가 rnn의 인풋으로 들어감

5. 하나의 z값과 h값이 나옴

6. Total reward += reward

7. 2번으로 돌아가 반복
Optimizing
CMA-ES: cma라는 optimizer
를 이용한 진화 알고리즘

Cumulative reward를 최대가
되게 하는 W, b 찾아줌

6
<VizDoom>
Random Policy로 Exploration
Fake environment
Exploration & Flexibility

World Model 전반적 process (complicated tasks ver.)
1. M,C 규정된 상태가 아니라 일단 랜덤값으로
파라미터를 초기화 한다.

2. 타임마다 저장하고 obs 저장 이걸 이용하여
M을 트레이닝.

3. action에 대한 reward, done 이런 부분들을
전부 모델링 하게 됨. 이 M을 옵티마이즈 하게끔
C를 트레이닝.

4. 이보다 더 복잡한 상황에서 M-C 트레이닝 해
야된다면 2번으로 돌아간다.

Loss function
Maximum likelihood loss function

01_generate_data.py
03_generate_rnn_data.py
04_train_rnn.py
Implementation ﬁles
02_train_vae.py
05_train_controller.py
python 01_generate_data.py car_racing --total_episodes 2000 --start_batch 0 --time_steps 300
python 02_train_vae.py --start_batch 0 --max_batch 9 --new_model
python 03_generate_rnn_data.py --start_batch 0 --max_batch 9
python 04_train_rnn.py --start_batch 0 --max_batch 9 --new_model
python 05_train_controller.py car_racing --num_worker 16 --num_worker_trial 2 --num_episode 4 --
max_length 1000 --eval_steps 25
!9

VAE 학습하여 latent space 만드는 역할
MDN-RNN 학습하여 sequential 정보 처리하는 역할
…
300 time steps
…
…
…
…
.

.

.
200 x 10 batches VAE
Weights.h5
01_generate_data.py
02_train_vae.py
03_generate_rnn_data.py
./vae/weights.h5
04_train_rnn.py
MDN-
RNN
Weights.h5
./rnn/weights.h5
!10

CMA-ES
CMA-ES가 어떤 것인지 직관적으로 이해하기
http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
05_train_controller.py
!11

Discussion
1. 제어가 강화학습에도 쓰인다.

2. 드림월드가 학습이 더 잘 될 수 있고 리얼 환경보다 못하지 않다.

3. 중요한 점: 리얼 환경은 비싸고 연산량 많은 것에 비해 굉장히 효율적이다. 연산량 자체가
적다.

4. World model는 simulation으로 차근차근 배운 것을 리얼 월드로 익힌 policy를 transfer
할 수 있기 때문에 전이 학습과 결합이 되어 효과적 지속적으로 학습 할 수 있음

5. 그 밖의 장점:

1. Controller model을 작게 만들었기 때문에 복잡한 알고리즘 쓰기 보다 상대적으로
연산하기 쉬운 es씀. 맨 마지막 ﬁnal cumulative reward만 가지고 optimizer 돌릴
수 있음.

2. ES의 장점인 병렬화 쉬워서 GPU에서 쓰기 좋아 하드웨어에 최적화된 RNN 구조를
쓸 수 있게 된다.

6. 단점:

1. capacity가 제한되어 있음. 계속적으로 continuous 데이터가 저장되기 때문에

2. RNN 쓰기 때문에 시간 지날수록 잊혀지는 catastrophic forgetting 문제를 해결할
수 없음.

• solution: small MDN-RNN을 크게 만들거나 external memory module을 쓸
수 없을까 등

7. 앞으로:

1. 브레이크아웃에 적용가능한지 체크해보면 좋을 것

2. 어떤 task에 쓰면 좋을지?
!12

�ݺ�ߣ

World model

Recommended

More Related Content

Similar to World model (20)

World model