�ݺ�ߣ

정 원석
Running A.I
1st 함께하는 딥러닝 컨퍼런스
06.28

소개
정원석
뉴욕시립대 - Baruch college (Data Science Major)
ConnexionAI Freelance Researcher
모두의연구소 CTRL (Contest in RL) 랩장
DeepLearningCollege 강화학습 연구원
Github:
https://github.com/wonseokjung
Facebook:
https://www.facebook.com/ws.jung.798
Blog:
https://wonseokjung.github.io/

1. Reinforcement Learning
2. Atari
3. SuperMario
4.Sonic
5.Prosthetics
6.Latest trend
순서
The Rise of Reinforcemet Learning
By Wonseok Jung

아기는 어떻게 배울까?
https://goo.gl/images/RQgtpW
아기가 자라면서, 주위를 바라보고, 팔을 들고, 노는 행동을
누군가가 가르쳐서 하는 것은 아닐것이다.
바라본다
만진다
웃는다
운다

아이가 학습하는 과정
일어나서 다가온다 칭찬 일어나서 다가온다
흙을 먹으려 한다. 꾸중 흙을 먹지 않는다

수학적인분석, 계산 실험
아이가 환경과 상호작용을 하며 배우는 방법과 같이
수학적인 분석과, computation 실험으로 학습하는 방법을
“Reinforcement learning(강화학습)”이라고 한다.

Reward를 최대로 하는 action 선택
https://goo.gl/images/HpBRJT
Reinforcement learning은 Reward(보상)을 최대화 하는 action(행동)을 선택한다.
1. 반지를 준다
2. 영화를 보자고 한다.
3.생각에 잠긴다.
4. 택시를 잡는다.
선택

Fail and Success
Learner(배우는자)는 여러 action을 해보며,  
reward를 가장 높게 받는 action을 찾는다.
https://goo.gl/images/GoHQYh

Reinforcement Learning
선택된 action이 당장의 reward 뿐만 아닌,
다음의 상황 또는 다음 일어나게 될 reward에도 영향을 끼칠수도 있다.
Action
당장의
상황 변화
미래의 상황
Reward 미래의 Reward

Exploration and Exploitation
Agent는 reward를 더 많이 받는 action을 선택하기 위해 exploitation을 해야 하지만,
여러가지 action을 골고루 해보며 많은 상황을 경험하기 위해서는 exploration을 해야한
다.
Agent
Exploitation
Exploration
?

Markov Decision process
Agent action Env
St At
Rt+1
St+1
Agent
St+1 ….
Agent는 MDP를 통해 env와 상호작용을 하며 배운다.

Atari
High dimensional state 
Discrete actions

Deeplearning
딥러닝의 등장인해 으로 high dimensional data를 input으로 받는것이 가능해졌다.

Deep learning+Reinforcement Learning
https://goo.gl/images/oNu5Gr
deep network와 reinforcement learning이 결합한 알고리즘

Deepmind, DQN
Deeplearning을 강화학습에 적용하여, 사람보다 플레이를 잘하는 인공지능을 만듬

Deep Q network Architecture
input
Action
value
EnvQ-Network
Replay memory
(St, At, Rt+1, St+1)
St
At
Q(st, at)
St+1 Rt+1

Atari에서 DQN의 한계
특정 환경에서만 퍼포먼스가 좋다

성능이 중 하위권인 환경
Skiing Chopper commandJamesBond
배경이 변하는 환경에서는 학습 성능이 떨어진다.

더 복잡한 state와 더 많은 action이 있는 환경에서는 ?

SuperMario
Discrete actions
Complex Environment

First challenge - SuperMario Bros
1985 Nintendo
강화학습으로 똑똑한 Mario를 만들어보자

벽돌깨기와 슈퍼마리오의 Goal의 비교
슈퍼마리오는 깃발을 잡는것이 목표벽돌을 모두 없애는 것이 목표

Reward - Breakout
State : 화면, [210, 260 , 3]
Action : None, 왼쪽, 오른쪽
Reward : 벽돌 격파
State
벽돌을 없앨수록 높은 Reward를 받는다.

Reward - 슈퍼마리오
State : 화면
Action : 상, 하 , 좌, 우,점프,달리기, action의 조합
Reward : 앞으로 전진할때 Reward +1, 뒤로가면 -1 
Transition Probability : 1
State
Action
도착지인 깃발에 가까이 갈수록 높은 reward를 받는다.

DQN을 사용하여 학습
input
Action
value
EnvQ-Network s’
s
Replay memory
Q(s,a)
a
r
(St, At, Rt+1, St+1)

계속되는 실패…
https://youtu.be/zRf_7Xa_MSE

Complexity
복잡성으로 인해 학습이 더욱 어렵다.

Reward 설정
목표달성하지 못하면 -
시간이 지날때마다 -
깃발에서 멀어지면 -
깃발에 가까워지면 +
목표에 도착하면 +
Penalty, Bonus reward추가

Deep learning model
VGG model and regular 비교
https://goo.gl/images/eoXooChttps://goo.gl/images/s8XrCK
더 깊게 쌓아보자

https://youtu.be/WlLBRsgSFt8
After
 
7000Episodes 
 
6 Days

각 Level의 화면이 다르기 때문에 General agent를 
만들기가 어렵다.
풀리지 않은 문제들

레벨 2를 학습시키는 도중..
Exploration??
https://youtu.be/EvyM4ZUhDpE

Sonic 
Discrete actions
More Complex Environment 
Skills

Third steps 
( more more complex state, 
more more actions )
OpenAI Retro challenge
OpenAI에서 개최한 Sonic Contest에 참여

Third steps 
( more more complex state, 
more more actions )
action의 조합 + skill 또한 복잡성이 높아짐
더 어려워진 난이도와 많아진 action 조합

최신 DQN 알고리즘을 사용��보자

To the Rainbow
2017년 10월 Deepmind에서 Rainbow DQN을 발표

https://github.com/wonseokjung/wonseokjung.github.io/blob/master/_posts/2018-05-23-RL-Totherb7.md
참고 :
https://wonseokjung.github.io//reinforcementlearning/update/RL-Totherb7/
+ 7.A3C

Deep Q network
input Env
Double DQN ,  
DIS
s’
s
Replay memory
Q(s,a)
a
r
Noisy
(Rt+1 + γt+1qθ(St+1, argmaxa′q(St) − qθ(St, At))2
Prioritized
replay
학습이 더 필요한
transitions을
sample
Multi-step learning

To the Rainbow-2
DQN계열의 알고리즘6개와 A3C를 조합하여 만든 강화학습 알고리즘이다.
SuperMario에 적용한 DQN알고리즘  
대비 엄청낭 상승

Atari환경에서의 성능비교

Rainbow를 사용하여 Sonic을 학습
Sonic -Rainbow DQN(with noisy network, epsilon =0 )
https://contest.openai.com/videos/132.mp4

상위 10%로 OpenAI 대회 마무리!

게임이 아닌 더 많은 action을 가진 agent도 
강화학습으로 학습이 가능할까 ?

A.I Prosthetics 
Continuous actions

Forth step
( Continuos action )
NIPS 2018 : AI for Prosthetics Challenge

Discrete Action Continuos Action
Action in Real world
DQN solved High dimensional state, but not continues action
https://twitter.com/iamruj

Two methods of choosing action
1. action-value :
- Learning the action value
- Estimate action value을 바탕으로 action을 선택한다.
- Policies would not even exist without the action-value estimates
2. Parameterized policy :
- select actions without consulting value function
- Value function still be used to learn policy parameter
- Value function이 action을 선택하는 기준으로 사용되지 않는다
J(θ) : Performance measure
qπ
(s, a) = Eπ[Gt ∣ St = s, At = a]

Discrete Action Continuos Action
Select action using PG Method
https://www.cs.ubc.ca/~gberseth/blog/demystifying-the-many-deep-reinforcement-learning-algorithms.html http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf
를 업데이트θ

Emergence of Locomotion Behaviours in Rich Environments
https://www.youtube.com/watch?v=hx_bgoTF7bs&t=98s

Community에 올라온 글중..

강화학습에서 풀어야할 문제들

DeepMimic
Reference Motion을 보
고 따라하는 에이전트
더이상 과음은 하지 않
도록..

https://www.youtube.com/watch?v=XCLSkFKTWyg
This virtual stuntman could improve video game physics

이런 시뮬레이션 환경을 개인이 만들수 있을까?

Unity ml-agent
Unity Machine Learning Agents를 사용하여 개인이 환경을 제작하는 것이 가능

Unity ml-agent
Imitation learning
https://www.youtube.com/watch?v=kpb8ZkMBFYs&feature=youtu.be
사람이 플레이한것을  
정답으로 학습

Unity ml-agent
Curriculum learning
Easy
Medium
Hard
Very easy
Very hard
https://youtu.be/vRPJAefVYEQ

1. Reinforcement Learning
2. Atari
3. SuperMario
4.Sonic
5.Prosthetics
6.Latest trend
Summary
The Rise of Reinforcemet Learning
By Wonseok Jung

감사합니다.
Github:
https://github.com/wonseokjung
Facebook:
https://www.facebook.com/ws.jung.798
Blog:
https://wonseokjung.github.io/

�ݺ�ߣ

Running ai

More Related Content

Running ai