際際滷
Submit Search
???? ???? ??? ???? ????
?
47 likes
?
18,881 views
Woong won Lee
Follow
????????? ?? ?? ?? ??
Read less
Read more
1 of 68
Download now
Downloaded 736 times
More Related Content
???? ???? ??? ???? ????
1.
???? ???? ???
???? ?? ??? RLCode
2.
?? 1. ?? ?? 2.
? ?? 3. ?????? ???? 4. DQN ???? 5. ???? ????
3.
?? ??
4.
?? ? ?
? ? ????? ????? ?? ? ?????? DCULab ?? ? ?????? ???? ??? ? RLCode ?? ? ???? ?????
5.
?? ? ?
? ? ????? ????? ??? ?? ? ???? ?? ?? ?? ? ?????? ?? ? ????? ????? ??
6.
?? ? ?
? ? ????? ?????? ?? ? ?????? ???? ??? ? ??? ??? ?
7.
?? ? ?
? ? ????? ??? ?? ??? ?? ? ????? ?????? ??? ? ???? ??? ?? ?? ? ? ? ? ????? ??? ?? ?? ? DeepCoding ?? ?? ? ?? ?????? ????? ?? ?? ??
8.
RLCode Reinforcement Learning Code
9.
? ??
10.
???? ???? ???
???? http://wikibook.co.kr/reinforcement-learning/
11.
? ?? ??
????
12.
?????? ? DCULab ?????? PID
?? ?? ??? ?? ????? ????
13.
?????? ? David Silver?
RL Course ?? https://www.youtube.com/watch?v=2pWv7GOvuf0
14.
?????? ? ????? ????
???
15.
gitbook ? ??? ?????
??
16.
??? ? ???
? ?? ? ? ?? = ?? + ?? ?? = ?? + ?? ??? ?? ? ?? ??? ?? ?? ?????!
17.
?? ??? ?? ?
????? ??? ?? ? ????? ?? ???? ??: MDP, ?? ???, ???? ????? ? ?? ???? ????: ?????, ??, ??? ? ?????? ??? ???? ????: ???, REINFORCE, DQN, ??-???, A3C ? ???? ???? ?? ? ??: ?????, ???, ?????
18.
?????? ????
19.
????? ?? ???? ?
DeepMind ? AlphaGo http://www.popsci.com/googles-alphago-ai-defeats-lee-se-dol-at-game-go
20.
????? ?? DeepMind ?
Atari ? DQN ?? ???? ?? ????? ?? ??
21.
????? ?? Atari Breakout
?? ?? 1000 ???? ?? ? 3000 ???? ?? ? 5000 ???? ?? ?
22.
?????? ???? ? ????
? ?? ??? ?? ??? ?? ?? ? ??
23.
??? ?? ???
? ? ??? ????? ??? ???? ??? ??! [????, ??] [??, ??, ??]
24.
???? ? ???
??, ??? ??, ???? an autonomous, goal-directed entity which observes and acts upon an environment - ?????
25.
?? ? ?????
??? ??? ???? ???? ??? ?? ?? ???? ??? ? ?? ??? ??
26.
??? ??? ??(state), ??(reward)
27.
??(s) ? ??
??? ???? ?? ????? ??? ??? ???? ??, ??, ???? ?? ??? ??
28.
??(r) ? ???
?? ??? ???? ?? ??? ????? ????? ?? ??? ?? ??? ?? ?? https://www.intelnervana.com/demystifying-deep-reinforcement-learning/
29.
????? ??? ????
?? 1. ????? ???? ??? ??? ?? 2. ? ???? ??? ??? ?? ??? ?? 3. ??? ??? ???? ?? 4. ?????? ?? ??? ??? ?? 5. ??? ?? ????? ?? ??? ??? ?0, ?0, ?1, ?1, ?1, ?2, ? , ? ?
30.
??? ??? ??? ??
??? ?? ? ????(Value function)
31.
???? (Value function) ?
?? ???? ???? ???? ??? ?????? ? ???? ?? ???? ???? ????
32.
???? (Value function) ?
??? ???(delay)?? ? ?? ??? ? ??? ?? ??? ???? ?? ???? ??? ?? ??? ? ? ???? ?? ?? = t ??? ? = ??+1 + ??+2 + ? + ? ?
33.
???? (Value function) ?
? ?? ??? ? ???? ??(discount factor) 0.1 + 0.1 + ? = ± 1 + 1 + ? = ± ??? ? = ??+1 + ???+2 + ? + ? ????1 ? ? ??? 0 + ? + 1
34.
????(Value function) ? ???
?? ??? ?? ????´.? ??? ?? ??? ??? ??? ?? ???? ??? ?? ??? ???? ??? ? = ???? ???? ?(?) = ? ??+1 + ???+2 + ? |?? = ?
35.
???(Q function) ? ???
?? ?? ?? ? `?? ??? ???¨??? ?? ???? ? ??? ???? ? ??? ?? ??? ???? ??? ? = ??? ??? ?(?, ?) = ? ??+1 + ???+2 + ? |?? = ?, ? ? = ?
36.
??(Policy) ? ??? ??
?? ? ?? ??? ??? ???? ??? ? ? ? ???? ????? ??? ??? ?? ?? ?? ?? s?? ?? a? ??? ?? ??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ? ???? ? ?(?) = ? ? ??+1 + ???+2 + ? |?? = ? ?? ?(?|?) = ? ? ? = ?|?? = ?
37.
???? ?? ???
??? ??? ?? ? ? ??
38.
????(greedy policy) ? ??
???? ??? ? ?? ?? ?? ???? ?? ?? ??? ?? ???? ?>(?) = ?????? ? ? ?(?, ?)
39.
??? ??? ????
????
40.
?? ???(Bellman equation) ?
????? ?? (??, ??)? ??? ???? ??? ? ??? ?? ? ???? ??? ???? ?? ????? ???? ??? ? ?? ???? ??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ? ?? ? ??? ??? ??? ????? ??? ??? ??? ???? ??? ??? ?? ? ?(?, ?) = ? ? ??+1 + ?(??+2 + ? )|?? = ?, ? ? = ? ? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ? ?? ?? ???(Bellman expectation equation)
41.
??(SARSA) ? ?? ??
??? ? ??? ???? ? ?? ??? ? ?? + ??? X ?? ??? ??? ??? ??? ????? ??? ?????? ????? ?? ? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ? ? ?, ? ○ ? + ?? ?(?>, ?>) ???? ???? ???? ? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
42.
??(SARSA) ? ?? ????
?????? ???? (s, a, r, s¨, a¨)? ?? ? ??(SARSA) ? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
43.
? ? ???? ?
?? ??? Exploration problem ? ??? ??? ???? ?? ?? ? ????? ?(?) = ? ?? = ?????? ? ?(?, ?), 1 ? ? ? 』 ??, ? ???? ?>(?) = ?????? ? ? ?(?, ?)
44.
???(Q-Learning) ? ?? ???
???? ?? ?? ??? ????? ? ?? ??? ??? ?? ?? ? ???? ???? ?? ???? ???? (Q-Learning) ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? )
45.
???(Q-Learning) ? ?, ?
= ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? )
46.
?????? ??? 1. ??
???? ?-?? ??? ?? ??? ?? 2. ??? ???? ???? ? ????? ?? 3. ?????? ??? ?? ??? ?? 4. ?? ???? ? -?? ??? ?? ?? ??? ?? 5. (s, a, r, s¨)? ?? ???? ???? https://github.com/rlcode/reinforcement-learning-kr/tree/master/1-grid-world/5-q-learning
47.
DQN ????
48.
??????(Breakout) ? ??, ??,
?? ? ?? : ???, ?, ?, (??) ? ?? : ?? ? ??? ??? ??? ? ?? ??? ??? ? ? ??? ?? ? ?? ?? : 1 ?????? ????? 5?? ??? ?? ? ?? : 1 ???? ?? ??? ?? ??
49.
??????(Breakout) ? ??????? ???
????? RGB ??? ?? ??? ???? ? ???? ?????? ????? ???
50.
??????(Breakout) ? ??????? ???
????? RGB ??? 4??? ???? ????
51.
??????(Breakout) ? ???? ???????
????! ??(????) ? ?-??? ? ? ??? ?? ??? ?
52.
??????(Breakout) ? ?????? ????
??? ?? Rescale + grayscale
53.
????? ???? ? ????
??? ???? ? ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? ) ????? ????
54.
????? ???? ? (??
C ??)? ??? ???? ?????? ??? ? ?????? ????
55.
????? ???? ? ????
??? ???? ? ? ???? ?????(parameter ?)? ?? ? ???? ?? ???? ??? ?????? ????(MSE loss function) ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? ) ? ? ?, ? = ? ? ?, ? + ?(? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? ) ??? = ? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? 2 ?? ??
56.
????? ???? ? ?-???
???? ????? ???? ??? = ? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? 2
57.
DQN ? DQN? ??
: (1) CNN (2) Experience Replay (3) Target q-network https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
58.
CNN ? ??? ??(??)?
?? ?? ????? ?? ???? ???? ?? ?? https://en.wikipedia.org/wiki/Kernel_(image_processing)
59.
CNN ? ???? ??
?? ??? ??? ????! DQN? CNN ??? ??? ??
60.
Experience Replay ? (s,
a, r, s¨)?? ????? ??? ? ???? ???
61.
Target q-network ? ????
??? ?? ??? ???? ???? ?? ?? ?-???(??)?? ??? ? ?? ?-???? ??? ???? ???? ??? = ? + ? max ?> ? ?? ?>, ?> ? ? ? ?, ? 2
62.
Deep Q-Learning 1. ???
?? ?? ?? 2. ??? ???? ???? ? ????? ?? 3. ?????? ?? ??? ??? ?? 4. ??(s, a, r, s¨)? ???? ???? ?? 5. ???? ????? ???? ??? 32?? ??? ?? 6. 50000 ?????? ?????? ????
63.
??? ???? ??? ???
??? ?? ??? ??
64.
???? ????
65.
????? ?? ? ????
??? ? ??? ?? https://www.youtube.com/watch?v=cYTVXfIH0MU http://www.maluuba.com/blog/2016/11/23/deep- reinforcement-learning-in-dialogue-systems
66.
????? ?? ? ???
??? ? ???? ???? ??? ??? ??? ?? ???? ? Safe?? ?? ? ??? ??? ????? ??? ? ??? ??? ????? ???? ??
67.
????? ?? ?? ?
No MDP ? Hierarchy ? Multi-agent ? Efficient learning ? Supervised Learning? ??? ?? ? ???? ????? ??
68.
?????
Download