際際滷

際際滷Share a Scribd company logo
???? ???? ??? ????
?? ???
RLCode
??
1. ?? ??
2. ? ??
3. ?????? ????
4. DQN ????
5. ???? ????
?? ??
?? ? ? ?
? ????? ????? ??
? ?????? DCULab ??
? ?????? ???? ???
? RLCode ??
? ???? ?????
?? ? ? ?
? ????? ????? ??? ??
? ???? ?? ?? ??
? ?????? ??
? ????? ????? ??
?? ? ? ?
? ????? ?????? ??
? ?????? ???? ???
? ??? ??? ?
?? ? ? ?
? ????? ??? ?? ??? ??
? ????? ?????? ??? ?
???? ??? ??
?? ? ? ?
? ????? ??? ?? ??
? DeepCoding ?? ??
? ?? ?????? ????? ??
?? ??
RLCode
Reinforcement Learning Code
? ??
???? ???? ??? ????
http://wikibook.co.kr/reinforcement-learning/
? ?? ?? ????
??????
? DCULab ??????
PID ?? ?? ??? ?? ????? ????
??????
? David Silver? RL Course ??
https://www.youtube.com/watch?v=2pWv7GOvuf0
??????
? ????? ???? ???
gitbook
? ??? ????? ??
??? ? ??? ? ?? ? ?
?? = ?? + ??
?? = ?? + ??
??? ?? ? ?? ??? ?? ?? ?????!
?? ??? ??
? ????? ??? ??
? ????? ?? ???? ??: MDP, ?? ???, ???? ?????
? ?? ???? ????: ?????, ??, ???
? ?????? ??? ???? ????: ???, REINFORCE, DQN, ??-???, A3C
? ???? ???? ?? ? ??: ?????, ???, ?????
?????? ????
????? ??
???? ? DeepMind ? AlphaGo
http://www.popsci.com/googles-alphago-ai-defeats-lee-se-dol-at-game-go
????? ??
DeepMind ? Atari ? DQN
?? ???? ?? ????? ?? ??
????? ??
Atari Breakout ?? ??
1000 ???? ?? ? 3000 ???? ?? ? 5000 ???? ?? ?
?????? ????
? ???? ? ??
??? ?? ??? ?? ?? ? ??
??? ?? ??? ?
? ??? ????? ??? ????
??? ??! [????, ??] [??, ??, ??]
???? ? ??? ??, ??? ??, ????
an autonomous, goal-directed entity which observes and acts upon an
environment - ?????
?? ? ????? ??? ???
???? ???? ??? ?? ?? ???? ??? ? ?? ??? ??
??? ???
??(state), ??(reward)
??(s) ? ?? ??? ???? ??
????? ??? ??? ???? ??, ??, ???? ?? ??? ??
??(r) ? ??? ?? ??? ???? ??
??? ????? ????? ?? ??? ?? ??? ?? ??
https://www.intelnervana.com/demystifying-deep-reinforcement-learning/
????? ??? ???? ??
1. ????? ???? ??? ??? ??
2. ? ???? ??? ??? ?? ??? ??
3. ??? ??? ???? ??
4. ?????? ?? ??? ??? ??
5. ??? ?? ????? ?? ??? ???
?0, ?0, ?1, ?1, ?1, ?2, ? , ? ?
??? ??? ???
?? ??? ?? ? ????(Value function)
???? (Value function)
? ?? ???? ???? ???? ??? ??????
? ???? ?? ???? ???? ????
???? (Value function)
? ??? ???(delay)??
? ?? ??? ? ??? ?? ??? ???? ??
???? ??? ?? ??? ? ? ????
?? ?? = t
??? ? = ??+1 + ??+2 + ? + ? ?
???? (Value function)
? ? ?? ??? ? ???? ??(discount factor)
0.1 + 0.1 + ? = ±
1 + 1 + ? = ±
??? ? = ??+1 + ???+2 + ? + ? ????1 ? ?
??? 0 + ? + 1
????(Value function)
? ??? ?? ??? ?? ????´.? ??? ?? ??? ??? ???
?? ???? ??? ?? ??? ???? ??? ? = ????
???? ?(?) = ? ??+1 + ???+2 + ? |?? = ?
???(Q function)
? ??? ?? ?? ?? ? `?? ??? ???¨???
?? ???? ? ??? ???? ? ??? ?? ??? ???? ??? ?
= ???
??? ?(?, ?) = ? ??+1 + ???+2 + ? |?? = ?, ? ? = ?
??(Policy)
? ??? ?? ?? ? ?? ??? ??? ???? ??? ?
? ? ???? ????? ??? ??? ?? ?? ??
?? s?? ?? a? ??? ??
??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ?
???? ? ?(?) = ? ? ??+1 + ???+2 + ? |?? = ?
?? ?(?|?) = ? ? ? = ?|?? = ?
???? ?? ??? ??? ???
?? ? ? ??
????(greedy policy)
? ?? ???? ??? ? ?? ?? ?? ???? ?? ?? ??? ??
???? ?>(?) = ?????? ? ? ?(?, ?)
??? ??? ???? ????
?? ???(Bellman equation)
? ????? ?? (??, ??)? ??? ???? ??? ? ??? ??
? ???? ??? ???? ?? ????? ???? ??? ? ?? ????
??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ?
?? ? ??? ??? ??? ????? ??? ??? ??? ???? ??? ??? ??
? ?(?, ?) = ? ? ??+1 + ?(??+2 + ? )|?? = ?, ? ? = ?
? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ?
?? ?? ???(Bellman expectation equation)
??(SARSA)
? ?? ?? ??? ? ??? ???? ?
?? ??? ? ?? + ??? X ?? ???
??? ??? ??? ????? ??? ?????? ????? ??
? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ?
? ?, ? ○ ? + ?? ?(?>, ?>)
???? ???? ????
? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
??(SARSA)
? ?? ???? ?????? ???? (s, a, r, s¨, a¨)? ??
? ??(SARSA)
? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
? ? ????
? ?? ??? Exploration problem ? ??? ??? ???? ?? ??
? ????? ?(?) = ?
??
= ?????? ? ?(?, ?), 1 ? ?
? 』 ??, ?
???? ?>(?) = ?????? ? ? ?(?, ?)
???(Q-Learning)
? ?? ??? ???? ?? ?? ??? ?????
? ?? ??? ??? ?? ?? ? ???? ???? ?? ???? ????
(Q-Learning)
? ?, ? = ? ?, ? + ?(? + ? max
?>
?(?>, ?>) ? ? ?, ? )
???(Q-Learning)
? ?, ? = ? ?, ? + ?(? + ? max
?>
?(?>, ?>) ? ? ?, ? )
?????? ???
1. ?? ???? ?-?? ??? ?? ??? ??
2. ??? ???? ???? ? ????? ??
3. ?????? ??? ?? ??? ??
4. ?? ???? ? -?? ??? ?? ?? ??? ??
5. (s, a, r, s¨)? ?? ???? ????
https://github.com/rlcode/reinforcement-learning-kr/tree/master/1-grid-world/5-q-learning
DQN ????
??????(Breakout)
? ??, ??, ??
? ?? : ???, ?, ?, (??)
? ?? : ?? ? ??? ??? ??? ? ?? ??? ???
? ? ??? ??
? ?? ?? : 1 ?????? ????? 5?? ??? ??
? ?? : 1 ???? ?? ??? ?? ??
??????(Breakout)
? ??????? ??? ????? RGB ???
?? ??? ???? ? ???? ?????? ????? ???
??????(Breakout)
? ??????? ??? ????? RGB ??? 4??? ???? ????
??????(Breakout)
? ???? ??????? ????!
??(????) ? ?-??? ? ? ??? ?? ??? ?
??????(Breakout)
? ?????? ???? ??? ??
Rescale + grayscale
????? ????
? ???? ??? ???? ?
? ?, ? = ? ?, ? + ?(? + ? max
?>
?(?>, ?>) ? ? ?, ? )
????? ????
????? ????
? (?? C ??)? ??? ???? ?????? ???
? ?????? ????
????? ????
? ???? ??? ???? ?
? ???? ?????(parameter ?)? ??
? ???? ?? ???? ??? ?????? ????(MSE loss function)
? ?, ? = ? ?, ? + ?(? + ? max
?>
?(?>, ?>) ? ? ?, ? )
? ? ?, ? = ? ? ?, ? + ?(? + ? max
?>
? ? ?>, ?> ? ? ? ?, ? )
??? = ? + ? max
?>
? ? ?>, ?> ? ? ? ?, ?
2
?? ??
????? ????
? ?-??? ????
????? ????
??? = ? + ? max
?>
? ? ?>, ?> ? ? ? ?, ?
2
DQN
? DQN? ?? :
(1) CNN
(2) Experience Replay
(3) Target q-network
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
CNN
? ??? ??(??)? ??
?? ????? ?? ???? ???? ?? ??
https://en.wikipedia.org/wiki/Kernel_(image_processing)
CNN
? ???? ?? ?? ??? ??? ????!
DQN? CNN ??? ??? ??
Experience Replay
? (s, a, r, s¨)?? ????? ??? ? ???? ???
Target q-network
? ???? ??? ?? ??? ???? ???? ??
?? ?-???(??)?? ???
? ?? ?-???? ??? ???? ????
??? = ? + ? max
?>
? ?? ?>, ?> ? ? ? ?, ?
2
Deep Q-Learning
1. ??? ?? ?? ??
2. ??? ???? ???? ? ????? ??
3. ?????? ?? ??? ??? ??
4. ??(s, a, r, s¨)? ???? ???? ??
5. ???? ????? ???? ??? 32?? ??? ??
6. 50000 ?????? ?????? ????
??? ????
??? ??? ??? ?? ??? ??
???? ????
????? ??
? ???? ???
? ??? ??
https://www.youtube.com/watch?v=cYTVXfIH0MU http://www.maluuba.com/blog/2016/11/23/deep-
reinforcement-learning-in-dialogue-systems
????? ??
? ??? ???
? ???? ???? ??? ??? ??? ?? ????
? Safe?? ??
? ??? ??? ????? ???
? ??? ??? ????? ???? ??
????? ?? ??
? No MDP
? Hierarchy
? Multi-agent
? Efficient learning
? Supervised Learning? ??? ?? ? ???? ????? ??
?????

More Related Content

???? ???? ??? ???? ????

  • 1. ???? ???? ??? ???? ?? ??? RLCode
  • 2. ?? 1. ?? ?? 2. ? ?? 3. ?????? ???? 4. DQN ???? 5. ???? ????
  • 4. ?? ? ? ? ? ????? ????? ?? ? ?????? DCULab ?? ? ?????? ???? ??? ? RLCode ?? ? ???? ?????
  • 5. ?? ? ? ? ? ????? ????? ??? ?? ? ???? ?? ?? ?? ? ?????? ?? ? ????? ????? ??
  • 6. ?? ? ? ? ? ????? ?????? ?? ? ?????? ???? ??? ? ??? ??? ?
  • 7. ?? ? ? ? ? ????? ??? ?? ??? ?? ? ????? ?????? ??? ? ???? ??? ?? ?? ? ? ? ? ????? ??? ?? ?? ? DeepCoding ?? ?? ? ?? ?????? ????? ?? ?? ??
  • 10. ???? ???? ??? ???? http://wikibook.co.kr/reinforcement-learning/
  • 11. ? ?? ?? ????
  • 12. ?????? ? DCULab ?????? PID ?? ?? ??? ?? ????? ????
  • 13. ?????? ? David Silver? RL Course ?? https://www.youtube.com/watch?v=2pWv7GOvuf0
  • 16. ??? ? ??? ? ?? ? ? ?? = ?? + ?? ?? = ?? + ?? ??? ?? ? ?? ??? ?? ?? ?????!
  • 17. ?? ??? ?? ? ????? ??? ?? ? ????? ?? ???? ??: MDP, ?? ???, ???? ????? ? ?? ???? ????: ?????, ??, ??? ? ?????? ??? ???? ????: ???, REINFORCE, DQN, ??-???, A3C ? ???? ???? ?? ? ??: ?????, ???, ?????
  • 19. ????? ?? ???? ? DeepMind ? AlphaGo http://www.popsci.com/googles-alphago-ai-defeats-lee-se-dol-at-game-go
  • 20. ????? ?? DeepMind ? Atari ? DQN ?? ???? ?? ????? ?? ??
  • 21. ????? ?? Atari Breakout ?? ?? 1000 ???? ?? ? 3000 ???? ?? ? 5000 ???? ?? ?
  • 22. ?????? ???? ? ???? ? ?? ??? ?? ??? ?? ?? ? ??
  • 23. ??? ?? ??? ? ? ??? ????? ??? ???? ??? ??! [????, ??] [??, ??, ??]
  • 24. ???? ? ??? ??, ??? ??, ???? an autonomous, goal-directed entity which observes and acts upon an environment - ?????
  • 25. ?? ? ????? ??? ??? ???? ???? ??? ?? ?? ???? ??? ? ?? ??? ??
  • 27. ??(s) ? ?? ??? ???? ?? ????? ??? ??? ???? ??, ??, ???? ?? ??? ??
  • 28. ??(r) ? ??? ?? ??? ???? ?? ??? ????? ????? ?? ??? ?? ??? ?? ?? https://www.intelnervana.com/demystifying-deep-reinforcement-learning/
  • 29. ????? ??? ???? ?? 1. ????? ???? ??? ??? ?? 2. ? ???? ??? ??? ?? ??? ?? 3. ??? ??? ???? ?? 4. ?????? ?? ??? ??? ?? 5. ??? ?? ????? ?? ??? ??? ?0, ?0, ?1, ?1, ?1, ?2, ? , ? ?
  • 30. ??? ??? ??? ?? ??? ?? ? ????(Value function)
  • 31. ???? (Value function) ? ?? ???? ???? ???? ??? ?????? ? ???? ?? ???? ???? ????
  • 32. ???? (Value function) ? ??? ???(delay)?? ? ?? ??? ? ??? ?? ??? ???? ?? ???? ??? ?? ??? ? ? ???? ?? ?? = t ??? ? = ??+1 + ??+2 + ? + ? ?
  • 33. ???? (Value function) ? ? ?? ??? ? ???? ??(discount factor) 0.1 + 0.1 + ? = ± 1 + 1 + ? = ± ??? ? = ??+1 + ???+2 + ? + ? ????1 ? ? ??? 0 + ? + 1
  • 34. ????(Value function) ? ??? ?? ??? ?? ????´.? ??? ?? ??? ??? ??? ?? ???? ??? ?? ??? ???? ??? ? = ???? ???? ?(?) = ? ??+1 + ???+2 + ? |?? = ?
  • 35. ???(Q function) ? ??? ?? ?? ?? ? `?? ??? ???¨??? ?? ???? ? ??? ???? ? ??? ?? ??? ???? ??? ? = ??? ??? ?(?, ?) = ? ??+1 + ???+2 + ? |?? = ?, ? ? = ?
  • 36. ??(Policy) ? ??? ?? ?? ? ?? ??? ??? ???? ??? ? ? ? ???? ????? ??? ??? ?? ?? ?? ?? s?? ?? a? ??? ?? ??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ? ???? ? ?(?) = ? ? ??+1 + ???+2 + ? |?? = ? ?? ?(?|?) = ? ? ? = ?|?? = ?
  • 37. ???? ?? ??? ??? ??? ?? ? ? ??
  • 38. ????(greedy policy) ? ?? ???? ??? ? ?? ?? ?? ???? ?? ?? ??? ?? ???? ?>(?) = ?????? ? ? ?(?, ?)
  • 39. ??? ??? ???? ????
  • 40. ?? ???(Bellman equation) ? ????? ?? (??, ??)? ??? ???? ??? ? ??? ?? ? ???? ??? ???? ?? ????? ???? ??? ? ?? ???? ??? ? ?(?, ?) = ? ? ??+1 + ???+2 + ? |?? = ?, ? ? = ? ?? ? ??? ??? ??? ????? ??? ??? ??? ???? ??? ??? ?? ? ?(?, ?) = ? ? ??+1 + ?(??+2 + ? )|?? = ?, ? ? = ? ? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ? ?? ?? ???(Bellman expectation equation)
  • 41. ??(SARSA) ? ?? ?? ??? ? ??? ???? ? ?? ??? ? ?? + ??? X ?? ??? ??? ??? ??? ????? ??? ?????? ????? ?? ? ?(?, ?) = ? ? ??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ? ? ?, ? ○ ? + ?? ?(?>, ?>) ???? ???? ???? ? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
  • 42. ??(SARSA) ? ?? ???? ?????? ???? (s, a, r, s¨, a¨)? ?? ? ??(SARSA) ? ?, ? = ? ?, ? + ?(? + ?? ?>, ?> ? ? ?, ? )
  • 43. ? ? ???? ? ?? ??? Exploration problem ? ??? ??? ???? ?? ?? ? ????? ?(?) = ? ?? = ?????? ? ?(?, ?), 1 ? ? ? 』 ??, ? ???? ?>(?) = ?????? ? ? ?(?, ?)
  • 44. ???(Q-Learning) ? ?? ??? ???? ?? ?? ??? ????? ? ?? ??? ??? ?? ?? ? ???? ???? ?? ???? ???? (Q-Learning) ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? )
  • 45. ???(Q-Learning) ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? )
  • 46. ?????? ??? 1. ?? ???? ?-?? ??? ?? ??? ?? 2. ??? ???? ???? ? ????? ?? 3. ?????? ??? ?? ??? ?? 4. ?? ???? ? -?? ??? ?? ?? ??? ?? 5. (s, a, r, s¨)? ?? ???? ???? https://github.com/rlcode/reinforcement-learning-kr/tree/master/1-grid-world/5-q-learning
  • 48. ??????(Breakout) ? ??, ??, ?? ? ?? : ???, ?, ?, (??) ? ?? : ?? ? ??? ??? ??? ? ?? ??? ??? ? ? ??? ?? ? ?? ?? : 1 ?????? ????? 5?? ??? ?? ? ?? : 1 ???? ?? ??? ?? ??
  • 49. ??????(Breakout) ? ??????? ??? ????? RGB ??? ?? ??? ???? ? ???? ?????? ????? ???
  • 50. ??????(Breakout) ? ??????? ??? ????? RGB ??? 4??? ???? ????
  • 51. ??????(Breakout) ? ???? ??????? ????! ??(????) ? ?-??? ? ? ??? ?? ??? ?
  • 52. ??????(Breakout) ? ?????? ???? ??? ?? Rescale + grayscale
  • 53. ????? ???? ? ???? ??? ???? ? ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? ) ????? ????
  • 54. ????? ???? ? (?? C ??)? ??? ???? ?????? ??? ? ?????? ????
  • 55. ????? ???? ? ???? ??? ???? ? ? ???? ?????(parameter ?)? ?? ? ???? ?? ???? ??? ?????? ????(MSE loss function) ? ?, ? = ? ?, ? + ?(? + ? max ?> ?(?>, ?>) ? ? ?, ? ) ? ? ?, ? = ? ? ?, ? + ?(? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? ) ??? = ? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? 2 ?? ??
  • 56. ????? ???? ? ?-??? ???? ????? ???? ??? = ? + ? max ?> ? ? ?>, ?> ? ? ? ?, ? 2
  • 57. DQN ? DQN? ?? : (1) CNN (2) Experience Replay (3) Target q-network https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
  • 58. CNN ? ??? ??(??)? ?? ?? ????? ?? ???? ???? ?? ?? https://en.wikipedia.org/wiki/Kernel_(image_processing)
  • 59. CNN ? ???? ?? ?? ??? ??? ????! DQN? CNN ??? ??? ??
  • 60. Experience Replay ? (s, a, r, s¨)?? ????? ??? ? ???? ???
  • 61. Target q-network ? ???? ??? ?? ??? ???? ???? ?? ?? ?-???(??)?? ??? ? ?? ?-???? ??? ???? ???? ??? = ? + ? max ?> ? ?? ?>, ?> ? ? ? ?, ? 2
  • 62. Deep Q-Learning 1. ??? ?? ?? ?? 2. ??? ???? ???? ? ????? ?? 3. ?????? ?? ??? ??? ?? 4. ??(s, a, r, s¨)? ???? ???? ?? 5. ???? ????? ???? ??? 32?? ??? ?? 6. 50000 ?????? ?????? ????
  • 63. ??? ???? ??? ??? ??? ?? ??? ??
  • 65. ????? ?? ? ???? ??? ? ??? ?? https://www.youtube.com/watch?v=cYTVXfIH0MU http://www.maluuba.com/blog/2016/11/23/deep- reinforcement-learning-in-dialogue-systems
  • 66. ????? ?? ? ??? ??? ? ???? ???? ??? ??? ??? ?? ???? ? Safe?? ?? ? ??? ??? ????? ??? ? ??? ??? ????? ???? ??
  • 67. ????? ?? ?? ? No MDP ? Hierarchy ? Multi-agent ? Efficient learning ? Supervised Learning? ??? ?? ? ???? ????? ??
  • 68. ?????