강화학습의 개요Dongmin Lee안녕하세요.
강화학습을 공부하면서 처음 접하시는 분들을 위해 ppt로 '강화학습의 개요'에 대해서 정리했습니다.
동물이 학습하는 것과 똑같이 시행착오를 겪으면서 학습하는 강화학습은 기계학습 분야에서 상당히 매력적이라고 생각합니다.
https://www.youtube.com/watch?v=PQtDTdDr8vs&feature=youtu.be
위의 링크는 스키너의 쥐 실험 영상입니다.
감사니다.
파이썬으로 나만의 강화학습 환경 만들기정주 김인공지능 분야에서 강화학습은 중요한 방법론으로 떠오르고 있습니다. 이 발표에서는 강화학습의 기본 개념과 강화학습 연구용 툴킷인 OpenAI Gym에 대해 소개하고, 파이썬으로 직접 강화학습 환경을 만들고 학습시키는 방법에 대해서 알아보겠습니다.
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim발표 영상 : https://goo.gl/jrKrvf
데모 영상 : https://youtu.be/exXD6wJLJ6s
Deep Q-Network, Double Q-learning, Dueling Network 등의 기술을 소개하며, hyperparameter, debugging, ensemble 등의 엔지니어링으로 성능을 끌어 올린 과정을 공유합니다.
ddpg seminar민재 정This document provides an overview of deep deterministic policy gradient (DDPG), which combines aspects of DQN and policy gradient methods to enable deep reinforcement learning with continuous action spaces. It summarizes DQN and its limitations for continuous domains. It then explains policy gradient methods like REINFORCE, actor-critic, and deterministic policy gradient (DPG) that can handle continuous action spaces. DDPG adopts key elements of DQN like experience replay and target networks, and models the policy as a deterministic function like DPG, to apply deep reinforcement learning to complex continuous control tasks.
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin LeeI reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
Introduction of Deep Reinforcement LearningNAVER Engineering발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
Safe Reinforcement LearningDongmin Lee안녕하세요. 이동민입니다. :)
2018. 8. 9일에 한국항공우주연구원에서 발표한 "Safe Reinforcement Learning" 발표 자료입니다.
목차는 다음과 같습니다.
1. Reinforcement Learning
2. Safe Reinforcement Learning
3. Optimization Criterion
4. Exploration Process
강화학습 계속 공부하면서 실제로 많은 분들이 쓸 수 있게 하려면 더 안전하고 빨라야한다는 생각이 들었습니다. 그래서 이에 관련하여 논문과 각종 자료들로 공부하여 발표하였습니다.
많은 분들께 도움이 되었으면 좋겠습니다. 감사니다!
Doing Deep Reinforcement learning with PPO이 의령GDG Devfest 2017에서 진행된 Doing Deep Reinforcement learning with PPO 발표자료 입니다. Policy gradient, Actor-critic, PPO까지 개념설명 후 Roboschool로 코드랩을 진행하였습니다.
알아두면 쓸데있는 신기한 강화학습 NAVER 2017Taehoon Kim발표 영상: http://tv.naver.com/v/2051482
PDF를 받아서 보셔야 깨끗하게 보입니다.
최근 강화학습 트렌드를 다섯 가지로 나눠 설명하고, 데브시스터즈에서 풀고 있는 세 가지 강화학습 문제들을 공유합니다.
Q Learning과 CNN을 이용한 Object Localization홍배 김Active Object Localization with Deep Reinforcement Learning을 설명하는 일본 관동 컴퓨터비젼 스터디모임의 다꾸야박사의 자료를 번역. 주로 Q Learning의 기본 개념과 실제 적용을 이해하기 쉽게 설명.
LinkedIn talk at Netflix ML Platform meetup Sep 2019Faisal SiddiqiIn this talk at the Netflix Machine Learning Platform Meetup on 12 Sep 2019, Kinjal Basu from LinkedIn discussed Online Parameter Selection for web-based Ranking vis Bayesian Optimization
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO딥 러닝 자연어 처리를 공부하면서 여러가지 기법들을 파워 포인트 그림으로 그려보았습니다. 참고하시라고 업로드합니다.
감사니다.
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim발표 영상 : https://goo.gl/jrKrvf
데모 영상 : https://youtu.be/exXD6wJLJ6s
Deep Q-Network, Double Q-learning, Dueling Network 등의 기술을 소개하며, hyperparameter, debugging, ensemble 등의 엔지니어링으로 성능을 끌어 올린 과정을 공유합니다.
ddpg seminar민재 정This document provides an overview of deep deterministic policy gradient (DDPG), which combines aspects of DQN and policy gradient methods to enable deep reinforcement learning with continuous action spaces. It summarizes DQN and its limitations for continuous domains. It then explains policy gradient methods like REINFORCE, actor-critic, and deterministic policy gradient (DPG) that can handle continuous action spaces. DDPG adopts key elements of DQN like experience replay and target networks, and models the policy as a deterministic function like DPG, to apply deep reinforcement learning to complex continuous control tasks.
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin LeeI reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
Introduction of Deep Reinforcement LearningNAVER Engineering발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
Safe Reinforcement LearningDongmin Lee안녕하세요. 이동민입니다. :)
2018. 8. 9일에 한국항공우주연구원에서 발표한 "Safe Reinforcement Learning" 발표 자료입니다.
목차는 다음과 같습니다.
1. Reinforcement Learning
2. Safe Reinforcement Learning
3. Optimization Criterion
4. Exploration Process
강화학습 계속 공부하면서 실제로 많은 분들이 쓸 수 있게 하려면 더 안전하고 빨라야한다는 생각이 들었습니다. 그래서 이에 관련하여 논문과 각종 자료들로 공부하여 발표하였습니다.
많은 분들께 도움이 되었으면 좋겠습니다. 감사니다!
Doing Deep Reinforcement learning with PPO이 의령GDG Devfest 2017에서 진행된 Doing Deep Reinforcement learning with PPO 발표자료 입니다. Policy gradient, Actor-critic, PPO까지 개념설명 후 Roboschool로 코드랩을 진행하였습니다.
알아두면 쓸데있는 신기한 강화학습 NAVER 2017Taehoon Kim발표 영상: http://tv.naver.com/v/2051482
PDF를 받아서 보셔야 깨끗하게 보입니다.
최근 강화학습 트렌드를 다섯 가지로 나눠 설명하고, 데브시스터즈에서 풀고 있는 세 가지 강화학습 문제들을 공유합니다.
Q Learning과 CNN을 이용한 Object Localization홍배 김Active Object Localization with Deep Reinforcement Learning을 설명하는 일본 관동 컴퓨터비젼 스터디모임의 다꾸야박사의 자료를 번역. 주로 Q Learning의 기본 개념과 실제 적용을 이해하기 쉽게 설명.
LinkedIn talk at Netflix ML Platform meetup Sep 2019Faisal SiddiqiIn this talk at the Netflix Machine Learning Platform Meetup on 12 Sep 2019, Kinjal Basu from LinkedIn discussed Online Parameter Selection for web-based Ranking vis Bayesian Optimization
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO딥 러닝 자연어 처리를 공부하면서 여러가지 기법들을 파워 포인트 그림으로 그려보았습니다. 참고하시라고 업로드합니다.
감사니다.
2.supervised learning(epoch#2)-1Haesun Parkݺߣs based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
2.supervised learning(epoch#2)-2Haesun Parkݺߣs based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1Euijin Jeong한국인공지능연구소 소속 강화학습연구소에서 복습용으로 쓰인 PPT입니다. MDP, Monte-Carlo, Time-difference, sarsa, q-learning에 대하여 설명되어 있습니다.
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
Guided policy searchJaehyeon ParkThe guided policy search(GPS) is the branch of reinforcement learning developed for real-world robotics, and its utility is substantiated along many research. This slide show contains the comprehensive concept of GPS, and the detail way to implement, so it would be helpful for anyone who want to study this field.
Rlwonseok jung3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
[GomGuard] 뉴런부터 YOLO 까지 - 딥러닝 전반에 대한 이야기JungHyun Hong뉴런, perceptron, cnn, r-cnn, fast r-cnn, faster r-cnn 및
backpropagation, activation function, batch normalization, cost function, optimizer 등 전반적인 딥뉴럴 네트워크에 대한 지식을 다루고 있습니다.
mail : knholic@gmail.com
blog : gomguard.tistory.com
Reinforcement learning v0.5SANG WON PARK모두를 위한 Deep Reinforcement Learning 강의를 요약정리
http://hunkim.github.io/ml/
실습에 사용된 코드
https://github.com/freepsw/tensorflow_examples/tree/master/20.RL_by_SungKim
Multinomial classification and application of ML희수 박https://hunkim.github.io/ml/
김성훈 교수님의 모두를 위한 머신러닝 강의중
(1)Softmax Regression (Multinomial Logistic Regression)
(2)ML의 실용과 몇가지 팁
을 듣고 스터디 세미나에서 발표한 ppt
Vector Optimization SEMINARGROOTVector Optimization (by Jinhwan Seok. M.S student at KAIST)
The concept of vector optimization and its applications
-Regularized least squares
-Smoothing approximation
-Reconstruction
Reference)
convex optimization, Boyd (2004)
Dsh data sensitive hashing for high dimensional k-nn searchWooSung ChoiGao, Jinyang, et al. "Dsh: data sensitive hashing for high-dimensional k-nnsearch." Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014.
2.supervised learning(epoch#2)-3Haesun Parkݺߣs based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
16. 부족한 것 필요한 것 해야 할 것
학습 = 이론 + 실습
학습 = 이론 + 실습
이론과 실습 두 마리 토끼를 잡는 책을 집필해보자!
17. 책이 다루는 내용
• 강화학습의 배경과 개념
• 강화학습을 위한 기본적인 이론: MDP, 벨만 방정식, 다이내믹 프로그래밍
• 고전 강화학습 알고리즘: 몬테카를로, 살사, 큐러닝
• 인공신경망을 이용한 강화학습 알고리즘: 딥살사, REINFORCE, DQN, 액터-크리틱, A3C
• 강화학습 알고리즘 구현 및 설명: 그리드월드, 카트폴, 아타리게임
27. 상태(s) 현재 상황을 나타내는 정보
에이전트가 탁구를 치려면 탁구공의 위치, 속도, 가속도와 같은 정보가 필요
28. 보상(r) 행동의 좋고 나쁨을 알려주는 정보
보상은 에이전트가 달성하고자 하는 목표에 대한 정보를 담고 있다
https://www.intelnervana.com/demystifying-deep-reinforcement-learning/
29. 에이전트와 환경의 상호작용 과정
1. 에이전트가 환경에서 자신의 상태를 관찰
2. 그 상태에서 어떠한 기준에 따라 행동을 선택
3. 선택한 행동을 환경에서 실행
4. 환경으로부터 다음 상태와 보상을 받음
5. 보상을 통해 에이전트가 가진 정보를 수정함
𝑠0, 𝑎0, 𝑟1, 𝑠1, 𝑎1, 𝑟2, ⋯ , 𝑠 𝑇
34. 가치함수(Value function)
• 하지만 아직 보상을 받지 않았는데….? 미래에 받을 보상을 어떻게 알지?
지금 상태에서 미래에 받을 것이라 기대하는 보상의 합 = 가치함수
가치함수 𝑣(𝑠) = 𝑬 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯ |𝑆𝑡 = 𝑠
35. 큐함수(Q function)
• 하지만 내가 알고 싶은 건 ‘어떤 행동이 좋은가’인데?
지금 상태에서 이 행동을 선택했을 때 미래에 받을 것이라 기대하는 보상의 합
= 큐함수
큐함수 𝑞(𝑠, 𝑎) = 𝑬 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯ |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
36. 정책(Policy)
• 미래에 대한 기대 내가 어떻게 행동할 것인지를 알아야 함
• 각 상태에서 에이전트가 어떻게 행동할 지에 대한 정보
상태 s에서 행동 a를 선택할 확률
큐함수 𝑞 𝜋(𝑠, 𝑎) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯ |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
가치함수 𝑣 𝜋(𝑠) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯ |𝑆𝑡 = 𝑠
정책 𝜋(𝑎|𝑠) = 𝑷 𝐴 𝑡 = 𝑎|𝑆𝑡 = 𝑠
40. 벨만 방정식(Bellman equation)
• 에이전트는 모든 (상태, 행동)에 대해서 큐함수를 가진다 일종의 기억
• 그렇다면 현재의 큐함수를 다음 타임스텝의 큐함수로 표현할 수 있지 않을까?
큐함수 𝑞 𝜋(𝑠, 𝑎) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯ |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
너무 먼 미래에 대해서 기대를 품기보다는 가까운 미래에 대해서 구체적인 기대를 품기로 했다
𝑞 𝜋(𝑠, 𝑎) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + ⋯ )|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
𝑞 𝜋(𝑠, 𝑎) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
벨만 기대 방정식(Bellman expectation equation)
41. 살사(SARSA)
• 벨만 기대 방정식 큐함수 업데이트 식
현재 큐함수 보상 + 감가율 X 다음 큐함수
미래에 대해서 기대만 하기보다는 실제로 부딪혀보면서 학습하기로 했다
𝑞 𝜋(𝑠, 𝑎) = 𝑬 𝝅 𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎
𝑞 𝑠, 𝑎 ← 𝑟 + 𝛾𝑞 𝜋(𝑠′, 𝑎′)
점진적인 큐함수의 업데이트
𝑞 𝑠, 𝑎 = 𝑞 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑞 𝑠′, 𝑎′ − 𝑞 𝑠, 𝑎 )
42. 살사(SARSA)
• 현재 큐함수를 업데이트하기 위해서는 (s, a, r, s’, a’)이 필요
살사(SARSA)
𝑞 𝑠, 𝑎 = 𝑞 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑞 𝑠′, 𝑎′ − 𝑞 𝑠, 𝑎 )
43. 𝜀 − 탐욕정책
• 탐욕 정책의 Exploration problem 일정한 확률로 랜덤하게 행동 선택
𝜀 −탐욕정책 𝜋(𝑠) = ቊ
𝑎∗
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎 𝑞(𝑠, 𝑎), 1 − 𝜀
𝑎 ≠ 𝑎∗, 𝜀
탐욕정책 𝜋′(𝑠) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎 𝑞 𝜋(𝑠, 𝑎)
44. 큐러닝(Q-Learning)
• 기왕 기억을 활용하는 김에 좋은 기억을 활용해보자
다음 큐함수 중에서 가장 값이 큰 큐함수를 이용해서 현재 큐함수를 업데이트
(Q-Learning)
𝑞 𝑠, 𝑎 = 𝑞 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾 max
𝑎′
𝑞(𝑠′, 𝑎′) − 𝑞 𝑠, 𝑎 )
46. 그리드월드와 큐러닝
1. 현재 상태에서 𝜖-탐욕 정책에 따라 행동을 선택
2. 선택한 행동으로 환경에서 한 타임스텝을 진행
3. 환경으로부터 보상과 다음 상태를 받음
4. 다음 상태에서 𝜖 -탐욕 정책에 따라 다음 행동을 선택
5. (s, a, r, s’)을 통해 큐함수를 업데이트
https://github.com/rlcode/reinforcement-learning-kr/tree/master/1-grid-world/5-q-learning
48. 브레이크아웃(Breakout)
• 상태, 행동, 보상
• 행동 : 제자리, 좌, 우, (발사)
• 보상 : 벽돌 깰 때마다 점수를 받으며 위 층의 벽돌을 깰수록
더 큰 점수를 받음
• 게임 세팅 : 1 에피소드에서 에이전트는 5개의 목숨을 가짐
• 목표 : 1 에피소드 동안 최대의 점수 얻기
61. Target q-network
• 안정적인 학습을 위해 학습에 사용하는 큐함수의 값을
타겟 큐-신경망(𝜃−)에서 가져옴
• 타겟 큐-신경망을 일정한 주기마다 업데이트
𝑀𝑆𝐸 = 𝑟 + 𝛾 max
𝑎′
𝑞 𝜃− 𝑠′, 𝑎′ − 𝑞 𝜃 𝑠, 𝑎
2
62. Deep Q-Learning
1. 상태에 따른 행동 선택
2. 선택한 행동으로 환경에서 한 타임스텝을 진행
3. 환경으로부터 다음 상태와 보상을 받음
4. 샘플(s, a, r, s’)을 리플레이 메모리에 저장
5. 리플레이 메모리에서 무작위로 추출한 32개의 샘플로 학습
6. 50000 타임스텝마다 타깃네트워크 업데이트