딥러닝과 강화 습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim발표 영상 : https://goo.gl/jrKrvf
데모 영상 : https://youtu.be/exXD6wJLJ6s
Deep Q-Network, Double Q-learning, Dueling Network 등의 기술을 소개하며, hyperparameter, debugging, ensemble 등의 엔지니어링으로 성능을 끌어 올린 과정을 공유합니다.
강화습의 개요Dongmin Lee안녕하세요.
강화습을 공부하면서 처음 접하시는 분들을 위해 ppt로 '강화습의 개요'에 대해서 정리했습니다.
동물이 습하는 것과 똑같이 시행착오를 겪으면서 습하는 강화습은 기계습 분야에서 상당히 매력적이라고 생각합니다.
https://www.youtube.com/watch?v=PQtDTdDr8vs&feature=youtu.be
위의 링크는 스키너의 쥐 실험 영상입니다.
감사합니다.
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim발표 영상 : https://youtu.be/klnfWhPGPRs
코드 : https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
음성 합성 데모 : http://carpedm20.github.io/tacotron
발표 소개 : https://deview.kr/2017/schedule/182
딥러닝을 활용한 음성 합성 기술을 소개하고 개발 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
오토인코더의 모든 것NAVER Engineering발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도습에서 비지도습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링Taehoon Kim발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Introduction of Deep Reinforcement LearningNAVER Engineering발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기NAVER Engineering발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin LeeI reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
Wasserstein GAN 수학 이해하기 ISungbin Lim이 슬라이드는 Martin Arjovsky, Soumith Chintala, Léon Bottou 의 Wasserstein GAN (https://arxiv.org/abs/1701.07875v2) 논문 중 Example 1 을 해설하는 자료입니다
딥 러닝 자연어 처리를 습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO딥 러닝 자연어 처리를 공부하면서 여러가지 기법들을 파워 포인트 그림으로 그려보았습니다. 참고하시라고 업로드합니다.
감사합니다.
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon알파고의 작동 원리를 설명한 슬라이드입니다.
English version: http://www.slideshare.net/ShaneSeungwhanMoon/how-alphago-works
- 비전공자 분들을 위한 티저: 바둑 인공지능은 과연 어떻게 만들까요? 딥러닝 딥러닝 하는데 그게 뭘까요? 바둑 인공지능은 또 어디에 쓰일 수 있을까요?
- 전공자 분들을 위한 티저: 알파고의 main components는 재밌게도 CNN (Convolutional Neural Network), 그리고 30년 전부터 유행하던 Reinforcement learning framework와 MCTS (Monte Carlo Tree Search) 정도입니다. 새로울 게 없는 재료들이지만 적절히 활용하는 방법이 신선하네요.
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018Taehoon KimPDF를 받아서 보시면 깨끗하게 보입니다.
OpenAI, DeepMind, Google Brain/Redidency 외 20+개의 해외 머신러닝 기업에 취업을 준비하며 했던 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
분산 강화습 논문(DeepMind IMPALA) 구현정주 김데이터야놀자 2018에서 발표한 문서입니다.
딥마인드의 분산 강화습 논문 IMPALA에 대한 설명과 구현 코드 링크가 있으나, 수렴에는 실패했습니다. 발표전 시간이 부족해 디버깅을 하지 못했습니다. 참고하시기 바랍니다.
Differentiable Neural ComputerTaehoon KimHybrid computing using a neural network with dynamic external memory
http://www.nature.com/nature/journal/v538/n7626/full/nature20101.html
오토인코더의 모든 것NAVER Engineering발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도습에서 비지도습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링Taehoon Kim발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Introduction of Deep Reinforcement LearningNAVER Engineering발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기NAVER Engineering발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin LeeI reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
Wasserstein GAN 수학 이해하기 ISungbin Lim이 슬라이드는 Martin Arjovsky, Soumith Chintala, Léon Bottou 의 Wasserstein GAN (https://arxiv.org/abs/1701.07875v2) 논문 중 Example 1 을 해설하는 자료입니다
딥 러닝 자연어 처리를 습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO딥 러닝 자연어 처리를 공부하면서 여러가지 기법들을 파워 포인트 그림으로 그려보았습니다. 참고하시라고 업로드합니다.
감사합니다.
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon알파고의 작동 원리를 설명한 슬라이드입니다.
English version: http://www.slideshare.net/ShaneSeungwhanMoon/how-alphago-works
- 비전공자 분들을 위한 티저: 바둑 인공지능은 과연 어떻게 만들까요? 딥러닝 딥러닝 하는데 그게 뭘까요? 바둑 인공지능은 또 어디에 쓰일 수 있을까요?
- 전공자 분들을 위한 티저: 알파고의 main components는 재밌게도 CNN (Convolutional Neural Network), 그리고 30년 전부터 유행하던 Reinforcement learning framework와 MCTS (Monte Carlo Tree Search) 정도입니다. 새로울 게 없는 재료들이지만 적절히 활용하는 방법이 신선하네요.
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018Taehoon KimPDF를 받아서 보시면 깨끗하게 보입니다.
OpenAI, DeepMind, Google Brain/Redidency 외 20+개의 해외 머신러닝 기업에 취업을 준비하며 했던 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
분산 강화습 논문(DeepMind IMPALA) 구현정주 김데이터야놀자 2018에서 발표한 문서입니다.
딥마인드의 분산 강화습 논문 IMPALA에 대한 설명과 구현 코드 링크가 있으나, 수렴에는 실패했습니다. 발표전 시간이 부족해 디버깅을 하지 못했습니다. 참고하시기 바랍니다.
Differentiable Neural ComputerTaehoon KimHybrid computing using a neural network with dynamic external memory
http://www.nature.com/nature/journal/v538/n7626/full/nature20101.html
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버준철 박SMARTSTUDY 에서 몬스터 슈퍼 리그를 개발하면서 빠른 개발 진행을 위해 선택했던 Python 게임 서버, '잘 되면 다시 만들지 뭐'라는 생각에서 시작했지만 다시 만들 일은 영원히 오지 않았습니다... Python으로 게임 서버를 만들었을 때 사용한 것은 무엇인지 또 실제 오픈 했을 때 서버는 안녕했는지 알아봅니다.
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus서울시 빅데이터 캠퍼스 안내 및 데이터 설명
안녕하십니까.
서울시 빅데이터 캠퍼스입니다.
데이터기반 사회혁신 모델을 만들어가고자 하는 서울시 빅데이터 캠퍼스의 지향과 서비스에 대한 안내 드립니다.
더불어, 캠퍼스 입주에 필요한 절차와 입주 후 제공되는 데이터, 인프라 서비스에 대한 상세한 설명을 보실 수 있습니다.
감사합니다.
서울시 빅데이터캠퍼스 안내bigdatacampus서울시 빅데이터 캠퍼스 안내 및 데이터 설명
안녕하십니까.
서울시 빅데이터 캠퍼스입니다.
데이터기반 사회혁신 모델을 만들어가고자 하는 서울시 빅데이터 캠퍼스의 지향과 서비스에 대한 안내 드립니다.
더불어, 캠퍼스 입주에 필요한 절차와 입주 후 제공되는 데이터, 인프라 서비스에 대한 상세한 설명을 보실 수 있습니다.
감사합니다.
딥러닝프레임워크비교Junyi SongThis document compares and summarizes several deep learning frameworks: Caffe, Chainer, CNTK, DL4J, Keras, MXNet, TensorFlow, and Theano. It describes who created each framework, when it was released, example applications, design motivations, and key features from technical, design, and programming perspectives.
Scala dreaded underscoreRUDDERThe document discusses various uses of the underscore character "_" in Scala. It describes 6 main uses: 1) as a variable placeholder, 2) for variable initialization to a default value, 3) for unused variables in functions and pattern matching, 4) for anonymous parameters in functions and partial functions, 5) to avoid importing names into the namespace, and 6) as syntactic sugar for existential types in pattern matching. It also mentions some additional minor uses of "_" with other characters for accessors in tuples, repeated parameters, XML pattern matching, identifiers ending with operators, and setters.
LLM에서 배우는 이미지 생성 모델 ZERO부터 습하기 Training Large-Scale Diffusion Model from Scr...Taehoon Kim3개월 전부터 Diffusion 모델을 zero부터 습하는 프로젝트를 시작했습니다.
매 실험마다 천만원 이상의 GPU를 쓰는 경험을 몇 년만에 했기 때문에, 큰 스케일의 습 과정이 활발하게 공유되고 있는 LLM 논문을 많이 참고하며 실험을 해 왔습니다.
LLM에 많은 관심이 쏠린 지금, Large-scale diffusion model 습은
- 시각적이기 때문에 global scale이 용이하고
- 시장에 충분한 기회가 있으나 관심이 적고
- 큰 모델 습에 관련된 경험이 거의 없기 때문에
그 과정에서 수많은 엔지니어링 문제를 푸는 것이 도전적이고 즐거운 것 같습니다!
저희와 함께 Domain-specific 지식으로 전문가가 쓸 수 있는 fine-grained 이미지 생성 모델을 만들고 싶으신 분은 언제든 편하게 연락주세요!
SHIFT UP AI Labs: https://bit.ly/shiftup-ai
* 이미지 생성 모델에 대한 Discussion이나 저희 팀에 관심이 있는 분이 계신 곳이라면 언제든 가서 Talk을 할 의향이 있으니 편하게 연락주세요!
Random Thoughts on Paper Implementations [KAIST 2018]Taehoon KimThis document provides random thoughts on implementing machine learning papers. It discusses what types of papers to implement, including computer vision, NLP, reinforcement learning and more. It recommends specific papers and code repositories. It also discusses whether to use TensorFlow or PyTorch and mentions grants and competitions for implementing papers.
Continuous control with deep reinforcement learning (DDPG)Taehoon KimThis document presents a model-free, off-policy actor-critic algorithm to learn policies in continuous action spaces using deep reinforcement learning. The algorithm is based on deterministic policy gradients and extends DQN to continuous action domains by using deep neural networks to approximate the actor and critic. Challenges addressed include ensuring samples are i.i.d. by using a replay buffer, stabilizing learning with a target network, normalizing observations with batch normalization, and exploring efficiently with an Ornstein-Uhlenbeck process. The algorithm is able to learn policies on high-dimensional continuous control tasks.
Dueling network architectures for deep reinforcement learningTaehoon Kim1. The document proposes a dueling network architecture for deep reinforcement learning that separately estimates state value and state-dependent action advantages without extra supervision.
2. It introduces a dueling deep Q-network that uses a single network with two streams - one that produces a state value and the other that produces state-dependent action advantages, which are then combined to estimate the state-action value function.
3. Experiments on Atari games show that the dueling network outperforms traditional deep Q-networks, achieving better performance in both random starts and starts from human demonstrations.
Deep ReasoningTaehoon KimThe document describes several papers on deep learning models for natural language processing tasks that utilize memory networks or attention mechanisms. It begins with references to seminal papers on end-to-end memory networks and dynamic memory networks. It then provides examples of tasks these models have been applied to, such as question answering, and summarizes the training procedures and architectures of memory networks and dynamic memory networks. Finally, it discusses extensions like utilizing episodic memory with multiple passes over the inputs and attention mechanisms.
20. 2014
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.
Vinyals, Oriol, et al. "StarCraft II: A New Challenge for Reinforcement Learning."
2016
2017
32. 협업 or 경쟁이 필요한 Multi Agent
자율 주행 자동차, 대화 AI, 대규모 공장 로봇 …
33. Starcraft
Peng, Peng, et al. "Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games." arXiv preprint arXiv:1703.10069 (2017).
50. Communication
Mordatch, Igor, and Pieter Abbeel. "Emergence of Grounded Compositional Language in Multi-Agent Populations." arXiv preprint arXiv:1703.04908 (2017)
https://blog.openai.com/learning-to-communicate/
다른 모든 Agent에게 메세지 전달
51. Actor-Critic + Centralized Q-value
다른 Agent의 내부 정보를 공유
Lowe, Ryan, et al. "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments." arXiv preprint arXiv:1706.02275 (2017)
https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
Centralized Q-value
55. Sparse Reward
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016.
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
30번 정도의 올바른 행동 후에 0이 아닌 Reward을 얻음
Feedback
밧줄을 타고 내려가서 해골을 피하고 사다리를 타서 열쇠를 얻어야 100점 얻음
60. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
A A
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
61. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
A A
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
목표1 목표2 목표3
62. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
A A
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기
목표1 목표2 목표3
63. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
A A
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기 사다리 내려가기
목표1 목표2 목표3
64. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
A A
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기 사다리 내려가기 점프 하기
목표1 목표2 목표3
65. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
A A
행동 𝑎"Reward 𝑟"
𝑎*,"𝑎,,"
Non-hierarchical RL Hierarchical RL
𝑎-,"
밧줄 잡기 사다리 내려가기 점프 하기
66. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
A A
목표 Ω
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
𝑎*,"𝑎,," 𝑎-,"
67. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
A A
목표 Ω
행동 𝑎-,"행동 𝑎"Reward 𝑟"
𝑎*,"𝑎,,"
Non-hierarchical RL Hierarchical RL
68. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
A A
목표 Ω
행동 𝑎-,"행동 𝑎"Reward 𝑟" Reward 𝑟"
𝑎*,"𝑎,,"
Non-hierarchical RL Hierarchical RL
69. Montezuma 잘 풀었다
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
72. 암기로 풀 수 없는 문제
Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017).
https://deepmind.com/blog/agents-imagine-and-plan/
73. Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017).
https://deepmind.com/blog/agents-imagine-and-plan/
실제로 일어날 일을 시뮬레이션으로 (internal simulation) 상상해 보고 행동
86. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q
87. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
한판 = 한 Episode
88. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
Episode가 끝나도 정보를 리셋하지 않고 계속 사용
89. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
N번의 Episode를 하나의 Trial로 정의
N번의 Episode를 통해서 최적의 플레이를 찾는 방법을 습
90. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
91. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
99. RL2: Recurrent Network
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q
Episode의 Return이 아닌 Trial의 Return을 optimize
100. Model-Agnostic Meta-Learning
Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks." arXiv preprint arXiv:1703.03400 (2017).
여러 Task를 동시에 습해 weight의 central point를 찾음
그리고 1번의 gradient update로 새 Task에 적응
123. 하지만 Pointer Network 습을 위해
추가적인 Supervision 필요
단점
몇 번째 segment가 매뉴얼 조각을 포함하는지
…
…
124. Attention
Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International Conference on Machine Learning. 2015.
133. Gated-Attention + A3C
Hermann, Karl Moritz, et al. "Grounded language learning in a simulated 3D world." arXiv preprint arXiv:1706.06551 (2017)
https://sites.google.com/view/gated-attention/home
134. Self-Supervision + A3C
Chaplot, Devendra Singh, et al. "Gated-Attention Architectures for Task-Oriented Language Grounding." arXiv preprint arXiv:1706.07230 (2017)
https://www.youtube.com/watch?v=wJjdu1bPJ04
물체들의 관계까지 이해해야 하는 Agent
159. Berthelot, David, Tom Schumm, and Luke Metz. "Began: Boundary equilibrium generative adversarial networks." arXiv preprint arXiv:1703.10717 (2017).
https://github.com/carpedm20/BEGAN-tensorflow
160. Kim, Taeksoo, et al. "Learning to discover cross-domain relations with generative adversarial networks." arXiv preprint arXiv:1703.05192 (2017).
https://github.com/carpedm20/DiscoGAN-pytorch
161. Shrivastava, Ashish, et al. "Learning from simulated and unsupervised images through adversarial training." arXiv preprint arXiv:1612.07828 (2016).
https://github.com/carpedm20/simulated-unsupervised-tensorflow