관심있는 주제/강화학습 8

Alpha Zero 논문 리뷰

Introduction 본 논문에서는 2016년 AlphaGo, 2017년 AlphaGo Zero를 통해 바둑(Go)에 대한 성공을 경험한 후, AlphaGo Zero의 more generic version 인 AlphaZero를 소개하고 있음. Game 의 복잡도를 보았을 때, Go가 가장 복잡하고, shogi (일본식 장기) 와 chess 순으로 복잡도를 가지고 있는데, AlphaZero는 동일한 알고리즘을 이용하여 Go, Chess, Shogi 모두에 대응하는 generic algorithm을 제안함. Background Alpha Go Alpha Go는 실제 전문가의 기보 데이터를 기반으로 모델을 학습하고 해당 모델을 활용하여 MCTS(Monte Carlo Tree Search) 를 진행하는 방법..

torch tensor concat 하는 방법

Background 강화학습을 하다 보면 buffer 를 구성해야 할 일이 많다. 강화학습을 진행하면서 나온 trajectory를 buffer에 저장했다가 update 시에 꺼내서 사용해야 하기 때문에 buffer를 구성해서 사용하는데, 이때 늘 episode 길이가 동일해서 buffer내 rewards, actions, obs 등의 size 가 항상 동일하거나 rollout 으로 늘 동일한 step 수 만큼 저장해서 동일한 size 의 항목들만 다룬다면 처음부터 고정된 size 의 buffer를 사용하면 되지만 그렇지 않은 경우엔 비어있는 buf를 만들어서 append (concat 등) 을 해야 하는 경우가 있다. 아래는 buffer에서 사이즈를 고정으로 사용할 때 예시이다. 아래와 같이 torch...

Exploration 방법론(RL)

Real world에 강화학습을 진행하다보면 넘어야 할 많은 허들이 있다. 몇 가지 생각을 해 보면 (실시간 학습은 못 해봐서 내가 풀었던 문제들에 한해서는) 1) Real world와 유사한 시뮬레이터를 제작해야 하고 2) 아무리 유사하다고 해도 실제 real world를 완벽하게 반영하기 어렵다. (sim2real) 3) Reward design을 하다보면 sparse reward한 경우가 많다. 4) action space가 복잡한 경우가 많다. 등등.. 이 있는 거 같다. 최근 푸는 문제에서는 모든 action을 해 봐야 정확한 피드백을 줄 수 있는 문제여서 episode가 다 끝나기 전까지는 각 step의 action이 좋은 건지 안닌지 판단하기가 애매하다. 거기다가 episode length도..

Diversity is all you need: Learning skills without a reward function

Abstract 지적인, 또는 똑똑한 생물(intelligent creatures)은 감독관(Supervision)의 도움없이도 이런 저런 시도들을(exploration; 탐험) 통하여 스스로 useful skills를 학습한다. 본 논문에서도 이런 점에서 착안하여, reward function없이도 useful skills를 배워서 학습하는 방법을 제안하고 있다. 다시 말하자면, maximum entropy policy를 이용하여 information theoretic objective를 최대화하는 방법을 통해 skills를 학습하는 방법론이다. 또한 본 논문에서는 pretrained skills가 어떻게 downstream tasks에 대해 좋은 parameter initalization을 제공할 수..

Connections Between GANs and AC Methods in RL

* 본 게시글은 원작자에게 허락을 받아 번역한 글입니다. 원 게시글은 이곳에 있습니다. 심한 번역체를 이해하며 읽어주세요.... 참고한 논문은 'Connecting Generative Adversarial Networks and Actor-Critic Methods(David Pfau, Oriol Vinyals)' 이며 다운은 이곳에서 받을 수 있습니다. 처음 ‘Generative Adversarial Nets’(이하 GAN) 논문을 읽었을 때, 강화학습과 GAN 사이에 뭔가 모를 연결점이 있다고 느꼈다. 몇번의 연구 이후에, 우연히 DeepMind의 David Pfau와 Oriol Vinyals가 2017년 진행한 연구를 발견하게 됐다. 논문에서 볼 수 있듯, 먼저 두 methods가 무엇인지에 대한 ..

Deep RL based Recommendation with Explicit User-Item Interactions Modeling

논문 제목 : Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling 본 게시글은 DNN for YouTube Recommendation논문과 actor-critic에 대한 어느 정도의 이해를 필요로 합니다. Abstract Recommendation system은 collaborative filtering, matrix factorization, logistic regression, factorization machines 등 다양한 방법이 있다. 하지만 위와 같은 방법들은 두 가지 한계가 존재한다. 1) User의 preference가 계속 변하지 않는다고 가정한다. 2) 직전의 rewa..

DDPG(Deep DPG)

논문 제목 : Continuous Control with Deep Reinforcement Learning 논문 저자 : Timothy P.Lillicrap, Jonathan J.Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver&Daan Wierstra Abstract - DDPG는 actor-critic, model free, off-policy algorithm이다. - Deterministic policy gradient를 기반으로 한다. - Continuous action space에서만 가능하다. - DDPG is able to find policies whose performance is competitive..

Proximal Policy Optimization Algorithms(PPO)

논문 제목 : Proximal Policy Optimization Algorithms 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimow Abstract - Agent가 환경과의 상호작용을 통해 data를 sampling 한다. - Stochastic gradient ascent 이용해 surrogate objective function을 optimize 한다. 위 두 가지를 번갈아 수행한다. - Data sample마다 gradient를 update 하는 기존 방법과 달리, novel objective function이 mini batch update를 통해 multiple update를 가능하게 한다. 1 ..