논문 제목 : Proximal Policy Optimization Algorithms 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimow Abstract - Agent가 환경과의 상호작용을 통해 data를 sampling 한다. - Stochastic gradient ascent 이용해 surrogate objective function을 optimize 한다. 위 두 가지를 번갈아 수행한다. - Data sample마다 gradient를 update 하는 기존 방법과 달리, novel objective function이 mini batch update를 통해 multiple update를 가능하게 한다. 1 ..