전체 게시글 108

Proximal Policy Optimization Algorithms(PPO)

논문 제목 : Proximal Policy Optimization Algorithms 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimow Abstract - Agent가 환경과의 상호작용을 통해 data를 sampling 한다. - Stochastic gradient ascent 이용해 surrogate objective function을 optimize 한다. 위 두 가지를 번갈아 수행한다. - Data sample마다 gradient를 update 하는 기존 방법과 달리, novel objective function이 mini batch update를 통해 multiple update를 가능하게 한다. 1 ..

표본분포

표본(sample) : 여러 통계 자료를 포함하는 집단 속에서 그 일부를 끄집어내어 조사한 결과로 원래의 집단의 성질을 추측할 수 있는 통계 자료. 샘플 (by 구글 사전) 데이터를 분석할 때 '빅데이터'라는 말처럼 데이터의 양은 굉장히 중요하다. 하지만 무조건 많다고 좋은 결과를 얻을 수 있는 것은 아니다. 그 예로 1936년 미국 대선 때 있었던 설문 조사를 볼 수 있다. 당시 1,000만 명이 넘는 사람들 대상으로 한 설문조사보다 2,000명을 대상으로 한 설문조사의 예측이 더 정확했다. (1,000만 명은 예측을 실패했고 2,000명은 성공했다.) 이렇듯 데이터의 질도 굉장히 중요하고, 여기서 표본의 중요도도 높아진다. 표본을 측정할 때 편향되지 않도록 하는 것이 굉장히 중요하다. 편향(bias)..

EDA(탐색적 데이터 분석)

데이터의 기본적 종류 1. 연속형 데이터(continuous data) : 일정한 범위 내에서 모든 값을 취하는 데이터이다. f(x) = 2x + 1 (-1 plt.scatter(x,y)) 다른 시각화 방법들(엄청 많겠지만 몇가지만) 1. 육각형 구간(hexagonal binning) : 두 변수를 육각형 모양의 구간으로 나눈 뒤 각 구간에 포함된 값으 수에 따라 색을 표시하는 그림이다. 수치형 변수 대 수치형 변수를 시각화 하는 방법이다. R에서는 아래와 같은 방법으로 ggplot과 hexbin을 이용해 간단하게 그림을 그릴 수 있다. 2. 등고 도표(contour plot) : 지도상 고도를 나타내는 등고선처럼 두 변수의 밀도를 등고선으로 표시한 도표다. 수치형 변수 대 수치형 변수를 시각화 하는 방..

object class

object라는 클래스가 있는데 이 클래스는 우리가 당연하게 사용하는 int, String, 등등의 메소드를 포함한다.아래처럼 자바 오라클 홈페이지에서 확인할 수 있다.예시로 toString , equals 를 살펴보려고 한다. - toStringtoString은 말 그대로 to String 하는 메소드라고 이해하면 될 것 같다. 예제를 살펴보자이런 예제가 있을 때 우리가 h를 출력해 본다면 알아볼 수 없는 주소값이 나온다.따라서 안에 어떤 값이 들어가 있는지 확인하기가 어렵다. 이것을 재정의하여 눈에 보이게 만드는 것이 toString (오버라이딩) 이라고 이해하면 될 것 같다. toString을 하는 방법은 source -> Generate toString이다.저걸 누르고 변수를 선택하면 알아서 기본..