관심있는 주제/통계 3

PCA(Principal Component Analysis)

PCA: 주성분분석, 차원축소와 변수추출 기법으로 사용되는 기법으로 데이터의 분산을 최대한 보존하면서 서로 직교하는 축을 찾아 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법이다. Q. PCA의 주성분이 곧 eigenvalue 라고 봐도 되는가?? 참고 https://darkpgmr.tistory.com/110 [선형대수학 #6] 주성분분석(PCA)의 이해와 활용 주성분 분석, 영어로는 PCA(Principal Component Analysis). 주성분 분석(PCA)은 사람들에게 비교적 널리 알려져 있는 방법으로서, 다른 블로그, 카페 등에 이와 관련된 소개글 또한 굉장히 많다. 그래도 기존에.. darkpgmr.tistory.com https://ratsgo.github.io..

표본분포

표본(sample) : 여러 통계 자료를 포함하는 집단 속에서 그 일부를 끄집어내어 조사한 결과로 원래의 집단의 성질을 추측할 수 있는 통계 자료. 샘플 (by 구글 사전) 데이터를 분석할 때 '빅데이터'라는 말처럼 데이터의 양은 굉장히 중요하다. 하지만 무조건 많다고 좋은 결과를 얻을 수 있는 것은 아니다. 그 예로 1936년 미국 대선 때 있었던 설문 조사를 볼 수 있다. 당시 1,000만 명이 넘는 사람들 대상으로 한 설문조사보다 2,000명을 대상으로 한 설문조사의 예측이 더 정확했다. (1,000만 명은 예측을 실패했고 2,000명은 성공했다.) 이렇듯 데이터의 질도 굉장히 중요하고, 여기서 표본의 중요도도 높아진다. 표본을 측정할 때 편향되지 않도록 하는 것이 굉장히 중요하다. 편향(bias)..

EDA(탐색적 데이터 분석)

데이터의 기본적 종류 1. 연속형 데이터(continuous data) : 일정한 범위 내에서 모든 값을 취하는 데이터이다. f(x) = 2x + 1 (-1 plt.scatter(x,y)) 다른 시각화 방법들(엄청 많겠지만 몇가지만) 1. 육각형 구간(hexagonal binning) : 두 변수를 육각형 모양의 구간으로 나눈 뒤 각 구간에 포함된 값으 수에 따라 색을 표시하는 그림이다. 수치형 변수 대 수치형 변수를 시각화 하는 방법이다. R에서는 아래와 같은 방법으로 ggplot과 hexbin을 이용해 간단하게 그림을 그릴 수 있다. 2. 등고 도표(contour plot) : 지도상 고도를 나타내는 등고선처럼 두 변수의 밀도를 등고선으로 표시한 도표다. 수치형 변수 대 수치형 변수를 시각화 하는 방..