표본(sample) : 여러 통계 자료를 포함하는 집단 속에서 그 일부를 끄집어내어 조사한 결과로 원래의 집단의 성질을 추측할 수 있는 통계 자료. 샘플 (by 구글 사전)
데이터를 분석할 때 '빅데이터'라는 말처럼 데이터의 양은 굉장히 중요하다. 하지만 무조건 많다고 좋은 결과를 얻을 수 있는 것은 아니다. 그 예로 1936년 미국 대선 때 있었던 설문 조사를 볼 수 있다. 당시 1,000만 명이 넘는 사람들 대상으로 한 설문조사보다 2,000명을 대상으로 한 설문조사의 예측이 더 정확했다. (1,000만 명은 예측을 실패했고 2,000명은 성공했다.) 이렇듯 데이터의 질도 굉장히 중요하고, 여기서 표본의 중요도도 높아진다. 표본을 측정할 때 편향되지 않도록 하는 것이 굉장히 중요하다.
-
편향(bias)
통계에서 편향은 계통적인, 체계적인(systematic) 오차를 의미한다. 단순하게 생각해보면 어딘가에 치우지는 정도 라고 볼 수 있을 것 같다. 편향이 심해지면 표본편향(as 선택평향, sample bias : 의식적이든 무의식적이든 선택적으로 표본을 고르는 행위)이 발생하는데 이럴 때 정확한 결과를 예측하기 힘들어진다.
**표본 편향 예시**
- 실험참여자를 미리 걸러내거나 특정한 집단에서 자원자를 뽑는 경우.
예) 담배가 몸매에 나쁜 영향을 미치지 않는다는 걸 증명하기 위해 헬스클럽에서 자원자를 뽑는 데 흡연자는 고급 에어로빅반에서 뽑고 비흡연자는 체중감량과정에서 뽑는 경우. (by 위키백과)
이러한 편향을 피하기 위해 랜덤표본추출이라는 것이 중요해졌다.
** 용어 정리 **
-임의표집(랜덤표본추출, random sampling) : random으로 표본을 추출하는 것
-층화표집(층화표본추출, stratified sampling) : 모집단을 여러 층으로 나눈 뒤, 각 층에서 random sampling을 한다.
-단순임의표본(단순랜덤표본, simple random sampling) : 층화표집없이 랜덤표본추출로 얻은 표본
-모집단(population) : 데이터 집합을 구성하는 전체 집합
표준오차(standard error, SE) : 통계에 대한 표본분포의 표준편차를 의미한다.
위 식에서 왼쪽 s는 표준오차이고 오른쪽 s는 표본표준편차, n은 표본의 크기다. 여기서 볼 수 있듯 n이 커지면 표준오차는 작아진다.
표준오차를 측정할 때 고려해야 할 사항이 3가지가 있다. 하나는 모집단에서 완전히 새로운 샘플들을 더 많이 수집하는 것이고, 또 하나는 각 새로운 샘플에 대해 평균과 같은 통계량을 계산하는 것이고, 마지막 하나는 그 통계량의 표준편차를 계산하는 것이다. 이때 실질적으로 새로운 샘플을 수집하는 방식은 불가능하다고 볼 수 있다. 따라서 부트스트랩과 같은 방법을 통해 재표집을 진행한다.
부트스트랩(bootstrap)
1. 샘플 값을 하나 뽑아 기록하고 다시 돌려놓는다.
2. 1을 n번 반복한다.
3. 재표본추출된 값의 평균을 기록한다.
4. 1->2->3을 R번 반복한 뒤, 그 결과로 표준편차를 계산한다. --> 신뢰구간을 구한다.
부트스트랩을 통해 training data수를 늘릴 수 있고, over-fitting을 줄이는데 기여한다.
- 부트스트랩과 비슷한 방법으로 재표본추출이라는 것이 있다. 데이터로부터 복원 추출을 하는 부트스트랩과 달리 재표본추출은 비복원추출을 수행한다.
*복원추출(with replacement) : 중복 추출이 가능하게끔 추출 후 샘플을 다시 모집단에 포함시킨다.
*비복원추출(without replacement) : 한번 뽑힌 원소는 다시 사용하지 않는다.
'관심있는 주제 > 통계' 카테고리의 다른 글
PCA(Principal Component Analysis) (0) | 2019.05.21 |
---|---|
EDA(탐색적 데이터 분석) (0) | 2019.04.13 |