관심있는 주제 93

표본분포

표본(sample) : 여러 통계 자료를 포함하는 집단 속에서 그 일부를 끄집어내어 조사한 결과로 원래의 집단의 성질을 추측할 수 있는 통계 자료. 샘플 (by 구글 사전) 데이터를 분석할 때 '빅데이터'라는 말처럼 데이터의 양은 굉장히 중요하다. 하지만 무조건 많다고 좋은 결과를 얻을 수 있는 것은 아니다. 그 예로 1936년 미국 대선 때 있었던 설문 조사를 볼 수 있다. 당시 1,000만 명이 넘는 사람들 대상으로 한 설문조사보다 2,000명을 대상으로 한 설문조사의 예측이 더 정확했다. (1,000만 명은 예측을 실패했고 2,000명은 성공했다.) 이렇듯 데이터의 질도 굉장히 중요하고, 여기서 표본의 중요도도 높아진다. 표본을 측정할 때 편향되지 않도록 하는 것이 굉장히 중요하다. 편향(bias)..

EDA(탐색적 데이터 분석)

데이터의 기본적 종류 1. 연속형 데이터(continuous data) : 일정한 범위 내에서 모든 값을 취하는 데이터이다. f(x) = 2x + 1 (-1 plt.scatter(x,y)) 다른 시각화 방법들(엄청 많겠지만 몇가지만) 1. 육각형 구간(hexagonal binning) : 두 변수를 육각형 모양의 구간으로 나눈 뒤 각 구간에 포함된 값으 수에 따라 색을 표시하는 그림이다. 수치형 변수 대 수치형 변수를 시각화 하는 방법이다. R에서는 아래와 같은 방법으로 ggplot과 hexbin을 이용해 간단하게 그림을 그릴 수 있다. 2. 등고 도표(contour plot) : 지도상 고도를 나타내는 등고선처럼 두 변수의 밀도를 등고선으로 표시한 도표다. 수치형 변수 대 수치형 변수를 시각화 하는 방..

object class

object라는 클래스가 있는데 이 클래스는 우리가 당연하게 사용하는 int, String, 등등의 메소드를 포함한다.아래처럼 자바 오라클 홈페이지에서 확인할 수 있다.예시로 toString , equals 를 살펴보려고 한다. - toStringtoString은 말 그대로 to String 하는 메소드라고 이해하면 될 것 같다. 예제를 살펴보자이런 예제가 있을 때 우리가 h를 출력해 본다면 알아볼 수 없는 주소값이 나온다.따라서 안에 어떤 값이 들어가 있는지 확인하기가 어렵다. 이것을 재정의하여 눈에 보이게 만드는 것이 toString (오버라이딩) 이라고 이해하면 될 것 같다. toString을 하는 방법은 source -> Generate toString이다.저걸 누르고 변수를 선택하면 알아서 기본..

백준 알고리즘 1546 java

문제 : 세준이는 기말고사를 망쳤다. 세준이는 점수를 조작해서 집에 가져가기로 했다. 일단 세준이는 자기 점수 중에 최댓값을 골랐다. 이 값을 M이라고 한다. 그리고 나서 모든 점수를 점수/M*100으로 고쳤다.예를 들어, 세준이의 최고점이 70이고, 수학점수가 50이었으면 수학점수는 50/70*100이 되어 71.43점이 된다.세준이의 성적을 위의 방법대로 새로 계산했을 때, 새로운 평균을 구하는 프로그램을 작성하시오.예제 입력 2 복사3 10 20 30 예제 출력 2 복사66.666667 풀이 :문제가 각 점수를 최대 점수로 나눠서 그것의 평균을 구하는 것이었다.그래서 나는 점수들을 일단 array에 넣고, 최대 점수로 나눈 것을 다시 array에 넣어서그것의 평균을 구하도록 짰다.나누기 n을 하면 ..