07. 통계학 맛보기

통계적 모델링

적절한 가정 위에서 확률분포를 추정하는 것이 목표 ← 기계학습과 동일함 !

데이터를 통해 찾을 수 있는 분포 중에서 어떤 분포를 사용할지 고르는 것이 중요 / 정확하게 모집단의 분포를 정확하게 알아내는 것은 불가능.. 근사적으로 확률 분포 추정 ! ← 예측의 위험을 최소화하는 모델을 선정

모수적 방법론 ex) 정규분포라면 평균과 분산이 모수 !

비모수적 방법론 ← 특정 확률 분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜 ! ← 기계학습 대부분이 해당됨 / 모수가 없는게 아니라 무수히 많거나 데이터에 따라 유연하게 바뀌는 것임

→ 두 방법론의 차이는 어떤 가정을 부여하는지의 유무 !

확률분포를 가정하는 방법 : 우선 히스토그램을 통해 모양을 관찰

데이터가 2개의 값(0또는 1)만 가지는 경우 → 베르누이 분포

데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리 분포

데이터가 [0, 1] 사이에서 값을 가지는 경우 → 베타 분포

데이터가 0 이상의 값을 가지는 경우 → 감마 분포, 로그정규분포

데이터가 실수 전체에서 값을 가지는 경우 → 정규분포, 라플라스분포

but 기계적으로 확률분포를 가정해서는 안되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙 !

각 분포마다 검정하는 방법이 있으므로 모수를 추정한 후에 반드시 검정을 해야 한다 !

다음 STEP

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/666e3e9d-a8ab-48b8-8f05-61302d7233f1/Untitled.png

표본분산은 N-1로 나눠준다 ! ← 불편추정량을 구하기 위해