적절한 가정 위에서 확률분포를 추정하는 것이 목표 ← 기계학습과 동일함 !
데이터를 통해 찾을 수 있는 분포 중에서 어떤 분포를 사용할지 고르는 것이 중요 / 정확하게 모집단의 분포를 정확하게 알아내는 것은 불가능.. 근사적으로 확률 분포 추정 ! ← 예측의 위험을 최소화하는 모델을 선정
모수적 방법론 ex) 정규분포라면 평균과 분산이 모수 !
비모수적 방법론 ← 특정 확률 분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜 ! ← 기계학습 대부분이 해당됨 / 모수가 없는게 아니라 무수히 많거나 데이터에 따라 유연하게 바뀌는 것임
→ 두 방법론의 차이는 어떤 가정을 부여하는지의 유무 !
데이터가 2개의 값(0또는 1)만 가지는 경우 → 베르누이 분포
데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리 분포
데이터가 [0, 1] 사이에서 값을 가지는 경우 → 베타 분포
데이터가 0 이상의 값을 가지는 경우 → 감마 분포, 로그정규분포
데이터가 실수 전체에서 값을 가지는 경우 → 정규분포, 라플라스분포
but 기계적으로 확률분포를 가정해서는 안되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙 !
각 분포마다 검정하는 방법이 있으므로 모수를 추정한 후에 반드시 검정을 해야 한다 !
다음 STEP
표본분산은 N-1로 나눠준다 ! ← 불편추정량을 구하기 위해