표본분산을 모집단의 분산이라고 말할 수 있을까?

표본분산이 포함된 표본통계량


자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화


모집단의 분산과 표본분산의 비가 어느 구간사이에 있다고 표현할 수 있습니다.

모집단이 정규분포를 가지면 모집단의 분산과 표본분산의 비는 카이제곱이라는 확률분포를 가집니다.

또한 카이제곱확률분포는 표본의 크기에 관계된 자유도에 따라 정해집니다.

표본분산과 표본의 크기를 구하고 몇 % 신뢰할 것인지를 정하면 모집단의 분산이 위치하는 구간을 추정할 수 있습니다.


카이제곱분포 (chi-squared distribution)
정규분포를 따르는 모집단(평균 $\mu$, 분산 $\sigma^2$)에서 크기가 n인 표본을 무작위로 반복하여 추출하였을 때, 표본들의 평균은 정규분포를 나타내고 분산($S^2$)을 가집니다.
 
 
이때 다음과 같이 정의된 확률변수는 자유도 (n-1)인 카이제곱분포를 따릅니다.
 
 
χn12=n1S2σ2\chi_{n-1}^{2}={\dfrac{\left({n-1}\right)S^{2}}{\sigma^{2}}}
 
 
카이제곱 분포의 특성

항상 확률변수는 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다.
모수인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.

 
카이제곱분포를 사용한 카이제곱검정의 적용
모분산에 대한 추정과 검정
관측된 빈도수가 이론상의 분포 또는 형태를 얼마나 잘 따르는 지에 대한 검증
여러 집단 사이의 독립성 검정 (한 특성이 다른 특성에 영향을 미치는 가에 대한 검정)
 
 
 

카이제곱 분포

카이제곱분포(chi-square; $\chi^2$ distribution)의 확률변수 $\dfrac{(n-1)S^{2}}{\sigma^2}$
 

표본분산의 표집분포

모집단이 모분산 $\sigma^2$인 정규분포를 따를 때 크기가 $n$인 표본을 단순임의 복원추출하면, 표본분산 $S^2$의 특정한 상수곱 $\left({{n}{-}{1}}\right){S}^{2}{/}{\mathit{\sigma}}^{2}$은 자유도가 $(n-1)$인 카이제곱분포를 따른다. 즉, $\dfrac{\left({{n}{-}{1}}\right){S}^{2}}{{\mathit{\sigma}}^{2}}\sim{\mathit{\chi}}_{{n}{-}{1}}^{2}$
 

모분산의 점추정

모분산(${\bf \sigma}^{{\bf 2}}$)의 점추정 : 표본분산($S^{2}$) ($S^{2}$은 $\sigma^{2}$의 비편향추정량)
 

모표준편차의 점추정

모표준편차(${\bf \sigma}$)의 점추정 : 표본표준편차($S$) ($S$는 $\sigma$의 비편향추정량이 아님)
 

모분산의 신뢰구간 - 모집단이 정규분포를 따르는 경우

모분산($\sigma^2$) 100($1-\alpha$)% 신뢰구간 $\left[{\dfrac{\left({{n}{-}{1}}\right){S}^{2}}{{\chi}_{{n}{-}{1}\hspace{0.33em}{;}\hspace{0.33em}\mathit{\alpha}{/}{2}}^{2}}{,}\hspace{0.33em}\dfrac{\left({{n}{-}{1}}\right){S}^{2}}{{\chi}_{{n}{-}{1}\hspace{0.33em}{;}\hspace{0.33em}{1}{-}\mathit{\alpha}{/}{2}}^{2}}}\right]$모표준편차 $\sigma$의 100(1-$\alpha$)% 신뢰구간 - 모집단의 정규분포이고 표본의 크기가 큰 경우 $\left[{\sqrt{\dfrac{\left({{n}{-}{1}}\right){S}^{2}}{{\chi}_{{n}{-}{1}\hspace{0.33em}{;}\hspace{0.33em}\mathit{\alpha}{/}{2}}^{2}}},\sqrt{\dfrac{\left({{n}{-}{1}}\right){S}^{2}}{{\chi}_{{n}{-}{1}\hspace{0.33em}{;}\hspace{0.33em}{1}{-}\mathit{\alpha}{/}{2}}^{2}}}}\right]$$S^2$은 표본분산, ${\mathit{\chi}}_{{k}\hspace{0.33em}{;}\hspace{0.33em}{p}}^{2}$ 는 자유도 $k$인 $\chi^2$분포의 상위 100(1-$p$)% 백분위수를 뜻한다.