카이제곱분포 Chi-squared distribution



자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


카이제곱분포의 특징
 
확률변수 카이제곱($\chi^2$)은 항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 모수(parameter, 매개변수)인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.
표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동도 확률변수가 되며 그, 확률변수를 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
확률변수인 집단의 표본평균($\bar X$)을 점추정하면 집단의 모평균($\mu_X$)과 같습니다. 그리고 표본분산($S^2$)을 총변동과 자유도로 분리하면 다음과 같습니다.
 
 
총변동 = $\sum\limits_{i=1}^{n}{Z_i^2}$
 
자유도 = $n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S_X^2}{\sigma_X^2}=(n-1)S_X^2$
 
$S_X^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma_X^2=1$
 
 
한편, 정규분포를 가지고 확률변수가 $X$인 집단(모평균 $\mu_X$, 모분산 $\sigma_X^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S_X^2$)의 확률분포(표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기가 $n$인 집단의 표본분산($S_X^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S_X^{2}}{\sigma_{X}^{2}}=\dfrac{S_X^{2}}{\dfrac{\sigma_X^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
확률변수 $X$를 가지는 집단의 표본분산 $S_X^2$은 역시, 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S_X^2$)을 집단의 모분산( $\sigma_X^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 표현하기도 합니다.

실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. 1을 다른 숫자로 바꾸면, 이 숫자를 자유도로 하는 카이제곱분포의 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

 

 



<실습강의 내용>

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포

자유도 1, 2, 3, 4, 5인 카이제곱분포