카이제곱변환
Chi squared transformation

1. 애니메이션

1.1. 당도 값의 도수분포표와 도수분포도

1.2. 당도 편차제곱의 도수분포표와 도수분포도

1.3. 자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환

2.2. 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



당도 값의 도수분포표와 도수분포도




당도 편차제곱의 도수분포표와 도수분포도




자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동을 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
표본의 표본평균은 집단의 평균과 같으며 총변동과 자유도는 다음과 같습니다.
 
총변동=$\sum_{i=1}^{n}{Z_i^2}$
 
자유도=$n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S^2}{\sigma^2}=(n-1)S^2$
 
$S^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma^2=1$
 
 
한편, 정규분포를 가지는 집단(모평균 $\mu$, 모분산 $\sigma^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S^2$)의 확률분포(표본평균 표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기($n$)인 표본분산($S^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S^{2}}{\sigma^{2}}=\dfrac{S^{2}}{\dfrac{\sigma^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
집단의 표본분산 $S^2$은 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S^2$)을 집단의 모분산( $\sigma^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 합니다.

2.2. 참조) 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우

집단의 표본평균($\bar X$)의 Z변환은 다음식과 같습니다, 중심극한정리에 의하여 표본평균($\bar X$)는 정규분포를 나타냅니다. 여기서 표본의 크기는 $n$입니다.  그리고 표준정규분포의 확률변수 $Z$는 평균과 표준편차가 각각 0과 1이 됩니다. 표본평균($\bar X$)의 Z변환은 표본의 크기 $n$에 따라 달라집니다.

 

$\dfrac{{\bar X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}→Z$

 

여기서,  $Z$는표본정규분포를 가지는 확률변수

$\bar X$는 정규분포를 가지는 표본평균의 확률변수

$\mu_{\bar X}$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모평균

$\sigma_X$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모분산

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


카이제곱변환

3.2. 구글시트 함수

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포



4. 용어와 수식

4.1 용어