확률변수의 편차로 새로운 확률변수 생성 Defining new variable from deviations



새로운 확률변수인 편차, 펀챠제곱을 생성하고 표본통계량 확률변수인 펀차제곱합 생성


한 확률변수, Y를 반응변수(종속변수)로 하고 한 범주형 변수 X를 요인(factor, 독립변수)으로 할 때 확률변수의 편차제곱$(\rm Y-\mu_Y)^2$을 새로운 확률변수로 생성합니다. 한 확률변수(Y)의 모집단이 한 범주형 확률변수에따라 독립된 집단(Group)들로 카테고리화 될 때 확률변수($Y$)값의 편차제곱인, $(\rm Y-\mu)^2$이 새로운 확률변수가 됩니다. 각 집단의 분산($S^2$)은 각 집단의 평균을 기준으로 하는 편차제곱의 평균이며 확률변수입니다.  표본의 분산을 각각  $s_1^2$, $s_2^2$ , … , $s_i^2$.라하고 각 집단의  모분산은  각각  $\sigma_{Y_1}^2$, $\sigma_{Y_2}^2$ , … , $\sigma_{Y_i}^2$로 나타냅니다. 

 

여러 집단의 표준화된 변동량은 확률변수이며 각각 $\chi_1^2$, $\chi_2^2$ , … ,  $\chi_i^2$로 표현합니다. 여기서 $Y^2$ 대신에 그리스어인 $\chi^2$을 사용하는 이유는 편차제곱의 기준이 모평균이 아니고 표본의 평균임을 나타내기 위함입니다.

 

만일, 여러 집단의 평균이 같아 집단의 편차를 구할 때 사용하는 기준이 같다면, 집단을 구별하는 범주형 변수(수준, level)에따라 카테고리화 되는  집단의 모집단의 분산은 다음식과 같아집니다.

 

$\chi^2=(n_1 + n_2 + . … , + n_i – i) \frac {\sigma_Y^2}{\sigma_Y^2}$

 

$= \frac{s_1^2}{\frac{\sigma_{Y_1}^2}{(n_1 – 1)}} + \frac{s_2^2}{\frac{\sigma_{Y_2}^2}{(n_2 – 1)}} + , … , + \frac{s_i^2}{\frac{\sigma_{Y_i}^2}{(n_i – 1)}}$

 

여기서,  $\frac{\sigma_{Y_i}^2}{(n_i – 1)}$은 표본분산을 표준화하는 상수

 

$n_i$가 작으면 집단의 표본분산이 비대칭 분포를 가지나 $n_i$가 커질수록 정규분포에 가까워집니다. 그리고 표본분산을 표준화하면 t분포의 제곱인 확률분포를 구할 수 있는데  이를 카이제곱분포(chi-squared distribution)라하며 자유도(degree of freedom)와 같은 차원을 가집니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=AVERAGE(B3:B8) : 평균

=VARP(B3:B8) : 분산. 모분산. 편차제곱의 기대값

=STDEV.P(B3:B8) : 표준편차. 모표준편차. 편차제곱기대값의 제곱근

=C3^2 : 제곱



<실습강의 내용>

주사위 던지기

기대값과의 편차

편차제곱으로 새로운 확률변수 생성

확률분포 비교