확률변수의 편차로 새로운 확률변수 생성
Defining new variable from deviations

1. 애니메이션

1.1. 새로운 확률변수인 편차, 펀챠제곱을 생성하고 표본통계량 확률변수인 펀차제곱합 생성


2. 설명

2.1. 확률변수의 편차로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



새로운 확률변수인 편차, 펀챠제곱을 생성하고 표본통계량 확률변수인 펀차제곱합 생성


2. 설명

2.1 확률변수의 편차로 새로운 확률변수 생성

한 확률변수, Y를 반응변수(종속변수)로 하고 한 범주형 변수 X를 요인(factor, 독립변수)으로 할 때 확률변수의 편차제곱$(\rm Y-\mu_Y)^2$을 새로운 확률변수로 생성합니다. 한 확률변수(Y)의 모집단이 한 범주형 확률변수에따라 독립된 집단(Group)들로 카테고리화 될 때 확률변수($Y$)값의 편차제곱인, $(\rm Y-\mu)^2$이 새로운 확률변수가 됩니다. 각 집단의 분산($S^2$)은 각 집단의 평균을 기준으로 하는 편차제곱의 평균이며 확률변수입니다.  표본의 분산을 각각  $s_1^2$, $s_2^2$ , … , $s_i^2$.라하고 각 집단의  모분산은  각각  $\sigma_{Y_1}^2$, $\sigma_{Y_2}^2$ , … , $\sigma_{Y_i}^2$로 나타냅니다. 

 

여러 집단의 표준화된 변동량은 확률변수이며 각각 $\chi_1^2$, $\chi_2^2$ , … ,  $\chi_i^2$로 표현합니다. 여기서 $Y^2$ 대신에 그리스어인 $\chi^2$을 사용하는 이유는 편차제곱의 기준이 모평균이 아니고 표본의 평균임을 나타내기 위함입니다.

 

만일, 여러 집단의 평균이 같아 집단의 편차를 구할 때 사용하는 기준이 같다면, 집단을 구별하는 범주형 변수(수준, level)에따라 카테고리화 되는  집단의 모집단의 분산은 다음식과 같아집니다.

 

$\chi^2=(n_1 + n_2 + . … , + n_i – i) \frac {\sigma_Y^2}{\sigma_Y^2}$

 

$= \frac{s_1^2}{\frac{\sigma_{Y_1}^2}{(n_1 – 1)}} + \frac{s_2^2}{\frac{\sigma_{Y_2}^2}{(n_2 – 1)}} + , … , + \frac{s_i^2}{\frac{\sigma_{Y_i}^2}{(n_i – 1)}}$

 

여기서,  $\frac{\sigma_{Y_i}^2}{(n_i – 1)}$은 표본분산을 표준화하는 상수

 

$n_i$가 작으면 집단의 표본분산이 비대칭 분포를 가지나 $n_i$가 커질수록 정규분포에 가까워집니다. 그리고 표본분산을 표준화하면 t분포의 제곱인 확률분포를 구할 수 있는데  이를 카이제곱분포(chi-squared distribution)라하며 자유도(degree of freedom)와 같은 차원을 가집니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B8) : 평균

=VARP(B3:B8) : 분산. 모분산. 편차제곱의 기대값

=STDEV.P(B3:B8) : 표준편차. 모표준편차. 편차제곱기대값의 제곱근

=C3^2 : 제곱


3.3. 실습강의

주사위 던지기

기대값과의 편차

편차제곱으로 새로운 확률변수 생성

확률분포 비교



4. 용어와 수식

4.1 용어