모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성

1. 애니메이션

1.1. 집단 3개로 이루어진 모집단에서 집단 3개의 평균이 같다는 가설검정


2. 설명

2.1. 모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



집단 3개로 이루어진 모집단에서 집단 3개의 평균이 같다는 가설검정


2. 설명

2.1 모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성

요인과 반응을 모델링하면 다음식과 같습니다.

 

$Y_{ij}=\mu_{Y_i}+{\varepsilon}_{ij}=\mu_{Y}+{\alpha}_{i}+{\varepsilon}_{ij}$

 

여기서,  ${i}{=}{1}{,}{2}{,}\cdots{,}{k}$

$j=1, 2, \cdots , {n}_{i}$

 

위 식에서 $Y_{ij}$는 반응변수 $Y$의 $i$번째 집단에서의 $j$번째 관측값을 나타냅니다. 이 모델에서는 $i$번째 집단에서의 집단의 모평균 $\mu_{Y_{i}}$를 $\mu_{Y_i}{+}\alpha_{i}$로 나타내었는데 여기에서 $\mu_Y$는 $Y$의 전체 모평균을 나타내며, $\alpha_{i}$는 $(\mu_{Y_i}-\mu_Y{)}$로 이를 반응변수(종속변수)에 대한 $i$번째 집단의 효과(effect)라고 합니다.

 

오차항 $\epsilon_{ij}$는 서로 독립이며, 평균이 0 이고 분산이 ${\sigma^{2}}$인 정규분포를 따른다고 가정합니다. 오차항 $\epsilon_{ij}$는 집단간의 차이가 아닌 다른 요인에 기인하는 반응변수의 변동량을 나타내는 확률변수입니다. 예를 들어, 한 학교의 영어성적에서 각 학년의 영어성적 차이는 학년이라는 범주형 변수 외에 다른 요인들, 이를테면, 성별, IQ 등에 의해서도 발생할 수있습니다. 그러나 이들 변동량이 학년의 차이에 의한 변동량에 비해 상대적으로 작다면 이런 요인들을 일종의 오차들로 모델링합니다. 오차항 $\epsilon_{ij}$는 이와 같은 여러 가지 오차들의 합을 표현한 것 입니다.

 

검정하고자 하는 가설은 $\mu_{Y_i}$ 대신에 $\alpha_{i}$를 사용하면 아래와 같이 간단하게 표현할 수 있습니다.

 

귀무가설

 

$H_{0}:\alpha_{1}=\alpha_{2}=\cdots{=}\alpha_{k}=0$

 

대립가설

 

$H_{1}:$ 적어도 하나의 $\alpha_{i}$ 는 0 이 아니다.

 

이 가설의 검정을 위해서 아래와 같은  분산분석표(ANOVA table)를 사용합니다.

 

분산분석표

요인

Factor

제곱합

Sum of Square

자유도

평균제곱

Mean Square

F검정통계량

F value

처리

Treatment

$SS_{Tr}$ $k-1$ $MS_{Tr}=\dfrac{SS_{Tr}}{(k-1)}$ $F_0=\dfrac{MS_{Tr}}{MS_E}$

오차

Error

$SS_E$ $n-k$ $MS_E=\dfrac{SS_E}{(n-k)}$  

전체

Total

$SS_T$ $n-1$    

 

여기서,  $n=\sum\limits_{i=1}\limits^{k}n_{i}$

 

분산분석의 세 가지 제곱합의 설명을 위해 먼저 다음의 통계량을 정의합니다.

 

${\bar{Y}}_{i·}$는 $Y$ 의 $i$번째 수준에서의 관측값들의 평균

 

${\bar{Y}}_{··}$는 $Y$ 의 전체 관측값들의 총평균

 

분산분석의 세 가지 제곱합을 다음과 같이 표현합니다.

 

다음식과 같이 반응변량 $Y$의 관측값들과 총평균 사이의 거리의 제곱합을 총변동량 또는 총제곱합(total sum of squares, $\mathrm{SST}$)이라 합니다.

 

${\mathrm{SST}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}$

 

다음식은 각 집단간의 차이에 의해 발생하는 변동량을 나타냅니다. $Y$의 $i$번째 집단에서의 관측값들의 평균 ${\bar{Y}}_{i·}$는 각 집단내의 변동량을 평균한 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 이 표본평균을 사용하여 총변동량을 구하면, 즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 ${\bar{Y}}_{i·}$를 대입하면 이는 집단간의 차이에 의한 변동량을 나타냅니다. 이와 같은 집단간의 변동량을 집단간변동량(between variation)이라 하며 이 변동량을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $\mathrm{SSTr}$)이라 합니다.

 

${\mathrm{SSTr}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{\overline{Y}}_{{i}\cdot}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}$

 

다음식은 각 집단내에서 발생하는 변동량들의 합을 나타냅니다. 각 집단내의 변동량을 집단내변동량(within variation)이라 하며, 이 집단내변동량을 나타내는 제곱합을 오차제곱합(error sum of squares, $\mathrm{SSE}$)이라 합니다.

 

${\mathrm{SSE}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}}_{{i}\cdot}{)}^{2}}}$

 

각 제곱합이 가지는 자유도는 다음과 같이 구합니다. $SST$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}_{..}$을 계산해야하므로 $\mathrm{SST}$는 자유도 $(n-1)$을 가지며, 오차제곱합 $\mathrm{SSE}$의 계산을 위해서는 $k$개의 값 ${\bar{Y}}_{1\cdot{}},\cdots,{\bar{Y}}_{k\cdot{}}$이 먼저 계산되므로 $\mathrm{SSE}$는 $(n-k)$의 자유도, 처리제곱합$\mathrm{SST}r$은 $\mathrm{SST}$의 자유도에서 $\mathrm{SSE}$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B6) : 기대값. 평균

=SUM(B3:C3) : 합

=COUNTIF(D3:D6,A10) : 지정한 범위 내에서 조건에 맞는 데이터 개수

=(N3-N26)^2 : 편차 제곱

=COUNTUNIQUE(O3:O22) : 지정한 범위 내에서 고유한 값의 데이터 개수

=F.DIST.RT(X3,V3,V4) : V3와 V4를 자유도로 가지는 F분포 상에서 X3 값 우측의 확률밀도 면적


3.3. 실습강의

집단 1 : 동전 던지기 값 2개의 합

집단 2 : 동전 던지기 값 4개의 합

전체제곱, 처리제곱, 오차제곱

새로운 확률변수 생성



4. 용어와 수식

4.1 용어