F변환 F transformation



집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환


분산을 제곱합과 자유도로 분리

종속변수(반응변수)인 $Y$의 관측값들과 총평균 사이의 거리 제곱합으로 이를 총변동(total variation) 또는 총제곱합(total sum of squares, $SS_T$)이라 하고 다음과 같습니다.

 

$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$

 

$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 $\overline{Y_i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 $\overline{Y_{i\cdot}}$를 대입하면), 이는 집단 간의 차이에 의한 변동을 나타냅니다. 이와 같은 집단간의 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 따라서, 각 집단 간의 차이에 의해 발생하는 변동은 다음과 같습니다.

 

$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$

 

각 집단 내에서 발생하는 변동의 합은 다음과 같습니다.

 

$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$

 

각 집단 내의 변동을 집단 내 변동(within variation)이라 하며, 이 집단 내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.

 

각 제곱합이 가지는 자유도는 다음과 같은 논리에 의해 구해집니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}$을 계산해야하므로 $SS_T$는 자유도 $(n-1)$을 가집니다. 오차제곱합 $SS_E$의 계산을 위해서는 $k$개의 값 $\overline{Y_{1}},\cdots,\overline{Y_{k}}$이 먼저 계산되므로 $SS_E$는 $(n-k)$의 자유도를 가집니다. 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.

제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기

분산분석을 하기 위해서 처리제곱합($SS_{Tr}$)과 오차제곱합($SS_E$)를 각각의 자유도로 나누어 제곱평균을 구해야 합니다.

 

제곱평균

 

처리제곱평균 : $MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$

 

오차제곱평균 : $MS_{E}=\dfrac{SS_{E}}{n-k}$

 

여기서,  $MS_{Tr}$은 처리제곱평균(Treatment mean squares)

$MS_{E}$는 오차제곱평균(mean squares due to error)

 

만일, 집단의 수는 적고 각 집단의 대상자 수가 아주 많을 때 오차제곱합은 처리제곱합에 비해 매우 커질 것입니다. 물론, 그 반대의 경우도 마찬가지 입니다. 이런 경우, 오차제곱합과 처리제곱합을 해당 자유도로 나누어 주면 분산의 정도에 대해 표준화된 수치가 나옵니다.

 

$F$통계량

 

$F_{\rm statistic} = \dfrac{MS_{Tr}}{MS_{E}}$

 

만일, $MS_{Tr}$과 $MS_E$의 비율이 크면 독립변수를 몇 개의 수준 집단으로 나누었을 때, 집단 간 평균의 차이가 크다는 것을 의미합니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

F변환
구글시트 실습

<구글시트 함수>

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.



<실습강의 내용>

당도 평균이 다른 딸기 집단에서 각각 20개씩 샘플링

집단평균, 전체평균

집단간 제곱, 집단내 제곱

F변환