F변환
F transformation
1.1. 집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환
4.1. 용어
1. 애니메이션
2. 설명
2.1. 분산을 제곱합과 자유도로 분리
종속변수(반응변수)인 $Y$의 관측값들과 총평균 사이의 거리 제곱합으로 이를 총변동(total variation) 또는 총제곱합(total sum of squares, $SS_T$)이라 하고 다음과 같습니다.
$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$
$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 $\overline{Y_i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 $\overline{Y_{i\cdot}}$를 대입하면), 이는 집단 간의 차이에 의한 변동을 나타냅니다. 이와 같은 집단간의 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 따라서, 각 집단 간의 차이에 의해 발생하는 변동은 다음과 같습니다.
$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$
각 집단 내에서 발생하는 변동의 합은 다음과 같습니다.
$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$
각 집단 내의 변동을 집단 내 변동(within variation)이라 하며, 이 집단 내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.
각 제곱합이 가지는 자유도는 다음과 같은 논리에 의해 구해집니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}$을 계산해야하므로 $SS_T$는 자유도 $(n-1)$을 가집니다. 오차제곱합 $SS_E$의 계산을 위해서는 $k$개의 값 $\overline{Y_{1}},\cdots,\overline{Y_{k}}$이 먼저 계산되므로 $SS_E$는 $(n-k)$의 자유도를 가집니다. 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.
2.2. 제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기
분산분석을 하기 위해서 처리제곱합($SS_{Tr}$)과 오차제곱합($SS_E$)를 각각의 자유도로 나누어 제곱평균을 구해야 합니다.
제곱평균
처리제곱평균 : $MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$
오차제곱평균 : $MS_{E}=\dfrac{SS_{E}}{n-k}$
여기서, $MS_{Tr}$은 처리제곱평균(Treatment mean squares)
$MS_{E}$는 오차제곱평균(mean squares due to error)
만일, 집단의 수는 적고 각 집단의 대상자 수가 아주 많을 때 오차제곱합은 처리제곱합에 비해 매우 커질 것입니다. 물론, 그 반대의 경우도 마찬가지 입니다. 이런 경우, 오차제곱합과 처리제곱합을 해당 자유도로 나누어 주면 분산의 정도에 대해 표준화된 수치가 나옵니다.
$F$통계량
$F_{\rm statistic} = \dfrac{MS_{Tr}}{MS_{E}}$
만일, $MS_{Tr}$과 $MS_E$의 비율이 크면 독립변수를 몇 개의 수준 집단으로 나누었을 때, 집단 간 평균의 차이가 크다는 것을 의미합니다.
3. 실습
3.2. 구글시트 함수
=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성
=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.
=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.
=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.
=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.
=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.
3.3. 실습강의
당도 평균이 다른 딸기 집단에서 각각 20개씩 샘플링
집단평균, 전체평균
집단간 제곱, 집단내 제곱
F변환
4. 용어와 수식
4.1 용어