F분포 F distribution



d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


확률변수, $F$

정규분포를 이루고 분산($\sigma^2$)이 같은 두 집단으로부터 크기 $n_1$과 크기 $n_2$의 표본을 추출합니다. 이때  추출한 표본분산($S_1^2$, $S_2^2$)을 모분산으로 나눈  두 비의 비를 새로운 확률변수로 하고 이를 $F$라 합니다. 표본추출을 무작위로 반복적으로 하면 $F$의 확률밀도함수는 $F$분포를 나타냅니다. $F$분포의 분자의 자유도는 $(n_1-1)$이고 분모의 자유도는 $(n_2-1)$입니다.
 
$\dfrac{\left(\dfrac{S_1^2}{\sigma_1^2}\right)}{\left(\dfrac{S_2^2}{\sigma_2^2}\right)}=\dfrac{S_1^2}{S_2^2}$
 
여기서, 두 집단은 정규분포를 나타내고 $\sigma_1^2 = \sigma_2^2$로 가정
 
먼저 확률변수인 $F$를 살펴보면, 분자와 분모의 자유도에 따라 달라지는 $F$확률분포를 가집니다.
 
$F_{v_1,\ v_2}=\dfrac{\dfrac{\chi_{v_1}^2}{v_1}}{\dfrac{\chi_{v_2}^2}{v_2}}$
 
여기서,  $v_1$, $v_2$은 F분포의 모수인 분자의 자유도와 분모의 자유도
$\chi_{v_1}^2$, $\chi_{v_2}^2$는 모수로 $v_1$과 $v_2$를 가지는 두 카이제곱분포($\chi^2$) 
 
 
위식을 확률변수인 두 표본분산에 적용하여 $F$로 변환하면 다음과 같습니다.
 
$F_{n_1-1,\ n_2-1}=\dfrac{\dfrac{\chi_{n_1-1}^2}{n_1-1}}{\dfrac{\chi_{n_2-1}^2}{n_2-1}}=\dfrac{\dfrac{\left({\left({n_1-1}\right)\dfrac{S_1^2}{\sigma_1^2}}\right)}{(n_1-1)}}{\dfrac{\left({\left({n_2-1}\right)\dfrac{S_2^2}{\sigma_2^2}}\right)}{(n_2-1)}}=\dfrac{\dfrac{S_1^2}{\sigma_1^2}}{\dfrac{S_2^2}{\sigma_2^2}}=\dfrac{S_1^2}{S_2^2}$
 
여기서,  $n_1$, $n_2$는 두 표본의 크기
 $(n_1-1)$, $(n_2-1)$은 두 표본의 자유도
$S_1^2$, $S_2^2$는 두 표본분산
$\sigma_1^2$, $\sigma_2^2$는 두 모분산
 
확률분포, $F_{v_1,\ v_2}$
 
$F$분포($F$-distribution )는 연속확률분포(continuous probability distribution)이며 독립적인 두 카이제곱분포에 관한 비로써 정의됩니다. $U_1∼\chi_{v_1}^2$, $U_2∼\chi_{v_2}^2$이고 $U_1$과 $U_2$가 독립일 때 $F$분포를 다음과 같이 정의합니다. $F$분포는 두 모수를 가지는데 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도입니다.
 
확률분포 $F=\dfrac{U_1/v_1}{U_2/v_2}∼ F_{v_1,\ v_2}$
 
여기서,  $v_1$은 $U_1$(분자)의 자유도
$v_2$는 $U_2$(분모)의 자유도
 

$F$분포의 특성

항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 단일 분포가 아닌 모수인 분자의 자유도와 분모의 자유도에 따라 분포의 모양이 변하는 데, 분자의 자유도와 분모의 자유도가 커질 수록 정규분포에 가까워집니다. 

 

분모와 분자의 자유도가 서로 바뀌어 있는 두 $F$분포에 대하여 다음식이 성립합니다.

 

$F_{v_1,\ v_2,\ \alpha}=\dfrac{1}{F_{v_2, \ v_1 \ ;\ 1-\alpha}}$
 

$F$분포와 $t$분포의 관계

$t$분포를 제곱하면 분자와 분모의 자유도가 각각 1, $v$인 $F$분포가 됩니다.

 

$t=\dfrac{Z}{\sqrt{U/v}}\sim t_v$
 

$t_v^2=\dfrac{Z^2/1}{U/v}∼F_{1, \ v}$

 

$F$분포를 이용한 $F$검정

$F$분포로 하는 검정(test)을 $F$검정($F$-test)이라고 합니다. $F$검정은 두 모분산의 비교, 추정 및 검정 그리고 분산분석 및 상관회귀분석에 사용됩니다. 

 

$F_{v_1,\ v_2,\ ;\ \alpha}$는 $X\sim F_{v_1,\ v_2}$에 대하여 $P[X\geq a]=\alpha$가 되도록 하는 $a$의 값입니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.

=F.DIST(A3,1,1,FALSE) : 자유도가 1, 1인 F분포에서 A3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산.



<실습강의 내용>

당도 평균이 12, 13인 딸기 집단에서 각각 20개씩 샘플링
집단평균, 전체평균
집단간 제곱, 집단내 제곱
F변환
F분포