F분포
F distribution

1. 애니메이션

1.1. d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 확률변수,   $F$

2.2. 확률분포, $F_{v_1,\ v_2}$

2.3. $F$분포의 특성

2.4. $F$분포와 $t$분포의 관계

2.5 $F$분포를 이용한 $F$검정


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 확률변수, $F$

정규분포를 이루고 분산($\sigma^2$)이 같은 두 집단으로부터 크기 $n_1$과 크기 $n_2$의 표본을 추출합니다. 이때  추출한 표본분산($S_1^2$, $S_2^2$)을 모분산으로 나눈  두 비의 비를 새로운 확률변수로 하고 이를 $F$라 합니다. 표본추출을 무작위로 반복적으로 하면 $F$의 확률밀도함수는 $F$분포를 나타냅니다. $F$분포의 분자의 자유도는 $(n_1-1)$이고 분모의 자유도는 $(n_2-1)$입니다.
 
$\dfrac{\left(\dfrac{S_1^2}{\sigma_1^2}\right)}{\left(\dfrac{S_2^2}{\sigma_2^2}\right)}=\dfrac{S_1^2}{S_2^2}$
 
여기서, 두 집단은 정규분포를 나타내고 $\sigma_1^2 = \sigma_2^2$로 가정
 
먼저 확률변수인 $F$를 살펴보면, 분자와 분모의 자유도에 따라 달라지는 $F$확률분포를 가집니다.
 
$F_{v_1,\ v_2}=\dfrac{\dfrac{\chi_{v_1}^2}{v_1}}{\dfrac{\chi_{v_2}^2}{v_2}}$
 
여기서,  $v_1$, $v_2$은 F분포의 모수인 분자의 자유도와 분모의 자유도
$\chi_{v_1}^2$, $\chi_{v_2}^2$는 모수로 $v_1$과 $v_2$를 가지는 두 카이제곱분포($\chi^2$) 
 
 
위식을 확률변수인 두 표본분산에 적용하여 $F$로 변환하면 다음과 같습니다.
 
$F_{n_1-1,\ n_2-1}=\dfrac{\dfrac{\chi_{n_1-1}^2}{n_1-1}}{\dfrac{\chi_{n_2-1}^2}{n_2-1}}=\dfrac{\dfrac{\left({\left({n_1-1}\right)\dfrac{S_1^2}{\sigma_1^2}}\right)}{(n_1-1)}}{\dfrac{\left({\left({n_2-1}\right)\dfrac{S_2^2}{\sigma_2^2}}\right)}{(n_2-1)}}=\dfrac{\dfrac{S_1^2}{\sigma_1^2}}{\dfrac{S_2^2}{\sigma_2^2}}=\dfrac{S_1^2}{S_2^2}$
 
여기서,  $n_1$, $n_2$는 두 표본의 크기
 $(n_1-1)$, $(n_2-1)$은 두 표본의 자유도
$S_1^2$, $S_2^2$는 두 표본분산
$\sigma_1^2$, $\sigma_2^2$는 두 모분산
 
2.2. 확률분포, $F_{v_1,\ v_2}$
 
$F$분포($F$-distribution )는 연속확률분포(continuous probability distribution)이며 독립적인 두 카이제곱분포에 관한 비로써 정의됩니다. $U_1∼\chi_{v_1}^2$, $U_2∼\chi_{v_2}^2$이고 $U_1$과 $U_2$가 독립일 때 $F$분포를 다음과 같이 정의합니다. $F$분포는 두 모수를 가지는데 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도입니다.
 
확률분포 $F=\dfrac{U_1/v_1}{U_2/v_2}∼ F_{v_1,\ v_2}$
 
여기서,  $v_1$은 $U_1$(분자)의 자유도
$v_2$는 $U_2$(분모)의 자유도
 

2.3. $F$분포의 특성

항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 단일 분포가 아닌 모수인 분자의 자유도와 분모의 자유도에 따라 분포의 모양이 변하는 데, 분자의 자유도와 분모의 자유도가 커질 수록 정규분포에 가까워집니다. 

 

분모와 분자의 자유도가 서로 바뀌어 있는 두 $F$분포에 대하여 다음식이 성립합니다.

 

$F_{v_1,\ v_2,\ \alpha}=\dfrac{1}{F_{v_2, \ v_1 \ ;\ 1-\alpha}}$
 

2.4. $F$분포와 $t$분포의 관계

$t$분포를 제곱하면 분자와 분모의 자유도가 각각 1, $v$인 $F$분포가 됩니다.

 

$t=\dfrac{Z}{\sqrt{U/v}}\sim t_v$
 

$t_v^2=\dfrac{Z^2/1}{U/v}∼F_{1, \ v}$

 

2.5. $F$분포를 이용한 $F$검정

$F$분포로 하는 검정(test)을 $F$검정($F$-test)이라고 합니다. $F$검정은 두 모분산의 비교, 추정 및 검정 그리고 분산분석 및 상관회귀분석에 사용됩니다. 

 

$F_{v_1,\ v_2,\ ;\ \alpha}$는 $X\sim F_{v_1,\ v_2}$에 대하여 $P[X\geq a]=\alpha$가 되도록 하는 $a$의 값입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


F분포 : 구글시트 실습

3.2. 구글시트 함수

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.

=F.DIST(A3,1,1,FALSE) : 자유도가 1, 1인 F분포에서 A3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산.


3.3. 실습강의

당도 평균이 12, 13인 딸기 집단에서 각각 20개씩 샘플링
집단평균, 전체평균
집단간 제곱, 집단내 제곱
F변환
F분포



4. 용어와 수식

4.1 용어