F분포
F distribution

1. 애니메이션

1.1. d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 확률변수,   $F$

2.2. 확률분포, $F_{v_1,\ v_2}$

2.3. $F$분포의 특성

2.4. $F$분포와 $t$분포의 관계

2.5 $F$분포를 이용한 $F$검정


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 확률변수, $F$

정규분포를 이루고 분산($\sigma^2$)이 같은 두 집단으로부터 크기 $n_1$과 크기 $n_2$의 표본을 추출합니다. 이때  추출한 표본분산($S_1^2$, $S_2^2$)을 모분산으로 나눈  두 비의 비를 새로운 확률변수로 하고 이를 $F$라 합니다. 표본추출을 무작위로 반복적으로 하면 $F$의 확률밀도함수는 $F$분포를 나타냅니다. $F$분포의 분자의 자유도는 $(n_1-1)$이고 분모의 자유도는 $(n_2-1)$입니다.
 
$\dfrac{\left(\dfrac{S_1^2}{\sigma_1^2}\right)}{\left(\dfrac{S_2^2}{\sigma_2^2}\right)}=\dfrac{S_1^2}{S_2^2}$
 
여기서, 두 집단은 정규분포를 나타내고 $\sigma_1^2 = \sigma_2^2$로 가정
 
먼저 확률변수인 $F$를 살펴보면, 분자와 분모의 자유도에 따라 달라지는 $F$확률분포를 가집니다.
 
$F_{v_1,\ v_2}=\dfrac{\dfrac{\chi_{v_1}^2}{v_1}}{\dfrac{\chi_{v_2}^2}{v_2}}$
 
여기서,  $v_1$, $v_2$은 F분포의 모수인 분자의 자유도와 분모의 자유도
$\chi_{v_1}^2$, $\chi_{v_2}^2$는 모수로 $v_1$과 $v_2$를 가지는 두 카이제곱분포($\chi^2$) 
 
 
위식을 확률변수인 두 표본분산에 적용하여 $F$로 변환하면 다음과 같습니다.
 
$F_{n_1-1,\ n_2-1}=\dfrac{\dfrac{\chi_{n_1-1}^2}{n_1-1}}{\dfrac{\chi_{n_2-1}^2}{n_2-1}}=\dfrac{\dfrac{\left({\left({n_1-1}\right)\dfrac{S_1^2}{\sigma_1^2}}\right)}{(n_1-1)}}{\dfrac{\left({\left({n_2-1}\right)\dfrac{S_2^2}{\sigma_2^2}}\right)}{(n_2-1)}}=\dfrac{\dfrac{S_1^2}{\sigma_1^2}}{\dfrac{S_2^2}{\sigma_2^2}}=\dfrac{S_1^2}{S_2^2}$
 
여기서,  $n_1$, $n_2$는 두 표본의 크기
 $(n_1-1)$, $(n_2-1)$은 두 표본의 자유도
$S_1^2$, $S_2^2$는 두 표본분산
$\sigma_1^2$, $\sigma_2^2$는 두 모분산
 
2.2. 확률분포, $F_{v_1,\ v_2}$
 
$F$분포($F$-distribution )는 연속확률분포(continuous probability distribution)이며 독립적인 두 카이제곱분포에 관한 비로써 정의됩니다. $U_1∼\chi_{v_1}^2$, $U_2∼\chi_{v_2}^2$이고 $U_1$과 $U_2$가 독립일 때 $F$분포를 다음과 같이 정의합니다. $F$분포는 두 모수를 가지는데 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도입니다.
 
확률분포 $F=\dfrac{U_1/v_1}{U_2/v_2}∼ F_{v_1,\ v_2}$
 
여기서,  $v_1$은 $U_1$(분자)의 자유도
$v_2$는 $U_2$(분모)의 자유도
 

2.3. $F$분포의 특성

항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 단일 분포가 아닌 모수인 분자의 자유도와 분모의 자유도에 따라 분포의 모양이 변하는 데, 분자의 자유도와 분모의 자유도가 커질 수록 정규분포에 가까워집니다. 

 

분모와 분자의 자유도가 서로 바뀌어 있는 두 $F$분포에 대하여 다음식이 성립합니다.

 

$F_{v_1,\ v_2,\ \alpha}=\dfrac{1}{F_{v_2, \ v_1 \ ;\ 1-\alpha}}$
 

2.4. $F$분포와 $t$분포의 관계

$t$분포를 제곱하면 분자와 분모의 자유도가 각각 1, $v$인 $F$분포가 됩니다.

 

$t=\dfrac{Z}{\sqrt{U/v}}\sim t_v$
 

$t_v^2=\dfrac{Z^2/1}{U/v}∼F_{1, \ v}$

 

2.5. $F$분포를 이용한 $F$검정

$F$분포로 하는 검정(test)을 $F$검정($F$-test)이라고 합니다. $F$검정은 두 모분산의 비교, 추정 및 검정 그리고 분산분석 및 상관회귀분석에 사용됩니다. 

 

$F_{v_1,\ v_2,\ ;\ \alpha}$는 $X\sim F_{v_1,\ v_2}$에 대하여 $P[X\geq a]=\alpha$가 되도록 하는 $a$의 값입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


F분포 : 구글시트 실습

3.2. 구글시트 함수

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.

=F.DIST(A3,1,1,FALSE) : 자유도가 1, 1인 F분포에서 A3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산.


3.3. 실습강의

당도 평균이 12, 13인 딸기 집단에서 각각 20개씩 샘플링
집단평균, 전체평균
집단간 제곱, 집단내 제곱
F변환
F분포



4. 용어와 수식

4.1 용어

카이제곱분포
Chi-squared distribution

1. 애니메이션

1.1. 자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 카이제곱분포의 특징

2.2. 표본분산(확률변수 $S^2$)의 카이제곱변환


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 카이제곱분포의 특징
 
확률변수 카이제곱($\chi^2$)은 항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 모수(parameter, 매개변수)인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.
2.2. 표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동도 확률변수가 되며 그, 확률변수를 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
확률변수인 집단의 표본평균($\bar X$)을 점추정하면 집단의 모평균($\mu_X$)과 같습니다. 그리고 표본분산($S^2$)을 총변동과 자유도로 분리하면 다음과 같습니다.
 
 
총변동 = $\sum\limits_{i=1}^{n}{Z_i^2}$
 
자유도 = $n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S_X^2}{\sigma_X^2}=(n-1)S_X^2$
 
$S_X^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma_X^2=1$
 
 
한편, 정규분포를 가지고 확률변수가 $X$인 집단(모평균 $\mu_X$, 모분산 $\sigma_X^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S_X^2$)의 확률분포(표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기가 $n$인 집단의 표본분산($S_X^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S_X^{2}}{\sigma_{X}^{2}}=\dfrac{S_X^{2}}{\dfrac{\sigma_X^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
확률변수 $X$를 가지는 집단의 표본분산 $S_X^2$은 역시, 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S_X^2$)을 집단의 모분산( $\sigma_X^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 표현하기도 합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


카이제곱분포 - 구글시트 실습

3.2. 구글시트 함수

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. 1을 다른 숫자로 바꾸면, 이 숫자를 자유도로 하는 카이제곱분포의 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포

자유도 1, 2, 3, 4, 5인 카이제곱분포



4. 용어와 수식

4.1 용어

t분포
t distribution

1. 애니메이션

1.1. 자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1. t분포


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1 t분포

확률변수 $X$를 가지는 개체로 이루어진 집단이 있습니다. 이  확률변수가 모평균($\mu_X$), 모표준편차($\sigma_X$)를 모수(parameter)로 가지는 정규분포를 가진다고 하면 이 집단에서 추출한 표본크기 $n$인 표본의 표본평균( $\bar X$)도 확률변수가 되며 표본의 표본표준편차도 확률변수($S_X$)가 됩니다. 

 

$$\{X_{1},\ldots ,X_{n}\}$$

여기서,  $X$는 평균이 $\mu$이고 분산이 $\sigma ^2$인 정규분포를 나타냄

 

$$\bar {X}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}$$

 

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$$

 

중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 종모양의 분포를 나타냅니다. 표본크기($n$)가 커질수록 종모양은 정규분포의 모양과 같아집니다. 이 종모양의 분포를 t분포라고 합니다. 그리고 표본평균($\bar X$) 표집이 나타내는 확률분포도 종모양의 분포를 나타내며 표본크기가 커질수록 종모먕이 더 뾰족해 지면서 정규분포와 같아집니다. 이 때 표본평균 표집의 모표준편차는 다음식과 같습니다.

 

$\dfrac{\sigma_X}{\sqrt{n}}$

 

다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.

 

${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$

 

표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉,  $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양의 확률밀도함수로 나타난다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.

 

$${\rm SE} (\bar X – \mu_X)=\sigma_{\bar X}=\dfrac{\sigma_X}{\sqrt{n}}$$

 

확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값  $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다.  이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다. 

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$

 

여기서,  확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


t분포 - 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=STDEV.P(J3:J10) : 모표준편차. J3에서 J10에 있는 데이터의 모표준편차. 모분산의 제곱근.

=STDEV.S(R3:S3) : 표본표준편차. R3에서 S3에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

=NORM.DIST(AF3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1, 표준정규분포에서 AF3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.

=T.DIST(AK3,1,FALSE) : t분포 확률밀도. 자유도가 1인 t분포에서 Ak3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본평균들의 분포

Z변환과 t변환

Z분포와 t분포



4. 용어와 수식

4.1 용어

표본비율의 표집

1. 애니메이션

1.1. 베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1.표본비율(Sample Proportion)

2.2. 표본비율($\hat p$) 표집


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1. 표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 표본비율 표집의 모분산은  다음과 같습니다.

 

$${\rm E}(\hat p)=p$$

 

$${\rm Var}(\hat p)={\rm Var}(\dfrac{X}{n})=\dfrac{1}{n^2}{\rm Var}(X)=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.


2.2. 표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본비율의 표집 - 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집 



4. 용어와 수식

4.1 용어

표본분산의 표집

1. 애니메이션

1.1.
자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화

1.2. d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

2.2. 표본분산의 표집

2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후 카이제곱분포를 표본분산의 표집분포 분석에 사용


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화




d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

확률변수가 $X$이고 집단의 모평균과 모분산이 각각 $\mu_X$, $\sigma_X^2$인 집단이 있습니다. 이 집단에서 추출한 표본의 크기가 $n$인 표본을 확률변수로 표현하면 다음과 같습니다. 

 

{${X_1}, {X_2}, … , {X_n}$}

 

여기서, ${X_1}, {X_2}, … , {X_n}$은 $X$로써 같은 확률변수

 

표본분산($S^2$)은 표본평균($\bar X$)와 마찬가지로 확률변수입니다. 표본분산의 기준은 표본평균입니다. 따라서 표본크기가 n이라면 표본분산의 자유도는 (n-1)이 됩니다. 즉, 표본평균을 구하는데 표본크기 중 하나를 사용하여 자유도는 하나가 줄게 됩니다.  표본분산의 기대값은 집단의 모분산($\sigma^2$)입니다. 참고로, 표본평균의 기대값은 집단의 모평균($\mu$)입니다.

 

표본분산의 추정량(Estimator)은 다음과 같습니다.

 

$S_X^2=\dfrac{({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ , … , + {(X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$

 

표본분산의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[S^2]=\sigma^2$

 

참고로, 표본평균의 추정량(Estimator)은 다음과 같습니다.

 

${\bar X}=\dfrac{{X_1}+{X_2}+ , … , +{X_n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}{X_i}$

 

참고로, 표본평균의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[\bar X]=\mu_X$


2.2. 표본분산의 표집

집단이 정규분포를 이룬다면 표본분산의 표집은 카이제곱분포를 모분산과 자유도와 모분산의 비($\frac{n-1}{\sigma^2}$)로 표준화한 분포를 따릅니다.  표본분산의 표집의 모평균(표본분산의 기대값)은 집단의 모분산과 같고 표본분산 표집의 모분산은 다음과 같은 근사값을 가집니다.

 

표본분산 표집의 모평균 : 표본분산 기대값

 

${\rm E}[S_{X}^2]=\mu_{S_{X}^2}∼\sigma_X^2$

 

표본분산 표집의 모분산

 

${\rm Var}(S_{X}^2)=\sigma_{S_{X}^2}^2∼\dfrac{2\sigma_X^4}{n-1}$

 

여기서,  $n$은 표본크기

 

표본분산 표집의 모표준편차

${\rm SD}(S_{X}^2)=\sigma_{S_{X}^2}∼\sqrt{\dfrac{2\sigma_X^4}{n-1}}$

 

참고로, 집단이 정규분포를 이룬다면 표본평균의 표집은 정규분포를 이룹니다, 표본평균 표집의 모평균(표본평균의 기대값)은 집단의 모평균과 같고 표본평균 표집의 모분산은 집단의 모분산을 표본의 자유도로 나눈 값과 같습니다.


2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후  카이제곱분포를 표본분산의 표집분포 분석에 사용

표본분산을 무차원 확률변수인 카이제곱으로 변환하면 다음과 같습니다.

 

$\chi_{n-1}^2=(n-1)\dfrac{S^2}{\sigma^2}$

 

위식의 카이제곱분포의 모수인 자유도(degree of freedom, $df$)는 다음과 같습니다.

 

$df =  n-1$

표본의 크기가 n인 표본의 분포값을 표본분산(variance) $\rm S^2$이라고 합니다.  표본평균과 마찬가지로 표본분산($\rm S^2$)도 확률변수이며 따라서 확률분포인 표집분포(sampling distribution of sample variances)를 가집니다. 표본분산과 모집단의 관계를 알 수 있다면  표본에서 구할 수 있는 표본분산으로 모집단의 모분산을 추정할 수 있습니다.

 

표본분산의 확률분포를 표본분산의 표집분포(sampling distribution of sample variances)라 합니다. 확률변수인 표본분산은 음수일 수도 있는 표본평균과 달리 음수가 아닌 0과 양의 실수입니다. 그리고 표본분산은 큰 값을 갖는 확률보다는 0에 가까운 작은 값을 갖는 확률이 더 큰 비대칭분포를 보입니다. 그리고 표본분산($\rm S^2$)을 모분산으로 나누어서 표준화를 하고  표본의 자유도(n-1)를 곱한 값을 카이제곱($\chi_{n-1}^{2}$)이라하고 아래식처럼 표현할 수 있습니다.  

 

$\chi_{n-1}^{2}=\left({n-1}\right){\dfrac{S^{2}}{\sigma^{2}}}$ 

 

새로운 확률변수인 카이제곱($\chi_{n-1}^{2}$)은 카이제곱분포(chi-squared distribution)를 나타냅니다.  카이제곱분포는 자유도(degree of freedom)이라는 모수(parameter)를 가지며, t분포와 마찬가지로 자유도마다 확률분포가 있으며,  따라서 무수히 많은 확률분포를 가집니다. 

 

정리하면, 집단이 $\sigma^2$인 정규분포를 나타내고 표본의 크기가 n인 표본을 단순임의복원추출하면,  확률변수인 표본분산($\rm S^2$)을 집단의 모분산($\sigma^2$)으로 표준화하고 자유도(n-1)를 곱한 새로운 확률변수인 카이제곱( $\chi^2$)은 자유도에 따른 카이제곱분포를 따릅니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본분산의 표집 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본분산

표본분산의 표집 



4. 용어와 수식

4.1 용어

표본평균 표집

1. 애니메이션

1.1. 표본추출과 표집 모델링

1.2. 집단의 확률분포와 표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

2.2. 표본평균 표집(Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



모집단과 표본평균 확률밀도




표본추출과 표집 모델링




집단의 확률분포와  표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

표본평균 표집은 표본이 추출된 집단(모집단)의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다. 모평균을 추정을 할 때는 표본평균 추정량을 통해 구한 표본평균을 기준으로 하고 표본평균의 표준오차와 주어진 신뢰수준으로 정해지는 구간사이에 모평균이 위치한다고 추정합니다. 신뢰구간을 정하기 위해서는 신뢰수준을 주어야 합니다. 신뢰수준은 90%, 95%, 99% 등 확률단위를 가지며 검정하는 주체가 결정합니다. 표본평균을 중심으로 신뢰수준의 확률을 가지는 구간을 신뢰구간이라고 합니다. 만일, 표본평균의 확률분포를 안다면 신뢰수준으로 신뢰구간을 알 수 있습니다. 신뢰구간은 확률변수의 단위와 같습니다.

 

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 표본평균과 모분산(모분산을 모르는 경우에는 표본분산을 사용)으로 모평균에 대한 가설을 검정합니다. 검정을 하려면 신뢰수준의 반대개념인 유의수준을 검정의 주체가 결정해야합니다. 유의수준은 확률이고 따라서 단위는 확률의 단위와 같습니다. 보통 10%, 5%, 1%등이 사용됩니다.  만일 표본평균의 확률분포를 안다면 유의수준으로 유의구간을 구할 수 있습니다. 유의구간은 보통 최소값($-\infty$)에서 임계값까지 또는 임계값에서 최대값($+\infty$)으로 나타납니다.

 

정리하면 표본평균으로 모평균을 추정할 때는 신뢰구간을 사용하며, 표본평균과 모평균을 비교하는 가설을 검정할 때는 표본평균으로구한 유의확률과 유의수준을 비교합니다. 확률변수인 표본평균이 나타내는 확률분포를 표본평균의 표집분포(sampling distribution)라고 합니다. 이는 표본의 확률분포(sample distribution)와 구분됩니다.

 

표본평균의 속성은 다음 세가지가 있습니다.

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 표본크기를 늘리면 집단에서 추출한 표본의 표본평균은 집단의 모평균과 점점 같아진다. 일반화하면, 표본통계량은 집단의 모수와 점점 같아진다. 

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 분산이 점점 작아진다.


2.2. 표본평균(sample mean) 표집(sampling distribution)

모집단 모형

$$\{{X_1},\ldots ,{X_N}\}$$

여기서, $N$은 모집단크기 : 모집단이 무한집단이면 $N→∞$

표본 모형 : 확률변수 $X$를 가지는 개체($i$)가 이루는 집단($X_i$)에서 추출한 표본

$$\{{X_1},\ldots ,{X_n}\}$$

여기서, $n$은 표본크기

표본평균($\bar X$) 표집 모형

$$\{{{\bar X}_1},\ldots ,{{\bar X}_k}\}$$

여기서, $k$는 표집크기 : 표집이 무한집단이면 $k→∞$

표본평균의 추정량(estimator)

$${\bar X}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산의 추정량(estimator)

$$S_X^2= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$$

여기서, $n$은 표본크기

표본평균 표집의 평균 : 표본평균의 분포의 무게중심

$$\mu_{\bar X}={\rm E} [\bar X]=\mu_X$$

여기서, $\mu_X$는 모평균 : $\mu_X={\rm E}[X]$

$n$은 표본크기

표본평균 표집의 분산 : 표본평균의 변동

$${\rm Var}[\bar X]=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$$

$n$은 표본크기

표본평균 표집의 표준편차

$${\rm SD}[\bar X]=\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$$

$n$은 표본크기

표본평균($\bar X$)을 $Z$변환

$$Z=\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$$

여기서, $\mu_X$는 모평균

${\rm N}(0, 1)$는 표준정규분포

$\mu_X=\mu_{\bar X}$

$n$은 표본크기

표본평균($\bar X$)을 $t$변환

$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$

여기서, $\mu_X$는 모평균

$S_X$는 표본표준편차

$t_{n-1}$은 자유도가 $n-1$인 $t$분포

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본평균 표집 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(D3:D1002) : 데이터 개수. D3에서 D1002에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(D3:D1002) : 평균. D3에서 D1002에 있는 데이터의 평균.

=VARP(D3:D1002) : 모분산. D3에서 D1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(D3:D1002) : 모표준편차. D3에서 D1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=NORMDIST(P3,G3,I3,FALSE) : 정규분포 확률밀도. G3가 평균, I3가 표준편차인 정규분포에서 P3 확률변수에 대한 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함. 

=ROWS(K2:K2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,1000) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(I3&”:”&J3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(K2:K2, ROW(I3:J3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(M3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 M3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=VAR.S(BG3:BG22) : 표본분산. BG3에서 BG22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(BG3:BG22) : 표본표준편차. BG3에서 BG22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.


3.3. 실습강의

– 모집단과 표본평균의 분포 비교

– 모집단

– 표본크기 20인 표본평균들의 분포

– 표본크기 50인 표본평균들의 분포

– 표본크기 100인 표본평균들의 분포

– 실습안내



4. 용어와 수식

4.1 용어


모수

통계적 매개변수(모수, parameter) 또는 집단의 매개변수는 통계 또는 확률변수의 확률분포를 표현하는 양입니다. 그것은 통계의 대상인 집단이나 통계적 모델의 수치적 특성으로 간주 될 수 있습니다.  구분된 데이터 계열(family)이  있다고 가정합니다. 구분자(index)가 계열의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도의 수에 의해 구분(indexing)될 수 있습니다. 자유도의 수는 카이제곱분포의 매개변수이므로 카이제곱분포는  매개변수화된 계열이라고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia


표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

Reference

Standard error – Wikipedia

F변환
F transformation

1. 애니메이션

1.1. 집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환


2. 설명

2.1. 분산을 제곱합과 자유도로 분리

2.2. 제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환


2. 설명

2.1. 분산을 제곱합과 자유도로 분리

종속변수(반응변수)인 $Y$의 관측값들과 총평균 사이의 거리 제곱합으로 이를 총변동(total variation) 또는 총제곱합(total sum of squares, $SS_T$)이라 하고 다음과 같습니다.

 

$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$

 

$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 $\overline{Y_i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 $\overline{Y_{i\cdot}}$를 대입하면), 이는 집단 간의 차이에 의한 변동을 나타냅니다. 이와 같은 집단간의 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 따라서, 각 집단 간의 차이에 의해 발생하는 변동은 다음과 같습니다.

 

$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$

 

각 집단 내에서 발생하는 변동의 합은 다음과 같습니다.

 

$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$

 

각 집단 내의 변동을 집단 내 변동(within variation)이라 하며, 이 집단 내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.

 

각 제곱합이 가지는 자유도는 다음과 같은 논리에 의해 구해집니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}$을 계산해야하므로 $SS_T$는 자유도 $(n-1)$을 가집니다. 오차제곱합 $SS_E$의 계산을 위해서는 $k$개의 값 $\overline{Y_{1}},\cdots,\overline{Y_{k}}$이 먼저 계산되므로 $SS_E$는 $(n-k)$의 자유도를 가집니다. 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.

2.2. 제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기

분산분석을 하기 위해서 처리제곱합($SS_{Tr}$)과 오차제곱합($SS_E$)를 각각의 자유도로 나누어 제곱평균을 구해야 합니다.

 

제곱평균

 

처리제곱평균 : $MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$

 

오차제곱평균 : $MS_{E}=\dfrac{SS_{E}}{n-k}$

 

여기서,  $MS_{Tr}$은 처리제곱평균(Treatment mean squares)

$MS_{E}$는 오차제곱평균(mean squares due to error)

 

만일, 집단의 수는 적고 각 집단의 대상자 수가 아주 많을 때 오차제곱합은 처리제곱합에 비해 매우 커질 것입니다. 물론, 그 반대의 경우도 마찬가지 입니다. 이런 경우, 오차제곱합과 처리제곱합을 해당 자유도로 나누어 주면 분산의 정도에 대해 표준화된 수치가 나옵니다.

 

$F$통계량

 

$F_{\rm statistic} = \dfrac{MS_{Tr}}{MS_{E}}$

 

만일, $MS_{Tr}$과 $MS_E$의 비율이 크면 독립변수를 몇 개의 수준 집단으로 나누었을 때, 집단 간 평균의 차이가 크다는 것을 의미합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


F변환

3.2. 구글시트 함수

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.


3.3. 실습강의

당도 평균이 다른 딸기 집단에서 각각 20개씩 샘플링

집단평균, 전체평균

집단간 제곱, 집단내 제곱

F변환



4. 용어와 수식

4.1 용어

t변환
t transformation

1. 애니메이션

1.1. 자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1. t변환


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1 t변환

확률변수 $X$를 가지는 집단에서 추출한 크기 $n$인 표본의 표본평균도 확률변수가 되며  $\bar X$로 표시합니다. 표본의 표본표준편차는 $S_X$로 표시합니다. 집단의 모평균은 $\mu_X$, 모표준편차는 $\sigma_X$로 표시합니다.

중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 정규분포를 나타냅니다. 그리고 표본평균($\bar X$)의 표집분포의 표준편차는 다음식과 같습니다.

$\dfrac{\sigma_X}{\sqrt{n}}$

다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.

${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$

표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉,  $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양(정규분포)을 나타낸다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.

확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값  $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다.  이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다.

$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$

여기서,  확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


t변환

3.2. 구글시트 함수

=COUNT(B3:B22) : 숫자 형식의 데이터 개수. B3에서 B22 범위의 데이터 개수를 구함.

=AVERAGE(B3:B22) : 평균. B3에서 B22 범위에 있는 데이터의 산술평균을 계산함.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22 범위에 있는 데이터의 표본표준편차를 계산함. STDEV.S 대신 STDEV.P를 입력하면, 모표준편차를 계산함.

=(B3-B24)/(B25/SQRT(B23)) : t변환 값 계산. B3 값의 t 변환값을 계산. B24에서 표본평균, B25에는 표본표준편차, B23에는 표본의 크기 값이 있음. SQRT는 제곱근을 계산함.

=T.DIST(C3,B23-1,FALSE) : B23-1의 자유도를 가진 t분포에서 C3 확률변수의 확률밀도. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

당도 평균이 15인 딸기 집단에서 20개를 샘플링

표본평균과 표본표준편차

t변환



4. 용어와 수식

4.1 용어

카이제곱변환
Chi squared transformation

1. 애니메이션

1.1. 당도 값의 도수분포표와 도수분포도

1.2. 당도 편차제곱의 도수분포표와 도수분포도

1.3. 자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환

2.2. 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



당도 값의 도수분포표와 도수분포도




당도 편차제곱의 도수분포표와 도수분포도




자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동을 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
표본의 표본평균은 집단의 평균과 같으며 총변동과 자유도는 다음과 같습니다.
 
총변동=$\sum_{i=1}^{n}{Z_i^2}$
 
자유도=$n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S^2}{\sigma^2}=(n-1)S^2$
 
$S^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma^2=1$
 
 
한편, 정규분포를 가지는 집단(모평균 $\mu$, 모분산 $\sigma^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S^2$)의 확률분포(표본평균 표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기($n$)인 표본분산($S^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S^{2}}{\sigma^{2}}=\dfrac{S^{2}}{\dfrac{\sigma^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
집단의 표본분산 $S^2$은 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S^2$)을 집단의 모분산( $\sigma^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 합니다.

2.2. 참조) 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우

집단의 표본평균($\bar X$)의 Z변환은 다음식과 같습니다, 중심극한정리에 의하여 표본평균($\bar X$)는 정규분포를 나타냅니다. 여기서 표본의 크기는 $n$입니다.  그리고 표준정규분포의 확률변수 $Z$는 평균과 표준편차가 각각 0과 1이 됩니다. 표본평균($\bar X$)의 Z변환은 표본의 크기 $n$에 따라 달라집니다.

 

$\dfrac{{\bar X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}→Z$

 

여기서,  $Z$는표본정규분포를 가지는 확률변수

$\bar X$는 정규분포를 가지는 표본평균의 확률변수

$\mu_{\bar X}$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모평균

$\sigma_X$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모분산

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


카이제곱변환

3.2. 구글시트 함수

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포



4. 용어와 수식

4.1 용어

Z변환
Z transform

1. 애니메이션

1.1. Z변환


2. 설명

2.1. Z변환


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1 Z변환

집단(모평균이 $\mu$이고 모분산이 $\sigma$ )이 정규분포 일때, 즉, 집단의 확률변수($X$)가 연속형 확률변수이고 정규분포일 때 아래식으로 표현되는 $Z$변환(Z-transformation)을 통해 확률분포를 정규분포에서 표준정규분포로 변환시킵니다. 이를 $Z$변환(Z-transformation)이라고 부릅니다. Z변환을 한 정규분포의 확률변수 $X$는 평균과 표준편차가 각각 0과 1인 정규분포가 됩니다. 이 정규분포를 표준정규분포(Standard Normal Distribution)이라고 합니다.

$Z={{X-\mu} \over {\sigma}}$

여기서,  $Z$는표본정규분포를 가지는 확률변수

$X$는 정규분포를 가지는 확률변수

$\mu_X$는 확률변수 $X$를 가지는 집단의 모평균

$\sigma_X$는 확률변수 $X$를 가지는 집단의 모분산

집단의 표본평균($\bar X$)의 Z변환은 다음식과 같습니다, 중심극한정리에 의하여 표본평균($\bar X$)는 정규분포를 나타냅니다. 여기서 표본의 크기는 $n$입니다.  그리고 표준정규분포의 확률변수 $Z$는 평균과 표준편차가 각각 0과 1이 됩니다. 표본평균($\bar X$)의 Z변환은 표본의 크기 $n$에 따라 달라집니다.

$Z={{{\bar X}-\mu} \over {\frac{\sigma}{\sqrt{n}}}}$

여기서,  $Z$는표본정규분포를 가지는 확률변수

$\bar X$는 정규분포를 가지는 표본평균의 확률변수

$\mu_{\bar X}$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모평균

$\sigma_X$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모분산


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


Z변환

3.2. 구글시트 함수

=NORM.DIST(A3,5,0.5,FALSE) : 정규분포 확률 계산. 평균이 5이고, 표준편차가 0.5인 정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=NORM.DIST(C3,0,1,FALSE) : 평균이 0, 표준편차가 1, 즉 표준정규분포에서 C3 값에 대한 확률밀도를 계산함.


3.3. 실습강의

두 집단의 확률변수

두 집단의 확률분포

Z변환

Z변환 후 확률분포



4. 용어와 수식

4.1 용어