t분포
t distribution
1.1. 자유도를 1에서 50까지 변화시키면서 t분포 관찰
2.1. t분포
4.1. 용어
1. 애니메이션
2. 설명
2.1 t분포
확률변수 $X$를 가지는 개체로 이루어진 집단이 있습니다. 이 확률변수가 모평균($\mu_X$), 모표준편차($\sigma_X$)를 모수(parameter)로 가지는 정규분포를 가진다고 하면 이 집단에서 추출한 표본크기 $n$인 표본의 표본평균( $\bar X$)도 확률변수가 되며 표본의 표본표준편차도 확률변수($S_X$)가 됩니다.
$$\{X_{1},\ldots ,X_{n}\}$$
여기서, $X$는 평균이 $\mu$이고 분산이 $\sigma ^2$인 정규분포를 나타냄
$$\bar {X}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}$$
$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$$
중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 종모양의 분포를 나타냅니다. 표본크기($n$)가 커질수록 종모양은 정규분포의 모양과 같아집니다. 이 종모양의 분포를 t분포라고 합니다. 그리고 표본평균($\bar X$) 표집이 나타내는 확률분포도 종모양의 분포를 나타내며 표본크기가 커질수록 종모먕이 더 뾰족해 지면서 정규분포와 같아집니다. 이 때 표본평균 표집의 모표준편차는 다음식과 같습니다.
$\dfrac{\sigma_X}{\sqrt{n}}$
다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.
${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$
표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉, $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양의 확률밀도함수로 나타난다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.
$${\rm SE} (\bar X – \mu_X)=\sigma_{\bar X}=\dfrac{\sigma_X}{\sqrt{n}}$$
확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값 $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다. 이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다.
$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$
$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$
여기서, 확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄
3. 실습
3.2. 구글시트 함수
=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.
=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.
=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.
=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.
=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.
=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.
=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.
=STDEV.P(J3:J10) : 모표준편차. J3에서 J10에 있는 데이터의 모표준편차. 모분산의 제곱근.
=STDEV.S(R3:S3) : 표본표준편차. R3에서 S3에 있는 데이터의 표본표준편차. 표본분산의 제곱근.
=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.
=NORM.DIST(AF3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1, 표준정규분포에서 AF3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.
=T.DIST(AK3,1,FALSE) : t분포 확률밀도. 자유도가 1인 t분포에서 Ak3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.
3.3. 실습강의
이항분포
이항분포에서 실현된 집단
집단으로부터 가능한 모든 표본
표본평균들의 분포
Z변환과 t변환
Z분포와 t분포
4. 용어와 수식
4.1 용어