t분포 t distribution



자유도를 1에서 50까지 변화시키면서 t분포 관찰


확률변수 $X$를 가지는 개체로 이루어진 집단이 있습니다. 이  확률변수가 모평균($\mu_X$), 모표준편차($\sigma_X$)를 모수(parameter)로 가지는 정규분포를 가진다고 하면 이 집단에서 추출한 표본크기 $n$인 표본의 표본평균( $\bar X$)도 확률변수가 되며 표본의 표본표준편차도 확률변수($S_X$)가 됩니다. 

 

$$\{X_{1},\ldots ,X_{n}\}$$

여기서,  $X$는 평균이 $\mu$이고 분산이 $\sigma ^2$인 정규분포를 나타냄

 

$$\bar {X}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}$$

 

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$$

 

중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 종모양의 분포를 나타냅니다. 표본크기($n$)가 커질수록 종모양은 정규분포의 모양과 같아집니다. 이 종모양의 분포를 t분포라고 합니다. 그리고 표본평균($\bar X$) 표집이 나타내는 확률분포도 종모양의 분포를 나타내며 표본크기가 커질수록 종모먕이 더 뾰족해 지면서 정규분포와 같아집니다. 이 때 표본평균 표집의 모표준편차는 다음식과 같습니다.

 

$\dfrac{\sigma_X}{\sqrt{n}}$

 

다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.

 

${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$

 

표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉,  $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양의 확률밀도함수로 나타난다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.

 

$${\rm SE} (\bar X – \mu_X)=\sigma_{\bar X}=\dfrac{\sigma_X}{\sqrt{n}}$$

 

확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값  $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다.  이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다. 

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$

 

여기서,  확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=STDEV.P(J3:J10) : 모표준편차. J3에서 J10에 있는 데이터의 모표준편차. 모분산의 제곱근.

=STDEV.S(R3:S3) : 표본표준편차. R3에서 S3에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

=NORM.DIST(AF3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1, 표준정규분포에서 AF3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.

=T.DIST(AK3,1,FALSE) : t분포 확률밀도. 자유도가 1인 t분포에서 Ak3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.



<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본평균들의 분포

Z변환과 t변환

Z분포와 t분포