표본평균의 표집



표본추출과 표집 모델링




집단의 확률분포와  표본평균 표집의 확률분포


표본평균

표본평균은 집단의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다.

 

추정을 할 때는 추정량을 구해서 추정량이 지정하는 구간사이에 모평균이 위치한다고 표현합니다. 구간을 정하기 위해서는 신뢰구간을 정해야합니다. 보통 95%를 사용합니다.

 

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 검정통계량을 구해서 가설을 검정합니다. 여기서도 검정을 하려면 유의수준을 정해야합니다. 보통 5%를 사용합니다.

 

표본평균의 성질은 다음 세가지가 있습니다.

 

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 통계량은 집단의 모수와 점점 같아진다. 즉, 표본크기를 늘리면 표본평균은 집단의 모평균과 같아진다.

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 모분산이 작아진다.


표본평균 표집(Sampling distribution)의 모평균과 모분산

표본을 나타내면

 

${\textstyle \{X_{1},\ldots ,X_{n}\}}$

 

여기서, $n$은 표본의 크기

 

표본평균의 추정량(Estimator)

 

${\displaystyle {\bar X}= {\frac {X_{1}+X_{2}+\cdots +X_{n}}{n}}}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$

 

표본분산의 추정량(Estimator)

 

${\displaystyle {S_X^2}= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2}$

 

확률변수의 기대값은 모평균

 

${\textstyle {\rm E}[X]=\mu_X }$

 

표본평균의 기대값은 표본평균 표집의 모평균이고 집단의 모평균

 

${\textstyle {\rm E} [\bar X]=\mu_{\bar X}=\mu_X }$

 

여기서, 표본크기는 $n$ 

 

표본평균의 표집의 모분산은 다음과 같습니다.

 

${\rm Var}(\bar X)=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$

 

표본평균 표집의 모표준편차는

 

$\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$ 

 

표본평균을 $Z$변환하면 다음과 같습니다.

 

$\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

 

$\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$

 

여기서,  $\mu_X=\mu_{\bar X}$

 

표본평균을 $t$변환하면 다음과 같습니다.

 

$\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}→t$

 

여기서,  $t$분포의 자유도는 $n-1$  

$S_X$는 표본표준편차

$\mu_X=\mu_{\bar X}$, 그러나 $S_X≠S_{\bar X}$


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

=NORMDIST(AK3,AA3,AC3,FALSE) : 정규분포 확률밀도. AA3가 평균, AC3가 표준편차인 정규분포에서 AK3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시함.



<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단의 부분집합

표본평균

표본평균의 표집