표본비율의 표집



베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 표본비율 표집의 모분산은  다음과 같습니다.

 

$${\rm E}(\hat p)=p$$

 

$${\rm Var}(\hat p)={\rm Var}(\dfrac{X}{n})=\dfrac{1}{n^2}{\rm Var}(X)=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.


표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


960X536

1280X716

실습 강의

<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집