표본비율의 표집 ?

1. 애니메이션

1.1. 베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1.표본비율(Sample Proportion)

2.2. 표본비율($\hat p$) 표집


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1. 표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 표본비율 표집의 모분산은  다음과 같습니다.

 

$${\rm E}(\hat p)=p$$

 

$${\rm Var}(\hat p)={\rm Var}(\dfrac{X}{n})=\dfrac{1}{n^2}{\rm Var}(X)=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.


2.2. 표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본비율의 표집 - 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집 



4. 용어와 수식

4.1 용어

표본분산의 표집 ?

1. 애니메이션

1.1.
자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화

1.2. d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

2.2. 표본분산의 표집

2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후 카이제곱분포를 표본분산의 표집분포 분석에 사용


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화




d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

확률변수가 $X$이고 집단의 모평균과 모분산이 각각 $\mu_X$, $\sigma_X^2$인 집단이 있습니다. 이 집단에서 추출한 표본의 크기가 $n$인 표본을 확률변수로 표현하면 다음과 같습니다. 

 

{${X_1}, {X_2}, … , {X_n}$}

 

여기서, ${X_1}, {X_2}, … , {X_n}$은 $X$로써 같은 확률변수

 

표본분산($S^2$)은 표본평균($\bar X$)와 마찬가지로 확률변수입니다. 표본분산의 기준은 표본평균입니다. 따라서 표본크기가 n이라면 표본분산의 자유도는 (n-1)이 됩니다. 즉, 표본평균을 구하는데 표본크기 중 하나를 사용하여 자유도는 하나가 줄게 됩니다.  표본분산의 기대값은 집단의 모분산($\sigma^2$)입니다. 참고로, 표본평균의 기대값은 집단의 모평균($\mu$)입니다.

 

표본분산의 추정량(Estimator)은 다음과 같습니다.

 

$S_X^2=\dfrac{({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ , … , + {(X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$

 

표본분산의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[S^2]=\sigma^2$

 

참고로, 표본평균의 추정량(Estimator)은 다음과 같습니다.

 

${\bar X}=\dfrac{{X_1}+{X_2}+ , … , +{X_n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}{X_i}$

 

참고로, 표본평균의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[\bar X]=\mu_X$


2.2. 표본분산의 표집

집단이 정규분포를 이룬다면 표본분산의 표집은 카이제곱분포를 모분산과 자유도와 모분산의 비($\frac{n-1}{\sigma^2}$)로 표준화한 분포를 따릅니다.  표본분산의 표집의 모평균(표본분산의 기대값)은 집단의 모분산과 같고 표본분산 표집의 모분산은 다음과 같은 근사값을 가집니다.

 

표본분산 표집의 모평균 : 표본분산 기대값

 

${\rm E}[S_{X}^2]=\mu_{S_{X}^2}∼\sigma_X^2$

 

표본분산 표집의 모분산

 

${\rm Var}(S_{X}^2)=\sigma_{S_{X}^2}^2∼\dfrac{2\sigma_X^4}{n-1}$

 

여기서,  $n$은 표본크기

 

표본분산 표집의 모표준편차

${\rm SD}(S_{X}^2)=\sigma_{S_{X}^2}∼\sqrt{\dfrac{2\sigma_X^4}{n-1}}$

 

참고로, 집단이 정규분포를 이룬다면 표본평균의 표집은 정규분포를 이룹니다, 표본평균 표집의 모평균(표본평균의 기대값)은 집단의 모평균과 같고 표본평균 표집의 모분산은 집단의 모분산을 표본의 자유도로 나눈 값과 같습니다.


2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후  카이제곱분포를 표본분산의 표집분포 분석에 사용

표본분산을 무차원 확률변수인 카이제곱으로 변환하면 다음과 같습니다.

 

$\chi_{n-1}^2=(n-1)\dfrac{S^2}{\sigma^2}$

 

위식의 카이제곱분포의 모수인 자유도(degree of freedom, $df$)는 다음과 같습니다.

 

$df =  n-1$

표본의 크기가 n인 표본의 분포값을 표본분산(variance) $\rm S^2$이라고 합니다.  표본평균과 마찬가지로 표본분산($\rm S^2$)도 확률변수이며 따라서 확률분포인 표집분포(sampling distribution of sample variances)를 가집니다. 표본분산과 모집단의 관계를 알 수 있다면  표본에서 구할 수 있는 표본분산으로 모집단의 모분산을 추정할 수 있습니다.

 

표본분산의 확률분포를 표본분산의 표집분포(sampling distribution of sample variances)라 합니다. 확률변수인 표본분산은 음수일 수도 있는 표본평균과 달리 음수가 아닌 0과 양의 실수입니다. 그리고 표본분산은 큰 값을 갖는 확률보다는 0에 가까운 작은 값을 갖는 확률이 더 큰 비대칭분포를 보입니다. 그리고 표본분산($\rm S^2$)을 모분산으로 나누어서 표준화를 하고  표본의 자유도(n-1)를 곱한 값을 카이제곱($\chi_{n-1}^{2}$)이라하고 아래식처럼 표현할 수 있습니다.  

 

$\chi_{n-1}^{2}=\left({n-1}\right){\dfrac{S^{2}}{\sigma^{2}}}$ 

 

새로운 확률변수인 카이제곱($\chi_{n-1}^{2}$)은 카이제곱분포(chi-squared distribution)를 나타냅니다.  카이제곱분포는 자유도(degree of freedom)이라는 모수(parameter)를 가지며, t분포와 마찬가지로 자유도마다 확률분포가 있으며,  따라서 무수히 많은 확률분포를 가집니다. 

 

정리하면, 집단이 $\sigma^2$인 정규분포를 나타내고 표본의 크기가 n인 표본을 단순임의복원추출하면,  확률변수인 표본분산($\rm S^2$)을 집단의 모분산($\sigma^2$)으로 표준화하고 자유도(n-1)를 곱한 새로운 확률변수인 카이제곱( $\chi^2$)은 자유도에 따른 카이제곱분포를 따릅니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본분산의 표집 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본분산

표본분산의 표집 



4. 용어와 수식

4.1 용어

표본평균 표집 ?

1. 애니메이션

1.1. 표본추출과 표집 모델링

1.2. 집단의 확률분포와 표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

2.2. 표본평균 표집(Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



모집단과 표본평균 확률밀도




표본추출과 표집 모델링




집단의 확률분포와  표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

표본평균 표집은 표본이 추출된 집단(모집단)의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다. 모평균을 추정을 할 때는 표본평균 추정량을 통해 구한 표본평균을 기준으로 하고 표본평균의 표준오차와 주어진 신뢰수준으로 정해지는 구간사이에 모평균이 위치한다고 추정합니다. 신뢰구간을 정하기 위해서는 신뢰수준을 주어야 합니다. 신뢰수준은 90%, 95%, 99% 등 확률단위를 가지며 검정하는 주체가 결정합니다. 표본평균을 중심으로 신뢰수준의 확률을 가지는 구간을 신뢰구간이라고 합니다. 만일, 표본평균의 확률분포를 안다면 신뢰수준으로 신뢰구간을 알 수 있습니다. 신뢰구간은 확률변수의 단위와 같습니다.

 

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 표본평균과 모분산(모분산을 모르는 경우에는 표본분산을 사용)으로 모평균에 대한 가설을 검정합니다. 검정을 하려면 신뢰수준의 반대개념인 유의수준을 검정의 주체가 결정해야합니다. 유의수준은 확률이고 따라서 단위는 확률의 단위와 같습니다. 보통 10%, 5%, 1%등이 사용됩니다.  만일 표본평균의 확률분포를 안다면 유의수준으로 유의구간을 구할 수 있습니다. 유의구간은 보통 최소값($-\infty$)에서 임계값까지 또는 임계값에서 최대값($+\infty$)으로 나타납니다.

 

정리하면 표본평균으로 모평균을 추정할 때는 신뢰구간을 사용하며, 표본평균과 모평균을 비교하는 가설을 검정할 때는 표본평균으로구한 유의확률과 유의수준을 비교합니다. 확률변수인 표본평균이 나타내는 확률분포를 표본평균의 표집분포(sampling distribution)라고 합니다. 이는 표본의 확률분포(sample distribution)와 구분됩니다.

 

표본평균의 속성은 다음 세가지가 있습니다.

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 표본크기를 늘리면 집단에서 추출한 표본의 표본평균은 집단의 모평균과 점점 같아진다. 일반화하면, 표본통계량은 집단의 모수와 점점 같아진다. 

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 분산이 점점 작아진다.


2.2. 표본평균(sample mean) 표집(sampling distribution)

모집단 모형

$$\{{X_1},\ldots ,{X_N}\}$$

여기서, $N$은 모집단크기 : 모집단이 무한집단이면 $N→∞$

표본 모형 : 확률변수 $X$를 가지는 개체($i$)가 이루는 집단($X_i$)에서 추출한 표본

$$\{{X_1},\ldots ,{X_n}\}$$

여기서, $n$은 표본크기

표본평균($\bar X$) 표집 모형

$$\{{{\bar X}_1},\ldots ,{{\bar X}_k}\}$$

여기서, $k$는 표집크기 : 표집이 무한집단이면 $k→∞$

표본평균의 추정량(estimator)

$${\bar X}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산의 추정량(estimator)

$$S_X^2= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$$

여기서, $n$은 표본크기

표본평균 표집의 평균 : 표본평균의 분포의 무게중심

$$\mu_{\bar X}={\rm E} [\bar X]=\mu_X$$

여기서, $\mu_X$는 모평균 : $\mu_X={\rm E}[X]$

$n$은 표본크기

표본평균 표집의 분산 : 표본평균의 변동

$${\rm Var}[\bar X]=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$$

$n$은 표본크기

표본평균 표집의 표준편차

$${\rm SD}[\bar X]=\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$$

$n$은 표본크기

표본평균($\bar X$)을 $Z$변환

$$Z=\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$$

여기서, $\mu_X$는 모평균

${\rm N}(0, 1)$는 표준정규분포

$\mu_X=\mu_{\bar X}$

$n$은 표본크기

표본평균($\bar X$)을 $t$변환

$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$

여기서, $\mu_X$는 모평균

$S_X$는 표본표준편차

$t_{n-1}$은 자유도가 $n-1$인 $t$분포

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본평균 표집 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(D3:D1002) : 데이터 개수. D3에서 D1002에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(D3:D1002) : 평균. D3에서 D1002에 있는 데이터의 평균.

=VARP(D3:D1002) : 모분산. D3에서 D1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(D3:D1002) : 모표준편차. D3에서 D1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=NORMDIST(P3,G3,I3,FALSE) : 정규분포 확률밀도. G3가 평균, I3가 표준편차인 정규분포에서 P3 확률변수에 대한 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함. 

=ROWS(K2:K2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,1000) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(I3&”:”&J3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(K2:K2, ROW(I3:J3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(M3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 M3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=VAR.S(BG3:BG22) : 표본분산. BG3에서 BG22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(BG3:BG22) : 표본표준편차. BG3에서 BG22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.


3.3. 실습강의

– 모집단과 표본평균의 분포 비교

– 모집단

– 표본크기 20인 표본평균들의 분포

– 표본크기 50인 표본평균들의 분포

– 표본크기 100인 표본평균들의 분포

– 실습안내



4. 용어와 수식

4.1 용어


모수

통계적 매개변수(모수, parameter) 또는 집단의 매개변수는 통계 또는 확률변수의 확률분포를 표현하는 양입니다. 그것은 통계의 대상인 집단이나 통계적 모델의 수치적 특성으로 간주 될 수 있습니다.  구분된 데이터 계열(family)이  있다고 가정합니다. 구분자(index)가 계열의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도의 수에 의해 구분(indexing)될 수 있습니다. 자유도의 수는 카이제곱분포의 매개변수이므로 카이제곱분포는  매개변수화된 계열이라고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia


표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

Reference

Standard error – Wikipedia

표준오차 ?
Standard Error ?

목차

1. 애니메이션

1.1. 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)

1.2. 두 표본의 표본평균 분포 : 중심극한정리)


2. 설명

2.1. 차이, 편차, 오차, 잔차

2.2. 표본통계량의 오차 : 모수를 기준으로 하는 편차

2.3. 표본평균의 표준오차

2.4. 표본평균의 표준오차 추정량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

4.2 수식


1. 애니메이션



그림 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)




그림 두 표본의 표본평균 분포 : 중심극한정리


2. 설명

2.1. 차이, 편차, 오차, 잔차

차이

차이(difference)는 두 값의 간격입니다. 기준이 없습니다. 0과 양수만을 가집니다.

편차

편차(deviation)는 값에서 기준값을 뺸 값입니다.  표본에서는 기준값으로 표본평균을 많이 사용합니다. 0과 양수와 음수를 모두 가집니다.

오차

오차(error)는 기대값을 기준값으로 사용하는 편차입니다. 즉, 기대하는 값과의 어긋남을 나타냅니다. 0과 양수와 음수를 모두 가집니다.

잔차

잔차(residual)은 기대값이 회귀점, 회귀선, 회귀면, 최귀초평면에 위치하는 경우의 오차입니다. 즉, 회귀하지 않는 양을 나타냅니다. 0과 양수와 음수를 모두 가집니다.


2.2. 표본통계량 오차 : 모수를 기준으로 하는 표본통계량의 편차

모수 : 모평균, 모분산 등

집단을 표현하는 속성값(모수)에는 모평균($\mu$)과 모분산($\sigma^2$)이 있습니다. 실제에서는 집단의 크기가 클수록 또는 무한집단인 경우 집단의 속성을 알기가 어렵습니다. 그래서, 표본을 통해 모집단의 속성을 알고자 하는  실험을 진행합니다. 예를 들어, 실험의 결과 로 집단이 정규분포를 나타냄을 알고 그 정규분포의 모수(매개변수, parameter)를 안다면 집단의 속성인 확률분포를 알 수 있습니다.

표본통계량 : 표본평균, 표본분산 등

표본(sample)은 집단을 이루는 개체(object)를 추출한 것입니다. 그래서 표본을 표본집단이라고 부르기도 합니다. 표본크기는 추출한 개체의 개수입니다. 표본이 추출된 집단은 그 표본의 모집단(population)이라고 합니다. 집단을 집합으로 표현하고 표본을 그 집합의 부분집합으로 표현할 수 있습니다. 

표본을 이루는 개체(object)가 수치를 가지고 표본을 이루는 개체의 개수를 알면 표본평균(sample mean)과 표본분산(sample variance)을 구할 수 있습니다. 표본표준편차(sample deviation)는 표본분산의 제곱근으로 정의합니다. 표본표준편차의 단위는 표본평균의 단위와 같습니다. 

표본평균(sample mean)은 표본의 변동(sample variation)이 가장 작게 되는 표본의 기준값입니다. 표본의 변동은 값과 기준값과의 편차를 제곱한 양들의 합입니다. 표본평균은 표본(data set)을 대표하는 대표값의 한 종류 입니다.

표본분산(sample variation)은 표본의 확률변수값(표본데이터)의 분포 정도를 나타내는분포값의 한 종류입니다. 참고로 분포를 나타내는 다른 값에는 분위수(quantile)가 있습니다. 표본분산($S^2$)은 각 값과 표본평균과의 차이의 제곱의 합을 자유도로 나누어서 구합니다. 표본분산은 각 값과 표본평균과의 편차의 제곱의 합이 가장 작을 때의 값을 자유도로 나눈 값입니다. 여기서 편차제곱의 합이 가장 작게 되는 값이 평균입니다. 표본분산 값의 단위는 표본평균의 제곱의 단위와 같습니다. 편차제곱의 합을 자유도로 나눈 값인 표본분산은 표본의 분포의 정도를 나타냅니다. 표본분산을 구할 때 표본크기가 작은 경우, 표본크기과 자유도로 나누는 결과는 더욱 다르게 나타납니다. 

표본통계량 오차 : 표본평균의 오차, 표본분산의 오차 등

표본평균은 모집단의 평균(모평균)을 중심으로 종모양의 확률분포를 가집니다. 표본크기가 클 수록 겅규분포 모양에 가까워 집니다. 이를 중심극한정리라 합니다. 표본평균의 오차(error of sanple mean)는 모평균을 기준으로하는 표본평균의 편차입니다. 

표본분산은 표본크기가 작을 때는 비대칭의 분포를 가지다가 표본크기가 커질수록 모집단의 분산(모분산)을 중심으로하는 종모양의 모양에 가까워 집니다. 표본분산의 오차(error of sample variance)는 모분산을 기준으로 표본분산의 편차입니다.


2.3. 표본평균의 표준오차 : $\sigma_{\bar X}$

표본평균의 표준오차는 확률변수인 표본평균이 중심극한정리에 의해 모평균을 중심으로 종모양의 확률분포를 나타내는데 이 확률분포의 표준편차를 의미합니다. 표본평균의 기대값은 모평균인데 기대값과의 오차라는 의미에서 편차(deviation)가 아닌 오차(error)로 표현합니다. 모표준편차를 표본의 크기($n$)의 제곱근으로 나누면(표준화 하면) 표본평균의 표준오차가니다.

표준화라고 하는 것은 확률변수의 단위를 표준편차로 하는 과정을 말합니다. 다시말하면 표준편차를 1로 만드는 변수변환(Change of Variable)입니다.

표본평균의 표준오차(standard error of the mean)는 표본평균 표집(표본평균으로 이루어진 집단)의 표준편차와 같습니다. 즉, 표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차입니다. 표본평균의 기대값은 중심극한정리에 따라 모평균과 같습니다.

 

모집단과 표본의 확률변수

$$X$$

모집단의 모형

$$\{X_1, X_2, \cdots , X_{\infty}\}$$

여기서,  모집단크기는 $\infty$

표본의 모형

$$\{X_1, X_2, \cdots , X_{n}\}$$

여기서,  표본크기는 $n$

표본평균($\bar X$)의 기대값 : 모평균

$${\rm E}[\bar X]=\mu_X$$

표본분산($S^2$)의 기대값 : 모분산

$${\rm E}[S^2]=\sigma^2_X$$

새로운 확률변수 : 표본평균

$$\bar X$$

표본평균 표집의 모형

$$\{{\bar X}_1, {\bar X}_2, \cdots , {\bar X}_{\infty}\}$$

여기서,  표본평균의 표집의 크기는 $\infty$

표본평균 표집의 평균 : 표본평균 표집의 평균=표본평균의 기대값=모평균

$$\mu_{\bar X}={\rm E}[\bar X]=\mu_X$$

표본평균 표집의 분산(표본평균의 움직임) : 모분산(개체의 움직임의 크기)을 표본을 이루는 개체가 나누어 가짐 – 모분산을 표본크기로 나눈 것

 

집단을 이루는 개체의 움직임은 집단의 움직임과 집단내의 개체의 움직임으로 나누어 생각합니다.

 

집단중에서 표본집단을 생각하면,  표본을 여러번 추출(표집)하면 표본의 움직임은 두 가지로 나누어 생각할 수 있습니다.  내부의 움직임(표본평균을 원점으로 하는 좌표계에서의 움직임)은 모분산과 같고 외부에서 보는 움직임(모평균을 원점으로 하는 좌표계에서의 움직임)은 표본평균의 움직임이며 모분산을 개체가 나눠가지는 것으로 모델링합니다.

$$\sigma_{\bar X}^2={\rm Var}[\bar X]=\dfrac{\sigma_X^2}{n}$$

여기서,  $n$은 표본크기

표본평균 표집의 표준편차

$$\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}}$$

여기서,  $n$은 표본크기

새로운 확률변수인 표본평균($\bar X$)의 $Z$변환

$$Z=\dfrac{\bar X-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼Z분포$$

여기서,  $n$은 표본크기이며 큰 수

새로운 확률변수인 표본평균($\bar X$)의 $t$변환

$$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$$

여기서,  $n$은 표본크기 : $(n-1)$은 표본크기가 $n$인 표본의 자유도

$t_{n-1}$은 자유도가 $(n-1)$인 $t$분포

표본평균의 표준오차 : 표본평균 표집의 표준편차

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$n$은 표본크기

표본평균의 표준오차 – 표본크기가 큰 경우($\sigma_X≈S_X$)

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$S_X$는 표본표준편차

$n$은 표본크기


2.4. 표본평균의 표준오차 추정량 

표본평균 표집의 분산 추정량

$$\dfrac{S_X^2}{n}=\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}=\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

표본평균의 표준오차 추정량 : 표본평균 표집의 표준편차 추정량

$$\sqrt{\dfrac{S_X^2}{n}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

만일 개체($i$)마다 가중치($\omega_i$)가 다르다면 다음과 같이표본평균의 표준오차 추정량을 계산합니다.

$$\sqrt{\dfrac{\sum\limits_{i=1}^{n}{\omega_i}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$\omega_i$는 가중치

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표준오차 : 구글시트 실습

3.2. 구글시트 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C4에 있는 숫자 형식의 데이터 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(J3:J18) : 평균. J3에서 J18에 있는 데이터의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔. 참고로, 표본분산은 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.P(J3:J18) : 모표준편차. J3에서 J18에 있는 데이터의 모표준편차로 모분산의 제곱근. 참고로, 표본표준편차는 표본분산의 제곱근.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본평균들의 분포

– 표본 크기가 3인 표본평균들의 분포

– 표준오차

– 실습 안내



4. 용어와 수식

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



모수(매개변수, parameter)

통계적 매개변수 또는 모집단 매개변수는 통계량 또는 확률분포를 설명하는 데 사용되는 변수입니다. 매개변수는 모집단이나 통계모델의 수치적 특성이라 할 수 있습니다.

색인 분류된  집단의 분포가 있다고 가정해 봅니다. 색인이 집단의 분포의 매개변수로도 작용한다면, 그 집단은 매개변수화된 집단이라 할 수 있습니다. 예를 들어, chi-squared 확률분포를 가지는 집단은 자유도에 의해 색인되어 분류될 수 있습니다. 자유도는 chi-squared 분포의 매개변수이므로 chi-squared 분포를 가지는 집단은 자유도라는 매개변수로 매개변수화 되었다고 할 수 있습니다.

 

Reference

Statistical parameter – Wikipedia



중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



자유도(degree of freedom)

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는  값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면,  표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친  모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸  $(n-1)$의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

 

Reference

Degrees of freedom (statistics) – Wikipedia



4.2 수식


표본평균의 표준오차

 표본평균의 표준오차 : 표본평균 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(\bar X)=\dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\bar X$는 확률변수 $X$의 표본평균

$\sigma_X$는 확률변수 $X$의 모표준편차

$S_X$는 확률변수 $X$의 표본표준편차

$n$은 표본크기


표본분산의 표준오차

표본분산의 표준오차 : 표본분산 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(S_X^2) = \sigma_{S_X^2} = \sqrt{\dfrac{2\sigma_X^4}{n-1}}≈ \sqrt{\dfrac{2S_X^4}{n-1}}$$

여기서,  $S_X^2$는 확률변수 $X$의 표본분산

$\sigma_X^2$는 확률변수 $X$의 모분산

$S_X^2$는 확률변수 $X$의 표본분산

$n$은 표본크기