중심극한정리
Central limit theorem
1.1. 10개의 분기를 가지는 Galton보드
1.2. 32개의 분기를 가지는 Galton보드
1.3. 표본의 크기(n)에 따라 표본평균이 나타내는 확률분포
1.4. 집단내 분포와 표본평균의 표집분포
2.1. 중심극한정리
4.1. 참조
1. 애니메이션


10개의 분기를 가지는 Galton보드


32개의 분기를 가지는 Galton보드


표본의 크기(n)에 따라 표본평균이 나타내는 확률분포


집단내 분포와 표본평균의 표집분포
2. 설명
2.1 중심극한정리
중심극한정리(Central Limit Theorem)는 표본평균이 모평균으로 모이는 경향을 말합니다. 그 이유는 표본평균은 표본의 극단적인 값들이 서로 상쇄된 대표값이기 때문입니다. 표본크기($n$)가 크면 표본평균 표집의 분산은 작아집니다. 즉, 표본평균 표집의 확률분포는 표본의 크기가 클수록 모평균으로 집중됩니다.
평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 모집단의 확률분포 모양과는 상관없이 표본평균 표집의 확률분포는 표본의 크기($n$)를 증가시킬수록 정규분포에 접근합니다. 즉, 모집단의 모평균을 중심으로 정규분포를 이룹니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.
- 모집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균 표집의 확률분포도 정규분포${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.
- 모평균이 $\mu$, 모분산이 $\sigma^2$인 크기가 무한히 큰 모집단이라면 표본크기($n$)가 충분히 클 때 모집단이 어떠한 확률분포를 가지더라도 표본평균 표집의 확률분포는 근사적으로 정규분포${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.
모집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의복원추출하면 표본평균 표집의 확률분포는 다음과 같은 특성을 갖습니다.
- 표본평균 표집의 모평균(${\mu}_{\bar{x}}$)은 집단의 모평균과 같다.
$$\mu_\bar{x}=\mu$$
- 표본평균 표집의 분산($\sigma_{\bar{X}}^2$)은 모분산을 $n$으로 나눈 값이다
.
$$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$$
- 표본평균 표집의 확률분포는 근사적으로 정규분포이다.
$${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$$
랜덤하게 추출된 표본은 표본크기가 $n$일 때, 다음과 같이 수열로 표현할 수 있습니다.
$$x_1, x_2, \cdots, x_n$$
표본의 평균은 다음식으로 구할 수 있습니다.
$$\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} x_i$$
중심극한정리에 의해서 표본평균의 기대값은 모평균입니다.
$${\rm E}[\bar{X}] = \mu$$
모집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본분산의 기대값은 모분산($\sigma^2$)입니다.
$${\rm E}[s^2] =\sigma^2$$
표본평균 표집의 분산은 다음식과 같이 모분산을 표본크기($n$)로 나눈 값이 됩니다.
$${\rm {Var}}\left[\bar{X}\right] = \dfrac{\sigma^2}{n}$$
확률변수인 표본평균($\bar{X}$)은 중심극한정리에 의하여 표본크기가 클수록 정규분포에 더 근사한 확률분포를 가집니다. 만일, 모집단이 정규분포를 가진다면 표본평균은 정규분포를 이루며 표본평균을 다음과 같이 변환하여 새로운 확률변수를 생성할 수 있습니다.
$$Z=\dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}}$$
이 새로운 확률변수, $Z$는 표준정규분포를 따릅니다.
$$Z\sim N\left(0,1\right)$$
정리하면, 모집단이 다음과 같이 정규분포를 가진다면,
$$X \sim N\left(\mu, \sigma^2\right)$$
$\bar{X}$는 다음과 같은 정규분포를 따릅니다.
$$\bar{X} \sim N\left(\mu, \dfrac{\sigma^2}{n}\right)$$
그리고 $\bar{X}$를 $Z$변환한다고 하면 다음과 같이 확률변수 $Z$는 표준정규분포를 따릅니다.
$$Z_n = \dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N \left(0,1\right)$$
3. 실습
3.2. 함수
=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.
=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.
=SQRT(C11) : 제곱근. C11 값의 제곱근.
=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.
=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.
=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.
3.3. 실습강의
– 데이터
– 데이터 요약
– 표본 크기가 2인 표본들의 평균
– 표본 크기가 3인 표본들의 평균
– 중심극한정리