중심극한정리 Central Limit Theorem



10개의 분기를 가지는 Galton보드




32개의 분기를 가지는 Galton보드




표본의 크기(n)에 따라 표본평균이 나타내는 확률분포




집단내 분포와 표본평균의 표집분포


중심극한정리(Central Limit Theorem)는 표본평균을 계산하는 과정에서 극단적인 값들이 서로 상쇄되어 표본평균이 집단의 모평균으로 모이는 경향을 말합니다.  표본크기($n$)가 크면 표본평균의 표집의 모분산은 작아집니다. 즉, 표본평균의 확률분포는 표본의 크기가 클수록 뽀족해집니다.

 

평균 $\mu$, 분산 $\sigma^2$인 집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 집단의 분포모양과는 상관없이 표본평균들의 확률분포는 표본의 크기($n$)을 증가시킬수록 정규분포에 접근합니다. 즉, 표본평균의 확률분포는 집단의 모평균을 중심으로 정규분포를 이룹니다. 이를 중심극한정리라고 합니다.

 

모평균과 가능한 모든 표본평균들 사이의 관계는 집단이 정규분포를 가지지 않아도 정규분포로 관찰됩니다. 만일, 집단이 매우 크면 가능한 모든 표본들을 모두 찾아서 표본평균의 표집분포를 완벽하게 구하는 것은 불가능합니다.  이를 해결하기 위하여  다음과 같은 이론을 정립하였습니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.

 

  • 집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균의 표집분포도 정규분포 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.
  • 모평균이 $\mu$이고 모분산이 $\sigma^2$인 무한히 큰 집단이라면 표본의 크기($n$)가 충분히 클 때 집단이 어떠한 분포라도 표본평균의 표집분포는 근사적으로 정규분포 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.

 

집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의복원추출하면 표본평균들의 확률분포는 다음과 같은 특성을 갖습니다.

 

  • 가능한 모든 표본에서 표본평균  표집의 모평균(${\mu}_{\bar{x}}$)은 집단의 모평균과 같다.

 

$\mu_\bar{x}=\mu$

 

  • 가능한 모든 표본에서 표본평균 표집의 모분산($\sigma_{\bar{X}}$)은 집단의 모분산을 $n$으로 나눈 값이다

 

$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$

 

  • 가능한 모든 표본평균들의 분포는 근사적으로 정규분포이다.

 

${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.

=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.

 

 



<실습강의 내용>

데이터

데이터 요약

표본 크기가 2인 표본들의 평균

표본 크기가 3인 표본들의 평균

중심극한정리