표본분산은 왜 표본크기, n이 아닌 n-1로 나눠서 구할까



왜 표본분산은 표본의 크기인 n인 아닌, n-1로 나눌까요?

표본을 랜덤하게, 그리고 무한하게 추출한다고 할 때, 표본분산의 기대값을 모분산과 같게 하기 위해서입니다.


다음 네 숫자의 사례로 살펴보겠습니다.

1, 2, 3, 4

 

네 숫자를 모두 더해서, 개수로 나누면 평균이 됩니다. 

평균은 2.5입니다.


만약, 미지의 수, x와 위의 네 숫자와의 차이의 제곱의 합을 최소로 하는 x를 구해보면 어떻게 될까요? 수식으로 표현하면 다음과 같습니다.

$y=(1-x)^2+(2-x)^2+(3-x)^2+(4-x)^2$

위의 식을 그래프로 표현하면 다음과 같습니다. 



y의 값을 최소로 하는 x의 값은 2.5이고, 평균과 같습니다.

 

즉, 편차제곱의 합을 구하는데, 평균을 기준으로 할 때, 그 값이 최소가 됩니다.


만약, 위의 1, 2, 3, 4가 우리가 알고 싶은 미지의 모집단으로부터 추출한 표본이라면 어떻게 될까요?

미지의 수 x 자리에 모집단의 평균인 $\mu$를 넣어보겠습니다.

$y=(1-\mu)^2+(2-\mu)^2+(3-\mu)^2+(4-\mu)^2$

모집단의 평균이 1, 2, 3, 4라는 표본의 평균과 같을수도 있고 다를 수도 있습니다. 모집단의 평균이 표본 평균과 다르다면, 모평균을 기준으로 한 편차제곱의 합은 표본평균을 기준으로 한 편차제곱의 합보다 커지게 됩니다. 이 커진만큼을 조정하기 위해 n이 아닌 n-1로 나누게 됩니다. 


표본 내 편차제곱의 합과 모집단의 편차제곱의 합의 크기 사이의 관계를 수식으로 살펴보겠습니다.


$X_k$ : 확률변수

$\bar{X}$ : 표본평균

$\mu$ : 모평균

$\sigma^2$ : 모분산

$S^2$ : 표본분산


$\sum_{k=1}^n\left(X_k-\bar{X}\right)^2=\sum_{k=1}^{n}\left((X_k-\mu)+(\mu-\bar{X})\right)^2$


$=\sum_{k=1}^{n}\left((X_k-\mu)^2 + 2(X_k-\mu)(\mu-\bar{X})+(\mu-\bar{X})^2\right)$


$=\sum_{k=1}^{n}(X_k-\mu)^2 + \sum_{k=1}^{n}2(X_k-\mu)(\mu-\bar{X})+\sum_{k=1}^{n}(\mu-\bar{X})^2$


$=\sum_{k=1}^{n}(X_k-\mu)^2 + 2n(\bar{X}-\mu)(\mu-\bar{X})+n(\mu-\bar{X})^2$


$=\sum_{k=1}^{n}(X_k-\mu)^2-n(\bar{X}-\mu)^2$


$=\left(n\sigma^2-n\frac{\sigma^2}{n}\right)$


$=(n-1)\sigma^2$


위 식의 핵심은 표본 내 편차제곱의 합에서 모분산을 도출해낼 수 있도록 모평균을 빼고 더해주는 것입니다.


$\sum_{k=1}^n\left(X_k-\bar{X}\right)^2=(n-1)\sigma^2$


$E(\frac{\sum_{k=1}^n\left(X_k-\bar{X}\right)^2}{(n-1)})=\sigma^2$


$E(S^2)=\sigma^2$


표본 내 편차제곱의 합의 기대값은 모분산에 n-1을 곱한 것과 같습니다. 

표본분산을 모분산의 불편추정량(편의가 없는 추정량. Unbiased Estimator)로 사용하기 위해서는 표본 내 편차제곱의 합을 n이 아닌 n-1로 나누어줍니다. 

만약, 표본 내 편차제곱의 합을 n으로 나눈다면, 이 값의 기대값은 모분산과 다르기 때문에, 모분산에 대한 편의가 있는 추정량(Biased Estimator)이 됩니다.