표준오차 Standard Error



그림 표준졍규분포를 가지는 모집단에서   표본을 추출할 때 표본크기가 1에서 100예 따른  표본평균의 분포 변화




그림 두 표본의 표본평균 분포 : 중심극한정리


오차(error)는 관측한 값과 기대값(예를 들면 표본일 경우 모집단의 값)과의 편차입니다.

그래서 양수와 음수를 모두 가집니다.

 

한편, 편차(deviation)는 값에서 기준값(평균)을 뺸 값입니다. 그래서 편차 중의 특수한 경우가 오차라고 할 수 있습니다.

역시 양수와 음수를 모두 가집니다.

 

값의 무리의 평균(mean)은 각 값과의 편차의 제곱의 합이 가장 작게 되는 값으로 무리를 대표하는 대표값(평균, 중앙값, 최빈값)의 한 종류 입니다. 평균은 다시 산술평균, 가중평균 등이 있습니다.

 

분산(variation)은 무리의 값들이 서로 떨어져 있는 정도를 나타내는 대표적인 척도입니다. 즉, 분포의 정도를 나타내는 값입니다.

 

값의 무리가 모집단에서 추출한 값들이면 이 숫자무리를 표본이라고 할 수 있습니다.

 

값들의 개수가 n일 때  즉, 표본의 크기가 n일 때, 표본평균($\bar X$)과 표본분산($S^2$)을 구해 봅니다.

표본평균($\bar X$)은 표본의 이루는 각 값들과의 편차의 제곱의 합이 가장 작게 되는 값입니다. 또한, 표본평균은 표본을 이루는 값들의 합을 표본의 크기 n으로 나누어서 구할 수도 있습니다.(산술평균)

 

표본분산($S^2$)은 각 값과 평균과의 차이의 제곱을 합한 것을  n-1로 나누어서 구할 수도 있습니다. (표본평균을 산술평균으로 구했을 경우)

표본분산($S^2$)은 각 값과 표본평균과의 편차의 제곱의 합이 가장 작게 되는 합의 값을 n-1 로 나눈 값입니다. 여기서 각 숫자와의 편차제곱이 가장 작게 되는 값이 평균입니다.

 

표본분산($S^2$)을 구할 때 숫자의 개수 즉, 표본의 크기가 작을 때는 n과 n-1의 차이가 크게 나타나기 때문에 유의하여야 합니다. 표본분산 값의 단위는 평균의 제곱의 단위와 같을 것입니다.

값의 편차(deviation)와 차이(difference)는 다릅니다. 편차는 값에서 기준값을 뺸 값이기 때문에 음수가 나올 수도 있습니다. 하지만 차이(difference)는 양수이고 편차의 절대값입니다. 물론 편차의 제곱도 양수입니다.

그래서 편차제곱의 합을 데이터 개수(n)로 나누어서 표준화시킨  값인 분산은 데이터(숫자)의 분포 척도로 사용됩니다.

 

그리고 분산의 제곱근을 표준편차라고 정의합니다. 표준편차의 단위는 평균과 단위가 같습니다. 반대로 분산의 단위는 편차의 제곱이나 평균의 제곱 값의 단위와 같게 될 것입니다.

 

모집단은 표본의 기준이라고 할 수 있습니다.

모집단(알고자 하는 집단)의 분포를 표현하는 값(모수, 매개변수, Parameter)은 모평균($\mu$)과 모표준편차($\sigma$)입니다.

만일 모집단이 정규분포를 가지고 매개변수를 안다면 모집단의 분포를 그릴 수 있겠습니다.

 

표준오차는 표본평균과 모집단의 평균과의 차이를 구하고 표준화한 것입니다. 

표본에 속하지 않은 기준(모집단의 평균)을 사용한 것이고 절대적인 기준과의 차이라는 의미에서 편차(deviation)가 아닌 오차(error)로 표현합니다.

 

표본평균과 모평균의 차이를 모표준편차를 표본의 크기(n)의 제곱근 나눈 값으로 나누면(표준화 하면) 그 표본의 표준오차니다.

표준이라는 표현을 사용한 것은  모표준편차($\sigma$)를 표본크기의 제곱근($\sqrt  n$)으로 나눈 값으로 나누는 과정이 표준화하는 과정이기 때문입니다.

 

표본평균의 표준오차(Standard Error of the Mean, SEM)는 표본평균들의 분포의 표준편차를 가리킵니다.

표본평균들의 평균은 중심극한정리에 의하여 모평균과 같게 됩니다.

$\sigma$는 모표준편차, $n$은 표본의 크기라면

 

Standard Error of the Mean : SEM = $\sigma_{\bar x}={{\sigma}\over{\sqrt{n}}}$

 

표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차($SE$)와 동일합니다.


표본표준편차 $S$를 이용하여 표본평균 분포의 표준편차(표준오차, $\sigma_{\bar x}$)의 근사값 구하기

표본의 크기가 충분히 클 때 (n >500), 표본표준편차(S)의 기대값을 $E(S)$라하면,  $E(S) = \sigma$ 입니다.

 

${\sigma_{\bar X}}^2={{\sigma}^2\over{n}} ≈{{S^2}\over{n}}$

 

$\sigma_{\bar X}={{\sigma}\over{\sqrt{n}}} ≈{{S}\over{\sqrt{n}}}$

 

아래식처럼 표준오차는 표본표준편차(S)를 $\sqrt{n}$로 나눈 것과 같습니다. 즉, $\bar X$를 표본평균, $\nu$를 잔차라 할 때,

 

${\sigma_{\bar X}}^2={{1}\over{n}}S^2={{∑(x-\bar X)^2}\over{n(n-1)}}={{∑\nu^2}\over{n(n-1)}}$

 

${\sigma_{\bar X}}=\sqrt{{{\sum{{\left({x-\bar X}\right)}^{2}}}\over{n\left({n-1}\right)}}}=\sqrt{{{\sum{\nu^{2}}}\over{n\left({n-1}\right)}}}$

 

만일 가중치가 다르다면 다음과 같이 계산합니다. 가중치를  $\omega$라 할 때,

 

${\sigma_{\bar X}}^2={{∑ω(x-\bar X)^2}\over{∑ωn(n-1)}}={{∑ων^2}\over{n(n-1)}}$

 

${\sigma_{\bar X}}=\sqrt{{{\sum{\omega{\left({x-\bar X}\right)}^{2}}}\over{\left({\sum{\omega}}\right)\left({n-1}\right)}}}=\sqrt{{{\sum{\omega\nu^{2}}}\over{n\left({n-1}\right)}}}$

 

${σ_\bar X}^2={{\sigma^2}\over{n}}$

 

$\sigma_{\bar X}={{\sigma}\over{\sqrt{n}}}$


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.