샘플 크기와 가설검정 결과는 관련이 있을까?


가설을 세웁니다.

우리가 새로운 딸기 품종을 만들었는데, 이 품종이 기존의 딸기 품종과는 다르다는 것을 검정하는 사례로 살펴보겠습니다.

“새로운 딸기 품종은 기존의 딸기 품종과 같다”라는 영가설(귀무가설)을 세웁니다.

가설을 검정하기 위해서 검정할 확률변수를 정하고 표본의 통계량을 구합니다.

소비자가 딸기를 선택하는 가장 중요한 기준은 당도이므로 당도를 확률변수로 정합니다.

 

기존 품종의 당도의 모수(parameter)는 평균 11 브릭스(Brix), 표준편차 1로 알려져 있습니다.

새로 개발한 딸기 품종 10알의 당도를 측정하여서 표본통계량을 구하였습니다. 당도 평균은 12 브릭스(Brix), 표준편차는 2 입니다.

 

“두 딸기품종의 당도의 평균 차이가 없다(0이다)”라는 영가설을 검정합니다.

 

“새로 개발한 딸기 품종의 당도 평균은 기존 품종과 차이가 없다.”

 

위와 같이 우리가 증명하고 싶은 것과 반대의 가설을 영가설(혹은 귀무가설. Null Hypothesis)이라고 하고, 이 영가설을 기각할 수 있게 되면, 반대인 대립가설(혹은 연구가설. Alternative Hypothesis or Research Hypothesis)을 채택할 수 있습니다.

 

5% 유의수준으로 이 가설을 검정한다면, 우리가 측정한 10알의 샘플(표본) 데이터로부터 95% 신뢰구간을 구해볼 수 있습니다.

 

11.62~13.38 Brix

 

95% 신뢰구간 내에 기존 품종의 당도 평균인 11이 있습니다. 이러한 경우에는 영가설을 채택할 수 있습니다. 즉, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 없습니다.

 

또 다른 표본을 추출해서 가설검정을 해 봅니다.

 

새로 개발한 딸기 품종 10알을 다시 추출해서 측정하였습니다. 평균은 13, 표준편차는 2로 측정이 되었습니다. 95% 신뢰구간을 구해보면 다음과 같습니다.

 

11.76~14.24 Brix

 

기존 품종의 당도 평균 11은 위에서 구한 95% 신뢰구간 밖에 있습니다. 이러한 경우, 영가설을 기각하고, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 있습니다.

두 번의 샘플을 측정해서 가설검정을 하였는데, 그 결과가 상반되게 나왔습니다.

 

두 표본을 합쳐서 표본통계량을 구해보겠습니다.

 

표본크기는 20, 평균은 12.5, 표준편차는 2입니다. 95% 신뢰구간을 구해보면 다음과 같습니다. 

 

11.62~13.38 Brix

 

기존 품종의 당도 평균11은 위에서 구한 95% 신뢰구간 밖에 있습니다. 영가설을 기각하고, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 있습니다.

 

샘플의 크기가 커질수록 신뢰구간이 좁아진다는 것을 알 수 있습니다. 가설검정이 더 정교해졌습니다.

 

샘플의 크기가 30개 미만인 경우, t분포를 사용하는 것이 일반적이지만, 보다 쉬운 이해를 위해 위의 예에서는 둘 다 z분포를 사용했습니다.

 


모평균의 가설검정 - 모표준편차를 아는 경우 (모집단이 정규분포)

모표준편차 $\sigma$
가설의 종류 선택 기준
1) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{>}{\mathit{\mu}}_{0}$ $\frac{\bar{X}{-}{\mathit{\mu}}_{0}}{\frac{\mathit{\sigma}}{\sqrt{n}}}{>}{z}_{\mathit{\alpha}}$ 이면 $H_{0}$ 기각
2) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{<}{\mathit{\mu}}_{0}$ $\frac{\bar{X}{-}{\mathit{\mu}}_{0}}{\frac{\mathit{\sigma}}{\sqrt{n}}}{<}{-}{z}_{\mathit{\alpha}}$ 이면 $H_{0}$ 기각
3) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{\ne}{\mathit{\mu}}_{0}$ $\left|{\frac{\bar{X}{-}{\mathit{\mu}}_{0}}{\frac{\mathit{\sigma}}{\sqrt{n}}}}\right|{>}{z}_{\mathit{\alpha}{/}{2}}$ 이면 $H_{0}$ 기각

검정통계량(test statistic)

${\frac{\bar{X}{-}{\mathit{\mu}}_{0}}{\frac{\mathit{\sigma}}{\sqrt{n}}}}$

$p-$값의 계산

가설의 종류 선택 기준
1) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{>}{\mathit{\mu}}_{0}$ ${P}\left({\bar{X}{>}{\bar{x}}_{obs}}\right)$
2) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{<}{\mathit{\mu}}_{0}$ ${P}\left({\bar{X}{<}{\bar{x}}_{obs}}\right)$
3) ${H}_{0}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{=}{\mathit{\mu}}_{0}$${H}_{1}\hspace{0.33em}{:}\hspace{0.33em}\mathit{\mu}{\ne}{\mathit{\mu}}_{0}$ ${\bar{X}}_{obs}{>}{\mathit{\mu}}_{0}$ 이면 $2{P}\left({\bar{X}{>}{\bar{x}}_{obs}}\right)$, 아니면 $2{P}\left({\bar{X}{<}{\bar{x}}_{obs}}\right)$