자유도를 포함하고 있기 때문입니다. 모르는 모분산도 가지고 있지만 모분산은 추정과 가정으로 정할 수 있습니다.
표본통계량에서 표본분산보다 카이제곱을 많이 사용하는 이유는, 카이제곱 분포가 자유도를 반영하여 표본 크기에 따른 변동성을 고려할 수 있기 때문입니다. 또한, 통계적 추론에서 더 직접적이고 유용하게 활용될 수 있기 때문입니다. 이러한 이유로 카이제곱은 표본분산보다 더 자주 사용되며, 통계적 분석의 핵심적인 도구로 자리 잡고 있습니다.
통계적 추론에서 표본 크기(자유도)는 매우 중요한 역할을 합니다. 표본 크기가 커질수록 표본분산이 모집단 분산에 근접하게 되기 때문에, 이를 적절히 반영하는 것이 중요합니다.
표본분산에서의 자유도
표본분산 통계량은 단일 표본에서 계산된 값으로, 표본크기에 대한 정보를 포함하지 않습니다. 따라서 표본크기로 부터 유도되는 자유도 정보도 없습니다.
카이제곱에서의 자유도
카이제곱통계량은 자유도라는 중요한 정보를 포함하고 있어, 표본 크기에 따른 표본분산의 변동성을 고려할 수 있습니다. 따라서, 표본분산을 단독으로 사용하는 것보다 카이제곱 분포를 사용하면 표본크기에 따른 통계적 변동성을 더 정확하게 반영할 수 있습니다.
모분산 추정
모집단의 분산에 대한 신뢰구간을 설정할 때도 카이제곱 분포를 사용합니다. 표본분산만으로는 신뢰구간을 설정하기 어렵지만, 카이제곱 분포를 사용하면 주어진 신뢰수준에서 정확한 신뢰구간을 계산할 수 있습니다.
분산 검정
카이제곱 분포는 주로 분산에 대한 가설검정에 사용됩니다. 예를 들어, 모집단 분산이 특정 값과 다른지를 검정할 때, 표본분산을 사용하여 카이제곱 검정을 수행합니다. 이때, 카이제곱 분포는 검정 통계량의 분포를 제공하므로, 표본분산보다 더 직접적으로 검정에 활용될 수 있습니다.
분산분석(ANOVA) F검정
ANOVA와 같은 분산 분석에서, 집단 간의 분산 차이를 검정할 때 F 분포가 사용되는데, F 분포는 두 개의 독립적인 카이제곱 분포의 비율로 정의됩니다. 따라서, 분산 분석에서 카이제곱 분포는 핵심적인 역할을 합니다.
F통계량은 두 개의 표준화된 표본분산의 비로 정의되며, 이는 각각의 표본분산을 카이제곱 분포로 변환한 값들의 비도 포함합니다. 즉, F통계량은 표준화된 표본분산의 비율을 비교하는 것이 맞지만, 이 표준화된 표본분산은 카이제곱 분포를 기반으로 합니다. 따라서 F통계량은 두 개의 독립적인 카이제곱통계량을 비교하는 것과 본질적으로 동일한 의미를 갖습니다.
F통계량의 정의
$$F = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \dfrac{\left(\dfrac{S_1^2}{\sigma_1^2}\right) / \nu_1}{\left(\dfrac{S_2^2}{\sigma_2^2}\right) / \nu_2}$$
여기서, $S^2_1$과 $S^2_2$는 두 개의 독립적인 표본에서 계산된 표본분산
$\sigma^2_1$과 $\sigma^2_2$는 각각의 모집단 분산
$\nu_1$과 $\nu_2$는 표본의 자유도: $\nu_1=n_1-1$, $\nu_2=n_2-1$
표본분산을 카이제곱 분포로 변환한 값들은 자유도에 따라 표준화됩니다. 따라서 F 통계량은 두 개의 독립적인 카이제곱통계량을 그들의 자유도로 나눈 값들의 비율로 볼 수 있습니다.
F 통계량은 실제로 두 표본의 표준화된 표본분산의 비율을 의미합니다. 여기서 표준화된 표본분산이란, 각각의 표본분산을 그 표본의 자유도로 나눈 값입니다.
F 통계량이 비교하는 것은 표준화된 표본분산이지만, 이 표준화된 표본분산은 카이제곱 분포를 따르는 값들로부터 유도됩니다. F 통계량을 정의할 때, 표준화된 표본분산을 사용한다고 말할 수 있지만, 이 표준화된 값들은 본질적으로 카이제곱통계량의 비율입니다.