자유도를 직관적으로 설명하면

통계량 (통계량에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


자유도는 데이터 들 중 자유롭게 변할 수 있는 데이터의 개수입니다.

자유도를 쉽게 설명한다면, 데이터 들 중 자유로운 값을 가질 수 있는 데이터의 개수가 됩니다. 예를 들어, 10개의 데이터가 있는데, 우리가 이 10개의 데이터에 대한 통계량을 아무것도 모른다면, 10개의 데이터는 어떤 값이든지 가질 수 있고, 자유도가 10이 됩니다.

 

그런데, 만약, 우리가 위의 10개 데이터의 평균을 알고 있다면, 10개 중 9개는 자유롭지만, 마지막 1개는 우리가 알고 있는 평균으로 인해, 그 값이 정해져 버립니다. 즉, 자유롭지 않습니다.

 

통계학에서 분산이라는 개념은 평균을 먼저 구하고, 그 평균과의 거리를 측정해서 구할 수 있는 값입니다. 따라서, 분산을 구할 때의 자유도는 평균을 구할 때의 자유도보다 하나 줄어들게 됩니다.

 

자유도를 달리 표현하면,

통계적 추정을 할 때, 표본자료 중 모집단의 정보를 주는 독립적인(자유로운) 데이터의 개수를 말합니다.

 

표본분산은 편차 제곱의 합을 자유도로 나누어주면 되는데, 이 때의 자유도는 표본의 크기, n보다 1이 작은 수 입니다.

 

위의 애니메이션에서 각 당도는 옅은 푸른색의 막대로 표현했습니다. 20개의 당도를 더한 후, 당도 개수로 나누면 평균이 나옵니다. 

당도 평균을 각 당도 위에 붉은색 선으로 표시하고, 이 붉은색 선보다 튀어나오거나 부족한 부분을 편차로 표시했습니다.

이 편차의 합과 평균은 0이 됩니다. 편차의 크기를 이해하기 위해 편차를 제곱하여 평균을 계산한, 0이 아닌 값이 분산입니다.

 

우리가 표본분산을 구할 때는 이 표본분산으로 모분산을 추정하고자 함입니다. 즉, 표본분산의 기대값이 모분산과 같으면 좋겠습니다. 그런데, 편차제곱의 합을 표본의 크기로 나눈 값의 기대값은 모분산보다 작습니다. 모분산의 (n-1)/n의 크기가 됩니다. 즉, 이 값을 모분산의 추정량으로 사용하기에는 편의(bias)가 있어서, 모분산의 불편추정량(unbiased estimate)으로 사용할 수 없습니다.

 

따라서, 표본분산의 기대값이 모분산과 같아지기 위해서는 편차제곱의 합을 n-1로 나누어야 하는데, 이는 표본분산의 자유도입니다.