데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다.
산포도(degree of scattering) 또는 변산성(variability)이라고 부릅니다.
데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.
범위는 최대값과 최소값의 구간으로 표시합니다.
중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.
평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.
분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.
즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.
또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.
그래서 분산은 0이나 양의 수가 됩니다.
직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.
그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.
모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.
모분산과 표본분산의 수식은 차이가 있습니다.
표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때)는 표본의 크기인 n대신 1을 뺀 n-1을 사용합니다.
그 이유는 표본분산은 모집단에서 주어진 기준이 아닌 표본 내에서 만들어진 표본평균을 기준으로 하기 때문에, 이를 보정하기 위해 n 대신 n-1을 사용합니다.
표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.
다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.
분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.
표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.
따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.
표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.
모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.
표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.
분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.
만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.
평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 없어지고 표준화되어 두 표본의 변동 비교가 쉬워집니다.