데이터의 분포값 Degree of scattering



당도.  당도편차, 당도편차제곱

데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다. 산포도(degree of scattering) 또는 변산성(variability)라고 부릅니다.

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.

범위는 최대값과 최소값의 차이입니다.

중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.

분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.

즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.

또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.

그래서 분산은 0이나 양의 수가 됩니다.

직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.

그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.

모분산과 표본분산의 수식은 차이가 있습니다.

표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때) 표본의 크기  n대신 1을 뺀  n-1을 사용합니다.

그 이유는 표본분산은 표본 바깥에서 주어진 기준이 아닌 표본 내에서 도출된 표본평균을 기준으로 하기 때문입니다.

즉, 표본에서는 분산의 기준인 평균으로 데이터가 1개 사용되었다는 것을 의미합니다.

예를 들면 마을마다 집들이 서로 얼마나 떨어져서 있는가를 숫자로 표현하고자합니다.

여기서 기준을 이장님댁으로 정합니다.

그렇다면 거리의 평균을 구할 때 당연히 이장님댁을 뺸 나머지 집들의 수로 나누게 됩니다.

표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.

다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.

분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.

따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.

표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.

모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.

표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.

분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.

만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.

즉, 평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 상쇄되고 표준화되어 두 표본의 변동의 비교가 수월합니다.

구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.



평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

분산(variance)

${\rm 모분산}\ \ {\rm \sigma}^{{\rm 2}}={{\sum\limits_{i=1}^{N}{(x_{i}-{\rm \mu})^{2}}}\over{N}}$          ($N$: 모집단의 크기)

${\rm 표본분산}\ \ s^{2}={{\sum\limits_{i=1}^{n}{{\left({x_{i}-\bar x}\right)}^{2}}}\over{n-1}}$          ($n$: 표본의 크기)


 


표준편차(standard deviation)

${\rm 모표준편차}\ \ {\rm \sigma}=\sqrt{{\rm \sigma}^{2}}$ ${\rm 표본표준편차}\ \ s=\sqrt{s^{2}}$ 분산의 제곱근
 

변동계수(coefficient of variation, 변이계수)

  변동계수(모집단)   $CV={{\sigma}\over{\mu}}\times 100$     (단위 %)   변동계수(표본)   $CV={{s}\over{x}}\times 100$     (단위 %)