평균 수심 150cm. 강을 건너도 될까요?

사분위표


상자그림


평균 수심 150cm, 강을 건너도 될까요?

군인들이 목적지로 빨리 가기 위해, 눈 앞의 강을 건너야 합니다. 군인들의 키의 평균은 180cm이고, 강의 수심 평균은 150cm라는 정보를 얻게 되었습니다.

 

지휘관은 모든 군인에게 강을 건널 것을 명령햇습니다. 그런데, 군인들이 한 명, 두 명 물 속에 빠져서 허우적거리는 것을 목격하게 되었습니다. 지휘관은 급히 회군을 명령했습니다.

 

다시 조사해보니, 이 강의 최대 수심은 200cm이고, 군인 중 키가 200cm를 넘는 사람은 없었습니다.


수심의 최대값이 인간의 키 최대값보다 크기 때문에 강을 건너면 안 됩니다.

범위는 최대값과 최소값으로 표현할 수 있습니다. 수심의 범위는 100~200cm이고, 군인 들 키의 범위는 175~185cm라는 것을 미리 알았다면, 강을 건너지 않고, 다른 선택을 했을 것입니다.


데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다.

산포도(degree of scattering) 또는 변산성(variability)이라고 부릅니다.

 

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.

범위는 최대값과 최소값의 구간으로 표시합니다.

 

중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

 

평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.

분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.

즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.

또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.

그래서 분산은 0이나 양의 수가 됩니다.

 

직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.

그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.

 

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.

모분산과 표본분산의 수식은 차이가 있습니다.

표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때)는 표본의 크기인  n대신 1을 뺀  n-1을 사용합니다.

그 이유는 표본분산은 모집단에서 주어진 기준이 아닌 표본 내에서 만들어진 표본평균을 기준으로 하기 때문에, 이를 보정하기 위해 n 대신 n-1을 사용합니다.

 

표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.

다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.

 

분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.

따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.

표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.

 

모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.

표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.

 

분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.

 

만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.

평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 없어지고 표준화되어 두 표본의 변동 비교가 쉬워집니다.



평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

분산(variance)

${\rm 모분산}\ \ {\rm \sigma}^{{\rm 2}}={{\sum\limits_{i=1}^{N}{(x_{i}-{\rm \mu})^{2}}}\over{N}}$          ($N$: 모집단의 크기)

${\rm 표본분산}\ \ s^{2}={{\sum\limits_{i=1}^{n}{{\left({x_{i}-\bar x}\right)}^{2}}}\over{n-1}}$          ($n$: 표본의 크기)


 


표준편차(standard deviation)

${\rm 모표준편차}\ \ {\rm \sigma}=\sqrt{{\rm \sigma}^{2}}$ ${\rm 표본표준편차}\ \ s=\sqrt{s^{2}}$ 분산의 제곱근
 

변동계수(coefficient of variation, 변이계수)

  변동계수(모집단)   $CV={{\sigma}\over{\mu}}\times 100$     (단위 %)   변동계수(표본)   $CV={{s}\over{x}}\times 100$     (단위 %)