coefficient of variation
변동계수

목차

1. 애니메이션
2. 설명
3. 수식
4. 용어
5. 관련 데이터사이언스
6. 실습
6.1. 구글시트
6.2. 구글시트 함수 설명
6.3. 강의 영상

 


1. 애니메이션




변동계수

 


2. 설명

변동계수(coefficient of variation, CV)는 표준편차($\sigma$)를 산술평균($\mu$)을 기준으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 표준편차를 산술평균으로 나눈 것입니다.

 

$CV=\frac {\sigma }{\mu}$

 

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

 

$CV=\frac {S }{\bar{X}}$

 

표본사이의 표준편차를 비교하고자 할때 평균의 영향을 없애기 위하여 사용합니다. 보통 자연현상과 사회현상에서 평균이 높으면 표준편차도 높아지는 경향을 보이기 때문입니다.

 

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다. 같은 단위를 가지는 평균으로 나누어 단위가 사라진 변동계수를 사용하면 비교할 때 단위에 대한 고려를 안해도 되는 이로움이 있습니다. 그래서 측정단위가 서로 다른 자료를 비교할 때는 더욱 요긴합니다. 변동계수의 값이 클수록 데이터의 상대적인 값의  차이가 크다는 것을 의미합니다.

 

예를 들어, 농장에서 생산한 딸기 제품이 있는데 당도가 얼마나 고르게 나오는 것을 알고자 하는 경우입니다. 출하시기에 따른 당도 평균의 변화를 제거하여 표준편차를 조정한 것이 바로 변동계수입니다. 다시말하면  절대적인 기준으로 구한 표준편차를 보완하기 위한 개념이 변동계수라는 개념입니다. 상대적인 차이를 동일한 평균기준으로 값을 비교할수 있게 됩니다.

 


3. 수식

변동계수(coefficient of variation, CV)는 표준편차를 산술평균으로 나눠서 구한다.

 

$CV=\frac {\sigma }{\mu}$

 

여기서,  $\sigma$는 모표준편차

$\mu$는 모평균 

 

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눠서 구한다.

 

$CV=\frac {S }{\bar{X}}$

 

여기서,  $S$는 표본표준편차

$\bar{X}$는 표본평균 

 


4. 용어

산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

Reference

Mean – Wikipedia

 


5. 관련 데이터사이언스

데이터 대표값 

데이터 분포값

 


6. 실습


변동계수 : 구글시트 실습

구글시트 실습

위의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의 영상으로 보실 수 있습니다.

구글시트 사용법 크롬 설치

<구글시트 함수>

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 평균. 데이터를 모두 더한 후, 데이터의 개수로 나누어서 구함.

=STDEV.P(C2:C22) : 표준편차. 분산의 제곱근. C3에서 C22에 있는 모든 데이터의 표준편차. 각 값과 평균과의 차이(편차)를 제곱해서 모두 더한 후, 데이터의 개수로 나누어서 구하면 분산이 되는데, 표준편차는 이 분산의 양의 제곱근임.



<실습내용>

데이터

데이터 요약

데이터 시각화

변동계수