Coefficient of variation ?
변동계수 ?

1. 애니메이션

1.1. 변동계수


2. 설명

2.1. 변동계수

2.2. 변동계수 활용사례


3. 실습

3.1. 구글시트

3.2. 구글시트 함수


4. 용어와 수식

4.1. 용어

4.2. 수식

4.3. 참고


1. 애니메이션



변동계수


2. 설명

2.1. 변동계수

변동계수를 사용하는 예를 들면, 농장에서 생산한 딸기가 당도가 얼마나 고른지를 알고자 하는 경우입니다. 딸기의 표본은 보통 출하시에 추출하게 되는데 당도는 출하시기의 영향을 크게 받습니다. 그래서 당도의 분포값인 표준편차를 출하시기를 반영하고 있는 평균으로 표준화하면 당도의 변동만을 분석할 수 있습니다.

 

두 표본으로 두 모집단의 변동(variation, 움직임의 변화량)을 비교하고자 할때도 표본평균의 영향을 없애기 위하여 변동계수를 사용합니다. 보통 자연현상에서 모평균과 표본평균의 거리가 변하면 표본표준편차도 따라 변하기 때문입니다.

 

모집단의 변동계수(coefficient of variation, CV)는 모표준편차($\sigma$)를 모평균($\mu$)으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 모표준편차를 모평균으로 나눈 것입니다.

$$CV=\dfrac {\sigma}{\mu}$$

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

$$CV=\dfrac {S}{\bar{X}}$$

여기서, $X$는 확률변수

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다. 변동계수는 표준편차를 같은 단위를 가지는 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있는 장점이 있습니다. 


2.2. 변동계수 활용사례

다음 동영상에서는 변동계수의 활용사례로 1) 기업성과 비교, 2) 상품가치 비교를 설명하고 있습니다.


변동계수 활용사례 1 : 기업성과 비교


변동계수 활용사례 2 : 상품가치 비교


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


변동계수 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 평균. 데이터를 모두 더한 후, 데이터의 개수로 나누어서 구함.

=STDEV.P(C2:C22) : 표준편차. 분산의 제곱근. C3에서 C22에 있는 모든 데이터의 표준편차. 각 값과 평균과의 차이(편차)를 제곱해서 모두 더한 후, 데이터의 개수로 나누어서 구하면 분산이 되는데, 표준편차는 이 분산의 양의 제곱근임.


3.3. 실습강의

데이터

데이터 요약

데이터 시각화

변동계수

실습 안내



4. 용어와 수식

4.1 용어


산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia


표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



4.2 수식


모집단에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {\sigma }{\mu}$$

여기서,  $\sigma$는 모표준편차

$\mu$는 모평균 

표본에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {S}{\bar{X}}$$

여기서,  $S$는 표본표준편차

$\bar{X}$는 표본평균

$X$는 확률변수