DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

관측대상이 변동성(variability)을 가져야만 관측값에서 변동(variation)이 나타나나?

목차

네, 확률변수 또는 집단이 변동성을 가져야 합니다.

변동성은 확률변수나 집단이 가지는 퍼짐의 정도이고, 분산 같은 통계량으로 수치화됩니다.

확률변수의 대표적인 변동성 척도는 분산입니다.

집단의 대표적인 변동성 척도는 총제곱합(total sum of squares)입니다.

집단의 총제곱합을 집단크기(또는 자유도)로 표준화한 것이 분산(variance)입니다.

1. 확률론 관점에서의 변동성: 관측대상은 확률변수

확률론적 측면에서 변동성은 확률변수 $Y$의 분산으로 정의됩니다. 이는 확률변수가 본래 지니고 있는 퍼짐의 정도를 의미합니다. 분산은 다음과 같이 정의됩니다.

$$\mathrm{Var}[Y] = \mathrm{E}\left[(Y – \mathrm{E}[Y])^2\right]=\mathrm{E}[Y^2] – \big(\mathrm{E}[Y]\big)^2$$

만약 분산이 0이라면 모든 값이 상수이므로 변동이 존재하지 않습니다. 따라서 확률변수가 변동성을 지녀야만 실제로 표본을 관측했을 때 변동이 나타납니다.

2. 통계학 관점에서의 변동성: 관측대상은 집단

통계학적 측면에서 변동성은 실제 관측된 집단의 데이터 $\{x_1, x_2, \cdots, x_n\}$의 퍼짐을 수치화한 것입니다. 이를 나타내는 대표적인 척도가 관측된 집단, 즉, 표본의 총제곱합(total sum of squares, $SS_T$)과  표본의 분산($s^2$)입니다. 제곱합은 관측값이 평균으로부터 얼마나 떨어져 있는지를 제곱하여 합한 값입니다.

$$SS_T = \sum_{i=1}^n (y_i – \bar{y})^2$$

분산은 집단의 총제곱합을 집단의 크기로 나누어 표준화한 값입니다. 특별히, 집단이 표본인 경우 표본의 크기, $n$이 아니고 자유도 $n-1$로 나누어 표본분산을 구합니다.

$$s^2 = \frac{SS_T}{n-1}$$

만약 집단에 변동성이 없다면 모든 값이 동일하여 제곱합은 0이 되고, 분산도 0이 됩니다. 따라서 집단이 변동성을 지녀야 실제 관측값에서도 변동이 나타납니다.

3. 확률론과 통계학 관점에서의 변동성 비교

3.1. 확률론 관점에서의 변동성

확률변수가 변동성을 가져야 → 그 확률변수가 만들어내는 값들에서 변동이 나타납니다.

확률변수의 분산이 0보다 커야  그 확률변수가 만들어내는 값들에서 변동이 나타납니다.

3.2. 통계학 관점에서의 변동성

집단이 변동성을 가져야 → 관측값에서 제곱합과 분산이 나타납니다.

집단 데이터의 제곱합·분산이 있어야 관측값에서 변동이 나타납니다. 

Table 1.  확률론 관점과 통계학 관점에서의 변동성 비교

구분확률론 관점 변동성통계학 관점 변동성
대상확률변수 $$Y$$관측된 집단 자료 $$\{y_i\}$$
변동성 정의분산 $$\mathrm{Var}[Y]$$총제곱합($SS_T$), 분산 $$(s^2)$$
표현식$$\mathrm{Var}[Y]=E\!\left[(Y-E[Y])^2\right]$$$$SS_T=\sum_{i=1}^{n}(y_i-\bar{x})^2,\qquad s^2=\frac{SS_T}{\,n-1\,}$$
의미분포가 본래 지닌 퍼짐의 성질데이터에서 나타난 퍼짐을 수치화
변동과 관계$$\mathrm{Var}[Y]=0 \Rightarrow \text{ 변동 없음 }$$$$SS_T=0 \Rightarrow s^2=0 \Rightarrow \text{ 변동 없음 }$$