DATA SCIENCE : 27
DATA SCIENCE eISSN

[ Q-data science ]

평균없는 분산이 있을 수 있나?

목차

없습니다. 분산은 평균이라는 기준이 있어야 정의되는 퍼짐의 정도입니다.

특별히, 평균이 상수값이고 분산이 0인 경우는 축소분포(degenerate distribution)입니다.

이산형일 때,  축소분포는 사건의 확률로 표현합니다

$$P(X=c)=1$$

연속형일 때, 축소분포는 Dirac delta 함수로 표현합니다.

$$\delta(x – c)$$

또한, 평균이 0이고 분산이 무한대인 경우는 자유도가 $1 < \nu \leq 2$인 t분포입니다. 자유도가 1인 t분포는 Cauchy분포라고도 합니다.

1. 집단의 평균과 분산

분산의 정의는 다음과 같습니다.
$$\mathrm{Var}(X) = \mathbb{E}[(X – \mu)^2] = \mathbb{E}[X^2] – (\mathbb{E}[X])^2$$
모집단에서는 기대값(모평균)이 존재해야만 모분산이 정의됩니다. 기대값이 존재하지 않으면 분산은 아예 정의할 수 없습니다. 실현된 집단인 표본에서는 표본분산을 구하려면 표본평균이 반드시 존재해야 합니다.

표본에서 분산이 가장 작아지는 중심인 기준점이 바로 표본평균입니다. 이를 평균의 최소제곱 성질 (Least Squares Property of the Mean)이라고 합니다.

임의의 $a$를 기준으로 하는 편차제곱합 $S(a)$은 다음과 같습니다.

$$S(a) = \sum_{i=1}^{n} (x_i – a)^2$$

편차제곱합의 $S(a)$의 최소값은 $S(a)$를 $a$에 대해 미분하고 0이 되는 $a$의 값을 구하면 $a$는 표본평균 $\bar{x}$가 됩니다.

$$S'(a) = -2 \sum\limits_{i=1}^{n} (x_i – a) = 0 \quad \Rightarrow \quad  a =\dfrac{\sum\limits_{i=1}^{n} x_i }{n}=\bar{x}$$

Cauchy 분포는 기대값이 발산하므로 수렴하지 않습니다. 따라서 분산도 계산불가로 존재하지 않습니다. Cauchy 분포의 확률밀도함수와 기대값은 다음과 같습니다.

$$f(x) = \frac{1}{\pi (1 + x^2)}$$

$$\mathbb{E}[X] = \int_{-\infty}^{\infty} x f(x) \, dx = \int_{-\infty}^{\infty} \frac{x}{\pi (1 + x^2)} \, dx$$

Table 1. 확률분포별 평균 및 분산

분포 이름 평균 분산 설명
정규분포 존재함 존재함 대표적인 연속형 분포, 평균과 분산 모두 존재
지수분포 존재함 존재함 양의 방향으로 치우친 분포, 평균과 분산 존재
균등분포 U(0,1) 존재함 존재함 0~1 구간에서 균일하게 분포, 평균과 분산 모두 존재
축소분포(상수값) 존재함 0 값이 항상 일정하므로 평균은 그 값, 분산은 0
t 분포 (df=3) 존재함 존재함 평균, 분산 모두 정의됨 (df > 2이면 안정)
t 분포 (df=1.5) 존재함 존재하지 않음 평균은 존재하나, 분산은 무한대로 발산
t 분포 (df=1) = Cauchy 분포 존재하지 않음 존재하지 않음 꼬리가 매우 두꺼움 → 평균, 분산 모두 없음
 

Fig. 1. 코시분포, t분포(df=2, 3), 정규분포의 비교