DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

다변량 정규분포는 여러 개의 정규분포를 합친 것인가?

목차

아니요, 변량(확률변수값) 간의 상관이 있어야 합니다. 

다변량 정규분포는 정규성과 상관이 있는 확률변수들을 원소로 하는 벡터의 확률분포입니다. 

개체의 속성이 정규분포를 나타내고 개체의 속성이 서로 상관을 가질 때 개체가 이루는 집단의 속성의 분포는 확률변수 벡터로 표현되며 그 벡터는 다변량 정규분포를 나타냅니다.

다변량 정규분포를 나타내는 대표적인 확률변수 벡터로는 집단의 육종가 벡터가 있습니다.

\[
\mathbf{a} =
\begin{pmatrix}
a_1 \\
a_2 \\
\vdots \\
a_p
\end{pmatrix}, \quad
\mathbf{a}^\top =
\begin{pmatrix}
a_1 & a_2 & \cdots & a_p
\end{pmatrix}
\]

여기서, $\mathbf{a}$는 표본의 육종가벡터

$\mathbf{a}^\top$는 육종가벡터의 전치

$a_1, a_2, \dots, a_p$는 표본내 각 개체의 육종가

$p$는 표본크기

육종가벡터 $\mathbf{a}$를 다변량 정규분포로 모델링하면 다음과 같습니다.

\[
\mathbf{a} \sim \mathcal{N}(\mathbf{0}, \sigma_a^2 \mathbf{A})
\]

여기서, $\mathbf{a}$는 $p\times1$ 육종가벡터

$\mathbf{0}$는 $p\times1$ 평균벡터: $\mathbf{\mu}=\mathbf{0}$

$\sigma_a^2 \mathbf{A}$는 $p\times p$ 공분산

$\sigma_a^2$는 육종가분산(additive genetic variance): 스칼라양

$\mathbf{A}$는 $p\times p$ 계보행렬

1. 단변량 정규분포와 다변량 정규분포

단변량 정규분포는 하나의 확률변수에 대한 분포로  평균과 분산으로 정의됩니다. 

$$X \sim \mathcal{N}(\mu, \sigma^2)$$

반면, 다변량 정규분포는 여러 개의 확률변수가 결합된 확률변수 벡터로 평균벡터와 공분산행렬로 정의됩니다. 이 때 변수 간의 상관관계가 공분산행렬에 반영됩니다.

$$\mathbf{X} = (X_1, X_2, \dots, X_p)^\top \sim \mathcal{N}_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$$

여기서, $\boldsymbol{\mu}$는 평균벡터: $\boldsymbol{\mu} \in \mathbb{R}^p$

$\boldsymbol{\Sigma}$는 분산행렬: $\boldsymbol{\Sigma} \in \mathbb{R}^{p \times p}$

Table 1. 단변량 정규분포와  다변량 정규분포 비교

항목 단순한 정규분포의 합 다변량 정규분포
구성 독립된 정규분포 여러 개 상호 연관된 정규변수
상관관계 없음 (공분산 = 0) 존재할 수 있음 (공분산 ≠ 0)
형태 각 변수는 서로 무관 변수 간 공분산행렬로 상호 의존
예시 \( X_1 \sim N(0,1),\ X_2 \sim N(5,4) \), 독립 \( (X_1, X_2) \sim \mathcal{N}_2(\boldsymbol{\mu}, \boldsymbol{\Sigma}) \), 공분산 존재 가능

2. 다변량 정규분포의 확률밀도함수

다변량 정규분포 $\mathbf{x} \sim \mathcal{N}_p(\boldsymbol{\mu}, \Sigma)$의 확률밀도함수는 다음과 같습니다.

\[
f(\mathbf{x}) = \frac{1}{(2\pi)^{p/2} |\boldsymbol{\Sigma}|^{1/2}}
\exp\left( -\frac{1}{2} (\mathbf{x} – \boldsymbol{\mu})^\top
\boldsymbol{\Sigma}^{-1} (\mathbf{x} – \boldsymbol{\mu}) \right)
\]

여기서, $p$는 변수의 개수

$|\boldsymbol{\Sigma}|$는 공분산행렬의 행렬식(determinent)

$\boldsymbol{\Sigma}^{-1}$는 공분산행렬의 역행렬

3. 공분산행렬과 확률밀도함수의 등고선

공분산행렬 $\Sigma$는 각 변수의 분산(대각원소)과 변수 간의 공분산(비대각원소)을 담고 있어 분포의 형태, 회전, 확산 정도를 결정합니다. 또한, 등고선(확률밀도 등치선)은 타원형을 가지며, 그 타원의 방향과 크기를 공분산행렬이 결정합니다.

확률밀도함수의 등고선은 중심이 $\mathbf{\mu}$인 타원(Ellipse)이며, 그 타원의 크기와 방향은 공분산행렬의 고유값과 고유벡터에 의해 결정됩니다. 고유벡터는 타원의 주축 방향을, 고유값은 타원의 축 길이를 결정합니다.

3. 다변량 정규분포의 성질

1. 부분집합 또는 선형결합도 정규분포입니다.

다변량 정규분포에서 일부 변수만 추출하거나 선형결합 $\mathbf{Z}^top\mathbf{a}$를 구성하면 그것 또한 정규분포를 따릅니다. 즉, 다변량 정규분포는 선형변환에 대해 닫혀 있는(closed under linear transformation)분포입니다.

2. 조건부분포도 정규분포입니다.

다변량 정규분포 $\mathbf{X}=(\mathbf{X_1}, \, \mathbf{X_2})$에 대해 $\mathbf{X}_1 \mid \mathbf{X}_2 = \mathbf{x}_2$는 다변량 정규분포입니다. 조건부평균과 조건부공분산은 다음과 같이 계산됩니다.

\[
\mathbf{X}_1 \mid \mathbf{X}_2 = \mathbf{x}_2 \sim \mathcal{N}
\left(
\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\mathbf{x}_2 – \boldsymbol{\mu}_2),\
\boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}
\right)
\]

이 성질을 이용해서 ssGBLUP 모델을 구축할 수 있습니다.

3. 다변량 정규분포에서는 두 확률변수의 공분산이 0이면 두 확률변수가 서로 독립입니다.

다변량 정규분포에서는 선형독립과 확률독립이 같은 의미입니다. 이는 정규분포의 고유한 성질로 일반적인 분포에서는 일반적인 분포에서는 성립하지 않습니다.

4. 다변량 정규분포의 적용

  • 통계학: 다변량 회귀, 판별분석, 주성분분석(PCA)
  • 기계학습: Gaussian Naive Bayes, Gaussian Mixture Model
  • 베이지안 통계: 사전분포/사후분포로 사용
  • 유전육종학: PBLUP, GBLUP, ssGBLUP
  • 경제학/금융: 포트폴리오 최적화 (자산의 공분산 구조 고려)
 

Fig. 1. 단변량 및 다변량 정규분포 시각화

 

Fig. 2. 공분산행렬에 따른 2변량 정규분포의 확률밀도함수를 등고선과 고유벡터로 표현