DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

데이터가 생성될 확률분포를 규정하는 값이 모수인가?

목차

네, 그렇습니다.

$$Y \sim f(y\mid \theta)$$

여기서, $Y$는 확률변수

$f(\cdot)$은 확률분포함수(확률밀도함수 또는 확률질량함수)

$y$는 생성된 데이터

$\theta$는 모수

모수는 확률분포를 결정하는 값이고, 그 확률분포로 부터 실제로 데이터가 생성됩니다.

즉, 모수가 정해지면 데이터의 구조인 분포의 모양과 위치, 퍼짐 정도 등이 완전히 결정됩니다.

모수는 확률분포의 매개변수(parameter)입니다.

$$Y \sim f(y;\theta)$$

1. 모수

모수(母數. parameter)는 확률분포를 매개로 데이터 생성에 관여합니다. 즉, 데이터는 모수를 매개변수로 하는 확률분포에 의해 생성됩니다.

빈도주의자(Frequentist)는 모수는 고정되어 있다고 보고, 그것을 추정합니다. 베이지안(Baysesian)은 관측된 데이터를 고정하고 모수에 확률분포를 부여합니다.

2. 확률분포함수가 정규분포인 경우 데이터 생성

데이터가 정규분포로부터 생성된다고 가정합니다.

$$Y \sim \mathcal{N}(\mu, \sigma^2)$$

이 함수가 바로 확률적 구조입니다. 즉, 데이터가 어떤 확률로 생성되는지를 정의합니다.

$$f(y \mid \mu, \sigma^2)
= \frac{1}{\sqrt{2\pi\sigma^2}}
\exp\!\left[-\frac{(y – \mu)^2}{2\sigma^2}\right]$$

이제 실제로 다음과 같이 관측된 데이터가 있다고 하면,

$$y_1, y_2, \dots, y_n$$

이들은 모두 독립적으로 동일한 분포(i.i.d.)를 따른다고 가정합니다.

$$y_i \sim \mathcal{N}(\mu, \sigma^2), \quad i = 1, \dots, n$$

즉, 각 데이터 동일한 모수  $\mu$와 $\sigma^2$을 가지는 정규분포로부터 추출됩니다.