DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

고정효과 선형모델에서 독립변수는 확률변수인가?

목차

네. 독립변수가 무작위로 관측되면 독립변수를 확률변수로 봅니다.

독립변수를 고정값으로 보는 경우는 독립변수를 연구자가 정할 때입니다. 예를 들어 농업실험이나 임상시험에서 실험조건을 연구자가 정하는 경우입니다.

1. 고정독립변수와 확률독립변수의 비교

고정효과 선형모델에서 독립변수를 확률변수로 두면, 현실적 데이터 구조(샘플링·상관성)를 더 잘 반영하고, 특히 일반화 가능성과 예측력이 향상됩니다. 고정독립변수(Fixed-X)는 설계 기반 실험에 적합하고, 확률독립변수(Random-X)는 관측 데이터 분석에 더 자연스럽습니다.

고정독립변수(Fixed-X) 선형모델은 독립변수를 연구자가 설계한 값으로 간주하여, 조건부분포 $y \mid X$만을 고려합니다. 이때 회귀계수 추정량의 분산은 $\sigma^2 (X^\top X)^{-1}$ 으로 단순하며, 주어진 $X$ 에 국한된 예측을 제공합니다. 반면 확률독립변수(Random-X) 모델은 $X$를 모집단에서 추출된 확률변수로 보아 $f(y, X) = f(y \mid X) f(X)$의 결합분포로 접근합니다. 이 경우 추정량의 분산은 $ \sigma^2 , \mathbb{E}[(X^\top X)^{-1}] $이 되어 더 현실적이며, 새로운 표본에 대한 일반화 예측력이 강화됩니다.

Table 1. 고정독립변수와 확률독립변수의 비교

구분고정독립변수 (Fixed-X)확률독립변수 (Random-X)
독립변수 성격연구자가 고정한 값 (설계행렬)모집단에서 무작위로 추출된 확률변수
확률모델조건부 모델:
$$ \mathbf{y}\mid \mathbf{X} \sim N(\mathbf{X}\boldsymbol{\beta}, \sigma^2 I) $$
결합 모델:
$$ f(\mathbf{y}, \mathbf{X}) = f(\mathbf{y}\mid \mathbf{X}) f(\mathbf{X}) $$
대표 상황실험설계 (농업, 임상시험)관측연구 (경제학, 유전학, 사회과학)
추정량 성격조건부 추정량 (주어진 $\mathbf{X}$에 대한 최적해)무조건부 추정량 ($\mathbf{X}$의 분포까지 반영)
분산 추정오직 오차항의 분산만 고려$\mathbf{X}$ 분포까지 반영 → 더 현실적인 분산 추정
예측현재 $\mathbf{X}$ 값에 국한된 조건부 예측새로운 표본 $\mathbf{X}$까지 고려한 일반화 예측 가능
예측구간조건부 예측구간무조건부 예측구간 ($\mathbf{X}$ 분포 반영)

2. 단순선형회귀에서 고정독립변수와 확률독립변수의 시각화 비교

단순선형회귀에서 고정 독립변수는 실험자가 직접 설정한 값으로, 같은 위치에 점이 고정되고 반응변수 $Y$의 분산만 관찰됩니다. 반면 확률 독립변수는 분포(예: 정규분포)에 따라 달라지므로 $X$ 자체도 흩어져 나타나고, $X$와 $Y$의 공분산 구조가 타원 형태로 시각화됩니다. 이로써 회귀선은 단순히 $Y$의 분산을 설명하는 것에서 벗어나 $X$와 $Y$의 공동 변동성을 반영하게 됩니다.

 

Fig. 1. 단순선형회귀에서 고정독립변수와 확률독립변수의 비교

3. 다중선형회귀에서 고정독립변수와 확률독립변수의 시각화 비교

다중회귀(Multiple Regression)는 하나의 종속변수 $Y$를 두 개 이상의 독립변수 $X_1, X_2, \dots$ 로 설명하는 모델입니다. 독립변수가 2개일 때의 수식은 다음과 같습니다.

$$Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \epsilon_i$$

여기서, $\beta_0$는 절편

$\beta_1$과 $\beta_2$는 각각 $X_1$과 $X_2$의 효과(회귀계수)

$\epsilon_i$는 오차항

이 모델의 해석은 다음과 같습니다.

$\beta_1$: $X_2$가 일정할 때 $X_1$이 1 단위 증가할 때 $Y$의 평균 변화량

$\beta_2$: $X_1$이 일정할 때 $X_2$가 1 단위 증가할 때 $Y$의 평균 변화량

시각적으로는 $X_1, X_2$를 두 축으로, $Y$를 세 번째 축으로 두면 데이터가 3차원 공간에 분포하며, 회귀식은 이 공간에서 하나의 평면(회귀평면)으로 나타납니다.

데이터와 모델

\[
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon},
\qquad
\boldsymbol{\epsilon}\sim \mathcal{N}(\mathbf{0},\,\sigma^2\mathbf{I}_n)
\]
\[
\mathbf{X}=\begin{bmatrix}
1 & X_{11} & X_{12}\\
\vdots & \vdots & \vdots\\
1 & X_{n1} & X_{n2}
\end{bmatrix},\quad
\boldsymbol{\beta}=\begin{bmatrix}\beta_0\\ \beta_1\\ \beta_2\end{bmatrix},\quad
\mathbf{y}=\begin{bmatrix}Y_1\\ \vdots\\ Y_n\end{bmatrix}
\]

반응변수와 오차벡의 공분산

\[
\operatorname{Var}(\boldsymbol{\epsilon})=\sigma^2\mathbf{I}_n,\qquad
\operatorname{Var}(\mathbf{y})=\sigma^2\mathbf{I}_n
\]

OLS 추정량과 그 분산-공분산행렬

\[
\hat{\boldsymbol{\beta}}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y},
\qquad
\operatorname{Var}(\hat{\boldsymbol{\beta}})
=\sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}
\]

2개 설명변수의 경우 독립변수행렬곱의 구성

\[
\mathbf{X}^\top\mathbf{X}=
\begin{bmatrix}
n & \sum_i X_{i1} & \sum_i X_{i2}\\
\sum_i X_{i1} & \sum_i X_{i1}^2 & \sum_i X_{i1}X_{i2}\\
\sum_i X_{i2} & \sum_i X_{i1}X_{i2} & \sum_i X_{i2}^2
\end{bmatrix}
\]

정리하면, 다중선형회귀에서 오차 공분산은 $\sigma^2 I_n$, 계수 추정량의 분산–공분산행렬은 $\sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1}$ 입니다.

Fig. 2.은 독립변수 2개를 가진 다중회귀(Multiple Regression)의 시각화입니다. 빨간 점은 실제 관측값이고, 주황색 평면은 추정된 회귀모형을 나타냅니다. 이처럼 두 독립변수 $X_1, X_2$의 결합 효과가 종속변수 $Y$에 선형적으로 영향을 주며, 평면의 기울기와 절편이 회귀계수 $\beta_0, \beta_1, \beta_2$에 해당합니다.
$$\quad \epsilon_i \sim \mathcal{N}(0, \sigma^2)$$

 

Fig. 2. 다중선형회귀에서 고정독립변수와 확률독립변수의 비교

4. 다중공선성

독립변수 간 공분산 구조가 회귀면의 방향을 결정하는 데 핵심적인 역할을 하며, 상관이 클수록 회귀면 추정은 불안정해집니다. 이를 다중공선성(Multicollinearity) 문제라고 합니다.

1. 회귀계수와 공분산

다중선형회귀에서 추정된 회귀계수 $\hat{\boldsymbol{\beta}}$는 다음식으로 표현됩니다. $\mathbf{X}^\top \mathbf{X}$는 독립변수들의 분산–공분산행렬과 직접 관련됩니다. 즉, 독립변수들의 공분산 구조가 $\hat{\boldsymbol{\beta}}$에 큰 영향을 줍니다.

$$\hat{\beta} = ( \mathbf{X}^\top \mathbf{X} )^{-1} \mathbf{X}^\top \mathbf{y}$$

여기서, $\hat{\beta}$는 최소제곱법(OLS, Ordinary Least Squares)의 정규방정식(normal equation) 해

$\hat{\beta}$는 회귀계수 추정값

$\mathbf{X}$는 설계행렬(design matrix)

$\mathbf{y}$는 반응변수벡터

2. 공분산과 회귀면의 기울기

독립변수들 간에 상관이 없으면 (공분산=0), 각 독립변수는 회귀면의 기울기를 독립적으로 결정합니다. 독립변수들 간에 상관이 크면 (공분산≠0), 회귀계수는 서로 얽혀서 추정되며, 회귀면의 방향이 왜곡됩니다. 즉, 다중공선성 문제가 발생합니다.

3. 타원체와 회귀면 방향

타원체의 긴 축은 독립변수들이 실제로 분산이 큰 방향을 나타내는데, 회귀면도 그 방향에 따라 안정적이거나 불안정하게 추정됩니다. 예를 들어, $X_1$과 $X_2$가 강한 상관을 가지면, 회귀면의 기울기는 한쪽으로 기울어져서 작은 변화에도 민감하게 반응합니다.

 

Fig. 2. 다중선형회귀에서 고정독립변수와 확률독립변수의 비교

5. 독립변수가 확률변수인 "고정효과 선형모델"

고정효과 선형모델은 $y = X\boldsymbol{\beta} + \boldsymbol{\epsilon}$ 형태로, 회귀계수 $\boldsymbol{\beta}$ 를 고정된 모수로 두고 추정합니다. 전통적으로는 독립변수 $X$ 를 고정된 값으로 보지만, 이를 모집단에서 추출된 확률변수로 간주하면 결합분포 $f(y,X)$ 에 기반한 분석이 가능해집니다. 이 경우 추정량의 분산은 $X$ 의 분포까지 반영되어 $\sigma^2 , \mathbb{E}[(X^\top X)^{-1}]$ 로 표현되며, 실제 표본 수집 과정과 더 부합하여 예측력과 일반화 가능성을 높이는 장점이 있습니다. 회귀모형은 종속변수 개수와 독립변수 개수에 따라 나뉘는데, 다중 회귀 (Multiple Regression) 는 종속변수 1개와 여러 독립변수, 다변량 회귀 (Multivariate Regression) 는 종속변수 여러 개를 동시에 고려하며, 다변량 다중 회귀 (Multivariate Multiple Regression, MMR) 는 종속변수 여러 개와 독립변수 여러 개가 결합된 가장 일반적인 형태로 반응변수 간 상관구조까지 설명할 수 있습니다.

Table 2. 독립변수가 확률변수인 고정효과 선형모델

구분다중 회귀
(Multiple Regression)
다변량 회귀
(Multivariate Regression)
① 단위가 다른 반응변수
다변량 회귀
(Multivariate Regression)
② 단위는 같고 범주만 다른 반응변수
다변량 다중 회귀
(Multivariate Multiple Regression, MMR)
종속변수 개수1개여러 개여러 개여러 개
종속변수 특징단일 변수서로 다른 단위/성격 (예: 키, 몸무게, 혈압)단위는 같고 성격은 유사하나 범주가 다름 (예: 수학·영어·과학 점수)여러 반응변수 (단위 같거나 다를 수 있음), 동시에 여러 설명변수 고려
독립변수 개수2개 이상1개 이상1개 이상2개 이상
확률모델
(첨자 표현)
$$ y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \epsilon_i, \quad
\epsilon_i \sim \mathcal{N}(0,\sigma^2) $$
$$ y_{ij} = \beta_{0j} + \beta_{1j} x_{i1} + \cdots + \beta_{pj} x_{ip} + \epsilon_{ij}, \quad
\boldsymbol{\epsilon}_i \sim \mathcal{N}_m(\mathbf{0}, \boldsymbol{\Sigma}) $$
$$ y_{ij} = \beta_{0j} + \beta_{1j} x_{i1} + \cdots + \beta_{pj} x_{ip} + \epsilon_{ij}, \quad
\boldsymbol{\epsilon}_i \sim \mathcal{N}_m(\mathbf{0}, \boldsymbol{\Sigma}) $$
$$ y_{ij} = \beta_{0j} + \beta_{1j} x_{i1} + \cdots + \beta_{pj} x_{ip} + \epsilon_{ij}, \quad
\boldsymbol{\epsilon}_i \sim \mathcal{N}_m(\mathbf{0}, \boldsymbol{\Sigma}) $$
확률–통계모델
(행렬·벡터 표현)
$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}, \quad
\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n) $$
$$ \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E}, \quad
\operatorname{vec}(\mathbf{E}) \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_n \otimes \boldsymbol{\Sigma}) $$
$$ \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E}, \quad
\operatorname{vec}(\mathbf{E}) \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_n \otimes \boldsymbol{\Sigma}) $$
$$ \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E}, \quad
\operatorname{vec}(\mathbf{E}) \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_n \otimes \boldsymbol{\Sigma}) $$
\(\boldsymbol{\beta}\) 추정량$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} $$$$ \hat{\mathbf{B}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{Y} $$$$ \hat{\mathbf{B}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{Y} $$$$ \hat{\mathbf{B}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{Y} $$
Random-X 모델
(결합분포 표기)
$$ f(\mathbf{y}, \mathbf{X}) = f(\mathbf{y}\mid \mathbf{X}) f(\mathbf{X}) $$$$ f(\mathbf{Y}, \mathbf{X}) = f(\mathbf{Y}\mid \mathbf{X}) f(\mathbf{X}) $$$$ f(\mathbf{Y}, \mathbf{X}) = f(\mathbf{Y}\mid \mathbf{X}) f(\mathbf{X}) $$$$ f(\mathbf{Y}, \mathbf{X}) = f(\mathbf{Y}\mid \mathbf{X}) f(\mathbf{X}) $$
대표적 모델단순 다중 회귀일반적 다변량 회귀다반응 회귀 (Multivariate Response Regression), SUR 모형MMR, MANOVA
해석 초점하나의 결과를 여러 설명변수로 설명서로 다른 특성을 가진 여러 결과를 동시에 설명같은 척도의 여러 결과를 동시에 설명, 오차 간 상관 구조 강조여러 반응변수와 여러 설명변수 간의 관계를 동시에 설명, 반응변수 간 상관구조 고려
예시나이·키·운동량으로 몸무게 예측키·몸무게·혈압을 동시에 예측수학·영어·과학 점수를 동시에 예측나이·공부시간·가정환경으로 수학·영어·과학 점수를 동시에 예측