다항회귀분석
1.1. 애니메이션 제목
1. 애니메이션
2. 설명
2.1. 다항회귀모형
회귀모형에서 회귀식이 원인변수(설명변수)들의 다항식으로 표시 되는 경우 이를 다항회귀모형(polynomial regression model) 이라 한다. 예를 들어, 단순선형회귀모형은 설명변수가 하나 있는 일차(first-order) 다항회귀모형으로 볼 수 있고, 다음은 이차(second-order) 다항회귀모형들의 예이다.
원인변수(설명변수)가 1개 : 2차 4항
$$Y=\beta_0 +\beta_1 X+\beta_2 X^2+\varepsilon$$
원인변수(설명변수)가 2개 : 2차 7항
$$Y=\beta_0 +\beta_1 X_1+\beta_2 X_2+\beta_{11} X_1^2+\beta_{22} X_2^2+\beta_{12} X_1 X_2+\varepsilon$$
원인변수(설명변수)가 k개 : 2차 다항
$$Y=\beta_0 +\sum_{i=1}^{k}\beta_i X_i+\sum_{i=1}^{k}\beta_{ii} X_i^2+\sum\sum_{i\lt j}^{k}\beta_{ij} X_i X_j+\varepsilon$$
원인변수(설명변수)가 하나인 $d$차 다항회귀모형은 다음과 같이 주어진다.
$$Y=\beta_0 +\beta_1 X+\beta_2 X^2 +\cdots +\beta_d X^d +\varepsilon \tag{7.7}$$
2.2. 다항회귀분석
다항회귀모형은 보통 반응변수와 설명변수들 간의 함수관계가 명확히 알려져 있지 않을 때 근사적인 관계식을 나타내기 위하여 사용된다. 이 절에서는 회귀식이 하나의 설명변수와 $d$차 다항식으로 주어지는 경우와 회귀식이 설명변수들의 이차다항식으로 주어지는 경우의 두기지에 대한 이론과 응용을 다룬다.
수학에서의 중요한 정리 중의 하나는 두 변수 사이의 모든 함수관계는 다항식으로 표현이 가능하다는 것이다. 그러므로 반응변수와 설명변수의 관계는 적당한 차수 $d$를 찾으면 위의 모형을 사용하여 근사적으로 나타낼 수 있다.
모형 (7.7)에서 $X$의 각 거듭제곱항을 새로운 설명변수로 해석하면 중회귀모형과 동일하게 된다. 그러므로 다항회귀분석에도 중회귀모형의 분석방법을 그대로 적용하여 사용할 수 있다. 다만, 모형식의 특성상 두가지 중요한 문제가 발생하게 된다. 첫번째는 각 항이 $X$의 거듭제곱으로 주어지는 까닭으로 설명변수들의 상관관계가 높아지므로 다중공선성의 문제가 발생할 수 있으며, 두번째는 적당한 차수 $d$의 선택문제이다. 따라서 최소제곱추정값을 구하는 특별한 알고리즘이 필요하게 되며, 3장에서 언급된 간결함의 원칙에 따라 두 변수의 관계를 충분히 설명하면서도 차수가 낮은 모형을 선택해야 한다.
먼저 추정 문제를 살펴보자. 중회귀모형에서의 최소제곱추정공식을 그대로 적용하는 경우에는 설명변수들의 상관관계를 작게 하기 위하여 평균에 대한 수정을 한 다음에 사용 할 수 있다. 즉, 설명변수 $X$의 관측값들의 표본평균을 $\overline{X}$, 최소값과 최대값을 각각 $X_{min}$, $X_{max}$ 라 나타내면 각 관측값들에 대해
$$X_i -\overline{X}$$
또는 모든 값을 $[-1,1]$ 사이의 값으로 변환하는
$$\dfrac{X_i -\dfrac{X_{min}+X_{max}}{2}}{\dfrac{X_{max}-X_{min}}{2}} \tag{7.8}$$
와 같은 변수변환을 하여 새로운 설명변수로 사용하면 거듭제곱항들 간의 상관관계 정도는 일반적으로 작아진다. 그러나, 차수가 높아지면 여전히 다중공선성의 문제가 있을 수 있으므로, 통계패키지 등에서는 정확한 계산을 위하여 직교다항식(orthogonal polynomial)을 이용한 알고리즘을 이용한다. 직교다항식들은 서로 직교하므로 상관관계가 전혀 없게 되어 다중공선성의 문제가 발생하지 않는다(Kennedy & Gentle, 1980). R에서 poly() 함수를 이용하면 손쉽게 직교다항식을 이용한 계산을 수행 할 수 있다.
다항회귀분석에서 적당한 차수 $d$를 선택하는 문제는 여러가지 방법이 있으나, 일반적인 방법은 다항식의 차수를 하나씩 높여가면서 매 단계에서 가장 높은 차수의 회귀계수에 대하여 t검정 또는 부분 F검정을 실시하는 것이다. 즉, 먼자 1차 모형 $Y=\beta_0+\beta_1X+\varepsilon$을 적합시킨 다음, 가설 $H_0:\beta_1=0$에 대한 검정을 실시한다. 귀무가설 $H_0$를 기각 할 수 없으면 분석을 끝내고, 아니면 2차 모형 $Y=\beta_0+\beta_1 X+\beta_2 X^2+\varepsilon$을 적합시킨다. 그리고, 가설 $H_0:\beta_2=0$에 대한 검정을 하여 귀무가설을 기각할 수 없으면 분석을 끝내고, 아니면 3차 이상의 모형을 적합시키는 과정을 계속하면 된다. 이 방법은 예를 들어, 삼차항은 유의 하지 않으나 사차항은 유의한 모형을 배제하는 단점이 있다. 그래서, 경우에 따라서는 연속적으로 두 최고 차수의 계수가 유의하지 않은 경우애만 모형구축을 멈추는 방법을 사용하기도 한다.
2.3. 설명강의
– 준비 중

3. 실습
3.2. 함수
=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.
3.3. 실습강의
– 실습강의 목차
