1. 애니메이션

1.1. 애니메이션 제목


2. 설명

2.1. 다항회귀모형

2.2. 다항회귀분석

2.2. 설명강의


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



애니메이션 제목

2. 설명

2.1. 다항회귀모형

회귀모형에서 회귀식이 원인변수(설명변수)들의 다항식으로 표시 되는 경우 이를 다항회귀모형(polynomial regression model) 이라 한다. 예를 들어, 단순선형회귀모형은 설명변수가 하나 있는 일차(first-order) 다항회귀모형으로 볼 수 있고, 다음은 이차(second-order) 다항회귀모형들의 예이다.

 

원인변수(설명변수)가 1개 : 2차 4항

$$Y=\beta_0 +\beta_1 X+\beta_2 X^2+\varepsilon$$

원인변수(설명변수)가 2개 : 2차 7항

$$Y=\beta_0 +\beta_1 X_1+\beta_2 X_2+\beta_{11} X_1^2+\beta_{22} X_2^2+\beta_{12} X_1 X_2+\varepsilon$$

원인변수(설명변수)가 k개 : 2차 다항

$$Y=\beta_0 +\sum_{i=1}^{k}\beta_i X_i+\sum_{i=1}^{k}\beta_{ii} X_i^2+\sum\sum_{i\lt j}^{k}\beta_{ij} X_i X_j+\varepsilon$$

원인변수(설명변수)가 하나인 $d$차 다항회귀모형은 다음과 같이 주어진다.

$$Y=\beta_0 +\beta_1 X+\beta_2 X^2 +\cdots +\beta_d X^d +\varepsilon \tag{7.7}$$


2.2. 다항회귀분석

다항회귀모형은 보통 반응변수와 설명변수들 간의 함수관계가 명확히 알려져 있지 않을 때 근사적인 관계식을 나타내기 위하여 사용된다. 이 절에서는 회귀식이 하나의 설명변수와 $d$차 다항식으로 주어지는 경우와 회귀식이 설명변수들의 이차다항식으로 주어지는 경우의 두기지에 대한 이론과 응용을 다룬다.

수학에서의 중요한 정리 중의 하나는 두 변수 사이의 모든 함수관계는 다항식으로 표현이 가능하다는 것이다. 그러므로 반응변수와 설명변수의 관계는 적당한 차수 $d$를 찾으면 위의 모형을 사용하여 근사적으로 나타낼 수 있다.

모형 (7.7)에서 $X$의 각 거듭제곱항을 새로운 설명변수로 해석하면 중회귀모형과 동일하게 된다. 그러므로 다항회귀분석에도 중회귀모형의 분석방법을 그대로 적용하여 사용할 수 있다. 다만, 모형식의 특성상 두가지 중요한 문제가 발생하게 된다. 첫번째는 각 항이 $X$의 거듭제곱으로 주어지는 까닭으로 설명변수들의 상관관계가 높아지므로 다중공선성의 문제가 발생할 수 있으며, 두번째는 적당한 차수 $d$의 선택문제이다. 따라서 최소제곱추정값을 구하는 특별한 알고리즘이 필요하게 되며, 3장에서 언급된 간결함의 원칙에 따라 두 변수의 관계를 충분히 설명하면서도 차수가 낮은 모형을 선택해야 한다.

먼저 추정 문제를 살펴보자. 중회귀모형에서의 최소제곱추정공식을 그대로 적용하는 경우에는 설명변수들의 상관관계를 작게 하기 위하여 평균에 대한 수정을 한 다음에 사용 할 수 있다. 즉, 설명변수 $X$의 관측값들의 표본평균을 $\overline{X}$, 최소값과 최대값을 각각 $X_{min}$, $X_{max}$ 라 나타내면 각 관측값들에 대해

$$X_i -\overline{X}$$

또는 모든 값을 $[-1,1]$ 사이의 값으로 변환하는

$$\dfrac{X_i -\dfrac{X_{min}+X_{max}}{2}}{\dfrac{X_{max}-X_{min}}{2}} \tag{7.8}$$

와 같은 변수변환을 하여 새로운 설명변수로 사용하면 거듭제곱항들 간의 상관관계 정도는 일반적으로 작아진다. 그러나, 차수가 높아지면 여전히 다중공선성의 문제가 있을 수 있으므로, 통계패키지 등에서는 정확한 계산을 위하여 직교다항식(orthogonal polynomial)을 이용한 알고리즘을 이용한다. 직교다항식들은 서로 직교하므로 상관관계가 전혀 없게 되어 다중공선성의 문제가 발생하지 않는다(Kennedy & Gentle, 1980). R에서 poly() 함수를 이용하면 손쉽게 직교다항식을 이용한 계산을 수행 할 수 있다.

다항회귀분석에서 적당한 차수 $d$를 선택하는 문제는 여러가지 방법이 있으나, 일반적인 방법은 다항식의 차수를 하나씩 높여가면서 매 단계에서 가장 높은 차수의 회귀계수에 대하여 t검정 또는 부분 F검정을 실시하는 것이다. 즉, 먼자 1차 모형 $Y=\beta_0+\beta_1X+\varepsilon$을 적합시킨 다음, 가설 $H_0:\beta_1=0$에 대한 검정을 실시한다. 귀무가설 $H_0$를 기각 할 수 없으면 분석을 끝내고, 아니면 2차 모형 $Y=\beta_0+\beta_1 X+\beta_2 X^2+\varepsilon$을 적합시킨다. 그리고, 가설 $H_0:\beta_2=0$에 대한 검정을 하여 귀무가설을 기각할 수 없으면 분석을 끝내고, 아니면 3차 이상의 모형을 적합시키는 과정을 계속하면 된다. 이 방법은 예를 들어, 삼차항은 유의 하지 않으나 사차항은 유의한 모형을 배제하는 단점이 있다. 그래서, 경우에 따라서는 연속적으로 두 최고 차수의 계수가 유의하지 않은 경우애만 모형구축을 멈추는 방법을 사용하기도 한다.


2.3. 설명강의

– 준비 중


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 용어

4.1 용어


제목

내용.

 

Reference

Title – Wikipedia


4.2. 참조


Reference

Wikipedia