회귀선은 어떤 정보를 가지고 있나

딸기의 과중과 당도 산점도


회귀선은 두 변수의 관계를 선으로 표현하고, 특히 직선인 경우, 절편과 기울기 정보를 가집니다.

딸기 스무알의 과중과 당도를 측정했습니다. X축은 과중, Y축은 당도로, 스무알을 해당값에 찍어서 표현한 것이 딸기 스무알의 과중과 당도 산점도입니다.

 

위의 산점도에서 과중의 평균과 당도의 평균을 통과하는 가상의 직선을 그려볼 수 있습니다. 이 직선들 중, Y축 값인 당도와의 상하간 거리, 잔차의 제곱합이 최소가 되는 직선이 회귀선입니다.



기울기는 과중이 변화할 때, 당도가 얼마나 변화하는지를 나타냅니다.

예를 들어, 딸기 500개의 과중과 당도를 측정해서 다음과 같은 산점도와 회귀선을 얻었습니다. 회귀선의 기울기는 0.516입니다. 과중이 1만큼 변할 때, 당도가 0.516만큼 변한다는 의미입니다.  

 



회귀선은 상관관계를 가지는 두 변수를 대표하는 정보를 나타내지만, 각 딸기와 회귀선과의 거리(분포정도)에 대한 정보를 가지고 있지는 않습니다.

위의 예에서, 딸기 500알의 당도와 과중 데이터는 딸기 ID 500개, 당도 500개, 과중 500개를 합하면 모두 1,500개가 됩니다. 1,500개의 데이터를 기울기와 절편이라는 2개의 값으로 나타낸 것이 회귀선입니다. 회귀선을 이용하면, 큰 데이터를 간단하게 표현할 수 있는 반면, 회귀선으로부터 각 딸기와의 거리, 잔차에 대한 정보는 잃게 됩니다.