AI(인공지능)는 어떻게 예측을 하나 (2탄)

최소제곱법을 이용한 계산식 구하기


계산을 해서 예측합니다. 먼저, 계산식을 구해야 합니다.

AI(인공지능)은 컴퓨터(Computer)입니다. 컴퓨터는 말 그대로 컴퓨트(Compute), 즉 계산을 합니다. 따라서, 인공지능이 예측을 하기 위해서는 예측을 하기 위한 계산식을 구해야 합니다.

 

우리가 알 고 있는 데이터와 알고는 싶은데 알아내기가 상대적으로 어려운 2가지 데이터를 가정해보겠습니다. 애니메이션에서는 딸기의 무게와 당도를 예로 들었습니다. 딸기의 무게는 딸기를 먹어보지 않고도 측정해볼 수 있는 반면, 딸기의 당도는 소비자들의 구매결정에 영향을 주는 매우 중요한 데이터이지만, 이를 측정하기 위해서는 딸기의 과즙을 필요로 합니다. 따라서, 상품성을 헤치지 않고, 측정이 어렵습니다. 만약, 우리가 무게와 당도 사이의 관계를 알아낸다면, 무게만 측정해서, 당도를 예측할 수 있을 것입니다.

 

무게와 당도의 관계를 계산식으로 나타낼 수 있다면, 우리는 무게를 측정해서, 당도를 예측하는 AI(인공지능)을 만들 수 있습니다.

 

다음은 그 관계식을 구하는 방법입니다.

우리가 알고 있는 데이터인 무게(과중)을 X축으로 하고, 알고 싶은 당도를 Y축으로 하는 평면 위에 각 샘플의 무게와 당도를 점을 찍어서 표시합니다.

다음은 무게와 당도의 평균이 만나는 점을 먼저 찾고, 이를 지나가는 수많은 직선 중에서 각 당도와의 차이의 제곱 합이 최소가 되는 직선을 구합니다. 이 직선은 당도를 나타내는 Y, 무게를 나타내는 X, 그리고 기울기와 절편으로 표현할 수 있습니다. 

 

애니메이션에서 보여드리는 딸기 20개의 당도와 과중의 관계식은 다음과 같습니다.

Y=0.52*X-0.42 

 

물론, 위 관계식을 통해 예측한 당도와 실제 당도 사이에는 오차가 발생할 수 있는데, 오차가 작을수록 성능이 좋은 인공지능이 됩니다.

 

앞서 우리가 구한 직선을 회귀선이라고 하고, 이를 구한 방법을 최소제곱법(Method of Least Squares, MLE)이라고 하는데, 최소자승법, 최소제곱근사법, 최소자승근사법 등으로 부르기도 합니다.

 

회귀선이란, 무게와 당도(두 변수)가 선형관계를 이룬다고 할 때, 이 점들을  대표하는 방식입니다. 딸기의 무게에 따른 당도의 대표값들을 연결한 선입니다.