산점도와 상관
Scatter plot and correlation

두 확률변수의  상관관계를 보고자 할때 산점도, scatter plot을 그립니다.

그리고 두 확률변수는 각각의 확률분포를 가지고 있습니다.

 

산점도를 그린 결과, 점들이 평균점 주위에 원형으로 분포하였다면 두 변수의 확률분포는 종모양의 정규분포를 가집니다.

그렇지만 점들이 한 직선 주위에 타원형으로 분포할때도 두 확률분포는 종모양의 분포를 가지게 됩니다.

 

그렇다면 점들의 원형분포와  타원형분포의 차이는 무엇으로 표현할 수 있을까요.

한 직선 주위로 점들이 모인다는 것은 상관이 크다고 할 수 있고 이를 수치로 나타낸 상관계수로 표현합니다.

 

상관계수는 마이너스 1부터 플러스 1까지 숫자로 나타냅니다.

 

그렇다면 원형으로 나타난 경우 두 확률변수의 상관계수는 얼마일까요.

평균점을 공유하는 밀접한 관계가 있음에도 0에 가깝습니다.

 

이 떄만 유의한다면 상관계수는 유용합니다.