Scatter plot and correlation ?
산점도와 상관 ?
두 확률변수의 상관관계를 보고자 할때 산점도, scatter plot을 그립니다.
그리고 두 확률변수는 각각의 확률분포를 가지고 있습니다.
산점도를 그린 결과, 점들이 평균점 주위에 원형으로 분포하였다면 두 변수의 확률분포는 종모양의 정규분포를 가집니다.
그렇지만 점들이 한 직선 주위에 타원형으로 분포할때도 두 확률분포는 종모양의 분포를 가지게 됩니다.
그렇다면 점들의 원형분포와 타원형분포의 차이는 무엇으로 표현할 수 있을까요.
한 직선 주위로 점들이 모인다는 것은 상관이 크다고 할 수 있고 이를 수치로 나타낸 상관계수로 표현합니다.
상관계수는 마이너스 1부터 플러스 1까지 숫자로 나타냅니다.
그렇다면 원형으로 나타난 경우 두 확률변수의 상관계수는 얼마일까요.
평균점을 공유하는 밀접한 관계가 있음에도 0에 가깝습니다.
이 떄만 유의한다면 상관계수는 유용합니다.