[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터시각화 > 개체의 시각화

산점도

1차원 좌표계(과중)에서 딸기 점
2차원 좌표계(과중과 당도)에서 딸기 점
2차원 좌표계(출하일, 당도)에서 딸기 점
3차원 좌표계(출하일, 과중, 당도)에서 딸기 점

[Q&A]

ARTICLE CONTENTS

Scatter plot

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW.

Data Type.

Data Science 2024;1:1.

Received: 31 March 2023,

Revised: 30 April 2023,

Accepted: 04 May 2023,

Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

산점도는 직교좌표계에서 개체를 점으로 표현합니다. 1차원 산점도는 직선좌표계에서 개체를 점으로 표시하며, 2차원 산점도는 평면좌표계에서 개체의 두 속성을 좌표로 가지는 점으로 개체를 나타냅니다. 3차원 산점도는 공간좌표계에서 세 변수의 관계를 점으로 시각화합니다. 산점도의 점의 분포를 관찰하여 속성간의 상관관계를 분석합니다. 산점도의 한계인 점의 중복 문제는 도수분포도로 보완하여, 개체의 구간별 도수를 막대나 직사각형으로 표현합니다. 이러한 시각화 방법은 개체의 연속형 속성을 모델링한 변수 간 관계를 명확하게 이해하고 분석하는 데 효과적입니다.

Key Word

산점도, 2차원, 좌표계, 좌표축, 개체속성, 데이터시각화

산점도

산점도는 개체의 속성이 만드는 공간에 개체를 점으로 표현하는 시각화방법입니다. 개체가 가지는 속성이 직교좌표계의 좌표축이 되고 개체의 속성값음 좌표가 됩니다. 좌표계의 점은 개체입니다. 차원의 수는 좌표축의 수를 나타냅니다. 개체가 가지는 속성의 수가 1개, 2개, 3개인가에 따라 1차원, 2차원, 3차원 산점도를 사용합니다. 1차원 산점도는 1차원 좌표계인 직선좌표계에 개체가 점으로 나타납니다. 2차원 산점도에서 개체는 2차원 좌표계, 즉 평면좌표계에서 점으로 나타납니다. 2차원 직교좌표계에서는 한 점당, X좌표, Y좌표 두개의 변수값이 필요합니다. 3차원좌표계, 즉 공간좌표계에서는 3개의 변수값이 필요합니다.

개체를 산점도를 사용해서 시각화할 때 점들이 중복되어 나타나는 것이 가장 큰 애로점입니다. 이것을 해결하기 위하여 여러가지 표현방법이 사용됩니다. 이 산점도의 단점을 보강하는 것이 도수분포도입니다.

1차원 산점도

1차원의 연속형변수값들을 시각화하는 방법 중에 직관적인 방법은 직선좌표계에 변수값을 점으로 표시하는 것입니다. 직선좌표계의 원점(Origin)을 0으로 하면 변수값들은 원점으로부터 양방향으로 나눠지는 영역에 점으로 표시됩니다.

산점도와 비교해서 도수분포도는 1차원 데이터를 가지는 표본의 확률분포를 크기로 표현할 수 있습니다. 1차원 산점도와 도수분포도는 밀접한 관계를 가지며 도수분포도는 변수의 구간을 정하여 도수를 막대나 직사각형의 크기로 표현합니다. 따라서 1차원 산점도를 보완하여 도수분포를  사용합니다. 도수분포도는 정하는 구간의 간격에 따라 달라집니다.

애니메이션에서는 딸기의 당도가 모두 양수이므로 직선좌표계의 원점(0)의 오른편에 점들로 데이터가 표시되고 있습니다. 딸기가 당도외에 또 하나의 변수를 가질 때는 2차원 산점도로 확장할 수 있습니다. 그래프로 표시한 변수를 X축 다른 변수를 Y축으로 하여 각각의 관찰값을 XY 평면좌표계의 좌표값으로 정합니다.

2차원 산점도

20개의 딸기의 과중과 당도를 측정한 데이터가 있습니다. 데이터를 보면 딸기 하나에 과중과 당도, 두 개의 데이터(변수값)가 있습니다. 딸기의 과중과 당도의 관계를 탐색하기 위하여 두 변수의 관계를 시각화하는 산점도(scatter plot)를 그립니다.

딸기 하나를 한 점(point)으로 생각하고 딸기 하나가 독립된 두 변수를 가진다면, 2차원 직각 좌표계에  점으로 딸기를 나타낼 수 있습니다. 결과적으로 딸기가 20개이므로 20개의 점이 평면좌표계에 찍힙니다. 산점도를 그릴 때는 보통, 원인이 되는 변수를 $X$축(가로축), 결과를 나타내는 변수를 $Y$축(세로축)으로 정합니다. 따라서 과중과 당도를 각각 $X$축과  $Y$축에 나타냅니다.

애니메이션의 산점도를 보면 과중이 클수록 당도가 높게 나옵니다. 딸기가 무거울수록, 즉, 큰 딸기일수록  달다고 해석할 수 있겠습니다. 두번째 애니메이션에서는 20개 딸기의 출하일과 당도를 기록한 데이터를 다룹니다. 산점도를 보면 출하일이  겨울에 가까울수록 딸기가 달다는 것을 알 수 있습니다.

산점도는 데이터의 요소가 가지는 두 변수의 상관 관계를 분석하는 그래프입니다. 특히,  두 연속형 변수의 관계를 분석하는데 매우 효율적입니다. 2차원 산점도는 개체(object, 요소, element)의 한 변수를 $X$축,  다른 변수를 $Y$축으로 하여 각각의 관찰값을  $XY$ 평면상의 점으로 나타내는 “데이터시각화”입니다.

두 개의 변수에서 한쪽이 증가하면 다른 쪽도 증가하는 관계를 양의 상관이라고 합니다. 반대로 한쪽이 증가하면 다른 쪽은 줄어드는 관계를 음의 상관이라고 합니다.

3차원 산점도

딸기 20개의 출하일과 과중과 당도를 관측한 데이터가 있습니다. 데이터를 보면 딸기 하나에 출하일, 과중, 당도, 세 개의 데이터(변수값)가 있습니다. 딸기의 출하일과 과중과 당도의 관계를 탐색하기 위하여 3차원 산점도(scatter plot)를 그립니다.

딸기 하나를 한 점(point)으로 생각하면 딸기가 세 변수를 가지므로 3차원 직각 좌표계에  점으로 딸기를 나타낼 수 있습니다. 직각 좌표계의 3축(3axis)은 서로 독립입니다. 즉, 서로 영향을 주지 않습니다. 그래서 3차원 산점도를 그리면 딸기가 가지는 세 변수의 관계를 관찰할 수 있습니다.

딸기가 20개이므로 20개의 점이 3차원 좌표계(공간좌표계)에 찍힙니다. 3차원 산점도를 그릴 때는 보통 결과의 원인이 되는 변수로 평면을 구성하고  관심있는 결과변수를 평면과 직교하는 축(axis)에 나타냅니다. 애니메이션에서는 딸기의 당도를 결과변수로 놓았습니다. 여기서, 결과변수를 종속변수(dependent variable)로 표현합니다. 따라서 원인변수는 종속변수에 영향을 주는 변수이며 보통 서로 독립인 경우를 가정하기 때문에 독립변수(independent variable)라고 부릅니다.

애니메이션에서 관심있는 변수를 당도로 하면 과중이 클수록 당도가 높게 나옵니다. 딸기가 무거울수록, 즉, 큰 딸기일수록  달다고 해석할 수 있겠습니다. 그리고 출하일이  겨울에 가까울수록 딸기가 달다는 것을 알 수 있습니다. 이것을 한번에 나타내면 과중이 작을수록 출하일이 봄에 가까울수록 당도가 떨어짐을 보여줍니다.

산점도는 데이터가 가지는 여러 변수의 관계를 분석할 때 유용합니다. 특히,  두 연속형 변수의 관계를 볼 때 2차원 산점도를 통하여 명확하게 두 변수의 관계를 탐색할 수 있습니다. 그래서 3차원 산점도를 3개의 평면에 투영해서 3개의 2차원산점도로 분해한 후 두 변수의 관계를 분석하기도 합니다.

Terminology

산점도

산점도(산포도)는 일반적으로 여러 변수를 가지는 개체를 표시하기 위해 직각 좌표계를 사용하는 그래프 유형입니다. 점이 시각적으로 정의된 경우 (색상 / 모양 / 크기) 하나의 추가 변수로 표시 될 수 있습니다. 3차원 산점도에서 데이터는 수평 축상의 위치를 결정하는 하나의 변수 값과 수직축 상의 위치를 결정하는 다른 변수의 값을 갖는 점들의 모음으로 표시됩니다.

출처

Scatter plot – Wikipedia

Reference

  1.  

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW.

Data Type.

Data Science 2024;1:1.

Received: 31 March 2023,

Revised: 30 April 2023,

Accepted: 04 May 2023,

Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print