데이터 종류 Data type



데이터 종류


형식에 따라 구분되는 데이터  종류는 정형데이터와 비정형데이터가 있습니다. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미합니다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할수 있습니다. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말합니다. 비정형데이터는일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있습니다.

 

척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있습니다. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2” 처럼 수치화 시킨 것입니다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것입니다. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것입니다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것입니다.

 

속성에 따라 구분되는 데이터 종류는 연속형데이터(continuous data)와 범주형데이터(Categorical data)가 있습니다. 연속형데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터 입니다. 정확한 값이 있는데 어떻게 연속형데이터로 명명할 수 있는가 하고 의문을 가질 수 있습니다. 연속형데이터는 아날로그라고 할 수 있습니다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미합니다. 따라서 연속형데이터는 구간(계급, bin, bucket)을 두어 범주형데이터로 바꾸어 사용합니다. 연속형데이터를 측정한 값은 엄밀히 말하면 범주형데이터로 바뀐  것입니다. 범주형데이터는 “나이”, “시험점수” 등과 같이 명확한 자리수를 가지는 수치로 표현된 데이터입니다. 범주형데이터는 디지털이라고 할 수 있습니다. 즉 유한개의 숫자로 표현할 수 있습니다.

 

참고로 수집에 따른 데이터 종류도 있습니다. 원시데이터는 처음 수집한 데이터입니다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=SUM(B3:B22) : 합계

 

 



<실습강의 내용>

데이터