2.1. 데이터 종류
형식에 따라 구분되는 데이터 종류는 정형데이터와 비정형데이터가 있습니다. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미합니다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할수 있습니다. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말합니다. 비정형데이터는 일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있습니다.
척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있습니다. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2” 처럼 수치화 시킨 것입니다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것입니다. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것입니다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것입니다.
속성에 따라 구분되는 데이터 종류는 연속형데이터(continuous data)와 범주형데이터(categorical data)가 있습니다. 연속형데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터 입니다. 정확한 값이 있는데 어떻게 연속형데이터로 명명할 수 있는가 하고 의문을 가질 수 있습니다. 연속형데이터는 아날로그라고 할 수 있습니다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미합니다. 따라서 연속형데이터는 구간(계급, bin, bucket)을 두어 범주형데이터로 바꾸어 사용합니다. 연속형데이터를 측정한 값은 엄밀히 말하면 범주형데이터로 바뀐 것입니다. 범주형데이터는 “나이”, “시험점수” 등과 같이 명확한 자리수를 가지는 수치로 표현된 데이터입니다. 범주형데이터는 디지털이라고 할 수 있습니다. 즉 유한개의 숫자로 표현할 수 있습니다.
참고로 수집에 따른 데이터 종류도 있습니다. 원시데이터는 처음 수집한 데이터입니다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.
데이터 : 변수(변수명과 변수값)를 관측한 결과
데이터 종류 |
척도 |
변수명 |
변수값 |
변수값 속성 |
변수명 (척도) 예시
|
변수값 예시 |
질적 데이터
(qualitative)
|
명목척도
(nominal scale)
|
범주
(category)
|
명목 |
범주형
(nominal)
|
산업분류
성별
|
{ 전자, 전기, 화공, 기계, 식품 }
{ 남, 여 }
|
개체
(indivisual)
|
명목 |
범주형
|
주민번호
ID
|
{ 210427-XXXXXXX, … }
{ ID-1, … , ID-100 }
|
순서척도
(ordinal scale)
|
범주 |
순서 |
순서가 있는
범주형
|
서비스질 (등급)
의큐크기 (등급)
석차(등)
|
{ 상, 중, 하 }
{ XS, S, M, L, XL }
{ 1 등, … , 200 등 }
|
개체 |
순서 |
순서가 있는
범주형
|
Serial Number (Number) |
{ 001, 002,, … , 200 } |
양적 데이터
(quantitative)
(수치 데이터)
|
간격척도
(Interval scale)
|
범주 |
위치 |
이산형
(discrete)
|
시간대 (시) |
{ 1 동경시간대, … , 12 서경시간대 } |
개체 |
위치 |
이산형 |
나이 (세) |
{ 1 세, … } |
비례척도
(ratio scale)
|
범주 |
크기 |
이산형
|
|
|
개체 |
크기 |
연속형
(continuous)
|
키 (cm)
당도 (Brix)
|
{ x ; x > 100 cm }
{ y ; 0 Brix < y < 100 Brix }
|
비율
(ratio)
|
범주 |
크기 |
연속형 |
용액 100 g 당 설탕의 g (g)
유병비율 (%)
|
{ y ; 0 g < y < 100 g }
{ P ; 0 % < p < 100 % }
|
빈도
(frequency)
|
범주 |
개수 |
이산형 |
시간당 불량품수 (개) |
{ 1 개, … } |