[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터수집 > 데이터분류

데이터종류

데이터 수집
데이터 종류

[QA]

범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다. 

데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.

개체의 속성으로 확률공간을 모델링

ARTICLE CONTENTS

Play Video

Data Type

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW.

Data Type.

Data Science 2024;1:1.

Received: 31 March 2023,

Revised: 30 April 2023,

Accepted: 04 May 2023,

Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

요약

관측대상의 속성에 따라 데이터는 범주형, 순서 있는 범주형, 이산형, 연속형으로 구분됩니다. 범주형 데이터는 관측대상이 속하는 범주를 나타내며, 순서 있는 범주형은 순서 정보를 포함합니다. 이산형 데이터는 셀 수 있는 속성을, 연속형 데이터는 실수로 표현되는 속성을 나타냅니다. 도수는 범주의 속성으로 이산형 데이터에 속하며, 대표값과 분산값은 연속형 데이터입니다. 데이터는 척도유형에 따라 질적 또는 양적으로도 분류되며, 질적 데이터는 명목척도와 순서척도, 양적 데이터는 간격척도와 비율척도를 사용하여 표현됩니다. 원시데이터는 가공되지 않은 초기 상태의 데이터이며, 가공데이터는 분석이나 특정 목적에 적합하도록 처리된 데이터입니다. 관측대상에 따라 데이터는 개체의 속성을 나타내는 정형데이터와 범주를 표현하는 비정형데이터로 나눌 수 있습니다. 도수데이터와 상대도수, 확률질량과 확률밀도는 데이터의 다양한 속성과 분포를 설명합니다.

Key Word

척도, 명목척도, 순위척도, 순서척도, 간격척도, 비율척도, 데이터 가공, 데이터 속성, 데이터 구조

관측대상의 속성에 따른 데이터종류

관측대상에는 개체와 범주가 있습니다. 관측값은 개체와 범주의 속성을 표현합니다. 따라서 개체와 범주의 속성에 대한 데이터를 수집합니다.

개체의 속성에 따라 범주형데이터(categorical data)와 순서가 있는 범주형데이터(ordered categorical data)와 이산형데이터(discrete data)와 연속형데이터(continuous data)로 구분됩니다. 범주형데이터는 개체가 속하는 범주를 관측한 결과입니다. 이산형데이터는 개체의 이산(discrete) 속성을 관측한 결과입니다. 연속형데이터는 실수로 표현되는 개체의 속성을 관측한 결과입니다.

관측대상을 범주의 속성으로 보았을 때, 범주의 속성에는 범주에 속하는 “개체의 수”인 도수(frequency)가 있습니다. 도수는 이산형데이터입니다. 그리고 범주의 속성에 따라 범주형데이터(categorical data)와 순서가 있는 범주형데이터(ordered categorical data)와 이산형데이터(discrete data)와 연속형데이터(continuous data)로 구분됩니다. 범주형데이터는 범주가 속하는 범주를 관측한 결과입니다. 이산형데이터는 범주의 이산(discrete) 속성을 관측한 결과입니다. 연속형데이터는 실수로 표현되는 범주의 속성을 관측한 결과입니다. 표본으로 추정하는 범주의 대표값과 분산값은 연속형데이터입니다.

범주형데이터

범주형데이터(categorical data)는 관측대상인 개체나 범주가 속하는 범주명을 의미합니다. 개체나 범주가 속하는 범주는 개체나 범주의 속성이기도 하므로 범주명인 범주형데이터는 기호나 설명으로 표현할 수 있습니다. 예로는 국적, 주소 등이 있습니다. 기호에는 숫자가 있을 수 있으며 위치나 양을 의미하지는 않습니다.

순서있는 범주형데이터

순서가 있는 범주형데이터(ordered categorical data)는 관측대상인 개체나 범주가 속하는 범주명을 의미하고 그 범주명은 순서에 대한 정보를 포함하고 있습니다. 순서있는 범주형데이터를 수준(level)이라고도 합니다. 개체나 범주가 속하는 범주는 그 개체나 범주의 속성입니다. 순서있는 범주명인 순서있는 범주형데이터는 순서정보가 포함된 기호나 설명을 말합니다. 이 때 기호에는 숫자가 있을 수 있으며 이 때 숫자는 서수로서 순서정보를 나타냅니다. 순서있는 범주형데이터의 예로는 한우의 품질등급인 1등급, … 9등급과 정도를 표현하는 선택지인  매우 나쁨, 나쁨, 보통, 좋음, 매우 좋음이 있습니다.

이산형데이터

이산형데이터(discrete data)의 예를 관측대상이 개체인 경우와 범주인 경우로 살펴봅니다.

관측대상이 개체인 예로 육각주사위 던지기가 있습니다. 육각주사위를 개체로 보고 윗면의 숫자를 실현된 개체의 속성으로 볼 수 있습니다. 육각주사위의 각 면에 적힌 숫자는 주사위를 던지는 실험의 결과인 이산형 데이터입니다. 그리고 이 때 6개의 숫자는 확률을 가지는 이산형 확률변수라고 할 수 있으며 확률변수의 관측값은 이산형데이터가 됩니다.

관측대상이 범주인 예는 표본집단이 있을 수 있습니다. 이산형데이터로 범주에 속하는 개체의 수가 있습니다. 이 때 개체의 수는 도수나 빈도수로 표현되기도 합니다. 이 때의 이산형데이터는 수체계에서 자연수를 사용합니다.

연속형데이터

연속형데이터(continuous data)는 관측대상인 개체나 범주의 속성이 연속적인 위치나 크기를 의미하는 실수로 표현할 수 있음을 말합니다. 개체의 양적 속성은 간격척도나 비율척도로 관측하며 관측결과(관측값, 데이터)는 실수(real number)로 나타납니다.

간격척도나 비례척도에서의 척도의 구간(계급, bin, bucket)을 범주로 볼 수 있습니다. 이 때 개체의 속성은 연속형데이터로 나타납니다. 그리고 개체가 속하는 구간은 범주이고 이 범주의 대표값을 관측한 결과도 연속형 데이터라고 할 수 있습니다.

간격척도로 위치를 관측한 연속형데이터의 예로는 시각, 온도 등이 있습니다. 비율척도로 크기를 관측한 연속형데이터의 예로는 키, 몸무게, 시간, 혈압 등이 있습니다.

척도에 따른 데이터종류

척도유형(명목, 순서, 간격, 비율)에 따라 질적데이터(qualitative data)와 양적데이터가 있습니다. 명목척도(nominal scale)와 순서척도(ordinal scale)가 적용된 관측도구는 질적데이터를 만들며 간격척도(interval scale)와 비율척도(ratio scale)가 적용된 관측도구는 양적데이터를 만듭니다. 질적데이터는 기호(symbol or character)로 표현되며 양적데이터는 수치(number)로 표현됩니다.

질적데이터

질적데이터는 수치로 표현되지 않은 데이터(관측값)입니다. 질적데이터는 명목척도와 순서척도를 사용하여 구한 데이터입니다. 질적데이터는 수치가 아닌 기호로 표현됩니다. 질적데이터는 개체명, 개체가 속하는 범주명, 순서와 같이 관측대상의 질적 정의를 의미합니다. 그리고 숫자를 기호로 취급하여 개체명이나 범주명을 정의한 ID도 있습니다. 질적데이터는 명목척도(nominal scale)와 순서척도(ordinal scale)를 가진 관측도구로 관측한 관측값입니다. 다르게 말하면 질적데이터를 구하는 척도는 명목척도(nominal scale)와 순서척도(ordinal scale)가 있습니다.

명목척도

개체는 속성을 가집니다. 그리고 그 속성은 관측대상이 됩니다. 예를 들어 사람이라는 개체는 성별이라는 속성을 가집니다. 성별을 판별하는 명목척도로 사람을 관측하면 남자, 여자와 같은 질적 정의가 관측값(데이터)으로 관측됩니다. 이와 같은 질적 정의를 질적데이터라고 합니다. “남자=1”, “여자=2” 처럼 텍스트로 된 관측값을 기호로서의 수로 대치할 수 있습니다. 따라서 명목척도의 관측값을 수로 표현하더라도 그 수는 순서나 위치나 크기를 나타내지 않는 명목을 표시한 기호입니다. 수로 개체의 속성인 이름을 표현한 예로는 ID번호가 있습니다. 명목척도로 관측한 관측값(데이터)에 순서의 정보가 더해지면 순서척도로 얻은 관측값이 됩니다.

순서척도

순서척도는 관측대상인 개체의 명목 뿐 아니라 순서를 관측하여 관측값으로 표현하는 척도입니다. 순서척도의 예로는 관측대상인 지구상의 국가를 관측하여 “일인당 국민소득이 높은 나라 순위”를 정하는 척도가 있습니다. 순서척도로 관측한 관측대상인 개체의 속성은 순서를 나타낸 관측값(데이터)으로 표현됩니다. 순서척도의 예에는 좋음, 보통, 싫음 처럼 순서가 표현되는  단어로 표현하는 척도도 있습니다. 여기서, 순서척도는 좋음을 1, 보통을 0, 싫음을 -1로 정하는 것처럼 수로 표현할 수 있습니다. 여기서 수는 순서만 의미할 뿐 위치나 크기를 의미하지는 않습니다. 순서척도의 순서간에 간격이 정의되고 그 간격의 크기가 수치로 주어지면 그 순서척도는 간격척도가 됩니다.

양적데이터

양적데이터는 수치로 표현된 데이터입니다. 여기서, 수치는 위치나 양을 표현하는 수를 의미합니다. 양적데이터는 간격척도와 비율척도로 관측한 관측값(데이터)입니다. 양적데이터는 수치를 의미하여 그 수치는 관측대상(개체)의 속성의 위치 또는 크기를 의미합니다. 여기서 위치는 간격척도로 관측되며 크기는 비율척도로 관측됩니다. 간격척도는 위치의 기준(척도의 0)이 있으며 비율척도는 크기의 기준(척도의 1)이 있어야 합니다. 간격척도로 관측한 데이터(관측값)는 더하기와 빼기는 가능하나 곱하기와 나누기는 할 수 없습니다. 비율척도로 관측한 관측값(데이터)은 사칙연산(가감승제)이 모두 가능합니다. 양적데이터를 구하는 척도는 간격척도(interval scale)와 비율척도(ratio scale)가 있습니다.

간격척도

간격척도의 0은 주어지는 상대기준입니다. 간격척도는 등간격인 구간으로 구성됩니다. 간격척도는 관측대상의 상대기준에서의 위치를 수치로 나타내거나 두 관측대상의 간격을 수치로 나타냅니다. 간격척도의 예로는 섭씨온도가 있으며 간격척도를 적용한 관측도구에는 섭씨온도계가 있습니다. 관측한 “섭씨온도”는 데이터(관측값)가 됩니다. 섭씨온도의 0은 물이 끓는 온도이며 100은 물이 기화하는 온도입니다. 섭씨온도의 0은 없음을 의미하지 않습니다. 또 다른 예로는 달력과 시계가 있습니다. 오늘의 날짜는 달력을 이용한 관측값(데이터)입니다. 시계가 구한 “현재 시각”은 간격척도로 표현됩니다. 간격척도인 연력은 서기원년을 위치의 기준인 0으로 합니다. 연력을 이용한 관측값은 서기원년을 기준으로 기원전(BCE, before common era)과 기원후(CE, common era)로 나누어집니다. 간격척도로 구한 양적데이터는 가감(더하기와 빼기)이 가능합니다. 그러나 승제(곱하기와 나누기)는 조건이 필요합니다. 예로는 데이터의 0의 위치가 같아야 한다는 조건이 있습니다  정리하면 간격척도는 주어지거나 임의로 정한 기준으로부터의 개체의 위치나 두 개체의 간격을 표현하는 척도입니다. 간격척도로 표현한 데이터는 평균으로 대표 위치를 표현할 수 있고 분산으로 위치의 분포정도를 표현할 수 있습니다.

비율척도

비율척도의 0은 “없음”을 나타내는 절대기준입니다. 그리고 비율척도는 “있음”을 나타내는 1을 양(quantity)의 기준으로 정합니다. 따라서, 비율척도는 관측대상의 양을 나타내는 속성을 기준양인 1에 대한 비의 수치로 표현한 것입니다. 비율척도로 표현된 데이터는 가감승제(더하기, 빼기, 곱하기, 나누기)가 모두 가능합니다. 비율척도의 예는 미터법 원기가 있습니다. 비율척도로 구한 양적데이터의 예는 키와 몸무게가 있습니다. 비율척도로 구한 양적데이터는 실수체계에 속하며 가감승제(더하기, 빼기, 곱하기, 나누기)가 가능합니다. 비율척도로 표현한 데이터는 평균으로 대표 크기를 표현할 수 있고 분산으로 크기의 분포정도를 표현할 수 있습니다.

수집에 따른 데이터종류

원시데이터

원시데이터는 가공, 분석, 조작 등 어떠한 처리도 거치지 않은, 수집된 가장 초기의 데이터 상태를 말합니다. 이는 정보의 가장 기본적이고 순수한 형태로, 데이터가 처음 생성되거나 수집될 때의 모습 그대로입니다.원시데이터는 데이터의 원본성과 진정성을 유지합니다. 특정 조건이나 상황에서 수집된 정보를 그대로 반영합니다. 원시데이터는 텍스트, 이미지, 비디오, 센서 데이터 등 다양한 형태로 존재할 수 있습니다. 원시데이터는 데이터 분석, 가공, 해석을 위한 초기 자료로 활용됩니다.

가공데이터

가공데이터는 원시데이터를 분석, 정제, 변환하는 등의 처리 과정을 거쳐 얻어진 데이터입니다. 이 과정을 통해 원시데이터에서 불필요한 정보를 제거하고, 분석이나 특정 목적에 적합하게 데이터를 조정합니다. 가공데이터는 원시데이터에서 오류를 수정하거나, 불필요한 정보를 제거하고, 데이터의 형식을 통일하는 등의 처리를 거친 상태입니다. 가공 과정을 거친 데이터는 분석하기 쉽고, 정보의 가치를 증대시킵니다. 특히, 데이터를 가공하여 특정 질문에 대한 답변이나 인사이트 도출에 직접적으로 사용할 수 있습니다. 즉, 특정 분석 목적이나 데이터 분석 프로젝트의 요구 사항에 맞게 데이터는 가공됩니다. 가공된 데이터는 종종 더 구조화된 형태로 저장되며, 이는 효율적인 데이터 관리와 접근을 가능하게 합니다.

대상에 따른 데이터종류

관측대상이 개체이면 개체의 속성을 관찰하거나 측정한 결과는 정형데이터로 표현할 수 있습니다. 관측대상이 범주이면 범주의 속성을 설명하거나 시각화하는 데 설명하거나 시각화한 결과를 정형데이터가 아닌 비정형데이터라고 합니다.

정형데이터

정형데이터는 관측대상이 개체입니다. 정형데이터는 개체의 속성을 관측한 결과인 관측값의 집합입니다. 정형데이터는 스프레드시트(spread sheet)나 데이터베이스(database)로 표현할 수 있습니다. 정형데이터는 개체의 속성의 형태를 지정할 수 있습니다. 따라서 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미하기도 합니다. 상용스프레드시트(구글시트, 엑셀 등)의 각 셀(cell)은 셀안에 들어가는 데이터의 형식을 지정할 수 있습니다. 스프레드시트에서 사용하는 형식에는 텍스트, 숫자, 날짜 등이 있습니다.

비정형데이터

비정형데이터(unstructured data)는 범주를 표현한 데이터입니다. 관측대상이 범주(category)인 경우 범주에 속하는 개체로 설명하거나 글이나 그림으로 관측결과를 표현할 수도 있습니다. 이 때 글, 그림, 수식 등을 개체나 범주화하여 정형화할 수 있습니다. 비정형데이터는 관측대상의 생성모델로 만들어진 생성물로도 설명될 수 있습니다.

범주의 빈도 속성 데이터

도수데이터

도수는 범주의 속성입니다. 도수를 표현하는 데이터를 줄여서 도수데이터(frequency data)라고 합니다. 도수데이터는 범주에 해당하는 개체의 도수(빈도수, frequency)의 관측값입니다. 도수데이터는 수체계로 자연수(양의 정수)를 사용하며 이산형데이터입니다.

상대도수

한 범주 안에 여러 범주가 속한 경우를 살펴보면, 범주간의 도수의 비는 연속형데이터입니다. 이 도수의 비를 ‘상대도수’라고 합니다. 특별히, 한 범주의 도수에 대한 그 범주에 속한 특정 범주의 상대도수를 특정 범주에서의 ‘개체의 출현 확률’의 실현값이라고 할 수 있습니다.

확률질량

도수데이터는 범주의 속성인 도수를 관측한 결과입니다. 이를 함수로 모델링하면, 도수를 종속변수로 보고 독립변수를 범주명을 독립변수로 하여 도수데이터를 종속변수값으로 정하게 됩니다. 이 때 독립변수인 범주명은 수치가 아닐 수 있습니다. 만일, 범주명이 범주의 위치나 크기를 나타낸다면, 범주명을 수체계의 실수로 모델링할 수 있습니다. 이 때 독립변수와 종속변수의 함수를 모델링하기 위해 범주의 위치를 한 점으로 하고 도수를 상대도수(도수의 비)로 변환하면 상대도수는 그 범주의 ‘확률질량’이라고 표현합니다.

확률질량함수를 모델링하기 위해서는 범주를 개체의 실현값의 ‘집합(set)’으로 봅니다. 범주를 집합으로 볼 때 전체집합에 속하는 부분집합들이 서로 배타적이고 부분집합의 합집합이 전체집합인 경우, 범주에 따른 확률질량함수를 정의할 수 있습니다. 여기서, 개체의 실현을 사건(event)이라고 보면 각 사건은 독립적이라고 표현하며 범주는 중첩되지 않음을 의미합니다. 즉, 범주를 실수(real number)의 독립변수로 모델링할 수 있습니다.

개체의 빈도 속성 데이터

확률분포

연속확률분포함수를 모델링하기 위해 범주의 크기를 극한으로 작게 합니다. 그리고 범주를 연속확률분포함수의 독립변수로 모델링합니다. 이를 개념적으로 살펴보기 위해 직교좌표계에서 시각화하여 보면 범주를 가로축상의 점으로 나타낼 수 있습니다. 이 때 직교를 이루는 두 축은 실수체계입니다. 범주는 가로축상의 연속적인 점으로 표현되는 실수로 모델링합니다. 이 때 범주는 극한으로 수렴하는 속도가 같음으로 표현됩니다. 이 때 세로축으로 표현하는 종속변수는 범주의 크기의 변화에 따른 확률질량의 변화율로 나타납니다. 일정한 범주크기의 변화에 따른 확률질량의 변화율을 ‘확률밀도’라고 합니다.

범주의 크기가 “0”으로 수렴하는 과정은 개체의 속성의 공간에서 개체가 실현되는 과정이라고 볼 수 있습니다. 즉, 개체의 속성이 만든 공간인 실수축에서 하나의 실수(real number)로 실현된다고 모델링합니다. 개체의 속성이 만든 공간에서 개체와 범주의 확률분포는 같다고 할 수 있습니다. 이 확률분포는 범주와 개체의 정의를 동시에 나타냅니다. 즉, 개체가 속성의 공간에서 확률분포함수로 생성되는 경우, 실현된 개체의 통계적 확률은 같은 확률분포함수를 나타냅니다.

정리하면 같은 속도로 크기가 극소화되는 범주를 개체 생성의 원인으로 모델링합니다. 개체속성의 특정 위치에서 극소화되는 크기의 범주의 개체 생성비율을 확률밀도라고 합니다. 확률밀도는 그 위치를 실수부로하는 복소평면에서의 회전으로 모델링합니다.

용어

데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

출처

Data – Wikipedia

데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

출처

Data set – Wikipedia

참고문헌

  1.  

[DATA SCIENCE - 데이터]