데이터 종류 ?
Data type ?
1.1. 데이터 종류
1. 애니메이션
2. 설명
2.1. 데이터 종류
형식에 따라 구분되는 데이터 종류는 정형데이터와 비정형데이터가 있습니다. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미합니다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할수 있습니다. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말합니다. 비정형데이터는 일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있습니다.
척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있습니다. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2” 처럼 수치화 시킨 것입니다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것입니다. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것입니다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것입니다.
속성에 따라 구분되는 데이터 종류는 연속형데이터(continuous data)와 범주형데이터(categorical data)가 있습니다. 연속형데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터 입니다. 정확한 값이 있는데 어떻게 연속형데이터로 명명할 수 있는가 하고 의문을 가질 수 있습니다. 연속형데이터는 아날로그라고 할 수 있습니다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미합니다. 따라서 연속형데이터는 구간(계급, bin, bucket)을 두어 범주형데이터로 바꾸어 사용합니다. 연속형데이터를 측정한 값은 엄밀히 말하면 범주형데이터로 바뀐 것입니다. 범주형데이터는 “나이”, “시험점수” 등과 같이 명확한 자리수를 가지는 수치로 표현된 데이터입니다. 범주형데이터는 디지털이라고 할 수 있습니다. 즉 유한개의 숫자로 표현할 수 있습니다.
참고로 수집에 따른 데이터 종류도 있습니다. 원시데이터는 처음 수집한 데이터입니다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.
데이터 종류 | 척도 | 변수명 | 변수값 | 변수값 속성 |
변수명 (척도) 예시 |
변수값 예시 |
질적 데이터 (qualitative) |
명목척도 (nominal scale) |
범주 (category) |
명목 |
범주형 (nominal) |
산업분류 성별 |
{ 전자, 전기, 화공, 기계, 식품 } { 남, 여 } |
개체 (indivisual) |
명목 |
범주형 |
주민번호 ID |
{ 210427-XXXXXXX, … } { ID-1, … , ID-100 } |
||
순서척도 (ordinal scale) |
범주 | 순서 |
순서가 있는 범주형 |
서비스질 (등급) 의큐크기 (등급) 석차(등) |
{ 상, 중, 하 } { XS, S, M, L, XL } { 1 등, … , 200 등 } |
|
개체 | 순서 |
순서가 있는 범주형 |
Serial Number (Number) | { 001, 002,, … , 200 } | ||
양적 데이터 (quantitative) (수치 데이터)
|
간격척도 (Interval scale) |
범주 | 위치 |
이산형 (discrete) |
시간대 (시) | { 1 동경시간대, … , 12 서경시간대 } |
개체 | 위치 | 이산형 | 나이 (세) | { 1 세, … } | ||
비례척도 (ratio scale) |
범주 | 크기 |
이산형 |
|||
개체 | 크기 |
연속형 (continuous) |
키 (cm) 당도 (Brix) |
{ x ; x > 100 cm } { y ; 0 Brix < y < 100 Brix } |
||
비율 (ratio) |
범주 | 크기 | 연속형 |
용액 100 g 당 설탕의 g (g) 유병비율 (%) |
{ y ; 0 g < y < 100 g } { P ; 0 % < p < 100 % } |
|
빈도 (frequency) |
범주 | 개수 | 이산형 | 시간당 불량품수 (개) | { 1 개, … } |
2.2. 데이터 순서
3. 실습
3.2. 함수
=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3와 B22의 범위에 있는 모든 숫자의 합계를 계산해서 표시.
=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22에 있는 모든 데이터의 개수를 표시함.
=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22에 있는 숫자로 표시된 데이터의 개수를 표시함.
=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.
=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.
3.3. 실습강의
– 데이터
– 합계
– 개수
– 평균
– 중앙값
4. 용어
4.1 용어
데이터
데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와 비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.
일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는 “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인 “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.
Reference
데이터세트
데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.
데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.