정형데이터 ?
Structured data ?

1. 애니메이션

1.1. 정형데이터의 요소(element)

1.2. 정형데이터의 변수(variable)

1.3. 정형데이터의 요소명과 변수


2. 설명

2.1. 정형데이터

2.2. 척도와 속성의 대응


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



정형데이터의 요소(element)




정형데이터의 변수(variable)




정형데이터의 요소명과 변수




정형데이터

2. 설명

2.1 정형데이터

정형데이터는 개체의 속성을 관측한 결과를 데이터시트로 표현한 것이라고 할 수 있습니다. 정형데이터는 관측된 각 개체와 개체의 속성이 특정하는 칸이 쌓여있는 모습을 나타냅니다. 관측된 각 개체는 고유이름인 ID로 구분되며 개체의 속성은 변수로 취급됩니다. 따라서 개체의 속성명은 변수명과 같습니다. 관측한 변수값(variable value)을 데이터(data)라고 합니다. 각 개체의 개체명과 그 개체의 속성의 관측값을 요소(element), 기록(record), 예(example) 등이라 하며 행(row)으로 표현합니다. 개체의 속성을 변수로 보면 개체의 속성명은 변수명이 되고 각 개체의 속성을 관측한 결과는 변수값이 됩니다. 개체의 속성은 변수로 모델링됩니다. 따라서 개체의 속성은 하나의 변수명과 여러 변수값으로 구성된 열(column)로 표현됩니다.

 

정형데이터는 계열(series, sequence, family)이 모여있는 집합이라고 할 수 있습니다. 계열은 “열(column)”로 표현한 변수를 말합니다. 변수(variable)는 변수명(variable name)과 변수값(variable value)로 구성되어 있습니다. 특별히 시계열(time series)은 변수값과 관측한 시각정보가 대응되어 있고 차순으로 정리되어 있는 계열을 말합니다.

 

정형데이터는 요소(element)가 모여 있는 집합이라고 할 수 있습니다. 요소는 가로줄 “행”으로 표현되며 개체(object) , 기록(record)이라고도 합니다. 각 요소는 요소명(element name)과 변수값(variable value)으로 구성됩니다. 예를 들어 인간을 요소로 보면 각 인간은 키와 체중이라는 이름을 가지는 속성을 가지고 있습니다. 개체의 속성을 변수로 표현합니다. 개체의 속성을 관측한 결과는 좁은 의미의 데이터이며 변수값, 관측값, 측정값, 관찰값 등으로 불리웁니다.


2.2. 척도와 속성의 대응

정형데이터는 관측대상의 속성을 관측도구로 관측하여 얻습니다. 관측도구에는 척도(scale)가 적용되어 있습니다. 척도의 종류에는 명목척도, 순서척도, 간격척도, 비례척도가 있습니다. 명목척도와 순서척도가 적용된 관측도구로는 관측대상이 개체인 경우 개체의 속성을 표현하는 범주형데이터를 얻을 수 있습니다. 범주형데이터는 개체가 가지는 속성에 따라 개체가 속하는 범주를 표현합니다. 따라서 이 경우에는 범주형데이터는 개체가 속하는 범주명을 의미합니다. 명목척도는 개체를 구분하는 범주만을 나타내지만 순서척도는 범주에 범주의 순서의 정보를 더해서 개체를 표현합니다. 간격척도는 순서를 가지는 범주에 위치의 정보를 더해줍니다. 비례척도는 위치를 가지는 범주에 양(quantity)의 정보를 더합니다. 간격척도와 비례척도는 개체의 범주형 속성을 표현할 수 있지만 개체의 연속형 속성을 표현할 때 주로 사용합니다. 척도는 기준이 필요합니다. 또한, 정형데이터를 얻으려면 관측대상인 개체의 속성과 척도의 기준의 대응이 필요합니다. 대응을 하려면 순서척도, 간격척도, 비례척도에서는 속성의 단위가 필요합니다.

척도기준에 단위적용

  명목척도 순서척도 간격척도 비례척도
관측대상인 개체의 속성 범주형 범주형 연속형 연속형
척도기준의 요구사항 범주의 독립성 순서의 방향 위치(position) 양(quantity)
척도기준 서로 다른 범주명

차순

0 :위치의 기준

0 : 양의 없음

1 : 양의 기준

예) 개체 : 개체의 속성 

딸기 : 품종

한우 : 품질

딸기 : 출하월

딸기 : 당도

예} 개체의 속성 : 척도 품종 : 설, 아키

품질 : 1등급, 2등급, … , 5등급

출하월 : 1월, 2월, … , 12월

당도 : Brix*

예) 척도기준에 단위적용

차순은 오름차순

0은 이전해 12월

0은 0Brix 

1은 1Brix 

* Brix는 용액 100g당 설탕의 무게(g)

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


정형데이터 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 비정형 데이터 요약

– 비정형 데이터 시각화

– 정형 데이터 요약

– 정형 데이터 시각화

– 정형 데이터 활용


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

 

Reference

Data set – Wikipedia



4.2. 참고문헌