데이터 선택과 분리 ?
Data selection and separation ?

1. 애니메이션

1.1. 데이터 선택

1.2. 데이터 분리


2. 설명

2.1. 데이터 선택과 분리


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



데이터 선택




데이터 분리


2. 설명

2.1 데이터 선택과 분리

데이터를 살펴보면 첫번째 열은 요소명입니다. 즉, 딸기의 당도를 측정할 때 부여한 딸기 번호입니다. 그래서 딸기의 특성을 나타내는 데이터가 아닌 측정편의상 부여한 것입니다.

 

필요한 데이터를 분리하면 변수명인 당도와 20개의  변수값인 데이터입니다. 20개의 당도 데이터와  딸기개수로 총 21개의 데이터를 분리해 내었습니다. 즉, 데이터 개수인 20이라는 숫자도 중요한 데이터로 취급됩니다. 데이터를 분리하여도  당도라는 변수명은 그대로 사용합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=SUM(B3:B22) : 합계. 


3.3. 실습강의

데이터 복사

데이터 참조



4. 용어와 수식

4.1 용어

정형데이터 ?
Structured data ?

1. 애니메이션

1.1. 정형데이터의 요소(element)

1.2. 정형데이터의 변수(variable)

1.3. 정형데이터의 요소명과 변수


2. 설명

2.1. 정형데이터


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



정형데이터의 요소(element)




정형데이터의 변수(variable)




정형데이터의 요소명과 변수


2. 설명

2.1 정형데이터

데이터의 종류에서 정형데이터는 비정형데이터와 달리 가로와 세로로 구성된 칸안에 들어가는 값으로 표현될 수 있는 데이터입니다. 가로줄을 행(row)이라하며 세로줄을 열(column)이라 합니다. 한편,  머신러닝에서는 “행”은 예제(example),  “열”은 속성(attribute)이라고 합니다.

 

정형데이터(data)는 계열(family)로 구성됩니다. 계열은 세로줄 “열(column)”로 표현되며 변수명(variable name)과 변수(variable)로 구성되어 있습니다. 여기서 변수를 좁은 의미의 데이터라고 합니다. 그리고 변수의 값을 변수값 또는 데이터라고 합니다.

 

한편, 데이터는 요소(element)가 모여 있는 집합입니다. 요소는 가로줄 “행”으로 표현되며 개체(object) , 기록(record)이라고도 합니다. 각 요소는 요소명(element name)과 변수(variable)로 구성됩니다. 요소의 예로 인간을 들면 각 인간은 키와 체중이라는 이름을 가지는 변수를 가지고 있습니다. 한 요소에서의 변수값들은 좁은 의미의 데이터라고도 하고 관측값, 측정값, 관찰값 등으로 불리웁니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=SUM(B3:B22) : 합계 


3.3. 실습강의

비정형 데이터 요약

비정형 데이터 시각화

정형 데이터 요약

정형 데이터 시각화

정형 데이터 활용



4. 용어와 수식

4.1 용어

데이터 종류 ?
Data type ?

1. 애니메이션

1.1. 데이터 종류


2. 설명

2.1. 데이터 종류

2,2. 데이터 순서


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



데이터 종류

2. 설명

2.1. 데이터 종류

형식에 따라 구분되는 데이터  종류는 정형데이터와 비정형데이터가 있습니다. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미합니다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할수 있습니다. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말합니다. 비정형데이터는 일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있습니다.

 

척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있습니다. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2” 처럼 수치화 시킨 것입니다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것입니다. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것입니다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것입니다.

 

속성에 따라 구분되는 데이터 종류는 연속형데이터(continuous data)와 범주형데이터(categorical data)가 있습니다. 연속형데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터 입니다. 정확한 값이 있는데 어떻게 연속형데이터로 명명할 수 있는가 하고 의문을 가질 수 있습니다. 연속형데이터는 아날로그라고 할 수 있습니다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미합니다. 따라서 연속형데이터는 구간(계급, bin, bucket)을 두어 범주형데이터로 바꾸어 사용합니다. 연속형데이터를 측정한 값은 엄밀히 말하면 범주형데이터로 바뀐  것입니다. 범주형데이터는 “나이”, “시험점수” 등과 같이 명확한 자리수를 가지는 수치로 표현된 데이터입니다. 범주형데이터는 디지털이라고 할 수 있습니다. 즉 유한개의 숫자로 표현할 수 있습니다.

 

참고로 수집에 따른 데이터 종류도 있습니다. 원시데이터는 처음 수집한 데이터입니다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.

 

데이터 : 변수(변수명과 변수값)를 관측한 결과
 
데이터 종류 척도 변수명 변수값 변수값 속성 

변수명 (척도) 예시

변수값 예시

질적 데이터

(qualitative)

명목척도

(nominal scale)

범주

(category)

명목

범주형

(nominal)

산업분류

성별

{ 전자, 전기, 화공, 기계, 식품 }

{ 남, 여 }

개체

(indivisual)

명목

범주형

주민번호

ID

{ 210427-XXXXXXX, …  }

{ ID-1, … , ID-100 }

순서척도

(ordinal scale)

범주 순서

순서가 있는

범주형

서비스질 (등급)

 의큐크기 (등급)

석차(등)

{ 상, 중, 하 }

{ XS, S, M, L, XL }

{ 1 등, … , 200 등 }

개체 순서

순서가 있는

범주형

Serial Number (Number) { 001, 002,,  … , 200 }

양적 데이터

(quantitative)

(수치 데이터)

 

 

간격척도

(Interval scale)

범주 위치

이산형

(discrete)

시간대 (시) { 1 동경시간대, … , 12 서경시간대 }
개체 위치 이산형 나이 (세) { 1 세, …  }

비례척도

(ratio scale)

범주 크기

이산형

   
개체 크기

연속형

(continuous)

키 (cm)

당도 (Brix)

{ x ; x > 100 cm }

{ y ; 0 Brix < y < 100 Brix }

비율

(ratio)

범주 크기  연속형

용액 100 g 당 설탕의 g (g)

유병비율 (%)

{ y ; 0 g < y < 100 g }

{ P ; 0 % < p < 100 % }

빈도

(frequency)

범주 개수 이산형 시간당 불량품수 (개) { 1 개, …  }

2.2. 데이터 순서

순서통계량
순서통계량은 순서가 있는 데이터를 표현하는 방법입니다. 명목척도를 제외한 순서척도, 간격척도, 비례척도로 관측한 데이터를 표현합니다. $n$개의 데이터가 있고 이 데이터를 크기 순서로 작은 값부터 다음과 같이 나열할 수 있습니다. 이렇게 크기 순서로 나열한 것을 “순서통계량”이라고 합니다. $x$는 데이터(변수값)를 의미하고 아랫첨자는 순서를 의미합니다.
$$x_{1}, x_{2},  \cdots , x_{n}$$
여기서,  $x_{1} \lt x_{2} \lt \cdots \lt  x_{n}$
최대값($x_{max}$)은 순서통계량에서 맨 우측의 값입니다.
$$x_{max} = x_{n}$$
최소값($x_{min}$)은 순서통계량에서 맨 좌측의 값입니다.
$$x_{min} = x_{1}$$
범위(range, $R$)는 최대값과 최소값의 차이입니다.
$$R=x_{max}-x_{min}$$
백분위수(percentile)
백분위수(percentile) 는 데이터를 크기 순으로 나열하고 데이터의 개수를 100등분하여 데이터를 구분하였을 때 각 등분을 나눈 위치값입니다.
사분위수(quartile)
사분위수(quartile)는 quarter와 percentile의 합성어로 데이터를 크기 순으로 나열하고 데이터의 갯수를 4등분하여 데이터를 구분했을 때 각 등분을 나누는 위치값입니다. 따라서 4등분인 경우 3개의 분위를 위치값을 가집니다. 여기서 2사분위수는 중앙값과 같습니다.
– 1사분위수(Q1)는 자신보다 작은 데이터가 전체의 25%
– 2사분위수(Q2)는 자신보다 작은 데이터가 전체의 50%
– 3사분위수(Q3)는 자신보다 작은 데이터가 전체의 75%
 
4분위수와 100분위수와위 관계
– 1사분위수= 25백분위수
– 2사분위수= 50백분위수
– 3사분위수= 75백분위수 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 종류 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3와 B22의 범위에 있는 모든 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22에 있는 모든 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22에 있는 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.


3.3. 실습강의

 – 데이터

 – 합계

 – 개수

 – 평균

 – 중앙값


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia


 


데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

 

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

 

Reference

Data set – Wikipedia



4.2. 참조


Reference

Wikipedia