표본크기 결정 ?



3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션



표본추출과 표본통계량


2. 설명

실험설계에서는 표본을 추출하기 전에 표본크기를 얼마로 할 것인가를 정해야 합니다. 표본크기를 크게 할수록 표준오차는 작아지고 추정의 정밀도는 더욱 높아집니다. 일반적으로 표본크기가 클수록 모수를 구간추정할 때 같은 유의수준이라도 신뢰구간이 커집니다. 표본크기를 늘리는 것은 실험의 비용을 늘리기 때문에 먼저 추정의 유의수준과 신뢰구간을 미리 설정하여 표본크기의 방정식을 만들어 최소한의 표본의 크기를 결정합니다.

 

모평균 추정시 표본크기 결정

모평균의 $100(1-\alpha)$% 신뢰구간은 다음과 같습니다.

 

$\left[\bar{X}-z_{\frac{\alpha}{2}}\dfrac{{\sigma_X}}{\sqrt{n}},\bar{X}+z_{\frac{\alpha}{2}}\dfrac{{\sigma_X}}{\sqrt{n}}\right]$

 

여기서,   $\mu_X$은 모평균

$\sigma_X$은 모표준편차 

 

${z}_{\frac{\alpha}{2}}\dfrac{\mathit{\sigma}}{\sqrt{n}}$ 를 오차의 한계(bound on the error of estimation)또는 최대허용오차(maximum allowable error)라고 합니다. 오차의 한계를 $d$로 하기 위한 표본크기는 다음 방정식을  $n$에 관하여 풀면 됩니다.

 

${z}_{\frac{\alpha}{2}}\dfrac{\mathit{\sigma}}{\sqrt{n}}=d$

 

모평균 추정시 표본크기의 결정

 

$n=\left(\dfrac{z_{\frac{\alpha}{2}}\sigma_X}{d}\right)^2$


위 식에서 모표준편차 $\sigma_X$는 알 수가 없으므로 $X$의 범위를 추정하고 4로 나눈 값을 사용합니다.

 

모비율 추정시 표본크기 결정

비슷한 방법으로 모비율 $p$의 100(1-$\alpha$)% 신뢰구간은 다음과 같습니다.

 

$\left[{\hat{p}{-}{z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}{,}\hspace{0.33em}\hat{p}{+}{z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}}\right]$

 

따라서 오차한계가 $d$가 되기 위해 아래의 방정식을 표본크기($n$)에 대하여 풉니다.

 

${z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}{=}{d}$

 

모비율 추정시 표본의 크기 결정

 

${n}{=}\hat{p}{(}{1}{-}\hat{p}{)(}\dfrac{{z}_{\frac{\alpha}{2}}}{d}{)}^{2}$

 

위 식에서 $\hat{p}$는 구하기 전이고 모비율은 알 수 가 없으므로 $\hat{p}$를 보통 0.5로 합니다. 그 이유는 $p=0.5$일 때  자연현상에서 가장 흔한 대칭이기 때문입니다.

 


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 


표본크기 결정 : 구글시트 실습

3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>AP3, AR3<AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 초과이고, AQ3 미만이면 TRUE를 표시함.

=NORMSINV(1(1AP3)/2) : 표준정규분포의 역함수. 괄호안의 값을 누적확률로 가지는 표준정규분포 상의 확률변수를 구함. 이 실습에서는 AP3에 0.95, 즉 95% 신뢰구간 값을 넣었는데, 좌우대칭의 양 끝 확률이 0.25 (2.5%)가 되도록 하기 위해, 1(1AP3)/2=0.975 (97.5%)로 계산해서 입력함. 


3.3. 실습강의

– 집단

– 랜덤 샘플링 : 무작위로 표본추출

– 표본통계량

– 표본통계량으로 모수 추정(점, 구간)

– 표본크기에 따른 표준오차 비교

– 표본크기 결정

– 실습 안내


정형데이터 ?
Structured data ?

1. 애니메이션

1.1. 정형데이터의 요소(element)

1.2. 정형데이터의 변수(variable)

1.3. 정형데이터의 요소명과 변수


2. 설명

2.1. 정형데이터

2.2. 척도와 속성의 대응


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



정형데이터의 요소(element)




정형데이터의 변수(variable)




정형데이터의 요소명과 변수




정형데이터

2. 설명

2.1 정형데이터

정형데이터는 개체의 속성을 관측한 결과를 데이터시트로 표현한 것이라고 할 수 있습니다. 정형데이터는 관측된 각 개체와 개체의 속성이 특정하는 칸이 쌓여있는 모습을 나타냅니다. 관측된 각 개체는 고유이름인 ID로 구분되며 개체의 속성은 변수로 취급됩니다. 따라서 개체의 속성명은 변수명과 같습니다. 관측한 변수값(variable value)을 데이터(data)라고 합니다. 각 개체의 개체명과 그 개체의 속성의 관측값을 요소(element), 기록(record), 예(example) 등이라 하며 행(row)으로 표현합니다. 개체의 속성을 변수로 보면 개체의 속성명은 변수명이 되고 각 개체의 속성을 관측한 결과는 변수값이 됩니다. 개체의 속성은 변수로 모델링됩니다. 따라서 개체의 속성은 하나의 변수명과 여러 변수값으로 구성된 열(column)로 표현됩니다.

 

정형데이터는 계열(series, sequence, family)이 모여있는 집합이라고 할 수 있습니다. 계열은 “열(column)”로 표현한 변수를 말합니다. 변수(variable)는 변수명(variable name)과 변수값(variable value)로 구성되어 있습니다. 특별히 시계열(time series)은 변수값과 관측한 시각정보가 대응되어 있고 차순으로 정리되어 있는 계열을 말합니다.

 

정형데이터는 요소(element)가 모여 있는 집합이라고 할 수 있습니다. 요소는 가로줄 “행”으로 표현되며 개체(object) , 기록(record)이라고도 합니다. 각 요소는 요소명(element name)과 변수값(variable value)으로 구성됩니다. 예를 들어 인간을 요소로 보면 각 인간은 키와 체중이라는 이름을 가지는 속성을 가지고 있습니다. 개체의 속성을 변수로 표현합니다. 개체의 속성을 관측한 결과는 좁은 의미의 데이터이며 변수값, 관측값, 측정값, 관찰값 등으로 불리웁니다.


2.2. 척도와 속성의 대응

정형데이터는 관측대상의 속성을 관측도구로 관측하여 얻습니다. 관측도구에는 척도(scale)가 적용되어 있습니다. 척도의 종류에는 명목척도, 순서척도, 간격척도, 비례척도가 있습니다. 명목척도와 순서척도가 적용된 관측도구로는 관측대상이 개체인 경우 개체의 속성을 표현하는 범주형데이터를 얻을 수 있습니다. 범주형데이터는 개체가 가지는 속성에 따라 개체가 속하는 범주를 표현합니다. 따라서 이 경우에는 범주형데이터는 개체가 속하는 범주명을 의미합니다. 명목척도는 개체를 구분하는 범주만을 나타내지만 순서척도는 범주에 범주의 순서의 정보를 더해서 개체를 표현합니다. 간격척도는 순서를 가지는 범주에 위치의 정보를 더해줍니다. 비례척도는 위치를 가지는 범주에 양(quantity)의 정보를 더합니다. 간격척도와 비례척도는 개체의 범주형 속성을 표현할 수 있지만 개체의 연속형 속성을 표현할 때 주로 사용합니다. 척도는 기준이 필요합니다. 또한, 정형데이터를 얻으려면 관측대상인 개체의 속성과 척도의 기준의 대응이 필요합니다. 대응을 하려면 순서척도, 간격척도, 비례척도에서는 속성의 단위가 필요합니다.

척도기준에 단위적용

  명목척도 순서척도 간격척도 비례척도
관측대상인 개체의 속성 범주형 범주형 연속형 연속형
척도기준의 요구사항 범주의 독립성 순서의 방향 위치(position) 양(quantity)
척도기준 서로 다른 범주명

차순

0 :위치의 기준

0 : 양의 없음

1 : 양의 기준

예) 개체 : 개체의 속성 

딸기 : 품종

한우 : 품질

딸기 : 출하월

딸기 : 당도

예} 개체의 속성 : 척도 품종 : 설, 아키

품질 : 1등급, 2등급, … , 5등급

출하월 : 1월, 2월, … , 12월

당도 : Brix*

예) 척도기준에 단위적용

차순은 오름차순

0은 이전해 12월

0은 0Brix 

1은 1Brix 

* Brix는 용액 100g당 설탕의 무게(g)

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


정형데이터 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 비정형 데이터 요약

– 비정형 데이터 시각화

– 정형 데이터 요약

– 정형 데이터 시각화

– 정형 데이터 활용


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

 

Reference

Data set – Wikipedia



4.2. 참고문헌

데이터종류 ?
Data type ?

1. 애니메이션

1.1. 데이터종류


2. 설명

2.1. 척도에 따른 데이터종류

2.2. 속성에 따른 데이터종류

2.3. 대상에 따른 데이터종류

2.4. 가공에 따른 데이터종류

2.5. 질적/양적데이터와 도수데이터 비교

2.6. 순서가 있는 데이터


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

 

1. 애니메이션



데이터종류

 

2. 설명

2.1. 척도에 따른 데이터종류

질적데이터는 수치가 아닌 기호로 표현된 데이터입니다. 질적데이터는 명목척도와 순서척도로 구한 데이터입니다. 양적데이터는 수치로 표현된 데이터입니다. 양적데이터는 간격척도와 비례척도로 구한 데이터입니다.

질적데이터

질적데이터는 수치로 표현되지 않은 데이터(관측값)입니다. 질적데이터는 명목척도와 순서척도를 사용하여 구한 데이터입니다. 질적데이터는 수치가 아닌 기호로 표현됩니다. 질적데이터는 개체명, 개체가 속하는 범주명, 순서와 같이 관측대상의 질적 정의를 의미합니다. 숫자를 기호로 취급하여 개체의 이름(명목)을 정의한 질적데이터도 있습니다. 질적데이터는 명목척도와 순서척도로 관측한 관측값입니다.

양적데이터

양적데이터는 수치로 표현된 데이터입니다. 여기서, 수치는 위치나 양을 표현하는 수를 의미합니다. 양적데이터는 간격척도와 비례척도로 관측한 관측값(데이터)입니다. 양적데이터는 수치를 의미하여 그 수치는 관측대상(개체)의 속성의 위치 또는 크기를 의미합니다. 여기서 위치는 간격척도로 관측되며 크기는 비례척도로 관측됩니다. 간격척도는 위치의 기준(척도의 0)이 있으며 비례척도는 크기의 기준(척도의 1)이 있어야 합니다. 간격척도로 관측한 데이터(관측값)는 더하기와 빼기는 가능하나 곱하기와 나누기는 할 수 없습니다. 비례척도로 관측한 관측값(데이터)은 사칙연산인 가감승제가 모두 가능합니다.

질적데이터를 구하는 척도

관측대상으로서 사람이라는 개체는 성별이라는 속성을 가집니다. 성별을 판별하는 명목척도로 사람을 관측하면 남자, 여자와 같은 질적 정의가 관측값(데이터)으로 관측됩니다. 이와 같은 질적 정의를 질적데이터라고 합니다. “남자=1”, “여자=2” 처럼 텍스트로 된 관측값을 기호로서의 수로 표현할 수도 있습니다. 따라서 명목척도의 관측값을 수로 표현하더라도 그 수는 순서나 위치나 크기를 나타내지는 않습니다. 예로는 ID번호가 있습니다. 명목척도로 관측한 관측값이 순서의 정보를 나타내면 그 명목척도는 순서척도가 됩니다.

순서척도는 관측대상인 개체의 명목 뿐 아니라 순서를 관측하여 관측값으로 표현하는 척도입니다. 순서척도의 예로는 관측대상인 지구상의 국가를 관측하여 “일인당 국민소득이 높은 나라 순위”를 정하는 척도가 있습니다. 순서척도로 관측한 관측대상인 개체의 속성은 순서를 나타낸 관측값(데이터)으로 표현됩니다. 순서척도의 예에는 좋음, 보통, 싫음 처럼 순서가 표현되는  단어로 표현하는 척도도 있습니다. 여기서, 순서척도는 좋음을 1, 보통을 0, 싫음을 -1로 정하는 것처럼 수로 표현할 수 있습니다. 여기서 수는 순서만 의미할 뿐 위치나 크기를 의미하지는 않습니다. 순서척도의 순서간에 간격이 정의되고 그 간격의 크기가 수치로 주어지면 그 순서척도는 간격척도가 됩니다.

양적데이터를 구하는 척도

간격척도는 간격을 가지는 구간을 가지고 있습니다. 간격척도는 관측대상이 속한 구간의 위치값을 관측대상의 관측값(데이터)으로 나타냅니다. 간격척도의 예로는 섭씨온도계가 있으며 관측한 “섭씨온도”는 데이터(관측값)가 됩니다. 또 다른 예로는 달력과 시계가 있습니다. 오늘의 연월일은 달력을 이용한 관측값(데이터)입니다. 시계가 구한 “시각”은 간격척도가 구한 양적데이터라고 할 수 있습니다. 간격데이터는 간격이 정의된 구간의 위치값을 나타내는 데 그 위치의 기준이 있습니다. 간격척도인 연력의 위치의 기준은 서기원년을 0으로하여 정합니다. 연력을 이용한 관측값은 서기원년을 기준으로 기원전(BCE, before common era)과 기원후(CE, common era)로 나누어집니다. 여기서 각 년도는 엄밀하게 보면 시간의 간격이 다릅니다. 특별히 월력은 날짜수가 연에 따라 달라집니다. 즉, 간격이 다릅니다.그리고 간격척도인 섭씨온도계는 물이 어는 온도를 위치의 기준인 0으로 표현합니다. 간격척도로 구한 양적데이터는 가감(더하기와 빼기)이 가능합니다. 그러나 승제(곱하기와 나누기)는 조건이 필요합니다. 예를 들면, 척도가 가지는 구간의 간격이 등간격이고 관측대상의 속성이 같은 기준위치를 가지고 있어야 합니다. 관측대상인 개체의 관측값(데이터)을 제곱하는 경우에는 같은 기준위치를 가지고 있다고 볼 수 있지만 개체가 속한 범주에 따라 기준위치인 범주의 평균이 달라지므로 같은 조건이라고 할 수 있습니다. 정리하면 간격척도는 기준으로부터의 개체의 위치를 관측하는 척도입니다. 따라서 간격척도로 관측한 데이터는 관측대상의 기준의 다름에 직접적인 영향을 받으므로 위치의 기준을 나타내야 합니다. 예를 들어 범주나 개체의 분산을 구하는 데 사용하는 데이터를 간격척도로 구할 때는 간격척도가 등간격을 가지는 구간으로 이루어져 있는 지와 기준의 위치를 명확히 하는 것이 필수적입니다.  간격척도는 위치를 측정한다고 볼 수 있습니다. 등간격을 가지고 두 관측대상의 차이를 같은 기준에서 관측하는 간격척도는 비례척도라고 할 수 있습니다.

비례척도는 1의 양을 가지는 기준이 있습니다. 비례척도는 관측대상의 속성을 나타내는 양과 기준양인 1의 비를 수치로 표현한 것입니다. 비례척도의 예는 자와 저울이 있고 비례척도로 구한 양적데이터의 예는 키와 몸무게가 있습니다. 비례척도로 구한 양적데이터는 가감승제(더하기, 빼기, 곱하기, 나누기)가 가능합니다.


2.2. 속성에 따른 데이터종류

연속형데이터(continuous data)와 범주형데이터(categorical data)는 관측대상인 개체의 속성에 따라 구분됩니다. 연속형데이터와 범주형데이터는 관측대상이 개체이며 연속형과 범주형으로 표현되는 개체의 속성의 관측값입니다.

연속형데이터

연속형데이터는 관측대상인 개체의 속성이 연속적인 위치나 크기를 가지고 있음을 의미합니다. 개체의 속성은 간격척도나 비례척도로 관측하며 관측결과(관측값, 데이터)는 수치로 나타납니다. 여기서, 관측대상은 크기(양) 외에도 크기의 변화율도 될 수 있습니다. 크기를 관측한 연속형데이터의 예로는 키, 몸무게, 시간, 혈압 등이 있고 크기의 변화율을 관측한 연속형데이터는 경제성장률 등이 있습니다. 여기서의 관측대상의 속성은 연속적인 수로 표현되므로 개체의 속성을 관측한 관측값을 연속형데이터라고 부를니다. 연속적인 속성을 관측하기 위해서는 구간(계급, bin, bucket)을 가지는 척도를 사용하는 데 두가지 척도가 있습니다. 간격의 정보가 있는 간격척도와 간격척도의 간격에 간격크기의 비의 정보를 더한 비례척도가 있습니다. 따라서 연속형데이터는 개체의 연속형 속성을 간격척도나 비례척도로 관측한 수치를 의미한다고 할 수 있습니다. 그리고 연속형데이터는 아날로그인 관측대상을 디지털(수치)로 바꾼 데이터라고도 말할 수 있습니다. 간격척도나 비례척도에서 척도의 구간(계급, bin, bucket)을 범주로 볼 수 있습니다. 따라서 연속형데이터는 범주의 위치정보를 수치로 표현한 범주형데이터라고도 볼 수 있습니다. 이 때의 예로는 “나이”, “시험점수” 등이 있습니다.

범주형데이터

범주형데이터는 관측대상인 개체가 속하는 범주명을 의미합니다. 개체가 속하는 범주는 개체의 속성이기도 하므로 범주명인 범주형데이터는 개체의 속성을 수치가 아닌 기호나 설명으로 표현할 수 있습니다. 예로는 국적, 사는 곳 등이 있습니다. 범주형데이터는 순서를 표현하기도 하는데 한우의 품질등급 등이 있습니다.


2.3. 대상에 따른 데이터종류

관측대상이 개체이면 정형데이터로 분류되고 관측대상이 범주이면 비정형데이터로 분류됩니다.

정형데이터

정형데이터는 관측대상이 개체입니다. 정형데이터는 개체의 속성을 관측한 결과인 관측값입니다. 정형데이터는 스프레드시트(spread sheet)나 데이터베이스(database)로 표현할 수 있습니다. 정형데이터는 개체의 속성의 형태를 지정할 수 있습니다. 따라서 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미하기도 합니다. 상용스프레드시트(구글시트, 엑셀 등)의 각 셀은 셀안에 들어가는 데이터의 형식을 지정할 수 있습니다. 스프레드시트에서 사용하는 형식에는 텍스트, 숫자, 날짜 등이 있습니다.

비정형데이터

비정형데이터(unstructured data)는 범주를 표현한 데이터입니다. 비정형데이터의 관측대상은 글이나 그림과 같은 범주입니다. 비정형데이터는 관측대상보다는 생성물로 더 잘 설명될 수 있습니다.


2.4. 가공에 따른 데이터종류

원시데이터

원시데이터는 처음 수집한 데이터입니다.

가공데이터

가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.


2.5. 질적/양적데이터와 도수데이터 비교

데이터는 변수(변수명과 변수값)을 관측한 결과입니다. 데이터는 개체나 범주의 속성을 표현한 양적데이터와 질적데이터가 있으며 범주의 속성인 범주에 속하는 개체의 도수(빈도수, frequency)를 표현한 도수데이터가 있습니다.
데이터종류
데이터종류 척도 관측대상 관측값 의미 관측대상의 속성 형태 관측대상 – 관측대상의 속성 예시 관측값 예시
질적데이터

(qualitative)

명목척도

(nominal scale)

범주

(category)

명목 범주형

(nominal)

회사 – 산업분류

사람 – 성별

{ 전자, 전기, 화공, 기계, 식품 }

{ 남, 여 }

개체

(indivisual)

명목 범주형 대한민국 국민 – 주민번호

신청자 – ID

{ 210427-XXXXXXX, …  }

{ ID-1, … , ID-100 }

순서척도

(ordinal scale)

범주 순서 순서가 있는 범주형 음식점 – 서비스질

의류 – 크기

응시자 – 석차등급

{ 상, 중, 하 }

{ XS, S, M, L, XL }

{ 1 등급, … , 5등급}

개체 순서 순서가 있는 범주형 개인용 컴퓨터 – Serial Number { 001, 002, … , 200 }
양적데이터

(quantitative)

간격척도

(interval scale)

범주 위치 연속형

(continuous)

국가 – 시간대 { 1 동경시간대, … , 12 서경시간대 }
개체 위치 연속형 사람 – 수명 { y ; 0년 < y < 135년 }
비례척도

(ratio scale)

범주 크기 연속형 한국인 – 기대수명 { y ; 55.3세 < y < 86.5세 }
개체 크기 연속형 사람 – 키

딸기 – 당도

{ y ; y > 100 cm }

{ y ; 0 Brix < y < 100 Brix }

도수데이터

(frequecy)

빈도척도

(frequency scale)

범주 도수 이산형

(discrete)

공장 –  1일 불량품수 { 1 개, …  }
상대빈도척도

(ratio scale)

범주 상대도수 연속형 딸기 – 용액 100 g 당 설탕의 무게

대한민국 국민 – 고혈압 비율

{ y ; 0 g < y < 100 g }

{ P ; 0 % < p < 100 % }


2.6. 순서가 있는 데이터

순서가 있는 데이터의 표현
명목척도를 제외한 순서척도, 간격척도, 비례척도로 관측한 데이터는 순서나 위치나 크기를 표현하므로 순서에 따라 나열할 수 있습니다.  순서에 따라 데이터를 나열하는 방법에는 두 가지 방법이 있습니다. 하나는 위치나 크기가 작은 값부터 큰 값으로 나열하는 오름차순이고 다른 하나는 큰 값부터 작은 값으로 나열하는 내림차순입니다. 데이터를 집합으로 표현하면, 다음과 같이 $n$개의 데이터를 순서가 낮은 값부터 표현합니다. 여기서, $x$는 데이터(변수값)를 의미하고 아랫첨자는 순서를 의미합니다.
$$x_{1}, x_{2},  \cdots , x_{n}$$
여기서,  $x_{1} \lt x_{2} \lt \cdots \lt  x_{n}$
최대값($x_{max}$)은 오름차순으로 나열한 집합의 원소에서 맨 우측의 값입니다.
$$x_{max} = x_{n}$$
최소값($x_{min}$)은 오름차순으로 나열한 집합의 순서에서 맨 좌측의 값입니다.
$$x_{min} = x_{1}$$
범위(range, $R$)는 최대값과 최소값의 차이입니다.
$$R=x_{max}-x_{min}$$
분위와 분위수
분위는 개체가 같은 도수를 가지는 범주입니다. 다시 말하면 같은 확률을 가지는 범주입니다. 분위수는 그 범주의 대표값입니다. 분위수는 간격척도로 구한 데이터는 중앙값으로 비례척도로 구한 데이터는 평균으로 표현됩니다. 간격척도, 비례척도로 구한 데이터의 분포는 분위와 분위수로 표현할 수 있습니다. 간격척도로 구한 데이터의 분위수는 중앙값으로 표현하며 비례척도로 구한 데이터의 분위수는 평균으로 표현합니다. 순서척도로 구한 데이터에서는 순서가 있는 범주가 다른 도수를 가지는 범주라고 할 수 있습니다. 여기서, 순서를 가지는 범주가 같은 도수를 가지면 분위와 분위수로 표현할 수 있습니다.
분위와 분위수의 응용
분위와 분위수의 응용에는 비례척도로 구한 데이터가 정규분포를 나타내는 지 살펴보는 Q-Q plot이 있습니다. Q-Q plot은 데이터로 부터 추정한 모수를 가지는 정규분포의 분위수를 X축으로 하고 개체의 관측값을 Y축으로 하는 좌표계에서 개체를 점으로 표현한 데이터시각화 방법니다. 그리고 개체 속성의 실제 데이터를 표현하는 Y축에서는 중앙값을 Y축의 원점좌표로 하고 X축에서는 정규분포를 표준정규분포로 표준화하여 0을 X축의 원점좌표로 정합니다. Q-Q plot에서는 X축을 표준정규분포로 표준화하여 개체가 나타내는 점들을 선형식으로 모델링하여 표준편차를 기준으로 하는 정규분포 구간을 관측하기도 합니다. Q-Q plot은 비례척도로 관측한 데이터가 정규분포를 나타내는 지 알기 위한 데이터시각화 방법입니다. 간격척도로 구한 데이터가 등간격을 나타낸다면 그 간격척도는 비례척도라고 할 수 있습니다. 또한 간격척도로 구한 데이터가 정규분포를 나타내기 위한 각 구간의 간격의 크기를 정하기 위한 직관을 제공합니다.
백분위수
백분위수(percentile)는 관측대상의 속성을 표현하는 변수가 정의된 영역(정의역)에서 100개의 분위가 있을 때 각 분위에서의 대표값을 의미합니다. 여기서, 분위는 같은 데이터 개수를 가지는 순서가 있는 범주입니다. 분위수는 변수를 특정한 확률변수로 모델링하여 확률분포를 알 때 데이터세트를 통해 추정할 수 있으며 추정하는 방법에는 2가지가있습니다. 간격척도로 관측한 경우에는 최대값과 최소값을 분포함수와 데이터개수가 많은 데이터세트에서는 100등분하여 100개의 간격이 같은 구간인 분위(순서가 있는 범주) 만들고 각 구간의 평균을 그 구간의 데이터를 순서에 따라 나열하고 데이터의 개수를 100등분하여 데이터를 구분하였을 때 각 등분을 나눈 위치값입니다.
사분위수(quartile)
사분위수(quartile)는 quarter와 percentile의 합성어입니다. 간격척도나 비례척도로 구한 데이터는 위치 순으로 나열할 수 있습니다. 데이터를 오름차순으로 나얼한 후에 데이터를 같은 개수로 4등분하여 나눕니다. 이를 4개의 분위를 만든다고 할 수 있으며 분위는 순서를 가지는 범주라고 표현할 수 있습니다. 분위수는 각 분위의 위치값을 의미합니다. 특히 사분위수는 각 분위의 최대값을 의미합니다.  따라서 사(4)분위인 경우 1사분위, 2사분위, 3사분위의 위치값인 1, 2, 3사분위수는 데이터세트의 분포를 표현할 수있습니다. 그리고 2사분위수는 중앙값을, 4분위수는 데이터세트의 범위의 최대값을 의미합니다.
– 1사분위수(Q1)는 자신보다 작은 데이터가 전체의 25%
– 2사분위수(Q2)는 자신보다 작은 데이터가 전체의 50%
– 3사분위수(Q3)는 자신보다 작은 데이터가 전체의 75%
사(4)분위수와 백(100)분위수와의 관계
– 1사분위수 = 25백분위수
– 2사분위수 = 50백분위수
– 3사분위수 = 75백분위수

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 종류 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3에서 B22의 범위에 있는 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22의 범위에 있는 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22의 범위에 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22의 범위에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.

=VARP(B3:B22) : 분산. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 각 숫자의 평균의 차이를 제곱해서 모두 더한 후, 숫자의 개수로 나눈 값. VARP 대신 VARS를 입력하면 숫자의 개수 -1로 나눈 값(표본분산)을 표시함. 

=STDEV.P(B3:B22) : 표준편차. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 분산의 제곱근. STDEV.P 대신 STDEV.S를 입력하면 표본분산의 제곱근을 표시함. 

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 모든 숫자 집합에서 최대값을 표시함. 

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 모든 숫자 집합에서 최소값을 표시함. 

=QUARTILE(B3:B22,0) : 사분위수. B3에서 B22에 있는 숫자 집합에서 지정한 사분위수를 표시함. 0의 자리에 0, 1, 2, 3, 4를 입력하여 0사분위수, 1사분위수, 2사분위수, 3사분위수, 4사분위수를 표시할 수 있음. 

=PERCENTILE(B3:B22,0) : 백분위수. B3에서 B22에 있는 숫자 집합에서 지정한 백분위수를 표시함. 0의 자리에 0 이상 1이하의 수를 입력하여 각각의 백분위수를 표시할 수 있음. 0.25를 입력하면 25백분위수가 표시됨.


3.3. 실습강의

 – 데이터

 – 합계

 – 개수

 – 평균

 – 중앙값


 

4 참조

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

Reference

Data set – Wikipedia


삼성전자의 기업가치는 얼마인가

동전던지기와 대수의 법칙


삼성전자 주식 1주의 가격과 주식 수의 곱으로 구한 기업가치는 552조원입니다.

2021년 5월 7일 오후 3시 30분 기준, 삼성전자 보통주 주식 1주의 가격은 81,800원이고, 보통주 발행주식의 총 수는 5,969,782,550주입니다. 우선주 주식 1주의 가격은 74,500원이고, 우선주 총 수는 822,886,700주입니다.

 

삼성전자의 기업가치를 주식가격과 주식 수의 곱이라고 모델링할 수 있습니다. 이렇게 구한, 삼성전자의 기업가치는 552조원입니다.

 

그런데, 이렇게 구한 삼성전자의 기업가치는 하루에도 수시로 바뀝니다. 아래 차트는 2021년 5월 7일 하루 사이에 바뀐 삼성전자 보통주 1주의 가격입니다.


2021년 5월 7일 하루 동안의 삼성전자 보통주 1주의 가격 추이(X축: 시간, Y축: 가격)


그럼, 삼성전자의 기업가치는 하루에도 수시로 바뀌는 걸까요?

2021년 5월 7일 삼성전자 보통주 주식가격의 최고가는 82,100원이고, 최저가격은 81,500원입니다. 하루에만 3.5조원 정도의 변동이 발생합니다. 그럼, 삼성전자의 기업가치는 5월 7일 하루에만, 3.5조원 변동한다고 할 수 있을까요?

 

주식가격 시가 총액을 기준으로 기업가치를 산정한다면, 일정기간 동안 변하지 않는 기업가치를 기준으로 매일매일의 거래에 따라 위아래로 변동이 발생한다고 보는 것이 좋겠습니다.

 

동전을 몇번 던지면, 앞면만 나올수도 있고, 뒷면만 나올수도 있지만, 더 많이 던지면, 점점 앞면 혹은 뒷면이 나올 확률이 50%에 수렴해가는 것을 볼 수 있습니다. 하루에 발생하는 변동이 크다는 의미는, 동전을 던졌는데, 앞면만 계속 나오거나 뒷면만 계속 나오는 경우이고, 우리가 기대했던 기대값, 상대적으로 안정적인 기업가치와는 거리가 멀어진다는 것을 의미합니다. 

주가 변동이 크다는 의미

동전의 개수와 Galton보드의 분기 수


주가의 기대값은 긴 시간에 걸쳐서 변한다고 가정한다면, 작은 기간 동안은 기대값이 변하지 않는다고 생각할 수 있습니다.

변동이 크다는 것은 기준값과의 차이가 큰 경우일수도 있고, 기준값 자체가 크게 변동할 수도 있습니다. 주가 또한 2가지가 결합되어서 나타납니다.

 

주가를 하루 단위의 변동을 관찰한다면, 기대값은 변하지 않는다고 볼 수 있습니다. Zero Sum(제로썸)으로도 표현됩니다.

 

여기에서는 기대값이 변하지 않는 구간을 관찰기간으로 정한 후, 변동폭이 크다는 것에 대해서 논의해 보겠습니다.


기대값과의 거리가 멀다는 의미입니다.

동전을 던지면, 대략 2분의 1의 확률로 앞면이 나오거나, 뒷면이 나온다는 것을 직관을 통해 알 수 있습니다. 5개의 동전을 여러번 던지면, 2~3개가 앞면이 나오는 빈도가 가장 높을 것으로 기대됩니다.

 

그런데, 5개의 동전을 던져서, 5개 모두 앞면이 나올수도 있습니다. 이론적으로 확률을 계산해 보면 약 0.3%이고, 100번에 3 번 정도 나타날 것으로 기대되는 현상입니다. 이 동전이 정상적인 동전이라고(불량품이거나 어떤 의도를 가지고, 앞면만 나오도록 만든 동전이 아닌) 가정했을 때의 확률입니다. 위의 애니메이션 우측의 Galton보드의 경우라면, 구슬을 굴렸는데, 분기점에서 5번 모두 오른쪽으로가거나, 5번 모두 왼쪽으로 가는 확률입니다.

 

주가 변동이 크다는 의미는, 동전을 던졌는데, 앞면 만 계속 나온다던지, 혹시 Galton 보드에서 굴린 구슬이 분기점에서 한 쪽으로만 계속 굴러가서, 우리가 기대했던 기대값과의 거리가 멀어진다는 것을 의미합니다.

AI(인공지능)는 어떻게 예측을 하나 (2탄)

최소제곱법을 이용한 계산식 구하기


계산을 해서 예측합니다. 먼저, 계산식을 구해야 합니다.

AI(인공지능)은 컴퓨터(Computer)입니다. 컴퓨터는 말 그대로 컴퓨트(Compute), 즉 계산을 합니다. 따라서, 인공지능이 예측을 하기 위해서는 예측을 하기 위한 계산식을 구해야 합니다.

 

우리가 알 고 있는 데이터와 알고는 싶은데 알아내기가 상대적으로 어려운 2가지 데이터를 가정해보겠습니다. 애니메이션에서는 딸기의 무게와 당도를 예로 들었습니다. 딸기의 무게는 딸기를 먹어보지 않고도 측정해볼 수 있는 반면, 딸기의 당도는 소비자들의 구매결정에 영향을 주는 매우 중요한 데이터이지만, 이를 측정하기 위해서는 딸기의 과즙을 필요로 합니다. 따라서, 상품성을 헤치지 않고, 측정이 어렵습니다. 만약, 우리가 무게와 당도 사이의 관계를 알아낸다면, 무게만 측정해서, 당도를 예측할 수 있을 것입니다.

 

무게와 당도의 관계를 계산식으로 나타낼 수 있다면, 우리는 무게를 측정해서, 당도를 예측하는 AI(인공지능)을 만들 수 있습니다.

 

다음은 그 관계식을 구하는 방법입니다.

우리가 알고 있는 데이터인 무게(과중)을 X축으로 하고, 알고 싶은 당도를 Y축으로 하는 평면 위에 각 샘플의 무게와 당도를 점을 찍어서 표시합니다.

다음은 무게와 당도의 평균이 만나는 점을 먼저 찾고, 이를 지나가는 수많은 직선 중에서 각 당도와의 차이의 제곱 합이 최소가 되는 직선을 구합니다. 이 직선은 당도를 나타내는 Y, 무게를 나타내는 X, 그리고 기울기와 절편으로 표현할 수 있습니다. 

 

애니메이션에서 보여드리는 딸기 20개의 당도와 과중의 관계식은 다음과 같습니다.

Y=0.52*X-0.42 

 

물론, 위 관계식을 통해 예측한 당도와 실제 당도 사이에는 오차가 발생할 수 있는데, 오차가 작을수록 성능이 좋은 인공지능이 됩니다.

 

앞서 우리가 구한 직선을 회귀선이라고 하고, 이를 구한 방법을 최소제곱법(Method of Least Squares, MLE)이라고 하는데, 최소자승법, 최소제곱근사법, 최소자승근사법 등으로 부르기도 합니다.

 

회귀선이란, 무게와 당도(두 변수)가 선형관계를 이룬다고 할 때, 이 점들을  대표하는 방식입니다. 딸기의 무게에 따른 당도의 대표값들을 연결한 선입니다.

AI(인공지능)는 어떻게 예측을 하나

최소제곱법을 이용한 회귀선 그리기


두 변수간 관계를 나타내는 회귀선의 수식을 알아내서 예측합니다.

회귀선은 최소제곱법(Method of Least Squares, MLE)을 이용해서 구합니다. 최소제곱법을 최소자승법, 최소제곱근사법, 최소자승근사법 등으로 부르기도 합니다.

산점도 위에서 두 변수의 평균이 만나는 점을 먼저 찾고, 이를 지나가는 직선 중에서 잔차제곱의 합이 가장 작은 직선이 회귀선이 됩니다.

 

잔차란 직선과 Y값의 차이인데, 이를 회귀선의 오차 혹은 잔차라고 부릅니다.

 

종속변수인 당도를 Y, 독립변수인 과중을 X라고 할 때, 회귀선은 X와 Y의 방정식으로 표현할 수 있습니다.

애니메이션으로 표현한 딸기 20개의 당도와 과중은 다음의 식으로 표현할 수 있습니다.

Y=0.52*X-0.42 

 

잔차 혹은 오차란, 우리가 20개의 딸기 데이터를 모델링해서 만든 위의 식으로 부터 얻은, 특정 과중에서의 당도 예측값과 실제 당도의 차이입니다.

 

회귀선이란, 두 변수가 선형관계를 이룬다고 할 때, 이 점들을  대표하는 방식입니다.

회귀선이 구해지면 딸기의 과중만 측정하면 당도를 측정하지 않고도 예측할 수 있습니다.

 

관계가 있는 변수를 정의하고, 이 변수들 간 회귀선을 구하는 것이 인공지능을 모델링하는 가장 중요한 기본이라고 할 수 있습니다.

우리 회사 고객의 연령

활쏘기 점수로 본 확률 모델링 (활쏘기 점수의 상대 빈도를 이용해 확률의 개념을 도입)


평균 35세, 표준편차 5세. 범위는 20~49세입니다.

우리 회사 고객 500명을 랜덤하게 추출해서 연령을 조사해서, 다음과 같이 테이블로 정리했습니다.

 

고객ID 구매시점 나이
1 37
2 34
3 25
4 29
5 39
6 37
7 27
8 41
9 37

 

연령별 분포를 알기 위해, 연령 구간에 따른 고객 수를 파악해서 도수분포도를 그려보았습니다. 32~34세 사이에 122명이 분포하고, 35~38세 사이에 114명이 분포합니다.

연령별 고객 수를 합계로 나누어서 상대적인 도수를 구해보았습니다. 상대도수는 전체에서 차지하는 비율이고, 이를 확률로 표현할 수 있습니다. 우리 회사 고객 중 1명을 뽑으면, 이 고객의 연령이 32~37세일 확률은 47%이고, 29~40세일 확률은 75%입니다.

 

나이 고객 수 상대도수(=확률)
20-22 6 0.01
23-25 17 0.03
26-28 54 0.11
29-30 72 0.14
32-34 122 0.24
35-37 114 0.23
38-40 71 0.14
41-43 33 0.07
44-46 9 0.02
47-49 2 0.00
합계 500 1.00

 

수학적 모델링을 통해 위의 상대 도수 분포를 이용해서 아래와 같은 확률분포를 만들어보았습니다.

확률분포를 가지고, 우리 회사 고객의 연령을 예측할 수 있습니다.

우리 회사 고객의 연령이라는 데이터를 수집해서, 이 데이터의 분포를 확인하고, 연령을 확률변수로 하는 확률분포를 만듦으로써, 이제 확률을 이용한 추론과 예측이 가능해지게 되었습니다.

 

* 본 데이터는 개인정보 보호를 위해, 원본 데이터의 특성을 반영하여 가상의 데이터를 생성하였습니다.

2·4 부동산 대책에 대해 ‘도움되지 않을 것’이라는 답변이 53.1%±4.4%p 라고 하는데, ±4.4%p는 무슨 뜻일까요?

표본크기(n)에 따른 모비율의 분포


±4.4%p를 오차범위라고 합니다.

지난 2월 4일 정부가 2025년까지 83만 6천호를 짓기 위한 주택 부지 공급안을 발표했는데, 이 공급안에 대한 여론조사 전문기관의 발표에 따르면, 조사 결과 “도움이 되지 않을 것이다”라는 응답이 53.1%, “도움이 될 것이다”라는 응답은 41.7% 였습니다. 이 결과는 2월 5일 여론조사 전문기관에서 접촉한 전국의 만18세 이상 6,735명으로부터 응답한 최종 500명의 답변을 요약한 것입니다.

여론조사 전문기관에서는 2·4 부동산 대책, ‘도움 되지 않을 것’ 53.1%, 표본오차는 95% 신뢰수준에서 ±4.4%p라고 발표했습니다.

이를 그대로 정리해보면,

전체 응답자 중 208.5명은 긍정적평가, 265.5명은 부정적 평가, 26명은 모르겠다고 답변했습니다.

응답자 수 응답자 비율
도움이 될 것이다. 208.5 41.7%
도움이 되지 않을 것이다. 265.5 53.1%
잘 모르겠다 26 5.2%
합계 500 100.0%

여론조사 전문기관에서 조사한 500명은 우리나라 전체 성인들의 응답을 알기 위해 추출한 표본이 됩니다. 이 표본 데이터로부터 우리나라 전체성인들의 응답을 추정해볼 수 있습니다.

이번에 조사한 500명이 우리나라 전체 성인으로부터 랜덤하게 추출한 표본이라는 가정이 매우 중요합니다. 이러한 가정 하에 이번 표본으로부터 95% 신뢰구간을 구해볼 수 있습니다. 여론조사 전문기관의 발표에 따르면, 이번 표본조사를 통해 우리나라 모든 성인 중 “도움이 되지 않을 것이다”라고 응답할 비율의 95% 신뢰구간은 53.1%±4.4%p, 즉 48.7~57.5%입니다.

여기서 4.4라는 수치는 다음의 식으로 구할 수 있습니다.

1.96×p1pn1.96\times\sqrt{{{p\left({1-p}\right)}\over{n}}}

P는 도움이 되지 않을 것이라고 응답한 0.531

1-P는 1-0.531, 즉 0.469. 도움이 될 것이다와 잘 모르겠다의 수치를 합한 값.

n은 응답자 수인 500

1.96은 표준정규분포 상에서 누적확률밀도가 0.975(1-0.975=2.5%인데, 양측으로 검정하기 때문에 2.5%에 2를 곱하면 5% 유의수준이 되고, 이를 95% 신뢰수준이라고 함.)에 해당하는 확률변수.

오차범위는 응답자의 상반된 답변의 비율이 0.5에 가까울수록, 응답자 수가 작을수록, 신뢰수준이 커질수록, 커집니다.

오차범위는 다음의 특성을 가집니다.

1. 응답자의 비율이 50:50에 가까워질 수록 커집니다. 0.5와 0.5의 곱은 0.25인데, 만약 비율이 90:10이라면, 0.9와 0.1의 곱은 0.09가 됩니다.

2. 응답자 수가 커질수록 값이 작아집니다. 응답자 수가 커져서, 우리나라 전체 성인의 수까지 커진다면, 우리의 추정은 점점 더 정교해져서, 오차범위가 작아집니다.

3. 신뢰수준이 커질수록 오차범위가 커집니다. 50% 신뢰수준이라면, 오차범위가 ±1.4%p가 되고, 99% 신뢰수준이라면, 오차범위는 ±5.7%p가 됩니다.

결론적으로, 여론조사 기관에서 우리나라 전체 성인 중 500명씩 랜덤하게 추출 후 응답의 비율을 구해서, 우리나라 전체 인구의 응답 비율을 95% 신뢰구간을 추정한다면, 100번 중 95번은 우리나라 전체 성인의 응답 비율이 그 신뢰구간 안에 있을 것이고, 5번은 신뢰구간을 벗어날 수 있다는 의미입니다.

2019년 시장점유율 10%에서 2020년 시장점유율 15%로 증가. 몇% 증가한 것인가요?

<상대도수  0 ~ 1 또는 0% ~ 100%>

상대도수히스토그램과 확률밀도


A: “숫자가 5 증가했으니, 당연히 답은 5%입니다.”

B: “10을 기준으로 15가 되었으니, 50%가 증가한 겁니다.”

퍼센트는 수를 100과의 비율로 나타내는 방식입니다. A와 B 중 맞는 표현을 고른다면, B가 맞는 표현입니다. 그런데, A와 같이 표현을 하고 싶을 수 있습니다. 이럴 때 사용하는 단위가 퍼센트포인트(%p)입니다.

 

정리해보면,

시장점유율이 2019년 10%에서 2020년 15%로 5%p 증가했습니다. 

시장점유율은 상대도수입니다. 그리고 상대도수는  0 ~ 1 또는 0% ~ 100% 의 값을 가집니다.