문항반응 척도
Item response scale

1. 애니메이션

1.1. 문항속성(True, False)에 대한 반응(Positive & Negative)


2. 설명

2.1. 문항반응에서 사용하는 척도유형

2.2. 순서척도의 분류

2.3. 문항반응을 관측하는 척도의 종류

2.4. 척도평가

2.5. 척도개발


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

1. 애니메이션



문항속성(True, False)에 대한 반응(Positive & Negative) 

2. 설명

2.1. 문항반응에서 사용하는 척도유형

문항반응에서는 응답자가 문항에 반응한 결과가 결과변수가 되는 경우와 응답자의 능력과 문항의 난이도가 반응하여 결과가 나오는 경우가 있습니다. 전자의 원인변수는 응답자의 속성이며 후자의 원인변수는 응답자의 능력과 문항의 난이도의 차이입니다. 이 때 응답자의 능력과 문항의 난이도는 같은 속성입니다. 원인변수가 되는 응답자의 속성과 응답자의 능력과 문항난이도는 명목척도를 순서척도, 간격척도, 비례척도로 변환할수록 더 많은 분석을 할 수 있습니다. 즉, 원인변수값을 질적데이터에서 양적데이터로 얻으려는 노력을 하게 됩니다.

명목척도

명목척도(nominal scale)는 불연속적인 개념이나 속성을 측정하기 위한 척도입니다. 이러한 척도에서는 각 명명된 항목이 서로 독립적이며, 순서나 계량적인 의미를 가지지 않습니다. 예를 들어 명목척도에는 성별, 종교, 국적 등이 있습니다. 예를 들어 명목척도인 성별에는 “남”과 “여”라는 두 범주(척도점)가 있습니다.

순서척도

순서척도(ordinal scale)는 명목척도와 다르게 범주(척도점)의 비교가 가능합니다. 비교를 통해 순서(순위)를 정할 수 있는 데 순서는 내림차순이거나 오름차순처럼 방향이 있습니다. 하지만 범주들 사이에는 순서만 있을 뿐 계량화된 간격이 없습니다. 예를 들어 등급, 선호도, 학점 등이 있습니다.

간격척도

간격척도(interval scale)는 순서척도의 범주의 최대값이 정의되는 척도입니다.  각 범주의 최대값 사이에는 간격이 있고 그 간격은 계량할 수 있음을 의미합니다. 따라서 간격척도는 범주의 상대 위치를 나타냅니다. 예를 들어 섭씨온도, 지능지수, 연도 등이 있습니다.

비례척도

비례척도(ratio scale)는 간격척도에 존재의 없음을 의미하는 0이 부가되어 위치의 기준으로 사용됩니다. 0으로부터의 거리는 양이며 간격척도가 음수와 양수로 순서가 표현되는 것에 비해 비례척도에서는 양이 없음(존재하지 않음)을 의미하는 0이 있습니다. 양의 기준인 1로 관측대상의 양(quantity)을 표현합니다. 관측대상의 양이 0과 1사이에 있을 때 기준인1을 나눔으로 표현합니다. 그리고 기준보다 큰 경우에는 기준의 배수와 0과 1사이의 값의 합으로 표현합니다. 비례척도는 양의 기준인 1에 비례하는 값을 척도로 가진다고 할 수 있습니다. 비례척도는 양(quantity)을 나타내므로 양의 실수(positive real number)의 수체계로 나타냅니다. 예를 들어, 절대온도, 나이, 몸무게, 소득 등이 있습니다.


2.2. 순서척도의 분류

5점척도와 7점척도

순서정보가 있는 명목(이름)으로 표현하는 척도점의 수를 많게 하면 척도가 응답자들을 판별할 수 있는 능력은 커지지만, 응답자는 응답이 어려워지는 단점이 있습니다. 척도점의 수를 작게 하면 척도점간의 상관은 작아지는 장점이 있습니다. 척도점의 수가 소수(prime number)인 5점척도와 7점척도가 주로 사용됩니다.

짝수점척도와 홀수점척도

짝수점척도는 척도점의 수가 짝수인 척도로 중간점이 없으며 대칭을 만들기가 어렵습니다. 홀수점척도는 중간점이 있어서 대칭이지만 응답자의 응답이 심리적인 이유로 중간점으로 쏠릴 가능성이 높습니다. 일반적으로 짝수점척도보다 홀수점척도가 더 많이 쓰입니다.

균형척도와 불균형척도 

균형척도는 긍정적 의미를 갖는 척도점의 수와 부정적 의미의 척도점의 수가 같은 척도입니다. 응답자가 편견이 없을 때 유용합니다. 불균형척도는 응답자가 편견이 있어 응답이 중간점을 기준으로 어느 한쪽으로 치우칠 경우, 편견을 보정해 주기 위하여 사용합니다.

단일항목척도와 다항목척도

단일항목척도는 한 항목(item)으로 구성되어 있습니다. 다항목척도는 한 질문과 다수의 항목으로 구성되어 있습니다. 

단일항목척도의 예

질문(question) : A음식점의 맛은 ?

항목(item) : 좋다.

선택지(option) : 동의한다. – 동의하지 않는다.

단일항목척도의 예

항목(item) : A음식점의 맛은 좋다

선택지(option) : 동의한다. – 동의하지 않는다.

다항목척도의 예

질문(question) : 생일축하연 장소로 A음식점은 ?

항목(item) 1 : 음식이 맛있다.

선택지(option) : 매우 그렇다. – 그렇다. – 보통이다. – 그렇지 않다. – 매우 그렇지 않다.

항목(item) 2 : 경제적이다.

선택지(option) : 매우 그렇지 않다. – 그렇지 않다. – 보통이다. – 그렇다. – 매우 그렇다.

항목(item) 3 : 교통이 좋다.

선택지(option) : 매우 그렇지 않다. – 그렇지 않다. – 보통이다. – 그렇다. – 매우 그렇다.

다항목척도에서의 단방향척도와 혼합형척도

다항목척도에서 항목의 긍정과 부정의 방향이 일치하면 단방향척도이고 혼재되어있으면 혼합형 척도입니다. 

척도점의 강도표현

척도점이 “좋다”, “나쁘다”, “보통이다”인 경우 강도표현은 매우, 약간 등등이 있을 수 있습니다. 이 때 강도는 중간점을 기준으로 양쪽으로 대칭적으로 부여하는 것이 좋으나 척도점의 표현이 길어져서 정확하고 효율적인 실험을 어렵게 합니다. 부가되는 의미가 강할수록 응답자는 극단 값을 피하기 위해 가운데로 몰리는 경향이 있습니다.


2.3. 문항반응을 관측하는 척도의 종류

질문(question)과 항목(item)을 합해서 문항(question & item)이라고 합니다. 선택지는 문항에 대한 응답의 범주를 반응의 정도에 따라 순서대로 나열한 것입니다. 그리고 문항반응은 선택지에서 문항에 대한 응답 범주를 선택하는 것을 의미합니다. 따라서 문항과 선택지를 합한 것을 순서척도라고 할 수 있습니다. 

리커트척도 (Likert scale)

어떤 항목(진술)에 대해 응답자가 동의하거나 동의하지 않는 정도를 표시하도록 하는 척도입니다. 척도점은 응답을 나타내는 범주인 응답범주의 이름입니다. 따라서 척도점의 수는 응답범주의 수와 같습니다. 순서척도를 간격척도로 바꾸면 순서척도의 척도점은 범주의 최대값을 의미하며 양적데이터입니다. 정리하면 리커트척도를 순서척도에서 간격척도화 했을 때, 간격척도의 구간은 순서척도에서의 척도점의 최대값으로 구분됩니다. 

 

리커드척도 예

질문 : A서비스센터 직원들의 업무태도는 ?

항목 : A서비스센터 직원들은 친절하다.

척도점 : 전혀 동의하지 않는다.   $\cdots$   전적으로 동의한다.

의미차별화척도 (semantic differential scale)

서로 반대되는 의미의 말을 양쪽 끝의 척도점(응답범주)에 표현한 척도입니다. 예를 들면 불공정과 공정, 불친절과 친절, 비상식과 상식 등이 있습니다.

의미차별화척도 예

질문 : A서비스센터 직원들은 ?

척도점 : 불친절하다.   $\cdots$   친절하다.

등급척도 (rating scale)

등급을 척도점(응답범주)으로 가지는 척도로써 “중요성 등급척도”, “평가 등급척도”, “Stapel 등급척도” , “서열 등급척도”, “비교 등급척도” 등 여러가지 방식이 있습니다.

Stapel 등급척도 예

질문 : A서비스센터 직원들은 ?

척도점 : -3   -2  -1  친절하다   +1  +2   +3


2.4. 척도평가

관측값모델

관측값은 다음과 같이 모델링됩니다.

$$X_O=X_T + X_S + X_R$$

여기서,  $X_O$는 관측값(measured value or observed value)

$X_T$는 실제값(true value)

$X_S$는 체계적 오류(systematic error)이며 척도의 오류

$X_R$은 비체계적 오류(nonsystematic error or random error)이며 관측자와 관환경에 따른 오류

타당성

척도의 타당성(validity)은 측정하고자 하는 대상인 개체의 속성이나 구성개념 등을 척도가 실제로 측정하는 정도입니다. 예를 들어, 지능을 측정하는 척도가 실제로 지능의 다양한 측면을 적절하게 나타낸다면, 그 척도는 그 지능에 대해 높은 타당성을 가진다고 할 수 있습니다. 척도의 타당성이 높을수록 체계적 오류가 작아집니다.

정확성

척도의 정확성(accuracy)은 측정값이 실제 값에 얼마나 가까운지를 나타냅니다. 예를 들어, 체온계가 실제 체온을 정확하게 측정한다면, 그 체온계는 높은 정확성을 가진다고 할 수 있습니다.

정밀성

척도의 정밀성(precision)은 측정값들의 차이를 얼마나 작은 값까지 나타낼 수 있는지의 정도입니다. 예를 들어, 관측값은 비체계적 오류(무작위 오류)의 영향을 받는 데 척도의 정밀도가 높으면 더 작은 비체계적 오류도 알 수 있게 됩니다.

신뢰성

척도의 신뢰성(reliability)은 한 대상을 반복 측정했을 때 동일한 결과를 얻는 정도를 말합니다. 비체계적 오류는 관측하는 사람이나 상황으로부터 발생하는 오류입니다. 비체계적 오류가 작을수록 그 척도의 신뢰성은 높습니다. 척도의 신뢰성에는 다음과 같은 것들이 있습니다.

–  반복측정 신뢰성(test-retest reliability)

반복측정 신뢰성은 같은 척도로 관측을 2회 실시하여 2회의 관측값들을 구하고 관측값들 간의 상관관계로 구한 척도의 신뢰성입니다. 상관계수가 크면 척도의 반복측정 신뢰성이 높다고 할 수 있습니다.

–  대안항목 신뢰성(alternative-form reliability)

한 척도로 측정하여 측정값들을 구하고 유사하지만 대안이 될수 있는 항목을 가진 척도로 다시 측정하여 관측값들 구합니다. 두 관측값집합의 상관계수로 척도의 대안항목 신뢰성을 평가합니다. 반복측정 신뢰성은 주시험효과가 작용할 수 있습니다. 주시험효과를 방지하기 위하여 두 번째 측정할 때 첫 번째 사용한 척도와 유사하지만 다른 척도를 사용합니다.

다항목척도의 내적 일관성

지능, 동기부여, 학습 태도 등을 구성개념(construct)라고 하는 데 심리학이나 교육학에서 관측하고자 하는 이론적인 개념입니다. 여기서, 한 구성개념을 측정하는 다항목척도는 항목들이 일관성을 가져야 합니다. 이 일관성을 “다항목척도의 내적 일관성(internal consistency)”이라고 합니다.

크론바흐계수 $\alpha$ (Cronbach’s coefficient $\alpha$)”는 다항목척도의 내적 일관성”을 표현하는 방법 중에서 가장 널리 쓰이는 방법입니다. 크론바흐계수는 다음식으로 구합니다.

$$\alpha=\dfrac{k}{(k-1)} \left(  1-\dfrac{\sum_\limits {i=1}^{k}\sigma_i^2}{\sigma_T^2}\right)$$

여기서,  $k$는 항목 수

$\sigma_i^2$은 $i$번째 항목의 분산

$\sigma_T^2$은 전체 항목의 분산

다르게 표현하면

$$\alpha=\dfrac{k \bar r}{1+{\bar r}(k-1)}$$

여기서,  $\bar r$은 항목간 상관계수의 평균

크론바흐계수 $\alpha$는 0 에서 1 사이의 값을 가지며, 높을수록 바람직합니다. 흔히 0.8에서 0.9 이상이면 만족할 수 있고 0.6에서 0.7이면 수용할 수 있습니다. $\alpha$계수가 매우 작으면 그 데이터는 내적 일관성을 결여한 것으로, 본 분석에서 사용할 수 없습니다. $\alpha$계수의 크기를 저해하는 항목들을 제거함으로써 계수값을 크게 할 수 있습니다. 

항목의 수와 $\alpha$계수의 크기는 양의 상관입니다. 척도점의 수와 $\alpha$계수의 크기도 양의 상관입니다. 그러나 표본의 크기와 $\alpha$계수의 크기는 음의 상관입니다. 


2.5. 척도개발

1) 개념정의 및 목표설정

척도를 개발하기 전에 먼저 관측하고자 하는 개념을 정의하고, 척도개발의 목표를 설정합니다. 이를 위해 선행연구조사와 인터뷰 등을 수행합니다.

2) 관측대상 분석

정의한 개념을 가진 관측대상을 분석합니다. 

관측대상인 개체의 속성(특징, 특성)이나 범주의 속성(특징, 특성) 등을 분석하여 항목을 생성합니다.

3) 척도유형 결정

척도유형에 따라 개발 방법이 다르므로, 척도유형을 먼저 결정합니다.

4) 문항 생성

여러 개의 항목을 생성합니다.

항목생성 시 관측대상인 개체나 범주의 속성(특성)이나 관측목적, 관측방식 등을 고려해야 합니다.

도메인 내의 구성요소나 구성요소와 연결된 특성을 고려하고, 데이터수집을 위한 관측도구의 목적과 측정방식 등을 고려합니다.

5) 문항 검토 및 문항 수정

생성된 문항들에 대해 검토를 수행합니다. 이 과정에서 문항들의 유형, 내용, 언어 등을 확인하고, 중복된 문항, 혼란스러운 문항, 문맥에 부적합한 문항 등을 제거하거나 수정합니다.

6) 척도개발 및 척도검증

선정된 문항들을 기반으로 척도를 개발합니다. 척도 유형에 따라 척도 개발 방법이 다르며, 각 문항들의 가중치, 점수 범위, 객관적 테스트 등을 고려합니다. 이후, 개발된 척도를 검증하기 위해 신뢰성, 타당성, 일관성 등에 대한 검증을 수행합니다. 이를 위해 적절한 통계분석 방법을 사용합니다.

7) 보고서 작성

마지막으로, 개발된 척도와 검증결과에 대한 보고서를 작성합니다. 보고서는 척도의 개념, 목표, 유형, 개발과정 및 검증과정, 검증결과 등을 설명하며, 척도의 사용자들이 척도를 올바르게 사용할 수 있도록 지침서 등을 포함하여 작성합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia


척도와 수체계
scale & number system

1. 애니메이션

1.1. 수체계


2. 설명

2.1. 수체계

2.2. 척도에 따른 수체계

2.3. 유한수체

2.4. 척도에 유한수체를 적용

2.5. 리커트척도


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



수체계

2. 설명

2.1. 수체계

수체계(system of numbers)란 수학에서 사용되는 숫자들의 집합과 그들 간의 연산들의 규칙이 결정되어 있는 체계를 말합니다. 대표적으로 자연수, 정수, 유리수, 실수, 복소수 등이 있습니다. 여기서, 복소수는 실수를 실수는 유리수를 유리수는 정수를 정수는 자연수를 포함합니다. 다르게 말하면, 자연수는 정수의 부분집합이고 정수는 유리수의 부분집합이고 유리수는 실수의 부분집합이고 실수는 복소수의 부분집합입니다. 수체계는 속성을 표현하는 변수를 모델링하기 때문에 속성이 반응하여 현상을 분석하여 문제를 해결하는 방법의 기반을 제공합니다. 

자연수

자연수(自然數, natural numbers)는 1, 2, 3, 4, 5, … 와 같이 기준의 양인 1과 그 기준의 합의 양으로 이루어진 집합입니다. 자연수 체계에서는 덧셈과 곱셈이 정의되어 있습니다. 즉, 두 자연수를 더하거나 곱할 때에는 반드시 자연수가 나옵니다. 하지만 자연수에서 자연수를 빼는 뺄샘과 자연수를 자연수로 나누는 나눗셈의 결과는 자연수가 아닐 수도 있습니다.

정수

정수(正數, integers)는 자연수에 0과 음의 자연수를 추가한 것입니다. 어떤 자연수의 음의 자연수는 그 자연수에 더하면 덧셈의 항등원인 0이 되는 수입니다.  이러한 정수에서는 덧셈과 곱셈 외에 뺄셈도 정의되어 있습니다. 즉, 두 정수를 더하거나 빼거나 곱하면 반드시 정수가 나옵니다. 단, 정수를 정수로 나누는 나눗셈의 결과는 정수가 아닐 수도 있습니다.

유리수

유리수(有理數, rational numbers)는 정수에 분수의 형태로 나타낼 수 있는 수를 추가한 것입니다. 분수는 정수를 0을 제외한 정수로 나눈 것입니다. 유리수에서는 덧셈, 뺄셈, 곱셈, 나눗셈이 모두 정의되어 있습니다. 즉, 두 유리수를 더하거나 빼거나 곱하거나 나눈 결과도 모두 유리수가 됩니다. 유리수는 정수와 소수(小數, decimal)의 합으로 표현합니다. 여기서 소수(小數)는 0과 1사이의 값을 의미하며 십진법으로 표현합니다. 그리고 소수점(小數點, decimal point)은 십진법에서 정수(正數)와 소수(小數)를 구분하는 점입니다. 따라서 유리수를 십진법으로 표현하면 정수(正數)와 소수(小數)의 합이라고 할 수 있습니다. 유리수는 소수점이하 자리수가 유한한 유한소수(有限小數, finite decimal)와 무한한 무한소수(無限小數, infinite decimal, infinite series)로 표현할 수 있습니다. 한편, 제곱해서 2가 되는 수(2의 제곱근)와 원의 반지름과 면적의 비율을 나타내는 수(원주율)는 분수의 형태로 표현할 수 없는 데 이를 무리수(無理數, irrational numbers)라고 합니다.

실수

실수는 유리수에 무리수를 추가한 것입니다. 실수는 무한소수나 극한값을 이용하여 나타낼 수 있으며, 실수에서는 덧셈과 곱셈, 나눗셈, 제곱근, 거듭제곱근 등이 정의되어 있습니다.

복소수

복소수는 실수에 허수를 추가한 것입니다. 허수는 제곱하면 음수가 되는 수입니다. 허수의 양의 기준은 i로 표현합니다. 복소수는 실수와 허수를 더한 형태로  a와 b가 실수일 때, a+bi와 같은 형태로 나타냅니다. 복소수에서는 사칙연산이 정의되어 있습니다. 실수는 시각적으로 직선상의 점으로 표현할 수 있지만 복소수는 2차원 평면인 복소평면에서 원점을 시작으로 하는 벡터로 표현합니다.


2.2. 척도에 따른 수체계

비례척도에 따른 데이터의 수체계

척도에 따라 데이터(관측값)의 수체계가 결정됩니다. 비례척도가 적용된 관측도구로 구한 관측값(데이터는) 0과 양의 실수입니다. 실수를 정의역으로하는 정규분포와 같은 확률변수의 분포모델을 사용하여 범주간의 속성을 비교분석하거나 표본으로 모집단을 추론하거나 생성될 표본을 예측할 수 있습니다. 간격척도로 구한 데이터의 기준을 관측대상의 속성이 없어지는 절대영점으로 0으로 하고 기준으로부터의 간격척도의 각 간격의 값을 알면 실수에서 정립된 통계모델을 사용할 수 있습니다. 정리하면 명목척도로 관측된 데이터에 순서를 부여하고 간격을 부여하고 데이터가 표현하는 속성이 없어지는 0점을 찾으면 실수체계에서 정립된 통계모델을 사용하여 데이터분석을 수행할 수 있습니다. 반대로 비례척도와 간격척도를 인간과 친화적인 명목척도, 순서척도로 변화하기도 합니다.

통계적 분석을 위해서 명목척도와 순서척도를 간격척도나 비례척도로 변환

개체의 속성에 대한 분석을 하기 위해서는 우선 속성을 나타내는 변수를 관측하여야 합니다. 변수를 관측함에 있어 비례척도를 적용할 수 있도록 변수를 정의하는 것이 매우 중요합니다. 그 이유는 개체의 속성을 나타내는 변수가 확률변수이면 통계적인 분석을 시도할 수 있기 때문입니다. 그리고 대다수를 차지하는 속성인 정규분포를 분석하기 위해서는 평균과 분산이 필요합니다. 정규분포를 가지는 개체의 속성은 매개변수인 평균과 분산으로 표현됩니다. 여기서, 평균과 분산은 비례척도로 얻은 데이터로부터 추정할 수 있다는 점에서 비례척도의 효용성이 크다고 할 수 있습니다. 비례척도로 구한 데이터로는 높은 수준의 통계적 분석을 행 할 수 있습니다. 또한 시공간에서 모델링한 범주의 확률적 속성을 통한 예측을 행할 수도 있습니다. 한편, 간격척도를 비례척도화하는 방법의 예로는 다음 두 과정이 있습니다. 첫번째로 간격척도의 간격을 등간격으로 하고 등간격과 비례척도의 1과의 관계를 수식으로 표현합니다. 두번째로 간격척도의 위치의 원점과 비례척도의 0의 위치와의 관계를 수식으로 표현합니다. 분포의 위치를 표현하는 측도는 평균이 있고 분포의 크기를 표현하는 측도는 분산이 있습니다. 따라서 평균과 분산을 모두 구하기 위한 데이터(관측값)를 얻기 위해서는 비례척도를 가진 관측도구(측정도구)가 필요합니다.


2.3. 유한수체

유한수체(유한체, finite field, Galois field)는 원소의 개수가 유한한 체(field)를 말합니다. 유한수체의 특징은 그 크기가 항상 소수의 거듭제곱 형태로 나타납니다.

$$p^n$$

여기서, $p$는 소수(prime number)

$n$은 자연수

유한수의 체(field)는 덧셈, 뺄셈, 곱셈, 나눗셈(0으로 나누는 것 제외)에 대해 닫혀 있는 대수적 구조를 의미하며, 이러한 연산에 대해 다음과 같은 공리를 만족합니다.

닫힘: 체의 모든 원소에 대해 덧셈과 곱셈 연산을 수행해도 결과는 항상 체 내의 원소입니다.

결합 법칙: 덧셈과 곱셈 모두에 대해 결합 법칙이 성립합니다.

가환 법칙: 덧셈과 곱셈 모두에 대해 가환 법칙이 성립합니다.

항등원의 존재: 덧셈에 대한 항등원(0)과 곱셈에 대한 항등원(1)이 존재합니다.

역원의 존재: 체의 모든 원소, a에 대해 덧셈 역원(-a)과 곱셈 역원(1/a, a ≠ 0)이 존재합니다.

분배 법칙: 곱셈과 덧셈에 대해 분배 법칙을 만족합니다.

 

유한수체의 예

유한수체의 간단한 예는 2진수와 5진수가 있습니다. 7진수가 있습니다. 모두 크기가 소수(素數)입니다. 2진수는 0과 1의 두 개의 수의 집합입니다. 2진수는 이분척도(binomial scale)인 “있음과 없음” 또는 “성공과 실패” 라는 개념으로 바꿀 수 있습니다. 5진수는 등간격인 숫자로 이루어진 {0,1,2,3,4}이고 집합의 크기인 5는 소수(素數)입니다. 10진수는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9라는 10개의 숫자기호로 나타냅니다. 10진수의 개수는 10으로 소수(素數)가 아닙니다. 


2.4. 척도에 유한수체를 적용

척도가 유한수체를 나타내면 관측결과를 수치화하여 산술연산하더라도 서로 다른 정도를 나타냄을 보장합니다. 그리고 범주의 속성을 결정하는 척도의 각 항목은 명시적으로 구분할 수 있어야 합니다. 즉, 범주형 속성의 값은 서로 이질적이고 상호 배타적이어야 합니다.

명목척도에 유한수체를 적용

유한수체를 명목척도에 적용하기 위해 명목척도의 명목의 수를 소수(素數)로 합니다. 그리고 개체의 범주형 속성에 명목과 순서를 부여하여 각 범주를 순서대로 나열합니다. 순서대로 나열된 범주 사이에 수치를 가지는 간격을 부여하여 질적데이터를 양적데이터로 모델링합니다. 간격이 부여된 범주형 데이터는 데이터를 분석하여 위치를 나타내는 속성을 분석할 수 있습니다. 여기서 범주의 개수가 소수이면 범주의 위치 속성을 연속으로 모델링할 수 있습니다. 또한,  범주의 속성이 무(無)가 되는 0을 모델링하여 절대기준으로하고  양의 크기의 기준인 1과 그 단위를 모델링하면 범주의 명목을 범주형 확률변수에서 연속형 확률변수로 변환할 수 있습니다. 즉, 범주의 위치의 속성과 범주내의 개체의 퍼짐의 속성을 동시에 분석할 수 있습니다. 연속형 확률분포를 가지는 통계모델의 확률분포 모수(parameter)를 구하면 궁극적으로 개체의 속성을 생성하는 확률모델을 추정할 수 있습니다.  


2.5. 리커트척도

5점척도, 7점척도

 리커트척도(Likert scale)의 첫 단계를 속성이 존재하지 않는 상태로 하고 마지막 단계를 속성이 모두 있는 상태로 하는 순서척도(ordinal scale)입니다. 각 단계의 개수를 5단계, 7단계인 소수로 하고 각 단계에 간격을 부여하여 간격척도로 변환합니다. 리커트척도의 예를 보면,  “매우 그렇다”, “다소 그렇다”, “보통이다”, “다소 그렇지 않다”, “매우 그렇지 않다”와 같이 5단계를 텍스트로 표현합니다.  텍스트로 표현된 단계를 각각 0, 1, 2, 3, 4와 같은 5진수로 하여 리커트척도를 유한수체로 만듭니다. 이 리커트척도로 구한 데이터(관측값)를 연산한 결과는 유한수체의 공리를 만족합니다.

리커트척도를 적용한 관측도구

척도는 관측대상을 관측하는 관측도구에 적용됩니다. 그리고 척도는 관측대상인 개체의 속성을 표현합니다. 척도는 명목척도, 순서척도, 간격척도, 비례척도로 분류할 수 있습니다. 일반적인 리커트척도는 순서척도입니다. 관측도구는 적절한 척도를 포함하고 있어야 하고 정확하고 효율적이어야 합니다. 리커트척도가 적용된 관측도구는 범주형 속성을 가지는 개체의 속성의 범주와 그 범주의 순서를 관측합니다. 순서척도인 리커트척도에 간격을 부여하여 간격척도로 변환할 수 있습니다. 더 나아가 속성을 양(quantity, 量)으로 모델링하고 양의 기준(“0” 과 “1”)을 정의하여 리커트척도를 비례척도로 변환할 수 있습니다. 사회과학에서 리커트척도를 가지는 대표적인 관측도구는 설문이 있습니다.  

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


리커트 척도

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다.

척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다.

특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

 

Reference

Likert scale – Wikipedia


척도와 측도
scale & measure

1. 애니메이션

1.1. 순서척도와 간격척도

1.2. 분위수와 간격척도

1.3. 비율척도


2. 설명

2.1. “0”의 의미

2.2. “1”의 의미

2.3. 척도

2.4. 측도

2.5. 측도로서의 확률


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



순서척도와 간격척도




분위수와 간격척도




비율척도

2. 설명

2.1. “0”의 의미

척도의 의미를 이해하는데 있어, 척도에서 사용한 “0”에 대한 이해가 선행되어야 합니다.

실체의 부재

실체를 정의하고, 그 실체가 없음을 나타낼 때, 0을 사용합니다. 예를 들어, 사과가 0개 있다는 의미는 사과가 무엇인지 정의하고, 그 정의에 맞는 사과가 없음을 의미합니다.

균형의 의미

양의 값과 음의 값, 혹은 양의 크기와 음의 크기가 있을 때, “0”은 그 양쪽의 값, 크기가 같아서 균형이 이룸을 의미합니다. 예를 들어, 이익이 0이라고 한다면, 손실과 이익이 없거나, 손실과 이익의 크기가 같아서 균형을 이룸을 의미합니다.

기준의 의미

시간의 시작 시점은 정의를 내리기 어렵기 때문에 양을 측정하기도 어렵게 됩니다. 그래서, 특정 시점을 기준으로 둘 수 있습니다.  엑셀, 구글시트와 같은 스프레드시트에서는 1899년 12월 30일 오전 12시를 기준으로 하는데, 이를 숫자로 변환하면 “0”입니다. 1를 더하면, 1899년 12월 31일 오전 12시가 되고, 0.1를 더하면, 1899년 12월 30일 오전 2시 24분이 됩니다.

자리 표시자

“0”은 숫자 체계에서 자리 표시자로 사용되기도 합니다. 10진법에서 100이라는 숫자는 10의 2승이 1개, 10의 1승이 0개, 10의 0승이 0개라는 의미인데, 100에서 1은 백의 자리 수이고, 두번째 0은 십의 자리 수, 세번째 0은 일의 자리 수입니다.

덧셈의 항등원

덧셈의 항등원으로서의 0는 어떤 수와 0을 더해도 그 수가 변하지 않는 수입니다. 예를 들어, 5 + 0 = 5, 10 + 0 = 10, -2 + 0 = -2와 같은 식으로 0은 어떤 수를 더해도 그 수에 영향을 미치지 않습니다.


2.2. “1”의 의미

척도의 의미를 이해하는 데 있어서 ‘0″과 마찬가지로 “1”에 대한 이해가 우선되어야 합니다.

실체의 존재와 양을 측정

실체를 정의하고, 그 실체가 있음의 완전함을 표현할 때, 1을 사용합니다. 예를 들어, 사과가 1개 있다는 의미는 사과가 무엇인지 정의하고, 그 정의에 맞는 사과가 있음을 의미합니다.

곱셈의 항등원

숫자 1은 소수도 합성수도 아닌 유일한 수입니다. 어떤 수든 1을 곱하면 원래의 수가 되며, 1은 곱셈의 항등원입니다.

확률에서 1

확률에서 1은 “확실이 출현할 사건이나 합사건”을 표현합니다. 사건의 확률은 일반적으로 0부터 1 사이의 값을 가지며, 0은 “불가능한 사건”을, 1은 “확실한 사건”을 나타냅니다.

예를 들어, 동전 던지기에서 앞면과 뒷면이 완벽히 같은 동전이라면 앞면이 나올 사건의 확률은 0.5로, 앞면이 나오지 않을 사건의 확률은 0.5으로 표현합니다. 이 경우, 앞면과 뒷면이 같지 않은 동전이라도 앞면 또는 뒷면이 나올 확률은 합은 1이 됩니다. 즉, 동전을 던지면 앞면과 뒤면 중에 반드시 한면은 나오므로 앞면이 나오는 사건과 뒤면이 나오는 사건의 합사건의 확률은 1이 됩니다.

따라서, 확률이 1인 사건은 반드시 발생하며, 그 반대인 확률 0인 사건은 발생하지 않습니다. 예를 들어, 동전 던지기에서 앞면과 뒷면이 아닌 다른 면이 나올 확률은 0입니다(혹은 0이라고 가정합니다).


2.3. 척도

척도(scale)는 어떤 변수를 측정할 때 사용되는 기준이나 체계를 의미합니다. 통계학에서 변수는 어떤 대상의 속성을 표현하는 값으로, 예를 들어 나이, 키, 체중 등이 있습니다. 이러한 변수를 측정할 때는 척도를 정의하고 그 척도를 사용하여 변수값을 관측합니다. 관측된 변수값을 데이터라고 부릅니다. 일반적으로 척도는 4가지 유형으로 구분됩니다.

명목척도(nominal scale)

명목척도는 변수의 구분을 위한 척도로, 서로 구별되는 범주(카테고리)를 사용합니다. 예를 들어, 성별, 혈액형, 학과 등이 명목척도에 해당합니다. 명목척도의 관측값은 서로 비교할 수 없으며, 오직 분류(카테고리화)의 목적으로 사용됩니다.

순서척도(ordinal scale)

순서척도는 명목척도로 관측대상을 분류한 범주의 순서 혹은 등위의 정보를 더하여 위한 척도입니다. 로, 명목척도와 마찬가지로 범주형 변수를 측정합니다. 예를 들어, 학생들의 성적 등급(상, 중, 하), 인기순위(1위, 2위, 3위…) 등이 순서척도에 해당합니다. 순서척도는 관측값 사이의 상대적인 크기 비교가 가능하지만, 각 관측값의 차이에 대해서는 정확한 의미를 가지지 않습니다.

간격척도(interval scale)

간격척도는 간격을 관측하는 척도입니다. 관측대상의 속성의 위치와 기준과의 간격을 관측하거나 두 관측대상의 속성의 위치의 간격을 관측하여 관측값을 나타냅니다. 간격의 관측값은 양적 데이터(수치형 데이터)입니다. 예를 들어, 섭씨 온도, 시간, 나이 등이 간격척도에 해당합니다. 간격척도는 순서척도의 특징을 포함하며, 각 관측값의 차이에 대해서 정확한 의미를 가지려면 두 관측대상의 속성이 공유하는 0점을 갖지 않는 경우가 많기 때문에 두 관측값의 비교나 여러 관측값간의 비례 계산에는 제한이 있을 수 있습니다.

비율척도(ratio scale)

비율척도는 간격척도의 특성에 더하여 절대적인 0점을 갖는 척도로, 관측값의 비율 계산이 가능합니다. 따라서 관측대상의 속성이 절대적인 기준이 있는 양으로 표현될 수 있는 경우에 사용합니다. 비율척도 기준으로는 “절대적 영점 (Absolute Zero)”을 사용합니다. 절대적 영점은 해당 측정값이 0일 때 해당 속성이 완전히 부재함을 나타내는 지점을 의미합니다. 비율척도로 관측하는 관측대상의 속성에는 무게, 길이, 속도, 가계수입 등이 있습니다. 예를 들어, 온도를 비례척도로 측정할 때, 켈빈(Kelvin) 온도 척도(scale)에서는 0 K (절대 영점)이 온도가 없음을 나타냅니다. 이러한 비율척도에서는 절대적 영점을 기준으로 양의 방향으로 측정값을 해석할 수 있습니다.

비율척도는 4가지의 척도 중에서 가장 높은 데이터(관측값)에 대한 분석이 가능한 수준입니다. 명목척도와 순서척도와 간격척도의 모든 특성을 갖고 있으며 더하여 절대적인 의미를 가지는 “0”점을 가지는 척도입니다. 비율척도는 관측대상의 속성이 크기를 가지며, 크기가 없는 0이 정의되고 크기의 기준인 1이 정의 되는 척도입니다. 따라서 관측대상의 속성이 크기가 있고 그 크기가 기준과 비교할 수 있는 경우에 사용되는 척도입니다. 따라서 비율척도로 관측한 여러 관측대상의 관측값의 비도 의미를 가지게 됩니다.

예를 들어, 어떤 제품의 무게를 측정하는 경우, 무게가 0인 상태(아무것도 없는 상태)를 절대적인 0점으로 정하고, 그 상태에서 관측된 무게 값들 사이의 비율을 계산할 수 있습니다. 즉, 이 경우에는 2kg의 무게가 1kg의 무게보다 2배 더 크다는 의미를 가집니다.

또한, 비율척도는 대부분의 수학적 연산이 가능합니다. 비율척도로 표현한 관측값은 덧셈, 뺄셈 뿐만 아니라 곱셈, 나눗셈의 연산이 모두 가능합니다. 따라서 비례척도로 구한 데이터(관측값)는 사칙연산을 사용하여 구하는 평균, 분산 등의 집단의 속성을 나타내는 측도를 계산할 때 사용할 수 있습니다. 정리하면 비율척도로 구한 개체의 데이터는 개체가 속한 집단의 측도를 계산하는 데 사용할 수 있고 원점이 같기 때문에 측도를 이용한 집단의 비교와 같은 통계적 분석이 가능합니다.

그러나 비율척도는 적용 가능한 변수가 제한적이라는 단점이 있습니다. 즉, 관측대상의 속성이 양을 가져야 하고 양의 기준인 “0”과 “1”이 존재해야 합니다. 또한 간격척도의 특성인 위치의 기준도 가지고 있어야 합니다.  이 때 간격척도의 위치 기준을 “0”으로 하고 비율척도의 양의 기준을 “0”과 “1”로 한다면 두 척도의 기준에 적용한 두 “0”사이의 관계를 명확히 나타낼 수 있어야 합니다. 예를 들어, 인간의 키는 비율척도로 관측할 수 있지만, 인간의 지능이나 인간의 성격 등의 변수는 크기의 “0”과 “1”을 정의하기가 어렵습니다. 따라서 인간의 지능이나 성격을 비율척도로 관측하려면 많은 조건이나 가정이 필요합니다. 즉, 어떤 개체의 속성을 분석하기 위해서는 비율척도를 적용하여 사칙연산이 가능한 데이터를 얻어야 합니다. 따라서 관측대상의 속성에 조건이나 가정을 제시하는 과정과 방법에 대한 많은 연구가 있게 됩니다.


2.4. 측도

측도(measure)란, 수학적으로 정의된 집합 위에 값을 부여하는 함수를 말합니다. 예를 들어, 실수 집합에서 정의된 함수 f(x)가 있을 때, 이 함수가 어떤 부분 집합 A의 원소 x에 대해 f(x) 값을 부여하면, 이 함수 f(x)는 집합 A 위에 측도를 정의한다고 말할 수 있습니다.

측도는 기하학, 확률론 등 다양한 분야에서 사용됩니다. 기하학에서는 크기를 가지지 않는 점의 위치를 표현하는 척도에 더하여 길이,  면적, 부피 등의 크기를 가지는 개념을 표현하는 데에 측도를 도입합니다. 확률론에서도 공간의 개념을 적용하여 확률공간에서 사건의 확률을 정의할 때 측도를 사용합니다. 확률은 크기(양)을 나타내며 공간상에서 확률의 분포를 표현할 때 측도로서의 확률이 적용됩니다. 또한 확률공간에 사건의 결과를 표현하는 집합은 공간에 출현하는 개체가 속한 집합이라고 할 수 있습니다. 여기서, 집합은 관측이나 분석의 대상에 따라 범주(category), 집단(group), 수준(level), 표본(sample), 모집단(population) 등의 용어로 대치될 수 있습니다.

측도는 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 비음수성 (Non-negativity): 측도가 정의된 모든 집합에 대해 측도의 값은 0 이상이어야 한다.
2) 가법성 (Additivity): 서로소인 두 집합의 측도의 합은 합집합의 측도와 같아야 한다.
3) 치환 불변성 (Translation invariance): 집합에 대해 어떤 이동이 발생해도 측도의 값은 변하지 않아야 한다.


2.5. 측도로서의 확률

확률

확률(probability)은 사건(event)과 대응됩니다. 사건은 시행(try)이 있을 때마다 일어납니다. 예를 들어, “동전을 던져서 관측하기”라는 시행이 있으면 “윗면이 나오는 사건”과 “뒷면이 나오는 사건”이 일어납니다. 동전던지기 시행을 무한히 반복하면 각 사건의 통계적 확률을 구할 수 있습니다. 이 때 확률을 사건에 매칭하기 위해 표본공간(sample space)을 정의해야 합니다. 표본공간은 “일어나지 않는 사건”과 “모든 사건의 합사건”을 포함하여 일어날 수 있는 모든 사건이 원소인 집합입니다. 또한 동전을 개체(object)라고 한다면 사건은 개체를 관측하여(observe) 구한 개체의 속성이라고 할 수 있습니다. 동전을 관찰하면 동전이 앞면과 뒷면의 속성을 갖고 있음을 알 수 있습니다. 속성은 시행(try, test)의 결과를 관측하여(observe) 표현할 수도 있습니다. 따라서 사건은 개체가 나타내는 “범주형 속성”이라고 할 수 있습니다. 범주와 마찬가지로 사건도 집합으로 표현할 수 있습니다.

확률(probability)의 고전적 정의는 시행에서 가능한 모든 사건인 표본공간의 원소수에 대한 사건(event)의 원소수입니다. 여기서, 표본공간을 사건으로 대응하면 표본공간의 확률은 1이됩니다. 쉽게 말하면 시행에서 가능한 모든 경우의 수에 대한 사건이 가지는 경우의 수입니다. 확률은 시행에서의 모든 빈도에 대한 사건의 빈도인 “상대빈도”로도 설명할 수 있습니다.

확률공간

공간에는 범주가 있고 범주의 속성을 나타내는 측도에는 그 범주의 확률이 있습니다. 공간의 범주에 그 범주의 속성인 확률을 표현할 수 있으면 그 공간을 확률이 나타나는 공간인 확률공간(probability space)이라 합니다. 확률공간은 확률론에서 확률을 정의하는 데에 사용되는 수학적 개념입니다. 확률공간은 표본공간, 사건의 집합, 확률측도의 3요소로 이루어져 있어서 “triple”이라고도 불립니다. 표본공간, 사건의 집합, 확률측도가 모두 정의되면, 이를 이용하여 확률을 표현할 수 있습니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 “P({앞면})”로 표현할 수 있습니다.

확률공간의 3요소

1. 표본공간(Sample space)

시행(try)의 가능한 모든 결과의 집합입니다. 예를 들어, 동전 던지기라는 시행에서 샘플 공간은 {앞, 뒤}입니다.

2. 사건공간(Event space)

사건공간은 사건의 집합입니다. 사건공간을 시그마-대수(Sigma- algebra)라고도 합니다. 사건공간은 표본공간의 부분집합의 집합으로서, 가능한 사건들의 집합입니다. 예를 들어, 동전던지기 시행(try)에서 가능한 시행의 결과인 사건(event)들은 {앞면}, {뒷면}, {앞면,뒷면}, {   }  등이 있습니다. 사건을 서술형으로 설명하면 {앞면}은 “주사위를 던져서 앞면이 나오는 사건”입니다. {뒷면}은 “주사위를 던져서 뒷면이 나오는 사건”입니다. 표본공간이기도 한 {앞면, 뒷면}은 주사위를 던져서 앞면 또는 뒷면이 나오는 사건”입니다. 공집합인 {   }은 “주사위를 던져서 앞면과 뒷면이 나오지 않는 사건”입니다. 사건의 집합은 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 공집합과 표본공간은 사건공간의 원소이다.

2) 어떤 사건의 여집합(complement)도 사건공간의 원소이다.
3) 임의의 사건들의 합집합(union)도 사건공간의 원소이다.

3. 확률측도(Probability measure) : P

확률은 집합을 표현하는 측도 중의 하나입니다. P는 사건의 집합, A에 속하는 각각의 사건에 대한 확률 값을 정의한 이산형 함수(discrete function)입니다. 이 함수는 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 모든 사건, A에 대해 P(A)는 0 이상의 실수이다.
2) 표본공간, S에 대해 P(S) = 1 이다.
3) 어떤 사건들의 합집합이 서로소일 때, 그들의 확률의 합은 전체 집합의 확률과 같습니다. 즉, $\rm{A_1, A_2, \ldots}$가 서로소인 사건들이고 이들의 합집합이 A일 때, $\rm{P(A) = P(A_1) + P(A_2) + \ldots}$이다.

사건의 서로소

두 집합이 서로소(disjoint, mutually exclusive)라고 하는 것은 두 집합이 공통된 원소가 없음을 의미합니다. 즉, 교집합이 원소가 없는 공집합임을 말합니다. 더 나아가 두 사건이 서로소라는 말은, 두 사건의 결과를 표현한 집합이 서로소임을 의미합니다. 두 집합의 교집합이 공집합임을 의미합니다. 이 때의 두 사건을 서로 배타적인 사건 또는 서로 교차하지 않는 사건이라고 합니다.

서로소는 확률론에서 매우 중요한 개념입니다. 두 사건이 서로소일 때, 이들의 확률의 합은 각 사건의 확률의 합과 같습니다. 즉, P(A ∪ B) = P(A) + P(B) 입니다. 이를 이용하여, 서로소인 사건들의 확률을 계산할 때, 사건들의 확률을 더하여 쉽게 계산할 수 있습니다. 예를 들어, 동전 던지기에서 “앞면이 나오는 사건”과 “뒷면이 나오는 사건”은 서로소입니다. 이는 “앞면이 나오는 사건”과 “뒷면이 나오는 사건”이 교집합을 가지지 않기 때문입니다. 또한, 두 집합이나 사건이 서로소일 때, 이들의 합집합은 각 집합의 크기의 합과 같습니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 용어

4.1 용어


리커트 척도

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다.

척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다.

특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

Reference

Likert scale – Wikipedia


데이터 선택과 분리 ?
Data selection and separation ?

1. 애니메이션

1.1. 데이터 선택

1.2. 데이터 분리


2. 설명

2.1. 데이터 선택과 분리


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



데이터 선택




데이터 분리


2. 설명

2.1 데이터 선택과 분리

데이터를 살펴보면 첫번째 열은 요소명입니다. 즉, 딸기의 당도를 측정할 때 부여한 딸기 번호입니다. 그래서 딸기의 특성을 나타내는 데이터가 아닌 측정편의상 부여한 것입니다.

 

필요한 데이터를 분리하면 변수명인 당도와 20개의  변수값인 데이터입니다. 20개의 당도 데이터와  딸기개수로 총 21개의 데이터를 분리해 내었습니다. 즉, 데이터 개수인 20이라는 숫자도 중요한 데이터로 취급됩니다. 데이터를 분리하여도  당도라는 변수명은 그대로 사용합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=SUM(B3:B22) : 합계. 


3.3. 실습강의

데이터 복사

데이터 참조



4. 용어와 수식

4.1 용어

정형데이터 ?
Structured data ?

1. 애니메이션

1.1. 정형데이터의 요소(element)

1.2. 정형데이터의 변수(variable)

1.3. 정형데이터의 요소명과 변수


2. 설명

2.1. 정형데이터

2.2. 척도와 속성의 대응


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



정형데이터의 요소(element)




정형데이터의 변수(variable)




정형데이터의 요소명과 변수




정형데이터

2. 설명

2.1 정형데이터

정형데이터는 개체의 속성을 관측한 결과를 데이터시트로 표현한 것이라고 할 수 있습니다. 정형데이터는 관측된 각 개체와 개체의 속성이 특정하는 칸이 쌓여있는 모습을 나타냅니다. 관측된 각 개체는 고유이름인 ID로 구분되며 개체의 속성은 변수로 취급됩니다. 따라서 개체의 속성명은 변수명과 같습니다. 관측한 변수값(variable value)을 데이터(data)라고 합니다. 각 개체의 개체명과 그 개체의 속성의 관측값을 요소(element), 기록(record), 예(example) 등이라 하며 행(row)으로 표현합니다. 개체의 속성을 변수로 보면 개체의 속성명은 변수명이 되고 각 개체의 속성을 관측한 결과는 변수값이 됩니다. 개체의 속성은 변수로 모델링됩니다. 따라서 개체의 속성은 하나의 변수명과 여러 변수값으로 구성된 열(column)로 표현됩니다.

 

정형데이터는 계열(series, sequence, family)이 모여있는 집합이라고 할 수 있습니다. 계열은 “열(column)”로 표현한 변수를 말합니다. 변수(variable)는 변수명(variable name)과 변수값(variable value)로 구성되어 있습니다. 특별히 시계열(time series)은 변수값과 관측한 시각정보가 대응되어 있고 차순으로 정리되어 있는 계열을 말합니다.

 

정형데이터는 요소(element)가 모여 있는 집합이라고 할 수 있습니다. 요소는 가로줄 “행”으로 표현되며 개체(object) , 기록(record)이라고도 합니다. 각 요소는 요소명(element name)과 변수값(variable value)으로 구성됩니다. 예를 들어 인간을 요소로 보면 각 인간은 키와 체중이라는 이름을 가지는 속성을 가지고 있습니다. 개체의 속성을 변수로 표현합니다. 개체의 속성을 관측한 결과는 좁은 의미의 데이터이며 변수값, 관측값, 측정값, 관찰값 등으로 불리웁니다.


2.2. 척도와 속성의 대응

정형데이터는 관측대상의 속성을 관측도구로 관측하여 얻습니다. 관측도구에는 척도(scale)가 적용되어 있습니다. 척도의 종류에는 명목척도, 순서척도, 간격척도, 비례척도가 있습니다. 명목척도와 순서척도가 적용된 관측도구로는 관측대상이 개체인 경우 개체의 속성을 표현하는 범주형데이터를 얻을 수 있습니다. 범주형데이터는 개체가 가지는 속성에 따라 개체가 속하는 범주를 표현합니다. 따라서 이 경우에는 범주형데이터는 개체가 속하는 범주명을 의미합니다. 명목척도는 개체를 구분하는 범주만을 나타내지만 순서척도는 범주에 범주의 순서의 정보를 더해서 개체를 표현합니다. 간격척도는 순서를 가지는 범주에 위치의 정보를 더해줍니다. 비례척도는 위치를 가지는 범주에 양(quantity)의 정보를 더합니다. 간격척도와 비례척도는 개체의 범주형 속성을 표현할 수 있지만 개체의 연속형 속성을 표현할 때 주로 사용합니다. 척도는 기준이 필요합니다. 또한, 정형데이터를 얻으려면 관측대상인 개체의 속성과 척도의 기준의 대응이 필요합니다. 대응을 하려면 순서척도, 간격척도, 비례척도에서는 속성의 단위가 필요합니다.

척도기준에 단위적용

  명목척도 순서척도 간격척도 비례척도
관측대상인 개체의 속성 범주형 범주형 연속형 연속형
척도기준의 요구사항 범주의 독립성 순서의 방향 위치(position) 양(quantity)
척도기준 서로 다른 범주명

차순

0 :위치의 기준

0 : 양의 없음

1 : 양의 기준

예) 개체 : 개체의 속성 

딸기 : 품종

한우 : 품질

딸기 : 출하월

딸기 : 당도

예} 개체의 속성 : 척도 품종 : 설, 아키

품질 : 1등급, 2등급, … , 5등급

출하월 : 1월, 2월, … , 12월

당도 : Brix*

예) 척도기준에 단위적용

차순은 오름차순

0은 이전해 12월

0은 0Brix 

1은 1Brix 

* Brix는 용액 100g당 설탕의 무게(g)

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


정형데이터 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 비정형 데이터 요약

– 비정형 데이터 시각화

– 정형 데이터 요약

– 정형 데이터 시각화

– 정형 데이터 활용


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

 

Reference

Data set – Wikipedia



4.2. 참고문헌

데이터종류 ?
Data type ?

1. 애니메이션

1.1. 데이터종류


2. 설명

2.1. 척도에 따른 데이터종류

2.2. 속성에 따른 데이터종류

2.3. 대상에 따른 데이터종류

2.4. 가공에 따른 데이터종류

2.5. 질적/양적데이터와 도수데이터 비교

2.6. 순서가 있는 데이터


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

 

1. 애니메이션



데이터종류

 

2. 설명

2.1. 척도에 따른 데이터종류

질적데이터는 수치가 아닌 기호로 표현된 데이터입니다. 질적데이터는 명목척도와 순서척도로 구한 데이터입니다. 양적데이터는 수치로 표현된 데이터입니다. 양적데이터는 간격척도와 비례척도로 구한 데이터입니다.

질적데이터

질적데이터는 수치로 표현되지 않은 데이터(관측값)입니다. 질적데이터는 명목척도와 순서척도를 사용하여 구한 데이터입니다. 질적데이터는 수치가 아닌 기호로 표현됩니다. 질적데이터는 개체명, 개체가 속하는 범주명, 순서와 같이 관측대상의 질적 정의를 의미합니다. 숫자를 기호로 취급하여 개체의 이름(명목)을 정의한 질적데이터도 있습니다. 질적데이터는 명목척도와 순서척도로 관측한 관측값입니다.

양적데이터

양적데이터는 수치로 표현된 데이터입니다. 여기서, 수치는 위치나 양을 표현하는 수를 의미합니다. 양적데이터는 간격척도와 비례척도로 관측한 관측값(데이터)입니다. 양적데이터는 수치를 의미하여 그 수치는 관측대상(개체)의 속성의 위치 또는 크기를 의미합니다. 여기서 위치는 간격척도로 관측되며 크기는 비례척도로 관측됩니다. 간격척도는 위치의 기준(척도의 0)이 있으며 비례척도는 크기의 기준(척도의 1)이 있어야 합니다. 간격척도로 관측한 데이터(관측값)는 더하기와 빼기는 가능하나 곱하기와 나누기는 할 수 없습니다. 비례척도로 관측한 관측값(데이터)은 사칙연산인 가감승제가 모두 가능합니다.

질적데이터를 구하는 척도

관측대상으로서 사람이라는 개체는 성별이라는 속성을 가집니다. 성별을 판별하는 명목척도로 사람을 관측하면 남자, 여자와 같은 질적 정의가 관측값(데이터)으로 관측됩니다. 이와 같은 질적 정의를 질적데이터라고 합니다. “남자=1”, “여자=2” 처럼 텍스트로 된 관측값을 기호로서의 수로 표현할 수도 있습니다. 따라서 명목척도의 관측값을 수로 표현하더라도 그 수는 순서나 위치나 크기를 나타내지는 않습니다. 예로는 ID번호가 있습니다. 명목척도로 관측한 관측값이 순서의 정보를 나타내면 그 명목척도는 순서척도가 됩니다.

순서척도는 관측대상인 개체의 명목 뿐 아니라 순서를 관측하여 관측값으로 표현하는 척도입니다. 순서척도의 예로는 관측대상인 지구상의 국가를 관측하여 “일인당 국민소득이 높은 나라 순위”를 정하는 척도가 있습니다. 순서척도로 관측한 관측대상인 개체의 속성은 순서를 나타낸 관측값(데이터)으로 표현됩니다. 순서척도의 예에는 좋음, 보통, 싫음 처럼 순서가 표현되는  단어로 표현하는 척도도 있습니다. 여기서, 순서척도는 좋음을 1, 보통을 0, 싫음을 -1로 정하는 것처럼 수로 표현할 수 있습니다. 여기서 수는 순서만 의미할 뿐 위치나 크기를 의미하지는 않습니다. 순서척도의 순서간에 간격이 정의되고 그 간격의 크기가 수치로 주어지면 그 순서척도는 간격척도가 됩니다.

양적데이터를 구하는 척도

간격척도는 간격을 가지는 구간을 가지고 있습니다. 간격척도는 관측대상이 속한 구간의 위치값을 관측대상의 관측값(데이터)으로 나타냅니다. 간격척도의 예로는 섭씨온도계가 있으며 관측한 “섭씨온도”는 데이터(관측값)가 됩니다. 또 다른 예로는 달력과 시계가 있습니다. 오늘의 연월일은 달력을 이용한 관측값(데이터)입니다. 시계가 구한 “시각”은 간격척도가 구한 양적데이터라고 할 수 있습니다. 간격데이터는 간격이 정의된 구간의 위치값을 나타내는 데 그 위치의 기준이 있습니다. 간격척도인 연력의 위치의 기준은 서기원년을 0으로하여 정합니다. 연력을 이용한 관측값은 서기원년을 기준으로 기원전(BCE, before common era)과 기원후(CE, common era)로 나누어집니다. 여기서 각 년도는 엄밀하게 보면 시간의 간격이 다릅니다. 특별히 월력은 날짜수가 연에 따라 달라집니다. 즉, 간격이 다릅니다.그리고 간격척도인 섭씨온도계는 물이 어는 온도를 위치의 기준인 0으로 표현합니다. 간격척도로 구한 양적데이터는 가감(더하기와 빼기)이 가능합니다. 그러나 승제(곱하기와 나누기)는 조건이 필요합니다. 예를 들면, 척도가 가지는 구간의 간격이 등간격이고 관측대상의 속성이 같은 기준위치를 가지고 있어야 합니다. 관측대상인 개체의 관측값(데이터)을 제곱하는 경우에는 같은 기준위치를 가지고 있다고 볼 수 있지만 개체가 속한 범주에 따라 기준위치인 범주의 평균이 달라지므로 같은 조건이라고 할 수 있습니다. 정리하면 간격척도는 기준으로부터의 개체의 위치를 관측하는 척도입니다. 따라서 간격척도로 관측한 데이터는 관측대상의 기준의 다름에 직접적인 영향을 받으므로 위치의 기준을 나타내야 합니다. 예를 들어 범주나 개체의 분산을 구하는 데 사용하는 데이터를 간격척도로 구할 때는 간격척도가 등간격을 가지는 구간으로 이루어져 있는 지와 기준의 위치를 명확히 하는 것이 필수적입니다.  간격척도는 위치를 측정한다고 볼 수 있습니다. 등간격을 가지고 두 관측대상의 차이를 같은 기준에서 관측하는 간격척도는 비례척도라고 할 수 있습니다.

비례척도는 1의 양을 가지는 기준이 있습니다. 비례척도는 관측대상의 속성을 나타내는 양과 기준양인 1의 비를 수치로 표현한 것입니다. 비례척도의 예는 자와 저울이 있고 비례척도로 구한 양적데이터의 예는 키와 몸무게가 있습니다. 비례척도로 구한 양적데이터는 가감승제(더하기, 빼기, 곱하기, 나누기)가 가능합니다.


2.2. 속성에 따른 데이터종류

연속형데이터(continuous data)와 범주형데이터(categorical data)는 관측대상인 개체의 속성에 따라 구분됩니다. 연속형데이터와 범주형데이터는 관측대상이 개체이며 연속형과 범주형으로 표현되는 개체의 속성의 관측값입니다.

연속형데이터

연속형데이터는 관측대상인 개체의 속성이 연속적인 위치나 크기를 가지고 있음을 의미합니다. 개체의 속성은 간격척도나 비례척도로 관측하며 관측결과(관측값, 데이터)는 수치로 나타납니다. 여기서, 관측대상은 크기(양) 외에도 크기의 변화율도 될 수 있습니다. 크기를 관측한 연속형데이터의 예로는 키, 몸무게, 시간, 혈압 등이 있고 크기의 변화율을 관측한 연속형데이터는 경제성장률 등이 있습니다. 여기서의 관측대상의 속성은 연속적인 수로 표현되므로 개체의 속성을 관측한 관측값을 연속형데이터라고 부를니다. 연속적인 속성을 관측하기 위해서는 구간(계급, bin, bucket)을 가지는 척도를 사용하는 데 두가지 척도가 있습니다. 간격의 정보가 있는 간격척도와 간격척도의 간격에 간격크기의 비의 정보를 더한 비례척도가 있습니다. 따라서 연속형데이터는 개체의 연속형 속성을 간격척도나 비례척도로 관측한 수치를 의미한다고 할 수 있습니다. 그리고 연속형데이터는 아날로그인 관측대상을 디지털(수치)로 바꾼 데이터라고도 말할 수 있습니다. 간격척도나 비례척도에서 척도의 구간(계급, bin, bucket)을 범주로 볼 수 있습니다. 따라서 연속형데이터는 범주의 위치정보를 수치로 표현한 범주형데이터라고도 볼 수 있습니다. 이 때의 예로는 “나이”, “시험점수” 등이 있습니다.

범주형데이터

범주형데이터는 관측대상인 개체가 속하는 범주명을 의미합니다. 개체가 속하는 범주는 개체의 속성이기도 하므로 범주명인 범주형데이터는 개체의 속성을 수치가 아닌 기호나 설명으로 표현할 수 있습니다. 예로는 국적, 사는 곳 등이 있습니다. 범주형데이터는 순서를 표현하기도 하는데 한우의 품질등급 등이 있습니다.


2.3. 대상에 따른 데이터종류

관측대상이 개체이면 정형데이터로 분류되고 관측대상이 범주이면 비정형데이터로 분류됩니다.

정형데이터

정형데이터는 관측대상이 개체입니다. 정형데이터는 개체의 속성을 관측한 결과인 관측값입니다. 정형데이터는 스프레드시트(spread sheet)나 데이터베이스(database)로 표현할 수 있습니다. 정형데이터는 개체의 속성의 형태를 지정할 수 있습니다. 따라서 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미하기도 합니다. 상용스프레드시트(구글시트, 엑셀 등)의 각 셀은 셀안에 들어가는 데이터의 형식을 지정할 수 있습니다. 스프레드시트에서 사용하는 형식에는 텍스트, 숫자, 날짜 등이 있습니다.

비정형데이터

비정형데이터(unstructured data)는 범주를 표현한 데이터입니다. 비정형데이터의 관측대상은 글이나 그림과 같은 범주입니다. 비정형데이터는 관측대상보다는 생성물로 더 잘 설명될 수 있습니다.


2.4. 가공에 따른 데이터종류

원시데이터

원시데이터는 처음 수집한 데이터입니다.

가공데이터

가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.


2.5. 질적/양적데이터와 도수데이터 비교

데이터는 변수(변수명과 변수값)을 관측한 결과입니다. 데이터는 개체나 범주의 속성을 표현한 양적데이터와 질적데이터가 있으며 범주의 속성인 범주에 속하는 개체의 도수(빈도수, frequency)를 표현한 도수데이터가 있습니다.
데이터종류
데이터종류 척도 관측대상 관측값 의미 관측대상의 속성 형태 관측대상 – 관측대상의 속성 예시 관측값 예시
질적데이터

(qualitative)

명목척도

(nominal scale)

범주

(category)

명목 범주형

(nominal)

회사 – 산업분류

사람 – 성별

{ 전자, 전기, 화공, 기계, 식품 }

{ 남, 여 }

개체

(indivisual)

명목 범주형 대한민국 국민 – 주민번호

신청자 – ID

{ 210427-XXXXXXX, …  }

{ ID-1, … , ID-100 }

순서척도

(ordinal scale)

범주 순서 순서가 있는 범주형 음식점 – 서비스질

의류 – 크기

응시자 – 석차등급

{ 상, 중, 하 }

{ XS, S, M, L, XL }

{ 1 등급, … , 5등급}

개체 순서 순서가 있는 범주형 개인용 컴퓨터 – Serial Number { 001, 002, … , 200 }
양적데이터

(quantitative)

간격척도

(interval scale)

범주 위치 연속형

(continuous)

국가 – 시간대 { 1 동경시간대, … , 12 서경시간대 }
개체 위치 연속형 사람 – 수명 { y ; 0년 < y < 135년 }
비례척도

(ratio scale)

범주 크기 연속형 한국인 – 기대수명 { y ; 55.3세 < y < 86.5세 }
개체 크기 연속형 사람 – 키

딸기 – 당도

{ y ; y > 100 cm }

{ y ; 0 Brix < y < 100 Brix }

도수데이터

(frequecy)

빈도척도

(frequency scale)

범주 도수 이산형

(discrete)

공장 –  1일 불량품수 { 1 개, …  }
상대빈도척도

(ratio scale)

범주 상대도수 연속형 딸기 – 용액 100 g 당 설탕의 무게

대한민국 국민 – 고혈압 비율

{ y ; 0 g < y < 100 g }

{ P ; 0 % < p < 100 % }


2.6. 순서가 있는 데이터

순서가 있는 데이터의 표현
명목척도를 제외한 순서척도, 간격척도, 비례척도로 관측한 데이터는 순서나 위치나 크기를 표현하므로 순서에 따라 나열할 수 있습니다.  순서에 따라 데이터를 나열하는 방법에는 두 가지 방법이 있습니다. 하나는 위치나 크기가 작은 값부터 큰 값으로 나열하는 오름차순이고 다른 하나는 큰 값부터 작은 값으로 나열하는 내림차순입니다. 데이터를 집합으로 표현하면, 다음과 같이 $n$개의 데이터를 순서가 낮은 값부터 표현합니다. 여기서, $x$는 데이터(변수값)를 의미하고 아랫첨자는 순서를 의미합니다.
$$x_{1}, x_{2},  \cdots , x_{n}$$
여기서,  $x_{1} \lt x_{2} \lt \cdots \lt  x_{n}$
최대값($x_{max}$)은 오름차순으로 나열한 집합의 원소에서 맨 우측의 값입니다.
$$x_{max} = x_{n}$$
최소값($x_{min}$)은 오름차순으로 나열한 집합의 순서에서 맨 좌측의 값입니다.
$$x_{min} = x_{1}$$
범위(range, $R$)는 최대값과 최소값의 차이입니다.
$$R=x_{max}-x_{min}$$
분위와 분위수
분위는 개체가 같은 도수를 가지는 범주입니다. 다시 말하면 같은 확률을 가지는 범주입니다. 분위수는 그 범주의 대표값입니다. 분위수는 간격척도로 구한 데이터는 중앙값으로 비례척도로 구한 데이터는 평균으로 표현됩니다. 간격척도, 비례척도로 구한 데이터의 분포는 분위와 분위수로 표현할 수 있습니다. 간격척도로 구한 데이터의 분위수는 중앙값으로 표현하며 비례척도로 구한 데이터의 분위수는 평균으로 표현합니다. 순서척도로 구한 데이터에서는 순서가 있는 범주가 다른 도수를 가지는 범주라고 할 수 있습니다. 여기서, 순서를 가지는 범주가 같은 도수를 가지면 분위와 분위수로 표현할 수 있습니다.
분위와 분위수의 응용
분위와 분위수의 응용에는 비례척도로 구한 데이터가 정규분포를 나타내는 지 살펴보는 Q-Q plot이 있습니다. Q-Q plot은 데이터로 부터 추정한 모수를 가지는 정규분포의 분위수를 X축으로 하고 개체의 관측값을 Y축으로 하는 좌표계에서 개체를 점으로 표현한 데이터시각화 방법니다. 그리고 개체 속성의 실제 데이터를 표현하는 Y축에서는 중앙값을 Y축의 원점좌표로 하고 X축에서는 정규분포를 표준정규분포로 표준화하여 0을 X축의 원점좌표로 정합니다. Q-Q plot에서는 X축을 표준정규분포로 표준화하여 개체가 나타내는 점들을 선형식으로 모델링하여 표준편차를 기준으로 하는 정규분포 구간을 관측하기도 합니다. Q-Q plot은 비례척도로 관측한 데이터가 정규분포를 나타내는 지 알기 위한 데이터시각화 방법입니다. 간격척도로 구한 데이터가 등간격을 나타낸다면 그 간격척도는 비례척도라고 할 수 있습니다. 또한 간격척도로 구한 데이터가 정규분포를 나타내기 위한 각 구간의 간격의 크기를 정하기 위한 직관을 제공합니다.
백분위수
백분위수(percentile)는 관측대상의 속성을 표현하는 변수가 정의된 영역(정의역)에서 100개의 분위가 있을 때 각 분위에서의 대표값을 의미합니다. 여기서, 분위는 같은 데이터 개수를 가지는 순서가 있는 범주입니다. 분위수는 변수를 특정한 확률변수로 모델링하여 확률분포를 알 때 데이터세트를 통해 추정할 수 있으며 추정하는 방법에는 2가지가있습니다. 간격척도로 관측한 경우에는 최대값과 최소값을 분포함수와 데이터개수가 많은 데이터세트에서는 100등분하여 100개의 간격이 같은 구간인 분위(순서가 있는 범주) 만들고 각 구간의 평균을 그 구간의 데이터를 순서에 따라 나열하고 데이터의 개수를 100등분하여 데이터를 구분하였을 때 각 등분을 나눈 위치값입니다.
사분위수(quartile)
사분위수(quartile)는 quarter와 percentile의 합성어입니다. 간격척도나 비례척도로 구한 데이터는 위치 순으로 나열할 수 있습니다. 데이터를 오름차순으로 나얼한 후에 데이터를 같은 개수로 4등분하여 나눕니다. 이를 4개의 분위를 만든다고 할 수 있으며 분위는 순서를 가지는 범주라고 표현할 수 있습니다. 분위수는 각 분위의 위치값을 의미합니다. 특히 사분위수는 각 분위의 최대값을 의미합니다.  따라서 사(4)분위인 경우 1사분위, 2사분위, 3사분위의 위치값인 1, 2, 3사분위수는 데이터세트의 분포를 표현할 수있습니다. 그리고 2사분위수는 중앙값을, 4분위수는 데이터세트의 범위의 최대값을 의미합니다.
– 1사분위수(Q1)는 자신보다 작은 데이터가 전체의 25%
– 2사분위수(Q2)는 자신보다 작은 데이터가 전체의 50%
– 3사분위수(Q3)는 자신보다 작은 데이터가 전체의 75%
사(4)분위수와 백(100)분위수와의 관계
– 1사분위수 = 25백분위수
– 2사분위수 = 50백분위수
– 3사분위수 = 75백분위수

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 종류 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3에서 B22의 범위에 있는 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22의 범위에 있는 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22의 범위에 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22의 범위에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.

=VARP(B3:B22) : 분산. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 각 숫자의 평균의 차이를 제곱해서 모두 더한 후, 숫자의 개수로 나눈 값. VARP 대신 VARS를 입력하면 숫자의 개수 -1로 나눈 값(표본분산)을 표시함. 

=STDEV.P(B3:B22) : 표준편차. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 분산의 제곱근. STDEV.P 대신 STDEV.S를 입력하면 표본분산의 제곱근을 표시함. 

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 모든 숫자 집합에서 최대값을 표시함. 

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 모든 숫자 집합에서 최소값을 표시함. 

=QUARTILE(B3:B22,0) : 사분위수. B3에서 B22에 있는 숫자 집합에서 지정한 사분위수를 표시함. 0의 자리에 0, 1, 2, 3, 4를 입력하여 0사분위수, 1사분위수, 2사분위수, 3사분위수, 4사분위수를 표시할 수 있음. 

=PERCENTILE(B3:B22,0) : 백분위수. B3에서 B22에 있는 숫자 집합에서 지정한 백분위수를 표시함. 0의 자리에 0 이상 1이하의 수를 입력하여 각각의 백분위수를 표시할 수 있음. 0.25를 입력하면 25백분위수가 표시됨.


3.3. 실습강의

 – 데이터

 – 합계

 – 개수

 – 평균

 – 중앙값


 

4 참조

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

Reference

Data set – Wikipedia