4분위수 표
Quartile table

1. 애니메이션

1.1. 사분위표


2. 설명

2.1. 사분위표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



사분위표

2. 설명

2.1 사분위표

사분위표는 데이터를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 사분위수는 이 4개의 집단의 최대값입니다.

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는%를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 최대값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다. 

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

4분위수범위(interquartile range)는 제3사분위수에서 제1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

$$IQR={Q_3} – {Q_1}$$

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


사분위표 : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B12,1,TRUE) : 데이터정렬. B3와 B12 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 사분위표

– 실습 안내


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

Reference

Range (statistics) – Wikipedia



사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

Reference

Interquartile range – Wikipedia



백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

모든 점수는 100번째 백분위 수 안에 있습니다.). 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

Reference

percentile – Wikipedia


4.2. 참조


1차원 도수분포도
1D Frequency distribution graph

1. 애니메이션

1.1. 도수분포표로 히스토그램 그리기

1.2. 1차원 산점도


2. 설명

2.1.히스토그램(histogram)

2.2. 히스토그램의 활용


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포표로 히스토그램 그리기



1차원 산점도

2. 설명

2.1.히스토그램(histogram)

히스토그램

히스토그램은 구간(범주)에 속한 개체의 도수(빈도수)를 직사각형의 높이로 표현한 것입니다. 이 때 직사각형의 밑변의 길이는 등간격을 가지는 구간이 됩니다. 그리고 히스토그램을 이루는 각 구간의 직사각형은 서로 붙여서 그립니다. 따라서 히스토그램은 구간에 따른 개체의  도수분포를 나타낸다고 볼 수 있습니다.

한편, 순서가 없는 범주로 구분된 개체의 도수는 막대그래프로 표현합니다. 막대그래프에서는 범주의 위치를 표현할 수 없지만 히스토그램에서는 범주의 위치를 구간의 길이와 순서로 나타낼 수 있습니다. 히스토그램에서는 구간이 만드는 직사각형을 붙여서 그리므로 범주의 위치가 있음을 시각화합니다. 정리하면, 범주에 속하는 개체의 도수는 막대그래프로 표현할 수 있습니다. 이 때, 범주의 위치를 실수로 표현하고자 하는 경우 히스토그램을 사용합니다.

히스토그램 작성

히스토그램을 그리기 위해서는 데이터(변수값)의 범위(range)가 정해져야 합니다. 데이터의 범위는 데이터의 최대값과 최소값의 차로 구합니다. 그리고 동일한 간격을 가지는 구간(계급, bin, bucket)을 정합니다. 각 구간에 속하는 개체(object)의 개수를 그 구간의 도수(빈도수, frequency)라고 합니다. 도수는 자연수이며 각 구간을 밑변으로 하는 직사각형의 높이로 표현됩니다. 각 구간의 간격이 같기 때문에  히스토그램의 면적은 각 구간의 도수와 비례합니다. 즉, 히스토그램을 이루는 각 직사각형의 면적과 그 직사각형이 의미하는 범주에 속하는 개체의 도수는 선형관계입니다. 

‘범위를 몇 개의 등간격인 구간으로 나눌 것인가?’는 히스토그램을 그리기 위한 중요한 결정사항입니다. 구간의 개수를 정하는 방법은 데이터 개수의 제곱근에 근사한 정수로 하는 방법 등 여러가지가 제시되고 있습니다. 구간의 개수가 정해지면 연속형 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다. 각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.

2.2. 히스토그램의 활용

히스토그램은 관심있는 확률변수가 나타내는 확률분포를 유추하는 방법으로 활용됩니다. 히스토그램은 확률변수가 실현된 개체의 분포를 시각화하여 확률분포를 유추합니다. 히스토그램은 관심있는 확률변수의 확률분포를 닮은 모양을 보여줌으로 확률변수에 적합한 확률분포함수를 찾기 위한 탐색에 사용됩니다. 확률변수를 수식으로 모델링할 때 확률변수를 관측한 데이터로 히스토그램을 작성하여 모양을 살펴봅니다. 히스토그램의 도수를 상대도수로 변환하고 간격을 범위와 간격의 비로 변환하면 불연속적인 확률밀도함수를 그려볼 수 있습니다. 변환한 히스토그램의 직각사각형들의 면적의 합은 1이 됩니다.

히스토그램의 중요한 점은 면적의 크기로 도수를 표현한다는 것입니다. 이는 면적으로 데이터의 빈도를 표현한다는 점에서 면적으로 확률을 표현하는 확률밀도함수와 같습니다. 관측한 범주(구간)에서의 개체의 도수(빈도수)는 확률로 모델링됩니다. 연속형 확률변수를 모델링하는 확률밀도함수를 정하기 위해 관측 데이터를 탐색하는 매우 유용한 데이터시각화 방법입니다.

한편, 개체가 가지는 연속형 변수의 관측값(데이터)을 1차원 산점도로 시각화하면 점이 중첩되어 개체의 분포를 표현하기 어려운 경우가 많이 발생합니다. 이 때는 구간을 나누어야 하는 과정이 필요하지만 히스토그램이나 점그래프를 사용하여 개체의 분포를 표현합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


히스토그램 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.

3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 실습 안내


4. 참조

4.1 용어


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia



막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia


4.2. 참고문헌


도수분포
Frequency distribution

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램

2. 설명

2.1. 범주에 따른 개체의 도수

2.2. 상대도수와 확률

2.3. 개체분포의 시각화

2.4. 도수분포의 시각화

2.5. 개체분포의 모델

2.6. 도수분포의 모델

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

도수분포 막대그래프

히스토그램

2. 설명

2.1. 범주에 따른 개체의 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 실현되기 전에는 알 수 없는 속성(예를 들면 성별)과 관측하기 전에는 알 수 없는 속성(예를 들면 사는 곳, 몸무게)이 있습니다. 실현되기 전과 관측하기 전의 개체의 속성을 변수로 모델링하는 데 특별히 확률값을 가지는 확률변수로 모델링할 수 있습니다. 그리고 개체가 가지는 속성을 모델링한 확률변수의 확률분포는 속성을 관측하므로써 특정 범주 또는 집단에서의 통계적 확률분포를 구할 수 있습니다.

 

예를 들어 한우를 개체로 볼 때 개체의 속성으로 품질등급이 있습니다. 각 품질등급에 속하는 한우의 수로 한우품질의 분포를 볼 수 있습니다. 그리고 한우가 속하는 범주별(예를 들면 생산지별)로 한우품질의 분포도 볼 수 있습니다. 이 때 관측한 한우의 개체수가 커질수록 관측하여 구한 한우품질의 분포는 한우품질의 속성을 표현한다고 볼 수 있습니다. 여기서 중요한 가정은 실현되기전 또는 관측하기전 각 개체의 속성의 확률분포는 같다는 것입니다.

 

6면 주사위를 개체로 보고 속성의 실현을 주사위를 던진 후 나타난 윗면이라고 모델링합니다. 이 때 속성을 나타내는 변수값은 여섯개의 각면이 됩니다.각 면에 1, 2, 3, 4, 5, 6의 여섯개 숫자를 쓰고 변수명을 “주사위를 던져서 나온 수”라고 더 자세히 모델링할 수 있습니다. 만일 주사위를 완벽한 정육면체로 가정한다면 각 확률변수값이 가지는 확률값은  모두 1/6이며 확률분포는 이산형 균등분포라고 할 수 있습니다. 여기서 중요한 점은 개체의 속성은 관측할 때 실현되는 확률변수로 모델링한다는 점입니다. 만일 한우품질이 여섯개의 등급으로 나타난다면 한우는 특정 모양의 6면 주사위를 가지는 속성을 가지고 생각할 수 있습니다. 이 때 속성의 실현과 관측은 주사위를 던지고 윗면을 기록하는 것과 같다고 할 수 있습니다.

 

확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 값을 데이터 레코드(record)라 합니다. 개체의 ID와 데이터 레코드는 개체가 이루는 범주의 요소(element)라고도 합니다.

범주(category)

 같은 명목이나 순서의 속성을 범주라고 합니다. 같은 범주를 가지는 개체는 집단(group, label)이 됩니다. 특별히, 같은 순서의 속성으로 개체를 분류하여 만들어진 집단을 수준(level)이라고 합니다.

도수(빈도수, 頻度数, frequency)

도수는 빈도수의 약어입니다. 도수(frequency)는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 여기서 정해진 공간은 개체의 관점에서 보면 자신이 속한 범주(집단, category, group)를 의미합니다. 특별히, 일차원이고 실수(real number)로 표현되는 공간은 구간이라고 표현합니다. 따라서 집단명(범주명)은 개체의 범주형 데이터입니다. 개체가 서로 독립적인 다수의 속성을 가진다면 속성이 관측된 개체를 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체가 나타나는 공간을 3차원 공간으로 볼 수 있습니다. 3차원에서의 공간의 예는 체적이 있습니다. 체적은 점 또는 선 또는 면의 적(積, 쌓음)으로 표현될 수 있습니다. 한편, 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치를 부분공간을 대표하는 점(point)으로 모델링하기도 합니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다. 정리하면, 개체의 관점에서 보면 도수는 개체의 범주(category)나 개체가 속한 집단(group)의 속성입니다.

도수분포

도수분포는 범주에 따른 개체의 도수를 의미합니다. 예를 들어, 범주에 따라 개체의 도수가 같다면 균등분포라 할 수 있습니다. 따라서 도수의 분포를 구하는 방법은 개체가 속하는 범주(정해진 공간)로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가지며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수는 “양(量)”으로 나타낸 범주의 속성입니다. 범주에 따른 도수를 비교하면 범주의 집합의 속성을 알 수 있으므로 범주를 한 축에 놓고 다른 축에 도수를 나타내면 도수분포를 시각적으로 볼 수 있습니다. 이를 도수분포도라고 합니다. 대표적인 도수분포도에는 명목이나 순서로 표현되는 범주의 도수를 길이로 비교하는 막대그래프가 있습니다. 그리고 실수(real number)상의 등간격의 구간으로 표현되는 범주의 도수를 표현하는 히스토그램이 있습니다.

2.2. 상대도수와 확률

상대도수(relative frequency)

상대도수는 정해진 기간과 전체공간에서의 전체 도수와 각 부분공간에서의 도수의 비율입니다. 관측된 개체가 많아지면 전체공간에 많은 개체의 점(point)이 출현하여 분포를 나타냅니다. 이 때 전체공간을 분할한 부분공간에 상대도수를 표현한다면 이는 출현한 개체의 분포를 정량적으로 표현한 것입니다.  분할된 각 부분공간에서의 상대도수의 합은 1이 되며 관측된 개체의 수가 많아 질수록 개체의 속성을 표현하는 확률변수의 확률분포와 점점 같게 됩니다. 이를 통계적 확률분포라고 합니다.

확률(probability)

개체가 관측되기 전에는 개체의 속성이 만드는 공간의 어디에 개체가 나타날지 모릅니다. 만일, 개체의 속성이 확률을 가지는 변수로 표현된다면 개체가 공간의 어디에 나타날지를 확률로 표현할 수 있게 됩니다. 또한 정해진 기간이 길어서 많은 개체가 출현하였고 모든 개체가 같은 속성을 가진다면 개체의 분포는 개체가 가지고 있는 속성을 표현하는 확률변수의 확률분포를 나타냅니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.4. 도수분포(frequency distribution)의 시각화

도수는 범주에서의 개체의 출현회수입니다. 그리고 도수분포는 각 범주의 위치에서의 도수입니다. 따라서 도수분포를 시각화하기 위해서는 개체가 속하는 범주와 그 범주의 위치를 우선 정합니다. 도수분포의 시각화에서는 개체의 속성을 수치형 변수로 모델링하고 관측한 경우에는 개체가 속하는 범주의 구간을 정하는 것이 중요하고 범주형 변수인 경우에는 개체가 속하는 범주를 구분할 수 있도록 가능한 변수를 정하는 것이 무엇보다 중요합니다.

막대그래프(bar chart) : 확률변수가 범주형이거나 이산형

막대그래프는 확률변수가 범주형이거나 이산형인 경우, 도수분포를 시각화하는 방법입니다. 막대그래프에서 독립변수는 범주형이거나 이산형인 확률변수이고 종속변수인 막대의 길이는 도수입니다. 

만일 각 독립변수에서의 막대의 길이를 도수에서 상대도수로 변환하면 막대의 길이는 확률질량이 됩니다. 이 때 막대의 길이를 모두 합하면 확률질량의 합과 마찬가지로 1이 됩니다.

히스토그램(Histogram) : 확률변수가 연속형

히스토그램은 확률변수가 연속형인 경우 도수분포를 시각화하는 방법입니다. 연속형인 확률변수는 같은 크기를 가지는 구간(bins, intervals)으로 구분됩니다. 구분된 구간이 밑면이고 각 구간에서의 도수가 높이인 직사각형의 이음을 히스토그램이라고 합니다. 히스토그램을 이루는 직사각형들은 밑면의 크기가 일정하며 빈틈없이 이어져 있습니다. 따라서 히스토그램을 이루는 직사각형의 높이를 전체도수와 구간의 길이로 나누면 직사각형의 면적의 합을 1로 만들 수 있습니다. 히스토그램은 연속형 확률변수의 확률분포를 나타내는 이산확률밀도함수의 모양과 같습니다. 따라서종속변수의 도수를 전체도수와 구간의 길이로 나누면 이산확률밀도함수로 변환할 수 있다는 큰 장점이 있습니다. 연속형 확률변수의 관측값으로 히스토그램을 그리면 확률분포의 모양을 직관적으로 살펴볼 수 있기 때문에 매우 유용한 데이터시각화 방법입니다.

연속형 데이터의 분석을 위한 히스토그램을 그리기 위해서는 우선 도수분포표를 만듭니다. 도수분포표(frequency table)는 연속형 확률변수를 구간으로 나누고 관측한 확률변수값(데이터)의 구간에서의 도수를 표로 만든 것입니다. 도수분포표에서 중요한 것은 적합한 구간크기(구간간격)를 정하는 것입니다. 데이터(관측값)에는 범위가 있으므로 구간크기가 정해지면 구간의 개수는 자동으로 계산됩니다. 데이터분석의 목적에 맞는 구간크기를 정하는 방법은 경험법칙부터 다양한 방법이 있습니다.

2.5. 개체분포의 모델

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

2.6. 도수분포의 모델

범주를 표현하는 “양”으로 개체의 도수(개체가 범주에 출현하는 회수)가 있습니다. 도수분포의 모델은 범주에 나타나는 개체의 출현회수의 기대값에 기반합니다. 개체가 속하는 표본도 범주라고 볼 수 있습니다. 도수분포의 모델은 표본의 확률분포라고 할 수 있습니다.

표본통계량의 확률분포

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. 표본의 분포(표집분포)는 범주의 분포로 볼 수 있고 표본통계량의 분포는 확률분포로 모델링할 수 있습니다. 표본통계량의 확률분포 모델은 대표적으로 연속형 확률분포로 F분포와 t분포가 있습니다. F분포와 t분포를 표현하는 함수의 무수(매개변수)는 표본크기입니다.

알고 있는 확률분포 모델과 관측한 표본데이터로 추정하는 모수(분포함수의 매개변수)

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. MLE(Maximum Likelihood Estimation, 최대우도를 목표로 하는 모수 추정법)로 확률분포의 모수를 추론합니다. 이때 경험으로 알고 있는 확률분포 모델과 표본데이터를 이용하여 확률분포의 가능도를 최대로 하는 확률분포함수의 모수를 구합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프

4. 참조

4.1 용어

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia


4.2. 참고문헌

개체분포
Individual distribution

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램


2. 설명

2.1. 개체와 도수

2.2. 개체분포의 시각화

2.3. 개체분포의 모델


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포 막대그래프



히스토그램

2. 설명

2.1. 개체와 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 실현되기 전에는 알 수 없는 속성(예를 들면 성별)과 관측하기 전에는 알 수 없는 속성(예를 들면 사는 곳, 몸무게)이 있습니다. 실현되기 전과 관측하기 전의 개체의 속성을 변수로 모델링하는 데 특별히 확률값을 가지는 확률변수로 모델링할 수 있습니다. 그리고 개체가 가지는 속성을 모델링한 확률변수의 확률분포는 속성을 관측함으로써 특정 범주 또는 집단에서의 통계적 확률분포를 구할 수 있습니다.

예를 들어 한우를 개체로 볼 때 개체의 속성으로 품질등급이 있습니다. 각 품질등급에 속하는 한우의 수로 한우품질의 분포를 볼 수 있습니다. 그리고 한우가 속하는 범주별(예를 들면 생산지별)로 한우품질의 분포도 볼 수 있습니다. 이 때 관측한 한우의 개체수가 커질수록 관측하여 구한 한우품질의 분포는 한우품질의 속성을 표현한다고 볼 수 있습니다. 여기서 중요한 가정은 실현되기전 또는 관측하기전 각 개체의 속성의 확률분포는 같다는 것입니다.

6면 주사위를 개체로 보고 속성의 실현을 주사위를 던진 후 나타난 윗면이라고 모델링합니다. 이 때 속성을 나타내는 변수값은 여섯개의 각면이 됩니다.각 면에 1, 2, 3, 4, 5, 6의 여섯개 숫자를 쓰고 변수명을 “주사위를 던져서 나온 수”라고 더 자세히 모델링할 수 있습니다. 만일 주사위를 완벽한 정육면체로 가정한다면 각 확률변수값이 가지는 확률값은  모두 1/6이며 확률분포는 이산형 균등분포라고 할 수 있습니다. 여기서 중요한 점은 개체의 속성은 관측할 때 실현되는 확률변수로 모델링한다는 점입니다. 만일 한우품질이 여섯개의 등급으로 나타난다면 한우는 특정 모양의 6면 주사위를 가지는 속성을 가지고 생각할 수 있습니다. 이 때 속성의 실현과 관측은 주사위를 던지고 윗면을 기록하는 것과 같다고 할 수 있습니다.

확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 값을 데이터 레코드(record)라 합니다. 개체의 ID와 데이터 레코드는 개체가 이루는 범주의 요소(element)라고도 합니다.

도수

도수(度数, frequency, 빈도수, 頻度数)는 빈도수의 약어입니다. 도수는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 개체의 속성을 표현하는 변수를 축(axis)으로 하는 좌표계로 공간을 표현합니다. 개체가 서로 독립적인 다수의 속성을 가진다면 개체를 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체는 3차원 공간의 점(point)으로 볼 수 있습니다. 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치는 부분공간을 대표하는 점(point)의 위치로 모델링할 수 있습니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다.

개체분포의 도수분포화

개체의 분포를 도수의 분포로 만드는 방법은 개체가 속하는 범주(정해진 공간)로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가지며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수분포는 “양(量)”으로 나타낸 범주의 분포라고 할 수 있습니다. 개체의 속성이 명목형이라고 하더라도 개체가 출현한 회수(도수)는 “양(量)”이므로 도수는 개체의 명목형 속성을 분석하고 예측하는 중요한 기반이 됩니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.5. 개체분포의 모델

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프


4. 참조

4.1 용어


막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia



히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia



4.2. 참고문헌

척도와 단위
Scale & unit

1. 애니메이션

1.1. 수체계

2. 설명

2.1. 물리에서 사용하는 척도와 단위

2.2. 경제에서 사용하는 척도와 단위

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

수체계

2. 설명

2.1. 물리에서 사용하는 척도와 단위

물리적인 양을 측정할 때, 관측도구를 사용합니다. 관측도구에는 척도(scale)와 단위(unit)가 적용됩니다. 척도는 특정한 속성을 측정하기 위해 사용합니다. 척도에 따르는 단위는 측정의 기본적인 ‘양(quantity)’을 나타냅니다. 단위는 보통 국제적으로 표준화되어 있습니다. 예를 들어, 온도를 측정할 때 ‘도(°)’는 단위이며, 섭씨나 화씨는 이 온도를 표현하는 척도입니다.

기본 물리량의 척도와 단위

물리량

physical quantities

척도(단위)

scale(unit)

국제 단위계

SI 

척도유형

scale type

길이 미터(m), 센티미터(cm), 킬로미터(km), 마일(miles), 인치(inches) m 비율척도
질량 킬로그램(kg), 그램(g), 파운드(lbs), 온스(oz) kg 비율척도
시간 초(s), 분(min), 시(hour), 일(day), 년(year) s 비율척도
전류 볼트(V), 암페어(A), 와트(W), 옴(Ω) A 비율척도
온도 켈빈(K), 섭씨(°C), 화씨(°F) K 비율척도
물질의 양 몰(mol) mol 비율척도
광도

칸델라(cd)

cd 비율척도

주요 물리량의 보편적인 척도와 단위

물리량

physical quantities

척도(단위)

scale

척도유형

scale type

지진의 강도 리히터규모(단위없음) 순서척도
산성도 pH(단위없음) 로그척도(logarithm scale)
소리의 크기 데시벨(dB) 로그척도(logarithm scale)

2.2. 경제에서 사용하는 척도와 단위

경제에서 나타나는 개념을 양으로 표현할 때 그 양을 표현하기 위해 척도와 그에 따른 단위를 사용합니다.

경제에서의 주요 척도와 단위

경제량

economic quantities

척도(단위)

scale(unit)

척도유형

scale type

통화 한국 원(KRW), 미국 달러(USD), 유로(EUR), 일본 엔(JPY) 등 비율척도
성장률 경제 성장률(%), 인구 성장률(%) 비율척도
지수 주가지수(단위없음), 물가지수(단위없음) 간격척도

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 실습강의 목차

4. 참조

4.1 용어

리커트 척도

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다.

척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다.

특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

 

Reference

Likert scale – Wikipedia

척도와 단위의 기준
Standard of scale and unit

1. 애니메이션

1.1. 공간단위

2. 설명

2.1. 기준과 단위

2.2. 척도에서의 기준

2.3. 척도에서의 단위

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

1. 애니메이션

공간단위

2. 설명

2.1. 기준과 단위

기준으로서 0

0은 “없음”을 나타냅니다. 0은 정수, 유리수, 실수, 복소수 등의 수체계에서 기준으로 사용됩니다. 어떤 수를 0으로 더하거나 빼도 그 수는 변하지 않습니다. 또한, 어떤 수를 0으로 곱하면 결과는 항상 0입니다. 분수에서 0은 분모가 될 수 없습니다. 즉, 0으로 나누는 것은 정의되지 않은 연산입니다. 0은 양수와 음수의 경계이며 더하기와 빼기의 항등원이 됩니다.

단위로서 1

1은 0과 대비되어 “있음”을 의미합니다. 1은 정수, 유리수, 실수 등의 수체계에서 단위로 사용됩니다. 어떤 수에 1을 곱하거나 나누어도 그 수는 변하지 않습니다. 그래서  “1”은 곱하기의 기준이 되고 더하기의 단위가 됩니다. 1은 진분수 (proper fraction; 분자가 분모보다 작은 분수로, 그 값이 1보다 작음)와 가분수(improper fraction; 분자가 분모보다 큰 분수로, 그 값이 1보다 큼)의 경계이며 1은 곱하기와 나누기의 항등원이 됩니다.

점(point)은 크기가 없는 개체(object)입니다. 점의 위치는 공간에서 점 자체입니다. 점(point)의 크기는 0입니다.

선(line)은 셀수 없는 많은 점이 모여서 됩니다. 공간에서 선의 위치는 두 점으로 결정됩니다. 선의 단위는 크기가 1인 선분(line segment)입니다.

면(plane)은 셀수 없는 많은 선(line)이 모여서 됩니다. 공간에서 면의 위치는 세 점으로 결정됩니다. 면의 단위는 크기가 1×1인 면적(area)입니다.

공간(space)은 셀수 없는 많은 면(plane)이 모여서 됩니다. 공간의 단위는 크기가 1×1×1인 부피(volume)입니다.

물리적 기준과 단위에 0과 1을 적용

0에 물리적인 기준이 붙으면 우리가 인지할 수 있는 기준이 됩니다. 예를 들어, 절대온도 0K에서는 분자의 운동이 없는 상태로 온도의 기준이 됩니다. 그리고 1에 물리적인 단위가 붙으면 우리가 인지할 수 있는 단위가 됩니다. 예를 들어, 길이의 단위로는 1m, 질량의 단위로는 1kg이 있습니다. 측정값(데이터)에 단위를 붙일 때는 ‘1’을 생략하고 기호만 측정값에 붙여 사용합니다.

2.2. 척도에서의 기준

비율척도에서의 기준 : 절대적인 기준으로서의 0과 비율의 기준인 1

비율척도에서의 0은 ‘완전한 부재’ 또는 ‘없음’을 의미합니다. 예를 들어, 무게나 길이에서 0은 실제로 아무것도 없음을 나타냅니다. 예를 들어, 절대적인 0은 온도에서의 절대영도(absolute zero)를 의미합니다. 이는 온도가 이론적으로 도달할 수 있는 최저점으로, 모든 분자 운동이 정지하는 지점입니다. 절대영도는 켈빈(K) 온도 척도에서 0K, 섭씨(C) 척도에서는 약 -273.15°C, 화씨(F) 척도에서는 약 -459.67°F에 해당합니다.

비율척도에서 비율의 기준은 양(quantity)으로 1을 사용합니다.

간격척도에서의 기준 : 상대적인 기준으로서의 0과 등간격의 기준인 1

상대적인 0은 간격척도에서 사용되는 0을 의미합니다. 이는 절대적인 ‘없음’을 나타내지 않고, 단지 특정한 기준점 또는 시작점을 나타냅니다. 예를 들어, 섭씨온도척도에서의 0도는 물이 얼기 시작하는 지점을 나타내지만, 이는 온도가 ‘없다’는 것을 의미하지 않습니다. 또 다른 예로는 년도에서의 기원이 있습니다. 기원은 기원전(BCE, before common era)과 기원후(CE, common era)를 나누는 서기 0년입니다. 따라서, 상대적인 0은 특정한 상황이나 상태의 정의라고 할 수 있으며, 절대적인 없음의 의미는 없습니다. 따라서 간격척도의 기준으로서의 0은 관측 대상이나 상황에 따라 다르게 설정될 수 있습니다.

간격척도에서 간격의 기준은 두 위치 사이의 거리로 1을 사용합니다. 따라서 간격척도는 등간격의 단위로 이루어집니다.

간격척도에서 기준 원점에서의 거리는 상대적인 방향을 가질 수 있습니다. 이 때 상대적인 방향은 양과 음의 기호로 구분하여 표현할 수 있습니다.

순서척도에서의 기준

순서척도에서 척도점들 중에서 한 척도점을 0으로 정하는 것은 척도점 사이에 간격을 주기 위한 과정이라고 볼 수 있습니다. 예를 들어 3개이상의 척도를 가지는 경우, 척도점을 “좋아한다”, “보통이다”, “싫어한다”로 하는 순서척도로 정한 경우, “보통이다”를 원점인 0으로 볼 수 있는가는 일반적으로 응답자마다 “보통이다”라는 느낌의 정의가 다를 것이라 추정할 수 있기 때문에 원점으로 보기가 어렵습니다. 또 다른 예를 들어 보면, 척도점을 “좋아한다”, “싫어한다”, “관심이 없다”로 하는 순서척도로 정한 경우, “관심이 없다”를 원점인 0으로 볼 수 있는가는 생각해 볼 수 있지만 문항과 검사환경에 많은 조건과 설명을 필요로 합니다.

명목척도에서의 기준

명목척도에서는 어떠한 기준도 없다고 할 수 있습니다. 하지만 명목(척도점)이 2개만 있는 경우, 하나를 기준으로 한다면 다른 하나가 값이 될 수 있습니다. 특히, 하나를 “없다”는 0으로 정하고 다른 하나를 “있다”는 1로 정할 수 있다면 “없다”를 기준으로 정하고 순서(order)와 간격(interval)과 양(quantity)을 모두 정할 수 있습니다.

2.3. 척도에서의 단위

간격척도에서의 단위

간격척도는 등간격으로 구성되며 그 등간격은 간격척도의 단위를 의미합니다. 간격척도는 두 관측대상의 위치간의 차이를 측정하는 데 사용되며, 차이는 단위의 배수로 표현되며 어느 위치를 기준으로 하는가에 따라 양과 음의 부호를 가지게 됩니다. 간격척도에서의 단위는 측정대상과 측정의 목적에 따라 결정됩니다. 예를 들어 온도를 관측하는 경우, 단위는 도(degree)로 같지만 섭씨, 화씨,  절대온도 3가지의 온도척도를 사용할 수 있습니다. 섭씨와 절대온도라는 온도척도에서 1°는 일정한 온도간격을 나타내며 단위입니다. 시간을 나타내는 척도는 초, 분, 시 등이 있으며 대응하는 단위는 s, min, hour입니다. 단위를 표기할 때 “1”은 생략합니다.

비율척도에서의 단위

비율척도(ratio scale)에서의 “단위”는 간격척도에서와 같이 측정값 간의 간격을 나타내지만 간격척도에는 없는 절대적인 0을 기준으로 합니다. 따라서 비율척도에서의 단위는 측정값 간의 차이뿐만아니라 비율의 의미도 가집니다. 비율척도에서의 단위는 측정대상과 측정의 목적에 따라 결정되며, 측정값 간의 일정한 간격과 비율을 표현하는 데 사용됩니다. 이러한 단위를 통해 측정대상 간의 차이와 비율을 정확하게 비교하고 해석할 수 있습니다. 예를 들면, 길이에서 1미터(m)는 특정시간동안 빛이 이동한 거리를 말합니다. 그리고 무게에서 1킬로그램(kg)은 물 1리터(liter)의 무게를 말합니다.

비례척도에서의 단위

비례척도(proportion scale)에서의 “단위”는 백분율(%, 퍼센트)를 많이 사용합니다. 0이상 1이하의 실수 ([0, 1])를 사용할 수도 있습니다. 비례척도는 주로 범주를 관측할 때 사용합니다. 이 경우 관측값은 이산형데이터(discret data)입니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

차원단위 : 구글시트 실습

3.2. 함수

=TRANSPOSE(C3:C5) : 지정한 범위에 있는 데이터의 행과 열을 바뀜. C3와 C5에 있는 데이터는 열로 구성이 되는데, 이를 행으로 바꿈. 전치행렬을 만들 때 사용할 수 있음.

=MMULT(C3:C5,E3:G3) : 범위로 지정한 두 행렬의 곱. C3에서 C5에 있는 행렬과 E3에서 G3에 있는 행렬의 곱을 계산해서 구함.

3.3. 실습강의

– 데이터

– 당도의 제곱

– 당도 편차의 제곱

– 당도 편차와 과중 편차의 곱

4. 참조

문항반응 척도
Item response scale

1. 애니메이션

1.1. 문항속성(True, False)에 대한 반응(Positive & Negative)

2. 설명

2.1. 문항반응에서 사용하는 척도유형

2.2. 순서척도의 분류

2.3. 문항반응을 관측하는 척도의 종류

2.4. 척도평가

2.5. 척도개발

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 용어

4.1. 용어

1. 애니메이션

문항속성(True, False)에 대한 반응(Positive & Negative) 

2. 설명

2.1. 문항반응에서 사용하는 척도유형

문항반응에서는 응답자가 문항에 반응한 결과가 결과변수가 되는 경우와 응답자의 능력과 문항의 난이도가 반응하여 결과가 나오는 경우가 있습니다. 전자의 원인변수는 응답자의 속성이며 후자의 원인변수는 응답자의 능력과 문항의 난이도의 차이입니다. 이 때 응답자의 능력과 문항의 난이도는 같은 속성입니다. 원인변수가 되는 응답자의 속성과 응답자의 능력과 문항난이도는 명목척도를 순서척도, 간격척도, 비례척도로 변환할수록 더 많은 분석을 할 수 있습니다. 즉, 원인변수값을 질적데이터에서 양적데이터로 얻으려는 노력을 하게 됩니다.

명목척도

명목척도(nominal scale)는 불연속적인 개념이나 속성을 측정하기 위한 척도입니다. 이러한 척도에서는 각 명명된 항목이 서로 독립적이며, 순서나 계량적인 의미를 가지지 않습니다. 예를 들어 명목척도에는 성별, 종교, 국적 등이 있습니다. 예를 들어 명목척도인 성별에는 “남”과 “여”라는 두 범주(척도점)가 있습니다.

순서척도

순서척도(ordinal scale)는 명목척도와 다르게 범주(척도점)의 비교가 가능합니다. 비교를 통해 순서(순위)를 정할 수 있는 데 순서는 내림차순이거나 오름차순처럼 방향이 있습니다. 하지만 범주들 사이에는 순서만 있을 뿐 계량화된 간격이 없습니다. 예를 들어 등급, 선호도, 학점 등이 있습니다.

간격척도

간격척도(interval scale)는 순서척도의 범주의 최대값이 정의되는 척도입니다.  각 범주의 최대값 사이에는 간격이 있고 그 간격은 계량할 수 있음을 의미합니다. 따라서 간격척도는 범주의 상대 위치를 나타냅니다. 예를 들어 섭씨온도, 지능지수, 연도 등이 있습니다.

비례척도

비례척도(ratio scale)는 간격척도에 존재의 없음을 의미하는 0이 부가되어 위치의 기준으로 사용됩니다. 0으로부터의 거리는 양이며 간격척도가 음수와 양수로 순서가 표현되는 것에 비해 비례척도에서는 양이 없음(존재하지 않음)을 의미하는 0이 있습니다. 양의 기준인 1로 관측대상의 양(quantity)을 표현합니다. 관측대상의 양이 0과 1사이에 있을 때 기준인1을 나눔으로 표현합니다. 그리고 기준보다 큰 경우에는 기준의 배수와 0과 1사이의 값의 합으로 표현합니다. 비례척도는 양의 기준인 1에 비례하는 값을 척도로 가진다고 할 수 있습니다. 비례척도는 양(quantity)을 나타내므로 양의 실수(positive real number)의 수체계로 나타냅니다. 예를 들어, 절대온도, 나이, 몸무게, 소득 등이 있습니다.

2.2. 순서척도의 분류

5점척도와 7점척도

순서정보가 있는 명목(이름)으로 표현하는 척도점의 수를 많게 하면 척도가 응답자들을 판별할 수 있는 능력은 커지지만, 응답자는 응답이 어려워지는 단점이 있습니다. 척도점의 수를 작게 하면 척도점간의 상관은 작아지는 장점이 있습니다. 척도점의 수가 소수(prime number)인 5점척도와 7점척도가 주로 사용됩니다.

짝수점척도와 홀수점척도

짝수점척도는 척도점의 수가 짝수인 척도로 중간점이 없으며 대칭을 만들기가 어렵습니다. 홀수점척도는 중간점이 있어서 대칭이지만 응답자의 응답이 심리적인 이유로 중간점으로 쏠릴 가능성이 높습니다. 일반적으로 짝수점척도보다 홀수점척도가 더 많이 쓰입니다.

균형척도와 불균형척도 

균형척도는 긍정적 의미를 갖는 척도점의 수와 부정적 의미의 척도점의 수가 같은 척도입니다. 응답자가 편견이 없을 때 유용합니다. 불균형척도는 응답자가 편견이 있어 응답이 중간점을 기준으로 어느 한쪽으로 치우칠 경우, 편견을 보정해 주기 위하여 사용합니다.

단일항목척도와 다항목척도

단일항목척도는 한 항목(item)으로 구성되어 있습니다. 다항목척도는 한 질문과 다수의 항목으로 구성되어 있습니다. 

단일항목척도의 예

질문(question) : A음식점의 맛은 ?

항목(item) : 좋다.

선택지(option) : 동의한다. – 동의하지 않는다.

단일항목척도의 예

항목(item) : A음식점의 맛은 좋다

선택지(option) : 동의한다. – 동의하지 않는다.

다항목척도의 예

질문(question) : 생일축하연 장소로 A음식점은 ?

항목(item) 1 : 음식이 맛있다.

선택지(option) : 매우 그렇다. – 그렇다. – 보통이다. – 그렇지 않다. – 매우 그렇지 않다.

항목(item) 2 : 경제적이다.

선택지(option) : 매우 그렇지 않다. – 그렇지 않다. – 보통이다. – 그렇다. – 매우 그렇다.

항목(item) 3 : 교통이 좋다.

선택지(option) : 매우 그렇지 않다. – 그렇지 않다. – 보통이다. – 그렇다. – 매우 그렇다.

다항목척도에서의 단방향척도와 혼합형척도

다항목척도에서 항목의 긍정과 부정의 방향이 일치하면 단방향척도이고 혼재되어있으면 혼합형 척도입니다. 

척도점의 강도표현

척도점이 “좋다”, “나쁘다”, “보통이다”인 경우 강도표현은 매우, 약간 등등이 있을 수 있습니다. 이 때 강도는 중간점을 기준으로 양쪽으로 대칭적으로 부여하는 것이 좋으나 척도점의 표현이 길어져서 정확하고 효율적인 실험을 어렵게 합니다. 부가되는 의미가 강할수록 응답자는 극단 값을 피하기 위해 가운데로 몰리는 경향이 있습니다.

2.3. 문항반응을 관측하는 척도의 종류

질문(question)과 항목(item)을 합해서 문항(question & item)이라고 합니다. 선택지는 문항에 대한 응답의 범주를 반응의 정도에 따라 순서대로 나열한 것입니다. 그리고 문항반응은 선택지에서 문항에 대한 응답 범주를 선택하는 것을 의미합니다. 따라서 문항과 선택지를 합한 것을 순서척도라고 할 수 있습니다. 

리커트척도 (Likert scale)

어떤 항목(진술)에 대해 응답자가 동의하거나 동의하지 않는 정도를 표시하도록 하는 척도입니다. 척도점은 응답을 나타내는 범주인 응답범주의 이름입니다. 따라서 척도점의 수는 응답범주의 수와 같습니다. 순서척도를 간격척도로 바꾸면 순서척도의 척도점은 범주의 최대값을 의미하며 양적데이터입니다. 정리하면 리커트척도를 순서척도에서 간격척도화 했을 때, 간격척도의 구간은 순서척도에서의 척도점의 최대값으로 구분됩니다. 

 

리커드척도 예

질문 : A서비스센터 직원들의 업무태도는 ?

항목 : A서비스센터 직원들은 친절하다.

척도점 : 전혀 동의하지 않는다.   $\cdots$   전적으로 동의한다.

의미차별화척도 (semantic differential scale)

서로 반대되는 의미의 말을 양쪽 끝의 척도점(응답범주)에 표현한 척도입니다. 예를 들면 불공정과 공정, 불친절과 친절, 비상식과 상식 등이 있습니다.

의미차별화척도 예

질문 : A서비스센터 직원들은 ?

척도점 : 불친절하다.   $\cdots$   친절하다.

등급척도 (rating scale)

등급을 척도점(응답범주)으로 가지는 척도로써 “중요성 등급척도”, “평가 등급척도”, “Stapel 등급척도” , “서열 등급척도”, “비교 등급척도” 등 여러가지 방식이 있습니다.

Stapel 등급척도 예

질문 : A서비스센터 직원들은 ?

척도점 : -3   -2  -1  친절하다   +1  +2   +3

2.4. 척도평가

관측값모델

관측값은 다음과 같이 모델링됩니다.

$$X_O=X_T + X_S + X_R$$

여기서,  $X_O$는 관측값(measured value or observed value)

$X_T$는 실제값(true value)

$X_S$는 체계적 오류(systematic error)이며 척도의 오류

$X_R$은 비체계적 오류(nonsystematic error or random error)이며 관측자와 관환경에 따른 오류

타당성

척도의 타당성(validity)은 측정하고자 하는 대상인 개체의 속성이나 구성개념 등을 척도가 실제로 측정하는 정도입니다. 예를 들어, 지능을 측정하는 척도가 실제로 지능의 다양한 측면을 적절하게 나타낸다면, 그 척도는 그 지능에 대해 높은 타당성을 가진다고 할 수 있습니다. 척도의 타당성이 높을수록 체계적 오류가 작아집니다.

정확성

척도의 정확성(accuracy)은 측정값이 실제 값에 얼마나 가까운지를 나타냅니다. 예를 들어, 체온계가 실제 체온을 정확하게 측정한다면, 그 체온계는 높은 정확성을 가진다고 할 수 있습니다.

정밀성

척도의 정밀성(precision)은 측정값들의 차이를 얼마나 작은 값까지 나타낼 수 있는지의 정도입니다. 예를 들어, 관측값은 비체계적 오류(무작위 오류)의 영향을 받는 데 척도의 정밀도가 높으면 더 작은 비체계적 오류도 알 수 있게 됩니다.

신뢰성

척도의 신뢰성(reliability)은 한 대상을 반복 측정했을 때 동일한 결과를 얻는 정도를 말합니다. 비체계적 오류는 관측하는 사람이나 상황으로부터 발생하는 오류입니다. 비체계적 오류가 작을수록 그 척도의 신뢰성은 높습니다. 척도의 신뢰성에는 다음과 같은 것들이 있습니다.

–  반복측정 신뢰성(test-retest reliability)

반복측정 신뢰성은 같은 척도로 관측을 2회 실시하여 2회의 관측값들을 구하고 관측값들 간의 상관관계로 구한 척도의 신뢰성입니다. 상관계수가 크면 척도의 반복측정 신뢰성이 높다고 할 수 있습니다.

–  대안항목 신뢰성(alternative-form reliability)

한 척도로 측정하여 측정값들을 구하고 유사하지만 대안이 될수 있는 항목을 가진 척도로 다시 측정하여 관측값들 구합니다. 두 관측값집합의 상관계수로 척도의 대안항목 신뢰성을 평가합니다. 반복측정 신뢰성은 주시험효과가 작용할 수 있습니다. 주시험효과를 방지하기 위하여 두 번째 측정할 때 첫 번째 사용한 척도와 유사하지만 다른 척도를 사용합니다.

다항목척도의 내적 일관성

지능, 동기부여, 학습 태도 등을 구성개념(construct)라고 하는 데 심리학이나 교육학에서 관측하고자 하는 이론적인 개념입니다. 여기서, 한 구성개념을 측정하는 다항목척도는 항목들이 일관성을 가져야 합니다. 이 일관성을 “다항목척도의 내적 일관성(internal consistency)”이라고 합니다.

크론바흐계수 $\alpha$ (Cronbach’s coefficient $\alpha$)”는 다항목척도의 내적 일관성”을 표현하는 방법 중에서 가장 널리 쓰이는 방법입니다. 크론바흐계수는 다음식으로 구합니다.

$$\alpha=\dfrac{k}{(k-1)} \left(  1-\dfrac{\sum_\limits {i=1}^{k}\sigma_i^2}{\sigma_T^2}\right)$$

여기서,  $k$는 항목 수

$\sigma_i^2$은 $i$번째 항목의 분산

$\sigma_T^2$은 전체 항목의 분산

다르게 표현하면

$$\alpha=\dfrac{k \bar r}{1+{\bar r}(k-1)}$$

여기서,  $\bar r$은 항목간 상관계수의 평균

크론바흐계수 $\alpha$는 0 에서 1 사이의 값을 가지며, 높을수록 바람직합니다. 흔히 0.8에서 0.9 이상이면 만족할 수 있고 0.6에서 0.7이면 수용할 수 있습니다. $\alpha$계수가 매우 작으면 그 데이터는 내적 일관성을 결여한 것으로, 본 분석에서 사용할 수 없습니다. $\alpha$계수의 크기를 저해하는 항목들을 제거함으로써 계수값을 크게 할 수 있습니다. 

항목의 수와 $\alpha$계수의 크기는 양의 상관입니다. 척도점의 수와 $\alpha$계수의 크기도 양의 상관입니다. 그러나 표본의 크기와 $\alpha$계수의 크기는 음의 상관입니다. 

2.5. 척도개발

1) 개념정의 및 목표설정

척도를 개발하기 전에 먼저 관측하고자 하는 개념을 정의하고, 척도개발의 목표를 설정합니다. 이를 위해 선행연구조사와 인터뷰 등을 수행합니다.

2) 관측대상 분석

정의한 개념을 가진 관측대상을 분석합니다. 

관측대상인 개체의 속성(특징, 특성)이나 범주의 속성(특징, 특성) 등을 분석하여 항목을 생성합니다.

3) 척도유형 결정

척도유형에 따라 개발 방법이 다르므로, 척도유형을 먼저 결정합니다.

4) 문항 생성

여러 개의 항목을 생성합니다.

항목생성 시 관측대상인 개체나 범주의 속성(특성)이나 관측목적, 관측방식 등을 고려해야 합니다.

도메인 내의 구성요소나 구성요소와 연결된 특성을 고려하고, 데이터수집을 위한 관측도구의 목적과 측정방식 등을 고려합니다.

5) 문항 검토 및 문항 수정

생성된 문항들에 대해 검토를 수행합니다. 이 과정에서 문항들의 유형, 내용, 언어 등을 확인하고, 중복된 문항, 혼란스러운 문항, 문맥에 부적합한 문항 등을 제거하거나 수정합니다.

6) 척도개발 및 척도검증

선정된 문항들을 기반으로 척도를 개발합니다. 척도 유형에 따라 척도 개발 방법이 다르며, 각 문항들의 가중치, 점수 범위, 객관적 테스트 등을 고려합니다. 이후, 개발된 척도를 검증하기 위해 신뢰성, 타당성, 일관성 등에 대한 검증을 수행합니다. 이를 위해 적절한 통계분석 방법을 사용합니다.

7) 보고서 작성

마지막으로, 개발된 척도와 검증결과에 대한 보고서를 작성합니다. 보고서는 척도의 개념, 목표, 유형, 개발과정 및 검증과정, 검증결과 등을 설명하며, 척도의 사용자들이 척도를 올바르게 사용할 수 있도록 지침서 등을 포함하여 작성합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 실습강의 목차

4. 참조

4.1 용어

데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia


척도와 수체계
scale & number system

1. 애니메이션

1.1. 수체계

2. 설명

2.1. 수체계

2.2. 척도에 따른 수체계

2.3. 유한수체

2.4. 척도에 유한수체를 적용

2.5. 리커트척도

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

수체계

2. 설명

2.1. 수체계

수체계(system of numbers)란 수학에서 사용되는 숫자들의 집합과 그들 간의 연산들의 규칙이 결정되어 있는 체계를 말합니다. 대표적으로 자연수, 정수, 유리수, 실수, 복소수 등이 있습니다. 여기서, 복소수는 실수를 실수는 유리수를 유리수는 정수를 정수는 자연수를 포함합니다. 다르게 말하면, 자연수는 정수의 부분집합이고 정수는 유리수의 부분집합이고 유리수는 실수의 부분집합이고 실수는 복소수의 부분집합입니다. 수체계는 속성을 표현하는 변수를 모델링하기 때문에 속성이 반응하여 현상을 분석하여 문제를 해결하는 방법의 기반을 제공합니다. 

자연수

자연수(自然數, natural numbers)는 1, 2, 3, 4, 5, … 와 같이 기준의 양인 1과 그 기준의 합의 양으로 이루어진 집합입니다. 자연수 체계에서는 덧셈과 곱셈이 정의되어 있습니다. 즉, 두 자연수를 더하거나 곱할 때에는 반드시 자연수가 나옵니다. 하지만 자연수에서 자연수를 빼는 뺄샘과 자연수를 자연수로 나누는 나눗셈의 결과는 자연수가 아닐 수도 있습니다.

정수

정수(正數, integers)는 자연수에 0과 음의 자연수를 추가한 것입니다. 어떤 자연수의 음의 자연수는 그 자연수에 더하면 덧셈의 항등원인 0이 되는 수입니다.  이러한 정수에서는 덧셈과 곱셈 외에 뺄셈도 정의되어 있습니다. 즉, 두 정수를 더하거나 빼거나 곱하면 반드시 정수가 나옵니다. 단, 정수를 정수로 나누는 나눗셈의 결과는 정수가 아닐 수도 있습니다.

유리수

유리수(有理數, rational numbers)는 정수에 분수의 형태로 나타낼 수 있는 수를 추가한 것입니다. 분수는 정수를 0을 제외한 정수로 나눈 것입니다. 유리수에서는 덧셈, 뺄셈, 곱셈, 나눗셈이 모두 정의되어 있습니다. 즉, 두 유리수를 더하거나 빼거나 곱하거나 나눈 결과도 모두 유리수가 됩니다. 유리수는 정수와 소수(小數, decimal)의 합으로 표현합니다. 여기서 소수(小數)는 0과 1사이의 값을 의미하며 십진법으로 표현합니다. 그리고 소수점(小數點, decimal point)은 십진법에서 정수(正數)와 소수(小數)를 구분하는 점입니다. 따라서 유리수를 십진법으로 표현하면 정수(正數)와 소수(小數)의 합이라고 할 수 있습니다. 유리수는 소수점이하 자리수가 유한한 유한소수(有限小數, finite decimal)와 무한한 무한소수(無限小數, infinite decimal, infinite series)로 표현할 수 있습니다. 한편, 제곱해서 2가 되는 수(2의 제곱근)와 원의 반지름과 면적의 비율을 나타내는 수(원주율)는 분수의 형태로 표현할 수 없는 데 이를 무리수(無理數, irrational numbers)라고 합니다.

실수

실수는 유리수에 무리수를 추가한 것입니다. 실수는 무한소수나 극한값을 이용하여 나타낼 수 있으며, 실수에서는 덧셈과 곱셈, 나눗셈, 제곱근, 거듭제곱근 등이 정의되어 있습니다.

복소수

복소수는 실수에 허수를 추가한 것입니다. 허수는 제곱하면 음수가 되는 수입니다. 허수의 양의 기준은 i로 표현합니다. 복소수는 실수와 허수를 더한 형태로  a와 b가 실수일 때, a+bi와 같은 형태로 나타냅니다. 복소수에서는 사칙연산이 정의되어 있습니다. 실수는 시각적으로 직선상의 점으로 표현할 수 있지만 복소수는 2차원 평면인 복소평면에서 원점을 시작으로 하는 벡터로 표현합니다.

2.2. 척도에 따른 수체계

비례척도에 따른 데이터의 수체계

척도에 따라 데이터(관측값)의 수체계가 결정됩니다. 비례척도가 적용된 관측도구로 구한 관측값(데이터는) 0과 양의 실수입니다. 실수를 정의역으로하는 정규분포와 같은 확률변수의 분포모델을 사용하여 범주간의 속성을 비교분석하거나 표본으로 모집단을 추론하거나 생성될 표본을 예측할 수 있습니다. 간격척도로 구한 데이터의 기준을 관측대상의 속성이 없어지는 절대영점으로 0으로 하고 기준으로부터의 간격척도의 각 간격의 값을 알면 실수에서 정립된 통계모델을 사용할 수 있습니다. 정리하면 명목척도로 관측된 데이터에 순서를 부여하고 간격을 부여하고 데이터가 표현하는 속성이 없어지는 0점을 찾으면 실수체계에서 정립된 통계모델을 사용하여 데이터분석을 수행할 수 있습니다. 반대로 비례척도와 간격척도를 인간과 친화적인 명목척도, 순서척도로 변화하기도 합니다.

통계적 분석을 위해서 명목척도와 순서척도를 간격척도나 비례척도로 변환

개체의 속성에 대한 분석을 하기 위해서는 우선 속성을 나타내는 변수를 관측하여야 합니다. 변수를 관측함에 있어 비례척도를 적용할 수 있도록 변수를 정의하는 것이 매우 중요합니다. 그 이유는 개체의 속성을 나타내는 변수가 확률변수이면 통계적인 분석을 시도할 수 있기 때문입니다. 그리고 대다수를 차지하는 속성인 정규분포를 분석하기 위해서는 평균과 분산이 필요합니다. 정규분포를 가지는 개체의 속성은 매개변수인 평균과 분산으로 표현됩니다. 여기서, 평균과 분산은 비례척도로 얻은 데이터로부터 추정할 수 있다는 점에서 비례척도의 효용성이 크다고 할 수 있습니다. 비례척도로 구한 데이터로는 높은 수준의 통계적 분석을 행 할 수 있습니다. 또한 시공간에서 모델링한 범주의 확률적 속성을 통한 예측을 행할 수도 있습니다. 한편, 간격척도를 비례척도화하는 방법의 예로는 다음 두 과정이 있습니다. 첫번째로 간격척도의 간격을 등간격으로 하고 등간격과 비례척도의 1과의 관계를 수식으로 표현합니다. 두번째로 간격척도의 위치의 원점과 비례척도의 0의 위치와의 관계를 수식으로 표현합니다. 분포의 위치를 표현하는 측도는 평균이 있고 분포의 크기를 표현하는 측도는 분산이 있습니다. 따라서 평균과 분산을 모두 구하기 위한 데이터(관측값)를 얻기 위해서는 비례척도를 가진 관측도구(측정도구)가 필요합니다.

2.3. 유한수체

유한수체(유한체, finite field, Galois field)는 원소의 개수가 유한한 체(field)를 말합니다. 유한수체의 특징은 그 크기가 항상 소수의 거듭제곱 형태로 나타납니다.

$$p^n$$

여기서, $p$는 소수(prime number)

$n$은 자연수

유한수의 체(field)는 덧셈, 뺄셈, 곱셈, 나눗셈(0으로 나누는 것 제외)에 대해 닫혀 있는 대수적 구조를 의미하며, 이러한 연산에 대해 다음과 같은 공리를 만족합니다.

닫힘: 체의 모든 원소에 대해 덧셈과 곱셈 연산을 수행해도 결과는 항상 체 내의 원소입니다.

결합 법칙: 덧셈과 곱셈 모두에 대해 결합 법칙이 성립합니다.

가환 법칙: 덧셈과 곱셈 모두에 대해 가환 법칙이 성립합니다.

항등원의 존재: 덧셈에 대한 항등원(0)과 곱셈에 대한 항등원(1)이 존재합니다.

역원의 존재: 체의 모든 원소, a에 대해 덧셈 역원(-a)과 곱셈 역원(1/a, a ≠ 0)이 존재합니다.

분배 법칙: 곱셈과 덧셈에 대해 분배 법칙을 만족합니다.

 

유한수체의 예

유한수체의 간단한 예는 2진수와 5진수가 있습니다. 7진수가 있습니다. 모두 크기가 소수(素數)입니다. 2진수는 0과 1의 두 개의 수의 집합입니다. 2진수는 이분척도(binomial scale)인 “있음과 없음” 또는 “성공과 실패” 라는 개념으로 바꿀 수 있습니다. 5진수는 등간격인 숫자로 이루어진 {0,1,2,3,4}이고 집합의 크기인 5는 소수(素數)입니다. 10진수는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9라는 10개의 숫자기호로 나타냅니다. 10진수의 개수는 10으로 소수(素數)가 아닙니다. 

2.4. 척도에 유한수체를 적용

척도가 유한수체를 나타내면 관측결과를 수치화하여 산술연산하더라도 서로 다른 정도를 나타냄을 보장합니다. 그리고 범주의 속성을 결정하는 척도의 각 항목은 명시적으로 구분할 수 있어야 합니다. 즉, 범주형 속성의 값은 서로 이질적이고 상호 배타적이어야 합니다.

명목척도에 유한수체를 적용

유한수체를 명목척도에 적용하기 위해 명목척도의 명목의 수를 소수(素數)로 합니다. 그리고 개체의 범주형 속성에 명목과 순서를 부여하여 각 범주를 순서대로 나열합니다. 순서대로 나열된 범주 사이에 수치를 가지는 간격을 부여하여 질적데이터를 양적데이터로 모델링합니다. 간격이 부여된 범주형 데이터는 데이터를 분석하여 위치를 나타내는 속성을 분석할 수 있습니다. 여기서 범주의 개수가 소수이면 범주의 위치 속성을 연속으로 모델링할 수 있습니다. 또한,  범주의 속성이 무(無)가 되는 0을 모델링하여 절대기준으로하고  양의 크기의 기준인 1과 그 단위를 모델링하면 범주의 명목을 범주형 확률변수에서 연속형 확률변수로 변환할 수 있습니다. 즉, 범주의 위치의 속성과 범주내의 개체의 퍼짐의 속성을 동시에 분석할 수 있습니다. 연속형 확률분포를 가지는 통계모델의 확률분포 모수(parameter)를 구하면 궁극적으로 개체의 속성을 생성하는 확률모델을 추정할 수 있습니다.  

2.5. 리커트척도

5점척도, 7점척도

 리커트척도(Likert scale)의 첫 단계를 속성이 존재하지 않는 상태로 하고 마지막 단계를 속성이 모두 있는 상태로 하는 순서척도(ordinal scale)입니다. 각 단계의 개수를 5단계, 7단계인 소수로 하고 각 단계에 간격을 부여하여 간격척도로 변환합니다. 리커트척도의 예를 보면,  “매우 그렇다”, “다소 그렇다”, “보통이다”, “다소 그렇지 않다”, “매우 그렇지 않다”와 같이 5단계를 텍스트로 표현합니다.  텍스트로 표현된 단계를 각각 0, 1, 2, 3, 4와 같은 5진수로 하여 리커트척도를 유한수체로 만듭니다. 이 리커트척도로 구한 데이터(관측값)를 연산한 결과는 유한수체의 공리를 만족합니다.

리커트척도를 적용한 관측도구

척도는 관측대상을 관측하는 관측도구에 적용됩니다. 그리고 척도는 관측대상인 개체의 속성을 표현합니다. 척도는 명목척도, 순서척도, 간격척도, 비례척도로 분류할 수 있습니다. 일반적인 리커트척도는 순서척도입니다. 관측도구는 적절한 척도를 포함하고 있어야 하고 정확하고 효율적이어야 합니다. 리커트척도가 적용된 관측도구는 범주형 속성을 가지는 개체의 속성의 범주와 그 범주의 순서를 관측합니다. 순서척도인 리커트척도에 간격을 부여하여 간격척도로 변환할 수 있습니다. 더 나아가 속성을 양(quantity, 量)으로 모델링하고 양의 기준(“0” 과 “1”)을 정의하여 리커트척도를 비례척도로 변환할 수 있습니다. 사회과학에서 리커트척도를 가지는 대표적인 관측도구는 설문이 있습니다.  

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 실습강의 목차

4. 참조

4.1 용어

리커트 척도

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다.

척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다.

특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

 

Reference

Likert scale – Wikipedia

척도와 측도
scale & measure

1. 애니메이션

1.1. 순서척도, 간격척도, 비례척도의 예

2. 설명

2.1. “0”의 의미

2.2. “1”의 의미

2.3. 척도

2.4. 측도

2.5. 측도인 확률

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

순서척도, 간격척도, 비례척도의 예

2. 설명

2.1. “0”의 의미

측도와 척도의 의미를 이해하는데 있어, 측도와 척도에서 사용한 “0”에 대한 이해가 선행되어야 합니다. 

실체의 부재

실체를 정의하고, 그 실체가 없음을 나타낼 때, 0을 사용합니다. 예를 들어, 사과가 0개 있다는 의미는 사과가 무엇인지 정의하고, 그 정의에 맞는 사과가 없음을 의미합니다.

균형의 의미

양의 값과 음의 값, 혹은 양의 크기와 음의 크기가 있을 때, “0”은 그 양쪽의 값, 크기가 같아서 균형이 이룸을 의미합니다. 예를 들어, 이익이 0이라고 한다면, 손실과 이익이 없거나, 손실과 이익의 크기가 같아서 균형을 이룸을 의미합니다.

기준의 의미

시간의 시작 시점은 정의를 내리기 어렵기 때문에 양을 측정하기도 어렵게 됩니다. 그래서, 특정 시점을 기준으로 둘 수 있습니다.  엑셀, 구글시트와 같은 스프레드시트에서는 1899년 12월 30일 오전 12시를 기준으로 하는데, 이를 숫자로 변환하면 “0”입니다. 1를 더하면, 1899년 12월 31일 오전 12시가 되고, 0.1를 더하면, 1899년 12월 30일 오전 2시 24분이 됩니다.

자리 표시자

“0”은 숫자 체계에서 자리 표시자로 사용되기도 합니다. 10진법에서 100이라는 숫자는 10의 2승이 1개, 10의 1승이 0개, 10의 0승이 0개라는 의미인데, 100에서 1은 백의 자리 수이고, 두번째 0은 십의 자리 수, 세번째 0은 일의 자리 수입니다. 

덧셈의 항등원

덧셈의 항등원으로서의 0는 어떤 수와 0을 더해도 그 수가 변하지 않는 수입니다. 예를 들어, 5 + 0 = 5, 10 + 0 = 10, -2 + 0 = -2와 같은 식으로 0은 어떤 수를 더해도 그 수에 영향을 미치지 않습니다.

2.2. “1”의 의미

척도와 측도의 의미를 이해하는 데 있어서 ‘0″과 마찬가지로 “1”에 대한 이해가 우선되어야 합니다.

실체의 존재와 양을 측정

실체를 정의하고, 그 실체가 있음의 완전함을 표현할 때, 1을 사용합니다. 예를 들어, 사과가 1개 있다는 의미는 사과가 무엇인지 정의하고, 그 정의에 맞는 사과가 있음을 의미합니다. 

곱셈의 항등원

숫자 1은 소수도 합성수도 아닌 유일한 수입니다. 어떤 수든 1을 곱하면 원래의 수가 되며, 1은 곱셈의 항등원입니다. 

확률에서 1

확률에서 1은 “확실이 출현할 사건이나 합사건”을 표현합니다. 사건의 확률은 일반적으로 0부터 1 사이의 값을 가지며, 0은 “불가능한 사건”을, 1은 “확실한 사건”을 나타냅니다.

예를 들어, 동전 던지기에서 앞면과 뒷면이 완벽히 같은 동전이라면 앞면이 나올 사건의 확률은 0.5로, 앞면이 나오지 않을 사건의 확률은 0.5으로 표현합니다. 이 경우, 앞면과 뒷면이 같지 않은 동전이라도 앞면 또는 뒷면이 나올 확률은 합은 1이 됩니다. 즉, 동전을 던지면 앞면과 뒤면 중에 반드시 한면은 나오므로 앞면이 나오는 사건과 뒤면이 나오는 사건의 합사건의 확률은 1이 됩니다. 

따라서, 확률이 1인 사건은 반드시 발생하며, 그 반대인 확률 0인 사건은 발생하지 않습니다. 예를 들어, 동전 던지기에서 앞면과 뒷면이 아닌 다른 면이 나올 확률은 0입니다(혹은 0이라고 가정합니다).

2.3. 척도

척도(scale)는 어떤 변수를 측정할 때 사용되는 기준이나 체계를 의미합니다. 통계학에서 변수는 어떤 대상의 속성을 표현하는 값으로, 예를 들어 나이, 키, 체중 등이 있습니다. 이러한 변수를 측정할 때는 척도를 정의하고 그 척도를 사용하여 변수값을 관측합니다. 관측된 변수값을 데이터라고 부릅니다. 일반적으로 척도는 4가지 유형으로 구분됩니다.

명목척도(nominal scale)

명목척도는 변수의 구분을 위한 척도로, 서로 구별되는 범주(카테고리)를 사용합니다. 예를 들어, 성별, 혈액형, 학과 등이 명목척도에 해당합니다. 명목척도의 관측값은 서로 비교할 수 없으며, 오직 분류(카테고리화)의 목적으로 사용됩니다.

순서척도(ordinal scale)

순서척도는 명목척도로 관측대상을 분류한 범주의 순서 혹은 등위의 정보를 더하여 위한 척도입니다. 로, 명목척도와 마찬가지로 범주형 변수를 측정합니다. 예를 들어, 학생들의 성적 등급(상, 중, 하), 인기순위(1위, 2위, 3위…) 등이 순서척도에 해당합니다. 순서척도는 관측값 사이의 상대적인 크기 비교가 가능하지만, 각 관측값의 차이에 대해서는 정확한 의미를 가지지 않습니다.

간격척도(interval scale)

간격척도는 간격을 관측하는 척도입니다. 관측대상의 속성의 위치와 기준과의 간격을 관측하거나 두 관측대상의 속성의 위치의 간격을 관측하여 관측값을 나타냅니다. 간격의 관측값은 양적 데이터(수치형 데이터)입니다. 예를 들어, 섭씨 온도, 시간, 나이 등이 간격척도에 해당합니다. 간격척도는 순서척도의 특징을 포함하며, 각 관측값의 차이에 대해서 정확한 의미를 가지려면 두 관측대상의 속성이 공유하는 0점을 갖지 않는 경우가 많기 때문에 두 관측값의 비교나 여러 관측값간의 비례 계산에는 제한이 있을 수 있습니다.

비례척도(ratio scale)

비례척도(비율척도)는 간격척도의 특성에 더하여 절대적인 0점을 갖는 척도로, 관측값의 비율 계산이 가능합니다. 따라서 관측대상의 속성이 절대적인 기준이 있는 양으로 표현될 수 있는 경우에 사용합니다. 비례척도 기준으로는 “절대적 영점 (Absolute Zero)”을 사용합니다. 절대적 영점은 해당 측정값이 0일 때 해당 속성이 완전히 부재함을 나타내는 지점을 의미합니다. 비례척도로 관측하는 관측대상의 속성에는 무게, 길이, 속도, 가계수입 등이 있습니다. 예를 들어, 온도를 비례척도로 측정할 때, 켈빈(Kelvin) 온도 척도(scale)에서는 0 K (절대 영점)이 온도가 없음을 나타냅니다. 이러한 비례척도에서는 절대적 영점을 기준으로 양의 방향으로 측정값을 해석할 수 있습니다.

비례척도는 4가지의 척도 중에서 가장 높은 데이터(관측값)에 대한 분석이 가능한 수준입니다. 명목척도와 순서척도와 간격척도의 모든 특성을 갖고 있으며 더하여 절대적인 의미를 가지는 “0”점을 가지는 척도입니다. 비례척도는 관측대상의 속성이 크기를 가지며, 크기가 없는 0이 정의되고 크기의 기준인 1이 정의 되는 척도입니다. 따라서 관측대사으이 속성의 크기가 있고 그 크기가 기준과 비례하는 경우에 사용되는 척도입니다. 따라서 비례척도로 관측한 여러 관측대상의 관측값의 비율도 의미를 가지게 됩니다.

예를 들어, 어떤 제품의 무게를 측정하는 경우, 무게가 0인 상태(아무것도 없는 상태)를 절대적인 0점으로 정하고, 그 상태에서 관측된 무게 값들 사이의 비율을 계산할 수 있습니다. 즉, 이 경우에는 2kg의 무게가 1kg의 무게보다 2배 더 크다는 의미를 가집니다.

또한, 비례척도는 대부분의 수학적 연산이 가능합니다. 비례척도로 표현한 관측값은 덧셈, 뺄셈 뿐만 아니라 곱셈, 나눗셈의 연산이 모두 가능합니다. 따라서 비례척도로 구한 데이터(관측값)는 사칙연산을 사용하여 구하는 평균, 분산 등의 측도를 계산할 때 사용할 수 있습니다. 정리하면 비례척도로 구한 데이터는 측도를 계산하는 데 사용할 수 있으며 측도를 이용한 통계적 분석이 가능합니다.

그러나 비례척도는 적용 가능한 변수가 제한적이라는 단점이 있습니다. 즉, 관측대상의 속성이 크기를 가져야 하면 그 크기의 기준인 “0”과 “1”이 존재해야 합니다. 또한 간격척도의 특성인 위치의 기준도 가지고 있어야 합니다.  이 때 간격척도의 위치 기준을 “0”으로 하고 비례척도의 크기 기준에서 “0”과 “1”을 사용하면 두 척도의 기준에 적용한 두 “0”사이의 관계를 명확히 나타낼 수 있어야 합니다. 예를 들어, 인간의 키는 비례척도로 관측할 수 있지만, 인간의 지능이나 인간의 성격 등의 변수는 크기의 “0”과 “1”을 정의하기가 어렵습니다. 따라서 인간의 지능이나 성격을 비례척도로 관측하려면 많은 조건이나 가정이 필요합니다. 정리하면, 어떤 개체의 속성을 분석하기 위해서는 비례척도를 적용하여 사칙연산이 가능한 데이터를 얻어야 합니다. 따라서 관측대상의 속성에 조건이나 가정을 제시하는 과정과 방법에 대한 많은 연구가 있게 됩니다.

2.4. 측도

측도(measure)란, 수학적으로 정의된 집합 위에 값을 부여하는 함수를 말합니다. 예를 들어, 실수 집합에서 정의된 함수 f(x)가 있을 때, 이 함수가 어떤 부분 집합 A의 원소 x에 대해 f(x) 값을 부여하면, 이 함수 f(x)는 집합 A 위에 측도를 정의한다고 말할 수 있습니다.

측도는 기하학, 확률론 등 다양한 분야에서 사용됩니다. 기하학에서는 크기를 가지지 않는 점의 위치를 표현하는 척도에 더하여 길이,  면적, 부피 등의 크기를 가지는 개념을 표현하는 데에 측도를 도입합니다. 확률론에서도 공간의 개념을 적용하여 확률공간에서 사건의 확률을 정의할 때 측도를 사용합니다. 확률은 크기(양)을 나타내며 공간상에서 확률의 분포를 표현할 때 측도로서의 확률이 적용됩니다. 또한 확률공간에 사건의 결과를 표현하는 집합은 공간에 출현하는 개체가 속한 집합이라고 할 수 있습니다. 여기서, 집합은 관측이나 분석의 대상에 따라 범주(category), 집단(group), 수준(level), 표본(sample), 모집단(population) 등의 용어로 대치될 수 있습니다.

측도는 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 비음수성 (Non-negativity): 측도가 정의된 모든 집합에 대해 측도의 값은 0 이상이어야 한다.
2) 가법성 (Additivity): 서로소인 두 집합의 측도의 합은 합집합의 측도와 같아야 한다.
3) 치환 불변성 (Translation invariance): 집합에 대해 어떤 이동이 발생해도 측도의 값은 변하지 않아야 한다.

 

2.5. 측도인 확률

확률

확률(probability)은 사건(event)과 매칭됩니다. 사건은 시행(try)이 있을 때마다 일어납니다. 예를 들어, “동전을 던져서 관측하기”라는 시행이 있으면 “윗면이 나오는 사건”과 “뒷면이 나오는 사건”이 일어납니다. 동전던지기 시행을 무한히 반복하면 각 사건의 통계적 확률을 구할 수 있습니다. 이 때 확률을 사건에 매칭하기 위해 표본공간(sample space)을 정의해야 합니다. 표본공간은 “일어나지 않는 사건”과 “모든 사건의 합사건”을 포함하여 일어날 수 있는 모든 사건이 원소인 집합입니다. 또한 동전을 개체(object)라고 한다면 사건은 개체를 관측하여(observe) 구한 개체의 속성이라고 할 수 있습니다. 동전을 관찰하면 동전이 앞면과 뒷면의 속성을 갖고 있음을 알 수 있습니다. 속성은 시행(try, test)의 결과를 관측하여(observe) 표현할 수도 있습니다. 따라서 사건은 개체가 나타내는 “범주형 속성”이라고 할 수 있습니다. 범주와 마찬가지로 사건도 집합으로 표현할 수 있습니다.

 

확률(probability)의 고전적 정의는 시행에서 가능한 모든 사건인 표본공간의 원소수에 대한 사건(event)의 원소수입니다. 여기서, 표본공간을 사건으로 대응하면 표본공간의 확률은 1이됩니다. 쉽게 말하면 시행에서 가능한 모든 경우의 수에 대한 사건이 가지는 경우의 수입니다. 확률은 시행에서의 모든 빈도에 대한 사건의 빈도인 “상대빈도”로도 설명할 수 있습니다.

확률공간

공간에는 범주가 있고 범주의 속성을 나타내는 측도에는 그 범주의 확률이 있습니다. 공간의 범주에 그 범주의 속성인 확률을 표현할 수 있으면 그 공간을 확률이 나타나는 공간인 확률공간(probability space)이라 합니다. 확률공간은 확률론에서 확률을 정의하는 데에 사용되는 수학적 개념입니다. 확률공간은 표본공간, 사건의 집합, 확률측도의 3요소로 이루어져 있어서 “triple”이라고도 불립니다. 표본공간, 사건의 집합, 확률측도가 모두 정의되면, 이를 이용하여 확률을 표현할 수 있습니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 “P({앞면})”로 표현할 수 있습니다.

확률공간의 3요소

1. 표본공간(Sample space) : S

시행(try)의 가능한 모든 결과의 집합입니다. 예를 들어, 동전 던지기라는 시행에서 샘플 공간은 {앞, 뒤}입니다.

2. 사건의 집합(Sigma algebra) : A

표본공간의 부분집합으로서, 가능한 사건들의 집합입니다. 예를 들어, “동전을 던지고 나타난 면을 보기” 라는 시행(try)에서 가능한 사건(event)들은 {앞면}, {뒷면}, {앞면,뒷면}, {   }  등이 있습니다. 사건을 서술형으로 설명하면 {앞면}은 “주사위를 던져서 앞면이 나오는 사건”입니다. {뒷면}은 “주사위를 던져서 뒷면이 나오는 사건”입니다. 표본공간이기도 한 {앞면, 뒷면}은 주사위를 던져서 앞면 또는 뒷면이 나오는 사건”입니다. 공집합인 {   }은 “주사위를 던져서 앞면과 뒷면이 나오지 않는 사건”입니다. 사건의 집합은 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 공집합과 표본공간이 사건의 집합에 속한다.

2) 어떤 사건의 여집합(complement)도 사건의 집합에 속한다.
3) 임의의 사건들의 합집합(union)도 사건의 집합에 속한다.

3. 확률측도(Probability measure) : P

확률은 집합을 표현하는 측도 중의 하나입니다. P는 사건의 집합, A에 속하는 각각의 사건에 대한 확률 값을 정의한 이산형 함수(discrete function)입니다. 이 함수는 다음과 같은 세 가지 조건을 만족해야 합니다.

1) 모든 사건, A에 대해 P(A)는 0 이상의 실수이다.
2) 표본공간, S에 대해 P(S) = 1 이다.
3) 어떤 사건들의 합집합이 서로소일 때, 그들의 확률의 합은 전체 집합의 확률과 같습니다. 즉, $\rm{A_1, A_2, \ldots}$가 서로소인 사건들이고 이들의 합집합이 A일 때, $\rm{P(A) = P(A_1) + P(A_2) + \ldots}$이다.

사건의 서로소

두 집합이 서로소(disjoint, mutually exclusive)라고 하는 것은 두 집합이 공통된 원소가 없음을 의미합니다. 즉, 교집합이 원소가 없는 공집합임을 말합니다. 더 나아가 두 사건이 서로소라는 말은, 두 사건의 결과를 표현한 집합이 서로소임을 의미합니다. 두 집합의 교집합이 공집합임을 의미합니다. 이 때의 두 사건을 서로 배타적인 사건 또는 서로 교차하지 않는 사건이라고 합니다.

 

서로소는 확률론에서 매우 중요한 개념입니다. 두 사건이 서로소일 때, 이들의 확률의 합은 각 사건의 확률의 합과 같습니다. 즉, P(A ∪ B) = P(A) + P(B) 입니다. 이를 이용하여, 서로소인 사건들의 확률을 계산할 때, 사건들의 확률을 더하여 쉽게 계산할 수 있습니다. 예를 들어, 동전 던지기에서 “앞면이 나오는 사건”과 “뒷면이 나오는 사건”은 서로소입니다. 이는 “앞면이 나오는 사건”과 “뒷면이 나오는 사건”이 교집합을 가지지 않기 때문입니다. 또한, 두 집합이나 사건이 서로소일 때, 이들의 합집합은 각 집합의 크기의 합과 같습니다. 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 실습강의 목차

4. 용어

4.1 용어

리커트 척도

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다.

척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다.

특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

 

Reference

Likert scale – Wikipedia

개체분포와 도수분포의 시각화

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램

2. 설명

2.1. 개체와 도수

2.2. 상대도수와 확률

2.3. 개체분포의 시각화

2.4. 도수분포의 시각화

2.5. 개체분포의 모델

2.6. 도수분포의 모델

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

도수분포 막대그래프

히스토그램

2. 설명

2.1. 개체와 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 한번 실현되면 변하지 않는 속성(예를 들면 성별)이 있고 상황에 따라 변하는 속성(예를 들면 몸무게)이 있습니다. 개체를 분석하기 위하여 개체의 속성을 변수로 모델링하는 데 특별히 변수값에 따른 확률값을 가지는 확률변수로 모델링할 수 있습니다. 확률변수는 확률분포를 나타내는 데, 예를 들어 한우의 품질등급은 대한민국(전체시공간, 전체범주)에서 전수조사를 하면 품질등급에 따른 개체수로 한우품질의 분포를 볼 수 있습니다. 그리고 생산지(부분시공간, 부분범주)별 한우품질의 분포도 볼 수 있습니다.  이때 한우의 개체수가 많다면 개체수로 구한 한우가 태어날 때 예측하는 한우품질의 확률분포와 비슷하다고 볼 수 있습니다. 한편, 확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 관측값의 집합을 개체의 데이터 레코드(record)라 합니다. 개체의 ID와 그 개체의 관측값은 개체가 이루는 범주의 요소(element)가 됩니다.

도수(빈도수, 頻度数, frequency)

도수는 빈도수의 약어입니다. 도수(frequency)는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 여기서 공간은 개체의 속성을 표현하는 변수가 만듭니다. 개체가 서로 독립적인 다수의 속성을 가진다면 속성이 관측된 개체는 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체가 나타나는 공간은 3차원 공간이라고 볼 수 있습니다. 3차원에서 공간의 예는 체적이 있습니다. 체적은 점 또는 선 또는 면의 적(積, 쌓음)으로 표현될 수 있습니다. 한편, 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치를 부분공간을 대표하는 점(point)으로 모델링하기도 합니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다.

개체분포와 도수분포

개체의 분포를 도수의 분포로 만드는 방법은 개체가 속하는 범주로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가질 수 있으며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수분포는 “양(量)”으로 나타낼 수 있는 범주의 분포라고 할 수 있습니다. 개체의 속성이 명목형이라고 하더라도 그 개체가 속한 범주로 개체가 출현한 회수(도수)는 “양(量)”이므로 개체의 속성을 분석하고 예측하는 중요한 기반이 됩니다.

2.2. 상대도수와 확률

상대도수(relative frequency)

상대도수는 정해진 기간과 전체공간에서의 전체 도수와 각 부분공간에서의 도수의 비율입니다. 관측된 개체가 많아지면 전체공간에 많은 개체의 점(point)이 출현하여 분포를 나타냅니다. 이 때 전체공간을 분할한 부분공간에 상대도수를 표현한다면 이는 출현한 개체의 분포를 정량적으로 표현한 것입니다.  분할된 각 부분공간에서의 상대도수의 합은 1이 되며 관측된 개체의 수가 많아 질수록 개체의 속성을 표현하는 확률변수의 확률분포와 점점 같게 됩니다. 이를 통계적 확률분포라고 합니다.

확률(probability)

개체가 관측되기 전에는 개체의 속성이 만드는 공간의 어디에 개체가 나타날지 모릅니다. 만일, 개체의 속성이 확률을 가지는 변수로 표현된다면 개체가 공간의 어디에 나타날지를 확률로 표현할 수 있게 됩니다. 또한 정해진 기간이 길어서 많은 개체가 출현하였고 모든 개체가 같은 속성을 가진다면 개체의 분포는 개체가 가지고 있는 속성을 표현하는 확률변수의 확률분포를 나타냅니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.4. 도수분포(frequency distribution)의 시각화

도수는 범주에서의 개체의 출현회수입니다. 그리고 도수분포는 각 범주의 위치에서의 도수입니다. 따라서 도수분포를 시각화하기 위해서는 개체가 속하는 범주와 그 범주의 위치를 우선 정합니다. 도수분포의 시각화에서는 개체의 속성을 수치형 변수로 모델링하고 관측한 경우에는 개체가 속하는 범주의 구간을 정하는 것이 중요하고 범주형 변수인 경우에는 개체가 속하는 범주를 구분할 수 있도록 가능한 변수를 정하는 것이 무엇보다 중요합니다.

막대그래프(bar chart) : 확률변수가 범주형이거나 이산형

막대그래프는 확률변수가 범주형이거나 이산형인 경우, 도수분포를 시각화하는 방법입니다. 막대그래프에서 독립변수는 범주형이거나 이산형인 확률변수이고 종속변수인 막대의 길이는 도수입니다. 

만일 각 독립변수에서의 막대의 길이를 도수에서 상대도수로 변환하면 막대의 길이는 확률질량이 됩니다. 이 때 막대의 길이를 모두 합하면 확률질량의 합과 마찬가지로 1이 됩니다.

히스토그램(Histogram) : 확률변수가 연속형

히스토그램은 확률변수가 연속형인 경우 도수분포를 시각화하는 방법입니다. 연속형인 확률변수는 같은 크기를 가지는 구간(bins, intervals)으로 구분됩니다. 구분된 구간이 밑면이고 각 구간에서의 도수가 높이인 직사각형의 이음을 히스토그램이라고 합니다. 히스토그램을 이루는 직사각형들은 밑면의 크기가 일정하며 빈틈없이 이어져 있습니다. 따라서 히스토그램을 이루는 직사각형의 높이를 전체도수와 구간의 길이로 나누면 직사각형의 면적의 합을 1로 만들 수 있습니다. 히스토그램은 연속형 확률변수의 확률분포를 나타내는 이산확률밀도함수의 모양과 같습니다. 따라서종속변수의 도수를 전체도수와 구간의 길이로 나누면 이산확률밀도함수로 변환할 수 있다는 큰 장점이 있습니다. 연속형 확률변수의 관측값으로 히스토그램을 그리면 확률분포의 모양을 직관적으로 살펴볼 수 있기 때문에 매우 유용한 데이터시각화 방법입니다. 

연속형 데이터의 분석을 위한 히스토그램을 그리기 위해서는 우선 도수분포표를 만듭니다. 도수분포표(frequency table)는 연속형 확률변수를 구간으로 나누고 관측한 확률변수값(데이터)의 구간에서의 도수를 표로 만든 것입니다. 도수분포표에서 중요한 것은 적합한 구간크기(구간간격)를 정하는 것입니다. 데이터(관측값)에는 범위가 있으므로 구간크기가 정해지면 구간의 개수는 자동으로 계산됩니다. 데이터분석의 목적에 맞는 구간크기를 정하는 방법은 경험법칙부터 다양한 방법이 있습니다. 

2.5. 개체분포의 모델 

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

2.6. 도수분포의 모델

범주를 표현하는 “양”으로 개체의 도수(개체가 범주에 출현하는 회수)가 있습니다. 도수분포의 모델은 범주에 나타나는 개체의 출현회수의 기대값에 기반합니다. 개체가 속하는 표본도 범주라고 볼 수 있습니다. 도수분포의 모델은 표본의 확률분포라고 할 수 있습니다.

표본통계량의 확률분포

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. 표본의 분포(표집분포)는 범주의 분포로 볼 수 있고 표본통계량의 분포는 확률분포로 모델링할 수 있습니다. 표본통계량의 확률분포 모델은 대표적으로 연속형 확률분포로 F분포와 t분포가 있습니다. F분포와 t분포를 표현하는 함수의 무수(매개변수)는 표본크기입니다.

알고 있는 확률분포 모델과 관측한 표본데이터로 추정하는 모수(분포함수의 매개변수)

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. MLE(Maximum Likelihood Estimation, 최대우도를 목표로 하는 모수 추정법)로 확률분포의 모수를 추론합니다. 이때 경험으로 알고 있는 확률분포 모델과 표본데이터를 이용하여 확률분포의 가능도를 최대로 하는 확률분포함수의 모수를 구합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프

4. 참조

4.1 용어

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


4.2. 참고문헌