QA : 5
DATA SCIENCE : 26
TABLE : 6
TERM : 3
eISSN 2280-2211

[ DATA SCIENCE ]

분포값

[Q&A]

ARTICLE CONTENTS

Measure of dispersion

0000-0002-3121-1113
박근철, 양윤원
31 March 2023,
30 April 2023,
04 May 2023,
19 May 2023,
DocuHut Co. Ltd., Seoul, Republic of Korea
24711-D
24711-C

Abstract

집단의 분포값은 집단의 산포도 또는 변산성을 나타내며, 분산, 표준편차, 범위 등을 포함합니다. 분산은 각 데이터 값과 평균과의 차이를 제곱한 후 평균을 내어 계산하며, 이로 인해 데이터 값들이 평균에서 얼마나 멀리 퍼져 있는 지를 나타냅니다. 표준편차는 분산의 제곱근으로, 데이터 값들이 평균으로부터 얼마나 퍼져 있는지를 같은 단위로 표현하여 직관적인 이해를 돕습니다. 범위는 데이터세트 내 최대값과 최소값의 차이로, 데이터의 전체적인 퍼짐 정도를 나타냅니다. 분산과 표준편차는 데이터의 변동성을 정량화하는 데 중요하며, 모집단과 표본 간의 관계, 자유도의 개념 등을 통해 데이터의 분포와 변동성을 이해하는 데 필수적인 도구입니다. 이들 측도는 데이터의 특성을 파악하고 비교하는 데 사용되며, 수학적 처리의 용이성과 정규분포와의 연관성 때문에 널리 사용됩니다

Key Word

데이터, 범주, 데이터세트, 분산, 표준편차, 자유도, 범위, 최대값, 최소값, 변동성

집단의 분포값

집단(group)의 분포값(measure of dispersion)은 집단내 데이터의 퍼짐을 의미하는 집단의 속성입니다. 따라서 분포값은 집단의 속성을 나타내는 측도(measure)라고 할 수 있습니다. 분포값은 집단내 데이터의 분포정도를 수치로 나타냅니다. 분포값은 산포도(degree of scattering) 또는 변산성(variability)이라고도 부릅니다. 설명통계(기술통계, descriptive statistics)에서는 모집단과 표본(표본집단)을 구분하지 않고 관심있는 집단의 분포만을 설명합니다. 분산과 표준편차를 구하는 식인 추정량에서는 집단의 크기를 사용합니다. 모집단을 추정하기 위해 표본을 추출하고 그 표본을 관측하는 경우, 표본의 분포값 중의 하나인 표본분산은 모분산의 추정값(추정치)입니다. 또한 표본의 분포값의 기대값은 모집단의 분포값입니다.

범위

데이터의 분포값에는 간단하게는 데이터의 범위(range)가 있습니다. 범위는 최대값과 최소값의 차이입니다. 중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

분산

평균을 기준으로 하는 분포 정도(measure of dispersion)에는 분산(variance)이 있습니다. 분산은 각 관측값과 평균과의 차이를 제곱한 값들의 대표값 중에서 평균을 구한 것입니다. 즉, 변수값에서 평균을 뺀 값, 즉, 편차의 제곱의 평균입니다. 또한, 평균과 관측값과의 거리의 제곱의 평균이라고 표현할 수도 있습니다. 그래서 분산은 0이나 양의 수가 됩니다. 직관적으로 본다면 변수의 관측값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다. 그리고, 관측값(데이터값)이 평균 주위에 몰릴수록 분산의 값이 작아 진다고 볼 수 있습니다. 모집단의 분산을 모분산이라고 부르며 $\sigma^2$로 표시합니다. 표본의 분산을 모표준편차라고 부르며 $s^2$으로 표시합니다.

표준편차

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다. 분산과 마찬가지로 표준편차도 분포의 정도를 나타냅니다. 표준편차는 데이터(관측값)와 단위가 같게 되어 평균과 비교할 때 관측자에게 직관을 줄 수 있습니다. 즉, 표준편차는 평균이나 관측값과 같은 단위를 갖기 때문에 그 크기를 평균과 비교하기가 쉽습니다. 모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다. 표본의 표준편차를 표본표준편차라고 부르며 $s$로 표시합니다.

차이의 평균

절대편차평균(MAD)은 “차이의 평균”입니다. 집단에서 관측값과 집단평균의 차이의 평균으로도 데이터의 분포를 나타낼 수 있습니다.

$$\text{차이 평균} = \dfrac{\sum\limits_{i=1}^{N} |x_i – \mu|}{N} $$

여기서, $N$은 집단의 개체 수 : 데이터 점의 수

$ x_i$는 각 개체 : 각 데이터 점

$\mu$는 집단(데이터세트)의 평균

$\mid x_i-\mu \mid$는 각 데이터점과 평균 간의 차이

“차이의 평균”과 표준편차를 비교하기 위해 표준편차식을 살펴보면 다음과 같습니다.

$$\sigma = \dfrac{\sqrt{\sum\limits_{i=1}^{N} (x_i – \mu)^2}}{\sqrt {N}} $$

여기서, $N$은 집단의 개체 수 : 데이터 점의 수

$ x_i$는 각 개체 : 각 데이터 점

$\mu$는 집단(데이터세트)의 평균

“차이 평균”과 표준편차는 집단을 이루는 1개의 개체로 표준화하는 과정에서 $N$과 $\sqrt{N}$으로 나눈다는 것이 다릅니다. 차이(거리)와 점의 차원을 볼 때, 표준편차는 차원을 맞춘 것이므로 집단의 분포를 표현하는 “측도”로 표준편차는 “차이 평균”보다 더 많이 사용됩니다.

모집단과 표본의 분산

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다. 모분산과 표본분산의 추정량은 변동량을 1개의 개체로 표준화 하는 데 차이가 있습니다. 모분산의 추정량은 모집단의 변동량을 모집단의 개수인 $N$으로 나눈 것입니다. 표본분산의 추정량은 데이터값과 표본평균과의 차이의 제곱의 평균입니다. 표본의 변동량을 표본의 크기인 $n$대신 1을 뺀 $(n-1)$으로 나누어 1개의 개체로 표준화합니다. 그 이유는 표본분산은 모평균을 기준으로 하지 않고 표본 내에서 도출된 표본평균을 기준으로 하기 때문에 표본에서 변동하는(자유를 가지는) 개체의 개수는 표본크기에서 표본평균으로 개체가 1개 사용되었음을 고려해야 한다는 것을 의미합니다. 이렇게 해서 구한 표본의 분산은 모집단의 분산을 편향없이 추정한다고 해서 모분산의 불편향추정값이라고 합니다.

자유도

집단의 자유도는 집단에 속한 변동가능한(자유가 있는) 개체의 수입니다. 집단의 자유도(degree of freedom)는 집단의 변동량을 1개의 개체의 변동량으로 표준화하는 데 사용합니다. 예를 들어 20개의 데이터점(data point)이 있다면 20개의 데이터는 어떤 값이든지 가질 수 있고 자유도는 20이 됩니다. 그런데 만약 20개 데이터점을 한 집단으로 본다면 그 집단도 전체집단내에서는 변동하게 됩니다. 따라서 1개의 집단의 대표값으로 평균을 구했다면 집단내 개체(데이터점)의 중에서 20개중 19개의 위치가 정해지면 나머지 1개는 정한 평균으로 인해 정해집니다. 즉 20개 데이터 집단의 자유로움에 개체의 자유도 중 1개를 사용하였음을 의미합니다. 정리하면 집단의 자유도는 집단자체의 자유도 1과 집단내 개체의 자유도로 나누어 생각할 수 있습니다. 집단의 분산은 집단내 개체(데이터점)의 변동을 의미하므로 집단의 분산을 구할 때는 집단내 개체의 자유도를 사용하게 됩니다. 보통 집단의 자유도라고 함은 집단내 개체의 자유도를 의미합니다. 전체집단에서는 전체집단에 속하는 집단도 변동할 수 있습니다. 따라서 전체집단의 자유도는 전체집단에 속하는 집단의 자유도와 각 집단내 개체의 자유도가 있습니다.

표본의 크기가 작은 경우 자유도의 영향

표본의 크기(데이터의 개수)가 작으면 표본분산을 구할 때 $n$(표본크기)과 $n-1$의 차이는 크게 나타납니다. 다른 표현으로는 표본에서 각 데이터(관측값)의 거리가 나타나는 경우의 수는 데이터의 개수 $n$에서 1을 뺀 수가 된다고 볼 수 있습니다. 분산은 평균값에서 각 관측값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 $(n-1)$과 $n$의 차이는 더 큽니다.

변동계수(변이계수)

두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다. 즉, 평균으로 표준화된 표준편차인 변동계수를 사용하면 분자와 분모의 단위가 상쇄되고 평균을 기준으로 표준화되어 두 표본의 변동의 비교가 쉽습니다.

분산의 중요성

수학적 처리의 용이성

표준편차는 차이의 제곱으로 부터 구해지므로 절대값을 다룰 필요가 없습니다. 따라서 수학적으로 다루기가 더 용이합니다.

정규분포와의 연관성

많은 자연 현상과 사회 현상이 정규분포를 따르는 경향이 있습니다. 정규분포에서는 평균과 분산이 분포의 형태를 완전히 결정합니다. 따라서, 분산은 정규 분포를 분석하고 이해하는 데 매우 중요한 도구입니다.

분산분석의 기초

변수가 확률변수일 때 확률변수는 확률밀도가 나타나는 면적으로 표현할 수 있습니다. 그 면적을 집단의 크기로 본다면 집단크기인 $N$과 “차이의 제곱”인 $(x_i-\mu)^2$은 같은 2차원을 가지게 됩니다. 따라서 분산은 차원이 없는 무차원수가 되며 집단의 분산은 수치적 비교가 용이합니다. 그리고 표본집단에서 분산은 변동량과 자유도의 비이므로 분산을 표본집단의 변동량과 자유도로 분리하여 분산분석(ANOVA)과 같은 통계적 방법을 사용할 수 있습니다.

분산의 수학적 성질

비음성성 (Non-negativity)

분산은 항상 0 또는 양수입니다. 이는 분산이 제곱된 차이의 평균이기 때문에 음수가 될 수 없음을 의미합니다.

모분산에 대한 표본분산의 불편향성

표본분산은 모분산의 불편향(불편, unbiasedness) 추정량입니다. 즉, 표본분산의 기대값은 모분산과 같습니다.

분산의 합성(additivity)

두 독립적인 확률변수, $X$와 $Y$에 대해, $X+Y$의 분산은 각각의 분산의 합과 같습니다.

$${\rm Var}[X+Y]={\rm Var}[X]+{\rm Var}[X]$$

이 성질은 확률 변수들이 서로 독립일 때만 적용됩니다.

상수의 분산 (variance of a constant)

상수, $c$에 대해, 그 분산은 0입니다.

$$\rm{Var}[c]=0$$

선형변환 (linear transformation)

확률변수, $X$에 대해, $aX+b$ (여기서 $a$와 $b$는 상수)의 분산은 다음과 같습니다.

$${\rm Var}[aX+b]=a^2{\rm Var}[X]$$

이 성질은 분산이 스케일 변환에 대해 제곱에 비례한다는 것을 나타냅니다.

분산공식

분산을 기대값(expected value)으로 표현

확률변수, $X$가 “0”과의 편차를 변수값으로 가지는 변수라고 할 때,  “확률변수의 제곱”의 기대값은 “확률변수의 기대값의 제곱”과 분산의 합입니다. 그리고 분산은 “확률변수의 기대값”을 기준으로 하는 “확률변수값의 제곱”의 기대값이라고 할 수 있습니다. 또한, 분산은 “확률변수의 기대값과 확률변수값의 차이의 제곱”의 기대값”이라고 할 수 있습니다.

$$ \text{E}[X^2]= (\text{E}[X])^2+\text{Var}[X]$$

분산을 좌변으로 놓고 정리하면 다음과 같은 식이 되고 이 식을 분산공식(variance formula)이라고 부릅니다.

$$\text{Var}[X] = \text{E}[X^2] – (\text{E}[X])^2$$

분산공식은 개체 1개로 표준화한 기대값을 다룬다면 분산분석(analysis of variance, ANOVA)은 개체의 분산이 더해지는 집단의 분산을 다룹니다. 분산공식은 분산분석(analysis of variance, ANOVA)의 기초가 되는 중요 공식입니다.

큰 수의 법칙

확률변수의 기대값과 분산은 상수입니다. 확률변수의 기대값은 가능한 모든 실현값(realized value)의 평균으로 표현할 수 있습니다. 확률변수의 유한개의 실현된 값으로 이루어진 표본집합의 기대값과 분산은 확률변수이며 표본의 크기가 커질수록 표본의 기대값과 분산은 확률변수의 기대값과 분산의 상수가 됩니다. 이를 큰 수의 법칙(대수의 법칙, Large number’s law)라고 합니다.

분포측도

범주(집단)의 속성인 분포의 정도를 분포측도(measure of dispersion)라고합니다. 분포측도에는 범위, 분산, 표분편차, 변동계수 등이 있습니다. 

범위(range)

모범위
$$\text {Range of} \,\, X$$

표본범위($R$)
$$R=x_{max}-x_{min}$$

분산(variance)

분산(variance)은 평균으로부터 흩어져있는 거리제곱의 평균입니다.  편차의 제곱의 합을 자유도로 나누어 구합니다.

모분산($\sigma^2$)
$$\sigma^2=\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}$$

여기서,  $\mu$는 모평균
$N$은 모집단크기

표본분산($s^2$)
$$s^2=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$$

여기서,  $\bar x$는 표본평균
$n$은 표본크기
$(n-1)$은 표본의 자유도

표준편차(standard deviation)

표준편차는 분산의 제곱근 값입니다.

모표준편차($\sigma$)
$$\sigma=\sqrt{\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}}$$

여기서,  $\mu$는 모평균
$N$은 모집단크기

표본표준편차($s$)
$$s=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$$

여기서,  $\bar x$는 표본평균
$n$은 표본크기
$(n-1)$은 표본의 자유도

변동계수(coefficient of variation)

변동계수(coefficient of variation)는 집단의 변동성을 비교함에 있어 척도(scale)나 단위(unit)가 다른 데이터를 사용하는 경우에 사용됩니다.

모변동계수
$$CV=\dfrac{\sigma}{\mu}\times 100$$

여기서,  $\bar x$는 표본평균
$CV$의 단위는 %

표본변동계수
$$CV=\dfrac{s}{\bar{x}}\times 100$$

여기서,  $\bar x$는 표본평균
$CV$의 단위는 %

Terminology

데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

출처

Data – Wikipedia

빈도수

통계에서 사건의 빈도 (또는 절대 빈도)는 실험이나 연구에서 사건이 발생한 횟수입니다. 이러한 빈도수는 종종 히스토그램으로 표현됩니다.

출처

Frequency (statistics) – Wikipedia

도수분포

통계에서 도수분포(빈도분포)는 표본의 실험이나 측정항목의 빈도수를 표시하는 표(도수분포표)나 그래프(도수분포도)로 나타냅니다. 도수분포표의 각 항목에는 특정 집단 또는 특정 구간 내의 값이 발생하는 빈도수가 나타납니다. 도수분포표는 표본의 변수 분포를 요약하는 효과적인 방법입니다.

출처

Frequency distribution – Wikipedia

범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

출처

Range (statistics) – Wikipedia

사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다. 사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

출처

Interquartile range – Wikipedia

백분위 수

백분위 수는 통계에서 관측치의 백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

모든 점수는 100번째 백분위 수 안에 있습니다. 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

출처

percentile – Wikipedia

분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

출처

variance – Wikipedia

표준편차

표준편차(모표준편차는 $\sigma$, 표본 표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

집단의 모표준편차과 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본의 표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 불편향 기대값을 의미할 수 있습니다.

출처

standard deviation – Wikipedia

Reference

  1.