중심극한정리 ?
Central limit theorem ?

1. 애니메이션

1.1. 표본크기가 커질수록 표본평균은 모평균에 수렴

1.2. 표본크기의 변화에 따른 표본평균 표집의 확률밀도함수

1.2. 당도 표본평균 표집의 확률밀도함수


2. 설명

2.1. 중심극한정리

2.2. 표본평균 표집과 중심극한정리

2.3. 표본평균 표집의 정규성

2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본크기가 커질수록 표본평균은 모평균에 수렴




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균($\bar X$) 표집의 확률밀도함수




두 딸기품종 당도의 확률밀도함수(probability density function)와 표본의 당도평균 표집의 분포( probability density function of sampling distribution)

2. 설명

2.1. 중심극한정리

확률변수, $X_1, X_2, \cdots, X_n$가 서로 독립하며 평균, $\mu$와 분산, $\sigma^2$을 갖는 동일한 분포를 따른다고 가정합니다.  여기서,  동일한 확률은 임의의 확률분포이며 분포함수가 알려진 확률분포일 필요는 없습니다. 동일한 확률분포를 가지는 $n$개의 확률변수들의 합을 $S_n$이라고 하면 $S_n$도 확률변수입니다. 

$$S_n=X_1+X_2+\cdots+X_n$$

여기서,  $X_i$는 확률변수 : $i=1, 2, \cdots , n$

 $n$이 $\infty$로 커질수록  확률변수, $S_n$은 평균이  $n\mu$이고 분산이 $n\sigma^2$인 정규분포를 나타냅니다.

$$S_n \sim N(n\mu, n\sigma^2)$$

여기서, $\mu$는 확률변수 $X_i$의 동일한 모평균

$\sigma^2$은 확률변수  $X_i$의 동일한 모분산

$n$은 확률변수의 더해지는 수 : $n \rightarrow \infty$

새로운 확률변수인 $S_n$의 확률분포는 합해지는 확률변수의 개수, $n$이 커질수록 확률변수의 분포에 상관없이 정규분포에 수렴합니다. 이를 중심극한정리라고 합니다. 중심극한정리는 정규분포의 중요성을 나타내는 통계학(statistics)의 핵심 정리입니다. 모집단으로 부터의 표본추출과 표본평균 표집의 확률분포 모델링에 사용됩니다.

$$\dfrac{S_n-n\mu}{\sqrt{n\sigma^2}} \xrightarrow{as\ n \to \infty} N(0,1)$$

여기서, $\mu$는 확률변수, $X_i$의 동일 평균

$\sigma^2$은 확률변수, $X_i$의 동일 분산

$n$은 더해지는 동일 확률변수의 수 : $n \rightarrow \infty$

중심극한정리에서는 독립이고 동일한 분포를 가지는 확률변수의 합을 표현하는 새로운 확률변수의 누적분포함수를 표현할 수 있습니다.  확률변수의 개수가 무한대로 갈수록 확률변수의 합을 나타내는 새로운 확률변수는 표준화된 정규분포의 누적분포함수($\Phi(x)$)로 표현할 수 있습니다.

$$\lim_{n\to\infty}P\left(\dfrac{\displaystyle\left(\sum_{i=1}^{n}X_{i}\right)-n\mu}{\dfrac{\sigma}{{\sqrt{n}}}}\leq x\right)= \Phi\left(x\right)$$

$n$이 커지는 과정에서의 표본평균 표집의 확률분포의 변화는 t분포로 표현할 수 있습니다.  


2.2. 표본평균 표집과 중심극한정리

중심극한정리(Central Limit Theorem)는 표본평균을 계산하는 과정에서 극단적인 값들이 서로 상쇄되어 표본평균이 집단의 모평균으로 모이는 경향을 말합니다.  표본크기($n$)가 크면 표본평균의 표집의 분산은 작아집니다. 즉, 표본평균 표집의 확률분포(sampling distribution of sample mean)는 표본의 크기가 커질수록 정규분포의 종모양(bell shape)이 되면서 뽀족해집니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 모집단의 분포모양과는 상관없이 표본평균들의 확률분포는 표본의 크기($n$)를 증가시킬수록 정규분포에 접근합니다. 즉, 표본평균의 확률분포는 모집단의 평균(모평균)을 중심으로 하는 정규분포를 나타냅니다. 이를 중심극한정리라고 합니다.

 

모평균과 가능한 모든 표본평균들 사이의 관계는 모집단이 정규분포를 가지지 않아도 정규분포로 관찰됩니다. 만일, 집단이 매우 크면 가능한 모든 표본들을 모두 찾아서 표본평균 표집의 확률분포를 완벽하게 구하는 것은 불가능합니다.  이를 해결하기 위하여  다음과 같은 이론을 정립하였습니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.

 

– 모집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균의 표집의 확률분포는 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

– 모집단이 모평균이 $\mu$이고 모분산이 $\sigma^2$인 무한히 큰 집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포라도 표본평균 표집의 확률밀도함수는 근사적으로 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

모집단을 나타내는 확률변수가 평균이  $\mu$이고 분산 $\sigma^2$인 임의의 확률분포를 가질 때 크기가 $n$인 표본을 단순임의복원추출하면 표집(sampling)한 표본평균들의 확률분포(표본평균 표집의 확률분포)는 다음과 같은 특성을 갖습니다.

 

– 가능한 모든 표본에서 표본평균  표집의 평균(${\mu}_{\bar{x}}$)은 모집단의 평균(모평균)과 같다.

$$\mu_\bar{x}=\mu$$

– 가능한 모든 표본에서 표본평균 표집의 분산($\sigma_{\bar{X}}$)은 모집단의 분산(모분산)을 표본크기($n$)로 나눈 값이다

$$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$$

– 가능한 모든 표본평균들의 분포는 근사적으로 정규분포이다.

$${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$$


2.3. 표본평균 표집의 정규성

모집단의 확률분포와 표본크기에 따른 표본평균 표집의 확률분포는 달라집니다. 중심극한정리에 의해 표본크기가 30보다 크면 표본평균 표집의 확률분포는 정규분포에 근사한다고 주장할 수 있습니다. 그렇지만 아래 그림과 같이 모집단의 확률분포모양이 쌍봉을 가지면 표본크기를 크게 하여야 표본평균 표집의 확률분포가 정규성을 나타냅니다. 아래그림은 모집단의 확률분포의 모양과 표본크기에 따른 표본평균 표집의 확률분포 모양의 변화를 보여줍니다.



모집단의 확률분포모양과 표본크기에 따른 표본평균 표집의 확률분포의 정규성


2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화(Z변환)

랜덤하게 추출된 표본의 크기가 $n$인 표본은 다음식으로 표현할 수 있습니다.

$$X_1, X_2, \cdots, X_n$$

표본의 평균은 다음식으로 구할 수 있습니다.

$$\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} X_i$$

모집단의 평균($\mu$)을 안다면, 모집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본평균의 기대값은 모집단의 평균(모평균)이 됩니다.

$${\rm E}[\bar{X}] = \mu$$

집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본분산의 기대값은 집단의 모분산($\sigma^2$)이 됩니다.

$${\rm {Var}}[\bar{X}] = \dfrac{\sigma^2}{n}$$

모집단이 정규분포를 나타내면 표본평균($\bar{X}$)은 확률변수이며 중심극한정리에 의하여 정규분포를 가집니다. 표본평균을 다음과 같이 표준화하여 새로운 확률변수를 생성할 수 있습니다. 이 새로운 확률변수, $Z$는 표준정규분포를 따릅니다.

$$Z=\dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N\left(0,1\right)$$

정리하면, 모집단이 다음과 같이 정규분포를 가진다면,

$$X \sim N\left(\mu, \sigma^2\right)$$

표본크기가 $n$인 표본평균, $\bar{X}$는 정규분포를 따르며 다음식으로 표현할 수 있습니다.

$$\bar{X} \sim N\left(\mu, \dfrac{\sigma^2}{n}\right)$$

그리고 $\bar{X}$를 표준화하면 즉, Z변환하면 그 표준화식과 표준화한 확률션수 $Z$의 분포를 다음식으로 표현할 수 있습니다. 확률변수 $Z_n$의 아래첨자 $n$은 표본크기를 의미합니다.

$$Z_n = \dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N \left(0,1\right)$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리 : 구글시트 실습

3.2. 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.

=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본들의 평균

– 표본 크기가 3인 표본들의 평균

– 중심극한정리


4. 용어

4.1 용어


중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



모집단(population)

통계에서 모집단은 질문이나 실험(experiment)의 대상이 되는 유사성을 가지는 분류 또는 사건의 집합입니다. 통계적 모집단은 실재하는 물건(예를 틀어 우주에 있는 모든 항성의 집합)일 수도 있고 경험을 통해 일반화된 잠재적으로 무한한 집단(포커에서 가능한 모든 패의 집단)일 수 있습니다. 통계분석의 공통적인 목표는 선택된 모집단에 대한 정보를 산출하는 것입니다.

통계적 추론(statistical inference)에서 모집단의 부분집합인 표본은 통계적 분석으로 모집단을 나타내기 위해 선택됩니다. 이 표본의 크기와 모집단의 크기의 비율을 표본분수(sampling fraction)라고 합니다. 적절한 표본에 대해 통계를 사용해 모집단 매개변수를 추정할 수 있습니다.

 

Reference

Statistical population – Wikipedia



표본(sample)

통계와 양적 연구방법론에서 표본은 수집된 데이터집합이며 정해진 절차에 따라서 통계적 모집단에서 선택된 또 다른 집단입니다. 표본의 요소(elements)는 표본점(sample points), 표본추출 단위(sampling units) 또는 관측대상(observations)이 있습니다.

일반적으로 인구는 매우 큰 집단이므로 전체 인구조사와 인구집단에 대한 완전한 서술은 불가능하고 효용이 없습니다. 표본은 일반적으로 관리가 가능할 정도의 크기의 모집단의 하위 집합을 나타냅니다. 표본을 수집하고 표본에서통계량을 계산하면 표본을 통해 모집단을 추론할 수 있게 됩니다. 추론(inference)에는 대표적으로 추정(estimation)과 가설검정(hyperthesis test)이 있습니다. 그리곡 추정에는 점추정과 구간추정이 있습니다. 이 모든 것이 표본을 통해 모집단의 정보를 알아 내는 것입니다.

표본은 비복원(같은 표본이 여러번 선택되는 경우가 없는 경우)으로 추출될 수 있고, 이 경우에는 표본은 모집단의 부분집합이 됩니다. 복원추출을 한 경우는 다중부분집합이 됩니다.

 

Reference

Sample (statistics) – Wikipedia



표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



4.2. 참조


표준오차 ?
Standard Error ?

목차

1. 애니메이션

1.1. 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)

1.2. 두 표본의 표본평균 분포 : 중심극한정리)


2. 설명

2.1. 차이, 편차, 오차, 잔차

2.2. 표본통계량의 오차 : 모수를 기준으로 하는 편차

2.3. 표본평균의 표준오차

2.4. 표본평균의 표준오차 추정량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

4.2 수식


1. 애니메이션



그림 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)




그림 두 표본의 표본평균 분포 : 중심극한정리


2. 설명

2.1. 차이, 편차, 오차, 잔차

차이

차이(difference)는 두 값의 간격입니다. 기준이 없습니다. 0과 양수만을 가집니다.

편차

편차(deviation)는 값에서 기준값을 뺸 값입니다.  표본에서는 기준값으로 표본평균을 많이 사용합니다. 0과 양수와 음수를 모두 가집니다.

오차

오차(error)는 기대값을 기준값으로 사용하는 편차입니다. 즉, 기대하는 값과의 어긋남을 나타냅니다. 0과 양수와 음수를 모두 가집니다.

잔차

잔차(residual)은 기대값이 회귀점, 회귀선, 회귀면, 최귀초평면에 위치하는 경우의 오차입니다. 즉, 회귀하지 않는 양을 나타냅니다. 0과 양수와 음수를 모두 가집니다.


2.2. 표본통계량 오차 : 모수를 기준으로 하는 표본통계량의 편차

모수 : 모평균, 모분산 등

집단을 표현하는 속성값(모수)에는 모평균($\mu$)과 모분산($\sigma^2$)이 있습니다. 실제에서는 집단의 크기가 클수록 또는 무한집단인 경우 집단의 속성을 알기가 어렵습니다. 그래서, 표본을 통해 모집단의 속성을 알고자 하는  실험을 진행합니다. 예를 들어, 실험의 결과 로 집단이 정규분포를 나타냄을 알고 그 정규분포의 모수(매개변수, parameter)를 안다면 집단의 속성인 확률분포를 알 수 있습니다.

표본통계량 : 표본평균, 표본분산 등

표본(sample)은 집단을 이루는 개체(object)를 추출한 것입니다. 그래서 표본을 표본집단이라고 부르기도 합니다. 표본크기는 추출한 개체의 개수입니다. 표본이 추출된 집단은 그 표본의 모집단(population)이라고 합니다. 집단을 집합으로 표현하고 표본을 그 집합의 부분집합으로 표현할 수 있습니다. 

표본을 이루는 개체(object)가 수치를 가지고 표본을 이루는 개체의 개수를 알면 표본평균(sample mean)과 표본분산(sample variance)을 구할 수 있습니다. 표본표준편차(sample deviation)는 표본분산의 제곱근으로 정의합니다. 표본표준편차의 단위는 표본평균의 단위와 같습니다. 

표본평균(sample mean)은 표본의 변동(sample variation)이 가장 작게 되는 표본의 기준값입니다. 표본의 변동은 값과 기준값과의 편차를 제곱한 양들의 합입니다. 표본평균은 표본(data set)을 대표하는 대표값의 한 종류 입니다.

표본분산(sample variation)은 표본의 확률변수값(표본데이터)의 분포 정도를 나타내는분포값의 한 종류입니다. 참고로 분포를 나타내는 다른 값에는 분위수(quantile)가 있습니다. 표본분산($S^2$)은 각 값과 표본평균과의 차이의 제곱의 합을 자유도로 나누어서 구합니다. 표본분산은 각 값과 표본평균과의 편차의 제곱의 합이 가장 작을 때의 값을 자유도로 나눈 값입니다. 여기서 편차제곱의 합이 가장 작게 되는 값이 평균입니다. 표본분산 값의 단위는 표본평균의 제곱의 단위와 같습니다. 편차제곱의 합을 자유도로 나눈 값인 표본분산은 표본의 분포의 정도를 나타냅니다. 표본분산을 구할 때 표본크기가 작은 경우, 표본크기과 자유도로 나누는 결과는 더욱 다르게 나타납니다. 

표본통계량 오차 : 표본평균의 오차, 표본분산의 오차 등

표본평균은 모집단의 평균(모평균)을 중심으로 종모양의 확률분포를 가집니다. 표본크기가 클 수록 겅규분포 모양에 가까워 집니다. 이를 중심극한정리라 합니다. 표본평균의 오차(error of sanple mean)는 모평균을 기준으로하는 표본평균의 편차입니다. 

표본분산은 표본크기가 작을 때는 비대칭의 분포를 가지다가 표본크기가 커질수록 모집단의 분산(모분산)을 중심으로하는 종모양의 모양에 가까워 집니다. 표본분산의 오차(error of sample variance)는 모분산을 기준으로 표본분산의 편차입니다.


2.3. 표본평균의 표준오차 : $\sigma_{\bar X}$

표본평균의 표준오차는 확률변수인 표본평균이 중심극한정리에 의해 모평균을 중심으로 종모양의 확률분포를 나타내는데 이 확률분포의 표준편차를 의미합니다. 표본평균의 기대값은 모평균인데 기대값과의 오차라는 의미에서 편차(deviation)가 아닌 오차(error)로 표현합니다. 모표준편차를 표본의 크기($n$)의 제곱근으로 나누면(표준화 하면) 표본평균의 표준오차가니다.

표준화라고 하는 것은 확률변수의 단위를 표준편차로 하는 과정을 말합니다. 다시말하면 표준편차를 1로 만드는 변수변환(Change of Variable)입니다.

표본평균의 표준오차(standard error of the mean)는 표본평균 표집(표본평균으로 이루어진 집단)의 표준편차와 같습니다. 즉, 표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차입니다. 표본평균의 기대값은 중심극한정리에 따라 모평균과 같습니다.

 

모집단과 표본의 확률변수

$$X$$

모집단의 모형

$$\{X_1, X_2, \cdots , X_{\infty}\}$$

여기서,  모집단크기는 $\infty$

표본의 모형

$$\{X_1, X_2, \cdots , X_{n}\}$$

여기서,  표본크기는 $n$

표본평균($\bar X$)의 기대값 : 모평균

$${\rm E}[\bar X]=\mu_X$$

표본분산($S^2$)의 기대값 : 모분산

$${\rm E}[S^2]=\sigma^2_X$$

새로운 확률변수 : 표본평균

$$\bar X$$

표본평균 표집의 모형

$$\{{\bar X}_1, {\bar X}_2, \cdots , {\bar X}_{\infty}\}$$

여기서,  표본평균의 표집의 크기는 $\infty$

표본평균 표집의 평균 : 표본평균 표집의 평균=표본평균의 기대값=모평균

$$\mu_{\bar X}={\rm E}[\bar X]=\mu_X$$

표본평균 표집의 분산(표본평균의 움직임) : 모분산(개체의 움직임의 크기)을 표본을 이루는 개체가 나누어 가짐 – 모분산을 표본크기로 나눈 것

 

집단을 이루는 개체의 움직임은 집단의 움직임과 집단내의 개체의 움직임으로 나누어 생각합니다.

 

집단중에서 표본집단을 생각하면,  표본을 여러번 추출(표집)하면 표본의 움직임은 두 가지로 나누어 생각할 수 있습니다.  내부의 움직임(표본평균을 원점으로 하는 좌표계에서의 움직임)은 모분산과 같고 외부에서 보는 움직임(모평균을 원점으로 하는 좌표계에서의 움직임)은 표본평균의 움직임이며 모분산을 개체가 나눠가지는 것으로 모델링합니다.

$$\sigma_{\bar X}^2={\rm Var}[\bar X]=\dfrac{\sigma_X^2}{n}$$

여기서,  $n$은 표본크기

표본평균 표집의 표준편차

$$\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}}$$

여기서,  $n$은 표본크기

새로운 확률변수인 표본평균($\bar X$)의 $Z$변환

$$Z=\dfrac{\bar X-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼Z분포$$

여기서,  $n$은 표본크기이며 큰 수

새로운 확률변수인 표본평균($\bar X$)의 $t$변환

$$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$$

여기서,  $n$은 표본크기 : $(n-1)$은 표본크기가 $n$인 표본의 자유도

$t_{n-1}$은 자유도가 $(n-1)$인 $t$분포

표본평균의 표준오차 : 표본평균 표집의 표준편차

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$n$은 표본크기

표본평균의 표준오차 – 표본크기가 큰 경우($\sigma_X≈S_X$)

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$S_X$는 표본표준편차

$n$은 표본크기


2.4. 표본평균의 표준오차 추정량 

표본평균 표집의 분산 추정량

$$\dfrac{S_X^2}{n}=\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}=\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

표본평균의 표준오차 추정량 : 표본평균 표집의 표준편차 추정량

$$\sqrt{\dfrac{S_X^2}{n}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

만일 개체($i$)마다 가중치($\omega_i$)가 다르다면 다음과 같이표본평균의 표준오차 추정량을 계산합니다.

$$\sqrt{\dfrac{\sum\limits_{i=1}^{n}{\omega_i}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$\omega_i$는 가중치

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표준오차 : 구글시트 실습

3.2. 구글시트 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C4에 있는 숫자 형식의 데이터 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(J3:J18) : 평균. J3에서 J18에 있는 데이터의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔. 참고로, 표본분산은 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.P(J3:J18) : 모표준편차. J3에서 J18에 있는 데이터의 모표준편차로 모분산의 제곱근. 참고로, 표본표준편차는 표본분산의 제곱근.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본평균들의 분포

– 표본 크기가 3인 표본평균들의 분포

– 표준오차

– 실습 안내



4. 용어와 수식

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



모수(매개변수, parameter)

통계적 매개변수 또는 모집단 매개변수는 통계량 또는 확률분포를 설명하는 데 사용되는 변수입니다. 매개변수는 모집단이나 통계모델의 수치적 특성이라 할 수 있습니다.

색인 분류된  집단의 분포가 있다고 가정해 봅니다. 색인이 집단의 분포의 매개변수로도 작용한다면, 그 집단은 매개변수화된 집단이라 할 수 있습니다. 예를 들어, chi-squared 확률분포를 가지는 집단은 자유도에 의해 색인되어 분류될 수 있습니다. 자유도는 chi-squared 분포의 매개변수이므로 chi-squared 분포를 가지는 집단은 자유도라는 매개변수로 매개변수화 되었다고 할 수 있습니다.

 

Reference

Statistical parameter – Wikipedia



중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



자유도(degree of freedom)

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는  값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면,  표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친  모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸  $(n-1)$의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

 

Reference

Degrees of freedom (statistics) – Wikipedia



4.2 수식


표본평균의 표준오차

 표본평균의 표준오차 : 표본평균 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(\bar X)=\dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\bar X$는 확률변수 $X$의 표본평균

$\sigma_X$는 확률변수 $X$의 모표준편차

$S_X$는 확률변수 $X$의 표본표준편차

$n$은 표본크기


표본분산의 표준오차

표본분산의 표준오차 : 표본분산 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(S_X^2) = \sigma_{S_X^2} = \sqrt{\dfrac{2\sigma_X^4}{n-1}}≈ \sqrt{\dfrac{2S_X^4}{n-1}}$$

여기서,  $S_X^2$는 확률변수 $X$의 표본분산

$\sigma_X^2$는 확률변수 $X$의 모분산

$S_X^2$는 확률변수 $X$의 표본분산

$n$은 표본크기

Central limit theorem ?
중심극한정리 ?

1. 애니메이션

1.1. 중심극한정리


2. 설명

2.1. 중심극한정리

2.2. 모수(parameter)와 추정량(estimator)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1. 중심극한정리

중심극한정리(Central Limit Theorem)는 표본들의 평균을 구하는 과정에서 극단적인 값들이 서로 상쇄되어 표본들의 평균은 모집단의 평균으로 모이는 경향을 말합니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑습니다.

그럴때 모집단의 분포모양과는 상관없이 표본평균들의 분포는 $n$을 증가시킬수록 정규분포에 접근합니다.

 

중심극한정리를 다시 표현하면,  표본평균들의 분포는 모집단평균을 중심으로 정규분포를 이룬다는 정리입니다.

 

표본의 크기 $n$의 값이 크면 표본평균들의 분산은 작아집니다.

표본평균들의 분산은 모집단의 분산을 표본의 크기로 나눈 값이기 때문입니다.

 

표본평균들의 평균은 표본의 개수가 많아질 수록 모평균에 가까워 집니다.


2.2. 모수(parameter)와 추정량(estimator)

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 모집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.

 

$\bar{X}$는 모수 $\mu$를 추정하는 하나의 추정량(estimator)입니다.

 

한 표본에서 구한 $\bar{X}$의 관측값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$는 $\mu$의 추정값(estimate)입니다.

 

모집단의 분산 $\sigma^2$를 추정하는 추정량은 표본분산 $S^2$이고 그 관측값은 $s^2$으로 표시합니다.

 

만일 모집단이 정규분포 $N(\mu,\sigma^2)$라면 표본평균의 표집분포는 정확히 정규분포 $N(\mu,\sigma^2/n)$입니다.

 

만일 모집단이 평균이 $\mu$이고 분산이 $\sigma^2$인 무한개의 원소를 가지는 모집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포를 가지더라도 표본평균의 표집분포는 근사적으로 정규분포 $N(\mu,\sigma^2/n)$입니다.

이를 중심극한정리(Central Limit Theorem)라고 하는데 구체적으로 요약하면 다음과 같습니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

데이터 요약

표본 크기가 2인 표본들의 평균

표본 크기가 3인 표본들의 평균

중심극한정리



4. 용어와 수식

4.1 용어


중심극한정리(Central Limit Theorem)

모집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의 복원추출하면 표본평균들의 분포는 다음과 같은 특성을 갖습니다.

1) 모든 가능한 표본평균들의 평균(${\mu}_{\bar{x}}$)은 모평균과 같다. ($\mu_\bar{x}=\mu$)
2) 모든 가능한 표본평균들의 분산($\sigma_{\bar{X}}$)은 모분산을 $n$으로 나눈 값이다. (${\mathit{\sigma}}_{\bar{X}}^{2}{=}\dfrac{{\mathit{\sigma}}^{2}}{n}$)
3) 모든 가능한 표본평균들의 분포는 근사적으로 정규분포이다.
위의 사실을 간단히 ${X}\sim{N}\left({\mathit{\mu}{,}\dfrac{{\mathit{\sigma}}^{2}}{n}}\right)$로 적기도 한다.

 

중심극한정리는 현대통계학의 기본이 되는 이론으로 매우 중요한 정리입이다.

변동계수 ?
Coefficient of variation ?

1. 애니메이션

1.1. 변동계수


2. 설명

2.1. 변동계수

2.2. 변동계수 활용사례


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



변동계수

2. 설명

2.1. 변동계수

변동계수의 적용 예를 보면, 농장에서 생산한 딸기가 당도가 얼마나 고른지를 알고자 하는 경우입니다. 딸기의 표본은 보통 출하시에 추출하게 되는데 당도는 출하시기의 영향을 크게 받습니다. 그래서 당도의 분포값인 표준편차를 출하시기를 반영하고 있는 평균으로 표준화하면 당도의 변동만을 분석할 수 있습니다.

두 표본으로 두 모집단의 변동(variation, 움직임의 변화량)을 비교하고자 할때도 표본평균의 영향을 없애기 위하여 변동계수를 사용합니다. 보통 자연현상에서 모평균과 표본평균의 거리가 변하면 표본표준편차도 따라 변하기 때문입니다.

모집단의 변동계수(coefficient of variation, CV)는 모표준편차($\sigma$)를 모평균($\mu$)으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 모표준편차를 모평균으로 나눈 것입니다.

$$CV=\dfrac {\sigma}{\mu}$$

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

$$CV=\dfrac {S}{\bar{X}}$$

여기서, $X$는 확률변수

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다. 변동계수는 표준편차를 같은 단위를 가지는 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있는 장점이 있습니다.


2.2 변동계수 활용사례

다음 동영상에서는 변동계수의 활용사례로 1) 기업성과 비교, 2) 상품가치 비교를 설명하고 있습니다.


변동계수 활용사례 1 : 기업성과 비교


변동계수 활용사례 2 : 상품가치 비교

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


변동계수 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 평균. 데이터를 모두 더한 후, 데이터의 개수로 나누어서 구함.

=STDEV.P(C2:C22) : 표준편차. 분산의 제곱근. C3에서 C22에 있는 모든 데이터의 표준편차. 각 값과 평균과의 차이(편차)를 제곱해서 모두 더한 후, 데이터의 개수로 나누어서 구하면 분산이 되는데, 표준편차는 이 분산의 양의 제곱근임.


3.3. 실습강의

데이터

데이터 요약

데이터 시각화

변동계수

실습 안내


4. 용어

4.1 용어


산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

Reference

Mean – Wikipedia


표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

Reference

standard deviation – Wikipedia



데이터종류 ?
Data type ?

1. 애니메이션

1.1. 데이터종류


2. 설명

2.1. 척도에 따른 데이터종류

2.2. 속성에 따른 데이터종류

2.3. 대상에 따른 데이터종류

2.4. 가공에 따른 데이터종류

2.5. 질적/양적데이터와 도수데이터 비교

2.6. 순서가 있는 데이터


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

 

1. 애니메이션



데이터종류

 

2. 설명

2.1. 척도에 따른 데이터종류

질적데이터는 수치가 아닌 기호로 표현된 데이터입니다. 질적데이터는 명목척도와 순서척도로 구한 데이터입니다. 양적데이터는 수치로 표현된 데이터입니다. 양적데이터는 간격척도와 비례척도로 구한 데이터입니다.

질적데이터

질적데이터는 수치로 표현되지 않은 데이터(관측값)입니다. 질적데이터는 명목척도와 순서척도를 사용하여 구한 데이터입니다. 질적데이터는 수치가 아닌 기호로 표현됩니다. 질적데이터는 개체명, 개체가 속하는 범주명, 순서와 같이 관측대상의 질적 정의를 의미합니다. 숫자를 기호로 취급하여 개체의 이름(명목)을 정의한 질적데이터도 있습니다. 질적데이터는 명목척도와 순서척도로 관측한 관측값입니다.

양적데이터

양적데이터는 수치로 표현된 데이터입니다. 여기서, 수치는 위치나 양을 표현하는 수를 의미합니다. 양적데이터는 간격척도와 비례척도로 관측한 관측값(데이터)입니다. 양적데이터는 수치를 의미하여 그 수치는 관측대상(개체)의 속성의 위치 또는 크기를 의미합니다. 여기서 위치는 간격척도로 관측되며 크기는 비례척도로 관측됩니다. 간격척도는 위치의 기준(척도의 0)이 있으며 비례척도는 크기의 기준(척도의 1)이 있어야 합니다. 간격척도로 관측한 데이터(관측값)는 더하기와 빼기는 가능하나 곱하기와 나누기는 할 수 없습니다. 비례척도로 관측한 관측값(데이터)은 사칙연산인 가감승제가 모두 가능합니다.

질적데이터를 구하는 척도

관측대상으로서 사람이라는 개체는 성별이라는 속성을 가집니다. 성별을 판별하는 명목척도로 사람을 관측하면 남자, 여자와 같은 질적 정의가 관측값(데이터)으로 관측됩니다. 이와 같은 질적 정의를 질적데이터라고 합니다. “남자=1”, “여자=2” 처럼 텍스트로 된 관측값을 기호로서의 수로 표현할 수도 있습니다. 따라서 명목척도의 관측값을 수로 표현하더라도 그 수는 순서나 위치나 크기를 나타내지는 않습니다. 예로는 ID번호가 있습니다. 명목척도로 관측한 관측값이 순서의 정보를 나타내면 그 명목척도는 순서척도가 됩니다.

순서척도는 관측대상인 개체의 명목 뿐 아니라 순서를 관측하여 관측값으로 표현하는 척도입니다. 순서척도의 예로는 관측대상인 지구상의 국가를 관측하여 “일인당 국민소득이 높은 나라 순위”를 정하는 척도가 있습니다. 순서척도로 관측한 관측대상인 개체의 속성은 순서를 나타낸 관측값(데이터)으로 표현됩니다. 순서척도의 예에는 좋음, 보통, 싫음 처럼 순서가 표현되는  단어로 표현하는 척도도 있습니다. 여기서, 순서척도는 좋음을 1, 보통을 0, 싫음을 -1로 정하는 것처럼 수로 표현할 수 있습니다. 여기서 수는 순서만 의미할 뿐 위치나 크기를 의미하지는 않습니다. 순서척도의 순서간에 간격이 정의되고 그 간격의 크기가 수치로 주어지면 그 순서척도는 간격척도가 됩니다.

양적데이터를 구하는 척도

간격척도는 간격을 가지는 구간을 가지고 있습니다. 간격척도는 관측대상이 속한 구간의 위치값을 관측대상의 관측값(데이터)으로 나타냅니다. 간격척도의 예로는 섭씨온도계가 있으며 관측한 “섭씨온도”는 데이터(관측값)가 됩니다. 또 다른 예로는 달력과 시계가 있습니다. 오늘의 연월일은 달력을 이용한 관측값(데이터)입니다. 시계가 구한 “시각”은 간격척도가 구한 양적데이터라고 할 수 있습니다. 간격데이터는 간격이 정의된 구간의 위치값을 나타내는 데 그 위치의 기준이 있습니다. 간격척도인 연력의 위치의 기준은 서기원년을 0으로하여 정합니다. 연력을 이용한 관측값은 서기원년을 기준으로 기원전(BCE, before common era)과 기원후(CE, common era)로 나누어집니다. 여기서 각 년도는 엄밀하게 보면 시간의 간격이 다릅니다. 특별히 월력은 날짜수가 연에 따라 달라집니다. 즉, 간격이 다릅니다.그리고 간격척도인 섭씨온도계는 물이 어는 온도를 위치의 기준인 0으로 표현합니다. 간격척도로 구한 양적데이터는 가감(더하기와 빼기)이 가능합니다. 그러나 승제(곱하기와 나누기)는 조건이 필요합니다. 예를 들면, 척도가 가지는 구간의 간격이 등간격이고 관측대상의 속성이 같은 기준위치를 가지고 있어야 합니다. 관측대상인 개체의 관측값(데이터)을 제곱하는 경우에는 같은 기준위치를 가지고 있다고 볼 수 있지만 개체가 속한 범주에 따라 기준위치인 범주의 평균이 달라지므로 같은 조건이라고 할 수 있습니다. 정리하면 간격척도는 기준으로부터의 개체의 위치를 관측하는 척도입니다. 따라서 간격척도로 관측한 데이터는 관측대상의 기준의 다름에 직접적인 영향을 받으므로 위치의 기준을 나타내야 합니다. 예를 들어 범주나 개체의 분산을 구하는 데 사용하는 데이터를 간격척도로 구할 때는 간격척도가 등간격을 가지는 구간으로 이루어져 있는 지와 기준의 위치를 명확히 하는 것이 필수적입니다.  간격척도는 위치를 측정한다고 볼 수 있습니다. 등간격을 가지고 두 관측대상의 차이를 같은 기준에서 관측하는 간격척도는 비례척도라고 할 수 있습니다.

비례척도는 1의 양을 가지는 기준이 있습니다. 비례척도는 관측대상의 속성을 나타내는 양과 기준양인 1의 비를 수치로 표현한 것입니다. 비례척도의 예는 자와 저울이 있고 비례척도로 구한 양적데이터의 예는 키와 몸무게가 있습니다. 비례척도로 구한 양적데이터는 가감승제(더하기, 빼기, 곱하기, 나누기)가 가능합니다.


2.2. 속성에 따른 데이터종류

연속형데이터(continuous data)와 범주형데이터(categorical data)는 관측대상인 개체의 속성에 따라 구분됩니다. 연속형데이터와 범주형데이터는 관측대상이 개체이며 연속형과 범주형으로 표현되는 개체의 속성의 관측값입니다.

연속형데이터

연속형데이터는 관측대상인 개체의 속성이 연속적인 위치나 크기를 가지고 있음을 의미합니다. 개체의 속성은 간격척도나 비례척도로 관측하며 관측결과(관측값, 데이터)는 수치로 나타납니다. 여기서, 관측대상은 크기(양) 외에도 크기의 변화율도 될 수 있습니다. 크기를 관측한 연속형데이터의 예로는 키, 몸무게, 시간, 혈압 등이 있고 크기의 변화율을 관측한 연속형데이터는 경제성장률 등이 있습니다. 여기서의 관측대상의 속성은 연속적인 수로 표현되므로 개체의 속성을 관측한 관측값을 연속형데이터라고 부를니다. 연속적인 속성을 관측하기 위해서는 구간(계급, bin, bucket)을 가지는 척도를 사용하는 데 두가지 척도가 있습니다. 간격의 정보가 있는 간격척도와 간격척도의 간격에 간격크기의 비의 정보를 더한 비례척도가 있습니다. 따라서 연속형데이터는 개체의 연속형 속성을 간격척도나 비례척도로 관측한 수치를 의미한다고 할 수 있습니다. 그리고 연속형데이터는 아날로그인 관측대상을 디지털(수치)로 바꾼 데이터라고도 말할 수 있습니다. 간격척도나 비례척도에서 척도의 구간(계급, bin, bucket)을 범주로 볼 수 있습니다. 따라서 연속형데이터는 범주의 위치정보를 수치로 표현한 범주형데이터라고도 볼 수 있습니다. 이 때의 예로는 “나이”, “시험점수” 등이 있습니다.

범주형데이터

범주형데이터는 관측대상인 개체가 속하는 범주명을 의미합니다. 개체가 속하는 범주는 개체의 속성이기도 하므로 범주명인 범주형데이터는 개체의 속성을 수치가 아닌 기호나 설명으로 표현할 수 있습니다. 예로는 국적, 사는 곳 등이 있습니다. 범주형데이터는 순서를 표현하기도 하는데 한우의 품질등급 등이 있습니다.


2.3. 대상에 따른 데이터종류

관측대상이 개체이면 정형데이터로 분류되고 관측대상이 범주이면 비정형데이터로 분류됩니다.

정형데이터

정형데이터는 관측대상이 개체입니다. 정형데이터는 개체의 속성을 관측한 결과인 관측값입니다. 정형데이터는 스프레드시트(spread sheet)나 데이터베이스(database)로 표현할 수 있습니다. 정형데이터는 개체의 속성의 형태를 지정할 수 있습니다. 따라서 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미하기도 합니다. 상용스프레드시트(구글시트, 엑셀 등)의 각 셀은 셀안에 들어가는 데이터의 형식을 지정할 수 있습니다. 스프레드시트에서 사용하는 형식에는 텍스트, 숫자, 날짜 등이 있습니다.

비정형데이터

비정형데이터(unstructured data)는 범주를 표현한 데이터입니다. 비정형데이터의 관측대상은 글이나 그림과 같은 범주입니다. 비정형데이터는 관측대상보다는 생성물로 더 잘 설명될 수 있습니다.


2.4. 가공에 따른 데이터종류

원시데이터

원시데이터는 처음 수집한 데이터입니다.

가공데이터

가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.


2.5. 질적/양적데이터와 도수데이터 비교

데이터는 변수(변수명과 변수값)을 관측한 결과입니다. 데이터는 개체나 범주의 속성을 표현한 양적데이터와 질적데이터가 있으며 범주의 속성인 범주에 속하는 개체의 도수(빈도수, frequency)를 표현한 도수데이터가 있습니다.
데이터종류
데이터종류 척도 관측대상 관측값 의미 관측대상의 속성 형태 관측대상 – 관측대상의 속성 예시 관측값 예시
질적데이터

(qualitative)

명목척도

(nominal scale)

범주

(category)

명목 범주형

(nominal)

회사 – 산업분류

사람 – 성별

{ 전자, 전기, 화공, 기계, 식품 }

{ 남, 여 }

개체

(indivisual)

명목 범주형 대한민국 국민 – 주민번호

신청자 – ID

{ 210427-XXXXXXX, …  }

{ ID-1, … , ID-100 }

순서척도

(ordinal scale)

범주 순서 순서가 있는 범주형 음식점 – 서비스질

의류 – 크기

응시자 – 석차등급

{ 상, 중, 하 }

{ XS, S, M, L, XL }

{ 1 등급, … , 5등급}

개체 순서 순서가 있는 범주형 개인용 컴퓨터 – Serial Number { 001, 002, … , 200 }
양적데이터

(quantitative)

간격척도

(interval scale)

범주 위치 연속형

(continuous)

국가 – 시간대 { 1 동경시간대, … , 12 서경시간대 }
개체 위치 연속형 사람 – 수명 { y ; 0년 < y < 135년 }
비례척도

(ratio scale)

범주 크기 연속형 한국인 – 기대수명 { y ; 55.3세 < y < 86.5세 }
개체 크기 연속형 사람 – 키

딸기 – 당도

{ y ; y > 100 cm }

{ y ; 0 Brix < y < 100 Brix }

도수데이터

(frequecy)

빈도척도

(frequency scale)

범주 도수 이산형

(discrete)

공장 –  1일 불량품수 { 1 개, …  }
상대빈도척도

(ratio scale)

범주 상대도수 연속형 딸기 – 용액 100 g 당 설탕의 무게

대한민국 국민 – 고혈압 비율

{ y ; 0 g < y < 100 g }

{ P ; 0 % < p < 100 % }


2.6. 순서가 있는 데이터

순서가 있는 데이터의 표현
명목척도를 제외한 순서척도, 간격척도, 비례척도로 관측한 데이터는 순서나 위치나 크기를 표현하므로 순서에 따라 나열할 수 있습니다.  순서에 따라 데이터를 나열하는 방법에는 두 가지 방법이 있습니다. 하나는 위치나 크기가 작은 값부터 큰 값으로 나열하는 오름차순이고 다른 하나는 큰 값부터 작은 값으로 나열하는 내림차순입니다. 데이터를 집합으로 표현하면, 다음과 같이 $n$개의 데이터를 순서가 낮은 값부터 표현합니다. 여기서, $x$는 데이터(변수값)를 의미하고 아랫첨자는 순서를 의미합니다.
$$x_{1}, x_{2},  \cdots , x_{n}$$
여기서,  $x_{1} \lt x_{2} \lt \cdots \lt  x_{n}$
최대값($x_{max}$)은 오름차순으로 나열한 집합의 원소에서 맨 우측의 값입니다.
$$x_{max} = x_{n}$$
최소값($x_{min}$)은 오름차순으로 나열한 집합의 순서에서 맨 좌측의 값입니다.
$$x_{min} = x_{1}$$
범위(range, $R$)는 최대값과 최소값의 차이입니다.
$$R=x_{max}-x_{min}$$
분위와 분위수
분위는 개체가 같은 도수를 가지는 범주입니다. 다시 말하면 같은 확률을 가지는 범주입니다. 분위수는 그 범주의 대표값입니다. 분위수는 간격척도로 구한 데이터는 중앙값으로 비례척도로 구한 데이터는 평균으로 표현됩니다. 간격척도, 비례척도로 구한 데이터의 분포는 분위와 분위수로 표현할 수 있습니다. 간격척도로 구한 데이터의 분위수는 중앙값으로 표현하며 비례척도로 구한 데이터의 분위수는 평균으로 표현합니다. 순서척도로 구한 데이터에서는 순서가 있는 범주가 다른 도수를 가지는 범주라고 할 수 있습니다. 여기서, 순서를 가지는 범주가 같은 도수를 가지면 분위와 분위수로 표현할 수 있습니다.
분위와 분위수의 응용
분위와 분위수의 응용에는 비례척도로 구한 데이터가 정규분포를 나타내는 지 살펴보는 Q-Q plot이 있습니다. Q-Q plot은 데이터로 부터 추정한 모수를 가지는 정규분포의 분위수를 X축으로 하고 개체의 관측값을 Y축으로 하는 좌표계에서 개체를 점으로 표현한 데이터시각화 방법니다. 그리고 개체 속성의 실제 데이터를 표현하는 Y축에서는 중앙값을 Y축의 원점좌표로 하고 X축에서는 정규분포를 표준정규분포로 표준화하여 0을 X축의 원점좌표로 정합니다. Q-Q plot에서는 X축을 표준정규분포로 표준화하여 개체가 나타내는 점들을 선형식으로 모델링하여 표준편차를 기준으로 하는 정규분포 구간을 관측하기도 합니다. Q-Q plot은 비례척도로 관측한 데이터가 정규분포를 나타내는 지 알기 위한 데이터시각화 방법입니다. 간격척도로 구한 데이터가 등간격을 나타낸다면 그 간격척도는 비례척도라고 할 수 있습니다. 또한 간격척도로 구한 데이터가 정규분포를 나타내기 위한 각 구간의 간격의 크기를 정하기 위한 직관을 제공합니다.
백분위수
백분위수(percentile)는 관측대상의 속성을 표현하는 변수가 정의된 영역(정의역)에서 100개의 분위가 있을 때 각 분위에서의 대표값을 의미합니다. 여기서, 분위는 같은 데이터 개수를 가지는 순서가 있는 범주입니다. 분위수는 변수를 특정한 확률변수로 모델링하여 확률분포를 알 때 데이터세트를 통해 추정할 수 있으며 추정하는 방법에는 2가지가있습니다. 간격척도로 관측한 경우에는 최대값과 최소값을 분포함수와 데이터개수가 많은 데이터세트에서는 100등분하여 100개의 간격이 같은 구간인 분위(순서가 있는 범주) 만들고 각 구간의 평균을 그 구간의 데이터를 순서에 따라 나열하고 데이터의 개수를 100등분하여 데이터를 구분하였을 때 각 등분을 나눈 위치값입니다.
사분위수(quartile)
사분위수(quartile)는 quarter와 percentile의 합성어입니다. 간격척도나 비례척도로 구한 데이터는 위치 순으로 나열할 수 있습니다. 데이터를 오름차순으로 나얼한 후에 데이터를 같은 개수로 4등분하여 나눕니다. 이를 4개의 분위를 만든다고 할 수 있으며 분위는 순서를 가지는 범주라고 표현할 수 있습니다. 분위수는 각 분위의 위치값을 의미합니다. 특히 사분위수는 각 분위의 최대값을 의미합니다.  따라서 사(4)분위인 경우 1사분위, 2사분위, 3사분위의 위치값인 1, 2, 3사분위수는 데이터세트의 분포를 표현할 수있습니다. 그리고 2사분위수는 중앙값을, 4분위수는 데이터세트의 범위의 최대값을 의미합니다.
– 1사분위수(Q1)는 자신보다 작은 데이터가 전체의 25%
– 2사분위수(Q2)는 자신보다 작은 데이터가 전체의 50%
– 3사분위수(Q3)는 자신보다 작은 데이터가 전체의 75%
사(4)분위수와 백(100)분위수와의 관계
– 1사분위수 = 25백분위수
– 2사분위수 = 50백분위수
– 3사분위수 = 75백분위수

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 종류 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3에서 B22의 범위에 있는 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22의 범위에 있는 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22의 범위에 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22의 범위에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.

=VARP(B3:B22) : 분산. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 각 숫자의 평균의 차이를 제곱해서 모두 더한 후, 숫자의 개수로 나눈 값. VARP 대신 VARS를 입력하면 숫자의 개수 -1로 나눈 값(표본분산)을 표시함. 

=STDEV.P(B3:B22) : 표준편차. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 분산의 제곱근. STDEV.P 대신 STDEV.S를 입력하면 표본분산의 제곱근을 표시함. 

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 모든 숫자 집합에서 최대값을 표시함. 

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 모든 숫자 집합에서 최소값을 표시함. 

=QUARTILE(B3:B22,0) : 사분위수. B3에서 B22에 있는 숫자 집합에서 지정한 사분위수를 표시함. 0의 자리에 0, 1, 2, 3, 4를 입력하여 0사분위수, 1사분위수, 2사분위수, 3사분위수, 4사분위수를 표시할 수 있음. 

=PERCENTILE(B3:B22,0) : 백분위수. B3에서 B22에 있는 숫자 집합에서 지정한 백분위수를 표시함. 0의 자리에 0 이상 1이하의 수를 입력하여 각각의 백분위수를 표시할 수 있음. 0.25를 입력하면 25백분위수가 표시됨.


3.3. 실습강의

 – 데이터

 – 합계

 – 개수

 – 평균

 – 중앙값


 

4 참조

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

Reference

Data set – Wikipedia


Coefficient of variation ?
변동계수 ?

1. 애니메이션

1.1. 변동계수


2. 설명

2.1. 변동계수

2.2. 변동계수 활용사례


3. 실습

3.1. 구글시트

3.2. 구글시트 함수


4. 용어와 수식

4.1. 용어

4.2. 수식

4.3. 참고


1. 애니메이션



변동계수


2. 설명

2.1. 변동계수

변동계수를 사용하는 예를 들면, 농장에서 생산한 딸기가 당도가 얼마나 고른지를 알고자 하는 경우입니다. 딸기의 표본은 보통 출하시에 추출하게 되는데 당도는 출하시기의 영향을 크게 받습니다. 그래서 당도의 분포값인 표준편차를 출하시기를 반영하고 있는 평균으로 표준화하면 당도의 변동만을 분석할 수 있습니다.

 

두 표본으로 두 모집단의 변동(variation, 움직임의 변화량)을 비교하고자 할때도 표본평균의 영향을 없애기 위하여 변동계수를 사용합니다. 보통 자연현상에서 모평균과 표본평균의 거리가 변하면 표본표준편차도 따라 변하기 때문입니다.

 

모집단의 변동계수(coefficient of variation, CV)는 모표준편차($\sigma$)를 모평균($\mu$)으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 모표준편차를 모평균으로 나눈 것입니다.

$$CV=\dfrac {\sigma}{\mu}$$

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

$$CV=\dfrac {S}{\bar{X}}$$

여기서, $X$는 확률변수

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다. 변동계수는 표준편차를 같은 단위를 가지는 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있는 장점이 있습니다. 


2.2. 변동계수 활용사례

다음 동영상에서는 변동계수의 활용사례로 1) 기업성과 비교, 2) 상품가치 비교를 설명하고 있습니다.


변동계수 활용사례 1 : 기업성과 비교


변동계수 활용사례 2 : 상품가치 비교


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


변동계수 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 평균. 데이터를 모두 더한 후, 데이터의 개수로 나누어서 구함.

=STDEV.P(C2:C22) : 표준편차. 분산의 제곱근. C3에서 C22에 있는 모든 데이터의 표준편차. 각 값과 평균과의 차이(편차)를 제곱해서 모두 더한 후, 데이터의 개수로 나누어서 구하면 분산이 되는데, 표준편차는 이 분산의 양의 제곱근임.


3.3. 실습강의

데이터

데이터 요약

데이터 시각화

변동계수

실습 안내



4. 용어와 수식

4.1 용어


산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia


표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



4.2 수식


모집단에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {\sigma }{\mu}$$

여기서,  $\sigma$는 모표준편차

$\mu$는 모평균 

표본에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {S}{\bar{X}}$$

여기서,  $S$는 표본표준편차

$\bar{X}$는 표본평균

$X$는 확률변수