모집단분포, 표본분포, 표집분포

1. 애니메이션

1.1. 모집단과 표본의 통계량

1.2. 표본평균 표집의 확률밀도함수


2. 설명

2.1. 모집단분포 : 모집단내 개체의 분포

2.2. 표본분포 : 표본내 개체의 분포

2.3. 통계량

2.4. 표집분포 : 표본통계량의 분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



모집단과 표본의 통계량




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균 표집의 확률밀도함수

2. 설명

2.1. 모집단(Population)분포 : 모집단내 개체의 분포

모집단(Population)은 관측대상이 되는 개체들의 전체 집합이며 연구대상입니다.

모집단분포를 모수(parameter)로 표현

모집단분포를 표현하는 모수는 상수이며 다음과 같이 분류할 수 있습니다.

– 분포의 위치(Location)를 표현 : 모평균($\mu$)

– 분포의 크기(Scale)를 표현 : 모분산($\sigma^2$), 모표준편차($\sigma$)

– 분포의 비대칭성(Skewness)을 표현 : 피어슨비대칭도($\gamma$)

모집단분포 모델

모집단분포는 일반적으로 정규분포(Normal distribution)를 따른다고 가정합니다. 그 이유는 모집단을 이루는 개체의 속성이 연속형 확률변수이고 정규분포를 나타내면 모집단분포도 정규분포를 나타내기 때문입니다. 즉, 자연계에서는 개체의 속성이 정규분포를 이루는 경우가 대부분이기 때문입니다. 예를들어 개체의 속성 중에서 키는 최소생성단위(성공 또는 실패)가 큰 회수로 시도되어 누적된 결과라고 볼 수 있습니다. 이 결과는 시도의 횟수가 유한한 경우 이산형 확률변수로 표현되어 이항분포가 되고 시도의 횟수가 무한하면 연속형 확률변수로 표현되어 정규분포가 됩니다. 특히 연속형 확률변수의 경우 분포를 함수와 함수의 매개변수(모수)로 모델링할 수 있습니다.

모집단분포의 모수

정규분포를 표현하는 모수(parameter, 매개변수)는 평균($\mu$)과 분산($\sigma^2$)입니다. 모집단분포를 알기위해서는 모집단을 관측해야 하지만, 모집단은 일반적으로 큰 수의 개체로 구성되어 있습니다. 따라서 모든 개체를 조사하는 것이 불가능하거나 조사하더라도  시간과 비용이 너무 많이 소요되는 경우가 많습니다. 따라서 표본을 추출하여 관측하는데 표본분포의 모수 중에서 표본평균과 표본분산 그리고 표본크기를 가지고 모평균과 모분산을 추론하게 됩니다. 다음은 모집단분포가 정규분포일 때 모수(매개변수)의 계산식입니다.

 

모평균($\mu$)

$$\mu=\dfrac{1}{N}(x_1+x_2+\cdots+x_N)=\dfrac{1}{N}\sum_{i=1}^{N}x_i$$

여기서, $N$은 모집단크기

모분산($\sigma^2$)

$$\sigma^2=\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}$$

여기서, $N$은 모집단크기

정규분포로 모델링한 모집단분포

모집단분포가 정규분포이면 즉, 모집단$(x_1,x_2,\cdots,x_N)$이 정규분포를 따르고 있다고 가정하면 다음과 같이 표기합니다.

$$X \sim N(\mu,\sigma^2)$$

여기서, $X$는 모집단을 이루는 개체가 가지는 확률변수

$\mu$는 모평균

$\sigma^2$은 모분산


2.2. 표본분포 : 표본내 개체의 분포

모집단의 일부 개체를 선택하여 추출함에 있어 그 일부분이 모집단을 대표할 수 있도록 무작위로 선택합니다. 이를 무작위추출(random sampling)이라 하며 추출에서 선택된 모집단의 일부를 표본(Sample)이라고 합니다. 따라서 표본분포는 모집단분포를 반영합니다.

개체와 집단간의 가정 : $\rm iid$(independent and identically distributed random variable)가정

모집단을 이루는 개체가 독립이고 개체의 속성을 나타내는 확률변수가 같은 확률분포를 가진다고 가정하면 모집단은 독립항등분포를 나타내는 확률변수($\rm iid$, independent and identically distributed random variable) iid가정을 따른다고 합니다. 이 가정에 따르면 표본분포는 모집단분포와 같다고 할 수 있습니다.

 

표본과 모집단간의 가정

가정 1 : 표본은 모집단의 일부분이다. : 표본은 모집단의 부분집합

 

표본

$$x_1,x_2,\cdots,x_n$$

분포식

$$x_1,x_2,\cdots,x_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서,  ${\rm iid}$는 independent and identically distribution의 약자로서 독립항등분포

${\rm iid} \, N(\mu,\sigma^2)$는 독립항등분포의 분포가 정규확률분포

iid의 처음 i는 개체가 독립(independent)이고, 두번째 i는 개체가 가지는 확률변수의 확률분포가 개체간 동일함(identically distributed)을 의미합니다. 따라서 표본 $\{x_1, x_2~ x_n\}$의 개체(원소)는 서로 독립적이고 모든 개체가 가지는 확률변수는 같은 확률분포를 가집니다. 그리고 모집단의 확률분포는 개체가 가지는 확률변수의 확률분포와 같게 됩니다. 만일 모집단분포가 정규분포라면 개체가 가지는 확률변수도 평균이 $\mu$이고, 분산이 $\sigma^2$ 정규분포를 따릅니다. “iid”가정은 모집단과 표본을 이루는 개체에 대한 중요한 가정입니다

 

가정 2 : 표본은 모집단 전체에 분포한다. : 무작위추출

 

모집단

$$X_1,X_2,\cdots,X_N$$

여기서, $N$은 모집단의 크기

분포식

$$X_1,X_2,\cdots,X_N \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $N$은 모집단의 크기

여기서,  $\rm{iid}$는 모집단을 이루는 독립적인 개체가 가지는 확률변수들이 동일한 확률분포를 가진다는 기호

 

표본

$$X_1,X_2,\cdots,X_n$$

분포식

$$X_1,X_2,\cdots,X_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $n$은 표본의 크기

$\rm{iid}$는 표본을 이루는 독립적인 개체가 가지는 확률변수는 동일한 확률분포를 가진다는 기호

위의 두 가정을 통하여 표본은 모집단의 분포와 동일한 분포를 나타냄을 분포식으로 모델링합니다. 따라서, 표본으로 모집단 분포를 표현하는 모수의 통계적 추론(Statistical Inference)이 가능합니다. 통계적 추론은 표본 데이터를 이용하여 모수에 대한 정보를 얻는 방법론입니다. 모집단으로부터 추출한 표본의 표본분포는 표본의 크기가 모집단 크기와 같아질수록 같아집니다. 이를 큰 수의 법칙이라고 합니다. iid 가정에 의해 표본으로부터 통계량을 구하여 모집단의 모수를 점추정할 수 있고 그 신뢰구간도 제시할 수 있습니다. 제시한 신뢰도(0에서 1사이 또는 0%에서 100%사이)에 따른 신뢰구간을 구하는 것을 구간추정이라고 합니다.


2.3. 통계량(Statistic)

통계량은 집단을 이루는 개체가 가지는 변수값(데이터)을 관측하고 가공하여 집단을 표현하는 값입니다. 대표적인 통계량에는 평균, 분산이 있고 집단을 이루는 개체의 수도 그  집단의 통계량입니다. 대표적인 집단에는 모집단과 표본이 있습니다. 그리고 개체가 모여서 구성하는 범주(Category)도 집단의 부분집단으로서 집단이라고 할 수 있습니다. 만일 범주가 순서를 가지면 수준(Level)이라고 합니다.  Statistic(통계량)의 복수형인 Statistics이 통계학인 것을 볼 때 통계학(Statistics)은 통계량(Statistic)을 다루면서 시작되었다는 것을 짐작할 수 있습니다.

통계량 중에서 기초통계량

통계량 중에서 기초통계량은 통계량 중에서 최대값, 최소값, 순서통계량, 중앙값을 지칭합니다. 기초 통계량은 집단의 원소값(데이터)의 식으로 모델링되지 않고 논리적 판단으로 구하게 됩니다.다만 부호나 위치를 사용하여 순서로 표현되는 분포를 수식으로 모델링하기도 합니다.

통계량 중에서 모수(parameter, 매개변수)

통계량 중에서 모수는 집단의 분포를 표현하는 분포함수의 매개변수를 말합니다. 예를 들어 모집단이 정규분포를 나타낸다면 모수는 모평균과 모분산이 됩니니다. 예를 들어 표본의 분포를 t분포로 표현한다면 표본평균과 표본분산 그리고 표본크기가 모수가 됩니다. 

표본통계량 중에서 표본평균, 표본분산, 표본크기는 표본분포의 모수

모집단분포를 나타내는 모집단의 모수는 모집단분포를 나타내는 함수의 매개변수라고 할  수 있습니다. 모집단과 표본의 관계에서 중요한 사실은 표본통계량은 모집단의 모수(예를들면, 모평균, 모분산 등)가 상수인 것과 달리 모집단의 모수를 평균으로 하는 확률변수라는 점입니다. 특히 표본평균의 분포(표본평균의 표집분포)는 표본의 크기가 커지면 정규분포에 근사하는 데 이를 중심극한정리라고 합니다. 중심극한정리에 근거하여 표본통계량으로 모집단모수를 추측하게 합니다. 중심극한정리는 추측통계학이 시작되는 중요한 정리입니다. 표본통계량은  영어 대문자를 사용하여 표기합니다. 그리고 표본의 데이터를 이용하여 계산한 결과인 표본통계량의 값은 소문자를 사용하여 표기합니다. 가장 대표적인 표본통계량은 표본평균과 표본분산이 있습니다.  그리고 다른 모든 표본통계량과 관련되는 표본크기가 있습니다.

 

표본평균

$$\bar{X}=\dfrac{1}{n}(X_1+X_2+\cdots+X_N)=\dfrac{1}{n}\sum_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산

$$S^2=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

여기서, $n$은 표본크기


2.4. 표집분포(Sampling distribution) : 표본통계량의 분포

표집은 표본의 집합을 의미합니다. 표집분포(Sampling distribution)는 표본에서 구한 표본통계량의 분포입니다. 복원추출로 표본추출(Sampling)을 무한반복하면 관측된 표본통계량의 분포는 수렴합니다. 표본통계량에는 대표적으로 표본평균, 표본분산, 표본크기, 표본변동이 있습니다. 또한, 모집단에 범주(Category)가 있어 표본에도 범주가 나타난다면 표본통계량에는 범주에 속한  개체수와 표본크기(표본의 총개체수)의 비율을 나타내는 범주확률이 있습니다. 만일 표본이 이분분포로 되어있다면 표본통계량에는 표본비율이 있습니다.

표본평균의 분포

표본평균은 확률분포를 가지는 확률변수입니다. 표본평균은 독립변수가 확률변수, $x_i$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 산술평균과 표본평균의 추정량(estimator)을 표현하기도 합니다. 

$$\bar{X}=\dfrac{1}{n}(x_1+x_2+\cdots+x_n)=\dfrac{1}{n}\sum_{i=1}^{n}x_i$$

표본평균은 중심극한정리에 따라 표본크기가 클수록 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사합니다.

$$\bar{X} \sim N(\mu,\dfrac{\sigma^2}{n})$$

여기서, $n$은 표본크기

표본크기가 크다면 표본평균($\bar{X}$)의 분포가 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사하므로 표본평균은 표준정규분포의 확률변수인 $Z$로 변환할수 있습니다.

$$Z=\dfrac{\bar{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N(0,1^2)$$

여기서, $n$은 표본크기

표본분산의 분포

표본분산($S^2$)은 표본평균과 마찬가지로 표본크기($n$)가 클수록 모분산($\sigma^2$)을 평균으로 하는 정규분포를 나타냅니다. 다만 표본분산의 분포는 표본크기가 작을수록 표본평균의 분포와 달리 모집단분포의 영향을 심하게 받습니다. 예를들어 개체의 확률변수가 정규분포를 가진다고 하면 표본크기가 2부터 시작하면서 커질 때 표본평균의 분포는 대칭인 종모양의 분포로 시작하여 모평균이 평균인 정규분포로 수렴하는 데 반해 표본분산의 분포는 심한 비대칭인 분포로부터 시작하여 모분산이 평균인 정규분포로 수렴합니다. 표본크기가 30이하인 경우 이 현상은 두드러지게 나타나므로 표본크기에 따른 표본분산의 분포를 고려해야 합니다. 여기서 새로운 확률변수를 도입하게 되는 데 이것이 표본을 이루는 각 개체의 변동을 합한 표본변동(Sample variation)입니다.

$${x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_n^2-\bar X}^2$$

영국의 육종학자인 피셔는 개체가 가지는 확률변수가 표준정규분포를 가진다고 모델링하고 표본을 이루는 각 개체의 변동을 모분산($\sigma^2$)으로 표준화하여 카이제곱($\chi^2$)이라는 확률변수를 도입하였습니다. 이 확률변수는 표준정규분포의 확률변수인 $Z$로 부터 유도됩니다. 만일 표본을 이루는 개체가 가지는 확률변수 $X$가 정규분포를 나타내고 표본크기가 $n$이라면 표본편동을 다음식으로 표현할 수 있습니다.

$$\dfrac{1}{\sigma^2}({x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_k^2-\bar X}^2)=Z_1^2+Z_2^2+ \cdot + Z_k^2=\chi_k^2$$

여기서, $k$는 표본의 자유도이고 $n-1$

표본분산은 독립변수가 확률변수, $s_i^2$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 분산과 표본분산의 추정량(estimator)을 표현하기도 합니다. 

$$S^2=\dfrac{1}{n}(s_1+s_2+\cdots+s_n)=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

표본분산($S^2$)에 $\dfrac{(n-1)}{\sigma^2}$을 곱하거나 표본분산($S^2$)을 $\dfrac{\sigma^2}{(n-1)}$으로 나누어서 표본분산($S^2$)$을 카이제곱분포를 따르는 확률변수인 $\chi^2$으로 변환합니다.

$$(n-1)\dfrac{S^2}{\sigma^2} \sim \chi^2_{n-1}$$

여기서,  $n$은 표본크기

$(n-1)$은 표본의 자유도

$\chi^2_{n-1}$은 자유도가 $(n-1)$인 카이제곱분포

표본변동의 분포

표본변동은 표본평균과 관측값(데이터)의 차의 제곱을 모두 더한 값입니다. 그리고 표본을 추출할 때마다 표본크기와 표본평균에 따라서 변하는 확률변수입니다. 표본변동의 분포는 평균이 $n\sigma^2$인 분포를 나타낼 것입니다. 표본변동을 표준화하면 카이제곱분포를 나타내는데 표본크기에 따라 분포의 모양이 다릅니다. 관측값(실현값, 데이터)를 표준화한 확률변수 Z와 $\chi^2$의 관계를 살펴보면 확률변수 Z를 제곱한 확률변수는 자유도가 1인 $\chi^2$확률변수와 같습니다. 

$$Z^2 \sim \chi_{1}^2$$

여기서,  $Z$는 표준정규분포 : $Z \sim N(0,1)$

만일 $Z_i \sim $\rm iid$ \ N(0,1),i=1,2,\cdots,n$이면 표준정규분포를 나타내는 $n$개의 개체로 이루어진 표본의 표본변동을 나타내는 식은 다음과 같습니다. 표준정규분포를 가지는 개체로 이루어진 표본변동의 분포는 카이제곱분포를 나타내며 이 분포함수의 모수(매개변수)는 자유도입니다.

$$Y=Z_1^2+Z_2^2+\cdots+Z_{n-1}^2 \sim \chi_{n-1}^2$$

여기서,  $\chi_{n-1}^2$은 자유도가 $(n-1)$인 카이제곱분포

표본크기의 분포

표본을 이루는 개체가 iid$N(0,1)$ 가정을 따르면 즉, 확률변수가 독립적이고 확률분포가 표준정규분포를 가진다면 표본변동을 다음식으로 표현할 수 있습니다.

$$Y\sim iid \, N(0, 1)$$

위식으로 가정된 표본변동의 분포는 표본크기의 분포를 나타내며 다음과 같이 표현할 수 있습니다.

$Y \sim \chi_{n}^2$

표본크기의 분포의 평균은

$${\rm E}[Y]=n$$

표본크기의 분포의 분산은

$${\rm Var}[Y]=2n$$

표본비율의 분포

범주의 변동은 범주의 개체수와 비례(선형관계)이므로 각 범주의 비율은 각 범주의 변동의 비율입니다. 만일 표본을 이루는 범주의 카이제곱값을 표본의 카이제곱값으로 나누면 그  범주의 비율이됩니다. 범주의 비율은 확률변수로 볼 수 있는 데 모집단에서 표본을 무한추출하면 범주의 비율은 수렴을 하기 때문에 확률이라고 볼 수 있습니다. 두 카이제곱변수의 비도 확률변수인 데 영국의 유전학자 피셔가 유도하여 그 확률변수를 F라 부릅니다.

범주확률의 분포

표본에 범주가 있는 경우에는 각 범주의 변동과 각 범주의 평균의 변동의 합이 표본변동이 됩니다. 만일 표본이 두 범주를 가지고 있고 각 범주가 각각 $Y_1$과 $Y_2$의 변동을 나타낸다 하면 표본의 변동식은 다음과 같습니다.

$$Y=Y_1+Y_2$$ 

자유도식은 다음과 같습니다.

$$n=k+n_1+n_2=2+n_1-1+n_2-1$$

여기서 $k$는 범주의 수

 $n_1$과 $n_2$는 두 범주의 개체수

두 변동의 합을 다음식으로 표현할 수 있습니다. 

$$Y=Y_1+Y_2 \sim \chi_{n_1-1}^2+\chi_{n_2-1}^2=\chi_{n_1+n_2-2}^2$$

여기서, $Y$는 두 범주의 변동의 합

$Y_1$과 $Y_2$는 표본을 이루는 두 범주의 변동

$n_1$과 $n_2$는 표본을 이루는 두 범주에 속하는 개체수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

 

Reference

Statistical parameter – Wikipedia



자유도 ?
Degree of Freedom ?

1. 애니메이션

1.1. 변수가 만드는 움직임 (개체의 분포)


2. 설명

2.1. 자유도 degree of freedom

2.2. 좌표계 coordinate system

2.3. 개체의 자유도

2.4. 모집단의 자유도

2.5. 표본의 자유도

2.6. 범주가 있는 표본의 자유도


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



변수가 만드는 움직임 (개체의 분포)

2. 설명

2.1. 자유도 degree of freedom

개체의 자유도

개체가 1개의 변수를 가지고 있다면 변수가 만드는 1차원 좌표계에서 개체의 움직임(개체의 출현도 움직임의 일종)을 표현할 수 있습니다. 따라서, 개체가 1개의 변수를 가지고 있다면 한 축에서 움직일 수 있기 때문에 이 개체는 자유도가 1인 개체라고 할 수 있습니다. 예를 들면 개체가 2개의 변수를 가지고 있다면 두 변수가 만드는 2차원 직교좌표계에서 개체의 확률질량은 자유도가 2라고 할 수 있습니다. 개체는 집단을 이루는 원소라고도 하고 요소(element)라고도 합니다.

집단의 자유도

집단을 이루는 개체가 서로 독립이고 개체가 1개의 변수를 가진다면 집단의 자유도는 집단을 이루는 개체의 개수가 됩니다. 즉, 독립인 개체의 변수가 집단이 표현되는 좌표계의 직교축을 만듭니다. 집단에는 모집단과 표본집단이 있습니다. 표본집단은 줄여서 표본이라고 합니다.

범주의 자유도

집단은 범주로 이루어 질 수 있습니다. 즉, 집단을 이루는 개체가 범주에 속할 수 있습니다. 개체의 특정 범주(cateogry, 수준, level)로의 출현(개체의 움직임의 일종)확률은 범주의 확률질량으로 표현됩니다. 따라서 범주의 자유도는 그 범주의 확률질량의 자유도라고 할 수 있습니다. 


2.2. 좌표계 coordinate system

개체좌표계

개체의 출현(개체의 출현도 움직임의 일종)을 표현할 수 있는 좌표계를 정해 봅니다. 이 좌표계를 개체좌표계라고 부릅니다. 한편, 개체좌표계는 개체가 가지는 변수가 정한다고 볼 수 있습니다. 간단한 예를 들면, 개체가 3개의 변수를 가지고 있다고 한다면 개체의 좌표계는 3개의 축을 가진 3차원 좌표계로 표현할 수 있습니다.

집단좌표계

집단은 개체가 모여서 만들어 집니다. 개체가 서로 독립이라면 서로 독립적으로 움직인다고 할 수 있습니다. 집단의 움직임(개체의 출현으로 나타나는 개체의 분포)을 표현할 수 있는 좌표계를 정해봅니다. 이 좌표계를 집단좌표계라 부릅니다. 따라서 집단좌표계는 집단을 이루는 개체의 변수가 정한다고 볼 수 있습니다. 간단한 예를 들면 개체가 1개의 변수를 가지고 있고 서로 독립이면 집단의 움직임을 표현할 수 있는 좌표계 축의 수는 개체의 수와 같게 됩니다.

절대좌표계

개체좌표계의 원점은 개체가 가지는 변수가 모두 0이 되는 점입니다. 따라서 개체가 모여서 만들어진 집단좌표계의 원점은 개체좌표계의 원점이 만들게 됩니다. 만일 집단을 표본집단과 모집단으로 구분한다면 모집단의 원점이 고정된다면 표본집단의 원점은 관측이 될때 정해지므로 고정되어 있지 않습니다. 그리고 모집단안에 범주가 있어서 모집단에서 표본집단을 추출하거나 표본집단이 생성될 때 범주가 집단안에 나타난다면 범주에 속해 있는 개체의 표현은 개체좌표계와 집단좌표계의 원점의 상대위치가 결정되어야 가능합니다. 여기서 절대좌표계를 도입해 볼 수 있습니다. 개체가 절대좌표계에 출현한다고 생각해 보면 절대좌표계의 원점은 개체의 변수가 모두 0이 되는 점을 의미합니다. 여기서 중요한 것은 세 좌표계의 원점의 상대 거리 즉, 위치가 존재한다면 절대좌표계에서 표현할 수 있다는 것입니다.


2.3. 개체의 자유도

개체가 가지는 변수의 값은 변합니다. 즉, 움직입니다. 따라서, 개체를 하나의 확률질량으로 보았을 때, 즉, 강체로 보았을 때 개체강체의 확률질량의 자유도는 1입니다. 개체를 이루는 변수의 자유도는 변수의 개수($k$)가 됩니다.  

 

개체의 자유도는 개체를 구성하는 변수의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 개체가 가지는 변수가 만든 좌표계에서 개체의 움직임의 자유도를 표현한다고 할 수 있습니다. 개체에 대한 자유도 등식은 다음과 같습니다.

개체를 이루는 변수의 자유도 = 개체의 자유도 + 개체강체의 자유도

$$k=\text{개체의 자유도} + 1$$

여기서, $k$는 개체가 가지는 변수의 개수


2.4. 모집단의 자유도

모집단의 모평균은 표본의 입장에서는 움직이지 않는 상수입니다. 따라서, 모집단을 하나의 확률질량으로 보았을 때, 즉, 강체로 보았을 때 모집단강체(모평균)의 자유도는 0입니다. 그리고 모집단을 이루는 개체의 자유도는 모집단크기($N$)입니다.  

 

모집단의 자유도는 모집단을 구성하는 갳의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 모집단을 구성하는 독립적인 개체가 가지는 변수가 만든 좌표계에서 모집단의 움직임의 자유도를 표현한다고 할 수 있습니다. 이 때 개체는 같은 확률질랑을 가집니다. 모집단에 대한 자유도 등식은 다음과 같습니다.

모집단을 이루는 개체의 자유도 = 모집단 자유도 + 모집단강체의 자유도

$$N=\text{모집단의 자유도} + 0$$

여기서,  $N$은 모집단크기 : 모집단을 이루는 개체의 개수


2.5. 표본의 자유도

표본은 표본을 이루는 개체의 개수만 고정되고 개체가 가지는 변수가 변하는 모델이라고 볼 수 있습니다. 따라서 표본의 표본평균은 움직입니다. 표본을 하나의 강체로 보았을 때 표본강체(표본평균)의 자유도는 1입니다. 그리고 표본을 이루는 개체의 자유도는 표본크기($n$)가 됩니다.  

표본의 자유도는 표본을 구성하는 개체의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 표본을 구성하는 독립적인 개체가 가지는 변수가 만든 좌표계에서 표본의 움직임의 자유도를 표현한다고 할 수 있습니다. 이 때 개체는 같은 확률질량을 가집니다. 표본에 대한 자유도 등식은 다음과 같습니다

표본을 이루는 개체의 자유도 = 표본의 자유도 + 표본강체의 자유도

$$n=\text{표본의 자유도} + 1$$

여기서, $n$은 표본크기 : 표본을 이루는 개체의 개수


2.6. 범주(category)가 있는 표본의 자유도

표본강체와 각 범주강체의 자유도는 1입니다. 여기서 범주강체는 각 범주의 확률질량이라고 할 수 있습니다. 개체의 확률질량과 달리 각 범주의 확률질량은 다를 수 있습니다. 모집단에서의 표본추출이나 표본생성에서 표본이 반드시 출현한다면 표본의 확률질량을 1이라고 할 수 있습니다. 따라서 표본을 이루는 각 범주의 확률질량의 합은 1이 됩니다. 그리고 범주의 자유도는 $k-1$이 됩니다. 따라서 범주가 있는 표본의 자유도는  $n-k$입니다. 범주가 있는 표본에 대한 자유도 등식은 다음과 같습니다.

 

표본을 이루는 개체의 자유도 = 범주가 있는 표본의 자유도 + 범주의 자유도 + 표본강체의 자유도

$$n=(n-k)+(k-1)+1$$

여기서, $k$는 범주의 개수

$n$은 표본크기 : 표본을 이루는 개체의 개수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

 

Reference

Statistical parameter – Wikipedia



중심극한정리 ?
Central limit theorem ?

1. 애니메이션

1.1. 표본크기가 커질수록 표본평균은 모평균에 수렴

1.2. 표본크기의 변화에 따른 표본평균 표집의 확률밀도함수

1.2. 당도 표본평균 표집의 확률밀도함수


2. 설명

2.1. 중심극한정리

2.2. 표본평균 표집과 중심극한정리

2.3. 표본평균 표집의 정규성

2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본크기가 커질수록 표본평균은 모평균에 수렴




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균($\bar X$) 표집의 확률밀도함수




두 딸기품종 당도의 확률밀도함수(probability density function)와 표본의 당도평균 표집의 분포( probability density function of sampling distribution)

2. 설명

2.1. 중심극한정리

확률변수, $X_1, X_2, \cdots, X_n$가 서로 독립하며 평균, $\mu$와 분산, $\sigma^2$을 갖는 동일한 분포를 따른다고 가정합니다.  여기서,  동일한 확률은 임의의 확률분포이며 분포함수가 알려진 확률분포일 필요는 없습니다. 동일한 확률분포를 가지는 $n$개의 확률변수들의 합을 $S_n$이라고 하면 $S_n$도 확률변수입니다. 

$$S_n=X_1+X_2+\cdots+X_n$$

여기서,  $X_i$는 확률변수 : $i=1, 2, \cdots , n$

 $n$이 $\infty$로 커질수록  확률변수, $S_n$은 평균이  $n\mu$이고 분산이 $n\sigma^2$인 정규분포를 나타냅니다.

$$S_n \sim N(n\mu, n\sigma^2)$$

여기서, $\mu$는 확률변수 $X_i$의 동일한 모평균

$\sigma^2$은 확률변수  $X_i$의 동일한 모분산

$n$은 확률변수의 더해지는 수 : $n \rightarrow \infty$

새로운 확률변수인 $S_n$의 확률분포는 합해지는 확률변수의 개수, $n$이 커질수록 확률변수의 분포에 상관없이 정규분포에 수렴합니다. 이를 중심극한정리라고 합니다. 중심극한정리는 정규분포의 중요성을 나타내는 통계학(statistics)의 핵심 정리입니다. 모집단으로 부터의 표본추출과 표본평균 표집의 확률분포 모델링에 사용됩니다.

$$\dfrac{S_n-n\mu}{\sqrt{n\sigma^2}} \xrightarrow{as\ n \to \infty} N(0,1)$$

여기서, $\mu$는 확률변수, $X_i$의 동일 평균

$\sigma^2$은 확률변수, $X_i$의 동일 분산

$n$은 더해지는 동일 확률변수의 수 : $n \rightarrow \infty$

중심극한정리에서는 독립이고 동일한 분포를 가지는 확률변수의 합을 표현하는 새로운 확률변수의 누적분포함수를 표현할 수 있습니다.  확률변수의 개수가 무한대로 갈수록 확률변수의 합을 나타내는 새로운 확률변수는 표준화된 정규분포의 누적분포함수($\Phi(x)$)로 표현할 수 있습니다.

$$\lim_{n\to\infty}P\left(\dfrac{\displaystyle\left(\sum_{i=1}^{n}X_{i}\right)-n\mu}{\dfrac{\sigma}{{\sqrt{n}}}}\leq x\right)= \Phi\left(x\right)$$

$n$이 커지는 과정에서의 표본평균 표집의 확률분포의 변화는 t분포로 표현할 수 있습니다.  


2.2. 표본평균 표집과 중심극한정리

중심극한정리(Central Limit Theorem)는 표본평균을 계산하는 과정에서 극단적인 값들이 서로 상쇄되어 표본평균이 집단의 모평균으로 모이는 경향을 말합니다.  표본크기($n$)가 크면 표본평균의 표집의 분산은 작아집니다. 즉, 표본평균 표집의 확률분포(sampling distribution of sample mean)는 표본의 크기가 커질수록 정규분포의 종모양(bell shape)이 되면서 뽀족해집니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 모집단의 분포모양과는 상관없이 표본평균들의 확률분포는 표본의 크기($n$)를 증가시킬수록 정규분포에 접근합니다. 즉, 표본평균의 확률분포는 모집단의 평균(모평균)을 중심으로 하는 정규분포를 나타냅니다. 이를 중심극한정리라고 합니다.

 

모평균과 가능한 모든 표본평균들 사이의 관계는 모집단이 정규분포를 가지지 않아도 정규분포로 관찰됩니다. 만일, 집단이 매우 크면 가능한 모든 표본들을 모두 찾아서 표본평균 표집의 확률분포를 완벽하게 구하는 것은 불가능합니다.  이를 해결하기 위하여  다음과 같은 이론을 정립하였습니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.

 

– 모집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균의 표집의 확률분포는 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

– 모집단이 모평균이 $\mu$이고 모분산이 $\sigma^2$인 무한히 큰 집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포라도 표본평균 표집의 확률밀도함수는 근사적으로 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

모집단을 나타내는 확률변수가 평균이  $\mu$이고 분산 $\sigma^2$인 임의의 확률분포를 가질 때 크기가 $n$인 표본을 단순임의복원추출하면 표집(sampling)한 표본평균들의 확률분포(표본평균 표집의 확률분포)는 다음과 같은 특성을 갖습니다.

 

– 가능한 모든 표본에서 표본평균  표집의 평균(${\mu}_{\bar{x}}$)은 모집단의 평균(모평균)과 같다.

$$\mu_\bar{x}=\mu$$

– 가능한 모든 표본에서 표본평균 표집의 분산($\sigma_{\bar{X}}$)은 모집단의 분산(모분산)을 표본크기($n$)로 나눈 값이다

$$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$$

– 가능한 모든 표본평균들의 분포는 근사적으로 정규분포이다.

$${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$$


2.3. 표본평균 표집의 정규성

모집단의 확률분포와 표본크기에 따른 표본평균 표집의 확률분포는 달라집니다. 중심극한정리에 의해 표본크기가 30보다 크면 표본평균 표집의 확률분포는 정규분포에 근사한다고 주장할 수 있습니다. 그렇지만 아래 그림과 같이 모집단의 확률분포모양이 쌍봉을 가지면 표본크기를 크게 하여야 표본평균 표집의 확률분포가 정규성을 나타냅니다. 아래그림은 모집단의 확률분포의 모양과 표본크기에 따른 표본평균 표집의 확률분포 모양의 변화를 보여줍니다.



모집단의 확률분포모양과 표본크기에 따른 표본평균 표집의 확률분포의 정규성


2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화(Z변환)

랜덤하게 추출된 표본의 크기가 $n$인 표본은 다음식으로 표현할 수 있습니다.

$$X_1, X_2, \cdots, X_n$$

표본의 평균은 다음식으로 구할 수 있습니다.

$$\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} X_i$$

모집단의 평균($\mu$)을 안다면, 모집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본평균의 기대값은 모집단의 평균(모평균)이 됩니다.

$${\rm E}[\bar{X}] = \mu$$

집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본분산의 기대값은 집단의 모분산($\sigma^2$)이 됩니다.

$${\rm {Var}}[\bar{X}] = \dfrac{\sigma^2}{n}$$

모집단이 정규분포를 나타내면 표본평균($\bar{X}$)은 확률변수이며 중심극한정리에 의하여 정규분포를 가집니다. 표본평균을 다음과 같이 표준화하여 새로운 확률변수를 생성할 수 있습니다. 이 새로운 확률변수, $Z$는 표준정규분포를 따릅니다.

$$Z=\dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N\left(0,1\right)$$

정리하면, 모집단이 다음과 같이 정규분포를 가진다면,

$$X \sim N\left(\mu, \sigma^2\right)$$

표본크기가 $n$인 표본평균, $\bar{X}$는 정규분포를 따르며 다음식으로 표현할 수 있습니다.

$$\bar{X} \sim N\left(\mu, \dfrac{\sigma^2}{n}\right)$$

그리고 $\bar{X}$를 표준화하면 즉, Z변환하면 그 표준화식과 표준화한 확률션수 $Z$의 분포를 다음식으로 표현할 수 있습니다. 확률변수 $Z_n$의 아래첨자 $n$은 표본크기를 의미합니다.

$$Z_n = \dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N \left(0,1\right)$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리 : 구글시트 실습

3.2. 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.

=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본들의 평균

– 표본 크기가 3인 표본들의 평균

– 중심극한정리


4. 용어

4.1 용어


중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



모집단(population)

통계에서 모집단은 질문이나 실험(experiment)의 대상이 되는 유사성을 가지는 분류 또는 사건의 집합입니다. 통계적 모집단은 실재하는 물건(예를 틀어 우주에 있는 모든 항성의 집합)일 수도 있고 경험을 통해 일반화된 잠재적으로 무한한 집단(포커에서 가능한 모든 패의 집단)일 수 있습니다. 통계분석의 공통적인 목표는 선택된 모집단에 대한 정보를 산출하는 것입니다.

통계적 추론(statistical inference)에서 모집단의 부분집합인 표본은 통계적 분석으로 모집단을 나타내기 위해 선택됩니다. 이 표본의 크기와 모집단의 크기의 비율을 표본분수(sampling fraction)라고 합니다. 적절한 표본에 대해 통계를 사용해 모집단 매개변수를 추정할 수 있습니다.

 

Reference

Statistical population – Wikipedia



표본(sample)

통계와 양적 연구방법론에서 표본은 수집된 데이터집합이며 정해진 절차에 따라서 통계적 모집단에서 선택된 또 다른 집단입니다. 표본의 요소(elements)는 표본점(sample points), 표본추출 단위(sampling units) 또는 관측대상(observations)이 있습니다.

일반적으로 인구는 매우 큰 집단이므로 전체 인구조사와 인구집단에 대한 완전한 서술은 불가능하고 효용이 없습니다. 표본은 일반적으로 관리가 가능할 정도의 크기의 모집단의 하위 집합을 나타냅니다. 표본을 수집하고 표본에서통계량을 계산하면 표본을 통해 모집단을 추론할 수 있게 됩니다. 추론(inference)에는 대표적으로 추정(estimation)과 가설검정(hyperthesis test)이 있습니다. 그리곡 추정에는 점추정과 구간추정이 있습니다. 이 모든 것이 표본을 통해 모집단의 정보를 알아 내는 것입니다.

표본은 비복원(같은 표본이 여러번 선택되는 경우가 없는 경우)으로 추출될 수 있고, 이 경우에는 표본은 모집단의 부분집합이 됩니다. 복원추출을 한 경우는 다중부분집합이 됩니다.

 

Reference

Sample (statistics) – Wikipedia



표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



4.2. 참조


표본통계량 ?
Sample statistic ?

1. 애니메이션

1.1. 표본통계량

1.2. 유한집단의 통계량


2. 설명

2.1. 표본의 통계량 : 표본통계량

2.2. 집단의 통계량

2.3. 표본모형

2.4. 표본통계량


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본통계량




유한집단의 통계량

2. 설명

2.1. 표본의 통계량 : 표본통계량

구매한 딸기 포장지에 적혀 있는 당도가 맞는가를 확인하고 싶습니다. 그래서  포장지 속에 들어있는 딸기 20개의 당도를 측정해 보았습니다. 그 결과, 20개의 숫자로 구성된 1개의 숫자무리가 생겼습니다.  이 숫자무리를 우리는 보통 표본이라고 부릅니다. 여기서 표본의 크기는 20입니다. 표본의 개수는 1개입니다. 

 

표본을 표현하는 숫자를 찾는 것을 표본통계량을 구한다고 합니다. 중요한 표본통계량으로는 대표값과 분포값(산포도, 散布度,  dispersion)이 있습니다. 대표값은 평균(mean), 중앙값(median), 최빈값(mode)등이 있습니다. 분포의 정도를 나타내는 분포값에는 분산(variance)과 분산의 제곱근인 표준편차(Standard deviation)등이 있습니다.

 

위의 애니메이션에서 표본의 분산을 계산할 때 표본의 크기에서 1을 뺀 19를 사용하는 것을 볼 수 있습니다. 이것은 표본의 분산을 구할 때 전체 변동량을 표본의 자유도로 나누어 주는데 여기서 표본의 자유도는 표본의 크기에서 기준으로 사용되는 표본평균의 개수인 1을 뺴줍니다. 

 

한편, 포장지에 적혀있는 당도를 모집단의 당도라고 생각해 봅니다. 그리고 측정한 표본 데이터에서 구한 당도 평균과 포장지의 당도를 비교해 봅니다. 포장지에 표시된 당도보다 구매한 당도 표본의 평균이 더 크면 좋겠습니다. 여기서 차이가 표준오차입니다.

 

무한집단의 예는 딸기품종을 대표적으로 볼 수 있습니다. 한 재배농가의 그 해에 재배한 딸기는 유한집단도 될 수 있지만 재배농가가 선택한 딸기품종의 표본이라고도 할 수 있습니다.


2.2. 집단의 통계량

집단에는 유한집단과 무한집단이 있습니다. 유한집단은 크기가 유한한 집단이고 무한집단은 크기가 무한대인 집단입니다. 집단에서 표본을 추출하면 그 집단은 표본의 모집단이 됩니다. 따라서, 표본의 크기는 집단의 크기보다 작을 수 밖에 없습니다. 집단안에는 부분집단이 있을 수 있으며 부분집단은 집단(group) , 수준(level), 분류(카테고리, category)등으로 불립니다. 집단을 수학적으로 집합으로 표현하여 많은 모델링을 수행합니다.  표본도 관측할 일종의 집단이라고 할 수 있습니다.


표본

표본통계량

표본크기 : $n$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


표본평균 : $\bar{X}$

표본분산 : $s^2$

표본표준편차 : $S$


표본피어슨상관계수 : $r$

표본회귀계수 : $\hat{\beta_0}$, $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본기울기 :  $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본절편 : $\hat{\beta_0}$


유한집단

유한집단통계량

집단크기 : $N$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


무한집단

무한집단통계량

집단크기 : $N \rightarrow \infty$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


2.3. 표본모형

랜덤하게 생성(추출)된  표본모형

{$X_1, … , X_n$}

여기서, $X_1, … , X_n$은 서로 독립

$n$은 표본크기

표본의 관측된 값

$x_1, … , x_n$

여기서, $n$은 표본크기


2.4. 표본통계량

표본평균

$\bar {X}=\dfrac {1}{n}\sum\limits _{i=1}^{n}{X_{i}}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}$

여기서,  표본은 {${X}_{1}{,}{X}_{2}{,}\ldots{,}{X}_{n}$}

 $n$은 확률변수 $X$에서 생성(추출)된 표본이 $n$개의 원소로 이루어짐을 의미

표본평균의 관측값

$$\bar {x}=\dfrac {1}{n}\left(\sum _{i=1}^{n}{x_{i}}\right)=\dfrac {x_{1}+x_{2}+\cdots +x_{n}}{n}$$

여기서,  표본의 관측값은 ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$

$n$은 표본이  $n$개의 데이터로 이루어짐을 의미

표본평균의 기대값

$${\rm E}[\bar X] = \mu$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

모평균의 점추정

$$\mu ∼ {\rm E}[\bar X]$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

~는 점추정

표본분산

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {X}$는 표본평균

표본분산의 관측값

$$ s^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {x}$는 표본평균의 관측값

표본분산의 기대값

$${\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

모분산의 점추정

$$\mu ∼ {\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

~는 점추정

표본표준편차

$$S=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {X}$는 표본평균

표본표준편차의 관측값

$$s=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {x}$는 표본평균의 관측값


중앙값(median)

$n$이 홀수인 경우

중앙값 = $\dfrac{n+1}{2}$번째 데이터

$n$이 짝수인 경우

중앙값 = $\dfrac{n}{2}$번째와 $\dfrac{n+1}{2}$번째 데이터의 평균

여기서, $n$은 표본크기 또는 유한집단크기


최빈값(mode)

최빈값 = 데이터 중 가장 자주 나타나는 값


변동계수(coefficient of variation, 변이계수)

모변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{\sigma}{\mu}\times 100$$

여기서, $\mu$은 모평균

$\sigma$은 모표준편차

표본변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{S_Y}{\bar Y}\times 100$$

여기서, $\bar Y$은 확률변수 $Y$의 표본평균

$S_Y$은 확률변수 $Y$의 표본표준편차


범위(range)

범위 = 최대값 – 최소값

범위는 데이터의 최대값과 최소값의 차이


백분위수(percentile)

$p$% 백분위수 = 자기값 이하로 적어도 $p$%의 관측값이 있고 자기값 이상으로 적어도 $(1-p)$%의 관측값이 있는 수


사분위수범위(interquartile range, IQR)

일사분위수(1st quartile, $Q_1$)

$Q_1$ = 25% 백분위수

이사분위수(2nd quartile, $Q_2$)

$Q_2$ = 50% 백분위수 : 중앙값( $m$)

삼사분위수(3rd quartile, $Q_3$)

$Q_3$ = 75% 백분위수

사분위수범위($\mathrm{IQR}$)

$$IQR = Q_3-Q_1$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본통계량 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 표본평균

– 표본분산


4. 용어

4.1 용어


기대값

확률에서 임의 변수의 기대값은 직관적으로는 동일한 실험을 무한 반복했을 때 나온 값들의 평균값입니다. 예를 들어, 6면 주사위를 던지는 시행의 기대값은던진 횟수가 무한대에 가까워졌을 때의 결과값들의 평균값(이경우는 3.5)이 됩니다. 다시 말해, 큰 수의 법칙은 반복 횟수가 무한대에 가까워질수록 값의 산술평균은 기대값에 점점 수렴한다는 것을 의미합니다. 이 기대값은 기대치, 수학적 기대치, EV, 평균, 평균값이라고도 불립니다.

 

보다 현실적으로, 이산확률변수의 기대값은 모든 가능한 값의 가중평균입니다. 즉, 기대값은 확률변수가 취할 수 있는 각 값에 발생확률을 곱한 결과값들의 합이 됩니다. 연속적인 확률변수에 대해서는 합계 대신에 변수의 적분이 들어간다는 것 외에는 동일한 원칙이 적용됩니다. 공식적인 정의는 이 둘을 모두 포함해 이산적이거나 완전히 연속적이지 않은 분포에서도 같게 작용되어, 확률변수의 기대값은 간단히 “확률 측정값에 대한 변수의 적분 값”으로도 말할 수 있습니다.

 

기대값은 큰 꼬리가 있는 분포(예를 들어 Caushy 분포)에서는 존재하지 않습니다. 이런 무작위 변수의 경우에는 분포의 긴 꼬리가 합이나 적분값이 수렴하지 못하도록 합니다. 기대값은 위치 매개 변수의 한 유형으로 사용할 수 있기 때문에 확률 분포를 특징 짓는데 중요한 역할을 합니다. 그에 반해, 분산은 기대값 주위의 확률변수의 가능한 값들이 얼마나 퍼져 있는 지를 나타내는 값입니다. 분산은 크게 2가지 방법으로 구할 수 있습니다. 모든 값에 평균을 빼고 제곱을 해 평균을 구하거나, 모든 값의 제곱의 평균에 평균의 제곱을  빼서 구할 수 있습니다.

 

Reference

Expected value – Wikipedia


 


사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



표준편차

표준편차(모표준편차는 $\sigma$, 표본 표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차과 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

 

Reference

variance – Wikipedia



중앙값

중앙값은 데이터세트(유한집단 또는 표본 또는 이산확률분포)의 하반부와 상반부를 분리하는 값이며 “중간”값으로 간주 될 수 있습니다. 예를 들어, 데이터세트 {1, 3, 6, 7, 8, 9}에서 중앙값은 데이터 집합에서 네 번째로 크고 네 번째로 작은 숫자입니다. 연속적인 확률분포의 경우, 중앙값은 숫자가 상반부 또는 하반부로 정해질 가능성이 같은 값입니다. 중앙값은 통계 및 확률 이론에서 데이터 집합의 속성에 일반적으로 사용되는 척도입니다.

 

데이터를 요약하거나 설명할 때, 평균에 비해 중앙값의 좋은 점은 매우 크거나 작은 값으로 데이터의 대표값이 왜곡되지 않으므로 더 나은 대표성을 제공 할 수 있습니다, 예를 들어, 평균가계소득이나 평균자산과 같은 통계량을 이해할 때 적은 수의 매우 크거나 작은 데이터로 인해 평균은 극단적으로 왜곡 될 수 있습니다.반면에 가계소득의 중앙값은 “전형적인”수입이 무엇인지를 제시하는 더 좋은 방법 일 수 있습니다.이 때문에 중앙값은 중요한 통계에서 가장 신뢰할 만한 대표값이며 50 %의 분해점을 갖는 가장 믿을 만한 통계량이므로 데이터의 절반 이상이 실제와 다르지 않는 한 중앙값은 크게 달라지지 않습니다.

 

Reference

Median – Wikipedia



4.2. 참조


모수
Parameter

1. 애니메이션

1.1. 당도 통계량


2. 설명

2.1. 모수

2.2. 유한집단의 모수 계산

2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



당도 통계량

2. 설명

2.1 모수

통계량을 의미하는 Statistic의 복수형인 Statistics는 통계를 의미합니다. 통계량이 모이면 통계가 된다는 뜻입니다.

 

통계량에는 평균이 있습니다.  20개의 딸기의 당도 데이터가 있습니다. 즉, 20개의 숫자입니다.  20개의 숫자 무리를 대표하는 것에는 평균이 있습니다. 당도의 평균은 11.89라는 값입니다. 20개의 당도를 대표하는 값입니다.

 

그리고 평균으로 부터 20개의 값들이 서로 얼마나 떨어져 있는지도 숫자무리의 속성을 나타냅니다. 이것을 분산이라고 합니다. 애니메이션에서는 0.1245라는 값으로 나타납니다. 분산의 값이 커지면 20개의 당도 값은 서로 많이 떨어져 있다는 뜻입니다. 

 

평균을 기준으로 평균과의 차이를 편차라고 합니다. 분산은 각 편차제곱의 평균입니다. 즉, 평균으로부터 떨어진 거리의 제곱들의의 평균입니다. 그리고 당도값과 같은 단위로 나타내기 위하여 분산을 다시 제곱근을 하여  표준화한 편차 즉, 표준편차도 있습니다.

 

통계량은 다음과 같이 정리할 수 있습니다.

 

– 첫째는 20개의 당도가 있고 그 당도들은 하나의 대표값으로 표현할 수 있습니다. 평균입니다.

– 둘째는 20개의 평균으로 부터 떨어진 거리가 있고 그 거리들은 하나의 대표값으로 표현할 수 있습니다. 표준편차입니다.

– 세째는 숫자무리를 표현하는 통계량에는 평균, 분산, 표준편차가 있습니다.


2.2. 유한집단의 모수 계산

유한집단의 개체수

 

$N$

 

유한집단

 

${X_1}, { X_2}, … , {X_N}$

 

모평균

 

$\mu_X=\dfrac{\sum\limits_{i=1}^{N}X_i}{N}$

 

모분산

 

$\sigma_X^2=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}$

 

모표준편차

 

$\sigma_X=\sqrt{\sigma_X^2}=\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}$


2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)

표집분포는 집단에서 일정한 크기로 뽑을 수 있는 모든 표본을 뽑았을 때, 그 모든 표본의 특성치, 즉 통계량의 확률분포입니다. 표본평균의 표집분포, 표본분산의 표집분포, 표본비율의 표집분포가 있습니다.

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


모수 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. \$표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

 


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 모수(parameter)


4. 용어

4.1. 참조


Reference

Parameter

Central limit theorem ?
중심극한정리 ?

1. 애니메이션

1.1. 중심극한정리


2. 설명

2.1. 중심극한정리

2.2. 모수(parameter)와 추정량(estimator)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1. 중심극한정리

중심극한정리(Central Limit Theorem)는 표본들의 평균을 구하는 과정에서 극단적인 값들이 서로 상쇄되어 표본들의 평균은 모집단의 평균으로 모이는 경향을 말합니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑습니다.

그럴때 모집단의 분포모양과는 상관없이 표본평균들의 분포는 $n$을 증가시킬수록 정규분포에 접근합니다.

 

중심극한정리를 다시 표현하면,  표본평균들의 분포는 모집단평균을 중심으로 정규분포를 이룬다는 정리입니다.

 

표본의 크기 $n$의 값이 크면 표본평균들의 분산은 작아집니다.

표본평균들의 분산은 모집단의 분산을 표본의 크기로 나눈 값이기 때문입니다.

 

표본평균들의 평균은 표본의 개수가 많아질 수록 모평균에 가까워 집니다.


2.2. 모수(parameter)와 추정량(estimator)

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 모집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.

 

$\bar{X}$는 모수 $\mu$를 추정하는 하나의 추정량(estimator)입니다.

 

한 표본에서 구한 $\bar{X}$의 관측값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$는 $\mu$의 추정값(estimate)입니다.

 

모집단의 분산 $\sigma^2$를 추정하는 추정량은 표본분산 $S^2$이고 그 관측값은 $s^2$으로 표시합니다.

 

만일 모집단이 정규분포 $N(\mu,\sigma^2)$라면 표본평균의 표집분포는 정확히 정규분포 $N(\mu,\sigma^2/n)$입니다.

 

만일 모집단이 평균이 $\mu$이고 분산이 $\sigma^2$인 무한개의 원소를 가지는 모집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포를 가지더라도 표본평균의 표집분포는 근사적으로 정규분포 $N(\mu,\sigma^2/n)$입니다.

이를 중심극한정리(Central Limit Theorem)라고 하는데 구체적으로 요약하면 다음과 같습니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

데이터 요약

표본 크기가 2인 표본들의 평균

표본 크기가 3인 표본들의 평균

중심극한정리



4. 용어와 수식

4.1 용어


중심극한정리(Central Limit Theorem)

모집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의 복원추출하면 표본평균들의 분포는 다음과 같은 특성을 갖습니다.

1) 모든 가능한 표본평균들의 평균(${\mu}_{\bar{x}}$)은 모평균과 같다. ($\mu_\bar{x}=\mu$)
2) 모든 가능한 표본평균들의 분산($\sigma_{\bar{X}}$)은 모분산을 $n$으로 나눈 값이다. (${\mathit{\sigma}}_{\bar{X}}^{2}{=}\dfrac{{\mathit{\sigma}}^{2}}{n}$)
3) 모든 가능한 표본평균들의 분포는 근사적으로 정규분포이다.
위의 사실을 간단히 ${X}\sim{N}\left({\mathit{\mu}{,}\dfrac{{\mathit{\sigma}}^{2}}{n}}\right)$로 적기도 한다.

 

중심극한정리는 현대통계학의 기본이 되는 이론으로 매우 중요한 정리입이다.