모집단분포, 표본분포, 표집분포

1. 애니메이션

1.1. 모집단과 표본의 통계량

1.2. 표본평균 표집의 확률밀도함수


2. 설명

2.1. 모집단분포 : 모집단내 개체의 분포

2.2. 표본분포 : 표본내 개체의 분포

2.3. 통계량

2.4. 표집분포 : 표본통계량의 분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



모집단과 표본의 통계량




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균 표집의 확률밀도함수

2. 설명

2.1. 모집단(Population)분포 : 모집단내 개체의 분포

모집단(Population)은 관측대상이 되는 개체들의 전체 집합이며 연구대상입니다.

모집단분포를 모수(parameter)로 표현

모집단분포를 표현하는 모수는 상수이며 다음과 같이 분류할 수 있습니다.

– 분포의 위치(Location)를 표현 : 모평균($\mu$)

– 분포의 크기(Scale)를 표현 : 모분산($\sigma^2$), 모표준편차($\sigma$)

– 분포의 비대칭성(Skewness)을 표현 : 피어슨비대칭도($\gamma$)

모집단분포 모델

모집단분포는 일반적으로 정규분포(Normal distribution)를 따른다고 가정합니다. 그 이유는 모집단을 이루는 개체의 속성이 연속형 확률변수이고 정규분포를 나타내면 모집단분포도 정규분포를 나타내기 때문입니다. 즉, 자연계에서는 개체의 속성이 정규분포를 이루는 경우가 대부분이기 때문입니다. 예를들어 개체의 속성 중에서 키는 최소생성단위(성공 또는 실패)가 큰 회수로 시도되어 누적된 결과라고 볼 수 있습니다. 이 결과는 시도의 횟수가 유한한 경우 이산형 확률변수로 표현되어 이항분포가 되고 시도의 횟수가 무한하면 연속형 확률변수로 표현되어 정규분포가 됩니다. 특히 연속형 확률변수의 경우 분포를 함수와 함수의 매개변수(모수)로 모델링할 수 있습니다.

모집단분포의 모수

정규분포를 표현하는 모수(parameter, 매개변수)는 평균($\mu$)과 분산($\sigma^2$)입니다. 모집단분포를 알기위해서는 모집단을 관측해야 하지만, 모집단은 일반적으로 큰 수의 개체로 구성되어 있습니다. 따라서 모든 개체를 조사하는 것이 불가능하거나 조사하더라도  시간과 비용이 너무 많이 소요되는 경우가 많습니다. 따라서 표본을 추출하여 관측하는데 표본분포의 모수 중에서 표본평균과 표본분산 그리고 표본크기를 가지고 모평균과 모분산을 추론하게 됩니다. 다음은 모집단분포가 정규분포일 때 모수(매개변수)의 계산식입니다.

 

모평균($\mu$)

$$\mu=\dfrac{1}{N}(x_1+x_2+\cdots+x_N)=\dfrac{1}{N}\sum_{i=1}^{N}x_i$$

여기서, $N$은 모집단크기

모분산($\sigma^2$)

$$\sigma^2=\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}$$

여기서, $N$은 모집단크기

정규분포로 모델링한 모집단분포

모집단분포가 정규분포이면 즉, 모집단$(x_1,x_2,\cdots,x_N)$이 정규분포를 따르고 있다고 가정하면 다음과 같이 표기합니다.

$$X \sim N(\mu,\sigma^2)$$

여기서, $X$는 모집단을 이루는 개체가 가지는 확률변수

$\mu$는 모평균

$\sigma^2$은 모분산


2.2. 표본분포 : 표본내 개체의 분포

모집단의 일부 개체를 선택하여 추출함에 있어 그 일부분이 모집단을 대표할 수 있도록 무작위로 선택합니다. 이를 무작위추출(random sampling)이라 하며 추출에서 선택된 모집단의 일부를 표본(Sample)이라고 합니다. 따라서 표본분포는 모집단분포를 반영합니다.

개체와 집단간의 가정 : $\rm iid$(independent and identically distributed random variable)가정

모집단을 이루는 개체가 독립이고 개체의 속성을 나타내는 확률변수가 같은 확률분포를 가진다고 가정하면 모집단은 독립항등분포를 나타내는 확률변수($\rm iid$, independent and identically distributed random variable) iid가정을 따른다고 합니다. 이 가정에 따르면 표본분포는 모집단분포와 같다고 할 수 있습니다.

 

표본과 모집단간의 가정

가정 1 : 표본은 모집단의 일부분이다. : 표본은 모집단의 부분집합

 

표본

$$x_1,x_2,\cdots,x_n$$

분포식

$$x_1,x_2,\cdots,x_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서,  ${\rm iid}$는 independent and identically distribution의 약자로서 독립항등분포

${\rm iid} \, N(\mu,\sigma^2)$는 독립항등분포의 분포가 정규확률분포

iid의 처음 i는 개체가 독립(independent)이고, 두번째 i는 개체가 가지는 확률변수의 확률분포가 개체간 동일함(identically distributed)을 의미합니다. 따라서 표본 $\{x_1, x_2~ x_n\}$의 개체(원소)는 서로 독립적이고 모든 개체가 가지는 확률변수는 같은 확률분포를 가집니다. 그리고 모집단의 확률분포는 개체가 가지는 확률변수의 확률분포와 같게 됩니다. 만일 모집단분포가 정규분포라면 개체가 가지는 확률변수도 평균이 $\mu$이고, 분산이 $\sigma^2$ 정규분포를 따릅니다. “iid”가정은 모집단과 표본을 이루는 개체에 대한 중요한 가정입니다

 

가정 2 : 표본은 모집단 전체에 분포한다. : 무작위추출

 

모집단

$$X_1,X_2,\cdots,X_N$$

여기서, $N$은 모집단의 크기

분포식

$$X_1,X_2,\cdots,X_N \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $N$은 모집단의 크기

여기서,  $\rm{iid}$는 모집단을 이루는 독립적인 개체가 가지는 확률변수들이 동일한 확률분포를 가진다는 기호

 

표본

$$X_1,X_2,\cdots,X_n$$

분포식

$$X_1,X_2,\cdots,X_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $n$은 표본의 크기

$\rm{iid}$는 표본을 이루는 독립적인 개체가 가지는 확률변수는 동일한 확률분포를 가진다는 기호

위의 두 가정을 통하여 표본은 모집단의 분포와 동일한 분포를 나타냄을 분포식으로 모델링합니다. 따라서, 표본으로 모집단 분포를 표현하는 모수의 통계적 추론(Statistical Inference)이 가능합니다. 통계적 추론은 표본 데이터를 이용하여 모수에 대한 정보를 얻는 방법론입니다. 모집단으로부터 추출한 표본의 표본분포는 표본의 크기가 모집단 크기와 같아질수록 같아집니다. 이를 큰 수의 법칙이라고 합니다. iid 가정에 의해 표본으로부터 통계량을 구하여 모집단의 모수를 점추정할 수 있고 그 신뢰구간도 제시할 수 있습니다. 제시한 신뢰도(0에서 1사이 또는 0%에서 100%사이)에 따른 신뢰구간을 구하는 것을 구간추정이라고 합니다.


2.3. 통계량(Statistic)

통계량은 집단을 이루는 개체가 가지는 변수값(데이터)을 관측하고 가공하여 집단을 표현하는 값입니다. 대표적인 통계량에는 평균, 분산이 있고 집단을 이루는 개체의 수도 그  집단의 통계량입니다. 대표적인 집단에는 모집단과 표본이 있습니다. 그리고 개체가 모여서 구성하는 범주(Category)도 집단의 부분집단으로서 집단이라고 할 수 있습니다. 만일 범주가 순서를 가지면 수준(Level)이라고 합니다.  Statistic(통계량)의 복수형인 Statistics이 통계학인 것을 볼 때 통계학(Statistics)은 통계량(Statistic)을 다루면서 시작되었다는 것을 짐작할 수 있습니다.

통계량 중에서 기초통계량

통계량 중에서 기초통계량은 통계량 중에서 최대값, 최소값, 순서통계량, 중앙값을 지칭합니다. 기초 통계량은 집단의 원소값(데이터)의 식으로 모델링되지 않고 논리적 판단으로 구하게 됩니다.다만 부호나 위치를 사용하여 순서로 표현되는 분포를 수식으로 모델링하기도 합니다.

통계량 중에서 모수(parameter, 매개변수)

통계량 중에서 모수는 집단의 분포를 표현하는 분포함수의 매개변수를 말합니다. 예를 들어 모집단이 정규분포를 나타낸다면 모수는 모평균과 모분산이 됩니니다. 예를 들어 표본의 분포를 t분포로 표현한다면 표본평균과 표본분산 그리고 표본크기가 모수가 됩니다. 

표본통계량 중에서 표본평균, 표본분산, 표본크기는 표본분포의 모수

모집단분포를 나타내는 모집단의 모수는 모집단분포를 나타내는 함수의 매개변수라고 할  수 있습니다. 모집단과 표본의 관계에서 중요한 사실은 표본통계량은 모집단의 모수(예를들면, 모평균, 모분산 등)가 상수인 것과 달리 모집단의 모수를 평균으로 하는 확률변수라는 점입니다. 특히 표본평균의 분포(표본평균의 표집분포)는 표본의 크기가 커지면 정규분포에 근사하는 데 이를 중심극한정리라고 합니다. 중심극한정리에 근거하여 표본통계량으로 모집단모수를 추측하게 합니다. 중심극한정리는 추측통계학이 시작되는 중요한 정리입니다. 표본통계량은  영어 대문자를 사용하여 표기합니다. 그리고 표본의 데이터를 이용하여 계산한 결과인 표본통계량의 값은 소문자를 사용하여 표기합니다. 가장 대표적인 표본통계량은 표본평균과 표본분산이 있습니다.  그리고 다른 모든 표본통계량과 관련되는 표본크기가 있습니다.

 

표본평균

$$\bar{X}=\dfrac{1}{n}(X_1+X_2+\cdots+X_N)=\dfrac{1}{n}\sum_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산

$$S^2=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

여기서, $n$은 표본크기


2.4. 표집분포(Sampling distribution) : 표본통계량의 분포

표집은 표본의 집합을 의미합니다. 표집분포(Sampling distribution)는 표본에서 구한 표본통계량의 분포입니다. 복원추출로 표본추출(Sampling)을 무한반복하면 관측된 표본통계량의 분포는 수렴합니다. 표본통계량에는 대표적으로 표본평균, 표본분산, 표본크기, 표본변동이 있습니다. 또한, 모집단에 범주(Category)가 있어 표본에도 범주가 나타난다면 표본통계량에는 범주에 속한  개체수와 표본크기(표본의 총개체수)의 비율을 나타내는 범주확률이 있습니다. 만일 표본이 이분분포로 되어있다면 표본통계량에는 표본비율이 있습니다.

표본평균의 분포

표본평균은 확률분포를 가지는 확률변수입니다. 표본평균은 독립변수가 확률변수, $x_i$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 산술평균과 표본평균의 추정량(estimator)을 표현하기도 합니다. 

$$\bar{X}=\dfrac{1}{n}(x_1+x_2+\cdots+x_n)=\dfrac{1}{n}\sum_{i=1}^{n}x_i$$

표본평균은 중심극한정리에 따라 표본크기가 클수록 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사합니다.

$$\bar{X} \sim N(\mu,\dfrac{\sigma^2}{n})$$

여기서, $n$은 표본크기

표본크기가 크다면 표본평균($\bar{X}$)의 분포가 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사하므로 표본평균은 표준정규분포의 확률변수인 $Z$로 변환할수 있습니다.

$$Z=\dfrac{\bar{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N(0,1^2)$$

여기서, $n$은 표본크기

표본분산의 분포

표본분산($S^2$)은 표본평균과 마찬가지로 표본크기($n$)가 클수록 모분산($\sigma^2$)을 평균으로 하는 정규분포를 나타냅니다. 다만 표본분산의 분포는 표본크기가 작을수록 표본평균의 분포와 달리 모집단분포의 영향을 심하게 받습니다. 예를들어 개체의 확률변수가 정규분포를 가진다고 하면 표본크기가 2부터 시작하면서 커질 때 표본평균의 분포는 대칭인 종모양의 분포로 시작하여 모평균이 평균인 정규분포로 수렴하는 데 반해 표본분산의 분포는 심한 비대칭인 분포로부터 시작하여 모분산이 평균인 정규분포로 수렴합니다. 표본크기가 30이하인 경우 이 현상은 두드러지게 나타나므로 표본크기에 따른 표본분산의 분포를 고려해야 합니다. 여기서 새로운 확률변수를 도입하게 되는 데 이것이 표본을 이루는 각 개체의 변동을 합한 표본변동(Sample variation)입니다.

$${x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_n^2-\bar X}^2$$

영국의 육종학자인 피셔는 개체가 가지는 확률변수가 표준정규분포를 가진다고 모델링하고 표본을 이루는 각 개체의 변동을 모분산($\sigma^2$)으로 표준화하여 카이제곱($\chi^2$)이라는 확률변수를 도입하였습니다. 이 확률변수는 표준정규분포의 확률변수인 $Z$로 부터 유도됩니다. 만일 표본을 이루는 개체가 가지는 확률변수 $X$가 정규분포를 나타내고 표본크기가 $n$이라면 표본편동을 다음식으로 표현할 수 있습니다.

$$\dfrac{1}{\sigma^2}({x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_k^2-\bar X}^2)=Z_1^2+Z_2^2+ \cdot + Z_k^2=\chi_k^2$$

여기서, $k$는 표본의 자유도이고 $n-1$

표본분산은 독립변수가 확률변수, $s_i^2$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 분산과 표본분산의 추정량(estimator)을 표현하기도 합니다. 

$$S^2=\dfrac{1}{n}(s_1+s_2+\cdots+s_n)=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

표본분산($S^2$)에 $\dfrac{(n-1)}{\sigma^2}$을 곱하거나 표본분산($S^2$)을 $\dfrac{\sigma^2}{(n-1)}$으로 나누어서 표본분산($S^2$)$을 카이제곱분포를 따르는 확률변수인 $\chi^2$으로 변환합니다.

$$(n-1)\dfrac{S^2}{\sigma^2} \sim \chi^2_{n-1}$$

여기서,  $n$은 표본크기

$(n-1)$은 표본의 자유도

$\chi^2_{n-1}$은 자유도가 $(n-1)$인 카이제곱분포

표본변동의 분포

표본변동은 표본평균과 관측값(데이터)의 차의 제곱을 모두 더한 값입니다. 그리고 표본을 추출할 때마다 표본크기와 표본평균에 따라서 변하는 확률변수입니다. 표본변동의 분포는 평균이 $n\sigma^2$인 분포를 나타낼 것입니다. 표본변동을 표준화하면 카이제곱분포를 나타내는데 표본크기에 따라 분포의 모양이 다릅니다. 관측값(실현값, 데이터)를 표준화한 확률변수 Z와 $\chi^2$의 관계를 살펴보면 확률변수 Z를 제곱한 확률변수는 자유도가 1인 $\chi^2$확률변수와 같습니다. 

$$Z^2 \sim \chi_{1}^2$$

여기서,  $Z$는 표준정규분포 : $Z \sim N(0,1)$

만일 $Z_i \sim $\rm iid$ \ N(0,1),i=1,2,\cdots,n$이면 표준정규분포를 나타내는 $n$개의 개체로 이루어진 표본의 표본변동을 나타내는 식은 다음과 같습니다. 표준정규분포를 가지는 개체로 이루어진 표본변동의 분포는 카이제곱분포를 나타내며 이 분포함수의 모수(매개변수)는 자유도입니다.

$$Y=Z_1^2+Z_2^2+\cdots+Z_{n-1}^2 \sim \chi_{n-1}^2$$

여기서,  $\chi_{n-1}^2$은 자유도가 $(n-1)$인 카이제곱분포

표본크기의 분포

표본을 이루는 개체가 iid$N(0,1)$ 가정을 따르면 즉, 확률변수가 독립적이고 확률분포가 표준정규분포를 가진다면 표본변동을 다음식으로 표현할 수 있습니다.

$$Y\sim iid \, N(0, 1)$$

위식으로 가정된 표본변동의 분포는 표본크기의 분포를 나타내며 다음과 같이 표현할 수 있습니다.

$Y \sim \chi_{n}^2$

표본크기의 분포의 평균은

$${\rm E}[Y]=n$$

표본크기의 분포의 분산은

$${\rm Var}[Y]=2n$$

표본비율의 분포

범주의 변동은 범주의 개체수와 비례(선형관계)이므로 각 범주의 비율은 각 범주의 변동의 비율입니다. 만일 표본을 이루는 범주의 카이제곱값을 표본의 카이제곱값으로 나누면 그  범주의 비율이됩니다. 범주의 비율은 확률변수로 볼 수 있는 데 모집단에서 표본을 무한추출하면 범주의 비율은 수렴을 하기 때문에 확률이라고 볼 수 있습니다. 두 카이제곱변수의 비도 확률변수인 데 영국의 유전학자 피셔가 유도하여 그 확률변수를 F라 부릅니다.

범주확률의 분포

표본에 범주가 있는 경우에는 각 범주의 변동과 각 범주의 평균의 변동의 합이 표본변동이 됩니다. 만일 표본이 두 범주를 가지고 있고 각 범주가 각각 $Y_1$과 $Y_2$의 변동을 나타낸다 하면 표본의 변동식은 다음과 같습니다.

$$Y=Y_1+Y_2$$ 

자유도식은 다음과 같습니다.

$$n=k+n_1+n_2=2+n_1-1+n_2-1$$

여기서 $k$는 범주의 수

 $n_1$과 $n_2$는 두 범주의 개체수

두 변동의 합을 다음식으로 표현할 수 있습니다. 

$$Y=Y_1+Y_2 \sim \chi_{n_1-1}^2+\chi_{n_2-1}^2=\chi_{n_1+n_2-2}^2$$

여기서, $Y$는 두 범주의 변동의 합

$Y_1$과 $Y_2$는 표본을 이루는 두 범주의 변동

$n_1$과 $n_2$는 표본을 이루는 두 범주에 속하는 개체수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

 

Reference

Statistical parameter – Wikipedia