표본평균 표집 ? - 데이터링크

1. 애니메이션

1.1. 표본추출과 표집 모델링

1.2. 집단의 확률분포와 표본평균 표집의 확률분포

2. 설명

2.1. 표본평균 표집의 적용 예

2.2. 표본평균 표집(Sampling distribution)

3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의

4. 용어와 수식

4.1. 용어

1. 애니메이션

모집단과 표본평균 확률밀도

표본추출과 표집 모델링

집단의 확률분포와 표본평균 표집의 확률분포

2. 설명

2.1. 표본평균 표집의 적용 예

표본평균 표집은 표본이 추출된 집단(모집단)의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다. 모평균을 추정을 할 때는 표본평균 추정량을 통해 구한 표본평균을 기준으로 하고 표본평균의 표준오차와 주어진 신뢰수준으로 정해지는 구간사이에 모평균이 위치한다고 추정합니다. 신뢰구간을 정하기 위해서는 신뢰수준을 주어야 합니다. 신뢰수준은 90%, 95%, 99% 등 확률단위를 가지며 검정하는 주체가 결정합니다. 표본평균을 중심으로 신뢰수준의 확률을 가지는 구간을 신뢰구간이라고 합니다. 만일, 표본평균의 확률분포를 안다면 신뢰수준으로 신뢰구간을 알 수 있습니다. 신뢰구간은 확률변수의 단위와 같습니다.

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 표본평균과 모분산(모분산을 모르는 경우에는 표본분산을 사용)으로 모평균에 대한 가설을 검정합니다. 검정을 하려면 신뢰수준의 반대개념인 유의수준을 검정의 주체가 결정해야합니다. 유의수준은 확률이고 따라서 단위는 확률의 단위와 같습니다. 보통 10%, 5%, 1%등이 사용됩니다. 만일 표본평균의 확률분포를 안다면 유의수준으로 유의구간을 구할 수 있습니다. 유의구간은 보통 최소값($-\infty$)에서 임계값까지 또는 임계값에서 최대값($+\infty$)으로 나타납니다.

정리하면 표본평균으로 모평균을 추정할 때는 신뢰구간을 사용하며, 표본평균과 모평균을 비교하는 가설을 검정할 때는 표본평균으로구한 유의확률과 유의수준을 비교합니다. 확률변수인 표본평균이 나타내는 확률분포를 표본평균의 표집분포(sampling distribution)라고 합니다. 이는 표본의 확률분포(sample distribution)와 구분됩니다.

표본평균의 속성은 다음 세가지가 있습니다.

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 표본크기를 늘리면 집단에서 추출한 표본의 표본평균은 집단의 모평균과 점점 같아진다. 일반화하면, 표본통계량은 집단의 모수와 점점 같아진다.

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 분산이 점점 작아진다.

2.2. 표본평균(sample mean) 표집(sampling distribution)

모집단 모형

$$\{{X_1},\ldots ,{X_N}\}$$

여기서, $N$은 모집단크기 : 모집단이 무한집단이면 $N→∞$

표본 모형 : 확률변수 $X$를 가지는 개체($i$)가 이루는 집단($X_i$)에서 추출한 표본

$$\{{X_1},\ldots ,{X_n}\}$$

여기서, $n$은 표본크기

표본평균($\bar X$) 표집 모형

$$\{{{\bar X}_1},\ldots ,{{\bar X}_k}\}$$

여기서, $k$는 표집크기 : 표집이 무한집단이면 $k→∞$

표본평균의 추정량(estimator)

$${\bar X}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산의 추정량(estimator)

$$S_X^2= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$$

여기서, $n$은 표본크기

표본평균 표집의 평균 : 표본평균의 분포의 무게중심

$$\mu_{\bar X}={\rm E} [\bar X]=\mu_X$$

여기서, $\mu_X$는 모평균 : $\mu_X={\rm E}[X]$

$n$은 표본크기

표본평균 표집의 분산 : 표본평균의 변동

$${\rm Var}[\bar X]=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$$

$n$은 표본크기

표본평균 표집의 표준편차

$${\rm SD}[\bar X]=\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$$

$n$은 표본크기

표본평균($\bar X$)을 $Z$변환

$$Z=\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$$

여기서, $\mu_X$는 모평균

${\rm N}(0, 1)$는 표준정규분포

$\mu_X=\mu_{\bar X}$

$n$은 표본크기

표본평균($\bar X$)을 $t$변환

$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$

여기서, $\mu_X$는 모평균

$S_X$는 표본표준편차

$t_{n-1}$은 자유도가 $n-1$인 $t$분포

$n$은 표본크기

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

구글시트 사용법 크롬 설치

표본평균 표집 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(D3:D1002) : 데이터 개수. D3에서 D1002에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(D3:D1002) : 평균. D3에서 D1002에 있는 데이터의 평균.

=VARP(D3:D1002) : 모분산. D3에서 D1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(D3:D1002) : 모표준편차. D3에서 D1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=NORMDIST(P3,G3,I3,FALSE) : 정규분포 확률밀도. G3가 평균, I3가 표준편차인 정규분포에서 P3 확률변수에 대한 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함.

=ROWS(K2:K2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,1000) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(I3&”:”&J3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(K2:K2, ROW(I3:J3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(M3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 M3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=VAR.S(BG3:BG22) : 표본분산. BG3에서 BG22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(BG3:BG22) : 표본표준편차. BG3에서 BG22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

3.3. 실습강의

– 모집단과 표본평균의 분포 비교

– 모집단

– 표본크기 20인 표본평균들의 분포

– 표본크기 50인 표본평균들의 분포

– 표본크기 100인 표본평균들의 분포

– 실습안내

4. 용어와 수식

4.1 용어

모수

통계적 매개변수(모수, parameter) 또는 집단의 매개변수는 통계 또는 확률변수의 확률분포를 표현하는 양입니다. 그것은 통계의 대상인 집단이나 통계적 모델의 수치적 특성으로 간주 될 수 있습니다. 구분된 데이터 계열(family)이 있다고 가정합니다. 구분자(index)가 계열의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도의 수에 의해 구분(indexing)될 수 있습니다. 자유도의 수는 카이제곱분포의 매개변수이므로 카이제곱분포는 매개변수화된 계열이라고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia

표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

Reference

Standard error – Wikipedia