표본통계량
Sample statistic

1. 애니메이션

1.1. 표본통계량

1.2. 통계량


2. 설명

2.1. 표본통계량 / 집단통계량

2.2. 표본통계량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



표본통계량




통계량


2. 설명

표본통계량

표본크기(n) :


최대값 :

1사분위수:

중앙값 :

3사분위수 :

최소값 :


표본평균 $\bar{X}$ :

표본분산 $s^2$ :

표본표준편차 $S$ :

표본집단 간의 상관계수 $r$ :

표본집단 간의 회귀계수

기울기 $\hat{\beta_1}$ …$\hat{\beta_n}$ :

절편 $\hat{\beta_0}$ :


왜도(skewness) :

첨도(kurtosis) :


표본평균의 95% 신뢰구간 :

표본중앙값의 95% 신뢰구간 :

표본표준편차의 95% 신뢰구간 :


집단통계량

집단크기(N) :


최대값 :

1사분위수 :

중앙값 :

3사분위수 :

최소값 :


모평균 $\mu$ :

모분산 $\sigma^2$ :

모표준편차 $\sigma$ :

집단 간의 상관계수 $\rho$

집단 간의 회귀계수

기울기 $\beta_1$ …$\beta_n$ :

절편 $\beta_0$ :


왜도(skewness) :

첨도(kurtosis) :


모평균의 95% 신뢰구간 :

모중앙값의 95% 신뢰구간 :

모표준편차의 95% 신뢰구간 :


2.1 표본통계량 / 집단통계량

구매한 딸기 포장지에 적혀 있는 당도가 맞는가를 확인하고 싶습니다. 그래서  포장지 속에 들어있는 딸기 20개의 당도를 한번 측정해 보았습니다. 그 결과, 20개의 숫자로 구성된 1개의 숫자무리가 생겼습니다.  이 숫자무리를 우리는 보통 표본이라고 부릅니다. 여기서 표본의 크기는 20입니다. 표본의 개수는 1개입니다.

 

표본을 대표하는 숫자를 찾는 것을 표본통계량을 구한다고 합니다. 대표적인 표본통계량으로는 대표값과 분포값(산포도, 散布度,  dispersion)이 있습니다. 대표값은 평균(mean), 중앙값(median), 최빈값(mode)등이 있습니다. 분포의 정도를 나타내는 분포값에는 분산(variance)과 분산의 제곱근인 표준편차(Standard deviation)등이 있습니다.

 

위의 애니메이션에서 표본의 분산을 계산할 때 표본의 크기에서 1을 뺀 19를 사용하는 것을 볼 수 있습니다. 이것은 표본의 분산을 구할 때 전체 변동량을 표본의 자유도로 나누어 주는데 여기서 표본의 자유도는 표본의 크기에서 기준으로 사용되는 표본평균의 개수인 1을 뺴줍니다.

 

한편, 포장지에 적혀있는 당도를 모집단의 당도라고 생각해 봅니다. 그리고 측정한 표본 데이터에서 구한 당도 평균과 포장지의 당도를 비교해 봅니다. 포장지에 표시된 당도보다 구매한 당도 표본의 평균이 더 크면 좋겠습니다. 여기서 차이가 표준오차입니다.

 

무한집단의 예는 딸기품종을 대표적으로 볼 수 있습니다. 한 재배농가의 그 해에 재배한 딸기는 유한집단도 될 수 있지만 재배농가가 선택한 딸기의 품종의 표본이라고도 할 수 있습니다.


2.2. 표본통계량

랜덤하게 생성(추출)된 표본

 

{$X_1, … , X_n$}

 

$x_1, … , x_n$

 

표본평균

 

${\displaystyle {\bar {X}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{X_{i}}\right)={\frac {X_{1}+x_{2}+\cdots +X_{n}}{n}}}$

 

여기서,  표본은 {${X}_{1}{,}{X}_{2}{,}\ldots{,}{X}_{n}$}

 $n$은 확률변수 $X$에서 생성(추출)된 표본이 $n$개의 원소로 이루어짐을 의미

 

${\displaystyle {\bar {x}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}}$

 

여기서,  표본은 ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$

$n$은 표본이  $n$개의 데이터로 이루어짐을 의미

 

표본평균의 기대값

 

${\rm E}(\bar X) = \mu$

 

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

 

모평균의 점추정

 

$\mu ∼ {\rm E}(\bar X)$

 

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

~는 점추정

 

표본분산

 

${\displaystyle S^2={{\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}}$

 

${\displaystyle s^2={{\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}$

 

여기서,  $n$은 표본의 크기

 

표본분산의 기대값

 

${\rm E}(S^2) = \sigma^2$

 

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

 

모분산의 점추정

 

$\mu ∼ {\rm E}(\bar X)$

 

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

~는 점추정

 

표본표준편차

 

${\displaystyle S={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}}}$

 

${\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}}$

 

여기서,  $n$은 표본의 크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단의 부분집합



4. 용어와 수식

4.1 용어