표본통계량
Sample statistic

1. 애니메이션

1.1. 표본통계량

1.2. 통계량


2. 설명

2.1. 표본통계량 예

2.2. 집단과 통계량

2.3. 표본모형

2.4. 표본통계량


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본통계량




통계량

2. 설명

2.1. 표본통계량의 예

구매한 딸기 포장지에 적혀 있는 당도가 맞는가를 확인하고 싶습니다. 그래서  포장지 속에 들어있는 딸기 20개의 당도를 측정해 보았습니다. 그 결과, 20개의 숫자로 구성된 1개의 숫자무리가 생겼습니다.  이 숫자무리를 우리는 보통 표본이라고 부릅니다. 여기서 표본의 크기는 20입니다. 표본의 개수는 1개입니다. 

 

표본을 표현하는 숫자를 찾는 것을 표본통계량을 구한다고 합니다. 중요한 표본통계량으로는 대표값과 분포값(산포도, 散布度,  dispersion)이 있습니다. 대표값은 평균(mean), 중앙값(median), 최빈값(mode)등이 있습니다. 분포의 정도를 나타내는 분포값에는 분산(variance)과 분산의 제곱근인 표준편차(Standard deviation)등이 있습니다.

 

위의 애니메이션에서 표본의 분산을 계산할 때 표본의 크기에서 1을 뺀 19를 사용하는 것을 볼 수 있습니다. 이것은 표본의 분산을 구할 때 전체 변동량을 표본의 자유도로 나누어 주는데 여기서 표본의 자유도는 표본의 크기에서 기준으로 사용되는 표본평균의 개수인 1을 뺴줍니다. 

 

한편, 포장지에 적혀있는 당도를 모집단의 당도라고 생각해 봅니다. 그리고 측정한 표본 데이터에서 구한 당도 평균과 포장지의 당도를 비교해 봅니다. 포장지에 표시된 당도보다 구매한 당도 표본의 평균이 더 크면 좋겠습니다. 여기서 차이가 표준오차입니다.

 

무한집단의 예는 딸기품종을 대표적으로 볼 수 있습니다. 한 재배농가의 그 해에 재배한 딸기는 유한집단도 될 수 있지만 재배농가가 선택한 딸기품종의 표본이라고도 할 수 있습니다.


2.2. 집단에 따른 통계량

집단에는 유한집단과 무한집단이 있습니다. 유한집단은 크기가 유한한 집단이고 무한집단은 크기가 무한대인 집단입니다. 집단에서 표본을 추출하면 그 집단은 표본의 모집단이 됩니다. 따라서, 표본의 크기는 집단의 크기보다 작을 수 밖에 없습니다. 집단안에는 부분집단이 있을 수 있으며 부분집단은 집단(group) , 수준(level), 분류(카테고리, category)등으로 불립니다. 집단을 수학적으로 집합으로 표현하여 많은 모델링을 수행합니다.  표본도 관측할 일종의 집단이라고 할 수 있습니다.


표본

표본통계량

표본크기 : $n$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


표본평균 : $\bar{X}$

표본분산 : $s^2$

표본표준편차 : $S$


표본피어슨상관계수 : $r$

표본회귀계수 : $\hat{\beta_0}$, $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본기울기 :  $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본절편 : $\hat{\beta_0}$


유한집단

유한집단통계량

집단크기 : $N$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


무한집단

무한집단통계량

집단크기 : $N \rightarrow \infty$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


2.3. 표본모형

랜덤하게 생성(추출)된  표본모형

{$X_1, … , X_n$}

여기서, $X_1, … , X_n$은 서로 독립

$n$은 표본크기

표본의 관측된 값

$x_1, … , x_n$

여기서, $n$은 표본크기


2.4. 표본통계량

표본평균

$\bar {X}=\dfrac {1}{n}\sum\limits _{i=1}^{n}{X_{i}}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}$

여기서,  표본은 {${X}_{1}{,}{X}_{2}{,}\ldots{,}{X}_{n}$}

 $n$은 확률변수 $X$에서 생성(추출)된 표본이 $n$개의 원소로 이루어짐을 의미

표본평균의 관측값

$$\bar {x}=\dfrac {1}{n}\left(\sum _{i=1}^{n}{x_{i}}\right)=\dfrac {x_{1}+x_{2}+\cdots +x_{n}}{n}$$

여기서,  표본의 관측값은 ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$

$n$은 표본이  $n$개의 데이터로 이루어짐을 의미

표본평균의 기대값

$${\rm E}[\bar X] = \mu$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

모평균의 점추정

$$\mu ∼ {\rm E}[\bar X]$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

~는 점추정

표본분산

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {X}$는 표본평균

표본분산의 관측값

$$ s^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {x}$는 표본평균의 관측값

표본분산의 기대값

$${\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

모분산의 점추정

$$\mu ∼ {\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

~는 점추정

표본표준편차

$$S=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {X}$는 표본평균

표본표준편차의 관측값

$$s=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {x}$는 표본평균의 관측값


중앙값(median)

$n$이 홀수인 경우

중앙값 = $\dfrac{n+1}{2}$번째 데이터

$n$이 짝수인 경우

중앙값 = $\dfrac{n}{2}$번째와 $\dfrac{n+1}{2}$번째 데이터의 평균

여기서, $n$은 표본크기 또는 유한집단크기


최빈값(mode)

최빈값 = 데이터 중 가장 자주 나타나는 값


변동계수(coefficient of variation, 변이계수)

모변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{\sigma}{\mu}\times 100$$

여기서, $\mu$은 모평균

$\sigma$은 모표준편차

표본변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{S_Y}{\bar Y}\times 100$$

여기서, $\bar Y$은 확률변수 $Y$의 표본평균

$S_Y$은 확률변수 $Y$의 표본표준편차


범위(range)

범위 = 최대값 – 최소값

범위는 데이터의 최대값과 최소값의 차이


백분위수(percentile)

$p$% 백분위수 = 자기값 이하로 적어도 $p$%의 관측값이 있고 자기값 이상으로 적어도 $(1-p)$%의 관측값이 있는 수


사분위수범위(interquartile range, IQR)

일사분위수(1st quartile, $Q_1$)

$Q_1$ = 25% 백분위수

이사분위수(2nd quartile, $Q_2$)

$Q_2$ = 50% 백분위수 : 중앙값( $m$)

삼사분위수(3rd quartile, $Q_3$)

$Q_3$ = 75% 백분위수

사분위수범위($\mathrm{IQR}$)

$$IQR = Q_3-Q_1$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본통계량 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 표본평균

– 표본분산


4. 용어

4.1 용어


기대값

확률에서 임의 변수의 기대값은 직관적으로는 동일한 실험을 무한 반복했을 때 나온 값들의 평균값입니다. 예를 들어, 6면 주사위를 던지는 시행의 기대값은던진 횟수가 무한대에 가까워졌을 때의 결과값들의 평균값(이경우는 3.5)이 됩니다. 다시 말해, 큰 수의 법칙은 반복 횟수가 무한대에 가까워질수록 값의 산술평균은 기대값에 점점 수렴한다는 것을 의미합니다. 이 기대값은 기대치, 수학적 기대치, EV, 평균, 평균값이라고도 불립니다.

 

보다 현실적으로, 이산확률변수의 기대값은 모든 가능한 값의 가중평균입니다. 즉, 기대값은 확률변수가 취할 수 있는 각 값에 발생확률을 곱한 결과값들의 합이 됩니다. 연속적인 확률변수에 대해서는 합계 대신에 변수의 적분이 들어간다는 것 외에는 동일한 원칙이 적용됩니다. 공식적인 정의는 이 둘을 모두 포함해 이산적이거나 완전히 연속적이지 않은 분포에서도 같게 작용되어, 확률변수의 기대값은 간단히 “확률 측정값에 대한 변수의 적분 값”으로도 말할 수 있습니다.

 

기대값은 큰 꼬리가 있는 분포(예를 들어 Caushy 분포)에서는 존재하지 않습니다. 이런 무작위 변수의 경우에는 분포의 긴 꼬리가 합이나 적분값이 수렴하지 못하도록 합니다. 기대값은 위치 매개 변수의 한 유형으로 사용할 수 있기 때문에 확률 분포를 특징 짓는데 중요한 역할을 합니다. 그에 반해, 분산은 기대값 주위의 확률변수의 가능한 값들이 얼마나 퍼져 있는 지를 나타내는 값입니다. 분산은 크게 2가지 방법으로 구할 수 있습니다. 모든 값에 평균을 빼고 제곱을 해 평균을 구하거나, 모든 값의 제곱의 평균에 평균의 제곱을  빼서 구할 수 있습니다.

 

Reference

Expected value – Wikipedia


 


사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



표준편차

표준편차(모표준편차는 $\sigma$, 표본 표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차과 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

 

Reference

variance – Wikipedia



중앙값

중앙값은 데이터세트(유한집단 또는 표본 또는 이산확률분포)의 하반부와 상반부를 분리하는 값이며 “중간”값으로 간주 될 수 있습니다. 예를 들어, 데이터세트 {1, 3, 6, 7, 8, 9}에서 중앙값은 데이터 집합에서 네 번째로 크고 네 번째로 작은 숫자입니다. 연속적인 확률분포의 경우, 중앙값은 숫자가 상반부 또는 하반부로 정해질 가능성이 같은 값입니다. 중앙값은 통계 및 확률 이론에서 데이터 집합의 속성에 일반적으로 사용되는 척도입니다.

 

데이터를 요약하거나 설명할 때, 평균에 비해 중앙값의 좋은 점은 매우 크거나 작은 값으로 데이터의 대표값이 왜곡되지 않으므로 더 나은 대표성을 제공 할 수 있습니다, 예를 들어, 평균가계소득이나 평균자산과 같은 통계량을 이해할 때 적은 수의 매우 크거나 작은 데이터로 인해 평균은 극단적으로 왜곡 될 수 있습니다.반면에 가계소득의 중앙값은 “전형적인”수입이 무엇인지를 제시하는 더 좋은 방법 일 수 있습니다.이 때문에 중앙값은 중요한 통계에서 가장 신뢰할 만한 대표값이며 50 %의 분해점을 갖는 가장 믿을 만한 통계량이므로 데이터의 절반 이상이 실제와 다르지 않는 한 중앙값은 크게 달라지지 않습니다.

 

Reference

Median – Wikipedia



4.2. 참조


모수
Parameter

1. 애니메이션

1.1. 당도 통계량


2. 설명

2.1. 모수

2.2. 유한집단의 모수 계산

2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



당도 통계량

2. 설명

2.1 모수

통계량을 의미하는 Statistic의 복수형인 Statistics는 통계를 의미합니다. 통계량이 모이면 통계가 된다는 뜻입니다.

 

통계량에는 평균이 있습니다.  20개의 딸기의 당도 데이터가 있습니다. 즉, 20개의 숫자입니다.  20개의 숫자 무리를 대표하는 것에는 평균이 있습니다. 당도의 평균은 11.89라는 값입니다. 20개의 당도를 대표하는 값입니다.

 

그리고 평균으로 부터 20개의 값들이 서로 얼마나 떨어져 있는지도 숫자무리의 속성을 나타냅니다. 이것을 분산이라고 합니다. 애니메이션에서는 0.1245라는 값으로 나타납니다. 분산의 값이 커지면 20개의 당도 값은 서로 많이 떨어져 있다는 뜻입니다. 

 

평균을 기준으로 평균과의 차이를 편차라고 합니다. 분산은 각 편차제곱의 평균입니다. 즉, 평균으로부터 떨어진 거리의 제곱들의의 평균입니다. 그리고 당도값과 같은 단위로 나타내기 위하여 분산을 다시 제곱근을 하여  표준화한 편차 즉, 표준편차도 있습니다.

 

통계량은 다음과 같이 정리할 수 있습니다.

 

– 첫째는 20개의 당도가 있고 그 당도들은 하나의 대표값으로 표현할 수 있습니다. 평균입니다.

– 둘째는 20개의 평균으로 부터 떨어진 거리가 있고 그 거리들은 하나의 대표값으로 표현할 수 있습니다. 표준편차입니다.

– 세째는 숫자무리를 표현하는 통계량에는 평균, 분산, 표준편차가 있습니다.


2.2. 유한집단의 모수 계산

유한집단의 개체수

 

$N$

 

유한집단

 

${X_1}, { X_2}, … , {X_N}$

 

모평균

 

$\mu_X=\dfrac{\sum\limits_{i=1}^{N}X_i}{N}$

 

모분산

 

$\sigma_X^2=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}$

 

모표준편차

 

$\sigma_X=\sqrt{\sigma_X^2}=\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}$


2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)

표집분포는 집단에서 일정한 크기로 뽑을 수 있는 모든 표본을 뽑았을 때, 그 모든 표본의 특성치, 즉 통계량의 확률분포입니다. 표본평균의 표집분포, 표본분산의 표집분포, 표본비율의 표집분포가 있습니다.

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


모수 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. \$표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

 


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 모수(parameter)


4. 용어

4.1. 참조


Reference

Parameter

정규분포
Normal distribution

1. 애니메이션

1.1. 정규분포


2. 설명

2.1. 이항분포

2.2. 이항분포 ~ 정규분포

2.3. 정규분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션







정규분포

2. 설명

2.1. 이항분포

확률변수인 성공횟수($K$)가 시행횟수($N$)와 성공확률($P$)을 매개변수(parameter, 모수)로 가지는 이항분포를 따르면

$$K\sim B\left({n,p}\right)$$

$n$번 시행중에 $k$번 성공할 확률은 다음과 같이 확률질량함수로 주어집니다.

$$Pr\left({{K}{=}{k}}\right){=}{f}\left({k\,;n,p}\right){=}\left({\frac{n}{k}}\right){p}^{k}{\left({{1}{-}{p}}\right)}^{{n}{-}{k}}$$

확률변수 $X$가 이항분포를 따른다고 하면 다음과 같이 표현합니다.

$$X \sim B\left({n,p}\right)$$

$X$의 기대값은 다음과 같습니다.

$$\mathrm{E}\left[{X}\right]=np$$

분산은 다음과 같습니다.

$$\mathrm{Var}\left(X\right)=np\left({1-p}\right)$$

기대값은

$$\mathrm{E}\left[{X}\right]=\sum\limits_{i=1}^{n}{x_{i}\cdot p_{i}}$$

분산은

$${\rm Var}\left({X}\right)=\sum\limits_{i=1}^{n}{{\left({x_{i}-\mathrm{E}[X]}\right)}^{2}}\cdot p_{i}=\sum\limits_{i=1}^{n}{{x_{i}^{2}\cdot p_{i}}}-{\mathrm{E}[X]}^{2}$$

여기서,  $\sum\limits_{i=1}^{n}x_i^2 \cdot p_i={\rm E}[X^2]$

분산등식은

분산 = 제곱의 평균 – 평균의 제곱

분산등식을 수식으로 표현하면

$$\rm{Var}\left({X}\right)=\mathrm{E}\left[{X^{2}}\right]-\mathrm{E}{\left[{X}\right]}^{2}$$


2.2. 이항분포 ~ 정규분포

$X\sim B\left({n,p}\right)$ 에서 $n$이 충분히 클 때 $X\sim N\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

 

$X\sim N\left({\mu ,\sigma^{2}}\right)$

 

이항분포 ANIMATION : 0과 1의 시행과 확률p를 갖는 시행을 n번하여 그 합을 확률변수로 합니다. 무한번 시행하고 확률을  막대그래프로 표현할 수 있습니다. 이 때 확률변수는양의 정수가 됩니다.

n이 점점 커질때 ( 동전의 개수, 갈톤의 분기점의 개수) -> 이항분포가 정규분포로 근사합니다.

확률변수 단위를 1로하고 범위를 100으로 하여 n을 1에서 100까지  animation, 막대그래프의 범위는 가로축은 0~100, 세로축은 0.5

 

$B\left({1\sim100,\ 0.5}\right)$

 

범위를 1로 고정시키고 단위를 1/n 으로 함. n을 1에서 100까지 animation, 막대그래프의 범위는 가로축은 0~1, 세로축은 0.5

 

$B\left({1\sim{{1}\over{100}},\ 0.5}\right)$


2.3. 정규분포

표준정규분포는 다음과 같습니다.

$y={1\over \sqrt{2\pi}}e^{-{1\over 2}x^2}$

 

평균 $\mu$와 분산 $\sigma^{2}$ 를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수입니다.

$f\left({X}\right)={{1}\over{\sqrt{2\pi}\sigma}}e^{-{{{\left({x-\mu}\right)}^{2}}\over{2\sigma^{2}}}},\ -\infty\leq X\leq+\infty$


이항분포

확률변수 $k$가 매개변수 $n$과 $p$를 가지는 이항분포를 따른다면, $k\sim B\left({n,p}\right)$라고 쓴다. $n$번 시행중에 $k$번 성공하는 확률변수의 확률질량함수는

 

$Pr\left({{K}{=}{k}}\right){=}{f}\left({k;n,p}\right)$

${=}{n \choose k}{p}^{k}{\left({{1}{-}{p}}\right)}^{{n}{-}{k}}$

 

만약 $X\sim {\rm B}\left({n,p}\right)$라면, $X$의 기대값은

 

${\rm E}\left[{X}\right]=np$

 

이고 분산은

 

 $\rm{Var}\left[{X}\right]={\rm E}\left[{X^{2}}\right]-E{\left[{X}\right]}^{2}$

$=np(1-p)$


이항분포 ~ 정규분포

$X\sim {\rm B}\left({n,p}\right)$에서 $n$이 충분히 클 때 $X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

 

$X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$

 

$X\sim {\rm N}\left({\mu ,\sigma^{2}}\right)$


정규분포

표준정규분포

 

$y=\dfrac{1}{\sqrt{2\pi}}{\rm exp}^{-\dfrac{1}{2}{x^2}}$

 

평균, $\mu$와 분산, $\sigma^{2}$를 모수로 하는 정규분포를 나타내는 확률변수, $X$의  확률밀도함수 $f(X)$는 다음과 같습니다.

 

$f(X)=\dfrac{1}{\sigma\sqrt{2\pi}}{\rm exp}^{-\dfrac{1}{2}\dfrac{\left({x-\mu}\right)^2}{\sigma^2}}$

 

여기서,  $-\infty\leq X\leq+\infty$

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


정규분포 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=NORMDIST(F3,C3,E3,FALSE) : 정규분포 확률밀도. C4가 평균, E3가 표준편차인 정규분포에서 F3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시함.


3.3. 실습강의

– 동전던지기

– 동전던지기 결과의 합

– 이항분포

– 정규분포


4. 용어

4.1. 참조


이항분포
Binomial distribution

1. 애니메이션

1.1. 동전의 개수(표본의 크기)와 Galton보드 분기수

1.2. 8개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션

1.3. 10개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션

1.4. 32개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션

1.5. 베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션

1.6. 이항분포(p=0.5) : 정해진 구간의 갈톤보드에서  분기수를 1에서 100으로 늘려가는 시뮬레이션

1.7. 이항분포(분기수 n=40)에서 p를 p=0.1에서 0.1씩 늘려가면서 p=0.9까지 시뮬레이션


2. 설명

2.1. 이항분포

2.2 이항확률분포(Binomial distribution)


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



동전의 개수(표본의 크기)와 Galton보드 분기수




8개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션




10개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션




32개의 분기수를 가지는 Galton보드에서 많은 수의 구슬을 굴렸을 때 보이는 이항분포 시뮬레이션




베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션




이항분포(p=0.5) : 정해진 구간의 갈톤보드에서  분기수를 1에서 100으로 늘려가는 시뮬레이션




이항분포(분기수 n=40)에서 p를 p=0.1에서 0.1씩 늘려가면서 p=0.9까지 시뮬레이션

2. 설명

2.1 이항분포

동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고  2개입니다.

 

동전을 무한번 던져서 통계학적 확률을 구할 수 있습니다. 이를 큰 수의 법칙이라고 합니다.

완벽한 대칭모양의 동전이라면 동전 1개를 던지는 시행에서 확률변수 0과 1의 확률은 각각 0.5일 것입니다.

 

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 던지는 동전의 갯수를 하나씩 늘려 확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려봅니다.

그리고 확률의 분포, 즉, 이항확률분포를 살펴봅니다.

 

애니메이션에서 보는 것처럼 확률변수의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 대략 30개가 넘어가면 비슷한 크기의 종모양이 유지되는 모습을  관찰할 수 있습니다.

이 모습은 표본의 크기가 작을 때 t분포를 사용하는 것과 관계가 있습니다.


2.2 이항확률분포(Binomial distribution)

 

$B\left({n,p}\right)$

 

$f\left({k;n,p}\right)=\,_{n}\mathrm{C}_{k}\,p^{k}(1-p)^{(n-k)} ={{n!}\over{(n-k)!\,k!}}\,p^{k}(1-p)^{(n-k)}$

 

$\mathrm{E}\left[{X}\right]=np$

 

$\mathrm{Var}\left[{X}\right]=np\left({1-p}\right)$

 

$\mu = p$

 

$\sigma^{2}={\left({1-p}\right)}^{2}p+{\left({0-p}\right)}^{2}\left({1-p}\right)=p\left({1-p}\right)$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


이항분포 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.


3.3. 실습강의

– 동전던지기

– 동전던지기 결과의 합

– 이항분포


4. 용어

4.1. 참조


베르누이 분포
Bernoulli distribution

1. 애니메이션

1.1. 시행과 확률


2. 설명

2.1. 베르누이 분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



시행과 확률

2. 설명

2.1 베르누이 분포

두 면에 0과 1이 적혀 있는 동전이 있습니다. 이 동전 한 개를 바닥에 던져서 윗면의 숫자를 관측하는 것을 시행(try)이라고 한다면 시행의 결과를 알 수 있습니다. 즉, 바닥에 던져진 동전이 0이나 1을 나타내는 것을 시행의 결과라고 합니다. 다르게 표현하면, 시행의 결과가 존재하는 시행공간(Sample Space)에 0과 1이 있다고 할 수 있습니다.

 

0과 1이외의 시행결과는 없고 동전의 모양으로  각 시행결과에 해당하는 확률(Probability)값을 적용할 수 있습니다. 여기서 0과 1이 나올수 있는 정도, 즉 확률은 동전일 경우 반반으로 표현합니다. 총합은 확률의 정의에 의하여 1이 됩니다.

 

동전의 면에 적혀있는 0과 1을 확률변수라고 하고 각각 0.5의 확률을 가지게 됩니다. 또한 시행을 할때 기대하는 확률변수의 값을 기대값이라고 합니다.

한 개의 동전을 바닥에 던지는 시행에서의 기대값은 0도 아니고 1도 아닌 0.5가 됩니다. 동전에 새겨있지 않은 0.5라는 숫자입니다.

물론 가중평균을 구하는 방법에 따라 확률변수 0과 확률 0.5의 곱 그리고 확률변수 1과 확률 0.5의 곱의 합  0.5를  기대값이라 할 수 있습니다.

 

정리하면

시행 : 앞면과 뒷면에 1과 0이 표시된 동전 1개를 바닥에 던져서 나오는 숫자를 관측

시행공간 : {0, 1}

사건 : 0 이 관측됨

사건 : 1 이 관측됨

확률변수 : 0과 1이 새겨진 동전을 던져서 관측되는 값

확률변수값 : 0과 1

확률변수값의 가중 평균 : 0.5

기대값 : 0.5

 

0과 1이 새겨진 동전을 던져 위를 향하는 수를 확률변수라 할때 확률변수의 값과 대응되는 확률을 표로 정리하면 아래표와 같습니다.

 

확률변수값 확률변수값에 대응되는 확률
 1 0.5
0 0.5

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


베르누이 분포 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함. 

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.


3.3. 실습강의

– 동전던지기

– 베르누이 분포


4. 용어

4.1. 참조


도수분포와 확률분포
Frequency and probability distribution

1. 애니메이션

1.1. 도수분포와 확률분포

1.2. 도수분포와 확률분포

1.3. 도수분포와 정규분포근사


2. 설명

2.1. 도수와 상대도수

2.2. 도수와 확률과 통계


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



도수분포와 확률분포




도수분포와 확률분포




도수분포와 정규분포근사

2. 설명

2.1. 도수와 상대도수

도수분포는 변수의 빈도수를 표현한 것입니다.  변수룰 가로축으로 하고 도수를 세로축으로 하는 도수분포도를 그려서 도수분포를 관찰합니다. 변수가 범주형 변수라면 도수분포도는 막대그래프로 그릴 수 있습니다. 변수가 이산형 변수일 때도 도수분포도는 막대그래프로 그릴 수 있습니다.

 

만일 변수가 범주형이나 이산형 변수이고 확률변수라면 도수를 상대도수로 바꾸면 상대도수는 확률변수의 확률질량이 됩니다.

 

만일 변수가 확률변수이고 연속형 변수이면 변수를 구간으로 나누어 구간의 대표값을 구한 후 그 대표값의 상대도수를 막대그래프로 그리면 막대의 길이가 확률밀도가 됩니다. 만일 히스토그램을 그리면 히스토그램의 경계를 확률밀도값으로 사용할 수도 있습니다. 

 

샹대도수를  히스토그램으로 그린 후 Y축의 스케일을 조정하여 히스토그램이 나타내는 면적을 1로 하면 히스토그램의 경계선이 확률밀도함수를 시각화 한것으로 볼 수 있습니다. 여기서 히스토그램을 근사하여 연속함수로 나타내면 연속형 확률밀도함수를 구할 수 있습니다.


2.2. 도수와 확률과 통계

통계 : 빈도수의 분포(distribution)를 변수의 관측값으로부터 구합니다.

 

도수분포 히스토그램(변수를 구간화하여 연속형변수를 범주형변수로 만듬)

 

통계를 확률의 세계로(통계적 확률) : 데이터를 확률변수로 데이터의 분포를 확률분포로 표현합니다.

 

큰 수의 법칙

상대도수 히스토그램

 

확률 : 확률분포(Probability distribution)를 확률변수가 독립변수인 함수로 표현합니다.

 

이항분포 (Binomial distribution)

정규분포 (Normal distribution)

카이제곱분포 (Chi-square distribution)

 

확률을 표현하는 함수는 확률질량함수와 확률밀도함수가 있습니다.

 

확률질량함수 : 확률변수가 범주형 확률변수일 때

확률밀도함수 : 확률변수가 연속형 확률변수일 때

 

표본의 관찰값 또는 측정치를 이용하여 모집단의 확률분포를 통계적인 방법으로 추론합니다.

 

점추정

구간추정

가설검정

정규성 검정

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


도수분포와 확률분포 : 구글시트 실습

=COUNT(B3:B22) : 수치형 데이터 개수. B3에서 B22 범위에 있는 수치형 데이터의 개수를 구함.

=MAX(B3:B22) : 최대값. B3에서 B22 범위에서 최대값을 구함.

=MIN(B3:B22) : 최소값. B3에서 B22 범위에서 최소값을 구함.

=ROUNDUP(SQRT(E3),0) : 올림. E3의 제곱근을 구한 후, 소수점 이하 첫번째 자리에서 올림해서 0번째자리까지 값을 구함. =COUNTIFS(B3:B22,”>=11.70″,B3:B22,”<13.06″) : 여러 기준에 맞는 범위의 수. B3에서 B22 범위에서 11.70이상이면서, 13.06 미만인 값의 개수를 구함. 


3.3. 실습강의

– 데이터

– 데이터요약

– 도수분포표

– 도수분포도

– 확률분포


4. 용어

F변환
F transformation

1. 애니메이션

1.1. 집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환


2. 설명

2.1. 분산을 제곱합과 자유도로 분리

2.2. 제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



집단 3개로 이루어진 전체집단에서 집단 3개의 평균이 같다는 가설검정을 위한 F변환


2. 설명

2.1. 분산을 제곱합과 자유도로 분리

종속변수(반응변수)인 $Y$의 관측값들과 총평균 사이의 거리 제곱합으로 이를 총변동(total variation) 또는 총제곱합(total sum of squares, $SS_T$)이라 하고 다음과 같습니다.

 

$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$

 

$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 $\overline{Y_i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 $\overline{Y_{i\cdot}}$를 대입하면), 이는 집단 간의 차이에 의한 변동을 나타냅니다. 이와 같은 집단간의 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 따라서, 각 집단 간의 차이에 의해 발생하는 변동은 다음과 같습니다.

 

$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$

 

각 집단 내에서 발생하는 변동의 합은 다음과 같습니다.

 

$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$

 

각 집단 내의 변동을 집단 내 변동(within variation)이라 하며, 이 집단 내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.

 

각 제곱합이 가지는 자유도는 다음과 같은 논리에 의해 구해집니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}$을 계산해야하므로 $SS_T$는 자유도 $(n-1)$을 가집니다. 오차제곱합 $SS_E$의 계산을 위해서는 $k$개의 값 $\overline{Y_{1}},\cdots,\overline{Y_{k}}$이 먼저 계산되므로 $SS_E$는 $(n-k)$의 자유도를 가집니다. 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.

2.2. 제곱평균으로 집단간 분산과 집단내 분산의 비로 $F$변환하여 $F$통계량 구하기

분산분석을 하기 위해서 처리제곱합($SS_{Tr}$)과 오차제곱합($SS_E$)를 각각의 자유도로 나누어 제곱평균을 구해야 합니다.

 

제곱평균

 

처리제곱평균 : $MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$

 

오차제곱평균 : $MS_{E}=\dfrac{SS_{E}}{n-k}$

 

여기서,  $MS_{Tr}$은 처리제곱평균(Treatment mean squares)

$MS_{E}$는 오차제곱평균(mean squares due to error)

 

만일, 집단의 수는 적고 각 집단의 대상자 수가 아주 많을 때 오차제곱합은 처리제곱합에 비해 매우 커질 것입니다. 물론, 그 반대의 경우도 마찬가지 입니다. 이런 경우, 오차제곱합과 처리제곱합을 해당 자유도로 나누어 주면 분산의 정도에 대해 표준화된 수치가 나옵니다.

 

$F$통계량

 

$F_{\rm statistic} = \dfrac{MS_{Tr}}{MS_{E}}$

 

만일, $MS_{Tr}$과 $MS_E$의 비율이 크면 독립변수를 몇 개의 수준 집단으로 나누었을 때, 집단 간 평균의 차이가 크다는 것을 의미합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


F변환

3.2. 구글시트 함수

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.


3.3. 실습강의

당도 평균이 다른 딸기 집단에서 각각 20개씩 샘플링

집단평균, 전체평균

집단간 제곱, 집단내 제곱

F변환



4. 용어와 수식

4.1 용어

t변환
t transformation

1. 애니메이션

1.1. 자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1. t변환


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도를 1에서 50까지 변화시키면서 t분포 관찰


2. 설명

2.1 t변환

확률변수 $X$를 가지는 집단에서 추출한 크기 $n$인 표본의 표본평균도 확률변수가 되며  $\bar X$로 표시합니다. 표본의 표본표준편차는 $S_X$로 표시합니다. 집단의 모평균은 $\mu_X$, 모표준편차는 $\sigma_X$로 표시합니다.

중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 정규분포를 나타냅니다. 그리고 표본평균($\bar X$)의 표집분포의 표준편차는 다음식과 같습니다.

$\dfrac{\sigma_X}{\sqrt{n}}$

다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.

${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$

표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉,  $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양(정규분포)을 나타낸다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.

확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값  $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다.  이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다.

$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$

여기서,  확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


t변환

3.2. 구글시트 함수

=COUNT(B3:B22) : 숫자 형식의 데이터 개수. B3에서 B22 범위의 데이터 개수를 구함.

=AVERAGE(B3:B22) : 평균. B3에서 B22 범위에 있는 데이터의 산술평균을 계산함.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22 범위에 있는 데이터의 표본표준편차를 계산함. STDEV.S 대신 STDEV.P를 입력하면, 모표준편차를 계산함.

=(B3-B24)/(B25/SQRT(B23)) : t변환 값 계산. B3 값의 t 변환값을 계산. B24에서 표본평균, B25에는 표본표준편차, B23에는 표본의 크기 값이 있음. SQRT는 제곱근을 계산함.

=T.DIST(C3,B23-1,FALSE) : B23-1의 자유도를 가진 t분포에서 C3 확률변수의 확률밀도. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

당도 평균이 15인 딸기 집단에서 20개를 샘플링

표본평균과 표본표준편차

t변환



4. 용어와 수식

4.1 용어

카이제곱변환
Chi squared transformation

1. 애니메이션

1.1. 당도 값의 도수분포표와 도수분포도

1.2. 당도 편차제곱의 도수분포표와 도수분포도

1.3. 자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환

2.2. 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



당도 값의 도수분포표와 도수분포도




당도 편차제곱의 도수분포표와 도수분포도




자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


2. 설명

2.1. 표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동을 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
표본의 표본평균은 집단의 평균과 같으며 총변동과 자유도는 다음과 같습니다.
 
총변동=$\sum_{i=1}^{n}{Z_i^2}$
 
자유도=$n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S^2}{\sigma^2}=(n-1)S^2$
 
$S^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma^2=1$
 
 
한편, 정규분포를 가지는 집단(모평균 $\mu$, 모분산 $\sigma^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S^2$)의 확률분포(표본평균 표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기($n$)인 표본분산($S^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S^{2}}{\sigma^{2}}=\dfrac{S^{2}}{\dfrac{\sigma^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
집단의 표본분산 $S^2$은 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S^2$)을 집단의 모분산( $\sigma^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 합니다.

2.2. 참조) 표본평균($\bar X$)의 Z변환 : 중심극한정리에 의하여 표본평균의 확률분포(표본평균의 표집분포)가 정규분포를 가지는 경우

집단의 표본평균($\bar X$)의 Z변환은 다음식과 같습니다, 중심극한정리에 의하여 표본평균($\bar X$)는 정규분포를 나타냅니다. 여기서 표본의 크기는 $n$입니다.  그리고 표준정규분포의 확률변수 $Z$는 평균과 표준편차가 각각 0과 1이 됩니다. 표본평균($\bar X$)의 Z변환은 표본의 크기 $n$에 따라 달라집니다.

 

$\dfrac{{\bar X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}→Z$

 

여기서,  $Z$는표본정규분포를 가지는 확률변수

$\bar X$는 정규분포를 가지는 표본평균의 확률변수

$\mu_{\bar X}$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모평균

$\sigma_X$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모분산

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


카이제곱변환

3.2. 구글시트 함수

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.


3.3. 실습강의

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포



4. 용어와 수식

4.1 용어

Z변환
Z transform

1. 애니메이션

1.1. Z변환


2. 설명

2.1. Z변환


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1 Z변환

집단(모평균이 $\mu$이고 모분산이 $\sigma$ )이 정규분포 일때, 즉, 집단의 확률변수($X$)가 연속형 확률변수이고 정규분포일 때 아래식으로 표현되는 $Z$변환(Z-transformation)을 통해 확률분포를 정규분포에서 표준정규분포로 변환시킵니다. 이를 $Z$변환(Z-transformation)이라고 부릅니다. Z변환을 한 정규분포의 확률변수 $X$는 평균과 표준편차가 각각 0과 1인 정규분포가 됩니다. 이 정규분포를 표준정규분포(Standard Normal Distribution)이라고 합니다.

$Z={{X-\mu} \over {\sigma}}$

여기서,  $Z$는표본정규분포를 가지는 확률변수

$X$는 정규분포를 가지는 확률변수

$\mu_X$는 확률변수 $X$를 가지는 집단의 모평균

$\sigma_X$는 확률변수 $X$를 가지는 집단의 모분산

집단의 표본평균($\bar X$)의 Z변환은 다음식과 같습니다, 중심극한정리에 의하여 표본평균($\bar X$)는 정규분포를 나타냅니다. 여기서 표본의 크기는 $n$입니다.  그리고 표준정규분포의 확률변수 $Z$는 평균과 표준편차가 각각 0과 1이 됩니다. 표본평균($\bar X$)의 Z변환은 표본의 크기 $n$에 따라 달라집니다.

$Z={{{\bar X}-\mu} \over {\frac{\sigma}{\sqrt{n}}}}$

여기서,  $Z$는표본정규분포를 가지는 확률변수

$\bar X$는 정규분포를 가지는 표본평균의 확률변수

$\mu_{\bar X}$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모평균

$\sigma_X$는 확률변수 $\bar X$를 가지는 표본평균 표집분포의 모분산


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


Z변환

3.2. 구글시트 함수

=NORM.DIST(A3,5,0.5,FALSE) : 정규분포 확률 계산. 평균이 5이고, 표준편차가 0.5인 정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=NORM.DIST(C3,0,1,FALSE) : 평균이 0, 표준편차가 1, 즉 표준정규분포에서 C3 값에 대한 확률밀도를 계산함.


3.3. 실습강의

두 집단의 확률변수

두 집단의 확률분포

Z변환

Z변환 후 확률분포



4. 용어와 수식

4.1 용어