모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성

1. 애니메이션

1.1. 집단 3개로 이루어진 모집단에서 집단 3개의 평균이 같다는 가설검정


2. 설명

2.1. 모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



집단 3개로 이루어진 모집단에서 집단 3개의 평균이 같다는 가설검정


2. 설명

2.1 모집단내 집단평균의 분산과 집단분산의 비로 새로운 확률변수 생성

요인과 반응을 모델링하면 다음식과 같습니다.

 

$Y_{ij}=\mu_{Y_i}+{\varepsilon}_{ij}=\mu_{Y}+{\alpha}_{i}+{\varepsilon}_{ij}$

 

여기서,  ${i}{=}{1}{,}{2}{,}\cdots{,}{k}$

$j=1, 2, \cdots , {n}_{i}$

 

위 식에서 $Y_{ij}$는 반응변수 $Y$의 $i$번째 집단에서의 $j$번째 관측값을 나타냅니다. 이 모델에서는 $i$번째 집단에서의 집단의 모평균 $\mu_{Y_{i}}$를 $\mu_{Y_i}{+}\alpha_{i}$로 나타내었는데 여기에서 $\mu_Y$는 $Y$의 전체 모평균을 나타내며, $\alpha_{i}$는 $(\mu_{Y_i}-\mu_Y{)}$로 이를 반응변수(종속변수)에 대한 $i$번째 집단의 효과(effect)라고 합니다.

 

오차항 $\epsilon_{ij}$는 서로 독립이며, 평균이 0 이고 분산이 ${\sigma^{2}}$인 정규분포를 따른다고 가정합니다. 오차항 $\epsilon_{ij}$는 집단간의 차이가 아닌 다른 요인에 기인하는 반응변수의 변동량을 나타내는 확률변수입니다. 예를 들어, 한 학교의 영어성적에서 각 학년의 영어성적 차이는 학년이라는 범주형 변수 외에 다른 요인들, 이를테면, 성별, IQ 등에 의해서도 발생할 수있습니다. 그러나 이들 변동량이 학년의 차이에 의한 변동량에 비해 상대적으로 작다면 이런 요인들을 일종의 오차들로 모델링합니다. 오차항 $\epsilon_{ij}$는 이와 같은 여러 가지 오차들의 합을 표현한 것 입니다.

 

검정하고자 하는 가설은 $\mu_{Y_i}$ 대신에 $\alpha_{i}$를 사용하면 아래와 같이 간단하게 표현할 수 있습니다.

 

귀무가설

 

$H_{0}:\alpha_{1}=\alpha_{2}=\cdots{=}\alpha_{k}=0$

 

대립가설

 

$H_{1}:$ 적어도 하나의 $\alpha_{i}$ 는 0 이 아니다.

 

이 가설의 검정을 위해서 아래와 같은  분산분석표(ANOVA table)를 사용합니다.

 

분산분석표

요인

Factor

제곱합

Sum of Square

자유도

평균제곱

Mean Square

F검정통계량

F value

처리

Treatment

$SS_{Tr}$ $k-1$ $MS_{Tr}=\dfrac{SS_{Tr}}{(k-1)}$ $F_0=\dfrac{MS_{Tr}}{MS_E}$

오차

Error

$SS_E$ $n-k$ $MS_E=\dfrac{SS_E}{(n-k)}$  

전체

Total

$SS_T$ $n-1$    

 

여기서,  $n=\sum\limits_{i=1}\limits^{k}n_{i}$

 

분산분석의 세 가지 제곱합의 설명을 위해 먼저 다음의 통계량을 정의합니다.

 

${\bar{Y}}_{i·}$는 $Y$ 의 $i$번째 수준에서의 관측값들의 평균

 

${\bar{Y}}_{··}$는 $Y$ 의 전체 관측값들의 총평균

 

분산분석의 세 가지 제곱합을 다음과 같이 표현합니다.

 

다음식과 같이 반응변량 $Y$의 관측값들과 총평균 사이의 거리의 제곱합을 총변동량 또는 총제곱합(total sum of squares, $\mathrm{SST}$)이라 합니다.

 

${\mathrm{SST}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}$

 

다음식은 각 집단간의 차이에 의해 발생하는 변동량을 나타냅니다. $Y$의 $i$번째 집단에서의 관측값들의 평균 ${\bar{Y}}_{i·}$는 각 집단내의 변동량을 평균한 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 이 표본평균을 사용하여 총변동량을 구하면, 즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 ${\bar{Y}}_{i·}$를 대입하면 이는 집단간의 차이에 의한 변동량을 나타냅니다. 이와 같은 집단간의 변동량을 집단간변동량(between variation)이라 하며 이 변동량을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $\mathrm{SSTr}$)이라 합니다.

 

${\mathrm{SSTr}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{\overline{Y}}_{{i}\cdot}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}$

 

다음식은 각 집단내에서 발생하는 변동량들의 합을 나타냅니다. 각 집단내의 변동량을 집단내변동량(within variation)이라 하며, 이 집단내변동량을 나타내는 제곱합을 오차제곱합(error sum of squares, $\mathrm{SSE}$)이라 합니다.

 

${\mathrm{SSE}}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}}_{{i}\cdot}{)}^{2}}}$

 

각 제곱합이 가지는 자유도는 다음과 같이 구합니다. $SST$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}_{..}$을 계산해야하므로 $\mathrm{SST}$는 자유도 $(n-1)$을 가지며, 오차제곱합 $\mathrm{SSE}$의 계산을 위해서는 $k$개의 값 ${\bar{Y}}_{1\cdot{}},\cdots,{\bar{Y}}_{k\cdot{}}$이 먼저 계산되므로 $\mathrm{SSE}$는 $(n-k)$의 자유도, 처리제곱합$\mathrm{SST}r$은 $\mathrm{SST}$의 자유도에서 $\mathrm{SSE}$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B6) : 기대값. 평균

=SUM(B3:C3) : 합

=COUNTIF(D3:D6,A10) : 지정한 범위 내에서 조건에 맞는 데이터 개수

=(N3-N26)^2 : 편차 제곱

=COUNTUNIQUE(O3:O22) : 지정한 범위 내에서 고유한 값의 데이터 개수

=F.DIST.RT(X3,V3,V4) : V3와 V4를 자유도로 가지는 F분포 상에서 X3 값 우측의 확률밀도 면적


3.3. 실습강의

집단 1 : 동전 던지기 값 2개의 합

집단 2 : 동전 던지기 값 4개의 합

전체제곱, 처리제곱, 오차제곱

새로운 확률변수 생성



4. 용어와 수식

4.1 용어

확률변수의 합으로 새로운 확률변수 생성
Defining new variable from sum of variables

1. 애니메이션

1.1. 동전 던지기의 변수의 합으로 새로운 확률변수 생성

1.2. 갈톤보드 분기 확률변수의 합으로 새로운 확률변수 생성


2. 설명

2.1. 확률변수의 합으로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



동전 던지기의 변수의 합으로 새로운 확률변수 생성




갈톤보드 분기 확률변수의 합으로 새로운 확률변수 생성


2. 설명

2.1 확률변수의 합으로 새로운 확률변수 생성

0과 1이 적혀진 동전 1개를 던져서 위를 향하는 숫자를 확률변수라 한다면 확률변수값은 0과 1, 두 개가 됩니다. 동전 2개를 던져서 위를 향한 숫자의 합을 확률변수라 하면  확률변수값은 0과 1과 2로 3개가 됩니다. 일반화 해서 동전 n개를 던지면 위를 향한 숫자의 합은 0, 1, … , n 중에 있습니다. 여기서 동전 1개를 던져서 나오는 확률변수를 $X$라하고 동전 $n$개를 던져서 윗면의 숫자를 합한 확률변수를 새로운 확률변수, $Y$라 하면 다음식과 같이 확률변수를 표현할 수 있습니다.

 

$Y = X + X + , … , + X$

여기서 $X$의 개수는 동전의 개수인 $n$


분기가 1개가 있는 갈톤보드에서 왼쪽 포켓에 0을 적고 오른쪽 포켓에  1을 적는다면 갈톤보드에 구슬을 굴리면 0과 1이 적혀진 포켓 중 하나에 들어가게 됩니다. 만일 포켓에 적혀진 숫자를 확률변수라 한다면 확률변수값은 0과 1이 됩니다. 분기점이 2개 있는 갈톤보드에서는 포켓은 3개가 되고 포켓에 적히는 값은 1과 2가 됩니다. 포켓에 적힌 확률변수값을 일반화 해서 분기가 n개 있다면 포켓은 n+1개가 만들어 집니다. 포켓에 적힌 값을 가지는 확률변수는 확률변수값이 0, 1, … , n 중에 있습니다. 여기서 분기점이  1개인 경우,  포켓에 적혀있는 숫자를 확률변수 $X$라하고 분기점 $n$개 인 경우, 새로운 확률변수 $Y$라 하면 다음식과 같이 확률변수를 표현할 수 있습니다.

 

$Y = X + X + , … , + X$

여기서 $X$의 개수는 분기의 수인 $n$


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B4) : 기대값, 평균

=SUM(F3:G3) : 합계

=COUNTIF(C3:C4,A8) : 조건에 맞는 데이터 개수

=B8/sum(B8:B9) : 상대빈도(확률) 계산


3.3. 실습강의

동전 던지기

동전 던지기 값 2개의 합

동전 던지기 값 4개의 합

확률분포 비교



4. 용어와 수식

4.1 용어

확률변수의 편차로 새로운 확률변수 생성
Defining new variable from deviations

1. 애니메이션

1.1. 새로운 확률변수인 편차, 펀챠제곱을 생성하고 표본통계량 확률변수인 펀차제곱합 생성


2. 설명

2.1. 확률변수의 편차로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



새로운 확률변수인 편차, 펀챠제곱을 생성하고 표본통계량 확률변수인 펀차제곱합 생성


2. 설명

2.1 확률변수의 편차로 새로운 확률변수 생성

한 확률변수, Y를 반응변수(종속변수)로 하고 한 범주형 변수 X를 요인(factor, 독립변수)으로 할 때 확률변수의 편차제곱$(\rm Y-\mu_Y)^2$을 새로운 확률변수로 생성합니다. 한 확률변수(Y)의 모집단이 한 범주형 확률변수에따라 독립된 집단(Group)들로 카테고리화 될 때 확률변수($Y$)값의 편차제곱인, $(\rm Y-\mu)^2$이 새로운 확률변수가 됩니다. 각 집단의 분산($S^2$)은 각 집단의 평균을 기준으로 하는 편차제곱의 평균이며 확률변수입니다.  표본의 분산을 각각  $s_1^2$, $s_2^2$ , … , $s_i^2$.라하고 각 집단의  모분산은  각각  $\sigma_{Y_1}^2$, $\sigma_{Y_2}^2$ , … , $\sigma_{Y_i}^2$로 나타냅니다. 

 

여러 집단의 표준화된 변동량은 확률변수이며 각각 $\chi_1^2$, $\chi_2^2$ , … ,  $\chi_i^2$로 표현합니다. 여기서 $Y^2$ 대신에 그리스어인 $\chi^2$을 사용하는 이유는 편차제곱의 기준이 모평균이 아니고 표본의 평균임을 나타내기 위함입니다.

 

만일, 여러 집단의 평균이 같아 집단의 편차를 구할 때 사용하는 기준이 같다면, 집단을 구별하는 범주형 변수(수준, level)에따라 카테고리화 되는  집단의 모집단의 분산은 다음식과 같아집니다.

 

$\chi^2=(n_1 + n_2 + . … , + n_i – i) \frac {\sigma_Y^2}{\sigma_Y^2}$

 

$= \frac{s_1^2}{\frac{\sigma_{Y_1}^2}{(n_1 – 1)}} + \frac{s_2^2}{\frac{\sigma_{Y_2}^2}{(n_2 – 1)}} + , … , + \frac{s_i^2}{\frac{\sigma_{Y_i}^2}{(n_i – 1)}}$

 

여기서,  $\frac{\sigma_{Y_i}^2}{(n_i – 1)}$은 표본분산을 표준화하는 상수

 

$n_i$가 작으면 집단의 표본분산이 비대칭 분포를 가지나 $n_i$가 커질수록 정규분포에 가까워집니다. 그리고 표본분산을 표준화하면 t분포의 제곱인 확률분포를 구할 수 있는데  이를 카이제곱분포(chi-squared distribution)라하며 자유도(degree of freedom)와 같은 차원을 가집니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B8) : 평균

=VARP(B3:B8) : 분산. 모분산. 편차제곱의 기대값

=STDEV.P(B3:B8) : 표준편차. 모표준편차. 편차제곱기대값의 제곱근

=C3^2 : 제곱


3.3. 실습강의

주사위 던지기

기대값과의 편차

편차제곱으로 새로운 확률변수 생성

확률분포 비교



4. 용어와 수식

4.1 용어

편차로 새로운 확률변수 생성

1. 애니메이션

1.1. 한 확률변수의 두 모집단에서의 확률변수값의 편차로 새로운 확률변수 생성

1.2. 한 확률변수의 한 집단의 요소별로 대응된 사전과 사후의 확률변수값의 편차로 새로운 확률변수 생성


2. 설명

2.1. 한 확률변수의 모집단내 독립된 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

2.2. 한 확률변수의 대응된 두 집단의 확률변수값의 편차로 새로운 확률변수 생성

2.3. 한 확률변수의 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

2.4. 한 확률변수의 집단에서 확률변수값의 편차로 새로운 확률변수 생성


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



한 확률변수의 두 모집단에서의 확률변수값의 편차로 새로운 확률변수 생성




한 확률변수의 한 집단의 요소별로 대응된 사전과 사후의 확률변수값의 편차로 새로운 확률변수 생성


2. 설명

2.1 한 확률변수의 모집단내 독립된 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

한 확률변수($X$)의 모집단이 독립된 두 집단(Group)으로 이루어져 있을 때 두 집단의 확률변수값의 편차를 새로운 확률변수($D$)로 하는 새로운 확률변수의 평균($\bar D$)은 두 집단의 평균의 편차가 됩니다. 그리고 분산은  두 집단의 분산의 합이 됩니다.  두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각  $\mu_1$, $\mu_2$라하고 분산을 각각  $\sigma_1$, $\sigma_2$로 나타냅니다.

새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.

 

$D = X_2 – X_1 $

 

$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.

 

${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$

 

여기서,  $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$\bar X_1$, $\bar X_2$는 두 집단의 표본평균

 

새로운 확률변수의 표본평균($\bar D$)의 분산

독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며  다음식이 성립합니다.

 

$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$n_1$, $n_2$는 표본크기

 

모집단내에 있는 집단이므로 등분산을 가정하고 편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같아 표본분산의 통합분산으로 점추정(point estimation)을 하면 다음식과 같습니다.

 

${\sigma_{X}^2}={\sigma_{X_1}^2}={\sigma_{X_2}^2} ∼ s_p^2$

 

여기서,  ∼ 는  점추정(point estimation)

$\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

$s_p^2$는$s_{pooled}^2$로서 표본통합분산(pooled variance)의 계산값

 

모집단의 분산은 독립된 두 집단의 분산의 합

 

$\frac{(n_1 + n_2 -2)s_p^2}{\sigma_{X}^2} = \frac{(n_1 – 1)s_{X_1}^2}{\sigma_{X_1}^2} + \frac{(n_2 – 1)s_{X_2}^2}{\sigma_{X_2}^2}$   

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

$s_p^2$은 표본통합분산의 계산값

 

$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.

 

$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$

 

$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$

 

검정통계량(Test statistic)

새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$

 

검정통계량(test statistic)을 구하면

 

$t =\frac{\bar X_2 – \bar X_1}{SEM}$

 

$t ={{\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$

 

여기서,  ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$

 

가설검정(Hypothesis test)

1) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

 ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{>}{D}_{0}$

 

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

 

2) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

 ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{<}{D}_{0}$

 

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{<}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

 

3) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}\ne{D}_{0}$

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}{/}{2}}$이면 ${H}_{0}$기각

 


2.2. 한 확률변수의 대응된 두 집단의 확률변수값의 편차로 새로운 확률변수 생성

새로운 확률변수입니다.

 

$D = X_2 – X_1 $

 

두 집단이 원소별로 대응되었으므로 새로운 확률변수의 표본의 원소는 아래와 같이 표시할 수 있습니다.

 

$d_i = x_{i2} – x_{i1}$

 

여기서,  i는 1부터 표본크기 n까지를 나타내는 양의 정수입니다.

 

새로운 확률변수($D$)의 평균($\mu_D$)을 다음식으로 표현합니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 다음식으로 표현할 수 있고 표본을 관측하여 추정합니다.

 

$\sigma_D^2=\mathrm  Var(D)=\mathrm Var({d_i})$

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$\bar X_1$, $\bar X_2$는 두 집단의 표본평균

 

대응표본( $d_i$)의 평균($\bar D$ or $\bar {d_i}$)은 다음과 같이 구할 수 있습니다.

 

$\bar {d_i}= {\sum_{i=1}^n {d_i}\over{n}}$

 

여기서,  $n$은 표본크기

새로운 확률변수의 표본평균($\bar D$)의 분산

집단의 변화 전, 후로부터 유도된 새로운 확률변수($D$)의  표본평균($\bar D$)의 분산($\mathrm Var(\bar {D}$)은 다음식으로 표현됩니다.

 

$\mathrm Var(\bar {D}) = \mathrm Var(\bar {d_i}) =   \frac{\sigma_{D}^2}{n}$

 

여기서,  $n$은 표본크기

 

위 식의 모분산(${\sigma_{D}}^2$)은 알 수 없지만 모분산의 점추정량인 대응표본분산(${s_D}^2$)의 관측값은 다음식을 이용하여 계산하여 구할 수 있습니다.

 

${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$

 

여기서,  $n-1$은 자유도

 

검정통계량(Test statistic)

모집단이 정규분포이거나 n이 클 때 그리고 ${\displaystyle \sigma_D}$ 를 모를 때 입니다. 우선, 대응표본평균의 표준오차 SEM(Standard Error of Mean)을 구하면 다음과 같습니다.

 

 SEM = $\sqrt{\frac {\sigma^2}{n}}$ ∼ $ \sqrt{\frac {s_D^2}{n}}$

 

여기서,  ${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$

 

검정통계량을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$

 

자유도는

 

$$df = n-1$$

 

가설검정(Hypothesis test)

 

1) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,  $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{>} d_{0}$

 

${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{>} t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각

 

2) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,   $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{<} d_{0}$

 

${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{<}-t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각

 

3) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,    $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}\ne d_{0}$

 

$\left|{{{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}}\right|{>} t_{n-1\ ;\ \alpha /2}$ 이면 $H_{0}$기각


2.3. 한 확률변수의 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

한 확률변수($X$)의 두 집단의 확률변수값의 편차를 새로운 확률변수로 하는 새로운 확률변수의 평균은 두 집단의 평균의 편차가 됩니다. 그리고 분산은  두 집단의 분산의 합이 됩니다.  두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각  $\mu_1$, $\mu_2$라하고 분산을 각각  $\sigma_1$, $\sigma_2$로 나타냅니다.

새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.

 

$D = X_2 – X_1 $

 

$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.

 

${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$

 

여기서,  $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 집단의 평균의 편차이며, 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 집단의 모평균

$\bar X_1$, $\bar X_2$는 집단의 표본평균

 

새로운 확률변수의 표본평균($\bar D$)의 분산

독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며  다음식이 성립합니다.

 

$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산

$n_1$, $n_2$는 표본크기

 

편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같지만 표본의 모분산은 알 수가 없습니다. 즉, 등분산이 아닐 수도 있습니다.

 

${\sigma_{X_1}^2}≠{\sigma_{X_2}^2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산

 

$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.

 

$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$

 

$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$

 

여기서, $s_p^2$는$s_{pool}^2$로서 표본통합분산(pooled variance)의 계산값

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

 

검정통계량

등분산 가정을 하고 점추정을 해서 새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$

 

검정통계량(test statistic)을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$ =${\displaystyle t={\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$

 

여기서,  ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$


2.4. 한 확률변수의 집단에서 확률변수값의 편차로 새로운 확률변수 생성

집단에서 한 확률변수값의 편차를 새로운 확률변수라 한다면, 생성된 확률변수의 평균은 0입니다. 그리고 분산의 기대값은 모분산의 두 배가 됩니다. 이를 수식으로 표현하면, 집단의 한 확률변수를 $X$의 두 값의 편차를 새로운 확률변수 $D$로 정의하면 새로운 확률변수($D$)의 평균($\mu_{D}$)은 다음식과 같습니다.

 

$\mu_{D} = \mu_X – \mu_X = 0$

 

여기서,  $\mu_{X}$는 모평균

 

새로운 확률변수($D$)의 분산(${\sigma_{D}}^2$)은 다음식으로 나타납니다.

 

${\sigma_{D}}^2 = {\sigma_X}^2 + {\sigma_X}^2 = 2{\sigma_X}^2$

 

여기서,  ${\sigma_X}^2$는 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

크기가 n인 표본의 평균 $\bar{D}$은 중심극한정리에따라  연속형 확률변수가 되며 확률밀도함수는 정규분포를 이룹니다. 새로운 확률변수($\bar{D}$)의 기대값은 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_X – \mu_X = 0$

 

새로운 확률변수의 표본평균($\bar D$)의 분산

크기가 n인 표본의 분산 $\mathrm {Var}( \bar{D})$은 연속형 확률변수가 되며 이를 모분산으로 나눈 표준화된 값의 확률밀도함수는  자유도 1인 카이제곱분포를 따릅니다. 새로운 확률변수($\bar D$)의 표본평균의 분산은 다음과 같습니다.

 

$\mathrm Var(\bar D) = \frac{{\sigma_{D}}^2}{n} = \frac{{\sigma_X}^2}{n} + \frac{{\sigma_X}^2}{n}=\frac{2{\sigma_X}^2}{n} ≈ \frac{2{s_X}^2}{n}$

 

여기서,  ${s_X}^2$는 표본분산의 관측값

 

검정통계량

새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{2{\sigma_X}^2}{n}} = \sqrt {\frac{2s_X^2}{n}}$

 

검정통계량(test statistic)을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=AVERAGE(B3:B38) : 평균

=VARP(B3:B38) : 분산. 모분산

=STDEV.P(B3:B38) : 표준편차. 모표준편차


3.3. 실습강의

주사위 던지기

편차로 새로운 확률변수 생성

새로운 확률변수의 평균, 분산, 표준편차 비교



4. 용어와 수식

4.1 용어

이산형 확률변수와 연속형 확률변수

1. 애니메이션

1.1. 이산형 확률변수와 연속형 확률변수


2. 설명

2.1. 이산형 확률변수와 연속형 확률변수


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



이산형 확률변수와 연속형 확률변수


2. 설명

2.1 이산형 확률변수와 연속형 확률변수

궁수가 과녁 정중앙을 겨누고 천발의 화살을 쏩니다. 과녁에 꽂힌 1000발의 화살의 분포는 궁수의 실력을 나타낸다고 할 수 있습니다. 궁수의 실력을 숫자로 나타내기 위해 과녁을 점수판으로 만듭니다. 궁수는 활쏘기 시행(Event)에서 10점, 8점, 6점, 4점, 0점중에서 반드시 한개를 취득하게 됩니다. 그래서 점수를 확률변수로 하고 확률분포를 보면 는 궁수의 실력을 알 수 있습니다. 그래서 확률(Probability)을 과녁(Stochastic)이라고도  표현합니다.

 

활쏘기를 시행하고 나온 점수로 도수분포도(Frequency Chart)를 그려 봅니다. 애니메이션에 나온 궁수는 8점의 빈도수가 제일 높은 도수분포를 나타내고 있습니다. 그리고 궁수의 실력을 나타내는 도수분포도를 그려서 확률질량함수를 추정해 볼 수 있습니다.

 

만일,  과녁의 중앙점에서 화살이 꽂힌 거리를 연속형 확률변수로 하여 상당히 많은 횟수(예를 들면 만 번)를 쏘아서 도수분포도를 그려서 확률밀도함수를 추정해 볼 수 있습니다. 이를 궁수의 실력을 나타내는 통계라고 할 수 있습니다 그리고 궁수의 실력을 정확하게 평가하기 위해서는 과녁의 크기와 간격, 그리고 점수값을 잘 정해야 할 것입니다.

 

연속형 확률변수와 이산형 확률변수를 비교해 봅니다. 이산형 확률변수(discrete variable)는 이어지지 않습니다. 이산확률변수값을 확률질량함수에 대입하면 확률을 구할 수 있습니다. 연속향 확률변수(continuous variable)는 이어집니다. 따라서 확률을 구할 때는 확률변수 구간을 확률밀도함수에 적용하여 면적을 구해 확률을 구합니다. 즉,  구간에 걸쳐 확률밀도를 적분한 면적이 그 구간의 확률이 됩니다.

 

아래 표에는 이산형 확률변수와 연속형 확률변수의 특징을 나타내었습니다.

 특성 이산형 확률변수 연속형 확률변수
확률변수값의 개수 셀 수 있다. 셀 수 없다.
확률변수값 사이에서 존재하는 값의 개수 유한하다. 무한하다.
확률변수의 통계적 의미 있다. 없다.
확률 구하기 확률변수에 대응하는 확률이 있다. 특정 두 확률변수에 대응하는 누적확률밀도함수값의 차
기본이 되는 확률함수 P(X)이다. P(a≤X≤b)이다.
확률분포 대개 막대그래프 모양이다. 대개 히스토그램 또는 곡선형의 연속그래프 모양이다.
확률  0~1 사이에 존재하며, 총합은 1이다. 분포 상의 모든 구간에서 0~1 사이의 면적이며, 모든 면적의 총합은 1이다.
확률변수를 표현하는 함수 확률 질량 함수(probability mass function, pmf) 확률밀도함수, 누적확률밀도함수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


이산형 확률변수와 연속형 확률변수

3.2. 구글시트 함수

=준비 중입니다. 


3.3. 실습강의

데이터/span>

합계

개수

평균

중앙값

조건에 맞는 빈도 수 구하기



4. 용어와 수식

4.1 용어

갈톤보드의 확률변수
Random variable of Galton board

1. 애니메이션

1.1. 동전의 개수(표본의 크기)와 Galtorn보드 분기수

1.2. 8개의 분기수를 가지는 Galton보드

1.3. 10개의 분기수를 가지는 Galton보드

1.4. 32개의 분기수를 가지는 Galton보드


2. 설명

2.1. 갈톤보드의 확률변수


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



동전의 개수(표본의 크기)와 Galtorn보드 분기수




8개의 분기수를 가지는 Galton보드




10개의 분기수를 가지는 Galton보드




32개의 분기수를 가지는 Galton보드


2. 설명

2.1 갈톤보드의 확률변수

동전던지기처럼 확률을 느껴보는 대표적인 실험으로는 Galton보드가 있습니다. 동전던지기 결과가 동전의 두 면 중에서 한 면을 선택하는 것처럼 갈톤보드는 구슬이 분기점을 지날 때  두 방향 중에서 한 쪽 만을 선택하게 되어 있습니다.

 

갈톤보드에 구슬을 굴린다는 것은 갈톤보드의 분기점 수 만큼의 동전을 던지는 것과 같은 효과를 냅니다. 동전던지기에서  앞면이 나온 동전의 수와 일치하게 갈톤보드에서 포켓에 번호를 매길 수 있습니다. 예를 들면 동전 4개 던지기는 분기수가 4인 갈톤보드로 생각할 수 있고 갈톤보드 포켓의 번호를 0, 1, 2, 3, 4 로 적는다면 한 개의 구슬이 굴러 들어간 포켓에 적힌 숫자는 4개의 동전을 던질 때 앞면이 나온 숫자와 관련 지을 수 있습니다.

 

애니메이션에서는  구슬 하나를 분기점이 8개 있는 갈톤보드에 굴리면 동전을 8개 던진 것과 같은 효과가 있음을 보여줍니다. 구체적으로는 동전 8개를 동시에 던져서 나온 1의  합이  8번의 분기점을 가지는 갈톤보드에 1개의 구슬을 굴려 들어간  포켓에 적힌 번호와 같음을 알 수 있습니다. 극단적으로는 8개 동전 모두 1이 나올 경우와 8개 동전 모두 0이 나올 경우가 있습니다. 그리고 8개 동전을 던졌을 때 1이 나올 동전의 숫자는 0부터 8까지이고  경우의 수는 9입니다. 일반화하면  경우의 수는 동전의 수(갈톤보드에서는 구슬이 만나는 분기점의 수) + 1 입니다.

 

구슬을 여러번 굴린다는 것은 동전던지기를 여러번 한다는 것입니다. 갈톤보드를 사용하면 동전던지기를 한후 나온 앞면의 수를 더하는 수고를 안해도 되는 좋은점이 있습니다. 즉, 여러번 시행을 하면 갈톤보드는 종모양의 분포를 보여줍니다. 이 모양은 도수분포를 의미하며 확률분포라 할 수 있습니다. 여기서 종모양의 확률분포를 이항분포(binomial distribution)라 부릅니다. 

 

갈톤보드는 두 가지 중 어느 한 쪽을 선택하는 분기의 연속된 수행 결과의 합으로 구성되어 있다고 볼 수 있습니다. 즉,  어느 한 쪽을 선택하는 시행을 지칭하는 베르누이 시행의 반복해서 나온 합의 결과를 표현한다고 할 수 있습니다.

 

애니메이션에서 같톤보드의 너비를 고정하고 분기 수를 8개와 32개로 늘려 보았습니다. 같은 종모양이지만 분기 수가 클 때 더 가운데에 모이는 것을 볼 수 있습니다. 중심극한정리(Central Limit Theorem)를 시각적으로 보여주고 있습니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


갈톤보드의 확률변수

3.2. 구글시트 함수

=준비 중입니다. 


3.3. 실습강의

갈톤보드

갈톤보드의 확률변수



4. 용어와 수식

4.1 용어

동전 여러개 던지기의 확률변수
Random variable from multiple coin toss

1. 애니메이션

1.1. 앞면과 뒷면에 1과 0이 표시된 동전 10개를 바닥에 던져서 나오는 숫자의 합을 관측하는 시행


2. 설명

2.1. 동전 여러개 던지기의 확률변수


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



앞면과 뒷면에 1과 0이 표시된 동전 10개를 바닥에 던져서 나오는 숫자의 합을 관측하는 시행


2. 설명

2.1 동전 여러개 던지기의 확률변수

앞면과 뒷면에 1과 0이 표시된 동전, 열개가 있습니다. 열개의 동전을 바닥에 던지고  1이 나온 동전의 수를 관찰하는 시행을 해 봅니다. 이 시행은 위를 향하는 숫자의 합을 관측하는 시행이라고도 할 수 있습니다. 이 시행의 확률변수를 정해 봅니다.  확률변수는 시행 후 1이 표시된 동전의 수라고 할 수 있습니다. 따라서 확률변수의 값들은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10의 열 한개가 있을 수 있습니다. 주목할 사실은 동전의 수는 10개인데 확률변수의 가지수는 11개가 됩니다.

 

 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10의 확률변수에 대응하는 확률은 어떤 값인지를 알아봅니다. 확률변수에 대응하는 확률을 알기 위해서 가장 중요한 전제로는 동전의 앞면 또는 뒷면이 나올 확률을 알아야 한다는 것입니다. 보통 동전의 앞 뒷면이 나올 확률은 반반으로 0.5라고 정합니다. 

 

가장 큰 확률을 가지는  확률변수값은 어떤 수 일까요? 직관적으로  동전이 10개일 때는 5입니다. 그리고 역시 직관적으로 이 시행의 기대값은  5입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


동전 여러개 던지기의 확률변수

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

동전던지기

확률변수



4. 용어와 수식

4.1 용어

동전 한개 던지기의 확률변수
Random variable of one coin toss

1. 애니메이션

1.1. 시행과 확률


2. 설명

2.1. 동전 한개 던지기의 확률변수


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



시행과 확률


2. 설명

2.1 동전 한개 던지기의 확률변수

두 면에 0과 1이 적혀 있는 동전이 있습니다. 이 동전 한 개를 바닥에 던져서 윗면의 숫자를 관측하는 것을 시행(try)이라고 한다면 시행의 결과를 알 수 있습니다. 즉, 바닥에 던져진 동전이 0이나 1을 나타내는 것을 시행의 결과라고 합니다. 다르게 표현하면, 시행의 결과가 존재하는 시행공간(Sample Space)에 0과 1이 있다고 할 수 있습니다.

 

0과 1이외의 시행결과는 없고 동전의 모양으로  각 시행결과에 해당하는 확률(Probability)값을 적용할 수 있습니다. 여기서 0과 1이 나올수 있는 정도, 즉 확률은 동전일 경우 반반으로 표현합니다. 총합은 확률의 정의에 의하여 1이 됩니다.

 

동전의 면에 적혀있는 0과 1을 확률변수라고 하고 각각 0.5의 확률을 가지게 됩니다. 또한 시행을 할때 기대하는 확률변수의 값을 기대값이라고 합니다.

한 개의 동전을 바닥에 던지는 시행에서의 기대값은 0도 아니고 1도 아닌 0.5가 됩니다. 동전에 새겨있지 않은 0.5라는 숫자입니다.

물론 가중평균을 구하는 방법에 따라 확률변수 0과 확률 0.5의 곱 그리고 확률변수 1과 확률 0.5의 곱의 합  0.5를  기대값이라 할 수 있습니다.

 

정리하면

시행 : 앞면과 뒷면에 1과 0이 표시된 동전 1개를 바닥에 던져서 나오는 숫자를 관측

시행공간 : {0, 1}

사건 : 0 이 관측됨

사건 : 1 이 관측됨

확률변수 : 0과 1이 새겨진 동전을 던져서 관측되는 값

확률변수값 : 0과 1

확률변수값의 가중 평균 : 0.5

기대값 : 0.5

 

0과 1이 새겨진 동전을 던져 위를 향하는 수를 확률변수라 할때 확률변수의 값과 대응되는 확률을 표로 정리하면 아래표와 같습니다.

 

확률변수값 확률변수값에 대응되는 확률
 1 0.5
0 0.5

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


동전 한개 던지기의 확률변수

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

동전던지기

확률변수



4. 용어와 수식

4.1 용어

변수와 확률변수

1. 애니메이션

1.1. 동전과 확률변수

1.2. 12면체 주사위와 확률변수

1.3. 표적과 연속형 확률변수

1.4. 표적과 이산형 확률변수


2. 설명

2.1. 확률변수의 예

2.2. 변수

2.3. 확률변수

 


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



동전과 확률변수




12면체 주사위와 확률변수




표적과 이산형 확률변수




표적과 연속형 확률변수


2. 설명

2.1. 확률변수의 예

확률변수의 이름을 “로또복권의 등수”라 한다면 확률변수값은 1등, 2등, 3등, 4등, 5등 그리고 꽝으로 총 6개가 있을 수 있습니다.  여기서 “로또복권의 등수”는 범주형 확률변수입니다. 그리고 6개의 확률변수값으로 구성됩니다. 로또복권의 한 회차의 판매를 마감하면 각 등수에 대한 확률도 규정된 수식에 의해 계산될 수 있습니다.

 

간단한 예로 동전던지기를 한 후 나온 윗면을 확률변수라 할 수 있습니다. 0과 1을 써 놓은 동전은 확률변수값으로 0과 1 두 개를 가지게 됩니다. 그리고 완벽하게 두 면이 대칭된 동전이라면 동전던지기에서 나오는 윗면이 확률변수라면 확률변수값은  0과 1 두 개이고 확률변수값이 가지는 확률은 각각 1/2로 같습니다. 여기서 확률(Probability)이 있다는 것은 사건(Event)이 있다는 것을 전제합니다. 즉, 동전을 던져서  윗면의 숫자를 관측한다는 실제적인 시행(Trial)을 해야 시행의 결과인 사건(Event)이 나타납니다. 여기서 사건은 0과 1 두가지가 있습니다.

 

12면 주사위는 확률변수값이 12개입니다. 여기서도 주사위를 던진다는 시행(Trial)이 전제되어야 사건(Event)이 발생하고 확률이 존재합니다. 한편,  궁수가 과녁에 화살을 쏘는 행위를 할 때 확률변수는 과녁의 나누어진 면적이 될 수도 있고 과녁이 없을 때는 중심에서 떨어진 거리가 될 수 있습니다.

 

또 다른 예로 궁수의 실력을 확률변수로 표현할 수 있습니다. 궁수가 활을 쏜 후 관측된 점수를 확률변수값으로 하면 궁수의 실력, 즉 궁수의 점수는 확률변수라 할 수 있습니다. 이렇게 관측된 확률변수값을 데이터라고도 합니다. 궁수의  데이터가 많을 수록 궁수의 실력을 보다 정확히 말할 수 있겠습니다. 궁수의 실력을 나타내는 확률분포는 궁수가 많이 쏠수록 궁수의 실력을 더 잘 반영할 것입니다. 그렇지만, 데이터가 충분히 많고 그 데이터가 좋게 나온 궁수가 활쏘기 대회에서 우승한다고 단언할 수 는 없습니다. 확률이 높다고만 할 수 있고  기대값만 말할 수 있지 활쏘기 대회에서 어떤 점수가  나올지 모르기 때문입니다. 만일 활쏘기 횟수가 적은 대회라면 더더욱 우승을 예측하기는 어려울 수 있습니다. 표적은  면적으로 확률을 잘 설명할 수 있는 예입니다. 그래서 확률을 영어로 Probability(가능성)뿐만아니라  Stochastic(표적)으로도 표현합니다.

 

위의 예 중에서  범주형 확률변수로 분류할 수 있는 것은  다음과 같습니다. 

 

동전의 확률변수값 : 앞면, 뒷면

6면 주사위의 확률변수값 : 1면,2면,3면,4면,5면,6면

12면 주사위의 확률변수값  : 1면,2면,3면,4면,5면,6면,7면,8면,9면,10면,11면,12면

과녁의 확률변수명 : 노랑, 빨강, 파랑, 검정

 

범주형 확률변수와 대립되는 확률변수의 속성으로는 양적 확률변수가 있고 양적 확률변수는 다시 연속형 확률변수와 이산형 확률변수로 나누어 집니다.


2.2. 변수(變數, variable)

변수는 정해지지 않은 수, 변하는 값을 나타내는 문자입니다. 보통 사칙연산이 가능한 수(數)를 대신하는 대수(代數)인 알파벳을 이용해서 표현합니다.


2.3. 확률변수(random variable)

확률변수(Random variable)는 말 그대로 확률을 가지는 변수입니다. 변수이기 때문에 어떤 값을 가질지는 모르지만 변수값에 따라 나올 가능성, 즉 확률(Probability)이 정해져 있는 변수를 확률변수라고 합니다. 예를 들어 로또복권은 등수에 따라서 각각 다른 확률을 가지게 됩니다. 따라서 등수는 확률변수가 됩니다. 확률변수를 표현하려면 확률변수명을 정하고 확률변수값에 대한 정의를 내리면 됩니다. 물론 확률도 확률변수값에 대응하여 표현하면 됩니다.

 

확률변수의 관측에 사용되는 척도를 살펴보면 동전던지기라는 시행으로 생성된 시행공간은 동전의 앞면과 뒷면입니다. 이 시행공간을 확률변수로 대응한다면 범주형 확률변수입니다. 여기서 척도로는 명목척도가 사용됩니다. 주사위도 마찬가지로 6면을 1에서 6까의 숫자로 표시하였을 때 주사위 던지기라는 시행에서 시행공간은 1, 2, 3, 4, 5, 6의 숫자이며 이는 바로 확률변수값이 됩니다. 그리고 이 확률변수는 수치형(양적 데이터) 중에서 연속형이 아닌 이산형 확률변수입니다. 그리고 척도로는 수식계산이 가능한 간격척도가 사용됩니다.

 

확률변수를 요약하면 다음과 같습니다.

 

확률을 가지는 변수

시행(Trial)을 해서 어떤 사건이 나타났는지 보면  값이 정해지는 변수

시행을 많이 해서 평균을 구하면 어떤 값, 즉 기대값에 수렴하는 변수

 

확률변수(Random Variable,  Stochastic Variable, 確率變數)를 나타내는 기호로는 알파벳 대문자를 사용합니다.

$X$

확률변수의 값(Value of random variable)은 확률변수에서 사용한 알파벳의 소문자를 사용합니다. 그리고 구분자는 아래첨자를 사용하기도 합니다.

$x_1, x_2, x_3$, …


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


변수와 확률변수 : 구글시트 실습

3.2. 구글시트 함수

=BINOM.INV(1,RAND(),0.5) : 50%(0.5) 확률의 사건을 1번 시도해서 나올 수 있는 결과.

=RAND() : 0이상 1미만의 난수를 반환.

=AVERAGE(H3:H102) : 평균. H3에서 H102까지 데이터의 평균. 데이터를 모두 더한 후, 개수로 나눈 산술평균.

=SUM(H3:H102) : 합계. H3에서 H102까지 데이터의 합계.


3.3. 실습강의

– 동전던지기

– 확률변수

– 실습 안내



4. 용어와 수식

4.1. 용어


시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면,  2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

 

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

 

Reference

Experiment (probability theory) – Wikipedia


확률

확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.

 

이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.

 

Reference

Probability – Wikipedia


확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입다. 예를 들어, 확률 변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률 분포는 $X$ = 윗면의 경우 0.5, $X$ = 아래면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

 

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과 집합인 기본 표본공간(sample space)의 관점에서 지정됩니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비 숫자 값 목록일 수도 있습니다. 예를 들어, 동전 뒤집기의 샘플 공간은 {머리, 꼬리}입니다. 확률 분포는 일반적으로 두 가지로 나뉩니다. 이산 확률분포 (동전 던지기 나 주사위와 같이 가능한 결과 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위 (예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률 밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규 분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에 정의 된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

 

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단 변수이라고 불리우는 반면 표본공간이 2차원  이상의 벡터 공간 인 분포를 다 변수라고합니다. 단일 변수(변량) 분포는 다양한 대체 값을 취하는 단일 확률변수의 확률을 제공합니다. 다 변수 분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단 변량 확률분포에는 이항분포, 초기 하분포 및 정규분포가 포함됩니다. 다 변수 정규 분포는 일반적으로 발생하는 다 변수 분포입니다.

 

Reference

Probability distribution – Wikipedia


연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

 

Reference

Continuous or discrete variable – Wikipedia



확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

 

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

 

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

 

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

 

Reference

Random variable – Wikipedia

갈톤보드와 큰 수의 법칙
The law of large numbers from Galton board

1. 애니메이션

1.1. 8개의 분기수를 가지는 Galton보드

1.2. 10개의 분기수를 가지는 Galton보드

1.3. 32개의 분기수를 가지는 Galton보드


2. 설명

2.1. 갈톤보드와 큰 수의 법칙


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



8개의 분기수를 가지는 Galton보드




10개의 분기수를 가지는 Galton보드




32개의 분기수를 가지는 Galton보드


2. 설명

2.1 갈톤보드와 큰 수의 법칙

갈톤보드(Galton board)의 특징을 살펴보겠습니다. 구슬 하나를 갈톤보드에 굴리면 구슬은 분기점을 만날때 마다 왼쪽이나 오른쪽으로 반드시 가게 됩니다. 다른 경우는 없습니다.  갈톤보드에서 구슬이 분기점을 만나는 횟수를 분기수라고 합니다. 갈톤보드의 분기수가 8개이면 9개의 칸이 생기고 10개면 11개, 32개면 33개의 칸이 생깁니다. 즉 분기의 갯수보다 분기에 의해서 만들어지는 아래 칸의 갯수가 하나 더 크게 됩니다.

 

예를 들어 8개의 분기수를 가진 갈톤보드를 보면 구슬이 내려가면서 8번의갈림길을 만나서 그 때마다 좌우의 길 중에서 하나의 길을 선택합니다.그리고 좌우로 가는 확률이 똑 같이 반반이라고 한다면 9개의 칸 중 5번째 칸에 구슬이 제일 많이 들어가는 종모양을 하게 됩니다. 구슬을 많이 굴리면 구슬이 쌓인 모습이 점점 가운데가 높아지면서 선명해 집니다.  

 

구슬하나를 굴리는 것을 시행(Event)라 할 수 있고 구슬이 들어가는 아래 칸을 표본공간(Sample Space)라고 할 수 있습니다. 하나의 구슬을 굴려서 하나의 칸에 들어가는 가면 하나의 표본(Sample)이 생성된 것이라고 할 수 있습니다. 그리고 여기서 분기점에서 우측으로 가는 확률을 P라 한다면 좌측으로 가는 확률은 (1-P)가 됩니다. 그렇다면 갈톤보드는 좌나 우로 여러번 가는 시행의 결과를 합친 결과를 보여주는 장치입니다. 

 

갈톤보드에서 굴리는 구슬의 수를 크게 해본다면 어떤 결과가 나올까요?  하나의 예로 분기수를 8개로하고 구슬의 수를 크게 하면 구슬더미는 종모양을 점점 가지게 됩니다. 이 구슬더미의 모양을 확률분포로 본다면 그 확률분포를 이항분포(Binomial distribution)라 부릅니다. 이항분포는 분기점의 수(N)와 우측으로 가는 확률(P)로 정해집니다. 여기서 확률변수(Random variable)는 아래 칸이 됩니다. 아래칸에 숫자가 적혀 있으면 수치형 확률변수가 되고 수치가 아니면 명목형 확률변수가 됩니다.

 

갈톤보드의 분기수를 크게 늘리면 구슬은 가운데로  모이는 모습을 볼 수 있습니다. 이것은 중심극한정리(Central Limit Theorem)를 잘 표현합니다. 또한,  구슬 하나를 분기수가 무한대인 갈톤보드에 굴리면 가운데 칸으로 점점 접근하게 됩니다. 이것은 중심극한정리와 큰수의 법칙을 동시에 잘 표현한다고 볼 수 있습니다.

 

갈톤보드에서의 구슬굴리기를 여러개의 동전던지기와 연결해보면 동전하나는 갈톤보드의 분기점과 같은 역할을 하고 따라서 분기점수는 동전의 수와 같습니다. 갈톤보드의 결과는 여러개의 동전을 던져서 나온 결과와 연결됩니다.


Reference

영상 1

영상 2


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


갈톤보드와 큰 수의 법칙

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

갈톤보드 1

갈톤보드 2

두 갈톤보드 비교



4. 용어와 수식

4.1 용어