편차로 새로운 확률변수 생성
1.1. 한 확률변수의 두 모집단에서의 확률변수값의 편차로 새로운 확률변수 생성
1.2. 한 확률변수의 한 집단의 요소별로 대응된 사전과 사후의 확률변수값의 편차로 새로운 확률변수 생성
2.1. 한 확률변수의 모집단내 독립된 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성
2.2. 한 확률변수의 대응된 두 집단의 확률변수값의 편차로 새로운 확률변수 생성
2.3. 한 확률변수의 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성
2.4. 한 확률변수의 집단에서 확률변수값의 편차로 새로운 확률변수 생성
4.1. 용어
1. 애니메이션
2. 설명
2.1 한 확률변수의 모집단내 독립된 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성
한 확률변수($X$)의 모집단이 독립된 두 집단(Group)으로 이루어져 있을 때 두 집단의 확률변수값의 편차를 새로운 확률변수($D$)로 하는 새로운 확률변수의 평균($\bar D$)은 두 집단의 평균의 편차가 됩니다. 그리고 분산은 두 집단의 분산의 합이 됩니다. 두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각 $\mu_1$, $\mu_2$라하고 분산을 각각 $\sigma_1$, $\sigma_2$로 나타냅니다.
새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.
$D = X_2 – X_1 $
$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.
$\mu_{D} = \mu_{X_2} – \mu_{X_1}$
여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.
${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$
여기서, $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산
새로운 확률변수의 표본평균($\bar D$)의 기대값
확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.
$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼ \bar X_2 – \bar X_1$
여기서, ∼ 는 점추정(point estimation)
$\mu_{D}$ 는 새로운 확률변수의 모평균
$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$\bar X_1$, $\bar X_2$는 두 집단의 표본평균
새로운 확률변수의 표본평균($\bar D$)의 분산
독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며 다음식이 성립합니다.
$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$
여기서, $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산
$n_1$, $n_2$는 표본크기
모집단내에 있는 집단이므로 등분산을 가정하고 편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같아 표본분산의 통합분산으로 점추정(point estimation)을 하면 다음식과 같습니다.
${\sigma_{X}^2}={\sigma_{X_1}^2}={\sigma_{X_2}^2} ∼ s_p^2$
여기서, ∼ 는 점추정(point estimation)
$\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산
$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값
$s_p^2$는$s_{pooled}^2$로서 표본통합분산(pooled variance)의 계산값
모집단의 분산은 독립된 두 집단의 분산의 합
$\frac{(n_1 + n_2 -2)s_p^2}{\sigma_{X}^2} = \frac{(n_1 – 1)s_{X_1}^2}{\sigma_{X_1}^2} + \frac{(n_2 – 1)s_{X_2}^2}{\sigma_{X_2}^2}$
여기서, $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산
$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값
$s_p^2$은 표본통합분산의 계산값
$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.
$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$
$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$
검정통계량(Test statistic)
새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.
$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$
검정통계량(test statistic)을 구하면
$t =\frac{\bar X_2 – \bar X_1}{SEM}$
$t ={{\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$
여기서, ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$
가설검정(Hypothesis test)
1) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$
${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{>}{D}_{0}$
$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각
2) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$
${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{<}{D}_{0}$
$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{<}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각
3) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$
${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}\ne{D}_{0}$
$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}{/}{2}}$이면 ${H}_{0}$기각
2.2. 한 확률변수의 대응된 두 집단의 확률변수값의 편차로 새로운 확률변수 생성
새로운 확률변수입니다.
$D = X_2 – X_1 $
두 집단이 원소별로 대응되었으므로 새로운 확률변수의 표본의 원소는 아래와 같이 표시할 수 있습니다.
$d_i = x_{i2} – x_{i1}$
여기서, i는 1부터 표본크기 n까지를 나타내는 양의 정수입니다.
새로운 확률변수($D$)의 평균($\mu_D$)을 다음식으로 표현합니다.
$\mu_{D} = \mu_{X_2} – \mu_{X_1}$
여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$D$의 분산은 다음식으로 표현할 수 있고 표본을 관측하여 추정합니다.
$\sigma_D^2=\mathrm Var(D)=\mathrm Var({d_i})$
새로운 확률변수의 표본평균($\bar D$)의 기대값
확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.
$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼ \bar X_2 – \bar X_1$
여기서, ∼ 는 점추정(point estimation)
$\mu_{D}$ 는 새로운 확률변수의 모평균
$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$\bar X_1$, $\bar X_2$는 두 집단의 표본평균
대응표본( $d_i$)의 평균($\bar D$ or $\bar {d_i}$)은 다음과 같이 구할 수 있습니다.
$\bar {d_i}= {\sum_{i=1}^n {d_i}\over{n}}$
여기서, $n$은 표본크기
새로운 확률변수의 표본평균($\bar D$)의 분산
집단의 변화 전, 후로부터 유도된 새로운 확률변수($D$)의 표본평균($\bar D$)의 분산($\mathrm Var(\bar {D}$)은 다음식으로 표현됩니다.
$\mathrm Var(\bar {D}) = \mathrm Var(\bar {d_i}) = \frac{\sigma_{D}^2}{n}$
여기서, $n$은 표본크기
위 식의 모분산(${\sigma_{D}}^2$)은 알 수 없지만 모분산의 점추정량인 대응표본분산(${s_D}^2$)의 관측값은 다음식을 이용하여 계산하여 구할 수 있습니다.
${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$
여기서, $n-1$은 자유도
검정통계량(Test statistic)
모집단이 정규분포이거나 n이 클 때 그리고 ${\displaystyle \sigma_D}$ 를 모를 때 입니다. 우선, 대응표본평균의 표준오차 SEM(Standard Error of Mean)을 구하면 다음과 같습니다.
SEM = $\sqrt{\frac {\sigma^2}{n}}$ ∼ $ \sqrt{\frac {s_D^2}{n}}$
여기서, ${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$
검정통계량을 구하면
검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$
자유도는
$$df = n-1$$
가설검정(Hypothesis test)
1) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$, $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{>} d_{0}$
${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{>} t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각
2) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$, $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{<} d_{0}$
${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{<}-t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각
3) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$, $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}\ne d_{0}$
$\left|{{{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}}\right|{>} t_{n-1\ ;\ \alpha /2}$ 이면 $H_{0}$기각
2.3. 한 확률변수의 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성
한 확률변수($X$)의 두 집단의 확률변수값의 편차를 새로운 확률변수로 하는 새로운 확률변수의 평균은 두 집단의 평균의 편차가 됩니다. 그리고 분산은 두 집단의 분산의 합이 됩니다. 두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각 $\mu_1$, $\mu_2$라하고 분산을 각각 $\sigma_1$, $\sigma_2$로 나타냅니다.
새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.
$D = X_2 – X_1 $
$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.
$\mu_{D} = \mu_{X_2} – \mu_{X_1}$
여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.
${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$
여기서, $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산
새로운 확률변수의 표본평균($\bar D$)의 기대값
확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 집단의 평균의 편차이며, 다음과 같습니다.
$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼ \bar X_2 – \bar X_1$
여기서, ∼ 는 점추정(point estimation)
$\mu_{D}$ 는 새로운 확률변수의 모평균
$\mu_{X_1}$, $\mu_{X_2}$는 집단의 모평균
$\bar X_1$, $\bar X_2$는 집단의 표본평균
새로운 확률변수의 표본평균($\bar D$)의 분산
독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며 다음식이 성립합니다.
$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$
여기서, $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산
$n_1$, $n_2$는 표본크기
편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같지만 표본의 모분산은 알 수가 없습니다. 즉, 등분산이 아닐 수도 있습니다.
${\sigma_{X_1}^2}≠{\sigma_{X_2}^2}$
여기서, $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산
$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.
$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$
$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$
여기서, $s_p^2$는$s_{pool}^2$로서 표본통합분산(pooled variance)의 계산값
$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값
검정통계량
등분산 가정을 하고 점추정을 해서 새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.
$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$
검정통계량(test statistic)을 구하면
검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$ =${\displaystyle t={\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$
여기서, ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$
2.4. 한 확률변수의 집단에서 확률변수값의 편차로 새로운 확률변수 생성
집단에서 한 확률변수값의 편차를 새로운 확률변수라 한다면, 생성된 확률변수의 평균은 0입니다. 그리고 분산의 기대값은 모분산의 두 배가 됩니다. 이를 수식으로 표현하면, 집단의 한 확률변수를 $X$의 두 값의 편차를 새로운 확률변수 $D$로 정의하면 새로운 확률변수($D$)의 평균($\mu_{D}$)은 다음식과 같습니다.
$\mu_{D} = \mu_X – \mu_X = 0$
여기서, $\mu_{X}$는 모평균
새로운 확률변수($D$)의 분산(${\sigma_{D}}^2$)은 다음식으로 나타납니다.
${\sigma_{D}}^2 = {\sigma_X}^2 + {\sigma_X}^2 = 2{\sigma_X}^2$
여기서, ${\sigma_X}^2$는 모분산
새로운 확률변수의 표본평균($\bar D$)의 기대값
크기가 n인 표본의 평균 $\bar{D}$은 중심극한정리에따라 연속형 확률변수가 되며 확률밀도함수는 정규분포를 이룹니다. 새로운 확률변수($\bar{D}$)의 기대값은 다음과 같습니다.
$\mathrm E(\bar D) = \mu_{D} = \mu_X – \mu_X = 0$
새로운 확률변수의 표본평균($\bar D$)의 분산
크기가 n인 표본의 분산 $\mathrm {Var}( \bar{D})$은 연속형 확률변수가 되며 이를 모분산으로 나눈 표준화된 값의 확률밀도함수는 자유도 1인 카이제곱분포를 따릅니다. 새로운 확률변수($\bar D$)의 표본평균의 분산은 다음과 같습니다.
$\mathrm Var(\bar D) = \frac{{\sigma_{D}}^2}{n} = \frac{{\sigma_X}^2}{n} + \frac{{\sigma_X}^2}{n}=\frac{2{\sigma_X}^2}{n} ≈ \frac{2{s_X}^2}{n}$
여기서, ${s_X}^2$는 표본분산의 관측값
검정통계량
새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.
$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{2{\sigma_X}^2}{n}} = \sqrt {\frac{2s_X^2}{n}}$
검정통계량(test statistic)을 구하면
검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$
3. 실습
3.2. 구글시트 함수
=AVERAGE(B3:B38) : 평균
=VARP(B3:B38) : 분산. 모분산
=STDEV.P(B3:B38) : 표준편차. 모표준편차
3.3. 실습강의
주사위 던지기
편차로 새로운 확률변수 생성
새로운 확률변수의 평균, 분산, 표준편차 비교
4. 용어와 수식
4.1 용어