편차로 새로운 확률변수 생성



한 확률변수의 두 모집단에서의 확률변수값의 편차로 새로운 확률변수 생성




한 확률변수의 한 집단의 요소별로 대응된 사전과 사후의 확률변수값의 편차로 새로운 확률변수 생성


1. 한 확률변수의 모집단내 독립된 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

한 확률변수($X$)의 모집단이 독립된 두 집단(Group)으로 이루어져 있을 때 두 집단의 확률변수값의 편차를 새로운 확률변수($D$)로 하는 새로운 확률변수의 평균($\bar D$)은 두 집단의 평균의 편차가 됩니다. 그리고 분산은  두 집단의 분산의 합이 됩니다.  두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각  $\mu_1$, $\mu_2$라하고 분산을 각각  $\sigma_1$, $\sigma_2$로 나타냅니다.

새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.

 

$D = X_2 – X_1 $

 

$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.

 

${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$

 

여기서,  $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$\bar X_1$, $\bar X_2$는 두 집단의 표본평균

 

새로운 확률변수의 표본평균($\bar D$)의 분산

독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며  다음식이 성립합니다.

 

$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$n_1$, $n_2$는 표본크기

 

모집단내에 있는 집단이므로 등분산을 가정하고 편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같아 표본분산의 통합분산으로 점추정(point estimation)을 하면 다음식과 같습니다.

 

${\sigma_{X}^2}={\sigma_{X_1}^2}={\sigma_{X_2}^2} ∼ s_p^2$

 

여기서,  ∼ 는  점추정(point estimation)

$\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

$s_p^2$는$s_{pooled}^2$로서 표본통합분산(pooled variance)의 계산값

 

모집단의 분산은 독립된 두 집단의 분산의 합

 

$\frac{(n_1 + n_2 -2)s_p^2}{\sigma_{X}^2} = \frac{(n_1 – 1)s_{X_1}^2}{\sigma_{X_1}^2} + \frac{(n_2 – 1)s_{X_2}^2}{\sigma_{X_2}^2}$   

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

$s_p^2$은 표본통합분산의 계산값

 

$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.

 

$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$

 

$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$

 

검정통계량(Test statistic)

새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$

 

검정통계량(test statistic)을 구하면

 

$t =\frac{\bar X_2 – \bar X_1}{SEM}$

 

$t ={{\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$

 

여기서,  ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$

 

가설검정(Hypothesis test)

1) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

 ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{>}{D}_{0}$

 

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

 

2) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

 ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{<}{D}_{0}$

 

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{<}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

 

3) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$

${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}\ne{D}_{0}$

$\frac{\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}{/}{2}}$이면 ${H}_{0}$기각

 


2. 한 확률변수의 대응된 두 집단의 확률변수값의 편차로 새로운 확률변수 생성

새로운 확률변수입니다.

 

$D = X_2 – X_1 $

 

두 집단이 원소별로 대응되었으므로 새로운 확률변수의 표본의 원소는 아래와 같이 표시할 수 있습니다.

 

$d_i = x_{i2} – x_{i1}$

 

여기서,  i는 1부터 표본크기 n까지를 나타내는 양의 정수입니다.

 

새로운 확률변수($D$)의 평균($\mu_D$)을 다음식으로 표현합니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 다음식으로 표현할 수 있고 표본을 관측하여 추정합니다.

 

$\sigma_D^2=\mathrm  Var(D)=\mathrm Var({d_i})$

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 그룹의 평균의 편차입니다. 편차로 생성된 확률변수의 표본평균의 모분산은 중심극한정리에 따라 각 확률변수의 표본평균의 모분산의 합이며 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$\bar X_1$, $\bar X_2$는 두 집단의 표본평균

 

대응표본( $d_i$)의 평균($\bar D$ or $\bar {d_i}$)은 다음과 같이 구할 수 있습니다.

 

$\bar {d_i}= {\sum_{i=1}^n {d_i}\over{n}}$

 

여기서,  $n$은 표본크기

새로운 확률변수의 표본평균($\bar D$)의 분산

집단의 변화 전, 후로부터 유도된 새로운 확률변수($D$)의  표본평균($\bar D$)의 분산($\mathrm Var(\bar {D}$)은 다음식으로 표현됩니다.

 

$\mathrm Var(\bar {D}) = \mathrm Var(\bar {d_i}) =   \frac{\sigma_{D}^2}{n}$

 

여기서,  $n$은 표본크기

 

위 식의 모분산(${\sigma_{D}}^2$)은 알 수 없지만 모분산의 점추정량인 대응표본분산(${s_D}^2$)의 관측값은 다음식을 이용하여 계산하여 구할 수 있습니다.

 

${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$

 

여기서,  $n-1$은 자유도

 

검정통계량(Test statistic)

모집단이 정규분포이거나 n이 클 때 그리고 ${\displaystyle \sigma_D}$ 를 모를 때 입니다. 우선, 대응표본평균의 표준오차 SEM(Standard Error of Mean)을 구하면 다음과 같습니다.

 

 SEM = $\sqrt{\frac {\sigma^2}{n}}$ ∼ $ \sqrt{\frac {s_D^2}{n}}$

 

여기서,  ${s_{D}}^2 = {{\sum_{i=1}^n {(d_{i}-\bar {d_i})^2}}\over{n-1}}$

 

검정통계량을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$

 

자유도는

 

$$df = n-1$$

 

가설검정(Hypothesis test)

 

1) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,  $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{>} d_{0}$

 

${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{>} t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각

 

2) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,   $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}{<} d_{0}$

 

${{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}{<}-t_{n-1\ ;\ \alpha}$ 이면 $H_{0}$기각

 

3) $H_{0}\ :\ \mu_{X_2}-\mu_{X_1}=d_{0}$,    $H_{1}\ :\ \mu_{X_2}-\mu_{X_1}\ne d_{0}$

 

$\left|{{{\bar d_i -d_{0}}\over{{{s_{d}}\over{\sqrt{n}}}}}}\right|{>} t_{n-1\ ;\ \alpha /2}$ 이면 $H_{0}$기각


3. 한 확률변수의 두 집단에서 확률변수값의 편차로 새로운 확률변수 생성

한 확률변수($X$)의 두 집단의 확률변수값의 편차를 새로운 확률변수로 하는 새로운 확률변수의 평균은 두 집단의 평균의 편차가 됩니다. 그리고 분산은  두 집단의 분산의 합이 됩니다.  두 집단의 확률변수가 각각 $X_1$, $X_2$이고 확률변수의 평균을 각각  $\mu_1$, $\mu_2$라하고 분산을 각각  $\sigma_1$, $\sigma_2$로 나타냅니다.

새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.

 

$D = X_2 – X_1 $

 

$D$의 평균($\mu_D$)은 두 확률변수 평균($\mu_1$, $\mu_2$)의 편차가 되어 다음식으로 표현됩니다.

 

$\mu_{D} = \mu_{X_2} – \mu_{X_1}$

 

여기서,  $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

 

$D$의 분산은 두 확률변수의 분산(${\sigma_{X_1}}^2$, ${\sigma_{X_2}}^2$)의 합이 되어 다음과 같습니다.

 

${\sigma_{D}}^2={\sigma_{X_1}}^2 + {\sigma_{X_2}}^2$

 

여기서,  $\sigma_{X_1}$, $\sigma_{X_2}$는 두 집단의 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단에서 각각 $n_1$, $n_2$를 크기로 하는 두 표본을 추출하면 각 표본의 평균($\bar X_1$, $\bar X_2$)은 중심극한정리에 의해 연속형 확률변수가 되며 확률밀도함수가 정규분포를 나타냅니다. 두 표본평균의 편차로 새로운 확률변수를 생성하면 새로운 확률변수의 평균( $\bar{D}$)도 연속형 확률변수가 됩니다. 이 새로운 확률변수($\bar D$)의 기대값은 두 집단의 평균의 편차이며, 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_{X_2} – \mu_{X_1} ∼  \bar X_2 – \bar X_1$

 

여기서,  ∼ 는 점추정(point estimation)

$\mu_{D}$ 는 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 집단의 모평균

$\bar X_1$, $\bar X_2$는 집단의 표본평균

 

새로운 확률변수의 표본평균($\bar D$)의 분산

독립된 두 집단의 편차로 생성된 새로운 확률변수의 표본평균($\bar D$)은 중심극한정리에따라 정규분포를 이루며  다음식이 성립합니다.

 

$\mathrm Var(\bar D) = \frac{\sigma_{X_1}^2}{n_1} + \frac{\sigma_{X_2}^2}{n_2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산

$n_1$, $n_2$는 표본크기

 

편차로 새로운 확률변수를 생성하였으므로 분산의 기준이 같지만 표본의 모분산은 알 수가 없습니다. 즉, 등분산이 아닐 수도 있습니다.

 

${\sigma_{X_1}^2}≠{\sigma_{X_2}^2}$

 

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 집단의 모분산

 

$s_p^2$을 $s_{X_1}^2$과 $s_{X_2}^2$의 가중평균으로 구하면 다음식과 같습니다.

 

$s_p^2 = \frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}$

 

$s_p = \sqrt{\frac{(n_1 – 1)s_{X_1}^2 + (n_2 – 1)s_{X_2}^2}{(n_1 + n_2 – 2)}}$

 

여기서, $s_p^2$는$s_{pool}^2$로서 표본통합분산(pooled variance)의 계산값

$s_{X_1}^2$, $s_{X_2}^2$는 표본분산의 관측값

 

검정통계량

등분산 가정을 하고 점추정을 해서 새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{\sigma_{X_1}^2}{n_1} +\frac {\sigma_{X_2}^2}{n_2}} = \sqrt { \frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}$

 

검정통계량(test statistic)을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$ =${\displaystyle t={\frac {{\bar {X}}_{2}-{\bar {X}}_{1}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}$

 

여기서,  ${\displaystyle s_{p}={\sqrt {\frac {\left(n_{1}-1\right)s_{X_{1}}^{2}+\left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$


4. 한 확률변수의 집단에서 확률변수값의 편차로 새로운 확률변수 생성

집단에서 한 확률변수값의 편차를 새로운 확률변수라 한다면, 생성된 확률변수의 평균은 0입니다. 그리고 분산의 기대값은 모분산의 두 배가 됩니다. 이를 수식으로 표현하면, 집단의 한 확률변수를 $X$의 두 값의 편차를 새로운 확률변수 $D$로 정의하면 새로운 확률변수($D$)의 평균($\mu_{D}$)은 다음식과 같습니다.

 

$\mu_{D} = \mu_X – \mu_X = 0$

 

여기서,  $\mu_{X}$는 모평균

 

새로운 확률변수($D$)의 분산(${\sigma_{D}}^2$)은 다음식으로 나타납니다.

 

${\sigma_{D}}^2 = {\sigma_X}^2 + {\sigma_X}^2 = 2{\sigma_X}^2$

 

여기서,  ${\sigma_X}^2$는 모분산

 

새로운 확률변수의 표본평균($\bar D$)의 기대값

크기가 n인 표본의 평균 $\bar{D}$은 중심극한정리에따라  연속형 확률변수가 되며 확률밀도함수는 정규분포를 이룹니다. 새로운 확률변수($\bar{D}$)의 기대값은 다음과 같습니다.

 

$\mathrm E(\bar D) = \mu_{D} = \mu_X – \mu_X = 0$

 

새로운 확률변수의 표본평균($\bar D$)의 분산

크기가 n인 표본의 분산 $\mathrm {Var}( \bar{D})$은 연속형 확률변수가 되며 이를 모분산으로 나눈 표준화된 값의 확률밀도함수는  자유도 1인 카이제곱분포를 따릅니다. 새로운 확률변수($\bar D$)의 표본평균의 분산은 다음과 같습니다.

 

$\mathrm Var(\bar D) = \frac{{\sigma_{D}}^2}{n} = \frac{{\sigma_X}^2}{n} + \frac{{\sigma_X}^2}{n}=\frac{2{\sigma_X}^2}{n} ≈ \frac{2{s_X}^2}{n}$

 

여기서,  ${s_X}^2$는 표본분산의 관측값

 

검정통계량

새로운 확률변수의 표본평균이 나타내는 표준오차(SEM; Standard Error of Mean)를 구하면 다음과 같습니다.

 

$SEM = \sqrt{\mathrm Var(\bar D)} = \sqrt {\frac{2{\sigma_X}^2}{n}} = \sqrt {\frac{2s_X^2}{n}}$

 

검정통계량(test statistic)을 구하면

 

검정통계량 = t = $\frac{\bar X_2 – \bar X_1}{SEM}$


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=AVERAGE(B3:B38) : 평균

=VARP(B3:B38) : 분산. 모분산

=STDEV.P(B3:B38) : 표준편차. 모표준편차



<실습강의 내용>

주사위 던지기

편차로 새로운 확률변수 생성

새로운 확률변수의 평균, 분산, 표준편차 비교