[ DATA SCIENCE ]

대응된 두 집단의 모평균 비교: 대응표본 t검정

요약영상

2 Videos

0:15

0:10

Comparison of the mean of two matched groups: Paired sample t-test

DataLink Research Group

DataLink Research Group, Seoul, Republic of Korea

Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15

10.12972/DataLink.2024.s-23-1-1

DataLink Research Group. 2024. Data type. DataLink Library 2024:s-23-1-1.

구글문서

요약

대응표본은 시간의 경과나 환경 변화로 인해 한 집단 내 변화를 분석할 때 사용됩니다. 대응표본 t검정은 두 모집단의 평균 차이를 알지 못하는 상황에서 표본 데이터를 기반으로 평균 차이를 검증합니다. t검정은 모분산이 알려지지 않았을 때 적용되며, 귀무가설(두 집단 간 평균 차이가 없음)과 대립가설(두 집단 간 평균 차이가 있음)을 설정하여 하나를 채택하고 다른 하나를 기각하는 방식으로 진행됩니다. 대응표본 t검정은 특히 개인별 전후 비교가 필요한 실험에서 유용하게 사용되며, 예를 들어, 특정 활동이 개인의 능력에 미치는 영향을 평가할 때 적합합니다. 이를 통해 동일한 대상자에 대한 전후 상태를 비교하여 활동의 효과를 분석합니다. 대응표본 t검정은 쌍을 이루는 데이터의 차이를 새로운 확률변수로 보고, 이 차이의 평균과 분산을 통해 두 모집단의 평균차이에 대한 추론을 가능하게 합니다. 이 과정에서 대응표본 평균과 분산을 구하고, 이를 바탕으로 검정통계량을 계산하여 가설 검정을 수행합니다.

주제어

대응표본, t검정, 전후상태비교, 차이의 평균과 분산, 두 집단의 평균차이, 가설검정

1. 대응된 두 집단의 모평균 비교

대응된 두 집단의 모평균 비교에는 대응표본 t검정이 적용될 수 있습니다. 예를 보면, 시간이 지남에 따라 또는 환경 조건이 변화하였을 때 한 집단을 사전과 사후의 집단으로 구분하여 변화했는지 안했는지를 알아보는 것입니다. 그리고 t검정은 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법입니다. $t$검정은 다른 검정과 마찬가지로 “두 집단간 평균 차이가 없다”는 귀무가설(null hypothesis, 영가설)과 “두 집단의 평균에는 차이가 있다”라는 대립가설(alternative hypothesis) 중 하나가 채택되고, 다른 하나는 기각되는 방식으로 이뤄집니다.

두 모평균을 비교하는 가설검정에서 두 표본이 서로 독립적으로 추출된 경우가 있지만 어느 경우에는 두 표본을 독립적으로 추출하기가 힘들거나, 독립적으로 추출하였을 때 각 표본개체의 특성이 너무 차이가 나서 결과분석이 무의미할 때가 있습니다. 예를 들면, 초등학생에게 수학적 창의력(mathematical creativity)의 향상에 영향을 미친다고 보여지는 특정 보드게임을 하게 한 후 과연 이 보드게임이 학생의 수학적 창의력을 증가시켰는지 알아보고자 할 때 입니다. 보드게임 전과 보드게임 후에 서로 다른 학생들의 수학적 창의력을 측정하여 비교하면 개인의 차가 심하기 때문에 보드게임의 효과를 측정하기가 어렵습니다. 이러한 경우 어떤 학생의 보드게임 전의 수학적 창의력에 대응하여, 같은 학생의 보드게임 후의 수학적 창의력을 측정하여 대응비교(paired comparison)하면 보드게임의 효과를 효과적으로 나타낼 수가 있습니다.

정리하면 한번 추출된 표본의 실험전과 실험후에 같은 요소를 대응시켜 짝을 만들고 확률변수값의 편차를 확률변수로 합니다. 짝이 된 두 값의 편차로 두 모집단의 평균의 변화를 검정하는 방법을 대응표본 t검정(paired sample t-test)이라고 합니다.

2. 대응표본 t검정

2.1. 새로운 확률변수($D$) : 대응된 두 집단의 확률변수($X_1, X_2$)값의 편차($d_i$)

대응된 확률변수($X$)의 차이로 생성된 새로운 확률변수입니다.
$$D = X_2 – X_1 $$
$$d_{i} =x_{i}^{after} – x_{i}^{before} $$

집단1($x_{i1}$)과 집단2($x_{i2}$)에서 쌍(pair)을 맺어 대응비교를 합니다.
$$x_{11} ↔ x_{12}$$
$$x_{21} ↔ x_{22}$$
$$\cdot$$
$$\cdot$$
$$\cdot$$
$$x_{n1} ↔ x_{n2}$$

다음과 같이 $n$쌍(pair)의 편차($x_{i2}-x_{i1}=d_{i}$)가 새로운 확률변수($D$)가 됩니다.
$$d_{1}=x_{12}-x_{11}$$
$$d_{2}=x_{22}-x_{21}$$
$$\cdot$$
$$\cdot$$
$$\cdot$$
$$d_{n}=x_{n2}-x_{n1}$$

두 집단이 원소별로 대응되었으므로 새로운 확률변수의 표본의 원소는 아래와 같이 표시할 수 있습니다.
$$d_i = x_{i2} – x_{i1}$$

여기서, $i$는 양의 정수

새로운 확률변수($D$)의 평균($\mu_D$)을 다음식으로 표현할 수 있습니다.
$$\mu_{D} = \mu_{X_2} – \mu_{X_1}$$

여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$D$의 모분산은 다음식으로 표현할 수 있고 표본을 관측하여 추정합니다.
$$\sigma_D^2=\mathrm Var[D]=\mathrm Var[{d_i}]$$

$D$의 모표준편차는 모분산의 제곱근입니다.
$$\sigma_D=\sqrt{\mathrm Var[D]}=\sqrt{\mathrm Var[{d_i}]}$$

대응된 표본에서 두 모평균 차이$(\mu_{X_2} – \mu_{X_1})$에 대한 추론을 할 수 있습니다. 그러나 각 표본이 서로 독립이 아니므로 대응표본에서는 한 쌍을 이루는 두 관측값의 차이를 중심으로 분석합니다. 즉 원래 데이터 대신 차이값인 $D_1, D_2, \cdots, D_n$을 하나의 모집단에서 추출한 단일 랜덤표본으로 간주하여 분석을 하는 것입니다. 이 점이 독립표본에 대한 추론과 근본적으로 다른 개념입니다.

새로운 확률변수인 대응표본평균($\bar D$)
$$\bar D = {\bar X}_2 – {\bar X}_1$$

여기서, $\bar X_1$, $\bar X_2$는 두 집단의 표본평균

대응표본평균($\bar D$ or $\bar {d_i}$)은 다음과 같이 구할 수 있습니다.
$$\overline {d_i}= \dfrac{\sum\limits_{i=1}^n {d_i}}{n}$$

여기서, $n$은 표본크기

이 새로운 확률변수($\bar D$)의 기대값은 두 집단의 모평균의 차이와 같습니다.
$$\mathrm E[\bar D] = \mu_{D} = \mu_{X_2} – \mu_{X_1} ≈ \bar X_2 – \bar X_1$$

여기서, ≈ 는 점추정(point estimation)

$\mu_{D}$ 는 두 집단의 대응된 원소의 차이로 생성된 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

$\bar X_1$, $\bar X_2$는 두 집단의 표본평균

대응표본평균 표집의 분산은 새로운 확률변수의 모분산을 표본크기로 나눈 것입니다.
$${\rm Var}[\bar {D}] = {\rm Var}[\overline {d_i}] = \dfrac{\sigma_{D}^2}{n}$$

여기서, $\sigma_{D}^2$ 새로운 확률변수의 모분산

집단의 변화 전, 후로부터 유도된 새로운 확률변수($D$)의 표본평균($\bar D$) 표집의 분산, ${\rm Var}[\bar {D}]$은 다음식으로 표현됩니다.
$${\rm Var}[\bar {D}] ={\rm Var}[\overline {d_i}] = \sigma_{\bar D}^2= \dfrac{\sigma_{D}^2}{n}≈ \dfrac{S_{D}^2}{n}$$

여기서, ≈은 점추정

$n$은 표본크기

대응표본평균 표집의 표준편차는 대응표본평균 표집의 분산의 제곱근입니다.
$$\sigma_{\bar D}= \dfrac{\sigma_{D}}{\sqrt{n}}≈\dfrac{S_{D}}{\sqrt{n}}$$

새로운 확률변수의 모분산(${\sigma_{D}}^2$)은 알 수 없지만 모분산의 점추정량인 대응표본분산(${S_D}^2$)은 다음식을 이용하여 구할 수 있습니다.
$$S_{D}^2 = \dfrac{\sum\limits_{i=1}^n (d_i-\overline {d_i})^2}{n-1}$$

여기서, $(n-1)$은 대응표본의 자유도

대응표본표준편차(${S_D}$)는 대응표본분산의 제곱근입니다.
$$S_{D} = \sqrt{ \dfrac{\sum\limits_{i=1}^n (d_i-\overline {d_i})^2}{n-1}}$$

여기서, $(n-1)$은 대응표본의 자유도

2.2. 검정통계량(Test statistic)

대응표본평균의 표준오차인 ${\rm SE}(\bar D)$는 대응표본평균 표집의 표준편차입니다.
$${\rm SE}(\bar D)=\sqrt{{\rm Var}[\bar D]}= \sigma_{\bar D} = \sqrt{\dfrac{\sigma_D^2}{n}}≈\sqrt{\dfrac{S_D^2}{n}}=\dfrac{S_D}{\sqrt{n}}$$

여기서, $D_0$는 귀무가설에서 제시된 대응된 확률변수의 차이

$S_{D}$는 대응표본표준편차 : $S_{D} = \sqrt{\dfrac{\sum\limits_{i=1}^n {(d_{i}-\overline {d_i})^2}}{n-1}}$

검정통계량을 구하면
$$t = \dfrac{(\bar X_2 – \bar X_1)-D_0}{\dfrac{S_D}{\sqrt{n}}}= \dfrac{\bar D -D_0}{\dfrac{S_D}{\sqrt{n}}}$$

여기서, $D_0$는 귀무가설에서 제시된 두 표본평균의 차이

$S_{D}$는 대응표본표준편차 : $S_{D} = \sqrt{\dfrac{\sum\limits_{i=1}^n {(d_{i}-\overline {d_i})^2}}{n-1}}$

2.3. 가설검정

대응표본 $t$검정 가설검정표

귀무가설$(H_0)$	검정통계량의 값	대립가설$(H_1)$	귀무가설 기각역
$$\mu_1-\mu_2=D_0$$	$$t=\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}$$	$$\mu_1-\mu_2\gt D_0$$	$$\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\gt t_{n-1\ ;\ \alpha}$$
		$$\ \mu_1-\mu_2\lt D_0$$	$$\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\lt-t_{n-1\ ;\ \alpha}$$
		$$\ \mu_1-\mu_2\ne D_0$$	$$\left\|\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\right\|\gt t_{n-1\ ;\ \frac{\alpha}{2}}$$

용어

자유도

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는 값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면, 표본분산은 표본크기($n$)로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친 모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸 ($n-1$)의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

출처

Degrees of freedom (statistics) – Wikipedia

$p$값($p$-value, Probability value)

통계의 가설검정에서 $p$값(확률값)은 주어진 통계모델에 대하여 귀무가설이 참일 때 비교된 두 집단 간의 표본평균 차이의 절대값이 실제 관측값보다 크거나 같을 확률입니다. $p$값은 물리학, 경제학, 금융학, 인문학, 심리학, 생물학, 법학 및 사회과학과 같은 많은 분야의 연구에서 일반적으로 사용됩니다.

출처

$p$-value – Wikipedia

퀴즈

1. 대응표본 t검정에서 두 집단의 차이평균 검정의 변수는?

차이값
평균값
분산값
표준편차

2. 대응표본 t검정은 주로 어떤 경우에 사용되나?

두 독립 집단의 평균을 비교할 때
두 대응된 집단의 평균을 비교할 때
여러 집단의 분산을 비교할 때
단일 집단의 중앙값을 검정할 때

3. 대응표본 t검정에서의 귀무가설은 무엇?

두 집단의 평균 차이는 0이다.
두 집단의 분산 차이는 0이다.
두 집단의 표준편차는 같다.
두 집단의 모수는 다르다.

4. 대응표본 t검정에서 새로운 확률변수는 무엇?

독립된 두 집단의 표본 평균 편차
대응된 두 집단의 편차
대응된 두 집단의 모분산
대응된 두 집단의 표본 표준편차

5. 대응표본 t검정에서 새로운 확률변수의 기대값은?

두 집단의 표본평균의 합
두 집단의 모평균 차이
두 집단의 표준편차의 합
두 집단의 분산 차이

6. 대응표본 t검정에서 검정통계량을 구할 때 필요한 값은?

두 집단의 평균과 각 집단의 표본분산
대응된 두 집단의 차이값의 평균과 차이값의 표준편차
두 집단의 자유도와 모집단 표준편차
표본의 크기와 각 집단의 표본평균

7. 대응표본 t검정에서 귀무가설이 기각될 경우의 결론은?

두 집단의 평균 차이가 유의미하다.
두 집단의 분산이 동일하다.
두 집단의 표본이 독립적이다.
두 집단의 표본표준편차가 같다.

8. 대응된 집단에서 두 확률변수의 차이평균을 비교하는 이유는?

두 집단이 독립적으로 추출되지 않았기 때문
두 집단의 모분산이 같기 때문
두 집단의 표본분산이 다르기 때문
두 집단의 표본크기가 같기 때문

9. 대응표본 t검정에서 사용되는 표본분산의 계산은?

대응된 원소의 차이의 제곱합을 자유도로 나눈 값
표본평균의 제곱근
표본분산의 두 배
표본크기와 표본평균의 곱

10. 대응표본 t검정에서 표본크기가 커질수록 검정통계량은?

t분포에서 정규분포로 근사된다.
t분포에서 카이제곱분포로 근사된다.
정규분포에서 t분포로 근사된다.
카이제곱분포에서 F분포로 근사된다.

DATA SCIENCE : 27

DATA SCIENCE eISSN

[ DATA SCIENCE ]

대응된 두 집단의 모평균 비교: 대응표본 t검정

목차

요약영상

Comparison of the mean of two matched groups: Paired sample t-test

DataLink Research Group

구글문서

요약

주제어

1. 대응된 두 집단의 모평균 비교

2. 대응표본 t검정

2.1. 새로운 확률변수($D$) : 대응된 두 집단의 확률변수($X_1, X_2$)값의 편차($d_i$)

2.2. 검정통계량(Test statistic)

2.3. 가설검정

용어

자유도

$p$값($p$-value, Probability value)

퀴즈

이용약관 • 개인정보처리방침 • 취소/환불정책

DATA SCIENCE : 27

DATA SCIENCE eISSN

[ DATA SCIENCE ]

대응된 두 집단의 모평균 비교: 대응표본 t검정

목차

요약영상

새로운 확률변수 생성

t검정

Comparison of the mean of two matched groups: Paired sample t-test

DataLink Research Group

구글문서

요약

주제어

1. 대응된 두 집단의 모평균 비교

2. 대응표본 t검정

2.1. 새로운 확률변수($D$) : 대응된 두 집단의 확률변수($X_1, X_2$)값의 편차($d_i$)

2.2. 검정통계량(Test statistic)

2.3. 가설검정

용어

자유도

$p$값($p$-value, Probability value)

퀴즈