1. 애니메이션

1.1. 애니메이션 제목


2. 설명

2.1. 배치

2.2. 분산분석

2.3. 설명강의


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



애니메이션 제목

2. 설명

2.1. 배치(Way)

배치(Way)는 관심있는 확률변수가 여러 범주(수준, 카테고리, 집단)를 포함하고 있어서 그 확률변수를 그 범주에 따라 구분하는 것을 의미합니다. 따라서 배치를 하고나면 2개 이상의 수준(범주, 카테고리, 집단)이 생깁니다. 분석의 대상이 되는 확률변수가 두 개이상의 범주를 가지게 하는 원인을 원인변수(요인변수)라고 하며 이때 이 확률변수를 결과변수(반응변수)라고 합니다.  다시한번 정리하면, 관심확률변수가 여러 범주로 나누어 지게 하는 원인을 원인변수하면 원인변수는 범주형 변수입니다. 범주형 원인변수는 순서를 가질 수 있고 간격을 가질 수 있어서 이산형 변수로도 표현할 수 있습니다. 분산분석에서는 원인변수가 확률변수일 필요는 없지만 선형회귀분석에서는 원인변수와 결과변수가 서로 상관이 있음을 전제로 하므로 원인변수도 확률변수로 모델링되는 경우가 많습니다. 

일원배치(One-way)의 통계적 모형

일원배치에서 일원은 원인변수(인자, factor)가 하나인 경우를 말합니다. 여기서, 원인변수는 범주형이거나 이산형이 될 수 있지만 주로 범주형 변수입니다. 범주형 원인변수값은 수준(level, 범주, 카테고리, category, 집단, group)의 명칭이 됩니다. 따라서 범주형 원인변수값의 개수는 수준의 개수, 즉, 수준수가 됩니다. 범주형 원인변수가 1개이고 수준수(카테고리수, 범주형 원인변수값의 개수 수)가 $a$개인 경우의 일원배치를 통계적 모형으로 나타내면 아래와 같습니다. 아래 모형에서 유의할 점은 각 수준에서의 데이터개수가 $n$으로 동일하게 모델링되었다는 점입니다. 만일 범주형 원인변수가 확률변수라면 각 표본집단의 데이터개수는 $i$번째 수준에 따르는 $n_i$로 모델링하여야 합니다. 이 모델링은 회귀분석에서 회귀계수의 평균을 구할 때 유용하게 사용됩니다.

$$y_{ij}=\mu_i+\varepsilon_{ij} \,\,\,\, \begin{cases}i=1,2,\cdots,a \\j=1,2,\cdots,n\end{cases}$$

여기서, $y_{ij}$는 $i$번째 수준(범주, 카테고리, 집단)의 $j$번째 데이터

$\mu_i$는 $i$번째 수준(범주, 카테고리, 집단)의 모평균

$\varepsilon_{ij}$는 오차항 : $\varepsilon_{ij} \sim {\rm iid} \,  N(0,\sigma^2)$

각 항을 다시 표현하면 $\mu_i$는 $i$번째 수준(범주, 카테고리, category, 집단, group)의 평균이며 $y_{ij}$는 $i$번째 수준의  $j$번째 반복된 반응값($i$번째 수준의 $j$번째 데이터)이 됩니다.

$\varepsilon_{ij}$는 $y_{ij}$의 오차항이고  iid(독립항등분포, independent and identically distribution)의 가정을 따릅니다. 즉, 오차항, $\varepsilon_{ij}$는 독립적이고 동일한 확률분포를 가지는 확률변수입니다. 오차항은 보통 평균이 0이고  분산이 $\sigma^2$인 정규분포로 가정합니다.

 

일원배치 모형식

$$y_{ij}=\mu+(\mu_i-\mu)+\varepsilon_{ij}$$

여기서,  $y_{ij}$는 $i$번째 수준의 $j$번째 데이터 : $i$번째 수준의  $j$번째 반복된 반응값

$\mu$는 전체평균

$(\mu_i-\mu)$는 $i$번째 수준의 수준효과

$\varepsilon_{ij}$는 오차항

일원배치 모형식에서 전체평균($\mu$)은 더해지고 빼집니다. 그래서 나온 항인 $(\mu_i-\mu)$는 수준효과입니다. 따라서 수준효과($(\mu_i-\mu)$)는 그 수준이 전체평균과 얼마의 차이가 나는지를 나타내는 항입니다. $i$번째 집단(수준, 범주, 카테고리)에서의 수준효과를 $\tau_i$로 표현합니다.

$$\,mu_i-\mu=\tau_i$$

여기서,  $\mu_i$는 $i$번째 수준의 모평균

$\mu$는 전체 모평균

$\tau_i$는 $i$번째 수준의 수준효과

오차항의 등분산 모델링 (등분산 가정)

오차항을 제곱하여 모두 더하면 다음식과 같이 오차항의 변동이 됩니다. 

$$Q=\sum_{i=1}^{a}\sum_{j=1}^{n}\varepsilon_{ij}^2=\sum_{i=1}^{a}\sum_{j=1}^{n}(y_{ij}-\mu-\tau_i)^2$$

여기서, $Q$는 오차항의 변동

$y_{ij}$는 $i$번째 수준의 $j$번째 데이터

$\mu$는 전체 모평균

$\tau_i$는 $i$번째 수준의 수준효과

오차항의 변동을 전체평균($\mu$)으로 미분하면 0이 됩니다. 즉, 전체평균이 변하더라도 오차항은 변하지 않는다고 모델링합니다. 그리고 수준효과의 합은 0입니다. 이유는 수준효과는 확률변수이고 수준효과의 평균은 전체평균이라고 모델링한 결과입니다.

$$\dfrac{d}{d\mu}Q = 2\sum_{i=1}^{a}\sum_{j=1}^{n}(y_{ij}-\mu-\tau_i)(-1) = \sum_{i=1}^{a}\sum_{j=1}^{n}y_{ij}-an\mu-n\sum_{i=1}^{a}\tau_i=0
$$

여기서,   $\sum\limits_{i=1}^{a}\tau_i=0$ : 수준효과의 평균은 0

따라서, 

$$\sum_{i=1}^{a}\sum_{j=1}^{n}y_{ij}=an\mu$$

여기서,  $a$는 수준(카테고리, 범주, 집단)의 수

$n$은 각 수준에서의 반응값(데이터)의 수

$\mu$는 전체평균

전체평균의 추정값으로 정리하면

$$
\hat{\mu}  = \dfrac{\sum\limits_{i=1}^{a}\sum\limits_{j=1}^{n}y_{ij}}{an} = \dfrac{\bar{y_1}+\bar{y_2}+\cdots+\bar{y_n}}{a} = \bar{\bar{y}} $$

여기서,  $\bar{\bar{y}}$는 수준들의 평균($\bar {y_i}$)의 평균이라는 의미 : y double bar(와이 더블 바)라 읽음

한편, 오차항의 변동을 각 수준의 수준효과($\tau_i$)로 미분하면 0이 됩니다. 즉, 수준효과가 변화하더라도 오차항의 변동은 나타나지 않는다는 모형입니다.

$$
\dfrac{d}{d\tau_i}Q  = 2\sum_{j=1}^{n}(y_{ij}-\mu-\tau_i)(-1) 
 = \sum_{j=1}^{n}y_{ij}-n\mu-n\tau_i=0 
$$

따라서

$$\sum_{j=1}^{n}y_{ij}-n\mu-n\tau_i=0 $$

결과적으로

$$n\tau_1=\sum_{j=1}^{n}y_{ij}-n\mu \,\,\,\, \Rightarrow  \,\,\,\,  \tau_i=\dfrac{\sum\limits_{j=1}^{n}y_{ij}}{n}-\mu $$

여기서,  $$\dfrac{\sum\limits_{j=1}^{n}y_{ij}}{n}= \mu_i$$

$i$번째 수준에서의 수준효과($\tau_i$)로 정리하면

$$\tau_i=\mu_i-\mu$$

각 수준에서의 수준효과를 추정량으로 표현하면

$$\hat{\tau_i}=\bar{Y_i}-\bar{\bar{y}}$$

여기서,  $i=1,2,3,\cdots,a$

$\bar{\bar{y}}$는 수준평균의 평균 : $\bar{\bar{y}}=\hat \mu$

$\hat{\mu}(\bar{\bar{y}})$과 $\hat{\tau_1}$은 불편추정량입니다.


2.2. 분산분석(ANalysis Of VAriable)

이원배치분산분석 (Two-way ANOVA, 이원분산분석)

이원배치분산분석에서 반응변수의 총 변동은 원인변수(요인) A에 의한 변동과 원인변수(요인) B로 인한 변동과 원인변수 A와 원인변수 B의 교호작용에 의한 변동으로 나눠집니다. 여기서, 원인변수는 범주형이거나 이산형이지만 분산분석(ANOVA)이라 하면 범주형을 의미합니다. 분산분석을 할 때 반응변수 $Y$의 총변동이 어떠한 원인(요인, 요소)에 의한 변동으로 분리되는지에 대한 고려가 중요합니다. 이를 위해 각 범주형 원인변수에 의해 구분된 수준의 표본평균 표집의 분산을 분석합니다. 분산을 분석하기에 앞서 각 원인변수의 변동을 구하는데 각 원인변수로 구분된 수준(집단)의 변동을 구하고 분산을 구하여 분석합니다.  분산분석을 통해 각 원인변수가 반응변수에 상대적으로 각각 얼마만큼의 영향을 미치고 있는지를 분석합니다. 예를 들어 이원배치분산분석(이원분산분석)에서 두 원인변수가 서로 독립이면 두 변동을 합치면 되지만 서로 독립이 아니면 교호작용에 의해 나타난 변동도 총변동에 더해져야 합니다. 반응변수의 총변동에서 어떤 원인변수에 의한 변동이 상대적으로 크게 차지하면 그 원인변수는 반응변수에 더 큰 영향을 미친다고 볼 수 있습니다.

$$SS_T=SS_A+SS_B+SS_{AB}+SS_E$$

여기서, $SS_T$는 반응변수로 표현된 특성의 총변동 : Sum of Square Total

$SS_A$는 요인 A에 의한 변동 : Sum of Square A

$SS_B$ 는 요인 B에 의한 변동 : Sum of Square B

$SS_{AB}$는 요인 간의 교호작용에 의한 변동 : Sum of Square AB

$SS_E$는 오차에 의한 변동 : Sum of Square Error

분산분석(ANOVA)을 위한 오차항의 둥분산 가정

$\varepsilon_{ij}$는 $iid$이고  평균 0 , 분산 $\sigma^2$인 정규분포입니다.

확률변수함수

반응변수는 확률변수이며 종속변수입니다. 그리고 원인변수(요인변수, 인자)는 독립변수입니다. 분산분석(ANOVA)은 원인변수가 확률변수가 아니더라도 진행할수 있습니다.

분산분석(ANOVA) F검정

분산분석 F검정에서의 귀무가설($H_0$)은 “모든 수준의 형균은 같다”입니다. 귀무가설이 기각되었을 때 나타나는 대립가설($H_1$)은 “최소한 한 평균은 같지 않다.”입니다. 분산분석 F검정을 해서 만약,  모든 평균들이 같은 경우, 즉,  F검정에서 $p$값이 0.05보다 큰 값이 나와서 귀무가설을 기각하지 못하고 귀무가설을 채택하면 모든 수준의 평균이 같다고 할 수 있습니다. 만일, 분산분석의 F검정에서 유의확률($p$)값이 제시되는 유의수준($\alpha$)보다 작게 나와서 귀무가설을 기각하게 되는 경우, 대립가설에서는 구체적이고 명확한 결과를 말하지는 않습니다. 이것은 모든 수준별 모평균이 같다고 한 귀무가설의 영향입니다. 즉, 귀무가설이 기각되더라도 하나의 대립가설이 채택되지는 않고 여러개의 대리가설이 제시됩니다.

 


2.3. 설명강의

– 준비 중


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 용어

4.1 용어


제목

내용.

 

Reference

Title – Wikipedia


4.2. 참조


Reference

Wikipedia