한 결과변수의 변동 - 범주형 원인변수

[총변동량 보존]

총변동량은 회귀변동량과 잔차변동량의 합 

모집단에 에너지 가감없음 – 無상태

모집단의 총변동량 고정 – 無상태

모평균과 모분산은 고정 – 無상태

[새로운 확률변수]

표본평균표본분산은 확률변수

모확률분포, 표본평균, 표본분산 표집 확률분포는 표본크기에 따른 관계법칙있음

[중심극한정리]

표본평균은 표본크기가 커질수록 모평균을 중심으로  표집(왜도감소, 첨도증가)

표본분산은 표본크기가 커질수록 모분산을 중심으로 표집(왜도감소, 첨도증가)

[회귀]

표집의 확률분포는 표본크기가 커질수록 회귀점에 수렴


에너지 가감으로 인한 범주의 선변동량 변화

[총변동량 변화]

총변동량은 회귀변동량과 잔차변동량의 합

모집단 또는 표본에 에너지 가감있음

표본의 총변동량 변화

표본평균과 표본분산 변화

[등분산가정]

개체의 분산 고정

표본의 잔차변동량 고정

표본분산 고정 : $S_Y^2=\sigma_Y^2$

개체의 집단내변동 고정

표본의 잔차변동량 고정

집단내분산 고정


표준화된 변동량 크기 비교

[표준오차]

표본평균의 표준오차는 표본평균 표집의 표준편차

표본분산의 표준오차는 표본분산 표집의 표준편차

[검정]

모분산을 모르는 경우 : F검정, t검정

모분산을 아는 경우 : Z검정

[유의확률 p-value]

F검정 : $F_{\nu_{Reg}, \,\, \nu_{Res}}$

t검정 : $t_{\nu_{Res}}$

Z검정 : $Z$

[유의수준 $\alpha$]

F검정 : $F_{\nu_{Reg}, \,\, \nu_{Res} \,\, ; \,\, \alpha}$

t검정 : $t_{\nu_{Res} \,\, ;\alpha \,\, {\rm or} \,\, \frac{\alpha}{2}}$

Z검정 : $Z_{\alpha \,\, {\rm or} \,\, \frac{\alpha}{2}}$


표본변동 등식


표본자유도 등식


표본변동 표준화


확률변수 변환식


연속형 결과변수(물의 어는 온도) –  Binomial 원인변수(기름첨가)의 회귀분석 : 단일표본 – 변수 1개 : 주어진 모집단(모평균=0)과 표본비교

모집단을 모평균과 모분산으로 표현 : 無상태의 평균(모평균)이 0

 

표본평균($\bar Y$)이 회귀점(모평균점 : $Y=Y_0=\beta_0=0$)으로 회귀

표본평균($Y=\bar Y=\hat{\beta}_0$)을 원점으로 하는 위치가 잔차


단일표본


연구가설 $H$ : 표본의 모집단과 주어진 모집단이 다르다

귀무가설 $H_0$ : 표본평균 표집의 평균이 0 : $\mu_{\bar Y}=Y_0=0$

중심극한정리 : 관측한 표본평균 표집의 평균이 모평균과 근사

등분산가정 $A_1$ : 표본분산($S_Y^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$

 

$$\sum\limits_{i=1}^{n}{Y_i}^2=n{\bar Y}^2 + \sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2$$

$$n\mathrm{E}[Y^2]=n\mathrm{E}[Y]^2 +(n-1)\mathrm{E}[(Y-\bar{Y})^2]$$

 

$$\mathrm{E}[Y^2]=\mathrm{E}[Y]^2 +\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\mathrm{E}[Y^2]-\mathrm{E}[Y]^2 =\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\sigma_{Y}^2-0 =\dfrac{n-1}{n}S_Y^2=\sigma_{Res}^2$$

 

따라서,  $\sigma_{Y}^2-0=\sigma_{Res}^2=\dfrac{n-1}{n}S_Y^2$


$$n=1+ (n-1)$$

 

여기서,  $n=n_{Y}$


$$SS_T=SS_{Reg} + SS_{Res}$$

 

$$\sum\limits_{i=1}^{n}{Y_i}^2=n{\bar Y}^2 + \sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2$$

$$n\mathrm{E}[Y^2]=n\mathrm{E}[Y]^2 +(n-1)\mathrm{E}[(Y-\bar{Y})^2]$$

 

$$\mathrm{E}[Y^2]=\mathrm{E}[Y]^2 +\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\mathrm{E}[Y^2]-\mathrm{E}[Y]^2 =\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\sigma_{Y}^2-0 =\dfrac{n-1}{n}S_Y^2=\sigma_{Res}^2$$

 

따라서,  $\sigma_{Y}^2-0=\sigma_{Res}^2=\dfrac{n-1}{n}S_Y^2$


$$F_{1 , n-1}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{n\bar{Y}^2}{S_Y^2}$$

$$t_{n-1}=\sqrt{\dfrac{n\bar{Y}^2}{S_Y^2}}=\dfrac{\bar Y}{\dfrac{S_Y}{\sqrt{n}}}=\dfrac{\bar Y}{\mathrm{SE}(\bar Y)}$$

$$Z= \dfrac{\bar Y}{\sigma_{\bar Y}}=\dfrac{\bar Y}{\dfrac{\sigma_Y}{\sqrt{n}}}$$


연속형 결과변수(성적)와 Binomial 원인변수(데이터링크 수업)의 회귀분석 : 단일표본 –  변수 1개 : 주어진 모집단(모평균=$\mu_{Y0}$)과 표본비교

모집단을 모평균과 모분산으로 표현 : 無상태의 평균(모평균)이 $Y_0$

 

표본평균($\bar Y$)이 회귀점(모평균점 : $Y=Y_0=\beta_0$)으로 회귀

표본평균($Y=\bar Y=\hat{\beta}_0$)을 원점으로 하는 위치가 잔차


단일표본


연구가설 $H$ : 표본의 모집단과 주어진 모집단이 다르다

귀무가설 $H_0$ : 표본평균 표집의 평균이 $Y_0$ : $\mu_{\bar Y}=Y_0$

중심극한정리 : 관측한 표본평균 표집의 평균이 모평균과 근사

등분산가정 $A_1$ : 표본분산($S_Y^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$

 

$$\sum_{i=1}^{n}(Y_i-Y_0)^2=n({\bar Y}-Y_0)^2 + \sum_{i=1}^{n}(Y_i-{\bar Y})^2$$

$$n\mathrm{E}[(Y-Y_0)^2]=n\mathrm{E}[(Y-Y_0)]^2 +(n-1)\mathrm{E}[(Y-\bar{Y})^2]$$

 

$$\mathrm{E}[(Y-Y_0)^2]=\mathrm{E}[(Y-Y_0)]^2 +\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\mathrm{E}[(Y-Y_0)^2]-\mathrm{E}[(Y-Y_0)]^2 =\dfrac{n-1}{n}\mathrm{E}[(Y-\bar{Y})^2]$$

$$\sigma_{(Y-Y_0)}^2-Y_0^2=\dfrac{n-1}{n}S_Y^2 =\sigma_{Res}^2$$

 

여기서,  $\dfrac{n-1}{n}S_Y^2=\sigma_{Res}^2$


$$n=1+ (n-1)$$

 

여기서, $n=n_{Y}$


$$MS_T=\frac{SS_{T}}{n}=\dfrac{\sum\limits_{i=1}^{n}(Y_i-Y_0)^2}{n}$$

$$MS_{Reg}=\frac{SS_{Reg}}{1}=\dfrac{n(\bar{Y}-Y_0)^2}{1}$$

$$ MS_{Res}=\frac{SS_{Res}}{n-1}=\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2}{n-1}$$

 

여기서,  $MS_T=\mathrm{E}[Y^2]$

$MS_{Reg}=n\mathrm{E}[Y]^2$

$MS_{Res}=\mathrm{E}[(Y-\bar{Y})^2]$

$MS_{Res}≡S_{Y}^2=S_{YY}=\dfrac{n}{n-1}\sigma_Y^2$


$$F_{1 , n-1}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{n(\bar{Y}-Y_0)^2}{S_Y^2}$$

$$t_{n-1}=\sqrt{\dfrac{n(\bar{Y}-Y_0)^2}{S_Y^2}}=\dfrac{(\bar{Y}-Y_0)}{\dfrac{S_Y}{\sqrt{n}}}=\dfrac{(\bar{Y}-Y_0)}{{\rm SE}(\bar Y)}$$

$$Z = \dfrac{(\bar{Y}-Y_0)}{\sigma_{\bar Y}}=\dfrac{(\bar{Y}-Y_0)}{\dfrac{\sigma_Y}{\sqrt{n}}}$$


한 연속형 확률변수의 차이인 결과변수(딸기당도 차이)와 Binomial 원인변수(저온숙성)의 회귀분석 : 대응차이표본 –  차이변수 1개 : 개체의 한 변수를 시간적 차이를 두고 비교

대응차이모집단을 모평균과 모분산으로 표현 : 無상태의 평균(모평균)이 0

대응차이 : $D=\left|{Y}_2 – {Y}_1\right|$,   $Y_1$과 $Y_2$는 대응(paired)

대응차이표본평균($\bar D$)이 회귀점(모평균점 : $D=\mu_D=\beta_0=0$)으로 회귀

대응차이표본평균($D=\bar D=\hat{\beta}_0$)을 원점으로 하는 위치가 잔차


대응차이표본

 $D$의 원점과 $Y$의 원점이 일치할 때 $\sigma_D^2=2\sigma_Y^2$


연구가설 $H$ : 대응된 두 집단이 다르다

귀무가설 $H_0$ : 대응차이표본평균 표집의 평균이 0 : $\mu_{\bar D}=D_0=0$

중심극한정리 : 관측한 대응차이표본평균이 주어진 모평균에 근사

등분산가정 $A_1$ : 표본분산($S_Y^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$


$$n= 1 + (n-1)$$

 

여기서, $n=n_{D}=n_{Y_1}=n_{Y_2}$


$$MS_T=\dfrac{SS_{T}}{n}=\dfrac{\sum\limits_{i=1}^{n}{D_i}^2}{n}$$

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=\dfrac{n{\bar D}^2}{1}$$

$$MS_{Res}=\dfrac{SS_{Res}}{(n-1)}=\dfrac{\sum\limits_{i=1}^{n}(D_i-\bar{D})^2}{n-1}=S_D^2$$

 

여기서,  $D=\left|{Y}_2 – {Y}_1\right|$

$Y_1$과 $Y_2$는 대응(paired)


$$F_{1,n-1}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{n\bar{D}^2}{S_D^2}$$

$$t_{n-1}=\sqrt{\dfrac{n\bar{D}^2}{S_D^2}}=\dfrac{\bar {D}}{\dfrac{S_D}{\sqrt{n}}}=\dfrac{\bar D}{\mathrm{SE}(\bar D)}$$

$$Z=\dfrac{\bar D}{\sigma_{\bar D}}=\dfrac{\bar D}{\dfrac{\sigma_D}{\sqrt{n}}}$$


두 연속형 확률변수의 차이로 생성된 새로운 결과변수(등심지방함량과 설도지방함량 차이)의 회귀분석 : 대응차이표본 – 차이변수 1개 : 한 개체의 두 변수를 비교

대응차이모집단을 모평균과 모분산으로 표현 : 無상태의 평균(모평균)이 ${\bar D}_0$

대응차이 : $D=\left|{Y}_2 – {Y}_1\right|$,  $Y_1$과 $Y_2$는 대응(paired)

대응차이표본평균($\bar D$)이 회귀점(모평균점 : $D=D_0=\beta_0$)으로 회귀

대응차이표본평균($D=\bar D=\hat{\beta}_0$)을 원점으로 하는 위치가 잔차


대응차이표본

 $D$의 원점과 $Y$의 원점이 일치할 때 $\sigma_D^2=2\sigma_Y^2$


연구가설 $H$ : 대응된 두 집단이 다르다

귀무가설 $H_0$ : 대응차이표본평균 표집의 평균이 0 : $\mu_{\bar D}=D_0$

중심극한정리 : 관측한 대응차이표본평균이 주어진 모평균에 근사

등분산가정 $A_1$ : 표본분산($S_Y^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$


$$n= 1 + (n-1)$$

 

여기서, $n=n_{D}=n_{Y_1}=n_{Y_2}$


$$MS_T=\dfrac{SS_{T}}{n}=\dfrac{\sum\limits_{i=1}^{n}{D_i}^2}{n}$$

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=\dfrac{n(\bar D-D_0)^2}{1}$$

$$MS_{Res}=\dfrac{SS_{Res}}{(n-1)}=\dfrac{\sum\limits_{i=1}^{n}(D_i-\bar{D})^2}{n-1}=S_D^2$$

 

여기서,  $D=\left|Y_2-Y_1\right|$

$\bar D=\left|{\bar Y_2}-{\bar Y_1}\right|$

$Y_1$과 $Y_2$는 대응(paired)


$$F_{1,n-1}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{n(\bar{D}-D_0)^2}{S_D^2}$$

$$t_{n-1}=\sqrt{\dfrac{n(\bar{D}-D_0)^2}{S_D^2}}=\dfrac{(\bar{D}-D_0)}{\dfrac{S_D}{\sqrt{n}}}=\dfrac{(\bar{D}-D_0)}{\mathrm{SE}(\bar D)}$$

$$Z=\dfrac{(\bar{D}-D_0)}{\sigma_{\bar D}}=\dfrac{(\bar{D}-D_0)}{\dfrac{\sigma_D}{\sqrt{n}}}$$


한 연속형 결과변수(당도, 지방함량)와 한 범주형 원인변수(품종, 생년)의 회귀분석 : 독립차이표본 – 범주차이변수 1개 or 범주비율변수 1개 : 두 범주를 비교

독립차이모집단은 모평균과 모분산으로 표현 : 無상태의 평균(모평균)이 $D_0$

독립차이 : $D=\left| \bar Y_2-\bar Y_1 \right|$

독립차이표본평균($\bar D$)이 회귀점(구한 표본평균점 : $D=\bar D=\hat {\beta_0}$)으로 회귀

표본평균($Y=\bar {Y_{k}}$)을 원점으로 하는 위치가 잔차


독립차이표본


연구가설 $H$ : 독립된 두 집단이 다르다

귀무가설 $H_0$ : 독립차이표본평균 표집의 평균이 $\mu_{D0}$ : $\mu_{\bar D}=\mu_{D0}$

중심극한정리 : 관측한 독립차이표본평균이 주어진 모평균에 근사

등분산가정 $A_1$ : 표본분산($S_{Y_k}^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$


$$n-1=(k-1)+ (n-k)$$

$k=2$

 

여기서,  $k$는 범주 개수

$n=n_Y=n_{Y_1} + n_{Y_2}$


$$MS_T=\dfrac{SS_{T}}{n-1}$$

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=\dfrac{n_{Y_1}+n_{Y_2}}{n_{Y_1}n_{Y_2}}({\bar Y}_2-{\bar Y}_1)^2$$

$$MS_{Res}=\dfrac{SS_{Res}}{n-2}=S_P^2$$

 

여기서,  $S_{p}^{2}=\dfrac{(n_{Y_1}-1)S_{Y_1}^{2}+(n_{Y_2}-1)S_{Y_2}^{2}}{n_{Y_1}+n_{Y_2}-2}$


$$F_{1,n-2}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{{\dfrac{n_{Y_1}+n_{Y_2}}{n_{Y_1}n_{Y_2}}}{({\bar Y}_2-{\bar Y}_1)^2}}{S_P^2}$$

$$t_{n-2}=\sqrt{\dfrac{{\dfrac{n_{Y_1}+n_{Y_2}}{n_{Y_1}n_{Y_2}}}{({\bar Y}_2-{\bar Y}_1)^2}}{S_P^2}}=\dfrac{\left|{\bar Y}_2-{\bar Y}_1\right|}{\dfrac{S_P}{\sqrt{\dfrac{n_{Y_1}n_{Y_2}}{n_{Y_1}+n_{Y_2}}}}}$$

$$t_{n-2}=\dfrac{\left|{\bar Y}_2-{\bar Y}_1\right|-D_0}{\dfrac{S_P}{\sqrt{\dfrac{n_{Y_1}n_{Y_2}}{n_{Y_1}+n_{Y_2}}}}}=\dfrac{\left|{\bar Y}_2-{\bar Y}_1\right|-D_0}{\mathrm{SE}({\bar Y}_2-{\bar Y}_1)}$$


한 연속형 결과변수(당도, 도체중)와 한 범주형 원인변수(생월, 지역)의 회귀분석 : 독립표본 – 범주비율변수 1개 : 회귀와 잔차를 비교

범주로 구분된 모집단은 범주간분산과 범주내분산을 가짐 : 無상태의 분산비 $F_0$

분산비 : $F=\dfrac{MS_{Reg}}{MS_{Res}}$

범주로 구분된 독립표본평균($\bar Y_k$)이 회귀점(구한 표본평균점 : $Y=\mu_{\bar Y}=\hat {\beta_0}$)으로 회귀

표본평균($Y=\bar {Y_{k}}$)을 원점으로 하는 위치가 잔차


독립표본

 

범주간분산 → 집단간분산,  범주내분산 → 집단내분산

집단간분산과 집단내분산의 비는 F분포


연구가설 $H$ : 범주로 구분된 독립된 여러 집단이 다르다

귀무가설 $H_0$ : 집단간분산과 집단내분산의 비가 $F_0$

총변동량보존(중심극한정리) : 회귀변동량과 잔차변동량의 합은 일정

등분산가정 $A_1$ : 표본분산($S_{Y_k}^2$)은 모두 같은 값을 가짐


$$SS_T=SS_{Reg} + SS_{Res}$$


$$n-1=(k-1)+ (n-k)$$

 

여기서,  $k$는 범주 개수

$n=n_Y=n_{Y_1} + n_{Y_2} + \cdots + n_{Y_k}$


$$MS_T=\frac{SS_{T}}{n-1}$$

$$MS_{Reg}=\frac{SS_{Reg}}{k-1}$$

$$ MS_{Res}=\frac{SS_{Res}}{n-k}$$


$$F_{k-1, n-k}=\dfrac{MS_{Reg}}{MS_{Res}}$$


한 결과변수의 변동 - 수치형 원인변수

[총변동량 보존]

총변동량은 회귀변동량과 잔차변동량의 합 

모집단에 에너지 가감없음 – 無상태

모집단의 총변동량 고정 – 無상태

모평균과 모분산은 고정 – 無상태

[새로운 확률변수]

표본평균표본분산은 확률변수

표본공분산표본상관계수표본결정계수표본회귀계수는 확률변수

모확률분포, 표본평균, 표본분산 표집 확률분포는 표본크기에 따른 관계법칙있음

[중심극한정리]

표본평균은 모평균을 중심으로 표집

표본분산은 모분산을 중심으로 표집

[회귀]

표집의 확률분포는 표본크기가 커질수록 회귀점에 수렴


에너지 가감으로 인한 범주의 각변동량 변화

[총변동량 변화]

총변동량은 회귀변동량과 잔차변동량의 합

모집단 또는 표본에 에너지 가감있음

표본의 총변동량 변화

표본평균($\bar Y$)과 표본분산 변화

[등분산가정] – SE(기울기)

표본의 잔차변동량 고정

표본분산($S_Y^2=\sigma_Y^2$) 고정

개체의 집단내변동 고정

표본의 잔차변동량 고정

집단내분산 고정


표준화된 변동량 크기 비교

[표준오차]

표본평균 표집의 표준편차는 표본평균의 표준오차

[검정]

모분산을 모르는 경우(단일표본 F검정, 단일표본 t검정)

모분산을 아는 경우(단일표본 Z검정)


변동 등식 / 변동 부등식


자유도 등식


분산식


확률변수 변환식


두 연속형 변수(당도와 과중, 마블링스코어와 등심지방함량) 상관분석 : 대응비표본 – 연속형 변수 2개  : 공분산과 표준편차곱 비 비교 – 표본상관계수 t검정

두 변수를 가지는 점들의 집합(범주)의 공분산은 엔트로피가 가장 클 때 0에 수렴하고 엔트로피가 가장 작을 때 즉, 선형관계가 있을 때 가장 큼(선형의 계수는 범주안의 에너지 양이 변하면 변 할 수 있음)

엔트로피가 가장 작을때의 공분산의 값은 두 변수의 표준편차곱과 같음 (증명은 …)

엔트로피(무질서도) 법칙 : 시간에 따라 엔트로피는 항상 커짐

피어슨상관계수는 공분산과 두 변수의 표준편차곱의 비 : -1부터 1까지의 값, 제곱을 하면 1결과 1원인의 결정계수가 되며 이는 점들의 선형관계 확률을 나타냄. 즉, 회귀직선의 적합성

회귀점으로 투영하면 공분산과 편차곱의 비는 항상 1 – 자기자신 같음의 의미 – Autocorrelation (뱐복관측)  – 피어슨 카이제곱검정


독립된 표본(범주)들의 공분산제곱, X의 분산, Y의 분산 : 無상태의 상관계수가 $r_0=S_XS_Y$

표본의 회귀계수: 無상태의 표본평균점과 기울기가 $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$

회귀 : 표본의 관측한 회귀직선은 모집단의 회귀직선으로 회귀$\mu_{Y0X0}$과 $\beta_{1}$으로 회귀

잔차 : 표본을 이루는 점들은 표본의 회귀직선을 중심으로 분포 :  $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$을 중심으로 분포


단일표본

표본에 있는 독립 변수 값의 개수 : $n \times n$


연구가설 $H$ : 두 변수가 다르다

귀무가설 $H_0$ : 집단간상관계수와 집단상관계수의 비가 $t_0$

총변동량보존(중심극한정리) : 회귀변동량과 잔차변동량의 합은 일정

등분산가정 $A_1$ : 집단간기울기와 집단내기울기의 비는 카이제곱분포


$$(SM_{XY})^2 ≤ SS_{Y}SS_{X}$$

$$(MM_{XY})^2≤ MS_{X}MS_{Y}$$

$$S_{XY}≤ S_{X}S_{Y}$$

 

여기서,  $M_{XY}$는 $X$와 $Y$의 곱

$SM_{XY}$는 $X$와 $Y$의 곱의 합

$MM_{XY}$는 $X$와 $Y$의 곱의 평균

$S_{XY}$는 표본공분산

$SS_{Y}$는 $Y$제곱의 합

$SS_{X}$는 $X$제곱의 합

$MS_{Y}$는 $Y$제곱의 평균 : $Y$제곱의 원점은 표본평균

$MS_{Y}$는 $Y$의 표본분산 : $S_Y^2$ 또는 $S_{YY}$로 표기

$MS_{X}$는 $X$제곱의 평균 : $X$제곱의 원점은 표본평균

$MS_{X}$는$X$의 표본분산 : $S_X^2$ 또는 $S_{XX}$로 표기


$$n^2=(n+n-1)+(n-1)^2$$

 

여기서,  $n=n_{Y}=n_{X}$


$$(MM_{XY})^2=\dfrac{(SM_{XY})^2}{(n-1)^2}=S_{XY}^2$$

$$MM_{XY}=\dfrac{SM_{XY}}{n-1}=S_{XY}$$

$$MS_{Y}=\dfrac{SS_{Y}}{n-1}=S_{Y}^2$$

$$MS_{X}=\dfrac{SS_{X}}{n-1}=S_{X}^2$$


표본피어슨상관계수 점추정량

$$r_{XY}=\dfrac{MM_{XY}}{\sqrt{MS_X}\sqrt{MS_Y}}=\dfrac{S_{XY}}{S_X S_Y}$$

 

표본결정계수 점추정량

$$R_{Y}^2=\dfrac{(MM_{XY})^2}{MS_X MS_Y}=\dfrac{S_{XY}^2}{S_X^2 S_Y^2}$$


두 범주형 확률변수(품종과 당도등급, 유전자형과 마블링스코어)의 교차분석 : 대응비표본 – 범주형 확률변수 2개  : 기대빈도수와 관찰빈도수 차이(비) 비교 – 카이제곱검정

독립된 표본(범주)들의 공분산제곱, X의 분산, Y의 분산 : 無상태의 결정계수가 $R_0^2$

표본의 회귀계수 가짐 : 無상태의 표본평균점과 기울기 $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$

회귀 : 표본의 관측한 회귀직선은 모집단의 회귀직선으로 회귀$\mu_{Y0X0}$과 $\beta_{1}$으로 회귀

잔차 : 표본을 이루는 점들은 표본의 회귀직선을 중심으로 분포 :  $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$을 중심으로 분포


단일표본

표본에 있는 독립 범주수 : $r \times c$


연구가설 $H$ : 두 집단이 다르다

귀무가설 $H_0$ : 집단간기울기와 집단내기울기의 비가 $F_0$

총변동량보존(중심극한정리) : 회귀변동량과 잔차변동량의 합은 일정

등분산가정 $A_1$ : 집단간기울기와 집단내기울기의 비는 카이제곱분포


$$(SM_{XY})^2 ≤ SS_{Y}SS_{X}$$

$$(MM_{XY})^2≤ MS_{X}MS_{Y}$$

$$S_{XY}≤ S_{X}S_{Y}$$


$$r \times c=(r+c-1)+(r-1)(c-1)$$

 

여기서,  $n=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}n_{ij}$


$$(MM_{XY})^2=\dfrac{(SM_{XY})^2}{(r-1)(c-1)}=S_{XY}^2$$

$$MM_{XY}=\dfrac{SM_{XY}}{(r-1)(c-1)}=S_{XY}$$

$$MS_{Y}=\dfrac{SS_{Y}}{r-1}=S_{Y}^2$$

$$MS_{X}=\dfrac{SS_{X}}{c-1}=S_{X}^2$$


$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$

 

여기서 $O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수

$\alpha$는 유의수준


결과변수(당도,  마블링스코어)와 원인변수(출하월, 등심지방함량)의 상관회귀분석 – 회귀직선의 적합성 : 단일표본 – 연속형 결과변수 1개, 연속형 원인변수 1개  : 회귀와 잔차 비교

독립된 표본(범주)들의 공분산제곱, X의 분산, Y의 분산 : 無상태의 결정계수가 $R_0^2$

표본의 회귀계수 : 無상태의 표본평균점과 기울기 $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$

회귀 : 표본의 관측한 회귀직선은 모집단의 회귀직선으로 회귀$\mu_{Y0X0}$과 $\beta_{1}$으로 회귀

잔차 : 표본을 이루는 점들은 표본의 회귀직선을 중심으로 분포 :  $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$을 중심으로 분포


단일표본


연구가설 $H$ : 간격을 아는 범주로 구분된 독립된 여러 집단이 다르다

귀무가설 $H_0$ : 집단간결정계수와 집단내결정계수의 비가 $F_0$

총변동량보존(중심극한정리) : 회귀변동량과 잔차변동량의 합은 일정

등분산가정 $A_1$ : 집단간결정계수와 집단내결정계수의 비는 F분포


$$SS_{T}=SS_{Reg}+SS_{Res}$$


$$n-1=(2-1)+(n-2)$$

 

여기서,  $n=\sqrt{n_{Reg}+n_{Res}}$

$R^2=\dfrac{n_{Reg}}{n}$

 

회귀범주 1개와 잔차범주 1개

기준은 잔차범주(등분산)

따라서, 회귀변동의 자유도는 (2-1)


$$MS_{T}=\dfrac{SS_T}{n-1}$$

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=S_{Reg}^2$$

$$MS_{Res}=\dfrac{SS_{Res}}{n-2}=S_{Res}^2={\rm SE}(Residual)$$


$$R_Y^2≡\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS{Res}}$$

$$=\dfrac{MS_{Reg}}{MS_{Reg}+(n-2)MS_{Res}}=\dfrac{F_{1,n-2}}{F_{1,n-2}+(n-2)}$$

 

$$F_{1,n-2}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{(n-2)R_Y^2}{1-R_Y^2}$$

$$t_{n-2}=\sqrt{\dfrac{(n-2)R_Y^2}{1-R_Y^2}}=\dfrac{R_Y}{\dfrac{\sqrt{1-R_Y^2}}{\sqrt{n-2}}}=\dfrac{r_{XY}}{\mathrm{SE}(r_{XY})}$$

 

표본결정계수

$$R_Y^2≡\dfrac{SS_{Reg}}{SS_T}=1-\dfrac{SS_{Res}}{SS_{T}}$$


한 결과변수와 여러 원인변수의 중상관회귀분석 – 회귀직선의 적합성 : 단일표본 – 연속형 결과변수 1개와 연속형 원인변수 2개이상 (원인변수 개수 = $p$)  : 회귀와 잔차 비교

독립된 표본(범주)들의 공분산제곱, X의 분산, Y의 분산 : 無상태의 결정계수가 $R_0^2$

표본의 회귀계수: 無상태의 표본평균점과 기울기 $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$

회귀 : 표본의 관측한 회귀직선은 모집단의 회귀직선으로 회귀$\mu_{Y0X0}$과 $\beta_{1}$으로 회귀

잔차 : 표본을 이루는 점들은 표본의 회귀직선을 중심으로 분포 :  $\mu_{{\bar X}{\bar Y}}$과 ${\hat \beta}_{1}$을 중심으로 분포


단일표본


연구가설 $H$ : 간격을 아는 범주로 구분된 독립된 여러 집단이 다르다

귀무가설 $H_0$ : 집단간결정계수와 집단내결정계수의 비가 $F_0$

총변동량보존(중심극한정리) : 회귀변동량과 잔차변동량의 합은 일정

등분산가정 $A_1$ : 집단간결정계수와 집단내결정계수의 비는 F분포


$$SS_{T}=SS_{Reg}+SS_{Res}$$


$n-1=p+(n-p-1)$

 

여기서,  $n=\sqrt{n_{Reg}+n_{Res}}$

$R^2=\dfrac{n_{Reg}}{n}$

 

$p$는 원인변수 개수

여러 원인변수로 인한 회귀는 합해짐

회귀범주 1개와 잔차범주 1개

기준은 잔차범주(등분산)

따라서, 회귀변동의 자유도는 (2-1)


$$MS_{T}=\dfrac{SS_T}{n-1}$$

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=S_{Reg}^2$$

$$MS_{Res}=\dfrac{SS_{Res}}{n-p-1}=S_{Res}^2=\mathrm{SE}(Residual)$$


$$F_{1,n-p-1}=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{(n-p-1)R_Y^2}{1-R_Y^2}$$

$$t_{n-p-1}=\sqrt{\dfrac{(n-p-1)R_Y^2}{1-R_Y^2}}=\dfrac{R_Y}{\dfrac{\sqrt{1-R_Y^2}}{\sqrt{n-p-1}}}=\dfrac{r_{Y}}{\mathrm{SE}(r_{Y})}$$

 

수정결정계수

$$R_{Y}^2=R_{adj}^2=1-\dfrac{\dfrac{SS_{Res}}{n-p-1}}{\dfrac{SS_T}{n-1}}=1-\left(\dfrac{n-1}{n-p-1}\right)\dfrac{SS_{Res}}{SS_T}$$