QA : 5
DATA SCIENCE : 26
TABLE : 6
TERM : 3
eISSN 2280-2211

[ DATA SCIENCE ]

독립된 두 집단의 평균차이

[Q&A]

ARTICLE CONTENTS

Scatter plot

0000-0002-3121-1113
박근철, 양윤원
31 March 2023,
30 April 2023,
04 May 2023,
19 May 2023,
DocuHut Co. Ltd., Seoul, Republic of Korea
24711-D
24711-C

Abstract

독립된 두 확률변수의 차이로 새로운 확률변수를 생성합니다. 이 확률변수의 기대값은 두 확률변수 기대값의 차이로 정의되며, 그 분산은 각 확률변수의 분산의 합으로 계산됩니다. 이러한 분석은 통계적 추론에 있어 핵심적인 역할을 하며, 특히 두 집단의 평균 차이를 검정하는 데 사용됩니다. 독립표본 t-검정은 이러한 원리를 활용하여 두 모평균이 서로 다른지를 평가합니다. 검정 과정에서는 표본평균의 차이를 해당 차이의 표준오차로 나눈 검정통계량을 계산합니다. 등분산 가정 하에, 표본분산을 결합하여 이 표준오차를 추정합니다. 이 과정을 통해, 우리는 실제 세계에서 발생하는 다양한 상황에서 두 그룹 간의 비교 분석을 수행할 수 있는 통계적 근거를 마련할 수 있습니다

Key Word

확률변수, 확률변수 독립, 확률변수값 차이, 카이제곱, t검정

독립된 두 확률변수값의 차이

독립된 두 확률변수의 차이로 새로운 확률변수, $D$가 생성된다고 모델링합니다. 독립된 두 확률변수를 관측하면 두 확률변수값이 실현되는 데 이는 새로운 확률변수의 값(data), $d$가 됩니다. 

한 확률변수($X$)의 전체집단이 독립된 두 집단(Group, 수준, level, 카테고리, category)으로 이루어져 있을 때 두 집단의 확률변수값의 차이인 새로운 확률변수($D$)의 모평균($\mu_D$)은 두 집단의 모평균의 차이입니다. 그리고 모분산($\sigma_D^2$}은  두 집단의 모분산의 합이 됩니다. 두 집단의 확률변수를 $X_1$, $X_2$이라하면 각각의 모평균은 $\mu_{X_1}$, $\mu_{X_2}$라 표현하고 모분산은 각각  $\sigma_{X_1}$, $\sigma_{X_2}$로 나타낼 수 있습니다.

확률변수인 두 집단에서 추출한 두 표본평균도 확률변수입니다. 새로운 확률변수($D$)는 다음과 같이 표현할 수 있습니다.

$$D=diff({\bar {X}_1}, {\bar {X}_2})$  → $D = X_2 – {\bar {X}_1}$  or  $D = X_1 – {\bar {X}_2}$$

여기서,  $X_1$과 $X_2$는 두 확률변수

$\bar {X}_1$과 $\bar {X}_2$는 두 표본평균

새로운 확률변수 $D$의 모평균($\mu_D$)은 두 확률변수의 모평균($\mu_{X_1}$, $\mu_{X_2}$)의 차이가 되어 다음식으로 표현됩니다.

$$\mu_{D} = diff(\mu_{X_2},  \mu_{X_1})$$

여기서,  $\mu_{D}$는 두 집단의 확률변수값의 차이인 새로운 확률변수의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 확률변수의 모평균

새로운 확률변수인 $D$의 모분산($\sigma_{D}^2$)은 두 집단의 모분산($\sigma_{X_1}^2$, $\sigma_{X_2}^2$)의 합이 되어 다음과 같습니다.

$$\sigma_{D}^2=\sigma_{X_1}^2 + \sigma_{X_2}^2$$

여기서,  $\sigma_{D}^2$는 두 변수의 확률변수값의 차이로 생성된 새로운 확률변수의 모분산

$\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

한 확률변수의 확률분포는 그 확률변수를 가지는 개체가 이루는 집단에서 통계적으로 구한 통계적 확률분포와 근사적으로 같다고 할 수 있습니다. 만일, 집단의 개체수가 많아지면 확률변수가 가지는 확률분포는 확률변수를 가지는 개체가 이루는 집단의 확률분포와 더욱더 적합해 집니다 (큰 수의 법칙). 표본도 표본크기를 개체의 수로하는 집단이라고 할 수 있습니다.  따라서 표본에서의 확률변수의 확률분포는 모집단의 확률분포와 근사하다고 볼 수 있으며 표본크기가 커질수록 두 확률분포는 더 적합해 진다고 볼 수 있습니다. 표본에서의 확률분포($f(X \, ; \bar X, S_X^2)$)는 표본통계량 표집의 확률분포(Sampling distribution)와는 다릅니다.

두 집단이 전체집단의 부분집단이라고 할 때 독립된 두 확률변수의 등분산가정을 다음식과 같이 표현할 수 있습니다.

$$\sigma_X^2 = \sigma_{X_1}^2 = \sigma_{X_2}^2$$

여기서, $\sigma_{X}^2$은 전체집단의 모분산 : 모분산이라고 표현한 이유는 표본분산으로 분석하기 위함

$\sigma_{X_1}^2$,  $\sigma_{X_2}^2$은 두 집단의 모분산 : 모분산이라고 표현한 이유는 표본분산으로 분석하기 위함

전체집단 내의 두 집단이므로 표준화된 확률변수(무차원 확률변수)인 $\chi^2$의 등식은 다음과 같습니다.

$$(n -2)\dfrac{S_X^2}{\sigma_X^2}=(n_1-1)\dfrac{S_{X_1}^2}{\sigma_{X_1}^2}+(n_2-1)\dfrac{S_{X_2}^2}{\sigma_{X_2}^2}$$

여기서, $n=n_1 + n_2$

$S_{X}^2$은 전체집단의 표본분산

$\sigma_{X}^2$은 전체집단의 모분산

$S_{X_1}^2$,  $S_{X_2}^2$은 두 집단의 표본분산

$\sigma_{X_1}^2$,  $\sigma_{X_2}^2$은 두 집단의 모분산

두 확률변수가 독립이라면 두 확률변수로 구분된 집단에는 중복되어 있는 개체가 없습니다. 따라서, 표준화된 확률변수(무차원 확률변수)인 $\chi^2$의 등식은 다음과 같습니다.

$$(n_1-1+n_2-1)\dfrac{S_p^2}{\sigma_X^2}=(n_1-1)\dfrac{S_{X_1}^2}{\sigma_{X_1}^2}+(n_2-1)\dfrac{S_{X_2}^2}{\sigma_{X_2}^2}$$

여기서, $S_D^2$은 새로운 확률변수 D의 표본분산

$\sigma_D^2$는 새로운 확률변수 D의 모분산

$S_{X_1}^2$,  $S_{X_2}^2$은 두 집단의 표본분산

$\sigma_{X_1}^2$,  $\sigma_{X_2}^2$은 두 집단의 모분산

$S_p^2$ 는 $S_{ X_1}^2$과 $S_{ X_2}^2$의 통합분산

카이제곱

카이제곱은 표준정규분포를 따르는 확률변수들의 제곱합으로 정의됩니다. 카이제곱 분포의 특성과 중요성은 주로 그 자유도(degree of freedom, df)에 의해 결정되며, 자유도는 카이제곱 분포를 형성하는 독립적인 정규 확률변수의 수입니다. 카이제곱은 $\chi^2$로 표기합니다.

독립된 두 집단으로 이루어진 전체집단에서 추출한 전체표본을 모델링하여 전체표본과 두 표본의 카이제곱의 관계식을 구하면 , 전체표본의 카이제곱은 독립된 두 표본의 카이제곱의 합과 같다는 다음과 같은 카이제곱등식이 성립합니다.

$${(n-2)}\dfrac{S_{X}^2}{\sigma_{X}^2} = {(n_1-1)}\dfrac{S_{X_1}^2}{\sigma_{X_1}^2} + {(n_2-1)}\dfrac{S_{X_2}^2}{\sigma_{X_2}^2}$$

여기서, $\sigma_X^2 = \sigma_{X_1}^2 = \sigma_{X_2}^2$

$$n = n_1 + n_2$$

두 확률변수의 차이
$$D = diff(X_1 , \, X_2)$$

두 확률변수의 차이의 모분산은
$$\sigma_D^2 = \sigma_{X_1}^2 + \sigma_{X_2}^2$$

여기서,  $X$는 전체집단의 확률변수

$X_1$, $X_2$는 전체집단을 이루는 두 집단의 확률변수

$D$는 $X_1$과 $X_2$의 차이로 생성된 확률변수

$\sigma_{X}^2$는 전체집단의 모분산

$S_{X}^2$는 전체집단의 표본분산

  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$S_{X_1}^2$, $S_{X_2}^2$는 두 집단의 표본분산

$n$는 전체집단의 표본크기

$n_1$, $n_2$는 두 집단의 표본크기

불편추정량을 만들기 위해 보정을 행하면 다음식이 성립합니다.

$$\dfrac{n}{n-1}\sigma_{X}^2 ≈ S_X^2$$

$$\dfrac{n_1}{n_1-1}\sigma_{X_1}^2 ≈ S_{X_1}^2$$

$$\dfrac{n_2}{n_2-1}\sigma_{X_2}^2 ≈ S_{X_2}^2$$

여기서,  ≈ 는  점추정(point estimation)

$\sigma_{X}^2$, $\sigma_{X}^2$는 전체집단의 모분산

$S_{X}^2$는 전체집단의 표본분산

$\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$S_{X_1}^2$, $S_{X_2}^2$는 두 집단의 표본분산

독립된 두 확률변수의 차이로 생긴 새로운 확률변수의 카이제곱은 두 확률변수의 카이제곱의 합과 같다는 카이제곱등식은 다음과 같이 표현됩니다.
$${(n – 1)}\dfrac{S_{D}^2}{\sigma_{D}^2} = {(n_1-1)}\dfrac{S_{X_1}^2}{\sigma_{X_1}^2} + {(n_2-1)}\dfrac{S_{X_2}^2}{\sigma_{X_2}^2}$$

여기서, $n = n_1 + n_2$

등분산가정에 의하여
$$\sigma_X^2 = \sigma_{X_1}^2 = \sigma_{X_2}^2$$

보존법칙에 의하여
$$\sigma_D^2 = \sigma_{X_1}^2 + \sigma_{X_2}^2=2\sigma_X^2$$

두 표본분산, $S_{X_1}^2$과 $S_{X_2}^2$의 통합분산(pooled variance)를 $S_p^2$라 하고 다음과 같이 정의하면
$$ S_p^2=2\dfrac{(n -2)}{(n -1)}S_D^2 $$

여기서,  $n=n_1 + n_2$

따라서, 카이제곱등식을 다음과 같이 표현할 수 있습니다.
$${(n_1 + n_2 – 2)}\dfrac{S_{p}^2}{\sigma_{D}^2} = {(n_1-1)}\dfrac{S_{X_1}^2}{\sigma_{X_1}^2} + {(n_2-1)}\dfrac{S_{X_2}^2}{\sigma_{X_2}^2}$$

여기서,  $S_p^2$는 두 표본분산, $S_{X_1}^2$과 $S_{X_2}^2$의 통합분산(pooled variance)

통합분산($S_p^2$)은 $S_{X_1}^2$과 $S_{X_2}^2$의 자유도에 따른 가중평균으로 생각할 수 있습니다.
$$S_p^2 = \dfrac{(n_1 – 1)S_{X_1}^2 + (n_2 – 1)S_{X_2}^2}{(n_1 + n_2 – 2)}$$

통합표준편차($S_p$)는 다음과 같습니다.
$$ S_p = \sqrt{\dfrac{(n_1 – 1)S_{X_1}^2 + (n_2 – 1)S_{X_2}^2}{(n_1 + n_2 – 2)}}$$

독립된 두 표본의 표본평균차이

독립된 두 표본의 표본평균차이로 새로운 확률변수, “독립표본평균차이” 를 생성합니다.

확률변수 $X_1$, $X_2$를 가지는 독립된 두 집단을 가지는 전체집단에서 표본의 크기가 $n$인 표본을 추출하고 추출한 전체표본 내에 각각 $n_1$, $n_2$를 크기로 하는 확률변수 $X_1$, $X_2$의 두 표본이 있는 경우, 두 표본의 평균($\bar X_1$, $\bar X_2$)의 표집의 확률밀도함수는 정규분포를 나타냅니다. 확률변수인 두 표본평균의 차이를 새로운 확률변수, $\bar{D}$)로 표현합니다. 이 새로운 확률변수($\overline D$)의 기대값, ${\rm E}[\overline D]$은 두 집단의 모평균의 차이입니다.  이 또 다른 새로운 확률변수를 “독립표본평균치이” 또는 “표본평균차이” 또는 줄여서 “평균차이”라고 부릅니다.

$$\overline D = \bar {X}_2 – \bar {X}_1$$

독립표본평균차이($\overline D$) 표집의 평균(${\rm E}[\overline D]$)

$${\rm E}[\overline D]=\mu_{D}= \mu_{X_2} – \mu_{X_1}≈\mu_{\bar D}=\mu_{\overline {X_2}}-\mu_{\overline {X_1}}$$

여기서,  ≈ 는 점추정(point estimation)

$\mu_{D}$ 는 독립된 확률변수 차이의 모평균

$\mu_{X_1}$, $\mu_{X_2}$는 두 집단(범주, 카테고리)의 모평균

$\bar X_1$, $\bar X_2$는 두 집단(범주, 카테고리)의 표본평균

독립표본평균차이($\overline D$) 표집의 분산(${\rm Var}[\overline D]$)

표본평균차이($\overline D$)도 확률변수입니다.  표본평균차이($\overline D$) 표집의 분산(${\rm Var}[\overline D]$)은 두 표본평균 표집의 두 분산인$\sigma_{\bar {X_1}}^2$과 $\sigma_{\bar {X_2}}^2$의 합이며 다음과 같습니다.

$${\rm Var}[\overline D]=\sigma_{\overline D}^2=\sigma_{\overline {X_1}}^2+\sigma_{\overline {X_2}}^2= \dfrac{\sigma_{X_1}^2}{n_1} + \dfrac{\sigma_{X_2}^2}{n_2}$$

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

$n_1$, $n_2$는 표본크기

표본평균차이($\overline D)$ 표집의 분산(${\rm Var}[\bar D]$)을 다음과 같이 유도합니다.

$${\rm Var}[\bar D]={\rm Var}[{\bar X}_2-{\bar X}_1]=\sigma_{{\overline X}_1}^2 + \sigma_{{\overline X}_2}^2 – 2{\rm Cov}({\bar X}_2, {\bar X}_1)$$

두 표본이 독립이면 공분산항은 0이 됩니다.

$${\rm Cov}({\bar X}_2, {\bar X}_1)={\rm E}\left[(\bar {X}_2-\mu_{X_2})(\bar {X}_1-\mu_{X_1})\right]=0$$

따라서, 표본평균차이($\bar D$) 표집의 분산은 다음과 같습니다.

$${\rm Var}[\overline D] = \sigma_{\overline {X_1}}^2 + \sigma_{\overline {X_2}}^2 $$

그리고, 표본평균차이($\bar D$) 표집의 표준편차는 다음과 같습니다.

$${\rm SD}(\bar D)= \sqrt{\dfrac{\sigma_{X_1}^2}{n_1}+\dfrac{\sigma_{X_2}^2}{n_2}}$$

여기서, ${\rm \sigma}_{X_1}^2$과  ${\sigma}_{X_2}^2$은 두 집단(범주)의 모분산

$n_1$, $n_2$는 두 표본의 크기

전체집단내에 있는 두 집단이므로 두 집단의 모분산이 같다고 가정한다면 다음식이 성립합니다.

$${\sigma_{X_1}^2}={\sigma_{X_2}^2} $$

여기서,  $\sigma_{X_1}^2$, $\sigma_{X_2}^2$는 두 집단의 모분산

두 모평균 차이 검정

두 모평균 차이는 독립표본 t검정으로 검정합니다.

검정통계량(Test statistic)

독립표본평균차이($\overline D$)의 표준오차(Standard Error)인 ${\rm SE}(\overline D)$는 독립표본평균차이($\overline D$) 표집의 표준편차와 같습니다.

$${\rm SE}(\overline D) = \sqrt{\mathrm Var[\overline D]} = \sqrt {\dfrac{\sigma_{X_1}^2}{n_1} +\dfrac {\sigma_{X_2}^2}{n_2}} ∼ \sqrt { \dfrac{S_p^2}{n_1} + \dfrac{S_p^2}{n_2}}$$

검정통계량(test statistic)을 구하면

$$t =\dfrac{\bar X_2 – \bar X_1}{{\rm SE}(\overline D)} \sim {{\dfrac {{\bar {X}}_{2}-{\bar {X}}_{1}}{S_{p}\cdot {\sqrt {{\dfrac {1}{n_{1}}}+{\dfrac {1}{n_{2}}}}}}}}$$

여기서,  ${\displaystyle S_{p}={\sqrt {\dfrac {\left(n_{1}-1\right)S_{X_{1}}^{2}+\left(n_{2}-1\right)S_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}}$

두 모평균 차이 t검정표 - 독립표본 - 정규분포 가정 - 등분산 가정 - 모분산을 모르는 경우 : 스튜던트 t검정

귀무가설($H_0$)검정통계량의 값대립가설($H_1$)귀무가설 기각역
$\mu_{X_2} – \mu_{X_1}=D_0$$$\dfrac{(\bar{X}_2-\bar{X}_1)-D_0}{\sqrt{\dfrac{S_P^2}{n_1}+\dfrac{S_P^2}{n_2}}}$$

여기서,  $S_p^2=\dfrac{(n_1-1)S_{X_1}^2+(n_2-1)S_{X_2}^2}{n_1+n_2-2}$

$\mu_{X_2} – \mu_{X_1} \gt D_0$$t \lt -t_{n-2\ ;\  \alpha}$
$\mu_{X_2} – \mu_{X_1} \lt D_0$$t \gt t_{n-2\ ;\ \alpha}$
$\mu_{X_2} – \mu_{X_1} \ne D_0$$\mid {t} \mid \gt t_{n-2\ ;\ \frac{\alpha}{2}}$

Terminology

확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다. 확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다.

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

출처

Random variable – Wikipedia

확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입다. 예를 들어, 확률 변수 $X$가 동전 던지기(“실험”) 결과를 나타내는 데 사용되면 $X$의 확률 분포는 $X$ = 윗면의 경우 0.5, $X$ = 아래면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과 집합인 기본 표본공간(sample space)의 관점에서 지정됩니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비 숫자 값 목록일 수도 있습니다. 예를 들어, 동전 뒤집기의 샘플 공간은 {머리, 꼬리}입니다. 확률 분포는 일반적으로 두 가지로 나뉩니다. 이산 확률분포 (동전 던지기 나 주사위와 같이 가능한 결과 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위 (예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률 밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규 분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에 정의 된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단 변수이라고 불리우는 반면 표본공간이 2차원 이상의 벡터 공간 인 분포를 다 변수라고합니다. 단일 변수(변량) 분포는 다양한 대체 값을 취하는 단일 확률변수의 확률을 제공합니다. 다 변수 분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단 변량 확률분포에는 이항분포, 초기 하분포 및 정규분포가 포함됩니다. 다 변수 정규 분포는 일반적으로 발생하는 다 변수 분포입니다.

출처

Probability distribution – Wikipedia

확률밀도함수

확률에서 확률밀도함수(PDF) 또는 연속확률변수의 밀도는 표본공간의 임의의 표본(또는 점)의 확률변수의 값이 같다면 같은 확률을 가진다는 것입니다. 다른 말로 하면, 임의의 연속확률변수에 대한 확률값은 0이지만 두 개의 서로 다른 확률변수 값에서 PDF의 값을 사용하여 유추할 수는 있습니다. PDF는 임의의 확률변수에서의 확률값을 취하는 것보다는 특정 확률변수 범위 내에서 임의의 확률변수가 있을 확률을 나타내는데 사용됩니다. 확률은 확률변수의 범위에 대한 PDF의 적분값으로 주어집니다. 확률밀도함수는 모든 곳에서 음수가 아니며 전체 확률변수범위에 대한 적분은 1이 됩니다.

“확률분포함수”와 “확률함수”라는 용어는 때로는 확률밀도함수를 의미하기도 하지만 이 용어는 표준이 아닙니다. 한편, 확률질량함수(PMF)는 이산확률변수 (불연속 확률변수)에서 사용되는 반면확률밀도함수(PDF)는 연속확률변수에서 사용됩니다.

출처

Probability density function – Wikipedia

표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

출처

Standard error – Wikipedia

Reference

  1.