표준오차 Standard Error



그림 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)




그림 두 표본의 표본평균 분포 : 중심극한정리


오차(error)는 관측한 값과 기대값(예를 들면 표본일 경우 모집단의 값)과의 편차입니다.

그래서 양수와 음수를 모두 가집니다.

 

한편, 편차(deviation)는 값에서 기준값(평균)을 뺸 값입니다. 그래서 편차 중의 특수한 경우가 오차라고 할 수 있습니다.

역시 양수와 음수를 모두 가집니다.

 

값의 무리의 평균(mean)은 각 값과의 편차의 제곱의 합이 가장 작게 되는 값으로 무리를 대표하는 대표값(평균, 중앙값, 최빈값)의 한 종류 입니다. 평균은 다시 산술평균, 가중평균 등이 있습니다.

 

분산(variation)은 무리의 값들이 서로 떨어져 있는 정도를 나타내는 대표적인 척도입니다. 즉, 분포의 정도를 나타내는 값입니다.

 

값의 무리가 모집단에서 추출한 값들이면 이 숫자무리를 표본이라고 할 수 있습니다.

 

값들의 개수가 n일 때  즉, 표본의 크기가 n일 때, 표본평균($\bar X$)과 표본분산($S^2$)을 구해 봅니다.

표본평균($\bar X$)은 표본의 이루는 각 값들과의 편차의 제곱의 합이 가장 작게 되는 값입니다. 또한, 표본평균은 표본을 이루는 값들의 합을 표본의 크기 n으로 나누어서 구할 수도 있습니다.(산술평균)

 

표본분산($S^2$)은 각 값과 평균과의 차이의 제곱을 합한 것을  n-1로 나누어서 구할 수도 있습니다. (표본평균을 산술평균으로 구했을 경우)

표본분산($S^2$)은 각 값과 표본평균과의 편차의 제곱의 합이 가장 작게 되는 합의 값을 n-1 로 나눈 값입니다. 여기서 각 숫자와의 편차제곱이 가장 작게 되는 값이 평균입니다.

 

표본분산($S^2$)을 구할 때 숫자의 개수 즉, 표본의 크기가 작을 때는 n과 n-1의 차이가 크게 나타나기 때문에 유의하여야 합니다. 표본분산 값의 단위는 평균의 제곱의 단위와 같을 것입니다.

값의 편차(deviation)와 차이(difference)는 다릅니다. 편차는 값에서 기준값을 뺸 값이기 때문에 음수가 나올 수도 있습니다. 하지만 차이(difference)는 양수이고 편차의 절대값입니다. 물론 편차의 제곱도 양수입니다.

그래서 편차제곱의 합을 데이터 개수(n)로 나누어서 표준화시킨  값인 분산은 데이터(숫자)의 분포 척도로 사용됩니다.

 

그리고 분산의 제곱근을 표준편차라고 정의합니다. 표준편차의 단위는 평균과 단위가 같습니다. 반대로 분산의 단위는 편차의 제곱이나 평균의 제곱 값의 단위와 같게 될 것입니다.

 

모집단은 표본의 기준이라고 할 수 있습니다.

모집단(알고자 하는 집단)의 분포를 표현하는 값(모수, 매개변수, Parameter)은 모평균($\mu$)과 모표준편차($\sigma$)입니다.

만일 모집단이 정규분포를 가지고 매개변수를 안다면 모집단의 분포를 그릴 수 있겠습니다.

 

표준오차는 표본평균과 모집단의 평균과의 차이를 구하고 표준화한 것입니다. 

표본에 속하지 않은 기준(모집단의 평균)을 사용한 것이고 절대적인 기준과의 차이라는 의미에서 편차(deviation)가 아닌 오차(error)로 표현합니다.

 

표본평균과 모평균의 차이를 모표준편차를 표본의 크기(n)의 제곱근 나눈 값으로 나누면(표준화 하면) 그 표본의 표준오차니다.

표준이라는 표현을 사용한 것은  모표준편차($\sigma$)를 표본크기의 제곱근($\sqrt  n$)으로 나눈 값으로 나누는 과정이 표준화하는 과정이기 때문입니다.

 

표본평균의 표준오차(Standard Error of the Mean, SEM)는 표본평균들의 분포의 표준편차를 가리킵니다.

표본평균들의 평균은 중심극한정리에 의하여 모평균과 같게 됩니다.

$\sigma$는 모표준편차, $n$은 표본의 크기라면

 

Standard Error of the Mean : SEM = $\sigma_{\bar x}={{\sigma}\over{\sqrt{n}}}$

 

표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차($SE$)와 동일합니다.


표본표준편차 $S$를 이용하여 표본평균 분포의 표준편차(표준오차, $\sigma_{\bar x}$)의 근사값 구하기

표본의 크기가 충분히 클 때 (n >500), 표본표준편차(S)의 기대값을 $E(S)$라하면,  $E(S) = \sigma$ 입니다.

 

${\sigma_{\bar X}}^2={{\sigma}^2\over{n}} ≈{{S^2}\over{n}}$

 

$\sigma_{\bar X}={{\sigma}\over{\sqrt{n}}} ≈{{S}\over{\sqrt{n}}}$

 

아래식처럼 표준오차는 표본표준편차(S)를 $\sqrt{n}$로 나눈 것과 같습니다. 즉, $\bar X$를 표본평균, $\nu$를 잔차라 할 때,

 

${\sigma_{\bar X}}^2={{1}\over{n}}S^2={{∑(x-\bar X)^2}\over{n(n-1)}}={{∑\nu^2}\over{n(n-1)}}$

 

${\sigma_{\bar X}}=\sqrt{{{\sum{{\left({x-\bar X}\right)}^{2}}}\over{n\left({n-1}\right)}}}=\sqrt{{{\sum{\nu^{2}}}\over{n\left({n-1}\right)}}}$

 

만일 가중치가 다르다면 다음과 같이 계산합니다. 가중치를  $\omega$라 할 때,

 

${\sigma_{\bar X}}^2={{∑ω(x-\bar X)^2}\over{∑ωn(n-1)}}={{∑ων^2}\over{n(n-1)}}$

 

${\sigma_{\bar X}}=\sqrt{{{\sum{\omega{\left({x-\bar X}\right)}^{2}}}\over{\left({\sum{\omega}}\right)\left({n-1}\right)}}}=\sqrt{{{\sum{\omega\nu^{2}}}\over{n\left({n-1}\right)}}}$

 

${σ_\bar X}^2={{\sigma^2}\over{n}}$

 

$\sigma_{\bar X}={{\sigma}\over{\sqrt{n}}}$


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

중심극한정리 Central Limit Theorem



중심극한정리(Central Limit Theorem)는 표본들의 평균을 구하는 과정에서 극단적인 값들이 서로 상쇄되어 표본들의 평균은 모집단의 평균으로 모이는 경향을 말합니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑습니다.

그럴때 모집단의 분포모양과는 상관없이 표본평균들의 분포는 $n$을 증가시킬수록 정규분포에 접근합니다.

 

중심극한정리를 다시 표현하면,  표본평균들의 분포는 모집단평균을 중심으로 정규분포를 이룬다는 정리입니다.

 

표본의 크기 $n$의 값이 크면 표본평균들의 분산은 작아집니다.

표본평균들의 분산은 모집단의 분산을 표본의 크기로 나눈 값이기 때문입니다.

 

표본평균들의 평균은 표본의 개수가 많아질 수록 모평균에 가까워 집니다.


모수(parameter)와 추정량(estimator)

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 모집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.

 

$\bar{X}$는 모수 $\mu$를 추정하는 하나의 추정량(estimator)입니다.

 

한 표본에서 구한 $\bar{X}$의 관측값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$는 $\mu$의 추정값(estimate)입니다.

 

모집단의 분산 $\sigma^2$를 추정하는 추정량은 표본분산 $S^2$이고 그 관측값은 $s^2$으로 표시합니다.

 

만일 모집단이 정규분포 $N(\mu,\sigma^2)$라면 표본평균의 표집분포는 정확히 정규분포 $N(\mu,\sigma^2/n)$입니다.

 

만일 모집단이 평균이 $\mu$이고 분산이 $\sigma^2$인 무한개의 원소를 가지는 모집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포를 가지더라도 표본평균의 표집분포는 근사적으로 정규분포 $N(\mu,\sigma^2/n)$입니다.

이를 중심극한정리(Central Limit Theorem)라고 하는데 구체적으로 요약하면 다음과 같습니다.

중심극한정리(Central Limit Theorem)

모집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의 복원추출하면 표본평균들의 분포는 다음과 같은 특성을 갖습니다.

1) 모든 가능한 표본평균들의 평균(${\mu}_{\bar{x}}$)은 모평균과 같다. ($\mu_\bar{x}=\mu$)
2) 모든 가능한 표본평균들의 분산($\sigma_{\bar{X}}$)은 모분산을 $n$으로 나눈 값이다. (${\mathit{\sigma}}_{\bar{X}}^{2}{=}\dfrac{{\mathit{\sigma}}^{2}}{n}$)
3) 모든 가능한 표본평균들의 분포는 근사적으로 정규분포이다.
위의 사실을 간단히 ${X}\sim{N}\left({\mathit{\mu}{,}\dfrac{{\mathit{\sigma}}^{2}}{n}}\right)$로 적기도 한다.

 

중심극한정리는 현대통계학의 기본이 되는 이론으로 매우 중요한 정리입이다.


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

표본추출 Sampling



표본추출과 표본들의 통계량


통계학


표본(sample)은 왜 추출할까요?

그리고 표본을 추출한다는 것은 모집단(population)이 존재한다는 것을 의미합니다.

 

표본추출(sampling)의 가장 큰 목적은 모집단을 추측하기 위함입니다.

다른 표현으로는, 알고 싶은 정보를 얻기 위하여 데이터를 수집하는 것입니다.

 

그렇다면 표본을 가지고 어떻게 모집단을 추측할까요?

첫번째로 표본의 데이터로 부터 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 분석합니다.

 

한편, 표본의 크기가 클 수록 모집단에 가까워지므로 표본의 크기는 매우 중요합니다.

하지만 표본의 크기를 늘리려면 비용이 많이 들겠지요.

 

표본의 크기가 충분히 크면(여기서 크다는 것은 모집단의 크기와 상대크기를 의미) 표본의 성질을 모집단으로 보아도 되겠습니다. 즉, 표본평균은 모평균이 되고 표본분산은 모분산이 됩니다. 이것을 점추정(point estimation)이라고 합니다.

 

두번째로  모집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

 

아뭏든 무었보다도 표본의 크기를 어느정도는 크게 하려고 노력해야 할 것  같습니다.

 

그리고 같이 생각해볼 문제로 1개의 데이터를 구하는 비용이 정해져 있다면  표본의 갯수가 많은 것이 좋을까요. 아니면, 표본의 크기가 큰 것이 좋을 까요?

 

모집단에서 표본을 추출하는 방법에는 다음과 같은 것들이 있습니다.

단순 무작위 추출

층화 집락추출법

계통추출법

 

모집단(population)은 연구대상이 되는 모든 관측값이나 측정값의 집합을 말합니다.

연구모집단(목표모집단)은 연구조사 목적에 따른 개념적 집단입니다.

조사모집단은 표본으로 추출가능한 개체들로만 구성된 모집단입니다.

 

모수(parameter)는 모집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별 평균소득 등입니다.

 

표본(sample)은 더 큰 모집단에서 추론을 위해 수집하고 분석하는 요소의 집합입니다. 즉 모집단의 부분집합입니다.

 

통계량(statistics)은 표본으로 부터 계산된 표본을 잘 나타내는 대표값과 분포값인 표본평균, 표본분산, 표본비율등을 말합니다. 모집단의 모수(parameter)에 해당됩니다.

 

표본으로 부터 모집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다.

확률에서 시행과 사건의 개념을 정리해보면

시행은 조사행위입니다.

사건은 시행결과 조건에 맞는 결과입니다.

전사건은 시행에서 얻을 수 있는 결과의 모든 집합입니다.

근원사건은 일어날 수 있는 각 개별 사건입니다.

수학적 확률은 해당사건이 일어나는 경우의 수를 일어날 수 있는 모든 경우의 수로 나눈 것을 말합니다.

여기서 근원사건은 모두 같은 정도로 일어나는 확률을 가집니다.

 

확률은 수학적확률과 통계적 확률이 있는데 통계적확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다.

수학적 확률과 통계적 확률이 같은 경우는 통계적확률에 사용하는 환경이 완벽한 경우입니다.

예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다.

 

정리하면 수학적확률은 통계적확률의 환경을 가정하는 방식으로 모델링한 것입니다.

 

모집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다.

표본에서 산출되는 평균과 분산등을 통계량(statistic)이라하며 여러 통계량들을 나타내는 복수형인 statistics은 통계(statistics)의 어원이 되었습니다.

 

통계량은 표본을 추출하는 방법에 따라 값이 결정되는 확률변수입니다. 이 확률변수에 대응하는 확률분포를 표본분포라 합니다.

 

정규모집단은 불명확한 모집단의 분포를 정규분포라고 가정할 수 있는 특별한 모집단입니다.

 

모평균은 모집단 데이터의 평균을 말합니다.

모분산은 모집단 데이터의 분산입니다.

 

모평균, 모분산은 전체를 측정하는 것(전수검사)이 어려우므로 모르는 경우가 대부분입니다.

그래서 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계학입니다.

 

표본평균은 모집단에서 추출한 표본의 평균값입니다.


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

변동계수 Coefficient of variation



변동계수


변동계수(coefficient of variation, \(CV\))는 표준편차 (\(\sigma\))를 산술평균 (\(\mu\))을 기준으로 표준화(standardization)시킨 것입니다.

즉, 변동계수는 표준편차를 산술평균으로 나눈 것입니다.

 

$$CV=\frac {\sigma }{\mu}$$

 

표본에서의 변동계수(coefficient of variation, \(CV\))는 표본의 표준편차 (\(S\))를 표본의 산술평균 (\(\bar{X}\))으로 나눈 것입니다.

 

$$CV=\frac {S }{\bar{X}}$$

 

표본사이의 표준편차를 비교하고자 할때 평균의 영향을 없애기 위하여 사용합니다.

보통 자연현상과 사회현상에서 평균이 높으면 표준편차도 높아지는 경향을 보이기 때문입니다.

 

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다.

같은 단위를 가지는 평균으로 나누어 단위가 사라진 변동계수를 사용하면 비교할 때 단위에 대한 고려를 안해도 되는 이로움이 있습니다.

그래서 측정단위가 서로 다른 자료를 비교할 때는 더욱 요긴합니다.

변동계수의 값이 클수록 데이터의 상대적인 값의  차이가 크다는 것을 의미합니다.

 

예를 들어, 농장에서 생산한 딸기 제품이 있는데 당도가 얼마나 고르게 나오는 것을 알고자 하는 경우입니다.

출하시기에 따른 당도 평균의 변화를 제거하여 표준편차를 조정한 것이 바로 변동계수입니다.

다시말하면  절대적인 기준으로 구한 표준편차를 보완하기 위한 개념이 변동계수라는 개념입니다.

상대적인 차이를 동일한 평균기준으로 값을 비교할수 있게 됩니다.


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

데이터의 분포값 Degree of scattering



당도.  당도편차, 당도편차제곱

데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다. 산포도(degree of scattering) 또는 변산성(variability)라고 부릅니다.

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.

범위는 최대값과 최소값의 차이입니다.

중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.

분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.

즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.

또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.

그래서 분산은 0이나 양의 수가 됩니다.

직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.

그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.

모분산과 표본분산의 수식은 차이가 있습니다.

표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때) 표본의 크기  n대신 1을 뺀  n-1을 사용합니다.

그 이유는 표본분산은 표본 바깥에서 주어진 기준이 아닌 표본 내에서 도출된 표본평균을 기준으로 하기 때문입니다.

즉, 표본에서는 분산의 기준인 평균으로 데이터가 1개 사용되었다는 것을 의미합니다.

예를 들면 마을마다 집들이 서로 얼마나 떨어져서 있는가를 숫자로 표현하고자합니다.

여기서 기준을 이장님댁으로 정합니다.

그렇다면 거리의 평균을 구할 때 당연히 이장님댁을 뺸 나머지 집들의 수로 나누게 됩니다.

표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.

다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.

분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.

따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.

표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.

모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.

표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.

분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.

만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.

즉, 평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 상쇄되고 표준화되어 두 표본의 변동의 비교가 수월합니다.

구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.



평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

분산(variance)

${\rm 모분산}\ \ {\rm \sigma}^{{\rm 2}}={{\sum\limits_{i=1}^{N}{(x_{i}-{\rm \mu})^{2}}}\over{N}}$          ($N$: 모집단 데이터수)

${\rm 표본분산}\ \ s^{2}={{\sum\limits_{i=1}^{n}{{\left({x_{i}-\bar x}\right)}^{2}}}\over{n-1}}$          ($n$: 표본 데이터수)


 


표준편차(standard deviation)

${\rm 모표준편차}\ \ {\rm \sigma}=\sqrt{{\rm \sigma}^{2}}$ ${\rm 표본표준편차}\ \ s=\sqrt{s^{2}}$ 분산의 제곱근
 

변동계수(coefficient of variation, 변이계수)

  변동계수(모집단)   $CV={{\sigma}\over{\mu}}\times 100$     (단위 %)   변동계수(표본)   $CV={{s}\over{x}}\times 100$     (단위 %)
 

데이터의 대표값 Representative value



편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값




평균(1차원)




회귀선(2차원)




회귀평면(3차원)

데이터를 대표하는 값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다.

중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

평균에는 산술평균, 가중평균 등이 있습니다.

평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다.

보통 평균이라고 하면 산술평균을 의미합니다.

가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다.

특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다.

여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다.

애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다.

그러나 편향이 일어날 경우 다른값을 가집니다.

평균은 무게중심을 나타내는 확률변수값입니다.

중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다.

최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.

구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.



중앙값(median)

${\rm 중앙값}=\left\{{{{\left({n+1}\right)}\over{2}}{\rm 번째 데이터} .    n{\rm 이 홀수인 경우}}\right.$

${\rm 중앙값}=\left\{{\left({{{n}\over{2}}}\right){\rm 번째와}\left({{{n+1}\over{2}}}\right){\rm 번째 데이터의 평균} .    n{\rm 이 짝수인 경우}}\right.$

데이터가 표본일 경우 $m$,  모집단일 경우 $M$


 

최빈값(mode)

${최}{빈}{값}{=}{데}{이}{터}\hspace{0.33em}{중}\hspace{0.33em}{가}{장}\hspace{0.33em}{빈}{도}{가}\hspace{0.33em}{많}{은}\hspace{0.33em}{값}$ .
 

평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

가중평균(weighted mean)

${\rm 가중평균}={{w_{{\it 1}}x_{{\it 1}}+w_{{\it 2}}x_{{\it 2}}+\cdots+w_{n}x_{n}}\over{w_{{\it 1}}+w_{{\it 2}}+\cdots+w_{n}}}={{\sum\limits_{i=1}^{n}{w_{i}x_{i}}}\over{\sum\limits_{i=1}^{n}{w_{i}}}}$ $x_{1},x_{2},\cdots ,x_{n}$(데이터의 측정값),  $w_{1},w_{2},\cdots ,w_{n}$(데이터의 측정값의 각각의 가중치)
 

 

교차표 Cross table



교차표


교차표(cross table or contingency table)는 두 개의 확률변수의 빈도수로 연관성을 나타내는 표입니다.

2차원 도수분포표라고 이해하면 쉽습니다.

 

두 확률변수의 도수분포표를 2차원으로 확장하여 한 변수의 도수분포표의 “구간”에 대응되는 “셀”을 만들어서 그 안에 해당 빈도수를 적은 것입니다.

연속형 데이터의 경우 1차원 도수분포표를 만들 때와 같이 구간을 나누어 빈도수를 조사한 다음 교차표를 만듭니다.

 

교차표를 작성하여 분포를 살펴보면 대략 두 확률변수 사이의 관련성을 알 수 있습니다.

교차표는 한 변수의 속성을 행에 놓고 나머지 변수의 속성 열에 놓아 셀(Cell)을 만듭니다.

행변수의 속성과 열변수의 속성이 교차하는 셀(cell)에  두 속성을 동시에 가지는 데이터의 빈도수를 넣습니다.

 

분석을 위해 각 셀의 빈도수 밑에 행의 합에 대한 백분율, 열의 합에 대한 백분율, 그리고 전체 백분율을 표시하기도 합니다.


구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

도수분포표 Frequency table



도수분포표


변수의 각 구간에 속하는 요소(element, object, record)의 개수를 합한 것을 빈도수(도수, frequency)라 하는데 줄여서 도수라고 합니다. 각 구간별로 빈도수를 나타낸 표가 바로 도수분포표입니다.

도수분포표(frequency table)를 작성하는 것은 연속형 데이터를 정리하는 효과적인 방법입니다.

 

연속형 데이터의 도수분포도를 그려서 데이터를 분석하고자 합니다. 도수분포도를 그리기에 앞서서 우선  도수분포표를 작성합니다.

 

도수분포표 작성을 위해서는 변수의 범위(range)를 정해야 하는데  변수의 최대값과 최소값의 차로 변수의 범위를 구합니다. 그리고 동일한 간격을 가진 서로 중복되지 않는 구간(계급, bin, bucket)을  정합니다. 위의 애니메이션에서는 딸기 20개의 당도 데이터가 변수입니다.

 

‘몇 개의 구간으로 정할 것인가?’는 데이터를 분석하기 위해서 정하는 가장 중요한 결정 중의 하나입니다.  구간의 개수는 보통 데이터의 수의 제곱근에 근사한 정수로 합니다. 

구간의 개수가 정해지면 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다.

각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.


구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

사분위표 Quartile table



사분위표


p%백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓았을 때 대략 p%번째 데이터를 뜻합니다.

데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위수에 해당될 수도 있습니다.

 

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

제1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

제2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

제3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

 

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

 

4분위수범위(interquartile range), IQR은 제3사분위수에서 제1사분위수를 뺀 값 입니다.

즉, 데이터의 중앙부 50%의 범위입니다.

 

4분위수범위는 아주 크거나 작은 변수값이 있는 경우, 왜곡이 발생하는 범위(range) 대신 많이 사용됩니다.


구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.

데이터 선택과 분리 Data selection and separation



데이터 선택




데이터 분리


데이터를 살펴보면 첫번째 열은 요소명입니다.

즉, 딸기의 당도를 측정할 때 부여한 딸기 번호입니다.

그래서 딸기의 특성을 나타내는 데이터가 아닌 측정편의상 부여한 것입니다.

그리고 필요한 데이터를 분리하면 20개의 숫자들로 이루어진 당도 데이터와 데이터의 변수명인 당도로 이루어진 데이터셋이 됩니다.

20개의 당도 데이터와 1개의 측정딸기 개수로 총 21개의 데이터를 분리해 내었습니다.

즉, 데이터 개수인 20이라는 숫자도 중요한 데이터로 취급됩니다.

그리고  당도라는 변수명은 그대로 사용됩니다.


구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.