표본통계량으로 집단의 모수 추정

1. 애니메이션

1.1. 통계


2. 설명

2.1. 표본통계량으로 집단의 모수 추정

2.2. 추정(estimation) : 모수(parameter), 추정량(estimator), 추정값(추정치, estimate)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



통계


2. 설명

2.1. 표본통계량으로 집단의 모수 추정

표본으로 표본이 추출된 집단(모집단)을 추론하는 방법을 살펴보면, 첫번째로 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 집단의  모평균, 모분산을 점추정합니다.  두번째로  집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

집단은 연구대상이 되는 집단을 말합니다. 연구집단(목표집단)은 연구조사 목적에따른 개념적 집단입니다. 조사집단은 표본으로 추출가능한 개체들로만 구성된 집단입니다. 모수(parameter)는 집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별, 세대별 의료비지출 등입니다. 특별히 표본이 추출된 집단을 그 표본의 모집단(population)이라고 부룹니다.

표본(sample)은 표본보다 더 큰 집단의 추론을 위해 수집하고 분석하는 원소(element)의 집합입니다. 즉, 집단의 부분집합입니다. 표본통계량(sample statistics)은 표본으로 부터 계산된 표본평균, 표본분산, 표본비율등을 말합니다.

표본으로부터 표본이 추출된 집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다. 확률에서 시행과 사건의 개념을 다음과 같이 정리할 수 있습니다.

    * 시행은 관측(조사)행위이다.

    * 사건은 시행의 결과다.

   * 전사건은 시행에서 얻을 수 있는 결과의 모든 집합이다.

    * 근원사건은 모두 같은 정도로 확률을 가지는  더 이상 나눌 수 없는 개별 사건이다.

확률은 수학적 확률과 통계적 확률이 있는데 통계적 확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다. 수학적 확률과 통계적 확률이 같은 경우는 통계적 확률에 사용하는 환경이 완벽한 경우입니다. 예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다. 수학적확률은 통계적확률의 환경을 가정하는 방식으로 집단을 모델링한 것입니다.

집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다. 표본에서 산출되는 평균과 분산 등을 표본통계량(sample statistic)이라 하며 통계량(statistic)의 복수형(statistics)은 통계(statistics)를 표현합니다. 통계량은 표본을 고르는 방법에 따라 값이 결정되는 확률변수입니다. 따라서 표본통계량은 확률변수이고 대응하는 확률분포를 표집분포(smapling distribution of sample statistic)라 합니다. 표본통계량 중 하나인 표본평균은 모집단에서 추출한 표본의 대표값 중 하나입니다.

정규성을 갖는 집단은 집단의 확률변수가 정규분포라고 가정할 수 있는 특별한 집단입니다. 모평균은 집단(집단의 데이터개수에 따라 데이터개수가 유한한 유한집단과 데이터개수가 무한한 무한집단)의 데이터의 평균을 말합니다. 모분산은 집단의 데이터의 분포정도를 나타냅니다. 집단 전체를 관측하는 것(전수검사)이 힘드므로 모평균, 모분산은  모르는 경우가 많습니다. 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계입니다.


2.2. 추정(estimation) : 모수(parameter), 추정량(estimator), 추정값(추정치, estimate)

통계적 실험이나 조사의 목적은 미지의 집단에 대한 정보를 알아보려고 하는 것입니다. 집단의 정보란 대개 평균, 분산 등과 같은 집단의 특성값을 말하며, 이러한 집단의 특성값을 모수(parameter)라고 합니다. 집단 전체를 조사하는 것은 불가능하거나 시간, 경비가 많이 들기 때문에, 대개 모수는 표본을 추출하여 표본평균, 표본분산과 같은 표본의 특성값을 이용하여 추정하게 됩니다.

표본의 특성값을 표본통계량(sample statistic)이라 부르고, 표본통계량의 확률분포를 표집분포(sampling distribution)라 합니다. 표집분포는 표본통계량과 모수 사이의 관계를 규명해 주기 때문에 모수의 추정과 검정을 가능하게 합니다.

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.  $\bar{X}$를 모수 $\mu$의 추정량(estimator)이라 부릅니다. 한 표본에서 구한 $\bar{X}$의 관측하여 구현된 값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$를 $\mu$의 추정값(estimate)이라 부릅니다. 역시, 집단의 모수인 모분산( $\sigma^2$)을 추정하는 추정량은 표본분산 $S^2$입니다. 그 관측값인 $s^2$은 모분산의 추정값(estimate)입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>=AP3, AR3<=AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 이상이고, AQ3 이하이면 TRUE를 표시함.


3.3. 실습강의

집단

표본

표본통계량

표본통계량으로 집단의 모수 추정 : 점 추정, 구간 추정

실습 안내



4. 용어와 수식

4.1 용어

표본과 모집단의 통계량 비교

1. 애니메이션

1.1. 당도 통계량


2. 설명

2.1. 모집단통계량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 수식


1. 애니메이션



당도 통계량


2. 설명

2.1 모집단통계량

통계량을 의미하는 Statistic의 복수형인 Statistics는 통계를 의미합니다.

통계량이 모이면 통계가 된다는 뜻이겠지요.

 

통계량에는 우리가 잘 아는 평균이 있습니다.

20개의 딸기의 당도 데이터가 있습니다.

즉, 20개의 숫자입니다.

20개의 숫자 무리를 대표하는 것에는 무엇이 있을까요.

일단 당도의 평균인 11.89라는 값이 있습니다. 20개의 당도를 대표하는 값입니다.

 

그리고 평균으로 부터 20개의 값들이 얼마나 떨어져 있는지도 궁금합니다.

그것이 분산입니다. 여기서는 0.1245라는 값입니다. 분산의 값이 커지면 20개의 당도 값은 서로 많이 떨어져 있다는 뜻입니다.

 

그렇다면 분산은 어떻게 구할까요.

평균으로 부터 떨어진 거리를 편차라 할때 편차 제곱의 평균을 구한 것입니다.

즉, 평균으로 부터 떨어진 거리를 제곱한 값들을 숫자무리의 자유도로 나눕니다. 숫자무리가 모집단인 경우는 자유도가 숫자의  갯수이고 숫자무리가 표본인 경우는 자유도가 숫자의 갯수에서 1을 뺸 값입니다.

그리고 당도값과 같은 단위로 나타내기 위하여 분산을 다시 제곱근을 하여  구한  표준편차도 있습니다.

 

당도값 20개가 이루는 숫자무리를 표현함에 있어 다음 세가지로 정리해 보겠습니다.

첫째는 20개의 당도가 있고 그 당도들은 하나의 대표값으로 표현할 수 있습니다. 평균입니다.

둘째는 20개의 값이 평균으로 부터 떨어진 거리가 20개있고 그 거리들을 하나의 대표값으로 표현할 수 있습니다. 표준편차입니다.

세째는 숫자무리를 표현하는 통계량에는 평균, 분산, 표준편차가 있다는 것입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


모집단통계량

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

평균

편차

편차제곱

분산

표준편차

데이터시각화



4. 용어와 수식

4.1 수식


평균과 표준편차를 한 번에 비교하려면

변동계수 (두 평균의 크기를 동일하게 해서 상대표준편차를 비교)


변동계수로 비교할 수 있습니다.

변동계수(coefficient of variation, CV)는 표준편차를 산술평균을 기준으로 표준화(standardization)한 것으로, 표준편차를 산술평균으로 나눈 값입니다.

 

애니메이션을 보면 A와 B의 평균과 표준편차가 각각 다릅니다.

B의 평균이 A의 평균과 같아지도록 늘린 비율만큼, 표준편차를 늘려주면, A와 B의 평균이 같다는 조건 하에서의 상대적인 표준편차를 비교해볼 수 있습니다.

이러한 상대적인 표준편차를 변동계수라고 합니다.

 

예를 들어, 한국과 미국의 제품 가격을 비교한다고 할 때, 한국과 미국의 다른 화폐 기준으로 인해, 한국에서 1,000원, 2,000원, 3,000원인 제품이 미국에서는 1, 2, 3달러일 수 있습니다.

평균과 표준편차를 구해보면, 한국에서는 평균 2,000원, 표준편차 816원이고, 미국에서는 평균 2달러, 표준편차 0.816달러입니다.

이와 같이 자연현상과 사회현상에서 평균이 높으면 표준편차도 높아지는 경향이 있습니다.

 

위의 예에서 변동계수를 구하면, 둘다 0.4로 동일합니다.

같은 단위를 가지는 표준편차를 평균으로 나누면, 단위가 사라지고 표준화된 수치를 비교할 수 있기 때문에 단위에 대한 고려를 안해도 되는 이로움이 있습니다. 

표본크기는 얼마가 적정할까

표본추출 (표본추출에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


표본크기가 커질수록 표본오차가 줄어듭니다.

2020년 4월 15일 총선 기준, 우리나라 전체 유권자 수는 약 4,399만명입니다. 여론조사는 약 1~5천명의 표본을 추출해서 이루어집니다. 신뢰수준이 95%로 할 경우, 우리나라 유권자를 대상으로 여론조사를 실시할 때, 표본크기에 따른 표본오차의 크기는 1,000명일때 약 3%, 2,000명일때 약 2%, 5,000명일때 약 1.4%, 10,000명일때 약 1%입니다.

 

표본크기 표본오차

 1,000명    3.0%

 2,000명    2.0%

 5,000명    1.4%

10,000명   1.0%

 

표본크기가 1,000명을 넘어가면, 표본크기를 배로 늘려도 표본오차가 그에 비례해서 줄어들지 않습니다. 표본크기가 1,000명에서 10,000명으로 10배 늘었는데, 표본오차는 1/3로 줄어들었습니다. 여기에서 가장 중요한 것은 표본이 랜덤하게 추출되어야 한다는 것입니다. 그리고나서는 표본을 늘리는데, 얼마나 비용이 늘어나는지입니다. 

 

만약, 표본을 하나 늘리는데, 10,000원이라는 돈이 든다면, 1,000명의 표본을 추출할 때는 1,000만원의 비용으로 표본오차 3.0%의 추정치를 구할 수 있습니다. 10,000명의 표본을 추출할 때는 1억원의 비용으로 표본오차 1.0%의 추정치를 구할 수 있습니다. 물론, 지지율 조사를 했는데, 두 사람의 지지율이 오차범위 내에 있다면, 표본크기를 더 키워서, 오차범위를 줄이고 정확도를 높일 수 있습니다.

자유도를 직관적으로 설명하면

통계량 (통계량에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


자유도는 데이터 들 중 자유롭게 변할 수 있는 데이터의 개수입니다.

자유도를 쉽게 설명한다면, 데이터 들 중 자유로운 값을 가질 수 있는 데이터의 개수가 됩니다. 예를 들어, 10개의 데이터가 있는데, 우리가 이 10개의 데이터에 대한 통계량을 아무것도 모른다면, 10개의 데이터는 어떤 값이든지 가질 수 있고, 자유도가 10이 됩니다.

 

그런데, 만약, 우리가 위의 10개 데이터의 평균을 알고 있다면, 10개 중 9개는 자유롭지만, 마지막 1개는 우리가 알고 있는 평균으로 인해, 그 값이 정해져 버립니다. 즉, 자유롭지 않습니다.

 

통계학에서 분산이라는 개념은 평균을 먼저 구하고, 그 평균과의 거리를 측정해서 구할 수 있는 값입니다. 따라서, 분산을 구할 때의 자유도는 평균을 구할 때의 자유도보다 하나 줄어들게 됩니다.

 

자유도를 달리 표현하면,

통계적 추정을 할 때, 표본자료 중 모집단의 정보를 주는 독립적인(자유로운) 데이터의 개수를 말합니다.

 

표본분산은 편차 제곱의 합을 자유도로 나누어주면 되는데, 이 때의 자유도는 표본의 크기, n보다 1이 작은 수 입니다.

 

위의 애니메이션에서 각 당도는 옅은 푸른색의 막대로 표현했습니다. 20개의 당도를 더한 후, 당도 개수로 나누면 평균이 나옵니다. 

당도 평균을 각 당도 위에 붉은색 선으로 표시하고, 이 붉은색 선보다 튀어나오거나 부족한 부분을 편차로 표시했습니다.

이 편차의 합과 평균은 0이 됩니다. 편차의 크기를 이해하기 위해 편차를 제곱하여 평균을 계산한, 0이 아닌 값이 분산입니다.

 

우리가 표본분산을 구할 때는 이 표본분산으로 모분산을 추정하고자 함입니다. 즉, 표본분산의 기대값이 모분산과 같으면 좋겠습니다. 그런데, 편차제곱의 합을 표본의 크기로 나눈 값의 기대값은 모분산보다 작습니다. 모분산의 (n-1)/n의 크기가 됩니다. 즉, 이 값을 모분산의 추정량으로 사용하기에는 편의(bias)가 있어서, 모분산의 불편추정량(unbiased estimate)으로 사용할 수 없습니다.

 

따라서, 표본분산의 기대값이 모분산과 같아지기 위해서는 편차제곱의 합을 n-1로 나누어야 하는데, 이는 표본분산의 자유도입니다.

 

수학 50점(모집단 평균 30, 모집단 표준편차 8), 영어90점(모집단 평균 80, 모집단 표준편차 6). 어느 점수가 높은가

정규분포


모집단의 점수가 정규분포를 이룬다면, 수학점수가 더 높습니다.

수학점수와 영어점수의 평균과 표준편차가 다르기 때문에 이를 표준화해서 비교합니다. 내 점수에서 평균을 빼고, 표준편차로 나누면 표준화된 수치를 얻을 수 있습니다.

 

표준화 후의 수학점수는 2.50이고, 영어점수는 1.67입니다. 수학점수가 영어점수보다 더 높습니다. 


수학점수는 상위 1%이내, 영어점수는 상위 5% 이내에 해당합니다.

수학점수가 50점 이상인 사람은 전체 시험을 본 사람 중 0.7% 이내입니다. 영어점수가 90점 이상인 사람은 전체 시험을 본 사람 중 4.8%이내입니다.

 

회귀선은 어떤 정보를 가지고 있나

딸기의 과중과 당도 산점도


회귀선은 두 변수의 관계를 선으로 표현하고, 특히 직선인 경우, 절편과 기울기 정보를 가집니다.

딸기 스무알의 과중과 당도를 측정했습니다. X축은 과중, Y축은 당도로, 스무알을 해당값에 찍어서 표현한 것이 딸기 스무알의 과중과 당도 산점도입니다.

 

위의 산점도에서 과중의 평균과 당도의 평균을 통과하는 가상의 직선을 그려볼 수 있습니다. 이 직선들 중, Y축 값인 당도와의 상하간 거리, 잔차의 제곱합이 최소가 되는 직선이 회귀선입니다.



기울기는 과중이 변화할 때, 당도가 얼마나 변화하는지를 나타냅니다.

예를 들어, 딸기 500개의 과중과 당도를 측정해서 다음과 같은 산점도와 회귀선을 얻었습니다. 회귀선의 기울기는 0.516입니다. 과중이 1만큼 변할 때, 당도가 0.516만큼 변한다는 의미입니다.  

 



회귀선은 상관관계를 가지는 두 변수를 대표하는 정보를 나타내지만, 각 딸기와 회귀선과의 거리(분포정도)에 대한 정보를 가지고 있지는 않습니다.

위의 예에서, 딸기 500알의 당도와 과중 데이터는 딸기 ID 500개, 당도 500개, 과중 500개를 합하면 모두 1,500개가 됩니다. 1,500개의 데이터를 기울기와 절편이라는 2개의 값으로 나타낸 것이 회귀선입니다. 회귀선을 이용하면, 큰 데이터를 간단하게 표현할 수 있는 반면, 회귀선으로부터 각 딸기와의 거리, 잔차에 대한 정보는 잃게 됩니다. 

변수란 무엇인가요

“동전 한개를 던져서 나오는 윗면의 값”인 확률변수


“동전 여러개를 던져서 나오는 윗면의 합의 값”인 확률변수


변수란 변하는 것입니다.

영어로는 Variable 입니다. 변하는 것에 이름을 붙인 것이 변수명입니다.

 

예를들면  500알의 딸기의 당도를 측정하면,  당도는 500개의 숫자로 이루어 집니다. 이와 같이 변하는 “당도”를 변수라고 합니다. 변수의 이름을 “딸기의 당도”로 하면 이해가 쉽겠지요. 그리고 수식에 사용하는 변수명은 x와 y등 알파벳 기호를 많이 사용합니다. 

 

1개의 동전의 양면에 각각 0과 1을 쓰고, 동전을 바닥에 던져서 위로 향한 숫자를 보면   0 혹은 1이 나오게 됩니다. 즉, “윗면의 수”를 변수로 한다면  변수가 가지는 값은 0과 1로만 구성됩니다.

 

확장해서, 동전 4개의 양면에 각각 0과 1을 쓰고, 동전을 바닥에 던져서 위로 향한 숫자를 더하면  0, 1, 2, 3, 4 다섯개 숫자 중에서 하나가  됩니다. 여기서 변수를 “동전 3개를 던져서 나타난 동전 윗면의 합”이라고 할 수 있습니다.

 

동전의 앞면과 뒷면이 나올 확률이 반반인 동전 4개를 여러번 던지다 보면, 경험을 통해 윗면의 합이  2가 나올 확률이 0이나 4가 나올 확률보다 높다는 것을 알 수 있습니다.


확률변수란 확률을 가지는 변수입니다.

“설의 당도”라는 변수는 0에서 100사이에 반드시 존재하기에 확률변수입니다.

“설”이라는 품종의 딸기 중 500개의 딸기를 표본추출해서 당도를 측정해본 결과  “설의 당도”는 9.64부터 12.96 사이에 95%가 존재하며, 이 범위를 벗어나는 것은 5%라는 결과를 얻게 되었습니다.  “설의 당도”는 확률변수이기 때문에 합해서 항상 100%가 됩니다. 

 


변수의 상대적인 개념은 상수입니다.

우리가 추출한 표본의 평균과 분산은 표본을 추출할 때마다 변하는 값, 즉 변수입니다. 반대로 표본의 모집단의 평균과 분산은 변하지 않는 상수로 가정하고 모델링을 하는 경우가 많이 있습니다.


변수와 상수의 차이, 변수와 상수의 비율도 변수입니다.

모집단의 평균과 표본평균의 차이, 모집단의 분산과 표본분산의 비율은 표본을 추출할 때마다 변하고, 확률을 가지고 설명할 수 있는 확률변수입니다. 

평균 수심 150cm. 강을 건너도 될까

사분위표


상자그림


평균 수심 150cm, 강을 건너도 될까요?

군인들이 목적지로 빨리 가기 위해, 눈 앞의 강을 건너야 합니다. 군인들의 키의 평균은 180cm이고, 강의 수심 평균은 150cm라는 정보를 얻게 되었습니다.

 

지휘관은 모든 군인에게 강을 건널 것을 명령햇습니다. 그런데, 군인들이 한 명, 두 명 물 속에 빠져서 허우적거리는 것을 목격하게 되었습니다. 지휘관은 급히 회군을 명령했습니다.

 

다시 조사해보니, 이 강의 최대 수심은 200cm이고, 군인 중 키가 200cm를 넘는 사람은 없었습니다.


수심의 최대값이 인간의 키 최대값보다 크기 때문에 강을 건너면 안 됩니다.

범위는 최대값과 최소값으로 표현할 수 있습니다. 수심의 범위는 100~200cm이고, 군인 들 키의 범위는 175~185cm라는 것을 미리 알았다면, 강을 건너지 않고, 다른 선택을 했을 것입니다.


데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다.

산포도(degree of scattering) 또는 변산성(variability)이라고 부릅니다.

 

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.

범위는 최대값과 최소값의 구간으로 표시합니다.

 

중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

 

평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.

분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.

즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.

또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.

그래서 분산은 0이나 양의 수가 됩니다.

 

직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.

그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.

 

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.

모분산과 표본분산의 수식은 차이가 있습니다.

표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때)는 표본의 크기인  n대신 1을 뺀  n-1을 사용합니다.

그 이유는 표본분산은 모집단에서 주어진 기준이 아닌 표본 내에서 만들어진 표본평균을 기준으로 하기 때문에, 이를 보정하기 위해 n 대신 n-1을 사용합니다.

 

표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.

다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.

 

분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.

따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.

표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.

 

모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.

표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.

 

분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.

 

만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.

평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 없어지고 표준화되어 두 표본의 변동 비교가 쉬워집니다.


Block "151" not found

Block "172" not found

Block "175" not found

Block "178" not found

샘플 크기와 가설검정 결과의 연관


가설을 세웁니다.

우리가 새로운 딸기 품종을 만들었는데, 이 품종이 기존의 딸기 품종과는 다르다는 것을 검정하는 사례로 살펴보겠습니다.

“새로운 딸기 품종은 기존의 딸기 품종과 같다”라는 영가설(귀무가설)을 세웁니다.

가설을 검정하기 위해서 검정할 확률변수를 정하고 표본의 통계량을 구합니다.

소비자가 딸기를 선택하는 가장 중요한 기준은 당도이므로 당도를 확률변수로 정합니다.

 

기존 품종의 당도의 모수(parameter)는 평균 11 브릭스(Brix), 표준편차 1로 알려져 있습니다.

새로 개발한 딸기 품종 10알의 당도를 측정하여서 표본통계량을 구하였습니다. 당도 평균은 12 브릭스(Brix), 표준편차는 2 입니다.

 

“두 딸기품종의 당도의 평균 차이가 없다(0이다)”라는 영가설을 검정합니다.

 

“새로 개발한 딸기 품종의 당도 평균은 기존 품종과 차이가 없다.”

 

위와 같이 우리가 증명하고 싶은 것과 반대의 가설을 영가설(혹은 귀무가설. Null Hypothesis)이라고 하고, 이 영가설을 기각할 수 있게 되면, 반대인 대립가설(혹은 연구가설. Alternative Hypothesis or Research Hypothesis)을 채택할 수 있습니다.

 

5% 유의수준으로 이 가설을 검정한다면, 우리가 측정한 10알의 샘플(표본) 데이터로부터 95% 신뢰구간을 구해볼 수 있습니다.

 

11.62~13.38 Brix

 

95% 신뢰구간 내에 기존 품종의 당도 평균인 11이 있습니다. 이러한 경우에는 영가설을 채택할 수 있습니다. 즉, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 없습니다.

 

또 다른 표본을 추출해서 가설검정을 해 봅니다.

 

새로 개발한 딸기 품종 10알을 다시 추출해서 측정하였습니다. 평균은 13, 표준편차는 2로 측정이 되었습니다. 95% 신뢰구간을 구해보면 다음과 같습니다.

 

11.76~14.24 Brix

 

기존 품종의 당도 평균 11은 위에서 구한 95% 신뢰구간 밖에 있습니다. 이러한 경우, 영가설을 기각하고, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 있습니다.

두 번의 샘플을 측정해서 가설검정을 하였는데, 그 결과가 상반되게 나왔습니다.

 

두 표본을 합쳐서 표본통계량을 구해보겠습니다.

 

표본크기는 20, 평균은 12.5, 표준편차는 2입니다. 95% 신뢰구간을 구해보면 다음과 같습니다. 

 

11.62~13.38 Brix

 

기존 품종의 당도 평균11은 위에서 구한 95% 신뢰구간 밖에 있습니다. 영가설을 기각하고, 새로 만든 딸기 품종이 기존 품종과 다르다고 할 수 있습니다.

 

샘플의 크기가 커질수록 신뢰구간이 좁아진다는 것을 알 수 있습니다. 가설검정이 더 정교해졌습니다.

 

샘플의 크기가 30개 미만인 경우, t분포를 사용하는 것이 일반적이지만, 보다 쉬운 이해를 위해 위의 예에서는 둘 다 z분포를 사용했습니다.

 


Block "2980" not found