표본추출 Sampling



표본추출과 표본들의 통계량


통계학


표본(sample)은 왜 추출할까요?

그리고 표본을 추출한다는 것은 모집단(population)이 존재한다는 것을 의미합니다.

 

표본추출(sampling)의 가장 큰 목적은 모집단을 추측하기 위함입니다.

다른 표현으로는, 알고 싶은 정보를 얻기 위하여 데이터를 수집하는 것입니다.

 

그렇다면 표본을 가지고 어떻게 모집단을 추측할까요?

첫번째로 표본의 데이터로 부터 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 분석합니다.

 

한편, 표본의 크기가 클 수록 모집단에 가까워지므로 표본의 크기는 매우 중요합니다.

하지만 표본의 크기를 늘리려면 비용이 많이 들겠지요.

 

표본의 크기가 충분히 크면(여기서 크다는 것은 모집단의 크기와 상대크기를 의미) 표본의 성질을 모집단으로 보아도 되겠습니다. 즉, 표본평균은 모평균이 되고 표본분산은 모분산이 됩니다. 이것을 점추정(point estimation)이라고 합니다.

 

두번째로  모집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

 

아뭏든 무었보다도 표본의 크기를 어느정도는 크게 하려고 노력해야 할 것  같습니다.

 

그리고 같이 생각해볼 문제로 1개의 데이터를 구하는 비용이 정해져 있다면  표본의 갯수가 많은 것이 좋을까요. 아니면, 표본의 크기가 큰 것이 좋을 까요?

 

모집단에서 표본을 추출하는 방법에는 다음과 같은 것들이 있습니다.

단순 무작위 추출

층화 집락추출법

계통추출법

 

모집단(population)은 연구대상이 되는 모든 관측값이나 측정값의 집합을 말합니다.

연구모집단(목표모집단)은 연구조사 목적에 따른 개념적 집단입니다.

조사모집단은 표본으로 추출가능한 개체들로만 구성된 모집단입니다.

 

모수(parameter)는 모집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별 평균소득 등입니다.

 

표본(sample)은 더 큰 모집단에서 추론을 위해 수집하고 분석하는 요소의 집합입니다. 즉 모집단의 부분집합입니다.

 

통계량(statistics)은 표본으로 부터 계산된 표본을 잘 나타내는 대표값과 분포값인 표본평균, 표본분산, 표본비율등을 말합니다. 모집단의 모수(parameter)에 해당됩니다.

 

표본으로 부터 모집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다.

확률에서 시행과 사건의 개념을 정리해보면

시행은 조사행위입니다.

사건은 시행결과 조건에 맞는 결과입니다.

전사건은 시행에서 얻을 수 있는 결과의 모든 집합입니다.

근원사건은 일어날 수 있는 각 개별 사건입니다.

수학적 확률은 해당사건이 일어나는 경우의 수를 일어날 수 있는 모든 경우의 수로 나눈 것을 말합니다.

여기서 근원사건은 모두 같은 정도로 일어나는 확률을 가집니다.

 

확률은 수학적확률과 통계적 확률이 있는데 통계적확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다.

수학적 확률과 통계적 확률이 같은 경우는 통계적확률에 사용하는 환경이 완벽한 경우입니다.

예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다.

 

정리하면 수학적확률은 통계적확률의 환경을 가정하는 방식으로 모델링한 것입니다.

 

모집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다.

표본에서 산출되는 평균과 분산등을 통계량(statistic)이라하며 여러 통계량들을 나타내는 복수형인 statistics은 통계(statistics)의 어원이 되었습니다.

 

통계량은 표본을 추출하는 방법에 따라 값이 결정되는 확률변수입니다. 이 확률변수에 대응하는 확률분포를 표본분포라 합니다.

 

정규모집단은 불명확한 모집단의 분포를 정규분포라고 가정할 수 있는 특별한 모집단입니다.

 

모평균은 모집단 데이터의 평균을 말합니다.

모분산은 모집단 데이터의 분산입니다.

 

모평균, 모분산은 전체를 측정하는 것(전수검사)이 어려우므로 모르는 경우가 대부분입니다.

그래서 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계학입니다.

 

표본평균은 모집단에서 추출한 표본의 평균값입니다.


강의와 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.