표본크기는 얼마가 적정할까

표본추출 (표본추출에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


표본크기가 커질수록 표본오차가 줄어듭니다.

2020년 4월 15일 총선 기준, 우리나라 전체 유권자 수는 약 4,399만명입니다. 여론조사는 약 1~5천명의 표본을 추출해서 이루어집니다. 신뢰수준이 95%로 할 경우, 우리나라 유권자를 대상으로 여론조사를 실시할 때, 표본크기에 따른 표본오차의 크기는 1,000명일때 약 3%, 2,000명일때 약 2%, 5,000명일때 약 1.4%, 10,000명일때 약 1%입니다.

 

표본크기 표본오차

 1,000명    3.0%

 2,000명    2.0%

 5,000명    1.4%

10,000명   1.0%

 

표본크기가 1,000명을 넘어가면, 표본크기를 배로 늘려도 표본오차가 그에 비례해서 줄어들지 않습니다. 표본크기가 1,000명에서 10,000명으로 10배 늘었는데, 표본오차는 1/3로 줄어들었습니다. 여기에서 가장 중요한 것은 표본이 랜덤하게 추출되어야 한다는 것입니다. 그리고나서는 표본을 늘리는데, 얼마나 비용이 늘어나는지입니다. 

 

만약, 표본을 하나 늘리는데, 10,000원이라는 돈이 든다면, 1,000명의 표본을 추출할 때는 1,000만원의 비용으로 표본오차 3.0%의 추정치를 구할 수 있습니다. 10,000명의 표본을 추출할 때는 1억원의 비용으로 표본오차 1.0%의 추정치를 구할 수 있습니다. 물론, 지지율 조사를 했는데, 두 사람의 지지율이 오차범위 내에 있다면, 표본크기를 더 키워서, 오차범위를 줄이고 정확도를 높일 수 있습니다.