평균과 표준편차를 한 번에 비교하려면?

변동계수 (두 평균의 크기를 동일하게 해서 상대표준편차를 비교)


변동계수로 비교할 수 있습니다.

변동계수(coefficient of variation, CV)는 표준편차를 산술평균을 기준으로 표준화(standardization)한 것으로, 표준편차를 산술평균으로 나눈 값입니다.

 

애니메이션을 보면 A와 B의 평균과 표준편차가 각각 다릅니다.

B의 평균이 A의 평균과 같아지도록 늘린 비율만큼, 표준편차를 늘려주면, A와 B의 평균이 같다는 조건 하에서의 상대적인 표준편차를 비교해볼 수 있습니다.

이러한 상대적인 표준편차를 변동계수라고 합니다.

 

예를 들어, 한국과 미국의 제품 가격을 비교한다고 할 때, 한국과 미국의 다른 화폐 기준으로 인해, 한국에서 1,000원, 2,000원, 3,000원인 제품이 미국에서는 1, 2, 3달러일 수 있습니다.

평균과 표준편차를 구해보면, 한국에서는 평균 2,000원, 표준편차 816원이고, 미국에서는 평균 2달러, 표준편차 0.816달러입니다.

이와 같이 자연현상과 사회현상에서 평균이 높으면 표준편차도 높아지는 경향이 있습니다.

 

위의 예에서 변동계수를 구하면, 둘다 0.4로 동일합니다.

같은 단위를 가지는 표준편차를 평균으로 나누면, 단위가 사라지고 표준화된 수치를 비교할 수 있기 때문에 단위에 대한 고려를 안해도 되는 이로움이 있습니다. 

맥주는 손 맛?

t분포 (윌리엄 고셋의 필명을 따서 Student t분포라고도 함)


기네스 맥주의 맛은 t분포 덕분입니다.

t분포는 기네스 맥주회사의 윌리엄 고셋(William Gosset)의 이름을 따서 만들어졌습니다. 당시에는 표본크기가 150개 정도의 표본으로 모집단의 모수를 추정하는 것이 일반적이었는데, 윌리엄 고셋이 처한 현실에서는 작은 표본크기로 이상적인 홉의 비율을 추정해내야 했습니다. 참고로, 기네스 사는 경쟁사들보다 뛰어난 품질관리를 위해 대학에서 과학과 수학을 전공한 인재를 정식으로 채용했는데, 이는 ‘맥주는 손맛’이라고 생각하던 당시에는 매우 파격적인 전략이었습니다.

 

그런데, 표본의 크기가 작은 경우, 표본의 분산이 모집단의 분산에 비해 작아집니다. 따라서, 작은 표본의 통계량으로 모수를 타당하게 추정하기 어렵습니다.

 

윌리엄 고셋은 소표본의 분포와 분산을 조사하던 중, 그 분포가 칼 피어슨(Karl Pearson)의 카이제곱 분포와 연관이 있음을 발견하고, 표준정규분포와 카이제곱 분포의 비율인 t분포를 만들게 됩니다. 이로써 표본크기가 작아도 모집단을 추정할 수 있는 길이 열리게 됩니다.

 

위의 애니메이션을 보시면, 표본크기가 작은 경우의 t분포는 정규분포에 비해 더 퍼져있는 것을 보실 수 있습니다. 그러다가 표본크기가 30에 가까워지면, 정규분포에 가까워집니다.

 

참고로, 윌리엄 고셋은, 기네스 맥주회사의 내부 보안 방침에 저촉되지 않도록, 이러한 연구결과를 자신의 필명인 Student로 Biometrika라는 학술저널에 발표하였고, 훗날 이 논문 속의 분포를 “Student’s distribution”이라고 부른 로날드 피셔(Ronald Fisher)에 의해 널리 알려지게 되어, Student t 분포가 되었습니다.

 

표본크기는 얼마가 적정할까?

표본추출 (표본추출에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


표본크기가 커질수록 표본오차가 줄어듭니다.

2020년 4월 15일 총선 기준, 우리나라 전체 유권자 수는 약 4,399만명입니다. 여론조사는 약 1~5천명의 표본을 추출해서 이루어집니다. 신뢰수준이 95%로 할 경우, 우리나라 유권자를 대상으로 여론조사를 실시할 때, 표본크기에 따른 표본오차의 크기는 1,000명일때 약 3%, 2,000명일때 약 2%, 5,000명일때 약 1.4%, 10,000명일때 약 1%입니다.

 

표본크기 표본오차

 1,000명    3.0%

 2,000명    2.0%

 5,000명    1.4%

10,000명   1.0%

 

표본크기가 1,000명을 넘어가면, 표본크기를 배로 늘려도 표본오차가 그에 비례해서 줄어들지 않습니다. 표본크기가 1,000명에서 10,000명으로 10배 늘었는데, 표본오차는 1/3로 줄어들었습니다. 여기에서 가장 중요한 것은 표본이 랜덤하게 추출되어야 한다는 것입니다. 그리고나서는 표본을 늘리는데, 얼마나 비용이 늘어나는지입니다. 

 

만약, 표본을 하나 늘리는데, 10,000원이라는 돈이 든다면, 1,000명의 표본을 추출할 때는 1,000만원의 비용으로 표본오차 3.0%의 추정치를 구할 수 있습니다. 10,000명의 표본을 추출할 때는 1억원의 비용으로 표본오차 1.0%의 추정치를 구할 수 있습니다. 물론, 지지율 조사를 했는데, 두 사람의 지지율이 오차범위 내에 있다면, 표본크기를 더 키워서, 오차범위를 줄이고 정확도를 높일 수 있습니다.

자유도 ?

통계량 (통계량에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


자유도는 데이터 들 중 자유롭게 변할 수 있는 데이터의 개수입니다.

자유도를 쉽게 설명한다면, 데이터 들 중 자유로운 값을 가질 수 있는 데이터의 개수가 됩니다. 예를 들어, 10개의 데이터가 있는데, 우리가 이 10개의 데이터에 대한 통계량을 아무것도 모른다면, 10개의 데이터는 어떤 값이든지 가질 수 있고, 자유도가 10이 됩니다.

 

그런데, 만약, 우리가 위의 10개 데이터의 평균을 알고 있다면, 10개 중 9개는 자유롭지만, 마지막 1개는 우리가 알고 있는 평균으로 인해, 그 값이 정해져 버립니다. 즉, 자유롭지 않습니다.

 

통계학에서 분산이라는 개념은 평균을 먼저 구하고, 그 평균과의 거리를 측정해서 구할 수 있는 값입니다. 따라서, 분산을 구할 때의 자유도는 평균을 구할 때의 자유도보다 하나 줄어들게 됩니다.

 

자유도를 달리 표현하면,

통계적 추정을 할 때, 표본자료 중 모집단의 정보를 주는 독립적인(자유로운) 데이터의 개수를 말합니다.

 

표본분산은 편차 제곱의 합을 자유도로 나누어주면 되는데, 이 때의 자유도는 표본의 크기, n보다 1이 작은 수 입니다.

 

위의 애니메이션에서 각 당도는 옅은 푸른색의 막대로 표현했습니다. 20개의 당도를 더한 후, 당도 개수로 나누면 평균이 나옵니다. 

당도 평균을 각 당도 위에 붉은색 선으로 표시하고, 이 붉은색 선보다 튀어나오거나 부족한 부분을 편차로 표시했습니다.

이 편차의 합과 평균은 0이 됩니다. 편차의 크기를 이해하기 위해 편차를 제곱하여 평균을 계산한, 0이 아닌 값이 분산입니다.

 

우리가 표본분산을 구할 때는 이 표본분산으로 모분산을 추정하고자 함입니다. 즉, 표본분산의 기대값이 모분산과 같으면 좋겠습니다. 그런데, 편차제곱의 합을 표본의 크기로 나눈 값의 기대값은 모분산보다 작습니다. 모분산의 (n-1)/n의 크기가 됩니다. 즉, 이 값을 모분산의 추정량으로 사용하기에는 편의(bias)가 있어서, 모분산의 불편추정량(unbiased estimate)으로 사용할 수 없습니다.

 

따라서, 표본분산의 기대값이 모분산과 같아지기 위해서는 편차제곱의 합을 n-1로 나누어야 하는데, 이는 표본분산의 자유도입니다.

 

서울시에서 인구가 가장 많은 자치구는?

통계량 (통계량에 대한 이해를 돕기 위해 딸기 데이터로 만든 애니메이션입니다.) 


송파구 673,926명입니다.

2020년 4사분기 서울시에서 공개한 데이터를 기준으로 하였습니다. 서울시 전체인구는 9,911,088명이고, 이를 25개 자치구로 나눈 자치구별 인구 평균은 396,444명니다. 자치구 중 인구가 가장 많은 곳은 송파구 673,926명, 강서구 585,901명, 강남구 544,055명 순입니다. 인구가 가장 작은 자치구는 중구 134,635명, 종로구 158,996명, 용산구 244,645명 순입니다.


서울시 자치구별 인구와 편차


송파구의 표준화값(Z value)은 2.23, 중구는 -2.11입니다.

각 자치구별 인구를 평균과 표준편차로 표준화 해보겠습니다. 각 자치구별 인구의 평균은 396,444명이고, 표준편차는 124,158명입니다.

각 자치구별 인구에서 평균을 뺀 값을 표준편차로 나누어주면 표준화된 값, Z value를 구할 수 있습니다. 송파구는 2.23이고, 중구는 -2.11입니다. 송파구는 평균으로부터 2.23 표준편차만큼 플러스방향으로 떨어져있다는 의미입니다.

자치구 인구 표준화 값(Z value)
중구 134,635 -2.11
종로 158,996 -1.91
용산 244,645 -1.22
금천 247,835 -1.20
성동 300,505 -0.77
강북 311,569 -0.68
서대문 322,952 -0.59
도봉 327,361 -0.56
동대문 357,014 -0.32
광진 360,109 -0.29
마포 381,858 -0.12
중랑 399,562 0.03
동작 401,572 0.04
영등포 407,367 0.09
서초 429,025 0.26
구로 432,488 0.29
성북 447,056 0.41
양천 457,781 0.49
강동 463,998 0.54
은평 484,043 0.71
관악 509,803 0.91
노원 527,032 1.05
강남 544,055 1.19
강서 585,901 1.53
송파 673,926 2.23
합계 9,911,088 0.00
평균 396,444  
표준편차 124,158  

 


서울시 자치구별 인구의 표준화 값(Z value)

우리나라 임금근로자의 소득은?

사분위표


소득 평균은 309만원, 중앙값은 234만원입니다.

통계청에서 2021년 2월 24일 배포한 보도자료를 기준으로 하였습니다. 우리나라 모든 임금근로자의 소득 데이터는 다음으로부터 얻어졌습니다.

사회보험과 공무원, 군인, 사학, 우체국에 가입된 약 1,885만개의 일자리의 근로자 소득 전체

나머지 65만개 일자의 근로자 소득은 국세청 자료를 표본으로 하여 추정

 

소득 평균은 모든 일자리의 소득을 모두 더한 후, 일자리의 수의 나눈 값입니다. 중앙값은 모든 일자리의 소득을 소득순으로 나열했을 때, 정중앙에 위치한 값입니다.

 

평균이 중앙값보다 크다는 것은 소득분포가 좌우대칭이 아닌 오른쪽(평균보다 높은 쪽)으로 길게 늘어져있다는 의미입니다.


사분위표

한국 vs 미국, 맥도날드 햄버거 가격비교?

변동계수, 상대표준편차


평균을 중심으로 한국의 맥도날드 햄버거 가격의 퍼짐이 더 큽니다.

한국과 미국의 맥도날드 햄버거 가격을 비교해보겠습니다. 세트를 기준으로 했습니다. 미국에서는 meal 혹은 combo로 표현되는데, 햄버거 단품 외에 콜라 등의 음료와 감자튀김이 포함된 상품입니다.

 

먼저, 한국의 맥도날드 햄버거 가격 요약 표입니다. 맥딜리버리 홈페이지 2021년 2월 18일자 기준이며, 단품만 있는 햄버거를 제외한 18개 제품의 데이터입니다.

상품명 가격(단위:원) 평균과의 편차 평균과의 편차제곱
미트칠리 비프버거 7,900 856 731,975
미트칠리 치킨버거 7,300 256 65,309
1955 버거 8,000 956 913,086
빅맥 6,900 -144 20,864
맥스파이시 상하이버거 6,900 -144 20,864
맥치킨 5,500 -1,544 2,385,309
맥치킨 모짜렐라 6,900 -144 20,864
더블1955 버거 9,500 2,456 6,029,753
더블불고기버거 6,200 -844 713,086
에그불고기버거 5,500 -1,544 2,385,309
불고기 버거 4,900 -2,144 4,598,642
슈슈버거 6,500 -544 296,420
슈비버거 8,000 956 913,086
베이컨 토마토 디럭스 7,800 756 570,864
더블 쿼터파운더 치즈 9,300 2,256 5,087,531
쿼터파운더 치즈 7,500 456 207,531
치즈버거 5,500 -1,544 2,385,309
더블 치즈버거 6,700 -344 118,642
합계 126,800 0 27,464,444
개수 18 18 18
평균 7,044 0 1,525,802
분산 1,525,802    
표준편차 1,235    

평균은 7,044원이고, 표준편차는 1,235원입니다.

 

다음으로 미국의 맥도날드 햄버거 가격입니다.

상품명 가격(단위:달러) 평균과의 편차 평균과의 편차제곱
Big Mac 7.60 0.24 0.06
Quarter Pounder 7.60 0.24 0.06
Quarter Pounder with Cheese 8.60 1.24 1.54
Buttermilk Crispy Chicken 8.10 0.74 0.55
Filet-O-Fish 6.80 -0.56 0.31
2 Cheeseburgers 5.30 -2.06 4.23
Artisan Grilled Chicken 7.50 0.14 0.02
합계 51.50 0.00 6.78
개수 7 7 7.00
평균 7.36 0.00 0.97
분산 0.97    
표준편차 0.98    

 

평균은 7.36이고, 표준편차는 0.98입니다. 한국의 원화와 미국의 달러화라는 척도가 다르기 때문에 데이터의 대표값과 분포값을 비교하기가 어렵습니다. 이런 경우, 데이터의 분포값을 데이터의 대표값으로 나누어주면, 단위가 사라진 표준화된 계수가 나타납니다.

  한국의 맥도날드 햄버거 가격(단위:원) 미국의 맥도날드 햄버거 가격(단위:달러)
평균 7,044 7.36
분산 1,525,802 0.97
표준편차 1,235 0.98
변동계수 0.18 0.13

우리나라 원화의 경우, 달러화보다 금액이 커지기 때문에, 평균과 표준편차의 수치도 커지게 됩니다. 변동계수는 표준편차를 평균으로 나눈 값으로 단위 때문에 절대적인 데이터의 퍼짐 정도를 비교하기 어려울 때 사용할 수 있습니다. 상대표준편차라고도 합니다. 

 

변동계수가 각각 0.18과 0.13으로 우리나라의 맥도날드 햄버거 가격이 더 퍼져있음을 알 수 있습니다.

참이슬과 처음처럼의 맛을 구분할 수 있을까요?

시행횟수가 2에서 100까지 변할 때의 이항분포


A는 참이슬과 처음처럼의 맛이 미묘한 차이는 있지만, 사람이 구분하기는 어렵다고 주장합니다.

우리나라에서 구매할 수 있는 대부부의 희석식 소주는 대한주정판매(주)에서 만든 주정을 각 소주회사 나름대로의 희석공정을 거쳐 만듭니다. 주정은 전분이나 당분이 함유된 원료를 발효시켜 85도 이상으로 증류한 것을 말하는데, 원료에는 쌀, 보리, 고구마, 타피오카 등이 있습니다.

이렇게 만들어진 참이슬과 처음처럼은 물, 감미료 등에 따라 미묘한 맛의 차이는 있을 수 있지만, 사람이 구분할 수 있을 정도는 아니라고 합니다.


 B는 참이슬과 처음처럼의 맛을 보면 이 둘을 구분할 수 있다고 주장합니다.

B는 참이슬과 처음처럼의 맛의 차이가 미묘하지만 이를 구분할 수 있다고 합니다. 


A와 B는 B가 정말 그 맛을 구분할 수 있는지 실험을 하기로 합니다.

B의 눈을 가리고, 동일한 2개의 잔에 각각 참이슬과 처음처럼을 담아서, B가 맛을 본 후, 맞출 수 있는지 실험을 하기로 합니다.

참이슬과 처음처럼의 맛이 같아서 이 둘을 구분할 수 없는데, 우연히 이 둘을 맞춘다면 그 확률은 1/2입니다. 만약, B가 2번 연속 맞춘다면, 확률은 1/4, 25%입니다. 하지만, 이 정도로 A가 참이슬과 처음처럼의 맛을 구분한다고 하기는 어려울 수도 있습니다.

그런데, B가 5번 연속으로 맞춘다면, 그 확률은 1/32(1/2을 다섯번 곱함), 3.125%입니다. 이 정도되면, 우연히 5번이나 맞추기는 어려울텐데, 진짜 맛을 구분할 수 있는 것이 아닐까 생각할 수 있습니다.

사건 확률 신뢰수준
1회 구분 50.00% 50.00%
2회 연속으로 구분 25.00% 75.00%
3회 연속으로 구분 12.50% 87.50%
4회 연속으로 구분 6.25% 93.75%
5회 연속으로 구분 3.13% 96.88%

이번에는 실험방식을 바꿔서, 10잔 중 몇 잔을 맞추는지를 볼 수도 있습니다. 10잔 중 8잔 이상을 우연히 맞출 확률은 5.47%, 9잔 이상은 1.08%, 10잔 모두 맞출 확률은 0.1%입니다.

사건 확률 신뢰수준
10번 중 0번 이상 구분 100.00% 0.00%
10번 중 1번 이상 구분 99.90% 0.10%
10번 중 2번 이상 구분 98.93% 1.07%
10번 중 3번 이상 구분 94.53% 5.47%
10번 중 4번 이상 구분 82.81% 17.19%
10번 중 5번 이상 구분 62.30% 37.70%
10번 중 6번 이상 구분 37.70% 62.30%
10번 중 7번 이상 구분 17.19% 82.81%
10번 중 8번 이상 구분 5.47% 94.53%
10번 중 9번 이상 구분 1.07% 98.93%
10번 중 10번 이상 구분 0.10% 99.90%


중요한 것은 A와 B, 혹은 이 글을 보시는 분들이 납득하실 수 있는 실험방법과 기준을 정하는 겁니다.

뉴스 혹은 논문을 통해 95% 신뢰구간이라는 표현을 종종 볼 수 있습니다. 95% 신뢰구간이란 5% 정도는 틀릴 수 있다는 의미입니다. 위의 사례에서, 첫번째 실험방식으로는 5번은 연속으로 맞춰야 그 기준을 충족하게 됩니다. 두번째 실험방식이라면 10번 중 9번 이상은 맞춰야 하는데, 8번을 맞춘다면 어떻게 판정해야할까 애매합니다.

위의 사례는 심각하지 않은 경우라서, 편하게 5% 정도를 설정할 수 있는데, 만약 사람의 목숨이 걸린 문제라면 5%가 매우 느슨한 기준처럼 보일 수도 있습니다. 이와 같이, 우리가 흔히 사용하는 95%라는 신뢰구간은 절대적인 것이 아닌, 그 주제와 관련된 사람들이 정한 것이고, 바꿀 수도 있다는 것입니다.

코로나백신의 효과는 어떻게 측정하나요?

AB 테스트


임상시험에 참가한 사람 중에서 전체 확진자와 위약접종 그룹 내 확진자의 비율로 수치를 발표합니다.

16세 이상의 다국적사람들로부터 신청을 받아서, 이를 코로나백신후보접종그룹과 위약접종그룹으로 나누었습니다. 본인이 어느 그룹에 속해있는지 모르며, 관찰자도 각 참가자가 어느 그룹인지 모르도록 하였습니다. 

 

43,448명이 접종을 받았는데, 그 중 21,720명은 코로나백신후보를 접종받고, 21,728명은 위약을 접종받았습니다. 접종은 21일 간격으로 각각 30μg 씩 2회 접종하였습니다.

 

2차 접종 이후 최소 7일이 지난 시점에 Covid-19가 발병한 사람은 170명인데, 그 중 8명은 코로나백신후보접종자이고, 162명은 위약접종자였습니다.

 

화이자는 이 후보백신이 Covid-19에 대해 95% 보호를 제공한다고 발표했습니다.

 

 

 

백신후보 접종 

위약 접종

합계

코로나백신 효과 수치

음성

18,190

18,163

36,353

양성

8

162

170

162 / 170 = 0.95

합계

18,198

18,325

36,523

 

참고논문

Safety and Efficacy of the BNT162b2 mRNA Covid-19 Vaccine

코로나백신 임상시험에서 피험자를 실험군과 대조군에 어떻게 배정하나요?

동전던지기와 큰 수의 법칙


모든 피험자가 실험군과 대조군에 배정될 확률이 같은 방식으로 배정합니다.

모든 피험자가 실험군과 대조군에 배정될 확률을 같게 하여 배정하는데, 이를 무작위 배정(random allocation)이라고 합니다. 무작위화(randomization)라는 것은 1920년대 Ronald A. Fisher에 의해 처음으로 개념화되었습니다.

 

가장 단순한 방법으로는, 동전 던지기를 해서 앞면인지 뒷면인지에 따라, 일련의 순서 상에 있는 피험자들을 실험군과 대조군으로 배정하는 방법을 생각해볼 수 있습니다. 동전던지기의 경우, 앞면과 뒷면이 나올 확률이 각각 50%이기 때문에 가능합니다. 현실에서는 이런 원리가 적용된 컴퓨터 프로그램을 이용합니다. 

 

이러한 단순 무작위 배정은 쉽고, 구현이 용이하며, 이해하기 쉬운 반면, 실험군과 대조군에 배정되는 피험자 수의 불균형이 발생할 수 있습니다. 특히, 고령의 피험자가 특정 군에 더 많이 배정되는 등의 문제가 발생할 수 있습니다.

 

코로나백신 임상시험과 같은 시험에서는 단순 무작위 배정의 단점을 보완하기 위해, 우선 전체 피험자를 그룹으로 나눕니다. 이 그룹은 시험 결과에 영향을 미칠 것으로 예상되는 연령, 인종, 국적을 조합하여 만든 그룹입니다. 그리고, 그 그룹 내에서 단순 무작위 배정을 실시하는 것이 일반적입니다.

 

참고문헌

Random allocation and dynamic allocation randomization Anesth Pain Med. 2017;12(3):201-212. Published online July 31, 2017 DOI: https://doi.org/10.17085/apm.2017.12.3.201