코로나백신 임상시험에서 피험자를 실험군과 대조군에 어떻게 배정하나요?

동전던지기와 큰 수의 법칙


모든 피험자가 실험군과 대조군에 배정될 확률이 같은 방식으로 배정합니다.

모든 피험자가 실험군과 대조군에 배정될 확률을 같게 하여 배정하는데, 이를 무작위 배정(random allocation)이라고 합니다. 무작위화(randomization)라는 것은 1920년대 Ronald A. Fisher에 의해 처음으로 개념화되었습니다.

 

가장 단순한 방법으로는, 동전 던지기를 해서 앞면인지 뒷면인지에 따라, 일련의 순서 상에 있는 피험자들을 실험군과 대조군으로 배정하는 방법을 생각해볼 수 있습니다. 동전던지기의 경우, 앞면과 뒷면이 나올 확률이 각각 50%이기 때문에 가능합니다. 현실에서는 이런 원리가 적용된 컴퓨터 프로그램을 이용합니다. 

 

이러한 단순 무작위 배정은 쉽고, 구현이 용이하며, 이해하기 쉬운 반면, 실험군과 대조군에 배정되는 피험자 수의 불균형이 발생할 수 있습니다. 특히, 고령의 피험자가 특정 군에 더 많이 배정되는 등의 문제가 발생할 수 있습니다.

 

코로나백신 임상시험과 같은 시험에서는 단순 무작위 배정의 단점을 보완하기 위해, 우선 전체 피험자를 그룹으로 나눕니다. 이 그룹은 시험 결과에 영향을 미칠 것으로 예상되는 연령, 인종, 국적을 조합하여 만든 그룹입니다. 그리고, 그 그룹 내에서 단순 무작위 배정을 실시하는 것이 일반적입니다.

 

참고문헌

Random allocation and dynamic allocation randomization Anesth Pain Med. 2017;12(3):201-212. Published online July 31, 2017 DOI: https://doi.org/10.17085/apm.2017.12.3.201

코로나백신 효과 시험은 어떻게 하나요?

표본추출


코로나 백신의 효과를 시험하기 위해서는 코로나백신을 접종한 사람들과 그렇지 않은 사람들을 비교하는 방법을 사용합니다.

우선 승인기관에서 요구하는 적당한 조건의 임상시험 참가자를 모집합니다.  참가자를 다시 코로나 백신을 접종한 사람들을 실험군, 코로나 백신을 접종하지 않은 사람들을 대조군으로 구분합니다. 그리고 접종 후 일정기간이 지난 후 코로나에 감염되는 인원을 조사합니다.

 

그런데, 대조군은 아무래도 실험군에 비해 코로나에 걸리지 않기 위해 더욱 조심할 것이므로, 실험군과 대조군을 동일한 조건에서 실험을 했다고 보기 어렵습니다.

 

따라서, 이러한 임상시험에서는 대조군에도 접종을 하게 되는데, 이는 항체형성에 전혀 도움이 되지 않는 가짜 약제로 하는 접종으로, 위약 또는 플라시보(placebo)라고 합니다.

 

다음으로 임상시험에 참여하는 참가자의 입장에서 내가 실험군 혹은 대조군에 속해있다는 것을 안다면, 이 또한 임상시험 결과에 영향을 미치게 됩니다. 만약, 나에게 접종을 하는 사람 혹은 나를 관찰하는 사람의 표정이나 몸짓으로부터 내가 실험군 혹은 대조군에 속해있다는 정보를 얻을 수 있다면, 이 또한 문제가 됩니다. 따라서, 임상시험에서는 참가자 뿐만 아니라 실험자에게도 누가 실험군이고 대조군인지, 그리고 어떤 약이 백신이고, 위약인지 정보를 공개하지 않는데, 이를 이중맹검(더블블라인드, double-blind)라고 합니다. 

 

실험군과 대조군이 얼마나 공평하게 나누어져 있는가도 매우 중요한 문제입니다. 이 문제는 따로 다루겠습니다. 

1,000명 중 한 사람이 걸리는 병의 검사에서 양성반응이 나타난 경우, 병에 걸렸을 확률은 ?

AB 테스트


A 검사로 양성반응이 나왔다면, 실제 병에 걸렸을 확률은 9%입니다.

A 검사는 다음과 같은 정확도를 가지고 있다고 알려져 있습니다.

 

병에 걸린 경우, 양성반응이 나타날 확률은 99%. 음성반응이 나타날 확률은 1%.

건강한데, 양성반응이 나타날 확률은 1%. 음성반응이 나타날 확률은 99%.

 

1,000명 중 1명 꼴로 걸리는 병이 있다고 할 때, 999명은 건강한 사람입니다. 건강한 사람 중 1%는 건강한데도 양성반응이 나옵니다. 999명의 1%는 9.99인데, 사람은 소수점으로 표현할 수 없으니까, 10명이라고 해보겠습니다.

감염된 사람 1명은 99% 확률로 양성반응이 나오므로, 이 1명도 양성반응이 나온다고 해보겠습니다.

따라서, 양성반응이 나오는 사람은 총 11명이고, 그 중 실제로 감염된 사람은 1명입니다. 계산해보면, 약 9%입니다.

 

B 검사로 양성반응이 나왔다면, 실제 병에 걸렸을 확률은 50%입니다.

B 검사는 다음과 같은 정확도를 가지고 있다고 알려져 있습니다.

 

감염된 경우, 양성반응이 나타날 확률은 99%. 음성반응이 나타날 확률은 1%.

건강한데, 양성반응이 나타날 확률은 0.1%. 음성반응이 나타날 확률은 99.9%.

 

1,000명 중 1명 꼴로 걸리는 병이 있다고 할 때,  999명은 건강한 사람입니다. 건강한 사람 중 0.1%는 건강한데도 양성반응이 나옵니다. 999명의 0.1%는 0.999인데, 사람은 소수점으로 표현할 수 없으니까, 1명이라고 해보겠습니다.

감염된 사람 1명은 99% 확률로 양성반응이 나오므로, 이 1명도 양성반응이 나온다고 해보겠습니다.

따라서, 양성반응이 나오는 사람은 총 2명이고, 그 중 실제로 감염된 사람은 1명입니다. 계산해보면, 50%입니다.

 

따라서 실제에서는, 병이 걸리지 않았는 데, 검사에서 양성반응으로 잘못 나타날 확률이 0.1%보다는 훨씬 작은 검사방법이 있어야겠습니다.

수학 50점(모집단 평균 30, 모집단 표준편차 8), 영어90점(모집단 평균 80, 모집단 표준편차 6). 어느 점수가 높은걸까?

정규분포


모집단의 점수가 정규분포를 이룬다면, 수학점수가 더 높습니다.

수학점수와 영어점수의 평균과 표준편차가 다르기 때문에 이를 표준화해서 비교합니다. 내 점수에서 평균을 빼고, 표준편차로 나누면 표준화된 수치를 얻을 수 있습니다.

 

표준화 후의 수학점수는 2.50이고, 영어점수는 1.67입니다. 수학점수가 영어점수보다 더 높습니다. 


수학점수는 상위 1%이내, 영어점수는 상위 5% 이내에 해당합니다.

수학점수가 50점 이상인 사람은 전체 시험을 본 사람 중 0.7% 이내입니다. 영어점수가 90점 이상인 사람은 전체 시험을 본 사람 중 4.8%이내입니다.

 

엑셀로 딸기의 당도와 과중 상관관계를 분석할 수 있을까요?

산점도(과중과 당도)


산점도와 회귀선


딸기의 과중과 당도를 측정하고, 엑셀을 이용하여 평균과의 편차를 구한 후 상관계수를 계산합니다.

엑셀은 별도의 프로그램 설치가 필요합니다. 여기에서는 엑셀과 사용방법이 동일한 구글시트로 딸기의 당도와 과중의 상관관계를 분석해보겠습니다. Chrome에서 아래의 구글시트 가져가기를 하시면, 직접 실습을 해보실 수 있습니다. 



딸기의 과중과 당도의 대표값을 구하고, 각 딸기의 과중과 당도가 평균으로부터 얼마나 차이가 나는지를 구합니다.

average 함수를 이용해서, 과중과 당도의 대표값 중 산술평균을 구합니다. 각 딸기의 당도와 당도 평균, 과중과 과중 평균의 편차를 각각 구합니다.

 




과중과 당도의 편차의 곱 합계와 과중 편차제곱 합계의 비율이 회귀선의 기울기가 됩니다.

과중을 X축으로 하고, 당도를 Y축으로 하는 산점도 상에 회귀선을 그리게 되면, 그 기울기는 과중이 변화할 때 당도가 얼마나 변화하는지를 나타냅니다. 이는 과중과 당도의 편차의 곱 합계를 과중 편차제곱 합계로 나눈 값이 됩니다.



과중과 당도의 상관계수가 유의한지는 표본의 크기, 상관계수에 의해 좌우됩니다.

딸기 20알의 과중과 당도의 상관계수가 유의미한지를 검정하기 위해, 검정통계량 t를 구합니다. t분포 상에서 검정통계량의 확률밀도를 구하고, 그것이 유의수준보다 작으면, 과중과 당도의 상관관계가 유의하다고 할 수 있습니다.




딸기의 과중과 당도는 상관이 있나요?

산점도(과중과 당도)


산점도와 상관계수


딸기의 과중을 가로축으로, 당도를 세로축으로 하는 딸기의 2차원 산점도를 그려보면, 딸기의 과중과 당도는 선형의 관계가 나타납니다.

하나의 딸기가 가지는 과중과 당도의 관계를 알기 위해, 과중을 가로축으로, 당도를 세로축으로 하는 딸기의 2차원 산점도를 그립니다. 위의 데이터에서 요소는 딸기이고, 변수는 과중과 당도입니다. 상관관계는 동일한 요소의 변수간 관계를 파악하는 것입니다. 


어느 정도 상관이 있는지, 표준화한 수치로 나타낸 것인 상관계수입니다.

상관계수는 -1부터 1까지의 값을 가집니다. 두 변수, 과중과 당도가 같은 방향으로 동일한 크기로 변화하면 상관계수는 1이 되고, 반대 방향으로 동일한 크기로 변화하면 상관계수는 -1이 됩니다.

 


우리나라의 딸기품종 설향은 겨울철에 맛있습니다.

딸기는 전년도 늦가을부터 다음해 초여름까지 재배하면서 4~5번 정도 열매를 수확합니다. 우리나라에서 유통되는 딸기의 70% 이상을 차지하는 설향은 추위에 강합니다. 겨울에 수확하는 설향은 익는데, 시간이 좀 더 걸리고 광합성을 오래함으로써, 봄철에 수확하는 설향에 비해 당도가 높습니다.
위에 사용한 데이터는 설향을 특성을 반영하여 학습용으로 가공한 데이터입니다.

회귀선은 어떤 정보를 가지고 있을까요?

딸기의 과중과 당도 산점도


회귀선은 두 변수의 관계를 선으로 표현하고, 특히 직선인 경우, 절편과 기울기 정보를 가집니다.

딸기 스무알의 과중과 당도를 측정했습니다. X축은 과중, Y축은 당도로, 스무알을 해당값에 찍어서 표현한 것이 딸기 스무알의 과중과 당도 산점도입니다.

 

위의 산점도에서 과중의 평균과 당도의 평균을 통과하는 가상의 직선을 그려볼 수 있습니다. 이 직선들 중, Y축 값인 당도와의 상하간 거리, 잔차의 제곱합이 최소가 되는 직선이 회귀선입니다.



기울기는 과중이 변화할 때, 당도가 얼마나 변화하는지를 나타냅니다.

예를 들어, 딸기 500개의 과중과 당도를 측정해서 다음과 같은 산점도와 회귀선을 얻었습니다. 회귀선의 기울기는 0.516입니다. 과중이 1만큼 변할 때, 당도가 0.516만큼 변한다는 의미입니다.  

 



회귀선은 상관관계를 가지는 두 변수를 대표하는 정보를 나타내지만, 각 딸기와 회귀선과의 거리(분포정도)에 대한 정보를 가지고 있지는 않습니다.

위의 예에서, 딸기 500알의 당도와 과중 데이터는 딸기 ID 500개, 당도 500개, 과중 500개를 합하면 모두 1,500개가 됩니다. 1,500개의 데이터를 기울기와 절편이라는 2개의 값으로 나타낸 것이 회귀선입니다. 회귀선을 이용하면, 큰 데이터를 간단하게 표현할 수 있는 반면, 회귀선으로부터 각 딸기와의 거리, 잔차에 대한 정보는 잃게 됩니다. 

한국딸기 vs 일본딸기, 같은 품종일까요?

표본평균의 분포로 모평균 추정


당도를 기준으로 품종을 판정하기로 합니다.

우리나라의 농림수산식품부 국립종자원에서는 딸기 신품종 심사를 위해 48가지의 특성으로 기존품종과 대조품종을 비교하는 방안을 제시하고 있습니다. 이러한 기준은 현재의 사람들의 인식과 기술수준 등을 고려하여 정하는 것으로 불변의 것은 아닙니다.

 

소비자들은 과일을 선택할 때, 맛을 기준으로 선택하는 소비자가 대다수입니다. 맛에 영향을 주는 것에는 과일의 당도, 산도, 식감 등이 있는데, 여기에서는 당도를 기준으로 품종을 판정한다고 가정해보겠습니다.


과일선택의 기준


표본의 당도를 측정, 한국딸기와 일본딸기의 평균을 추정해서 비교해보면, 두 딸기는 다른 품종입니다.

두 딸기가 같은 품종인가를 판정하기 위해 두 가지 기준을 정해보았습니다.

품종이 같거나 다름을 판정할 때 당도의 평균과 분포로 판정하기로 합니다.

두 딸기의 같은 품종이라고 가정하고, 같을 확률이 5%보다 낮다면 두 딸기는 다른 품종이라고 하기로 합니다.

 

12월 25일부터 다음 해 4월 25일까지 총 5번 나온 딸기를 구매해서 각각 100알씩 당도를 측정했습니다. 설 500개의 당도 평균은 11.3 Brix, 표준편차는 0.85이며, 아키 500개의 당도 평균은 10.0 Brix, 표준편차는 1.06입니다.


설과 아키의 당도 도수분포 막대그래프


표본평균, 표본분산, 표본크기로 모평균의 95% 신뢰구간을 구했습니다.

500개씩의 표본으로 추정한, 설의 모집단 당도 평균의 95% 신뢰구간은 11.27~11.42이고, 아키의 모집단 당도 평균의 신뢰구간은 9.89~10.07이다. 두 딸기의 모집단 당도 평균의 95% 신뢰구간이 겹치지 않는다는 것을 알 수 있습니다. 두 딸기는 다른 품종입니다.


설과 아키의 당도 표본평균의 분포


설향 vs 아키히메

2018년 평창 동계올림픽에 참여한 일본의 컬링 선수들이 우리나라 딸기를 먹고 극찬한 데 대해, 일본의 농림수산상이 2018년 3월 국무회의에서 “한국 딸기 뿌리는 일본 품종이다”라고 한 사실이 있습니다.

2000년대 초 주로 판매되던 아키히메와 레드펄은 일본 품종으로 주로 3~5월에 수확을 합니다.

2005년 아키히메와 레드펄을 교배하여 개발한 설향이라는 품종은 재배가 쉽고 맛이 좋아 전국의 딸기 재배 농가에 빠르게 퍼져 나갔습니다. 그 결과 2005년 약 9%에 머물던 설향, 매향, 금향 등의 국내 육성종이 2013년 이후에는 우리나라 딸기 재배면적의 78%를 차지하게 되었습니다.


평균 수심 150cm. 강을 건너도 될까요?

사분위표


상자그림


평균 수심 150cm, 강을 건너도 될까요?

군인들이 목적지로 빨리 가기 위해, 눈 앞의 강을 건너야 합니다. 군인들의 키의 평균은 180cm이고, 강의 수심 평균은 150cm라는 정보를 얻게 되었습니다.

 

지휘관은 모든 군인에게 강을 건널 것을 명령햇습니다. 그런데, 군인들이 한 명, 두 명 물 속에 빠져서 허우적거리는 것을 목격하게 되었습니다. 지휘관은 급히 회군을 명령했습니다.

 

다시 조사해보니, 이 강의 최대 수심은 200cm이고, 군인 중 키가 200cm를 넘는 사람은 없었습니다.


수심의 최대값이 인간의 키 최대값보다 크기 때문에 강을 건너면 안 됩니다.

범위는 최대값과 최소값으로 표현할 수 있습니다. 수심의 범위는 100~200cm이고, 군인 들 키의 범위는 175~185cm라는 것을 미리 알았다면, 강을 건너지 않고, 다른 선택을 했을 것입니다.


데이터의 분포값은 데이터의 분포정도(measure of dispersion)를 나타냅니다.

산포도(degree of scattering) 또는 변산성(variability)이라고 부릅니다.

 

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다.

범위는 최대값과 최소값의 구간으로 표시합니다.

 

중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

 

평균을 기준으로하는 분포정도(measure of dispersion)에는 분산(variance)과 표준편차(standard deviation)가 있습니다.

분산(variance)은 각 변수값과 평균과의 차이를 제곱한 값들의 대표값을 구한 것입니다.

즉, 변수값에서 평균을 뺀 값(편차)의 제곱의 평균입니다.

또한, 평균과 변수와의 거리제곱의 평균이라고 표현할 수도 있습니다.

그래서 분산은 0이나 양의 수가 됩니다.

 

직관적으로 본다면 변수값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다.

그리고, 변수값(데이터값)이 평균 주위에 몰려 있으면 분산의 값이 작아 진다고 볼 수 있습니다.

 

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다.

모분산과 표본분산의 수식은 차이가 있습니다.

표본분산을 계산할 때(데이터값과 평균과의 거리제곱의 평균을 구할때)는 표본의 크기인  n대신 1을 뺀  n-1을 사용합니다.

그 이유는 표본분산은 모집단에서 주어진 기준이 아닌 표본 내에서 만들어진 표본평균을 기준으로 하기 때문에, 이를 보정하기 위해 n 대신 n-1을 사용합니다.

 

표본의 크기(데이터의 갯수)가 작으면 표본분산을 구할 때 n(표본의 크기)과 n-1의 차이는 크게 나타납니다.

다른 표현으로는 표본에서 각 데이터의 거리가 나타나는 경우의 수는 데이터의 갯수 n에서 1을 뺀 수가 된다고 볼 수 있습니다.

 

분산은 평균값에서 각 변수값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 n-1과 n의 차이는 더 큽니다.

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다.

따라서 분산이 구해지면 표준편차는 자동적으로 구해집니다.

표준편차는 데이터와 단위가 같게 되어 값이 실제값을 나타냅니다.

 

모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다.

표본의 표준편차를 표본표준편차라고 부르며 $S$로 표시합니다.

 

분산은 제곱거리의 평균이어서 현실감을 느끼기가 힘드나 표준편차는 평균이나 변수값과 같은 단위가 되기 때문에 실감할 수 있습니다.

 

만약 두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다.

평균으로 표준화된 표준편차인 변동계수를 사용하면 분자 분모의 단위가 없어지고 표준화되어 두 표본의 변동 비교가 쉬워집니다.



평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

분산(variance)

${\rm 모분산}\ \ {\rm \sigma}^{{\rm 2}}={{\sum\limits_{i=1}^{N}{(x_{i}-{\rm \mu})^{2}}}\over{N}}$          ($N$: 모집단의 크기)

${\rm 표본분산}\ \ s^{2}={{\sum\limits_{i=1}^{n}{{\left({x_{i}-\bar x}\right)}^{2}}}\over{n-1}}$          ($n$: 표본의 크기)


 


표준편차(standard deviation)

${\rm 모표준편차}\ \ {\rm \sigma}=\sqrt{{\rm \sigma}^{2}}$ ${\rm 표본표준편차}\ \ s=\sqrt{s^{2}}$ 분산의 제곱근
 

변동계수(coefficient of variation, 변이계수)

  변동계수(모집단)   $CV={{\sigma}\over{\mu}}\times 100$     (단위 %)   변동계수(표본)   $CV={{s}\over{x}}\times 100$     (단위 %)
 

국회의원 재산 평균 94억원?

편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값


평균(1차원)


국회의원 재산 평균 94억원?

2013년 3월 29일 국회 공직자윤리위원회가 공개한 296명의 국회의원 재산 평균(산술평균)은 94억 9000만원입니다.

 

그런데, 정몽준 의원, 고희선 의원을 제외하고, 평균을 계산하면 23억 3000만원이었습니다. 두 의원의 재산은 각각 1조 9249만원, 1984억원이었습니다.


데이터(값들의 집합)는 대표하는 값이 있습니다.

데이터를 대표하는 값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

 

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다.

중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

 

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

 

평균에는 산술평균, 가중평균 등이 있습니다.

평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다.

보통 평균이라고 하면 산술평균을 의미합니다.

 

가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다.

특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다.

여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

 

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다.

애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다.

그러나 편향이 일어날 경우 다른값을 가집니다.

평균은 무게중심을 나타내는 확률변수값입니다.

중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다.

최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.


데이터 값 중에서 극단적으로 크거나 작은 값이 있는 경우, 산술평균보다 중앙값을 대표값으로 사용하는 것이 나을 수 있습니다.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10

위의 값을 모두 더하면 55이고, 이를 갯수 10으로 나누면 평균은 5.5 입니다. 중앙값은 5와 6의 중간인 5.5입니다. 데이터가 좌우 대칭으로 분포되어 있으면, 평균과 중앙값은 같습니다.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100

위의 값을 모두 더한 값은 155이고, 이를 갯수 11로 나누면, 평균은 14.09이고, 중앙값은 6입니다.



중앙값(median)

${\rm 중앙값}=\left\{{{{\left({n+1}\right)}\over{2}}{\rm 번째 데이터} .    n{\rm 이 홀수인 경우}}\right.$

${\rm 중앙값}=\left\{{\left({{{n}\over{2}}}\right){\rm 번째와}\left({{{n+1}\over{2}}}\right){\rm 번째 데이터의 평균} .    n{\rm 이 짝수인 경우}}\right.$

데이터가 표본일 경우 $m$,  모집단일 경우 $M$


 

최빈값(mode)

${최}{빈}{값}{=}{데}{이}{터}\hspace{0.33em}{중}\hspace{0.33em}{가}{장}\hspace{0.33em}{빈}{도}{가}\hspace{0.33em}{많}{은}\hspace{0.33em}{값}$ .
 

평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

가중평균(weighted mean)

${\rm 가중평균}={{w_{{\it 1}}x_{{\it 1}}+w_{{\it 2}}x_{{\it 2}}+\cdots+w_{n}x_{n}}\over{w_{{\it 1}}+w_{{\it 2}}+\cdots+w_{n}}}={{\sum\limits_{i=1}^{n}{w_{i}x_{i}}}\over{\sum\limits_{i=1}^{n}{w_{i}}}}$ $x_{1},x_{2},\cdots ,x_{n}$(데이터의 측정값),  $w_{1},w_{2},\cdots ,w_{n}$(데이터의 측정값의 각각의 가중치)