국회의원 재산 평균 94억원?

편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값


평균(1차원)


국회의원 재산 평균 94억원?

2013년 3월 29일 국회 공직자윤리위원회가 공개한 296명의 국회의원 재산 평균(산술평균)은 94억 9000만원입니다.

 

그런데, 정몽준 의원, 고희선 의원을 제외하고, 평균을 계산하면 23억 3000만원이었습니다. 두 의원의 재산은 각각 1조 9249만원, 1984억원이었습니다.


데이터(값들의 집합)는 대표하는 값이 있습니다.

데이터를 대표하는 값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

 

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다.

중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

 

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

 

평균에는 산술평균, 가중평균 등이 있습니다.

평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다.

보통 평균이라고 하면 산술평균을 의미합니다.

 

가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다.

특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다.

여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

 

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다.

애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다.

그러나 편향이 일어날 경우 다른값을 가집니다.

평균은 무게중심을 나타내는 확률변수값입니다.

중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다.

최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.


데이터 값 중에서 극단적으로 크거나 작은 값이 있는 경우, 산술평균보다 중앙값을 대표값으로 사용하는 것이 나을 수 있습니다.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10

위의 값을 모두 더하면 55이고, 이를 갯수 10으로 나누면 평균은 5.5 입니다. 중앙값은 5와 6의 중간인 5.5입니다. 데이터가 좌우 대칭으로 분포되어 있으면, 평균과 중앙값은 같습니다.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100

위의 값을 모두 더한 값은 155이고, 이를 갯수 11로 나누면, 평균은 14.09이고, 중앙값은 6입니다.



중앙값(median)

${\rm 중앙값}=\left\{{{{\left({n+1}\right)}\over{2}}{\rm 번째 데이터} .    n{\rm 이 홀수인 경우}}\right.$

${\rm 중앙값}=\left\{{\left({{{n}\over{2}}}\right){\rm 번째와}\left({{{n+1}\over{2}}}\right){\rm 번째 데이터의 평균} .    n{\rm 이 짝수인 경우}}\right.$

데이터가 표본일 경우 $m$,  모집단일 경우 $M$


 

최빈값(mode)

${최}{빈}{값}{=}{데}{이}{터}\hspace{0.33em}{중}\hspace{0.33em}{가}{장}\hspace{0.33em}{빈}{도}{가}\hspace{0.33em}{많}{은}\hspace{0.33em}{값}$ .
 

평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

가중평균(weighted mean)

${\rm 가중평균}={{w_{{\it 1}}x_{{\it 1}}+w_{{\it 2}}x_{{\it 2}}+\cdots+w_{n}x_{n}}\over{w_{{\it 1}}+w_{{\it 2}}+\cdots+w_{n}}}={{\sum\limits_{i=1}^{n}{w_{i}x_{i}}}\over{\sum\limits_{i=1}^{n}{w_{i}}}}$ $x_{1},x_{2},\cdots ,x_{n}$(데이터의 측정값),  $w_{1},w_{2},\cdots ,w_{n}$(데이터의 측정값의 각각의 가중치)