데이터의 대표값 Representative value



편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값




평균(1차원)




회귀선(2차원)




회귀평면(3차원)

데이터를 대표하는 값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다.

중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

평균에는 산술평균, 가중평균 등이 있습니다.

평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다.

보통 평균이라고 하면 산술평균을 의미합니다.

가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다.

특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다.

여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다.

애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다.

그러나 편향이 일어날 경우 다른값을 가집니다.

평균은 무게중심을 나타내는 확률변수값입니다.

중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다.

최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.

구글시트 실습

아래의 구글시트 실습하기를 눌러서, 본인의 구글 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습 과정은 AI 강의로 보실 수 있습니다.



구글시트 실습하기

구글시트는 별도의 설치 과정없이 크롬(Chrome)에서 바로 사용하실 수 있습니다.



중앙값(median)

${\rm 중앙값}=\left\{{{{\left({n+1}\right)}\over{2}}{\rm 번째 데이터} .    n{\rm 이 홀수인 경우}}\right.$

${\rm 중앙값}=\left\{{\left({{{n}\over{2}}}\right){\rm 번째와}\left({{{n+1}\over{2}}}\right){\rm 번째 데이터의 평균} .    n{\rm 이 짝수인 경우}}\right.$

데이터가 표본일 경우 $m$,  모집단일 경우 $M$


 

최빈값(mode)

${최}{빈}{값}{=}{데}{이}{터}\hspace{0.33em}{중}\hspace{0.33em}{가}{장}\hspace{0.33em}{빈}{도}{가}\hspace{0.33em}{많}{은}\hspace{0.33em}{값}$ .
 

평균(mean)

${평}{균}{=}\frac{{x}_{1}{+}{x}_{2}{+}\cdots{+}{x}_{n}}{n}{=}\frac{1}{n}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}}$ ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$ ($n$개의 데이터 값)

가중평균(weighted mean)

${\rm 가중평균}={{w_{{\it 1}}x_{{\it 1}}+w_{{\it 2}}x_{{\it 2}}+\cdots+w_{n}x_{n}}\over{w_{{\it 1}}+w_{{\it 2}}+\cdots+w_{n}}}={{\sum\limits_{i=1}^{n}{w_{i}x_{i}}}\over{\sum\limits_{i=1}^{n}{w_{i}}}}$ $x_{1},x_{2},\cdots ,x_{n}$(데이터의 측정값),  $w_{1},w_{2},\cdots ,w_{n}$(데이터의 측정값의 각각의 가중치)