상자그림 ?
Box plot ?

1. 애니메이션

1.1. 상자그림

1.2. 사분위표


2. 설명

2.1. 상자그림

2.2. 사분위표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



상자그림




사분위표

2. 설명

2.1. 상자그림(box plot)

상자그림(box plot)은 데이터값의 분포를 나타내는 시각화 방법으로 널리 사용되고 있습니다. 데이터의 대표값으로 평균을 사용하는 확률분포함수(확률밀도함수 또는 확률질량함수)와는 다르게 상자그림은 데이터의 대표값으로 중앙값을 표시합니다. 그리고 상자그림의 각 상자에는 같은 개수의 데이터가 들어가게 됩니다.

상자그림은 사분위표를 먼저 작성하면 쉽게 그릴수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 평균이나 분산같은 모수(parameter)를 가지지 않습니다.

딸기 20개의 당도를 측정한 후 상자그림을 그려보겠습니다. 20개의 당도를 내림차순으로 가장 큰 값부터 작은 값 순으로 배열합니다. 당도는 12.24에서 10.68까지 분포되어있습니다. 당도의 중앙값은 11.71입니다. 중앙값은 두 개의 상자를 나누는 선으로 표시됩니다. 두 개의 상자의 범위는 각각 25%의 데이터 개수를  가집니다. 당도의 1사분위수는 11.16이고 3사분위수는 11.89입니다. 2사분위수와 3사분위수는 상자의 끝선으로 나타냅니다. 최대값은 12.24이고 최소값은 10.68 입니다. 최대값과 최소값은 상자와 이어진 선으로 표현합니다.


2.2 사분위표

사분위표는 데이터를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 사분위수는 이 4개 집단의 최대값으로 표시할 수도 있고, 4개 집단의 경계에 있는 값들의 평균 혹은 중앙값으로 표시할 수도 있습니다.

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는 %를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 최대값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다.

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

4분위수범위(interquartile range)는 3사분위수에서 1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

$$IQR={Q_3} – {Q_1}$$

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용할 수 있습니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


상자그림 : 구글시트 실습

3.2. 함수

=SORT(C3:C22,1,TRUE) : 데이터정렬. C3와 C22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 상자그림

– 실습 안내


4. 참조

4.1 용어


상자그림

상자그림(Box plot)은 4분위수를 통해 데이터를 그래픽으로 묘사하는 방법입니다. 최대값과 최소값으로 표현되는 데이터의 범위를 나타내는 선이 보입니다. 특이값은 개별 점으로 표시 할 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 모수(파라미터)를 가지지 않습니다. 특정 분포를 나타내지 않고 데이터의 분포를 표시합니다 (상자그림은 상자의 대칭 및 길이로 정규성을 나타낼 수도 있음). 상자의 간격과 상자에 붙어있는 선의 길이는 데이터의 분산 정도를 나타내고  점들은 이상값을 나타냅니다. 특히 4분위수, 범위, 중앙값을 시각적으로 나타낼 수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다.

Reference

Box plot – Wikipedia


4.2. 참고문헌


Reference

Wikipedia