상자그림
Box plot

1. 애니메이션

1.1. 상자그림

1.2. 사분위표


2. 설명

2.1. 상자그림


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

 

1. 애니메이션



상자그림




사분위표

2. 설명

2.1. 상자그림(box plot)

상자그림(box plot)은 데이터값의 분포를 나타내는 시각화 방법으로 널리 사용되고 있습니다. 데이터의 대표값으로 평균을 사용하는 확률분포함수(확률밀도함수 또는 확률질량함수)와는 다르게 상자그림은 데이터의 대표값으로 중앙값을 표시합니다. 그리고 상자그림의 각 상자에는 같은 개수의 데이터가 들어가게 됩니다. 

 

상자그림은 사분위표를 먼저 작성하면 쉽게 그릴수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 평균이나 분산같은 모수(parameter)를 가지지 않습니다.

 

딸기 20개의 당도를 측정한 후 상자그림을 그려보겠습니다. 20개의 당도를 내림차순으로 가장 큰 값부터 작은 값 순으로 배열합니다. 당도는 12.24에서 10.68까지 분포되어있습니다. 당도의 중앙값은 11.71입니다. 중앙값은 두 개의 상자를 나누는 선으로 표시됩니다. 두 개의 상자의 범위는 각각 25%의 데이터 개수를  가집니다. 당도의 1사분위수는 11.16이고 3사분위수는 11.89입니다. 2사분위수와 3사분위수는 상자의 끝선으로 나타냅니다. 최대값은 12.24이고 최소값은 10.68 입니다. 최대값과 최소값은 상자와 이어진 선으로 표현합니다. 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


상자그림 : 구글시트 실습

3.2. 함수

=SORT(C3:C22,1,TRUE) : 데이터정렬. C3와 C22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 상자그림

– 실습 안내


4. 용어

4.1 용어


상자그림

상자그림(Box plot)은 4분위수를 통해 데이터를 그래픽으로 묘사하는 방법입니다. 최대값과 최소값으로 표현되는 데이터의 범위를 나타내는 선이 보입니다. 특이값은 개별 점으로 표시 할 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 모수(파라미터)를 가지지 않습니다. 특정 분포를 나타내지 않고 데이터의 분포를 표시합니다 (상자그림은 상자의 대칭 및 길이로 정규성을 나타낼 수도 있음). 상자의 간격과 상자에 붙어있는 선의 길이는 데이터의 분산 정도를 나타내고  점들은 이상값을 나타냅니다. 특히 4분위수, 범위, 중앙값을 시각적으로 나타낼 수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다.

 

Reference

Box plot – Wikipedia


4.2. 참조