히스토그램과 확률밀도함수 ?

1. 애니메이션

1.1. 확률밀도함수

1.2. 도수분포표로 히스토그램 그리기


2. 설명

2.1. 히스토그램과 확률밀도함수


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



확률밀도함수




도수분포표로 히스토그램 그리기


2. 설명

2.1 히스토그램과 확률밀도함수

도수분포를 관찰하기 위하여 도수분포표를 만듭니다. 같은 간격으로 변수의 구간을  정하였을 때,  각 구간에 속하는 변수값(데이터)의 갯수를 도수(빈도수)라고 합니다. 도수는 각 구간에 변수가 나타나는 횟수입니다. 구간별로 도수를 나타내는 표가 도수분포표입니다.

 

도수분포표를 시각화하는 것이 히스토그램입니다. 히스토그램은 각 구간을 직사각형으로 표현하는데 밑변은 구간의 간격이 되고 높이는 빈도수를 나타냅니다. 여기서 빈도수를 상대 빈도수로 바꾸면 히스토그램을 이루는 직사각형의 높이는 그 구간을 대표하는 확률인 확률질량을 나타냅니다.  각 구간의 확률질량을 모두 더하면 1이 됩니다. 각 구간의 상대도수는 각 구간의 빈도수를 전체 빈도수로 나눈 값입니다. 즉, 전체 빈도수에서 각 구간의 빈도수가 차지하는 비율입니다.

 

히스토그램이 나타내는 도수를 상대도수로 바꾼 것을 상대도수 히스토그램이라 하겠습니다. 상대도수 히스토그램을 다시 확률밀도 함수로 바꾸어 봅니다. 상대도수 히스토그램에서 구간의 간격으로 상대도수를 나누면 상대도수 히스토그램은 확률밀도함수를 나타냅니다. 즉, 상대도수를 구간의 간격으로 나눈 값이 확률밀도가 됩니다. 각 구간의 직사각형의 윗변의 처음과 시작을 이상과 미만으로 표시하면  확률밀도함수를 나타냅니다. 이 확률밀도함수는 모양은 이산(discrete)로 나타남으로 이산확률밀도함수입니다.

 

만일, 상대도수 히스토그램의 간격이 무한소가 되면서 동시에 상대도수를 구간의 간격으로 나눈다면 상대도수 히스토그램은 연속확률밀도함수로 변화합니다.

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.

=S3/SUM(S3:S7) : 합계. S3에서 S7에 있는 데이터의 합계. 

=NORMDIST(Y3,E3,G3,FALSE) : 정규분포 확률밀도. E3가 평균, G3가 표준편차인 정규분포 상에서 Y3값의 확률밀도를 계산함. FALSE 대신 TRUE를 넣으면, 누적확률밀도를 계산함. 


3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 상대도수 히스토그램

– 정규분포

– 실습 안내



4. 용어와 수식

4.1 용어


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


 


확률밀도함수

확률에서 확률밀도함수(PDF) 또는 연속확률변수의 밀도는 표본공간의 임의의 표본(또는 점)의 확률변수의 값이 같다면 같은 확률을 가진다는 것입니다. 다른 말로 하면, 임의의 연속확률변수에 대한 확률값은 0이지만  두 개의 서로 다른 확률변수 값에서 PDF의 값을 사용하여 유추할 수는 있습니다. PDF는 임의의 확률변수에서의 확률값을 취하는 것보다는 특정 확률변수 범위 내에서 임의의 확률변수가 있을 확률을 나타내는데 사용됩니다. 확률은 확률변수의 범위에 대한  PDF의 적분값으로 주어집니다. 확률밀도함수는 모든 곳에서 음수가 아니며 전체 확률변수범위에 대한 적분은 1이 됩니다.

 

“확률분포함수”와 “확률함수”라는 용어는 때로는 확률밀도함수를 의미하기도 하지만 이 용어는 표준이 아닙니다. 한편, 확률질량함수(PMF)는 이산확률변수 (불연속 확률변수)에서 사용되는 반면, 확률밀도함수(PDF)는 연속확률변수에서 사용됩니다.

 

Reference

Probability density function – Wikipedia


도수분포 탐색 – 히스토그램

1. 애니메이션

1.1. 도수분포표로 히스토그램 그리기

1.2. 1차원 산점도


2. 설명

2.1. 히스토그램

2.2. 히스토그램 활용


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포표로 히스토그램 그리기




1차원 산점도

2. 설명

2.1.히스토그램(histogram)

히스토그램

히스토그램은 구간(범주)에 속한 개체의 도수(빈도수)를 직사각형의 높이로 표현한 것입니다. 이 때 직사각형의 밑변의 길이는 등간격을 가지는 구간이 됩니다. 그리고 히스토그램을 이루는 각 구간의 직사각형은 서로 붙여서 그립니다. 따라서 히스토그램은 구간에 따른 개체의  도수분포를 나타낸다고 볼 수 있습니다.

 

한편, 순서가 없는 범주로 구분된 개체의 도수는 막대그래프로 표현합니다. 막대그래프에서는 범주의 위치를 표현할 수 없지만 히스토그램에서는 범주의 위치를 구간의 길이와 순서로 나타낼 수 있습니다. 히스토그램에서는 구간이 만드는 직사각형을 붙여서 그리므로 범주의 위치가 있음을 시각화합니다. 정리하면, 범주에 속하는 개체의 도수는 막대그래프로 표현할 수 있습니다. 이 때, 범주의 위치를 실수로 표현하고자 하는 경우 히스토그램을 사용합니다.

 

히스토그램 작성

히스토그램을 그리기 위해서는 데이터(변수값)의 범위(range)가 정해져야 합니다. 데이터의 범위는 데이터의 최대값과 최소값의 차로 구합니다. 그리고 동일한 간격을 가지는 구간(계급, bin, bucket)을 정합니다. 각 구간에 속하는 개체(object)의 개수를 그 구간의 도수(빈도수, frequency)라고 합니다. 도수는 자연수이며 각 구간을 밑변으로 하는 직사각형의 높이로 표현됩니다. 각 구간의 간격이 같기 때문에  히스토그램의 면적은 각 구간의 도수와 비례합니다. 즉, 히스토그램을 이루는 각 직사각형의 면적과 그 직사각형이 의미하는 범주에 속하는 개체의 도수는 선형관계입니다. 

 

‘범위를 몇 개의 등간격인 구간으로 나눌 것인가?’는 히스토그램을 그리기 위한 중요한 결정사항입니다. 구간의 개수를 정하는 방법은 데이터 개수의 제곱근에 근사한 정수로 하는 방법 등 여러가지가 제시되고 있습니다. 구간의 개수가 정해지면 연속형 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다. 각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.


2.2. 히스토그램의 활용

히스토그램은 관심있는 확률변수가 나타내는 확률분포를 유추하는 방법으로 활용됩니다. 히스토그램은 확률변수가 실현된 개체의 분포를 시각화하여 확률분포를 유추합니다. 히스토그램은 관심있는 확률변수의 확률분포를 닮은 모양을 보여줌으로 확률변수에 적합한 확률분포함수를 찾기 위한 탐색에 사용됩니다. 확률변수를 수식으로 모델링할 때 확률변수를 관측한 데이터로 히스토그램을 작성하여 모양을 살펴봅니다. 히스토그램의 도수를 상대도수로 변환하고 간격을 범위와 간격의 비로 변환하면 불연속적인 확률밀도함수를 그려볼 수 있습니다. 변환한 히스토그램의 직각사각형들의 면적의 합은 1이 됩니다.

 

히스토그램의 중요한 점은 면적의 크기로 도수를 표현한다는 것입니다. 이는 면적으로 데이터의 빈도를 표현한다는 점에서 면적으로 확률을 표현하는 확률밀도함수와 같습니다. 관측한 범주(구간)에서의 개체의 도수(빈도수)는 확률로 모델링됩니다. 연속형 확률변수를 모델링하는 확률밀도함수를 정하기 위해 관측 데이터를 탐색하는 매우 유용한 데이터시각화 방법입니다.

 

한편, 개체가 가지는 연속형 변수의 관측값(데이터)을 1차원 산점도로 시각화하면 점이 중첩되어 개체의 분포를 표현하기 어려운 경우가 많이 발생합니다. 이 때는 구간을 나누어야 하는 과정이 필요하지만 히스토그램이나 점그래프를 사용하여 개체의 분포를 표현합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


히스토그램 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.


3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 실습 안내


4. 참조

4.1 용어


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


 


막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia



4.2. 참고문헌


도수분포 막대그래프와 확률질량함수 ?
Frequency bar chart & pmf ?

1. 애니메이션

1.1. 도수분포 막대그래프


2. 설명

2.1. 도수분포 막대그래프


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



도수분포 막대그래프


2. 설명

2.1 도수분포 막대그래프

막대그래프(bar chart)는 독립변수에따라 변하는  종속변수의 값을 막대의 길이로 나타내는 그래프입니다.

독립변수를 X축, 종속변수를 Y축으로 하는 2차원 그래프입니다.

 

도수분포 막대그래프는 독립변수를 확률변수로 종속변수를 빈도수로 하는 막대그래프입니다.

즉, 빈도수를 막대의 길이로 나타내어 빈도수의 분포를 시각화한 그래프입니다.

 

도수를 영어로는 frequency라고 하며 도수분포도는 frequency distribution이라고 부릅니다.

 

도수분포표(frequency table)를 작성하는 것은 연속형 데이터를 구간에 따른 빈도수로 시각화하는 기초작업입니다.

연속형 데이터의 분석을 위해 우선  도수분포표를 만들고 그리고 나서 도수분포도를 그립니다.

 

도수분포표 작성에서 가장 중요한 것은 구간의 간격을 정하는 것입니다. 구간의 간격은 분석의 목적에 따라 결정됩니다. 구간의 간격이 결정되면 구간의 수가 자동으로 결정됩니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


도수분포 막대그래프

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

도수분포표

도수분포 막대그래프



4. 용어와 수식

4.1 용어

상자그림 ?
Box plot ?

1. 애니메이션

1.1. 상자그림

1.2. 사분위표


2. 설명

2.1. 상자그림

2.2. 사분위표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



상자그림




사분위표

2. 설명

2.1. 상자그림(box plot)

상자그림(box plot)은 데이터값의 분포를 나타내는 시각화 방법으로 널리 사용되고 있습니다. 데이터의 대표값으로 평균을 사용하는 확률분포함수(확률밀도함수 또는 확률질량함수)와는 다르게 상자그림은 데이터의 대표값으로 중앙값을 표시합니다. 그리고 상자그림의 각 상자에는 같은 개수의 데이터가 들어가게 됩니다.

상자그림은 사분위표를 먼저 작성하면 쉽게 그릴수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 평균이나 분산같은 모수(parameter)를 가지지 않습니다.

딸기 20개의 당도를 측정한 후 상자그림을 그려보겠습니다. 20개의 당도를 내림차순으로 가장 큰 값부터 작은 값 순으로 배열합니다. 당도는 12.24에서 10.68까지 분포되어있습니다. 당도의 중앙값은 11.71입니다. 중앙값은 두 개의 상자를 나누는 선으로 표시됩니다. 두 개의 상자의 범위는 각각 25%의 데이터 개수를  가집니다. 당도의 1사분위수는 11.16이고 3사분위수는 11.89입니다. 2사분위수와 3사분위수는 상자의 끝선으로 나타냅니다. 최대값은 12.24이고 최소값은 10.68 입니다. 최대값과 최소값은 상자와 이어진 선으로 표현합니다.


2.2 사분위표

사분위표는 데이터를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 사분위수는 이 4개 집단의 최대값으로 표시할 수도 있고, 4개 집단의 경계에 있는 값들의 평균 혹은 중앙값으로 표시할 수도 있습니다.

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는 %를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 최대값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다.

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

4분위수범위(interquartile range)는 3사분위수에서 1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

$$IQR={Q_3} – {Q_1}$$

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용할 수 있습니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


상자그림 : 구글시트 실습

3.2. 함수

=SORT(C3:C22,1,TRUE) : 데이터정렬. C3와 C22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 상자그림

– 실습 안내


4. 참조

4.1 용어


상자그림

상자그림(Box plot)은 4분위수를 통해 데이터를 그래픽으로 묘사하는 방법입니다. 최대값과 최소값으로 표현되는 데이터의 범위를 나타내는 선이 보입니다. 특이값은 개별 점으로 표시 할 수 있습니다. 상자그림은 도수분포 히스토그램과 달리 모수(파라미터)를 가지지 않습니다. 특정 분포를 나타내지 않고 데이터의 분포를 표시합니다 (상자그림은 상자의 대칭 및 길이로 정규성을 나타낼 수도 있음). 상자의 간격과 상자에 붙어있는 선의 길이는 데이터의 분산 정도를 나타내고  점들은 이상값을 나타냅니다. 특히 4분위수, 범위, 중앙값을 시각적으로 나타낼 수 있습니다. 상자그림은 가로 또는 세로로 그릴 수 있습니다.

Reference

Box plot – Wikipedia


4.2. 참고문헌


Reference

Wikipedia