히스토그램 Histogram

목차

1. 애니메이션

1.1. 도수분포표로 히스토그램 그리기

1.2. 1차원 산점도


2. 설명

2.1. 히스토그램


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



도수분포표로 히스토그램 그리기




1차원 산점도


2. 설명

2.1.히스토그램(histogram)

히스토그램은 양적 데이터를 구간화하여 각 구간에 속해있는 개체의 빈도수를 시각적으로 표현한 것입니다. 히스토그램은 양적 데이터의 분포를 시각적으로 나타낼 때 사용되며 질적 데이터의 크기를 나타내는 막대그래와 비교됩니다. 따라서 막대그래프에서는 막대의 밑변의 길이는 중요하지 않지만 히스토그램에서는 밑변의 길이인 구간의 폭이 매우 중요합니다. 그래서 히스토그램은 도수분포도이고 각 구간의 상대적인 확률분포를 표현할 수 있습니다.

 

‘1차원 산점도’ 애니메이션에서 보는 바와 같이 양적 데이터(수치 데이터)를 산점도로 시각화할 때 , 중첩되거나 밀집도가 높아 표현하기가 어려운 경우 그 밀집도를 효과적으로 시각화하는 방법입니다. 그래서 데이터의 분포를 시각적으로 살펴보는 데 많이 사용됩니다.

 

히스토그램을 그리기 위해서는 데이터(변수값)의 범위(range)를 먼저 정하는데 데이터의 최대값과 최소값의 차로 먼저 범위(range)를 구합니다. 그리고 동일한 간격(구간의 크기)을 가진 서로 중복되지 않는 구간(계급, bin, bucket)을  정합니다. 각 구간에 속하는 개체(요소, object, element, record)의 개수, 즉 데이터의 개수를 그 구간의 빈도수(frequency)라 하는데 줄여서 도수라고 합니다.

 

각 구간의 데이터의 빈도수를 직사각형의 높이로 나타내면 히스토그램이 됩니다.  여기서 각 구간은 직사각형의 밑변이 됩니다. 그리고 구간의 간격이 같기 때문에  히스토그램의 면적은 각 구간의 빈도수와 선형관계를 나타냅니다. 히스토그램을 이루는 각 구간의 직사각형은 서로 붙여서 그립니다. 

 

‘몇 개의 구간으로 정할 것인가?’는 히스토그램을 그리기 위해서 정하는 가장 중요한 결정 중의 하나입니다. 구간의 개수를 정하는 방법은 데이터 개수의 제곱근에 근사한 정수로 하는 방법 등 여러가지가 제시되고 있습니다. 하지만 목적과 상황에 따라 결정하는 것이 좋습니다. 구간의 개수가 정해지면 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다. 각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


히스토그램 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.


3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 실습 안내



4. 용어와 수식

4.1 용어


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


 


막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia