1차원 도수분포도
1D Frequency distribution graph

1. 애니메이션

1.1. 도수분포표로 히스토그램 그리기

1.2. 1차원 산점도


2. 설명

2.1.히스토그램(histogram)

2.2. 히스토그램의 활용


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포표로 히스토그램 그리기



1차원 산점도

2. 설명

2.1.히스토그램(histogram)

히스토그램

히스토그램은 구간(범주)에 속한 개체의 도수(빈도수)를 직사각형의 높이로 표현한 것입니다. 이 때 직사각형의 밑변의 길이는 등간격을 가지는 구간이 됩니다. 그리고 히스토그램을 이루는 각 구간의 직사각형은 서로 붙여서 그립니다. 따라서 히스토그램은 구간에 따른 개체의  도수분포를 나타낸다고 볼 수 있습니다.

한편, 순서가 없는 범주로 구분된 개체의 도수는 막대그래프로 표현합니다. 막대그래프에서는 범주의 위치를 표현할 수 없지만 히스토그램에서는 범주의 위치를 구간의 길이와 순서로 나타낼 수 있습니다. 히스토그램에서는 구간이 만드는 직사각형을 붙여서 그리므로 범주의 위치가 있음을 시각화합니다. 정리하면, 범주에 속하는 개체의 도수는 막대그래프로 표현할 수 있습니다. 이 때, 범주의 위치를 실수로 표현하고자 하는 경우 히스토그램을 사용합니다.

히스토그램 작성

히스토그램을 그리기 위해서는 데이터(변수값)의 범위(range)가 정해져야 합니다. 데이터의 범위는 데이터의 최대값과 최소값의 차로 구합니다. 그리고 동일한 간격을 가지는 구간(계급, bin, bucket)을 정합니다. 각 구간에 속하는 개체(object)의 개수를 그 구간의 도수(빈도수, frequency)라고 합니다. 도수는 자연수이며 각 구간을 밑변으로 하는 직사각형의 높이로 표현됩니다. 각 구간의 간격이 같기 때문에  히스토그램의 면적은 각 구간의 도수와 비례합니다. 즉, 히스토그램을 이루는 각 직사각형의 면적과 그 직사각형이 의미하는 범주에 속하는 개체의 도수는 선형관계입니다. 

‘범위를 몇 개의 등간격인 구간으로 나눌 것인가?’는 히스토그램을 그리기 위한 중요한 결정사항입니다. 구간의 개수를 정하는 방법은 데이터 개수의 제곱근에 근사한 정수로 하는 방법 등 여러가지가 제시되고 있습니다. 구간의 개수가 정해지면 연속형 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다. 각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.

2.2. 히스토그램의 활용

히스토그램은 관심있는 확률변수가 나타내는 확률분포를 유추하는 방법으로 활용됩니다. 히스토그램은 확률변수가 실현된 개체의 분포를 시각화하여 확률분포를 유추합니다. 히스토그램은 관심있는 확률변수의 확률분포를 닮은 모양을 보여줌으로 확률변수에 적합한 확률분포함수를 찾기 위한 탐색에 사용됩니다. 확률변수를 수식으로 모델링할 때 확률변수를 관측한 데이터로 히스토그램을 작성하여 모양을 살펴봅니다. 히스토그램의 도수를 상대도수로 변환하고 간격을 범위와 간격의 비로 변환하면 불연속적인 확률밀도함수를 그려볼 수 있습니다. 변환한 히스토그램의 직각사각형들의 면적의 합은 1이 됩니다.

히스토그램의 중요한 점은 면적의 크기로 도수를 표현한다는 것입니다. 이는 면적으로 데이터의 빈도를 표현한다는 점에서 면적으로 확률을 표현하는 확률밀도함수와 같습니다. 관측한 범주(구간)에서의 개체의 도수(빈도수)는 확률로 모델링됩니다. 연속형 확률변수를 모델링하는 확률밀도함수를 정하기 위해 관측 데이터를 탐색하는 매우 유용한 데이터시각화 방법입니다.

한편, 개체가 가지는 연속형 변수의 관측값(데이터)을 1차원 산점도로 시각화하면 점이 중첩되어 개체의 분포를 표현하기 어려운 경우가 많이 발생합니다. 이 때는 구간을 나누어야 하는 과정이 필요하지만 히스토그램이나 점그래프를 사용하여 개체의 분포를 표현합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


히스토그램 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.

3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 실습 안내


4. 참조

4.1 용어


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia



막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia


4.2. 참고문헌


도수분포
Frequency distribution

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램

2. 설명

2.1. 범주에 따른 개체의 도수

2.2. 상대도수와 확률

2.3. 개체분포의 시각화

2.4. 도수분포의 시각화

2.5. 개체분포의 모델

2.6. 도수분포의 모델

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

도수분포 막대그래프

히스토그램

2. 설명

2.1. 범주에 따른 개체의 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 실현되기 전에는 알 수 없는 속성(예를 들면 성별)과 관측하기 전에는 알 수 없는 속성(예를 들면 사는 곳, 몸무게)이 있습니다. 실현되기 전과 관측하기 전의 개체의 속성을 변수로 모델링하는 데 특별히 확률값을 가지는 확률변수로 모델링할 수 있습니다. 그리고 개체가 가지는 속성을 모델링한 확률변수의 확률분포는 속성을 관측하므로써 특정 범주 또는 집단에서의 통계적 확률분포를 구할 수 있습니다.

 

예를 들어 한우를 개체로 볼 때 개체의 속성으로 품질등급이 있습니다. 각 품질등급에 속하는 한우의 수로 한우품질의 분포를 볼 수 있습니다. 그리고 한우가 속하는 범주별(예를 들면 생산지별)로 한우품질의 분포도 볼 수 있습니다. 이 때 관측한 한우의 개체수가 커질수록 관측하여 구한 한우품질의 분포는 한우품질의 속성을 표현한다고 볼 수 있습니다. 여기서 중요한 가정은 실현되기전 또는 관측하기전 각 개체의 속성의 확률분포는 같다는 것입니다.

 

6면 주사위를 개체로 보고 속성의 실현을 주사위를 던진 후 나타난 윗면이라고 모델링합니다. 이 때 속성을 나타내는 변수값은 여섯개의 각면이 됩니다.각 면에 1, 2, 3, 4, 5, 6의 여섯개 숫자를 쓰고 변수명을 “주사위를 던져서 나온 수”라고 더 자세히 모델링할 수 있습니다. 만일 주사위를 완벽한 정육면체로 가정한다면 각 확률변수값이 가지는 확률값은  모두 1/6이며 확률분포는 이산형 균등분포라고 할 수 있습니다. 여기서 중요한 점은 개체의 속성은 관측할 때 실현되는 확률변수로 모델링한다는 점입니다. 만일 한우품질이 여섯개의 등급으로 나타난다면 한우는 특정 모양의 6면 주사위를 가지는 속성을 가지고 생각할 수 있습니다. 이 때 속성의 실현과 관측은 주사위를 던지고 윗면을 기록하는 것과 같다고 할 수 있습니다.

 

확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 값을 데이터 레코드(record)라 합니다. 개체의 ID와 데이터 레코드는 개체가 이루는 범주의 요소(element)라고도 합니다.

범주(category)

 같은 명목이나 순서의 속성을 범주라고 합니다. 같은 범주를 가지는 개체는 집단(group, label)이 됩니다. 특별히, 같은 순서의 속성으로 개체를 분류하여 만들어진 집단을 수준(level)이라고 합니다.

도수(빈도수, 頻度数, frequency)

도수는 빈도수의 약어입니다. 도수(frequency)는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 여기서 정해진 공간은 개체의 관점에서 보면 자신이 속한 범주(집단, category, group)를 의미합니다. 특별히, 일차원이고 실수(real number)로 표현되는 공간은 구간이라고 표현합니다. 따라서 집단명(범주명)은 개체의 범주형 데이터입니다. 개체가 서로 독립적인 다수의 속성을 가진다면 속성이 관측된 개체를 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체가 나타나는 공간을 3차원 공간으로 볼 수 있습니다. 3차원에서의 공간의 예는 체적이 있습니다. 체적은 점 또는 선 또는 면의 적(積, 쌓음)으로 표현될 수 있습니다. 한편, 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치를 부분공간을 대표하는 점(point)으로 모델링하기도 합니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다. 정리하면, 개체의 관점에서 보면 도수는 개체의 범주(category)나 개체가 속한 집단(group)의 속성입니다.

도수분포

도수분포는 범주에 따른 개체의 도수를 의미합니다. 예를 들어, 범주에 따라 개체의 도수가 같다면 균등분포라 할 수 있습니다. 따라서 도수의 분포를 구하는 방법은 개체가 속하는 범주(정해진 공간)로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가지며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수는 “양(量)”으로 나타낸 범주의 속성입니다. 범주에 따른 도수를 비교하면 범주의 집합의 속성을 알 수 있으므로 범주를 한 축에 놓고 다른 축에 도수를 나타내면 도수분포를 시각적으로 볼 수 있습니다. 이를 도수분포도라고 합니다. 대표적인 도수분포도에는 명목이나 순서로 표현되는 범주의 도수를 길이로 비교하는 막대그래프가 있습니다. 그리고 실수(real number)상의 등간격의 구간으로 표현되는 범주의 도수를 표현하는 히스토그램이 있습니다.

2.2. 상대도수와 확률

상대도수(relative frequency)

상대도수는 정해진 기간과 전체공간에서의 전체 도수와 각 부분공간에서의 도수의 비율입니다. 관측된 개체가 많아지면 전체공간에 많은 개체의 점(point)이 출현하여 분포를 나타냅니다. 이 때 전체공간을 분할한 부분공간에 상대도수를 표현한다면 이는 출현한 개체의 분포를 정량적으로 표현한 것입니다.  분할된 각 부분공간에서의 상대도수의 합은 1이 되며 관측된 개체의 수가 많아 질수록 개체의 속성을 표현하는 확률변수의 확률분포와 점점 같게 됩니다. 이를 통계적 확률분포라고 합니다.

확률(probability)

개체가 관측되기 전에는 개체의 속성이 만드는 공간의 어디에 개체가 나타날지 모릅니다. 만일, 개체의 속성이 확률을 가지는 변수로 표현된다면 개체가 공간의 어디에 나타날지를 확률로 표현할 수 있게 됩니다. 또한 정해진 기간이 길어서 많은 개체가 출현하였고 모든 개체가 같은 속성을 가진다면 개체의 분포는 개체가 가지고 있는 속성을 표현하는 확률변수의 확률분포를 나타냅니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.4. 도수분포(frequency distribution)의 시각화

도수는 범주에서의 개체의 출현회수입니다. 그리고 도수분포는 각 범주의 위치에서의 도수입니다. 따라서 도수분포를 시각화하기 위해서는 개체가 속하는 범주와 그 범주의 위치를 우선 정합니다. 도수분포의 시각화에서는 개체의 속성을 수치형 변수로 모델링하고 관측한 경우에는 개체가 속하는 범주의 구간을 정하는 것이 중요하고 범주형 변수인 경우에는 개체가 속하는 범주를 구분할 수 있도록 가능한 변수를 정하는 것이 무엇보다 중요합니다.

막대그래프(bar chart) : 확률변수가 범주형이거나 이산형

막대그래프는 확률변수가 범주형이거나 이산형인 경우, 도수분포를 시각화하는 방법입니다. 막대그래프에서 독립변수는 범주형이거나 이산형인 확률변수이고 종속변수인 막대의 길이는 도수입니다. 

만일 각 독립변수에서의 막대의 길이를 도수에서 상대도수로 변환하면 막대의 길이는 확률질량이 됩니다. 이 때 막대의 길이를 모두 합하면 확률질량의 합과 마찬가지로 1이 됩니다.

히스토그램(Histogram) : 확률변수가 연속형

히스토그램은 확률변수가 연속형인 경우 도수분포를 시각화하는 방법입니다. 연속형인 확률변수는 같은 크기를 가지는 구간(bins, intervals)으로 구분됩니다. 구분된 구간이 밑면이고 각 구간에서의 도수가 높이인 직사각형의 이음을 히스토그램이라고 합니다. 히스토그램을 이루는 직사각형들은 밑면의 크기가 일정하며 빈틈없이 이어져 있습니다. 따라서 히스토그램을 이루는 직사각형의 높이를 전체도수와 구간의 길이로 나누면 직사각형의 면적의 합을 1로 만들 수 있습니다. 히스토그램은 연속형 확률변수의 확률분포를 나타내는 이산확률밀도함수의 모양과 같습니다. 따라서종속변수의 도수를 전체도수와 구간의 길이로 나누면 이산확률밀도함수로 변환할 수 있다는 큰 장점이 있습니다. 연속형 확률변수의 관측값으로 히스토그램을 그리면 확률분포의 모양을 직관적으로 살펴볼 수 있기 때문에 매우 유용한 데이터시각화 방법입니다.

연속형 데이터의 분석을 위한 히스토그램을 그리기 위해서는 우선 도수분포표를 만듭니다. 도수분포표(frequency table)는 연속형 확률변수를 구간으로 나누고 관측한 확률변수값(데이터)의 구간에서의 도수를 표로 만든 것입니다. 도수분포표에서 중요한 것은 적합한 구간크기(구간간격)를 정하는 것입니다. 데이터(관측값)에는 범위가 있으므로 구간크기가 정해지면 구간의 개수는 자동으로 계산됩니다. 데이터분석의 목적에 맞는 구간크기를 정하는 방법은 경험법칙부터 다양한 방법이 있습니다.

2.5. 개체분포의 모델

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

2.6. 도수분포의 모델

범주를 표현하는 “양”으로 개체의 도수(개체가 범주에 출현하는 회수)가 있습니다. 도수분포의 모델은 범주에 나타나는 개체의 출현회수의 기대값에 기반합니다. 개체가 속하는 표본도 범주라고 볼 수 있습니다. 도수분포의 모델은 표본의 확률분포라고 할 수 있습니다.

표본통계량의 확률분포

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. 표본의 분포(표집분포)는 범주의 분포로 볼 수 있고 표본통계량의 분포는 확률분포로 모델링할 수 있습니다. 표본통계량의 확률분포 모델은 대표적으로 연속형 확률분포로 F분포와 t분포가 있습니다. F분포와 t분포를 표현하는 함수의 무수(매개변수)는 표본크기입니다.

알고 있는 확률분포 모델과 관측한 표본데이터로 추정하는 모수(분포함수의 매개변수)

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. MLE(Maximum Likelihood Estimation, 최대우도를 목표로 하는 모수 추정법)로 확률분포의 모수를 추론합니다. 이때 경험으로 알고 있는 확률분포 모델과 표본데이터를 이용하여 확률분포의 가능도를 최대로 하는 확률분포함수의 모수를 구합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프

4. 참조

4.1 용어

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia


4.2. 참고문헌

개체분포
Individual distribution

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램


2. 설명

2.1. 개체와 도수

2.2. 개체분포의 시각화

2.3. 개체분포의 모델


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포 막대그래프



히스토그램

2. 설명

2.1. 개체와 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 실현되기 전에는 알 수 없는 속성(예를 들면 성별)과 관측하기 전에는 알 수 없는 속성(예를 들면 사는 곳, 몸무게)이 있습니다. 실현되기 전과 관측하기 전의 개체의 속성을 변수로 모델링하는 데 특별히 확률값을 가지는 확률변수로 모델링할 수 있습니다. 그리고 개체가 가지는 속성을 모델링한 확률변수의 확률분포는 속성을 관측함으로써 특정 범주 또는 집단에서의 통계적 확률분포를 구할 수 있습니다.

예를 들어 한우를 개체로 볼 때 개체의 속성으로 품질등급이 있습니다. 각 품질등급에 속하는 한우의 수로 한우품질의 분포를 볼 수 있습니다. 그리고 한우가 속하는 범주별(예를 들면 생산지별)로 한우품질의 분포도 볼 수 있습니다. 이 때 관측한 한우의 개체수가 커질수록 관측하여 구한 한우품질의 분포는 한우품질의 속성을 표현한다고 볼 수 있습니다. 여기서 중요한 가정은 실현되기전 또는 관측하기전 각 개체의 속성의 확률분포는 같다는 것입니다.

6면 주사위를 개체로 보고 속성의 실현을 주사위를 던진 후 나타난 윗면이라고 모델링합니다. 이 때 속성을 나타내는 변수값은 여섯개의 각면이 됩니다.각 면에 1, 2, 3, 4, 5, 6의 여섯개 숫자를 쓰고 변수명을 “주사위를 던져서 나온 수”라고 더 자세히 모델링할 수 있습니다. 만일 주사위를 완벽한 정육면체로 가정한다면 각 확률변수값이 가지는 확률값은  모두 1/6이며 확률분포는 이산형 균등분포라고 할 수 있습니다. 여기서 중요한 점은 개체의 속성은 관측할 때 실현되는 확률변수로 모델링한다는 점입니다. 만일 한우품질이 여섯개의 등급으로 나타난다면 한우는 특정 모양의 6면 주사위를 가지는 속성을 가지고 생각할 수 있습니다. 이 때 속성의 실현과 관측은 주사위를 던지고 윗면을 기록하는 것과 같다고 할 수 있습니다.

확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 값을 데이터 레코드(record)라 합니다. 개체의 ID와 데이터 레코드는 개체가 이루는 범주의 요소(element)라고도 합니다.

도수

도수(度数, frequency, 빈도수, 頻度数)는 빈도수의 약어입니다. 도수는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 개체의 속성을 표현하는 변수를 축(axis)으로 하는 좌표계로 공간을 표현합니다. 개체가 서로 독립적인 다수의 속성을 가진다면 개체를 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체는 3차원 공간의 점(point)으로 볼 수 있습니다. 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치는 부분공간을 대표하는 점(point)의 위치로 모델링할 수 있습니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다.

개체분포의 도수분포화

개체의 분포를 도수의 분포로 만드는 방법은 개체가 속하는 범주(정해진 공간)로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가지며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수분포는 “양(量)”으로 나타낸 범주의 분포라고 할 수 있습니다. 개체의 속성이 명목형이라고 하더라도 개체가 출현한 회수(도수)는 “양(量)”이므로 도수는 개체의 명목형 속성을 분석하고 예측하는 중요한 기반이 됩니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.5. 개체분포의 모델

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프


4. 참조

4.1 용어


막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia



히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia



4.2. 참고문헌

개체분포와 도수분포의 시각화

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램

2. 설명

2.1. 개체와 도수

2.2. 상대도수와 확률

2.3. 개체분포의 시각화

2.4. 도수분포의 시각화

2.5. 개체분포의 모델

2.6. 도수분포의 모델

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

도수분포 막대그래프

히스토그램

2. 설명

2.1. 개체와 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 한번 실현되면 변하지 않는 속성(예를 들면 성별)이 있고 상황에 따라 변하는 속성(예를 들면 몸무게)이 있습니다. 개체를 분석하기 위하여 개체의 속성을 변수로 모델링하는 데 특별히 변수값에 따른 확률값을 가지는 확률변수로 모델링할 수 있습니다. 확률변수는 확률분포를 나타내는 데, 예를 들어 한우의 품질등급은 대한민국(전체시공간, 전체범주)에서 전수조사를 하면 품질등급에 따른 개체수로 한우품질의 분포를 볼 수 있습니다. 그리고 생산지(부분시공간, 부분범주)별 한우품질의 분포도 볼 수 있습니다.  이때 한우의 개체수가 많다면 개체수로 구한 한우가 태어날 때 예측하는 한우품질의 확률분포와 비슷하다고 볼 수 있습니다. 한편, 확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 관측값의 집합을 개체의 데이터 레코드(record)라 합니다. 개체의 ID와 그 개체의 관측값은 개체가 이루는 범주의 요소(element)가 됩니다.

도수(빈도수, 頻度数, frequency)

도수는 빈도수의 약어입니다. 도수(frequency)는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 여기서 공간은 개체의 속성을 표현하는 변수가 만듭니다. 개체가 서로 독립적인 다수의 속성을 가진다면 속성이 관측된 개체는 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체가 나타나는 공간은 3차원 공간이라고 볼 수 있습니다. 3차원에서 공간의 예는 체적이 있습니다. 체적은 점 또는 선 또는 면의 적(積, 쌓음)으로 표현될 수 있습니다. 한편, 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치를 부분공간을 대표하는 점(point)으로 모델링하기도 합니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다.

개체분포와 도수분포

개체의 분포를 도수의 분포로 만드는 방법은 개체가 속하는 범주로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가질 수 있으며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수분포는 “양(量)”으로 나타낼 수 있는 범주의 분포라고 할 수 있습니다. 개체의 속성이 명목형이라고 하더라도 그 개체가 속한 범주로 개체가 출현한 회수(도수)는 “양(量)”이므로 개체의 속성을 분석하고 예측하는 중요한 기반이 됩니다.

2.2. 상대도수와 확률

상대도수(relative frequency)

상대도수는 정해진 기간과 전체공간에서의 전체 도수와 각 부분공간에서의 도수의 비율입니다. 관측된 개체가 많아지면 전체공간에 많은 개체의 점(point)이 출현하여 분포를 나타냅니다. 이 때 전체공간을 분할한 부분공간에 상대도수를 표현한다면 이는 출현한 개체의 분포를 정량적으로 표현한 것입니다.  분할된 각 부분공간에서의 상대도수의 합은 1이 되며 관측된 개체의 수가 많아 질수록 개체의 속성을 표현하는 확률변수의 확률분포와 점점 같게 됩니다. 이를 통계적 확률분포라고 합니다.

확률(probability)

개체가 관측되기 전에는 개체의 속성이 만드는 공간의 어디에 개체가 나타날지 모릅니다. 만일, 개체의 속성이 확률을 가지는 변수로 표현된다면 개체가 공간의 어디에 나타날지를 확률로 표현할 수 있게 됩니다. 또한 정해진 기간이 길어서 많은 개체가 출현하였고 모든 개체가 같은 속성을 가진다면 개체의 분포는 개체가 가지고 있는 속성을 표현하는 확률변수의 확률분포를 나타냅니다.

2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.

2.4. 도수분포(frequency distribution)의 시각화

도수는 범주에서의 개체의 출현회수입니다. 그리고 도수분포는 각 범주의 위치에서의 도수입니다. 따라서 도수분포를 시각화하기 위해서는 개체가 속하는 범주와 그 범주의 위치를 우선 정합니다. 도수분포의 시각화에서는 개체의 속성을 수치형 변수로 모델링하고 관측한 경우에는 개체가 속하는 범주의 구간을 정하는 것이 중요하고 범주형 변수인 경우에는 개체가 속하는 범주를 구분할 수 있도록 가능한 변수를 정하는 것이 무엇보다 중요합니다.

막대그래프(bar chart) : 확률변수가 범주형이거나 이산형

막대그래프는 확률변수가 범주형이거나 이산형인 경우, 도수분포를 시각화하는 방법입니다. 막대그래프에서 독립변수는 범주형이거나 이산형인 확률변수이고 종속변수인 막대의 길이는 도수입니다. 

만일 각 독립변수에서의 막대의 길이를 도수에서 상대도수로 변환하면 막대의 길이는 확률질량이 됩니다. 이 때 막대의 길이를 모두 합하면 확률질량의 합과 마찬가지로 1이 됩니다.

히스토그램(Histogram) : 확률변수가 연속형

히스토그램은 확률변수가 연속형인 경우 도수분포를 시각화하는 방법입니다. 연속형인 확률변수는 같은 크기를 가지는 구간(bins, intervals)으로 구분됩니다. 구분된 구간이 밑면이고 각 구간에서의 도수가 높이인 직사각형의 이음을 히스토그램이라고 합니다. 히스토그램을 이루는 직사각형들은 밑면의 크기가 일정하며 빈틈없이 이어져 있습니다. 따라서 히스토그램을 이루는 직사각형의 높이를 전체도수와 구간의 길이로 나누면 직사각형의 면적의 합을 1로 만들 수 있습니다. 히스토그램은 연속형 확률변수의 확률분포를 나타내는 이산확률밀도함수의 모양과 같습니다. 따라서종속변수의 도수를 전체도수와 구간의 길이로 나누면 이산확률밀도함수로 변환할 수 있다는 큰 장점이 있습니다. 연속형 확률변수의 관측값으로 히스토그램을 그리면 확률분포의 모양을 직관적으로 살펴볼 수 있기 때문에 매우 유용한 데이터시각화 방법입니다. 

연속형 데이터의 분석을 위한 히스토그램을 그리기 위해서는 우선 도수분포표를 만듭니다. 도수분포표(frequency table)는 연속형 확률변수를 구간으로 나누고 관측한 확률변수값(데이터)의 구간에서의 도수를 표로 만든 것입니다. 도수분포표에서 중요한 것은 적합한 구간크기(구간간격)를 정하는 것입니다. 데이터(관측값)에는 범위가 있으므로 구간크기가 정해지면 구간의 개수는 자동으로 계산됩니다. 데이터분석의 목적에 맞는 구간크기를 정하는 방법은 경험법칙부터 다양한 방법이 있습니다. 

2.5. 개체분포의 모델 

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.

2.6. 도수분포의 모델

범주를 표현하는 “양”으로 개체의 도수(개체가 범주에 출현하는 회수)가 있습니다. 도수분포의 모델은 범주에 나타나는 개체의 출현회수의 기대값에 기반합니다. 개체가 속하는 표본도 범주라고 볼 수 있습니다. 도수분포의 모델은 표본의 확률분포라고 할 수 있습니다.

표본통계량의 확률분포

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. 표본의 분포(표집분포)는 범주의 분포로 볼 수 있고 표본통계량의 분포는 확률분포로 모델링할 수 있습니다. 표본통계량의 확률분포 모델은 대표적으로 연속형 확률분포로 F분포와 t분포가 있습니다. F분포와 t분포를 표현하는 함수의 무수(매개변수)는 표본크기입니다.

알고 있는 확률분포 모델과 관측한 표본데이터로 추정하는 모수(분포함수의 매개변수)

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. MLE(Maximum Likelihood Estimation, 최대우도를 목표로 하는 모수 추정법)로 확률분포의 모수를 추론합니다. 이때 경험으로 알고 있는 확률분포 모델과 표본데이터를 이용하여 확률분포의 가능도를 최대로 하는 확률분포함수의 모수를 구합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프

4. 참조

4.1 용어

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia


히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


4.2. 참고문헌

분위수-분위수 그림 ?
Q-Q plot ?

1. 애니메이션

1.1. Q-Q plot

2. 설명

2.1. 분위와 분위수(quantile)

2.2. Q-Q plot

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

Q-Q plot

2. 설명

2.1. 분위(分位)와 분위수(分位数, quantile)

분위는 순서가 있는 확률변수값(표본에서는 데이터)을 같은 확률질량(표본에서는 개체수)로 나누어 만든 범위(위치가 있는 범주)입니다. 분위는 위치에 따른 순서가 있고 그 순서는 분위 앞의 자연수로 나타냅니다. 예를 들어 4개의 분위의 순서는 1분위, 2분위, 3분위, 4분위로 표현합니다. 그리고 분위수는 각 분위의 위치를 나타내는 실수입니다. 예를 들어 1분위수, 2분위수, 3분위수, 4분위수가 있습니다. 정리하면 분위수는 같은 확률질량을 가지는 분위의 대표값이라고 할 수 있습니다.

백분위수(百分位数)와 데이터 분포

분위수에는 대표적으로 사분위수(四分位数, quartile)와 백분위수(百分位数, percentile)가 있습니다. 사분위는 4개의 분위이며 각 분위에 있는 데이터의 개수의 비율은 전체 데이터 개수의 25%로 같습니다. 백분위의 경우에는 100개의 분위이며 각 분위에 존재하는 데이터의 개수는 전체 데이터 개수의 1%로 모두 같습니다. 표준정규분포에 백분위를 적용하면 백분위수를 계산할 수 있습니다. 표준정규분포의 백분위수는 Z-score 라고도 합니다.

모집단의 분위와 분위수

모집단분포는 정규분포로 모델링하는 경우가 많습니다. 따라서 모집단의 분위와 분위수는 정규분포로부터 계산됩니다. 정규분포는 계산의 편의를 위해 표준정규분포로 변환됩니다. 무한의 개체수를 가지고 연속형 확률변수로 표현되는 모집단에서 분위의 개수는 유한개로 모델링됩니다. 그리고 각 분위는 같은 확률(확률질량)을 가집니다. 각 분위의 분위수(quantile)는 각 분위의 확률변수값의 평균입니다.

표본의 분위와 분위수

분위의 개수에 비해 표본크기가 충분히 큰 경우는 관측한 확률변수값(데이터)을 오름차순이나 내림차순으로 나열하고 같은 데이터 개수를 가지도록 범위(순서를 가진 범주)를 생성합니다. 이 때 확률변수값의 각 범위를 분위라 하며 분위는 위치를 가지게 되는 데 이 위치를 실수로 나타내면 분위수(分位数)가 됩니다.

예) 표본크기(표본을 이루는 개체의 수)가 400인 표본의 백분위수(百分位数, percentile)

1. 데이터를 오름차순으로 정리

2. 데이터를 4개씩 묶어 100개의 분위를 생성 : 1분위, 2분위, … , 100분위

3. 각 분위의 산술평균을 구하여 표본의 백분위수를 각 분위의 산술평균으로 구함 :  1분위수, 2분위수, … , 100분위수

분위의 개수보다 표본크기가 작은 경우 (예를 들면 백분위인 데 표본크기는 20인 경우)는 표본분포를 정규분포로 가정하고 구간을 만듭니다. 여기서 구간의 수는 분위의 개수를 의미합니다. 표본의 분포를 정규분포로 모델링하여 확률분포의 매개변수(모수)를 구하면 같은 확률(개체의 수)을 가지는 구간(분위)을 생성할 수 있습니다. 예를 들어 표준정규분포를 100분위로 나눈다면 각 분위의 분위수를 계산할 수 있습니다. 그리고 표본의 데이터가 어느 분위에 속하는 지를 분위의 구간으로 알 수 있습니다.

예) 표본크기가 20인 표본의 백분위수 : 정규분포의 백분위수로 모델링

1. 표본분포를 정규분포로 가정

2. 정규분포의 매개변수(표본평균과 표본분산)를 표본데이터로 부터 계산

3. 표본분포를 표준정규분포로 변환

4. 데이터를 오름차순으로 정리하고 어는 분위에 속하는 지 판정

표준정규분포 분위의 분위수와 그 분위에 속한 데이터 비교 : Q-Q plot

분위수의 계산의 편의성을 위해 정규분포를 표준정규분포로 변환합니다. 표준정규분포는 각 분위의 분위수를 알 수 있고 표본의 데이터는 어느 분위에 속하는 지 알 수 있습니다. 따라서 표본의 데이터가 속한 분위에서 분위수와 데이터(확률변수 관측값)를 비교할 수 있습니다. 표준정규분포의 각 분위의 분위수와 그 분위에 속한 데이터값의 비교를 2차원 직교좌표계에서 시각화한 것이 Q-Q plot 입니다.

2.2. Q-Q plot의 활용

Q-Q plot (Quantile-Quantile plot)을 그대로 번역하면 “분위수 – 분위수  그림”입니다.

추론통계에서 가설의 검정방법을 결정함에 있어 먼저 모집단이 정규분포를 나타낸다는 가정을 합니다. 모집단의 정규분포 가정은 표본 데이터의 정규성검정을 통해 검정됩니다. 정규성검정을 하는 방법 중에서 데이터시각화 방법으로 Q-Q plot이 있습니다.  Q-Q plot은 여러 프로그램(Goolge sheet, R등)을 이용하여 그릴 수 있습니다.

 Q-Q plot으로 표본 데이터의 정규성검정

표준정규분포와 표본데이터의 분포를 비교하기 위해서 Q-Q plot을 사용하면 직관적이고 시각적인 정규성검정이 가능합니다. Q-Q plot은 2차원 직교좌표계에서 점(Point)로 표현합니다. 가로축은 표준정규분포의 백분위수인 Z score 를 나타내는 실수축입니다.  세로축은 백분위에 속하는 데이터(확률변수의 관측값)를 나타내는 실수축입니다. 표본을 이루는 개체를 나타내는 점을 좌표(X, Y)로 표현하면 개체가 속하는 분위의 분위수가 X좌표의 값이고 표본 데이터가 Y좌표의 값이 됩니다. 만일 표본이 표준정규분포를 따른다면 점들은 직선($y=x$)상에 위치하게 됩니다. 이 경우에 Q-Q plot에서 데이터가 정규분포를 따르는 구간을 직관적으로 알 수 있는 큰 장점이 있습니다.

Q-Q plot으로 두 데이터 분포를 비교

Q-Q plot은 X축에 비교의 기준이 되는 분포의 분위를 생성합니다. 그리고 분위의 평균이 분위수(quantile)가 됩니다. 비교의 대상이 되는 데이터의 분포는 Y축에 나타냅니다. 기준이 되는 데이터 분포의 분위수와 그 분위에 속한 데이터를 좌표로 하는 점을 그립니다. 이 때 점의 수는 비교 대상이 되는 데이터의 수와 같습니다. 점이 같은 직선(Y=X)상에 위치하는 구간은 두 분포가 같다고 할 수 있고 두 분포의 차이는 직선에서 멀어지는 모양으로 나타납니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

Q-Q Plot : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B22,1,TRUE) : 데이터정렬. B3와 B22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

=COUNT(E3:E22) : 데이터개수. E3와 E22 범위에 있는 숫자형 데이터들의 개수.

=NORM.S.INV(F3) : 표준정규분포의 확률변수. F3를 누적확률밀도로 가지는 표준정규분포 상에서의 확률변수(표준정규분포 가로축의 값).

=NORMDIST(L3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1인 정규분포, 즉 표준정규분포 상에서 L3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산함.

3.3. 실습강의

– 데이터

– 데이터정렬

– 백분위수

– Z Score

– Q-Q plot

– 실습 안내

4. 참조

4.1. 용어

Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선($y = x$)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선($y = x$)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

Reference

Q-Q plot – Wikipedia


3차원 산점도 ?
3D scatter plot ?

1. 애니메이션

1.1. 딸기의 출하일, 과중,  당도를 나타내는 3차원 산점도

2. 설명

2.1. 3차원 산점도

3. 프로그램

3.1. 구글시트

3.2. 함수

3.3. 강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

3차원 직교좌표계

딸기의 출하일, 과중, 당도를 나타내는 3차원 산점도

2. 설명

2.1. 3차원 산점도

딸기 20개의 출하일과 과중과 당도를 관측한 데이터가 있습니다. 데이터를 보면 딸기 하나에 출하일, 과중, 당도, 세 개의 데이터(변수값)가 있습니다. 딸기의 출하일과 과중과 당도의 관계를 탐색하기 위하여 3차원 산점도(scatter plot)를 그립니다.

딸기 하나를 한 점(point)으로 생각하면 딸기가 세 변수를 가지므로 3차원 직각 좌표계에  점으로 딸기를 나타낼 수 있습니다. 직각 좌표계의 3축(3axis)은 서로 독립입니다. 즉, 서로 영향을 주지 않습니다. 그래서 3차원 산점도를 그리면 딸기가 가지는 세 변수의 관계를 관찰할 수 있습니다.

딸기가 20개이므로 20개의 점이 3차원 좌표계(공간좌표계)에 찍힙니다. 3차원 산점도를 그릴 때는 보통 결과의 원인이 되는 변수로 평면을 구성하고  관심있는 결과변수를 평면과 직교하는 축(axis)에 나타냅니다. 애니메이션에서는 딸기의 당도를 결과변수로 놓았습니다. 여기서, 결과변수를 종속변수(dependent variable)로 표현합니다. 따라서 원인변수는 종속변수에 영향을 주는 변수이며 보통 서로 독립인 경우를 가정하기 때문에 독립변수(independent variable)라고 부릅니다.

애니메이션에서 관심있는 변수를 당도로 하면 과중이 클수록 당도가 높게 나옵니다. 딸기가 무거울수록, 즉, 큰 딸기일수록  달다고 해석할 수 있겠습니다. 그리고 출하일이  겨울에 가까울수록 딸기가 달다는 것을 알 수 있습니다. 이것을 한번에 나타내면 과중이 작을수록 출하일이 봄에 가까울수록 당도가 떨어짐을 보여줍니다.

산점도는 데이터가 가지는 여러 변수의 관계를 분석할 때 유용합니다. 특히,  두 연속형 변수의 관계를 볼 때 2차원 산점도를 통하여 명확하게 두 변수의 관계를 탐색할 수 있습니다. 그래서 3차원 산점도를 3개의 평면에 투영해서 3개의 2차원산점도로 분해한 후 두 변수의 관계를 분석하기도 합니다.

3. 프로그램

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3차원 산점도 : 구글시트 실습

3.2. 구글시트 함수

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함. 

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

3.3. 프로그램 강의

– 데이터

– 범위

– 산점도

– 실습 안내

4. 참조

4.1. 용어

산점도

산점도(산포도)는 일반적으로 여러 변수를 가지는 개체를 표시하기 위해 직각  좌표계를 사용하는 그래프 유형입니다. 점이 시각적으로 정의된 경우 (색상 / 모양 / 크기) 하나의 추가 변수로 표시 될 수 있습니다. 3차원 산점도에서 데이터는 수평 축상의 위치를 결정하는 하나의 변수 값과 수직축 상의 위치를 결정하는 다른 변수의 값을 갖는 점들의 모음으로 표시됩니다.

Reference

Scatter plot – Wikipedia


2차원 산점도 ?
2D scatter plot ?

1. 애니메이션

1.1.딸기의 과중과 당도를 나타내는 2차원 산점도

1.2 딸기의 출하일과 당도를 나타내는 2차원 산점도

2. 설명

2.1. 2차원 산점도

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션

딸기의 과중과 당도를 나타내는 2차원 산점도

딸기의 출하일과 당도를 나타내는 2차원 산점도

2. 설명

2.1.  2차원 산점도

20개의 딸기의 과중과 당도를 측정한 데이터가 있습니다. 데이터를 보면 딸기 하나에 과중과 당도, 두 개의 데이터(변수값)가 있습니다. 딸기의 과중과 당도의 관계를 탐색하기 위하여 두 변수의 관계를 시각화하는 산점도(scatter plot)를 그립니다.

딸기 하나를 한 점(point)으로 생각하고 딸기 하나가 독립된 두 변수를 가진다면, 2차원 직각 좌표계에  점으로 딸기를 나타낼 수 있습니다. 결과적으로 딸기가 20개이므로 20개의 점이 평면좌표계에 찍힙니다. 산점도를 그릴 때는 보통, 원인이 되는 변수를 $X$축(가로축), 결과를 나타내는 변수를 $Y$축(세로축)으로 정합니다. 따라서 과중과 당도를 각각 $X$축과  $Y$축에 나타냅니다.

애니메이션의 산점도를 보면 과중이 클수록 당도가 높게 나옵니다. 딸기가 무거울수록, 즉, 큰 딸기일수록  달다고 해석할 수 있겠습니다. 두번째 애니메이션에서는 20개 딸기의 출하일과 당도를 기록한 데이터를 다룹니다. 산점도를 보면 출하일이  겨울에 가까울수록 딸기가 달다는 것을 알 수 있습니다.

산점도는 데이터의 요소가 가지는 두 변수의 상관 관계를 분석하는 그래프입니다. 특히,  두 연속형 변수의 관계를 분석하는데 매우 효율적입니다. 2차원 산점도는 개체(object, 요소, element)의 한 변수를 $X$축,  다른 변수를 $Y$축으로 하여 각각의 관찰값을  $XY$ 평면상의 점으로 나타내는 “데이터시각화”입니다.

두 개의 변수에서 한쪽이 증가하면 다른 쪽도 증가하는 관계를 양의 상관이라고 합니다. 반대로 한쪽이 증가하면 다른 쪽은 줄어드는 관계를 음의 상관이라고 합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

2차원 산점도 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

3.3. 실습강의

– 데이터

– 산점도

– 세로축 범위 조정

– 실습 안내

4. 용어

4.1. 용어

산점도

산점도(산포도)는 일반적으로 여러 변수를 가지는 개체를 표시하기 위해 직각  좌표계를 사용하는 그래프 유형입니다. 점이 시각적으로 정의된 경우 (색상 / 모양 / 크기) 하나의 추가 변수로 표시 될 수 있습니다. 3차원 산점도에서 데이터는 수평 축상의 위치를 결정하는 하나의 변수 값과 수직축 상의 위치를 결정하는 다른 변수의 값을 갖는 점들의 모음으로 표시됩니다.

Reference

Scatter plot – Wikipedia


4.2. 참조

Reference

Wikipedia

1차원 산점도 ?
1D scatter plot ?

1. 애니메이션

1.1. 1차원 점그래프 (과중)

2. 설명

2.1. 1차원 산점도

2.2. 설명강의

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션

1차원 점그래프 (과중)

2. 설명

2.1 1차원 산점도

1차원의 연속형변수값들을 시각화하는 방법 중에 직관적인 방법은 직선좌표계에 변수값을 점으로 표시하는 것입니다. 직선좌표계의 원점(Origin)을 0으로 하면 변수값들은 원점으로부터 양방향으로 나눠지는 영역에 점으로 표시됩니다. 

애니메이션에서는 딸기의 당도가 모두 양수이므로 직선좌표계의 원점(0)의 오른편에 점들로 데이터가 표시되고 있습니다.

데이터를 산점도를 사용해서 시각화할때 점들이 중복되어 나타나는 것이 가장 큰 애로점입니다. 이것을 해결하기 위하여 여러가지 표현방법이 동원되지만 근원적인 해결은 되지 못합니다. 그래서 같이 사용되는 것이 도수분포도입니다. 한편, 데이터사이언스에서는 도수분포도가 1차원 데이터를 가지는 표본의 확률분포를 표시하는데 주로 사용됩니다. 정리하면 1차원 산점도와 도수분포도는 밀접한 관계를 가지며 도수분포도는 1차원 산점도를 변수의 구간을 정하는 조작을 통해 더 확실하게 시각화한 것입니다. 물론 구간의 간격을 정하는 과정에서 정보가 왜곡될 수 있다는 어려움이 있습니다.

딸기가 당도외에 또 하나의 변수를 가질 때는 2차원 산점도로 확장할 수 있습니다. 그래프로 표시한 변수를 X축 다른 변수를 Y축으로 하여 각각의 관찰값을 XY 평면좌표계의 좌표값으로 정합니다.

산점도를 점그래프라고도 합니다. 1차원 산점도를 확장해서 2차원 산점도를 그리려면 2차원 좌표계, 즉 평면좌표계에서 점을 찍습니다. 직각좌표계를 사용한다면 한 점당, X좌표, Y좌표 두개의 변수값이 필요합니다. 3차원좌표계,  즉 공간좌표계에서는 3개의 변수값이 필요합니다. 

2.2. 설명강의

– 준비 중

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

1차원 산점도 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

3.3. 실습강의

– 데이터

– 범위

– 히스토그램

<실습강의 내용>

데이터

범위

히스토그램

4. 용어

4.1 용어

제목

내용.

Reference

Title – Wikipedia

4.2. 참조

Reference

Wikipedia

히스토그램과 확률밀도함수 ?

1. 애니메이션

1.1. 확률밀도함수

1.2. 도수분포표로 히스토그램 그리기

2. 설명

2.1. 히스토그램과 확률밀도함수

3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의

4. 용어와 수식

4.1. 용어

 

1. 애니메이션

확률밀도함수

도수분포표로 히스토그램 그리기

2. 설명

2.1 히스토그램과 확률밀도함수

도수분포를 관찰하기 위하여 도수분포표를 만듭니다. 같은 간격으로 변수의 구간을  정하였을 때,  각 구간에 속하는 변수값(데이터)의 갯수를 도수(빈도수)라고 합니다. 도수는 각 구간에 변수가 나타나는 횟수입니다. 구간별로 도수를 나타내는 표가 도수분포표입니다.

 

도수분포표를 시각화하는 것이 히스토그램입니다. 히스토그램은 각 구간을 직사각형으로 표현하는데 밑변은 구간의 간격이 되고 높이는 빈도수를 나타냅니다. 여기서 빈도수를 상대 빈도수로 바꾸면 히스토그램을 이루는 직사각형의 높이는 그 구간을 대표하는 확률인 확률질량을 나타냅니다.  각 구간의 확률질량을 모두 더하면 1이 됩니다. 각 구간의 상대도수는 각 구간의 빈도수를 전체 빈도수로 나눈 값입니다. 즉, 전체 빈도수에서 각 구간의 빈도수가 차지하는 비율입니다.

 

히스토그램이 나타내는 도수를 상대도수로 바꾼 것을 상대도수 히스토그램이라 하겠습니다. 상대도수 히스토그램을 다시 확률밀도 함수로 바꾸어 봅니다. 상대도수 히스토그램에서 구간의 간격으로 상대도수를 나누면 상대도수 히스토그램은 확률밀도함수를 나타냅니다. 즉, 상대도수를 구간의 간격으로 나눈 값이 확률밀도가 됩니다. 각 구간의 직사각형의 윗변의 처음과 시작을 이상과 미만으로 표시하면  확률밀도함수를 나타냅니다. 이 확률밀도함수는 모양은 이산(discrete)로 나타남으로 이산확률밀도함수입니다.

 

만일, 상대도수 히스토그램의 간격이 무한소가 되면서 동시에 상대도수를 구간의 간격으로 나눈다면 상대도수 히스토그램은 연속확률밀도함수로 변화합니다.

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.

=S3/SUM(S3:S7) : 합계. S3에서 S7에 있는 데이터의 합계. 

=NORMDIST(Y3,E3,G3,FALSE) : 정규분포 확률밀도. E3가 평균, G3가 표준편차인 정규분포 상에서 Y3값의 확률밀도를 계산함. FALSE 대신 TRUE를 넣으면, 누적확률밀도를 계산함. 

3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 상대도수 히스토그램

– 정규분포

– 실습 안내

4. 용어와 수식

4.1 용어

히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


 

확률밀도함수

확률에서 확률밀도함수(PDF) 또는 연속확률변수의 밀도는 표본공간의 임의의 표본(또는 점)의 확률변수의 값이 같다면 같은 확률을 가진다는 것입니다. 다른 말로 하면, 임의의 연속확률변수에 대한 확률값은 0이지만  두 개의 서로 다른 확률변수 값에서 PDF의 값을 사용하여 유추할 수는 있습니다. PDF는 임의의 확률변수에서의 확률값을 취하는 것보다는 특정 확률변수 범위 내에서 임의의 확률변수가 있을 확률을 나타내는데 사용됩니다. 확률은 확률변수의 범위에 대한  PDF의 적분값으로 주어집니다. 확률밀도함수는 모든 곳에서 음수가 아니며 전체 확률변수범위에 대한 적분은 1이 됩니다.

 

“확률분포함수”와 “확률함수”라는 용어는 때로는 확률밀도함수를 의미하기도 하지만 이 용어는 표준이 아닙니다. 한편, 확률질량함수(PMF)는 이산확률변수 (불연속 확률변수)에서 사용되는 반면, 확률밀도함수(PDF)는 연속확률변수에서 사용됩니다.

 

Reference

Probability density function – Wikipedia


도수분포 탐색 – 히스토그램

1. 애니메이션

1.1. 도수분포표로 히스토그램 그리기

1.2. 1차원 산점도

2. 설명

2.1. 히스토그램

2.2. 히스토그램 활용

3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의

4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션

도수분포표로 히스토그램 그리기

1차원 산점도

2. 설명

2.1.히스토그램(histogram)

히스토그램

히스토그램은 구간(범주)에 속한 개체의 도수(빈도수)를 직사각형의 높이로 표현한 것입니다. 이 때 직사각형의 밑변의 길이는 등간격을 가지는 구간이 됩니다. 그리고 히스토그램을 이루는 각 구간의 직사각형은 서로 붙여서 그립니다. 따라서 히스토그램은 구간에 따른 개체의  도수분포를 나타낸다고 볼 수 있습니다.

 

한편, 순서가 없는 범주로 구분된 개체의 도수는 막대그래프로 표현합니다. 막대그래프에서는 범주의 위치를 표현할 수 없지만 히스토그램에서는 범주의 위치를 구간의 길이와 순서로 나타낼 수 있습니다. 히스토그램에서는 구간이 만드는 직사각형을 붙여서 그리므로 범주의 위치가 있음을 시각화합니다. 정리하면, 범주에 속하는 개체의 도수는 막대그래프로 표현할 수 있습니다. 이 때, 범주의 위치를 실수로 표현하고자 하는 경우 히스토그램을 사용합니다.

 

히스토그램 작성

히스토그램을 그리기 위해서는 데이터(변수값)의 범위(range)가 정해져야 합니다. 데이터의 범위는 데이터의 최대값과 최소값의 차로 구합니다. 그리고 동일한 간격을 가지는 구간(계급, bin, bucket)을 정합니다. 각 구간에 속하는 개체(object)의 개수를 그 구간의 도수(빈도수, frequency)라고 합니다. 도수는 자연수이며 각 구간을 밑변으로 하는 직사각형의 높이로 표현됩니다. 각 구간의 간격이 같기 때문에  히스토그램의 면적은 각 구간의 도수와 비례합니다. 즉, 히스토그램을 이루는 각 직사각형의 면적과 그 직사각형이 의미하는 범주에 속하는 개체의 도수는 선형관계입니다. 

 

‘범위를 몇 개의 등간격인 구간으로 나눌 것인가?’는 히스토그램을 그리기 위한 중요한 결정사항입니다. 구간의 개수를 정하는 방법은 데이터 개수의 제곱근에 근사한 정수로 하는 방법 등 여러가지가 제시되고 있습니다. 구간의 개수가 정해지면 연속형 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다. 각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.

2.2. 히스토그램의 활용

히스토그램은 관심있는 확률변수가 나타내는 확률분포를 유추하는 방법으로 활용됩니다. 히스토그램은 확률변수가 실현된 개체의 분포를 시각화하여 확률분포를 유추합니다. 히스토그램은 관심있는 확률변수의 확률분포를 닮은 모양을 보여줌으로 확률변수에 적합한 확률분포함수를 찾기 위한 탐색에 사용됩니다. 확률변수를 수식으로 모델링할 때 확률변수를 관측한 데이터로 히스토그램을 작성하여 모양을 살펴봅니다. 히스토그램의 도수를 상대도수로 변환하고 간격을 범위와 간격의 비로 변환하면 불연속적인 확률밀도함수를 그려볼 수 있습니다. 변환한 히스토그램의 직각사각형들의 면적의 합은 1이 됩니다.

 

히스토그램의 중요한 점은 면적의 크기로 도수를 표현한다는 것입니다. 이는 면적으로 데이터의 빈도를 표현한다는 점에서 면적으로 확률을 표현하는 확률밀도함수와 같습니다. 관측한 범주(구간)에서의 개체의 도수(빈도수)는 확률로 모델링됩니다. 연속형 확률변수를 모델링하는 확률밀도함수를 정하기 위해 관측 데이터를 탐색하는 매우 유용한 데이터시각화 방법입니다.

 

한편, 개체가 가지는 연속형 변수의 관측값(데이터)을 1차원 산점도로 시각화하면 점이 중첩되어 개체의 분포를 표현하기 어려운 경우가 많이 발생합니다. 이 때는 구간을 나누어야 하는 과정이 필요하지만 히스토그램이나 점그래프를 사용하여 개체의 분포를 표현합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

히스토그램 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(B3:B22) : 데이터 개수. B3에서 B22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균.

=VAR.S(B3:B22) : 표본분산. B3에서 B22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(B3:B22) : 표본표준편차. B3에서 B22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 데이터 중에서 최소값을 표시함.

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 데이터 중에서 최대값을 표시함.

=SQRT(D3) : 제곱근. D3값의 제곱근.

=ROUNDUP(SQRT(D3)) : 올림. D3값의 제곱근의 올림값.

=ROUND(M3/N3,2) : 반올림. M3값을 N3값으로 나눈 값을 반올림해서 소수점 2번째자리까지 표시.

=FREQUENCY(B3:B22,R3:R7) : 빈도수. B3에서 B22에 있는 데이터를 R3에서 R7까지의 구간에 맞춰 빈도수를 구함.

3.3. 실습강의

– 데이터

– 표본통계량

– 도수분포표

– 히스토그램

– 실습 안내

4. 참조

4.1 용어

히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia


 

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia


4.2. 참고문헌