도수분포와 확률분포 ?
Frequency and probability distribution ?

1. 애니메이션

1.1. 도수분포와 정규분포근사


2. 설명

2.1. 공간에서 개체의 출현

2.2. 개체의 도수분포 : 확률변수의 확률분포

2.3. 상대도수와 확률

2.4. 상대도수분포와 확률분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포와 정규분포근사

2. 설명

2.1. 공간에서 개체의 출현

개체가 가지는 확률변수가 만드는 공간

개체는 개체가 가지는 변수의 공간에서 출현한다고 생각합니다. 공간을 표현하는 좌표계의 축은 변수로 표현하는 데 이 변수가 개체가 가지는 속성을 표현하는 변수라고 모델링합니다. 좌표계는 공간을 표현하며 좌표계의 축은 변수를 나타냅니다. 예를 들어 변수가 1개이면 1차원 공간, 2개이면 2차원 공간, n개이면 n차원 공간이라고 합니다. 개체는 개체가 가지는 속성으로 표현할 수 있습니다. 그리고  속성의 값은 개체마다 다르므로 변수로 모델링합니다. 만일 개체의 속성을 나타내는 독립적인 변수가 n개이면 개체는 개체가 가지는 변수가 만드는 n차원 공간에 출현한다고 생각할 수 있습니다. 만약 변수를 확률변수로 생각하면 공간의 구역이 가지는 확률에 따라 개체의 도수가 다르게 됩니다.

도수

개체가 가지는 속성을 표현한 확률변수가 만드는 공간에 개체가 출현한 빈도를 도수(frequency)라고 합니다. 도수는 특정 공간 뿐아니라 특정 기간에서 출현한 개체수라고도 볼 수 있습니다.

– 확률변수가 범주형인 경우

도수는 개체가 가지는 확률변수가 범주형이면 같은 범주(확률변수값)를 가지는 개체의 수라고 할 수 있습니다. 

– 확률변수가 이산형인 경우

도수는 개체가 가지는 확률변수가 이산형이면 같은 관측값(확률변수값)을 가지는 개체의 수라고 할 수 있습니다. 여기서 이산형 확률변수는 순서를 가지고 간격을 가지는 범주형 확률변수라고도 볼 수 있습니다.

– 확률변수가 연속형인 경우

연속형 변수는 크기가 없는 무한개의 점(point)으로 정의됩니다. 개체는 공간의 크기가 없는 점에서 출현한다고 모델링하지 않기 때문에 확률변수의 점에서 개체의 도수는 0으로 정의합니다. 따라서 연속형 확률변수를 가지는 개체는 점이 만드는 부분 공간(선분, 폐곡선이 만드는 면, 면적 등)에서 출현하는 것으로 모델링하며 출현하는 빈도를 그 특정 공간에서의 도수라고 합니다. 예를 들어 간격척도나 비례척도를 통한 측정이 있습니다. 연속형 확률변수를 등간격의 구간(선분)으로 나누고 그 구간에서의 확률변수값을 척도로 측정합니다.

도수분포

확률변수가 연속형인 경우는 확률분포를 확률밀도함수를 도입하는 데 확률밀도함수를 확률변수의 특정구간에서 적분하면 확률이 되며 확률밀도라는 개념에 따라 적분한 값이 나타내는 확률을 확률질량이라고 부릅니다.

개체의 속성을 표현하는 변수가 확률변수라면 개체의 속성을 관측한 값에 대한 개체의 분포는 그 확률변수의 확률분포를 나타낸다고 볼 수 있습니다. 이는 집단을 이루는 개체가 가지는 확률변수가 “독립항등분포를 가지는 확률변수”(iid, independent and identically distributed random variable)라는 가정이 적용되는 경우입니다.


2.2. 개체의 도수분포 : 확률변수의 확률분포

도수의 관측은 특정 기간 동안 개체수를 관측하는 경우와 특정 공간에서 개체수를 관측하는 방법이 있습니다. 도수분포도는 특정 기간 동안 전체 공간 관측한 개체의 도수를 시각적으로 표현한 것입니다. 도수분포도는  확률변수를 가로축에서 도수를 세로축에서 나타냅니다.

개체의 속성을 표현하는 변수가 확률변수이고 범주형인 경우 : 개체의 확률변수가 범주형 

확률변수가 범주형이면 도수는 특정 확률변수값을 가지는 개체의 빈도수를 의미합니다. 여기서 확률변수값은 범주명이 되며 도수는 그 범주에 속하는 개체의 개수를 의미한다고 할 수 있습니다. 개체가 가지는 범주형 확률변수의 분포는 범주형 확률변수를 가로축에 나타내고 도수를 세로축에 나타내는 막대그래프로 표현할 수 있습니다. 여기서 중요한 점은 가로축은 순서가 정해져 있지 않다는 것입니다. 따라서 가로축을 표현할 때 순서에 따른 방향을 표시하지 않습니다.

개체의 속성을 표현하는 변수가 확률변수이고 이산형인 경우 : 개체의 확률변수가 이산형

확률변수가 이산형이라면 확률변수의 크기가 있다는 것을 전제합니다. 즉, 이산형 확률변수는 순서가 있고 간격이 있는 범주의 범주명이라고도 볼 수 있습니다. 단 간격이 등간격일 필요는 없습니다. 만일 확률변수가 이산형이고 등간격을 가진다면 도수분포는 히스토그램으로 표현할 수 있습니다. 히스토그램은 등간격을 가지는 이산형 확률변수의 도수분포도로라고 할 수 있습니다. 

개체의 속성을 표현하는 변수가 확률변수이고 연속형인 경우 : 개체의 확률변수가 연속형 

개체의 도수분포를 시각화하기 위해서 연속형 확률변수를 나타내는 가로축에서 간격이 같도록 구간을 정하고 그 구간에 속한 개체의 도수를 표현합니다. 이 그래프를 히스토그램이라 합니다. 히스토그램은 집단에서 연속형 확률변수를 가지는 개체의 분포를 표현할 수 있는데 이는 표본을 관측하여 모집단의 분포를 추정하고자 할 때 매우 유용한 데이터시각화 방법입니다. 한편, 도수분포도를 그리기에 앞서 도수분포표를 작성하기도 합니다.

또한, 확률변수가 연속형인 경우는 확률분포를 확률밀도함수를 도입합니다. 확률밀도함수를 확률변수의 특정구간에서 적분하면 확률이 되며 확률밀도라는 개념에 따라 적분한 값이 나타내는 확률을 확률질량이라고 부릅니다. 즉, 확률질량은 확률의 값이라고 할 수 있으며 확률밀도는 확률변수에 따른 확률질량의 변화율이라고 할 수 있습니다. 확률밀도함수의 적분함수는 누적분포함수입니다. 누적분포함수의 함수값은 확률변수값에서의 확률값(확률질량)이며 보통 -$\infty$에서 그 확률변수값까지의 확률밀도함수의 적분값입니다.

개체의 속성을 확률변수로 표현한다면 개체의 확률변수가 만든 공간에서의 개체의 분포는 확률변수의 확률분포를 나타낸다고 볼 수 있습니다. 이는 집단을 이루는 개체가 가지는 확률변수가 “독립항등분포를 가지는 확률변수”(iid, independent and identically distributed random variable)라는 가정이 적용되는 경우입니다.


2.3. 상대도수와 확률

상대도수는 특정 공간에서의 도수를 전체 공간의 도수로 나눈 비율값입니다. 여기서 전체 공간의 도수가 무한대로 커지면, 즉 집단의 크기가 무한대가 되면 그 비율값은 확률이라고 볼 수 있습니다.

개체의 속성을 나타내는 확률변수가 범주형이나 이산형

상대도수는 확률질량이 되며 상대도수의 분포는 확률질량의 분포입니다.

개체의 속성을 표현하는 확률변수가 연속형

확률변수가 연속형이면 상대도수의 변화율인 확률밀도로 모델링합니다. 표본데이터에서는 상대도수분포도를 막대그래프로 그리면 막대의 길이가 확률밀도가 됩니다. 만일 히스토그램을 그리면 히스토그램의 경계를 확률밀도값으로 사용할 수 있습니다. 상대도수를  히스토그램으로 그린 후 세로축의 스케일을 조정하여 히스토그램이 나타내는 면적을 1로 만들면 히스토그램의 경계선이 확률밀도함수를 나타내게 됩니다. 이 히스토그램에 근사하는 연속함수를 모델링한 함수를 확률변수의 추정 확률밀도함수라 할 수 있습니다.


2.4. 상대도수분포와 확률분포

도수분포(frequency distribution)를 확률변수의 관측값(데이터)으로부터 구합니다. 연속형 확률변수의 경우에는 연속형 확률변수를 구간화하여 순서와 간격이 있는 범주형 변수로 모델링합니다. 그리고 상대도수분포를 표현하는 히스토그램을 그려서 확률분포함수를 추정합니다. 

통계적 확률

데이터의 분포를 통하여 확률변수의 확률분포를 추론합니다. 

확률분포(Probability distribution)를 확률변수가 독립변수인 함수로 표현합니다. 대표적인 분포에는 확률변수가 이산형인 경우에는 이항분포 (Binomial distribution)가 있고 연속형인 경우에는 정규분포 (Normal distribution)가 있습니다. 이항분포는 확률질량함수로 표현되며 정규분포는 확률밀도함수로 표현됩니다. 두 분포 모두 누적분포함수가 있습니다.

– 확률질량함수 : 확률변수가 범주형이나 이산형 확률변수일 때 적용

– 확률밀도함수 : 확률변수가 연속형 확률변수일 때 적용

– 누적분포함수 : 확률변수가 범주형, 이산형, 연속형 모두 적용

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



=COUNT(B3:B22) : 수치형 데이터 개수. B3에서 B22 범위에 있는 수치형 데이터의 개수를 구함.

=MAX(B3:B22) : 최대값. B3에서 B22 범위에서 최대값을 구함.

=MIN(B3:B22) : 최소값. B3에서 B22 범위에서 최소값을 구함.

=ROUNDUP(SQRT(E3),0) : 올림. E3의 제곱근을 구한 후, 소수점 이하 첫번째 자리에서 올림해서 0번째자리까지 값을 구함. =COUNTIFS(B3:B22,”>=11.70″,B3:B22,”<13.06″) : 여러 기준에 맞는 범위의 수. B3에서 B22 범위에서 11.70이상이면서, 13.06 미만인 값의 개수를 구함. 


3.3. 실습강의

– 데이터

– 데이터요약

– 도수분포표

– 도수분포도

– 확률분포


4 참조

4.1 용어


확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입니다. 예를 들어, 확률변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률분포는 $X$ = 윗면의 경우 0.5, $X$ = 아래면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

 

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과의 집합인 기본 표본공간(sample space)의 관점에서 정해집니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비, 숫자, 값, 목록일 수도 있습니다. 예를 들어, 동전 던지기의 샘플 공간은 {앞면(머리), 뒷면(꼬리)}입니다. 확률분포는 일반적으로 두 가지로 나뉩니다. 이산확률분포 (동전 던지기 나 주사위와 같이 가능한 결과의 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위(예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에서 정의된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

 

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단일변수라고 불리우는 반면 표본공간이 2차원  이상의 벡터 공간 인 분포를 다변수라고합니다. 단일변수(변량) 분포는 다양한 대체 값을 취하는 단일확률변수의 확률을 제공합니다. 다변수분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단일변량 확률분포에는 이항분포, 초기하분포 및 정규분포가 포함됩니다. 다변수 정규분포는 일반적으로 발생하는 다변수분포입니다.

 

Reference

Probability distribution – Wikipedia



4.2. 참고문헌


갈톤보드와 큰 수의 법칙 ?
The law of large numbers from Galton board ?

1. 애니메이션

1.1. 8개의 분기수를 가지는 Galton보드

1.2. 10개의 분기수를 가지는 Galton보드

1.3. 32개의 분기수를 가지는 Galton보드


2. 설명

2.1. 갈톤보드와 큰 수의 법칙


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



8개의 분기수를 가지는 Galton보드




10개의 분기수를 가지는 Galton보드




32개의 분기수를 가지는 Galton보드


2. 설명

2.1 갈톤보드와 큰 수의 법칙

갈톤보드(Galton board)의 특징을 살펴보겠습니다. 구슬 하나를 갈톤보드에 굴리면 구슬은 분기점을 만날때 마다 왼쪽이나 오른쪽으로 반드시 가게 됩니다. 다른 경우는 없습니다.  갈톤보드에서 구슬이 분기점을 만나는 횟수를 분기수라고 합니다. 갈톤보드의 분기수가 8개이면 9개의 칸이 생기고 10개면 11개, 32개면 33개의 칸이 생깁니다. 즉 분기의 갯수보다 분기에 의해서 만들어지는 아래 칸의 갯수가 하나 더 크게 됩니다.

 

예를 들어 8개의 분기수를 가진 갈톤보드를 보면 구슬이 내려가면서 8번의갈림길을 만나서 그 때마다 좌우의 길 중에서 하나의 길을 선택합니다.그리고 좌우로 가는 확률이 똑 같이 반반이라고 한다면 9개의 칸 중 5번째 칸에 구슬이 제일 많이 들어가는 종모양을 하게 됩니다. 구슬을 많이 굴리면 구슬이 쌓인 모습이 점점 가운데가 높아지면서 선명해 집니다.  

 

구슬하나를 굴리는 것을 시행(Event)라 할 수 있고 구슬이 들어가는 아래 칸을 표본공간(Sample Space)라고 할 수 있습니다. 하나의 구슬을 굴려서 하나의 칸에 들어가는 가면 하나의 표본(Sample)이 생성된 것이라고 할 수 있습니다. 그리고 여기서 분기점에서 우측으로 가는 확률을 P라 한다면 좌측으로 가는 확률은 (1-P)가 됩니다. 그렇다면 갈톤보드는 좌나 우로 여러번 가는 시행의 결과를 합친 결과를 보여주는 장치입니다. 

 

갈톤보드에서 굴리는 구슬의 수를 크게 해본다면 어떤 결과가 나올까요?  하나의 예로 분기수를 8개로하고 구슬의 수를 크게 하면 구슬더미는 종모양을 점점 가지게 됩니다. 이 구슬더미의 모양을 확률분포로 본다면 그 확률분포를 이항분포(Binomial distribution)라 부릅니다. 이항분포는 분기점의 수(N)와 우측으로 가는 확률(P)로 정해집니다. 여기서 확률변수(Random variable)는 아래 칸이 됩니다. 아래칸에 숫자가 적혀 있으면 수치형 확률변수가 되고 수치가 아니면 명목형 확률변수가 됩니다.

 

갈톤보드의 분기수를 크게 늘리면 구슬은 가운데로  모이는 모습을 볼 수 있습니다. 이것은 중심극한정리(Central Limit Theorem)를 잘 표현합니다. 또한,  구슬 하나를 분기수가 무한대인 갈톤보드에 굴리면 가운데 칸으로 점점 접근하게 됩니다. 이것은 중심극한정리와 큰수의 법칙을 동시에 잘 표현한다고 볼 수 있습니다.

 

갈톤보드에서의 구슬굴리기를 여러개의 동전던지기와 연결해보면 동전하나는 갈톤보드의 분기점과 같은 역할을 하고 따라서 분기점수는 동전의 수와 같습니다. 갈톤보드의 결과는 여러개의 동전을 던져서 나온 결과와 연결됩니다.


Reference

영상 1

영상 2


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


갈톤보드와 큰 수의 법칙

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

갈톤보드 1

갈톤보드 2

두 갈톤보드 비교



4. 용어와 수식

4.1 용어

동전던지기와 큰수의 법칙 ?
The law of large numbers from coin toss ?

1. 애니메이션

1.1. 동전던지기와 큰 수(시행수)의 법칙


2. 설명

2.1. 동전던지기와 큰수의 법칙


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



동전던지기와 큰 수(시행수)의 법칙


2. 설명

2.1. 동전던지기와 큰수의 법칙

동전을 바닥에 던지면 앞면이나 뒷면 두면 중 하나만이 위를 향하게 됩니다. 즉, 동전 던지기의 결과는 앞면과 뒷면이라고 할 수 있습니다. 동전던지기를 시행이라고 하고 동전던지기 한번의 결과를 표본이라고 한다면 앞면과 뒷면은 표본이 나타나는 표본공간이라고 할 수 있습니다.

동전을 많이 던져서 큰 수의 표본을 준비하고 그 결과를 보겠습니다. 동전의 두 면에 0과 1이 표시된 동전을 준비합니다. 그리고 동전을 100회 던집니다. 그리고 100회 던질 때 마다 이제까지 시행된 결과의 합의 평균을 구합니다.

계속 던질 수록 시행된 결과의 합의 평균은 0.5에 점점 가까워짐을 알 수 있습니다. 이를 수렴(convergence)한다고 합니다. 시행을 많이 해서 시행의 결과(표집분포)의 대표값이나 분포값이 특정값에 수렴하는 것을 큰 수의 법칙이라고 합니다. 큰 수의 법칙은 확률과 통계를 이어주는 개념인 통계적 확률을 잘 설명해줍니다.

만일 0.5로 가까워져 가지 않고 0.6에 가까워 진다면 동전이 완벽하게 대칭이 아니고 찌그러진 동전이라고 할 수 있습니다. 즉,  한 동전을 무한대로 던지면 동전의 모양을 유추할 수 있게 됩니다. 이런 결과를 통계적 확률이라고 부릅니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


동전던지기와 큰수의 법칙

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

동전 1회 던지기

동전 10회 던지기

동전 100회 던지기

데이터시각화



4. 용어와 수식

4.1 용어