개체분포와 도수분포의 시각화

1. 애니메이션

1.1. 도수분포 막대그래프

1.2. 히스토그램


2. 설명

2.1. 개체와 도수

2.2. 상대도수와 확률

2.3. 개체분포의 시각화

2.4. 도수분포의 시각화

2.5. 개체분포의 모델

2.6. 도수분포의 모델


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



도수분포 막대그래프




히스토그램

2. 설명

2.1. 개체와 도수

개체(object)

개체는 속성을 가집니다. 개체(예를 들면 인간)의 속성은 한번 실현되면 변하지 않는 속성(예를 들면 성별)이 있고 상황에 따라 변하는 속성(예를 들면 몸무게)이 있습니다. 개체를 분석하기 위하여 개체의 속성을 변수로 모델링하는 데 특별히 변수값에 따른 확률값을 가지는 확률변수로 모델링할 수 있습니다. 확률변수는 확률분포를 나타내는 데, 예를 들어 한우의 품질등급은 대한민국(전체시공간, 전체범주)에서 전수조사를 하면 품질등급에 따른 개체수로 한우품질의 분포를 볼 수 있습니다. 그리고 생산지(부분시공간, 부분범주)별 한우품질의 분포도 볼 수 있습니다.  이때 한우의 개체수가 많다면 개체수로 구한 한우가 태어날 때 예측하는 한우품질의 확률분포와 비슷하다고 볼 수 있습니다. 한편, 확률변수는 범주형(질적)과 수치형(양적)으로 나누어 집니다. 개체의 속성을 관측한 관측값의 집합을 개체의 데이터 레코드(record)라 합니다. 개체의 ID와 그 개체의 관측값은 개체가 이루는 범주의 요소(element)가 됩니다.

도수(빈도수, 頻度数, frequency)

도수는 빈도수의 약어입니다. 도수(frequency)는 정해진 기간(period)에 정해진 공간(space)에서 개체(object)가 출현한 회수입니다. 여기서 공간은 개체의 속성을 표현하는 변수가 만듭니다. 개체가 서로 독립적인 다수의 속성을 가진다면 속성이 관측된 개체는 다차원 공간에 출현한 점(point)으로 표현할 수 있습니다. 예를 들어, 개체가 서로 독립적인 3개의 속성을 가진다면 개체가 나타나는 공간은 3차원 공간이라고 볼 수 있습니다. 3차원에서 공간의 예는 체적이 있습니다. 체적은 점 또는 선 또는 면의 적(積, 쌓음)으로 표현될 수 있습니다. 한편, 공간은 부분공간의 합으로 생각할 수 있고 부분공간의 위치를 부분공간을 대표하는 점(point)으로 모델링하기도 합니다. 정리하면, 전체공간을 이루는 각 부분공간에 개체가 정해진 시간동안 출현하는 회수가 그 부분공간의 도수가 됩니다.

개체분포와 도수분포

개체의 분포를 도수의 분포로 만드는 방법은 개체가 속하는 범주로 개체를 구분하는 것으로부터 시작됩니다. 각 범주는 도수를 가질 수 있으며 이 도수는 범주를 표현하는 “양(量)”이라고 할 수 있습니다. 따라서 도수분포는 “양(量)”으로 나타낼 수 있는 범주의 분포라고 할 수 있습니다. 개체의 속성이 명목형이라고 하더라도 그 개체가 속한 범주로 개체가 출현한 회수(도수)는 “양(量)”이므로 개체의 속성을 분석하고 예측하는 중요한 기반이 됩니다.


2.2. 상대도수와 확률

상대도수(relative frequency)

상대도수는 정해진 기간과 전체공간에서의 전체 도수와 각 부분공간에서의 도수의 비율입니다. 관측된 개체가 많아지면 전체공간에 많은 개체의 점(point)이 출현하여 분포를 나타냅니다. 이 때 전체공간을 분할한 부분공간에 상대도수를 표현한다면 이는 출현한 개체의 분포를 정량적으로 표현한 것입니다.  분할된 각 부분공간에서의 상대도수의 합은 1이 되며 관측된 개체의 수가 많아 질수록 개체의 속성을 표현하는 확률변수의 확률분포와 점점 같게 됩니다. 이를 통계적 확률분포라고 합니다.

확률(probability)

개체가 관측되기 전에는 개체의 속성이 만드는 공간의 어디에 개체가 나타날지 모릅니다. 만일, 개체의 속성이 확률을 가지는 변수로 표현된다면 개체가 공간의 어디에 나타날지를 확률로 표현할 수 있게 됩니다. 또한 정해진 기간이 길어서 많은 개체가 출현하였고 모든 개체가 같은 속성을 가진다면 개체의 분포는 개체가 가지고 있는 속성을 표현하는 확률변수의 확률분포를 나타냅니다.


2.3. 개체분포(population distribution)의 시각화

개체는 개체가 가지는 속성이 만드는 공간에서 분포합니다. 따라서 개체분포를 시각화하기 위해서는 개체가 가지는 속성을 변수로 모델링한 좌표계를 우선 정합니다.

산점도(산포도, scatter plot)

산점도는 두 개 이상의 속성이 만드는 2차원 좌표계 또는 그 이상의 좌표계에서 개체의 분포를 시각화한 것입니다. 산점도는 개체의 속성이 만드는 공간에서 개체가 흩어진 모양을 관찰할 수 있으며 개체의 속성 간의 관계를 보여줍니다.

점그래프(dot plot)

점그래프는 개체의 속성이 하나인 경우 관측값을 1차원 좌표계에서 좌표축의 수직방향으로 겹치지 않게 점으로 쌓는 평면상의 그래프입니다. 점그래프는 관측값이 같은 경우라도 겹치지 않게 한 방향으로 쌓아 올리기 때문에 중심경향, 퍼짐정도, 특이값 등을 살펴볼 수 있습니다.


2.4. 도수분포(frequency distribution)의 시각화

도수는 범주에서의 개체의 출현회수입니다. 그리고 도수분포는 각 범주의 위치에서의 도수입니다. 따라서 도수분포를 시각화하기 위해서는 개체가 속하는 범주와 그 범주의 위치를 우선 정합니다. 도수분포의 시각화에서는 개체의 속성을 수치형 변수로 모델링하고 관측한 경우에는 개체가 속하는 범주의 구간을 정하는 것이 중요하고 범주형 변수인 경우에는 개체가 속하는 범주를 구분할 수 있도록 가능한 변수를 정하는 것이 무엇보다 중요합니다.

막대그래프(bar chart) : 확률변수가 범주형이거나 이산형

막대그래프는 확률변수가 범주형이거나 이산형인 경우, 도수분포를 시각화하는 방법입니다. 막대그래프에서 독립변수는 범주형이거나 이산형인 확률변수이고 종속변수인 막대의 길이는 도수입니다. 

만일 각 독립변수에서의 막대의 길이를 도수에서 상대도수로 변환하면 막대의 길이는 확률질량이 됩니다. 이 때 막대의 길이를 모두 합하면 확률질량의 합과 마찬가지로 1이 됩니다.

히스토그램(Histogram) : 확률변수가 연속형

히스토그램은 확률변수가 연속형인 경우 도수분포를 시각화하는 방법입니다. 연속형인 확률변수는 같은 크기를 가지는 구간(bins, intervals)으로 구분됩니다. 구분된 구간이 밑면이고 각 구간에서의 도수가 높이인 직사각형의 이음을 히스토그램이라고 합니다. 히스토그램을 이루는 직사각형들은 밑면의 크기가 일정하며 빈틈없이 이어져 있습니다. 따라서 히스토그램을 이루는 직사각형의 높이를 전체도수와 구간의 길이로 나누면 직사각형의 면적의 합을 1로 만들 수 있습니다. 히스토그램은 연속형 확률변수의 확률분포를 나타내는 이산확률밀도함수의 모양과 같습니다. 따라서종속변수의 도수를 전체도수와 구간의 길이로 나누면 이산확률밀도함수로 변환할 수 있다는 큰 장점이 있습니다. 연속형 확률변수의 관측값으로 히스토그램을 그리면 확률분포의 모양을 직관적으로 살펴볼 수 있기 때문에 매우 유용한 데이터시각화 방법입니다. 

연속형 데이터의 분석을 위한 히스토그램을 그리기 위해서는 우선 도수분포표를 만듭니다. 도수분포표(frequency table)는 연속형 확률변수를 구간으로 나누고 관측한 확률변수값(데이터)의 구간에서의 도수를 표로 만든 것입니다. 도수분포표에서 중요한 것은 적합한 구간크기(구간간격)를 정하는 것입니다. 데이터(관측값)에는 범위가 있으므로 구간크기가 정해지면 구간의 개수는 자동으로 계산됩니다. 데이터분석의 목적에 맞는 구간크기를 정하는 방법은 경험법칙부터 다양한 방법이 있습니다. 


2.5. 개체분포의 모델 

출현할 개체의 분포를 함수식으로 표현할 수 있으면 그 함수식을 개체분포의 모델이라고 합니다. 함수식으로 표현된 수학모델로 출현할 개체의 분포를 시각화할 수 있습니다. 개체분포의 모델은 개체의 확률분포와 같습니다.

이산형 확률분포 : 확률변수가 이산형

함수로 표현하는 대표적인 이산형 확률분포로는 베르누이분포, 이항분포, 포와송분포, 기하분포가 있습니다. 이 분포들의 정의역은 자연수(양의 정수)입니다. 그리고 함수값은 확률질량, 즉, 확률입니다. 그래서 이산형 확률분포를 나타내는 함수를 확률질량함수(probability mass function, PMF)라고 합니다.

연속형 확률분포 : 확률변수가 연속형

함수로 표현하는 대표적인 연속형 확률분포로는 정의역이 실수인 지수분포, 정규분포가 있고 정의역이 0에서 1인 베타분포가 있습니다. 감마분포는 정의역이 양의 실수입니다. 그리고 함수값은 확률밀도입니다. 그래서 연속형 확률분포를 나타내는 함수를 확률밀도함수(probability density function, PDF)라고 합니다. 함수값인 확률밀도를 적분하면 확률질량, 즉, 확률이 됩니다.


2.6. 도수분포의 모델

범주를 표현하는 “양”으로 개체의 도수(개체가 범주에 출현하는 회수)가 있습니다. 도수분포의 모델은 범주에 나타나는 개체의 출현회수의 기대값에 기반합니다. 개체가 속하는 표본도 범주라고 볼 수 있습니다. 도수분포의 모델은 표본의 확률분포라고 할 수 있습니다.

표본통계량의 확률분포

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. 표본의 분포(표집분포)는 범주의 분포로 볼 수 있고 표본통계량의 분포는 확률분포로 모델링할 수 있습니다. 표본통계량의 확률분포 모델은 대표적으로 연속형 확률분포로 F분포와 t분포가 있습니다. F분포와 t분포를 표현하는 함수의 무수(매개변수)는 표본크기입니다.

알고 있는 확률분포 모델과 관측한 표본데이터로 추정하는 모수(분포함수의 매개변수)

개체가 속하는 시공간의 범주 중에는 표본이 있습니다. MLE(Maximum Likelihood Estimation, 최대우도를 목표로 하는 모수 추정법)로 확률분포의 모수를 추론합니다. 이때 경험으로 알고 있는 확률분포 모델과 표본데이터를 이용하여 확률분포의 가능도를 최대로 하는 확률분포함수의 모수를 구합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 데이터

– 도수분포표

– 도수분포 막대그래프


4. 참조

4.1 용어


막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

 

Reference

Bar chart – Wikipedia



히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다.  연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

 

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. $X$ 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

 

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

 

Reference

Histogram – Wikipedia



4.2. 참고문헌

모집단분포, 표본분포, 표집분포

1. 애니메이션

1.1. 모집단과 표본의 통계량

1.2. 표본평균 표집의 확률밀도함수


2. 설명

2.1. 모집단분포 : 모집단내 개체의 분포

2.2. 표본분포 : 표본내 개체의 분포

2.3. 통계량

2.4. 표집분포 : 표본통계량의 분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



모집단과 표본의 통계량




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균 표집의 확률밀도함수

2. 설명

2.1. 모집단(Population)분포 : 모집단내 개체의 분포

모집단(Population)은 관측대상이 되는 개체들의 전체 집합이며 연구대상입니다.

모집단분포를 모수(parameter)로 표현

모집단분포를 표현하는 모수는 상수이며 다음과 같이 분류할 수 있습니다.

– 분포의 위치(Location)를 표현 : 모평균($\mu$)

– 분포의 크기(Scale)를 표현 : 모분산($\sigma^2$), 모표준편차($\sigma$)

– 분포의 비대칭성(Skewness)을 표현 : 피어슨비대칭도($\gamma$)

모집단분포 모델

모집단분포는 일반적으로 정규분포(Normal distribution)를 따른다고 가정합니다. 그 이유는 모집단을 이루는 개체의 속성이 연속형 확률변수이고 정규분포를 나타내면 모집단분포도 정규분포를 나타내기 때문입니다. 즉, 자연계에서는 개체의 속성이 정규분포를 이루는 경우가 대부분이기 때문입니다. 예를들어 개체의 속성 중에서 키는 최소생성단위(성공 또는 실패)가 큰 회수로 시도되어 누적된 결과라고 볼 수 있습니다. 이 결과는 시도의 횟수가 유한한 경우 이산형 확률변수로 표현되어 이항분포가 되고 시도의 횟수가 무한하면 연속형 확률변수로 표현되어 정규분포가 됩니다. 특히 연속형 확률변수의 경우 분포를 함수와 함수의 매개변수(모수)로 모델링할 수 있습니다.

모집단분포의 모수

정규분포를 표현하는 모수(parameter, 매개변수)는 평균($\mu$)과 분산($\sigma^2$)입니다. 모집단분포를 알기위해서는 모집단을 관측해야 하지만, 모집단은 일반적으로 큰 수의 개체로 구성되어 있습니다. 따라서 모든 개체를 조사하는 것이 불가능하거나 조사하더라도  시간과 비용이 너무 많이 소요되는 경우가 많습니다. 따라서 표본을 추출하여 관측하는데 표본분포의 모수 중에서 표본평균과 표본분산 그리고 표본크기를 가지고 모평균과 모분산을 추론하게 됩니다. 다음은 모집단분포가 정규분포일 때 모수(매개변수)의 계산식입니다.

 

모평균($\mu$)

$$\mu=\dfrac{1}{N}(x_1+x_2+\cdots+x_N)=\dfrac{1}{N}\sum_{i=1}^{N}x_i$$

여기서, $N$은 모집단크기

모분산($\sigma^2$)

$$\sigma^2=\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}$$

여기서, $N$은 모집단크기

정규분포로 모델링한 모집단분포

모집단분포가 정규분포이면 즉, 모집단$(x_1,x_2,\cdots,x_N)$이 정규분포를 따르고 있다고 가정하면 다음과 같이 표기합니다.

$$X \sim N(\mu,\sigma^2)$$

여기서, $X$는 모집단을 이루는 개체가 가지는 확률변수

$\mu$는 모평균

$\sigma^2$은 모분산


2.2. 표본분포 : 표본내 개체의 분포

모집단의 일부 개체를 선택하여 추출함에 있어 그 일부분이 모집단을 대표할 수 있도록 무작위로 선택합니다. 이를 무작위추출(random sampling)이라 하며 추출에서 선택된 모집단의 일부를 표본(Sample)이라고 합니다. 따라서 표본분포는 모집단분포를 반영합니다.

개체와 집단간의 가정 : $\rm iid$(independent and identically distributed random variable)가정

모집단을 이루는 개체가 독립이고 개체의 속성을 나타내는 확률변수가 같은 확률분포를 가진다고 가정하면 모집단은 독립항등분포를 나타내는 확률변수($\rm iid$, independent and identically distributed random variable) iid가정을 따른다고 합니다. 이 가정에 따르면 표본분포는 모집단분포와 같다고 할 수 있습니다.

 

표본과 모집단간의 가정

가정 1 : 표본은 모집단의 일부분이다. : 표본은 모집단의 부분집합

 

표본

$$x_1,x_2,\cdots,x_n$$

분포식

$$x_1,x_2,\cdots,x_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서,  ${\rm iid}$는 independent and identically distribution의 약자로서 독립항등분포

${\rm iid} \, N(\mu,\sigma^2)$는 독립항등분포의 분포가 정규확률분포

iid의 처음 i는 개체가 독립(independent)이고, 두번째 i는 개체가 가지는 확률변수의 확률분포가 개체간 동일함(identically distributed)을 의미합니다. 따라서 표본 $\{x_1, x_2~ x_n\}$의 개체(원소)는 서로 독립적이고 모든 개체가 가지는 확률변수는 같은 확률분포를 가집니다. 그리고 모집단의 확률분포는 개체가 가지는 확률변수의 확률분포와 같게 됩니다. 만일 모집단분포가 정규분포라면 개체가 가지는 확률변수도 평균이 $\mu$이고, 분산이 $\sigma^2$ 정규분포를 따릅니다. “iid”가정은 모집단과 표본을 이루는 개체에 대한 중요한 가정입니다

 

가정 2 : 표본은 모집단 전체에 분포한다. : 무작위추출

 

모집단

$$X_1,X_2,\cdots,X_N$$

여기서, $N$은 모집단의 크기

분포식

$$X_1,X_2,\cdots,X_N \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $N$은 모집단의 크기

여기서,  $\rm{iid}$는 모집단을 이루는 독립적인 개체가 가지는 확률변수들이 동일한 확률분포를 가진다는 기호

 

표본

$$X_1,X_2,\cdots,X_n$$

분포식

$$X_1,X_2,\cdots,X_n \sim {\rm iid} \, N(\mu,\sigma^2)$$

여기서, $n$은 표본의 크기

$\rm{iid}$는 표본을 이루는 독립적인 개체가 가지는 확률변수는 동일한 확률분포를 가진다는 기호

위의 두 가정을 통하여 표본은 모집단의 분포와 동일한 분포를 나타냄을 분포식으로 모델링합니다. 따라서, 표본으로 모집단 분포를 표현하는 모수의 통계적 추론(Statistical Inference)이 가능합니다. 통계적 추론은 표본 데이터를 이용하여 모수에 대한 정보를 얻는 방법론입니다. 모집단으로부터 추출한 표본의 표본분포는 표본의 크기가 모집단 크기와 같아질수록 같아집니다. 이를 큰 수의 법칙이라고 합니다. iid 가정에 의해 표본으로부터 통계량을 구하여 모집단의 모수를 점추정할 수 있고 그 신뢰구간도 제시할 수 있습니다. 제시한 신뢰도(0에서 1사이 또는 0%에서 100%사이)에 따른 신뢰구간을 구하는 것을 구간추정이라고 합니다.


2.3. 통계량(Statistic)

통계량은 집단을 이루는 개체가 가지는 변수값(데이터)을 관측하고 가공하여 집단을 표현하는 값입니다. 대표적인 통계량에는 평균, 분산이 있고 집단을 이루는 개체의 수도 그  집단의 통계량입니다. 대표적인 집단에는 모집단과 표본이 있습니다. 그리고 개체가 모여서 구성하는 범주(Category)도 집단의 부분집단으로서 집단이라고 할 수 있습니다. 만일 범주가 순서를 가지면 수준(Level)이라고 합니다.  Statistic(통계량)의 복수형인 Statistics이 통계학인 것을 볼 때 통계학(Statistics)은 통계량(Statistic)을 다루면서 시작되었다는 것을 짐작할 수 있습니다.

통계량 중에서 기초통계량

통계량 중에서 기초통계량은 통계량 중에서 최대값, 최소값, 순서통계량, 중앙값을 지칭합니다. 기초 통계량은 집단의 원소값(데이터)의 식으로 모델링되지 않고 논리적 판단으로 구하게 됩니다.다만 부호나 위치를 사용하여 순서로 표현되는 분포를 수식으로 모델링하기도 합니다.

통계량 중에서 모수(parameter, 매개변수)

통계량 중에서 모수는 집단의 분포를 표현하는 분포함수의 매개변수를 말합니다. 예를 들어 모집단이 정규분포를 나타낸다면 모수는 모평균과 모분산이 됩니니다. 예를 들어 표본의 분포를 t분포로 표현한다면 표본평균과 표본분산 그리고 표본크기가 모수가 됩니다. 

표본통계량 중에서 표본평균, 표본분산, 표본크기는 표본분포의 모수

모집단분포를 나타내는 모집단의 모수는 모집단분포를 나타내는 함수의 매개변수라고 할  수 있습니다. 모집단과 표본의 관계에서 중요한 사실은 표본통계량은 모집단의 모수(예를들면, 모평균, 모분산 등)가 상수인 것과 달리 모집단의 모수를 평균으로 하는 확률변수라는 점입니다. 특히 표본평균의 분포(표본평균의 표집분포)는 표본의 크기가 커지면 정규분포에 근사하는 데 이를 중심극한정리라고 합니다. 중심극한정리에 근거하여 표본통계량으로 모집단모수를 추측하게 합니다. 중심극한정리는 추측통계학이 시작되는 중요한 정리입니다. 표본통계량은  영어 대문자를 사용하여 표기합니다. 그리고 표본의 데이터를 이용하여 계산한 결과인 표본통계량의 값은 소문자를 사용하여 표기합니다. 가장 대표적인 표본통계량은 표본평균과 표본분산이 있습니다.  그리고 다른 모든 표본통계량과 관련되는 표본크기가 있습니다.

 

표본평균

$$\bar{X}=\dfrac{1}{n}(X_1+X_2+\cdots+X_N)=\dfrac{1}{n}\sum_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산

$$S^2=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

여기서, $n$은 표본크기


2.4. 표집분포(Sampling distribution) : 표본통계량의 분포

표집은 표본의 집합을 의미합니다. 표집분포(Sampling distribution)는 표본에서 구한 표본통계량의 분포입니다. 복원추출로 표본추출(Sampling)을 무한반복하면 관측된 표본통계량의 분포는 수렴합니다. 표본통계량에는 대표적으로 표본평균, 표본분산, 표본크기, 표본변동이 있습니다. 또한, 모집단에 범주(Category)가 있어 표본에도 범주가 나타난다면 표본통계량에는 범주에 속한  개체수와 표본크기(표본의 총개체수)의 비율을 나타내는 범주확률이 있습니다. 만일 표본이 이분분포로 되어있다면 표본통계량에는 표본비율이 있습니다.

표본평균의 분포

표본평균은 확률분포를 가지는 확률변수입니다. 표본평균은 독립변수가 확률변수, $x_i$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 산술평균과 표본평균의 추정량(estimator)을 표현하기도 합니다. 

$$\bar{X}=\dfrac{1}{n}(x_1+x_2+\cdots+x_n)=\dfrac{1}{n}\sum_{i=1}^{n}x_i$$

표본평균은 중심극한정리에 따라 표본크기가 클수록 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사합니다.

$$\bar{X} \sim N(\mu,\dfrac{\sigma^2}{n})$$

여기서, $n$은 표본크기

표본크기가 크다면 표본평균($\bar{X}$)의 분포가 모평균($\mu$)을 평균으로하고 $\dfrac{\sigma^2}{n}$을 분산으로하는 정규분포에 근사하므로 표본평균은 표준정규분포의 확률변수인 $Z$로 변환할수 있습니다.

$$Z=\dfrac{\bar{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N(0,1^2)$$

여기서, $n$은 표본크기

표본분산의 분포

표본분산($S^2$)은 표본평균과 마찬가지로 표본크기($n$)가 클수록 모분산($\sigma^2$)을 평균으로 하는 정규분포를 나타냅니다. 다만 표본분산의 분포는 표본크기가 작을수록 표본평균의 분포와 달리 모집단분포의 영향을 심하게 받습니다. 예를들어 개체의 확률변수가 정규분포를 가진다고 하면 표본크기가 2부터 시작하면서 커질 때 표본평균의 분포는 대칭인 종모양의 분포로 시작하여 모평균이 평균인 정규분포로 수렴하는 데 반해 표본분산의 분포는 심한 비대칭인 분포로부터 시작하여 모분산이 평균인 정규분포로 수렴합니다. 표본크기가 30이하인 경우 이 현상은 두드러지게 나타나므로 표본크기에 따른 표본분산의 분포를 고려해야 합니다. 여기서 새로운 확률변수를 도입하게 되는 데 이것이 표본을 이루는 각 개체의 변동을 합한 표본변동(Sample variation)입니다.

$${x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_n^2-\bar X}^2$$

영국의 육종학자인 피셔는 개체가 가지는 확률변수가 표준정규분포를 가진다고 모델링하고 표본을 이루는 각 개체의 변동을 모분산($\sigma^2$)으로 표준화하여 카이제곱($\chi^2$)이라는 확률변수를 도입하였습니다. 이 확률변수는 표준정규분포의 확률변수인 $Z$로 부터 유도됩니다. 만일 표본을 이루는 개체가 가지는 확률변수 $X$가 정규분포를 나타내고 표본크기가 $n$이라면 표본편동을 다음식으로 표현할 수 있습니다.

$$\dfrac{1}{\sigma^2}({x_1^2-\bar X}^2+{x_2^2-\bar X}^2+ \cdot + {x_k^2-\bar X}^2)=Z_1^2+Z_2^2+ \cdot + Z_k^2=\chi_k^2$$

여기서, $k$는 표본의 자유도이고 $n-1$

표본분산은 독립변수가 확률변수, $s_i^2$이고 독립변수의 계수가 $\dfrac{1}{n}$로 모두 같은 선형함수로 표현할 수 있습니다. 이 함수는 표본의 관측값의 분산과 표본분산의 추정량(estimator)을 표현하기도 합니다. 

$$S^2=\dfrac{1}{n}(s_1+s_2+\cdots+s_n)=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$$

표본분산($S^2$)에 $\dfrac{(n-1)}{\sigma^2}$을 곱하거나 표본분산($S^2$)을 $\dfrac{\sigma^2}{(n-1)}$으로 나누어서 표본분산($S^2$)$을 카이제곱분포를 따르는 확률변수인 $\chi^2$으로 변환합니다.

$$(n-1)\dfrac{S^2}{\sigma^2} \sim \chi^2_{n-1}$$

여기서,  $n$은 표본크기

$(n-1)$은 표본의 자유도

$\chi^2_{n-1}$은 자유도가 $(n-1)$인 카이제곱분포

표본변동의 분포

표본변동은 표본평균과 관측값(데이터)의 차의 제곱을 모두 더한 값입니다. 그리고 표본을 추출할 때마다 표본크기와 표본평균에 따라서 변하는 확률변수입니다. 표본변동의 분포는 평균이 $n\sigma^2$인 분포를 나타낼 것입니다. 표본변동을 표준화하면 카이제곱분포를 나타내는데 표본크기에 따라 분포의 모양이 다릅니다. 관측값(실현값, 데이터)를 표준화한 확률변수 Z와 $\chi^2$의 관계를 살펴보면 확률변수 Z를 제곱한 확률변수는 자유도가 1인 $\chi^2$확률변수와 같습니다. 

$$Z^2 \sim \chi_{1}^2$$

여기서,  $Z$는 표준정규분포 : $Z \sim N(0,1)$

만일 $Z_i \sim $\rm iid$ \ N(0,1),i=1,2,\cdots,n$이면 표준정규분포를 나타내는 $n$개의 개체로 이루어진 표본의 표본변동을 나타내는 식은 다음과 같습니다. 표준정규분포를 가지는 개체로 이루어진 표본변동의 분포는 카이제곱분포를 나타내며 이 분포함수의 모수(매개변수)는 자유도입니다.

$$Y=Z_1^2+Z_2^2+\cdots+Z_{n-1}^2 \sim \chi_{n-1}^2$$

여기서,  $\chi_{n-1}^2$은 자유도가 $(n-1)$인 카이제곱분포

표본크기의 분포

표본을 이루는 개체가 iid$N(0,1)$ 가정을 따르면 즉, 확률변수가 독립적이고 확률분포가 표준정규분포를 가진다면 표본변동을 다음식으로 표현할 수 있습니다.

$$Y\sim iid \, N(0, 1)$$

위식으로 가정된 표본변동의 분포는 표본크기의 분포를 나타내며 다음과 같이 표현할 수 있습니다.

$Y \sim \chi_{n}^2$

표본크기의 분포의 평균은

$${\rm E}[Y]=n$$

표본크기의 분포의 분산은

$${\rm Var}[Y]=2n$$

표본비율의 분포

범주의 변동은 범주의 개체수와 비례(선형관계)이므로 각 범주의 비율은 각 범주의 변동의 비율입니다. 만일 표본을 이루는 범주의 카이제곱값을 표본의 카이제곱값으로 나누면 그  범주의 비율이됩니다. 범주의 비율은 확률변수로 볼 수 있는 데 모집단에서 표본을 무한추출하면 범주의 비율은 수렴을 하기 때문에 확률이라고 볼 수 있습니다. 두 카이제곱변수의 비도 확률변수인 데 영국의 유전학자 피셔가 유도하여 그 확률변수를 F라 부릅니다.

범주확률의 분포

표본에 범주가 있는 경우에는 각 범주의 변동과 각 범주의 평균의 변동의 합이 표본변동이 됩니다. 만일 표본이 두 범주를 가지고 있고 각 범주가 각각 $Y_1$과 $Y_2$의 변동을 나타낸다 하면 표본의 변동식은 다음과 같습니다.

$$Y=Y_1+Y_2$$ 

자유도식은 다음과 같습니다.

$$n=k+n_1+n_2=2+n_1-1+n_2-1$$

여기서 $k$는 범주의 수

 $n_1$과 $n_2$는 두 범주의 개체수

두 변동의 합을 다음식으로 표현할 수 있습니다. 

$$Y=Y_1+Y_2 \sim \chi_{n_1-1}^2+\chi_{n_2-1}^2=\chi_{n_1+n_2-2}^2$$

여기서, $Y$는 두 범주의 변동의 합

$Y_1$과 $Y_2$는 표본을 이루는 두 범주의 변동

$n_1$과 $n_2$는 표본을 이루는 두 범주에 속하는 개체수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

 

Reference

Statistical parameter – Wikipedia



자유도 ?
Degree of Freedom ?

1. 애니메이션

1.1. 변수가 만드는 움직임 (개체의 분포)


2. 설명

2.1. 자유도 degree of freedom

2.2. 좌표계 coordinate system

2.3. 개체의 자유도

2.4. 모집단의 자유도

2.5. 표본의 자유도

2.6. 범주가 있는 표본의 자유도


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



변수가 만드는 움직임 (개체의 분포)

2. 설명

2.1. 자유도 degree of freedom

개체의 자유도

개체가 1개의 변수를 가지고 있다면 변수가 만드는 1차원 좌표계에서 개체의 움직임(개체의 출현도 움직임의 일종)을 표현할 수 있습니다. 따라서, 개체가 1개의 변수를 가지고 있다면 한 축에서 움직일 수 있기 때문에 이 개체는 자유도가 1인 개체라고 할 수 있습니다. 예를 들면 개체가 2개의 변수를 가지고 있다면 두 변수가 만드는 2차원 직교좌표계에서 개체의 확률질량은 자유도가 2라고 할 수 있습니다. 개체는 집단을 이루는 원소라고도 하고 요소(element)라고도 합니다.

집단의 자유도

집단을 이루는 개체가 서로 독립이고 개체가 1개의 변수를 가진다면 집단의 자유도는 집단을 이루는 개체의 개수가 됩니다. 즉, 독립인 개체의 변수가 집단이 표현되는 좌표계의 직교축을 만듭니다. 집단에는 모집단과 표본집단이 있습니다. 표본집단은 줄여서 표본이라고 합니다.

범주의 자유도

집단은 범주로 이루어 질 수 있습니다. 즉, 집단을 이루는 개체가 범주에 속할 수 있습니다. 개체의 특정 범주(cateogry, 수준, level)로의 출현(개체의 움직임의 일종)확률은 범주의 확률질량으로 표현됩니다. 따라서 범주의 자유도는 그 범주의 확률질량의 자유도라고 할 수 있습니다. 


2.2. 좌표계 coordinate system

개체좌표계

개체의 출현(개체의 출현도 움직임의 일종)을 표현할 수 있는 좌표계를 정해 봅니다. 이 좌표계를 개체좌표계라고 부릅니다. 한편, 개체좌표계는 개체가 가지는 변수가 정한다고 볼 수 있습니다. 간단한 예를 들면, 개체가 3개의 변수를 가지고 있다고 한다면 개체의 좌표계는 3개의 축을 가진 3차원 좌표계로 표현할 수 있습니다.

집단좌표계

집단은 개체가 모여서 만들어 집니다. 개체가 서로 독립이라면 서로 독립적으로 움직인다고 할 수 있습니다. 집단의 움직임(개체의 출현으로 나타나는 개체의 분포)을 표현할 수 있는 좌표계를 정해봅니다. 이 좌표계를 집단좌표계라 부릅니다. 따라서 집단좌표계는 집단을 이루는 개체의 변수가 정한다고 볼 수 있습니다. 간단한 예를 들면 개체가 1개의 변수를 가지고 있고 서로 독립이면 집단의 움직임을 표현할 수 있는 좌표계 축의 수는 개체의 수와 같게 됩니다.

절대좌표계

개체좌표계의 원점은 개체가 가지는 변수가 모두 0이 되는 점입니다. 따라서 개체가 모여서 만들어진 집단좌표계의 원점은 개체좌표계의 원점이 만들게 됩니다. 만일 집단을 표본집단과 모집단으로 구분한다면 모집단의 원점이 고정된다면 표본집단의 원점은 관측이 될때 정해지므로 고정되어 있지 않습니다. 그리고 모집단안에 범주가 있어서 모집단에서 표본집단을 추출하거나 표본집단이 생성될 때 범주가 집단안에 나타난다면 범주에 속해 있는 개체의 표현은 개체좌표계와 집단좌표계의 원점의 상대위치가 결정되어야 가능합니다. 여기서 절대좌표계를 도입해 볼 수 있습니다. 개체가 절대좌표계에 출현한다고 생각해 보면 절대좌표계의 원점은 개체의 변수가 모두 0이 되는 점을 의미합니다. 여기서 중요한 것은 세 좌표계의 원점의 상대 거리 즉, 위치가 존재한다면 절대좌표계에서 표현할 수 있다는 것입니다.


2.3. 개체의 자유도

개체가 가지는 변수의 값은 변합니다. 즉, 움직입니다. 따라서, 개체를 하나의 확률질량으로 보았을 때, 즉, 강체로 보았을 때 개체강체의 확률질량의 자유도는 1입니다. 개체를 이루는 변수의 자유도는 변수의 개수($k$)가 됩니다.  

 

개체의 자유도는 개체를 구성하는 변수의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 개체가 가지는 변수가 만든 좌표계에서 개체의 움직임의 자유도를 표현한다고 할 수 있습니다. 개체에 대한 자유도 등식은 다음과 같습니다.

개체를 이루는 변수의 자유도 = 개체의 자유도 + 개체강체의 자유도

$$k=\text{개체의 자유도} + 1$$

여기서, $k$는 개체가 가지는 변수의 개수


2.4. 모집단의 자유도

모집단의 모평균은 표본의 입장에서는 움직이지 않는 상수입니다. 따라서, 모집단을 하나의 확률질량으로 보았을 때, 즉, 강체로 보았을 때 모집단강체(모평균)의 자유도는 0입니다. 그리고 모집단을 이루는 개체의 자유도는 모집단크기($N$)입니다.  

 

모집단의 자유도는 모집단을 구성하는 갳의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 모집단을 구성하는 독립적인 개체가 가지는 변수가 만든 좌표계에서 모집단의 움직임의 자유도를 표현한다고 할 수 있습니다. 이 때 개체는 같은 확률질랑을 가집니다. 모집단에 대한 자유도 등식은 다음과 같습니다.

모집단을 이루는 개체의 자유도 = 모집단 자유도 + 모집단강체의 자유도

$$N=\text{모집단의 자유도} + 0$$

여기서,  $N$은 모집단크기 : 모집단을 이루는 개체의 개수


2.5. 표본의 자유도

표본은 표본을 이루는 개체의 개수만 고정되고 개체가 가지는 변수가 변하는 모델이라고 볼 수 있습니다. 따라서 표본의 표본평균은 움직입니다. 표본을 하나의 강체로 보았을 때 표본강체(표본평균)의 자유도는 1입니다. 그리고 표본을 이루는 개체의 자유도는 표본크기($n$)가 됩니다.  

표본의 자유도는 표본을 구성하는 개체의 움직임(출현)을 규정한다고 할 수 있습니다. 다르게 말하면 표본을 구성하는 독립적인 개체가 가지는 변수가 만든 좌표계에서 표본의 움직임의 자유도를 표현한다고 할 수 있습니다. 이 때 개체는 같은 확률질량을 가집니다. 표본에 대한 자유도 등식은 다음과 같습니다

표본을 이루는 개체의 자유도 = 표본의 자유도 + 표본강체의 자유도

$$n=\text{표본의 자유도} + 1$$

여기서, $n$은 표본크기 : 표본을 이루는 개체의 개수


2.6. 범주(category)가 있는 표본의 자유도

표본강체와 각 범주강체의 자유도는 1입니다. 여기서 범주강체는 각 범주의 확률질량이라고 할 수 있습니다. 개체의 확률질량과 달리 각 범주의 확률질량은 다를 수 있습니다. 모집단에서의 표본추출이나 표본생성에서 표본이 반드시 출현한다면 표본의 확률질량을 1이라고 할 수 있습니다. 따라서 표본을 이루는 각 범주의 확률질량의 합은 1이 됩니다. 그리고 범주의 자유도는 $k-1$이 됩니다. 따라서 범주가 있는 표본의 자유도는  $n-k$입니다. 범주가 있는 표본에 대한 자유도 등식은 다음과 같습니다.

 

표본을 이루는 개체의 자유도 = 범주가 있는 표본의 자유도 + 범주의 자유도 + 표본강체의 자유도

$$n=(n-k)+(k-1)+1$$

여기서, $k$는 범주의 개수

$n$은 표본크기 : 표본을 이루는 개체의 개수

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

 

Reference

Statistical parameter – Wikipedia



확률변수의 독립

1. 애니메이션

1.1. 사건$H$와 사건$E$가 독립일 때 곱사건의 확률


2. 설명

2.1. 확률변수의 독립

2.2. 두 확률변수간 독립 판별

2.3. 두 확률변수의 선형결합

2.4. 두 확률변수의 상관계수


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



사건$H$와 사건$E$가 독립일 때 곱사건의 확률

2. 설명

2.1. 확률변수의 독립

두 확률변수 $X$와 $Y$의 독립

사건 A와 사건 B가 독립이면 곱사건의 확률 $P(A \cap B)$은 조건부확률계산을 할 필요가 없이 두 사건의 확률을 곱하여 구할 수 있습니다.

$P(A \cap B)=P(A)P(B)$

두 확률변수 $X$와 $Y$가 독립이면 곱사건의 확률은 다음식과 같습니다.

$$f(x,y)=g(x)h(y)$$

여러 확률변수간 서로 독립

여러 확률변수가 상호 독립임을 안다면 곱사건의 확률은 각 사건의 확률의 곱으로 나타납니다. 확률변수 $X1,X2,\cdots,Xn$가 서로 독립이면 다음식이 성립합니다.

$$f(x_1,x_2,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n)$$

모두 이산형 확률변수인 경우는 다음과 같이 확률식을 표현할 수 있습니다.

$$P(X_1,X_2,\cdots,X_n)=P(X_1)P(X_2)\cdots P(X_n)$$


2.2. 두 확률변수간 독립 판별

모두 이산형 확률변수인 경우는 결합확률질량함수를 각각의 주변확률질량함수의 곱과 비교하여 같으면 독립입니다. 

모두 연속형 확률변수인 경우는 결합확률밀도함수를 각각의 주변확률밀도함수의 곱과 비교하여 같으면 독립입니다.

두 확률변수 $X$와 $Y$의 독립의 성질을 이용하여 독립 판별

성질 1

$${\rm E}[XY]=\mu_X\mu_Y$$

증명

$$\begin{align}
{\rm E}[XY] & = \int\int xyg(x)h(y)dxdy \\
& = \int xg(x)dx \int yh(y)dy \\
& = {\rm E}[X]{\rm E}[Y] \\
& = \mu_X\mu_Y \\
\end{align}$$

성질 2

확률변수 $X$와 $Y$가 독립이면 공분산은 0이 됩니다.

$${\rm Cov}(X,Y)=0$$

${\rm Cov}(X,Y)=0$이라고 해도 확률변수 $X$와 $Y$가 독립이라고 할 수 없습니다. $Cov(X,Y)=0$일 때 확률변수 $X$와 $Y$의 독립 판별은 모든 $x$, $y$에 대해 $f(x,y)=g(x)h(y)$ 인지 확인해야 합니다.

 

성질 3

확률변수 $X$와 $Y$가 독립이면 두 확률변수 합의 분산은 다음과 같습니다.

$${\rm Var}[X \pm Y]={\rm Var}[X]+{\rm Var}[Y]$$

여기서,  확률변수 $X$와 $Y$가 독립이면 ${\rm Cov}(X, Y)=0$


2.3. 두 확률변수의 선형결합

독립인 두 확률변수, $X$와 $Y$의 선형결합은 다음식으로 표현할 수 있습니다.

$$U=aX+bY$$

기대값의 식은

$${\rm E}[𝑈]=𝑎{\rm E}[𝑋]+𝑏{\rm E}[𝑌]$$

분산의 식은

$${\rm Var}[𝑈]=𝑎^2 {\rm Var}[𝑋]+𝑏^2{\rm Var}[𝑌]+2𝑎𝑏{\rm Cov}(𝑋,𝑌)$$

여기서,  확률변수 $X$와 $Y$가 독립이면 ${\rm Cov}(X,Y)=0$

$𝑋=𝑋_1+𝑋_2+\cdots+𝑋_𝑛$이며, $𝑋_1,𝑋_2,\cdots,𝑋_𝑛$가 서로 독립이라면 기대값의 식은

$${\rm E}[X]={\rm E}[X_1]+{\rm E}[X_2]+\cdots+{\rm E}[X_n]$$

$𝑋=𝑋_1+𝑋_2+\cdots+𝑋_𝑛$이며, $𝑋_1,𝑋_2,\cdots,𝑋_𝑛$가 서로 독립이라면 분산의 식은

$${\rm Var}[X]={\rm Var}[X_1]+{\rm Var}[X_2]+\cdots+{\rm Var}[X_n]$$

$𝑋=𝑋_1+𝑋_2+\cdots+𝑋_𝑛$이며, $𝑋_1,𝑋_2,\cdots,𝑋_𝑛$가 서로 독립이라면 공분산의 식은

$${\rm Cov}(X_i, X_j)=0$$


2.4. 두 확률변수의 상관계수

상관계수(correlation coefficient)는 두 연속형 변수의 선형관계를 나타내는 것 이외에 확률변수 $X$의 증감에 따른 확률변수 $Y$의 증감 정도를 나타내는 측도로도 사용할 수 있습니다. 그리고 상관계수는 두 확률변수의 선형결합에서의 계수비이므로 두 확률변수의 단위가 소거됩니다. 따라서 상관계수는 단위에 민감한 공분산의 문제점을 해결할 수 있습니다. 피어슨 상관계수는 다음과 같습니다.

$$\rho_{X,Y}=\dfrac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var} [X]}\sqrt{{\rm Var}[Y]}}$$

여기서,  $-1 \leq \rho_{X,Y} \leq 1$

$\rho_{X,Y}$는 단위가 없는 값

상관계수는 ${\rm Cov}(X,Y)$를 각각의 표준편차인$\sqrt{{\rm Var}[X]}$와 $\sqrt{{\rm Var}[X]}$로 나눈 값입니다. 따라서 -1과 1 사이의 값을 가지고 단위에 민감한 공분산과 달리 단위가 없습니다. $\rho_{(X,Y)}$가 각각 1과 -1인 경우는 $ X$와 $Y$가 완벽한 상관을 이루는 경우입니다. 나머지 영역은 상관은 다음과 같이 분류할 수 있습니다.

정비례상관

$$0 \lt \rho_{(X,Y)} \lt 1$$

무상관

무상관은 서로 정보에 대해서 아무런 공유가 없다는 의미입니다.

$$\rho_{(X,Y)}=0$$

반비례상관

$$−1 \lt \rho_{(X,Y)} \lt 0$$

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

 

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

 

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

 

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

 

Reference

Random variable – Wikipedia



연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

 

Reference

Continuous or discrete variable – Wikipedia



상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

 

Reference

Correlation and dependence – Wikipedia



확률실험 ?
Random Experiment ?

1. 애니메이션

1.1. 애니메이션 제목


2. 설명

2.1. 확률실험

2.2. 집합의 연산으로 사건을 표현

2.3. 사건간의 관계

2.4. 설명강의


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참조

1. 애니메이션



주사위 두개를 던져서 합을 구하는 확률실험과 히스토그램

2. 설명

2.1. 확률실험(Random Experiment)

확률실험은 동일한 조건으로 실험을 반복하더라도 그 실험의 결과가 임의의 형태로 나타나는 특징을 갖는 실험입니다. 따라서 확률실험의 결과는 결과와 그에 따른 확률로 표현하게 됩니다. 예를 들면, 동전 던지기, 주사위 굴리기, 갈톤보드실험, 키와 몸무게 관측 등이 있습니다.

표본공간(Sample Space)

표본공간은 확률실험의 모든 발생 가능한 결과들의 집합입니다. 주로 대문자 “S”로 표기합니다. 동전 던지기, 주사위, 키 관측의 확률실험에 대한 표본공간($S$)은 다음과 같습니다.

 

동전 던지기 확률실험의 결과인 표본공간

$$S=\{H,T\}$$

주사위 굴리기 확률실험의 결과인 표본공간

$$S=\{1,2,3,4,5,6\}$$

성인남성 키 관측 확률실험의 결과인 표본공간

$$S=\{x:110 \leq x \leq 190 (cm)\}$$

사건(事件, 사상, 事象, Event)

사건은 확률실험에서 관심이 있는 실험결과들만의 집합입니다. 따라서, 사건은 표본공간의 부분집합입니다. 사건의 표기는 대문자 알파벳(A, B, C, …)으로 합니다. 확률실험과 표본공간과 사건의 예는 다음과 같습니다.

 

주사위 던지기 확률실험의 결과인 표본공간

$$S =\{1, 2, 3, 4, 5, 6\}$$

주사위 던지기 확률실험의 결과가 짝수인 사건

$$A=\{2, 4, 6\}$$

주사위 던지기 확률실험의 결과가 홀수인 사건

$$B=\{1, 3, 5\}$$

주사위 던지기 확률실험의 결과가 4 이상인 사건

$$C=\{4, 5, 6\}$$


2.2. 집합의 연산으로 사건을 표현

사건은 사건의 결과의 집합으로 표현할 수 있습니다. 그리고 집합의 연산으로도 사건을 다음과 같이 표현할 수 있습니다.

합사건(合事件, Sum event)

사건 A와 B의 합집합($A \cup B$)으로 표현합니다. U는 union에서 따온 철자입니다. 다시말하면, 합사건은 사건A 또는 사건 B의 결과인 원소들의 집합으로 표현됩니다. 이때 사건 A에도 있고 사건 B에도 있는 원소는 한 번만 기입합니다.

$$A \cup B$$

곱사건(Product event)

사건 A와 B의 교집합($A \cap B$)으로 표현합니다.  A Interaction B 또는 A and B 라고도 표기하며 간단하게는 AB 라고 표기합니다. 곱사건은 사건 A의 결과이고 사건 B의 결과이기도 한 원소들의 집합으로 표현합니다.

$$A \cap B$$

여사건(餘事件, Complementary event)

사건 C의 여사건은 사건 C의 여집합 ($C^{\prime}$)으로 표현합니다. 표본공간에서 사건 C의 원소만 제외한 원소들로 표현합니다.

$$C^{\prime}$$

공사건(空事件, Empty event)

어떤 결과도 없는 사건은 공집합을 나타내는 기호인  $\phi$(파이)로 표기합니다.  공집합은 원소가 없는 집합입니다.

공집합과 “0”을 원소로 가지는 집합인 {0}은 다르므로 반드시 구별하여야 합니다.

$$\phi$$

전사건(全事件, Total event)

전사건은 확률실험에서 일어날 수 있는 모든 사건입니다. 예를 들면 ‘자연수를 임의로 골랐을 때 홀수 또는 짝수가 나올 사건’ 입니다. 전사건이 일어날 확률은 1이며, 전사건의 여사건은 공사건입니다. 전체집합으로 표현됩니다.

영사건(零事件, Null event)

사건결과가 있지만 일어날 확률이 0인 사건입니다. 영사건의 예로는 무작위로 선택되는 $0 \leq x \leq 1$인 임의의 실수 $x$가 무엇인지 맞추는 사건, 실수 전체에서 유리수를 뽑는 사건 등이 있습니다.  확률밀도함수에서 특정 실수 확률변수값에의 확률이 0인 것과 같은 예입니다. 영사건은 공사건과 같아 보이지만 공사건은 영사건의 부분집합입니다. 즉, 공사건은 영사건이지만 영사건이라고 해서 반드시 공사건이 되는 것은 아닙니다.

배반사건(排反事件, Exclusive event)

두 개의 사건이 동시에 일어날 수 없으면 그 두 사건은 서로 배반사건입니다.배반사건들은 한 사건이 일어날 때 다른 사건이 절대 일어나지 않는 관계입니다.  서로 “직교(orthogonal)” 또는 “서로 소”라고도 표현합니다.


2.3. 사건간의 관계

표본공간의 부분집합으로 여러개의 사건이 있을 때 그 사건들간에는 상호 배타관계, 포괄관계, 표본공간을 분할하는 관계 등이 있습니다.

상호배타(Mutually Exclusive)관계

두 집합의 교집합이 공집합이면 이 두 집합은 상호 배타적인 관계라고 합니다.

$$A \cap B=\phi$$

둘 이상의 대상 사이에서 각각 상호 베타적인(Exclusive)인 경우입니다. 예를 들어, 한 사건의 뱔생이 다른 사건들의 발생을 차단한다면 그 사건들은 상호 배타적입니다.

상호포괄(Collectively Exhaustive) 관계

사건 A와 사건 B의 합집합이 표본공간이면 상호포괄관계입니다.

$$A \cup B=S$$

표본공간을 분할(Partition)하는 관계

여러 개의 사건이 상호배반(背反)관계와 동시에 상호포괄관계를 갖는 경우입니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차


4. 참조

4.1 용어


표본공간(sample space)

확률이론에서 무작위 실험의 표본공간 (표본표현공간, 이벤트공간 또는 가능성공간이라고도 함)은 실험의 가능한 모든 결과 또는 결과의 집합입니다. 표본공간은 일반적으로 집합 표기법을 사용하여 표시되며 가능한 결과가 집합의 요소로 나열됩니다. 표본공간을 S, Ω 또는 U레이블로 나타내는 것이 일반적입니다 (일반적인 집합의 경우).

예를 들어, 실험에서 동전을 던지면 표본공간은 일반적으로 집합기호로 표시되며 {앞면, 뒷면}입니다. 두 개의 동전을 던지기에 대응하는 표본공간은 {(앞면, 앞면), (앞면, 뒷면), (뒷면, 앞면), (뒷면, 뒷면)} 또는 일반적으로 기호를 사용하여 {HH, HT, TH, TT}로 표현됩니다. 표본공간에서 순서를 무시하면 {(앞면, 뒷면), (앞면, 뒷면), (뒷면, 뒷면)}이됩니다. 하나의 6 면체 주사위를 던지기에 대응하는 일반적인 표본공간은 {1, 2, 3, 4, 5, 6}입니다(주사위 던지기 시행의 결과인 사건은 주사위의 위로 향한 면에 적혀있는 수입니다). 잘 정의된 표본공간은 확률모델(확률공간)의 세 가지 기본 요소 중 하나입니다. 다른 두 가지는 가능한 시행(event : $\sigma$대수)과 각 시행의 결과(사건)에 할당된 확률(확률측정함수 : 확률질량함수 또는 확률밀도함수)입니다.

 

Reference

Sample space – Wikipedia



주사위 던지기의 확률변수 ?

1. 애니메이션

1.1. 주사위 던지기


2. 설명

2.1. 주사위 던지기의 확률변수

2.2. 설명강의


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



주사위 던지기

2. 설명

2.1 주사위 던지기의 확률변수

12면 주사위는 확률변수값이 12개입니다. 여기서도 주사위를 던진다는 시행(Trial)이 전제되어야 사건(Event)이 발생하고 확률이 존재합니다.

 

확률변수(Random Variable,  Stochastic Variable, 確率變數)를 나타내는 기호로는 알파벳 대문자를 사용합니다.

 

$X$

 

확률변수의 값(Value of random variable)은 확률변수에서 사용한 알파벳의 소문자를 사용합니다. 그리고 구분자는 아래첨자를 사용하기도 합니다.

 

$x_1, x_2, x_3$, …

 

확률변수는 다음과 같이 설명할 수도 있습니다.

 

확률을 가지는 변수

시행(Trial)을 해서 어떤 사건이 나타났는지 보면  값이 정해지는 변수

시행을 많이 해서 평균을 구하면 어떤 값, 즉 기대값에 수렴하는 변수

 

특별히 범주형 확률변수의 예를 들면 다음이 같은 것들이 있습니다.

동전의 확률변수값 : 앞면, 뒷면

6면 주사위의 확률변수값 : 1면,2면,3면,4면,5면,6면

12면 주사위의 확률변수값  : 1면,2면,3면,4면,5면,6면,7면,8면,9면,10면,11면,12면

과녁의 확률변수명 : 노랑, 빨강, 파랑, 검정

 

시행(Trial)의 결과를 사건(Event)이라하고 시행의 결과는 확률변수와 대응될 수 있습니다. 시행의 결과(Sample)가 시행공간(Sample space)안에 항상 존재한다면 그 변수는 확률을 가질 수 있는 변수, 즉 확률변수(Random variable)입니다. 확률변수가 가지는 확률값의 합은 1이거나 100%입니다.

 

확률변수의 예와 관측에 사용되는 척도를 살펴보면 동전던지기라는 시행으로 생성된 시행공간은 동전의 앞면과 뒷면입니다. 이 시행공간을 확률변수로 대응한다면 범주형 확률변수입니다. 그리고 척도로는 명목척도가 사용됩니다. 주사위도 마찬가지로 6면을 1에서 6까의 숫자로 표시하였을 때 주사위 던지기라는 시행에서 시행공간은 1, 2, 3, 4, 5, 6의 숫자이며 이는 바로 확률변수값이 됩니다. 그리고 이 확률변수는 수치형중에서 연속형이 아닌 이산형 확률변수입니다. 그리고 척도로는 수식계산이 가능한 간격척도가 사용됩니다.


2.2. 설명강의

– 준비 중


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 준비 중


4. 참조

4.1 용어


확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

 

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

 

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

 

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

 

Reference

Random variable – Wikipedia



시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면,  2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

 

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

 

Reference

Experiment (probability theory) – Wikipedia



4.2. 참고문헌


활쏘기의 확률변수 ?

1. 애니메이션

1.1. 이산형 확률변수

1.2. 연속형 확률변수

1.3. 이산형 확률변수와 연속형 확률변수


2. 설명

2.1. 활쏘기의 확률변수


3. 용어

3.1. 용어

1. 애니메이션



이산형 확률변수




연속형 확률변수




이산형 확률변수와 연속형 확률변수

2. 설명

2.1 활쏘기의 확률변수

궁수가 과녁 정중앙을 겨누고 천발의 화살을 쏩니다. 과녁에 꽂힌 1000발의 화살의 분포는 궁수의 실력을 나타낸다고 할 수 있습니다. 궁수의 실력을 숫자로 나타내기 위해 과녁을 점수판으로 만듭니다. 궁수는 활쏘기 시행(Event)에서 10점, 8점, 6점, 4점, 0점중에서 반드시 한개를 취득하게 됩니다. 그래서 점수를 확률변수로 하고 확률분포를 보면 는 궁수의 실력을 알 수 있습니다. 그래서 확률(Probability)을 과녁(Stochastic)이라고도  표현합니다.

 

활쏘기를 시행하고 나온 점수로 도수분포도(Frequency Chart)를 그려 봅니다. 애니메이션에 나온 궁수는 8점의 빈도수가 제일 높은 도수분포를 나타내고 있습니다. 그리고 궁수의 실력을 나타내는 도수분포도를 그려서 확률질량함수를 추정해 볼 수 있습니다.

 

만일,  과녁의 중앙점에서 화살이 꽂힌 거리를 연속형 확률변수로 하여 상당히 많은 횟수(예를 들면 만 번)를 쏘아서 도수분포도를 그려서 확률밀도함수를 추정해 볼 수 있습니다. 이를 궁수의 실력을 나타내는 통계라고 할 수 있습니다 그리고 궁수의 실력을 정확하게 평가하기 위해서는 과녁의 크기와 간격, 그리고 점수값을 잘 정해야 할 것입니다.

 

이산형 확률변수와 연속형 확률변수를 비교해 봅니다. 이산형 확률변수(discrete variable)는 이어지지 않습니다. 이산확률변수값을 확률질량함수에 대입하면 확률을 구할 수 있습니다. 연속향 확률변수(continuous variable)는 이어집니다. 따라서 확률을 구할 때는 확률변수 구간을 확률밀도함수에 적용하여 면적을 구해 확률을 구합니다. 즉,  구간에 걸쳐 확률밀도를 적분한 면적이 그 구간의 확률이 됩니다. 아래 표에는 이산형 확률변수와 연속형 확률변수의 특징을 나타내었습니다.

 

이산형 확률변수와 연속형 확률변수 비교

 특성 이산형 확률변수 연속형 확률변수
확률변수값의 개수 셀 수 있음 셀 수 없음.
확률변수값 사이에서 존재하는 값의 개수 유한개 무한개
확률변수의 통계적 의미 확률변수에 대응하는 확률값이 존재 확률변수에서의 확률값은 0 (확률은 확률변수의 구간에서 나타남)
확률 구하기 확률변수에서의 확률질량함수값 구간의 양 끝의 두 확률변수에 대응하는 누적분포함수값의 차
확률표현식

$P(X)$

$p(a≤X≤b)$

확률시각화 막대그래프로 표현  히스토그램 또는 곡선형의 연속그래프로 표현
확률정의 막대길이의 총합은 1 구간에서의 그래프의 적분면적의 총합은 1
확률분포를 표현하는 함수 확률질량함수, 누적분포함수 확률밀도함수, 누적분포함수

3. 용어

3.1 용어


연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

 

Reference

Continuous or discrete variable – Wikipedia



확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

 

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

 

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

 

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

 

Reference

Random variable – Wikipedia


분위수-분위수 그림 ?
Q-Q plot ?

1. 애니메이션

1.1. Q-Q plot


2. 설명

2.1. 분위와 분위수(quantile)

2.2. Q-Q plot


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



Q-Q plot

2. 설명

2.1. 분위(分位)와 분위수(分位数, quantile)

분위는 순서가 있는 확률변수값(표본에서는 데이터)을 같은 확률질량(표본에서는 개체수)로 나누어 만든 범위(위치가 있는 범주)입니다. 분위는 위치에 따른 순서가 있고 그 순서는 분위 앞의 자연수로 나타냅니다. 예를 들어 4개의 분위의 순서는 1분위, 2분위, 3분위, 4분위로 표현합니다. 그리고 분위수는 각 분위의 위치를 나타내는 실수입니다. 예를 들어 1분위수, 2분위수, 3분위수, 4분위수가 있습니다. 정리하면 분위수는 같은 확률질량을 가지는 분위의 대표값이라고 할 수 있습니다.

백분위수(百分位数)와 데이터 분포

분위수에는 대표적으로 사분위수(四分位数, quartile)와 백분위수(百分位数, percentile)가 있습니다. 사분위는 4개의 분위이며 각 분위에 있는 데이터의 개수의 비율은 전체 데이터 개수의 25%로 같습니다. 백분위의 경우에는 100개의 분위이며 각 분위에 존재하는 데이터의 개수는 전체 데이터 개수의 1%로 모두 같습니다. 표준정규분포에 백분위를 적용하면 백분위수를 계산할 수 있습니다. 표준정규분포의 백분위수는 Z-score 라고도 합니다.

모집단의 분위와 분위수

모집단분포는 정규분포로 모델링하는 경우가 많습니다. 따라서 모집단의 분위와 분위수는 정규분포로부터 계산됩니다. 정규분포는 계산의 편의를 위해 표준정규분포로 변환됩니다. 무한의 개체수를 가지고 연속형 확률변수로 표현되는 모집단에서 분위의 개수는 유한개로 모델링됩니다. 그리고 각 분위는 같은 확률(확률질량)을 가집니다. 각 분위의 분위수(quantile)는 각 분위의 확률변수값의 평균입니다.

표본의 분위와 분위수

분위의 개수에 비해 표본크기가 충분히 큰 경우는 관측한 확률변수값(데이터)을 오름차순이나 내림차순으로 나열하고 같은 데이터 개수를 가지도록 범위(순서를 가진 범주)를 생성합니다. 이 때 확률변수값의 각 범위를 분위라 하며 분위는 위치를 가지게 되는 데 이 위치를 실수로 나타내면 분위수(分位数)가 됩니다.

예) 표본크기(표본을 이루는 개체의 수)가 400인 표본의 백분위수(百分位数, percentile)

1. 데이터를 오름차순으로 정리

2. 데이터를 4개씩 묶어 100개의 분위를 생성 : 1분위, 2분위, … , 100분위

3. 각 분위의 산술평균을 구하여 표본의 백분위수를 각 분위의 산술평균으로 구함 :  1분위수, 2분위수, … , 100분위수

분위의 개수보다 표본크기가 작은 경우 (예를 들면 백분위인 데 표본크기는 20인 경우)는 표본분포를 정규분포로 가정하고 구간을 만듭니다. 여기서 구간의 수는 분위의 개수를 의미합니다. 표본의 분포를 정규분포로 모델링하여 확률분포의 매개변수(모수)를 구하면 같은 확률(개체의 수)을 가지는 구간(분위)을 생성할 수 있습니다. 예를 들어 표준정규분포를 100분위로 나눈다면 각 분위의 분위수를 계산할 수 있습니다. 그리고 표본의 데이터가 어느 분위에 속하는 지를 분위의 구간으로 알 수 있습니다.

예) 표본크기가 20인 표본의 백분위수 : 정규분포의 백분위수로 모델링

1. 표본분포를 정규분포로 가정

2. 정규분포의 매개변수(표본평균과 표본분산)를 표본데이터로 부터 계산

3. 표본분포를 표준정규분포로 변환

4. 데이터를 오름차순으로 정리하고 어는 분위에 속하는 지 판정

표준정규분포 분위의 분위수와 그 분위에 속한 데이터 비교 : Q-Q plot

분위수의 계산의 편의성을 위해 정규분포를 표준정규분포로 변환합니다. 표준정규분포는 각 분위의 분위수를 알 수 있고 표본의 데이터는 어느 분위에 속하는 지 알 수 있습니다. 따라서 표본의 데이터가 속한 분위에서 분위수와 데이터(확률변수 관측값)를 비교할 수 있습니다. 표준정규분포의 각 분위의 분위수와 그 분위에 속한 데이터값의 비교를 2차원 직교좌표계에서 시각화한 것이 Q-Q plot 입니다.


2.2. Q-Q plot의 활용

Q-Q plot (Quantile-Quantile plot)을 그대로 번역하면 “분위수 – 분위수  그림”입니다.

추론통계에서 가설의 검정방법을 결정함에 있어 먼저 모집단이 정규분포를 나타낸다는 가정을 합니다. 모집단의 정규분포 가정은 표본 데이터의 정규성검정을 통해 검정됩니다. 정규성검정을 하는 방법 중에서 데이터시각화 방법으로 Q-Q plot이 있습니다.  Q-Q plot은 여러 프로그램(Goolge sheet, R등)을 이용하여 그릴 수 있습니다.

 Q-Q plot으로 표본 데이터의 정규성검정

표준정규분포와 표본데이터의 분포를 비교하기 위해서 Q-Q plot을 사용하면 직관적이고 시각적인 정규성검정이 가능합니다. Q-Q plot은 2차원 직교좌표계에서 점(Point)로 표현합니다. 가로축은 표준정규분포의 백분위수인 Z score 를 나타내는 실수축입니다.  세로축은 백분위에 속하는 데이터(확률변수의 관측값)를 나타내는 실수축입니다. 표본을 이루는 개체를 나타내는 점을 좌표(X, Y)로 표현하면 개체가 속하는 분위의 분위수가 X좌표의 값이고 표본 데이터가 Y좌표의 값이 됩니다. 만일 표본이 표준정규분포를 따른다면 점들은 직선($y=x$)상에 위치하게 됩니다. 이 경우에 Q-Q plot에서 데이터가 정규분포를 따르는 구간을 직관적으로 알 수 있는 큰 장점이 있습니다.

Q-Q plot으로 두 데이터 분포를 비교

Q-Q plot은 X축에 비교의 기준이 되는 분포의 분위를 생성합니다. 그리고 분위의 평균이 분위수(quantile)가 됩니다. 비교의 대상이 되는 데이터의 분포는 Y축에 나타냅니다. 기준이 되는 데이터 분포의 분위수와 그 분위에 속한 데이터를 좌표로 하는 점을 그립니다. 이 때 점의 수는 비교 대상이 되는 데이터의 수와 같습니다. 점이 같은 직선(Y=X)상에 위치하는 구간은 두 분포가 같다고 할 수 있고 두 분포의 차이는 직선에서 멀어지는 모양으로 나타납니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


Q-Q Plot : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B22,1,TRUE) : 데이터정렬. B3와 B22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

=COUNT(E3:E22) : 데이터개수. E3와 E22 범위에 있는 숫자형 데이터들의 개수.

=NORM.S.INV(F3) : 표준정규분포의 확률변수. F3를 누적확률밀도로 가지는 표준정규분포 상에서의 확률변수(표준정규분포 가로축의 값).

=NORMDIST(L3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1인 정규분포, 즉 표준정규분포 상에서 L3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산함.


3.3. 실습강의

– 데이터

– 데이터정렬

– 백분위수

– Z Score

– Q-Q plot

– 실습 안내


4. 참조

4.1. 용어


Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선($y = x$)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선($y = x$)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

Reference

Q-Q plot – Wikipedia


가설 ?

1. 애니메이션

1.1. 연역법과 귀납법


2. 설명

2.1. 가설

2.2. 연구가설

2.3. 설명강의


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



연역법과 귀납법


2. 설명

2.1. 가설(hypothesis)

가설(hypothesis) 아이디어이고 잠재적 진실입니다.  가설이 진실이 되었을 때의 가치가 크다면 가설을 검정하고자 하는 욕구가 강할 것입니다. 가설의 수립은 관심의 대상을 변수로 정함으로 시작합니다.

 

변수(variables)

 

가설에서 사용하는 변수에는  가지 유형이 있습니다 번째 유형은 독립변수(independent variable)서 실험을 수행하는 동안 조절합니다. 다른 말로는 원인, 설명, 요인, 인자(factor), 처리(treatment), 중재(intervention)등이 있습니다. 번째 유형은 종속변수(dependent variable)로서 다른 말로는 결과, 반응. 효과 등이 있습니다. 일반적으로 가설 독립변수가 종속변수에 영향을 미치는 것을 “만일 ~면 ~이다”로 표현하는 구조를 가집니다.

 

가설의 유형

 

변수간의 관계에 따른 유형

 

– 변수간에 관계가 없는 경우 : 귀무가설($H_0$, null hypothesis) 변수 간에 무관함을 설명하기 때문에 귀무가설이라고 하며 다른 말로는 영가설이라고 합니다. 연구자들은 연구를 수행하여 기존의 질서인 귀무가설을  기각하고 귀무가설과 대립하는 연구가설을 채택하려고 합니다.  귀무가설은 증명할 수 없으며 기각만 가능합니다.  귀무가설로 변수 사이에 관계가 없다는 것을 밝히는 것만으로도 충분한 연구가치가 있는 경우가 많습니다. 즉, 귀무가설을 기각하지 못하여 대립가설로 넘어가지 못하더라도 귀무가설 기각의 연구결과만으로도 그 후의 연구에 중요한 자료가 될 수 있습니다.

– 변수간에 관계가 있는 경우 : 대립가설($H_1$)은 귀무가설의 반대입니다. 연구자들이 귀무가설을 기각하려는 연구를 주로 수행하기 때문에 대립가설은 연구가설과 같은 의미로 많이 사용됩니다.  실험을 설계할 때, 신뢰할  있는 연구결과를 얻기 위해 귀무가설과 대립가설을 함께 고려합니다. 그리고  100% 신뢰도로 대립가설을 증명할 수 없기 때문에 근사값으로 대립가설을 증명합니다. 따라서 대립가설을 증명하기 전에 귀무가설의 기각을 먼저 수행하여야 합니다. 

 

연구방법에 따른 유형

 

– 양적연구 : 통계적 가설 (statistical hypothesis)은 수집한 데이터로 검증할 수 있는 가설입니다.

– 질적연구 : 논리적 가설(logical hypothesis)은 변 간의 관계를 설명하기 위해 논리를 사용합니다. 하지만 관계를 설명하기 위한 데이터는 수집할  없는 경우입니다.

 

변수의 개수에 따른 유형

 

– 변수가 2개 : 단순 가설 (simple hypothesis) 입니다. 하나는 독립 변수이고 다른 하나는 종속 변수

– 변수가 3개 이상 : 복합 가설 (complex hypothesis)입니다. 3 이상의 변수를 포함합니다

 

가설 수립 시 고려할 점

 

– 변수의 명확성

– 변수 관계의 명확성 : 원인과 결과 등

– 검정방법의 윤리성

– 검정 가능성

– 간결한 언어


2.2. 연구가설(Research hypothesis)

연구가설이란 질문에 대해  예측한 답을 서술한 것이라고 볼 수 있습니다.  가설은 연구가치가 있는 질문을 작성하는 것으로 시작합니다. 가설수립의 초단계에서는 정확성을 추구하기 보다는 질문과 그 답의 가치를 검토하는 것이 중요합니다. 그리고 자연 또는 사회에 대한 관찰이 아닌  검증된 이론에서 도출해내거나 이전 연구결과를 기반으로 연구가설을 세울 수 있습니다.

 

연구가설 형식

 

연구가설은 문제 정리, 해결방안 설명 그리고 판정기준을 포함한 결과예측으로 구성됩니다. 

 

문제 정리 > 해결방안 설명 > 결과예측(판정기준 포함)

 

연구가설을 원인과 결과로 표현할 수도 있습니다. 부가적으로 원인과 결과를 설명하는 이론에 대한 설명이 있을 수 있습니다.

 

원인 > 효과

 

가설을 세우기 전, 충분한 시간을 들여 문헌검토를 해야 합니다. 더 나아가 인터뷰도 필요할 수가 있습니다.

 

연구가설의 단계적 수립

 

1) 가능한 많은 자료를 수집하고 가질 수 있는 문제를 정리

2) 몇 가지  예비가설을 세운 후 예비실험을 통해 각 가설을 확인

3) 가설을 정한 후 설명 목록을 작성

 

연구가설 체크리스트

 

– 연구주제와의 밀접성 : 연구주제와의 관계를 명확히 설명할 수 있는가

– 검정가능성 : 검정할 수있는 방법이 있는가

– 재현성 : 검정결과를 재현할 수 있는가

– 포함된 변수의 정확성 : 독립변수와 종속변수가 모두 포함되어 있는가

– 간결성 : 더 줄일 수 있는가

– 윤리적 기준에 따라 포함된 변수를 조정하고 관측할 수 있는가

– 윤리적 기준을 위반하지 않고 검증할 수 있는가


2.3. 설명강의



3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다. 


가설 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(N3,O3) : t분포 상에서 확률변수의 양측 확률밀도. N3 확률변수에 대해 O3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.

=T.INV(1-(S3/T3),O3) : 확률밀도에 해당하는 확률변수를 구함. O3 값을 자유도로 가지는 t분포 상에서 1-(S3/T3) 값을 누적확률밀도로 가지는 확률변수 값을 표시함.

=IF(R3>U3,”YES”,”NO”) : 조건문, R3의 값이 U3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.


3.3. 실습강의

– 가설

– 확률변수

– 가설검정

– 실습 안내



4. 용어와 수식

4.1 용어


가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다.  “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다. 

 

Reference

Hypothesis – Wikipedia

연구-논문 계획서 ?


2. 설명

2.1 연구계획서

2.2 연구계획서 예시


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션



연구계획서 – 데이터사이언스 – 논문


2. 설명

연구계획서

연구주제(Research subject)

 

연구주제의 서술시 가설(hypothesis)과 그에 따른 변수의 설명을 명확하게 합니다. 연구필요성은 연구결과로 기대되는 가치를 서술하며 연구윤리와 연구수행의 타당성을 함께 고려합니다. 연구주제는 연구질문과 그에 대한 예상 답변으로 표현할 수 있습니다.

 

연구방법(Research method)

 

연구주제의 해결을 위한 연구방법에 대하여 구체적인 설명을 합니다. 

1)  연구대상

연구대상인 집단의 대표할 수 있는 표본을 추출합니다.

 

2)  데이터수집

데이터수집 방법, 실험설계, 관측도구의 신뢰도 등을 서술합니다.

 

3)  데이터분석

데이터의 구조를 설명하고 사용한 데이터분석 방법에 대하여 서술합니다. 데이터는 특정 데이터분석 방법을 적용하기 위하여 왜곡되어져서는 안됩니다. 즉, 데이터분석 방법보다는  연구목적과 그에 따른 데이터신뢰성의 지속이 중요합니다.


연구계획서(Research proposal) 예시


연구계획서 – 논문

Ⅰ. 연구의 목적

Ⅱ. 연구의 범위 및 방법 

1. 연구의 범위 
2. 연구의 방법 

Ⅲ. 이론적 배경 

Ⅳ. 연구모형 

Ⅴ. 연구가설 설정 

Ⅵ. 논문의 목차 

Ⅶ. 연구진행개요 

[참 고 문 헌] 


연구계획서 – 학위논문

I. 논문의 잠정적 제목

Proposed Title

II. 연구주제의 진술과 설명

Statement and Explanation of the Thesis

III. 연구주제의 배경과 중요성

Background Contexts and Significance of the Subject

IV. 선행연구들의 소개와 평가

Research History and Its Evaluation

V. 연구의 범위, 수준, 용도

Scope, Level, and Contribution of the Study

VI. 연구방법론

Methodology

VII. 논문의 잠정적 목차

Proposed Outline of the  Dissertation

VIII. 주요 참고문헌

Selected Bibliography


논문계획서

Ⅰ. 논문제목

Ⅱ. 연구 목적 및 필요성

Ⅲ. 연구방법

Ⅳ. 논문의 목차 

[참 고 문 헌] 


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 


논문 연구계획서: 구글시트 실습

3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(O3,N3) : t분포 상에서 확률변수의 양측 확률밀도. O3 확률변수에 대해 N3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.


3.3. 실습강의

– 연구주제

– 확률변수

– 데이터분석

 실습 안내