분포를 보고 선택하기

선택의 기준으로서의 분포

분포의 큼과 작음이 선택의 기준이 될 수 있을까?


대표값과 분포

예를 들어, 다음의 가정을 가지고, 두 다른 품종의 딸기를 비교해서 하나를 선택한다고 해보겠습니다.

당도가 높은 딸기를 좋아합니다.

당도가 아주 높은 딸기와 아주 낮은 딸기가 섞여 있으면, 오히려 실망스럽습니다.

따라서, 당도가 높으면서도 일관된 딸기를 좋아합니다.

두 품종의 딸기의 당도의 대표값과 분포를 보도록 하겠습니다.


당도 데이터 정리

딸기의 당도 데이터를 수집해서, 비교하기 쉽게 정리합니다.





딸기데이터

당도의 분포를 시각화

딸기의 20알의 당도 데이터를 도수분포표와 막대그래프를 이용해서 시각화해보았습니다.

막대그래프의 X축은 당도 구간의 중앙값이고, Y축의 해당 구간의 딸기의 개수입니다. 중요한 것은 당도 구간이 우리 인간이 당도를 느끼는 정도를 얼마나 잘 반영하는가입니다.



12월 25일 출하한 두 품종의 당도 분포

12월 25일에 두 품종의 딸기 당도 데이터로 도수분포 막대그래프를 그려보았습니다. 당연히 오른쪽에 위치한 딸기 품종을 선택할 것입니다.



3월 25일 출하된 두 품종의 당도 분포

이번에는 3월 25일에 두 품종의 딸기 당도 데이터로 도수분포 막대그래프를 그려보았습니다.



3월 25일 출하한 딸기중에서는 어떤 품종을 선택할까요?

지금까지, 9월 첫째주 Open Question입니다. 다음 주에 뵙겠습니다.

표본분산을 모집단의 분산이라고 말할 수 있을까?

표본분산이 포함된 표본통계량


자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화


모집단의 분산과 표본분산의 비가 어느 구간사이에 있다고 표현할 수 있습니다.

모집단이 정규분포를 가지면 모집단의 분산과 표본분산의 비는 카이제곱이라는 확률분포를 가집니다.

또한 카이제곱확률분포는 표본의 크기에 관계된 자유도에 따라 정해집니다.

표본분산과 표본의 크기를 구하고 몇 % 신뢰할 것인지를 정하면 모집단의 분산이 위치하는 구간을 추정할 수 있습니다.


카이제곱분포 (chi-squared distribution)
정규분포를 따르는 모집단(평균 $\mu$, 분산 $\sigma^2$)에서 크기가 n인 표본을 무작위로 반복하여 추출하였을 때, 표본들의 평균은 정규분포를 나타내고 분산($S^2$)을 가집니다.
 
 
이때 다음과 같이 정의된 확률변수는 자유도 (n-1)인 카이제곱분포를 따릅니다.
 
 
χn12=n1S2σ2\chi_{n-1}^{2}={\dfrac{\left({n-1}\right)S^{2}}{\sigma^{2}}}
 
 
카이제곱 분포의 특성

항상 확률변수는 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다.
모수인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.

 
카이제곱분포를 사용한 카이제곱검정의 적용
모분산에 대한 추정과 검정
관측된 빈도수가 이론상의 분포 또는 형태를 얼마나 잘 따르는 지에 대한 검증
여러 집단 사이의 독립성 검정 (한 특성이 다른 특성에 영향을 미치는 가에 대한 검정)
 
 
 

Block "2953" not found

Block "2955" not found

Block "2958" not found

Block "2960" not found

Block "2962" not found

표본평균을 모집단의 평균이라고 말할 수 있을까?

 두 모집단의 확률분포와 추출한 표본들의 평균의 확률분포

모집단의 평균이 표본평균을 중심으로 어느 구간사이에 있다고 표현할 수 있습니다.

반대로 표본평균은 모집단의 평균을 중심으로 어느 구간사이에 있다고 표현할 수 있습니다.

위의 두 경우 모두, 모집단의 확률분포를 알고 몇 % 신뢰하는지를 정할 때 가능합니다.

모집단의 확률분포가 정규분포라고 가정한다면 모집단 표준편차를 알면 가능합니다.

모집단의 평균을 추정하기 위해서는 표본을 추출해서, 표본평균과 표본표준편차를 구합니다.

모집단으로부터 랜덤하게 뽑은 표본 1개로부터 표본평균과 표준편차를 구해서 표본평균들의 분포를 추정합니다.

이떄 표본평균들의 분포의 표준편차는 모집단의 표준편차를 표본의 크기의 제곱근으로 나눈 값으로 줄어듭니다. 그래서 표본평균의 분포는 모집단의 분포보다 더 뽀쪽해 집니다.

여기서 신뢰도를 정한다면 표본평균을 중심으로 모집단 평균이 어느 구간에 위치하는지를 나타낼 수 있습니다. 이 구간을 신뢰구간이라고 표현하는데, 일반적으로 95%, 99% 신뢰구간을 많이 사용합니다.

Block "2897" not found

Block "2934" not found

Block "2936" not found

자연상수e 와 정규분포

Natural exponential    $y=e^x$


Gaussian function    $y=e^{-x^2}$


표준정규분포 ${y=}{1\over \sqrt{2\pi}}e^{-{1\over 2}x^2}$

평균 $\mu$, 표준편차 $\sigma$를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수

$$f(X)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ -\infty\leq X\leq+\infty$$


자연상수 e

곱의 기준은 1입니다.

1은 자신을 x번 곱해도 자신이 됩니다. 

1 × 1 × 1… = 1x = 1

그리고 모든 수는 0번 곱하면  1이 됩니다.

a0 = 1

그렇다면 자신을 곱해서 나오는 값을 자신이 증가하는 비율로 가지는 자신의 수가 있다면 무엇일까요?

바로 자연상수 $e$입니다

e = 2.718… 인 무리수입니다.

지수함수 ex

e를 x번 곱해서 나오는 함수 ⇒ e × e × e…  ⇒ $e^x = y $

${dy\over dx} = e^x = y$

 

자연상수가 밑이 되는 지수함수를 살펴보면

$y=e^x$

x < 0 :

$y=(1/e)^{ㅣxㅣ}$

x = 0 :

$y=e^x= 1$

 x =1 :

$y=e^x = e $

정규분포

표준정규분포

$$y=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}$$

 

평균 $\mu$와 분산 $\sigma^{2}$ 를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수

$$f(X)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ -\infty\leq X\leq+\infty$$

표본의 도수분포도와 표본평균의 도수분포도의 관계는 ?

표본의 도수분포도



표본평균들의 분포


모집단으로부터 랜덤하게 추출된 표본들의 평균은 모집단의 평균으로 모이는 경향이 있습니다. 이를 중심극한정리라고 합니다.

표본의 분포에 상관없이 표본평균들의 분포는 중심극한정리에 의해 정규분포를 가집니다.

산점도와 도수분포도의 관계는 ?

산점도



도수분포표와 도수분포도



산점도로 표현하면 을 명확하게 표현할 수 있습니다.

하지만 겹쳐서 나타나서 분포를 표현하기는 어렵습니다.

 

도수분포도를 그리면 분포를 명확하게 시각화 할 수 있습니다.

하지만 을 정확하게 표현할 수 없습니다.

 

1차원 산점도에 대응하는 도수분포도는 2차원 그래프입니다. 따라서 도수분포도를 그릴 때는 구간을 정해야 하는 수고가 필요합니다.

공간과 점

1차원 직각좌표계


2차원 직각좌표계


3차원 직각좌표계


산점도(1차원)


산점도(2차원)


산점도(3차원)


평균


회귀선


회귀평면


딸기를 점(Point)으로 속성의 공간(Space)에 표현합니다.

딸기집단의 대표속성은 평균, 회귀선, 회귀평면으로 표현됩니다.

딸기 20알을 대표하는 숫자는 ?

으로 표현

과중 평균

산점도(1차원)와 평균


회귀선으로 표현

과중당도 회귀선

산점도(2차원)와 회귀선


회귀평면으로 표현

출하일 과중당도 회귀평면

산점도(3차원)와 회귀평면


딸기 한 알은 좌표계에서 한 점으로 표현됩니다

딸기 20알은 좌표계에서 20개 점으로 표현됩니다

딸기 20알은 평균회귀선회귀평면으로 대표됩니다.

딸기 20알을 20개의 점(Point)으로 표현한다면 ?

1개의 숫자로 표현되는 점(Point)

과중

산점도(1차원)


2개의 숫자로 표현되는 점(Point)

과중당도

산점도(2차원)


3개의 숫자로 표현되는 점(Point)

출하일 과중당도

산점도(3차원)


딸기 한 알은 좌표계에서 한 점으로 표현됩니다

그리고 그 한 점은 좌표값이 있습니다.

딸기 한 알을 숫자로 표현한다면 ?

1개의 숫자로 표현

과중으로 표현

1차원 직각좌표계


2개의 숫자로 표현

과중당도로 표현

2차원 직각좌표계


3개의 숫자로 표현

과중당도출하일로 표현

3차원 직각좌표계


딸기 한 알을 좌표계에서 한 점으로 표현