왜 편차제곱을 사용할까


왜 복잡하게, 편차가 아닌 편차제곱을 사용할까요?

편차를 각 ‘확률변수-평균’으로 정의한다면, 편차의 합은 항상 0이 되고, 평균도 0이 되어서 데이터가 평균으로부터 얼마만큼 퍼져있는지 정도를 알기 어렵습니다.

그럼, 편차 절대값을 사용하면 되지 않을까요?


다음 네 숫자의 사례로 살펴보겠습니다.

1, 2, 3, 4

 

네 숫자를 모두 더해서, 개수로 나누면 평균이 됩니다. 

평균은 2.5입니다.

 

만약, 미지의 수, x와 위의 네 숫자와의 차이의 절대값의 합을 최소로 하는 x를 구해보면 어떻게 될까요? 수식으로 표현하면 다음과 같습니다.

y=|1-x|+|2-x|+|3-x|+|4-x|

위의 식을 그래프로 표현하면 다음과 같습니다. 



y를 최소로 하는 x의 값은 2와 3 사이의 모든 숫자가 됩니다.


만약, 미지의 수, x와 위의 네 숫자와의 차이의 제곱의 합을 최소로 하는 x를 구해보면 어떻게 될까요? 수식으로 표현하면 다음과 같습니다.

$y=(1-x)^2+(2-x)^2+(3-x)^2+(4-x)^2$

위의 식을 그래프로 표현하면 다음과 같습니다. 



y의 값을 최소로 하는 x의 값은 2.5 하나이고, 평균과 같습니다.

 

만약, 현재 뿐만 아니라 미래에도 계속 생성되는 데이터로부터 평균을 찾아나간다면, 편차절대값보다 편차제곱을 사용하는 것이 효과적입니다.


마지막으로 다음의 식을 그래프로 표현해보겠습니다.

y=(1-x)+(2-x)+(3-x)+(4-x)



x의 값이 작아질수록, y의 값이 작아집니다. x의 값이 2.5일때, y의 값은 0이 됩니다.

1원은 1년 뒤 얼마가 될까?

만약, 1년 금리가 100%인 은행에 1원을 맡겼다가 1년 뒤에 찾으면, 2원이 됩니다.

1+e0



1년 금리가 100%인 은행에 1원을 맡겼다가, 6개월 뒤에 찾고, 다시 6개월을 맡기면 2.25원이 됩니다.

1년 동안 가만히 있다가 찾는 것보다 금액이 늘어났습니다.

1+e1/2



이번에는 3개월에 한 번씩 다시 맡겼더니, 약 2.44원이 되었습니다.


만약, 무한 번 찾아서 무한 번 다시 맡기면, 얼마가 될까요?

e1/n×e1/n…e1/n = e1 = e = 2.718…



2.718…인 무리수가 됩니다. 그리고 이 값은 자연상수(e)로 불리웁니다.

 

자연상수를 밑으로 둔 지수함수, y=e의 그래프를 그려봅니다. 

이 함수의 특징은 x에서의 함수값과 기울기가 같습니다.

 

맡긴금액(함수값)이 그 순간에서의 금리(기울기)와 같다면 어떻게 될까요?

그리고 단위(1원)을 맡기고 단위기간(1년)동안 위의 현상을 반복시켜 보면 1년뒤에 2.718… 원이 되는 함수그래프입니다.

 

이런 은행에 태어날때 1원을 맡기고 60년 후에 찾으면 얼마나 될까요? 우리 모두가 환갑에는 부자가 되겠네요. 


Natural exponential    y=ex

동전을 몇 번 던지면, 앞면이 나올 확률을 알 수 있는가

동전을 한 번 던졌는데, 앞면이 나왔습니다. 그럼, 동전을 던져서 앞면이 나올 확률은 100%라고 할 수 있을까요? 당연히 그럴 수 없습니다.


큰 수의 법칙 (대수의 법칙)


그런데 동전을 100번 던지면, 반 정도는 앞면이 나올 것이라고 누구라도 말할 수 있습니다. 심지어 당연히 확률이 50% 아니냐고 하시는 분도 있을 것입니다.


동전을 10,000번 던지면, 동전의 앞면이 4900번에서 5100번 사이에 나올 것이라고 95% 자신있게 말할 수도 있습니다.(통계를 공부하고 나서)

물론 5%는 빠져나갈 틈을 만들어 놓았습니다. 그리고 완벽히(?) 대칭인 동전인 경우입니다.


시행횟수와 관련하여 확실한 것은 보험회사는 계약자 수가 많을수록 데이터가 많아져서 미래의 사고 발생률도 보다 정확하게 예측할 수 있다는 것입니다. 빈익빈 부익부입니다.

분포를 보고 선택하기

선택의 기준으로서의 분포

분포의 큼과 작음이 선택의 기준이 될 수 있을까?


대표값과 분포

예를 들어, 다음의 가정을 가지고, 두 다른 품종의 딸기를 비교해서 하나를 선택한다고 해보겠습니다.

당도가 높은 딸기를 좋아합니다.

당도가 아주 높은 딸기와 아주 낮은 딸기가 섞여 있으면, 오히려 실망스럽습니다.

따라서, 당도가 높으면서도 일관된 딸기를 좋아합니다.

두 품종의 딸기의 당도의 대표값과 분포를 보도록 하겠습니다.


당도 데이터 정리

딸기의 당도 데이터를 수집해서, 비교하기 쉽게 정리합니다.





딸기데이터

당도의 분포를 시각화

딸기의 20알의 당도 데이터를 도수분포표와 막대그래프를 이용해서 시각화해보았습니다.

막대그래프의 X축은 당도 구간의 중앙값이고, Y축의 해당 구간의 딸기의 개수입니다. 중요한 것은 당도 구간이 우리 인간이 당도를 느끼는 정도를 얼마나 잘 반영하는가입니다.



12월 25일 출하한 두 품종의 당도 분포

12월 25일에 두 품종의 딸기 당도 데이터로 도수분포 막대그래프를 그려보았습니다. 당연히 오른쪽에 위치한 딸기 품종을 선택할 것입니다.



3월 25일 출하된 두 품종의 당도 분포

이번에는 3월 25일에 두 품종의 딸기 당도 데이터로 도수분포 막대그래프를 그려보았습니다.



3월 25일 출하한 딸기중에서는 어떤 품종을 선택할까요?

지금까지, 9월 첫째주 Open Question입니다. 다음 주에 뵙겠습니다.

표본분산을 모집단의 분산이라고 말할 수 있나

표본분산이 포함된 표본통계량


자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화


모집단의 분산과 표본분산의 비가 어느 구간사이에 있다고 표현할 수 있습니다.

모집단이 정규분포를 가지면 모집단의 분산과 표본분산의 비는 카이제곱이라는 확률분포를 가집니다.

또한 카이제곱확률분포는 표본의 크기에 관계된 자유도에 따라 정해집니다.

표본분산과 표본의 크기를 구하고 몇 % 신뢰할 것인지를 정하면 모집단의 분산이 위치하는 구간을 추정할 수 있습니다.


카이제곱분포 (chi-squared distribution)
정규분포를 따르는 모집단(평균 $\mu$, 분산 $\sigma^2$)에서 크기가 n인 표본을 무작위로 반복하여 추출하였을 때, 표본들의 평균은 정규분포를 나타내고 분산($S^2$)을 가집니다.
 
 
이때 다음과 같이 정의된 확률변수는 자유도 (n-1)인 카이제곱분포를 따릅니다.
 
 
χn12=n1S2σ2\chi_{n-1}^{2}={\dfrac{\left({n-1}\right)S^{2}}{\sigma^{2}}}
 
 
카이제곱 분포의 특성

항상 확률변수는 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다.
모수인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.

 
카이제곱분포를 사용한 카이제곱검정의 적용
모분산에 대한 추정과 검정
관측된 빈도수가 이론상의 분포 또는 형태를 얼마나 잘 따르는 지에 대한 검증
여러 집단 사이의 독립성 검정 (한 특성이 다른 특성에 영향을 미치는 가에 대한 검정)
 
 
 

Block "2953" not found

Block "2955" not found

Block "2958" not found

Block "2960" not found

Block "2962" not found

표본평균을 모집단의 평균이라고 말할 수 있는가

 두 모집단의 확률분포와 추출한 표본들의 평균의 확률분포

모집단의 평균이 표본평균을 중심으로 어느 구간사이에 있다고 표현할 수 있습니다.

반대로 표본평균은 모집단의 평균을 중심으로 어느 구간사이에 있다고 표현할 수 있습니다.

위의 두 경우 모두, 모집단의 확률분포를 알고 몇 % 신뢰하는지를 정할 때 가능합니다.

모집단의 확률분포가 정규분포라고 가정한다면 모집단 표준편차를 알면 가능합니다.

모집단의 평균을 추정하기 위해서는 표본을 추출해서, 표본평균과 표본표준편차를 구합니다.

모집단으로부터 랜덤하게 뽑은 표본 1개로부터 표본평균과 표준편차를 구해서 표본평균들의 분포를 추정합니다.

이떄 표본평균들의 분포의 표준편차는 모집단의 표준편차를 표본의 크기의 제곱근으로 나눈 값으로 줄어듭니다. 그래서 표본평균의 분포는 모집단의 분포보다 더 뽀쪽해 집니다.

여기서 신뢰도를 정한다면 표본평균을 중심으로 모집단 평균이 어느 구간에 위치하는지를 나타낼 수 있습니다. 이 구간을 신뢰구간이라고 표현하는데, 일반적으로 95%, 99% 신뢰구간을 많이 사용합니다.

Block "2897" not found

Block "2934" not found

Block "2936" not found

표본의 도수분포도와 표본평균의 도수분포도의 관계

표본의 도수분포도



표본평균들의 분포


모집단으로부터 랜덤하게 추출된 표본들의 평균은 모집단의 평균으로 모이는 경향이 있습니다. 이를 중심극한정리라고 합니다.

표본의 분포에 상관없이 표본평균들의 분포는 중심극한정리에 의해 정규분포를 가집니다.

산점도와 도수분포도의 관계는

산점도



도수분포표와 도수분포도



산점도로 표현하면 을 명확하게 표현할 수 있습니다.

하지만 겹쳐서 나타나서 분포를 표현하기는 어렵습니다.

 

도수분포도를 그리면 분포를 명확하게 시각화 할 수 있습니다.

하지만 을 정확하게 표현할 수 없습니다.

 

1차원 산점도에 대응하는 도수분포도는 2차원 그래프입니다. 따라서 도수분포도를 그릴 때는 구간을 정해야 하는 수고가 필요합니다.

딸기 20알을 대표하는 숫자는

으로 표현

과중 평균

산점도(1차원)와 평균


회귀선으로 표현

과중당도 회귀선

산점도(2차원)와 회귀선


회귀평면으로 표현

출하일 과중당도 회귀평면

산점도(3차원)와 회귀평면


딸기 한 알은 좌표계에서 한 점으로 표현됩니다

딸기 20알은 좌표계에서 20개 점으로 표현됩니다

딸기 20알은 평균회귀선회귀평면으로 대표됩니다.

딸기 20알을 20개의 점(Point)으로 표현한다면

1개의 숫자로 표현되는 점(Point)

과중

산점도(1차원)


2개의 숫자로 표현되는 점(Point)

과중당도

산점도(2차원)


3개의 숫자로 표현되는 점(Point)

출하일 과중당도

산점도(3차원)


딸기 한 알은 좌표계에서 한 점으로 표현됩니다

그리고 그 한 점은 좌표값이 있습니다.