이항분포 모양과 확률변수 갯수의 관계

확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고 확률변수의 갯수는 2개입니다.

그리고 동전을 던지는 시행을 무한대로 하면 통계학적 확률을 구할 수 있습니다.(큰 수의 법칙, 대수의 법칙)

 

동전의 모양이 완벽하게 대칭이라면 확률변수 0과 1의 확률은 각각 0.5입니다.

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 동전의 갯수를 하나씩 늘리고 한번에 던져서 나오는 앞면의 숫자를 세는 시행을 합니다.

시행의 수가 크다고 하고 확률분포를 구합니다.

 

확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려가면서 확률의 분포(이항분포)를 살펴봅니다.

 

애니메이션에서 보는 것처럼 동전의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 30개가 넘어가면 종모양으로 되면서 100까지 유지되는 것을 관찰할 수 있습니다.

 

이 감을 느끼는 것은 표본의 크기가 작아 t-분포를 쓸 때 도움이 됩니다.

반대로 표본의 크기가 커서 정규분포(Z-분포)를 쓸 때도 도움이 됩니다.

회귀분석이란

회귀선과 잔차

1800년대 후반 유전학자 프랜시스 골턴은  아들들의 키는 아버지들의 키를 닮아가는 것과 함께 사람들의 평균키가 구심점으로 작동한다는 것을 알게 되었습니다.

이 현상을 골턴은 “평범으로의 회귀(regression toward mediocrity)”라고 칭하였습니다.

 

1970년대 이후 컴퓨터의  발달은 두 변수사이의 상관분석을 용이하게 만들었습니다.

그리고 현대에서는 상관을 분석하는 것을 회귀분석(regression analysis)이라고 부르고 있습니다.

 

두개 이상의 독립변수(설명변수, 예측변수)를 가지고 자연현상이나 사회현상을 예측하는 경우를 다중선형회귀분석(mulitiple linear regression analysis)이라고 합니다.

반면, 하나의 독립변수만 다루는 경우를 단순선형회귀분석(simple linear regression analysis)이라합니다.

 

단순선형회귀모델(simple linear regression model)을 만들어 보면

 

딸기의 과중(설명변수)과 당도(반응변수)

학생의 키(설명변수)와 몸무게(반응변수)

인간의 혈압(설명변수)과 기대수명(반응변수)

 

여기서 “딸기”, “학생”, “인간”으로 명명된 요소들은 2가지의 변수를 가지고 있다고 볼 수 있습니다.

이 변수의 관계를 모델링하여 하나의 변수를 가지고 다른 변수를 예측합니다.

여기서 중요한 것은 분석을 위하여 반응변수는 확률변수로 규정하여야 한다는 것입니다.

 

딸기의 당도를 Y좌표로 과중을 X좌표로 하는 딸기의 점(Point)들을 표시해 봅니다.

여기서 당도를 종속변수(반응변수)라하고 과중을 독립변수(설명변수, 예측변수)라합니다.

즉. (x, y)를 가지는 점을 2차원 좌표계에 나타냅니다. 이를 산점도(Scatter plot)라 합니다.

 

점들이 한 직선에 모이는 경향을 보이고 그 직선의 식을 추정한다면 딸기의 과중을 보고 당도를 예측할 수 있게 됩니다.

더 나아가  예측의 정확도도 제시할 수 있습니다.

이러한 예측을 위해서 산점도에서 주로 컴퓨터를 이용하여 회귀선을 구합니다.

 

직선상의 점들을 대표하는 것은 평균이 있습니다.

대응하여 평면상의 점들을 대표하는 것은 회귀선이라고 할 수 있습니다.

 

한편, 직선상에서 평균과의 거리를 나타내는 편차는 회귀모델에서는 무엇일까요.

회귀선이 평균과 같은 역할을 하므로 회귀모델에서는 회귀선에서 Y축방향의 편차인 잔차(residual)입니다.

산점도와 상관
Scatter plot and correlation

두 확률변수의  상관관계를 보고자 할때 산점도, scatter plot을 그립니다.

그리고 두 확률변수는 각각의 확률분포를 가지고 있습니다.

 

산점도를 그린 결과, 점들이 평균점 주위에 원형으로 분포하였다면 두 변수의 확률분포는 종모양의 정규분포를 가집니다.

그렇지만 점들이 한 직선 주위에 타원형으로 분포할때도 두 확률분포는 종모양의 분포를 가지게 됩니다.

 

그렇다면 점들의 원형분포와  타원형분포의 차이는 무엇으로 표현할 수 있을까요.

한 직선 주위로 점들이 모인다는 것은 상관이 크다고 할 수 있고 이를 수치로 나타낸 상관계수로 표현합니다.

 

상관계수는 마이너스 1부터 플러스 1까지 숫자로 나타냅니다.

 

그렇다면 원형으로 나타난 경우 두 확률변수의 상관계수는 얼마일까요.

평균점을 공유하는 밀접한 관계가 있음에도 0에 가깝습니다.

 

이 떄만 유의한다면 상관계수는 유용합니다.

 

 

대통령 지지율

대통령의 국정수행 여론조사 결과

출처 : 한국일보 2020년 4월 6일

지지율은  53.7%.

부정평가는  43.2%

‘모름ㆍ무응답’은  3.1%

 

18세 이상 유권자 2521명이 응답

 

표본오차는 95% 신뢰수준에서 ±2%포인트

여론조사 발표와 모비율 추정

대통령의 지지도 51%

 

지지도에 따라 붙는  95%의 신뢰수준 의미

95%의 신뢰도는 20번 발표하면 1번은 표본오차가 틀릴 수 있다는 뜻

 

표본오차 ±2.0% 의 의미

지지도는 47%에서 55%사이에 95%의 신뢰도로 위치한다는 뜻

지지도 = $\hat{P}$

표본오차 = 1.96SE($\hat{P}$)

 

1.96이라는 수는 95%신뢰수준이라는 기준에서 나온 값(표본수가 30이상일때)

${SE}{(}\hat{p}{)}{=}\frac{\sqrt{\hat{p}{-}{(}{1}{-}\hat{p}{)}}}{n}$  

 

n은 표본의 크기 즉, 설문에 답한 인원.

표본오차는 지지도($\hat{P}$)가 50%에 가까울수록, 신뢰수준이 높을수록(95%보다는 99%), 응답 인원수(n)가 적을수록 커짐.

표본오차는 지지도($\hat{P}$)가 50%에서 멀수록, 신뢰수준이 낮을수록(99%보다는 95%), 응답 인원수(n)가 많을수록 작아짐.

 


 

대통령의 지지도가 53.7%

응답자가 2521명

 

그렇다면

$n=2521$

$\hat{P} = 0.537$

$SE(\hat{P})=\frac{\sqrt{\hat{p}-(1-\hat{p})}}{n}$ = ? 

 

95%신뢰도 구간은

±1.96×SE($\hat{P}$)

따라서 지지도인  $\hat{P}$는 ?%에서  ?%사이에 위치하게 됩니다.

 

만일 99%의 신뢰구간이면  신뢰구간은

 

±2.23×SE($\hat{P}$)=±2%

 

여기서 보통 지지도를 추정하는 표본의 크기는 보통 1000을 넘기 때문에 t분포를 사용하나 표준정규분포(Z분포)를 사용하나 거의 비슷합니다.