동전을 몇 번 던지면, 앞면이 나올 확률을 알 수 있을까?

동전을 한 번 던졌는데, 앞면이 나왔습니다. 그럼, 동전을 던져서 앞면이 나올 확률은 100%라고 할 수 있을까요? 당연히 그럴 수 없습니다.


큰 수의 법칙 (대수의 법칙)


그런데 동전을 100번 던지면, 반 정도는 앞면이 나올 것이라고 누구라도 말할 수 있습니다. 심지어 당연히 확률이 50% 아니냐고 하시는 분도 있을 것입니다.


동전을 10,000번 던지면, 동전의 앞면이 4900번에서 5100번 사이에 나올 것이라고 95% 자신있게 말할 수도 있습니다.(통계를 공부하고 나서)

물론 5%는 빠져나갈 틈을 만들어 놓았습니다. 그리고 완벽히(?) 대칭인 동전인 경우입니다.


시행횟수와 관련하여 확실한 것은 보험회사는 계약자 수가 많을수록 데이터가 많아져서 미래의 사고 발생률도 보다 정확하게 예측할 수 있다는 것입니다. 빈익빈 부익부입니다.

The law of large numbers from coin toss
동전던지기와 큰수의 법칙

동전던지기와 큰 수(시행수)의 법칙

동전던지기를 많이 하면 어떤 결과를 얻을 수 있을까요?

 

동전의 앞면과 뒷면이 완벽하게 같고 두면에 0과 1이 표시된 동전을 준비합니다.

그리고 동전을 100회 던집니다.

그리고 던질 때 마다 숫자의 합의 평균을 구합니다.

 

계속 많이 던질 수록 0.5에 점점 가까워져 감을 알 수 있습니다.

 

만일 0.5로 가까워져 가지 않고 0.6에 가까워 진다면 동전이 완벽하게 대칭이 아니고 찌그러진 동전이라고 할 수 있습니다.

즉,  한 동전을 무한대로 던지면 동전의 모양을 유추할 수 있게 됩니다.

이런 결과를 통계적 확률이라고 부릅니다.

Random variable & expected value of one coin toss
동전 한개 던지기의 확률변수와 기대값

시행과 확률

0과 1이 적혀 있는 동전이 있습니다.

이 동전 한개를 바닥에 던지는 행위를 시행이라고 합니다.

또한 바닥에 던져진 동전이 0과 1을 나타내는 것을 시행의 결과라고 합니다.

따라서 시행의 결과가 존재하는 시행공간(Sample Space)에 0과 1이 있습니다.

 

0과 1이외의 시행 결과가 나오지 않기 때문에 확률을 적용할 수 있습니다.

여기서 0과 1이 나올수 있는 정도, 즉 확률은 직관적으로 반반일 것이고 총합은 확률의 정의에 의하여 1이 됩니다.

 

동전의 면에 적혀있는 0과 1은 확률변수라고 하고 각각 0.5의 확률을 가지게 됩니다.

한편 시행을 할때 기대하는 확률변수의 값을 기대값이라고 합니다.

한개의 동전을 바닥에 던지는 시행에서의 기대값은 0도 아니고 1도 아닌 0.5인 것이 느껴지시나요. 동전에 새겨있지도 않은 0.5라는 숫자입니다.

물론 정의에 따라 확률변수 0과 확률 0.5의 곱 그리고 확률변수 1과 확률 0.5의 곱의 합  0.5를  기대값이라 할 수 있습니다.

 

동전을 던져서 앞면이 나오면 만원을 받는 게임이 있을 때 대부분의 사람들은 오천원 이상을 내고 참여하지는 않을 것이라고 기대해 봅니다.

 

정리하면

시행 : 앞면과 뒷면에 1과 0이 표시된 동전 1개를 바닥에 던져서 나오는 숫자를 관측

시행공간 : {0, 1}

사건 : 0 이 관측됨

사건 : 1 이 관측됨

확률변수 : 관측되는 수치

확률변수값 : 0과 1

확률변수값 평균 : 0.5

기대값 : 0.5

이항분포 모양과 확률변수 갯수의 관계는 ?

확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고 확률변수의 갯수는 2개입니다.

그리고 동전을 던지는 시행을 무한대로 하면 통계학적 확률을 구할 수 있습니다.(큰 수의 법칙, 대수의 법칙)

 

동전의 모양이 완벽하게 대칭이라면 확률변수 0과 1의 확률은 각각 0.5입니다.

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 동전의 갯수를 하나씩 늘리고 한번에 던져서 나오는 앞면의 숫자를 세는 시행을 합니다.

시행의 수가 크다고 하고 확률분포를 구합니다.

 

확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려가면서 확률의 분포(이항분포)를 살펴봅니다.

 

애니메이션에서 보는 것처럼 동전의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 30개가 넘어가면 종모양으로 되면서 100까지 유지되는 것을 관찰할 수 있습니다.

 

이 감을 느끼는 것은 표본의 크기가 작아 t-분포를 쓸 때 도움이 됩니다.

반대로 표본의 크기가 커서 정규분포(Z-분포)를 쓸 때도 도움이 됩니다.