공간과 점

1차원 직각좌표계


2차원 직각좌표계


3차원 직각좌표계


산점도(1차원)


산점도(2차원)


산점도(3차원)


평균


회귀선


회귀평면


딸기를 점(Point)으로 속성의 공간(Space)에 표현합니다.

딸기집단의 대표속성은 평균, 회귀선, 회귀평면으로 표현됩니다.

Binomial distribution
이항분포


확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고  2개입니다.

 

동전을 무한번 던져서 통계학적 확률을 구할 수 있습니다. 이를 큰 수의 법칙이라고 합니다.

완벽한 대칭모양의 동전이라면 동전 1개를 던지는 시행에서 확률변수 0과 1의 확률은 각각 0.5일 것입니다.

 

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 던지는 동전의 갯수를 하나씩 늘려 확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려봅니다.

그리고 확률의 분포, 즉, 이항확률분포를 살펴봅니다.

 

애니메이션에서 보는 것처럼 확률변수의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 대략 30개가 넘어가면 비슷한 크기의 종모양이 유지되는 모습을  관찰할 수 있습니다.

이 모습은 표본의 크기가 작을 때 t분포를 사용하는 것과 관계가 있습니다.

A/B test
A/B 테스트


AB테스트는 두 개의 조건, A와 B에 대하여 테스트 결과를 대조하는 실험입니다.

AB테스트를 통해 신약과 위약(Placebo)의 약효를 비교하거나, 웹이나 앱에서 A버전과 B버전 중 어떠한 버전이 사용자에게 보다 효과적인지를 알 수 있습니다.

 

다음의 예제를 통해 AB테스트를 체험해보시기 바랍니다.

 

100개의 A딸기와 80개의 B딸기가 있습니다. A딸기를 먹은 사람 중 75명과 B딸기를 먹은 사람 중 24명이 맛있다는 평가를 했습니다.

 

그럼, A딸기가 더 맛있다고 할 수 있을까요?


The law of large numbers from coin toss
동전던지기와 큰수의 법칙

동전던지기와 큰 수(시행수)의 법칙

동전던지기를 많이 하면 어떤 결과를 얻을 수 있을까요?

 

동전의 앞면과 뒷면이 완벽하게 같고 두면에 0과 1이 표시된 동전을 준비합니다.

그리고 동전을 100회 던집니다.

그리고 던질 때 마다 숫자의 합의 평균을 구합니다.

 

계속 많이 던질 수록 0.5에 점점 가까워져 감을 알 수 있습니다.

 

만일 0.5로 가까워져 가지 않고 0.6에 가까워 진다면 동전이 완벽하게 대칭이 아니고 찌그러진 동전이라고 할 수 있습니다.

즉,  한 동전을 무한대로 던지면 동전의 모양을 유추할 수 있게 됩니다.

이런 결과를 통계적 확률이라고 부릅니다.

Random variable & expected value of one coin toss
동전 한개 던지기의 확률변수와 기대값

시행과 확률

0과 1이 적혀 있는 동전이 있습니다.

이 동전 한개를 바닥에 던지는 행위를 시행이라고 합니다.

또한 바닥에 던져진 동전이 0과 1을 나타내는 것을 시행의 결과라고 합니다.

따라서 시행의 결과가 존재하는 시행공간(Sample Space)에 0과 1이 있습니다.

 

0과 1이외의 시행 결과가 나오지 않기 때문에 확률을 적용할 수 있습니다.

여기서 0과 1이 나올수 있는 정도, 즉 확률은 직관적으로 반반일 것이고 총합은 확률의 정의에 의하여 1이 됩니다.

 

동전의 면에 적혀있는 0과 1은 확률변수라고 하고 각각 0.5의 확률을 가지게 됩니다.

한편 시행을 할때 기대하는 확률변수의 값을 기대값이라고 합니다.

한개의 동전을 바닥에 던지는 시행에서의 기대값은 0도 아니고 1도 아닌 0.5인 것이 느껴지시나요. 동전에 새겨있지도 않은 0.5라는 숫자입니다.

물론 정의에 따라 확률변수 0과 확률 0.5의 곱 그리고 확률변수 1과 확률 0.5의 곱의 합  0.5를  기대값이라 할 수 있습니다.

 

동전을 던져서 앞면이 나오면 만원을 받는 게임이 있을 때 대부분의 사람들은 오천원 이상을 내고 참여하지는 않을 것이라고 기대해 봅니다.

 

정리하면

시행 : 앞면과 뒷면에 1과 0이 표시된 동전 1개를 바닥에 던져서 나오는 숫자를 관측

시행공간 : {0, 1}

사건 : 0 이 관측됨

사건 : 1 이 관측됨

확률변수 : 관측되는 수치

확률변수값 : 0과 1

확률변수값 평균 : 0.5

기대값 : 0.5

이항분포 모양과 확률변수 갯수의 관계는 ?

확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고 확률변수의 갯수는 2개입니다.

그리고 동전을 던지는 시행을 무한대로 하면 통계학적 확률을 구할 수 있습니다.(큰 수의 법칙, 대수의 법칙)

 

동전의 모양이 완벽하게 대칭이라면 확률변수 0과 1의 확률은 각각 0.5입니다.

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 동전의 갯수를 하나씩 늘리고 한번에 던져서 나오는 앞면의 숫자를 세는 시행을 합니다.

시행의 수가 크다고 하고 확률분포를 구합니다.

 

확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려가면서 확률의 분포(이항분포)를 살펴봅니다.

 

애니메이션에서 보는 것처럼 동전의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 30개가 넘어가면 종모양으로 되면서 100까지 유지되는 것을 관찰할 수 있습니다.

 

이 감을 느끼는 것은 표본의 크기가 작아 t-분포를 쓸 때 도움이 됩니다.

반대로 표본의 크기가 커서 정규분포(Z-분포)를 쓸 때도 도움이 됩니다.

Cross table ?
교차표 ?

교차표(cross table or contingency table)는 두 개의 확률변수를 요약하여 그 연관성을 나타내는 표입니다.

2차원 도수분포표라고 이해하면 쉽습니다.

 

서로 다른 두 확률변수의 빈도수분포표를 2차원으로 확장하여 도수분포표의 구간에 해당하는 셀을 만들어서 빈도수를 적은 것입니다.

연속형 데이터의 경우 도수분포표를 만들 때와 같이 구간을 나누어 빈도수를 조사한 다음 교차표를 만듭니다.

 

교차표를 작성하여 분포를 살펴보면 대략 두 변수 사이의 관련성을 알 수 있습니다.

교차표는 한 변수의 속성을 행에 놓고 나머지 변수의 속성 열에 놓아 셀(Cell)을 만듭니다.

행변수의 속성과 열변수의 속성이 교차하는 셀(cell)에  두 속성을 동시에 가지는 데이터의 빈도수를 넣습니다.

 

분석을 위해 각 셀의 빈도수 밑에 행의 합에 대한 백분율, 열의 합에 대한 백분율, 그리고 전체 백분율을 표시하기도 합니다.

Regression analysis ?
회귀분석 ?

회귀선과 잔차

1800년대 후반 유전학자 프랜시스 골턴은  아들들의 키는 아버지들의 키를 닮아가는 것과 함께 사람들의 평균키가 구심점으로 작동한다는 것을 알게 되었습니다.

이 현상을 골턴은 “평범으로의 회귀(regression toward mediocrity)”라고 칭하였습니다.

 

1970년대 이후 컴퓨터의  발달은 두 변수사이의 상관분석을 용이하게 만들었습니다.

그리고 현대에서는 상관을 분석하는 것을 회귀분석(regression analysis)이라고 부르고 있습니다.

 

두개 이상의 독립변수(설명변수, 예측변수)를 가지고 자연현상이나 사회현상을 예측하는 경우를 다중선형회귀분석(mulitiple linear regression analysis)이라고 합니다.

반면, 하나의 독립변수만 다루는 경우를 단순선형회귀분석(simple linear regression analysis)이라합니다.

 

단순선형회귀모델(simple linear regression model)을 만들어 보면

 

딸기의 과중(설명변수)과 당도(반응변수)

학생의 키(설명변수)와 몸무게(반응변수)

인간의 혈압(설명변수)과 기대수명(반응변수)

 

여기서 “딸기”, “학생”, “인간”으로 명명된 요소들은 2가지의 변수를 가지고 있다고 볼 수 있습니다.

이 변수의 관계를 모델링하여 하나의 변수를 가지고 다른 변수를 예측합니다.

여기서 중요한 것은 분석을 위하여 반응변수는 확률변수로 규정하여야 한다는 것입니다.

 

딸기의 당도를 Y좌표로 과중을 X좌표로 하는 딸기의 점(Point)들을 표시해 봅니다.

여기서 당도를 종속변수(반응변수)라하고 과중을 독립변수(설명변수, 예측변수)라합니다.

즉. (x, y)를 가지는 점을 2차원 좌표계에 나타냅니다. 이를 산점도(Scatter plot)라 합니다.

 

점들이 한 직선에 모이는 경향을 보이고 그 직선의 식을 추정한다면 딸기의 과중을 보고 당도를 예측할 수 있게 됩니다.

더 나아가  예측의 정확도도 제시할 수 있습니다.

이러한 예측을 위해서 산점도에서 주로 컴퓨터를 이용하여 회귀선을 구합니다.

 

직선상의 점들을 대표하는 것은 평균이 있습니다.

대응하여 평면상의 점들을 대표하는 것은 회귀선이라고 할 수 있습니다.

 

한편, 직선상에서 평균과의 거리를 나타내는 편차는 회귀모델에서는 무엇일까요.

회귀선이 평균과 같은 역할을 하므로 회귀모델에서는 회귀선에서 Y축방향의 편차인 잔차(residual)입니다.

Scatter plot and correlation ?
산점도와 상관 ?

두 확률변수의  상관관계를 보고자 할때 산점도, scatter plot을 그립니다.

그리고 두 확률변수는 각각의 확률분포를 가지고 있습니다.

 

산점도를 그린 결과, 점들이 평균점 주위에 원형으로 분포하였다면 두 변수의 확률분포는 종모양의 정규분포를 가집니다.

그렇지만 점들이 한 직선 주위에 타원형으로 분포할때도 두 확률분포는 종모양의 분포를 가지게 됩니다.

 

그렇다면 점들의 원형분포와  타원형분포의 차이는 무엇으로 표현할 수 있을까요.

한 직선 주위로 점들이 모인다는 것은 상관이 크다고 할 수 있고 이를 수치로 나타낸 상관계수로 표현합니다.

 

상관계수는 마이너스 1부터 플러스 1까지 숫자로 나타냅니다.

 

그렇다면 원형으로 나타난 경우 두 확률변수의 상관계수는 얼마일까요.

평균점을 공유하는 밀접한 관계가 있음에도 0에 가깝습니다.

 

이 떄만 유의한다면 상관계수는 유용합니다.

 

 

Representative value of data ?
데이터의 대표값 ?

편향성을 가지는 확률밀도함수와 그에 따른 평균, 충앙값, 최빈값

데이터를 대표하는 값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

 

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다.

중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

 

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

 

평균에는 산술평균, 가중평균 등이 있습니다.

평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다.

보통 평균이라고 하면 산술평균을 의미합니다.

 

가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다.

특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다.

여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

 

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다.

애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다.

그러나 편향이 일어날 경우 다른값을 가집니다.

 

평균은 무게중심을 나타내는 확률변수값입니다.

중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다.

최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.