DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

확률변수?

CONTENTS

Random variable

범주형 확률변수

동전던지기

동전던지기를 한 후 나오는 윗면은 범주형 확률변수라고 할 수 있습니다. 만일, 1과 0을 앞면과 뒷면에 써 놓은 동전의 동전던지기의 결과는 이산형 확률변수라고 할 수 있습니다. 동전을 던져서 나온 확률변수값은 0과 1 두 개이고 확률변수값에 각각 1/2을 확률로 할당 할 수 있습니다.

확률(probability)이 있다는 것은 확률을 할당할 사건(event)이 있다는 것을 전제합니다. 예를 들어 , 동전을 던져서 윗면의 숫자를 관측한다는 시행(trial)에서 시행의 결과를 사건(event)으로 정의합니다.

시행에 나올 수 있는 더 이상 나눌 수 없는 모든 사건(event)을 표본(sample), 표본점(sample point), 기저사건(elementary event)이라고 합니다. 이 표본의 집합을 표본공간(sample space)이라고 합니다.

동전던기기 시행에서는 “0이 나오는 사건”과 “1이 나오는 사건”이 기저사건(elementary event)이 됩니다. 그리고 “아무것도 안나오는 사건”은 확률이 0인 사건이며 불가능한 사건(impossible event)이라고 합니다. “0 또는 1이 나오는 사건”은 확률이 1인 사건이고 확실한 사건( sure event)이라고 합니다.

기저사건과 기저사건의 가능한 모든 합사건을 사건(event)이라고 할 수 있습니다. 그리고 사건의 집합을 사건공간(event space)이라고 합니다. 단 사건공간은 합집합 연산에 닫혀있어야 합니다. 동전던지기의 사건공간은 다음 하나의 공간으로 표현할 수 있습니다.

$\mathcal{F}$={공집합, {앞면}, {뒷면}, {앞면, 뒷면}}={{  }, {H}, {T}, {H, T}}=$\{\emptyset, \{H\}, \{T\}, \Omega\}$

사건에는 확률을 부여할 수 있습니다. 이렇게 사건에 확률을 부여하는 것을 확률측도라고 합니다. 여기서, 측도는 집합의 성질을 수치화하는 특수한 함수입니다.따라서  확률측도는 사건에 확률을 할당하는 함수입니다. 동전던지기에서의 확률측도는 다음과 같습니다.

$P\{\emptyset\}=0$, $P(\{H\})=\dfrac{1}{2}$, $P(\{ T\})=\dfrac{1}{2}$, $P(\{H,T\})=\dfrac{1}{2}$

동전의 한 면이 나올 확률을 $p$라고 하면 다른 한면의 확률은 $(1-p)$가 됩니다. 이렇게 배타적인 두 기저사건만을 가지는 시행을 베르누이 시행(Bernoulli try) 또는 베르누이 프로세스(Bernoulli process)라고 합니다.

확률변수값은 사건공간을 어떻게 정하냐에 따라 따릅니다. 그래서 사건공간을 $\sigma-\text{대수}$라고 부르기도 합니다. 사건이 정해지지 않았기에 $\sigma$표기를 사용하고 사건공간은 가산 합집합 연산에 닫혀 있기 때문에 대수라고 부릅니다. 정리하면, 가산 합집합 연산에 닫혀 있는 “기저사건의 집합”을 시그마대수라고 부릅니다.

  • 시행
    • 동전던지기
  • 확률공간(probability space): 표본공간$(\Omega)$, 사건공간$(\mathcal{F})$, 확률측도$(P)$
    • 표본공간(sample space, $\Omega$):
      • $\Omega$={앞면, 뒷면}=$\{H, T\}$
    • 사건공간(event space, sigma-algebra $\mathcal{F}$):
      • $\mathcal{F}$={공집합, {앞면}, {뒷면}, {앞면, 뒷면}}={{  }, {H}, {T}, {H, T}}=$\{\emptyset, \{H\}, \{T\}, \Omega\}$
    • 확률측도(probability measure, $P$):
      • $P\{\emptyset\}=0$, $P(\{H\})=\dfrac{1}{2}$, $P(\{ T\})=\dfrac{1}{2}$, $P(\Omega)=1$
  • 확률변수
    • 확률변수명: 동전던지기
    • 확률변수값: 앞면, 뒷면
    • 확률변수의 유형: 범주형

주사위던지기

6면주사위 던지기는 기저사건이 6개입니다. 즉, 표본공간이 6개의 표본으로 구성되어 있습니다. 확률변수값이 6개입니다. 주사위 던지기라는 시행(trial)이 있고 시행으로 인해 사건(event)의 발생이 있다면 그 사건에 할당된 확률이 존재합니다.

– 6면 주사위의 기저사건(표본점) : 1면, 2면, 3면, 4면, 5면, 6면

– 12면 주사위의 기저사건(표본점) : 1면, 2면, 3면, 4면, 5면, 6면, 7면, 8면, 9면, 10면, 11면, 12면

확률변수값은 사건공간을 어떻게 정하냐에 따라 따릅니다. 아래의 예는 사건공간의 사건을 6면주사위를 던져서 “짝수”와 “홀수”가 나오는 사건으로 정한 예입니다. 따라서 확률이 할당되는 확률변수값은 짝수와 홀수라고 할 수 있습니다.

아래의 예에서 사건에 확률변수값을 부여하는 측도는 “통계적 확률”입니다. 6면주사위에서 짝수는 경우의 수가 3이고 홀수는 경우가 수가 3인 통계적 확률모델입니다. 6면 주사위의 전체 경우의 수는 6입니다.

$$\text{통계적 확률}=\dfrac{사건이 일어날 경우의 수}{전체 경우의 수}$$

6면주사위는 균등하게 기저사건에 확률을 배분하여 각 기저사건의 확률은 $\dfrac{1}{6}$입니다. 이는 실험이나 관측을 통해 얻은 “경험적 확률”입니다.

$$\text{경험적 확률}=\dfrac{\text{사건이 일어난 횟수}}{\text{시행한 횟수}}=\dfrac{\text{사건 발생 횟수}}{\text{전체 실험 횟수}}$$

각 면이 동일하게 나올 수 있도록 제작되었다는 확신을 무한히 많은 반복 실험에 해당 사건이 발생하는 비율로 환산한 빈도주의확률(frequentist probabiltiy)이 있습니다.

$$\text{빈도주의확률}=\lim_{\text{전체 실험횟수}\rightarrow \infty} \dfrac{\text{사건이 발생한 횟수}}{\text{전체 실험횟수}}$$

  • 시행
    • 6면주사위 던지기
  • 확률공간(probability space): 표본공간$(\Omega)$, 사건공간$(\mathcal{F})$, 확률측도$(P)$
    • 표본공간(sample space, $\Omega$):
      • $\Omega$={1면, 2면, 3면, 4면, 5면, 6면}=$\{1, 2, 3, 4, 5, 6\}$
    • 사건공간(event space, sigma-algebra $\mathcal{F}$):
      • $\mathcal{F}$={공집합, {짝수면}, {홀수면}, 표본공간}={{  }, {2면, 4면, 6면}, {1면, 3면, 5면}, {1면, 2면, 3면, 4면, 5면, 6면}}=$\{\emptyset, \{2, 4, 6\}, \{1, 3, 5\}, \Omega\}$
    • 확률측도(probability measure, $P$):
      • $P\{\emptyset\}=0$, $P(\{\text{짝수}\})=\dfrac{1}{2}$, $P(\{ \text{홀수}\})=\dfrac{1}{2}$, $P(\Omega)=1$
  • 확률변수
    • 확률변수명: 동전던지기
    • 확률변수값: 짝수, 홀수
    • 확률변수의 유형: 범주형

활쏘기

궁수가 과녁에 화살을 쏘는 행위를 할 때 궁수가 쏜 화살은 과녁의 나누어진 면적에 들어가거나 과녁의 중심에서 떨어진 거리를 나타낼 수 있습니다. 이 때 궁수의 실력을 확률변수로 표현할 수 있습니다. 궁수의 점수는 궁수의 실력이고 확률변수로 모델링할 수 있습니다. 이렇게 관측된 확률변수값을 데이터라고도 합니다.

궁수의 데이터가 많을 수록 궁수의 실력을 보다 정확히 말할 수 있습니다. 궁수의 점수의 확률분포는 궁수의 실력을 반영합니다. 궁수의 점수의 기대값이 높다고 하더라도 그 궁수가 활쏘기 대회에서 우승한다고 단언할 수는 없습니다. 확률로 예측하는 것이 최선입니다. 만일 활쏘기 횟수가 적은 대회라면 더더욱 우승을 예측하기는 어려울 수 있습니다.

원형표적(target)은 총기가 만든 탄착군의 원의 면적으로 총기의 성능을 확률로 잘 설명할 수 있는 예입니다. 그래서 확률을 영어로 probability(가능성)뿐만아니라 stochastic(표적)으로도 표현합니다.

– 활쏘기의 기저사건(표본, sample, 표본점, sample point) : 노랑과녁에 맞는 사건, 빨강과녁에 맞는 사건, 파랑과녁에 맞는 사건, 검정과녁에 맞는 사건

아래의 예에서는 확률변수를 정하기 위해서 사건공간이 정의되었고 궁수라는 개체에서 특정한 개체 A가 특정되었습니다. 그리고 개체A의 활쏘기 실력을 예측하기 위해서 반복된 측정으로 A궁수의 실력을 확률로 표현하였고 이 확률을 고전적 확률의 정의로 “경험적 확률 (empirical probability)”이라고 부릅니다.

$$\text{경험적 확률}=\dfrac{사건이 발행한 횟수}{전체 실험한 횟수}$$

  • 시행
    • 활쏘기
  • 확률공간(probability space): 표본공간$(\Omega)$, 사건공간$(\mathcal{F})$, 확률측도$(P)$
    • 표본공간(sample space, $\Omega$):
      • $\Omega$={노랑, 빨강, 파랑, 검정}=$\{4, 3, 2, 1\}$
    • 사건공간(event space, sigma-algebra $\mathcal{F}$):
      • $\mathcal{F}$={공집합, {노랑}. {빨강}, {파랑}, {검정}, 표본공간}={{  }, {4}, {3}, {2}, {1}, $\Omega$}
    • 확률측도(probability measure, $P$):
      • $P\{\emptyset\}=0$, $P(\{\text{짝수}\})=\dfrac{1}{2}$, $P(\{ \text{홀수}\})=\dfrac{1}{2}$, $P(\Omega)=1$
  • 확률변수: A궁수의 활쏘기
    • 확률변수명: A궁수의 활쏘기 점수
    • 확률변수값: 0, 1, 2, 3, 4
    • 확률변수의 유형: 범주형

확률공간을 통한 확률의 정의

확률론(probability theory)에서는 확률공간(probability space)으로 확률(probability)을 설명합니다. 확률공간의 3요소는 표본공간(sample space), 시그마대수($\sigma$-algebra), 확률측도(probility measure) 입니다. 표본공간에서 나올 수 있는 단일 결과를 표본(sample)이라고 합니다. 이는 더 이상 나눌 수 없는 개별적인 사건의 결과입니다. 예를 들어, 동전을 한 번 던졌을 때 나오는 “앞”이나 “뒤”, 주사위를 한 번 던졌을 때 나오는 특정 숫자(예: 3)가 표본입니다. 표본공간의 표본은 각각 고유한 결과를 나타내며, 확률적 사건을 정의하는 기본 단위입니다. 표본공간에서의 표본을 표본점(sample point)이라고 부르기도 합니다.

확률공간의 3가지 요소

확률공간(probability space)은  표본공간(sample space, $\Omega$), 시그마대수($\sigma$-algebra), 확률측도(probability measure, $P$)로 구성됩니다.

  1. 표본공간은 가능한 모든 단일 결과인 표본들의 집합입니다.
  2. 시그마대수는 표본공간($\Omega$)의 부분집합들을 원소로 하는 집합으로, 이 부분집합을 사건(event)이라고 부릅니다. 따라서 시그마대수를 사건을 원소로 하는 집합이라고 할 수 있습니다. 시그마대수는 표본공간 위에서 정의할 수 있는 여러 가지 선택 가능한 집합의 모임으로, 목적에 따라 사건을 선택하여 구성할 수 있습니다. 시그마대수는 확률을 정의할 수 있는 사건의 범위를 설정하는 도구라고 할 수 있습니다. 가장 큰 시그마대수에는 표본공간의 모든 부분집합을 포함하는 멱집합이 있습니다. 그리고 특정한 사건들에 대한 정보만 필요할 경우, 더 작은 시그마대수를 구성할 수 있습니다. 예를 들어, 주사위를 던질 때 짝수와 홀수만을 고려한 시그마대수를 만들 수 있습니다. 시그마대수는 여집합, 가산 합집합, 그리고 결과적으로 가산 교집합에 대해 닫혀 있어야 합니다. 시그마대수는 사건공간(a space of events, $\mathcal{F}$)이라고 부르기도 합니다.
  3. 확률측도는 사건에 확률을 할당하는 함수입니다.
동전과 주사위에서의 표본공간과 표본

수치형 변수, 수치형 확률변수, 상수

수치형 변수

변수는 정해지지 않아 변하는 수 또는 변하는 것을 의미합니다. 변수는 변수명과 변수값으로 구성되며 변수명은 수(數)를 대신하는 대수(代數)를 표현하는 경우, 보통 $x, \, y, \, z$와 같이 뒤 쪽의 영문 소문자를 이용해서 표현합니다. 변수값은 자연수, 정수, 실수, 복소수 등의 수체계를 이루는 수(number)나 문자(character), 또는 수와 문자의 결합 등 다양한 형태를 가집니다. 변수값의 속성이 수치를 나타내는 경우, 이때의 변수값을 변량(variate)이라고 합니다. 정리하면, 변량은 수치로 실현되는 변수값을 의미합니다. 변량의 실현값은 간격척도나 비례척도가 적용된 관측도구로 측정된 양적 데이터입니다.

수치형 확률변수

확률변수는 변수의 의미에 더하여 변수값이 확률을 가지는 변수입니다. 수치형 확률변수에는 이산형과 연속형 확률변수가 있습니다. 범주형이나 수치형의 이산형 확률변수의 경우, 확률변수값은 확률질량을 가집니다. 수치형 확률변수에서 연속형 확률변수의 경우는 확률질량으로 확률을 표현하 수 없고 확률밀도로 표현합니다. 확률변수는 변수이지만 특정 실험이나 관측을 통해 확률변수가 구체적인 값을 가지게 되면 상수처럼 다루어집니다. 예를 들어, 동전을 실제로 던져서 앞면이 나왔다면, 그 순간 확률변수는 ‘앞면’이라는 구체적인 값으로 고정됩니다. 확률변수에서 확률이 표현되는 변수값의 집합을 지지집합(support)이라고 부릅니다. 그리고 확률변수는 고유한 확률분포를 가집니다. 확률변수를 무작위변수(random variable)이라고 부르는 이유는 무작위로 변수값이 정해지면 고유의 확률분포가 나타나기 때문입니다. 같은 이유로 변수는 확률분포가 정해지지 않은 확률변수라고 할 수 있습니다.

상수(constant)

상수(constant)는 항상 일정하여 변하지 않는 값 또는 변하지 않는 것을 의미합니다. 상수는 상수명과 정해진 수인 상수값으로 구성됩니다. 수학적 상수의 대표적인 예로는 원주율($\pi, 3.14159\cdots$)과 자연상수($e, 2.71828\cdots$)가 있고, 없음과 있음을 나타내는 0과 1이 있습니다. 물리적 상수의 대표적인 예로는 광속(${\rm C}, \text{약}2.998\times 10^8 {\rm m/s}$)과 플랑그상수(${\rm h}, \text{약}6.626\times 10^{-28} {\rm Js}$) 등이 있습니다.

[Related DATA SCIENCE]

확률변수
정규분포
t분포
카이제곱분포
F분포