확률공간 ?
Probability space ?

1. 애니메이션

1.1. 데이터종류


2. 설명

2.1. 확률실험과 표본공간

2.2. 확률공간의 3요소


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

1. 애니메이션



표본공간

2. 설명

2.1. 확률실험과 표본공간

확률실험(probability experiment)에서 나올 수 있는 모든 결과를 모은 집합이 표본공간(sample space)입니다. 표본공간의 원소를 특별히 기저사건(elementary event)이라고 합니다.

확률실험과 표본공간의 예는 다음과 같습니다.

확률실험: 동전던지기 -> 표본공간={앞면, 뒷면}

확률실험: 6면 주사위 던지기 -> 표본공간={1면, 2면, 3면, 4면, 5면, 6면}

확률실험: 무한대 반복측정 후 평균 -> 표본공간은 -무한대에서 +무한대이며 확률분포는 실제값을 평균으로 하는 정규분포

확률실험의 결과인 표본공간은 연속적인 구간이나 면, 초평면으로 표현되는 무한대 개수의 원소를 가질 수 있습니다.

2.2. 확률공간의 3요소

확률공간(probability space)은 확률이 나타나는 공간입니다. 따라서 확률공간은 확률을 시각화하는 데 있어 기본적인 개념을 제공합니다. 확률론에서 확률공간은 확률이 사건의 결과로서 구현되는 사건들이 이루는 공간입니다. 확률공간은 사건들과 그 사건들에 할당된 확률을 포함하는 수학적 모델입니다. 확률공간은 이러한 확률적 사건들을 체계적으로 다루는 데 사용되며, 확률적 현상을 수학적으로 모델링하고 분석하는 데 필수적인 개념입니다. 확률공간의 세 가지 주요 요소로 “표본공간”과 “사건들의 집합”과 “확률측도”가 있습니다. 예를 들어 주사위 던지기의 확률공간은 모든 가능한 결과와 그 결과들에 할당된 확률을 표현합니다.

표본공간(sample space, S)

표본공간(sample space, S)은 확률실험(시행, try)의 모든 가능한 결과의 집합입니다. 다른 말로는 실험 또는 관찰에서 발생할 수 있는 모든 결과입니다. 표분공간을 이루는 결과를 “기저사건”이라고 합니다. 표본공간의 예시로는 동전던지기와 주사위던지기의 결과가 있습니다.

– 동전 던지기의 표본공간 :  표본공간은 집합으로 표현되며 {앞면, 뒷면}으로 표기합니다. 동전던지기의 표본공간의 원소에는 “앞면”과 “뒷면”이 있습니다.

S={앞면, 뒷면}

– 주사위 던지기의 표본공간 : 6면 주사위를 던질 때, 표본공간은 주사위의 각면이며 각 면을 숫자로 명명하였다면 해당하는 숫자들의 집합으로 표현할 수 있습니다.

S={1, 2, 3, 4, 5, 6}

사건공간(사건의 집합, $\sigma$-algebra, F)

사건은 표본공간의 부분집합입니다. 사건공간은 사건이 원소인 집합입니다. 따라서 사건공간은 표본공간의 부분집합들의 집합입니다. 사건공간을 이루는 사건은 기저사건의 합사건이라고 볼 수 있습니다. 사건공간은 모든 가능한 일어날 수 있는 사건들로 이루어져 있다고 할 수 있습니다. 각 사건에는 확률이 할당될 수 있습니다. 사건들의 집합(사건공간)은 “σ-algebra”이라고 부릅니다. 사건들의 집합의 예시로는 다음과 같이 동전 던지기와 주사위 던지기의 사건공간이 있습니다.

– 동전 던지기의 사건의 집합 : 공집합을 포함하며, 집합의 원소의 개수가 1개인 경우,  2개인 경우, 3개인 경우, 4개인 경우, 5개인 경우, 6개인 경우이고 6개인 경우에는 표본공간과 같습니다.

F = {∅, {1}, {2}, {1, 2}}

– 주사위 던지기의 사건의 집합 : 공집합을 포함하며, 집합의 원소의 개수가 1개인 경우,  2개인 경우, 3개인 경우, 4개인 경우, 5개인 경우, 6개인 경우가 있습니다. 원소의 개수가 6개인 경우의 사건의 집합은 표본공간과 같습니다.

F = {∅, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4}, {3, 5}, {3, 6}, {4, 5},{4, 6}, {5, 6}, {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6}, {1, 4, 5}, {1, 4, 6}, {1, 5, 6}, {2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6}, {3, 5, 6}, {4, 5, 6}, {1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 3, 4, 5}, {1, 3, 4, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6}, {2, 4, 5, 6}, {3, 4, 5, 6}, {1, 2, 3, 4, 5}, {1, 2, 3, 4, 6}, {1, 2, 3, 5, 6}, {1, 2, 4, 5, 6}, {1, 3, 4, 5, 6}, {2, 3, 4, 5, 6}, {1, 2, 3, 4, 5, 6}}

확률측도 (probability measure, P)

확률측도는 사건공간의 각 사건에 대해 확률을 할당하는 함수입니다. 각 사건은 집합으로 표시할 수 있습니다. 그리고 함수는 각 사건에 0과 1 사이의 값을 할당합니다. 한편, 표본공간의 원소에 해당하는 기저사건에 할당한 확률의 합은 1입니다. 확률측도의 예시로는 다음과 같이 동전 던지기와 주사위 던지기의 확률측도가 있습니다.

– 동전 던지기 : 완벽한 대칭 모양의 이론적 동전이라고 가정하면 앞면과 뒤면의 확률은 같고 확률의 값은 $\dfrac{1}{2}$ 입니다. 정리하면, 동전 던지기의 표본공간의 기저사건에 할당된 확률의 합은 1이고 이상적인 동전이면 같은 값인 $\dfrac{1}{2}$을 가집니다.

P({앞면}) = 0.5, P({뒷면}) = 0.5

– 주사위 던지기 : 완벽한 대칭 모양의 이론적인 6면 주사위라고 하면 모든 면의 확률은 같고 기저사건에 할당된 확률의 값은  $\dfrac{1}{6}$입니다. 

P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) =$\dfrac{1}{6}$


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 종류 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3에서 B22의 범위에 있는 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22의 범위에 있는 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22의 범위에 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22의 범위에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.

=VARP(B3:B22) : 분산. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 각 숫자의 평균의 차이를 제곱해서 모두 더한 후, 숫자의 개수로 나눈 값. VARP 대신 VARS를 입력하면 숫자의 개수 -1로 나눈 값(표본분산)을 표시함. 

=STDEV.P(B3:B22) : 표준편차. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 분산의 제곱근. STDEV.P 대신 STDEV.S를 입력하면 표본분산의 제곱근을 표시함. 

=MAX(B3:B22) : 최대값. B3에서 B22에 있는 모든 숫자 집합에서 최대값을 표시함. 

=MIN(B3:B22) : 최소값. B3에서 B22에 있는 모든 숫자 집합에서 최소값을 표시함. 

=QUARTILE(B3:B22,0) : 사분위수. B3에서 B22에 있는 숫자 집합에서 지정한 사분위수를 표시함. 0의 자리에 0, 1, 2, 3, 4를 입력하여 0사분위수, 1사분위수, 2사분위수, 3사분위수, 4사분위수를 표시할 수 있음. 

=PERCENTILE(B3:B22,0) : 백분위수. B3에서 B22에 있는 숫자 집합에서 지정한 백분위수를 표시함. 0의 자리에 0 이상 1이하의 수를 입력하여 각각의 백분위수를 표시할 수 있음. 0.25를 입력하면 25백분위수가 표시됨.

3.3. 실습강의

 – 데이터

 – 합계

 – 개수

 – 평균

 – 중앙값


4 참조

4.1 용어


데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

Reference

Data set – Wikipedia