확률공간 ?
Probability space ?
1.1. 데이터종류
4.1. 용어
1. 애니메이션
2. 설명
2.1. 확률실험과 표본공간
확률실험(probability experiment)에서 나올 수 있는 모든 결과를 모은 집합이 표본공간(sample space)입니다. 표본공간의 원소를 특별히 기저사건(elementary event)이라고 합니다.
확률실험과 표본공간의 예는 다음과 같습니다.
확률실험: 동전던지기 -> 표본공간={앞면, 뒷면}
확률실험: 6면 주사위 던지기 -> 표본공간={1면, 2면, 3면, 4면, 5면, 6면}
확률실험: 무한대 반복측정 후 평균 -> 표본공간은 -무한대에서 +무한대이며 확률분포는 실제값을 평균으로 하는 정규분포
확률실험의 결과인 표본공간은 연속적인 구간이나 면, 초평면으로 표현되는 무한대 개수의 원소를 가질 수 있습니다.
2.2. 확률공간의 3요소
확률공간(probability space)은 확률이 나타나는 공간입니다. 따라서 확률공간은 확률을 시각화하는 데 있어 기본적인 개념을 제공합니다. 확률론에서 확률공간은 확률이 사건의 결과로서 구현되는 사건들이 이루는 공간입니다. 확률공간은 사건들과 그 사건들에 할당된 확률을 포함하는 수학적 모델입니다. 확률공간은 이러한 확률적 사건들을 체계적으로 다루는 데 사용되며, 확률적 현상을 수학적으로 모델링하고 분석하는 데 필수적인 개념입니다. 확률공간의 세 가지 주요 요소로 “표본공간”과 “사건들의 집합”과 “확률측도”가 있습니다. 예를 들어 주사위 던지기의 확률공간은 모든 가능한 결과와 그 결과들에 할당된 확률을 표현합니다.
표본공간(sample space, S)
표본공간(sample space, S)은 확률실험(시행, try)의 모든 가능한 결과의 집합입니다. 다른 말로는 실험 또는 관찰에서 발생할 수 있는 모든 결과입니다. 표분공간을 이루는 결과를 “기저사건”이라고 합니다. 표본공간의 예시로는 동전던지기와 주사위던지기의 결과가 있습니다.
– 동전 던지기의 표본공간 : 표본공간은 집합으로 표현되며 {앞면, 뒷면}으로 표기합니다. 동전던지기의 표본공간의 원소에는 “앞면”과 “뒷면”이 있습니다.
S={앞면, 뒷면}
– 주사위 던지기의 표본공간 : 6면 주사위를 던질 때, 표본공간은 주사위의 각면이며 각 면을 숫자로 명명하였다면 해당하는 숫자들의 집합으로 표현할 수 있습니다.
S={1, 2, 3, 4, 5, 6}
사건공간(사건의 집합, $\sigma$-algebra, F)
사건은 표본공간의 부분집합입니다. 사건공간은 사건이 원소인 집합입니다. 따라서 사건공간은 표본공간의 부분집합들의 집합입니다. 사건공간을 이루는 사건은 기저사건의 합사건이라고 볼 수 있습니다. 사건공간은 모든 가능한 일어날 수 있는 사건들로 이루어져 있다고 할 수 있습니다. 각 사건에는 확률이 할당될 수 있습니다. 사건들의 집합(사건공간)은 “σ-algebra”이라고 부릅니다. 사건들의 집합의 예시로는 다음과 같이 동전 던지기와 주사위 던지기의 사건공간이 있습니다.
– 동전 던지기의 사건의 집합 : 공집합을 포함하며, 집합의 원소의 개수가 1개인 경우, 2개인 경우, 3개인 경우, 4개인 경우, 5개인 경우, 6개인 경우이고 6개인 경우에는 표본공간과 같습니다.
F = {∅, {1}, {2}, {1, 2}}
– 주사위 던지기의 사건의 집합 : 공집합을 포함하며, 집합의 원소의 개수가 1개인 경우, 2개인 경우, 3개인 경우, 4개인 경우, 5개인 경우, 6개인 경우가 있습니다. 원소의 개수가 6개인 경우의 사건의 집합은 표본공간과 같습니다.
F = {∅, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4}, {3, 5}, {3, 6}, {4, 5},{4, 6}, {5, 6}, {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6}, {1, 4, 5}, {1, 4, 6}, {1, 5, 6}, {2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6}, {3, 5, 6}, {4, 5, 6}, {1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 3, 4, 5}, {1, 3, 4, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6}, {2, 4, 5, 6}, {3, 4, 5, 6}, {1, 2, 3, 4, 5}, {1, 2, 3, 4, 6}, {1, 2, 3, 5, 6}, {1, 2, 4, 5, 6}, {1, 3, 4, 5, 6}, {2, 3, 4, 5, 6}, {1, 2, 3, 4, 5, 6}}
확률측도 (probability measure, P)
확률측도는 사건공간의 각 사건에 대해 확률을 할당하는 함수입니다. 각 사건은 집합으로 표시할 수 있습니다. 그리고 함수는 각 사건에 0과 1 사이의 값을 할당합니다. 한편, 표본공간의 원소에 해당하는 기저사건에 할당한 확률의 합은 1입니다. 확률측도의 예시로는 다음과 같이 동전 던지기와 주사위 던지기의 확률측도가 있습니다.
– 동전 던지기 : 완벽한 대칭 모양의 이론적 동전이라고 가정하면 앞면과 뒤면의 확률은 같고 확률의 값은 $\dfrac{1}{2}$ 입니다. 정리하면, 동전 던지기의 표본공간의 기저사건에 할당된 확률의 합은 1이고 이상적인 동전이면 같은 값인 $\dfrac{1}{2}$을 가집니다.
P({앞면}) = 0.5, P({뒷면}) = 0.5
– 주사위 던지기 : 완벽한 대칭 모양의 이론적인 6면 주사위라고 하면 모든 면의 확률은 같고 기저사건에 할당된 확률의 값은 $\dfrac{1}{6}$입니다.
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) =$\dfrac{1}{6}$
3. 실습
3.2. 함수
=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3에서 B22의 범위에 있는 숫자의 합계를 계산해서 표시.
=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22의 범위에 있는 데이터의 개수를 표시함.
=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22의 범위에 숫자로 표시된 데이터의 개수를 표시함.
=AVERAGE(B3:B22) : 평균. B3에서 B22의 범위에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.
=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.
=VARP(B3:B22) : 분산. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 각 숫자의 평균의 차이를 제곱해서 모두 더한 후, 숫자의 개수로 나눈 값. VARP 대신 VARS를 입력하면 숫자의 개수 -1로 나눈 값(표본분산)을 표시함.
=STDEV.P(B3:B22) : 표준편차. B3에서 B22에 있는 모든 숫자의 분산을 표시함. 분산의 제곱근. STDEV.P 대신 STDEV.S를 입력하면 표본분산의 제곱근을 표시함.
=MAX(B3:B22) : 최대값. B3에서 B22에 있는 모든 숫자 집합에서 최대값을 표시함.
=MIN(B3:B22) : 최소값. B3에서 B22에 있는 모든 숫자 집합에서 최소값을 표시함.
=QUARTILE(B3:B22,0) : 사분위수. B3에서 B22에 있는 숫자 집합에서 지정한 사분위수를 표시함. 0의 자리에 0, 1, 2, 3, 4를 입력하여 0사분위수, 1사분위수, 2사분위수, 3사분위수, 4사분위수를 표시할 수 있음.
=PERCENTILE(B3:B22,0) : 백분위수. B3에서 B22에 있는 숫자 집합에서 지정한 백분위수를 표시함. 0의 자리에 0 이상 1이하의 수를 입력하여 각각의 백분위수를 표시할 수 있음. 0.25를 입력하면 25백분위수가 표시됨.
3.3. 실습강의
– 데이터
– 합계
– 개수
– 평균
– 중앙값
4 참조
4.1 용어
데이터세트
데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.
데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.
Reference