확률화구획 실험설계 ?
Randomized block design of experiment ?

목차

1. 애니메이션

1.1. 확률화구획 실험설계



3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션


확률화구획 실험설계


2. 설명

자동차의 연비가 운전자에 따라 영향을 받을 수 있는 문제를 해결하기 위하여 완전확률화 실험설계의 예는 다음과 같습니다. 15대의 차를 5명의 운전자에게 무작위(random)로 3대씩 배정합니다. 15대의 차에 1번부터 15번까지의 번호를 부여한 다음, 추첨으로 나오는 번호순서대로 운전자를 배치합니다.이와 같이 실험을 설계하면 운전자에 의한 변동이 전체 관측값에 균등하게 영향을 미치어 다른 운전자로 인해 연비가 달라질 가능성이 줄어듭니다.

 

완전확률화 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 B1 A2 B2 C1 A4
B5 C4 A1 A3 C3
 C5 B4 A5 B3 C2

완전확률화 실험설계로 15대의 자동차를 5명의 운전자에게 랜덤하게 배정할 때. 위의  배정 결과는 완전확률화 실험설계의 단점을 보여줍니다. 이를 테면, 운전자 1은 B와 C 회사차만, 운전자 3은 A와 B 회사차만 실험하게 되어 운전자간의 변동이 오차항에 평균화되어 포함되지를 못합니다. 그래서 이문제를 해결하기 위하여 한 운전자에 3대보다 많은 차를 배치하는 방법을 사용하여야 합니다. 그러나 실험비용으로 인하여 한 운전자간 배치할 수 있는 자동차 대수가 3대가 최대라고 한다면 운전자간의 변동이 심한 경우 오차항은 단순한 실험오차가 아니라 운전자에 대한 오차가 반영된 것일 수 있습니다. 작은 수의 실험표본의 한계를 극복하기 위해 인위적으로 각 운전자가 각 회사차를 적어도 한번씩은 실험하도록 하는데 이와 같은 실험방법을 확률화구획 실험설계(randomized block design of experiment)라고 합니다.

 

확률화구획 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 A1 B1 C1 A2 A3
C2 C3 A4 B2 C4
B3 A5 B4 C5 B5

 

위의 표에서 전체 관측값들을 운전자에 따라 5개의 집합으로 나눈 것을 구획(블록, block)이라 합니다. 운전자와 같이 구획을 나타내는 변수를 구획변수(block variable)라고 합니다. 구획은 일반적으로 인자 외의 다른 요인에 의한 변동이 심할 경우 사용됩니다. 예를 들어, 벼품종에 따른 수확량을 조사할 때 관심 원인(인자)은 벼품종입니다. 하지만 실험에 사용되는 논의 지력에 따라 수확량이 달라집니다. 따라서 지력으로 구분되는 큰 면적의 논을 일정한 크기의 작은 구획(블록)으로 분할 한 후 지력별로 구분되는 각 구획에 각 품종의  벼를 인위적으로 배치하여 심습니다. 이와 같이 하면 지력의 차가 심한 경우에도 그로 인한 변동을 제거할 수 있으므로 벼품종간의 수확량 차이에 대해 더욱 정확하게 측정할 수 있습니다.


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 


확률화구획 실험설계 구글시트 실습

3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>AP3, AR3<AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 초과이고, AQ3 미만이면 TRUE를 표시함.


3.3. 강의영상

– 집단

– 랜덤 샘플링(완전확률화 표본추출)

– 표본통계량

– 표본통계량으로 모수 점추정, 구간추정

– 샘플링된 빈도 수

– 실습 안내


완전확률화 실험설계 ?
Random design of experiment ?

1. 애니메이션

1.1. 완전확률화 실험설계


2. 설명

2.1. 완전확률화 실험설계 적용예


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

 


1. 애니메이션



완전확률화 실험설계


2. 설명

2.1 완전확률화 실험설계 적용예

원인(인자, 요인, 중재, 처치, factor, intervention, treatment)에 따른 결과(반응, 효과)를 살펴보는  실험을 설계한다고 할 때, 가장 중요한 것은 관심을 가지는 원인이외의 다른 원인이 결과에 영향을 미치면 안된다는 점입니다. 예를 들어, 자동차 모델(A, B, C)의 1리터당 주행거리(연비)를 비교하는 실험을 설계한다고 하면 우선 관심을 가지는 인자(factor)는 자동차 모델이며 관심을 가지는 결과변수는 연비입니다. 그리고 원인변수가 갖는 변수는 변수값  A, B, C를 가지는 자동차 모델입니다. 원인변수(인자, factor)는 명목척도로 구해지는 범주형변수이며, 결과변수는 비례척도로 구해지는 연속형변수입니다. 차종(자동차 모델)별로 연비를 관측할 때 실험 기간이 길 수도 있고 비용 등 여러 가지 이유로 차종별 차를 많이 추출하기 어렵습니다.

 

한 원인변수(차종)의 변수값(A, B, C)인 차종간에  존재할 수 있는 차이를 정확하게 파악하기 위해서는 다른 원인들의 영향을 될 수 있는 대로 적게 해 주는 것이 좋습니다. 이를 위한 방법 중의 하나는 실험 전체를 완전확률화(무작위, random)하게 하는 것입니다. 같은 자동차 모델이라도 연식에 따른 영향과 각 차종에서 차량별 다름을 최대한 줄이기 위해서  각 자동차 모델 중에서 실험시간과 실험비용을 고려해서 무작위(완전확률화)로  신차 5대를 선정하였습니다.  표본을 무작위로 추출하였다고 해도 동일한 조건하의 연비측정을 위해 한 운전자가 모든 15대의 차를 운전해 실험해 볼 수도 있지만 하루에 3대밖에 측정할 수 없다면 총 5일에 걸쳐서 측정을 하게 됩니다. 이 경우 연비를 측정하는 5일동안  날씨나 풍속, 풍향 등 여러 환경이 달라 질 수 있어 측정된 값이 실험날짜에 영향을 받게 됩니다.

 

최종적으로 하루에 모든 차의 연비를 측정하기 위하여 다섯 명의 운전자(1, 2, 3, 4, 5)가 차를 운전하는 실험설계를 하였다면 이번에는 자동차의 연비는 운전자에 따라 영향을 받을 수 있는 문제가 발생합니다.  그래서 15대의 차를 5명의 운전자에게 무작위(random)로 3대씩 배정한 후 실험의 순서 역시 무작위로 하는 완전확률화 실험설계를 이어 갑니다. 15대의 차에 1번부터 15번까지의 번호를 부여한 다음, 추첨으로 나오는 번호순서대로 연비를 측정합니다. 이와 같이 실험하면 운전자에 의한 변동이 전체 관측값에 균등하게 영향을 미치어 다른 운전자로 인해 연비가 달라질 가능성이 줄어듭니다. 이와 같이 모든 실험과정에서 무작위를 도입하는 실험방법을 완전확률화 실험계획법(completely randomized design)이라 부릅니다. 

 

위의 요인외에도 연비에 대한 운행조건별 차종의 장점(예를 들면 정차가 심한 도심보다는 고속도로에서 연비가 높게 개발된 차)을 모두 동일하게 하는 완전화확률 실험설계를 하는 것은 어렵습니디. 즉, 어느 도로에서 실험할 것인지를 무작위(추첨)으로 하기에는 무리가 있습니다. 따라서 완전확률화 실혐설계는 적용하는 범위를 정해야 하며 이는 실험의 목적에 따르는 것이 중요합니다. 정리하면 실험의 목적을 분명히 정하고 완전확률화 실험설계를 적용하는 것이 순서입니다.

 

다음의 표는 추첨(제비뽑기, 프로그램으로 난수를 발생시켜 정하기)에 의해 운전자와 차종별 5대의 차가 배치된 실험설계를 보여 줍니다. 기호 A, B, C는 다른 차종을 의미합니다.

 

완전확률화 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
표본추출된 차종(자동차모델) B1 A2 B2 C1 A4
   B5 C4 A1 A3 C3
   C5 B4 A5 B3 C2

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>=AP3, AR3<=AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 이상이고, AQ3 이하이면 TRUE를 표시함.


3.3. 실습강의

– 집단

– 랜덤 샘플링(완전확률화하여 표본을 추출)

– 표본통계량

– 표본통계량으로 집단의 모수 추정 : 점 추정, 구간 추정

– 샘플링된 빈도 수

– 실습 안내



4. 용어

4.1 용어


시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면,  2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

 

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

 

Reference

Experiment (probability theory) – Wikipedia



확률

확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.

 

이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.

 

Reference

Probability – Wikipedia


 


확률공간

확률이론에서, 확률공간 또는 확률 3요소($\Omega, \mathcal{F}, P$)는 무작위로 발생하는 상태로 구성된 실제 프로세스 (또는 “실험”)입니다. 확률공간은 특정 상황이나 실험을 염두에 두고 구성됩니다. 그런 종류의 상황이 발생할 때마다 가능한 결과의 집합이 동일하고 확률도 동일하다는 것을 보여줍니다.

 

확률공간은 다음 세 부분으로 구성됩니다

 

– 가능한 모든 결과의 집합인 표본공간 : $\Omega$

– 0개 이상의 결과가 포함된 시행(event)의 집합 : $\mathcal{F}$

– 시행에 확률을 할당하는 함수 또는 시행에서의 확률 : $P$

 

결과는 모델을 한 번 실행한 결과입니다. 개별 결과는 거의 실용적이지 않을 수 있기 때문에 더 복잡한 시행을 하여 결과 집단을 특성화합니다. 그러한 모든 사건의 집합은 $\sigma$ 대수인 $\mathcal F$입니다. 마지막으로 각 시행의 발생 가능성을 지정해야 할 필요가 있습니다. 이것은 확률측정함수, $P$를 사용하여 수행됩니다.

 

확률공간이 설정되면 “자연”이 이동하고 표본공간($\Omega$)에서 단일결과 ($\omega$)를 선택한다고 가정합니다. 선택된 결과($\omega$)를 포함하는 $\mathcal {F}$의 모든 시행($\Omega$)이 “발생했다”고합니다. 각 시행은 $\Omega$의 하위집합 입니다. 본질적으로 수행되는 선택은 실험이 무한 반복 될 경우, 각 사건의 발생 빈도는 함수에 의해 규정 된 확률과 일치 할 수  있는 방식으로 수행됩니다.

 

러시아의 수학자 Andrey Kolmogorov는 1930년대 확률공간의 개념을 다른 확률의 공리와 함께 소개했습니다. 오늘날 확률론의 공리화를 위한 대체 접근법이 존재합니다. 무작위 변수의 대수학입니다. 이는 확률 조작에 관한 수학과 관련있습니다.  “확률해석”은 “확률”의 의미와 해석 방법에 대한 몇 가지 대안을 설명합니다. 또한, 개념적으로는 확률과 유사하지만 모든 규칙을 따르지 않는 양에 대한 이론을 수립하려는 시도가 있었습니다. 예를 들어 자유확률, 퍼지이론, 가능성이론, 부정확률 및 양자확률입니다.

 

Reference

Probability space – Wikipedia



확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

 

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

 

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

 

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

 

Reference

Random variable – Wikipedia



4.2. 참조


Reference

Wikipedia


표본통계량으로 집단의 모수 추정

1. 애니메이션

1.1. 통계


2. 설명

2.1. 표본통계량으로 집단의 모수 추정

2.2. 추정(estimation) : 모수(parameter), 추정량(estimator), 추정값(추정치, estimate)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



통계


2. 설명

2.1. 표본통계량으로 집단의 모수 추정

표본으로 표본이 추출된 집단(모집단)을 추론하는 방법을 살펴보면, 첫번째로 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 집단의  모평균, 모분산을 점추정합니다.  두번째로  집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

집단은 연구대상이 되는 집단을 말합니다. 연구집단(목표집단)은 연구조사 목적에따른 개념적 집단입니다. 조사집단은 표본으로 추출가능한 개체들로만 구성된 집단입니다. 모수(parameter)는 집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별, 세대별 의료비지출 등입니다. 특별히 표본이 추출된 집단을 그 표본의 모집단(population)이라고 부룹니다.

표본(sample)은 표본보다 더 큰 집단의 추론을 위해 수집하고 분석하는 원소(element)의 집합입니다. 즉, 집단의 부분집합입니다. 표본통계량(sample statistics)은 표본으로 부터 계산된 표본평균, 표본분산, 표본비율등을 말합니다.

표본으로부터 표본이 추출된 집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다. 확률에서 시행과 사건의 개념을 다음과 같이 정리할 수 있습니다.

    * 시행은 관측(조사)행위이다.

    * 사건은 시행의 결과다.

   * 전사건은 시행에서 얻을 수 있는 결과의 모든 집합이다.

    * 근원사건은 모두 같은 정도로 확률을 가지는  더 이상 나눌 수 없는 개별 사건이다.

확률은 수학적 확률과 통계적 확률이 있는데 통계적 확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다. 수학적 확률과 통계적 확률이 같은 경우는 통계적 확률에 사용하는 환경이 완벽한 경우입니다. 예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다. 수학적확률은 통계적확률의 환경을 가정하는 방식으로 집단을 모델링한 것입니다.

집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다. 표본에서 산출되는 평균과 분산 등을 표본통계량(sample statistic)이라 하며 통계량(statistic)의 복수형(statistics)은 통계(statistics)를 표현합니다. 통계량은 표본을 고르는 방법에 따라 값이 결정되는 확률변수입니다. 따라서 표본통계량은 확률변수이고 대응하는 확률분포를 표집분포(smapling distribution of sample statistic)라 합니다. 표본통계량 중 하나인 표본평균은 모집단에서 추출한 표본의 대표값 중 하나입니다.

정규성을 갖는 집단은 집단의 확률변수가 정규분포라고 가정할 수 있는 특별한 집단입니다. 모평균은 집단(집단의 데이터개수에 따라 데이터개수가 유한한 유한집단과 데이터개수가 무한한 무한집단)의 데이터의 평균을 말합니다. 모분산은 집단의 데이터의 분포정도를 나타냅니다. 집단 전체를 관측하는 것(전수검사)이 힘드므로 모평균, 모분산은  모르는 경우가 많습니다. 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계입니다.


2.2. 추정(estimation) : 모수(parameter), 추정량(estimator), 추정값(추정치, estimate)

통계적 실험이나 조사의 목적은 미지의 집단에 대한 정보를 알아보려고 하는 것입니다. 집단의 정보란 대개 평균, 분산 등과 같은 집단의 특성값을 말하며, 이러한 집단의 특성값을 모수(parameter)라고 합니다. 집단 전체를 조사하는 것은 불가능하거나 시간, 경비가 많이 들기 때문에, 대개 모수는 표본을 추출하여 표본평균, 표본분산과 같은 표본의 특성값을 이용하여 추정하게 됩니다.

표본의 특성값을 표본통계량(sample statistic)이라 부르고, 표본통계량의 확률분포를 표집분포(sampling distribution)라 합니다. 표집분포는 표본통계량과 모수 사이의 관계를 규명해 주기 때문에 모수의 추정과 검정을 가능하게 합니다.

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.  $\bar{X}$를 모수 $\mu$의 추정량(estimator)이라 부릅니다. 한 표본에서 구한 $\bar{X}$의 관측하여 구현된 값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$를 $\mu$의 추정값(estimate)이라 부릅니다. 역시, 집단의 모수인 모분산( $\sigma^2$)을 추정하는 추정량은 표본분산 $S^2$입니다. 그 관측값인 $s^2$은 모분산의 추정값(estimate)입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>=AP3, AR3<=AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 이상이고, AQ3 이하이면 TRUE를 표시함.


3.3. 실습강의

집단

표본

표본통계량

표본통계량으로 집단의 모수 추정 : 점 추정, 구간 추정

실습 안내



4. 용어와 수식

4.1 용어

표본비율의 표집 ?

1. 애니메이션

1.1. 베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1.표본비율(Sample Proportion)

2.2. 표본비율($\hat p$) 표집


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


2. 설명

2.1. 표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 표본비율 표집의 모분산은  다음과 같습니다.

 

$${\rm E}(\hat p)=p$$

 

$${\rm Var}(\hat p)={\rm Var}(\dfrac{X}{n})=\dfrac{1}{n^2}{\rm Var}(X)=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.


2.2. 표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본비율의 표집 - 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집 



4. 용어와 수식

4.1 용어

표본분산의 표집 ?

1. 애니메이션

1.1.
자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화

1.2. d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

2.2. 표본분산의 표집

2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후 카이제곱분포를 표본분산의 표집분포 분석에 사용


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화




d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


2. 설명

2.1. 표본분산

확률변수가 $X$이고 집단의 모평균과 모분산이 각각 $\mu_X$, $\sigma_X^2$인 집단이 있습니다. 이 집단에서 추출한 표본의 크기가 $n$인 표본을 확률변수로 표현하면 다음과 같습니다. 

 

{${X_1}, {X_2}, … , {X_n}$}

 

여기서, ${X_1}, {X_2}, … , {X_n}$은 $X$로써 같은 확률변수

 

표본분산($S^2$)은 표본평균($\bar X$)와 마찬가지로 확률변수입니다. 표본분산의 기준은 표본평균입니다. 따라서 표본크기가 n이라면 표본분산의 자유도는 (n-1)이 됩니다. 즉, 표본평균을 구하는데 표본크기 중 하나를 사용하여 자유도는 하나가 줄게 됩니다.  표본분산의 기대값은 집단의 모분산($\sigma^2$)입니다. 참고로, 표본평균의 기대값은 집단의 모평균($\mu$)입니다.

 

표본분산의 추정량(Estimator)은 다음과 같습니다.

 

$S_X^2=\dfrac{({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ , … , + {(X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$

 

표본분산의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[S^2]=\sigma^2$

 

참고로, 표본평균의 추정량(Estimator)은 다음과 같습니다.

 

${\bar X}=\dfrac{{X_1}+{X_2}+ , … , +{X_n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}{X_i}$

 

참고로, 표본평균의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[\bar X]=\mu_X$


2.2. 표본분산의 표집

집단이 정규분포를 이룬다면 표본분산의 표집은 카이제곱분포를 모분산과 자유도와 모분산의 비($\frac{n-1}{\sigma^2}$)로 표준화한 분포를 따릅니다.  표본분산의 표집의 모평균(표본분산의 기대값)은 집단의 모분산과 같고 표본분산 표집의 모분산은 다음과 같은 근사값을 가집니다.

 

표본분산 표집의 모평균 : 표본분산 기대값

 

${\rm E}[S_{X}^2]=\mu_{S_{X}^2}∼\sigma_X^2$

 

표본분산 표집의 모분산

 

${\rm Var}(S_{X}^2)=\sigma_{S_{X}^2}^2∼\dfrac{2\sigma_X^4}{n-1}$

 

여기서,  $n$은 표본크기

 

표본분산 표집의 모표준편차

${\rm SD}(S_{X}^2)=\sigma_{S_{X}^2}∼\sqrt{\dfrac{2\sigma_X^4}{n-1}}$

 

참고로, 집단이 정규분포를 이룬다면 표본평균의 표집은 정규분포를 이룹니다, 표본평균 표집의 모평균(표본평균의 기대값)은 집단의 모평균과 같고 표본평균 표집의 모분산은 집단의 모분산을 표본의 자유도로 나눈 값과 같습니다.


2.3. 확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후  카이제곱분포를 표본분산의 표집분포 분석에 사용

표본분산을 무차원 확률변수인 카이제곱으로 변환하면 다음과 같습니다.

 

$\chi_{n-1}^2=(n-1)\dfrac{S^2}{\sigma^2}$

 

위식의 카이제곱분포의 모수인 자유도(degree of freedom, $df$)는 다음과 같습니다.

 

$df =  n-1$

표본의 크기가 n인 표본의 분포값을 표본분산(variance) $\rm S^2$이라고 합니다.  표본평균과 마찬가지로 표본분산($\rm S^2$)도 확률변수이며 따라서 확률분포인 표집분포(sampling distribution of sample variances)를 가집니다. 표본분산과 모집단의 관계를 알 수 있다면  표본에서 구할 수 있는 표본분산으로 모집단의 모분산을 추정할 수 있습니다.

 

표본분산의 확률분포를 표본분산의 표집분포(sampling distribution of sample variances)라 합니다. 확률변수인 표본분산은 음수일 수도 있는 표본평균과 달리 음수가 아닌 0과 양의 실수입니다. 그리고 표본분산은 큰 값을 갖는 확률보다는 0에 가까운 작은 값을 갖는 확률이 더 큰 비대칭분포를 보입니다. 그리고 표본분산($\rm S^2$)을 모분산으로 나누어서 표준화를 하고  표본의 자유도(n-1)를 곱한 값을 카이제곱($\chi_{n-1}^{2}$)이라하고 아래식처럼 표현할 수 있습니다.  

 

$\chi_{n-1}^{2}=\left({n-1}\right){\dfrac{S^{2}}{\sigma^{2}}}$ 

 

새로운 확률변수인 카이제곱($\chi_{n-1}^{2}$)은 카이제곱분포(chi-squared distribution)를 나타냅니다.  카이제곱분포는 자유도(degree of freedom)이라는 모수(parameter)를 가지며, t분포와 마찬가지로 자유도마다 확률분포가 있으며,  따라서 무수히 많은 확률분포를 가집니다. 

 

정리하면, 집단이 $\sigma^2$인 정규분포를 나타내고 표본의 크기가 n인 표본을 단순임의복원추출하면,  확률변수인 표본분산($\rm S^2$)을 집단의 모분산($\sigma^2$)으로 표준화하고 자유도(n-1)를 곱한 새로운 확률변수인 카이제곱( $\chi^2$)은 자유도에 따른 카이제곱분포를 따릅니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본분산의 표집 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


3.3. 실습강의

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본분산

표본분산의 표집 



4. 용어와 수식

4.1 용어

표본평균 표집 ?

1. 애니메이션

1.1. 표본추출과 표집 모델링

1.2. 집단의 확률분포와 표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

2.2. 표본평균 표집(Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



모집단과 표본평균 확률밀도




표본추출과 표집 모델링




집단의 확률분포와  표본평균 표집의 확률분포


2. 설명

2.1. 표본평균 표집의 적용 예

표본평균 표집은 표본이 추출된 집단(모집단)의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다. 모평균을 추정을 할 때는 표본평균 추정량을 통해 구한 표본평균을 기준으로 하고 표본평균의 표준오차와 주어진 신뢰수준으로 정해지는 구간사이에 모평균이 위치한다고 추정합니다. 신뢰구간을 정하기 위해서는 신뢰수준을 주어야 합니다. 신뢰수준은 90%, 95%, 99% 등 확률단위를 가지며 검정하는 주체가 결정합니다. 표본평균을 중심으로 신뢰수준의 확률을 가지는 구간을 신뢰구간이라고 합니다. 만일, 표본평균의 확률분포를 안다면 신뢰수준으로 신뢰구간을 알 수 있습니다. 신뢰구간은 확률변수의 단위와 같습니다.

 

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 표본평균과 모분산(모분산을 모르는 경우에는 표본분산을 사용)으로 모평균에 대한 가설을 검정합니다. 검정을 하려면 신뢰수준의 반대개념인 유의수준을 검정의 주체가 결정해야합니다. 유의수준은 확률이고 따라서 단위는 확률의 단위와 같습니다. 보통 10%, 5%, 1%등이 사용됩니다.  만일 표본평균의 확률분포를 안다면 유의수준으로 유의구간을 구할 수 있습니다. 유의구간은 보통 최소값($-\infty$)에서 임계값까지 또는 임계값에서 최대값($+\infty$)으로 나타납니다.

 

정리하면 표본평균으로 모평균을 추정할 때는 신뢰구간을 사용하며, 표본평균과 모평균을 비교하는 가설을 검정할 때는 표본평균으로구한 유의확률과 유의수준을 비교합니다. 확률변수인 표본평균이 나타내는 확률분포를 표본평균의 표집분포(sampling distribution)라고 합니다. 이는 표본의 확률분포(sample distribution)와 구분됩니다.

 

표본평균의 속성은 다음 세가지가 있습니다.

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 표본크기를 늘리면 집단에서 추출한 표본의 표본평균은 집단의 모평균과 점점 같아진다. 일반화하면, 표본통계량은 집단의 모수와 점점 같아진다. 

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 분산이 점점 작아진다.


2.2. 표본평균(sample mean) 표집(sampling distribution)

모집단 모형

$$\{{X_1},\ldots ,{X_N}\}$$

여기서, $N$은 모집단크기 : 모집단이 무한집단이면 $N→∞$

표본 모형 : 확률변수 $X$를 가지는 개체($i$)가 이루는 집단($X_i$)에서 추출한 표본

$$\{{X_1},\ldots ,{X_n}\}$$

여기서, $n$은 표본크기

표본평균($\bar X$) 표집 모형

$$\{{{\bar X}_1},\ldots ,{{\bar X}_k}\}$$

여기서, $k$는 표집크기 : 표집이 무한집단이면 $k→∞$

표본평균의 추정량(estimator)

$${\bar X}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$$

여기서, $n$은 표본크기

표본분산의 추정량(estimator)

$$S_X^2= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$$

여기서, $n$은 표본크기

표본평균 표집의 평균 : 표본평균의 분포의 무게중심

$$\mu_{\bar X}={\rm E} [\bar X]=\mu_X$$

여기서, $\mu_X$는 모평균 : $\mu_X={\rm E}[X]$

$n$은 표본크기

표본평균 표집의 분산 : 표본평균의 변동

$${\rm Var}[\bar X]=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$$

$n$은 표본크기

표본평균 표집의 표준편차

$${\rm SD}[\bar X]=\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$$

$n$은 표본크기

표본평균($\bar X$)을 $Z$변환

$$Z=\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$$

여기서, $\mu_X$는 모평균

${\rm N}(0, 1)$는 표준정규분포

$\mu_X=\mu_{\bar X}$

$n$은 표본크기

표본평균($\bar X$)을 $t$변환

$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$

여기서, $\mu_X$는 모평균

$S_X$는 표본표준편차

$t_{n-1}$은 자유도가 $n-1$인 $t$분포

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본평균 표집 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(D3:D1002) : 데이터 개수. D3에서 D1002에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(D3:D1002) : 평균. D3에서 D1002에 있는 데이터의 평균.

=VARP(D3:D1002) : 모분산. D3에서 D1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(D3:D1002) : 모표준편차. D3에서 D1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=NORMDIST(P3,G3,I3,FALSE) : 정규분포 확률밀도. G3가 평균, I3가 표준편차인 정규분포에서 P3 확률변수에 대한 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함. 

=ROWS(K2:K2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,1000) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(I3&”:”&J3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(K2:K2, ROW(I3:J3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(M3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 M3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=VAR.S(BG3:BG22) : 표본분산. BG3에서 BG22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(BG3:BG22) : 표본표준편차. BG3에서 BG22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.


3.3. 실습강의

– 모집단과 표본평균의 분포 비교

– 모집단

– 표본크기 20인 표본평균들의 분포

– 표본크기 50인 표본평균들의 분포

– 표본크기 100인 표본평균들의 분포

– 실습안내



4. 용어와 수식

4.1 용어


모수

통계적 매개변수(모수, parameter) 또는 집단의 매개변수는 통계 또는 확률변수의 확률분포를 표현하는 양입니다. 그것은 통계의 대상인 집단이나 통계적 모델의 수치적 특성으로 간주 될 수 있습니다.  구분된 데이터 계열(family)이  있다고 가정합니다. 구분자(index)가 계열의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도의 수에 의해 구분(indexing)될 수 있습니다. 자유도의 수는 카이제곱분포의 매개변수이므로 카이제곱분포는  매개변수화된 계열이라고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia


표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

Reference

Standard error – Wikipedia

중심극한정리 ?
Central limit theorem ?

1. 애니메이션

1.1. 표본크기가 커질수록 표본평균은 모평균에 수렴

1.2. 표본크기의 변화에 따른 표본평균 표집의 확률밀도함수

1.2. 당도 표본평균 표집의 확률밀도함수


2. 설명

2.1. 중심극한정리

2.2. 표본평균 표집과 중심극한정리

2.3. 표본평균 표집의 정규성

2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본크기가 커질수록 표본평균은 모평균에 수렴




모집단(population)이 정규분포일 때 표본크기($n$)의 변화에 따른 표본평균($\bar X$) 표집의 확률밀도함수




두 딸기품종 당도의 확률밀도함수(probability density function)와 표본의 당도평균 표집의 분포( probability density function of sampling distribution)

2. 설명

2.1. 중심극한정리

확률변수, $X_1, X_2, \cdots, X_n$가 서로 독립하며 평균, $\mu$와 분산, $\sigma^2$을 갖는 동일한 분포를 따른다고 가정합니다.  여기서,  동일한 확률은 임의의 확률분포이며 분포함수가 알려진 확률분포일 필요는 없습니다. 동일한 확률분포를 가지는 $n$개의 확률변수들의 합을 $S_n$이라고 하면 $S_n$도 확률변수입니다. 

$$S_n=X_1+X_2+\cdots+X_n$$

여기서,  $X_i$는 확률변수 : $i=1, 2, \cdots , n$

 $n$이 $\infty$로 커질수록  확률변수, $S_n$은 평균이  $n\mu$이고 분산이 $n\sigma^2$인 정규분포를 나타냅니다.

$$S_n \sim N(n\mu, n\sigma^2)$$

여기서, $\mu$는 확률변수 $X_i$의 동일한 모평균

$\sigma^2$은 확률변수  $X_i$의 동일한 모분산

$n$은 확률변수의 더해지는 수 : $n \rightarrow \infty$

새로운 확률변수인 $S_n$의 확률분포는 합해지는 확률변수의 개수, $n$이 커질수록 확률변수의 분포에 상관없이 정규분포에 수렴합니다. 이를 중심극한정리라고 합니다. 중심극한정리는 정규분포의 중요성을 나타내는 통계학(statistics)의 핵심 정리입니다. 모집단으로 부터의 표본추출과 표본평균 표집의 확률분포 모델링에 사용됩니다.

$$\dfrac{S_n-n\mu}{\sqrt{n\sigma^2}} \xrightarrow{as\ n \to \infty} N(0,1)$$

여기서, $\mu$는 확률변수, $X_i$의 동일 평균

$\sigma^2$은 확률변수, $X_i$의 동일 분산

$n$은 더해지는 동일 확률변수의 수 : $n \rightarrow \infty$

중심극한정리에서는 독립이고 동일한 분포를 가지는 확률변수의 합을 표현하는 새로운 확률변수의 누적분포함수를 표현할 수 있습니다.  확률변수의 개수가 무한대로 갈수록 확률변수의 합을 나타내는 새로운 확률변수는 표준화된 정규분포의 누적분포함수($\Phi(x)$)로 표현할 수 있습니다.

$$\lim_{n\to\infty}P\left(\dfrac{\displaystyle\left(\sum_{i=1}^{n}X_{i}\right)-n\mu}{\dfrac{\sigma}{{\sqrt{n}}}}\leq x\right)= \Phi\left(x\right)$$

$n$이 커지는 과정에서의 표본평균 표집의 확률분포의 변화는 t분포로 표현할 수 있습니다.  


2.2. 표본평균 표집과 중심극한정리

중심극한정리(Central Limit Theorem)는 표본평균을 계산하는 과정에서 극단적인 값들이 서로 상쇄되어 표본평균이 집단의 모평균으로 모이는 경향을 말합니다.  표본크기($n$)가 크면 표본평균의 표집의 분산은 작아집니다. 즉, 표본평균 표집의 확률분포(sampling distribution of sample mean)는 표본의 크기가 커질수록 정규분포의 종모양(bell shape)이 되면서 뽀족해집니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 모집단의 분포모양과는 상관없이 표본평균들의 확률분포는 표본의 크기($n$)를 증가시킬수록 정규분포에 접근합니다. 즉, 표본평균의 확률분포는 모집단의 평균(모평균)을 중심으로 하는 정규분포를 나타냅니다. 이를 중심극한정리라고 합니다.

 

모평균과 가능한 모든 표본평균들 사이의 관계는 모집단이 정규분포를 가지지 않아도 정규분포로 관찰됩니다. 만일, 집단이 매우 크면 가능한 모든 표본들을 모두 찾아서 표본평균 표집의 확률분포를 완벽하게 구하는 것은 불가능합니다.  이를 해결하기 위하여  다음과 같은 이론을 정립하였습니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.

 

– 모집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균의 표집의 확률분포는 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

– 모집단이 모평균이 $\mu$이고 모분산이 $\sigma^2$인 무한히 큰 집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포라도 표본평균 표집의 확률밀도함수는 근사적으로 정규분포이고 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$로 표현한다.

 

모집단을 나타내는 확률변수가 평균이  $\mu$이고 분산 $\sigma^2$인 임의의 확률분포를 가질 때 크기가 $n$인 표본을 단순임의복원추출하면 표집(sampling)한 표본평균들의 확률분포(표본평균 표집의 확률분포)는 다음과 같은 특성을 갖습니다.

 

– 가능한 모든 표본에서 표본평균  표집의 평균(${\mu}_{\bar{x}}$)은 모집단의 평균(모평균)과 같다.

$$\mu_\bar{x}=\mu$$

– 가능한 모든 표본에서 표본평균 표집의 분산($\sigma_{\bar{X}}$)은 모집단의 분산(모분산)을 표본크기($n$)로 나눈 값이다

$$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$$

– 가능한 모든 표본평균들의 분포는 근사적으로 정규분포이다.

$${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$$


2.3. 표본평균 표집의 정규성

모집단의 확률분포와 표본크기에 따른 표본평균 표집의 확률분포는 달라집니다. 중심극한정리에 의해 표본크기가 30보다 크면 표본평균 표집의 확률분포는 정규분포에 근사한다고 주장할 수 있습니다. 그렇지만 아래 그림과 같이 모집단의 확률분포모양이 쌍봉을 가지면 표본크기를 크게 하여야 표본평균 표집의 확률분포가 정규성을 나타냅니다. 아래그림은 모집단의 확률분포의 모양과 표본크기에 따른 표본평균 표집의 확률분포 모양의 변화를 보여줍니다.



모집단의 확률분포모양과 표본크기에 따른 표본평균 표집의 확률분포의 정규성


2.4. 표본평균과 표본분산의 기대값과 표본평균의 표준화(Z변환)

랜덤하게 추출된 표본의 크기가 $n$인 표본은 다음식으로 표현할 수 있습니다.

$$X_1, X_2, \cdots, X_n$$

표본의 평균은 다음식으로 구할 수 있습니다.

$$\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} X_i$$

모집단의 평균($\mu$)을 안다면, 모집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본평균의 기대값은 모집단의 평균(모평균)이 됩니다.

$${\rm E}[\bar{X}] = \mu$$

집단의 확률분포를 모르더라도 중심극한정리에 의해서 표본분산의 기대값은 집단의 모분산($\sigma^2$)이 됩니다.

$${\rm {Var}}[\bar{X}] = \dfrac{\sigma^2}{n}$$

모집단이 정규분포를 나타내면 표본평균($\bar{X}$)은 확률변수이며 중심극한정리에 의하여 정규분포를 가집니다. 표본평균을 다음과 같이 표준화하여 새로운 확률변수를 생성할 수 있습니다. 이 새로운 확률변수, $Z$는 표준정규분포를 따릅니다.

$$Z=\dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}}\sim N\left(0,1\right)$$

정리하면, 모집단이 다음과 같이 정규분포를 가진다면,

$$X \sim N\left(\mu, \sigma^2\right)$$

표본크기가 $n$인 표본평균, $\bar{X}$는 정규분포를 따르며 다음식으로 표현할 수 있습니다.

$$\bar{X} \sim N\left(\mu, \dfrac{\sigma^2}{n}\right)$$

그리고 $\bar{X}$를 표준화하면 즉, Z변환하면 그 표준화식과 표준화한 확률션수 $Z$의 분포를 다음식으로 표현할 수 있습니다. 확률변수 $Z_n$의 아래첨자 $n$은 표본크기를 의미합니다.

$$Z_n = \dfrac{\bar{X} – \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N \left(0,1\right)$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리 : 구글시트 실습

3.2. 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.

=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본들의 평균

– 표본 크기가 3인 표본들의 평균

– 중심극한정리


4. 용어

4.1 용어


중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



모집단(population)

통계에서 모집단은 질문이나 실험(experiment)의 대상이 되는 유사성을 가지는 분류 또는 사건의 집합입니다. 통계적 모집단은 실재하는 물건(예를 틀어 우주에 있는 모든 항성의 집합)일 수도 있고 경험을 통해 일반화된 잠재적으로 무한한 집단(포커에서 가능한 모든 패의 집단)일 수 있습니다. 통계분석의 공통적인 목표는 선택된 모집단에 대한 정보를 산출하는 것입니다.

통계적 추론(statistical inference)에서 모집단의 부분집합인 표본은 통계적 분석으로 모집단을 나타내기 위해 선택됩니다. 이 표본의 크기와 모집단의 크기의 비율을 표본분수(sampling fraction)라고 합니다. 적절한 표본에 대해 통계를 사용해 모집단 매개변수를 추정할 수 있습니다.

 

Reference

Statistical population – Wikipedia



표본(sample)

통계와 양적 연구방법론에서 표본은 수집된 데이터집합이며 정해진 절차에 따라서 통계적 모집단에서 선택된 또 다른 집단입니다. 표본의 요소(elements)는 표본점(sample points), 표본추출 단위(sampling units) 또는 관측대상(observations)이 있습니다.

일반적으로 인구는 매우 큰 집단이므로 전체 인구조사와 인구집단에 대한 완전한 서술은 불가능하고 효용이 없습니다. 표본은 일반적으로 관리가 가능할 정도의 크기의 모집단의 하위 집합을 나타냅니다. 표본을 수집하고 표본에서통계량을 계산하면 표본을 통해 모집단을 추론할 수 있게 됩니다. 추론(inference)에는 대표적으로 추정(estimation)과 가설검정(hyperthesis test)이 있습니다. 그리곡 추정에는 점추정과 구간추정이 있습니다. 이 모든 것이 표본을 통해 모집단의 정보를 알아 내는 것입니다.

표본은 비복원(같은 표본이 여러번 선택되는 경우가 없는 경우)으로 추출될 수 있고, 이 경우에는 표본은 모집단의 부분집합이 됩니다. 복원추출을 한 경우는 다중부분집합이 됩니다.

 

Reference

Sample (statistics) – Wikipedia



표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



4.2. 참조


표본통계량 ?
Sample statistic ?

1. 애니메이션

1.1. 표본통계량

1.2. 유한집단의 통계량


2. 설명

2.1. 표본의 통계량 : 표본통계량

2.2. 집단의 통계량

2.3. 표본모형

2.4. 표본통계량


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



표본통계량




유한집단의 통계량

2. 설명

2.1. 표본의 통계량 : 표본통계량

구매한 딸기 포장지에 적혀 있는 당도가 맞는가를 확인하고 싶습니다. 그래서  포장지 속에 들어있는 딸기 20개의 당도를 측정해 보았습니다. 그 결과, 20개의 숫자로 구성된 1개의 숫자무리가 생겼습니다.  이 숫자무리를 우리는 보통 표본이라고 부릅니다. 여기서 표본의 크기는 20입니다. 표본의 개수는 1개입니다. 

 

표본을 표현하는 숫자를 찾는 것을 표본통계량을 구한다고 합니다. 중요한 표본통계량으로는 대표값과 분포값(산포도, 散布度,  dispersion)이 있습니다. 대표값은 평균(mean), 중앙값(median), 최빈값(mode)등이 있습니다. 분포의 정도를 나타내는 분포값에는 분산(variance)과 분산의 제곱근인 표준편차(Standard deviation)등이 있습니다.

 

위의 애니메이션에서 표본의 분산을 계산할 때 표본의 크기에서 1을 뺀 19를 사용하는 것을 볼 수 있습니다. 이것은 표본의 분산을 구할 때 전체 변동량을 표본의 자유도로 나누어 주는데 여기서 표본의 자유도는 표본의 크기에서 기준으로 사용되는 표본평균의 개수인 1을 뺴줍니다. 

 

한편, 포장지에 적혀있는 당도를 모집단의 당도라고 생각해 봅니다. 그리고 측정한 표본 데이터에서 구한 당도 평균과 포장지의 당도를 비교해 봅니다. 포장지에 표시된 당도보다 구매한 당도 표본의 평균이 더 크면 좋겠습니다. 여기서 차이가 표준오차입니다.

 

무한집단의 예는 딸기품종을 대표적으로 볼 수 있습니다. 한 재배농가의 그 해에 재배한 딸기는 유한집단도 될 수 있지만 재배농가가 선택한 딸기품종의 표본이라고도 할 수 있습니다.


2.2. 집단의 통계량

집단에는 유한집단과 무한집단이 있습니다. 유한집단은 크기가 유한한 집단이고 무한집단은 크기가 무한대인 집단입니다. 집단에서 표본을 추출하면 그 집단은 표본의 모집단이 됩니다. 따라서, 표본의 크기는 집단의 크기보다 작을 수 밖에 없습니다. 집단안에는 부분집단이 있을 수 있으며 부분집단은 집단(group) , 수준(level), 분류(카테고리, category)등으로 불립니다. 집단을 수학적으로 집합으로 표현하여 많은 모델링을 수행합니다.  표본도 관측할 일종의 집단이라고 할 수 있습니다.


표본

표본통계량

표본크기 : $n$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


표본평균 : $\bar{X}$

표본분산 : $s^2$

표본표준편차 : $S$


표본피어슨상관계수 : $r$

표본회귀계수 : $\hat{\beta_0}$, $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본기울기 :  $\hat{\beta_1}$, … , $\hat{\beta_p}$ : $p$는 원인변수의 개수

표본절편 : $\hat{\beta_0}$


유한집단

유한집단통계량

집단크기 : $N$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


무한집단

무한집단통계량

집단크기 : $N \rightarrow \infty$


최소값 : $min$

1사분위수: $Q_1$, 25% 백분위수

2사분위수 : $Q_2$, 50% 백분위수, 중앙값($m$)

3사분위수 : $Q_3$, 75% 백분위수

최대값 : $max$


모평균 :  $\mu$

모분산 :  $\sigma^2$

모표준편차 :  $\sigma$


모상관계수 :  $\rho$

모회귀계수 :  $\beta_0$, $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모기울기 : $\beta_1$, … , $\beta_p$ : $p$는 원인변수의 개수

모절편 : $\beta_0$


2.3. 표본모형

랜덤하게 생성(추출)된  표본모형

{$X_1, … , X_n$}

여기서, $X_1, … , X_n$은 서로 독립

$n$은 표본크기

표본의 관측된 값

$x_1, … , x_n$

여기서, $n$은 표본크기


2.4. 표본통계량

표본평균

$\bar {X}=\dfrac {1}{n}\sum\limits _{i=1}^{n}{X_{i}}=\dfrac {X_{1}+X_{2}+\cdots +X_{n}}{n}$

여기서,  표본은 {${X}_{1}{,}{X}_{2}{,}\ldots{,}{X}_{n}$}

 $n$은 확률변수 $X$에서 생성(추출)된 표본이 $n$개의 원소로 이루어짐을 의미

표본평균의 관측값

$$\bar {x}=\dfrac {1}{n}\left(\sum _{i=1}^{n}{x_{i}}\right)=\dfrac {x_{1}+x_{2}+\cdots +x_{n}}{n}$$

여기서,  표본의 관측값은 ${x}_{1}{,}{x}_{2}{,}\ldots{,}{x}_{n}$

$n$은 표본이  $n$개의 데이터로 이루어짐을 의미

표본평균의 기대값

$${\rm E}[\bar X] = \mu$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

모평균의 점추정

$$\mu ∼ {\rm E}[\bar X]$$

여기서,  $\bar X$는 표본평균

$\mu$는 모평균

~는 점추정

표본분산

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {X}$는 표본평균

표본분산의 관측값

$$ s^2=\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^2$$

여기서,  $n$은 표본의 크기

$\bar {x}$는 표본평균의 관측값

표본분산의 기대값

$${\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

모분산의 점추정

$$\mu ∼ {\rm E}[S^2] = \sigma^2$$

여기서,  $S^2$는 표본분산

$\sigma^2$는 모분산

~는 점추정

표본표준편차

$$S=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {X}$는 표본평균

표본표준편차의 관측값

$$s=\sqrt {\dfrac {1}{n-1}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}$$

여기서,  $n$은 표본크기

$\bar {x}$는 표본평균의 관측값


중앙값(median)

$n$이 홀수인 경우

중앙값 = $\dfrac{n+1}{2}$번째 데이터

$n$이 짝수인 경우

중앙값 = $\dfrac{n}{2}$번째와 $\dfrac{n+1}{2}$번째 데이터의 평균

여기서, $n$은 표본크기 또는 유한집단크기


최빈값(mode)

최빈값 = 데이터 중 가장 자주 나타나는 값


변동계수(coefficient of variation, 변이계수)

모변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{\sigma}{\mu}\times 100$$

여기서, $\mu$은 모평균

$\sigma$은 모표준편차

표본변동계수$(CV)$ : 단위는 %

$$CV=\dfrac{S_Y}{\bar Y}\times 100$$

여기서, $\bar Y$은 확률변수 $Y$의 표본평균

$S_Y$은 확률변수 $Y$의 표본표준편차


범위(range)

범위 = 최대값 – 최소값

범위는 데이터의 최대값과 최소값의 차이


백분위수(percentile)

$p$% 백분위수 = 자기값 이하로 적어도 $p$%의 관측값이 있고 자기값 이상으로 적어도 $(1-p)$%의 관측값이 있는 수


사분위수범위(interquartile range, IQR)

일사분위수(1st quartile, $Q_1$)

$Q_1$ = 25% 백분위수

이사분위수(2nd quartile, $Q_2$)

$Q_2$ = 50% 백분위수 : 중앙값( $m$)

삼사분위수(3rd quartile, $Q_3$)

$Q_3$ = 75% 백분위수

사분위수범위($\mathrm{IQR}$)

$$IQR = Q_3-Q_1$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본통계량 : 구글시트 실습

3.2. 구글시트 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 표본평균

– 표본분산


4. 용어

4.1 용어


기대값

확률에서 임의 변수의 기대값은 직관적으로는 동일한 실험을 무한 반복했을 때 나온 값들의 평균값입니다. 예를 들어, 6면 주사위를 던지는 시행의 기대값은던진 횟수가 무한대에 가까워졌을 때의 결과값들의 평균값(이경우는 3.5)이 됩니다. 다시 말해, 큰 수의 법칙은 반복 횟수가 무한대에 가까워질수록 값의 산술평균은 기대값에 점점 수렴한다는 것을 의미합니다. 이 기대값은 기대치, 수학적 기대치, EV, 평균, 평균값이라고도 불립니다.

 

보다 현실적으로, 이산확률변수의 기대값은 모든 가능한 값의 가중평균입니다. 즉, 기대값은 확률변수가 취할 수 있는 각 값에 발생확률을 곱한 결과값들의 합이 됩니다. 연속적인 확률변수에 대해서는 합계 대신에 변수의 적분이 들어간다는 것 외에는 동일한 원칙이 적용됩니다. 공식적인 정의는 이 둘을 모두 포함해 이산적이거나 완전히 연속적이지 않은 분포에서도 같게 작용되어, 확률변수의 기대값은 간단히 “확률 측정값에 대한 변수의 적분 값”으로도 말할 수 있습니다.

 

기대값은 큰 꼬리가 있는 분포(예를 들어 Caushy 분포)에서는 존재하지 않습니다. 이런 무작위 변수의 경우에는 분포의 긴 꼬리가 합이나 적분값이 수렴하지 못하도록 합니다. 기대값은 위치 매개 변수의 한 유형으로 사용할 수 있기 때문에 확률 분포를 특징 짓는데 중요한 역할을 합니다. 그에 반해, 분산은 기대값 주위의 확률변수의 가능한 값들이 얼마나 퍼져 있는 지를 나타내는 값입니다. 분산은 크게 2가지 방법으로 구할 수 있습니다. 모든 값에 평균을 빼고 제곱을 해 평균을 구하거나, 모든 값의 제곱의 평균에 평균의 제곱을  빼서 구할 수 있습니다.

 

Reference

Expected value – Wikipedia


 


사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



표준편차

표준편차(모표준편차는 $\sigma$, 표본 표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차과 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

 

Reference

variance – Wikipedia



중앙값

중앙값은 데이터세트(유한집단 또는 표본 또는 이산확률분포)의 하반부와 상반부를 분리하는 값이며 “중간”값으로 간주 될 수 있습니다. 예를 들어, 데이터세트 {1, 3, 6, 7, 8, 9}에서 중앙값은 데이터 집합에서 네 번째로 크고 네 번째로 작은 숫자입니다. 연속적인 확률분포의 경우, 중앙값은 숫자가 상반부 또는 하반부로 정해질 가능성이 같은 값입니다. 중앙값은 통계 및 확률 이론에서 데이터 집합의 속성에 일반적으로 사용되는 척도입니다.

 

데이터를 요약하거나 설명할 때, 평균에 비해 중앙값의 좋은 점은 매우 크거나 작은 값으로 데이터의 대표값이 왜곡되지 않으므로 더 나은 대표성을 제공 할 수 있습니다, 예를 들어, 평균가계소득이나 평균자산과 같은 통계량을 이해할 때 적은 수의 매우 크거나 작은 데이터로 인해 평균은 극단적으로 왜곡 될 수 있습니다.반면에 가계소득의 중앙값은 “전형적인”수입이 무엇인지를 제시하는 더 좋은 방법 일 수 있습니다.이 때문에 중앙값은 중요한 통계에서 가장 신뢰할 만한 대표값이며 50 %의 분해점을 갖는 가장 믿을 만한 통계량이므로 데이터의 절반 이상이 실제와 다르지 않는 한 중앙값은 크게 달라지지 않습니다.

 

Reference

Median – Wikipedia



4.2. 참조


모수
Parameter

1. 애니메이션

1.1. 당도 통계량


2. 설명

2.1. 모수

2.2. 유한집단의 모수 계산

2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션



당도 통계량

2. 설명

2.1 모수

통계량을 의미하는 Statistic의 복수형인 Statistics는 통계를 의미합니다. 통계량이 모이면 통계가 된다는 뜻입니다.

 

통계량에는 평균이 있습니다.  20개의 딸기의 당도 데이터가 있습니다. 즉, 20개의 숫자입니다.  20개의 숫자 무리를 대표하는 것에는 평균이 있습니다. 당도의 평균은 11.89라는 값입니다. 20개의 당도를 대표하는 값입니다.

 

그리고 평균으로 부터 20개의 값들이 서로 얼마나 떨어져 있는지도 숫자무리의 속성을 나타냅니다. 이것을 분산이라고 합니다. 애니메이션에서는 0.1245라는 값으로 나타납니다. 분산의 값이 커지면 20개의 당도 값은 서로 많이 떨어져 있다는 뜻입니다. 

 

평균을 기준으로 평균과의 차이를 편차라고 합니다. 분산은 각 편차제곱의 평균입니다. 즉, 평균으로부터 떨어진 거리의 제곱들의의 평균입니다. 그리고 당도값과 같은 단위로 나타내기 위하여 분산을 다시 제곱근을 하여  표준화한 편차 즉, 표준편차도 있습니다.

 

통계량은 다음과 같이 정리할 수 있습니다.

 

– 첫째는 20개의 당도가 있고 그 당도들은 하나의 대표값으로 표현할 수 있습니다. 평균입니다.

– 둘째는 20개의 평균으로 부터 떨어진 거리가 있고 그 거리들은 하나의 대표값으로 표현할 수 있습니다. 표준편차입니다.

– 세째는 숫자무리를 표현하는 통계량에는 평균, 분산, 표준편차가 있습니다.


2.2. 유한집단의 모수 계산

유한집단의 개체수

 

$N$

 

유한집단

 

${X_1}, { X_2}, … , {X_N}$

 

모평균

 

$\mu_X=\dfrac{\sum\limits_{i=1}^{N}X_i}{N}$

 

모분산

 

$\sigma_X^2=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}$

 

모표준편차

 

$\sigma_X=\sqrt{\sigma_X^2}=\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}$


2.3. 집단과 표본 그리고 표집분포(표본분포, Sampling distribution)

표집분포는 집단에서 일정한 크기로 뽑을 수 있는 모든 표본을 뽑았을 때, 그 모든 표본의 특성치, 즉 통계량의 확률분포입니다. 표본평균의 표집분포, 표본분산의 표집분포, 표본비율의 표집분포가 있습니다.

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


모수 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. \$표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=SUM(W3:W7) : 합계. W3에서 W7에 있는 데이터의 합계를 계산해서 표시함.

 


3.3. 실습강의

– 이항분포

– 이항분포에서 실현된 집단

– 집단의 부분집합

– 모수(parameter)


4. 용어

4.1. 참조


Reference

Parameter

정규분포 ?
Normal distribution ?

1. 애니메이션

1.1. 정규분포


2. 설명

2.1. 이항분포

2.2. 이항분포 ~ 정규분포

2.3. 정규분포


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 참조

1. 애니메이션







정규분포

2. 설명

2.1. 이항분포

확률변수인 성공횟수($K$)가 시행횟수($N$)와 성공확률($P$)을 매개변수(parameter, 모수)로 가지는 이항분포를 따르면

$$K\sim B\left({n,p}\right)$$

$n$번 시행중에 $k$번 성공할 확률은 다음과 같이 확률질량함수로 주어집니다.

$$Pr\left({{K}{=}{k}}\right){=}{f}\left({k\,;n,p}\right){=}\left({\frac{n}{k}}\right){p}^{k}{\left({{1}{-}{p}}\right)}^{{n}{-}{k}}$$

확률변수 $X$가 이항분포를 따른다고 하면 다음과 같이 표현합니다.

$$X \sim B\left({n,p}\right)$$

$X$의 기대값은 다음과 같습니다.

$$\mathrm{E}\left[{X}\right]=np$$

분산은 다음과 같습니다.

$$\mathrm{Var}\left(X\right)=np\left({1-p}\right)$$

기대값은

$$\mathrm{E}\left[{X}\right]=\sum\limits_{i=1}^{n}{x_{i}\cdot p_{i}}$$

분산은

$${\rm Var}\left({X}\right)=\sum\limits_{i=1}^{n}{{\left({x_{i}-\mathrm{E}[X]}\right)}^{2}}\cdot p_{i}=\sum\limits_{i=1}^{n}{{x_{i}^{2}\cdot p_{i}}}-{\mathrm{E}[X]}^{2}$$

여기서,  $\sum\limits_{i=1}^{n}x_i^2 \cdot p_i={\rm E}[X^2]$

분산등식은

분산 = 제곱의 평균 – 평균의 제곱

분산등식을 수식으로 표현하면

$$\rm{Var}\left({X}\right)=\mathrm{E}\left[{X^{2}}\right]-\mathrm{E}{\left[{X}\right]}^{2}$$


2.2. 이항분포 ~ 정규분포

$X\sim B\left({n,p}\right)$ 에서 $n$이 충분히 클 때 $X\sim N\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

 

$X\sim N\left({\mu ,\sigma^{2}}\right)$

 

이항분포 ANIMATION : 0과 1의 시행과 확률p를 갖는 시행을 n번하여 그 합을 확률변수로 합니다. 무한번 시행하고 확률을  막대그래프로 표현할 수 있습니다. 이 때 확률변수는양의 정수가 됩니다.

n이 점점 커질때 ( 동전의 개수, 갈톤의 분기점의 개수) -> 이항분포가 정규분포로 근사합니다.

확률변수 단위를 1로하고 범위를 100으로 하여 n을 1에서 100까지  animation, 막대그래프의 범위는 가로축은 0~100, 세로축은 0.5

 

$B\left({1\sim100,\ 0.5}\right)$

 

범위를 1로 고정시키고 단위를 1/n 으로 함. n을 1에서 100까지 animation, 막대그래프의 범위는 가로축은 0~1, 세로축은 0.5

 

$B\left({1\sim{{1}\over{100}},\ 0.5}\right)$


2.3. 정규분포

표준정규분포는 다음과 같습니다.

$y={1\over \sqrt{2\pi}}e^{-{1\over 2}x^2}$

 

평균 $\mu$와 분산 $\sigma^{2}$ 를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수입니다.

$f\left({X}\right)={{1}\over{\sqrt{2\pi}\sigma}}e^{-{{{\left({x-\mu}\right)}^{2}}\over{2\sigma^{2}}}},\ -\infty\leq X\leq+\infty$


이항분포

확률변수 $k$가 매개변수 $n$과 $p$를 가지는 이항분포를 따른다면, $k\sim B\left({n,p}\right)$라고 쓴다. $n$번 시행중에 $k$번 성공하는 확률변수의 확률질량함수는

 

$Pr\left({{K}{=}{k}}\right){=}{f}\left({k;n,p}\right)$

${=}{n \choose k}{p}^{k}{\left({{1}{-}{p}}\right)}^{{n}{-}{k}}$

 

만약 $X\sim {\rm B}\left({n,p}\right)$라면, $X$의 기대값은

 

${\rm E}\left[{X}\right]=np$

 

이고 분산은

 

 $\rm{Var}\left[{X}\right]={\rm E}\left[{X^{2}}\right]-E{\left[{X}\right]}^{2}$

$=np(1-p)$


이항분포 ~ 정규분포

$X\sim {\rm B}\left({n,p}\right)$에서 $n$이 충분히 클 때 $X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

 

$X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$

 

$X\sim {\rm N}\left({\mu ,\sigma^{2}}\right)$


정규분포

표준정규분포

 

$y=\dfrac{1}{\sqrt{2\pi}}{\rm exp}^{-\dfrac{1}{2}{x^2}}$

 

평균, $\mu$와 분산, $\sigma^{2}$를 모수로 하는 정규분포를 나타내는 확률변수, $X$의  확률밀도함수 $f(X)$는 다음과 같습니다.

 

$f(X)=\dfrac{1}{\sigma\sqrt{2\pi}}{\rm exp}^{-\dfrac{1}{2}\dfrac{\left({x-\mu}\right)^2}{\sigma^2}}$

 

여기서,  $-\infty\leq X\leq+\infty$

 

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


정규분포 : 구글시트 실습

3.2. 함수

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=NORMDIST(F3,C3,E3,FALSE) : 정규분포 확률밀도. C3가 평균, E3가 표준편차인 정규분포에서 F3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시함.


3.3. 실습강의

– 동전던지기

– 동전던지기 결과의 합

– 이항분포

– 정규분포


4. 용어

4.1. 참조