확률화구획 실험설계 Randomized block design of experiment

목차



3. 실습
3.1. 구글시트
3.2. 구글시트 함수
3.3. 강의 영상


1. 애니메이션


확률화구획 실험설계


2. 설명

자동차의 연비가 운전자에 따라 영향을 받을 수 있는 문제를 해결하기 위하여 완전확률화 실험설계의 예는 다음과 같습니다. 15대의 차를 5명의 운전자에게 무작위(random)로 3대씩 배정합니다. 15대의 차에 1번부터 15번까지의 번호를 부여한 다음, 추첨으로 나오는 번호순서대로 운전자를 배치합니다.이와 같이 실험을 설계하면 운전자에 의한 변동이 전체 관측값에 균등하게 영향을 미치어 다른 운전자로 인해 연비가 달라질 가능성이 줄어듭니다.

 

완전확률화 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 B1 A2 B2 C1 A4
B5 C4 A1 A3 C3
 C5 B4 A5 B3 C2

완전확률화 실험설계로 15대의 자동차를 5명의 운전자에게 랜덤하게 배정할 때. 위의  배정 결과는 완전확률화 실험설계의 단점을 보여줍니다. 이를 테면, 운전자 1은 B와 C 회사차만, 운전자 3은 A와 B 회사차만 실험하게 되어 운전자간의 변동이 오차항에 평균화되어 포함되지를 못합니다. 그래서 이문제를 해결하기 위하여 한 운전자에 3대보다 많은 차를 배치하는 방법을 사용하여야 합니다. 그러나 실험비용으로 인하여 한 운전자간 배치할 수 있는 자동차 대수가 3대가 최대라고 한다면 운전자간의 변동이 심한 경우 오차항은 단순한 실험오차가 아니라 운전자에 대한 오차가 반영된 것일 수 있습니다. 작은 수의 실험표본의 한계를 극복하기 위해 인위적으로 각 운전자가 각 회사차를 적어도 한번씩은 실험하도록 하는데 이와 같은 실험방법을 확률화구획 실험설계(randomized block design of experiment)라고 합니다.

 

확률화구획 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 A1 B1 C1 A2 A3
C2 C3 A4 B2 C4
B3 A5 B4 C5 B5

 

위의 표에서 전체 관측값들을 운전자에 따라 5개의 집합으로 나눈 것을 구획(블록, block)이라 합니다. 운전자와 같이 구획을 나타내는 변수를 구획변수(block variable)라고 합니다. 구획은 일반적으로 인자 외의 다른 요인에 의한 변동이 심할 경우 사용됩니다. 예를 들어, 벼품종에 따른 수확량을 조사할 때 관심 원인(인자)은 벼품종입니다. 하지만 실험에 사용되는 논의 지력에 따라 수확량이 달라집니다. 따라서 지력으로 구분되는 큰 면적의 논을 일정한 크기의 작은 구획(블록)으로 분할 한 후 지력별로 구분되는 각 구획에 각 품종의  벼를 인위적으로 배치하여 심습니다. 이와 같이 하면 지력의 차가 심한 경우에도 그로 인한 변동을 제거할 수 있으므로 벼품종간의 수확량 차이에 대해 더욱 정확하게 측정할 수 있습니다.


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 



3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>AP3, AR3<AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 초과이고, AQ3 미만이면 TRUE를 표시함.


3.3. 강의영상

– 집단

– 랜덤 샘플링(완전확률화 표본추출)

– 표본통계량

– 표본통계량으로 모수 점추정, 구간추정

– 샘플링된 빈도 수

– 실습 안내


완전확률화 실험설계 Random design of experiment

목차




3. 실습
3.1. 구글시트
3.2. 구글시트 함수 설명
3.3. 강의 영상

 


1. 애니메이션



완전확률화 실험설계

 


2. 설명

인자(factor, 원인변수)에 따른 결과변수를 관측하여 결과에 미치는 원인을 살펴보는  실험을 설계한다고 할 때, 가장 중요한 것은 관심을 가지는 원인이외의 다른 원인이 결과에 영향을 미치면 안된다는 점입니다. 예를 들어, 자동차 메이커별 동급모델(A, B, C)의 1리터당 주행거리(연비)를 비교하는 실험을 설계한다고 하면 우선 관심을 가지는 인자(factor, 원인변수)는 메이커별 자동차 모델이며 관심을 가지는 결과변수는 연비입니다. 그리고 원인변수가 갖는 변수값인 수준(level)은 A, B, C로 표현되는 각 자동차 메이커의 동급모델입니다. 원인변수인자, factor)는 명목척도로 구해지는 범주형변수이며, 결과변수는 비례척도로 구해지는 연속형변수입니다. 차종(자동차 메이커의모델)별로 연비를 관측할 때 실험 기간이 길 수도 있고 비용 등 여러 가지 이유로 차종별 차를 많이 추출하기 어렵습니다.

 

한 원인변수(메이커별 동급 차종)의 변수값(A, B, C)인 차종간에  존재할 수 있는 차이를 정확하게 파악하기 위해서는 다른 원인들의 영향을 될 수 있는 대로 적게 해 주는 것이 좋습니다. 이를 위한 방법 중의 하나는 실험 전체를 완전확률화(무작위, random)하게 하는 것입니다. 같은 자동차 모델이라도 연식에 따른 영향과 각 자동차별 다름(변동)을 최대한 줄이기 위해서  각 자동차 메이커의 동급모델 중에서 실험시간과 실험비용을 고려해서 무작위(완전확률화)로  신차 5대를 선정하였습니다.  표본을 무작위로 추출하였다고 해도 동일한 조건하의 연비측정을 위해 한 운전자가 모든 15대의 차를 운전해 실험해 볼 수도 있지만 하루에 3대밖에 측정할 수 없다면 총 5일에 걸쳐서 측정을 하게 됩니다. 이 경우 연비를 측정하는 5일동안  날씨나 풍속, 풍향 등 여러 환경이 달라 질 수 있어 측정된 값이 실험날짜에 영향을 받게 됩니다.

 

최종적으로 하루에 모든 차의 연비를 측정하기 위하여 다섯 명의 운전자(1, 2, 3, 4, 5)가 차를 운전하는 실험설계를 하였다면 이번에는 자동차의 연비는 운전자에 따라 영향을 받을 수 있는 문제가 발생합니다.  그래서 15대의 차를 5명의 운전자에게 무작위(random)로 3대씩 배정한 후 실험의 순서 역시 무작위로 하는 완전확률화 실험설계를 이어 갑니다. 15대의 차에 1번부터 15번까지의 번호를 부여한 다음, 추첨으로 나오는 번호순서대로 연비를 측정합니다. 이와 같이 실험하면 운전자에 의한 변동이 전체 관측값에 균등하게 영향을 미치어 다른 운전자로 인해 연비가 달라질 가능성이 줄어듭니다. 이와 같이 모든 실험과정에서 무작위를 도입하는 실험방법을 완전확률화계획법(completely randomized design)이라 부릅니다. 

 

위의 요인외에도 연비에 대한 환경별 차종의 장점(예를 들면 정차가 심한 도심보다는 고속도로에서 연비가 높게 개발된 차)을 모두 동일하게 하는 완전화확률 실험설계를 하는 것은 어렵습니디. 즉, 어느 도로에서 실험할 것인지를 무작위(추첨)으로 하기에는 무리가 있습니다. 따라서 완전확률화 실혐설계는 적용하는 범위를 정해야 하며 이는 실험의 목적에 따르는 것이 중요합니다. 정리하면 실험의 목적을 분명히 정하고 완전확률화 실험설계를 적용하는 것이 순서입니다.

 

다음의 표는 추첨(제비뽑기, 프로그램으로 난수를 발생시켜 정하기)에 의해 운전자와 3메이커별 5대의 차가 대응된 실험설계를 보여 줍니다. 기호 A, B, C는 다른 자동차 메이커의 차종을 의미합니다.

 

완전확률화계획법에 따른 실험설계의 예

운전자 1 2 3 4 5
표본추출된 차종(메이커별 자동차모델) B1 A2 B2 C1 A4
   B5 C4 A1 A3 C3
   C5 B4 A5 B3 C2

 


3. 실습



<실습 방법>

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 

구글시트 사용법 크롬 설치

<구글시트 함수>

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>=AP3, AR3<=AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 이상이고, AQ3 이하이면 TRUE를 표시함.



<실습강의 내용>

  • 집단랜덤 샘플링(완전확률화하여 표본을 추출)
  • 표본통계량
  • 표본통계량으로 집단의 모수 추정 : 점 추정, 구간 추정
  • 샘플링된 빈도 수
  • 실습 안내

표본통계량으로 집단의 모수 추정

통계


표본으로 표본이 추출된 집단(모집단)을 추론하는 방법을 살펴보면, 첫번째로 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 집단의  모평균, 모분산을 점추정합니다.  두번째로  집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

집단은 연구대상이 되는 집단을 말합니다. 연구집단(목표집단)은 연구조사 목적에따른 개념적 집단입니다. 조사집단은 표본으로 추출가능한 개체들로만 구성된 집단입니다. 모수(parameter)는 집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별, 세대별 의료비지출 등입니다. 특별히 표본이 추출된 집단을 그 표본의 모집단(population)이라고 부룹니다.

표본(sample)은 표본보다 더 큰 집단의 추론을 위해 수집하고 분석하는 원소(element)의 집합입니다. 즉, 집단의 부분집합입니다. 표본통계량(sample statistics)은 표본으로 부터 계산된 표본평균, 표본분산, 표본비율등을 말합니다.

표본으로부터 표본이 추출된 집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다. 확률에서 시행과 사건의 개념을 다음과 같이 정리할 수 있습니다.

  • 시행은 관측(조사)행위이다.
  • 사건은 시행의 결과다.
  • 전사건은 시행에서 얻을 수 있는 결과의 모든 집합이다.
  • 근원사건은 모두 같은 정도로 확률을 가지는  더 이상 나눌 수 없는 개별 사건이다.

확률은 수학적 확률과 통계적 확률이 있는데 통계적 확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다. 수학적 확률과 통계적 확률이 같은 경우는 통계적 확률에 사용하는 환경이 완벽한 경우입니다. 예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다. 수학적확률은 통계적확률의 환경을 가정하는 방식으로 집단을 모델링한 것입니다.

집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다. 표본에서 산출되는 평균과 분산 등을 표본통계량(sample statistic)이라 하며 통계량(statistic)의 복수형(statistics)은 통계(statistics)를 표현합니다. 통계량은 표본을 고르는 방법에 따라 값이 결정되는 확률변수입니다. 따라서 표본통계량은 확률변수이고 대응하는 확률분포를 표집분포(smapling distribution of sample statistic)라 합니다. 표본통계량 중 하나인 표본평균은 모집단에서 추출한 표본의 대표값 중 하나입니다.

정규성을 갖는 집단은 집단의 확률변수가 정규분포라고 가정할 수 있는 특별한 집단입니다. 모평균은 집단(집단의 데이터개수에 따라 데이터개수가 유한한 유한집단과 데이터개수가 무한한 무한집단)의 데이터의 평균을 말합니다. 모분산은 집단의 데이터의 분포정도를 나타냅니다. 집단 전체를 관측하는 것(전수검사)이 힘드므로 모평균, 모분산은  모르는 경우가 많습니다. 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계입니다.


추정(estimation) : 모수(parameter), 추정량(estimator), 추정값(추정치, estimate)

통계적 실험이나 조사의 목적은 미지의 집단에 대한 정보를 알아보려고 하는 것입니다. 집단의 정보란 대개 평균, 분산 등과 같은 집단의 특성값을 말하며, 이러한 집단의 특성값을 모수(parameter)라고 합니다. 집단 전체를 조사하는 것은 불가능하거나 시간, 경비가 많이 들기 때문에, 대개 모수는 표본을 추출하여 표본평균, 표본분산과 같은 표본의 특성값을 이용하여 추정하게 됩니다.

표본의 특성값을 표본통계량(sample statistic)이라 부르고, 표본통계량의 확률분포를 표집분포(sampling distribution)라 합니다. 표집분포는 표본통계량과 모수 사이의 관계를 규명해 주기 때문에 모수의 추정과 검정을 가능하게 합니다.

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.  $\bar{X}$를 모수 $\mu$의 추정량(estimator)이라 부릅니다. 한 표본에서 구한 $\bar{X}$의 관측하여 구현된 값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$를 $\mu$의 추정값(estimate)이라 부릅니다. 역시, 집단의 모수인 모분산( $\sigma^2$)을 추정하는 추정량은 표본분산 $S^2$입니다. 그 관측값인 $s^2$은 모분산의 추정값(estimate)입니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>=AP3, AR3<=AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 이상이고, AQ3 이하이면 TRUE를 표시함.



<실습강의 내용>

집단

표본

표본통계량

표본통계량으로 집단의 모수 추정 : 점 추정, 구간 추정

실습 안내

F분포 F distribution



d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


확률변수, $F$

정규분포를 이루고 분산($\sigma^2$)이 같은 두 집단으로부터 크기 $n_1$과 크기 $n_2$의 표본을 추출합니다. 이때  추출한 표본분산($S_1^2$, $S_2^2$)을 모분산으로 나눈  두 비의 비를 새로운 확률변수로 하고 이를 $F$라 합니다. 표본추출을 무작위로 반복적으로 하면 $F$의 확률밀도함수는 $F$분포를 나타냅니다. $F$분포의 분자의 자유도는 $(n_1-1)$이고 분모의 자유도는 $(n_2-1)$입니다.
 
$\dfrac{\left(\dfrac{S_1^2}{\sigma_1^2}\right)}{\left(\dfrac{S_2^2}{\sigma_2^2}\right)}=\dfrac{S_1^2}{S_2^2}$
 
여기서, 두 집단은 정규분포를 나타내고 $\sigma_1^2 = \sigma_2^2$로 가정
 
먼저 확률변수인 $F$를 살펴보면, 분자와 분모의 자유도에 따라 달라지는 $F$확률분포를 가집니다.
 
$F_{v_1,\ v_2}=\dfrac{\dfrac{\chi_{v_1}^2}{v_1}}{\dfrac{\chi_{v_2}^2}{v_2}}$
 
여기서,  $v_1$, $v_2$은 F분포의 모수인 분자의 자유도와 분모의 자유도
$\chi_{v_1}^2$, $\chi_{v_2}^2$는 모수로 $v_1$과 $v_2$를 가지는 두 카이제곱분포($\chi^2$) 
 
 
위식을 확률변수인 두 표본분산에 적용하여 $F$로 변환하면 다음과 같습니다.
 
$F_{n_1-1,\ n_2-1}=\dfrac{\dfrac{\chi_{n_1-1}^2}{n_1-1}}{\dfrac{\chi_{n_2-1}^2}{n_2-1}}=\dfrac{\dfrac{\left({\left({n_1-1}\right)\dfrac{S_1^2}{\sigma_1^2}}\right)}{(n_1-1)}}{\dfrac{\left({\left({n_2-1}\right)\dfrac{S_2^2}{\sigma_2^2}}\right)}{(n_2-1)}}=\dfrac{\dfrac{S_1^2}{\sigma_1^2}}{\dfrac{S_2^2}{\sigma_2^2}}=\dfrac{S_1^2}{S_2^2}$
 
여기서,  $n_1$, $n_2$는 두 표본의 크기
 $(n_1-1)$, $(n_2-1)$은 두 표본의 자유도
$S_1^2$, $S_2^2$는 두 표본분산
$\sigma_1^2$, $\sigma_2^2$는 두 모분산
 
확률분포, $F_{v_1,\ v_2}$
 
$F$분포($F$-distribution )는 연속확률분포(continuous probability distribution)이며 독립적인 두 카이제곱분포에 관한 비로써 정의됩니다. $U_1∼\chi_{v_1}^2$, $U_2∼\chi_{v_2}^2$이고 $U_1$과 $U_2$가 독립일 때 $F$분포를 다음과 같이 정의합니다. $F$분포는 두 모수를 가지는데 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도입니다.
 
확률분포 $F=\dfrac{U_1/v_1}{U_2/v_2}∼ F_{v_1,\ v_2}$
 
여기서,  $v_1$은 $U_1$(분자)의 자유도
$v_2$는 $U_2$(분모)의 자유도
 

$F$분포의 특성

항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 단일 분포가 아닌 모수인 분자의 자유도와 분모의 자유도에 따라 분포의 모양이 변하는 데, 분자의 자유도와 분모의 자유도가 커질 수록 정규분포에 가까워집니다. 

 

분모와 분자의 자유도가 서로 바뀌어 있는 두 $F$분포에 대하여 다음식이 성립합니다.

 

$F_{v_1,\ v_2,\ \alpha}=\dfrac{1}{F_{v_2, \ v_1 \ ;\ 1-\alpha}}$
 

$F$분포와 $t$분포의 관계

$t$분포를 제곱하면 분자와 분모의 자유도가 각각 1, $v$인 $F$분포가 됩니다.

 

$t=\dfrac{Z}{\sqrt{U/v}}\sim t_v$
 

$t_v^2=\dfrac{Z^2/1}{U/v}∼F_{1, \ v}$

 

$F$분포를 이용한 $F$검정

$F$분포로 하는 검정(test)을 $F$검정($F$-test)이라고 합니다. $F$검정은 두 모분산의 비교, 추정 및 검정 그리고 분산분석 및 상관회귀분석에 사용됩니다. 

 

$F_{v_1,\ v_2,\ ;\ \alpha}$는 $X\sim F_{v_1,\ v_2}$에 대하여 $P[X\geq a]=\alpha$가 되도록 하는 $a$의 값입니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=NORMINV(RAND(),15,2) : 정규분포를 이루는 확률변수를 랜덤하게 생성. 평균 15, 표준편차가 2인 정규분포로부터 확률변수를 랜덤하게 생성

=ROUND(NORMINV(RAND(),15,2),1) : 반올림. 괄호 안에 있는 계산 식에 의해 구해진 값을 소수점 2번째 자리에서 반올림해서 소수점 1번째 자리까지 표시. 마지막의 숫자 1을 2 혹은 3으로 변경하면 반올림해서 소수점 2번째 혹은 3번째 자리까지 표시함.

=AVERAGE(C3:C22) : 평균. C3에서 C22 범위에 있는 데이터의 산술평균을 계산함.

=SUM(G3:G42) : 합계. G4에서 G42 범위에 있는 모든 데이터를 더해서 합계를 계산함.

=COUNTUNIQUE(D3:D42) : 고유한 데이터의 개수. D3에서 D42 범위에 있는 데이터 중에서 고유한 데이터의 개수를 표시함.

=F.DIST.RT(N3,L3,L4) : L3과 L4의 자유도를 가진 F분포에서 N3 확률변수의 오른쪽 확률밀도를 계산함.

=F.DIST(A3,1,1,FALSE) : 자유도가 1, 1인 F분포에서 A3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산.



<실습강의 내용>

당도 평균이 12, 13인 딸기 집단에서 각각 20개씩 샘플링
집단평균, 전체평균
집단간 제곱, 집단내 제곱
F변환
F분포

카이제곱분포 Chi-squared distribution



자유도를 1에서 100까지 증가시키면서 카이제곱분포의 확률밀도함수 관찰


카이제곱분포의 특징
 
확률변수 카이제곱($\chi^2$)은 항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 모수(parameter, 매개변수)인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.
표본분산(확률변수 $S^2$)의 카이제곱변환
 
표준정규분포를 가지는 집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 1이 됩니다. 이 때 자유도의 정보를 가지는 총변동도 확률변수가 되며 그, 확률변수를 카이제곱($\chi_{n-1}^2$)이라  정의하면 카이제곱의 기대값은 자유도가 됩니다. 
 
 
집단이 표준정규분포를 가지면
 
$X = Z$
 
여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수
 
 
확률변수인 집단의 표본평균($\bar X$)을 점추정하면 집단의 모평균($\mu_X$)과 같습니다. 그리고 표본분산($S^2$)을 총변동과 자유도로 분리하면 다음과 같습니다.
 
 
총변동 = $\sum\limits_{i=1}^{n}{Z_i^2}$
 
자유도 = $n-1$
 
 
$\chi_{n-1}^{2}$의 정리를 사용하면
 
 
$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S_X^2}{\sigma_X^2}=(n-1)S_X^2$
 
$S_X^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma_X^2=1$
 
 
한편, 정규분포를 가지고 확률변수가 $X$인 집단(모평균 $\mu_X$, 모분산 $\sigma_X^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S_X^2$)의 확률분포(표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기가 $n$인 집단의 표본분산($S_X^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 가집니다. 
 
 
$\left({n-1}\right)\dfrac{S_X^{2}}{\sigma_{X}^{2}}=\dfrac{S_X^{2}}{\dfrac{\sigma_X^{2}}{(n-1)}}→\chi_{n-1}^2$
 
 
확률변수 $X$를 가지는 집단의 표본분산 $S_X^2$은 역시, 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S_X^2$)을 집단의 모분산( $\sigma_X^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 표현하기도 합니다.

실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=NORM.DIST(A3,0,1,FALSE) : 평균이 0이고, 표준편차가 1인 정규분포, 즉 표준정규분포에서 A3 값에 대한 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

=CHISQ.DIST(E3,1,FALSE) : 자유도가 1인 카이제곱분포에서 E3 값에 대한 확률밀도를 계산함. 1을 다른 숫자로 바꾸면, 이 숫자를 자유도로 하는 카이제곱분포의 확률밀도를 계산함. FALSE 자리에 TRUE를 입력하면 누적확률밀도를 계산함.

 

 



<실습강의 내용>

Z를 카이제곱(자유도: 1)으로 변환

Z분포와 카이제곱분포

자유도 1, 2, 3, 4, 5인 카이제곱분포

t분포 t distribution



자유도를 1에서 50까지 변화시키면서 t분포 관찰


확률변수 $X$를 가지는 개체로 이루어진 집단이 있습니다. 이  확률변수가 모평균($\mu_X$), 모표준편차($\sigma_X$)를 모수(parameter)로 가지는 정규분포를 가진다고 하면 이 집단에서 추출한 표본크기 $n$인 표본의 표본평균( $\bar X$)도 확률변수가 되며 표본의 표본표준편차도 확률변수($S_X$)가 됩니다. 

 

$$\{X_{1},\ldots ,X_{n}\}$$

여기서,  $X$는 평균이 $\mu$이고 분산이 $\sigma ^2$인 정규분포를 나타냄

 

$$\bar {X}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}$$

 

$$S^2=\dfrac {1}{n-1}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$$

 

중심극한정리에 의하여 확률변수 $\bar X$는 평균을 $\sigma_X$로 하는 종모양의 분포를 나타냅니다. 표본크기($n$)가 커질수록 종모양은 정규분포의 모양과 같아집니다. 이 종모양의 분포를 t분포라고 합니다. 그리고 표본평균($\bar X$) 표집이 나타내는 확률분포도 종모양의 분포를 나타내며 표본크기가 커질수록 종모먕이 더 뾰족해 지면서 정규분포와 같아집니다. 이 때 표본평균 표집의 모표준편차는 다음식과 같습니다.

 

$\dfrac{\sigma_X}{\sqrt{n}}$

 

다음과 같이 $(\bar X – \mu_X)$를 오차(Error)라 한다면 $\dfrac{\sigma_X}{\sqrt{n}}$는 오차$(\bar X – \mu_X)$의 표준오차(Standard Error)입니다.

 

${\rm SE} (\bar X – \mu_X)=\dfrac{\sigma_X}{\sqrt{n}}$

 

표준오차인 ${\rm SE} (\bar X – \mu_X)$는 확률변수 $\bar X$가 나타내는 확률분포(표집분포)의 표준편차와 같습니다. 즉,  $\bar X$의 확률분포가 $\sigma_X$를 중심으로 하는 종모양의 확률밀도함수로 나타난다는 것이고 그 분포값은 $\dfrac{\sigma_X}{\sqrt{n}}$가 됩니다.

 

$${\rm SE} (\bar X – \mu_X)=\sigma_{\bar X}=\dfrac{\sigma_X}{\sqrt{n}}$$

 

확률변수$\bar X$를 다음과 같이 표준화 하면 표준정규분포를 이루는 확률변수 $Z$가 됩니다. 또 모르는 모표준편차값  $\sigma_X$를 표본의 확률변수인 표본표준편차($S_X$)로 대치하면 확률변수 $t$가 됩니다.  이 떄 확률변수 $t$는 모수인 자유도에 따른 확률분포를 가집니다. 여기서 자유도는 표본의 크기에서 1을 뺀 값입니다. 반면, 확률변수 $Z$는 평균이 1이고 분산이 1인 표준정규분포를 나타냅니다. 

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

 

$\dfrac{(\bar X – \mu_X)}{\dfrac{S_X}{\sqrt{n}}}→t$

 

여기서,  확률변수 $t$는 표본크기($n$)에 따라 다른 확률분포를 가지는 $t$분포를 나타냄


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=STDEV.P(J3:J10) : 모표준편차. J3에서 J10에 있는 데이터의 모표준편차. 모분산의 제곱근.

=STDEV.S(R3:S3) : 표본표준편차. R3에서 S3에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

=NORM.DIST(AF3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1, 표준정규분포에서 AF3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.

=T.DIST(AK3,1,FALSE) : t분포 확률밀도. 자유도가 1인 t분포에서 Ak3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시.



<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본평균들의 분포

Z변환과 t변환

Z분포와 t분포

표본비율의 표집



베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 표본비율 표집의 모분산은  다음과 같습니다.

 

$${\rm E}(\hat p)=p$$

 

$${\rm Var}(\hat p)={\rm Var}(\dfrac{X}{n})=\dfrac{1}{n^2}{\rm Var}(X)=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.


표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.


960X536

1280X716

실습 강의

<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집 

표본분산의 표집



자유도가 1에서 100으로 증가할 때 카이제곱분포의 변화




d가 1, 5, 10, 50, 100 일때 각각 d을 1에서 100으로 증가시킬 때 F분포의 변화


표본분산

확률변수가 $X$이고 집단의 모평균과 모분산이 각각 $\mu_X$, $\sigma_X^2$인 집단이 있습니다. 이 집단에서 추출한 표본의 크기가 $n$인 표본을 확률변수로 표현하면 다음과 같습니다. 

 

{${X_1}, {X_2}, … , {X_n}$}

 

여기서, ${X_1}, {X_2}, … , {X_n}$은 $X$로써 같은 확률변수

 

표본분산($S^2$)은 표본평균($\bar X$)와 마찬가지로 확률변수입니다. 표본분산의 기준은 표본평균입니다. 따라서 표본크기가 n이라면 표본분산의 자유도는 (n-1)이 됩니다. 즉, 표본평균을 구하는데 표본크기 중 하나를 사용하여 자유도는 하나가 줄게 됩니다.  표본분산의 기대값은 집단의 모분산($\sigma^2$)입니다. 참고로, 표본평균의 기대값은 집단의 모평균($\mu$)입니다.

 

표본분산의 추정량(Estimator)은 다음과 같습니다.

 

$S_X^2=\dfrac{({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ , … , + {(X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2$

 

표본분산의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[S^2]=\sigma^2$

 

참고로, 표본평균의 추정량(Estimator)은 다음과 같습니다.

 

${\bar X}=\dfrac{{X_1}+{X_2}+ , … , +{X_n}}{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}{X_i}$

 

참고로, 표본평균의 기대값(Expected value)은 다음과 같습니다.

 

${\rm E}[\bar X]=\mu_X$


표본분산의 표집

집단이 정규분포를 이룬다면 표본분산의 표집은 카이제곱분포를 모분산과 자유도와 모분산의 비($\frac{n-1}{\sigma^2}$)로 표준화한 분포를 따릅니다.  표본분산의 표집의 모평균(표본분산의 기대값)은 집단의 모분산과 같고 표본분산 표집의 모분산은 다음과 같은 근사값을 가집니다.

 

표본분산 표집의 모평균 : 표본분산 기대값

 

${\rm E}[S_{X}^2]=\mu_{S_{X}^2}∼\sigma_X^2$

 

표본분산 표집의 모분산

 

${\rm Var}(S_{X}^2)=\sigma_{S_{X}^2}^2∼\dfrac{2\sigma_X^4}{n-1}$

 

여기서,  $n$은 표본크기

 

표본분산 표집의 모표준편차

${\rm SD}(S_{X}^2)=\sigma_{S_{X}^2}∼\sqrt{\dfrac{2\sigma_X^4}{n-1}}$

 

참고로, 집단이 정규분포를 이룬다면 표본평균의 표집은 정규분포를 이룹니다, 표본평균 표집의 모평균(표본평균의 기대값)은 집단의 모평균과 같고 표본평균 표집의 모분산은 집단의 모분산을 표본의 자유도로 나눈 값과 같습니다.


확률변수인 표본분산을 무차원 확률변수인 카이제곱으로 변환 후  카이제곱분포를 표본분산의 표집분포 분석에 사용

표본분산을 무차원 확률변수인 카이제곱으로 변환하면 다음과 같습니다.

 

$\chi_{n-1}^2=(n-1)\dfrac{S^2}{\sigma^2}$

 

위식의 카이제곱분포의 모수인 자유도(degree of freedom, $df$)는 다음과 같습니다.

 

$df =  n-1$

표본의 크기가 n인 표본의 분포값을 표본분산(variance) $\rm S^2$이라고 합니다.  표본평균과 마찬가지로 표본분산($\rm S^2$)도 확률변수이며 따라서 확률분포인 표집분포(sampling distribution of sample variances)를 가집니다. 표본분산과 모집단의 관계를 알 수 있다면  표본에서 구할 수 있는 표본분산으로 모집단의 모분산을 추정할 수 있습니다.

 

표본분산의 확률분포를 표본분산의 표집분포(sampling distribution of sample variances)라 합니다. 확률변수인 표본분산은 음수일 수도 있는 표본평균과 달리 음수가 아닌 0과 양의 실수입니다. 그리고 표본분산은 큰 값을 갖는 확률보다는 0에 가까운 작은 값을 갖는 확률이 더 큰 비대칭분포를 보입니다. 그리고 표본분산($\rm S^2$)을 모분산으로 나누어서 표준화를 하고  표본의 자유도(n-1)를 곱한 값을 카이제곱($\chi_{n-1}^{2}$)이라하고 아래식처럼 표현할 수 있습니다.  

 

$\chi_{n-1}^{2}=\left({n-1}\right){\dfrac{S^{2}}{\sigma^{2}}}$ 

 

새로운 확률변수인 카이제곱($\chi_{n-1}^{2}$)은 카이제곱분포(chi-squared distribution)를 나타냅니다.  카이제곱분포는 자유도(degree of freedom)이라는 모수(parameter)를 가지며, t분포와 마찬가지로 자유도마다 확률분포가 있으며,  따라서 무수히 많은 확률분포를 가집니다. 

 

정리하면, 집단이 $\sigma^2$인 정규분포를 나타내고 표본의 크기가 n인 표본을 단순임의복원추출하면,  확률변수인 표본분산($\rm S^2$)을 집단의 모분산($\sigma^2$)으로 표준화하고 자유도(n-1)를 곱한 새로운 확률변수인 카이제곱( $\chi^2$)은 자유도에 따른 카이제곱분포를 따릅니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.



<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본분산

표본분산의 표집 

표본평균의 표집



표본추출과 표집 모델링




집단의 확률분포와  표본평균 표집의 확률분포


표본평균

표본평균은 집단의 모평균을 추정하거나 모평균에 대한 가설을 검정할 때 사용합니다.

 

추정을 할 때는 추정량을 구해서 추정량이 지정하는 구간사이에 모평균이 위치한다고 표현합니다. 구간을 정하기 위해서는 신뢰구간을 정해야합니다. 보통 95%를 사용합니다.

 

반면, 표본평균과 모평균의 관계(예를들면 같다는 영가설, 귀무가설)를 검정할 때는 검정통계량을 구해서 가설을 검정합니다. 여기서도 검정을 하려면 유의수준을 정해야합니다. 보통 5%를 사용합니다.

 

표본평균의 성질은 다음 세가지가 있습니다.

 

1) 불편성 : 모평균에 대해 편향되지 않는다. 즉 표본평균의 기대값은 모평균과 같다

2) 일치성 : 표본크기를 늘리면 통계량은 집단의 모수와 점점 같아진다. 즉, 표본크기를 늘리면 표본평균은 집단의 모평균과 같아진다.

3) 유효성 : 표본크기를 늘리면 표본평균 표집의 모분산이 작아진다.


표본평균 표집(Sampling distribution)의 모평균과 모분산

표본을 나타내면

 

${\textstyle \{X_{1},\ldots ,X_{n}\}}$

 

여기서, $n$은 표본의 크기

 

표본평균의 추정량(Estimator)

 

${\displaystyle {\bar X}= {\frac {X_{1}+X_{2}+\cdots +X_{n}}{n}}}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$

 

표본분산의 추정량(Estimator)

 

${\displaystyle {S_X^2}= \dfrac {({X_1}-{\bar X})^2+({X_2}-{\bar X})^2+ \cdots +({X_n}-{\bar X})^2}{n-1}=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}({X_i}-{\bar X})^2}$

 

확률변수의 기대값은 모평균

 

${\textstyle {\rm E}[X]=\mu_X }$

 

표본평균의 기대값은 표본평균 표집의 모평균이고 집단의 모평균

 

${\textstyle {\rm E} [\bar X]=\mu_{\bar X}=\mu_X }$

 

여기서, 표본크기는 $n$ 

 

표본평균의 표집의 모분산은 다음과 같습니다.

 

${\rm Var}(\bar X)=\sigma_{\bar X}^2=\dfrac{\sigma_X ^2}{n}$

 

표본평균 표집의 모표준편차는

 

$\sigma_{\bar X}=\sqrt{\dfrac{\sigma_X ^2}{n}}=\dfrac{\sigma_X}{\sqrt{n}}$ 

 

표본평균을 $Z$변환하면 다음과 같습니다.

 

$\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}→Z$

 

$\dfrac{{\bar X}-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼{\rm N}(0, 1)$

 

여기서,  $\mu_X=\mu_{\bar X}$

 

표본평균을 $t$변환하면 다음과 같습니다.

 

$\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}→t$

 

여기서,  $t$분포의 자유도는 $n-1$  

$S_X$는 표본표준편차

$\mu_X=\mu_{\bar X}$, 그러나 $S_X≠S_{\bar X}$


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=SQRT(D3) : 제곱근. D3에 있는 값의 제곱근을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=VAR.S(R3:S3) : 표본분산. R3에서 S3에 있는 데이터의 표본분산을 계산해서 표시함. 편차제곱합을 (데이터의 개수-1)로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

=NORMDIST(AK3,AA3,AC3,FALSE) : 정규분포 확률밀도. AA3가 평균, AC3가 표준편차인 정규분포에서 AK3가 확률변수일때의 확률밀도를 계산해서 표시함. FALSE를 TRUE로 변경하면 누적확률밀도를 계산해서 표시함.



<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단의 부분집합

표본평균

표본평균의 표집

중심극한정리 Central Limit Theorem



10개의 분기를 가지는 Galton보드




32개의 분기를 가지는 Galton보드




표본의 크기(n)에 따라 표본평균이 나타내는 확률분포




집단내 분포와 표본평균의 표집분포


중심극한정리(Central Limit Theorem)는 표본평균을 계산하는 과정에서 극단적인 값들이 서로 상쇄되어 표본평균이 집단의 모평균으로 모이는 경향을 말합니다.  표본크기($n$)가 크면 표본평균의 표집의 모분산은 작아집니다. 즉, 표본평균의 확률분포는 표본의 크기가 클수록 뽀족해집니다.

 

평균 $\mu$, 분산 $\sigma^2$인 집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑으면 집단의 분포모양과는 상관없이 표본평균들의 확률분포는 표본의 크기($n$)을 증가시킬수록 정규분포에 접근합니다. 즉, 표본평균의 확률분포는 집단의 모평균을 중심으로 정규분포를 이룹니다. 이를 중심극한정리라고 합니다.

 

모평균과 가능한 모든 표본평균들 사이의 관계는 집단이 정규분포를 가지지 않아도 정규분포로 관찰됩니다. 만일, 집단이 매우 크면 가능한 모든 표본들을 모두 찾아서 표본평균의 표집분포를 완벽하게 구하는 것은 불가능합니다.  이를 해결하기 위하여  다음과 같은 이론을 정립하였습니다. 이를 중심극한정리(Central Limit Theorem)라고 합니다.

 

  • 집단이 정규분포 ${\rm N}(\mu,\sigma^2)$라면 표본평균의 표집분포도 정규분포 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.
  • 모평균이 $\mu$이고 모분산이 $\sigma^2$인 무한히 큰 집단이라면 표본의 크기($n$)가 충분히 클 때 집단이 어떠한 분포라도 표본평균의 표집분포는 근사적으로 정규분포 ${\rm N}\left(\mu,\dfrac{\sigma^2}{n}\right)$이다.

 

집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의복원추출하면 표본평균들의 확률분포는 다음과 같은 특성을 갖습니다.

 

  • 가능한 모든 표본에서 표본평균  표집의 모평균(${\mu}_{\bar{x}}$)은 집단의 모평균과 같다.

 

$\mu_\bar{x}=\mu$

 

  • 가능한 모든 표본에서 표본평균 표집의 모분산($\sigma_{\bar{X}}$)은 집단의 모분산을 $n$으로 나눈 값이다

 

$\sigma_{\bar{X}}^2=\dfrac{\sigma^2}{n}$

 

  • 가능한 모든 표본평균들의 분포는 근사적으로 정규분포이다.

 

${\bar X}\sim{\rm N}\left(\mu{,}\dfrac{\sigma^2}{n}\right)$


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치


<구글시트 함수>

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터들의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C6에 있는 수치형 데이터들의 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(F3:G3) : 평균. F3에서 G3에 있는 데이터들의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터들의 모분산. 편차제곱합을 데이터 개수로 나눔.

=VAR.S(F3:G3) : 표본분산. F3에서 G3에 있는 데이터들의 표본분산. 편차제곱합을 데이터 개수-1로 나눔.

 

 



<실습강의 내용>

데이터

데이터 요약

표본 크기가 2인 표본들의 평균

표본 크기가 3인 표본들의 평균

중심극한정리