확률화구획 실험설계 Randomized block design of experiment

목차



3. 실습
3.1. 구글시트
3.2. 구글시트 함수
3.3. 강의 영상


1. 애니메이션


확률화구획 실험설계


2. 설명

자동차의 연비가 운전자에 따라 영향을 받을 수 있는 문제를 해결하기 위하여 완전확률화 실험설계의 예는 다음과 같습니다. 15대의 차를 5명의 운전자에게 무작위(random)로 3대씩 배정합니다. 15대의 차에 1번부터 15번까지의 번호를 부여한 다음, 추첨으로 나오는 번호순서대로 운전자를 배치합니다.이와 같이 실험을 설계하면 운전자에 의한 변동이 전체 관측값에 균등하게 영향을 미치어 다른 운전자로 인해 연비가 달라질 가능성이 줄어듭니다.

 

완전확률화 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 B1 A2 B2 C1 A4
B5 C4 A1 A3 C3
 C5 B4 A5 B3 C2

완전확률화 실험설계로 15대의 자동차를 5명의 운전자에게 랜덤하게 배정할 때. 위의  배정 결과는 완전확률화 실험설계의 단점을 보여줍니다. 이를 테면, 운전자 1은 B와 C 회사차만, 운전자 3은 A와 B 회사차만 실험하게 되어 운전자간의 변동이 오차항에 평균화되어 포함되지를 못합니다. 그래서 이문제를 해결하기 위하여 한 운전자에 3대보다 많은 차를 배치하는 방법을 사용하여야 합니다. 그러나 실험비용으로 인하여 한 운전자간 배치할 수 있는 자동차 대수가 3대가 최대라고 한다면 운전자간의 변동이 심한 경우 오차항은 단순한 실험오차가 아니라 운전자에 대한 오차가 반영된 것일 수 있습니다. 작은 수의 실험표본의 한계를 극복하기 위해 인위적으로 각 운전자가 각 회사차를 적어도 한번씩은 실험하도록 하는데 이와 같은 실험방법을 확률화구획 실험설계(randomized block design of experiment)라고 합니다.

 

확률화구획 실험설계에 따른 실험설계의 예

운전자 1 2 3 4 5
자동차 A1 B1 C1 A2 A3
C2 C3 A4 B2 C4
B3 A5 B4 C5 B5

 

위의 표에서 전체 관측값들을 운전자에 따라 5개의 집합으로 나눈 것을 구획(블록, block)이라 합니다. 운전자와 같이 구획을 나타내는 변수를 구획변수(block variable)라고 합니다. 구획은 일반적으로 인자 외의 다른 요인에 의한 변동이 심할 경우 사용됩니다. 예를 들어, 벼품종에 따른 수확량을 조사할 때 관심 원인(인자)은 벼품종입니다. 하지만 실험에 사용되는 논의 지력에 따라 수확량이 달라집니다. 따라서 지력으로 구분되는 큰 면적의 논을 일정한 크기의 작은 구획(블록)으로 분할 한 후 지력별로 구분되는 각 구획에 각 품종의  벼를 인위적으로 배치하여 심습니다. 이와 같이 하면 지력의 차가 심한 경우에도 그로 인한 변동을 제거할 수 있으므로 벼품종간의 수확량 차이에 대해 더욱 정확하게 측정할 수 있습니다.


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 



3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>AP3, AR3<AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 초과이고, AQ3 미만이면 TRUE를 표시함.


3.3. 강의영상

– 집단

– 랜덤 샘플링(완전확률화 표본추출)

– 표본통계량

– 표본통계량으로 모수 점추정, 구간추정

– 샘플링된 빈도 수

– 실습 안내