교차표 ?
Cross table ?

1. 애니메이션

1.1. 4 × 4 교차표 : 이산확률분포

1.2. 2 × 2 교차표 : 이항검정


2. 설명

2.1. 교차표의 적용 예

2.3. 교차표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



4 × 4 교차표 : 이산확률분포




2 × 2 교차표 : 이항검정

2. 설명

2.1. 교차표의 적용 예

교차표(cross table)은  두 확률변수의 확률분포를 나타내기 위해서 사용합니다. 참고로 한 확률변수의 확률분포를 나타내는 것은 도수분포표입니다.  대응된 두 변수의 데이터로 교차표(cross table)를 만듭니다. 

 

위 애니메이션에서  표본을 이루는 개체는 딸기품종 중에서 설이고 개체가 가지는 확률변수는 과중과 당도입니다. 그리고 20개의 표본크기를 가지고 있습니다. 연속형 확률변수를 구간화하여 범주형 확률변수로 만듭니다. 여기서는 등간격으로  5구간과 4구간으로 나누었습니다. 만일 , 두 변수가 범주형 확률변수인 경우에는 구간을 나눌 필요가 없이 바로 교차표를 만들 수 있습니다. 교차표가 만드는 각 칸(cell)에는 빈도수가 들어갑니다. 빈도수가 높은 칸은 개체가 나타날 확률이 높은 구간입니다. 구간의 수를 정할 때 확률분포의 모양이 잘 나타나도록 하는 것이 중요합니다. 구간의 수는 데이터의 개수와 데이터의 범위를 함께 고려하여 정합니다. 

 

두 확률변수의 확률분포는 교차표의  주변에 표시합니다.교차표의 주변에 표시한다고 하여 이 확률분포를 주변확률분포(marginal probability distribution)라 합니다. 두 확률변수의  관계를 나타내는 빈도수 분포는 교차표 안에 나타납니다. 빈도수가 클수록 진하게 표시하여 분포를 시각화하여 보았습니다. 대응된 두 확률변수의 분포를 보여준다고 하여 결합확률분포(joint probability distribution)라고 합니다. 결합확률분포는 주변확률분포를 반영하고 동시에 두 확률변수의  상관을 보여줍니다. 상관에는 대표적으로 선형상관이 있습니다.


2.2. 교차표

데이터로 교차표(cross table or contingency table)를 만듭니다. 두 개의 확률변수를 분류(categorize)하여 집단을 만들고 각 집단에 속하는 데이터의 빈도수를 확률변수가 교차하여 만들어진 칸(cell)에 나타냅니다. 교차표는 두 확률변수의  관계를 나타내는 표라고 할 수 있습니다. 교차표는 서로 다른 두 확률변수의 도수분포표를 2차원으로 확장하여 도수분포표의 구간이 교차하는 칸(cell)을 만들어서 빈도수를 적은 것입니다. 간단하게  2차원 도수분포표라고  할 수 있습니다.  연속형 데이터의 경우 도수분포표를 만들 때와 같이 구간을 나누어 빈도수를 조사한 다음 교차표를 만듭니다.

 

두 변수가 범주형 확률변수일때 교차표의 쓰임새는 여러가지 검정에 사용할 수 있습니다. 이 때 교차표는 한 변수의 속성(범주형 확률변수값, 수준)을 행에 놓고 나머지 변수의 속성(범주형 확률변수값, 수준)을 열에 놓아 셀(Cell)을 만듭니다. 행변수의 속성과 열변수의 속성이 교차하는 셀(cell)에  두 속성을 동시에 가지는 데이터의 빈도수를 넣습니다. 교차표를 작성하여 도수분포를 살펴보면 대략 두 변수 사이의 관계를 알 수 있습니다.  분석을 위해 각 셀의 빈도수 밑에 행의 합에 대한 백분율, 열의 합에 대한 백분율, 그리고 전체 백분율을 표시하기도 합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


교차표 : 구글시트 실습

3.2. 구글시트 함수

=COUNTIF(C3:C22,”>=12″) : 조건에 맞는 데이터 개수. C3에서 C22 범위에 있는 데이터 중에서 12 이상의 데이터 개수를 세어서 표시함.

=SUM(G5:H5) : 합계. G5에서 H5에 있는 데이터들의 합계.


3.3. 실습강의

– 데이터

– 교차표

– 실습 안내


4. 용어

4.1 용어


빈도수

통계에서 사건의 빈도 (또는 절대 빈도)는 실험이나 연구에서 사건이 발생한 횟수입니다. 이러한 빈도수는 종종 히스토그램으로 표현됩니다.

 

Reference

Frequency (statistics) – Wikipedia



도수분포

통계에서 도수분포(빈도수분포)는 표본의 실험이나 측정항목의 빈도수를 표시하는 표(도수분포표)나 그래프(도수분포도)로 나타냅니다. 도수분포표의 각 항목에는 특정 집단 또는 특정 구간 내의 값이 발생하는 빈도수가 나타납니다. 도수분포표는 표본의 변수 분포를 요약하는 효과적인 방법입니다.

 

Reference

Frequency distribution – Wikipedia



4.2. 참조


Reference

Contingency table

도수분포표 ?
Frequency table ?

1. 애니메이션

1.1. 도수분포표


2. 설명

2.1. 도수분포표


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



도수분포표


2. 설명

2.1 도수분포표

변수의 각 구간에 속하는 요소(element, object, record)의 개수를 합한 것을 빈도수(도수, frequency)라 하는데 줄여서 도수라고 합니다. 각 구간별로 빈도수를 나타낸 표가 바로 도수분포표입니다.

도수분포표(frequency table)를 작성하는 것은 연속형 데이터를 정리하는 효과적인 방법입니다.

 

연속형 데이터의 도수분포도를 그려서 데이터를 분석하고자 합니다. 도수분포도를 그리기에 앞서서 우선  도수분포표를 작성합니다.

 

도수분포표 작성을 위해서는 변수의 범위(range)를 정해야 하는데  변수의 최대값과 최소값의 차로 변수의 범위를 구합니다. 그리고 동일한 간격을 가진 서로 중복되지 않는 구간(계급, bin, bucket)을  정합니다. 위의 애니메이션에서는 딸기 20개의 당도 데이터가 변수입니다.

 

‘몇 개의 구간으로 정할 것인가?’는 데이터를 분석하기 위해서 정하는 가장 중요한 결정 중의 하나입니다.  구간의 개수는 보통 데이터의 수의 제곱근에 근사한 정수로 합니다. 

구간의 개수가 정해지면 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다.

각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


도수분포표

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

도수분포표 준비

도수분포표 작성



4. 용어와 수식

4.1 용어

사분위표 ?
Quartile table ?

1. 애니메이션

1.1. 사분위표


2. 설명

2.1. 사분위표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



사분위표

2. 설명

2.1 사분위표

사분위표는 데이터를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 사분위수는 이 4개의 집단의 최대값입니다.

 

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는%를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 최대값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다. 

 

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

 

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

 

4분위수범위(interquartile range)는 제3사분위수에서 제1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

$$IQR={Q_3} – {Q_1}$$

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


사분위표 : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B12,1,TRUE) : 데이터정렬. B3와 B12 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 사분위표

– 실습 안내


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

 

모든 점수는 100번째 백분위 수 안에 있습니다.). 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

 

Reference

percentile – Wikipedia



4.2. 참조