사분위표
Quartile table

1. 애니메이션

1.1. 사분위표


2. 설명

2.1. 사분위표


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



사분위표


2. 설명

2.1 사분위표

사분위표는 데이터시각화의 한 방법입니다.

사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 이 때 4개의 집단을 대표하는 값이 사분위수입니다.

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단을 대표하는 값이 백분위수(percentile)입니다. 백분위수는  %(퍼센트)를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 대표값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다. 

 

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

제1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

제2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

제3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

 

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

 

4분위수범위(interquartile range)는 제3사분위수에서 제1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

 

IQR=Q3 Q1IQR={Q_3} – {Q_1}

 

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


사분위표 : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B12,1,TRUE) : 데이터정렬. B3와 B12 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 사분위표

– 실습 안내



4. 용어와 수식

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

 

모든 점수는 100번째 백분위 수 안에 있습니다.). 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

 

Reference

percentile – Wikipedia