분위수-분위수 그림 ?
Q-Q plot ?

1. 애니메이션

1.1. Q-Q plot


2. 설명

2.1. 분위와 분위수(quantile)

2.2. Q-Q plot


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



Q-Q plot

2. 설명

2.1. 분위(分位)와 분위수(分位数, quantile)

분위는 순서가 있는 확률변수값(표본에서는 데이터)을 같은 확률질량(표본에서는 개체수)로 나누어 만든 범위(위치가 있는 범주)입니다. 분위는 위치에 따른 순서가 있고 그 순서는 분위 앞의 자연수로 나타냅니다. 예를 들어 4개의 분위의 순서는 1분위, 2분위, 3분위, 4분위로 표현합니다. 그리고 분위수는 각 분위의 위치를 나타내는 실수입니다. 예를 들어 1분위수, 2분위수, 3분위수, 4분위수가 있습니다. 정리하면 분위수는 같은 확률질량을 가지는 분위의 대표값이라고 할 수 있습니다.

백분위수(百分位数)와 데이터 분포

분위수에는 대표적으로 사분위수(四分位数, quartile)와 백분위수(百分位数, percentile)가 있습니다. 사분위는 4개의 분위이며 각 분위에 있는 데이터의 개수의 비율은 전체 데이터 개수의 25%로 같습니다. 백분위의 경우에는 100개의 분위이며 각 분위에 존재하는 데이터의 개수는 전체 데이터 개수의 1%로 모두 같습니다. 표준정규분포에 백분위를 적용하면 백분위수를 계산할 수 있습니다. 표준정규분포의 백분위수는 Z-score 라고도 합니다.

모집단의 분위와 분위수

모집단분포는 정규분포로 모델링하는 경우가 많습니다. 따라서 모집단의 분위와 분위수는 정규분포로부터 계산됩니다. 정규분포는 계산의 편의를 위해 표준정규분포로 변환됩니다. 무한의 개체수를 가지고 연속형 확률변수로 표현되는 모집단에서 분위의 개수는 유한개로 모델링됩니다. 그리고 각 분위는 같은 확률(확률질량)을 가집니다. 각 분위의 분위수(quantile)는 각 분위의 확률변수값의 평균입니다.

표본의 분위와 분위수

분위의 개수에 비해 표본크기가 충분히 큰 경우는 관측한 확률변수값(데이터)을 오름차순이나 내림차순으로 나열하고 같은 데이터 개수를 가지도록 범위(순서를 가진 범주)를 생성합니다. 이 때 확률변수값의 각 범위를 분위라 하며 분위는 위치를 가지게 되는 데 이 위치를 실수로 나타내면 분위수(分位数)가 됩니다.

예) 표본크기(표본을 이루는 개체의 수)가 400인 표본의 백분위수(百分位数, percentile)

1. 데이터를 오름차순으로 정리

2. 데이터를 4개씩 묶어 100개의 분위를 생성 : 1분위, 2분위, … , 100분위

3. 각 분위의 산술평균을 구하여 표본의 백분위수를 각 분위의 산술평균으로 구함 :  1분위수, 2분위수, … , 100분위수

분위의 개수보다 표본크기가 작은 경우 (예를 들면 백분위인 데 표본크기는 20인 경우)는 표본분포를 정규분포로 가정하고 구간을 만듭니다. 여기서 구간의 수는 분위의 개수를 의미합니다. 표본의 분포를 정규분포로 모델링하여 확률분포의 매개변수(모수)를 구하면 같은 확률(개체의 수)을 가지는 구간(분위)을 생성할 수 있습니다. 예를 들어 표준정규분포를 100분위로 나눈다면 각 분위의 분위수를 계산할 수 있습니다. 그리고 표본의 데이터가 어느 분위에 속하는 지를 분위의 구간으로 알 수 있습니다.

예) 표본크기가 20인 표본의 백분위수 : 정규분포의 백분위수로 모델링

1. 표본분포를 정규분포로 가정

2. 정규분포의 매개변수(표본평균과 표본분산)를 표본데이터로 부터 계산

3. 표본분포를 표준정규분포로 변환

4. 데이터를 오름차순으로 정리하고 어는 분위에 속하는 지 판정

표준정규분포 분위의 분위수와 그 분위에 속한 데이터 비교 : Q-Q plot

분위수의 계산의 편의성을 위해 정규분포를 표준정규분포로 변환합니다. 표준정규분포는 각 분위의 분위수를 알 수 있고 표본의 데이터는 어느 분위에 속하는 지 알 수 있습니다. 따라서 표본의 데이터가 속한 분위에서 분위수와 데이터(확률변수 관측값)를 비교할 수 있습니다. 표준정규분포의 각 분위의 분위수와 그 분위에 속한 데이터값의 비교를 2차원 직교좌표계에서 시각화한 것이 Q-Q plot 입니다.


2.2. Q-Q plot의 활용

Q-Q plot (Quantile-Quantile plot)을 그대로 번역하면 “분위수 – 분위수  그림”입니다.

추론통계에서 가설의 검정방법을 결정함에 있어 먼저 모집단이 정규분포를 나타낸다는 가정을 합니다. 모집단의 정규분포 가정은 표본 데이터의 정규성검정을 통해 검정됩니다. 정규성검정을 하는 방법 중에서 데이터시각화 방법으로 Q-Q plot이 있습니다.  Q-Q plot은 여러 프로그램(Goolge sheet, R등)을 이용하여 그릴 수 있습니다.

 Q-Q plot으로 표본 데이터의 정규성검정

표준정규분포와 표본데이터의 분포를 비교하기 위해서 Q-Q plot을 사용하면 직관적이고 시각적인 정규성검정이 가능합니다. Q-Q plot은 2차원 직교좌표계에서 점(Point)로 표현합니다. 가로축은 표준정규분포의 백분위수인 Z score 를 나타내는 실수축입니다.  세로축은 백분위에 속하는 데이터(확률변수의 관측값)를 나타내는 실수축입니다. 표본을 이루는 개체를 나타내는 점을 좌표(X, Y)로 표현하면 개체가 속하는 분위의 분위수가 X좌표의 값이고 표본 데이터가 Y좌표의 값이 됩니다. 만일 표본이 표준정규분포를 따른다면 점들은 직선($y=x$)상에 위치하게 됩니다. 이 경우에 Q-Q plot에서 데이터가 정규분포를 따르는 구간을 직관적으로 알 수 있는 큰 장점이 있습니다.

Q-Q plot으로 두 데이터 분포를 비교

Q-Q plot은 X축에 비교의 기준이 되는 분포의 분위를 생성합니다. 그리고 분위의 평균이 분위수(quantile)가 됩니다. 비교의 대상이 되는 데이터의 분포는 Y축에 나타냅니다. 기준이 되는 데이터 분포의 분위수와 그 분위에 속한 데이터를 좌표로 하는 점을 그립니다. 이 때 점의 수는 비교 대상이 되는 데이터의 수와 같습니다. 점이 같은 직선(Y=X)상에 위치하는 구간은 두 분포가 같다고 할 수 있고 두 분포의 차이는 직선에서 멀어지는 모양으로 나타납니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


Q-Q Plot : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B22,1,TRUE) : 데이터정렬. B3와 B22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

=COUNT(E3:E22) : 데이터개수. E3와 E22 범위에 있는 숫자형 데이터들의 개수.

=NORM.S.INV(F3) : 표준정규분포의 확률변수. F3를 누적확률밀도로 가지는 표준정규분포 상에서의 확률변수(표준정규분포 가로축의 값).

=NORMDIST(L3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1인 정규분포, 즉 표준정규분포 상에서 L3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산함.


3.3. 실습강의

– 데이터

– 데이터정렬

– 백분위수

– Z Score

– Q-Q plot

– 실습 안내


4. 참조

4.1. 용어


Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선($y = x$)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선($y = x$)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

Reference

Q-Q plot – Wikipedia