DATA SCIENCE : 27
DATA SCIENCE eISSN

[ Q-data science ]

이산형(discrete type) 데이터의 평균은 연속형인가?

목차

네, 이산형 데이터가 정수라도 평균은 연속형 값이며 실수입니다.

이산형 확률변수의 표본은 이산형 데이터입니다.

독립이고 동일한 분포를 따르는 이산형 확률변수의 표본평균도 확률변수입니다.

표본크기가 무한대로 커지면 표본평균의 분포는 정규분포로 수렴합니다.  -> 중심극한정리

실제 분석에서는 표본의 이산형 데이터 개수가 30개 이상이면 표본평균의 분포를 연속형 정규분포로 근사하여 신뢰구간 추정이나 가설검정 등에 유용하게 활용할 수 있습니다.

1.이산형 데이터의 평균

1.1. 이산형 확률변수의 표본은 이산형 데이터

이산형 확률변수로부터 표본을 추출하면, 그 표본은 이산형 데이터입니다.
예를 들어, 주사위 눈금이라는 이산형 확률변수 $X$($X$∈{1,2,3,4,5,6})에서 5개의 표본을 추출하면 (2,4,1,5,3)과 같은 정수 수체계 기반의 이산형 데이터가 됩니다.

1.2. i.i.d. 이산형 확률변수의 표본평균은 연속형 확률변수

독립이고 동일한 분포(i.i.d.)를 따르는 이산형 확률변수($X_1, X_2, \ldots, X_n$)의 평균($\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$)도 확률변수입니다. 이유는 각각의 $X_i$가 확률적이므로 평균도 확률적인 결과를 갖는 함수가 됩니다.

1.3. 이산형 데이터의 평균은 연속형 실수

이산형 데이터는 보통 정수로 구성되지만, 그 평균은 정수일 필요는 없으며 실수입니다.
예를 들어, 주사위 눈금 {2,4,6}의 평균은 4.0이고, {2,3,5}라면 평균은 3.33…로 연속형 값이 됩니다. 따라서 이산형 데이터라도 평균은 항상 연속형 실수로 존재합니다.

1.4. 중심극한정리

표본크기 n이 커지면, 표본평균의 분포는 정규분포에 수렴합니다. 이를 중심극한정리(Central Limit Theorem)라 하며, 이산형이든 연속형이든 원래 분포와 관계없이 적용됩니다.
실제로는 n≥30이면, 정규분포로 근사하여 신뢰구간 추정, 가설검정 등 다양한 통계 분석에 유용하게 활용할 수 있습니다.

 

Fig. 1. 주사위와 평균