우리 회사 고객의 연령은?
평균 35세, 표준편차 5세. 범위는 20~49세입니다.
우리 회사 고객 500명을 랜덤하게 추출해서 연령을 조사해서, 다음과 같이 테이블로 정리했습니다.
고객ID | 구매시점 나이 |
1 | 37 |
2 | 34 |
3 | 25 |
4 | 29 |
5 | 39 |
6 | 37 |
7 | 27 |
8 | 41 |
9 | 37 |
… | … |
연령별 분포를 알기 위해, 연령 구간에 따른 고객 수를 파악해서 도수분포도를 그려보았습니다. 32~34세 사이에 122명이 분포하고, 35~38세 사이에 114명이 분포합니다.
연령별 고객 수를 합계로 나누어서 상대적인 도수를 구해보았습니다. 상대도수는 전체에서 차지하는 비율이고, 이를 확률로 표현할 수 있습니다. 우리 회사 고객 중 1명을 뽑으면, 이 고객의 연령이 32~37세일 확률은 47%이고, 29~40세일 확률은 75%입니다.
나이 | 고객 수 | 상대도수(=확률) |
20-22 | 6 | 0.01 |
23-25 | 17 | 0.03 |
26-28 | 54 | 0.11 |
29-30 | 72 | 0.14 |
32-34 | 122 | 0.24 |
35-37 | 114 | 0.23 |
38-40 | 71 | 0.14 |
41-43 | 33 | 0.07 |
44-46 | 9 | 0.02 |
47-49 | 2 | 0.00 |
합계 | 500 | 1.00 |
수학적 모델링을 통해 위의 상대 도수 분포를 이용해서 아래와 같은 확률분포를 만들어보았습니다.
확률분포를 가지고, 우리 회사 고객의 연령을 예측할 수 있습니다.
우리 회사 고객의 연령이라는 데이터를 수집해서, 이 데이터의 분포를 확인하고, 연령을 확률변수로 하는 확률분포를 만듦으로써, 이제 확률을 이용한 추론과 예측이 가능해지게 되었습니다.
* 본 데이터는 개인정보 보호를 위해, 원본 데이터의 특성을 반영하여 가상의 데이터를 생성하였습니다.