2차원 좌표계 ?
2D coordinate system ?

1. 애니메이션

1.1. 2차원 직교좌표계


2. 설명

2.1. 2차원 좌표계

2.2. 2차원 직교좌표계

2.3. 2차원 극좌표계


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



2차원 직교좌표계

2. 설명

2.1. 2차원 좌표계

두 변수를 가지는 개체(요소, 객체, object, element)를 시각화 할 때, 2차원 좌표계를 사용할 수 있습니다. 2차원 좌표계에는 대표적으로 직교좌표계(Cartesian coordinate system, Descartes coordinate system)와 극좌표계(원형좌표계, polar coordinate system)가 있습니다. 


2.2. 2차원 직교좌표계

2차원 직교좌표계의 두 좌표축(axis)은 직각으로 위치하며 두 좌표축은 서로 영향을 주지 않는 독립을 나타냅니다.

개체의 표현

변수값의 속성이 범주형이 아니라 이산형이나 연속형과 같은 수치를 나타내는 경우, 이때의 변수값을 변량(variate)이라고 합니다. 변량은 간격척도나 비례척도가 적용된 관측도구로 측정되어 양적 데이터가 됩니다. 변량은 수치로 실현되는 변수값을 의미합니다. 따라서, 변량은 좌표계에서 점으로 표현할 수 있습니다. 

2차원 직표좌표계에 위치한 한 점은 두 좌표값으로 표현할 수 있습니다. 2차원 직교좌표계의 한 점은 좌표축(coordinate axes)에 투영할 수 있습니다. 이때 투영한 점이 좌표축의 좌표(coordinates)가 됩니다. 그리고 0을 기준(origin)으로 양수는 값이 증가하는 방향에 있고 음수는 양이 감소하는 방향에 있습니다. 정리하면 2차원 직교좌표계에 있는 한 점은 두 개의 변수값을 가지며 특별히 변수값의 속성이 수치인 경우, 두 변량을 가집니다.

예를 들어 딸기를 범주명으로 본다면 그 범주에 포함되는 개체를 딸기ID로 구분할 수 있습니다. 딸기 개체는 당도와 과중이라는 속성을 가지고 그 속성을 변수(variable)로 모델링할 수 있습니다. 이때 딸기 개체를 점(point)으로 생각한다면 딸기의 속성인 당도와 과중을 두 축으로 하는 2차원 직교좌표계를 사용하여 딸기 개체를 점으로 표현할 수 있습니다. 

집단의 표현

개체를 개체의 속성이 만드는 공간의 점으로 모델링하여 개체가 모인 집단을 산점도로 집단을 시각화할 수 있습니다. 예를 들어 딸기 집단을 딸기의 속성인 과중과 당도가 만드는 2차원 직각좌표계에서 점의 집합으로 표현할 수 있으며 이를 2차원 산점도라고 합니다.

1개의 독립변수와 종속변수의 관계를 나타내는 함수(function)를 표현할 때, 함수는 총 2개의 변수로 표현되므로 2차원 직교좌표계를 사용하여 시각화 할 수 있습니다. 함수를 서로 직교하는 좌표축에서 표현할 때, 연속형 함수는 연속적으로 이어진 점들의 집합으로 그려집니다.


2.3. 2차원 극좌표계

2차원 극좌표계는 원점(origin)에서의 거리(radius)와 거리를 나타내는 방향(radial direction)과 그 방향의 기준이 되는 극축(polar axis)과의 각도가 좌표입니다. 여기서, 극축은 원점에서 시작되며 보통 가로선으로 표현합니다. 정리하면, 극좌표계는 원점의 위치와 원점의 방향이 기준이 되며 원점의 위치에서의 거리와 원점의 방향(극축)과의 각도가 좌표가 됩니다. 2차원 극좌표계에서는 원점에서의 거리와 극축에서의  각도 1개를 좌표로 가집니다. 참고로 3차원 극좌표계에서는 각도가 2개의 좌표로 구성됩니다. 극좌표계에서는 직교좌표계와 마찬가지로 좌표는 서로 영향을 주지 않는 독립입니다.

개체의 표현

변수값의 속성이 범주형이 아니라 이산형이나 연속형과 같은 수치를 나타내는 경우, 이때의 변수값을 변량(variate)이라고 합니다. 변량은 간격척도나 비례척도가 적용된 관측도구로 측정되어 양적 데이터가 됩니다. 변량은 수치로 실현되는 변수값을 의미합니다. 따라서, 변량은 좌표계에서 점으로 표현할 수 있습니다. 

2차원 극좌표계에 위치한 한 점은 두 좌표값인 거리와 각도로 표현할 수 있습니다. 2차원 극좌표계의 한 점은 원점에서의 방향과 거리로 표현한다고 할 수 있고 모두 양수입니다. 는 데 특히, 점들의 집합을 이루는 점들의 원점과의 거리들은 집합의 퍼짐을 나타내는 측도(measure)로 사용할 수 있습니다. 원점을 0으로 한다면 거리는 항상 양수이고 각도는 회전방향에 따라 양수 또는 음수로 표현되며 0($0$rad)과 1회전($2\pi$rad) 사이의 수치로 계량화합니다. 

예를 들어 딸기를 범주명으로 본다면 그 범주에 포함되는 개체를 딸기ID로 구분할 수 있습니다. 딸기 개체는 당도와 과중이라는 속성을 가지고 그 속성을 변수(variable)로 모델링할 수 있습니다. 이때 딸기 개체를 점(point)으로 생각한다면 딸기의 속성인 당도의 제곱과 과중의 제곱의 합의 제곱근은 원점에서의 거리이고 이 거리는 의미가 있을 수 있습니다. 한편 딸기 개체의 두 속성을 당도와 출하월이라 한다면 당도는 항상 양수이므로 원점에서의 거리($r$)로 모델링하고 출하월은 1년이라는 주기성을 가지므로 각도($\theta$)로 모델링한다면 극좌표로 표현할 수 있습니다.

$$\text{딸기ID}=(r, \theta)$$

여기서, $r$은 당도

$\theta$는 출하월

집단의 표현

개체를 개체의 속성이 만드는 공간의 점으로 모델링하여 개체가 모인 집단을 산점도로 집단을 시각화할 수 있습니다. 예를 들어 딸기 집단을 딸기의 속성인 과중과 출하월이 만드는 2차원 극좌표계에서 점의 집합으로 표현할 수 있으며 이를 2차원 산점도라고 합니다.

극좌표계에서 원을 나타내는 함수의 표현

원의 중심이 원점인 ($0. 0$)에 있고 반지름이 $r$인 원의 경우, 극좌표계에서의 표현식은 다음과 같습니다. 모든 점에서 원점에서의 거리가 일정함을 표현하고 있습니다.

$$\rho=r$$

여기서, $\rho$는 원점으로부터의 거리

$r$은 원의 반지름

원의 중심이 극좌표계에서 ($r_0,\theta_0$)에 위치하고 반지름이 $r$인 경우, 원의 방정식은 다음과 같이 나타낼 수 있습니다.

$$\rho^2 – 2r_0\rho\cos(\theta – \theta_0) + r_0^2 = r^2$$

여기서, $\rho$는 원점으로부터의 거리

$r$은 원의 반지름

($r_0,\theta_0$)는 원의 중심

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


2차원 직교좌표계 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 실습강의 목차

– 데이터

– 범위

– 산점도


4. 용어

4.1 용어


제목

내용.

Reference

Title – Wikipedia


4.2. 참조


Reference

Wikipedia

1차원 좌표계 ?
1D coordinate system ?

1. 애니메이션

1.1. 1차원(직선)좌표계


2. 설명

2.1. 1차원 직선좌표계와 도수분포도

2.2. 1차원 직선좌표계와 척도


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



1차원(직선)좌표계

2. 설명

2.1. 1차원 직선좌표계와 도수분포도

변수의 변수값을 시각적으로 표현할 때 1차원 좌표계(1 dimensional coordinate system)에 점(point)으로 표시합니다. 1차원 좌표계에서 한 점의 좌표는 기준(origin)에서의 거리와 방향으로 정해집니다. 기준이 0인 경우 양수는 값이 증가하는 방향이 되고 음수는 양이 감소하는 방향을 나타냅니다. 반대로 한 점은 한 좌표값으로 표현할 수 있습니다. 즉, 1차원 직선좌표계의 한점은 한개의 변수값을 나타냅니다.

1차원 직선좌표계에서 도수분포도로 확장

변수의 변수값(데이터)을 시각적으로 표현할 때 1차원(직선)좌표계를 사용할 수 있습니다. 그런데 데이터가 많으면 점이 겹쳐서 표현되므로 시각적으로 분명하게 분포를 표현하는 데 한계가 있습니다. 이 경우, 이산형 변수는 간격을 두고 연속형 변수는 구간을 두어 그 변수값이나 변수값이 속한 구간의 빈도수를 직교축에 막대그래프로 표현합니다. 이를 도수분포도라고 하며 연속형 변수의 경우 히스토그램으로 표현하기도 합니다.


2.2. 1차원 직선좌표계와 척도

척도는 관측대상인 개체의 속성을 좌표계에 나타내는 방법을 정의합니다. 예를 들어, 1m의 물리적 거리가 좌표계에서 1단위로 표현될 수 있습니다. 이 척도는 좌표계의 각 점이 실제 거리를 어떻게 나타내는지 결정합니다. 척도는 좌표계 전체에 걸쳐 일관되게 적용되어야 합니다. 1차원 좌표계에서 척도는 다음과 같은 역할을 가집니다.

– 위치의 정의 : 1차원 좌표계에서 각 점의 위치는 척도에 따라 정의됩니다. 예를 들어, 척도가 1m당 1단위라면, 좌표계의 5단위는 실제의 5m를 나타냅니다.

– 실제 거리 측정 : 1차원 좌표계에서 두 점 사이의 거리는 그들의 좌표 차이를 통해 측정될 수 있습니다. 이 거리는 척도를 통하여여 실제 물리적 거리로 변환될 수 있습니다.

1차원 직선좌표계에 적용되는 척도유형

– 명목척도는 1차원 좌표계에 일반적으로 적용되지 않습니다. 수학적 연산이 의미가 없습니다.

– 순서척도(순위척도)는 1차원 좌표계에 일반적으로 적용되지 않습니다. 수학적 연산이 제한적입니다.

– 간격척도(등간척도)는 1차원 좌표계에 적용됩니다. 간격척도가 적용된 1차원 좌표계의 0점은 위치나 상태의 주어진 기준을 의미합니다. 예를 들어, 섭씨온도는 온도차를 나타내는 데 사용되며 0점은 물이 어는 상태를 의미합니다. 측정된 간격은 수학적 연산이 가능합니다.

– 비례척도(비율척도)는 1차원 좌표계에 적용됩니다. 비례척도가 적용된 1차원 좌표계의 0점은 존재가 없음이나 양(크기)가 없음을 의미합니다. 예를 들어, 캘빈온도는 실제 분자의 운동상태를 표현하는 데 사용되며 0점은 분자의 운동이 없는 상태를 의미합니다. 측정된 비율은 수학적 연산과 비교 분석이 가능합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


1차원 직선좌표계 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 데이터

– 범위

– 히스토그램


4. 용어

4.1 용어


제목

내용.

Reference

Title – Wikipedia


4.2. 참조


Reference

Wikipedia

A/B 테스트

1. 애니메이션

1.1. A/B 테스트


2. 설명

2.1. A/B 테스트


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1 A/B 테스트

AB테스트는 두 개의 조건, A와 B에 따른  테스트의 결과를 대조하는 실험입니다. 테스트 결과를 긍정과 부정으로 하면 두 조건 중 하나를 선택할 때 사용할 수 있습니다.

웹 페이지 디자인 A, B중에서 사용자가 더 선호하는지를 알고자 할 때 사용합니다. 선호하는 결과는 그 웹페이지를 선택한 사람 중 구매한 사람의 빈도수를 사용할 수 있습니다.

 

A딸기와 B딸기가 어느 것이 더 맛있다고 소비자가 생각하는 지를 보기 위하여  AB 테스트를 다음과 같이 시행하였습니다.

 

180명이  참가했는데  A딸기를 100명이 B딸기를 80명이 시식하였습니다. 테스트는 맛있는가 맛이 없는가 두가지에서 선택하도록 하였습니다. A딸기를 먹은 사람 중 75명과 B딸기를 먹은 사람 중 24명이 맛있다는 평가를 했습니다. 그럼, A딸기가 더 맛있다고 할 수 있을까요?

 

우선 A딸기를 선택하거나 B딸기를 선택할 때 무작위(random)여야 합니다.

그리고 결과가 A딸기는 모두가 긍정으로 반응을 하고 B딸기는 모두가 부정으로 반응을 하면 A딸기는 맛있고 B딸기는 맛이 없다고 분명하게 결정할 수 있습니다.

 

이번 테스트의 결과는 A딸기에서 맛있다는 비율은 75/100이고 B딸기는 24/80입니다.

 


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


A/B 테스트

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

교차표 작성

결과 분석



4. 용어와 수식

4.1 용어

표본과 모집단의 통계량 비교

1. 애니메이션

1.1. 당도 통계량


2. 설명

2.1. 모집단통계량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 수식


1. 애니메이션



당도 통계량


2. 설명

2.1 모집단통계량

통계량을 의미하는 Statistic의 복수형인 Statistics는 통계를 의미합니다.

통계량이 모이면 통계가 된다는 뜻이겠지요.

 

통계량에는 우리가 잘 아는 평균이 있습니다.

20개의 딸기의 당도 데이터가 있습니다.

즉, 20개의 숫자입니다.

20개의 숫자 무리를 대표하는 것에는 무엇이 있을까요.

일단 당도의 평균인 11.89라는 값이 있습니다. 20개의 당도를 대표하는 값입니다.

 

그리고 평균으로 부터 20개의 값들이 얼마나 떨어져 있는지도 궁금합니다.

그것이 분산입니다. 여기서는 0.1245라는 값입니다. 분산의 값이 커지면 20개의 당도 값은 서로 많이 떨어져 있다는 뜻입니다.

 

그렇다면 분산은 어떻게 구할까요.

평균으로 부터 떨어진 거리를 편차라 할때 편차 제곱의 평균을 구한 것입니다.

즉, 평균으로 부터 떨어진 거리를 제곱한 값들을 숫자무리의 자유도로 나눕니다. 숫자무리가 모집단인 경우는 자유도가 숫자의  갯수이고 숫자무리가 표본인 경우는 자유도가 숫자의 갯수에서 1을 뺸 값입니다.

그리고 당도값과 같은 단위로 나타내기 위하여 분산을 다시 제곱근을 하여  구한  표준편차도 있습니다.

 

당도값 20개가 이루는 숫자무리를 표현함에 있어 다음 세가지로 정리해 보겠습니다.

첫째는 20개의 당도가 있고 그 당도들은 하나의 대표값으로 표현할 수 있습니다. 평균입니다.

둘째는 20개의 값이 평균으로 부터 떨어진 거리가 20개있고 그 거리들을 하나의 대표값으로 표현할 수 있습니다. 표준편차입니다.

세째는 숫자무리를 표현하는 통계량에는 평균, 분산, 표준편차가 있다는 것입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


모집단통계량

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

평균

편차

편차제곱

분산

표준편차

데이터시각화



4. 용어와 수식

4.1 수식


표준오차 ?
Standard Error ?

목차

1. 애니메이션

1.1. 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)

1.2. 두 표본의 표본평균 분포 : 중심극한정리)


2. 설명

2.1. 차이, 편차, 오차, 잔차

2.2. 표본통계량의 오차 : 모수를 기준으로 하는 편차

2.3. 표본평균의 표준오차

2.4. 표본평균의 표준오차 추정량


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

4.2 수식


1. 애니메이션



그림 표본크기가 1에서 100까지 표본평균의 분포 변화 (모집단 : 표준정규분포)




그림 두 표본의 표본평균 분포 : 중심극한정리


2. 설명

2.1. 차이, 편차, 오차, 잔차

차이

차이(difference)는 두 값의 간격입니다. 기준이 없습니다. 0과 양수만을 가집니다.

편차

편차(deviation)는 값에서 기준값을 뺸 값입니다.  표본에서는 기준값으로 표본평균을 많이 사용합니다. 0과 양수와 음수를 모두 가집니다.

오차

오차(error)는 기대값을 기준값으로 사용하는 편차입니다. 즉, 기대하는 값과의 어긋남을 나타냅니다. 0과 양수와 음수를 모두 가집니다.

잔차

잔차(residual)은 기대값이 회귀점, 회귀선, 회귀면, 최귀초평면에 위치하는 경우의 오차입니다. 즉, 회귀하지 않는 양을 나타냅니다. 0과 양수와 음수를 모두 가집니다.


2.2. 표본통계량 오차 : 모수를 기준으로 하는 표본통계량의 편차

모수 : 모평균, 모분산 등

집단을 표현하는 속성값(모수)에는 모평균($\mu$)과 모분산($\sigma^2$)이 있습니다. 실제에서는 집단의 크기가 클수록 또는 무한집단인 경우 집단의 속성을 알기가 어렵습니다. 그래서, 표본을 통해 모집단의 속성을 알고자 하는  실험을 진행합니다. 예를 들어, 실험의 결과 로 집단이 정규분포를 나타냄을 알고 그 정규분포의 모수(매개변수, parameter)를 안다면 집단의 속성인 확률분포를 알 수 있습니다.

표본통계량 : 표본평균, 표본분산 등

표본(sample)은 집단을 이루는 개체(object)를 추출한 것입니다. 그래서 표본을 표본집단이라고 부르기도 합니다. 표본크기는 추출한 개체의 개수입니다. 표본이 추출된 집단은 그 표본의 모집단(population)이라고 합니다. 집단을 집합으로 표현하고 표본을 그 집합의 부분집합으로 표현할 수 있습니다. 

표본을 이루는 개체(object)가 수치를 가지고 표본을 이루는 개체의 개수를 알면 표본평균(sample mean)과 표본분산(sample variance)을 구할 수 있습니다. 표본표준편차(sample deviation)는 표본분산의 제곱근으로 정의합니다. 표본표준편차의 단위는 표본평균의 단위와 같습니다. 

표본평균(sample mean)은 표본의 변동(sample variation)이 가장 작게 되는 표본의 기준값입니다. 표본의 변동은 값과 기준값과의 편차를 제곱한 양들의 합입니다. 표본평균은 표본(data set)을 대표하는 대표값의 한 종류 입니다.

표본분산(sample variation)은 표본의 확률변수값(표본데이터)의 분포 정도를 나타내는분포값의 한 종류입니다. 참고로 분포를 나타내는 다른 값에는 분위수(quantile)가 있습니다. 표본분산($S^2$)은 각 값과 표본평균과의 차이의 제곱의 합을 자유도로 나누어서 구합니다. 표본분산은 각 값과 표본평균과의 편차의 제곱의 합이 가장 작을 때의 값을 자유도로 나눈 값입니다. 여기서 편차제곱의 합이 가장 작게 되는 값이 평균입니다. 표본분산 값의 단위는 표본평균의 제곱의 단위와 같습니다. 편차제곱의 합을 자유도로 나눈 값인 표본분산은 표본의 분포의 정도를 나타냅니다. 표본분산을 구할 때 표본크기가 작은 경우, 표본크기과 자유도로 나누는 결과는 더욱 다르게 나타납니다. 

표본통계량 오차 : 표본평균의 오차, 표본분산의 오차 등

표본평균은 모집단의 평균(모평균)을 중심으로 종모양의 확률분포를 가집니다. 표본크기가 클 수록 겅규분포 모양에 가까워 집니다. 이를 중심극한정리라 합니다. 표본평균의 오차(error of sanple mean)는 모평균을 기준으로하는 표본평균의 편차입니다. 

표본분산은 표본크기가 작을 때는 비대칭의 분포를 가지다가 표본크기가 커질수록 모집단의 분산(모분산)을 중심으로하는 종모양의 모양에 가까워 집니다. 표본분산의 오차(error of sample variance)는 모분산을 기준으로 표본분산의 편차입니다.


2.3. 표본평균의 표준오차 : $\sigma_{\bar X}$

표본평균의 표준오차는 확률변수인 표본평균이 중심극한정리에 의해 모평균을 중심으로 종모양의 확률분포를 나타내는데 이 확률분포의 표준편차를 의미합니다. 표본평균의 기대값은 모평균인데 기대값과의 오차라는 의미에서 편차(deviation)가 아닌 오차(error)로 표현합니다. 모표준편차를 표본의 크기($n$)의 제곱근으로 나누면(표준화 하면) 표본평균의 표준오차가니다.

표준화라고 하는 것은 확률변수의 단위를 표준편차로 하는 과정을 말합니다. 다시말하면 표준편차를 1로 만드는 변수변환(Change of Variable)입니다.

표본평균의 표준오차(standard error of the mean)는 표본평균 표집(표본평균으로 이루어진 집단)의 표준편차와 같습니다. 즉, 표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차입니다. 표본평균의 기대값은 중심극한정리에 따라 모평균과 같습니다.

 

모집단과 표본의 확률변수

$$X$$

모집단의 모형

$$\{X_1, X_2, \cdots , X_{\infty}\}$$

여기서,  모집단크기는 $\infty$

표본의 모형

$$\{X_1, X_2, \cdots , X_{n}\}$$

여기서,  표본크기는 $n$

표본평균($\bar X$)의 기대값 : 모평균

$${\rm E}[\bar X]=\mu_X$$

표본분산($S^2$)의 기대값 : 모분산

$${\rm E}[S^2]=\sigma^2_X$$

새로운 확률변수 : 표본평균

$$\bar X$$

표본평균 표집의 모형

$$\{{\bar X}_1, {\bar X}_2, \cdots , {\bar X}_{\infty}\}$$

여기서,  표본평균의 표집의 크기는 $\infty$

표본평균 표집의 평균 : 표본평균 표집의 평균=표본평균의 기대값=모평균

$$\mu_{\bar X}={\rm E}[\bar X]=\mu_X$$

표본평균 표집의 분산(표본평균의 움직임) : 모분산(개체의 움직임의 크기)을 표본을 이루는 개체가 나누어 가짐 – 모분산을 표본크기로 나눈 것

 

집단을 이루는 개체의 움직임은 집단의 움직임과 집단내의 개체의 움직임으로 나누어 생각합니다.

 

집단중에서 표본집단을 생각하면,  표본을 여러번 추출(표집)하면 표본의 움직임은 두 가지로 나누어 생각할 수 있습니다.  내부의 움직임(표본평균을 원점으로 하는 좌표계에서의 움직임)은 모분산과 같고 외부에서 보는 움직임(모평균을 원점으로 하는 좌표계에서의 움직임)은 표본평균의 움직임이며 모분산을 개체가 나눠가지는 것으로 모델링합니다.

$$\sigma_{\bar X}^2={\rm Var}[\bar X]=\dfrac{\sigma_X^2}{n}$$

여기서,  $n$은 표본크기

표본평균 표집의 표준편차

$$\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}}$$

여기서,  $n$은 표본크기

새로운 확률변수인 표본평균($\bar X$)의 $Z$변환

$$Z=\dfrac{\bar X-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼Z분포$$

여기서,  $n$은 표본크기이며 큰 수

새로운 확률변수인 표본평균($\bar X$)의 $t$변환

$$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$$

여기서,  $n$은 표본크기 : $(n-1)$은 표본크기가 $n$인 표본의 자유도

$t_{n-1}$은 자유도가 $(n-1)$인 $t$분포

표본평균의 표준오차 : 표본평균 표집의 표준편차

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$n$은 표본크기

표본평균의 표준오차 – 표본크기가 큰 경우($\sigma_X≈S_X$)

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$S_X$는 표본표준편차

$n$은 표본크기


2.4. 표본평균의 표준오차 추정량 

표본평균 표집의 분산 추정량

$$\dfrac{S_X^2}{n}=\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}=\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

표본평균의 표준오차 추정량 : 표본평균 표집의 표준편차 추정량

$$\sqrt{\dfrac{S_X^2}{n}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

만일 개체($i$)마다 가중치($\omega_i$)가 다르다면 다음과 같이표본평균의 표준오차 추정량을 계산합니다.

$$\sqrt{\dfrac{\sum\limits_{i=1}^{n}{\omega_i}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$\omega_i$는 가중치

$n$은 표본크기


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표준오차 : 구글시트 실습

3.2. 구글시트 함수

=SUM(C3:C6) : 합계. C3에서 C6에 있는 데이터의 합계.

=COUNT(C3:C6) : 데이터 개수. C3에서 C4에 있는 숫자 형식의 데이터 개수.

=SQRT(C11) : 제곱근. C11 값의 제곱근.

=AVERAGE(J3:J18) : 평균. J3에서 J18에 있는 데이터의 평균.

=VARP(J3:J18) : 모분산. J3에서 J18에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔. 참고로, 표본분산은 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.P(J3:J18) : 모표준편차. J3에서 J18에 있는 데이터의 모표준편차로 모분산의 제곱근. 참고로, 표본표준편차는 표본분산의 제곱근.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본 크기가 2인 표본평균들의 분포

– 표본 크기가 3인 표본평균들의 분포

– 표준오차

– 실습 안내



4. 용어와 수식

4.1 용어


표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

 

Reference

Sampling distribution – Wikipedia



모수(매개변수, parameter)

통계적 매개변수 또는 모집단 매개변수는 통계량 또는 확률분포를 설명하는 데 사용되는 변수입니다. 매개변수는 모집단이나 통계모델의 수치적 특성이라 할 수 있습니다.

색인 분류된  집단의 분포가 있다고 가정해 봅니다. 색인이 집단의 분포의 매개변수로도 작용한다면, 그 집단은 매개변수화된 집단이라 할 수 있습니다. 예를 들어, chi-squared 확률분포를 가지는 집단은 자유도에 의해 색인되어 분류될 수 있습니다. 자유도는 chi-squared 분포의 매개변수이므로 chi-squared 분포를 가지는 집단은 자유도라는 매개변수로 매개변수화 되었다고 할 수 있습니다.

 

Reference

Statistical parameter – Wikipedia



중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

 

Reference

Central limit theorem – Wikipedia



자유도(degree of freedom)

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는  값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면,  표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친  모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸  $(n-1)$의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

 

Reference

Degrees of freedom (statistics) – Wikipedia



4.2 수식


표본평균의 표준오차

 표본평균의 표준오차 : 표본평균 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(\bar X)=\dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\bar X$는 확률변수 $X$의 표본평균

$\sigma_X$는 확률변수 $X$의 모표준편차

$S_X$는 확률변수 $X$의 표본표준편차

$n$은 표본크기


표본분산의 표준오차

표본분산의 표준오차 : 표본분산 표집의 표준편차 – 표본크기가 크고 모집단이 정규분포인 경우

$${\rm SE}(S_X^2) = \sigma_{S_X^2} = \sqrt{\dfrac{2\sigma_X^4}{n-1}}≈ \sqrt{\dfrac{2S_X^4}{n-1}}$$

여기서,  $S_X^2$는 확률변수 $X$의 표본분산

$\sigma_X^2$는 확률변수 $X$의 모분산

$S_X^2$는 확률변수 $X$의 표본분산

$n$은 표본크기

Central limit theorem ?
중심극한정리 ?

1. 애니메이션

1.1. 중심극한정리


2. 설명

2.1. 중심극한정리

2.2. 모수(parameter)와 추정량(estimator)


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



2. 설명

2.1. 중심극한정리

중심극한정리(Central Limit Theorem)는 표본들의 평균을 구하는 과정에서 극단적인 값들이 서로 상쇄되어 표본들의 평균은 모집단의 평균으로 모이는 경향을 말합니다.

 

평균 $\mu$, 분산 $\sigma^2$인 모집단에서 크기가 $n$인 선택가능한 모든 표본을 뽑습니다.

그럴때 모집단의 분포모양과는 상관없이 표본평균들의 분포는 $n$을 증가시킬수록 정규분포에 접근합니다.

 

중심극한정리를 다시 표현하면,  표본평균들의 분포는 모집단평균을 중심으로 정규분포를 이룬다는 정리입니다.

 

표본의 크기 $n$의 값이 크면 표본평균들의 분산은 작아집니다.

표본평균들의 분산은 모집단의 분산을 표본의 크기로 나눈 값이기 때문입니다.

 

표본평균들의 평균은 표본의 개수가 많아질 수록 모평균에 가까워 집니다.


2.2. 모수(parameter)와 추정량(estimator)

모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있습니다. 즉, 모평균 $\mu$는 모집단의 하나의 대표값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변수로서 일반적으로 대문자를 사용하여 $\bar{X}$로 표시합니다.

 

$\bar{X}$는 모수 $\mu$를 추정하는 하나의 추정량(estimator)입니다.

 

한 표본에서 구한 $\bar{X}$의 관측값을 소문자를 사용하여 $\bar{x}$로 표시하고 이 $\bar{x}$는 $\mu$의 추정값(estimate)입니다.

 

모집단의 분산 $\sigma^2$를 추정하는 추정량은 표본분산 $S^2$이고 그 관측값은 $s^2$으로 표시합니다.

 

만일 모집단이 정규분포 $N(\mu,\sigma^2)$라면 표본평균의 표집분포는 정확히 정규분포 $N(\mu,\sigma^2/n)$입니다.

 

만일 모집단이 평균이 $\mu$이고 분산이 $\sigma^2$인 무한개의 원소를 가지는 모집단이라면 표본의 크기($n$)가 충분히 클 때 모집단이 어떠한 분포를 가지더라도 표본평균의 표집분포는 근사적으로 정규분포 $N(\mu,\sigma^2/n)$입니다.

이를 중심극한정리(Central Limit Theorem)라고 하는데 구체적으로 요약하면 다음과 같습니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


중심극한정리

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

데이터 요약

표본 크기가 2인 표본들의 평균

표본 크기가 3인 표본들의 평균

중심극한정리



4. 용어와 수식

4.1 용어


중심극한정리(Central Limit Theorem)

모집단이 평균 $\mu$, 분산 $\sigma^2$인 정규분포가 아닌 임의의 분포일 때 크기가 $n$인 표본을 단순임의 복원추출하면 표본평균들의 분포는 다음과 같은 특성을 갖습니다.

1) 모든 가능한 표본평균들의 평균(${\mu}_{\bar{x}}$)은 모평균과 같다. ($\mu_\bar{x}=\mu$)
2) 모든 가능한 표본평균들의 분산($\sigma_{\bar{X}}$)은 모분산을 $n$으로 나눈 값이다. (${\mathit{\sigma}}_{\bar{X}}^{2}{=}\dfrac{{\mathit{\sigma}}^{2}}{n}$)
3) 모든 가능한 표본평균들의 분포는 근사적으로 정규분포이다.
위의 사실을 간단히 ${X}\sim{N}\left({\mathit{\mu}{,}\dfrac{{\mathit{\sigma}}^{2}}{n}}\right)$로 적기도 한다.

 

중심극한정리는 현대통계학의 기본이 되는 이론으로 매우 중요한 정리입이다.

표본추출 ?
Sampling ?

1. 애니메이션

1.1. 표본추출과 표본통계량

1.2. 표본으로 모집단을 추측하여 중재효과 검정


2. 설명

2.1. 표본추출

2.2. 모집단크기와 표본크기

2.3. 표본추출법

2.4. 표본추출법


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 참조

4.1. 용어

4.2. 참고문헌

1. 애니메이션



표본추출과 표본통계량




표본으로 모집단을 추측하여 중재효과 검정

2. 설명

2.1. 표본추출(Sampling)

표본데이터(표본자료)를 이용하여 모집단의 특성을 추론하기 위해서 표본을 뽑아야 하는데 이것을 표본추출(Sampling)이라 합니다.

표본추출(Sampling)시 고려사항

항목 고려사항
모집단과 표본 대부분의 모집단은 개체 수가 많아서 모집단 전체를 관측 하는 것(전수 조사)이 불가능하거나 비경제적, 비효율적이므로 모집단에서 표본을 추출하여 모집단을 추측
표본데이터 표본은 모집단의 특성에 대하여 완전한 정보를 가지고 있지 않으므로 추출된 표본에 의한 모집단의 추정정보는 다름, 따라서, 표본크기가 크고 표본데이터의 정확성이 높아야 함.
표본크기 표본크기가 크면 모집단을 잘 대표할 수 있지만 표본추출의 경제성, 신속성, 가능성, 정확성 등을 고려하여 표본크기를 정함. 반면, 표본크기가 작으면 모집단을 대표하는 것이 어려움. 표본크기의 결정요인은 연구 과제의 유형 및 목적, 표본오차의 크기, 시간 제약, 비용 제약, 선행 연구 등이 있음.
표본오차 표본오차는 표본관측을 통해 추정한 결과와 모집단 전체를 조사할 때 얻게 될 결과의 차이. 표본오차의 오차한계는 표본오차의 최대허용값

 


2.2 모집단크기와 표본크기

표본을 추출한다는 것은 모집단(population)이 존재한다는 것을 의미합니다. 표본추출(sampling)의 가장 큰 목적은 추출한 표본을 통하여 모집단을 추측하기 위함입니다. 쉽게 생각하면, 알고 싶은 정보를 얻기 위하여 데이터를 수집하는 것입니다. 

 

표본의 크기가 클 수록 모집단에 가까워지므로 표본크기는 모집단을 추측하는에 있어 정확성과 관계된 매우 중요한 표본통계량입니다. 하지만 실제에서는 표본의 크기를 늘리면 비용이 늘어나는 등의 여러가지 어려움이 있습니다. 표본의 크기가 충분히 크면 표본의 속성을 모집단의 속성으로 볼 수 있습니다. 표본크기가 충분히 크다는 것을 표현하는 방법에는  표본의 크기와 모집단의 크기의 비로 표현하는 방법과 표본크기가  특정숫자(예를들면 30)보다 크다고 표현하는 방법이 있습니다. 표본의 크기가 커지면,  표본평균을 모평균으로 추정할 때 정확성이 증대되고 표본분산을 모분산으로 추정할 때도 마찬가지입니다. 그리고 데이터수집에 사용할 수 있는 리소스가 고정되어 있다면 표본추출의 횟수와 표본의 크기를 결정함에 있어 리소스투입에 대한 성과에 대한 고려를 해야 합니다. 따라서 표본추출의 횟수와 표본의 크기는 중요한 실험설계의 요소입니다. 

 

통계조사의 대상이 되는 집단, 즉, 모집단은 일반적으로 아주 큽니다. 그러므로, 전체 모집단을 모두 조사하는 것은 엄청난 비용과 시간을 필요로 합니다. 그래서 모집단의 일부를 추출한 표본을 이용하여 전체 모집단의 속성을 예측하고 있으며 이를 추측통계(inferential statistics)라 합니다. 그러나 모집단크기와 표본크기가 크게 다르므로 모집단 관측결과와 표본의 관측결과는 차이가 있을 수 있습니다. 이러한 차이를 줄이기 위해 표본의 여러 가지 추출 방법이 연구되어 왔습니다. 모집단에서 표본을 추출하는 방법에는 다음과 같은 것들이 있습니다.

 

– 단순임의추출법

– 집락추출법

– 층화무작위추출법


2.3. 표본추출법

간단한 표본추출에는 다음의 세가지 방법이 있습니다.

단순임의추출법(단순무작위추출법, Simple Random Sampling)

단순임의추출법(Simple Random Sampling)은 $n$개의 개체를 모집단으로부터 무작위(임의)로 추출하는 방법입니다.  즉, 단순임의추출법은 모집단의 모든 원소가 표본으로 뽑힐 확률이 같도록 표본을 추출하는 방법입니다. 단순확률추출법이라 부르기도 합니다.

모집단의 각 개체들은 추출될 가능성이 동일하다고 “가정”하며, 모집단이 큰 경우에 정확한 무작위 추출이 어려울 수 있는 단점이 존재합니다.

단순임의 표본추출 시 한번 추출한 원소를 다시 모집단에 포함시키는 복원추출(with replacement )이나, 추출된 원소를 다시 모집단에 넣지 않는 비복원추출(without replacement)도 가능합니다. 그러나 실제 거의 모든 표본추출은 비복원추출로 이루어집니다.

표본추출시 모집단의 각 원소가 표본으로 뽑힐 확률이 같도록 하려면 어떠한 수단이 필요한데 예전에는 난수표(random number table)를 많이 사용하였습니다. 난수표란, 0에서 9까지의 숫자를 특별한 규칙성이나 편중성이 없이 흩어 놓은 표입니다. 요즘에는 컴퓨터로 [0, 1] 균등분포를 이용한 난수 생성을 주로 활용합니다.

집락추출법(Cluster Sampling)

집락추출법(cluster sampling)은 먼저 모집단을 여러 개의 작은 집단으로 구분하는 집락(cluster)을 하고, 몇 개의 집락을 무작위 추출하여, 추출된 집락에서 단순무작위추출법을 실시하는 방법입니다. 집락(cluster)은 조밀하게 모여 있는 개체(예를 들면, 사람, 동물 등)의 무리라는 뜻입니다. 

층화무작위추출법(Stratified Random Sampling)

계층(stratum)은 사전적으로 사회 계층. 암석층, 지층, 단층을 의미하며 층화(stratify)는 층을 이루게 함을 의미합니다. 층화(Stratified)는 계층화된 상태를 의미합니다. 층화무작위추출법(Stratified Random Sampling)은 모집단을 성질이 비슷한 개체들로 구성된 몇 개의 층(stratum) 으로 구분하고 각 층에서 단순무작위추출법을 실시하는 표본추출 방법입니다.


2.4. 표본(Sample)의 통계량(Statistic)

표본은 모집단으로부터 표본추출한 결과입니다. 따라서, 표본은 모집단으로부터 추출된 개체들의 집합입니다. 표본의 예로는 학교의 수학적 창의력을 추측하기 위하여 전교에서 무작위로 선발된 학년과 반이 있을 수 있습니다. 표본의 크기는 표본을 구성하는 개체들의 수이며 일반적으로 알파벳 소문자 $n$을 사용합니다. 개체의 예로는 반을 구성하는 학생이 있을 수 있습니다. 모집단의 평균와 분산은 변하지 않는 상수입니다. 모집단에 추출한 표본의 평균과 분산은 표본을 추출할 때마다 변하는 변수(Variable)입니다. 더 나아가 표본평균은 확률분포를 가지는 확률변수이며 중심극한정리에 따르면 표본크기가 커짐에 따라 정규분포로 수렴하는 종모양의 확률분포를 가집니다. 마찬가지로 표본분산도 확률변수이며 표본크기에 따라 달라지는 확률분포를 가집니다. 표본의 관측값으로 구하는 표본크기와 표본평균과 표본분산 등을 표본의 통계량(Statistic)이라고 합니다.

 

표본평균의 식

$$\bar{X}=\dfrac{1}{n}(x_1+x_2+\cdots+x_n)=\dfrac{1}{n}\sum_{i=1}^{n}x_i$$

표본분산의 식

$$s^2=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$$

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


집단에서 표본추출 : 구글시트 실습

3.2. 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.


3.3. 실습강의

– 데이터

– 데이터 요약

– 표본추출

– 표본통계량

– 표본통계량의 평균

– 모수와 표본통계량의 평균 비교


4 참조

4.1 용어


표본추출(sampling)

통계, 품질보증 및 조사방법론에서 표본추출은 모집단(통계의 대상이 되는 집단)의 특성을 추정하기 위해 모집단 내에서 하위집합(통계표본)을 선택하는 것입니다. 통계학자들은 표본을 통해 모집단을 표현하기 위해 연구합니다. 표본추출의 2가지 장점은 전수조사에 비해 비용이 저렴하고 데이터수집이 빠르다는 것입니다.

각 관측값(관측치)은 관측이 가능한 독립개체 또는 개인이나 구분될 수 있는 대상의 하나 이상의 속성(예를 들어 무게, 위치, 색)을 관측(관찰, 측정)한 것입니다.

측량 표본추출(survey sampling), 특히 층화 표본추출(stratified sampling)에서 설계된 표본을 조정하기 위해 가중치를 적용할 수 있습니다. 확률이론과 통계의 결과는 실험을 조정하는데 사용됩니다. 비즈니스 및 의학연구에서 표본추출은 집단에 대한 정보를 모으는데 널리 쓰입니다. 채택 표본추출(acceptance sampling)은 생산제품이 관리사양을 충족시키는지를 결정하는데 사용됩니다.

 

Reference

Sampling (statistics) – Wikipedia



변동계수 ?
Coefficient of variation ?

1. 애니메이션

1.1. 변동계수


2. 설명

2.1. 변동계수

2.2. 변동계수 활용사례


3. 실습

3.1. 구글시트

3.2. 구글시트 함수


4. 용어와 수식

4.1. 용어

4.2. 수식

4.3. 참고


1. 애니메이션



변동계수


2. 설명

2.1. 변동계수

변동계수를 사용하는 예를 들면, 농장에서 생산한 딸기가 당도가 얼마나 고른지를 알고자 하는 경우입니다. 딸기의 표본은 보통 출하시에 추출하게 되는데 당도는 출하시기의 영향을 크게 받습니다. 그래서 당도의 분포값인 표준편차를 출하시기를 반영하고 있는 평균으로 표준화하면 당도의 변동만을 분석할 수 있습니다.

 

두 표본으로 두 모집단의 변동(variation, 움직임의 변화량)을 비교하고자 할때도 표본평균의 영향을 없애기 위하여 변동계수를 사용합니다. 보통 자연현상에서 모평균과 표본평균의 거리가 변하면 표본표준편차도 따라 변하기 때문입니다.

 

모집단의 변동계수(coefficient of variation, CV)는 모표준편차($\sigma$)를 모평균($\mu$)으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 모표준편차를 모평균으로 나눈 것입니다.

$$CV=\dfrac {\sigma}{\mu}$$

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

$$CV=\dfrac {S}{\bar{X}}$$

여기서, $X$는 확률변수

변동계수는 표준편차를 비교할 때 사용되므로 상대표준편차(relative standard deviation, RSD)라고도 합니다. 변동계수는 표준편차를 같은 단위를 가지는 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있는 장점이 있습니다. 


2.2. 변동계수 활용사례

다음 동영상에서는 변동계수의 활용사례로 1) 기업성과 비교, 2) 상품가치 비교를 설명하고 있습니다.


변동계수 활용사례 1 : 기업성과 비교


변동계수 활용사례 2 : 상품가치 비교


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


변동계수 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 평균. 데이터를 모두 더한 후, 데이터의 개수로 나누어서 구함.

=STDEV.P(C2:C22) : 표준편차. 분산의 제곱근. C3에서 C22에 있는 모든 데이터의 표준편차. 각 값과 평균과의 차이(편차)를 제곱해서 모두 더한 후, 데이터의 개수로 나누어서 구하면 분산이 되는데, 표준편차는 이 분산의 양의 제곱근임.


3.3. 실습강의

데이터

데이터 요약

데이터 시각화

변동계수

실습 안내



4. 용어와 수식

4.1 용어


산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

 

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

 

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

 

Reference

Mean – Wikipedia


표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

 

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

 

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

 

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

 

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

 

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

 

Reference

standard deviation – Wikipedia



4.2 수식


모집단에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {\sigma }{\mu}$$

여기서,  $\sigma$는 모표준편차

$\mu$는 모평균 

표본에서의 변동계수(coefficient of variation, CV)

$$CV=\dfrac {S}{\bar{X}}$$

여기서,  $S$는 표본표준편차

$\bar{X}$는 표본평균

$X$는 확률변수 


분포값 ?
Measure of dispersion ?

1. 애니메이션

1.1. 당도. 당도편차, 당도편차제곱


2. 설명

2.1. 데이터의 분포값

2.2. 분산을 “차이의 평균(절대편차평균, MAD)”보다 많이 사용하는 이유

2.3. 분산의 수학적 성질

2.4. 분산공식

2.5. 분포에 관련된 집단의 측도


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



당도.  당도편차, 당도편차제곱

2. 설명

2.1. 데이터의 분포값

데이터의 분포값(measure of dispersion)은 데이터가 이루는 데이터세트(데이터의 집합)의 분포를 표현하는 측도(measure)입니다. 데이터의 분포값은 데이터의 분포정도를 값으로 나타냅니다. 분포값은 산포도(degree of scattering) 또는 변산성(variability)이라고도 부릅니다. 기술통계에서는 모집단과 표본을 구분하지 않고 관심 집단의 분포만을 알아보는 것이 목적이므로, 분산과 표준편차를 구하는 식에서 분모에 집단의 크기 $n$을 그대로 사용합니다. 관심있는 집단을 추정하기 위해 표본을 구성하고 그 표본을 관측하는 경우, 모집단의 분포정도를 추정하기 위하여 구하는 표본의 분포값은 모분산의 추정량 역할을 합니다. 이러한 표본의 분포값의 기대값은 모집단의 분포값이 됩니다.

범위

데이터의 분포값에는 우선 데이터의 범위(range)가 있습니다. 범위는 최대값과 최소값의 차이입니다. 중앙값을 기준으로 흩어진 정도를 수치로 나타내는 것에는 사분위수범위 등이 있습니다.

분산

평균을 기준으로 하는 분포 정도(measure of dispersion)에는 분산(variance)이 있습니다. 분산은 각 관측값과 평균과의 차이를 제곱한 값들의 대표값 중에서 평균을 구한 것입니다. 즉, 변수값에서 평균을 뺀 값, 즉, 편차의 제곱의 평균입니다. 또한, 평균과 관측값과의 거리의 제곱의 평균이라고 표현할 수도 있습니다. 그래서 분산은 0이나 양의 수가 됩니다. 직관적으로 본다면 변수의 관측값들이 평균을 중심으로 멀리 흩어져 있으면 분산의 값이 커집니다. 그리고, 관측값(데이터값)이 평균 주위에 몰릴수록 분산의 값이 작아 진다고 볼 수 있습니다. 모집단의 분산을 모분산이라고 부르며 $\sigma^2$로 표시합니다. 표본의 분산을 모표준편차라고 부르며 $s^2$으로 표시합니다.

표준편차

표준편차(standard deviation)는 분산의 제곱근으로 정의합니다. 분산과 마찬가지로 표준편차도 분포의 정도를 나타냅니다. 표준편차는 데이터(관측값)와 단위가 같게 되어 평균과 비교할 때 관측자에게 직관을 줄 수 있습니다. 즉, 표준편차는 평균이나 관측값과 같은 단위를 갖기 때문에 그 크기를 평균과 비교하기가 쉽습니다. 모집단의 표준편차를 모표준편차라고 부르며 $\sigma$로 표시합니다. 표본의 표준편차를 표본표준편차라고 부르며 $s$로 표시합니다.

차이의 평균

집단에서 관측값과 집단평균의 차이의 평균으로도 데이터의 분포를 나타낼 수 있습니다.

$$\text{차이 평균} = \dfrac{1}{N} \sum_{i=1}^{N} |x_i – \mu|$$

여기서, $N$은 집단의 개체 수

$ x_i$는 개체의 데이터 점(data point)

$\mu$는 집단의 평균

$\mid x_i-\mu \mid$는 데이터 점과 평균의 차이

“차이의 평균”과 표준편차를 비교하기 위해 표준편차식을 살펴보면 다음과 같습니다.

$$\text{표준편차}=\sigma = \sqrt{\dfrac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2}$$

여기서, $N$은 집단의 개체 수

$ x_i$는 개체의 데이터 점(data point)

$\mu$는 집단의 평균

“차이 평균”과 표준편차는 집단을 이루는 1개의 개체로 표준화하는 과정에서 $N$과 $\sqrt{N}$으로 나눈다는 것이 다릅니다. 차이(거리)와 점의 차원을 볼 때, 표준편차는 차원을 맞춘 것이므로 집단의 분포를 표현하는 “측도”로 표준편차는 “차이 평균”보다 더 많이 사용됩니다.

모집단과 표본의 분산

모집단의 분산을 모분산(population variance)이라 부르며, 표본의 분산을 표본분산(sample variance)이라 부릅니다. 모분산과 표본분산의 추정량은 변동량을 1개의 개체로 표준화 하는 데 차이가 있습니다. 모분산의 추정량은 모집단의 변동량을 모집단의 개수인 $N$으로 나눈 것입니다. 표본분산의 추정량은 데이터값과 표본평균과의 차이의 제곱의 평균입니다. 표본의 변동량을 표본의 크기인 $n$대신 1을 뺀 $(n-1)$으로 나누어 1개의 개체로 표준화합니다. 그 이유는 표본분산은 모평균을 기준으로 하지 않고 표본 내에서 도출된 표본평균을 기준으로 하기 때문에 표본에서 변동하는(자유를 가지는) 개체의 개수는 표본크기에서 표본평균으로 개체가 1개 사용되었음을 고려해야 한다는 것을 의미합니다. 이렇게 해서 구한 표본의 분산은 모집단의 분산을 편향없이 추정한다고 해서 모분산의 불편향추정값이라고 합니다.

자유도

집단의 자유도는 집단에 속한 변동가능한(자유가 있는) 개체의 수입니다. 집단의 자유도(degree of freedom)는 집단의 변동량을 1개의 개체의 변동량으로 표준화하는 데 사용합니다. 예를 들어 20개의 데이터점(data point)이 있다면 20개의 데이터는 어떤 값이든지 가질 수 있고 자유도는 20이 됩니다. 그런데 만약 20개 데이터점을 한 집단으로 본다면 그 집단도 전체집단내에서는 변동하게 됩니다. 따라서 1개의 집단의 대표값으로 평균을 구했다면 집단내 개체(데이터점)의 중에서 20개중 19개의 위치가 정해지면 나머지 1개는 정한 평균으로 인해 정해집니다. 즉 20개 데이터 집단의 자유로움에 개체의 자유도 중 1개를 사용하였음을 의미합니다. 정리하면 집단의 자유도는 집단자체의 자유도 1과 집단내 개체의 자유도로 나누어 생각할 수 있습니다. 집단의 분산은 집단내 개체(데이터점)의 변동을 의미하므로 집단의 분산을 구할 때는 집단내 개체의 자유도를 사용하게 됩니다. 보통 집단의 자유도라고 함은 집단내 개체의 자유도를 의미합니다. 전체집단에서는 전체집단에 속하는 집단도 변동할 수 있습니다. 따라서 전체집단의 자유도는 전체집단에 속하는 집단의 자유도와 각 집단내 개체의 자유도가 있습니다.

표본의 크기가 작은 경우 분포값에 미치는 자유도의 효과

표본의 크기(데이터의 개수)가 작으면 표본분산을 구할 때 $n$(표본크기)과 $n-1$의 차이는 크게 나타납니다. 다른 표현으로는 표본에서 각 데이터(관측값)의 거리가 나타나는 경우의 수는 데이터의 개수 $n$에서 1을 뺀 수가 된다고 볼 수 있습니다. 분산은 평균값에서 각 관측값까지의 거리를 제곱한 후 그 평균을 구한 것이라는 것을 볼 때 $(n-1)$과 $n$의 차이는 더 큽니다.

변동계수(변이계수)

두 개 이상의 표본의 표준편차를 비교할 때에는 표준편차를 평균으로 나눈 변동계수(coefficient of variation, 변이계수)를 사용합니다. 즉, 평균으로 표준화된 표준편차인 변동계수를 사용하면 분자와 분모의 단위가 상쇄되고 평균을 기준으로 표준화되어 두 표본의 변동의 비교가 쉽습니다.


2.2. 분산을 “차이의 평균(평균 절대편차평균, MAD)”보다 많이 사용하는 이유

수학적 처리의 용이성

분산은 차이의 제곱으로 부터 구해지므로 절대값을 다룰 필요가 없습니다. 따라서 수학적으로 다루기가 더 용이합니다.

정규분포와의 연관성

많은 자연 현상과 사회 현상이 정규 분포를 따르는 경향이 있습니다. 정규 분포에서는 평균과 분산이 분포의 형태를 완전히 결정합니다. 따라서, 분산은 정규 분포를 분석하고 이해하는 데 매우 중요한 도구입니다.

분산분석의 기초

변수가 확률변수일 때 확률변수는 확률밀도가 나타나는 면적으로 표현할 수 있습니다. 그 면적을 집단의 크기로 본다면 집단크기인 $N$과 “차이의 제곱”인 $(x_i-\mu)^2$은 같은 2차원을 가지게 됩니다. 따라서 분산은 차원이 없는 무차원수가 되며 집단의 분산은 수치적 비교가 용이합니다. 그리고 표본집단에서 분산은 변동량과 자유도의 비이므로 분산을 표본집단의 변동량과 자유도로 분리하여 분산분석(ANOVA)과 같은 통계적 방법을 사용할 수 있습니다.


2.3. 분산의 수학적 성질

비음성성 (Non-negativity)

분산은 항상 0 또는 양수입니다. 이는 분산이 제곱된 차이의 평균이기 때문에 음수가 될 수 없음을 의미합니다.

모분산에 대한 표본분산의 불편향성

표본분산은 모분산의 불편향(불편, unbiasedness) 추정량입니다. 즉, 표본분산의 기대값은 모분산과 같습니다.

분산의 합성(additivity)

두 독립적인 확률변수, $X$와 $Y$에 대해, $X+Y$의 분산은 각각의 분산의 합과 같습니다.

$$\rm{Var}[X+Y]=\rm{Var}[X]+\rm{Var}[X]$$

이 성질은 확률 변수들이 서로 독립일 때만 적용됩니다.

상수의 분산 (variance of a constant)

상수, $c$에 대해, 그 분산은 0입니다.

$$\rm{Var}[c]=0$$

선형변환 (linear transformation)

확률변수, $X$에 대해, $aX+b$ (여기서 $a$와 $b$는 상수)의 분산은 다음과 같습니다:

$$\rm{Var}[aX+b]=a^2\rm{Var}[X]$$

이 성질은 분산이 스케일 변환에 대해 제곱에 비례한다는 것을 나타냅니다.


2.4. 분산공식

분산을 기대값(expected value)으로 표현

확률변수, $X$가 “0”과의 편차를 변수값으로 가지는 변수라고 할 때,  “확률변수의 제곱”의 기대값은 “확률변수의 기대값의 제곱”과 분산의 합입니다. 그리고 분산은 “확률변수의 기대값”을 기준으로 하는 “확률변수값의 제곱”의 기대값이라고 할 수 있습니다. 또한, 분산은 “확률변수의 기대값과 확률변수값의 차이의 제곱”의 기대값”이라고 할 수 있습니다.

$$ \text{E}[X^2]= (\text{E}[X])^2+\text{Var}[X]$$

분산을 좌변으로 놓고 정리하면 다음과 같은 식이 되고 이 식을 분산공식(variance formula)이라고 부릅니다.

$$\text{Var}[X] = \text{E}[X^2] – (\text{E}[X])^2$$

분산공식은 개체 1개로 표준화한 기대값을 다룬다면 분산분석(analysis of variance, ANOVA)은 개체의 분산이 더해지는 집단의 분산을 다룹니다. 분산공식은 분산분석(analysis of variance, ANOVA)의 기초가 되는 중요 공식입니다.

큰 수의 법칙

 확률변수의 기대값과 분산은 상수입니다. 확률변수의 기대값은 가능한 모든 실현값(realized value)의 평균으로 표현할 수 있습니다. 확률변수의 유한개의 실현된 값으로 이루어진 표본집합의 기대값과 분산은 확률변수이며 표본의 크기가 커질수록 표본의 기대값과 분산은 확률변수의 기대값과 분산의 상수가 됩니다. 이를 큰 수의 법칙(대수의 법칙, Large number’s law)라고 합니다.


2.4. 분포에 관련된 집단의 측도(measure of dispersion)

범위(range)
모범위
$$\text {Range of} X$$
표본범위($R$)
$$R=x_{max}-x_{min}$$
분산(variance)
분산(variance)은 평균으로부터 흩어져있는 거리제곱의 평균입니다.  편차의 제곱의 합을 자유도로 나누어 구합니다.
모분산($\sigma^2$)
$\sigma^2=\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}$
여기서,  $\mu$는 모평균
$N$은 모집단크기
표본분산($s^2$)
$s^2=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$
여기서,  $\bar x$는 표본평균
$n$은 표본크기
$(n-1)$은 표본의 자유도
표준편차(standard deviation)
표준편차는 분산의 제곱근 값입니다.
모표준편차($\sigma$)
$\sigma=\sqrt{\dfrac{\sum\limits_{i=1}^{N}(x_i-\mu)^2}{N}}$
여기서,  $\mu$는 모평균
$N$은 모집단크기
표본표준편차($s$)
$s=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$
여기서,  $\bar x$는 표본평균
$n$은 표본크기
$(n-1)$은 표본의 자유도
변동계수(coefficient of variation)
변동계수(coefficient of variation)는 주로 단위(scale)가 다른 집단의 변동성을 표본데이터를 통하여 확인하기 위해 사용합니다.
모변동계수
$CV=\dfrac{\sigma}{\mu}\times 100$
여기서,  $\bar x$는 표본평균
$CV$의 단위는 %
표본변동계수
$CV=\dfrac{s}{\bar{x}}\times 100$
여기서,  $\bar x$는 표본평균
$CV$의 단위는 %

2.3. 설명강의

– 준비 중


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터 분포값 : 구글시트 실습

3.2. 함수

=AVERAGE(E3:E22) : 평균. E3에서 E22에 있는 데이터의 평균.

=F3^2 : 제곱. F3에 있는 데이터의 제곱.

=COUNT(B3:B22) : 데이터개수. B3에서 B22에 있는 숫자형식의 데이터 개수.

=MAX(G3:G22) : 최대값. G3에서 G22에 있는 데이터 중 최대값.

=MIN(G3:G22) : 최소값. G3에서 G22에 있는 데이터 중 최소값.

=SQRT(M3) : 제곱근. M3 값의 제곱근.

=ROUNDUP(SQRT(M3),0) : 올림. M3 값의 제곱근을 올림해서 소수점 0번째자리까지 구함.

=FREQUENCY(G3:G22,J12:J16) : 빈도수. G3에서 G22는 데이터, J12에서 J16은 클래스. 데이터 범위 내에서 클래스의 각 값의 범위 내에 있는 데이터의 개수를 표시함.


3.3. 실습강의

– 데이터

– 평균

– 편차

– 편차제곱

– 편차제곱의 분포


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



빈도수

통계에서 사건의 빈도 (또는 절대 빈도)는 실험이나 연구에서 사건이 발생한 횟수입니다. 이러한 빈도수는 종종 히스토그램으로 표현됩니다.

Reference

Frequency (statistics) – Wikipedia



도수분포

통계에서 도수분포(빈도분포)는 표본의 실험이나 측정항목의 빈도수를 표시하는 표(도수분포표)나 그래프(도수분포도)로 나타냅니다. 도수분포표의 각 항목에는 특정 집단 또는 특정 구간 내의 값이 발생하는 빈도수가 나타납니다. 도수분포표는 표본의 변수 분포를 요약하는 효과적인 방법입니다.

Reference

Frequency distribution – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

Reference

Range (statistics) – Wikipedia



사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

Reference

Interquartile range – Wikipedia



백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

모든 점수는 100번째 백분위 수 안에 있습니다. 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

Reference

percentile – Wikipedia



분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

Reference

variance – Wikipedia



표준편차

표준편차(모표준편차는 $\sigma$, 표본 표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

집단의 모표준편차과 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본의 표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 불편향 기대값을 의미할 수 있습니다.

Reference

standard deviation – Wikipedia



4.2. 참조


Reference

Wikipedia

대표값 ?
Measure of central tendency ?

1. 애니메이션

1.1. 편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값

1.2. 회귀점     : 1차원 선형회귀

1.3. 회귀직선 : 2차원 선형회귀

1.4. 회귀평면 : 3차원 선형회귀


2. 설명

2.1. 데이터의 대표값

2.2. 중심위치의 측도

2.3. 설명강의


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



편향성을 가지는 확률밀도함수와 그에 따른 평균, 중앙값, 최빈값




회귀점 : 1차원 선형회귀




회귀직선 : 2차원 선형회귀




회귀평면 : 3차원 선형회귀

2. 설명

2.1. 데이터의 대표값

대표값은 값들의 무리(데이터)를 대표하는 값(representative value)입니다. 그리고 대표값은 데이터의 퍼짐정도를 나타내는 분포값(measure of dispersion)의 원점위치(measure of location)로 사용됩니다. 대표값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다.

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값입니다. 중앙값은  특별히 크거나 작은 변수값이 있는 경우에 왜곡이 심하지 않아 데이터의 대표값으로 많이 쓰입니다.

최빈값(mode)은 변수값 중 가장 빈도수가 큰 변수값입니다.

평균에는 산술평균, 가중평균 등이 있습니다. 평균은 중앙값과 비교하여 어느 한 변수값이 아주 크거나 작은 경우 왜곡이 나타납니다. 보통 평균이라고 하면 산술평균을 의미합니다. 가중평균(weighted mean)은 산술평균의 다른 변형형태로 각 변수값에 가중치를 곱하여 평균을 구합니다. 특별히 변수가 확률변수이고 가중치의 합이 1이 되면 가중평균은 기대값이 됩니다. 여기서 각 확률변수의 가중치는 그 확률변수의 확률이 됩니다.

애니메이션에서 가로축은 확률변수를, 세로축은 확률밀도함수값을 표시합니다. 애니메이션처럼 확률밀도함수가 정규분포를 이루면 평균, 중앙값, 최빈값은 같은 확률변수값을 가집니다. 그러나 편향이 일어날 경우 다른값을 가집니다.

평균은 무게중심을 나타내는 확률변수값입니다. 중앙값은 지나는 직선의 양쪽 면의 면적이 같은 확률변수값입니다. 최빈값은 확률밀도함수의 정점을 나타내는 확률변수값입니다.


2.2. 중심 위치의 측도 (measure of location)
흩어진 데이터의 중심이 필요할 때 중심 위치의 측도(measure)로 평균, 중앙값, 최빈값 등을 사용합니다.
평균(mean)
평균(mean)의 식은 아래와 같습니다.
$$\bar{X}=\dfrac{x_1+x_2+\cdots +x_n}{n}=\dfrac{1}{n}\sum_{i=1}^{n}x_i$$
중앙값(median)
중앙값(median)은 전체 데이터들을 가장 작은 값부터 크기 순으로 배열했을 때 가장 가운데에 위치하는 값이고 Q2 와 동일한 값을 가집니다. 예를 들어  1, 2, 3, 4, 5로 5개의 데이터일 때는 다음식을 통하여 중앙값은 3입니다. 데이터의 갯수인 $n$이 홀수일때의 식입니다.
$$x_{\frac{n+1}{2}}$$
여기서,  데이터의 갯수인 $n$은 홀수
1, 2, 3, 4, 5, 6로 6개의 데이터일 때는 데이터의 갯수인 $n$이 짝수 일 때입니다.  이 때는 중앙값이 2개인 경우인데 두 중앙값의 평균을 내어 하나의 중앙값으로 표현합니다. $\dfrac{(3+4)}{2}$의 계산 과정으로 중앙값은 3.5가 됩니다.
$$\dfrac{1}{2}\left(x_{\frac{n}{2}}+x_{\frac{n}{2}+1}\right)$$
여기서,  데이터의 갯수인 $n$은 짝수
최빈값(mode)
최빈값(mode)은 발생빈도가 가장 높은 값, 즉 분포의 중심에 있진 않을 수 있지만 가장 빈번하게 나타나는 값입니다.
절사 평균(trimmed mean)
절사 평균(trimmed mean)은 자료를 크기 순으로 나열한 후, 상위 및 하위 몇 % 자료를 제외하고 계산한 평균입니다.
예를 들면, 10% 절사평균이라함은 상위 10%, 하위 10% 데이터를 제외하고 계산한 평균입니다. 예를 들면 다음 문제를 해결하는 과정에서 절사평균이 나옵니다.
문제 : 표본에 한 개의 큰 값(특이값)이 포함되어 있다면 대표값을 어떻게 표현해야 합리적일까?
해결 1 : 한 개의 큰 값이 들어가게 되면 평균이 크게 달라지는 평균의 단점이 있는데, 반면 중앙값은 크게 바뀌지 않는다. 그래서 평균만 보지 말고 중앙값도 같이 보아야 합니다.
해결 2 : 이 특이값을 절사하여 절사평균을 사용합니다.

2.3. 설명강의

– 준비 중


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


데이터의 대표값 : 구글시트 실습

3.2. 함수

=SUM(B3:B22) : 합계. 셀의 합계 혹은 입력한 숫자의 합계를 계산해서 표시. B3와 B22의 범위에 있는 모든 숫자의 합계를 계산해서 표시.

=COUNTA(B3:B22) : 데이터 개수. 숫자와 텍스트로 표시된 모든 데이터의 개수를 표시함. B3에서 B22에 있는 모든 데이터의 개수를 표시함.

=COUNT(C3:C22) : 데이터 개수. 숫자로 표시된 데이터의 개수만 표시함. C3에서 C22에 있는 숫자로 표시된 데이터의 개수를 표시함.

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.

=MEDIAN(B3:B22) : 중앙값(중간값). B3에서 B22에 있는 모든 숫자의 중앙값을 표시함. 데이터의 개수가 짝수일 경우, 가운데 있는 두 수의 평균을 계산해서 표시함.

=MODE(B3:B22) : 최빈값. B3에서 B22에 있는 데이터 중 가장 자주 나오는 데이터.


3.3. 실습강의

– 데이터

– 평균

– 중앙값

– 최빈값

– 대표값 비교


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia



기대값

확률에서 임의 변수의 기대값은 직관적으로는 동일한 실험을 무한 반복했을 때 나온 값들의 평균값입니다. 예를 들어, 6면 주사위를 던지는 시행의 기대값은던진 횟수가 무한대에 가까워졌을 때의 결과값들의 평균값(이경우는 3.5)이 됩니다. 다시 말해, 큰 수의 법칙은 반복 횟수가 무한대에 가까워질수록 값의 산술평균은 기대값에 점점 수렴한다는 것을 의미합니다. 이 기대값은 기대치, 수학적 기대치, EV, 평균, 평균값이라고도 불립니다.

보다 현실적으로, 이산확률변수의 기대값은 모든 가능한 값의 가중평균입니다. 즉, 기대값은 확률변수가 취할 수 있는 각 값에 발생확률을 곱한 결과값들의 합이 됩니다. 연속적인 확률변수에 대해서는 합계 대신에 변수의 적분이 들어간다는 것 외에는 동일한 원칙이 적용됩니다. 공식적인 정의는 이 둘을 모두 포함해 이산적이거나 완전히 연속적이지 않은 분포에서도 같게 작용되어, 확률변수의 기대값은 간단히 “확률 측정값에 대한 변수의 적분 값”으로도 말할 수 있습니다.

기대값은 큰 꼬리가 있는 분포(예를 들어 Caushy 분포)에서는 존재하지 않습니다. 이런 무작위 변수의 경우에는 분포의 긴 꼬리가 합이나 적분값이 수렴하지 못하도록 합니다. 기대값은 위치 매개 변수의 한 유형으로 사용할 수 있기 때문에 확률 분포를 특징 짓는데 중요한 역할을 합니다. 그에 반해, 분산은 기대값 주위의 확률변수의 가능한 값들이 얼마나 퍼져 있는 지를 나타내는 값입니다. 분산은 크게 2가지 방법으로 구할 수 있습니다. 모든 값에 평균을 빼고 제곱을 해 평균을 구하거나, 모든 값의 제곱의 평균에 평균의 제곱을  빼서 구할 수 있습니다.

Reference

Expected value – Wikipedia



산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

Reference

Mean – Wikipedia



가중평균

가중평균은 일반적인 산술평균(가장 일반적인 유형의 평균)과 비슷하지만 각 데이터 값이 평균에 동등하게 기여하지 않고 일부 데이터 값이 다른 값보다 더 많은 기여를 한다는 점이 다릅니다. 가중평균의 개념은 설명통계(기술통계)에서 사용되며 수학의 다른 영역보다 더 일반적인 형태로도 사용됩니다.

모든 가중치가 같다면 가중평균과 산술평균은 같습니다. 가중평균은 보통 산술평균과 비슷하게 작동하지만 Simpson의 역설에서  보이는 것과 같이 직관적이지 않은 속성도 있습니다.

Reference

weighted arithmetic mean – Wikipedia



증앙값

중앙값은 데이터세트(유한집단 또는 표본 또는 이산확률분포)의 하반부와 상반부를 분리하는 값이며 “중간”값으로 간주 될 수 있습니다. 예를 들어, 데이터세트 {1, 3, 6, 7, 8, 9}에서 중앙값은 데이터 집합에서 네 번째로 크고 네 번째로 작은 숫자입니다. 연속적인 확률분포의 경우, 중앙값은 숫자가 상반부 또는 하반부로 정해질 가능성이 같은 값입니다. 중앙값은 통계 및 확률 이론에서 데이터 집합의 속성에 일반적으로 사용되는 척도입니다.

데이터를 요약하거나 설명할 때, 평균에 비해 중앙값의 좋은 점은 매우 크거나 작은 값으로 데이터의 대표값이 왜곡되지 않으므로 더 나은 대표성을 제공 할 수 있습니다, 예를 들어, 평균가계소득이나 평균자산과 같은 통계량을 이해할 때 적은 수의 매우 크거나 작은 데이터로 인해 평균은 극단적으로 왜곡 될 수 있습니다.반면에 가계소득의 중앙값은 “전형적인”수입이 무엇인지를 제시하는 더 좋은 방법 일 수 있습니다.이 때문에 중앙값은 중요한 통계에서 가장 신뢰할 만한 대표값이며 50 %의 분해점을 갖는 가장 믿을 만한 통계량이므로 데이터의 절반 이상이 실제와 다르지 않는 한 중앙값은 크게 달라지지 않습니다.

Reference

Median – Wikipedia



가중중앙값

통계에서 표본(Sample)의 가중중앙값은 50% 가중 백분위 수입니다. 이것은 1988년에 F.Y.Edgeworth에 의해 처음 만들어졌습니다. 중앙값과 마찬가지로 중심 경향을 예상하는데 유용하며, 이상치에 더욱 근접합니다. 이것은 균일적이지 않은 통계적 무게(표본에서의 다양한 정밀도 측정)를 표현 가능하게 합니다.

Reference

weighted median – Wikipedia



4.2. 참조


Reference

Wikipedia