교차표 ?
Cross table ?

1. 애니메이션

1.1. 4 × 4 교차표 : 이산확률분포

1.2. 2 × 2 교차표 : 이항검정


2. 설명

2.1. 교차표의 적용 예

2.3. 교차표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



4 × 4 교차표 : 이산확률분포




2 × 2 교차표 : 이항검정

2. 설명

2.1. 교차표의 적용 예

교차표(cross table)은  두 확률변수의 확률분포를 나타내기 위해서 사용합니다. 참고로 한 확률변수의 확률분포를 나타내는 것은 도수분포표입니다.  대응된 두 변수의 데이터로 교차표(cross table)를 만듭니다. 

 

위 애니메이션에서  표본을 이루는 개체는 딸기품종 중에서 설이고 개체가 가지는 확률변수는 과중과 당도입니다. 그리고 20개의 표본크기를 가지고 있습니다. 연속형 확률변수를 구간화하여 범주형 확률변수로 만듭니다. 여기서는 등간격으로  5구간과 4구간으로 나누었습니다. 만일 , 두 변수가 범주형 확률변수인 경우에는 구간을 나눌 필요가 없이 바로 교차표를 만들 수 있습니다. 교차표가 만드는 각 칸(cell)에는 빈도수가 들어갑니다. 빈도수가 높은 칸은 개체가 나타날 확률이 높은 구간입니다. 구간의 수를 정할 때 확률분포의 모양이 잘 나타나도록 하는 것이 중요합니다. 구간의 수는 데이터의 개수와 데이터의 범위를 함께 고려하여 정합니다. 

 

두 확률변수의 확률분포는 교차표의  주변에 표시합니다.교차표의 주변에 표시한다고 하여 이 확률분포를 주변확률분포(marginal probability distribution)라 합니다. 두 확률변수의  관계를 나타내는 빈도수 분포는 교차표 안에 나타납니다. 빈도수가 클수록 진하게 표시하여 분포를 시각화하여 보았습니다. 대응된 두 확률변수의 분포를 보여준다고 하여 결합확률분포(joint probability distribution)라고 합니다. 결합확률분포는 주변확률분포를 반영하고 동시에 두 확률변수의  상관을 보여줍니다. 상관에는 대표적으로 선형상관이 있습니다.


2.2. 교차표

데이터로 교차표(cross table or contingency table)를 만듭니다. 두 개의 확률변수를 분류(categorize)하여 집단을 만들고 각 집단에 속하는 데이터의 빈도수를 확률변수가 교차하여 만들어진 칸(cell)에 나타냅니다. 교차표는 두 확률변수의  관계를 나타내는 표라고 할 수 있습니다. 교차표는 서로 다른 두 확률변수의 도수분포표를 2차원으로 확장하여 도수분포표의 구간이 교차하는 칸(cell)을 만들어서 빈도수를 적은 것입니다. 간단하게  2차원 도수분포표라고  할 수 있습니다.  연속형 데이터의 경우 도수분포표를 만들 때와 같이 구간을 나누어 빈도수를 조사한 다음 교차표를 만듭니다.

 

두 변수가 범주형 확률변수일때 교차표의 쓰임새는 여러가지 검정에 사용할 수 있습니다. 이 때 교차표는 한 변수의 속성(범주형 확률변수값, 수준)을 행에 놓고 나머지 변수의 속성(범주형 확률변수값, 수준)을 열에 놓아 셀(Cell)을 만듭니다. 행변수의 속성과 열변수의 속성이 교차하는 셀(cell)에  두 속성을 동시에 가지는 데이터의 빈도수를 넣습니다. 교차표를 작성하여 도수분포를 살펴보면 대략 두 변수 사이의 관계를 알 수 있습니다.  분석을 위해 각 셀의 빈도수 밑에 행의 합에 대한 백분율, 열의 합에 대한 백분율, 그리고 전체 백분율을 표시하기도 합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


교차표 : 구글시트 실습

3.2. 구글시트 함수

=COUNTIF(C3:C22,”>=12″) : 조건에 맞는 데이터 개수. C3에서 C22 범위에 있는 데이터 중에서 12 이상의 데이터 개수를 세어서 표시함.

=SUM(G5:H5) : 합계. G5에서 H5에 있는 데이터들의 합계.


3.3. 실습강의

– 데이터

– 교차표

– 실습 안내


4. 용어

4.1 용어


빈도수

통계에서 사건의 빈도 (또는 절대 빈도)는 실험이나 연구에서 사건이 발생한 횟수입니다. 이러한 빈도수는 종종 히스토그램으로 표현됩니다.

 

Reference

Frequency (statistics) – Wikipedia



도수분포

통계에서 도수분포(빈도수분포)는 표본의 실험이나 측정항목의 빈도수를 표시하는 표(도수분포표)나 그래프(도수분포도)로 나타냅니다. 도수분포표의 각 항목에는 특정 집단 또는 특정 구간 내의 값이 발생하는 빈도수가 나타납니다. 도수분포표는 표본의 변수 분포를 요약하는 효과적인 방법입니다.

 

Reference

Frequency distribution – Wikipedia



4.2. 참조


Reference

Contingency table

도수분포표 ?
Frequency table ?

1. 애니메이션

1.1. 도수분포표


2. 설명

2.1. 도수분포표


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



도수분포표


2. 설명

2.1 도수분포표

변수의 각 구간에 속하는 요소(element, object, record)의 개수를 합한 것을 빈도수(도수, frequency)라 하는데 줄여서 도수라고 합니다. 각 구간별로 빈도수를 나타낸 표가 바로 도수분포표입니다.

도수분포표(frequency table)를 작성하는 것은 연속형 데이터를 정리하는 효과적인 방법입니다.

 

연속형 데이터의 도수분포도를 그려서 데이터를 분석하고자 합니다. 도수분포도를 그리기에 앞서서 우선  도수분포표를 작성합니다.

 

도수분포표 작성을 위해서는 변수의 범위(range)를 정해야 하는데  변수의 최대값과 최소값의 차로 변수의 범위를 구합니다. 그리고 동일한 간격을 가진 서로 중복되지 않는 구간(계급, bin, bucket)을  정합니다. 위의 애니메이션에서는 딸기 20개의 당도 데이터가 변수입니다.

 

‘몇 개의 구간으로 정할 것인가?’는 데이터를 분석하기 위해서 정하는 가장 중요한 결정 중의 하나입니다.  구간의 개수는 보통 데이터의 수의 제곱근에 근사한 정수로 합니다. 

구간의 개수가 정해지면 변수의 범위(최대값-최소값)를 구간의 개수로 나누어 구간을 구합니다.

각 구간의 시작점과 끝점은 보통  ‘~ 이상($≥$)에서 ~ 미만($<$)’으로 정합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


도수분포표

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

도수분포표 준비

도수분포표 작성



4. 용어와 수식

4.1 용어

사분위표 ?
Quartile table ?

1. 애니메이션

1.1. 사분위표


2. 설명

2.1. 사분위표


3. 실습

3.1. 구글시트

3.2. 함수

3.3. 실습강의


4. 용어

4.1. 용어

4.2. 참조

1. 애니메이션



사분위표

2. 설명

2.1 사분위표

사분위표는 데이터를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단으로 나누어  놓은 표입니다. 사분위수는 이 4개의 집단의 최대값입니다.

 

유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는%를 단위로 사용합니다. 예를 들어,  p%로 표현되는 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 구분하였을 때  p번째 집단의 최대값을 뜻합니다. 데이터개수가 100보다 적을 경우에는 한 데이터가 여러 개의 백분위 집단에 해당되도록 하여 백분위표를 만들 수도 있습니다. 

 

사분위수(quartile)는 백분위수로 표현할 수 있습니다.

1사분위수(Q1)는 데이터의 25%가 이 값보다 작거나 같습니다.

2사분위수(Q2)는 데이터의 50%가 이 값보다 작거나 같습니다.

3사분위수(Q3)는 데이터의 75%가 이 값보다 작거나 같습니다.

 

정리하면, 백분위수 중 25% 백분위수를 1사분위수(1st quartile, Q1), 50% 백분위수를 2사분위수(2nd quartile, Q2) 또는 중앙값(median), 75% 백분위수를 3사분위수(3rd quartile, Q3)라고 부릅니다.

 

4분위수범위(interquartile range)는 제3사분위수에서 제1사분위수를 뺀 값 입니다. 즉, 데이터의 중앙부 50%의 범위입니다. 4분위수범위는 IQR로 표현합니다.

$$IQR={Q_3} – {Q_1}$$

아주 크거나 작은 데이터(변수값)가 있는 경우, 범위(Range)는 왜곡이 발생합니다. 이 때는 범위(Range)대신에 4분위수범위(IQR)을 사용합니다.

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


사분위표 : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B12,1,TRUE) : 데이터정렬. B3와 B12 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.


3.3. 실습강의

– 데이터

– 데이터 정렬

– 최소값, 최대값, 중앙값, 사분위수

– 사분위표

– 실습 안내


4. 용어

4.1 용어


데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

 

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 ( “정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

 

Reference

Data – Wikipedia



범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

 

Reference

Range (statistics) – Wikipedia



사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

 

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

 

Reference

Interquartile range – Wikipedia



백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

 

모든 점수는 100번째 백분위 수 안에 있습니다.). 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

 

Reference

percentile – Wikipedia



4.2. 참조


데이터 선택과 분리 ?
Data selection and separation ?

1. 애니메이션

1.1. 데이터 선택

1.2. 데이터 분리


2. 설명

2.1. 데이터 선택과 분리


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



데이터 선택




데이터 분리


2. 설명

2.1 데이터 선택과 분리

데이터를 살펴보면 첫번째 열은 요소명입니다. 즉, 딸기의 당도를 측정할 때 부여한 딸기 번호입니다. 그래서 딸기의 특성을 나타내는 데이터가 아닌 측정편의상 부여한 것입니다.

 

필요한 데이터를 분리하면 변수명인 당도와 20개의  변수값인 데이터입니다. 20개의 당도 데이터와  딸기개수로 총 21개의 데이터를 분리해 내었습니다. 즉, 데이터 개수인 20이라는 숫자도 중요한 데이터로 취급됩니다. 데이터를 분리하여도  당도라는 변수명은 그대로 사용합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.



3.2. 구글시트 함수

=SUM(B3:B22) : 합계. 


3.3. 실습강의

데이터 복사

데이터 참조



4. 용어와 수식

4.1 용어

딸기 프로젝트로 학습하는 데이터사이언스


클래스 구매하러 가기



어떤 딸기를 구매할까


통합 딸기 코스 구매하러 가기



자연상수e 와 정규분포

Natural exponential    $y=e^x$


Gaussian function    $y=e^{-x^2}$


표준정규분포 ${y=}{1\over \sqrt{2\pi}}e^{-{1\over 2}x^2}$

평균 $\mu$, 표준편차 $\sigma$를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수

$$f(X)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ -\infty\leq X\leq+\infty$$


자연상수 e

곱의 기준은 1입니다.

1은 자신을 x번 곱해도 자신이 됩니다. 

1 × 1 × 1… = 1x = 1

그리고 모든 수는 0번 곱하면  1이 됩니다.

a0 = 1

그렇다면 자신을 곱해서 나오는 값을 자신이 증가하는 비율로 가지는 자신의 수가 있다면 무엇일까요?

바로 자연상수 $e$입니다

e = 2.718… 인 무리수입니다.

지수함수 ex

e를 x번 곱해서 나오는 함수 ⇒ e × e × e…  ⇒ $e^x = y $

${dy\over dx} = e^x = y$

 

자연상수가 밑이 되는 지수함수를 살펴보면

$y=e^x$

x < 0 :

$y=(1/e)^{ㅣxㅣ}$

x = 0 :

$y=e^x= 1$

 x =1 :

$y=e^x = e $

정규분포

표준정규분포

$$y=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}$$

 

평균 $\mu$와 분산 $\sigma^{2}$ 를 모수로 하고 정규분포를 가지는 모집단의  확률밀도함수

$$f(X)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ -\infty\leq X\leq+\infty$$

공간과 점

1차원 직각좌표계


2차원 직각좌표계


3차원 직각좌표계


산점도(1차원)


산점도(2차원)


산점도(3차원)


평균


회귀선


회귀평면


딸기를 점(Point)으로 속성의 공간(Space)에 표현합니다.

딸기집단의 대표속성은 평균, 회귀선, 회귀평면으로 표현됩니다.

이항분포 ?
Binomial distribution ?


확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션


동전 1개를 던져 앞면이 나오는 수를 확률변수라 하면 확률변수는 0과 1이고  2개입니다.

 

동전을 무한번 던져서 통계학적 확률을 구할 수 있습니다. 이를 큰 수의 법칙이라고 합니다.

완벽한 대칭모양의 동전이라면 동전 1개를 던지는 시행에서 확률변수 0과 1의 확률은 각각 0.5일 것입니다.

 

동전 2개를 던지면 확률변수는 0, 1, 2로  3개이고 각각의 확률은 0.25, 0.5, 0.25 입니다.

 

이런 식으로 던지는 동전의 갯수를 하나씩 늘려 확률변수가 2개일 때부터 101개일 때까지 100단계를 하나씩 올려봅니다.

그리고 확률의 분포, 즉, 이항확률분포를 살펴봅니다.

 

애니메이션에서 보는 것처럼 확률변수의 갯수가 10개 정도까지는 급격하게  확률분포 모양이  변합니다.

하지만 대략 30개가 넘어가면 비슷한 크기의 종모양이 유지되는 모습을  관찰할 수 있습니다.

이 모습은 표본의 크기가 작을 때 t분포를 사용하는 것과 관계가 있습니다.

A/B 테스트
A/B test


AB테스트는 두 개의 조건, A와 B에 대하여 테스트 결과를 대조하는 실험입니다.

AB테스트를 통해 신약과 위약(Placebo)의 약효를 비교하거나, 웹이나 앱에서 A버전과 B버전 중 어떠한 버전이 사용자에게 보다 효과적인지를 알 수 있습니다.

 

다음의 예제를 통해 AB테스트를 체험해보시기 바랍니다.

 

100개의 A딸기와 80개의 B딸기가 있습니다. A딸기를 먹은 사람 중 75명과 B딸기를 먹은 사람 중 24명이 맛있다는 평가를 했습니다.

 

그럼, A딸기가 더 맛있다고 할 수 있을까요?