Q-Q plot

1. 애니메이션

1.1. Q-Q plot


2. 설명

2.1. Q-Q plot 적용 예

2.2. Q-Q plot


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



Q-Q plot


2. 설명

2.1. Q-Q plot 적용 예

추론통계에서 가설의 검정방법을 채택함에 있어 대부분, 집단이 정규분포를 가진다는 가정이 선행됩니다. 이 때 표본데이터의 정규성검정을 행하게 되는 데,  데이터시각화 방법 중에서 Q-Q plot을 가장 널리 사용하고 있습니다. 


2.2. Q-Q plot

Q-Q plot(Quantile-Quantile plot)은 “정규분포 분위수 대조도”라고도 합니다.  분위수는 같은 데이터개수를 가지도록 값의 범위를 나눈 것으로 대표적인  분위수(quantile)로는 4간격으로 나눈 사분위수(quartile)와 100간격으로 나눈 백분위수(percentile)가 있습니다. Q-Q plot에서는 표본데이터의 개수(표본크기)에 맞추어 분위수를 정하게 됩니다.

 

예를 들어 표준정규분포와 표본데이터의 분포를 비교하는 경우에는 표준정규분포의 분위수를 X축에 놓고 표본데이터의 분위수를 Y축에 놓습니다. 만일 같은 분위의 표본데이터의 분위수와 표준정규분포의 분위수가 같다면  점그래프에서 점들은 직선($y=x$)상에 위치하게 됩니다. 직선을 이루는 표본데이터의 구간은 정규분포를 따른다고 할 수 있습니다. 

 

Q-Q plot은 여러 통계페키지(예를 들면 Goolge sheet 등)의 Q-Q plot함수를 사용하여 쉽게 그릴 수 있습니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


Q-Q plot : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B22,1,TRUE) : 데이터정렬. B3와 B22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

=COUNT(E3:E22) : 데이터개수. E3와 E22 범위에 있는 숫자형 데이터들의 개수.

=NORM.S.INV(F3) : 표준정규분포의 확률변수. F3를 누적확률밀도로 가지는 표준정규분포 상에서의 확률변수(표준정규분포 가로축의 값). 

=NORMDIST(L3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1인 정규분포, 즉 표준정규분포 상에서 L3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산함.


3.3. 실습강의

– 데이터

– 데이터정렬

– 백분위수

– Z Score

– Q-Q plot

– 실습 안내



4. 용어와 수식

4.1 용어


Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

 

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선($y = x$)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선($y = x$)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

 

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

 

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

 

Reference

Q-Q plot – Wikipedia


2차원 산점도

1. 애니메이션

1.1.딸기의 과중과 당도를 나타내는 2차원 산점도

2.1 딸기의 출하일과 당도를 나타내는 2차원 산점도


2. 설명

2.1. 2차원 산점도


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



딸기의 과중과 당도를 나타내는 2차원 산점도




딸기의 출하일과 당도를 나타내는 2차원 산점도


2. 설명

2.1.  2차원 산점도

20개의 딸기의 과중과 당도를 측정한 데이터가 있습니다. 데이터를 보면 딸기 하나에 과중과 당도, 두 개의 데이터(변수값)가 있습니다. 딸기의 과중과 당도의 관계를 탐색하기 위하여 두 변수의 관계를 시각화하는 산점도(scatter plot)를 그립니다.

 

딸기 하나를 한 점(point)으로 생각하면 딸기 하나가 독립된 두 변수를 가진다면 2차원 직각 좌표계에  점으로 딸기를 나타낼 수 있습니다. 결과적으로 딸기가 20개이므로 20개의 점이 평면좌표계에 찍힙니다. 산점도를 그릴 때는 보통, 원인이 되는 변수를 $X$축(가로축), 결과를 나타내는 변수를 $Y$축(세로축)으로 정합니다. 따라서 과중과 당도를 각각 $X$축과  $Y$축에 나타냅니다.

 

애니메이션의 산점도를 보면 과중이 클수록 당도가 높게 나옵니다. 딸기가 무거울수록, 즉, 큰 딸기일수록  달다고 해석할 수 있겠습니다. 두번쨰 애니메이션에서는 20개 딸기의 출하일과 당도를 기록한 데이터를 다룹니다. 산점도를 보면 출하일이  겨울에 가까울수록 딸기가 달다는 것을 알 수 있습니다.

 

산점도는 데이터의 요소가 가지는 두 변수의 상관 관계를 분석하는 그래프입니다. 특히,  두 연속형 변수의 관계를 분석하는데 매우 효율적입니다. 2차원 산점도는 개체(object, 요소, element)의 한 변수를 $X$축,  다른 변수를 $Y$축으로 하여 각각의 관찰값을  $XY$ 평면상의 점으로 나타내는 “데이터시각화”입니다.

 

두 개의 변수에서 한쪽이 증가하면 다른 쪽도 증가하는 관계를 양의 상관이라고 합니다. 반대로 한쪽이 증가하면 다른 쪽은 줄어드는 관계를 음의 상관이라고 합니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


2차원 산점도 : 구글시트 실습

3.2. 구글시트 함수

=AVERAGE(B3:B22) : 평균. B3에서 B22에 있는 데이터의 평균을 구함. 데이터를 모두 더해서 개수로 나눔. 산술평균.


3.3. 실습강의

– 데이터

– 산점도

– 세로축 범위 조정

– 실습 안내



4. 용어와 수식

4.1. 용어


산점도

산점도(산포도)는 일반적으로 여러 변수를 가지는 개체를 표시하기 위해 직각  좌표계를 사용하는 그래프 유형입니다. 점이 시각적으로 정의된 경우 (색상 / 모양 / 크기) 하나의 추가 변수로 표시 될 수 있습니다. 3차원 산점도에서 데이터는 수평 축상의 위치를 결정하는 하나의 변수 값과 수직축 상의 위치를 결정하는 다른 변수의 값을 갖는 점들의 모음으로 표시됩니다.

 

Reference

Scatter plot – Wikipedia


가설

1. 애니메이션

1.1. 연역법과 귀납법


2. 설명

2.1. 가설

2.2. 연구가설

2.3. 설명강의


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



연역법과 귀납법


2. 설명

2.1. 가설(hypothesis)

가설(hypothesis) 아이디어이고 잠재적 진실입니다.  가설이 진실이 되었을 때의 가치가 크다면 가설을 검정하고자 하는 욕구가 강할 것입니다. 가설의 수립은 관심의 대상을 변수로 정함으로 시작합니다.

 

변수(variables)

 

가설에서 사용하는 변수에는  가지 유형이 있습니다 번째 유형은 독립변수(independent variable)서 실험을 수행하는 동안 조절합니다. 다른 말로는 원인, 설명, 요인, 인자(factor), 처리(treatment), 중재(intervention)등이 있습니다. 번째 유형은 종속변수(dependent variable)로서 다른 말로는 결과, 반응. 효과 등이 있습니다. 일반적으로 가설 독립변수가 종속변수에 영향을 미치는 것을 “만일 ~면 ~이다”로 표현하는 구조를 가집니다.

 

가설의 유형

 

변수간의 관계에 따른 유형

 

– 변수간에 관계가 없는 경우 : 귀무가설($H_0$, null hypothesis) 변수 간에 무관함을 설명하기 때문에 귀무가설이라고 하며 다른 말로는 영가설이라고 합니다. 연구자들은 연구를 수행하여 기존의 질서인 귀무가설을  기각하고 귀무가설과 대립하는 연구가설을 채택하려고 합니다.  귀무가설은 증명할 수 없으며 기각만 가능합니다.  귀무가설로 변수 사이에 관계가 없다는 것을 밝히는 것만으로도 충분한 연구가치가 있는 경우가 많습니다. 즉, 귀무가설을 기각하지 못하여 대립가설로 넘어가지 못하더라도 귀무가설 기각의 연구결과만으로도 그 후의 연구에 중요한 자료가 될 수 있습니다.

– 변수간에 관계가 있는 경우 : 대립가설($H_1$)은 귀무가설의 반대입니다. 연구자들이 귀무가설을 기각하려는 연구를 주로 수행하기 때문에 대립가설은 연구가설과 같은 의미로 많이 사용됩니다.  실험을 설계할 때, 신뢰할  있는 연구결과를 얻기 위해 귀무가설과 대립가설을 함께 고려합니다. 그리고  100% 신뢰도로 대립가설을 증명할 수 없기 때문에 근사값으로 대립가설을 증명합니다. 따라서 대립가설을 증명하기 전에 귀무가설의 기각을 먼저 수행하여야 합니다. 

 

연구방법에 따른 유형

 

– 양적연구 : 통계적 가설 (statistical hypothesis)은 수집한 데이터로 검증할 수 있는 가설입니다.

– 질적연구 : 논리적 가설(logical hypothesis)은 변 간의 관계를 설명하기 위해 논리를 사용합니다. 하지만 관계를 설명하기 위한 데이터는 수집할  없는 경우입니다.

 

변수의 개수에 따른 유형

 

– 변수가 2개 : 단순 가설 (simple hypothesis) 입니다. 하나는 독립 변수이고 다른 하나는 종속 변수

– 변수가 3개 이상 : 복합 가설 (complex hypothesis)입니다. 3 이상의 변수를 포함합니다

 

가설 수립 시 고려할 점

 

– 변수의 명확성

– 변수 관계의 명확성 : 원인과 결과 등

– 검정방법의 윤리성

– 검정 가능성

– 간결한 언어


2.2. 연구가설(Research hypothesis)

연구가설이란 질문에 대해  예측한 답을 서술한 것이라고 볼 수 있습니다.  가설은 연구가치가 있는 질문을 작성하는 것으로 시작합니다. 가설수립의 초단계에서는 정확성을 추구하기 보다는 질문과 그 답의 가치를 검토하는 것이 중요합니다. 그리고 자연 또는 사회에 대한 관찰이 아닌  검증된 이론에서 도출해내거나 이전 연구결과를 기반으로 연구가설을 세울 수 있습니다.

 

연구가설 형식

 

연구가설은 문제 정리, 해결방안 설명 그리고 판정기준을 포함한 결과예측으로 구성됩니다. 

 

문제 정리 > 해결방안 설명 > 결과예측(판정기준 포함)

 

연구가설을 원인과 결과로 표현할 수도 있습니다. 부가적으로 원인과 결과를 설명하는 이론에 대한 설명이 있을 수 있습니다.

 

원인 > 효과

 

가설을 세우기 전, 충분한 시간을 들여 문헌검토를 해야 합니다. 더 나아가 인터뷰도 필요할 수가 있습니다.

 

연구가설의 단계적 수립

 

1) 가능한 많은 자료를 수집하고 가질 수 있는 문제를 정리

2) 몇 가지  예비가설을 세운 후 예비실험을 통해 각 가설을 확인

3) 가설을 정한 후 설명 목록을 작성

 

연구가설 체크리스트

 

– 연구주제와의 밀접성 : 연구주제와의 관계를 명확히 설명할 수 있는가

– 검정가능성 : 검정할 수있는 방법이 있는가

– 재현성 : 검정결과를 재현할 수 있는가

– 포함된 변수의 정확성 : 독립변수와 종속변수가 모두 포함되어 있는가

– 간결성 : 더 줄일 수 있는가

– 윤리적 기준에 따라 포함된 변수를 조정하고 관측할 수 있는가

– 윤리적 기준을 위반하지 않고 검증할 수 있는가


2.3. 설명강의

– 준비 중



3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다. 


가설 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(N3,O3) : t분포 상에서 확률변수의 양측 확률밀도. N3 확률변수에 대해 O3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.

=T.INV(1-(S3/T3),O3) : 확률밀도에 해당하는 확률변수를 구함. O3 값을 자유도로 가지는 t분포 상에서 1-(S3/T3) 값을 누적확률밀도로 가지는 확률변수 값을 표시함.

=IF(R3>U3,”YES”,”NO”) : 조건문, R3의 값이 U3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.


3.3. 실습강의

– 가설

– 확률변수

– 가설검정

– 실습 안내



4. 용어와 수식

4.1 용어


가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다.  “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다. 

 

Reference

Hypothesis – Wikipedia

논문 연구계획서


2. 설명

2.1 연구계획서

2.2 연구계획서 예시


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션



연구계획서 – 데이터사이언스 – 논문


2. 설명

연구계획서

연구주제(Research subject)

 

연구주제의 서술시 가설(hypothesis)과 그에 따른 변수의 설명을 명확하게 합니다. 연구필요성은 연구결과로 기대되는 가치를 서술하며 연구윤리와 연구수행의 타당성을 함께 고려합니다. 연구주제는 연구질문과 그에 대한 예상 답변으로 표현할 수 있습니다.

 

연구방법(Research method)

 

연구주제의 해결을 위한 연구방법에 대하여 구체적인 설명을 합니다. 

1)  연구대상

연구대상인 집단의 대표할 수 있는 표본을 추출합니다.

 

2)  데이터수집

데이터수집 방법, 실험설계, 관측도구의 신뢰도 등을 서술합니다.

 

3)  데이터분석

데이터의 구조를 설명하고 사용한 데이터분석 방법에 대하여 서술합니다. 데이터는 특정 데이터분석 방법을 적용하기 위하여 왜곡되어져서는 안됩니다. 즉, 데이터분석 방법보다는  연구목적과 그에 따른 데이터신뢰성의 지속이 중요합니다.


연구계획서(Research proposal) 예시


연구계획서 – 논문

Ⅰ. 연구의 목적

Ⅱ. 연구의 범위 및 방법 

1. 연구의 범위 
2. 연구의 방법 

Ⅲ. 이론적 배경 

Ⅳ. 연구모형 

Ⅴ. 연구가설 설정 

Ⅵ. 논문의 목차 

Ⅶ. 연구진행개요 

[참 고 문 헌] 


연구계획서 – 학위논문

I. 논문의 잠정적 제목

Proposed Title

II. 연구주제의 진술과 설명

Statement and Explanation of the Thesis

III. 연구주제의 배경과 중요성

Background Contexts and Significance of the Subject

IV. 선행연구들의 소개와 평가

Research History and Its Evaluation

V. 연구의 범위, 수준, 용도

Scope, Level, and Contribution of the Study

VI. 연구방법론

Methodology

VII. 논문의 잠정적 목차

Proposed Outline of the  Dissertation

VIII. 주요 참고문헌

Selected Bibliography


논문계획서

Ⅰ. 논문제목

Ⅱ. 연구 목적 및 필요성

Ⅲ. 연구방법

Ⅳ. 논문의 목차 

[참 고 문 헌] 


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 



3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(O3,N3) : t분포 상에서 확률변수의 양측 확률밀도. O3 확률변수에 대해 N3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.


3.3. 실습강의

– 연구주제

– 확률변수

– 데이터분석

 실습 안내


표본크기 결정



3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션



표본추출과 표본통계량


2. 설명

실험설계에서는 표본을 추출하기 전에 표본크기를 얼마로 할 것인가를 정해야 합니다. 표본크기를 크게 할수록 표준오차는 작아지고 추정의 정밀도는 더욱 높아집니다. 일반적으로 표본크기가 클수록 모수를 구간추정할 때 같은 유의수준이라도 신뢰구간이 커집니다. 표본크기를 늘리는 것은 실험의 비용을 늘리기 때문에 먼저 추정의 유의수준과 신뢰구간을 미리 설정하여 표본크기의 방정식을 만들어 최소한의 표본의 크기를 결정합니다.

 

모평균 추정시 표본크기 결정

모평균의 $100(1-\alpha)$% 신뢰구간은 다음과 같습니다.

 

$\left[\bar{X}-z_{\frac{\alpha}{2}}\dfrac{{\sigma_X}}{\sqrt{n}},\bar{X}+z_{\frac{\alpha}{2}}\dfrac{{\sigma_X}}{\sqrt{n}}\right]$

 

여기서,   $\mu_X$은 모평균

$\sigma_X$은 모표준편차 

 

${z}_{\frac{\alpha}{2}}\dfrac{\mathit{\sigma}}{\sqrt{n}}$ 를 오차의 한계(bound on the error of estimation)또는 최대허용오차(maximum allowable error)라고 합니다. 오차의 한계를 $d$로 하기 위한 표본크기는 다음 방정식을  $n$에 관하여 풀면 됩니다.

 

${z}_{\frac{\alpha}{2}}\dfrac{\mathit{\sigma}}{\sqrt{n}}=d$

 

모평균 추정시 표본크기의 결정

 

$n=\left(\dfrac{z_{\frac{\alpha}{2}}\sigma_X}{d}\right)^2$


위 식에서 모표준편차 $\sigma_X$는 알 수가 없으므로 $X$의 범위를 추정하고 4로 나눈 값을 사용합니다.

 

모비율 추정시 표본크기 결정

비슷한 방법으로 모비율 $p$의 100(1-$\alpha$)% 신뢰구간은 다음과 같습니다.

 

$\left[{\hat{p}{-}{z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}{,}\hspace{0.33em}\hat{p}{+}{z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}}\right]$

 

따라서 오차한계가 $d$가 되기 위해 아래의 방정식을 표본크기($n$)에 대하여 풉니다.

 

${z}_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}{(}{1}{-}\hat{p}{)}}{n}}{=}{d}$

 

모비율 추정시 표본의 크기 결정

 

${n}{=}\hat{p}{(}{1}{-}\hat{p}{)(}\dfrac{{z}_{\frac{\alpha}{2}}}{d}{)}^{2}$

 

위 식에서 $\hat{p}$는 구하기 전이고 모비율은 알 수 가 없으므로 $\hat{p}$를 보통 0.5로 합니다. 그 이유는 $p=0.5$일 때  자연현상에서 가장 흔한 대칭이기 때문입니다.

 


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 


표본크기 결정 : 구글시트 실습

3.2. 구글시트 함수

=ROWS(F2:F2) : 지정된 배열 또는 범위에 있는 행의 개수.

=RANDBETWEEN(1,100) : 두 값 사이(두 값 포함)의 고르게 분산된 정수인 난수를 반환.

=INDIRECT(D3&”:”&E3) : 문자열로 지정된 셀 참조를 반환.

=COUNTIF(F2:F2, ROW(D3:E3)) : 범위에서 조건에 맞는 개수를 표시.

=NOT(논리표현식) : 논리 값의 역을 반환.

=LARGE(데이터집합, n) : 데이터 집합에서 n번째로 큰 요소를 반환.

=ARRAYFORMULA : 배열 수식에서 여러 행 또는 열에 반환된 값을 표시.

=ARRAY_CONSTRAIN : 배열 결과를 지정된 크기로 제한.

=VLOOKUP(H3,A:B,2,FALSE) : 열 방향 검색. A:B열의 첫 번째 열에서 H3값이 있는 행의 2번째 값을 표시합니다. FALSE를 입력하면, 완전히 일치된 값만 표시합니다. FALSE가 아닌 TRUE를 입력하면, H3에 근접한 값(H3보다 작거나 같은 값)이 있는 행의 2번째 값을 표시합니다.

=AVERAGE(B3:B1002) : 평균. B3에서 B1002에 있는 데이터의 평균.

=VARP(B3:B1002) : 모분산. B3에서 B1002에 있는 데이터의 모분산. 편차제곱합을 데이터 개수로 나눔.

=STDEV.P(B3:B1002) : 모표준편차. B3에서 B1002에 있는 데이터의 모표준편차. 모분산의 제곱근.

=COUNT(I3:I22) : 데이터 개수. I3에서 I22에 있는 숫자로 표시된 데이터의 개수.

=VAR.S(I3:I22) : 표본분산. I3에서 I22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(I3:I22) : 표본표준편차. I3에서 I22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=AK3/SQRT(AH3) : AK3 값을 AH3의 제곱근으로 나눔. 이 실습에서는 표준오차를 계산함.

=T.INV(1-(1-AN3)/2,AH3-1) : T확률분포에서 T값을 계산. T.INV(확률, 자유도)로 구성. 이 실습에서는 AN3에 95% 신뢰수준을 입력하였는데, 양측검정에서는 양쪽 끝 확률이 각각 2.5%가 되어야 함. 따라서, 1-(1-0.95)/2를 하면 누적확률밀도가 0.975, 즉 97.5%가 되어서, 양쪽 끝 확률이 각각 2.5%인 T값을 얻을 수 있음.

=AND(AR3>AP3, AR3<AQ3) : 입력된 조건이 모두 참이면 TRUE, 입력된 조건 중 하나라도 거짓이면, FALSE를 표시. AR3값이 AP3 초과이고, AQ3 미만이면 TRUE를 표시함.

=NORMSINV(1(1AP3)/2) : 표준정규분포의 역함수. 괄호안의 값을 누적확률로 가지는 표준정규분포 상의 확률변수를 구함. 이 실습에서는 AP3에 0.95, 즉 95% 신뢰구간 값을 넣었는데, 좌우대칭의 양 끝 확률이 0.25 (2.5%)가 되도록 하기 위해, 1(1AP3)/2=0.975 (97.5%)로 계산해서 입력함. 


3.3. 실습강의

– 집단

– 랜덤 샘플링 : 무작위로 표본추출

– 표본통계량

– 표본통계량으로 모수 추정(점, 구간)

– 표본크기에 따른 표준오차 비교

– 표본크기 결정

– 실습 안내


정형데이터 Structured data



정형데이터의 요소(element)




정형데이터의 변수(variable)




정형데이터의 요소명과 변수


데이터의 종류에서 정형데이터는 비정형데이터와 달리 가로와 세로로 구성된 칸안에 들어가는 값으로 표현될 수 있는 데이터입니다. 가로줄을 행(row)이라하며 세로줄을 열(column)이라 합니다. 한편,  머신러닝에서는 “행”은 예제(example),  “열”은 속성(attribute)이라고 합니다.

 

정형데이터(data)는 계열(family)로 구성됩니다. 계열은 세로줄 “열(column)”로 표현되며 변수명(variable name)과 변수(variable)로 구성되어 있습니다. 여기서 변수를 좁은 의미의 데이터라고 합니다. 그리고 변수의 값을 변수값 또는 데이터라고 합니다.

 

한편, 데이터는 요소(element)가 모여 있는 집합입니다. 요소는 가로줄 “행”으로 표현되며 개체(object) , 기록(record)이라고도 합니다. 각 요소는 요소명(element name)과 변수(variable)로 구성됩니다. 요소의 예로 인간을 들면 각 인간은 키와 체중이라는 이름을 가지는 변수를 가지고 있습니다. 한 요소에서의 변수값들은 좁은 의미의 데이터라고도 하고 관측값, 측정값, 관찰값 등으로 불리웁니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=SUM(B3:B22) : 합계

 

 



<실습강의 내용>

데이터

데이터 종류 Data type



데이터 종류


형식에 따라 구분되는 데이터  종류는 정형데이터와 비정형데이터가 있습니다. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미합니다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할수 있습니다. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말합니다. 비정형데이터는일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있습니다.

 

척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있습니다. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2” 처럼 수치화 시킨 것입니다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것입니다. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것입니다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것입니다.

 

속성에 따라 구분되는 데이터 종류는 연속형데이터(continuous data)와 범주형데이터(Categorical data)가 있습니다. 연속형데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터 입니다. 정확한 값이 있는데 어떻게 연속형데이터로 명명할 수 있는가 하고 의문을 가질 수 있습니다. 연속형데이터는 아날로그라고 할 수 있습니다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미합니다. 따라서 연속형데이터는 구간(계급, bin, bucket)을 두어 범주형데이터로 바꾸어 사용합니다. 연속형데이터를 측정한 값은 엄밀히 말하면 범주형데이터로 바뀐  것입니다. 범주형데이터는 “나이”, “시험점수” 등과 같이 명확한 자리수를 가지는 수치로 표현된 데이터입니다. 범주형데이터는 디지털이라고 할 수 있습니다. 즉 유한개의 숫자로 표현할 수 있습니다.

 

참고로 수집에 따른 데이터 종류도 있습니다. 원시데이터는 처음 수집한 데이터입니다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터입니다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있습니다. 정리하자면 원시데이터들에서 많은 가공데이터가 만들어질 수 있습니다.


실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치

구글시트 실습

<구글시트 함수>

=SUM(B3:B22) : 합계

 

 



<실습강의 내용>

데이터

삼성전자의 기업가치는 얼마일까요?

동전던지기와 대수의 법칙


삼성전자 주식 1주의 가격과 주식 수의 곱으로 구한 기업가치는 552조원입니다.

2021년 5월 7일 오후 3시 30분 기준, 삼성전자 보통주 주식 1주의 가격은 81,800원이고, 보통주 발행주식의 총 수는 5,969,782,550주입니다. 우선주 주식 1주의 가격은 74,500원이고, 우선주 총 수는 822,886,700주입니다.

 

삼성전자의 기업가치를 주식가격과 주식 수의 곱이라고 모델링할 수 있습니다. 이렇게 구한, 삼성전자의 기업가치는 552조원입니다.

 

그런데, 이렇게 구한 삼성전자의 기업가치는 하루에도 수시로 바뀝니다. 아래 차트는 2021년 5월 7일 하루 사이에 바뀐 삼성전자 보통주 1주의 가격입니다.


2021년 5월 7일 하루 동안의 삼성전자 보통주 1주의 가격 추이(X축: 시간, Y축: 가격)


그럼, 삼성전자의 기업가치는 하루에도 수시로 바뀌는 걸까요?

2021년 5월 7일 삼성전자 보통주 주식가격의 최고가는 82,100원이고, 최저가격은 81,500원입니다. 하루에만 3.5조원 정도의 변동이 발생합니다. 그럼, 삼성전자의 기업가치는 5월 7일 하루에만, 3.5조원 변동한다고 할 수 있을까요?

 

주식가격 시가 총액을 기준으로 기업가치를 산정한다면, 일정기간 동안 변하지 않는 기업가치를 기준으로 매일매일의 거래에 따라 위아래로 변동이 발생한다고 보는 것이 좋겠습니다.

 

동전을 몇번 던지면, 앞면만 나올수도 있고, 뒷면만 나올수도 있지만, 더 많이 던지면, 점점 앞면 혹은 뒷면이 나올 확률이 50%에 수렴해가는 것을 볼 수 있습니다. 하루에 발생하는 변동이 크다는 의미는, 동전을 던졌는데, 앞면만 계속 나오거나 뒷면만 계속 나오는 경우이고, 우리가 기대했던 기대값, 상대적으로 안정적인 기업가치와는 거리가 멀어진다는 것을 의미합니다. 

주가 변동이 크다는 의미는?

동전의 개수와 Galton보드의 분기 수


주가의 기대값은 긴 시간에 걸쳐서 변한다고 가정한다면, 작은 기간 동안은 기대값이 변하지 않는다고 생각할 수 있습니다.

변동이 크다는 것은 기준값과의 차이가 큰 경우일수도 있고, 기준값 자체가 크게 변동할 수도 있습니다. 주가 또한 2가지가 결합되어서 나타납니다.

 

주가를 하루 단위의 변동을 관찰한다면, 기대값은 변하지 않는다고 볼 수 있습니다. Zero Sum(제로썸)으로도 표현됩니다.

 

여기에서는 기대값이 변하지 않는 구간을 관찰기간으로 정한 후, 변동폭이 크다는 것에 대해서 논의해 보겠습니다.


기대값과의 거리가 멀다는 의미입니다.

동전을 던지면, 대략 2분의 1의 확률로 앞면이 나오거나, 뒷면이 나온다는 것을 직관을 통해 알 수 있습니다. 5개의 동전을 여러번 던지면, 2~3개가 앞면이 나오는 빈도가 가장 높을 것으로 기대됩니다.

 

그런데, 5개의 동전을 던져서, 5개 모두 앞면이 나올수도 있습니다. 이론적으로 확률을 계산해 보면 약 0.3%이고, 100번에 3 번 정도 나타날 것으로 기대되는 현상입니다. 이 동전이 정상적인 동전이라고(불량품이거나 어떤 의도를 가지고, 앞면만 나오도록 만든 동전이 아닌) 가정했을 때의 확률입니다. 위의 애니메이션 우측의 Galton보드의 경우라면, 구슬을 굴렸는데, 분기점에서 5번 모두 오른쪽으로가거나, 5번 모두 왼쪽으로 가는 확률입니다.

 

주가 변동이 크다는 의미는, 동전을 던졌는데, 앞면 만 계속 나온다던지, 혹시 Galton 보드에서 굴린 구슬이 분기점에서 한 쪽으로만 계속 굴러가서, 우리가 기대했던 기대값과의 거리가 멀어진다는 것을 의미합니다.

AI(인공지능)는 어떻게 예측을 하나요? 2탄

최소제곱법을 이용한 계산식 구하기


계산을 해서 예측합니다. 먼저, 계산식을 구해야 합니다.

AI(인공지능)은 컴퓨터(Computer)입니다. 컴퓨터는 말 그대로 컴퓨트(Compute), 즉 계산을 합니다. 따라서, 인공지능이 예측을 하기 위해서는 예측을 하기 위한 계산식을 구해야 합니다.

 

우리가 알 고 있는 데이터와 알고는 싶은데 알아내기가 상대적으로 어려운 2가지 데이터를 가정해보겠습니다. 애니메이션에서는 딸기의 무게와 당도를 예로 들었습니다. 딸기의 무게는 딸기를 먹어보지 않고도 측정해볼 수 있는 반면, 딸기의 당도는 소비자들의 구매결정에 영향을 주는 매우 중요한 데이터이지만, 이를 측정하기 위해서는 딸기의 과즙을 필요로 합니다. 따라서, 상품성을 헤치지 않고, 측정이 어렵습니다. 만약, 우리가 무게와 당도 사이의 관계를 알아낸다면, 무게만 측정해서, 당도를 예측할 수 있을 것입니다.

 

무게와 당도의 관계를 계산식으로 나타낼 수 있다면, 우리는 무게를 측정해서, 당도를 예측하는 AI(인공지능)을 만들 수 있습니다.

 

다음은 그 관계식을 구하는 방법입니다.

우리가 알고 있는 데이터인 무게(과중)을 X축으로 하고, 알고 싶은 당도를 Y축으로 하는 평면 위에 각 샘플의 무게와 당도를 점을 찍어서 표시합니다.

다음은 무게와 당도의 평균이 만나는 점을 먼저 찾고, 이를 지나가는 수많은 직선 중에서 각 당도와의 차이의 제곱 합이 최소가 되는 직선을 구합니다. 이 직선은 당도를 나타내는 Y, 무게를 나타내는 X, 그리고 기울기와 절편으로 표현할 수 있습니다. 

 

애니메이션에서 보여드리는 딸기 20개의 당도와 과중의 관계식은 다음과 같습니다.

Y=0.52*X-0.42 

 

물론, 위 관계식을 통해 예측한 당도와 실제 당도 사이에는 오차가 발생할 수 있는데, 오차가 작을수록 성능이 좋은 인공지능이 됩니다.

 

앞서 우리가 구한 직선을 회귀선이라고 하고, 이를 구한 방법을 최소제곱법(Method of Least Squares, MLE)이라고 하는데, 최소자승법, 최소제곱근사법, 최소자승근사법 등으로 부르기도 합니다.

 

회귀선이란, 무게와 당도(두 변수)가 선형관계를 이룬다고 할 때, 이 점들을  대표하는 방식입니다. 딸기의 무게에 따른 당도의 대표값들을 연결한 선입니다.