가설

1. 애니메이션

1.1. 연역법과 귀납법


2. 설명

2.1. 가설

2.2. 연구가설

2.3. 설명강의


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어

 


1. 애니메이션



연역법과 귀납법


2. 설명

2.1. 가설(hypothesis)

가설(hypothesis) 아이디어이고 잠재적 진실입니다.  가설이 진실이 되었을 때의 가치가 크다면 가설을 검정하고자 하는 욕구가 강할 것입니다. 가설의 수립은 관심의 대상을 변수로 정함으로 시작합니다.

 

변수(variables)

 

가설에서 사용하는 변수에는  가지 유형이 있습니다 번째 유형은 독립변수(independent variable)서 실험을 수행하는 동안 조절합니다. 다른 말로는 원인, 설명, 요인, 인자(factor), 처리(treatment), 중재(intervention)등이 있습니다. 번째 유형은 종속변수(dependent variable)로서 다른 말로는 결과, 반응. 효과 등이 있습니다. 일반적으로 가설 독립변수가 종속변수에 영향을 미치는 것을 “만일 ~면 ~이다”로 표현하는 구조를 가집니다.

 

가설의 유형

 

변수간의 관계에 따른 유형

 

– 변수간에 관계가 없는 경우 : 귀무가설($H_0$, null hypothesis) 변수 간에 무관함을 설명하기 때문에 귀무가설이라고 하며 다른 말로는 영가설이라고 합니다. 연구자들은 연구를 수행하여 기존의 질서인 귀무가설을  기각하고 귀무가설과 대립하는 연구가설을 채택하려고 합니다.  귀무가설은 증명할 수 없으며 기각만 가능합니다.  귀무가설로 변수 사이에 관계가 없다는 것을 밝히는 것만으로도 충분한 연구가치가 있는 경우가 많습니다. 즉, 귀무가설을 기각하지 못하여 대립가설로 넘어가지 못하더라도 귀무가설 기각의 연구결과만으로도 그 후의 연구에 중요한 자료가 될 수 있습니다.

– 변수간에 관계가 있는 경우 : 대립가설($H_1$)은 귀무가설의 반대입니다. 연구자들이 귀무가설을 기각하려는 연구를 주로 수행하기 때문에 대립가설은 연구가설과 같은 의미로 많이 사용됩니다.  실험을 설계할 때, 신뢰할  있는 연구결과를 얻기 위해 귀무가설과 대립가설을 함께 고려합니다. 그리고  100% 신뢰도로 대립가설을 증명할 수 없기 때문에 근사값으로 대립가설을 증명합니다. 따라서 대립가설을 증명하기 전에 귀무가설의 기각을 먼저 수행하여야 합니다. 

 

연구방법에 따른 유형

 

– 양적연구 : 통계적 가설 (statistical hypothesis)은 수집한 데이터로 검증할 수 있는 가설입니다.

– 질적연구 : 논리적 가설(logical hypothesis)은 변 간의 관계를 설명하기 위해 논리를 사용합니다. 하지만 관계를 설명하기 위한 데이터는 수집할  없는 경우입니다.

 

변수의 개수에 따른 유형

 

– 변수가 2개 : 단순 가설 (simple hypothesis) 입니다. 하나는 독립 변수이고 다른 하나는 종속 변수

– 변수가 3개 이상 : 복합 가설 (complex hypothesis)입니다. 3 이상의 변수를 포함합니다

 

가설 수립 시 고려할 점

 

– 변수의 명확성

– 변수 관계의 명확성 : 원인과 결과 등

– 검정방법의 윤리성

– 검정 가능성

– 간결한 언어


2.2. 연구가설(Research hypothesis)

연구가설이란 질문에 대해  예측한 답을 서술한 것이라고 볼 수 있습니다.  가설은 연구가치가 있는 질문을 작성하는 것으로 시작합니다. 가설수립의 초단계에서는 정확성을 추구하기 보다는 질문과 그 답의 가치를 검토하는 것이 중요합니다. 그리고 자연 또는 사회에 대한 관찰이 아닌  검증된 이론에서 도출해내거나 이전 연구결과를 기반으로 연구가설을 세울 수 있습니다.

 

연구가설 형식

 

연구가설은 문제 정리, 해결방안 설명 그리고 판정기준을 포함한 결과예측으로 구성됩니다. 

 

문제 정리 > 해결방안 설명 > 결과예측(판정기준 포함)

 

연구가설을 원인과 결과로 표현할 수도 있습니다. 부가적으로 원인과 결과를 설명하는 이론에 대한 설명이 있을 수 있습니다.

 

원인 > 효과

 

가설을 세우기 전, 충분한 시간을 들여 문헌검토를 해야 합니다. 더 나아가 인터뷰도 필요할 수가 있습니다.

 

연구가설의 단계적 수립

 

1) 가능한 많은 자료를 수집하고 가질 수 있는 문제를 정리

2) 몇 가지  예비가설을 세운 후 예비실험을 통해 각 가설을 확인

3) 가설을 정한 후 설명 목록을 작성

 

연구가설 체크리스트

 

– 연구주제와의 밀접성 : 연구주제와의 관계를 명확히 설명할 수 있는가

– 검정가능성 : 검정할 수있는 방법이 있는가

– 재현성 : 검정결과를 재현할 수 있는가

– 포함된 변수의 정확성 : 독립변수와 종속변수가 모두 포함되어 있는가

– 간결성 : 더 줄일 수 있는가

– 윤리적 기준에 따라 포함된 변수를 조정하고 관측할 수 있는가

– 윤리적 기준을 위반하지 않고 검증할 수 있는가


2.3. 설명강의



3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다. 


가설 : 구글시트 실습

3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(N3,O3) : t분포 상에서 확률변수의 양측 확률밀도. N3 확률변수에 대해 O3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.

=T.INV(1-(S3/T3),O3) : 확률밀도에 해당하는 확률변수를 구함. O3 값을 자유도로 가지는 t분포 상에서 1-(S3/T3) 값을 누적확률밀도로 가지는 확률변수 값을 표시함.

=IF(R3>U3,”YES”,”NO”) : 조건문, R3의 값이 U3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.


3.3. 실습강의

– 가설

– 확률변수

– 가설검정

– 실습 안내



4. 용어와 수식

4.1 용어


가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다.  “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다. 

 

Reference

Hypothesis – Wikipedia

논문 연구계획서


2. 설명

2.1 연구계획서

2.2 연구계획서 예시


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


1. 애니메이션



연구계획서 – 데이터사이언스 – 논문


2. 설명

연구계획서

연구주제(Research subject)

 

연구주제의 서술시 가설(hypothesis)과 그에 따른 변수의 설명을 명확하게 합니다. 연구필요성은 연구결과로 기대되는 가치를 서술하며 연구윤리와 연구수행의 타당성을 함께 고려합니다. 연구주제는 연구질문과 그에 대한 예상 답변으로 표현할 수 있습니다.

 

연구방법(Research method)

 

연구주제의 해결을 위한 연구방법에 대하여 구체적인 설명을 합니다. 

1)  연구대상

연구대상인 집단의 대표할 수 있는 표본을 추출합니다.

 

2)  데이터수집

데이터수집 방법, 실험설계, 관측도구의 신뢰도 등을 서술합니다.

 

3)  데이터분석

데이터의 구조를 설명하고 사용한 데이터분석 방법에 대하여 서술합니다. 데이터는 특정 데이터분석 방법을 적용하기 위하여 왜곡되어져서는 안됩니다. 즉, 데이터분석 방법보다는  연구목적과 그에 따른 데이터신뢰성의 지속이 중요합니다.


연구계획서(Research proposal) 예시


연구계획서 – 논문

Ⅰ. 연구의 목적

Ⅱ. 연구의 범위 및 방법 

1. 연구의 범위 
2. 연구의 방법 

Ⅲ. 이론적 배경 

Ⅳ. 연구모형 

Ⅴ. 연구가설 설정 

Ⅵ. 논문의 목차 

Ⅶ. 연구진행개요 

[참 고 문 헌] 


연구계획서 – 학위논문

I. 논문의 잠정적 제목

Proposed Title

II. 연구주제의 진술과 설명

Statement and Explanation of the Thesis

III. 연구주제의 배경과 중요성

Background Contexts and Significance of the Subject

IV. 선행연구들의 소개와 평가

Research History and Its Evaluation

V. 연구의 범위, 수준, 용도

Scope, Level, and Contribution of the Study

VI. 연구방법론

Methodology

VII. 논문의 잠정적 목차

Proposed Outline of the  Dissertation

VIII. 주요 참고문헌

Selected Bibliography


논문계획서

Ⅰ. 논문제목

Ⅱ. 연구 목적 및 필요성

Ⅲ. 연구방법

Ⅳ. 논문의 목차 

[참 고 문 헌] 


3. 실습

3.1. 구글시트

본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 


논문 연구계획서: 구글시트 실습

3.2. 구글시트 함수

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(O3,N3) : t분포 상에서 확률변수의 양측 확률밀도. O3 확률변수에 대해 N3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.


3.3. 실습강의

– 연구주제

– 확률변수

– 데이터분석

 실습 안내


갈톤보드와 큰 수의 법칙
The law of large numbers from Galton board

1. 애니메이션

1.1. 8개의 분기수를 가지는 Galton보드

1.2. 10개의 분기수를 가지는 Galton보드

1.3. 32개의 분기수를 가지는 Galton보드


2. 설명

2.1. 갈톤보드와 큰 수의 법칙


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



8개의 분기수를 가지는 Galton보드




10개의 분기수를 가지는 Galton보드




32개의 분기수를 가지는 Galton보드


2. 설명

2.1 갈톤보드와 큰 수의 법칙

갈톤보드(Galton board)의 특징을 살펴보겠습니다. 구슬 하나를 갈톤보드에 굴리면 구슬은 분기점을 만날때 마다 왼쪽이나 오른쪽으로 반드시 가게 됩니다. 다른 경우는 없습니다.  갈톤보드에서 구슬이 분기점을 만나는 횟수를 분기수라고 합니다. 갈톤보드의 분기수가 8개이면 9개의 칸이 생기고 10개면 11개, 32개면 33개의 칸이 생깁니다. 즉 분기의 갯수보다 분기에 의해서 만들어지는 아래 칸의 갯수가 하나 더 크게 됩니다.

 

예를 들어 8개의 분기수를 가진 갈톤보드를 보면 구슬이 내려가면서 8번의갈림길을 만나서 그 때마다 좌우의 길 중에서 하나의 길을 선택합니다.그리고 좌우로 가는 확률이 똑 같이 반반이라고 한다면 9개의 칸 중 5번째 칸에 구슬이 제일 많이 들어가는 종모양을 하게 됩니다. 구슬을 많이 굴리면 구슬이 쌓인 모습이 점점 가운데가 높아지면서 선명해 집니다.  

 

구슬하나를 굴리는 것을 시행(Event)라 할 수 있고 구슬이 들어가는 아래 칸을 표본공간(Sample Space)라고 할 수 있습니다. 하나의 구슬을 굴려서 하나의 칸에 들어가는 가면 하나의 표본(Sample)이 생성된 것이라고 할 수 있습니다. 그리고 여기서 분기점에서 우측으로 가는 확률을 P라 한다면 좌측으로 가는 확률은 (1-P)가 됩니다. 그렇다면 갈톤보드는 좌나 우로 여러번 가는 시행의 결과를 합친 결과를 보여주는 장치입니다. 

 

갈톤보드에서 굴리는 구슬의 수를 크게 해본다면 어떤 결과가 나올까요?  하나의 예로 분기수를 8개로하고 구슬의 수를 크게 하면 구슬더미는 종모양을 점점 가지게 됩니다. 이 구슬더미의 모양을 확률분포로 본다면 그 확률분포를 이항분포(Binomial distribution)라 부릅니다. 이항분포는 분기점의 수(N)와 우측으로 가는 확률(P)로 정해집니다. 여기서 확률변수(Random variable)는 아래 칸이 됩니다. 아래칸에 숫자가 적혀 있으면 수치형 확률변수가 되고 수치가 아니면 명목형 확률변수가 됩니다.

 

갈톤보드의 분기수를 크게 늘리면 구슬은 가운데로  모이는 모습을 볼 수 있습니다. 이것은 중심극한정리(Central Limit Theorem)를 잘 표현합니다. 또한,  구슬 하나를 분기수가 무한대인 갈톤보드에 굴리면 가운데 칸으로 점점 접근하게 됩니다. 이것은 중심극한정리와 큰수의 법칙을 동시에 잘 표현한다고 볼 수 있습니다.

 

갈톤보드에서의 구슬굴리기를 여러개의 동전던지기와 연결해보면 동전하나는 갈톤보드의 분기점과 같은 역할을 하고 따라서 분기점수는 동전의 수와 같습니다. 갈톤보드의 결과는 여러개의 동전을 던져서 나온 결과와 연결됩니다.


Reference

영상 1

영상 2


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


갈톤보드와 큰 수의 법칙

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

갈톤보드 1

갈톤보드 2

두 갈톤보드 비교



4. 용어와 수식

4.1 용어

동전던지기와 큰수의 법칙
The law of large numbers from coin toss

1. 애니메이션

1.1. 동전던지기와 큰 수(시행수)의 법칙


2. 설명

2.1. 동전던지기와 큰수의 법칙


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



동전던지기와 큰 수(시행수)의 법칙


2. 설명

2.1. 동전던지기와 큰수의 법칙

동전을 바닥에 던지면 앞면이나 뒷면 두면 중 하나만이 위를 향하게 됩니다. 즉, 동전 던지기의 결과는 앞면과 뒷면이라고 할 수 있습니다. 동전던지기를 시행이라고 하고 동전던지기 한번의 결과를 표본이라고 한다면 앞면과 뒷면은 표본이 나타나는 표본공간이라고 할 수 있습니다.

동전을 많이 던져서 큰 수의 표본을 준비하고 그 결과를 보겠습니다. 동전의 두 면에 0과 1이 표시된 동전을 준비합니다. 그리고 동전을 100회 던집니다. 그리고 100회 던질 때 마다 이제까지 시행된 결과의 합의 평균을 구합니다.

계속 던질 수록 시행된 결과의 합의 평균은 0.5에 점점 가까워짐을 알 수 있습니다. 이를 수렴(convergence)한다고 합니다. 시행을 많이 해서 시행의 결과(표집분포)의 대표값이나 분포값이 특정값에 수렴하는 것을 큰 수의 법칙이라고 합니다. 큰 수의 법칙은 확률과 통계를 이어주는 개념인 통계적 확률을 잘 설명해줍니다.

만일 0.5로 가까워져 가지 않고 0.6에 가까워 진다면 동전이 완벽하게 대칭이 아니고 찌그러진 동전이라고 할 수 있습니다. 즉,  한 동전을 무한대로 던지면 동전의 모양을 유추할 수 있게 됩니다. 이런 결과를 통계적 확률이라고 부릅니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


동전던지기와 큰수의 법칙

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

동전 1회 던지기

동전 10회 던지기

동전 100회 던지기

데이터시각화



4. 용어와 수식

4.1 용어

표본추출
Sampling

1. 애니메이션

1.1. 표본추출과 표본들의 통계량

1.2. 통계학


2. 설명

2.1. 표본추출


3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의


4. 용어와 수식

4.1. 용어


1. 애니메이션



표본추출과 표본들의 통계량


통계학


2. 설명

2.1 표본추출

표본(sample)은 왜 추출할까요?

그리고 표본을 추출한다는 것은 모집단(population)이 존재한다는 것을 의미합니다.

 

표본추출(sampling)의 가장 큰 목적은 모집단을 추측하기 위함입니다.

다른 표현으로는, 알고 싶은 정보를 얻기 위하여 데이터를 수집하는 것입니다.

 

그렇다면 표본을 가지고 어떻게 모집단을 추측할까요?

첫번째로 표본의 데이터로 부터 표본의 통계량(statistic)인 표본평균, 표본분산을 계산으로 구해서 분석합니다.

 

한편, 표본의 크기가 클 수록 모집단에 가까워지므로 표본의 크기는 매우 중요합니다.

하지만 표본의 크기를 늘리려면 비용이 많이 들겠지요.

 

표본의 크기가 충분히 크면(여기서 크다는 것은 모집단의 크기와 상대크기를 의미) 표본의 성질을 모집단으로 보아도 되겠습니다. 즉, 표본평균은 모평균이 되고 표본분산은 모분산이 됩니다. 이것을 점추정(point estimation)이라고 합니다.

 

두번째로  모집단의  통계량(모수, parameter)을 신뢰도(0%~100%)를 밝히고 표본의 통계량을 중심으로 모수가 어디 어디 사이에 있다고 주장하는 것입니다. 이것을 구간추정이라고 합니다.

 

아뭏든 무었보다도 표본의 크기를 어느정도는 크게 하려고 노력해야 할 것  같습니다.

 

그리고 같이 생각해볼 문제로 1개의 데이터를 구하는 비용이 정해져 있다면  표본의 갯수가 많은 것이 좋을까요. 아니면, 표본의 크기가 큰 것이 좋을 까요?

 

모집단에서 표본을 추출하는 방법에는 다음과 같은 것들이 있습니다.

단순 무작위 추출

층화 집락추출법

계통추출법

 

모집단(population)은 연구대상이 되는 모든 관측값이나 측정값의 집합을 말합니다.

연구모집단(목표모집단)은 연구조사 목적에 따른 개념적 집단입니다.

조사모집단은 표본으로 추출가능한 개체들로만 구성된 모집단입니다.

 

모수(parameter)는 모집단의 특성을 나타내는 값입니다. 고정된 값이긴 하지만 그 정확한 값은 모릅니다. 그래서 통계적 추론으로 구합니다. 예를 들면 지역별 평균소득 등입니다.

 

표본(sample)은 더 큰 모집단에서 추론을 위해 수집하고 분석하는 요소의 집합입니다. 즉 모집단의 부분집합입니다.

 

통계량(statistics)은 표본으로 부터 계산된 표본을 잘 나타내는 대표값과 분포값인 표본평균, 표본분산, 표본비율등을 말합니다. 모집단의 모수(parameter)에 해당됩니다.

 

표본으로 부터 모집단의 특성을 알기위한 방법으로 확률(probability)을 도입합니다.

확률에서 시행과 사건의 개념을 정리해보면

시행은 조사행위입니다.

사건은 시행결과 조건에 맞는 결과입니다.

전사건은 시행에서 얻을 수 있는 결과의 모든 집합입니다.

근원사건은 일어날 수 있는 각 개별 사건입니다.

수학적 확률은 해당사건이 일어나는 경우의 수를 일어날 수 있는 모든 경우의 수로 나눈 것을 말합니다.

여기서 근원사건은 모두 같은 정도로 일어나는 확률을 가집니다.

 

확률은 수학적확률과 통계적 확률이 있는데 통계적확률은 시행을 반복해서 얻을 수 있는 실제를 반영한 확률입니다.

수학적 확률과 통계적 확률이 같은 경우는 통계적확률에 사용하는 환경이 완벽한 경우입니다.

예를 들면 완벽한 육면체의 주사위를 완벽히 같은 환경에서 던지기를 무한대로 시행하면 통계적 확률과 수학적 확률은 같습니다.

 

정리하면 수학적확률은 통계적확률의 환경을 가정하는 방식으로 모델링한 것입니다.

 

모집단의 속성을 나타내는 모수(parameter)에는 모평균과 모분산등이 있습니다.

표본에서 산출되는 평균과 분산등을 통계량(statistic)이라하며 여러 통계량들을 나타내는 복수형인 statistics은 통계(statistics)의 어원이 되었습니다.

 

통계량은 표본을 추출하는 방법에 따라 값이 결정되는 확률변수입니다. 이 확률변수에 대응하는 확률분포를 표본분포라 합니다.

 

정규모집단은 불명확한 모집단의 분포를 정규분포라고 가정할 수 있는 특별한 모집단입니다.

 

모평균은 모집단 데이터의 평균을 말합니다.

모분산은 모집단 데이터의 분산입니다.

 

모평균, 모분산은 전체를 측정하는 것(전수검사)이 어려우므로 모르는 경우가 대부분입니다.

그래서 표본을 추출하여 모평균, 모분산을 추정하는 것이 추측통계학입니다.

 

표본평균은 모집단에서 추출한 표본의 평균값입니다.


3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.


표본추출

3.2. 구글시트 함수

=준비 중 입니다. 


3.3. 실습강의

데이터

데이터 요약

표본 추출

표본통계량

표본통계량의 평균

모수와 표본통계량의 평균 비교



4. 용어와 수식

4.1 용어