DATA ARTICLE : 1
LEARNING ARTICLE : 6
6 Weeks in Review
2 Weeks in Publication
Open Access
Peer Reviewed
DATALINK FORUM eISSN

Frequentist에게 “귀무가설”이 있다면 Bayesian에게는?

[ QA ] CONTENTS Bayesian에게는 “사전확률”이 있습니다. Frequentist와 Bayesian은 누구? Frequentist(프리퀀티스트, 빈도주의자)은 빈도주의 접근법을 따르는 사람입니다. 이들은 확률을 반복 실험에서 나타나는 빈도로 해석하며, 주어진 데이터를 통해 객관적인 추론을 수행합니다. 사전확률을 사용하지 않으며, 데이터 자체에 기반하여 가설을 검정하고 신뢰구간을 추정합니다. Bayesian(베이지앙, 사후확률추구자)은 베이지안 접근법을 따르는 사람입니다. 이들은 확률을 주관적인 믿음의 정도로 해석하며, 새로운 증거를 사용하여 사전확률(prior […]

대응표본처럼 독립표본도 순차적으로 수집할 수 있나?

[ QA ] CONTENTS 네, 독립표본도 시간적, 공간적으로 순차적으로 관측한 결과일 수 있습니다. 대응표본과 독립표본은 무엇? 표본은 대응표본(paired samples)과 독립표본(independent samples)들로 이루어져 있다고 볼 수 있습니다. 한편, 표본은 개체속성의 실현된 값의 모음입니다. 개체의 두 속성이 서로 대응되면 대응표본이고 두 속성이 서로 독립되면 독립표본이라고 합니다. 그리고 개체의 한 속성을 반복측정한 것도 대응표본이라 할 수 있습니다. 대응표본의 […]

유의수준이 임계값을 정하나?

CONTENTS 네, 유의수준이 먼저 정해지고 확률분포 정보를 더하여 임계값이 결정되므로 유의수준이 임계값을 정합니다. 유의수준과 임계값은 무엇? 유의수준(significance level)은 가설검정에서 귀무가설을 기각하는 기준이 되는 확률입니다. 일반적으로 $alpha$로 표시됩니다. 선행연구에 의해 주어집니다. 유의수준은 임계값을 설정하는 데 사용됩니다. 임계값 (critical value)은 귀무가설이 참이여서 귀무가설을 채택하는 영역과 귀무가설이 거짓이어서 귀무가설을 기각하는 영역의 경계값입니다. 임계값은 유의수준과 검정통계량의 분포에 따라 결정됩니다. […]

모델링?

목차 모델링은 현상을 추상화하는 과정입니다. 현상은 모델의 대상입니다. 모델은 현상을 추상화한 결과입니다. 1. 모델 모델(model)이란, 복잡한 현상을 단순화, 추상화하여 핵심을 표현한 것입니다. 즉, 모델은 현실 세계의 복잡한 대상이나 현상을 핵심만 표현합니다. 모델은 분석과 예측을 가능하게 하여 현실에서의 의사결정과 문제해결을 돕는 도구입니다. 데이터 사이언스에서의 모델은 복잡한 현실 세계의 현상을 그 세계의 데이터를 사용하여 추상화·단순화한 것입니다. 이 […]

데이터종류?

목차 양적데이터는 수치로 표현되는 정보입니다. 질적데이터는 수치로 표현되지 않는 정보입니다. 양적데이터는 실수로 표현하며 셀 수 있는 이산형데이터와 셀 수 없고 연속적으로 변화할 수 있는 연속형데이터가 있습니다. 질적데이터는 범주형데이터입니다. 도수데이터는 질적 특성의 출현 횟수로 양적데이터이고 이산형데이터입니다. 양적데이터는 간격척도와 비례척도로 표현됩니다. 질적데이터는 명목척도와 순서척도로 표현됩니다. 도수데이터는 비례척도로 표현됩니다. 1. 표현방식에 따른 데이터종류 질적데이터는 수치가 아닌 기호로 표현된 […]

중심극한정리?

[ QA ] ARTICLE CONTENTS 표본크기가 충분히 큰 표본의 표본평균은 모평균을 중심으로 하는 정규분포를 나타냅니다. 표본평균은 모평균의 점추정량입니다. 표본평균과 모평균의 차이는 정규분포를 나타냅니다. 이 정규분포의 표준편차를 표준오차라고 합니다. 중심극한정리 중심극한정리 확률변수, $X_1, X_2, cdots, X_n$가 서로 독립이며 동일한 평균($mu$)과 분산($sigma^2$)을 갖는 동일한 분포를 따른다고 가정합니다. 여기서, 분포는 임의의 확률분포이며 분포함수가 알려진 확률분포일 필요는 없습니다. 동일한 […]

사분위표?

CONTENTS 사분위표 0:25 Play Video Quartile table 사분위표 사분위표는 데이터의 분포를 표현하는 한 방법입니다. 사분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 4개의 집단(group)으로 나누어 놓은 표입니다. 사분위수는 이 4개의 집단의 최대값입니다. 유사하게 백분위표는 데이터를 순서대로 늘어놓고 같은 개수를 가지는 100개의 집단으로 나누어  놓은 표입니다. 이 때 100개의 집단의 최대값이 백분위수(percentile)입니다. 백분위수는 %를 단위로 사용합니다. 예를 들어, […]

확률변수?

[ QA ] CONTENTS Random variable 범주형 확률변수 동전던지기 동전던지기를 한 후 나오는 윗면은 범주형 확률변수라고 할 수 있습니다. 만일, 1과 0을 앞면과 뒷면에 써 놓은 동전의 동전던지기의 결과는 이산형 확률변수라고 할 수 있습니다. 동전을 던져서 나온 확률변수값은 0과 1 두 개이고 확률변수값에 각각 1/2을 확률로 할당 할 수 있습니다. 확률(probability)이 있다는 것은 확률을 할당할 […]

변동계수?

[ QA ] CONTENTS https://www.datadata.link/wp-content/uploads/2025/02/변동계수-3.mp4 Coefficient of variation 변동계수  변동계수(변이계수, coefficient of variation, CV)는 평균에 대한 표준편차의 비입니다. 일반적으로 양의 실수인 표준편차와 더불어 평균을 양의 실수로 하여 변동계수를 양의 실수로 정의하는 것이 일반적입니다.  $$text{변동계수}=dfrac {text{표준편차}}{text{평균}}$$ 변동계수의 정의식에서 분모인 평균은 값이 0이 아니여야 합니다. 분모인 평균의 단위는 분자인 표준편차의 단위와 같습니다. 따라서 변동계수는 단위가 없는 수인 […]

표준오차?

Animation Figure CONTENTS Standard error 차이, 편차, 오차, 잔차 차이 차이(difference)는 두 값의 간격입니다. 두 값이 같으면 차이는 0입니다. 기준이 없습니다. 0과 양수로 표현됩니다. 편차 편차(deviation)는 값에서 기준값을 뺸 값입니다. 표본에서는 기준값으로 표본평균을 많이 사용합니다. 0과 양수와 음수로 표현됩니다. 오차 오차(error)는 기대값을 기준값으로 사용하는 편차입니다. 즉, 기대하는 값과의 편차를 나타냅니다. 0과 양수와 음수로 표현됩니다. 잔차 […]