설명형 데이터셋

[ CODE ]

설명형 데이터셋

모수가설검정

대응표본 t검정

독립표본 t검정

일원분산분석(1-way ANOVA) F검정

상관분석 t검정

단순선형회귀분석 F검정

단순선형회귀분석 t검정

다변량정규분포 예측모델

고정효과 선형모델 - ANOVA, BLUE

데이터

범주형 변수로 개체의 범주형 속성을 표현

범주형 변수는 변수값(관측값)이 범주(category)를 나타내는 값. 개체가 속하는 카테고리는 범주형 변수의 변수값으로 표현, 예를 들어, 인간이라는 범주형 변수에 남자와 여자라는 변수값이 있음.

범주형 변수 $X$는 $k$ 개의 범주를 가진다면, 이를 $C_1, C_2, \cdots, C_k$로 표현할 수 있음. 이때, 범주형 변수 $X$ 의 값은 다음과 같이 정의됨.

$$X \in \{ C_1, C_2, \ldots, C_k \}$$

개체의 속성을 나타내는 범주형 데이터는 명목형(Nominal) 또는 순서형(Ordinal) 으로 분류되며, 각 범주는 수치 값으로 인코딩될 수 있음.

범주형 확률변수

범주형 확률변수는 특정 범주 $C_1, C_2, \cdots, C_k$에 속할 확률을 가지는 변수. 각 범주는 확률 $P(X=C_i)$로 표현됨.

$$X \in \{ C_1, C_2, \ldots, C_k \}, \quad P(X = C_i) \geq 0$$

모든 범주의 확률의 합은 1임. 즉, 확률변수 $X$는 다음과 같이 정의됨.

$$\sum_{i=1}^{k} P(X = C_i) = 1$$

Tensor 표기

범주형 변수 $X$는 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 Tensor로 표현하면, 범주형 변수 $X$는 차원이 $d$인 벡터 $\mathbf{X}$로 정의됨.

$$\mathbf{X} \in \mathbb{R}^{d}, \quad \mathbf{X} = [x_1, x_2, \ldots, x_d]^{\top}$$

행렬 표현

범주형 변수 $X$는 $n$개의 표본과 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\times k$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 범주를 의미.

$$\mathbf{X} \in \mathbb{R}^{n \times k}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1k} \\
x_{21} & x_{22} & \ldots & x_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nk}
\end{bmatrix}
$$

연속형 변수로 개체의 연속형 속성을 표현

연속형 변수 $X$는 실수 집합 $\mathbb{R}$에서 정의되는 변수로, 임의의 두 값 사이에 무한히 많은 값을 가짐. 예를 들어, 길이, 무게, 온도 등

$$X \in \mathbb{R}$$

연속형 확률변수

연속형 확률변수 $X$는 확률분포에 따라 값이 할당되며, 확률밀도함수 $f(x)$를 사용하여 정의됨. 연속형 확률변수의 값이 특정구간 $[a, b]$에 속할 확률은 다음과 같음.

$$P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx$$

연속형 확률변수는 정규분포, 균등분포 등 다향한 분포로 표현될 수 있음.

Tensor 표기

연속형 변수 $X$는 실수집합 $\mathbb R$에서 정의되며, 여러 개의 표본과 특성을 포함하는 경우 Tensor로 표현됨. 텐서 표현은 일반적으로 다차원 배열로 나타내며, 차원수를 랭크(rank)라고 함.

$$\mathbf{X} \in \mathbb{R}^{n_1 \times n_2 \times \ldots \times n_k}$$

텐서 $\mathbf X$는 $k$-차원으로 표현되며, 각 차원은 표본의 수, 특성 수 등을 포함. 예들 들어, 연속형 변수를 $n$개의 표본과 $d$개의 특성을 가진 2차원 텐서로 표현하면 다음과 같음

$$\mathbf{X} \in \mathbb{R}^{n\times d}$$

행렬 표현

연속형 변수 $X$는 실수값을 가지며, $n$개의 표본과 $d$개의 특성(feature)으로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\prod d$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 특성을 의미.

$$\mathbf{X} \in \mathbb{R}^{n \times d}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1d} \\
x_{21} & x_{22} & \ldots & x_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nd}
\end{bmatrix}$$

연속형 변수는 실수값 범위에서 정의되며, 행렬 $X$의 원소 $x_{ij}$는 다음으로 표현됨.

$$x_{ij} \in \mathbb{R}$$

속성 간 관계

속성 간 관계	설명	특징
선형회귀 (Linear Regression)	두 변수 사이의 선형 관계를 추정하는 방법으로, 직선 형태로 모델링함.	연속형 변수 예측에 유용, 단순하고 해석 가능.
로지스틱회귀 (Logistic Regression)	범주형 결과 변수를 예측하기 위해 사용되며, 시그모이드 함수로 확률을 계산함.	이진 분류에 주로 사용되며, 확률 값을 출력함.
상관관계 (Correlation)	두 변수 간의 선형적 관계의 강도를 나타내며, 값은 -1에서 1 사이를 가짐.	상관계수로 관계의 방향성과 강도를 나타냄.
공분산 (Covariance)	두 변수 간의 변동 정도를 측정하며, 양수는 같은 방향, 음수는 반대 방향의 변화를 의미함.	단위에 따라 값이 달라지며, 해석이 어려울 수 있음.
의사결정나무 (Tree Model)	데이터의 특징을 기준으로 분기하여 예측 또는 분류를 수행하는 비선형 모델.	비선형 관계를 효과적으로 모델링할 수 있음. 해석이 용이함.
신경망 모델 (Neural Networks)	다층 구조를 사용하여 입력 데이터를 처리하고 학습하여 예측 또는 분류를 수행하는 모델.	복잡한 관계를 학습 가능. 비정형 데이터에도 적용 가능.
상호작용 항 (Interaction Term)	두 변수의 결합 효과를 고려하는 변수로, 독립 변수 간의 상호 영향을 모델링함.	비선형 상호작용을 반영할 수 있어 예측 성능을 향상시킬 수 있음.
다변량 정규분포 (Multivariate Normal)	여러 변수의 분포를 동시에 고려하는 확률 분포로, 공분산 행렬로 관계를 나타냄.	변수 간의 상관성을 반영하며, 통계적 분석에 널리 사용됨.

관측방법 장단점 비교

관측 방법	장점	단점
직접 관찰법 (Direct Observation)	실제 상황 정확히 반영, 높은 현실성	관찰자 편향 가능성, 시간과 비용 소요
설문조사법 (Survey Method)	빠르고 비용 효율적, 다수 데이터 수집 용이	응답자 편향, 낮은 응답률 가능성
인터뷰법 (Interview Method)	심층적이고 풍부한 정보 획득 가능	시간 및 비용 소요, 주관적 해석 가능성
기록 데이터 분석법 (Archival Records Analysis)	비용 효율적, 장기적 데이터 활용 가능	데이터 제한성, 기록의 신뢰성 문제
이차 데이터 활용법 (Secondary Data Analysis)	빠르고 비용 효율적, 데이터 접근 용이	원 자료와 연구 목적 부합성 문제, 데이터 품질 문제
센서 데이터 수집법 (Sensor-Based Data Collection)	객관적이고 정확한 데이터 획득	센서 비용 및 유지관리 필요, 데이터 처리 복잡성
웹 크롤링 및 스크레이핑 (Web Crawling & Scraping)	방대한 양의 데이터를 신속히 수집 가능	개인정보 보호, 저작권 및 법적 이슈 존재 가능성

DATA SCIENCE : 27

DATA SCIENCE eISSN

[ CODE ]