범주형 변수는 변수값(관측값)이 범주(category)를 나타내는 값. 개체가 속하는 카테고리는 범주형 변수의 변수값으로 표현, 예를 들어, 인간이라는 범주형 변수에 남자와 여자라는 변수값이 있음.
범주형 변수 $X$는 $k$ 개의 범주를 가진다면, 이를 $C_1, C_2, \cdots, C_k$로 표현할 수 있음. 이때, 범주형 변수 $X$ 의 값은 다음과 같이 정의됨.
$$X \in \{ C_1, C_2, \ldots, C_k \}$$
개체의 속성을 나타내는 범주형 데이터는 명목형(Nominal) 또는 순서형(Ordinal) 으로 분류되며, 각 범주는 수치 값으로 인코딩될 수 있음.
범주형 확률변수는 특정 범주 $C_1, C_2, \cdots, C_k$에 속할 확률을 가지는 변수. 각 범주는 확률 $P(X=C_i)$로 표현됨.
$$X \in \{ C_1, C_2, \ldots, C_k \}, \quad P(X = C_i) \geq 0$$
모든 범주의 확률의 합은 1임. 즉, 확률변수 $X$는 다음과 같이 정의됨.
$$\sum_{i=1}^{k} P(X = C_i) = 1$$
범주형 변수 $X$는 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 Tensor로 표현하면, 범주형 변수 $X$는 차원이 $d$인 벡터 $\mathbf{X}$로 정의됨.
$$\mathbf{X} \in \mathbb{R}^{d}, \quad \mathbf{X} = [x_1, x_2, \ldots, x_d]^{\top}$$
범주형 변수 $X$는 $n$개의 표본과 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\times k$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 범주를 의미.
$$\mathbf{X} \in \mathbb{R}^{n \times k}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1k} \\
x_{21} & x_{22} & \ldots & x_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nk}
\end{bmatrix}
$$
연속형 변수 $X$는 실수 집합 $\mathbb{R}$에서 정의되는 변수로, 임의의 두 값 사이에 무한히 많은 값을 가짐. 예를 들어, 길이, 무게, 온도 등
$$X \in \mathbb{R}$$
연속형 확률변수 $X$는 확률분포에 따라 값이 할당되며, 확률밀도함수 $f(x)$를 사용하여 정의됨. 연속형 확률변수의 값이 특정구간 $[a, b]$에 속할 확률은 다음과 같음.
$$P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx$$
연속형 확률변수는 정규분포, 균등분포 등 다향한 분포로 표현될 수 있음.
연속형 변수 $X$는 실수집합 $\mathbb R$에서 정의되며, 여러 개의 표본과 특성을 포함하는 경우 Tensor로 표현됨. 텐서 표현은 일반적으로 다차원 배열로 나타내며, 차원수를 랭크(rank)라고 함.
$$\mathbf{X} \in \mathbb{R}^{n_1 \times n_2 \times \ldots \times n_k}$$
텐서 $\mathbf X$는 $k$-차원으로 표현되며, 각 차원은 표본의 수, 특성 수 등을 포함. 예들 들어, 연속형 변수를 $n$개의 표본과 $d$개의 특성을 가진 2차원 텐서로 표현하면 다음과 같음
$$\mathbf{X} \in \mathbb{R}^{n\times d}$$
연속형 변수 $X$는 실수값을 가지며, $n$개의 표본과 $d$개의 특성(feature)으로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\prod d$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 특성을 의미.
$$\mathbf{X} \in \mathbb{R}^{n \times d}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1d} \\
x_{21} & x_{22} & \ldots & x_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nd}
\end{bmatrix}$$
연속형 변수는 실수값 범위에서 정의되며, 행렬 $X$의 원소 $x_{ij}$는 다음으로 표현됨.
$$x_{ij} \in \mathbb{R}$$
속성 간 관계 | 설명 | 특징 |
---|---|---|
선형회귀 (Linear Regression) | 두 변수 사이의 선형 관계를 추정하는 방법으로, 직선 형태로 모델링함. | 연속형 변수 예측에 유용, 단순하고 해석 가능. |
로지스틱회귀 (Logistic Regression) | 범주형 결과 변수를 예측하기 위해 사용되며, 시그모이드 함수로 확률을 계산함. | 이진 분류에 주로 사용되며, 확률 값을 출력함. |
상관관계 (Correlation) | 두 변수 간의 선형적 관계의 강도를 나타내며, 값은 -1에서 1 사이를 가짐. | 상관계수로 관계의 방향성과 강도를 나타냄. |
공분산 (Covariance) | 두 변수 간의 변동 정도를 측정하며, 양수는 같은 방향, 음수는 반대 방향의 변화를 의미함. | 단위에 따라 값이 달라지며, 해석이 어려울 수 있음. |
의사결정나무 (Tree Model) | 데이터의 특징을 기준으로 분기하여 예측 또는 분류를 수행하는 비선형 모델. | 비선형 관계를 효과적으로 모델링할 수 있음. 해석이 용이함. |
신경망 모델 (Neural Networks) | 다층 구조를 사용하여 입력 데이터를 처리하고 학습하여 예측 또는 분류를 수행하는 모델. | 복잡한 관계를 학습 가능. 비정형 데이터에도 적용 가능. |
상호작용 항 (Interaction Term) | 두 변수의 결합 효과를 고려하는 변수로, 독립 변수 간의 상호 영향을 모델링함. | 비선형 상호작용을 반영할 수 있어 예측 성능을 향상시킬 수 있음. |
다변량 정규분포 (Multivariate Normal) | 여러 변수의 분포를 동시에 고려하는 확률 분포로, 공분산 행렬로 관계를 나타냄. | 변수 간의 상관성을 반영하며, 통계적 분석에 널리 사용됨. |
관측 방법 | 장점 | 단점 |
---|---|---|
직접 관찰법 (Direct Observation) | 실제 상황 정확히 반영, 높은 현실성 | 관찰자 편향 가능성, 시간과 비용 소요 |
설문조사법 (Survey Method) | 빠르고 비용 효율적, 다수 데이터 수집 용이 | 응답자 편향, 낮은 응답률 가능성 |
인터뷰법 (Interview Method) | 심층적이고 풍부한 정보 획득 가능 | 시간 및 비용 소요, 주관적 해석 가능성 |
기록 데이터 분석법 (Archival Records Analysis) | 비용 효율적, 장기적 데이터 활용 가능 | 데이터 제한성, 기록의 신뢰성 문제 |
이차 데이터 활용법 (Secondary Data Analysis) | 빠르고 비용 효율적, 데이터 접근 용이 | 원 자료와 연구 목적 부합성 문제, 데이터 품질 문제 |
센서 데이터 수집법 (Sensor-Based Data Collection) | 객관적이고 정확한 데이터 획득 | 센서 비용 및 유지관리 필요, 데이터 처리 복잡성 |
웹 크롤링 및 스크레이핑 (Web Crawling & Scraping) | 방대한 양의 데이터를 신속히 수집 가능 | 개인정보 보호, 저작권 및 법적 이슈 존재 가능성 |