| 용어 |
영문 용어 |
표기 예 |
표기 설명 |
유사 용어 |
용어 설명 |
| 확률 |
probability |
$P$
$Pr$
$p$ |
영 이탤릭 대문자 $P$
영 이탤릭 대문자 $Pr$
영 이탤릭 소문자 $p$ |
가능성 |
확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨
판정의 기준이 되는 유의수준($\alpha$)은 확률 |
| 표본공간 |
sample space |
$\Omega=\{앞면, 뒷면\}$ |
그리스 이탤릭 대문자 $\Omega$ |
결과공간
샘플공간 |
확률실험에서 가능한 모든 결과의 집합 |
| 사건공간 |
event space |
$\mathcal{P}(\Omega)=\{\{\,\,\,\}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면, 뒷면}\}\}$
$2^{\Omega}=\{\{\,\,\,\}, \{1\}, \{2\}, \{1, 2\}\}$
$\sigma\text{-algebra}$여기서 $\Omega$는 표본공간 |
수학기호 $\mathcal{P}$
수식 $2^{\Omega}$ |
시그마-대수(sigma-algebra)
시그마-필드(sigma-field) |
사건공간의 모든 요소는 표본공간의 부분집합
표본공간의 멱집합 |
| 확률변수 |
random variable
probability variable |
$X$, $X\left({\omega}\right)$ |
영 이탤릭 대문자 |
랜덤변수
난수 |
확률을 가지는 변수, 확률의 선행 개념 |
| 변량 |
data value
datum |
$x$ |
영 이탤릭 소문자 |
데이터포인트
변수값
관측값 |
변수의 측정된 값, 변수의 가능한 값
보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현 |
| 변수값 |
variable value |
$x_{1},x_{2},\cdots ,x_{n}$ |
영 이탤릭 소문자 |
변량
데이터포인트
관측값 |
변수에 할당된 구체적인 수치나 데이터
변수값이 연속형 수치: 연속형 변수
변수값이 이산형 횟수: 이산형 변수
변수값이 범주명: 범주형 변수 |
| 누적확률 |
cumulative probability |
$P\left({X\leq x}\right)$ |
영 이탤릭 대문자 |
확률적 적분 |
특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것 |
| 확률변수값 |
particular realizations of a random variable |
$x_i$ |
영 이탤릭 소문자 |
실현값(realization)
결과값(outcome)
관측값(observation)
표본값(sample value) |
사건의 결과인 집합의 $i$번째 원소 |
| 기대값 |
expected value of $Y$ |
${\rm{E}}\left[{Y}\right]=\mu_Y$
여기서 $Y$는 확률변수 |
영 대문자 E |
모평균(population mean)
일차적률(first moment) |
확률변수 $Y$의 기대값 |
| 분산 |
variance of $Y$ |
${\rm{Var}}\left[{Y}\right]=\sigma^2_Y$: 확률변수의 분산 (모분산)
$S^2_Y$: 표본의 분산 (표본분산)
여기서 $Y$는 확률변수 |
영 문자 Var: 모분산
그리스 이탤릭 소문자 $\sigma^2$: 모분산
영 이탤릭 대문자: $S^2$: 표본분산 |
퍼짐(dispersal)
확산(spread)
변동성(volatility) |
확률변수 $Y$의 분산 |
| 공분산 |
covariance of $X$ and $Y$ |
${\rm{Cov}}\left[{X,Y}\right]=\sigma_{XY}$ |
[ ] 대괄호 내에 확률변수 |
상관정도(degree of correlation)
연관성(association)
연계성(linkage)
상호변동성(mutual variability) |
확률변수 $X$와 $Y$의 공분산 |
| 모수 |
parameter |
모평균
$\mu$
모분산
$\sigma^2$
모비율
$p$ |
그리스 이탤릭 소문자
영 이탤릭 소문자 |
모집단 매개변수(Population Parameter)
모집단 통계량 (Population Statistic)
모집단 지표 (Population Index)
기초통계량 (Fundamental Statistic) |
모집단의 특성을 나타내는 수치
모집단을 표현하는 확률분포함수의 매개변수 |
| 확률질량함수 |
probability mass function |
$f$ |
영 이탤릭 소문자 |
pmf |
범주형 또는 이산형 변수의 확률질량 |
| 확률밀도함수 |
probability density function |
$f$ |
영 이탤릭 소문자 |
pdf |
연속형 변수의 확률밀도 |
| 누적분포함수 |
cumulative distribution function |
$F$ |
영 이탤릭 대문자 |
cdf, 누적확률함수 |
이분 경계값에서의 생성된 확률질량 |
| 확률분포 |
probability distribution |
$X \sim t_{n-1}$ |
영 이탤릭 대문자 $\sim$ 확률분포 |
확률모델 (Probability Model)
분포함수 (Distribution Function)
확률법칙 (Probability Law)
빈도분포 (Frequency Distribution) |
확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률
이산확률분포 (discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우
연속확률분포 (continuous probability distribution): 확률변수의 값이 연속적인 값인 경우 |
| 확률분포추정 |
probability distribution estimation |
$X \sim t_{n-1}$ |
영 이탤릭 대문자 $\sim$ 확률분포 |
확률함수추정 |
확률밀도함수의 종류와 그에 따른 매개변수를 추정 |
| 생성함수 |
generating function |
$G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots$
$S=\{ 1, 2x, 3x^2, 4x^3, \cdots \}$ |
영 이탤릭 대문자 $G$ |
반복자함수 |
수열이나 이산 확률변수의 전체 정보를 압축한 함수
매개변수 추정값의 확률질량 또는 확률밀도 |
| 확률생성함수 |
probability generating function: PGF
moment generating function: MGF |
PGF: 이산형확률변수인 경우
MGF: 이산형확률변수, 연속형확률변수인 경우
$G_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$
$P_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$
$P_{Y} = \{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, \ldots\}$
여기서, $P_{Y}$는 이산확률변수 $Y$의 확률생성성함수
$Y$는 이산확률변수
$P$는 확률질량함수
$z$는 복소수 |
영 대문자 PGF
영 대문자 MGF
영 이탤릭 대문자 $G$
영 이탤릭 대문자 $P$ |
확률발생함수
이산형특성함수 (discrete characteristic function)
이산형누적확률함수 (discrete cumulative probability function)
확률전파함수 (probability propagation function) |
확률변수의 확률분포를 다항식으로 나타낸 함수 |
| 생성모델 |
generation model |
$p$ |
영 이탤릭 소문자 |
통계모형 |
주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델
새로운 데이터 포인트를 실제 데이터와 유사하게 생성 |
| 표준정규분포의 pdf |
the pdf of the standard normal distribution |
$\varphi\left({z}\right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$
여기서 $z$는 실수 |
그리스 이탤릭 소문자 $\varphi$ |
표준정규 확률밀도함수 |
자연현상과 인간활동 결과의 분포를 모델링하는 데 사용
모든 실수의 독립변수($Z$)에 대해 정의된 연속형 함수
독립변수의 값($z$)에 따라 확률밀도를 나타내는 연속형 함수
표준정규분포는 평균(0)을 중심으로 완벽하게 대칭
그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소
모든 확률밀도의 총합은 1 |
| 표준정규분포의 cdf |
the cdf of the standard normal distribution |
$\Phi(z) = \dfrac{1}{2} \left[1 + \text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right]$
여기서, $\text{erf}(z) = \dfrac{2}{\sqrt{\pi}} \int_0^z e^{-t^2} \, dt$
$z$는 실수
$t$는 실수 |
그리스 이탤릭 대문자 $\Phi$ |
표준정규 누적분포함수 |
주어진 독립변수값($z$)까지 표준정규 확률밀도함수의 적분으로 정의
$Z$값($z$)에 따라 비선형적으로 증가
그래프는 중심(평균)을 기준으로 대칭
$Z$값이 음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴 |
| F분포 임계값 |
F distribution critical value |
$F_{(\nu_1,\nu_2;\alpha)}$ |
$F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}}$ |
F분포 임계치 |
특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값
주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산
F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각 |
| t분포 임계값 |
t distribution critical value |
$t_{n-1\ ;\ \frac{\alpha}{2}}$ |
$t_{\text{자유도}\ ;\ \text{양측검정 유의수준}}$ |
t분포 임계치 |
표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값
주어지는 유의수준($\alpha$)과 표본의 자유도($df$)와 검정종류(양측 또는 단측)로 계산
t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
| Z분포 임계값 |
Z distribution critical value |
$z_{\frac{\alpha}{2}}$ |
$z_{\text{양측검정 유의수준}}$ |
Z분포 임계치 |
표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값
주어지는 유의수준($\alpha$)과 검정종류(양측 또는 단측)로 계산
Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
| 카이제곱분포 임계값 |
chi-square distribution critical value |
$\chi_{n-1\ ;\ \alpha}^2$ |
$\chi^2_{\text{자유도}\ ;\ \text{유의수준}}$ |
카이제분포 임계치 |
관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는카이제곱확률변수값
주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산
t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각 |
| 확률변수의 독립 |
$X$ is independent of $Y$ |
$X\bot Y$
$X$와 $Y$는 확률변수 |
$\bot $는 독립 기호 |
독립성
독립관계 |
$X$는 $Y$는 독립적 |
| 확률변수의 조건독립 |
$X$ is independent of $Y$ given $W$ |
$X\bot Y\mid W$
여기서, $X, Y, W$는 확률변수 |
$\mid $ 는 조건 기호
$\bot $는 독립 기호 |
조건독립성
조건독립관 |
확률변수 $X$와 $Y$는 주어진 확률변수 $W$에서 독립 |
| 조건부확률 |
the conditional probability |
$P\left({A\mid B}\right)$
여기서 $A$와 $B$는 사건 |
영 이탤릭 대문자 $P$ |
조건부발생확 |
$B$사건이 일어난 상태에서 $A$사건이 일어날 확률 |
| 가능도함수 |
likelihood function |
$L\left(\mathbf{\theta} \, ; \mathbf{X}\right)$
여기서, $\mathbf{\theta}$는 확률분포의 모수벡터(parameter vector)
$\mathbf{X}$는 확률벡터(probability vector) |
영 이탤릭 대문자 $L$ |
우도함수 |
가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용
모수값 추정의 통계적 도구(추정량, estimator)인 MLE(최대우도추정법)의 중요한 요소
평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음
가능도함수를 미분한 함수가 “스코어 함수(score function)
최대우도추정은 스코어 함수를 사용하여 가능도 함수를 최대화하는 과정 중 하나 |
| 목적함수 |
objective function |
$J(\theta)$ |
영 이탤릭 대문자 $J$ |
스코어함수(score function)
비용함수(cost function)
손실함수(loss function)
오차함수(error function) |
주어진 문제의 목표를 수학적으로 정의한 함수
목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심 |
| 공동확률분포 |
the joint probability distribution of random variables $X$ and $Y$ |
$P\left({X,Y}\right)$ |
영 이탤릭 대문자 $P$ |
결합확률분포 (Joint Probability Distribution)
다변량확률분포 (Multivariate Probability Distribution)
다차원확률분포 (Multidimensional Probability Distribution)
복합확률분포 (Composite Probability Distribution)
확장확률분포 (Extended Probability Distribution) |
두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포 |
| 공동확률질량함수 |
joint probability mass function |
$p\left({x,y}\right)=P(X = x, Y = y)$
$p\left({x,y,z}\right)=P(X = x, Y = y, Z=z)$
여기서 $X, Y, Z$는 확률변수
$x, y, z$는 확률변수값
$p(\mathbf{x}) = p(X_1 = x_1, \ldots, X_n = x_n)$
여기서 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$ |
영 이탤릭 소문자 $p$ |
결합확률밀도함수 (Joint Probability density Function)
다변량 확률밀도함수 (Multivariate density Mass Function)
다차원 확률밀도함수 (Multidimensional Probability density Function
결합확률함수 (Joint Probability Function) |
두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수
함수값은 양수이며 합은 1
공동확률밀도함수로 주변확률질량함수를 구할 수 있음
두 변수가 통계적 독립인지 확인: $p(x, y) = p_X(x) \cdot p_Y(y)$
두 변수의 조건부확률식의 분자: $p(y \mid x) = \dfrac{p(x, y)}{p_X(x)}$
변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
| 공동확률밀도함수 |
joint probability density function |
$f_{X,Y}(x, y)
$여기서 $X, Y$는 확률변수 |
영 이탤릭 소문자 $f$ |
결합확률질량함수 (Joint Probability Mass Function)
다변량 확률질량함수 (Multivariate Probability Mass Function)
다차원 확률질량함수 (Multidimensional Probability Mass Function
결합확률함수 (Joint Probability Function) |
두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수
함수값은 양수이며 적분값은 1
공동확률밀도함수로 주변확률밀함수를 구할 수 있음
두 변수가 통계적 독립인지 확인: $f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)
$
두 변수의 조건부확률식의 분자: $f_{Y|X}(y|x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)}
$
변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
| 공동누적분포함수 |
joint cumulative distribution function |
$F_{X,Y}(x, y) = P(X \leq x, Y \leq y)$
여기서 $X, Y$는 확률변수
$x$와 $y$는 확률변수 $X$와 $Y$의 확률변수값 |
영 이탤릭 대문자 $F$ |
결합누적분포함수 (Joint cumulative distribution Function)
다변량누적분포함수 (Multivariate cumulative distribution Function)
다차원누적분포함수 (Multidimensional cumulative distribution Function
복합누적분포함수 (composite cumulative distribution Function) |
만일 $x_1 \leq x_2$이고 $ y_1 \leq y_2$이면 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$
경계조건: $F_{X,Y}(-\infty, y) = 0, \quad F_{X,Y}(x, -\infty) = 0, \quad \text{and} \quad F_{X,Y}(\infty, \infty) = 1$
연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공
$X$가 $a$와 $b$사이이고 $Y$가 $c$와 $d$ 사이일 확률: $F_{X,Y}(b, d) – F_{X,Y}(b, c) – F_{X,Y}(a, d) + F_{X,Y}(a, c)$
두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석
여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석 |