DATA SCIENCE - p값 : 27
eISSN 0000-0000

통계 용어

용어 영문 용어 표기 표기 설명 유사 용어 용어 설명
통계량 statistic

표본평균: $\bar{Y}$

표본분산: $S^2_Y$

표본비율: $\hat p$

영 이탤릭 대문자에 바(bar)를 씌움 $\bar Y$

영 이탤릭 대문자 $S^2$

영 이탤릭 소문자에 모자(hat)을 씌움 $\hat p$

추정량(estimator)

통계적 특성 (statistical property)

지표(indicator)

표본에서 파생되어 모집단의 특성을 추정하거나 가설을 검정하는 데 사용되는 확률변수

표본평균, 표본분산, 표본표준편차, 표본중앙값, 표본최빈값 등

표본의 통계량은 확률변수

통계값 statistic

모평균: $\mu_Y$

모분산: $\sigma_Y^2$

모비율: $p$

표본평균값: $\bar{y}$

표본분산값: $s^2_Y$

표본비율값: $\hat {p}$

그리스 이탤릭 소문자 $\mu$

그리스 이탤릭 소문자 $\sigma$

영 이탤릭 소문자 $p$

영 이탤릭 소문자에 바(bar) 씌움 $\bar y$

영 이탤릭 소문자 $s^2$

영 이탤릭 소문자에 모자(hat) 씌움 $\hat p$

모집단 특성량(characteristic)

통계치

추정값

표본에서 파생되어 모집단의 특성을 추정하거나 가설을 검정하는 데 사용되는 확률변수의 실현값

표본평균값, 표본분산값, 표본표준편차값, 표본중앙값, 표본최빈값 등

표본의 통계값은 확률변수의 실현값이며 표본통계값 표집의 확률분포는 모집단 확률분포에서 파생

추정량 estimator

모평균 추정량 = 표본평균: $\bar Y$

모분산 추정량= 표본분산: $S^2_Y$

모비율 추정량 = 표본비율: $\hat {p}$

영 이탤릭 대문자에 바(bar) 씌움 $\bar Y$

영 이탤릭 대문자 $S^2$

영 이탤릭 소문자에 모자(hat) 씌움 $p$

추정자

추정기

모집단의 특성을 추정하기 위해 사용되는 통계량의 추정방법

추정량은 주어진 표본데이터로부터 추정값을 계산하는 식으로 표현

추정량은 보통 모수(parameter)의 추정이나 예측을 위해 사용

추정량의 성질에는 편향성(bias), 일치성(consistency), 효율성(efficiency) 등이 있으며, 이러한 성질은 추정량의 성능을 평가

추정값 estimate

모평균 추정값 = 표본평균값: $\hat {\mu}_Y=\bar y$

모분산 추정값 = 표본분산값: $\hat {\sigma}^2_Y=s^2_Y$

모비율 추정값 = 표본비율값: $\hat {p}$

그리스 이탤릭 소문자에 모자(hat) 씌움 $\hat {\mu}$

영 소문자에 바(bar) 씌움 $\bar y$

그리스 이탤릭 소문자에 모자(hat) 씌움 $\hat {\sigma}$

영 이탤릭 소문자 $s^2$

영 이탤릭 소문자에 모자(hat)  씌움 $\hat {p}$

추정치 추정량의 함수에 표본데이터를 입력해서 구한 추정량의 실현값
점추정 point estimation

$\hat{\mathbf\theta}$

여기서, $\mathbf\theta$는 모수벡터

모수 기호에 모자(hat) 씌움 $\hat{\mathbf{\theta}}$ 모수추정

모집단의 특정 파라미터(예: 평균, 분산, 비율 등)에 대한 추정을 단일 값으로 제시하는 과정이며 함수로 표현

점추정을 위한 추정량 중에서 편향(bias), 분산(variance), 효율성(efficiency) 등의 특성을 고려하여 선택

구간추정 interval estimation

$\left[\hat{\theta_1},\hat{\theta_2}\right]$
$\bar{X}\pm z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$여기서, $z_{\frac{\alpha}{2}}$는 표준정규분포의 양측검정 임계값

$\dfrac{\sigma}{\sqrt{n}}$는 표본평균 표집의 표준편차: 표준오차

$[\text{신뢰구간의 하한값}, \text{신뢰구간의 상한값}]$

$\text{점추정값} \pm \text{신뢰구간의 반}$

신뢰구간

모집단 모수(예: 평균, 비율, 회귀계수 등)에 대한 추정값이 포함될 것으로 예상되는 구간을 제시하는 것

모수가 존재할 가능성이 높은 구간을 제시함으로써 추정의 불확실성을 반영

점추정값과 함께 모수가 포함될 것으로 예상되는 구간을 같이 제시

주어지는 신뢰수준은 일반적으로 백분율로 표시되며, 흔히 90%, 95%, 99% 등이 사용

95% 신뢰수준의 구간추정은 해당 신구간이 95%의 확률로 실제 모수를 포함할 것으로 예상

표본추출 sampling

$S = \{ s_1, s_2, \ldots, s_n \}
$여기서, $S$는 단순랜덤 표본추출: 표집(sampling)의 결과집합

$s_i$는 각각의 표본(sample)

집합

표집

표본생성

모집단으로부터 일부 표본을 선택하는 과정

단순랜덤표본추출, 계통추출, 층화추출

모집단 population N 영 대문자 N

전체집단(entire population)

대상집단(target population)

조사하고자 하는 전체 집단 또는 대상

연구의 대상이 되는 모든 개체를 포함하므로, 연구의 범위나 목적에 따라 정의

“대한민국 성인 남성”이나 “고등학교 학생”과 같이 구체적인 집단을 모집단으로 정의

표본 sample

$s=\{ x_1, x_2, \ldots, x_n \}
$여기서, $x_i$는 표본내 개체의 속성을 나타내는 변수값

$n$은 표본크기

영 소문자 $s$

시료

샘플

모집단(population)에서 선택된 일부 개체 또는 사건의 집합

모집단을 대표할 수 있도록 선택

자유도 degree of freedom $df(\, \,)$
(  )안은 변동
영문 이탤릭 소문자 $df$ 자유차원

모델에서 모수(parameter)를 추정할 때 사용되는 독립적인 정보의 수

데이터 포인트의 수에서 모델 내의 추정된 파라미터 수를 뺀 수

산술평균 the arithmetic mean of a series of values $x_1$, $x_2$, $\cdots$, $x_n$

$\bar x=\dfrac{\sum\limits_{i=1}^{n} x_i}{N}$

여기서, $x$는 변수

$N$은 데이터수

영 소문자에 바(bar)

데이터의 대표값

평균값(average)

평균치(average)

데이터의 모든 값들을 더한 후 데이터의 개수로 나누어 계산

데이터 집합의 중심을 나타내는 대표값

데이터의 중심적 경향을 나타내는 대표값 중 하나

데이터의 분포의 정도를 가장 작게하는 기준으로 동시에 결정되는 요소

표본평균 sample mean

$\bar x=\dfrac{\sum\limits_{i=1}^{n} x_i}{n-1}
$여기서 $x$는 변수

$x_i$는 $i$번째 변수값

영 소문자에 바(bar)

표본평균값(sample average)

평균값(average)

주어진 데이터 집합의 평균값

데이터 집합의 모든 값들을 더한 후 데이터의 개수로 나누어 계산

데이터의 중심적 경향으로 나타나는 중심의 위치를 나타냄

표본분산 sample variance

$s_X^2=\dfrac{\sum\limits_{i=1}^{n}(x_i – \bar{x})^2}{n-1}
$여기서 $X$는 확률변수

$x_i$는 $i$번째 확률변수값

$\bar {x}$는 표본평균

$n$은 표본크기

$n-1$은 표본의 자유도

영 이탤릭 소문자 $s^2$ 샘플분산

주어진 데이터 집합의 분산

데이터가 얼마나 퍼져 있는지를 나타내는 분포값 중 하나

각 데이터 값과 표본평균 간의 편차를 제곱한 값들의 합을 자유도로 나눈 값

표본분산은 양수

표본표준편차 sample standard deviation

$s=\sqrt{s^2}$

여기서 $s^2$은 표본분산

영 이탤릭 소문자 $s$ 샘플표준편차

주어진 데이터 집합의 표준편차

데이터가 표본평균 주변에 얼마나 집중되어 있는지를 나타내는 대표값 중 하나

표본분산과 달리 데이터의 원래 단위와 동일한 단위를 가지므로, 더 직관적으로 해석가능

표본상관계수 sample correlation coefficient $r$ 영 이탤릭 소문자 $r$ 샘플상관계수

표본 데이터 집합에서 두 변수 간의 선형관계의 강도와 방향을 나타내는 통계량

-1부터 1까지의 범위에서 값을 가지며, 0은 두 변수 간의 선형 관계가 없음을 의미

표본회귀계수 sample regression coefficient $b_i$ 영 이탤릭 소문자 $b$ 샘플회귀계수

독립변수와 종속변수 간의 관계를 설명하는 모델의 계수를 나타내는 통계량

주어진 표본 데이터로 계산

단순선형회귀모델에서 표본회귀계수는 독립변수 𝑥와 종속변수 𝑦 간의 선형 관계를 나타내는 직선의 기울기를 의미

다중선형회귀모델에서는 각 독립변수의 계수는 해당 변수가 종속변수에 미치는 영향을 의미

일반적으로 최소제곱법(Least Squares Method)을 사용하여 회귀계수를 추정

모평균 population mean $\mu$ $\mu$ 그리스 이탤릭 소문자 $\mu$ 모집단평균

모집단의 평균

모집단의 중심 경향성에 의한 중심위치를 나타내는 통계량

모평균은 표본평균을 통해 추정

모분산 population variance $\sigma^2$ 그리스 이탤릭 소문자 $\sigma^2$ 모집단분산

모집단의 분산

모집단 전체의 데이터 값들이 모평균 주변에 얼마나 퍼져 있는지를 측정하는 지표

데이터 값과 모평균 간의 편차의 제곱을 평균한 것으로 계산

모집단 전체 데이터의 분포를 설명하는 통계량

모분산은 양수

모분산은 표본분산을 통해 추정

모표준편차 population standard deviation $\sigma$ 그리스 이탤릭 소문자 $\sigma$ 모집단표준편차

모집단의 표준편차

데이터 값들이 모평균 주변에 얼마나 퍼져 있는지를 측정하는 지표

모분산의 제곱근이 모표준편차

모집단 전체 데이터의 분포를 설명하는 통계량

모상관계수 population correlation $\rho$ 그리스 이탤릭 소문자 $\rho$ 모집단상관계수

모집단의 두 변수 간의 관계의 강도와 방향을 측정하는 통계량

모상관계수는 보통 선형상관을 표현하는 피어슨 상관계수를 의미

선형상관이 아닌 상관계수를 표현하는 여러 상관계수가 있음

피어슨상관계수는 -1부터 1까지의 값을 가지며 1은 완벽한 음의 선형관계, 0은 선형관계가 없음, 1은 완벽한 양의 선형관계를 의미

모회귀계수 population regression coefficient $\beta_i$ 그리스 이탤릭 소문자 $\beta_i$ 모집단회귀계수

모집단 회귀모델 추정된 계수

회귀분석에서 사용되는 통계량으로 종속변수와 각 독립변수 간의 관계를 나타냄

독립 변수의 단위 변화가 종속 변수에 어떤 영향을 미치는지를 나타내며, 이를 통해 예측과 추론을 수행

최소제곱법(Least Squares Method)이나 최대우도추정(Maximum Likelihood Estimation) 등의 방법을 사용하여 추정

표본최소값 sample minimum

$\text{표본최소값} = \min(x_1, x_2, \ldots, x_n)$

$x_{(1)}$

$min$함수로 표기

변수 아래첨자에 (1)로 표기

샘플최소값

표본 데이터 집합에서 발생 가능한 가장 작은 값이며 데이터의 하한

데이터의 범위를 파악하고 이상치(outlier)를 탐지하는 데 사용

표본최대값 sample maximum from a total sample size $n$

$\text{표본최대값} = \max(x_1, x_2, \ldots, x_n)$

$x_{(n)}$

여기서 $n$은 표본크기

$max$함수로 표기

변수 아래첨자에 (n)로 표기

샘플최대값

표본 데이터 집합에서 발생 가능한 가장 큰 값이며, 데이터의 상한

데이터의 범위를 파악하고 이상치(Outlier)를 탐지하는 데 사용

회귀계수 점추정 point estimation of regression coefficients $\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2, \ldots, \hat{\beta}_k$ 좌변은 확률변수 우변은 추정량

회귀계수 추정값

회귀계수 추정치

회귀분석에서 독립변수와 종속변수 간의 관계를 설명하는 모델의 회귀계수를 추정
공분산행렬 covariance matrix $\Sigma = \begin{bmatrix}
\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\
\text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Var}(X_n)
\end{bmatrix}
$여기서 $\text{Cov}(X_i, X_j)$는 공분산: $\text{Cov}(X_i, X_j) = E[(X_i – E[X_i])(X_j – E[X_j])]$
그리스 이탤릭 대문자 볼드체 $\Sigma$

분산-공분산행렬(variance-covariance matrix)

분산행렬(dispersion matrix)

상관행렬 (correlation matrix): 표준화된 공분산행렬

여러 확률변수들의 공분산들을 요소로 갖는 행렬

대칭행렬이며 주대각선 요소들은 분산이어서 비음수

공분산 행렬은 다변량 데이터의 구조를 이해하고 주성분분석(PCA)과 같은 데이터 차원 축소 기법, 최적화문제, 시계열분석 등에서 중요한 역할

벡터 vector

$\mathbf{v}$

$\vec{v}$

영 이탤릭 소문자 볼드체 $\mathbf{v}$
영 이탤릭 소문자에 화살표 $\vec{v}$

열벡터 (Column Vector)

행벡터 (Row Vector)

방향벡터 (direction vector)

위치벡터 (position vector)

이동벡터 (displacement vector)

힘벡터 (force vector)

속도벡터 (velocity vector)

가속도벡터 (acceleration vector)

단위벡터 (unit vector)

기울기벡터 (gradient vector)

정규벡터 (normal vector)

크기와 방향을 모두 가지는 수학적 객체로, 물리학에서는 어떤 물리적인 양을 나타내는 데 사용

수학적으로 벡터는 n차원 공간에서 한 점에서 다른 점으로의 이동

속도, 가속도, 힘 등을 나타내어 물리적 세계를 모델링

3D 모델링에서 벡터는 객체의 위치, 방향, 표면의 법선 등을 정의

데이터의 특성을 벡터로 표현하여, 패턴 인식, 클러스터링, 분류 작업을 수행

행렬 matrix $\mathbf{A}$ 영 대문자 볼드체 배열 (array)
테이블 (table)
그리드 (grid)
텐서 (tensor)
대각행렬 (diagonal matrix)
단위행렬 (identity matrix)
전치행렬 (transpose matrix)

숫자, 심볼, 수식들을 직사각형 격자(grid) 모양으로 배열한 수학적 개체

행렬에서 행(row)은 행렬에서 가로 방향의 배열이고 열(column)은 세로 방향의 배열