DATA SCIENCE - p값 : 27
eISSN 0000-0000

용어 – Wikipedia

데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia

데이터분석

데이터분석은 유용한 정보를 발견하여 의사 결정을 지원하기 위하여 데이터를 검사, 정리, 변형 및 모델링하는 과정입니다. 데이터분석에는 다양한 방법이 있으며 비즈니스 및 과학 분야에서 사용됩니다. 오늘날, 비즈니스 세계에서 데이터분석은 의사 결정을 과학적으로 하게 하여 비즈니스의 성과를 최대화, 최적화 합니다.

데이터 마이닝은 예측을 위한 모델링과 지식 정리에 중점을 둔 데이터분석 기술입니다. 비즈니스 인텔리전스는 주로 비즈니스 정보에 중점을 둔 데이터를 수집, 정리하는  데이터분석을 다룹니다. 통계 응용 프로그램에서 데이터분석은 설명통계인 탐색적 데이터분석(EDA)과 가설의 확인을 위한 데이터분석(CDA)으로 나눌 수 있습니다. EDA는 CDA가 기존 가설을 확인하거나 수정하는 데 초점을 맞추는 반면 데이터의 새로운 기능을 발견하는 데 중점을 둡니다. 예측 분석은 예측 또는 분류를 위한 통계 모델의 적용에 중점을 두는 반면 텍스트 분석은 통계적, 언어적 및 구조적 기법을 적용하여 비 구조적 데이터의 일종 인 텍스트 소스의 정보를 추출하고 분류합니다. 이처럼 데이터 분석은 다양합니다.

데이터수집은 데이터분석에 선행하며, 데이터분석은 데이터시각화 및 데이터 제공과 밀접하게 연관되어 있습니다. 데이터분석이라는 용어는 데이터 모델링의 동의어로 사용되기도 합니다.

Reference

Data analysis – Wikipedia

데이터세트

데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(Member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.

데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다.공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.

Reference

Data set – Wikipedia

반올림 오류

반올림 오류는 정확한 수치를 사용하여 주어진 알고리즘에 의해 생성된 결과와 유한 정밀도의 반올림을 사용하여 동일한 알고리즘에 의해 계산된 결과 간의 차이입니다. 반올림 오류는 실수의 표현과 반올림으로 수행된 연산의 부정확성 때문에 발생합니다. 이것은 양자화 오차의 한 형태입니다. 근사 방정식이나 알고리즘을 사용할 때, 특히 유한한 숫자를 사용하여 실수로 나타낼 때 (이론상 무한 자릿수가 있는 경우), 수치 해석의 목표 중 하나는 계산 오류를 추정하는 것입니다. 수치 오류라고도 하는 계산 오류에는 버림 오류와 반올림 오류가 모두 포함됩니다.

반올림 오류가 포함된 입력이 있는 연산이 수행되면 오류가 누적되어 연산결과가  다르게 나타날 수 있습니다. 극단적인 환경에서는 심각한 오류를 야기할 수 있습니다. 디지털 컴퓨터는 숫자 표현 능력에 있어 크기와 정밀도가 제한되어 있습니다. 특정 숫자 조작은 반올림 오류에 매우 민감합니다. 이것은 컴퓨터가 산술 연산을 수행하는 방식 뿐만 아니라 수학적 고려 사항 모두에서 발생할 수 있습니다.

Reference

Round-off error – Wikipedia

척도

대상을 분류하거나 수치화 시키는 것

편차(deviation)

수학 및 통계에서 편차는 변수의 관측값과 기준이 되는 다른 변수값의 차이를 측정하는 척도입니다. 편차의 부호는 그 차이의 방향을 나타냅니다 (편차는 관측값이 기준값을 초과 할 때 양의 값입니다). 펀차값의 크기는 차이의 크기를 나타냅니다.

Reference

Deviation (statistics) – Wikipedia

원주율($\pi$)

숫자에서 무리수인 π(원주율, 파이로 읽음)는 원의 둘레($l$)와 지름($r$)의 비율인 수학 상수로 대략 $3.14159\cdots$와 같습니다. 무리수 π는 수학과 물리학 전반에 걸쳐 많은 공식에 나타납니다. 22/7과 같은 분수가 일반적으로 근사화하여 사용하지만 이는 무리수입니다. 즉, 두 정수의 비율로 정확하게 표현할 수 없습니다. 결과적으로 십진수로 표현할 때 자리수가 끝나지 않고 영구적으로 반복되는 패턴입니다. 원주율은 초월수로서 합, 곱, 거듭제곱, 정수만을 포함하는 방정식의 해가 될 수 없음을 의미합니다. π의 초월은 나침반과 직선자로 원을 제곱하는 고대의 과제를 해결하는 것이 불가능하다는 것을 의미합니다. π의 십진수는 무작위로 분포된 것으로 보이지만 이 추측에 대한 증거는 발견되지 않았습니다.

수천 년 동안 수학자들은 π의 값을 높은 정확도로 계산함으로써 π에 대한 이해를 넓히려는 시도를 해왔습니다. 이집트와 바빌로니아를 포함한 고대 문명은 실제 계산을 위해 상당히 정확한 π의 근사값을 필요로 했습니다. 기원전 250년경에 그리스 수학자 아르키메데스는 임의의 정확도로 π를 근사하는 알고리즘을 만들었습니다. 서기 5세기에 중국 수학자들은 π를 7자리로 근사하였고 인도 수학자들은 기하학 기술을 사용하여 5자리의 근사값을 구했습니다. 무한 급수를 기반으로 하는 π에 대한 첫 번째 계산 공식은 천년 후에 발견되었습니다. 원의 둘레와 지름의 비율을 나타내기 위해 그리스 문자인 π의 최초의 사용은 1706년 웨일스의 수학자 William Jones가 사용한 것으로 알려져 있습니다.

미적분학의 발전은 모든 실용적인 계산에 충분한 π의 수백 자리의 계산으로 이어졌습니다. 그럼에도 불구하고, 20세기와 21세기에 수학자와 컴퓨터 과학자들은 증가하는 계산 능력과 결합하여 π의 십진법 표현을 수조 자릿수로 확장하는 새로운 접근 방식을 찾았습니다. 이러한 시도는 급수를 계산하기 위한 효율적인 알고리즘의 개발과 자리수 기록을 깨려는 인간의 탐구에 의해 동기가 부여되었습니다. 슈퍼컴퓨터를 테스트하는 데에도 사용되었습니다.

원주율의 정의는 원과 관련이 있기 때문에 π는 삼각법 및 기하학의 많은 공식, 특히 원, 타원 및 구와 관련된 공식에서 발견됩니다. 또한, 우주론, 프랙탈, 열역학, 역학, 전자기학과 같은 과학의 여러주제의 공식에서도 발견됩니다. 현대의 수학적 분석에서는 기하학에 대한 참조 없이 대신 정의되는 경우가 많습니다. 따라서 정수론이나 통계와 같이 기하학과 거의 관련이 없는 영역에서도 나타납니다. π의 넓은 효용성은 π를 과학 안팎에서 가장 널리 알려진 수학 상수 중 하나로 만듭니다. π에 관한 많은 책이 출판되었으며 최대기록의  π의 자릿수 계산은 종종 뉴스 헤드라인을 장식합니다.

Reference

Pi – Wikipedia


e (자연상수, mathematical constant)

오일러 수(Euler’s number)라고도 하는 상수 $e$는 대략 2.71828과 같은 수학적 상수로 여러 측면에서 규정될 수 있습니다. 자연로그의 밑입니다. $n$이 무한대에 가까워질 때의  $(1 + \frac{1}{n})^n$의 극한값입니다. 복리계산에서 보이는 표현입니다. 무한급수의 합으로 계산할 수도 있습니다.

또한 $e$는 함수 $y = ax$의 그래프가 $x = 0$에서 기울기가 1이 되도록 하는 고유한 양의 상수입니다. (자연)지수 함수 $f(x) = e^x$는 고유한 함수 $f$가 도함수와 동일하고 방정식 $f(0) = 1$을 충족합니다. 따라서 $e$를 $f(1)$로 정의할 수도 있습니다. 자연로그 또는 밑이 e인 로그는 자연 지수함수의 역함수입니다. 숫자 $k > 1$의 자연로그는 $x = 1$과 $x = k$ 사이의 곡선 $y = \frac{1}{x}$ 아래의 면적으로 직접 정의할 수 있습니다. 이 경우 $e$는 이 면적이 1일 때의  $k$의 값입니다.

상수 $e$는 수학자 Leonhard Euler의 이름을 따서 Euler’s number 또는 John Napier의 이름에서 Napier의 상수라고 합니다. 이 상수는 복리를 연구하던 중 스위스 수학자 Jacob Bernoulli가 발견했습니다. 상수 $e$는 $0, 1, \pi$ 및 $i$와 함께 수학에서 매우 중요한 수입니다. 숫자 5개 모두 오일러의 항등식 $e^{i\pi }+1=0$에 나타나며 수학 전반에 걸쳐 사용됩니다. 상수 ${\pi}$와 마찬가지로 $e$는 무리수(정수 비율로 나타낼 수 없는 수)이고 초월적(유리계수가 있는 0이 아닌 다항식의 근이 아님)수입니다. 소수점 이하 30자리까지 $e$의 값은 다음과 같습니다.

2.718281828459045235360287471352…

Reference

e (mathematical constant) – Wikipedia

리커트 척도 (Likert scale)

리커트 척도는 그 발명자인 미국의 사회심리학자 Rensis Likert의 이름을 딴 심리측정 척도입니다. 이 척도는 연구 설문지에서 흔히 사용됩니다. 설문 연구에서 응답을 척도화하는 방식으로 가장 널리 사용되며, 때문에 ‘리커트 유형 척도(Likert-type scale)’라는 용어는 평가 척도(rating scale)와 종종 동의어로 사용되기도 하지만, 평가 척도에는 다른 유형들도 있습니다.

리커트는 척도 자체와 응답이 점수화되는 형식 사이를 구분하였습니다. 엄밀히 말하면, 리커트 척도는 전자만을 가리킵니다. 이 두 개념 사이의 차이는 리커트가 조사하려는 기본 현상과 그 현상을 나타내는 변동을 포착하는 방법 사이의 구분에서 나옵니다.

리커트 항목에 응답할 때, 응답자들은 일련의 진술에 대한 동의 또는 불일치의 수준을 대칭적인 동의-불일치 척도에서 지정합니다. 따라서, 척도는 주어진 항목에 대한 그들의 감정의 강도를 포착합니다. 척도는 개별 항목(질문) 세트에 대한 설문지 응답의 단순한 합계나 평균으로 생성될 수 있습니다. 이렇게 하면, 리커트 척도는 각 선택 사이의 거리가 동일하다고 가정합니다. 많은 연구자들은 높은 내적 일관성을 보이는 항목 세트를 사용하며, 동시에 연구 대상 전체 영역을 포착할 것이라고 가정합니다. 다른 연구자들은 “모든 항목이 서로의 복제본이라고 가정하거나 다시 말해 항목들이 병렬 도구로 간주된다”는 기준을 고수합니다. 반면, 현대의 시험 이론은 각 항목의 난이도를 항목 척도화에 포함시킬 정보로 간주합니다.

리커트 척도의 등간성에 대한 논의는 연구자들 사이에서 여전히 진행 중인 토론의 주제입니다. 일부 연구자들은 리커트 척도를 등간척도로 간주하여 적절한 통계 분석을 수행하며, 다른 연구자들은 그렇지 않다고 주장합니다. 특히 리커트 척도의 등간성을 수학적으로 증명한 구체적인 참고문헌을 제공하기는 어렵습니다. 이는 대부분의 연구가 통계적 또는 실증적인 근거를 기반으로 하는데, 수학적 증명 방식과는 다르기 때문입니다. 리커트 척도의 성질과 사용에 대한 더 깊은 연구나 이해를 원한다면, 측정 이론 (measurement theory) 또는 척도 이론 (scale theory) 관련 문헌을 참조하는 것이 좋습니다.

Reference

Likert scale – Wikipedia

막대그래프

막대그래프는 데이터값에 비례하는 길이를 가지는 직사각형 막대로 데이터값을 표현합니다. 막대그래프는 세로 또는 가로로 그릴 수 있습니다. 세로 막대그래프는 때로는 선 그래프와 같이 표현됩니다. 막대그래프는 각 범주간 데이터값을 잘 비교합니다. 그래프의 한 축은 비교할 특정 범주를 표시하고 다른 축은 측정된 데이터값을 길이로 나타냅니다. 막대 그래프를 응용하면 두 개 이상의 그룹으로 묶어서 막대를 나타낼 수 있으며 둘 이상의 측정 변수의 값을 비교하여 보여 줄 수 있습니다.

Reference

Bar chart – Wikipedia

히스토그램

데이터값의 분포를 표현하는 방식중의 하나입니다. 연속확률변수의 확률값을 막대그래프 모양으로 표현한 것입니다. Karl Pearson에 의해 처음 소개되었습니다.

히스토그램을 작성하려면 먼저 변수 범위를 구간(“bin”또는 “bucket”)으로 나눕니다. 그리고  각 구간에 몇 개의 데이터 값이 속하는 지를 정리합니다. 구간은 연속적이고 겹치지 않고 인접해야 하며 같은 간격이면 분석에 용이합니다.(구간 간격이 꼭 같아야 하는 것은 아닙니다.)

직사각형(막대)의 높이에 비례하는 빈도수는 상대빈도수로 정규화될 수 있습니다.  구간들이 동일한 간격이고 간격이 1인 경우, 빈도수를 정규화하게 되면 각 직사각형의 높이는 상대빈도수를 표현하는 확률이 되어 각 직사각형의 높이의 합은 1이 됩니다. 그러나 구간은 동일한 폭(구간크기)일 필요는 없습니다. 이 경우 직사각형(막대)은 구간의 빈도수에 비례하는 면적을 갖도록 정의됩니다 . 수직축은 빈도수가 아니라 빈도수밀도(수평축상의 변수의 단위당 경우의 수)입니다. 모양은 막대 그래프의 막대가 서로 인접한 모양으로 변수가 연속적으로 표현되었다는 것이 중요합니다.

히스토그램은 데이터의 기본 확률분포밀도를 대략적으로 나타내며, 확률밀도 추정시 자주 사용됩니다 . 즉, 기본 확률변수의 확률밀도함수를 나타냅니다 . 확률 밀도에 사용되는 히스토그램의 총 면적은 항상 1로 정규화됩니다. X 축의 간격이 모두 1이면 히스토그램은 상대빈도 막대그래프와 동일합니다 . 히스토그램은 통계적 속성을 모델링해야 할 때 통계 패키지 프로그램에서 자주 쓰입니다. 예를 들면, 커널 밀도 추정치의 상관 관계 변이는 수학적으로 설명하기가 매우 어렵지만 각 구간이 독립적으로 변하는 히스토그램에서는 이해하기가 쉽습니다. 커널 밀도 추정의 대안은 평균 이동된 히스토그램입니다  계산 속도는 빠르며 커널을 사용하지 않고 밀도를 부드럽게 계산할 수 있습니다.

히스토그램은 때때로 막대그래프와 혼동됩니다.히스토그램은 연속 데이터에 사용되기 때문에 막대는 붙어 있게 됩니다.  그래서 구별을 분명히 하기 위해 막대그래프는 막대 사이에 간격을 줍니다.

Reference

Histogram – Wikipedia

산점도

산점도(산포도)는 일반적으로 여러 변수를 가지는 개체를 표시하기 위해 직각  좌표계를 사용하는 그래프 유형입니다. 점이 시각적으로 정의된 경우 (색상 / 모양 / 크기) 하나의 추가 변수로 표시 될 수 있습니다. 3차원 산점도에서 데이터는 수평 축상의 위치를 결정하는 하나의 변수 값과 수직축 상의 위치를 결정하는 다른 변수의 값을 갖는 점들의 모음으로 표시됩니다.

Reference

Scatter plot – Wikipedia

Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선(y=x)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선(y=x)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

Reference

Q-Q plot – Wikipedia

도수분포

통계에서 도수분포(빈도수분포)는 표본의 실험이나 측정항목의 빈도수를 표시하는 표(도수분포표)나 그래프(도수분포도)로 나타냅니다. 도수분포표의 각 항목에는 특정 집단 또는 특정 구간 내의 값이 발생하는 빈도수가 나타납니다. 도수분포표는 표본의 변수 분포를 요약하는 효과적인 방법입니다.

Reference

Frequency distribution – Wikipedia

중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

Reference

Central limit theorem – Wikipedia

모집단(population)

통계에서 모집단은 질문이나 실험(experiment)의 대상이 되는 유사성을 가지는 분류 또는 사건의 집합입니다. 통계적 모집단은 실재하는 물건(예를 틀어 우주에 있는 모든 항성의 집합)일 수도 있고 경험을 통해 일반화된 잠재적으로 무한한 집단(포커에서 가능한 모든 패의 집단)일 수 있습니다. 통계분석의 공통적인 목표는 선택된 모집단에 대한 정보를 산출하는 것입니다.

통계적 추론(statistical inference)에서 모집단의 부분집합인 표본은 통계적 분석으로 모집단을 나타내기 위해 선택됩니다. 이 표본의 크기와 모집단의 크기의 비율을 표본분수(sampling fraction)라고 합니다. 적절한 표본에 대해 통계를 사용해 모집단 매개변수를 추정할 수 있습니다.

Reference

Statistical population – Wikipedia

모수(parameter)

통계적 매개변수(모수, parameter) 또는 집단의 매개변수는 통계 또는 확률변수의 확률분포를 표현하는 양입니다. 그것은 통계의 대상인 집단이나 통계적 모델의 수치적 특성으로 간주 될 수 있습니다.  구분된 데이터 계열(family)이  있다고 가정합니다. 구분자(index)가 계열의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도의 수에 의해 구분(indexing)될 수 있습니다. 자유도의 수는 카이제곱분포의 매개변수이므로 카이제곱분포는  매개변수화된 계열이라고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia

매개변수(parameter)

통계적 매개변수 또는 모집단 매개변수는 통계량 또는 확률분포를 설명하는 데 사용되는 변수입니다. 매개변수는 모집단이나 통계모델의 수치적 특성이라 할 수 있습니다.

색인 분류된  집단의 분포가 있다고 가정해 봅니다. 색인이 집단의 분포의 매개변수로도 작용한다면, 그 집단은 매개변수화된 집단이라 할 수 있습니다. 예를 들어, chi-squared 확률분포를 가지는 집단은 자유도에 의해 색인되어 분류될 수 있습니다. 자유도는 chi-squared 분포의 매개변수이므로 chi-squared 분포를 가지는 집단은 자유도라는 매개변수로 매개변수화 되었다고 할 수 있습니다.

Reference

Statistical parameter – Wikipedia

표본(sample)

통계와 양적 연구방법론에서 표본은 수집된 데이터집합이며 정해진 절차에 따라서 통계적 모집단에서 선택된 또 다른 집단입니다. 표본의 요소(elements)는 표본점(sample points), 표본추출 단위(sampling units) 또는 관측대상(observations)이 있습니다.

일반적으로 인구는 매우 큰 집단이므로 전체 인구조사와 인구집단에 대한 완전한 서술은 불가능하고 효용이 없습니다. 표본은 일반적으로 관리가 가능할 정도의 크기의 모집단의 하위 집합을 나타냅니다. 표본을 수집하고 표본에서통계량을 계산하면 표본을 통해 모집단을 추론할 수 있게 됩니다. 추론(inference)에는 대표적으로 추정(estimation)과 가설검정(hyperthesis test)이 있습니다. 그리곡 추정에는 점추정과 구간추정이 있습니다. 이 모든 것이 표본을 통해 모집단의 정보를 알아 내는 것입니다.

표본은 비복원(같은 표본이 여러번 선택되는 경우가 없는 경우)으로 추출될 수 있고, 이 경우에는 표본은 모집단의 부분집합이 됩니다. 복원추출을 한 경우는 다중부분집합이 됩니다.

Reference

Sample (statistics) – Wikipedia

통계량(statistic)

통계량은 영어로는 Statistic이며 통계학을 의미하는 Statistics의 단수형입니다. 표본통계량(sample statistic)은 표본에서 계산된 값(평균 등등)입니다.  통계량은 표본에서 관측한 데이터(변수값)들을 정의된 함수에 적용하여 계산할 수 있습니다.

통계학에서, 통계량과 매개변수 사이에는 중요한 차이가 있습니다. 매개변수는 연구 대상 집단의 특성들을 나타냅니다. 모집단의 매개변수는 계산할 수 없거나 실용적이지 않을 때가 있습니다. 집단에서 추출한 표본에서 계산된 표본통계량을 기반으로 매개변수의 가능한 값을 추론할 때 통계적 방법이 사용됩니다. 통계량이 집단의 매개변수를 추정하는 데 사용될 때 이를 추정자(estimator)라 합니다. 표본통계량 중에서 표본평균은 집단의 모평균에 대한 비 편향적 추정자입니다. 이것은 많은 수의 표본평균 표집의 모평균은 집단의 모평균에 수렴하는 경향이 있음을 의미합니다.

형식적으로 통계이론은 통계량을 미지의 추정치(estimands)와 독립적인 표본의 함수로 정의합니다. 즉, 이 함수들은 엄밀하게는 데이터의 함수입니다. 통계량 이라는 용어는 표본에서 함수와 그 함수의 값 모두에 사용됩니다.

통계량(함수)이 특정 목적을 위해 사용될 때, 목적을 나타내는 이름으로 표기될 수 있습니다. 설명통계(기술통계)에서는 서술적인 통계가 통계를 나타내는데 사용되고, 추정이론에서는 추정인자(estimator)을 사용하여 모집단의 매개변수를 추정합니다. 통계적 가설검정에서 가설을 시험하기 위해 검정통계량(test statistic)이 사용됩니다. 하지만, 단일 통계량은 여러 곳에서 사용할 수 있습니다. 예를 들어 통계량 중의 하나인 표본평균은 데이터 집합을 설명할 때, 모평균을 산정할 때, 가설을 검정할 때 등 여러가지로 사용될 수 있습니다.

Reference

Statistic – Wikipedia

표본공간(sample space)

확률이론에서 무작위 실험의 표본공간 (표본표현공간, 이벤트공간 또는 가능성공간이라고도 함)은 실험의 가능한 모든 결과 또는 결과의 집합입니다. 표본공간은 일반적으로 집합 표기법을 사용하여 표시되며 가능한 결과가 집합의 요소로 나열됩니다. 표본공간을 S, Ω 또는 U레이블로 나타내는 것이 일반적입니다 (일반적인 집합의 경우).

예를 들어, 실험에서 동전을 던지면 표본공간은 일반적으로 집합기호로 표시되며 {앞면, 뒷면}입니다. 두 개의 동전을 던지기에 대응하는 표본공간은 {(앞면, 앞면), (앞면, 뒷면), (뒷면, 앞면), (뒷면, 뒷면)} 또는 일반적으로 기호를 사용하여 {HH, HT, TH, TT}로 표현됩니다. 표본공간에서 순서를 무시하면 {(앞면, 뒷면), (앞면, 뒷면), (뒷면, 뒷면)}이됩니다. 하나의 6 면체 주사위를 던지기에 대응하는 일반적인 표본공간은 {1, 2, 3, 4, 5, 6}입니다(주사위 던지기 시행의 결과인 사건은 주사위의 위로 향한 면에 적혀있는 수입니다). 잘 정의된 표본공간은 확률모델(확률공간)의 세 가지 기본 요소 중 하나입니다. 다른 두 가지는 가능한 시행(event : $\sigma$대수)과 각 시행의 결과(사건)에 할당된 확률(확률측정함수 : 확률질량함수 또는 확률밀도함수)입니다.

Reference

Sample space – Wikipedia

자유도(degree of freedom)

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는  값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면,  표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친  모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸  $(n-1)$의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

Reference

Degrees of freedom (statistics) – Wikipedia

통계적 퍼짐(dispersion)

통계적 퍼짐(dispersion: variability, scatter 또는 spread라고도 함)은 분포(distribution)가 확장되거나 수축되는 정도입니다. 통계적 분포 척도의 일반적인 예는 분산(variance), 표준편차(standard deviation) 및 사분위범위(interquartile range)입니다.

분산은 위치 또는 중심경향(central tendency)인 평균과 대조되며 표준편차와 함께 분포의 정도를 나타낼 때 가장 많이 사용되는 척도 입니다.

Reference

Statistical dispersion – Wikipedia

왜도(Skewness)

확률 이론 및 통계에서 왜도는 확률변수의 평균을 중심으로 할 때, 확률분포의 비대칭도를 나타낸 것입니다. 왜도 값은 양수, 0, 음수 또는 정의되지 않을 수 있습니다. 봉우리가 한 개인 분포의 경우 음의 왜곡은 일반적으로 꼬리가 분포의 왼쪽에 있음을 나타내고 양의 왜곡은 꼬리가 오른쪽에 있음을 나타냅니다. 한쪽 꼬리는 길고 다른 쪽 꼬리는 뚱뚱한 경우에도 규칙이 있다면 왜도로 표현할 수 있습니다. 예를 들어 왜도의 값이 0 인 경우 평균의  양쪽의 꼬리가 전체적으로 대칭을 이룬다는 것을 의미합니다.  대칭분포의 경우 외에도 한쪽 꼬리가 길고 가늘고 다른 쪽 꼬리가 짧지만 두툼한 비대칭 분포의 경우에도 규칙이 있다면 왜도는 0의 값을 가질 수 있습니다. 

Reference

Skewness – Wikipedia

첨도(Kurtosis)

확률 이론 및 통계에서 첨도(그리스어: κυρτός, kyrtos 또는 kurtos, “곡선, 아치”를 의미)는 확률변수의 확률분포의 “꼬리”를 측정한 것입니다. 왜도와 마찬가지로 첨도는 확률분포의 특정 성질을 설명합니다. 이론적 분포에 대한 첨도를 정량화하는 방법에는 여러 가지가 있으며 모집단의 표본을 사용하여 첨도를 추정하는 다양한 방법이 있습니다. 다른 방법의 첨도 관측은 다르게 첨도를 해석합니다. 

확률분포의 첨도에 대한 일반화된 척도는 Karl Pearson에 의해 제안된 확률분포의 4차 모멘트의 척도 버전입니다. 이 숫자는 분포의 정점이 아니라 분포의 꼬리와 관련이 있습니다. 따라서 가끔 보이는 첨도의 “정점” 특성으로 첨도를 설명하는 방식은 올바르지 않습니다. 즉, 첨도 측도(measure)의 경우 첨도가 높을수록 편차(또는 이상치)의 극단에 해당하며 평균 근처의 데이터의 형성의 설명에는 관련이 없습니다. 

확률분포의 첨도는 정규분포의 첨도인 0과 비교하는 것이 일반적입니다. 음의 초과첨도가 있는 분포는 platykurtic 분포라고 하지만 가끔 설명되는 것처럼 분포가 “평평한” 분포임을 의미하지는 않습니다. 오히려 분포가 정규분포보다 덜 극단적인 특이값(outtier)을 생성함을 의미합니다. Platykurtic 분포의 예는 특이값을 생성하지 않는 균일 분포입니다. 양의 초과첨도(excess kurtosis)가 있는 분포는 leptokurtic 분포라고 합니다. leptokurtic 분포의 예는 가우시안 분포보다 느리게 점근적으로 0에 접근하는 꼬리를 갖는 Laplace 분포이므로 정규분포보다 더 많은 특이값을 생성합니다. Pearson의 첨도에서 3을 뺀 값으로 정의되는 초과첨도를 사용하여 정규분포에 대한 비교를 제공하는 것이 일반적입니다. 일부 저술자 및 소프트웨어 패키지는 과도한 첨도를 나타내기 위해 “첨도”를 단독으로 사용합니다. 그러나 명확성과 일반성을 위해 이 문서에서는 비과도 첨도가 의미하는 위치를 명시적으로 나타냅니다.

첨도의 대체 측정법은 다음과 같습니다. 4차 L-모멘트의 척도 버전인 L-첨도; 4개의 모집단 또는 표본 분위수를 기반으로 측정합니다. 이는 일반적인 모멘트를 기반으로 하지 않는 왜도의 대체 측정과 유사합니다.

Reference

Kurtosis – Wikipedia

기대값

확률에서 임의 변수의 기대값은 직관적으로는 동일한 실험을 무한 반복했을 때 나온 값들의 평균값입니다. 예를 들어, 6면 주사위를 던지는 시행의 기대값은던진 횟수가 무한대에 가까워졌을 때의 결과값들의 평균값(이경우는 3.5)이 됩니다. 다시 말해, 큰 수의 법칙은 반복 횟수가 무한대에 가까워질수록 값의 산술평균은 기대값에 점점 수렴한다는 것을 의미합니다. 이 기대값은 기대치, 수학적 기대치, EV, 평균, 평균값이라고도 불립니다.

보다 현실적으로, 이산확률변수의 기대값은 모든 가능한 값의 가중평균입니다. 즉, 기대값은 확률변수가 취할 수 있는 각 값에 발생확률을 곱한 결과값들의 합이 됩니다. 연속적인 확률변수에 대해서는 합계 대신에 변수의 적분이 들어간다는 것 외에는 동일한 원칙이 적용됩니다. 공식적인 정의는 이 둘을 모두 포함해 이산적이거나 완전히 연속적이지 않은 분포에서도 같게 작용되어, 확률변수의 기대값은 간단히 “확률 측정값에 대한 변수의 적분 값”으로도 말할 수 있습니다.

기대값은 큰 꼬리가 있는 분포(예를 들어 Caushy 분포)에서는 존재하지 않습니다. 이런 무작위 변수의 경우에는 분포의 긴 꼬리가 합이나 적분값이 수렴하지 못하도록 합니다. 기대값은 위치 매개 변수의 한 유형으로 사용할 수 있기 때문에 확률 분포를 특징 짓는데 중요한 역할을 합니다. 그에 반해, 분산은 기대값 주위의 확률변수의 가능한 값들이 얼마나 퍼져 있는 지를 나타내는 값입니다. 분산은 크게 2가지 방법으로 구할 수 있습니다. 모든 값에 평균을 빼고 제곱을 해 평균을 구하거나, 모든 값의 제곱의 평균에 평균의 제곱을  빼서 구할 수 있습니다.

Reference

Expected value – Wikipedia

빈도수

통계에서 사건의 빈도 (또는 절대 빈도)는 실험이나 연구에서 사건이 발생한 횟수입니다. 이러한 빈도수는 종종 히스토그램으로 표현됩니다.

Reference

Frequency (statistics) – Wikipedia

범위

데이터 범위는 가장 큰 값과 가장 작은 값의 차이입니다. 구체적으로 데이터세트의 범위는 가장 큰 값에서 가장 작은 값을 뺀 결과 값입니다. 그러나 설명통계(기술통계)에서 범위개념은 보다 복잡한 의미를 지닙니다. 범위는 모든 데이터를 포함하고 통계적 분산의 표시를 제공하는 최소 간격의 크기입니다. 그것은 데이터와 동일한 단위로 측정됩니다. 최대값, 최소값 두 값만으로 표현되기 때문에 표본크기가 작은 데이터세트의 분산을 표현하는 데 가장 유용합니다.

Reference

Range (statistics) – Wikipedia

사분위 범위

사분위 범위 (Interquartile Range, IQR)는 75 ~ 25 백분위 수 또는 상위 및 하위 사분위의 차이로 통계적 분산의 척도입니다.  사분위 범위(IQR)은 “IQR = Q3 – Q1” 식으로 구합니다. 즉, IQR은 3분위수에서 1분위수를 뺀 것입니다. 이 4분위수는 데이터의 상자그림에서 명확하게 볼 수 있습니다. 그것은 정리된 추정량이며 25 % 정리된 범위로 정의되고 일반적으로 사용되는 강력한 통계적 분산의 척도입니다.

IQR은 데이터세트를 사분위수로 나누는 것에 기반한 변화(분포, 가변성)의 척도입니다. 사분위수는 순위가 지정된(내림차순이나 오름차순으로 정리된) 데이터 세트를 네 부분으로 나눕니다. 파트를 분리하는 값을 1, 2, 3 분위수라고 부릅니다. 각각 Q1, Q2, Q3으로 표기합니다.

Reference

Interquartile range – Wikipedia

산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

Reference

Mean – Wikipedia

가중평균

가중평균은 일반적인 산술평균(가장 일반적인 유형의 평균)과 비슷하지만 각 데이터 값이 평균에 동등하게 기여하지 않고 일부 데이터 값이 다른 값보다 더 많은 기여를 한다는 점이 다릅니다. 가중평균의 개념은 설명통계(기술통계)에서 사용되며 수학의 다른 영역보다 더 일반적인 형태로도 사용됩니다.

모든 가중치가 같다면 가중평균과 산술평균은 같습니다. 가중평균은 보통 산술평균과 비슷하게 작동하지만 Simpson의 역설에서  보이는 것과 같이 직관적이지 않은 속성도 있습니다.

Reference

weighted arithmetic mean – Wikipedia

 

백분위 수

백분위 수는 통계에서  관측치의  백분율이 그 이하가 되는 값을 나타내는 값입니다. 예를 들어, 20번째 백분위 수는 관측치의 20%가 발견될 수 있는 값입니다. 백분위 수 순위는 평점에 자주 사용됩니다. 예를 들어, 점수가 86번째 백분위 수(백분위 수 순위 = 86인 경우)라는 것은 이 값 아래에 관측 값의 86%가 있다는 것입니다. 이는 86번째 백분위 수 “안” 에 있는 것과는 다릅니다. 즉, 점수가 관측치의 86%가 아래에 있는 값과 같거나 작다는 뜻입니다.

모든 점수는 100번째 백분위 수 안에 있습니다.). 여기서 25번째 백분위 수는 1분위(Q1), 50번째 백분위 수는 2분위(Q2), 75번째 백분위 수는 3분위(Q3)로 각각 부릅니다.

Reference

percentile – Wikipedia

표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

Reference

standard deviation – Wikipedia

분산

확률과 통계에서 분산은 변수와 평균값 간의 편차의 제곱의 기대치입니다. 비공식적으로 분산은 집단 내 숫자가 평균값에서 얼마나 멀리 퍼져 있는지를 나타냅니다. 분산은 통계에서 설명통계, 통계적 추론, 가설검정, 적합성 및 몬테카를로 샘플링 등 많은 곳에 쓰이면서 중심적인 역할을 합니다. 분산은 데이터의 통계 분석이 많이 쓰이는 과학분야에서의 중요한 도구입니다. 분산은 표준편차의 제곱, 분포의 두번째 중심 모멘트, 무작위 변수와의 공분산이며, 집단의 모분산($\sigma ^ 2$), 표본분산($S^2$)이 있습니다 그리고 연산자 이름은 $\mathrm{Var}[X]$로 표현됩니다.

Reference

variance – Wikipedia

증앙값

중앙값은 데이터세트(유한집단 또는 표본 또는 이산확률분포)의 하반부와 상반부를 분리하는 값이며 “중간”값으로 간주 될 수 있습니다. 예를 들어, 데이터세트 {1, 3, 6, 7, 8, 9}에서 중앙값은 데이터 집합에서 네 번째로 크고 네 번째로 작은 숫자입니다. 연속적인 확률분포의 경우, 중앙값은 숫자가 상반부 또는 하반부로 정해질 가능성이 같은 값입니다. 중앙값은 통계 및 확률 이론에서 데이터 집합의 속성에 일반적으로 사용되는 척도입니다.

데이터를 요약하거나 설명할 때, 형균에 비해 중앙값의 좋은 점은 매우 크거나 작은 값으로 데이터의 대표값이 왜곡되지 않으므로 더 나은 대표성을 제공 할 수 있습니다, 예를 들어, 평균가계소득이나 평균자산과 같은 통계량을 이해할 때 적은 수의 매우 크거나 작은 데이터로 인해 평균은 극단적으로 왜곡 될 수 있습니다.반면에 가계소득의 중앙값은 “전형적인”수입이 무엇인지를 제시하는 더 좋은 방법 일 수 있습니다.이 때문에 중앙값은 중요한 통계에서 가장 신뢰할 만한 대표값이며 50 %의 분해점을 갖는 가장 믿을 만한 통계량이므로 데이터의 절반 이상이 실제와 다르지 않는 한 중앙값은 크게 달라지지 않습니다.

Reference

Median – Wikipedia

가중중앙값

통계에서 표본(Sample)의 가중중앙값은 50% 가중 백분위 수입니다. 이것은 1988년에 F.Y.Edgeworth에 의해 처음 만들어졌습니다. 중앙값과 마찬가지로 중심 경향을 예상하는데 유용하며, 이상치에 더욱 근접합니다. 이것은 균일적이지 않은 통계적 무게(표본에서의 다양한 정밀도 측정)를 표현 가능하게 합니다.

Reference

weighted median – Wikipedia

최소제곱법(method of least squares)

최소제곱함수근사(Least-squares function approximation)와 혼동하기 쉽습니다. 최소제곱법은 회귀분석( regression analysis)의 기본 접근법으로, 과도하게 규정된 시스템(미지수보다 많은 방정식이 있는 경우)의 해를 근사화합니다. 최소제곱은 각 방정식의 해에서 생성된 잔차제곱의 합을 최소화함을 의미합니다. 제일 중요한 응용분야는 데이터 적합화(data fitting)입니다. 최소제곱이 잘 맞는다면 잔차제곱(squared residuals ; 관측값과 모델에 의해 제공된 적합값과의 차이)의 합이 최소화됩니다. 독립변수에 상당한 불확실성이 있는 경우 단순회귀 및 최소제곱법에 문제가 생깁니다. 이런 경우에는 변수오차( errors-in-variables models)를 적합화하는데 필요한 방법론이 대신 고려됩니다.

최소제곱은 잔차가 선형인지 비선형인지에 따라 선형 또는 일반최소제곱(ordinary least squares) 또는 비선형최소제곱((nonlinear least squares))으로 분류됩니다. 선형최소제곱은 통계적 회귀분석(regression analysis)에서 사용되는데, 폐쇄형 솔루션(closed-form solution)을 가집니다. 비선형 문제는 반복적 방식(iterative refinement)으로 대부분 해결됩니다, 각 반복(iteration)에서 시스템은 선형으로 근사되므로 중요 계산은 두 경우 모두 비슷합니다.

다항식 최소제곱(Polynomial least squares)은 독립변수함수와 종속곡선편차( the deviations from the fitted curve)로 종속변수를 예측할 때의 분산을 나타냅니다. 관측치가 지수군(exponential family)에서 나오고 약간의 조건이 충족된다면 최소제곱 추정치와 최대가능성(maximum-likelihood) 추정치가 동일해집니다. 최소제곱의 방법은 또한 모멘트방식추정기(method of moments estimator)로 구할 수도 있습니다. 최소제곱의 사용은 선형함수 외에  일반적인 함수에도 유효합니다. 또한, 피셔 정보(Fisher information)를 사용한 부분 2차근사(local quadratic approximation)의 가능성(likelihood)에 대한 반복 적용으로, 최소제곱법을 일반화된 선형모형(generalized linear model.)에 사용할 수 있습니다.

Reference

Least squares – Wikipedia

확률

확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.

이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.

Reference

Probability – Wikipedia

종속변수

수학적 모델링, 통계적 모델링, 그리고 실험과학에서는 종속변수의 값은 독립변수의 값의 영향을 받습니다. 종속변수(통계에서는 관심변수)는 연구결과에 따른 산출물(변동, 결과, 효과, 반응)을 나타냅니다. 독립변수(통계에서는 회귀변수)는 입력 또는 원인(요인, 중재)으로서, 변동(결과)의 잠재적 원인입니다. 실험에서, 실험자가 조작하는 변수가 바로 독립변수가 됩니다. 모델링과 실험을 통해 독립변수가 종속변수에 어떤 영향을 미치는지 알아낼 수 있습니다. 때에 따라서는, 직접적인 연관을 찾지 않더라도 다른 이유로(예를 들어 감취진 교란을 알아내기 위해) 독립변수를 관찰합니다.

Reference

independent variable – Wikipedia

독립변수

수학적 모델링, 통계 모델링 및 실험과학에서 종속변수의 값은 독립변수의 값에 따릅니다. 즉, 종속변수는 독립변수에 따른  결과를 나타냅니다. 통계에서 종속변수의 회귀를 일으키는  회귀변수로도 나타나는 독립변수는 입력되어져서 종속변수의 변동의 원인이 될 수 있습니다. 실험에서는 실험자가 다루는 변수를 독립변수라고 할 수 있습니다. 모델과 실험은 독립변수가 종속변수에 미치는 영향을 살펴봅니다. 때로는 직접적인 영향을 주지 않더라도 잠재적인  교란을 설명하는 것과 같은 이유로도 독립변수를 고려합니다.

Reference

dependent variable – Wikipedia

연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

Reference

Continuous or discrete variable – Wikipedia

확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다.  확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다. 

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

Reference

Random variable – Wikipedia

시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면,  2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

Reference

Experiment (probability theory) – Wikipedia

확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입니다. 예를 들어, 확률변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률분포는 $X$ = 윗면의 경우 0.5, $X$ = 아래면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과의 집합인 기본 표본공간(sample space)의 관점에서 정해집니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비, 숫자, 값, 목록일 수도 있습니다. 예를 들어, 동전 던지기의 샘플 공간은 {앞면(머리), 뒷면(꼬리)}입니다. 확률분포는 일반적으로 두 가지로 나뉩니다. 이산확률분포 (동전 던지기 나 주사위와 같이 가능한 결과의 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위(예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에서 정의된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단일변수라고 불리우는 반면 표본공간이 2차원  이상의 벡터 공간 인 분포를 다변수라고합니다. 단일변수(변량) 분포는 다양한 대체 값을 취하는 단일확률변수의 확률을 제공합니다. 다변수분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단일변량 확률분포에는 이항분포, 초기하분포 및 정규분포가 포함됩니다. 다변수 정규분포는 일반적으로 발생하는 다변수분포입니다.

Reference

Probability distribution – Wikipedia

확률공간

확률이론에서, 확률공간 또는 확률 3요소($\Omega, \mathcal{F}, P$)는 무작위로 발생하는 상태로 구성된 실제 프로세스 (또는 “실험”)입니다. 확률공간은 특정 상황이나 실험을 염두에 두고 구성됩니다. 그런 종류의 상황이 발생할 때마다 가능한 결과의 집합이 동일하고 확률도 동일하다는 것을 보여줍니다.

확률공간은 다음 세 부분으로 구성됩니다

  1. 가능한 모든 결과의 집합인 표본공간 : $\Omega$
  2. 0개 이상의 결과가 포함된 시행(event)의 집합 : $\mathcal{F}$
  3. 시행에 확률을 할당하는 함수 또는 시행에서의 확률 : $P$

 

결과는 모델을 한 번 실행한 결과입니다. 개별 결과는 거의 실용적이지 않을 수 있기 때문에 더 복잡한 시행을 하여 결과 집단을 특성화합니다. 그러한 모든 사건의 집합은 $\sigma$ 대수인 $\mathcal F$입니다. 마지막으로 각 시행의 발생 가능성을 지정해야 할 필요가 있습니다. 이것은 확률관측함수, $P$를 사용하여 수행됩니다.

확률공간이 설정되면 “자연”이 이동하고 표본공간($\Omega$)에서 단일결과 ($\omega$)를 선택한다고 가정합니다. 선택된 결과($\omega$)를 포함하는 $\mathcal {F}$의 모든 시행($\Omega$)이 “발생했다”고합니다. 각 시행은 $\Omega$의 하위집합 입니다. 본질적으로 수행되는 선택은 실험이 무한 반복 될 경우, 각 사건의 발생 빈도는 함수에 의해 규정 된 확률과 일치 할 수  있는 방식으로 수행됩니다.

러시아의 수학자 Andrey Kolmogorov는 1930년대 확률공간의 개념을 다른 확률의 공리와 함께 소개했습니다. 오늘날 확률론의 공리화를 위한 대체 접근법이 존재합니다. 무작위 변수의 대수학입니다. 이는 확률 조작에 관한 수학과 관련있습니다.  “확률해석”은 “확률”의 의미와 해석 방법에 대한 몇 가지 대안을 설명합니다. 또한, 개념적으로는 확률과 유사하지만 모든 규칙을 따르지 않는 양에 대한 이론을 수립하려는 시도가 있었습니다. 예를 들어 자유확률, 퍼지이론, 가능성이론, 부정확률 및 양자확률입니다.

Reference

Probability space – Wikipedia

확률밀도함수

확률에서 확률밀도함수(PDF) 또는 연속확률변수의 밀도는 표본공간의 임의의 표본(또는 점)의 확률변수의 값이 같다면 같은 확률을 가진다는 것입니다. 다른 말로 하면, 임의의 연속확률변수에 대한 확률값은 0이지만  두 개의 서로 다른 확률변수 값에서 PDF의 값을 사용하여 유추할 수는 있습니다. PDF는 임의의 확률변수에서의 확률값을 취하는 것보다는 특정 확률변수 범위 내에서 임의의 확률변수가 있을 확률을 나타내는데 사용됩니다. 확률은 확률변수의 범위에 대한  PDF의 적분값으로 주어집니다. 확률밀도함수는 모든 곳에서 음수가 아니며 전체 확률변수범위에 대한 적분은 1이 됩니다.

“확률분포함수”와 “확률함수”라는 용어는 때로는 확률밀도함수를 의미하기도 하지만 이 용어는 표준이 아닙니다. 한편, 확률질량함수(PMF)는 이산확률변수 (불연속 확률변수)에서 사용되는 반면확률밀도함수(PDF)는 연속확률변수에서 사용됩니다.

Reference

Probability density function – Wikipedia

대칭 확률분포

통계에서 대칭확률분포는 확률변수에 가능한 확률을 할당하는 확률분포의 일종입니다. 확률밀도함수 또는 확률질량함수의 분포가 임의의 변수값에서 표시되는 수직선에 대칭으로 나타나는 분포입니다. 이 수직선은 분포의 대칭선입니다. 따라서 대칭이 발생하는 값의 한쪽에 주어진 거리가 될 확률은 그 값의 다른 쪽에서 같은 거리가 될 확률과 같습니다.

Reference

Symmetric probability distribution – Wikipedia

계산통계(statistical computing)

계산통계, 혹은 전산통계는 컴퓨터공학(computer science)과 통계학(statistics)의 연계입니다. 계산통계는 통계학의 수학과 밀접한 전산과학(computational science) 영역입니다. 이 분야는 급격하게 발전하고 있어 통계교육(statistical education)의 일부분보다는 광범위한 컴퓨팅개념을  요구합니다. 전통적인 통계(traditional statistics)와 같이 데이터를 지식으로 변환하는 것이 목표이지만, 표본이 매우 크거나 정리되지 않은 데이터 집합일 경우에 유용한 컴퓨터를 이용한 집약적인 통계방식입니다. 계산통계(computational statistics and statistical computing)는 컴퓨터 시대 이전에는 불가능했고 분석적으로 다루기 어려운 문제를 대처하기 위해 컴퓨터의 알고리즘 개발을 목표로 합니다.

계산통계는 리샘플링(resampling) 방법, 마르코프 체인 몬테카를로(Markov chain Monte Carlo) 방법, 국부회귀( local regression), 커널밀도추정(kernel density estimation), 인공신경망(artificial neural networks) 및 일반화된 부가 모델(generalized additive models)을 포함한 계산집약적 통계 방법을 지칭하기 위해 사용되기도 합니다.

Reference

Computational statistics – Wikipedia

설명통계(descriptive statistics)

설명통계(descriptive statistic)는 정보 수집의 특징을 정량적으로 설명하거나 요약하는 요약통계(summary statistic)입니다. 광의의 설명통계는 통계를 사용하고 분석하는 과정을 말합니다. 설명통계는 데이터 표본의 모집단을 알아보는 것이 아닌 표본의 요약을 목표로 합니다.

설명통계는 추론통계(inferential statistics)와는 달리 확률이론을 바탕으로 하지 않으며 비모수통계(nonparametric statistics)라는 점에서 구분됩니다. 데이터 분석에서 추론통계를 사용할 때에도 설명통계가 제시됩니다. 예를 들어, 피험자에 관한 보고서에서 일반적으로 전체 표본크기, 중요한 하위 집단의 표본 크기, 평균 연령, 비율 성별 과목, 관련 합병증이 있는 피험자의 비율 등을 구할 때 사용됩니다.

데이터 집합을 설명하는데 일반적으로 사용되는 측정은 중심경향측정(central tendency) 또는 변동, 분산(dispersion)측정입니다. 중심경향측정은 평균(mean), 중앙값(median) 및 최빈값(mode)을 포함합니다. 분산측정은 표준편차(standard deviation), 분산(variance), 확률변수의 최소, 최대값, 첨도(kurtosis) 및 왜도(skewness)를 포함합니다.

Reference

Descriptive statistics – Wikipedia

수리통계(mathematical statistics)

수리통계는 데이터를 수집하는 방법이 아닌 확률이론(수학의 한 부분)을 통계에 적용하는 것입니다. 이를 위해 사용되는 수학적 기법에는 수학적 분석(mathematical analysis), 선형대수학(linear algebra), 확률론적 분석(stochastic analysis), 미분방정식(differential equations) 및 측정이론(measure theory)이 있습니다.

Reference

Mathematical statistics – Wikipedia

비모수통계(nonparametric statistics)

비모수통계 (nonparametric statistics)는 매개변수가 있는 확률분포를 다루지 않는 통계분야입니다 (매개변수로는 대표적으로 평균과 분산이 있습니다.)  비모수통계는 분포를 이루지 않거나 정해진  분포가 있더라도 매개변수가 지정되지 않은 경우에 적용됩니다.  비모수통계는 설명통계와 통계적 추정을 포함합니다.

Reference

Nonparametric statistics – Wikipedia

통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

Reference

Statistical parameter – Wikipedia

통계적 매개변수(statistical parameter or population parameter)

통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.

색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어,  chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.

Reference

Statistical parameter – Wikipedia

통계(statistics)

통계학(Statistics)은 데이터(data)의 수집, 조합, 분석, 해석 및 표현을 다루는 수학(mathematics)의 한 분야입니다. 과학적, 산업적, 또는 사회적 문제에 통계를 적용하는 데에는 통계적 모집단(statistical population) 또는 통계모형(statistical model)을 연구하는 것이 일반적입니다. 집단은 “국가의 모든 사람들” 또는 “분자를 구성하는 모든 원자”와 같이 다양한 집단의 사람 또는 물체일 수 있습니다. 통계는 조사( surveys) 및 실험(experiments)의 설계와 관련해서 데이터 수집 계획을 포함한 데이터의 모든 측면을 다룹니다.

조사(census) 데이터를 모두 수집할 수 없는 경우에 통계전문가(statisticians)는 특정 실험 설계 및 조사 표본을 개발해서 데이터를 수집하게 됩니다. 대표표본추출은 추론과 결론이 표본에서 전체 모집단으로 합리적으로 확대 적용될 수 있도록 보장합니다. 실험적 연구(experimental study)는 연구를 위한 시스템을 측정하고 시스템을 조종한 다음 동일한 절차를 통해 추가적으로 측정을 수행하여 조종으로 측정값이 수정되었는지 여부를 결정합니다. 대조적으로, 관측연구(observational study)는 실험적 조종을 수반하지 않습니다.

데이터 분석에는 평균 또는 표준편차와 같은 색인(indexes)을 사용해 표본의 데이터를 요약하는 설명통계(descriptive statistics)와 임의의 변동이 있는 데이터로부터 결론을 도출하는 추론통계(inferential statistics) (예를 들어 관측 오류, 표본 추출 변화), 이 두 가지 통계 방법이 주로 사용됩니다. 설명통계는 주로 표본분포 또는 모집단 분포의 두가지 속성과 관련이 있습니다. 중심경향(central tendency )는 분포의 중심 또는 대표값으로 나타나고 통계적 분산dispersion ( 분산, variability)은 구성요소의 중심이나 구성요소 서로간의 거리로 나타납니다. 수학 통계에 대한 추론은 확률이론의 틀 아래에서 이루어지며, 확률이론은 무작위 현상을 분석하는데 다뤄지고 있습니다.

표준통계 절차는 통계 데이터 세트와 이상화된 모델에서 나온 데이터 세트간의 관련성을 시험하는 것을 포함합니다. 이 두 세트 간의 통계적 관계를 가정하기 위해 가설을 제안하고, 이를 두 데이터 세트 간에 관련성이 없다고 가정하는 귀무가설(또는 영가설)과 비교합니다. 시험에 사용된 귀무가설과 다른 데이터가 충분해질 때 이 귀무가설을 반박하거나 거부할 수 있게 되는 것입니다.

귀무가설로부터 시작하게 되면, 2가지의 기본 유형의 오류가 보이게 되는데, 1종 오류(거짓긍정을 통한 잘못된 귀무가설의 거부)와 2종 오류(귀무가설이 거부되지 않고 집단간의 차이가 확실히 보이지 않아 거짓부정이 일어나는 경우) 이 있습니다 .적당한 표본크기를 정하는 것부터 확실한 귀무가설을 특정하는데까지 다양한 문제들이 이 틀(framework)과 관련되어 있습니다.

통계적 데이터를 생성하는 관측 과정도 오류의 영향을 받을 수 있습니다. 많은 오류들이 무작위(random noise) 아니면 체계적인 편향(systematic bias)이지만, 다른 종류의 오류들(예를 들어 분석가가 잘못된 단위를 보고할 경우)도 일어날 수 있습니다. 사라진 데이터( missing data)나 검열(censoring)은 편향된 추정치(estimates)를 만들 수 있고 이런 문제를 규정하기 위해 특별한 기법이 만들어져 있습니다.

통계는 고대 문명, 적어도 BC 5세기, 부터 시작했다고 할 수 있지만, 18세기가 되어서야 미적분과 확률이론에서 많은 것을 이끌어 내기 시작했습니다. 최근에는 통계는 서술분석(descriptive analysis)과 같은 검증을 수행하기 위해 통계 소프트웨어에 더 의존하고 있습니다.

Reference

Statistics – Wikipedia

체계적 표본추출(systematic sampling)

체계적 표본추출(Systematic sampling)은 정렬된 표본추출 틀에서 요소를 선택하는 것을 포함하는 통계적 방법입니다. 체계적인 표본추출의 가장 일반적인 형태는 등량법(equiprobability)입니다. 이 접근 방식에서는 목록을 통한 진행 과정이 순회로 처리되며 목록 끝 부분이 지나면 최상위로 돌아갑니다. 표본추출은 목록에서 임의로 요소를 선택하여 시작하고 프레임의 모든 $k$ 번째 요소를 선택합니다. 여기서 $k$는 표본 추출 간격(skip이라고도 합니다)입니다.이 값은 다음과 같이 계산됩니다.

$$k=Nnk=\frac {N}{n}$$

여기서,  $n$은 표본크기

$N$은 모집단크기

이 절차를 사용하면 모집단의 각 요소는 알려진 확률과 선택확률을 가집니다. 이것은 체계적인 표본추출을 단순무작위 표본추출(SRS)과 기능적으로 유사하게 만들어 줍니다. 그러나 특정 크기의 모든 가능한 표본이 선택 될 가능성이 같지 않기 때문에 (예 : 서로 인접한 적어도 두 개의 요소가 있는 표본은 체계적인 표본추출에 의해 절대로 선택되지 않을 수 있기 때문에)  단순무작위 표본추출과 동일하지 않습니다. 그러나 체계적인 표본 내의 차이가 집단의 분산 이상이면 훨씬 더 효율적입니다.

체계적인 표본단위가 모집단 전체에 균일하게 분포되어 있기 때문에 체계적 표본추출은 주어진 모집단이 논리적으로 균질한 경우에만 적용됩니다. 연구자는 선택한 표본 추출 간격이 패턴을 숨기지 않도록 고려해야 합니다. 어떤 패턴이든 임의성(randomness)을 위협하기 때문입니다. 예를 들어, 어느 슈퍼마켓에서 고객들의 구매 습관을 보고 싶을 때, 그들은 10번째나 15번째로 입장하는 고객을 보고 이 실험을 진행할 수 있습니다.이것은 시스템을 가지는 무작위 표본 추출입니다. 표본추출 틀에서, 시작점은 무작위로 결정되고, 그  결과들은 규칙적인 간격으로 나오게 됩니다. 예를 들어, 120 가구의 거리에서 8 가구를 표본 추출한다고 가정합니다. 120 / 8 = 15이므로 매 15집 마다 1에서 15 사이의 임의 시작 지점을 선택합니다. 임의 시작 지점이 11이면 선택한 집은 11, 26, 41, 56, 71, 86, 101 및 116이 됩니다. 하지만, 매 15번째 집이 “모퉁이 집”이라면 이 패턴은 표본의 무작위성을 파괴 할 수 있습니다. 더 자주, 모집단이 균등하게 나눠지지 않는 경우 (125 / 8 = 15.625 인 8 개 집 표본 추출을 원한다고 가정)에는 매 15 번째 집 아니면 매 16 번째 집을 취해야 할까요? 매 16번째 집을 선택하면 8 * 16 = 128이므로 선택한 마지막 집은 존재하지 않을 위험이 있습니다. 반면에, 15 번째 집을 가져가면, 8 * 15 = 120이므로 마지막 5 채의 집은 선택되지 않습니다. 무작위 출발점은 모든 집이 똑같이 선택 될 수 있도록 0과 15.625 사이의 비 정수로 선택되어야 합니다(한 끝점에만 포함). 간격은 이제 비 정수 (15.625)가되어야 합니다. 선택된 각 비 정수는 다음 정수로 반올림되어야합니다. 랜덤 시작점이 3.6 인 경우 선택된 집은 4, 20, 35, 50, 66, 82, 98 및 113이며 여기서 3의 주기 간격은 15 및 4 간격으로 16입니다.

패턴을 숨기는 체계적인 건너뜀(Skip)의 위험을 설명하기 위해, 각 거리마다 각 블록에 10 개의 집이 있는 계획된 이웃을 표본 추출한다고 가정합니다. 이곳은 블록 모퉁이에 1 번, 10 번, 11 번, 20 번, 21 번, 30 번 집을 배치합니다. 모서리 블록은 건축 목적으로는 사용할 수 없는 거리 정면 등으로 더 많은 면적을 차지하므로 덜 가치가 있습니다. 매 10 세대마다 표본을 채취하면 표본은 모퉁이 가옥으로 구성되거나 (1 또는 10으로 시작하는 경우) 모퉁이 집이 없습니다 (다른 시작). 어느 쪽이든, 그것은 대표가 될 수 없습니다..

체계적 표본추출은 비 동일 선택 확률과 함께 사용될 수도 있습니다. 이 경우, 단순히 모집단의 요소를 통해 계산하고 모든 $k$ 번째 단위를 선택하는 대신, 각 요소에 선택 확률에 따라 번호 행을 따라 공백을 할당합니다. 그런 다음 0과 1 사이의 균일 한 분포에서 무작위 시작을 생성하고 1의 단계로 번호 행을 따라 이동합니다. 예를 들어 우리는 5 단위 (A ~ E)의 모집단을 가지고 있습니다. 우리는 단위 A에 20 %의 선택 확률을 부여하고단위 B는 40 %의 확률을 단위 E (100 %)까지 부여하고자합니다. 우리가 알파벳 순서를 유지한다고 가정하면, 우리는 다음 단위로 각 단위를 할당합니다.

  • A : 0 에서 0.2
  • B : 0.2 에서 0.6 (= 0.2 + 0.4)
  • C : 0.6 에서 1.2 (= 0.6 + 0.6)
  • D : 1.2 에서 2.0 (= 1.2 + 0.8)
  • E : 2.0 에서 3.0 (= 2.0 + 1.0)

 

랜덤 시작이 0.156 인 경우 먼저 간격에 이 숫자 (예 : A)가 포함 된 단위를 선택합니다. 다음으로 1.156 (요소 C), 2.156 (요소 E)의 간격을 선택합니다. 대신 랜덤 시작이 0.350 인 경우 0.350 (B), 1.350 (D) 및 2.350 (E) 지점을 선택합니다.

Reference

Systematic sampling – Wikipedia

단순무작위표본(simple random sample)

통계에서 단순무작위표본은 더 큰 집합(모집단)에서 선택된 개체(표본)인 모집단의 하위 집합입니다. 각 개체(individuals)는 무작위로, 그리고 완전히 우연히 선택되며 표본추출 과정의 어느 단계에서나 선택될 가능성이 동일합니다. 집단의 각 개체는 다른 집단과 표본으로도 선택될 확률이 동일합니다. 이 과정과 방법은 단순무작위 표본추출로 알려져 있으며, 체계적 무작위 표본 추출 (systematic random sampling)과는 구별되어야 합니다. 단순무작위표본은 편향되지 않은 측정 방법입니다.

단순무작위 표본추출은 다른 표본추출 방식의 구성 요소가 될 수 있기에 기본적인 방식의 표본추출입니다. 단순무작위 표본추출의 원리는 모든 물체가 선택될 확률이 같다는 것입니다. 예를 들어, $N$명의 대학생이 농구경기를 보기 위해 표를 구하려 하지만 $X$($X<N$)장의 표밖에 없어 공정한 방법으로 누가 가야 할지 정해야 하는 상황이 있습니다. 이런 상황에서 모두에게 0에서$(N-1)$의 수를 부여하고 무작위로 숫자를 생성하되  0에서 N-1의 범위 내에 있지 않은 숫자나 이미 나온 수를 제외합니다. 이 때 처음 생성된 $X$개의 수가 티켓을 받는 사람을 정하게 될 것입니다.

작은 집단과 종종 큰 집단에서, 표본추출은 주로 “비복원으로” 진행됩니다. 즉, 표본추출을 진행할 때 의도적으로 개체를 여러 번 뽑는 것을 피하기 위함입니다. 단순무작위 표본추출은 추출된 개체가 다시 모집단에 포함되게 진행될 수도 있지만 그럴 때는 보통 복원하는 단순무작위 표본추출이라 칭합니다. 큰 집단 내에서 작은 개체수를 가지는 표본추출은 비복원과 복원에서 같은 값을 2번 고를 확률이 낮기 때문에 큰 차이가 있지 않습니다.

큰 크기의 표본이 뽑혔을 때, 그 표본의 평균이 정확히 집단을 대표해야 하기 때문에 편향되지 않은 개체의 무작위 선택은 중요합니다. 하지만, 이것은 어느 특정한 표본만이 완벽한 집단의 대표가 된다는 것은 아닙니다. 단순무작위 표본추출은 표본을 기반으로 전체 집단에 대해 유효한 결정을 도출해 내는 과정일 뿐입니다. 개념적으로 단순 무작위 표본 추출은 표본 추출 방식 중에서 제일 간단합니다. 단순 무작위 표본 추출은 완전한 표본 추출 틀을 필요로 하는데, 대규모 집단에서는 불가능하거나 실현하기 힘들 수 도 있습니다. 완전한 틀이 가능하다 하더라도, 집단에 관한 더 의미 있는 정보가 존재한다면 더 효율적인 접근이 가능합니다. 장점으로는 분류 오류가 없으며 틀을 제외한 사전 지식이 별로 필요하지 않다는 점이 있습니다. 이 단순함은 또한 이렇게 수집한 데이터를 해석하기도 매우 쉽도록 만들어 줍니다. 이런 점 때문에 단순 무작위 표본 추출은 모집단에 대한 정보가 많지 않은 경우데 적합합니다. 무작위로 분산되는 항목으로 데이터를 모으기가 적합할 때나, 표본추출의 비용이 단순성보다 중요하지 않을 정도로 낮을 때에 단순무작위 표본추출이 적합합니다. 이런 경우가 아니라면 계층화된 표본추출(stratified sampling)이나 클러스터 표본추출(cluster sampling)이 더 적합할 것입니다.

Reference

Simple random sample – Wikipedia

통계모델(statistical model)

통계모델은 표본데이터(모집단의 데이터와 유사)의 생성에 관한 일련의 통계적 가정(statistical assumptions)을 구체화하는 수학적 모델(mathematical model)입니다. 통계모델은 종종 이상적인 형태로 데이터 생성 프로세스(the data-generating process)를 나타냅니다. 통계모델은 대개 하나 이상의 확률변수와 다른 비확률변수 사이의 수학적 관계로 특정됩니다. 따라서, 통계모형은 “이론의 형식적 표현”이라 할 수 있습니다. 모든 통계적 가설검정과 모든 통계적 추정치는 통계모델을 통해 도출됩니다. 보다 일반적으로, 통계모형은 통계적 추론(statistical inference)의 기초가 됩니다.

Reference

Statistical model – Wikipedia


표본추출(sampling)

통계, 품질보증 및 조사방법론에서 표본추출은 모집단(통계의 대상이 되는 집단)의 특성을 추정하기 위해 모집단 내에서 하위집합(통계표본)을 선택하는 것입니다. 통계학자들은 표본을 통해 모집단을 표현하기 위해 연구합니다. 표본추출의 2가지 장점은 전수조사에 비해 비용이 저렴하고 데이터수집이 빠르다는 것입니다.

각 관측값(관측치)은 관측이 가능한 독립개체 또는 개인이나 구분될 수 있는 대상의 하나 이상의 속성(예를 들어 무게, 위치, 색)을 관측(관찰, 측정)한 것입니다.

측량 표본추출(survey sampling), 특히 층화 표본추출(stratified sampling)에서 설계된 표본을 조정하기 위해 가중치를 적용할 수 있습니다. 확률이론과 통계의 결과는 실험을 조정하는데 사용됩니다. 비즈니스 및 의학연구에서 표본추출은 집단에 대한 정보를 모으는데 널리 쓰입니다. 채택 표본추출(acceptance sampling)은 생산제품이 관리사양을 충족시키는지를 결정하는데 사용됩니다.

Reference

Sampling (statistics) – Wikipedia

표준오차

통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.

집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.

회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.

Reference

Standard error – Wikipedia

표집분포(표본분포, sampling distribution or finite-sample distribution)

통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면,  표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.

표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

Reference

Sampling distribution – Wikipedia

신뢰구간(confidence interval)

통계에서 신뢰구간(Confidence interval)은 추정의 한 유형입니다. 미지의 집단의 매개변수(모수, parameter)의 추정값(추정치, estimate)을 나타낼 떄 사용합니다. 신뢰구간은 당연히 실제값을 포함할 수 있습니다.

특정 구간의 신뢰도를 수량화한 신뢰수준이 있습니다. 신뢰수준은 미지의 집단의 매개변수가 포함되는 신뢰구간의 비율을 나타냅니다. 다시 말해, 신뢰구간이 무한대의 독립된 표본(무한대의 표집)으로 만들어진다면 매개변수의 실제값을 포함하는 신뢰구간의 비율은 신뢰수준과 같습니다. 신뢰구간은 미지의 모집단의 매개변수의 실제값의 잠재적인 구간입니다. 하지만, 특정 표본에서 계산된 구간은 매개 변수의 실제값을 항상 포함하고 있지는 않습니다. 관측된 데이터가 실제 모집단의 무작위 표본에서 나왔다는 가정하에 데이터에서 얻은 신뢰구간 또한 무작위입니다.

신뢰수준은 데이터를 보기 전에 미리 지정됩니다. 일반적으로는 95%의 신뢰 수준이 사용되지만, 90%나 99%같은 신뢰 수준도 사용되기도 합니다. 신뢰구간의 크기에 영향을 주는 요인은 표본크기, 신뢰수준, 표본의 변동성 등이 있습니다. 더 큰 크기의 표본은 다른 요인은 변하지 않을 때 더 나은 추정치를 생성합니다. 더 높은 신뢰수준은 더 넓은 신뢰구간을 생성합니다.

Reference

Confidence interval – Wikipedia

$p$값($p$-value, probability value)

통계의 가설검정에서 $p$값(확률값)은 주어진 통계모델에 대하여 귀무가설이 참일 때 비교된 두 집단 간의 표본평균 차이의 절대값이 실제 관측값보다 크거나 같을 확률입니다. $p$값은 물리학, 경제학, 금융학, 인문학, 심리학, 생물학, 법학 및 사회과학과 같은 많은 분야의 연구에서 일반적으로 사용됩니다.

Reference

p-value – Wikipedia

여론조사(opinion poll)

일반적으로 조사(poll) 또는 설문조사(survey)라고 하는 여론조사(opinion poll)는 특정 인간 표본의 여론에 대한 연구 조사입니다. 여론조사는 일반적으로 일련의 질문을 실시한 다음 일정 비율 내 또는 신뢰구간(confidence intervals) 사이에서 일반성을 추론함으로써 모집단의 의견을 발표하기 위해 고안되었습니다.

Reference

Opinion poll – Wikipedia

유의수준(significant level)

유의수준(significance level)은 통계적 가설검정에서 사용되는 기준값입니다. 일반적으로 유의 수준은 $\alpha$로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값이 됩니다. 가설검정의 절차에서 유의수준 값과 유의확률 값을 비교하여 통계적 유의성을 검정하게 됩니다.

Reference

significance level – Wikipedia

통계적 추정(statistical inference)

통계적 추정은 데이터분석을 통해 기본 확률분포의 속성을 추론하는 과정입니다.예를 들자면 추론적인 통계분석은 가설을 검정하고 추정치를 도출하여 집단의 특성을 추론하도록 합니다. 관측되는 데이터 집합은 더 큰 모집단으로부터 표본추출된 것으로 가정합니다.

추측통계(추론통계)는 설명통계(기술통계)와 대조됩니다. 설명통계는 전적으로 관측된 데이터의 속성과 관련되어 있으며 데이터가 더 많은 모집단에서 나왔다는 가정에는 근거하지 않습니다.

Reference

Statistical inference – Wikipedia

통계적 유의성(statistical significance)

통계적 가설검정(statistical hypothesis testing)에서 귀무가설(null hypothesis)을 고려할 때 가설이 매우 드물지만 발생하게 되면 결과는 통계적 유의성(statistical significance)를 가지게 됩니다. 더 정확히 말하자면 연구과정에서 지정한 $\alpha$로 표시되는 유의수준(significance level)은 귀무가설이 사실이라면 귀무가설을 기각할 수 있을 확률이며, 결과의 $p$값은 귀무가설이 사실일때 최소 극단적인 결과를 얻을 확률입니다. $p < \alpha$일 때 이 연구의 기준인 $\alpha$에 따라 결과가 유의미하다 할 수 있습니다. 연구의 유의 수준은 데이터 선택 전에 정해지고, 보통 연구 분야에 따라 5% 이하로도 설정합니다.

모집단에서 표본추출과 관련된 모든 실험 또는 관찰에서 표본추출 오류(sampling error)로 인해 관측된 결과가 있을 수도 있습니다. 하지만 여기서 관측된 결과의 $p$값이 유의수준보다 작으면 조사자는 그 결과가 모든 집단의 특성을 대표한다 할 수 있고, 그에 따라 귀무가설을 기각할 수 있습니다.

통계적 중요성을 검정하는 이 기법은 20세기 초에 개발되었습니다. 여기서 유의성(significance)이라는 용어는 중요성을 의미하지 않고, 통계적 유의성(statistical significance)이라는 용어는 이론적, 실제적 중요성과 같지 않습니다. 반면, Clinical significance이라는 용어는 임상(치료효과) 실질적 중요성을 나타냅니다.

Reference

Statistical significance – Wikipedia

 

Z검정(Z-test)

Z검정(Z-test)은 귀무가설(null hypothesis)하에서 검정통계량(test statistic)의 분포를 정규분포로 근사할 수 있는 통계검정입니다. 중심극한정리 (central limit theorem)로 인해 많은 검정 통계는 대개 큰 샘플에 대해 대략적으로 정규분포를 보입니다. 각 유의수준에 대해 Z검정에는 단일 임계값(a single critical value) (예 : 양측 5 %의 경우 1.96)이 있으므로 각 표본크기에 대해 별도의 임계값을 갖는  t검정(Student’s t-test)보다 편리합니다. 따라서 표본크기가 크거나 모집단 분산이 알려지면 많은 통계 검정을 근사 Z검정으로 편리하게 수행할 수 있습니다. 하지만, 모집단 분산이 알려지지 않았기 때문에 (따라서 표본 자체에서 추정해야 함) 표본크기가 크지 않으면 (n <30),  t검정이 더 적절할 수 있습니다.

T가 귀무가설 하에서 대략 정상적으로 분포된 통계치인 경우, Z검정을 수행하는 다음 단계는 귀무가설 하에서 T의 기대값(expected value)인 $\Theta$를 추정 한 다음 $T$의 표준편차(standard deviation)의 추정치(estimate)인 $S$를 얻는 것입니다. 그 후 표준편차(the standard score) $Z = T – \dfrac{\Theta}{S}$를 계산하여 단측 및 양측 $P$값(one-tailed and two-tailed p-values)을 Φ (-Z) (상측 검정의 경우), Φ (Z )(하측 검정)와 2Φ (- | Z |) (양측 검정)의 경우로 계산할 수 있습니다. 여기서 Φ는 표준정규누적분포함수(cumulative distribution function)입니다.

Reference

Z-test – Wikipedia

검정통계량(test statistic)

검정통계량(test statistic)은 가설검정에 사용되는 통계량(statistic)입니다. 검정통계량은 가설검증을 할 때 필요한 하나의 데이터값이며 이는 데이터세트를 요약하여 만듭니다. 따라서 가설검정은 전형적으로 검정통계량이란 용어로 규정됩니다.  일반적으로, 검정통계량은 대립가설(alternative hypothesis)이 제시되었다면 대립가설에서 null을 분리하고 분리한 식에서 통계량을 정량화하는 방식으로 정해집니다,  그리고 제시된 대립가설이 없고 귀무가설이 있는 경우는 검정통계량이 귀무가설의 특성을 나타내게 됩니다.

검정통계량의 중요한 특성은 귀무가설 하의 표본분포가 계산 가능해야만 $p$값(p-values)을 계산할 수 있다는 것입니다. 검정통계량은 설명통계(descriptive statistic)와 동일한 역할을 합니다. 많은 통계량들이 검정통계나 설명통계에 사용됩니다. 그러나 검정통계량은 통계적 검정에 사용하기 위해 특별히 고안되었지만 설명통계는 쉽게 해석할 수 있다는 장점이 있습니다. 표본범위와 같은 설명통계는 표본분포를 결정하기 어렵기 때문에 좋은 검정통계량을 만들지 않습니다. 널리 사용되는 두가지 검정통계량은 t통계량(t-statistic)과 F검정(F-test)입니다.

Reference

Test statistic – Wikipedia

가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다.  “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다. 

Reference

Hypothesis – Wikipedia

귀무가설(null hypothesis)

통계적 검정에서 귀무가설은 두 가지  현상을 측정한 결과의 차이  또는 두 집단의 연관성이 없는 것을 새로운 것이 없는 기본상태라고 설명합니다. 귀무가설을 검정(수용, 승인, 거절 또는 반증)하여 두 현상 사이의 관계가 있다고 믿을만한 근거로 결론을 내리는 것(예 : 내재된 치료의 효과가 측정되는 경우)은 현대 과학에서의 중요한 방법론입니다.특히 통계에서는 귀무가설을 기각할 경우 정확한 기준을 제시하게 됩니다. 귀무가설은 일반적으로 기각 증거가 나타낼 때까지는 사실인 것으로 가정합니다.

귀무가설은 종종 “H-naught”, “H-null”또는 “H-zero”(심지어 “H-oh”)로 발음되는 H0으로 표시됩니다. 여기서 아래 첨자는 숫자 0입니다. 그래서 영가설이라고도 합니다.

로널드 피셔 (Ronald Fisher)의 유의미 검정(the significance testing)에서 관측값이 유의미하면 귀무가설은 기각되고 대립가설(alternative hypothesis)이 채택됩니다. 데이터가 귀무가설과 일치하면 귀무가설은 기각되지 않습니다. 어느 경우에도 귀무가설 또는 대립가설이 입증되지 않았다면, 귀무가설을 데이터로 검정하고 그 결과에 따라 결정합니다. 이는 피고가 정당한 의심 이상의 (통계적으로 중요한 정도로) 유죄가 입증될 때까지 (무효가 아닌) 무죄로 추정되는 무죄 추정의 원칙과 유사합니다.

Jerzy Neyman과 Egon Pearson의 가설검정에서는 귀무가설을 대립가설과 대조하고 두 가설을 특정 오류율과 함께 데이터를 기반으로 구별합니다. 이들은 연구의 결론을 공식화하는데 사용됩니다.

통계적 검정은 모형선택(model selection) 기술을 사용하여 각 가설에 대응하는 가장 적절한 통계모형을 선택함으로써 귀무가설 없이도 수행 될 수 있습니다. 가장 일반적인 선택기법은 Akaike information criterion 또는 Bayes factor를 기반으로 합니다.

Reference

Null hypothesis – Wikipedia

통계적 가설(statistical hypothesis)

통계적 가설(statistical hypothesis)은 확률변수(random variables)를 통해 모형화된 통계모델의 검정을 가능하게 하는 가설입니다. 가설검정은 통계적 검정의 한 방법입니다. 일반적으로 통계에서 얻은 두개의 데이터집합(data set)을 비교하거나 표본추출로 얻은 데이터집합과 통계모델에서 생성된 이상화된 데이터 집합과 비교합니다.

두 데이터집합 사이의 관계에 대한 가설을 제안하고 이 가설을 두 데이더집합과 관계없는 이상화된 귀무가설에 대한 대립가설과 비교합니다. 데이터집합간의 관계가 판단확률(threshold probability) – 유의수준(significance level)에 따라 귀무가설이 기각되면 데이터집합간의 차이가 통계적으로 유의미(statistically significant)하다고 간주됩니다. 가설검정은 연구의 결과를 미리 지정된 유의수준에 따라 귀무가설을 기각하도록 결정할 때 사용됩니다.

통계적 가설(statistical hypothesis)은 확증적 데이터분석(confirmatory data analysis)이라고도 합니다.

귀무가설과 대립가설(alternative hypothesis)을 구별은 두가지 유형의 오류를 살펴보면 알 수 있습니다. 귀무가설이 잘못 기각되면 첫번째 유형의 오류가 발생하게 됩니다. 두번째 유형의 오류는 귀무가설이 잘못 기각되지 않을 때에 오류가 발생하게 됩니다. (1종, 2종 오류)

통계적 유의에 기초한 가설 검정은 신뢰구간(confidence intervals)(정확히 말하면 신뢰집합(confidence sets))을 표현하는 또 다른 방법입니다. 다시 말해, 유의성에 기반한 모든 가설검정은 신뢰구간을 통해서 행할 수 있고, 모든 신뢰구간은 유의성에 기반한 가설검정을 통해 얻을 수 있습니다. 유의성기반 가설검정은 통계적 가설검정에서 가장 보편적으로 쓰이는 방법입니다. 통계적 가설검정을 위한 또 다른 방법은 각 후보 가설에 대해 하나씩 통계모델을 제시한 다음, 모형 선택 기법을 사용하여 가장 적절한 모델을 선택하는 방법이 있습니다. 가장 일반적인 선택 기법은Akaike information criterion 또는 Bayes factor를 기반으로 합니다.

Reference

Statistical hypothesis testing – Wikipedia

실험설계(design of experiments)

실험설계(design of experiments, DOE, DOX, experimental design)는 변수(variation)에 연동하는 출력정보의 변화를 설명하기 위한 모든 작업의 ​​설계입니다. 실험설계는 일반적으로 출력변화에 직접적으로 영향을 미치는 조건을  결정하는 실험(experiments)의 설계가 주가 됩니다. 한편, 비슷한 입력과 출력 조건을 가지는 자연의 관찰을 위한 준실험(quasi-experiments)의 설계할 수도 있습니다.

가장 단순한 형태의 실험은 하나 이상의 독립변수로 표현되는 초기 조건을 도입하여 결과를 예측하는 것입니다.이 변수는 “입력변수(input variables)”또는 “예측변수(predictor variables)”라고도 합니다. 하나 이상의 독립변수(independent variables)의 변화는 일반적으로 “출력변수(output variables)”또는 “응답변수(response variables)”로 표현되기도 하는 하나 이상의 종속변수(dependent variables)가 변화되도록 설계됩니다. 실험설계에서는 외부 요인이 결과에 영향을 미치지 않도록 일정하게 유지되어야 하는 제어변수(control variables)를 알아내고자 설계할 수도 있습니다. 실험설계는 적절한 독립변수, 종속변수 및 제어변수의 선택 뿐만 아니라 사용 가능한 자원이 제약되는 조건 하에서 통계적으로 최적으로 실험이 진행되도록 실험을 계획합니다. 실험에 사용될 독립변수 설정의 고유한 조합(Design point set)을 결정하는 여러 가지 방법이 있습니다.

실험설계의 주요 관심사는 유효성, 신뢰성 및 재현성(validity, reliability, and replicability)의 확립입니다. 예를 들어, 독립변수를 신중하게 선택하고 측정오류를 줄이며 방법론을 문서화해서 이러한 목적에 도달할 수 있습니다. 관련된 고려사항으로는 적절한 수준의 통계력(statistical power) 과 민감도(sensitivity)의 확보가 있습니다. 정확하게 설계된 실험은 자연과학, 인문사회과학, 공학분야의 지식을 발전시킵니다. 다른 적용예는 마케팅 및 정책수립이 있습니다. 실험설계에 관한 연구는 metascience에서 중요한 주제입니다.

Reference

Design of experiments – Wikipedia

조사방법론(survey methodology)

인문사회학 연구의 사전 조사에 통계를 적용하는 조사방법론(survey methodology)에 대한 연구는 모집단으로부터의 표본추출 및 설문조사 데이터 수집 기술 연구입니다. 데이터 수집기술에는 설문지작성(questionnaire construction)과 설문조사 응답 수 및 정확성 개선 방법등이 있습니다. 설문조사에는 응답할 수도 응답하지 않을 수도 있는 하나 이상의 질문의 방식이나 절차를 포함시킵니다.

연구자는 조사 대상 모집단에 대한 통계적 추론(statistical inferences)을 하기 위해 통계조사(statistical surveys)를 실시하며 이러한 추론은 사용된 설문 조사 질문에 크게 의존합니다. 여론조사(public opinion), 공중보건조사, 시장조사(market-research), 정책조사 및 인구조사(censuses)는 모두 조사방법을 사용하여 모집단에 관한 질문에 답하는 양적연구(quantitative research)의 예입니다. 인구조사에는 “표본”이 포함되어 있지 않지만 설문, 면접 및 응답이 없을 때의 후속기법과 같은 조사방법론의 다른 측면이 포함됩니다. 설문조사는 모든 종류의 공공정보(public-information) 및 조사(예 : 마케팅조사, 심리학, 건강관리 및 사회학)에 중요한 정보를 제공합니다.

Reference

Survey methodology – Wikipedia

분산분석(analysis of variance : ANOVA)

분산분석(Analysis of variance : ANOVA)은 표본내의 집단 평균 간의 차이를 분석하는 데 사용되는 통계모델 및 관련 추정 절차 (예 : 집단 간 및 집단 내 “변동”)의 모음입니다. 분산분석은 통계학자이자 진화생물학자 Ronald Fisher가 개발했습니다. ANOVA는 특정 변수의 관찰된 분산이 다양한 변동 요인에 기인하는 구성 요소의 분산으로 분할되는 전체 분산의 법칙(the law of total variance)에 기반합니다. 가장 단순한 형태로 ANOVA는 두 개 이상의 모집단 평균이 같은지에 대한 통계적 검정(statistical test)을 제공하므로 두 평균을 검정하는 $t$검정을 일반화한 것으로 볼 수 있습니다.

Reference

Analysis of variance – Wikipedia

상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

Reference

Correlation and dependence – Wikipedia

상관계수(correlation coefficient)

상관계수는 두 변수 간의 관계를 나타내는 수치입니다. 여기서 두 변수는 표본 데이터세트의 2개 열의 확률변수, 아니면 분포를 알고 있는 2개의 확률변수입니다.

상관계수는 -1에서 1 사이의 값들을 가지는데, 여기서 ± 1은 가장 강한 상관이 있음을 나타내고 0은 상관관계가 없음을 의미합니다. 분석의 수단으로서, 상관계수는 특이성에 의해 왜곡되는 유형의 경향 및 두 변수간 인과 관계를 잘못 추론할 가능성이 있습니다.

Reference

Correlation coefficient – Wikipedia

 

공분산(covariance)

확률이론 및 통계에서 공분산(covariance)은 두 확률변수의 연결된 가변성(the joint variability)을 측정한 것입니다. 한 변수의 큰 값이 다른 변수의 큰 값과 주로 일치하고 작은 값에서도 동일한 경향이 유지되는 경우 (즉, 두 변수가 유사한 행동을 보이는 경향이 있는 경우), 공분산은 양수입니다. 반대의 경우에, 하나의 변수의 큰 값이 다른 변수의 더 작은 값에 주로 대응할 때 (즉, 변수가 반대의 행동을 나타내는 경향이있는 경우), 공분산은 음의 값을 가집니다. 따라서 공분산의 부호는 변수간의 선형 관계의 경향을 보여줍니다.

공분산의 크기는 정규화되지 않았기 때문에 해석하기가 쉽지 않으므로 변수의 크기에 따라 달라집니다. 그러나 공분산을 정규화한 상관계수는 크기에 따라 선형 상관관계의 강도를 보여줍니다. 아래의 둘은 반드시 구분되어야 합니다.

  1. 두 확률변수의 모공분산(the covariance of two random variables). 여기서 모공분산은 모집단 매개변수(population parameter)이고 모집단 매개변수는 연관 확률분포(joint probability distribution)의 특성으로 볼 수 있습니다.
  2. 표본공분산(the sample covariance). 여기서 표본공분산은 표본을 표현할 뿐만 아니라 모집단 매개변수의 추정값으로 제공됩니다.

Reference

Covariance – Wikipedia

다중확률변수(multivariate random variable or random vector)

확률이론 및 통계에서 다중확률변수(multivariate random variable) 또는 확률벡터(random vector)는 값이 아직 발생하지 않았거나 해당 값에 대한 지식이 불완전하기 때문에 값이 알려지지 않은 변수 목록입니다. 무작위 벡터의 개별 변수는 모두 단일 수학 시스템의 일부이기 때문에 함께 그룹화됩니다. 이는 종종 개별 통계 단위의 여러 속성을 나타냅니다. 예를 들어, 특정 사람이 특정 나이, 신장 및 체중을 지니고 있는 반면, 그룹 내에서 불특정 한 사람의 이러한 특징을 나타내는 것은 무작위 벡터입니다. 일반적으로 임의의 벡터의 각 요소는 실수입니다.

확률벡터는 다양한 유형의 임의 변수의 기본적인 표현으로 자주 사용됩니다. 예를 들면 임의 행렬, 임의 트리, 임의 순서, 확률 과정 ​​등이 있습니다. 좀 더 공식적으로, 다중확률변수는 열벡터(column vector) $\mathbf {X} =(X_{1},…,X_{n})^T$ (또는 행 벡터인 이산행렬)에서 요소가 스칼라값을 지니는 같은 확률공간$(\Omega ,{\mathcal F}, P)$을 지니는 무작위 수이고  $\Omega$는 표본공간(sample space)이며 ${\mathcal {F}}$는 모든 사건의 집합(sigma-algebra)이고, $P$는 각 사건의 확률을 나타내는 함수 또는 확률척도(probability measure)입니다.

Reference

Multivariate random variable – Wikipedia

다변수분석(multivariate analysis)

다변수분석(MVA)은 한 번에 하나 이상의 통계 결과 변수를 관측하고 분석하는 다변수통계(multivariate statistics)의 통계 원리를 기반으로 합니다. 설계 및 분석에서 이 기법은 관심있는 응답에 대한 모든 변수의 영향을 고려하는 다 차원 구조의 무역에 대한 연구를 수행하는 데 사용됩니다. 다변수분석의 용도는 다음과 같습니다.

  • 기능 설계 (=기능 기반 설계)
  • 어떤 변수가 독립 변수로 취급될 수 있는 역설계
  • 대안분석(Analysis of Alternatives) (AoA), 고객 요구 충족을 위한 개념 선택
  • 변화하는 시나리오와 관련된 개념 분석
  • 중요한 design-drivers 및 계층적 상관관계 식별

 

다변수분석은 계층적 복합시스템에 대한 변수의 영향을 계산하기 위해 물리 기반 분석을 포함하려는 시도로 복잡해질 수 있습니다. 가끔 다변수분석을 사용하려는 연구는 대상 문제의 다차원성에 의해 지연됩니다. 이러한 우려는 물리 모델 기반 코드의 매우 정확한 근사모델 인 대리모델(surrogate models)의 사용을 통해 종종 완화됩니다. surrogate models은 방정식의 형태를 취하므로 매우 신속하게 수행할 수 있습니다. 이는 대규모 MVA 연구의 원동력이 됩니다. 물리 기반 코드로는 설계공간에서의 몬테카를로 시뮬레이션(Monte Carlo simulation)이 어렵지만 대개 반응표면(response-surface) 방정식의 형태를 띠는 대리모델을 수행할 때에는 쉬워집니다.

Reference

Multivariate analysis – Wikipedia

다중선형회귀(multiple linear regression)

단순선형회귀는 스칼라인 요인변수(독립변수) $X$와 역시 스칼라인 하나의 반응변수(종속변수), $Y$의 가장 간단한 상관과 회귀를 나타냅니다. 다중(벡터) 형태의 독립변수($\bf{X}$로 표시)로의 확장은 다중선형회귀(multiple linear regression), 또는 다중변수선형회귀(multivariable linear regression)라고 부릅니다.

대부분의 실제 회귀모델에는 여러 요인변수(예측변수, predictor variables)가 포함되며 선형회귀에 대한 기본 설명이 다중선형회귀모델로 표현됩니다. 하지만 이 경우에도 반응변수(응답변수, response variable)인 $Y$는 여전히 벡터량이 아닌 스칼라량입니다.

Reference

Multiple linear regression – Wikiversity

문항반응이론 (Item response theory, IRT)

심리측정학에서 문항반응이론(IRT)은 능력, 태도 또는 기타 변수를 측정하는 테스트, 설문지 및 유사한 도구의 설계, 분석 및 채점을 위한 패러다임입니다. 이는 시험 항목에 대한 개인의 성과와 해당 항목이 측정하도록 설계된 능력의 전반적인 측정에 대한 응시자의 성과 수준 간의 관계를 기반으로 하는 테스트 이론입니다. 문항과 응시자의 특성을 모두 나타내기 위해 여러 가지 통계 모델이 사용됩니다. 척도를 만들고 설문지 응답을 평가하는 단순한 다른 방법과 달리 각 문항의 난이도가 똑같다고 가정하지 않습니다. 이는 “모든 문항이 서로 복제된 것으로 가정하거나, 다시 말해 문항을 평행 도구로 간주하는” 리커트 척도와는 다른 점입니다. 반면, 문항 반응 이론은 각 문항의 난이도(문항특성곡선 또는 ICC)를 척도 문항에 통합할 정보로 취급합니다.

Reference

Item response theory – Wikipedia

최대가능도추정법 (Maximum likelihood estimation)

통계학에서 최대가능도추정(MLE)은 관측된 데이터가 주어졌을 때 가정된 확률 분포의 매개변수를 추정하는 방법입니다. 이는 가정된 통계 모델에서 관측된 데이터가 가장 가능성이 높도록 하는 가능도함수를 최대화함으로써 이루어집니다. 매개변수 공간에서 가능도를 최대화하는 지점을 최대 가능도 추정값라고 합니다. 최대 가능도 논리는 직관적이고 유연하기 때문에 이 방법은 통계적 추론의 주요 수단이 되었습니다.

가능도함수가 미분 가능한 경우 최대값을 찾기 위한 도함수 테스트를 적용할 수 있습니다. 예를 들어, 선형 회귀 모형의 일반 최소 제곱 추정기는 관측된 모든 결과가 동일한 분산을 갖는 정규 분포를 갖는다고 가정할 때 가능성을 최대화합니다. 어떤 경우에는 확률 함수의 1차 조건을 분석적으로 해결할 수 있습니다.

베이지안 추론의 관점에서 볼 때, MLE는 일반적으로 균일한 사전 분포(또는 표준 편차가 무한대인 정규 사전 분포)를 사용한 최대사후추정(MAP)과 동일합니다.

빈도주의 추론에서 MLE는 극한 추정기의 특수한 경우로, 목적 함수가 확률입니다.

Reference

Maximum likelihood estimation – Wikipedia

시계열(time series)

시계열은 시간순으로 색인화된 일련의 데이터 요소(data points)들 입니다. 즉, 데이터 표의 요소명이 시간이거나 데이터 그래프에서 가로축이 시간인 경우입니다. 시계열은 시간의 동일한 간격의 지점에서 얻어지는 연속된 순서(sequence)입니다. 따라서 이산 시간 데이터의 연속된 순서라고 할 수 있습니다. 시계열의 예로는 조석의 높이, 흑점의 수 및 주가지수의 일일 종가가 있습니다. 시계열은 꺾은 선형 차트를 통해 자주 표시됩니다. 시계열은 통계, 신호처리, 패턴인식, 계량경제학, 수리재무, 기상예측, 지진예측, 뇌파검사, 제어공학, 천문학, 통신공학 및 대부분 측정과 관련된 응용과학 및 공학 분야에 사용됩니다.

시계열분석(Time series analysis)은 의미있는 통계 및 데이터의 특성을 추출하기 위해 시계열데이터를 분석하는 방법입니다. 시계열예측(Time series forecasting)은 이전에 관측된 값을 기반으로 미래가치를 예측하는 모형을 사용합니다.

회귀분석(regression analysis)은 독립적인 시계열의 현재 값이 다른 시계열의 현재 값에 영향을 미친다는 이론의 검정방식으로 종종 사용되지만 이 시계열 유형 분석은 “시계열분석”이라고 하지 않습니다. 이는 서로 다른 시점에서 단일 시계열 또는 다중 종속 시계열의 값을 비교하는 데 초점을 맞춥니다. 교란된 시계열 분석(Interrupted time series)은 단일 시계열에 대한 외란 분석입니다.

시계열 데이터는 자연적으로 시간 순서를 가집니다. 따라서 시계열 분석은 관측의 순서가 없는 횡단면 연구(cross-sectional studies)와 구별됩니다. (예를 들어 개인의 데이터가 임의의 순서로 입력되는 교육수준으로 사람들의 임금을 예측). 시계열 분석은 관측치가 일반적으로 지리적 위치 (예 : 지리적 집값 및  집의 특성)와 관련된 공간 데이터 분석(spatial data analysis)과 구별됩니다.

시계열에 대한 확률론적 모델은 시간적으로 서로 가까운 관측값이 먼 관측값보다 더 밀접하게 관련된다는 사실이 반영되어 있습니다.  시계열 모델은 자연적인 순서를 사용하기 때문에 주어진 시기의 값은 미래 값이 아닌 과거 값에서 구해짐(time reversibility)을 나타냅니다. 시계열 분석은 실수, 연속 데이터, 이산 숫자 데이터 또는 이산 기호 데이터 (예 : 영어의 문자 및 단어의 나열순서)에 적용될 수 있습니다.

Reference

Time series – Wikipedia

시계열분석(time series analysis)

시계열분석(Time series analysis)은 의미있는 통계 및 데이터의 특성을 추출하기 위해 시계열데이터를 분석하는 방법입니다. 시계열예측(Time series forecasting)은 이전에 관측된 값을 기반으로 미래가치를 예측하는 모델을사용합니다. 시계열분석은 실수, 연속 데이터, 이산수치데이터 또는 이산기호데이터 (예 : 영어의 문자 및 단어의 나열순서)에 적용될 수 있습니다. 시계열분석은 관측치가 일반적으로 지리적 위치 (예 : 지리적 집값 및  집의 특성)와 관련된 공간 데이터 분석(spatial data analysis)과 구별됩니다.

회귀분석(regression analysis)은 독립적인 시계열의 현재 값이 다른 시계열의 현재 값에 영향을 미친다는 이론의 검정방식으로 종종 사용되지만 이 시계열 유형 분석은 “시계열분석”이라고 하지 않습니다. 이는 서로 다른 시점에서 단일 시계열 또는 다중 종속 시계열의 값을 비교하는 데 초점을 맞춥니다. 교란된 시계열분석(Interrupted time series)은 단일 시계열에 대한 외란 분석입니다.

시계열은 시간순으로 색인화된 일련의 데이터 요소(data points)들 입니다. 즉, 데이터시트의 요소명이 시간이거나 데이터 그래프에서 가로축이 시간인 경우입니다. 시계열은 시간의 동일한 간격의 지점에서 얻어지는 연속된 순서(sequence)입니다. 따라서 이산 시간 데이터의 연속된 순서라고 할 수 있습니다. 시계열의 예로는 조석의 높이, 흑점의 수 및 주가지수의 일일 종가가 있습니다.

시계열은 꺾은 선형 차트를 통해 자주 표시됩니다. 시계열은 통계, 신호처리, 패턴인식, 계량경제학, 수리재무, 기상예측, 지진예측, 뇌파검사, 제어공학, 천문학, 통신공학 및 대부분 측정과 관련된 응용과학 및 공학 분야에 사용됩니다. 시계열데이터는 자연적으로 시간 순서를 가집니다. 따라서 시계열분석은 관측의 순서가 없는 횡단면 연구(cross-sectional studies)와 구별됩니다. (예를 들어 개인의 데이터가 임의의 순서로 입력되는 교육수준으로 사람들의 임금을 예측).

시계열에 대한 확률론적 모델은 시간적으로 서로 가까운 관측값이 먼 관측값보다 더 밀접하게 관련된다는 사실이 반영되어 있습니다. 시계열모델은 자연적인 순서를 사용하기 때문에 주어진 시기의 값은 미래 값이 아닌 과거 값에서 구해짐( time reversibility)을 나타냅니다.

Reference

Time series analysis – Wikipedia