T130 표본통계량
T130-01 계산통계(Statistical computing)
계산통계(statistical computing)
계산통계, 혹은 전산통계는 컴퓨터공학(computer science)과 통계학(statistics)의 연계입니다. 계산통계는 통계학의 수학과 밀접한 전산과학(computational science) 영역입니다. 이 분야는 급격하게 발전하고 있어 통계교육(statistical education)의 일부분보다는 광범위한 컴퓨팅개념을 요구합니다. 전통적인 통계(traditional statistics)와 같이 데이터를 지식으로 변환하는 것이 목표이지만, 표본이 매우 크거나 정리되지 않은 데이터 집합일 경우에 유용한 컴퓨터를 이용한 집약적인 통계방식입니다. 계산통계(computational statistics and statistical computing)는 컴퓨터 시대 이전에는 불가능했고 분석적으로 다루기 어려운 문제를 대처하기 위해 컴퓨터의 알고리즘 개발을 목표로 합니다.
계산통계는 리샘플링(resampling) 방법, 마르코프 체인 몬테카를로(Markov chain Monte Carlo) 방법, 국부회귀( local regression), 커널밀도추정(kernel density estimation), 인공신경망(artificial neural networks) 및 일반화된 부가 모델(generalized additive models)을 포함한 계산집약적 통계 방법을 지칭하기 위해 사용되기도 합니다.
Reference
Computational statistics – Wikipedia
T130-02 설명통계(Descriptive statistics)
설명통계(descriptive statistics)
설명통계(descriptive statistic)는 정보 수집의 특징을 정량적으로 설명하거나 요약하는 요약통계(summary statistic)입니다. 광의의 설명통계는 통계를 사용하고 분석하는 과정을 말합니다. 설명통계는 데이터 표본의 모집단을 알아보는 것이 아닌 표본의 요약을 목표로 합니다.
설명통계는 추론통계(inferential statistics)와는 달리 확률이론을 바탕으로 하지 않으며 비모수통계(nonparametric statistics)라는 점에서 구분됩니다. 데이터 분석에서 추론통계를 사용할 때에도 설명통계가 제시됩니다. 예를 들어, 피험자에 관한 보고서에서 일반적으로 전체 표본크기, 중요한 하위 집단의 표본 크기, 평균 연령, 비율 성별 과목, 관련 합병증이 있는 피험자의 비율 등을 구할 때 사용됩니다.
데이터 집합을 설명하는데 일반적으로 사용되는 측정은 중심경향측정(central tendency) 또는 변동, 분산(dispersion)측정입니다. 중심경향측정은 평균(mean), 중앙값(median) 및 최빈값(mode)을 포함합니다. 분산측정은 표준편차(standard deviation), 분산(variance), 확률변수의 최소, 최대값, 첨도(kurtosis) 및 왜도(skewness)를 포함합니다.
Reference
Descriptive statistics – Wikipedia
T130-03 수리통계(Mathematical statistics)
수리통계(mathematical statistics)
수리통계는 데이터를 수집하는 방법이 아닌 확률이론(수학의 한 부분)을 통계에 적용하는 것입니다. 이를 위해 사용되는 수학적 기법에는 수학적 분석(mathematical analysis), 선형대수학(linear algebra), 확률론적 분석(stochastic analysis), 미분방정식(differential equations) 및 측정이론(measure theory)이 있습니다.
Reference
Mathematical statistics – Wikipedia
T130-04 비모수통계(Nonparametric statistics)
비모수통계(nonparametric statistics)
비모수통계 (nonparametric statistics)는 매개변수가 있는 확률분포를 다루지 않는 통계분야입니다 (매개변수로는 대표적으로 평균과 분산이 있습니다.) 비모수통계는 분포를 이루지 않거나 정해진 분포가 있더라도 매개변수가 지정되지 않은 경우에 적용됩니다. 비모수통계는 설명통계와 통계적 추정을 포함합니다.
Reference
Nonparametric statistics – Wikipedia
T130-05 통계적 매개변수(Statistical parameter or population parameter)
통계적 매개변수(statistical parameter or population parameter)
통계적 매개변수(statistical parameter), 혹은 모집단 매개변수(population parameter)는 통계량(statistic)이나 확률변수(random variable)의 확률분포(probability distribution)에 사용되는 변수입니다. 이들은 통계적 모집단(statistical population)이나 통계적 모델(statistical model)의 수치적 특성으로 볼 수 있습니다.
색인된 분포 계열( indexed family of distributions)이 있다고 가정합니다. 색인이 계열 구성원의 매개변수이면 이 계열은 매개변수화된 계열입니다. 예를 들어, chi-squared 분포의 계열은 자유도에 의해 색인될 수 있습니다. 자유도의 값은 분포의 매개변수이므로 chi-squared 분포의 계열은 매개변수화 된 것입니다.
Reference
Statistical parameter – Wikipedia
T130-06 통계(Statistics)
통계(statistics)
통계학(Statistics)은 데이터(data)의 수집, 조합, 분석, 해석 및 표현을 다루는 수학(mathematics)의 한 분야입니다. 과학적, 산업적, 또는 사회적 문제에 통계를 적용하는 데에는 통계적 모집단(statistical population) 또는 통계모형(statistical model)을 연구하는 것이 일반적입니다. 집단은 “국가의 모든 사람들” 또는 “분자를 구성하는 모든 원자”와 같이 다양한 집단의 사람 또는 물체일 수 있습니다. 통계는 조사( surveys) 및 실험(experiments)의 설계와 관련해서 데이터 수집 계획을 포함한 데이터의 모든 측면을 다룹니다.
조사(census) 데이터를 모두 수집할 수 없는 경우에 통계전문가(statisticians)는 특정 실험 설계 및 조사 표본을 개발해서 데이터를 수집하게 됩니다. 대표표본추출은 추론과 결론이 표본에서 전체 모집단으로 합리적으로 확대 적용될 수 있도록 보장합니다. 실험적 연구(experimental study)는 연구를 위한 시스템을 측정하고 시스템을 조종한 다음 동일한 절차를 통해 추가적으로 측정을 수행하여 조종으로 측정값이 수정되었는지 여부를 결정합니다. 대조적으로, 관측연구(observational study)는 실험적 조종을 수반하지 않습니다.
데이터 분석에는 평균 또는 표준편차와 같은 색인(indexes)을 사용해 표본의 데이터를 요약하는 설명통계(descriptive statistics)와 임의의 변동이 있는 데이터로부터 결론을 도출하는 추론통계(inferential statistics) (예를 들어 관측 오류, 표본 추출 변화), 이 두 가지 통계 방법이 주로 사용됩니다. 설명통계는 주로 표본분포 또는 모집단 분포의 두가지 속성과 관련이 있습니다. 중심경향(central tendency )는 분포의 중심 또는 대표값으로 나타나고 통계적 분산dispersion ( 분산, variability)은 구성요소의 중심이나 구성요소 서로간의 거리로 나타납니다. 수학 통계에 대한 추론은 확률이론의 틀 아래에서 이루어지며, 확률이론은 무작위 현상을 분석하는데 다뤄지고 있습니다.
표준통계 절차는 통계 데이터 세트와 이상화된 모델에서 나온 데이터 세트간의 관련성을 시험하는 것을 포함합니다. 이 두 세트 간의 통계적 관계를 가정하기 위해 가설을 제안하고, 이를 두 데이터 세트 간에 관련성이 없다고 가정하는 귀무가설(또는 영가설)과 비교합니다. 시험에 사용된 귀무가설과 다른 데이터가 충분해질 때 이 귀무가설을 반박하거나 거부할 수 있게 되는 것입니다.
귀무가설로부터 시작하게 되면, 2가지의 기본 유형의 오류가 보이게 되는데, 1종 오류(거짓긍정을 통한 잘못된 귀무가설의 거부)와 2종 오류(귀무가설이 거부되지 않고 집단간의 차이가 확실히 보이지 않아 거짓부정이 일어나는 경우) 이 있습니다 .적당한 표본크기를 정하는 것부터 확실한 귀무가설을 특정하는데까지 다양한 문제들이 이 틀(framework)과 관련되어 있습니다.
통계적 데이터를 생성하는 관측 과정도 오류의 영향을 받을 수 있습니다. 많은 오류들이 무작위(random noise) 아니면 체계적인 편향(systematic bias)이지만, 다른 종류의 오류들(예를 들어 분석가가 잘못된 단위를 보고할 경우)도 일어날 수 있습니다. 사라진 데이터( missing data)나 검열(censoring)은 편향된 추정치(estimates)를 만들 수 있고 이런 문제를 규정하기 위해 특별한 기법이 만들어져 있습니다.
통계는 고대 문명, 적어도 BC 5세기, 부터 시작했다고 할 수 있지만, 18세기가 되어서야 미적분과 확률이론에서 많은 것을 이끌어 내기 시작했습니다. 최근에는 통계는 서술분석(descriptive analysis)과 같은 검증을 수행하기 위해 통계 소프트웨어에 더 의존하고 있습니다.
Reference
T130-07 체계적 표본추출(Systematic Sampling)
체계적 표본추출(systematic sampling)
체계적 표본추출(Systematic sampling)은 정렬된 표본추출 틀에서 요소를 선택하는 것을 포함하는 통계적 방법입니다. 체계적인 표본추출의 가장 일반적인 형태는 등량법(equiprobability)입니다. 이 접근 방식에서는 목록을 통한 진행 과정이 순회로 처리되며 목록 끝 부분이 지나면 최상위로 돌아갑니다. 표본추출은 목록에서 임의로 요소를 선택하여 시작하고 프레임의 모든 $k$ 번째 요소를 선택합니다. 여기서 $k$는 표본 추출 간격(skip이라고도 합니다)입니다.이 값은 다음과 같이 계산됩니다.
여기서, $n$은 표본크기
$N$은 모집단크기
이 절차를 사용하면 모집단의 각 요소는 알려진 확률과 선택확률을 가집니다. 이것은 체계적인 표본추출을 단순무작위 표본추출(SRS)과 기능적으로 유사하게 만들어 줍니다. 그러나 특정 크기의 모든 가능한 표본이 선택 될 가능성이 같지 않기 때문에 (예 : 서로 인접한 적어도 두 개의 요소가 있는 표본은 체계적인 표본추출에 의해 절대로 선택되지 않을 수 있기 때문에) 단순무작위 표본추출과 동일하지 않습니다. 그러나 체계적인 표본 내의 차이가 집단의 분산 이상이면 훨씬 더 효율적입니다.
체계적인 표본단위가 모집단 전체에 균일하게 분포되어 있기 때문에 체계적 표본추출은 주어진 모집단이 논리적으로 균질한 경우에만 적용됩니다. 연구자는 선택한 표본 추출 간격이 패턴을 숨기지 않도록 고려해야 합니다. 어떤 패턴이든 임의성(randomness)을 위협하기 때문입니다. 예를 들어, 어느 슈퍼마켓에서 고객들의 구매 습관을 보고 싶을 때, 그들은 10번째나 15번째로 입장하는 고객을 보고 이 실험을 진행할 수 있습니다.이것은 시스템을 가지는 무작위 표본 추출입니다. 표본추출 틀에서, 시작점은 무작위로 결정되고, 그 결과들은 규칙적인 간격으로 나오게 됩니다. 예를 들어, 120 가구의 거리에서 8 가구를 표본 추출한다고 가정합니다. 120 / 8 = 15이므로 매 15집 마다 1에서 15 사이의 임의 시작 지점을 선택합니다. 임의 시작 지점이 11이면 선택한 집은 11, 26, 41, 56, 71, 86, 101 및 116이 됩니다. 하지만, 매 15번째 집이 “모퉁이 집”이라면 이 패턴은 표본의 무작위성을 파괴 할 수 있습니다. 더 자주, 모집단이 균등하게 나눠지지 않는 경우 (125 / 8 = 15.625 인 8 개 집 표본 추출을 원한다고 가정)에는 매 15 번째 집 아니면 매 16 번째 집을 취해야 할까요? 매 16번째 집을 선택하면 8 * 16 = 128이므로 선택한 마지막 집은 존재하지 않을 위험이 있습니다. 반면에, 15 번째 집을 가져가면, 8 * 15 = 120이므로 마지막 5 채의 집은 선택되지 않습니다. 무작위 출발점은 모든 집이 똑같이 선택 될 수 있도록 0과 15.625 사이의 비 정수로 선택되어야 합니다(한 끝점에만 포함). 간격은 이제 비 정수 (15.625)가되어야 합니다. 선택된 각 비 정수는 다음 정수로 반올림되어야합니다. 랜덤 시작점이 3.6 인 경우 선택된 집은 4, 20, 35, 50, 66, 82, 98 및 113이며 여기서 3의 주기 간격은 15 및 4 간격으로 16입니다.
패턴을 숨기는 체계적인 건너뜀(Skip)의 위험을 설명하기 위해, 각 거리마다 각 블록에 10 개의 집이 있는 계획된 이웃을 표본 추출한다고 가정합니다. 이곳은 블록 모퉁이에 1 번, 10 번, 11 번, 20 번, 21 번, 30 번 집을 배치합니다. 모서리 블록은 건축 목적으로는 사용할 수 없는 거리 정면 등으로 더 많은 면적을 차지하므로 덜 가치가 있습니다. 매 10 세대마다 표본을 채취하면 표본은 모퉁이 가옥으로 구성되거나 (1 또는 10으로 시작하는 경우) 모퉁이 집이 없습니다 (다른 시작). 어느 쪽이든, 그것은 대표가 될 수 없습니다..
체계적 표본추출은 비 동일 선택 확률과 함께 사용될 수도 있습니다. 이 경우, 단순히 모집단의 요소를 통해 계산하고 모든 $k$ 번째 단위를 선택하는 대신, 각 요소에 선택 확률에 따라 번호 행을 따라 공백을 할당합니다. 그런 다음 0과 1 사이의 균일 한 분포에서 무작위 시작을 생성하고 1의 단계로 번호 행을 따라 이동합니다. 예를 들어 우리는 5 단위 (A ~ E)의 모집단을 가지고 있습니다. 우리는 단위 A에 20 %의 선택 확률을 부여하고단위 B는 40 %의 확률을 단위 E (100 %)까지 부여하고자합니다. 우리가 알파벳 순서를 유지한다고 가정하면, 우리는 다음 단위로 각 단위를 할당합니다.
A : 0 에서 0.2
B : 0.2 에서 0.6 (= 0.2 + 0.4)
C : 0.6 에서 1.2 (= 0.6 + 0.6)
D : 1.2 에서 2.0 (= 1.2 + 0.8)
E : 2.0 에서 3.0 (= 2.0 + 1.0)
랜덤 시작이 0.156 인 경우 먼저 간격에 이 숫자 (예 : A)가 포함 된 단위를 선택합니다. 다음으로 1.156 (요소 C), 2.156 (요소 E)의 간격을 선택합니다. 대신 랜덤 시작이 0.350 인 경우 0.350 (B), 1.350 (D) 및 2.350 (E) 지점을 선택합니다.
Reference
Systematic sampling – Wikipedia
T130-08 단순무작위표본(Simple Random Sample)
단순무작위표본(simple random sample)
통계에서 단순무작위표본은 더 큰 집합(모집단)에서 선택된 개체(표본)인 모집단의 하위 집합입니다. 각 개체(individuals)는 무작위로, 그리고 완전히 우연히 선택되며 표본추출 과정의 어느 단계에서나 선택될 가능성이 동일합니다. 집단의 각 개체는 다른 집단과 표본으로도 선택될 확률이 동일합니다. 이 과정과 방법은 단순무작위 표본추출로 알려져 있으며, 체계적 무작위 표본 추출 (systematic random sampling)과는 구별되어야 합니다. 단순무작위표본은 편향되지 않은 측정 방법입니다.
단순무작위 표본추출은 다른 표본추출 방식의 구성 요소가 될 수 있기에 기본적인 방식의 표본추출입니다. 단순무작위 표본추출의 원리는 모든 물체가 선택될 확률이 같다는 것입니다. 예를 들어, $N$명의 대학생이 농구경기를 보기 위해 표를 구하려 하지만 $X$($X<N$)장의 표밖에 없어 공정한 방법으로 누가 가야 할지 정해야 하는 상황이 있습니다. 이런 상황에서 모두에게 0에서$(N-1)$의 수를 부여하고 무작위로 숫자를 생성하되 0에서 N-1의 범위 내에 있지 않은 숫자나 이미 나온 수를 제외합니다. 이 때 처음 생성된 $X$개의 수가 티켓을 받는 사람을 정하게 될 것입니다.
작은 집단과 종종 큰 집단에서, 표본추출은 주로 “비복원으로” 진행됩니다. 즉, 표본추출을 진행할 때 의도적으로 개체를 여러 번 뽑는 것을 피하기 위함입니다. 단순무작위 표본추출은 추출된 개체가 다시 모집단에 포함되게 진행될 수도 있지만 그럴 때는 보통 복원하는 단순무작위 표본추출이라 칭합니다. 큰 집단 내에서 작은 개체수를 가지는 표본추출은 비복원과 복원에서 같은 값을 2번 고를 확률이 낮기 때문에 큰 차이가 있지 않습니다.
큰 크기의 표본이 뽑혔을 때, 그 표본의 평균이 정확히 집단을 대표해야 하기 때문에 편향되지 않은 개체의 무작위 선택은 중요합니다. 하지만, 이것은 어느 특정한 표본만이 완벽한 집단의 대표가 된다는 것은 아닙니다. 단순무작위 표본추출은 표본을 기반으로 전체 집단에 대해 유효한 결정을 도출해 내는 과정일 뿐입니다. 개념적으로 단순 무작위 표본 추출은 표본 추출 방식 중에서 제일 간단합니다. 단순 무작위 표본 추출은 완전한 표본 추출 틀을 필요로 하는데, 대규모 집단에서는 불가능하거나 실현하기 힘들 수 도 있습니다. 완전한 틀이 가능하다 하더라도, 집단에 관한 더 의미 있는 정보가 존재한다면 더 효율적인 접근이 가능합니다. 장점으로는 분류 오류가 없으며 틀을 제외한 사전 지식이 별로 필요하지 않다는 점이 있습니다. 이 단순함은 또한 이렇게 수집한 데이터를 해석하기도 매우 쉽도록 만들어 줍니다. 이런 점 때문에 단순 무작위 표본 추출은 모집단에 대한 정보가 많지 않은 경우데 적합합니다. 무작위로 분산되는 항목으로 데이터를 모으기가 적합할 때나, 표본추출의 비용이 단순성보다 중요하지 않을 정도로 낮을 때에 단순무작위 표본추출이 적합합니다. 이런 경우가 아니라면 계층화된 표본추출(stratified sampling)이나 클러스터 표본추출(cluster sampling)이 더 적합할 것입니다.
Reference
Simple random sample – Wikipedia
T130-09 통계모델(Statistical Model)
통계모델(statistical model)
통계모델은 표본데이터(모집단의 데이터와 유사)의 생성에 관한 일련의 통계적 가정(statistical assumptions)을 구체화하는 수학적 모델(mathematical model)입니다. 통계모델은 종종 이상적인 형태로 데이터 생성 프로세스(the data-generating process)를 나타냅니다. 통계모델은 대개 하나 이상의 확률변수와 다른 비확률변수 사이의 수학적 관계로 특정됩니다. 따라서, 통계모형은 “이론의 형식적 표현”이라 할 수 있습니다. 모든 통계적 가설검정과 모든 통계적 추정치는 통계모델을 통해 도출됩니다. 보다 일반적으로, 통계모형은 통계적 추론(statistical inference)의 기초가 됩니다.
Reference
T130-10 표본추출(Sampling)
표본추출(sampling)
통계, 품질보증 및 조사방법론에서 표본추출은 모집단(통계의 대상이 되는 집단)의 특성을 추정하기 위해 모집단 내에서 하위집합(통계표본)을 선택하는 것입니다. 통계학자들은 표본을 통해 모집단을 표현하기 위해 연구합니다. 표본추출의 2가지 장점은 전수조사에 비해 비용이 저렴하고 데이터수집이 빠르다는 것입니다.
각 관측값(관측치)은 관측이 가능한 독립개체 또는 개인이나 구분될 수 있는 대상의 하나 이상의 속성(예를 들어 무게, 위치, 색)을 관측(관찰, 측정)한 것입니다.
측량 표본추출(survey sampling), 특히 층화 표본추출(stratified sampling)에서 설계된 표본을 조정하기 위해 가중치를 적용할 수 있습니다. 확률이론과 통계의 결과는 실험을 조정하는데 사용됩니다. 비즈니스 및 의학연구에서 표본추출은 집단에 대한 정보를 모으는데 널리 쓰입니다. 채택 표본추출(acceptance sampling)은 생산제품이 관리사양을 충족시키는지를 결정하는데 사용됩니다.
Reference
Sampling (statistics) – Wikipedia
T130-11 표준오차
표준오차
통계에서 표준오차(standard of error)은 일반적으로 모수(매개변수, parameter)의 추정치입니다. 표준오차는 표집 분포의 표준편차 또는 모표준편차의 추정치입니다. 모수 또는 통계량이 평균인 경우는 평균의 표준오차(standard error of mean)라고 합니다.
집단의 표본평균 분포는 반복적으로 표본을 추출하고 표본평균값을 기록함으로써 생성됩니다. 이것은 다른 확률분포를 형성하며,이 분포는 고유한 평균과 분산을 갖습니다. 수학적으로 얻은 표본 분포의 분산은 집단의 분산을 표본크기로 나눈 값과 같습니다. 이는 표본크기가 증가함에 따라 표본평균이 집단의 평균에 더 밀접하게 밀집되기 때문입니다. 따라서 표준오차와 표준편차 사이의 관계는 주어진 표본 크기에 대해 표준오차가 표준편차를 표본크기의 제곱근으로 나눈 것과 같습니다. 즉, 평균의 표준오차는 집단의 평균을 중심으로 주위에 분포하는 표본평균의 분산의 척도입니다.
회귀분석에서 “표준오차”라는 용어는 특정 회귀계수의 신뢰구간에서 사용되며 카이제곱 통계량의 제곱근을 나타냅니다.
Reference
T130-12 표집분포(표본분포, sampling distribution or finite-sample distribution)
표집분포(표본분포, sampling distribution or finite-sample distribution)
통계에서 표본분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표본분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면, 표본분포는 그 표본이 가지는 확률변수의 확률분포라고도 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표본분포는 이론적으로 구합니다.
표본분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표본분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의 조사 기반으로의 사용입니다.
Reference
Sampling distribution – Wikipedia