DATA SCIENCE : 27
DATA SCIENCE eISSN

[ DATA SCIENCE ]

여러 범주형 확률변수가 생성하는 항목 간 조건부 확률분포 비교: 연관분석 카이제곱검정

목차

요약영상

1 Videos

Comparison of regression coefficients between two continuous random variables: correlation analysis t-test

DataLink Research Group

DataLink Research Group, Seoul, Republic of Korea
Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15
10.12972/DataLink.2024.s-26-1-1
DataLink Research Group. 2024. Data type. DataLink Library 2024:s-26-1-1.
Print

요약

통계량을 통한 모수 추정에서, 확률변수의 모평균, 모분산, 모표준편차는 각각 표본평균, 표본분산, 표본표준편차를 통해 추정됩니다. 상관분석은 두 변수 간의 선형적 관계를 측정하며, 피어슨상관계수는 이 관계의 강도와 방향을 수치화합니다. 공분산은 두 변수 간의 변동성을 나타내며, 상관계수는 공분산을 표준화한 값입니다. 상관계수의 제곱인 결정계수는 변수 간 관계의 적합도를 평가합니다. 표본상관계수의 표준오차와 검정통계량을 이용해 상관관계의 유의성을 검정할 수 있습니다.

Keywords

연속형 확률변수, 산점도, 회귀계수, 기울기, 절편, 회귀분석, t검정

1. 연관분석

1.1. 연관분석의 개요

연관분석은 범주형 확률변수로 구성된 데이터 내에서, 항목 간에 자주 동반되어 나타나는 패턴을 탐색하고자 할 때 사용하는 분석 기법입니다. 장바구니 분석(Market Basket Analysis)은 이 기법의 대표적인 활용 사례입니다.

이 분석의 목적은 두 개의 범주형 확률변수가 생성하는 항목 간 조건부 확률분포를 비교함으로써, 특정 항목 간에 통계적으로 유의한 연관성이 존재하는지를 탐색하는 데에 있습니다. 즉, 조건부 확률을 기반으로 항목 A가 발생했을 때 항목 B도 함께 발생할 가능성을 추정하게 됩니다.

$$P(B \mid A) = \frac{P(A \cap B)}{P(A)}$$

1.2. 연관규칙과 조건부확률

연관규칙은 일반적으로 𝐴 ⇒ 𝐵의 형태로 표현되며, 이는 “A가 발생하면 B도 발생한다”는 조건부 관계를 의미합니다. 이때 A는 전건(antecedent), B는 후건(consequent)이라 하며, 이 규칙의 유의미성을 평가하기 위해 세 가지 주요 지표가 사용됩니다.

1.3. 연관분석의 주요 지표

(1) 지지도 (Support)
지지도는 전체 데이터 중에서 항목 A와 B가 동시에 나타나는 비율로 정의되며, 다음과 같이 계산됩니다.

$$\text{Support}(A \Rightarrow B) = P(A \cap B)$$

(2) 신뢰도 (Confidence)
신뢰도는 A가 발생한 경우에 B도 발생할 조건부 확률로, 다음과 같이 정의됩니다.

$$\text{Confidence}(A \Rightarrow B) = \frac{P(A \cap B)}{P(A)} = P(B \mid A)$$

신뢰도가 높을수록 A가 주어졌을 때 B가 발생할 가능성이 높다는 것을 의미합니다.

(3) 향상도 (Lift)
향상도는 항목 A가 없을 때에 비해, A가 있을 때 B가 발생할 가능성이 얼마나 증가하는지를 나타냅니다. 이는 아래와 같은 식으로 정의됩니다.

$$\text{Lift}(A \Rightarrow B) = \frac{P(B \mid A)}{P(B)} = \frac{P(A \cap B)}{P(A) \cdot P(B)}$$

향상도가 1보다 크면 A와 B가 양의 연관관계를 가진 것으로 해석할 수 있습니다.

1.4. 수학적 해석과 유의성 검정

연관분석은 확률론에 기반한 조건부 분포 비교 기법으로, 변수 간 인과관계를 전제하지 않습니다. 만일 도출된 연관규칙이 통계적으로 우연에 의한 결과인지 아닌지를 평가하고자 할 경우, 카이제곱 검정 또는 피셔의 정확 검정을 보완적으로 활용하실 수 있습니다.

1.5. 응용분야

연관분석은 다양한 영역에서 활용될 수 있습니다. 유전정보 해석, 교육 , 추천시스템, 등에서 사용됩니다. 유통 분야에서는 상품 간 동시 구매 패턴을 분석하여 크로스셀링 전략을 설계하며, 의료 데이터에서는 질병 간의 동시 발생 패턴을 분석하는 데에 적용됩니다.

1.6. 연관분석 알고리즘

연관분석의 구현을 위해 여러 알고리즘이 제안되었으며, 대표적으로는 Apriori 알고리즘과 FP-Growth 알고리즘이 있습니다.

Apriori 알고리즘은 빈발 항목 집합의 성질을 이용하여, 하위 항목 집합이 빈발하지 않으면 상위 항목 집합도 빈발하지 않음을 기반으로 연관규칙을 단계적으로 탐색합니다.

FP-Growth 알고리즘은 빈발 항목 집합 생성을 위해 트리 구조(Frequent Pattern Tree)를 활용하여, 후보 집합 생성을 생략하고 보다 효율적으로 연관규칙을 탐색합니다.

이 외에도 ECLAT, CHARM과 같은 고급 알고리즘이 대규모 데이터에 적용되고 있습니다.

 

2. 카이제곱검정

2.1. 카이제곱검정의 개요

카이제곱검정(chi-square test)은 두 개 이상의 범주형 확률변수 간의 관계가 통계적으로 유의한지를 평가하는 데 사용되는 비모수적 가설검정 기법입니다. 관측된 분포가 기대 분포와 일치하는지를 검정하므로써  범주형 확률변수 간의 독립성 여부를 판단하거나 검정하는 데 활용됩니다.

2.2. 검정목적 및 귀무가설

카이제곱 독립성 검정의 목적은 다음과 같은 귀무가설과 대립가설을 검하는 것입니다:

귀무가설 $H_0$: 두 범주형 확률변수는 서로 독립이다.

대립가설 $H_0$: 두 범주형 확률변수는 서로 독립이 아니다.

2.3. 교차표와 기대도수

분석을 위해 두 범주형 변수로 구성된 교차표(contingency table)를 생성합니다. 관측된 빈도(observed frequency, $O_{ij}$)와 기대 빈도(expected frequency, $E_{ij}$)를 비교하여 통계량을 계산합니다.

기대도수는 다음과 같이 계산됩니다.
$$E_{ij} = \frac{(\text{행 합계}_i) \cdot (\text{열 합계}_j)}{n}$$

여기서, $n$은 총 관측수: 항목수, 교차점수

2.4. 카이제곱 통계량 계산

관측값과 기대값 간의 차이를 다음과 같은 식으로 통합하여 카이제곱 통계량을 계산합니다.

$$\chi^2 = \sum_{i} \sum_{j} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}$$

이 통계량은 자유도 $df=(r-1)(c-1)$을 가지며, $\chi^2$분포를 따릅니다. 여기서 $r$과 $c$는 각각 행과 열의 범주수 입니다.

2.5. 검정결과의 해석

계산된 카이제곱 통계량과 해당 자유도에 대한 p-value를 이용하여 유의수준(예: 0.05)과 비교합니다. 만약 p-value가 유의수준보다 작을 경우, 귀무가설을 기각하고 변수 간에 유의미한 관계가 존재한다고 해석할 수 있습니다.

2.6. 적용예시

유전자형(A: A1A1, A1A2, A2A2)과 근내지방등급(B: 낮음, 중간, 높음)의 관계를 검정하고자 한다면, 이 두 범주형 변수로 교차표를 만들고 카이제곱 검정을 적용하여 유의미한 상관관계가 있는지를 판별하실 수 있습니다.

2.7. 다차원 확장 및 주의점

세 개 이상의 범주형 변수 간 관계를 검정하고자 할 경우, 조건부 독립성 검정 또는 로그선형 모형과 같은 확장 기법을 사용할 수 있습니다. 이 경우, 단순한 2차원 교차표가 아닌 다원 교차표(n-way table)를 활용하거나, 각 층별로 독립성 검정을 반복 수행하게 됩니다.

한편, 카이제곱 검정은 기대빈도가 작을 경우(예: 5 미만) 정확성이 떨어질 수 있으므로, 피셔의 정확 검정(Fisher’s exact test)과 같은 대안을 고려하셔야 합니다.

3. 연관분석과 카이제곱검정의 통합 적용

3.1. 분석 기법과 검정의 연계

연관분석은 조건부확률 기반의 연관 규칙을 탐색하는 데 목적이 있으며, 탐색적 분석에 속합니다.

반면, 카이제곱검정은 두 범주형 확률변수의 교차점의 관측된 빈도가 기대되는 분포로부터 유의미하게 벗어났는지를 평가하는 확증적 검정 도구 입니다. 

이 분석기법과 검정은 상호보완적으로 사용하여, 연관규칙이 통계적으로 유의한지 확인할 때 카이제곱검정을 사용합니다.

3.2. 연관규칙 검정

연관분석을 수행한 후, 의미 있는 규칙이 발견되었다고 하더라도, 이 규칙이 우연히 발생한 것인지, 아니면 통계적으로 유의미한 구조인지를 검정하기 위해 다음과 같은 절차를 수행니다.

(1) 규칙 선택

예를 들어 유전체와 근내지방도의 연관규칙으로 연관분석을 진행합니다.

$$\text{{Genotype}} = \text{{A1A1}} \Rightarrow \text{{IMF grade}} = \text{{High}}$$

(2) 2×2 교차표 구성
연관의 규칙이 있다고 판단한 항목과 그 외를 기준으로 2×2교차표를 구성합니다.

Table 1. 교차표 (IMF는 근내지방도)

 IMF = 1++IMF ≠ 1++합계
Genotype = A1A1aba + b
Genotype ≠ A1A1cdc + d
합계a + cb + dn

(3) 기대도수 계산 및 검정
기대도수를 계산합니다.

$$E_{ij} = \frac{(i\text{행 합계}) \cdot (j\text{열 합계})}{n}$$

카이제곱 통계량을 적용합니다.

$$\chi^2 = \sum_{i} \sum_{j} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}$$

(4) 유의성 판단
p값이 유의수준(예: 0.05)보다 작을 경우, 해당 규칙은 통계적으로 유의한 연관성을 가진다고 판단할 수 있습니다.

3.3. 연관분석의 해석을 보완하는 카이제곱검정

연관분석에서 얻어진 조건부 확률 기반의 규칙은 단순히 관찰된 빈도 기반의 탐색 결과입니다. 따라서 다음과 같은 상황에서 카이제곱검정이 매우 유용하게 사용됩니다:

  • 탐색적 분석 결과를 통계적으로 검증하고 싶을 때
  • 신뢰도와 향상도가 높은 규칙들 중 실제로 유의미한 패턴만 선별하고자 할 때
  • 연관분석이 다변량 확률구조를 충분히 반영하지 못할 때 로그선형 모형이나 교차분석을 통해 보완하고자 할 때

3.4. 통합 분석 예시

한우 데이터를 분석하는 예시입니다.

데이터 수집

변수: 유전자형, 근내지방도(IMF, intramuscular fat) 등급, 성별 등

연관분석 수행

예: A1A1 ⟶ 근내지방도 1++

Confidence: 0.65, Lift: 1.75

해당 규칙에 대한 2×2교차표 구성 및 카이제곱검정

p-value = 0.023 < 0.05 → 유의미한 연관성 존재

최종 해석

유전자형 A1A1은 근내지방도 1++ 등급과 통계적으로 유의미한 양의 연관성을 가진다.

Terminology

공분산(covariance)

확률이론 및 통계에서 공분산(covariance)은 두 확률변수의 연결된 가변성(the joint variability)을 측정한 것입니다. 한 변수의 큰 값이 다른 변수의 큰 값과 주로 일치하고 작은 값에서도 동일한 경향이 유지되는 경우 (즉, 두 변수가 유사한 행동을 보이는 경향이 있는 경우), 공분산은 양수입니다. 반대의 경우에, 하나의 변수의 큰 값이 다른 변수의 더 작은 값에 주로 대응할 때 (즉, 변수가 반대의 행동을 나타내는 경향이있는 경우), 공분산은 음의 값을 가집니다. 따라서 공분산의 부호는 변수간의 선형 관계의 경향을 보여줍니다.

공분산의 크기는 정규화되지 않았기 때문에 해석하기가 쉽지 않으므로 변수의 크기에 따라 달라집니다. 그러나 공분산을 정규화한 상관계수는 크기에 따라 선형 상관관계의 강도를 보여줍니다. 아래의 둘은 반드시 구분되어야 합니다.

(1) 두 확률변수의 모공분산(the covariance of two random variables). 여기서 모공분산은 모집단 매개변수(population parameter)이고 모집단 매개변수는 연관 확률분포(joint probability distribution)의 특성으로 볼 수 있습니다.

(2) 표본공분산(the sample covariance). 여기서 표본공분산은 표본을 표현할 뿐만 아니라 모집단 매개변수의 추정값으로 제공됩니다.

출처

Covariance – Wikipedia

상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

출처

Correlation and dependence – Wikipedia