DATA SCIENCE : 27
DATA SCIENCE eISSN

[ QA ]

순서형 변수의 수준과 계층구조의 수준은 같은 것?

목차

순서형 변수의 수준(level)과 계층구조의 수준(level)은 개념적으로 다릅니다.

1. 순서형 변수에서의 수준(level)

순서형 변수의 변수값인 범주명을 수준(level)이라고 부릅니다.

순서형 변수인 “교육수준”의 변수값(수준, level)은 다음과 같습니다.

고졸, 대졸, 대학원졸

순서형 변수에서의 수준의 특징은 다음과 같습니다.

1. 순서 존재: 수준 간에는 명확한 서열(순서)이 존재

예: 고졸 < 대졸 < 대학원졸

2. 간격 불균등: 수준 간 간격은 동일하다고 가정할 수 없음

예: 고졸에서 대졸까지의 교육 기간은 대략 4년, 대졸에서 대학원졸까지는 대략 2년 ~ 5년으로 일정하지 않음

3. 산술 연산 불가능: 수준 간 간격이 일정하지 않기 때문에, 평균이나 합계와 같은 연산은 일반적으로 의미가 없음.

예: 고졸(1), 대졸(2), 대학원졸(3)이라고 숫자를 부여하더라도, 그 차이가 실제 교육 수준 차이는 아님

4. 통계 분석 시 주의점: 순서를 반영하되, 간격은 무시하는 순위 기반 분석(dummy coding, score transformation)이 필요.

예: 순서형 로지스틱 회귀, 비모수 통계 (Kruskal-Wallis 등)

2. 계층구조 모형에서의 수준(level)

계층구조 모형에서의 수준(level)의 의미는 데이터가 속한 계층적 구조의 단계를 말합니다.

계층구조 모델 “교육행정”에서는 다음의 수준(level)으로 나눌 수 있습니다.

Level 1: 학생

Level 2: 학급

Level 3: 학교

계층구조 모형에서의 수준의 특징은 다음과 같습니다.

1. 포함 관계 (Nested Structure): 상위 수준의 단위가 하위 수준의 단위를 포함.

예: 학생(Level 1)은 학급(Level 2)에 포함되고, 학급은 학교(Level 3)에 포함

2. 서로 다른 분석 단위: 각 수준은 고유한 단위 및 변수를 가짐.

Level 1: 학생 수준 변수 (성별, 점수 등)

Level 2: 학급 수준 변수 (교사 연차, 수업 방식 등)

Level 3: 학교 수준 변수 (학교 유형, 지역 등)

3. 오차 구조의 분리: 각 수준마다 고유의 오차(잔차) 항이 존재.

예: 학생 간 오차(개인차), 학급 간 오차(집단차) 등을 분리 추정 가능.

4. 랜덤효과(Random Effects)의 적용: 상위 수준의 단위는 일반적으로 확률적(random) 요소로 간주.

예: 반마다 성적이 다를 수 있으므로 반 효과를 랜덤으로 설정.

5. 수준 간 상호작용 가능: 상·하위 수준의 변수 간 교호작용(cross-level interaction)도 분석 가능.

예: 수업 방식(Level 2) × 학생 성별(Level 1)의 상호작용 효과

6. 샘플링 단위와 독립성의 제한: 동일한 상위 수준에 속한 하위 수준 관측치는 통계적으로 독립이 아님. 따라서 집단 내 상관(Intra-class correlation, ICC) 고려 필요

예: 같은 반의 학생들은 비슷한 환경을 공유 → 독립성 위반 가능성

7. 데이터의 불균형에 유연: 일반적인 선형 회귀는 계층구조에서 통계적 문제를 일으킬 수 있음

예: 한 학교에 2명, 다른 학교에 30명 등 불균형한 샘플 수가 있어도 분석 가능

 

Table 1. Level 개념의 이중적 사용: 순서형 변수와 다층모형에서의 비교

구분 순서형 변수의 수준 계층구조의 수준
개념 서열(순서)에 초점 포함관계(상-하위)에 초점
간격 일정하지 않음 논의 대상 아님
관계 A < B < C 식의 순서 A는 B를 포함하는 상위단계
Level 예시

교육수준:

“고졸”, “대졸”, “대학원졸”

교육행정 계층:

Level 1 (학생), Level 2 (학급), Level 3 (학교)

통계적 분석 순위 기반 분석, 로지스틱 회귀 등 다층모형(HLM, LMM 등)
의미 변수의 가능한 값 중 하나 계층구조에서의 단계
관련 용어 factor level, ordered category multilevel model, hierarchical level
 

Fig. 1. TOEIC 점수의 교육수준에 따른 평균 비교와 계층수준에 따른 분산 비교