문항반응이론
1.1. 애니메이션 제목
2.1. 문항반응이론
2.2. 문항특성곡선
2.3. 문항특성함수의 분류
2.4. 문항특성함수의 매개변수 추정
2.5. 능력평가
2.6. 정보함수
2.7. 잠재특성 모형
2.8.. 파이썬 패키지
2.9. 라쉬 모형
2.10. 설명강의
1. 애니메이션
2. 설명
2.1. 문항반응이론 (Item Response Theory, IRT)
문항반응이론(Item Response Theory, IRT)은 평가(검사, test, assessment )나 설문(survey)에서 사용되는 문항들이 응시자(피험자, 응답자)의 능력을 어떻게 측정하는 지를 분석하는 통계 모형입니다. 문항반응이론은 개별문항에 대한 응시자집단(응시자수준)의 정답비율을 관측한 정보와 먼저 모델링한 능력의 확률분포의 형태의 정보를 더해서 개별문항의 난이도를 추정합니다. 능력에 따른 개별문항의 정답확률(정답률, 정답비율)을 그 문항의 문항특성곡선이라고 합니다.
문항반응이론(IRT)에서의 확률변수
1) 응시자와 문항이 서로 반응하면 정답과 오답과 같은 이분변수(binary, binomial, 이항변수)값이 나타납니다.
2) 응시자집단(응시자수준)과 문항이 반응하면 문항의 난이도에 따른 문항의 정답확률(정답률, 정답비율)이 나타납니다. 여러번 반복하면(정답비율을 표집하면) 정답확률은 수렴합니다.
3) 문항집단(문항수준)과 응시자가 반응하면 응시자의 능력에 따른 응시자의 정답확률(정답률, 정답비율)이 나타납니다. 여러번 반복하면(정답비율을 표집하면) 정답확률이 수렴합니다.
4) 검사에 포함된 문항과 검사에 참여한응시자의 반응결과를 보여주는 원시표를 작성합니다. 원시표의 각 cell 에는 정답과 오답에 해당하는 1과 0이 들어 있습니다. 이 원시표는 확률변수인 응시자능력과 역시 확률변수인 문항난이도로 인해 생기는 반응을 확률실험으로 수집한 결과입니다.
5) 문항반응이론으로 문항의 속성을 알기 위해 응시자집단(웅답자수준)에 따른 문항반응의 정답확률을 표현하는 응시자집단과 문항의 $r \times c$ 교차표를 만듭니다.
6) 문항변별도는 문항난이도와 응시자능력이 같은 점에서의 문항의 정답확률의 기울기 입니다. 따라서 문항변별도가 크다는 것은 응시자의 능력이 조금만 커져도 문항의 정답확률이 많이 커진다는 것입니다. 즉, 문항의 민감성이 높다는 이야기입니다.
문항반응이론(IRT)의 장점
1) IRT는 개별문항의 속성(예를들면 난이도)을 고려합니다. 그리고 IRT는 각각의 문항이 응시자의 능력 수준에 따라서 다르게 응답된다는 것도 고려합니다. 이는 고전적인 방법론과는 달리, 각 문항이 모집단의 응시자능력의 분포의 가중치가 고려된 문항난이도를 가지는 것을 의미합니다. 따라서, IRT는 개별문항의 특성을 고려하기 때문에 객관적이고 정확한 평가를 가능하게 합니다.
2) IRT는 응시자능력의 수준을 추정할 수 있습니다. 응시자능력의 수준 추정은 검사 결과를 통해 개별 응시자의 능력을 정확하게 파악할 수 있게 해주므로 검사 결과의 신뢰성을 높일 수 있습니다.
3) IRT는 예측 정확도가 높습니다. IRT는 문항 난이도와 응시자능력의 수준을 고려하여 문항에 대한 정확한 정답 확률을 계산합니다. 이는 예측의 정확도를 높여주는 장점을 가집니다. 따라서 IRT는 응시자능력 수준과 관련된 문항을 선별해내어 더욱 정확한 검사를 가능하게 합니다.
4) IRT는 활용 범위가 넓습니다. 인력의 능력검사외에도 적성 평가, 인사 평가등 다양한 분야에서 검사와 평가의기준을 제시해주므로 유용하게 사용됩니다.
5) IRT는 표준화를 통해 문항간, 검사간의 비교가 가능합니다. IRT는 응시자능력의 수준 추정 및 문항 난이도 추정 결과를 표준화하여 비교할 수 있습니다. 이는 다양한 평가에서 개별 응시자의 평가 결과를 공정하게 비교하고 분석할 수 있도록 도와줍니다.
문항반응이론(IRT)의 단점
1) IRT는 대규모 표본데이터가 필요합니다. 적어도 200명 이상의 응시자가 있어야 문항별 난이도와 응시자의 능력 수준을 비교적 정확하게 추정할 수 있습니다. 크기가 작은 표본의 경우, 추정 결과의 신뢰성이 떨어지는 문제가 발생할 수 있습니다.
2) IRT는 다른 방법론에 비해 분석이 복잡합니다. 많은 계산이 필요하며, 많은 수의 모델 파라미터를 추정해야 합니다. 따라서, IRT를 사용하기 위해서는 전문적인 지식과 기술이 필요합니다.
3) IRT는 여러 모델 중에서 적절한 모델을 선택해야 합니다. 모델 선택이 부적절한 경우, 문항 또는 응시자의 능력을 과대 또는 과소 추정할 가능성이 있습니다.
4) IRT는 모델에서의 가정에 의존합니다. 모델이 제대로 작동하기 위해서는, 모델 가정이 타당해야 합니다. 모델 가정이 잘못되면 추정 결과가 부정확하게 나타날 수 있습니다.
5) IRT는 분석 결과의 해석이 어렵습니다. 모델의 매개변수( 모수, 파라미터, parameter)들이 먼저 추정되기 때문에, 이들을 적절히 해석하고 교정하여 최선의 모델을 찾아가야 합니다. 하지만 IRT에서 사용되는 모델의 모수들은 일반적으로 일반인에게는 이해하기 어려운 특수한 개념들이며, 따라서 전문적인 이론 지식이 필요합니다.
문항반응이론(IRT)의 적용
문항반응이론(IRT, Item Response Theory)은 문항들을 조합하여 검사를 만들고 검사에 참여한 응시자의 문항에 대한 반응결과를 분석하는 데 적용됩니다. 문항에 대한 모형식을 만들고 각 문항의 속성과 응시자의 능력을 검사를 통해 추정합니다. 각 문항은 불변하는 고유한 속성(모수, 파라미터, Parameter)을 가진다고 가정합니다. 문항의 속성을 나타내는 문항특성곡선은 응시자의 능력에 대한 문항의 정답확률을 나타내는 곡선입니다. 각 문항이 가진 고유한 문항특성곡선은 응시자(응시자, 피험자)의 능력에 따른 그 문항의 정답확률(정답률, 정답비율)을 나타내는 곡선으로 표현됩니다. 응시자 집단의 검사를 구성하는 문항들에 대한 반응(정답 또는 오답, binomial response, 이항반응)의 데이터를 사용하여 응시자의 속성(예를 들면 능력)이나 문항의 속성(예를 들면 난이도)을 동시에 구합니다. 문항의 속성은 문항특성곡선의 매개변수(파라미터, parameter)라 합니다. 모델링된 모형식이 있고 그 모형식의 매개변수가 구해지는 원리는 확률론에 근거합니다. 즉, 정답과 오답으로 반응하는 이분반응변수(이분확률변수, Binomial response variable)의 정답의 확률은 고유한 형태를 가진다고 모델링할 수 있습니다. 이 정답확률은 특정한 연속형 확률함수(The probability function of Binomial random variable)입니다.
$$f(X \, ; \theta) =f(0, 1 \, ; \alpha, \beta) \rightarrow {\rm Pr}(X=1 \, | \, \theta)=p(x_n-\sigma_i)$$
여기서, $X$는 1과 0을 확률변수값으로 가지는 이항(이분)확률변수(binomial random variable)
$X$가 $1$이면 정답을 의미
$X$가 $0$이면 오답을 의미
$\alpha, \beta$는 모수(parameter)인 문항변별도와 문항난이도
$\theta$는 모수벡터
$P(x_n-\sigma_i)$는 $n$번째 응시자수준에서의 응시자능력, $x_n$과 $i$번째 문항의 난이도 $\sigma_i$와의 편차를 평균으로 하는 확률변수에서의 정답확률
문항반응이론(IRT) 모형
문항반응이론에서는 기 모델링된 수학적 모형과 관측한 데이터를 이용하여 검사의 각 문항과 검사에 참여한 응시자(피험자)의 속성을 동시에 구하게 됩니다. 문항반응이론은 가장 작은 분산 추정량을 가지는 평균을 구할 때 평균과 분산이 동시에 구해지는 것과 같은 확률론적인 방법이라고 할 수 있습니다. 평균과 분산은 특정 확률분포함수의 매개변수(parameter)이기도 합니다.
문항반응이론은 고전검사이론(CTT, Classical test theory)보다 좋은 결과를 내고 있습니다. 문항반응이론은 고전검사이론처럼 검사에 포함된 모든 문항의 점수의 합으로 분석하지 않습니다. 문항반응이론은 각 문항의 고유한 문항특성곡선을 먼저 구하고 각 문항의 합으로 이루어진 검사를 분석합니다.
각 문항의 문항특성곡선(Item Characteristic Curve)은 응시자능력(피험자능력)의 수준((level, 순서가 있는 범주, 순서가 있는 집단, 순서가 있는 범주형 변수값)을 가로축(X축)으로 하고 정답확률(정답률)을 세로축(Y축)으로 하는 평면 직교좌표계에 그릴 수 있습니다. 문항반응이론을 적용하는 데 있어 데이터 수집에서 유의미한 결과를 내기 위해서는 검사에 참여한 응시자의 수는 검사를 이루는 문항수의 약 10배 이상이 필요하다고 알려져 있습니다. 검사의 문항수가 10이라고 하면 100명 이상의 응시자(피험자, 응시자, 검사참여자)가 필요합니다.
문항반응이론(IRT) 가정
1) 문항의 일차원성 : 문항은 응시자(피험자)의 한 속성만을 관측해야 합니다. 예를 들면 수리능력과 어휘능력이 동시에 관측되는 것을 피해야 합니다. 즉, 수리능력만을 관측하고자 한다면 문항에 어려운 용어가 사용되어 응시자의 어휘능력에 따라 문항의 난이도가 달라지면 안됩니다.
2) 문항의 독립성 : 응시자의 한 문항에 대한 반응이 다른 문항에 대한 반응에 영향을 주지 않아야 합니다.
문항반응이론의 반응표면

2.2. 문항특성곡선(Item Characteristic Curve, ICC)
확률변수 “능력”의 분포함수
1) 확률밀도함수를 정규분포로 가정하고 누적분포함수를 문항특성곡선으로 사용
문항반응이론에서 모든 응시자의 능력은 평균 $\mu$와 표준편차 $\sigma$를 가진 정규분포를 이룬다고 가정할 수 있습니다. 응시자능력의 확률분포를 평균이 0, 표준편차가 1인 표준정규분포로 표준화합니다.
2) 확률밀도함수를 nutshell형태로 모델링하고 누적분포함수를 문항특선곡선으로 사용
문항반응이론에서 모든 응시자의 능력은 평균 $\mu$을 가지고 nutshell형태의 대칭을 이루는 확률밀도함수로 모델링합니다. 확률밀도함수는 또 다른 확률함수인 개체의 정답경향함수의 독립변수인 확률변수 $P$의 2차식인 $P(1-P)$로 표현됩니다. 각 문항의 확률밀도함수, $\dfrac{dP}{dx}$는 모든 응시자의 반응의 결과라고 볼 수 있습니다. 관측오차에 의하여 나타나는 응시자능력의 확률분포는 모응시자능력($X$)을 응시자가 특정 문항의 정답을 맟추는 확률로 모델링합니다. 응시자능력의 확률변수는 0과 1사이의 값을 가지고 베르누이분포를 가진다고 하면 평균을 0.5로 하는 nutshell 모양의 확률분포를 보입니다. 이러한 모델링의 대표적인 예가 Rasch모형입니다. 엄밀하게는 응시자의 각 문항에 대한 정답확률변수 $X$의 분포는 평균이 $\dfrac{1}{2}$이 아닐 수도 있습니다. 평균으로 표현되는 응시자의 정답경향을 일반화하면 $\Gamma$분포를 나타내는 확률변수가 됩니다.
문항특성곡선을 나타내는 함수 : 문항특성함수
특정 문항의 문항특성곡선(ICC)은 응시자능력($\theta$)에 따른 그 문항의 정답확률(정답비율, 정답률)을 표현하는 곡선입니다. 정답확률은 응시자능력 수준(level)에 대한 문항의 반응으로 정답이 나올 확률입니다.
시각화를 위한 가로축은 응시자의 능력, $\theta$입니다. 세로축은 문항특성곡선을 나타내는 함수의 함수값인 정답확률, $p(\theta)$입니다. 응시자의 능력이 증가하면 정답확률도 증가하는 단조증가함수(독립변수가 증가하면 종속변수도 증가하는 함수) 입니다. 대략 S자 형태를 나타냅니다. 형태는 매개변수에 의하여 결정되는 데 보통 1개, 2개, 3개의 매개변수를 가집니다. 매개변수에는 난이도, 변별도, 추측도가 있습니다. 응시자능력과 난이도의 차이가 0이되는 점은 문항의 정답확률이 $\dfrac{1}{2}$로 전체 응시자의 정답자와 오답자의 비율이 같은 곳의 가로축에서의 값입니다. 문항간 비교는 결국 난이도의 비교가 됩니다. 변별도는 응시자능력이 0일 때의 문항특성곡선의 기울기입니다. 기울기가 클 수록 변별력은 높습니다. 응시자능력은 모든 실수가 될 수 있습니다.
응시자의 반응경향을 표현하는 함수 : 문항특성함수의 역함수
문항의 정답확률을 독립변수로 하고 그 문항에 대한 응시자의 반응경향을 함수값으로 하는 연속형 함수 (감마함수, $\Gamma$ function)를 모델링합니다. 이 함수는 이산형 시그모이드 확률함수의 역함수를 연속형 함수의 매개변수를 최적화한 것이라고 할 수 있습니다. 즉, 한 문항에 대한 응시자들의 수준에 따른 이산형 정답확률함수의 역함수입니다. 반응경향이 양의 부호를 가지면 반응경향의 값이 커질수록 정답확률이 높아진다고 할수 있으며 반응경향이 음수이면 오답확률을 나타낸다고 할 수 있습니다. 반응경향이 0이면 정답확률과 오답확률이 같습니다. 이 때의 정답확률과 오답확률은 $\dfrac{1}{2}$이며 신뢰도가 가장 높습니다. 즉, 오차가 가장 작습니다.
한 문항에 대한 응시자의 반응경향(정답을 맞출 경향성)을 나타내는 가상적인 연속형 확률변수를 $\Gamma$로 표기합니다. 각 문항은고유한 난이도를 속성으로 가지고 있습니다. 문항의 난이도는 응시자의 반응경향의 기준이 됩니다. 문항의 관측된 속성(예를 들면, 난이도)의 값을 $\Gamma$의 소문자인 $\gamma$로 표현합니다.
만약 문항이 비교 문항보다 쉬운 특성을 지니고 있으면 $\gamma$(난이도)는 비교 문항의 $\gamma$(난이도)보다 낮게 될 것이고 문항이 어려우면 $\gamma$는 상대적으로 높은 난이도가 될 것입니다. 이 때 응시자의 연속형 확률변수인 $\Gamma$이 문항특성인 $\gamma$보다 높은 반응경향을 나타낸 응시자들은 그 문항의 답을 맞출 확률(정답확률)이 답을 틀릴 확률보다 더 큽니다. 즉, 정답확률이 0.5보다 크고 1보다 작습니다.
문항특성함수의 매개변수(parameter)
1) 문항의 난이도(difficulty)는 문항집단(검사)에서 문항의 위치를 나타내며 문항특성함수의 매개변수입니다. 문항난이도는 그 문항에서 정답확률이 $\dfrac{1}{2}$인 응시자능력과 같습니다. 문항난이도는 정답확률이 $\dfrac{1}{2}$인 문항특성곡선상의 점의 가로축 좌표값입니다. 문항간 비교는 결국 문항특성함수의 매개변수의 비교입니다. 문항특성함수의 매개변수 중에서 문항난이도는 응시자의 모집단에서는 $\beta$로 표시하고 응시자표본에서 구한 문항난이도는 $\hat \beta$ 또는 $b$로 표기합니다. 응시자 모집단에서의 문항난이도($\beta$)는 표본을 관측하여 구한 $b$로 점추정합니다. 문항난이도는 어느 응시자능력 수준이상에서 그 문항의 정답이 가능한가를 나타내는 임계값입니다. 각 문항의 특성을 나타내는 그 문항의 고유값입니다. 여기서 주의할 점은 문항난이도는 특정 응시자 집단에서 결정된다는 점입니다. 따라서 문항의 난이도의 신뢰도는 응시자 집단이 클수록 큽니다. 응시자 집단이 모집단에서 추출한 응시자 표본이라면 랜덤하게 추출하였는가와 표본크기가 클 수록 신뢰도가 높습니다.
2) 문항의 변별도는 문항의 척도로서의 가치를 나타내는 문항특성함수의 매개변수입니다. 문항변별도는 문항특성곡선상의 문항난이도보다 큰 능력을 가진 응시자와 작은 능력을 가진 응시자를 구별하는 성능을 나타냅니다. 문항변별도는 문항특성곡선상의 점 중에서 문항난이도를 가로축좌표로 가지는 점에서의 기울기를 의미합니다. 모집단에서는 $\alpha$로 표기하고 표본에서는 $a$로 표기합니다. 문항반응이론에서는 문항이 척도라면 척도의 속성중에서 변별도를 의미합니다. 기울기가 클 수록 문항변별도는 높습니다. 응시자표본에서 관측한 데이터로 계산하여 구한 문항변별도는 $\hat \alpha$ 또는 $a$로 표기합니다. 문항변별도는 문항특성곡선상의 정답확률이 $\dfrac{1}{2}$일 때의 문항특성곡선의 기울기입니다. 정리하면 문항변별도는 응시자의 능력에 따라 응시자를 구별하는 그 문항의 척도로서의 성능을 나타내는 값입니다.
3) 문항의 추측도(guessing)는 응시자가 능력이 전혀 없을 때의 문항의 정답확률입니다. 즉, $-\infty$의 능력을 가지고 있는 응시자가 문항의 답을 맟출 확률입니다. 응시자의 능력을 추정하기 위한 문항이 문제와 답으로 구성되어있다면 답을 선택하느냐와 서술하느냐에 따라 문항추측도는 높거나 낮을 수 있습니다. 응시자의 속성을 추정하기 위해 문항이 속성에 대한 질문과 답으로 구성되어 있다면 추측도는 응시자가 검사에 성실히 임한다면 일정한 값을 가지게 됩니다. 그래서 추측도의 분산분석은 중요합니다.
2.3. 문항특성함수의 분류
매개변수 개수에 따른 분류
1) 1매개변수 모형 : 문항난이도
2) 2매개변수 모형 : 문항난이도, 문항변별도
3) 3매개변수 모형 : 문항난이도, 문항변별도, 문항추측도
시그모이드함수 형태에 따른 분류
1) 정규오자이브 모형 (Normal ogive model)
정규오자이브 모형은 표준정규분포의 누적분포와 같습니다. 단, 누적의 범위가 $-\infty$에서 $\alpha(\theta-\beta)$입니다.
$$p(\theta)=\int_{-\infty}^{\alpha(\theta-\beta)} \dfrac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}\theta^2}d\theta$$
여기서, $\theta$는 응시자능력
$\alpha$는 문항변별도
$\beta$는 문항난이도
2) 로지스틱 모형 (Logistic model)
로지스틱 모형은 정규오자이브 모형보다 계산이 간편하다는 장점이 있습니다.
$$p(\theta)=\dfrac{1}{1+e^{-1.7L}}$$
여기서, $\theta$는 응시자능력
$\alpha$는 문항변별도
$\beta$는 문항난이도
$L$은 로짓(Logit) : $L=\alpha(\theta-\beta)$
정규오자이브 모형에서 문항변별도가 $\alpha$이면 근사하는 로지스틱 모형에서는 문항변별도가 1.7$\alpha$
같은 응시자집단에서의 정규오자이브모형과 로지스틱모형 근사
정규오자이브 모형 | 로지스틱 모형 | |
1매개변수 | $P(\theta_j)=\int_{-\infty}^{(\theta-b)} \dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz$ | $P(\theta)=\dfrac{1}{1+e^{-1.7(\theta-b)}}$ |
2매개변수 | $P(\theta_j)=\int_{-\infty}^{a(\theta-b)} \dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz$ | $P(\theta)=\dfrac{1}{1+e^{-1.7a(\theta-b)}}$ |
3매개변수 | $P(\theta_j)=c+(1-c)\int_{-\infty}^{a(\theta-b)} \dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz$ | $P(\theta)=c+(1-c)\dfrac{1}{1+e^{-1.7a(\theta-b)}}$ |
문항특성의 불변성 : 응시자특성의 불변성과 함께 문항특성함수의 매개변수를 추정할 수 있는 근거
고전검사이론에서는 같은 문항이라고 해도 능력이 낮은 응시자 집단(수준)에서는 문항의 난이도가 높게 평가되지만, 능력이 높은 응시자 집단(수준)에서는 문항의 난이도가 낮게 평가됩니다. 그러나 문항반응이론에서는 같은 전체집단(전체표본)에서는 응시자 집단(수준)의 능력이 높고 낮음과는 상관없이 문항의 난이도(b), 변별도(a), 추측도(c)를 일정하게 추정합니다. 이를 문항 특성의 불변성이라고 합니다. 실제 능력이 높은 집단(수준)부터 낮은 집단(수준)까지 적합한 연속적인 문항특성곡선을 만들 수 있습니다. 문항특성의 불변성은 문항반응이론(IRT)으로 모델링한 모형식의 모수를 컴퓨터를 이용하여 구할 수 있는 근거가 됩니다. 즉, 문항반응이론에서의 한 문항난이도(b)와 문항변별도(a) 추정치는 검사에 참여한 응시자 집단(수준)의 응시자능력으로부터 독립성을 가집니다.
2.4. 문항특성함수의 매개변수 추정
표본(응답결과)의 관측값(응답결과값)을 이용하여 각 문항의 매개변수를 추정합니다. 다시말하면 평가에 참여한 모든 응시자들의 평가의 각 문항에 대한 응답결과를 가지고 각 문항의 매개변수를 추정합니다. 추정을 위해 모든 문항에 대한 모든 응시자의 응답을 각 응시자 정답오답표(True-False Table) 또는 반응벡터로 정리합니다. 이를 평가에 참여한 응시자의 문항반응벡터(Item Response Vector)라고 합니다. 라쉬 모형처럼 문항에 대한 응시자의 반응이 이분변수값으로 나타나는 경우는 문항반응벡터가 다차원의 단위벡터(원소가 1과 0으로만 이루어진 벡터)입니다.
과제를 구성하는 각 문항에 대한 응시자집단의 반응실험
응시자집단의 정답비율인 $p(\theta_j)$를 관측데이터로 부터 계산
$$p(\theta_j)=\dfrac{r_j}{m_j}$$
여기서, $\theta_j$는 검사에 참여한 $j$번째 응시자집답(응시자수준)의 정답확률(정답률, 정답비율)
$m_j$는 검사에 참여한 $j$번째 응시자집단(응시자수준)의 응시자 수
$r_j$는 검사에 참여한 $j$번째 응시자집단(응시자수준)의 정답자 수
매개변수 추정 : 최대가능도법(Maximum Likelihood Method)
문항특성함수(문항특성곡선, 문항정답확률함수)의 매개변수에는 대표적으로 문항난이도($\beta$)와 문항변별도($\alpha$)가 있습니다. 문항특성함수의 최적의 매개변수값은 최대가능도법(Maximum Likelihood Method)을 사용하여 구합니다. 관측된 데이터를 이미 모델링된 모형식에 넣고 가능도가 가장 클 때의 매개변수의 값을 컴퓨터를 이용해 구합니다. 문항특성함수의 모형식에서 가능도함수를 유도한 후 매개변수(parameter)를 변화시키면서 가능도함수값이 최대가 될 때의 매개변수를 구합니다. 이 때 컴퓨터가 효율적으로 최대가능도함수값을 찾는 알고리즘으로 경사하강법, 최대경사법, 뉴턴-랩슨법 등이 있습니다.
추정한 매개변수 적합도 검정 : 카이제곱검정
평가(검사, test)가 포함하는 문항을 문항의 표본이라고 할 수 있습니다. 평가는 문항의 모집단으로부터 랜덤하게 추출한 문항표본의 반응을 관측하는 것이라고 할 수 있습니다. 관측값으로 계산한 문항난이도($b$)와 문항변별도($a$)는 문항의 모집단의 문항난이도($\beta$)와 문항변별도($\alpha$)의 점추정값입니다. 그리고 점추정값의 신뢰도는 구간추정값이라고 할 수 있습니다. 관측한 데이터와 주어진 모델식으로 구한 매개변수로 특정된 추정식은 다시 관측한 데이터와의 적합성을 카이제곱검정을 사용하여 검정합니다. 이 때의 검정통계량은 카이제곱의 가장 작은 값입니다. 여기서 중요한 가정은 평가에 응시하는 응시자는 모집단에서 항상 랜덤하게 추출된다는 가정입니다. 매개변수를 추정하여 추정한 문항반응함수(문항특성곡선, ICC)이 실제 구한 문항반응 데이터에 적합한가에 대한 카이제곱검정을 수행합니다.
$$\chi^2=\sum_{j=1}^{J} m_j \dfrac{(p(\hat{\theta_j})-p(\theta_j))^2}{p(\theta_j)q(\theta_j)}$$
여기서, $J$는 응시자능력 수준 수(집단 수, 카테고리 수)
$\theta_j$는 응시자능력 수준 $j$에서의 응시자능력
$m_j$는 응시자능력 수준 $j$를 갖는 응시자집단의 응시자 수
$p(\hat{\theta_j})$는 $j$번째 응시자집단의 응시자 중 문항의 답을 맞춘 비율의 관측값
$p(\theta_j)$는 문항특성함수로부터 계산된 능력수준 $j$에서의 문항의 답을 맞출 이론적 확률
$q(\theta_j)$는 $1-p(\theta_j)$
계산된 카이제곱값이 준거값(제시된 유의수준)보다 크면, 추정된 문항의 매개변수가 실제 응답 데이터와 맞지 않아 문항의 매개변수 추정이 정확하지 않다고 검정합니다. 카이제곱값이 크게 나오는 이유는 잘못된 문항반응모형을 선택하였거나 적합한 문항반응모형을 선택하였지만, 관찰된 응시자능력 볌위에서 확률변수인 정답확률($p$)의 분산이 너무 크기 떄문입니다.
2.5. 능력평가
고전검사이론으로 응시자의 능력을 평가할 경우 문항의 난이도에 의하여 응시자능력의 추정값이 변화되는 모순이 있습니다. 따라서 문항반응이론으로 응시자의 능력을 평가합니다.
한 평가에서의 응시자의 능력을 측정할 때는 평가에 포함된 각 문항의 문항특성곡선의 매개변수의 값을 알고, 응시자의 능력을 평가합니다. 각 문항의 매개변수를 추정했던 방법과 반대로(역함수를 이용하여) 계산하게 됩니다.
$$\Delta \theta= \dfrac{\sum\limits_{i=1}^{n} a_i \left(u_i – p_i(\hat {\theta_s})\right)}{\sum\limits_{i=1}^{n} a_i^2 p_i(\hat {\theta_s}) q_i(\hat {\theta_s})}$$
여기서, $\Delta \theta$는 교정량
$n$은 검사의 문항 수
$a_i$는 관측한 $i$번째 문항의 문항변별도
$u_i$는 $i$번째 문항의 정답확률 초기설정값 : 1 또는 0
$p_i(\hat {\theta_s})$는 $i$번째 문항에서의 정답확률
$q_i(\hat {\theta_s})$는 $i$번째 문항에서의 오답확률 : $q_i(\hat {\theta_s})=1-p_i(\hat {\theta_s})$
그리고 교정하면 다음과 같습니다.
$$\hat \theta_{s+1}=\hat \theta_s + \Delta \theta $$
여기서, $\theta_{s+1}$은 다음 단계(step)에서의 검사의 응시자능력 추정값
$\theta_{s}$은 검사의 응시자능력 초기설정값
응시자능력의 초기값(prior value)을 특정값(보통1.0)으로 설정하고 문항의 정답비율을 점추정을 하고 난 후 구간추정합니다. 이 때 구간추정값을 작게 하는 방향으로 초기설정값을 변화시킵니다. 이런 과정을 반복하여 가장 작은 구간추정값을 가질 때의 점추정값을 응시자의 능력이라고 합니다. 물론 그 때의 구간추정값도 동시에 제시합니다.
능력 불변성
문항반응이론에서는 응시자의 능력은 문항의 난이도에 따라 달라지지 않는다는 능력 불변성을 가정합니다. 그러나 능력 불변성은 능력이 항상 상수로 나타난다는 의미는 아닙니다. 응시자의 능력은 중심경향성을 가지는 확률분포로 모델링됩니다. 즉, 능력 불변성은 응시자의 입장에서 볼 때 각 문항에 대한 응답의 결과가 독립이라는 것입니다.
2.6. 정보함수
정보함수는 검사가 응시자들의 능력을 얼마나 정확하게 추정하였는가에 대한 정보를 제공합니다. 응시자능력을 점추정하였다면 정보함수는 구간추정에 해당합니다. 유전학자이자 통계학자인 피셔(Fisher)는 정보($I$)를 측정오차의 분산의 역수로 제안하였습니다.
$$I=\dfrac{1}{\sigma_e^2}$$
여기서, $I$는 정보함수
$\sigma_e^2$은 측정오차의 분산
정보함수의 특징
1) 문항정보함수의 값은 측정오차 분산의 역수입니다. 다시 말하면 응시자능력 추정시 측정오차에 의하여 나타나는 응시자능력 표준오차의 제곱에 반비례합니다. 따라서 응시자능력 표준오차가 작을수록 커집니다. 즉, 문항정보함수의 값이 크다는 것은 오차와 비교하여 더 많은 유의미한 정보를 가지고 있음을 의미합니다.
2) 문항정보함수값은 문항변별도가 높아 질수록, 그리고 문항난이도와 응시자능력 수준이 같아 질수록 커집니다.
3) 문항반응이론에서는 응시자능력의 추정오차는 정보함수에 의하여 표현되며 응시자마다 응시자능력의 기대값이 다르므로 응시자마다 다른 오차를 갖습니다.
4) 고전검사이론의 신뢰도에 해당합니다.
문항정보함수(Item Information Function)
측정오차에 의하여 나타나는 응시자능력의 표준오차는 다음과 같습니다.
$${\rm SE}(\theta)=\sigma_e=\dfrac{1}{\sqrt{a_i^2 p_i(\theta_j)q_i(\theta_j)}}$$
여기서, ${\rm SE}(\theta)$는 $i$번째 문항, $j$번째 응시자능력 수준에서의 응시자능력의 표준오차
$\theta_j$는 $j$번째 응시자의 응시자능력
$\sigma_e$는 응시자능력의 표준편차
$a_i$는 관측한 $i$번째 문항의 문항변별력
$p_i(\theta_j)$는 $i$번째 문항에서 $j$번째 응시자의 정답확률
$q_i(\theta_j)$는 $i$번째 문항에서 $j$번째 응시자의 오답확률 : $q_i(\theta_j)=1-p_i(\theta_j)$
따라서 응시자능력의 정보함수는 다음과 같습니다.
$$I_i(\theta)=\dfrac{1}{\sigma_e^2}=\dfrac{1}{\left(\dfrac{1} {\sqrt{a_i^2 p_i(\theta_j)q_i(\theta_j)} }\right)^2}=a_i^2 p_i(\theta_j)q_i(\theta_j)$$
여기서, $a_i$는 관측한 $i$번째 문항의 문항변별력
$p_i(\theta_j)$는 $i$번째 문항에서 $j$번째 응시자수준의 정답확률
$q_i(\theta_j)$는 $i$번째 문항에서 $j$번째 응시자수준의 오답확률 : $q_i(\theta_j)=1-p_i(\theta_j)$
문항정보함수값이 가장 높을 때의 응시자능력 수준은 응시자능력 수준이 문항난이도와 일치할 때입니다.
응시자능력 추정시 응시자능력의 표준오차가 작다는 것은 응시자능력이 보다 정확히 추정되었다는 것이며, 정보함수값이 높으면 응시자의 능력을 보다 정확하게 관측하였음을 의미합니다.
평가정보함수(검사정보함수, Test Information Function)
평가정보함수(TIF)란 평가를 구성하는 각 문항의 문항정보함수의 합으로 정의됩니다. 평가에서 문항이 많을 수록 평가정보의 양은 더욱 커집니다.
평가정보함수는 그 평가가 응시자의 능력을 평가의 전체 과정에서 얼마나 정확하게 추정하는가를 나타냅니다.
예를 들어, 발급기준이 있는 자격증을 수여하는 평가라면, 발급기준(준거)에 대응되는 응시자의 능력 수준에서 최대정보를 갖도록 평가(문항의 집합)를 만들어야 합니다.
평가정보함수는 평가의 각 문항으로부터 계산합니다. 하지만 한 문항정보함수만을 사용하는 일은 극히 드묿니다. 한 문항으로 응시자의 능력을 추정하는 검사는 거의 없기 때문입니다.
평가정보함수에서 최대정보량을 갖는 능력은 0이므로 능력 척도의 중심 부분에 있는 응시자들의 능력을 가장 정확히 추정합니다. 따라서 능력 수준이 매우 높거나 낮은 응시자의 능력은 정확히 추정하지 못한다는 문제가 있습니다.
평가정보의 계산과 평가정보곡선
문항반응이론으로 규정된 중간 수준의 능력을 지닌 응시자들에게 평가정보가 가장 크게 나타나므로 문항반응이론은 응시자능력이 0 근처에 위치한 응시자에게 적합한 검사라고 볼 수 있습니다.
2.7. 잠재특성 모형(Latent Trait Model)
잠재특성 모형 (Latent Trait Model)
잠재특성 모형(Latent Trait Model)은 관측 가능한 여러 반응변수들(예: 시험점수, 검사점수)과 그 반응변수들을 결정하는 하나 이상의 잠재특성(예: 수학능력, 작업기억, 지능 등) 사이의 관계를 모델링하는 통계적인 방법론입니다. 이 모델은 측정 가능한 반응변수(관찰변수)들에 대한 응답 패턴을 이용하여 해당하는 잠재특성값을 추정하며, 이를 통해 이들 사이의 상호작용을 이해할 수 있습니다.
잠재특성 모형은 다양한 분야에서 활용되며, 대표적으로 교육, 심리학, 사회학 등에서 적용됩니다. 이 모델은 잠재적으로 존재하는 특성을 식별함으로써 관측된 데이터와 잠재적 요인 간의 관계를 파악할 수 있으며, 이를 통해 예측, 분류, 설명 등 다양한 분석을 수행할 수 있습니다.
잠재특성 모형에는 여러 종류가 있습니다. 대표적으로는 문항반응이론(Item Response Theory, IRT)과 요인분석(Factor Analysis) 이 있습니다. IRT는 객관식 문항 등 이산적인 반응을 나타내는 데이터를 다루며, 요인분석은 반응변수들 간의 상관관계를 파악하고 이를 잠재적인 요인으로 해석하는 데 사용됩니다.
잠재특성 모형은 복잡한 데이터를 다루는 데 유용한 통계 모델로, 광범위한 연구 분야에서 활용됩니다. 이 모델을 이용하여 정확한 분석을 수행함으로써 교육, 보건, 사회학 등에서의 정책 결정과 문제 해결에 도움을 줄 수 있습니다.
잠재특성 모형과 문항반응이론의 차이
1) 잠재특성 모형은 데이터의 선형성과 정규성 가정을 기반으로 모델링되며, 주로 요인분석(Factor Analysis)과 같은 모델링 방법을 사용합니다. 반면, IRT 모델은 각각의 문항에 대한 개별적인 모델을 만들어서 그 문항에 대한 반응이 대응하는 잠재특성의 값을 어떻게 결정하는지를 알려줍니다.
2) 잠재특성 모형은 개별 문항의 특성에 대한 정보를 제공하지 않으며, 전체적인 모형을 평가합니다. 반면, IRT 모델은 각 문항의 특성을 모델링하므로 개별 문항에 대한 정보를 제공합니다.
3) IRT 모델은 학습자들의 특정 문항에 대한 반응을 예측하는 데 유용한 정보를 제공합니다. 이는 교육, 심리학, 의학 등의 분야에서 평가 및 진단 도구를 개발하고 개선하는 데 매우 유용합니다. 반면, 잠재특성 모형은 학습자들이 특정 문항에 대한 반응을 예측하는 데는 사용되지 않지만, 잠재적으로 존재하는 특성과 관측된 데이터 간의 관계를 파악하는 데 유용합니다.
따라서, 잠재특성모형과 IRT 모델은 모두 잠재적으로 존재하는 특성과 관찰된 데이터 간의 관계를 파악하는 데 유용하지만, 각 모델은 다른 목적과 데이터 유형에 적합한 방법을 제공합니다.
2.8. 파이썬 패키지 (Python package)
잠재특성 모형 파이썬패키지(Python Package)
행렬 연산과 최적화 작업을 위해서는 NumPy와 SciPy를 사용합니다. 잠재특성모형에 관련된 패키지는 다음과 같습니다.
(1) PyMC3: 베이지안 모델링 패키지로, 잠재특성모형을 포함한 다양한 확률모형을 지원합니다.
(2) FactorAnalytics: 요인분석을 포함한 다양한 잠재특성모형을 지원합니다.
(3) sklearn: 다양한 머신러닝 알고리즘을 포함한 패키지로, 잠재특성모형과 관련된 알고리즘도 지원합니다.
(4) Pyro: 확률적 프로그래밍 패키지로, 베이지안 잠재특성모형을 포함한 다양한 모델링을 지원합니다.
(5) statsmodels: 통계 모델링을 위한 패키지로, 잠재특성모형과 관련된 모델링도 지원합니다.
이 중에서도 PyMC3, FactorAnalytics, Pyro는 확률론적인 접근을 사용하는 패키지로, 비교적 유연하게 모델링할 수 있습니다. 하지만, sklearn과 statsmodels는 좀 더 전통적인 접근을 사용하는 패키지로, 보다 간단한 모델링을 지원합니다. 따라서, 사용자의 목적과 데이터에 따라서 적합한 패키지를 선택하는 것이 중요합니다.
문항반응이론 파이썬패키지(Python package)
(1) PyIRT: Python으로 구현된 IRT 패키지 중 하나로, 다양한 모형의 IRT 분석을 수행할 수 있습니다.
(2) mirt: R에서 개발된 IRT 패키지인 ‘mirt’의 Python 버전으로, 다양한 IRT 모형과 관련된 함수를 제공합니다.
(3) psychopyne: 다양한 심리학 실험에 사용되는 패키지로, IRT 분석을 위한 함수를 포함하고 있습니다.
(4) psychometrics: 다양한 심리학적 척도 및 분석을 위한 패키지로, IRT 분석도 지원합니다.
(5) statsmodels: 통계 모델링을 위한 패키지로, IRT 분석도 지원합니다.
이 중에서도 PyIRT와 mirt는 IRT 모형을 구현하는 데 있어서 다양한 모형을 지원하고 있으며, 사용이 쉽고 유연한 장점이 있습니다. psychometrics와 statsmodels는 좀 더 전통적인 접근을 사용하는 패키지로, 보다 간단한 모델링을 지원합니다. psychopyne는 다양한 실험에서 사용되는 기능을 포함하고 있어서 IRT 분석 뿐 아니라 다양한 심리학적 실험 분석에 유용할 수 있습니다.
2.9. 라쉬 모형 (Rasch Model)
라쉬 모형은 1매개변수 로지스틱 모형입니다. 1960년, 게오르그 라쉬가 제안하였습니다. 라쉬 모형은 문항변별도를 1로 고정하고 문항난이도만을 매개변수로 합니다. 라쉬 모형도 응시자반응의 관점이 아닌 문항반응의 관점에서의 모형입니다. 라쉬모형에서 응시자에 대한 문항의 반응은 정답 또는 오답으로 나타납니다. 문항의 반응은 이분확률변수(binary, 이항확률변수, binomial)라고 할 수 있으며 통계적 확률실험의 결과인 정답의 비율로 통계적 정답확률을 구할 수 있습니다. 하지만 능력이 균등한 응시자에 대한 반응이 아니기 때문에 구한 정답의 비율은 응시자집단에 대한 그 문항의 난이도라고 보아야합니다. 이는 두 독립집단의 차이로 생각할 수 있습니다. 그리고 능력이 균등한 응시자 집단을 구하기 어렵기 때문에 각 문항의 난이도를 기준으로 하는 각 응시자능력의 편차를 새로운 확률변수로 정합니다. 각 문항의 난이도는 확률변수로 모델링합니다. 즉, 난이도가 발생한 후 응시자능력이 발생한다고 모델링합니다. 응시자능력사전연구를 통해 주로 관측오차에 의해 나타나는 문항의 정답확률분포함수를 모델링할 수 있습니다. 마찬가지로 사전연구를 통해 응시자의 문항의 난이도에 대한 정답률 함수의 형태를 모델링할 수 있습니다. 모델링한 확률분포함수는 매개변수(parameter)를 가지고 있습니다. 집단의 응시자능력의 수준(카테고리)을 설명변수라고 하고 각 문항의 정답비율을 그 문항의 반응변수라고 합니다. 정답확률분포함수의 매개변수인 문항난이도는 Fisher가 제안한 MLE(Maximum Likelihood Estimation, 최대가능도추정방법)에 의해 추정할 수 있습니다. 응시자능력의 기준점을 중앙값으로 하고 그 값을 0이라고 합니다. 그 이유는 응시자능력은 랜덤한 표본추출을 하여 모집단이 특성을 그대로 반영한다고 가정였기 때문입니다. 그리고 응시자집단(응시자수준)은 정답비율을 통해 순서를 정할 수 있기 때문입니다.
$${\rm Pr}(X_{ni}=1)=\dfrac{e^{\beta_n-\sigma_i}}{1+e^{\beta_n-\sigma_i}}$$
여기서, ${\rm Pr}(X_{ni}=1)$은 $n$번째 응시자능력 수준에서 $i$번째 문항의 정답확률(정답률, 정답비율)
$\beta_n$은 $n$번째 응시자능력 수준 : 문항특성곡선의 독립변수이자 확률변수
$\sigma_i$은 $i$번째 문항(Item)의 난이도 : 문항특선곡선의 모수로서 각 문항의 특성을 나타냄
$e^{\beta_n-\sigma_i}$는 응시자능력 수준과 문항난이도의 편차를 지수로 하는 지수함수값
라쉬 모형에서의 문항특성함수
라쉬 모형에서의 문항특성함수의 식은 다음과 같습니다.
$$p\left(x\right)=\dfrac{e^{\left(x-b\right)}}{e^{\left(x-b\right)}+1}=\dfrac{1}{1+e^{-\left(x-b\right)}}$$
여기서, $x$는 응시자능력
$p(x)$는 응시자능력 $x$에서의 정답확률
$b$는 문항난이도
문항특성함수를 능력 수준으로 한 번 미분하면 다음과 같습니다.
$$p^{\prime}\left(x\right)=\dfrac{d}{dx}\left(\dfrac{e^{\left(x-b\right)}}{1+e^{\left(x-b\right)}}\right)=p\left(x\right)\left(1-p\left(x\right)\right)$$
문항특성함수를 응시자능력 수준으로 두 번 미분하고 값이 0일 때의 응시자능력 수준이 그 문항의 난이도입니다.
$$p^{\prime\prime}\left(x\right)=\dfrac{d}{dx}\left(\dfrac{d}{dx}\left(\dfrac{e^{a\left(x-b\right)}}{1+e^{a\left(x-b\right)}}\right)\right)=0 \,\, \rightarrow \,\, x=b$$
라쉬 모형의 문항특성함수
라쉬모형에서는 1개의 파라미터 모델(1-parameter model)을 사용하며, 문항특성함수는 아래와 같이 표현됩니다.
$$p\left(\theta\right)=\dfrac{e^{\left(\theta-b_i\right)}}{e^{\left(\theta-b_i\right)}+1}=\dfrac{1}{1+e^{-\left(\theta-b_i\right)}}$$
여기서, $p_i(\theta)$는 응시자능력 수준이 $\theta$일 때 $i$번째 문항을 맞출 확률
$b_i$는 $i$번째 문항의 난이도
라쉬 모형의 가능도함수 (Likelihood function)
응시자들의 답안데이터 $X$가 주어지고 응시자의 능력 수준이 $\theta$일 때 답안데이터 $X$가 관찰될 확률을 나타내는 가능도함수는 아래와 같이 표현됩니다.
$${\mathcal L}(\theta \mid X) = \prod_i \left(p_i (\theta)^{(X_i)} \cdot (1 – p_i(\theta))^{(1 – X_i)}\right)$$
여기서, ${\mathcal L}(\theta \mid X)$는 응시자의 능력 수준이 $\theta$일 때 답안데이터 $X$가 관찰될 확률을 나타내는 가능도함수
$\prod_i$는 각 문항에 대한 정답확률을 연이어 곱하는 연산자
$X_i$는 답안데이터 : $i$번째 문제의 답안이 맞으면 1, 틀리면 0을 가지는 이진변수
$p_i(\theta)$는 $i$번째 문항의 문항특성함수
$p_i(\theta)$는 $i$번쨰 문항의 문항특성함수값(확률매개변수) :$p_i(\theta) = \dfrac{e^{(\theta – b_i)}}{ e^{(\theta – b_i)}+1}$
$b_i$는 $i$번째 문항의 난이도
$i$번째 문항의 난이도가 응시자의 능력 수준과 동일할 때 해당 문항을 맞출 확률이 0.5가 되도록 문항의 난이도를 조절합니다. 따라서 $i$번째 문항의 정답확률함수인 $p_i(\theta)$는 응시자의 능력 수준이 $\theta$일 때, $i$번째 문항을 맞출 확률을 나타냅니다.
라쉬 모형의 사후확률함수
Rasch 모형에서는 문항 $j$의 난이도를 $b_j$로 나타냅니다. 이 때, 사후확률(posterior probability), $P(b_j \mid \mathbf{X})$은 베이즈 정리를 이용하여 다음과 같이 계산할 수 있습니다
$$P(b_j \mid \mathbf{X}) = \dfrac{P(\mathbf{X} \mid b_j) P(b_j)}{\sum\limits_{k=1}^{K} P(\mathbf{X} \mid b_k) P(b_k)}$$
여기서, $\mathbf{X}$는 응답 데이터 헹렬 : 0 또는 1으로 이루어진 행렬
$K$는 문항의 개수
$P(\mathbf{X} | b_j)$는 가능도
$P(b_j)$는 사전확률(prior probability)
사후확률식에서 가능도는 주어진 문항 $j$의 난이도가 $b_j$일 때 응답 데이터 행렬 $\mathbf{X}$가 관찰될 확률입니다. 가능도는 다음식으로 표현됩니다.
$$P(\mathbf{X} \mid b_j) = \prod_{i=1}^{N} \left( \dfrac{1}{1 + e^{-(\theta_i – b_j)}} \right)^{x_{ij}} \left( \dfrac{e^{-(\theta_i – b_j)}}{1 + e^{-(\theta_i – b_j)}} \right)^{1-x_{ij}}$$
여기서, $\theta_i$는 응시자 $i$의 능력값(parameter)
$x_{ij}$는 응시자 $i$가 문항 $j$에 대해 정답을 선택한 경우 1, 오답을 선택한 경우 0
사후확률식에서 사전확률은 문항 $j$의 난이도의 사전지식을 표현합니다. 로지스틱분포나 정규분포로 모델링합니다.
사후확률식에서의 분모를 증거(Evidence)라고 합니다. 이는 모든 가능한 난이도 값에 대해 $P(X \mid b_j) \cdot P(b_j)$를 합산한 값으로, 이를 통해 모든 가능한 난이도 값에 대한 확률을 정규화(normalize)합니다.
2.10. 설명강의
– 준비 중

3. 실습
3.2. 함수
=NORM.DIST(E3,B3,B4,true) : 정규분포 확률밀도. 평균이 B3, 표준편차가 B4인 정규분포 상에서 E3 값의 확률밀도를 계산함. true는 누적확률밀도, false는 확률밀도를 의미함.
=ROUND(H3) : 반올림. H3 값의 반올림.
3.3. 실습강의
– 실습강의 목차
