叢曉
摘 要:本文對多維自適應測驗在教育測量中的應用進行了研究。研究表明,它可以提高測量效率。在測量精度不變的情況下,相對于一維自適應測試,使用項目數(shù)目減少30%~50%,提高了測量效率。此外,又可以進行多種能力的測量,說明它是一個非常有效的方法。
關鍵詞:計算機自適應測試;項目反應理論;多維自適應測試;教育測量
一、前言
計算機自適應測試(Computerized Adaptive Testing,CAT)根據(jù)學生對先前項目(item)的反應,選擇項目并提供給學生進行測試。這種項目選擇程序的目標是為學生選擇適合其能力水平的測試項目,主要優(yōu)點是從實質(zhì)上提高了測量的效率。測量效率即為測量精度與測試長度的比率。[1]
實際中,大多數(shù)CAT都使用一維項目反應理論模型。然而,當前教育測量理論都涉及學生的多種能力結構,因此,學者們又提出了多維自適應測試(Multidimensional Adaptive Testing,MAT)的模型和理論。[2]MAT的優(yōu)點包括:第一,與一維測量模型相比,MAT更緊密地契合概念化的多重結構理論模型與統(tǒng)計測量模型;第二, 與傳統(tǒng)測試或CAT相比,產(chǎn)生了減少項目數(shù)目和提高測量精度的效果。
二、多維自適應測試的實施
MAT包括四個基本要素:多維項目反應理論模型、項目選擇方法、測試終止準則、能力估計方法。下面對這四個部分進行詳細論述。
1.多維項目反應理論模型
多維項目反應理論模型指的是依賴于p個能力θ=(θ1,θ2,…, θp)對項目i(U1=1)的正確反應概率,項
目涵蓋一個或多個項目參數(shù)。通常,使
用多維三參數(shù)logistic模型:P(U1= 1∣θ)=ci+ — ①
其中,ai'為(1×p)向量的區(qū)分度參數(shù),bi為難度參數(shù),ci為偽猜測參數(shù)。1是(p×1)向量在多維空間上的難度參數(shù)。
2.項目選擇方法
項目選擇方法是多維自適應測試的核心,確定了如何從題庫中為學生選擇合適的項目。一般情況下,能力的極大似然估計在均值θ和方差(θ∣θ)=
I(θ,θ)-1上是漸進正態(tài)的,其中I(θ,θ)是Fisher信息矩陣。
I(θ,θ)=-E(—) ②
假設所有潛在能力變量線性合并,并保持能力的權重不變λ=(λ1,λ2,…,λp)'
根據(jù)最小方差準則,從題庫中選擇一個合適的項目,如下等式所示:
arg mini[Var(λ'θ∣θ)]=arg mini[λ'Var(θ∣θ)λ] ③
由于MAT選擇的項目僅考慮項目參數(shù)以及能力估計的標準,所以選擇并呈現(xiàn)給學生的項目內(nèi)容可能不平衡。這可能會導致不同維度的精度不同,并可能會導致測量精度的整體損失。
3.測試終止準則
采用的終止標準包括展示項目的數(shù)目、測量精度等,或者是多種方法的結合。多維自適應測試常采用展示的項目數(shù)目作為終止標準,這樣做可以達到增強與常規(guī)測試可比性的目的。而使用測量精度則在很大程度上依賴于所使用的項目池的特性。因此,對于MAT的應用,應該合并測量精度與最大測試項目數(shù)目和最小測試項目數(shù)目作為測試終止標準。
4.能力估計方法
在項目反應理論中,本地獨立性假設意味著學生對于不同項目的反應預期是統(tǒng)計獨立的,并用極大似然方法進行能力估計。對于能力向量θ=(θ1,θ2,…,θp)估計,為了保證收斂,通常使用Newton-Raphson方法或者Fisher的方法,直到達到一個或更多的終止標準。
三、總結
與CAT傳統(tǒng)測試相比,MAT可以大幅提高測量效率,在不損失測量精度的條件下,為考生展示的項目數(shù)目約為CAT的30%~50%。重要的是,MAT對具有多重結構的高效率的能力測試是非常有效的方法。為把理論模型用于實際的測量開辟了新的階段,可以增強教育測量中測試得分解釋的有效性。
參考文獻:
[1]Segall,D.O..Multidimensional adaptive testing.Psychometrika[J]. 1996,61(02).
[2]Pommerich,M.,&Segall,D.O.Local Dependence in an Operational CAT:Diagnosis and Implications[J].Journal of Educational Measurement,2008,45(03).
(作者單位:東北電力大學理學院)