楊建原 柏檜 趙守盈
計算機自適應(yīng)測驗開發(fā)的程序研究
楊建原 柏檜 趙守盈
計算機自適應(yīng)測驗(Computerized Adaptive Testing,CAT),是基于項目反應(yīng)理論(IRT)建立題庫,由計算機根據(jù)被試能力自動選擇試題,最終對被試能力做出估計的一種新的測驗形式。CAT因人選題,項目針對性強,用較少的題目較精確地估計被試的能力。CAT雖好,但不能盲目進行。從構(gòu)思到使用,一個完整的CAT一般需要經(jīng)歷四個階段:CAT可行性、適用性的考察研究,建設(shè)題庫,確定CAT的算法及參數(shù),投入使用和維護。每一階段對CAT的有效性都至關(guān)重要。
項目反應(yīng)理論;計算機自適應(yīng)測驗;模擬
計算機自適應(yīng)測驗(Computerized Adaptive Testing,CAT),是基于項目反應(yīng)理論(IRT)建立題庫,并由計算機根據(jù)被試能力自動選擇試題,最終對被試能力做出估計的一種新的測驗形式[1]。計算機通過在題庫中調(diào)用與被試能力匹配的項目,來不斷修正對被試能力的估計,如果被試答對了當前的項目,一個更難的項目就會被調(diào)用,反之亦然。當測驗達到所需標準時,計算機停止調(diào)用題目,測試停止。傳統(tǒng)測驗中,測驗長度固定,但測驗精確度是變化的。一般來說,傳統(tǒng)測驗的大部分項目是中等難度,因此對中等能力被試的估計誤差較小。但CAT因人選題,項目針對性強,用較少的題目較精確地估計被試的能力。
CAT雖好,但不能盲目運用。一個完整的CAT從構(gòu)思到使用,一般需要經(jīng)歷四個階段:CAT可行性、適用性的考察研究,建設(shè)題庫,確定CAT的算法及參數(shù),投入使用和維護。每一階段對CAT的有效性都至關(guān)重要。CAT開發(fā)過程中如果沒有針對各階段內(nèi)容的充分研究,會使開發(fā)的CAT低效,甚至無效。因此了解CAT開發(fā)各階段的內(nèi)容是至關(guān)重要的。
開發(fā)CAT測驗的第一個步驟就是要看有沒有必要和能不能開發(fā)想要的自適應(yīng)測驗。
為了解決這個問題,首先必須進行模擬分析?;贗RT,通過給定的θ值和項目參數(shù)值,來模擬被試對項目正確作答的精確概率。如一個中等水平的被試B(θ=0.0),能正確作答項目A的概率是0.55。要保證這個正確作答概率,計算機會隨機生成一個數(shù)字,這個數(shù)字在0~1內(nèi)均勻分布。如果隨機數(shù)字大于0.55,計算機模擬被試的反應(yīng)是錯誤,如果隨機數(shù)字小于或者等于0.55,計算機的模擬反應(yīng)是正確。被試θ值和項目參數(shù)值可以是真實的,也可以是按要求隨機生成的。模擬的執(zhí)行過程和真實被試的反應(yīng)過程一致,CAT選出一個符合要求的項目,然后根據(jù)θ值,在應(yīng)答數(shù)據(jù)集中進行選擇。這樣,通過模擬我們可以在一個測驗產(chǎn)生之前知道平均測驗長度、測驗精確度、題目所需要的曝光率以及題目庫的大小。
模擬類型有三種:Post-hoc模擬、Hybrid模擬和Monte-carlo模擬。Post-hoc模擬是基于對真實數(shù)據(jù)的模擬,即要求計算機自適應(yīng)測驗項目庫中的項目參數(shù)已明確,并且有真實被試對題庫中所有項目的作答結(jié)果矩陣。Post-hoc模擬一般用于CAT正式實施前的最后一步,診斷項目庫是否能夠正常運行和怎樣運行;也可用于由經(jīng)典測驗理論得出的項目反應(yīng)數(shù)據(jù),以考查如果將測驗以CAT方式實施會使測驗長度降低多少。
Mont-carlo模擬通常是沒有任何可用數(shù)據(jù)的情況下分析CAT的各種特征,按需要隨意改變被試能力的分布狀態(tài)和項目參數(shù)的分布狀態(tài),就可以知道假定狀態(tài)下不同能力的被試對不同參數(shù)項目的模擬反應(yīng);生成既定條件下完整的Monter-carlo反應(yīng)矩陣后,就可通過Post-hoc模擬進行分析。
Hybrid模擬(Nydick&Weiss,2009)[2]是 對Post-hoc模擬和Mont-carlo模擬的綜合,該種模擬同樣是用于項目參數(shù)已經(jīng)得出的項目庫,但是不需要被試對題庫中的所有項目的完整作答結(jié)果矩陣。Hybrid模擬,通過每個被試的項目反應(yīng)結(jié)果估計其θ值,沒有施測或未回答的項目不參與估計。運用得到的θ值及恰當?shù)腎RT模型,通過Monte-carlo模擬方法模擬缺失的作答結(jié)果。這樣,這一完整項目作答結(jié)果矩陣便可用于Post-hoc模擬分析。
模擬結(jié)果用來評估CAT的可行性。比如,現(xiàn)在有四套卷子,各有100道題目,每個卷子中有20個共同的題目,用來做測驗等值。即現(xiàn)在有一個340題的題庫,模擬顯示,如果要達到現(xiàn)在測驗的精確度,要有500道題目的CAT題庫,每個被試平均做55道題目。那么我們要考慮的是每個被試少做45道題節(jié)省的時間,CAT增加的安全性(每個被試所做的題目不同),能否抵消開發(fā)160個新項目、完成所需的CAT研究以及啟動CAT測驗的成本,也就是CAT的可行性。
經(jīng)過第一步的研究,如果確定CAT開發(fā)是可行的,就開始第二步——建設(shè)題庫。在這一步中,模擬也很重要。通過模擬,改變題庫難度的范圍、偏態(tài)、題目區(qū)分度,可以知道題庫所需要的題目數(shù)、題目的參數(shù)分布、題目的內(nèi)容分布以及項目曝光率。根據(jù)模擬結(jié)果制定編題計劃,采用雙向細目表保證項目的代表性,最后組織專家命題或者在相關(guān)資料中選題。為了保持測驗的連續(xù)性和減少開發(fā)題目的數(shù)量,很多情況下要利用已有的題庫去建設(shè)CAT題庫——把已有的題庫和新開發(fā)的題庫進行連接和混合。
建設(shè)題庫時要注意測驗信息函數(shù)要和測驗?zāi)康钠ヅ?。測驗信息函數(shù)表示能力估計的精確程度。它被定義為測量誤差平方[SE(θ)2]的倒數(shù)。測驗信息量越高則對被試相應(yīng)能力估計精確度越高。如果測驗是標準參照測驗,根據(jù)某個分數(shù)把被試分成及格和不及格,那么要在劃界分數(shù)點處能較精確地區(qū)分被試的能力,即在劃界線處需要更多的信息量,對兩端被試θ值的估計精度不做要求。相反,如果測驗要求對所有被試能力有精確的估計,那么題庫中應(yīng)該有相當數(shù)量的適合高能力、低能力被試的題目。
題庫初步確定后,對項目進行預(yù)試,預(yù)試的目的是把被試的反應(yīng)、被試的能力、項目的參數(shù)聯(lián)系起來。預(yù)試所需要的樣本量根據(jù)IRT模型而定。Baker和Kim(2004)綜合前人研究成果,認為對二參數(shù)Logistic模型(2PLM)估計未知項目參數(shù)和被試能力值,至少要30個項目500個被試;而對于三參數(shù)Logistic模型(3PLM)則至少要60個項目1000被試[3]。一般來說,預(yù)試的方法有三種:(1)如果項目是全新的,計算機可以簡單調(diào)用項目。(2)如果題目是新舊混合的,新項目應(yīng)該植入(Seeding)到原測驗中。例如還是上面的例子,160道新題目,340道舊題目??紤]到舊題目中可能有些不盡如人意,預(yù)試200道新題目。受試者已經(jīng)做過了100個題的固定形式測驗(fixed-form test),再做所有的200個新題目,就是原來測驗長度的三倍了,這樣占用受試者太多的時間。200個新項目,有四個測驗,給每個被試做50個新項目是比較合理的。這50個項目可以隨機選擇或者用不同的方法預(yù)先定義。(3)Wainer等8位專家學者(2000)提出了在線校準的方法,在正式實施CAT時,對每個參加CAT的被試隨機指派固定數(shù)量的新項目,新項目沒有項目參數(shù),得分記入成績也不參與能力估計。每種預(yù)試方法都要保證每個題目的作答達到一定的次數(shù)[4]。
預(yù)試之后做項目參數(shù)估計。為了保證所有的項目參數(shù)有同樣的標準,要對題庫項目進行連接。連接的方法有很多種,它們之間主要的區(qū)別是把新項目放在一個已存在的尺度上,還是建立一個新的尺度。顯然,如果題庫是全新的,建立一個新的尺度比較合適,如果題庫是新舊混合的,就需要把新題目參數(shù)用已有的尺度估計。校準階段根據(jù)項目參數(shù)(難度、區(qū)分度、猜測系數(shù)等)來決定項目是不是要刪除、校正、再次進行預(yù)試。對于區(qū)分度低和猜測系數(shù)大的項目一般考慮刪除,如果項目難度分布和測驗?zāi)康牟环?,要對項目加以調(diào)整。在校準階段需要知道的另一個統(tǒng)計信息是模型擬合指數(shù),根據(jù)擬合指數(shù)可以了解數(shù)據(jù)和校準所用的IRT模型是否匹配。例如,測驗編制者試圖用Logistic模型,則可分別用單參數(shù)、雙參數(shù)、三參數(shù)模型進行檢驗,擬合度常用卡方檢驗,如果卡方檢驗值比較小,即P值足夠大(大于0.05)則說明數(shù)據(jù)——模型擬合度比較高[5]。漢布爾頓和斯沃米納塞(1985)認為模型擬合要看四個方面:模型單維性(多維IRT模型不考慮),等區(qū)分度檢驗(單參Logistic模型時),最小猜測假設(shè)檢驗,非速度性檢驗。[6]
執(zhí)行一個完整的CAT需要確定五個部分。題庫及項目參數(shù)、起始點、項目選擇的算法、得分的算法、結(jié)束的標準。
起始點,也就是CAT開始執(zhí)行時假定的被試初始能力值(θ值)。最常用的方法有:(1)假定所有被試有相同的初始θ值,一般來說會提供一個和平均分數(shù)相匹配的θ值,也就是0.0。但是給所有的被試分配相同的初始θ值會使與之對應(yīng)題目的曝光率大大增加,CAT的保密性受到威脅。(2)在某個范圍內(nèi),隨機選擇被試的初始θ值解決了上面的問題。比如初始θ值可以在-0.5到0.5之間隨機選擇。以上兩種方法都是用在對被試一無所知的情況下,能力高和能力低的被試的測驗長度一般較長。CAT的目的是使測驗盡可能的適合每個被試。(3)把被試上一次的測驗分數(shù)作為下一次測試的初始θ值。(4)也可以根據(jù)外部信息計算被試的能力。Castro,Suarez和Chirinos(2010)認為,外部信息可以是動機、社會經(jīng)濟地位[7]。(5)在某些情況下也可以讓被試自己選擇能力的初始值。
項目選擇的算法用來決定呈現(xiàn)給被試的項目是什么。一般基于項目信息進行項目選擇,從項目信息可以看出哪些題目更適合某個被試。比如給高能力的學生做很容易的項目是沒有意義的,這些項目不能把他們的能力水平進行劃分。測驗?zāi)康牟煌鄳?yīng)的項目選擇的算法不同。如果測驗是為了得到準確的θ值,那么應(yīng)該選擇所有在當前能力值下能提供最大信息的項目。然而,如果測驗的目的是在一個分界線上對被試進行分類,那么選擇在分界能力值上能提供最大信息的項目。
在項目選擇時要同時考慮到一些實際的約束問題。最主要的三類問題是項目曝光、內(nèi)容平衡和項目對立。項目曝光是指題庫中每個項目呈現(xiàn)頻率。在“高風險測驗”中曝光頻率的控制非常重要,因為題目可能因為曝光較多而被泄露。根據(jù)測驗要求,所有的題目最大曝光率可以相同,也可以不同。當單維測驗中包含多項內(nèi)容的時候,按需要進行項目內(nèi)容平衡。比如數(shù)學測驗中要求一個被試同時接受代數(shù)、幾何、概率項目的測試,每個內(nèi)容所占的比率可以按需要進行設(shè)定。對立項目是幾個項目中包含相互提示的信息,對同一個被試,CAT只能呈現(xiàn)其中一個項目。
θ值估計算法用來估計被試的能力。常用的θ值估計算法有各種最大似然值估計、貝葉斯估計、加權(quán)最大似然值估計。最大似然值估計是無偏的,但是只能用在混合應(yīng)答模式中(至少有一個正確和錯誤的回答)。
CAT終止標準有兩種情況:CAT測驗長度是變化的,CAT測驗長度是固定的。當CAT的長度是變化的時候,有幾種方法可以選擇:(1)θ估計的標準誤達到等于某個值的時候。(2)θ估計標準誤的變化小于或等于某個值的時候。(3)θ估計值的變化小于某個值的時候。(4)θ標準誤的增加大于某個值的時候。(5)最小項目信息標準,如果題庫中再沒有項目能提供最低限度(按需要制定)信息,測驗就可以終止了。固定長度的測驗可以是當被試完成固定數(shù)量題目時終止(題目的選擇是自適應(yīng)的),也可以是做完所有題目時終止。項目終止同樣受到曝光率的約束。
當所有必需的內(nèi)容參數(shù)以及算法確定后,CAT就可以投入使用了。如果已經(jīng)有測試開發(fā)和交付的軟件(例如,已經(jīng)購買了一個系統(tǒng)或者有權(quán)使用一個系統(tǒng)),這一步就幾乎沒有困難。在常用的CAT施測系統(tǒng)中(比如Fast Test Pro,CADATS),選中相應(yīng)的單選框或者復選框來選擇不同的算法。
維護CAT需要另外的研究。也許最重要的是檢查使用后CAT的結(jié)果是否與模擬的CAT的預(yù)期結(jié)果相匹配。例如,Post-hoc模擬預(yù)測被試平均做47道試題達到0.25的最低標準誤差,使用時實際情況是否如此呢?
另一個重要的問題是維護試題庫,有時稱做“更新”(refreshing)。因為在大量的測試中試題可能曝光過多,曝光率過高的試題應(yīng)該逐漸撤出或暫時屏蔽,同時新的試題應(yīng)該逐漸添加進去,增加的項目要與題庫進行連接。一般方法是向庫里添加預(yù)試的試題,這些試題校準之后轉(zhuǎn)移到計分題目中去。在線校準后試題可以立刻被校準并投入試題庫中去。劉麗平、王文杰等人(2006)提出題庫新增、刪除或屏蔽都可能影響題庫中參數(shù)的分布,為了參數(shù)不合理時及時調(diào)整題庫的參數(shù),可設(shè)計信息統(tǒng)計模塊,當題目參數(shù)和知識點參數(shù)的分布不合理時,信息統(tǒng)計模塊會給出警告信息。[8]
隨著CAT的研究越來越深入,CAT開發(fā)和使用問題也日益受到關(guān)注。正確開發(fā)和使用CAT對于測驗的有效性是非常重要的,本文簡單探討了CAT的開發(fā)和維護必須研究的問題,盡管比較簡略,并且可能不全面,但是每個CAT開發(fā)必須注意的。
[1][5]顧海根.一種新的測驗形式——計算機自適應(yīng)測驗[J].上海教育科研,1999(5):31-33.
[2]Nydick S,Weiss D.A hybrid simulation procedure for the develop?ment of CATs.In D.J.Weiss(Ed.),Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.
[3]Baker F B,Kim,S.H.Item Response Theory:Parameter estima?tion techniques(2nd eds.).New York,Marcel Dekker,2004.
[4]Wainer H,Dorans N J,Eignor D,Flangher R,Green B F,Mis?levy R.J,Steinberg L,Thissen D.Computerized adaptive testing:A Primer,(2nd ed.).Lawrence Erlbaum Associates,Publishers,2000,85-86,121-122,161-185.
[6]余嘉元.項目反應(yīng)理論及其應(yīng)用[M].南京:江蘇教育出版社.1992(9):187-197.
[7]Castro F,Suarez,J,Chirinos,R..Competence's initial estimation in computer adaptive testing.Pap resented at the first annual con?ference of the International Association for Computerized Adaptive Testing.The Netherlands.2010.
[8]劉麗平,王文杰,郭世寧.計算機自適應(yīng)考試(CAT)系統(tǒng)題庫的設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2006(3):10-16.
A Study on the Procedure of Computerized Adaptive Testing Development
YANG Jianyuan,BAI Hui and ZHAO Shouying
Computerized Adaptive Testing(CAT)is a new method that item bank is based on response theory(IRT),computer automatically selects items according to the ability of each examinee,and ultimately estimate precise ability of each examinee.The option of CAT’s item differs from person to person with a highly targeted,which estimates the ability of examinees by fewer subjects with a good accuracy.CAT is good,but can’t blindly used.From design to publish,generally go through four stages:feasibility and applicability studies,item bank development,CAT algorithm and parameters,publish and maintenance.The effectiveness of each stage of the CAT is essential.
Item Response Theory;Computerized Adaptive Tests;Simulation
G405
A
1005-8427(2012)03-0003-5
本研究為貴州省高等學校教學質(zhì)量與教學改革工程重點項目“基于PBL理論改進心理教育測量教學改革研究”(項目批準號:黔高教發(fā)[2011]28-1)、貴州師范大學精品課程“心理測量”建設(shè)項目階段性成果。
貴州師范大學