計算機化自適應(yīng)測驗?zāi)M方法的研究范式與特點

2016-02-13 18:01簡小珠戴步云

中國考試 2016年1期

簡小珠戴步云陳平

簡小珠戴步云陳平

計算機化自適應(yīng)測驗（CAT）在理論與實踐中得到廣泛應(yīng)用。目前許多CAT研究可以歸納為兩種研究范式：實測作答的CAT研究范式和測驗作答數(shù)據(jù)模擬的CAT研究范式。CAT模擬研究方法的步驟有模型選擇、題庫模擬、測試起點、選題策略、測驗終止策略等。CAT模擬研究的主要趨勢有：選題策略、終止策略仍然是CAT研究的重點；CAT模擬研究的設(shè)計內(nèi)容更適合實際測驗情況；CAT研究設(shè)計采取多因素設(shè)計；模擬結(jié)果多方面綜合評價等。

項目反應(yīng)理論；計算機化自適應(yīng)測驗；CAT模擬

1 CAT模擬研究范式的分類

從1985年美國軍隊職業(yè)能力傾向成套測驗（ASVAB-CAT）采用計算機化自適應(yīng)測驗（Comput?erized Adaptive Testing,CAT）正式施測以來，CAT作為一種新的測驗形式在實際測試中得到較為廣泛的應(yīng)用，包括學(xué)校教育考試、職業(yè)資格考試、人格測量、多維能力測量、認知診斷等多方面。美國明尼蘇達大學(xué)CAT研究中心分別于2007年和2009年組織了CAT專題研討會議，2010年CAT國際協(xié)會（In?ternational Association for Computerized Adaptive Testing,IACAT）成立，并創(chuàng)立了CAT研究專業(yè)期刊（Journal of Computerized Adaptive Testing）。從2007年起，每一年或兩年CAT國際協(xié)會都會舉行一次CAT專題研討會議。CAT研討會極大地促進了CAT研究的發(fā)展。經(jīng)過30多年的研究發(fā)展與應(yīng)用，CAT研究已經(jīng)分化發(fā)展出多種研究范式。本文依據(jù)以下三個問題：被試是真實還是模擬、題庫是真實還是模擬、被試作答是真實還是模擬，將CAT研究歸納為以下兩種研究范式。

1.1 實測作答的CAT研究范式

第一類范式是實測作答的CAT研究范式（live CAT administration）。實測作答的研究范式是基于真實的題庫、真實的被試以及真實的作答反應(yīng)進行研究?；谡鎸嶎}庫的試題參數(shù)已進行預(yù)測和參數(shù)估計，例如使用了真實的題庫、真實的被試以及真實的作答反應(yīng)進行研究。[1][2]實測形式的CAT研究范式的特點是，可以為CAT模擬提供基本依據(jù)，進一步證實在CAT模擬研究中得出的結(jié)論。但實測作答的CAT研究范式也存在著局限性：①需要真實的考生、試題庫和現(xiàn)場測試管理，需要大量的人力物力，而且費時。②被試只能作答數(shù)量有限的試題，可能難以覆蓋整個題庫，有些試題可能從未使用。③從實測考生得到的作答數(shù)據(jù)可能會包括一些不確定的“噪音”，也可能不會適合預(yù)設(shè)的IRT模型。

1.2 測驗作答數(shù)據(jù)模擬的CAT研究范式

第二類范式是測驗作答數(shù)據(jù)模擬的CAT研究范式，此模擬研究范式又細分為以下三種形式。

第一種形式，基于真實紙筆測驗參數(shù)的數(shù)據(jù)模擬形式（real-data simulations）。在該種模擬形式下，題庫的試題參數(shù)是真實的，但被試能力參數(shù)是模擬的，被試作答也是模擬的。使用真實題庫參數(shù)的模擬主要是為了使得CAT模擬研究更加接近真實情況，而且可以分析在達到與傳統(tǒng)紙筆測驗相同的測驗精度時，CAT測驗形式需要多少試題，可以節(jié)省多少題量。

第二種形式，混合模擬設(shè)計形式（hybrid simula?tions）。該模擬方式是將CAT測試和事后模擬（post-hoc simulations）結(jié)合，在被試進行CAT正式測試時安排插入新試題進行施測，獲得這些新試題的被試作答數(shù)據(jù)的稀疏矩陣。在混合模擬設(shè)計形式下，題庫參數(shù)是真實題庫的參數(shù)，而且被試在CAT測驗上的作答情況也是真實的，但混合模擬設(shè)計需要依據(jù)被試作答這些已知的參數(shù)信息，來模擬更多的被試和被試作答數(shù)據(jù)矩陣，進一步估計待測試題的參數(shù)，最后根據(jù)這些模擬數(shù)據(jù)的稀疏矩陣估計項目參數(shù)，從而實現(xiàn)題庫所有試題都等值到同一量尺上。這種混合模擬方式在一些研究文獻中也稱之為試題參數(shù)在線標(biāo)定策略。[3]

第三種形式，蒙特卡洛模擬形式（Monte Carlo simulations），即CAT模擬。在CAT模擬形式下，被試能力參數(shù)是模擬的，被試作答數(shù)據(jù)是模擬的，大多數(shù)的題庫試題參數(shù)是模擬的。CAT模擬方法可用于CAT理論性研究，也可用于在實際CAT測試前進行評估校準試題庫的試題曝光率參數(shù)、測驗交疊率控制參數(shù)，確定實測CAT的測試起點、選題策略、能力估計方法、測驗終止條件等。CAT模擬方法，是計算機化自適應(yīng)測驗的理論與技術(shù)研究中最常用、最主要的方法，絕大部分的CAT研究文獻都是采用CAT模擬方法。CAT模擬方法對計算機化自適應(yīng)測驗的早期研究起到了很重要的推動作用。[4]使用CAT模擬方法具有以下優(yōu)點：①當(dāng)研究的測驗情境與問題較為復(fù)雜，研究的變量不容易控制時，可以通過CAT模擬方法來模擬問題情境。②可以避免反復(fù)測試同一批被試，使用CAT模擬方法則可以反復(fù)多次模擬，而能避免在實際中一次測試結(jié)果所帶來的測量誤差。③可以避免實際測量中的“噪音”。因為真實被試在進行CAT測試時，往往會受到各種額外因素的影響。

2 CAT模擬方法的步驟與特點

CAT模擬研究方法的過程與實際CAT的測試過程一樣，只不過CAT模擬方法中被試能力參數(shù)是模擬的，作答數(shù)據(jù)也是模擬的。CAT模擬方法的使用方式多種多樣，但CAT模擬研究有共同的組成部分與步驟。本文歸納概括以往研究文獻，得出CAT模擬方法包括模型選擇、題庫模擬、被試模擬、測試起點、作答模擬、選題策略、能力估計、測驗終止、重復(fù)模擬、結(jié)果分析10個基本步驟。

2.1 模型選擇

CAT模擬研究第一步是選擇IRT數(shù)學(xué)模型作為基礎(chǔ)模型，CAT研究中常用的IRT模型有單參數(shù)、兩參數(shù)和三參數(shù)Logistic模型，Samejima等級反應(yīng)模型或其他多級記分模型。

2.2 題庫模擬

在大部分CAT模擬研究中使用模擬題庫，則需要模擬試題參數(shù)。題庫模擬的試題量往往為500～3 000題，也有些研究模擬題量為10 000題。試題區(qū)分度a參數(shù)取對數(shù)并服從正態(tài)分布，即log（a）～N（0,1），也有一些研究a參數(shù)服從正態(tài)分布，例如a～N（0.7,0.2）。試題難度b參數(shù)在很多模擬研究中服從標(biāo)準正態(tài)分布N（0,1），也有一部分研究讓b參數(shù)服從U[-3,+3]或U[-4,+4]。一些CAT模擬研究將題庫b參數(shù)模擬生成均勻分布，其原因在于：在CAT測試中題庫是面向各個層次水平被試進行測試，因此在能力高端或低端區(qū)間，也需要有較多的試題來滿足測試。如果高難度試題（或者低難度試題）太少，則在高能力被試（或低能力被試）測試時選題較困難，容易導(dǎo)致測量偏差，而且容易導(dǎo)致這些試題過度曝光。如果使用均勻分布的題庫就可以避免這些問題。除了題庫試題參數(shù)分布對CAT有影響之外，研究者對CAT題庫的容量大小與CAT測驗長度、測量精度關(guān)系進行模擬研究，結(jié)果發(fā)現(xiàn)當(dāng)題庫容量較?。}庫容量為75題，分15個能力水平區(qū)間，每個區(qū)間分別有5題）時，仍然可以用相對較少的試題（測驗長度相對較小）獲得與紙筆測驗相同的測量精度。[5]

2.3 被試模擬

被試能力參數(shù)模擬時的被試數(shù)量，在許多研究中的取值范圍一般為300～2 000人，也有研究模擬1萬或5萬人。被試能力參數(shù)的模擬可以分為三種情況：①大多數(shù)模擬研究將被試能力參數(shù)分布服從正態(tài)分布N（0,1），或者均勻分布U[-3,+3]。將被試模擬服從均勻分布，可以使得能力兩端的被試數(shù)量與能力量尺中間的被試數(shù)量一樣多，減少在能力量尺兩端由于被試數(shù)量較少而帶來的樣本偏差。此外，有些研究為了充分比較，也將模擬能力參數(shù)為偏態(tài)的被試分布。②被試分布模擬實際測驗被試的分布。例如Sympson&Hetter（1985）獲取實測題庫的試題曝光率參數(shù)，此時進行CAT模擬的被試能力分布需要符合實際參加測試的被試分布。[6]③在能力區(qū)間[-4,+4]選擇有代表性能力水平的被試進行分析，例如Chang和Ansley（2003）在分析被試能力條件標(biāo)準誤情況時，選取了固定在-3.2至3.2之間的17個能力點進行分析。[7]此外，在有些研究中對被試能力區(qū)間分段，按被試的能力區(qū)間分別計算模擬結(jié)果的評價指標(biāo)。例如Rulison和Loken（2009）在分析各個能力水平被試的偏差時，將-3.25至3.25能力區(qū)間分為26段，并分別計算被試偏差情況。[8]

2.4 測試起點

在大多數(shù)CAT模擬研究中，能力起點從能力中點θ＝0.0開始。有些測驗為了研究的需要，選擇其他方式作為測試起點，在Barrada等（2009）的研究中，被試能力的測試起點從難度區(qū)間（-0.5,0.5）隨機選擇一個作為起點，這樣可以避免在能力中點θ＝0.0的試題過度曝光。[9]陳平、丁樹良等（2006）以隨機試探性3道試題作為CAT測試起點。[10]Ruli?son和Loken（2009）的研究中指定前2道試題答對或答錯作為CAT測試起點。[11]

2.5 作答模擬

被試作答數(shù)據(jù)的模擬是CAT模擬的核心環(huán)節(jié)，此步驟也就是使用蒙特卡洛模擬方法產(chǎn)生CAT測驗?zāi)M數(shù)據(jù)的環(huán)節(jié)。被試作答模擬，是指虛擬的被試按被試能力真值水平（或初始能力值）進行模擬試題作答過程，根據(jù)被試能力初始值θa（θa已知）與選擇出來的試題（a，b參數(shù)已知，使用三參數(shù)模型時c參數(shù)也需要已知），計算作答概率P，再由隨機函數(shù)命令生成一個隨機數(shù)φ（φ為0至1之間），比較P與φ的大小來確定被試得分。如果P大于φ，則被試作答正確；如果P小于φ，則被試作答錯誤。

如果是多級記分模型，以Samejima等級反應(yīng)模型為例，根據(jù)試題j難度參數(shù)bj,1，bj,2…，bj,Fj與被試能力真值，計算出中等能力被試在各個等級上的作答概率Paj,1，Paj,2…，Paj,Fj，并且有Paj,1＞Paj,2＞…＞Paj,Fj；由隨機函數(shù)產(chǎn)生一個隨機數(shù)φ，比較φ與Paj,1，Paj,2…，Paj,Fj的大小，如果Paj,Fj＞φ，則被試得分為Fj；如果Paj,1＜φ，則被試得分為0；如果Paj,1＜φ＜Paj,F（其中0＜x＜Fj），則被試得分為uaj=x。

2.6 選題策略

選題策略（包括試題曝光率控制和測驗交疊率控制）是計算機化自適應(yīng)測驗安全的核心步驟和關(guān)鍵環(huán)節(jié)，許多CAT研究都是圍繞選題策略和測驗安全控制進行CAT模擬。國內(nèi)外研究者已對眾多的CAT策略及其變式進行了概括梳理。毛秀珍、辛濤（2011）將CAT選題策略劃分為提高測量準確性的選題策略（進一步分為經(jīng)典項目選擇策略和現(xiàn)代項目選擇策略）和具有非統(tǒng)計約束的選題策略。[12]簡小珠、戴海崎、張敏強、彭春妹（2014）根據(jù)選題策略的基本原理與發(fā)展脈絡(luò)，將眾多的選題策略歸為五種：Fisher信息函數(shù)系列、K-LI信息函數(shù)系列、α分層系列、貝葉斯系列、b匹配系列，并給出了根據(jù)CAT測驗情境來選擇相應(yīng)的選題策略的建議。[13]Chang（2014）著重論述了CAT選題策略的基本原理與發(fā)展，包括Robbins–Monro選題策略、最大Fisher信息函數(shù)、α分層方法、Kullback–Leibler信息函數(shù)這四種基本選題策略的特點、優(yōu)勢，以及各種衍生選題策略。[14]

近年來在選題策略中的測驗交疊率控制是目前研究者進一步深入研究分析的熱點。針對被試間可能通過網(wǎng)絡(luò)或其他途徑分享試題而致試題被泄露，Yi,Zhang和Chang（2008）進行了模擬分析，發(fā)現(xiàn)在不同情境下α分層方法在消除試題分享、控制測驗交疊率方面都要優(yōu)于最大項目信息量方法。[15]Chen（2010）進一步將測驗交疊率細分為成對交疊率和一般交疊率，提出新測驗交疊率控制方法。由CAT模擬結(jié)果發(fā)現(xiàn)，此控制方法通過控制一般測驗交疊率,可以同時控制試題曝光率水平，以及控制成對測驗交疊率和適度提高題庫利用率。[16]Chen和Lei（2010）進一步將試題在被試之間的交疊分為三種類型：試題分享（item sharing）、無序試題交疊（unordered item pooling）、有序試題交疊（ordered item pooling），并提出以上三種情況下測驗交疊率與試題曝光率之間關(guān)系的算法。CAT模擬研究結(jié)果表明，在Sympson&Hetter的試題曝光率控制方法并結(jié)合測驗交疊率控制方法下，由試題分享而導(dǎo)致的測驗交疊率都低于無序試題交疊、有序試題交疊情況下的測驗交疊率。[17]Zhang,Chang和Yi（2012）的CAT模擬研究結(jié)果表明，當(dāng)題庫存在試題分享的情況時，與單一題庫設(shè)計相比，多層題庫設(shè)計下的試題曝光率相對較均勻，測量精度相對較高，被試分享試題在被試之間重疊的平均試題量，即測驗交疊率也相對較低。[18]Zhang（2014）提出了對被泄露的分享試題進行識別偵探的統(tǒng)計算法，由CAT模擬結(jié)果顯示，在CAT題庫測試過程中，此統(tǒng)計算法可以偵查出哪些試題可能是屬于被分享而泄露的試題。[19]

2.7 能力估計

CAT模擬中最主要的、常用的能力估計方法有極大似然估計方法（Maximum Likelihood Estimation，MLE）、期望能力估計方法（Expected a Posteriori Es?timation，EAPE）和極大后驗?zāi)芰烙嫹椒ǎ∕axi?mum a Posteriori Estimation，MAPE）三種。這三種基本方法發(fā)展出不同的變式。

Warm（1989）概括了MLE方法的多種變式，包括Biweight能力估計方法、Huber方法、邊際極大似然估計方法（Marginal Maximum Likelihood,MML）。[20]Schuster和Yuan（2011）提出MLE方法的變式Huber方法，當(dāng)被試作答出現(xiàn)擾動現(xiàn)象（包括猜測現(xiàn)象和睡眠現(xiàn)象）時，Huber方法可以實現(xiàn)被試能力的穩(wěn)健性估計。[21]

EAPE能力估計方法，除了EAPE的標(biāo)準分布之外還有多種變式，包括EAPE-N（0,2）方法（先驗分布均值為0，方差為2）、EAPE-N（0,1）方法、EAPEN（0,0.5）方法、EAPE-U（-4,4）（先驗分布為均勻分布）、EAPE負偏態(tài)分布。例如Rulison和Loken（2009）使用EAPE-N（0,2）方法、EAPE-N（0,1）方法、EAPE-N（0,0.5）方法，得出在CAT測試的后期階段EAPE-N（0,2）方法的能力估計準確性要優(yōu)于EAPE-N（0,1）方法、EAPE-N（0,0.5）方法。[22]一些研究者還使用了EAPE方法的其他變式，Chen（1996）在研究中使用能力估計方法EAPE-U（-4, 4）、EAPE負偏態(tài)分布的方法。[23]

MAPE的變式有WMAPE方法（Weighted Maxi?mum a Posteriori Estimation,WMAPE）。Sun,Tao, Chang和Shi（2012）提出了WMAPE估計方法，他們通過CAT模擬研究發(fā)現(xiàn)，WMAPE估計方法比MLE方法、MAPE方法和Jeffreys方法的偏差都要小。[24]此外，還有一些不常用的能力估計方法，包括Jack?knife方法、H-estimators方法，這些方法是被試能力估計方法中的穩(wěn)健性估計方法。[25]

2.8 測驗終止

CAT測驗終止的標(biāo)準主要有固定測驗長度和不固定測驗長度兩類。以固定測驗長度為終止標(biāo)準時，當(dāng)模擬作答試題數(shù)量達到規(guī)定的測驗長度便終止測驗。CAT模擬的固定測驗長度范圍一般為15～70題，多數(shù)研究在25～45題之間。當(dāng)CAT終止標(biāo)準為不固定測驗長度時，需要準則作為終止標(biāo)準，常用的準則包括標(biāo)準誤準則、最小信息量準則、貝葉斯最小方差變異準則。Choi,Grady和Dodd（2011）提出了新的測驗終止方法，即預(yù)測誤差減小方法（Predicted Standard Error Reduction，PSER），該方法以能力估計值的預(yù)測后驗方差為基礎(chǔ)，結(jié)合標(biāo)準誤終止準則并定義誤差減小的上限參數(shù)、下限參數(shù)。[26]

在CAT測試過程中，由標(biāo)準誤判斷準則給出測試可以“終止”信號。如果此時題庫中可以選擇一道測試試題使標(biāo)準誤差減小，而且減小量大于上限參數(shù)，試題給予被試測試，如果答對則測驗繼續(xù)；由標(biāo)準誤判斷準則給出測試需要“繼續(xù)”信號，如果此時題庫中選擇用來測試的試題能使標(biāo)準誤差減小，而且減小量大于下限參數(shù)，試題給予被試測試，如果被試答錯則測驗終止。Choi,Grady和Dodd（2011）在研究中比較分析標(biāo)準誤、最小信息量這兩個終止準則的優(yōu)缺點，并進一步提出PSER終止標(biāo)準。根據(jù)CAT模擬結(jié)果，PSER有較高的題庫利用率，當(dāng)測驗信息較小時，PSER終止時的測試題量比其他方法要少；當(dāng)測驗信息量較大時，PSER終止時的測量精度比其他方法要高。[27]

2.9 重復(fù)模擬

重復(fù)“2.4測試起點”至“2.8測驗終止”這五個步驟，對每個被試進行重復(fù)模擬測試。多數(shù)研究中重復(fù)次數(shù)為30次至5 000次，也有一些研究模擬的重復(fù)次數(shù)為10 000次及以上。相對來說，模擬次數(shù)越多，由模擬結(jié)果計算出來的評價指標(biāo)值則相對越穩(wěn)定，偏離性越小。因此，建議在CAT模擬研究中的重復(fù)次數(shù)應(yīng)該在5 000次以上。

2.1 0結(jié)果分析

在CAT測驗重復(fù)模擬后，需要對模擬數(shù)據(jù)進行統(tǒng)計分析。根據(jù)CAT研究的實際需要，研究者提出了多方面的評價指標(biāo)，概括起來大致有以下五個方面：①反映參數(shù)估計模擬返真性能的指標(biāo)，包括偏差（Bias）、均方根誤差RMSE（或均方誤差MSE）、平均絕對值誤差（MAE）、估計值與能力真值的相關(guān)系數(shù)、覆蓋百分率（Percentage Coverage of 95%Confi?dence Intervals，PCT）等。②反映測驗的測量準確性、測驗精度方面的評價指標(biāo)，包括標(biāo)準誤、測驗信息量等。③反映題庫安全性方面的評價指標(biāo)，包括試題最大曝光率觀測值、測驗交疊率、試題使用頻數(shù)的卡方統(tǒng)計量χ2、過度曝光試題的數(shù)量等。④反映題庫利用率方面的評價指標(biāo)，包括題庫中被調(diào)用試題所占的比例、題庫中所有試題調(diào)用次數(shù)的標(biāo)準差、從未調(diào)用試題的數(shù)量、曝光率低于0.02的試題量等。⑤反映測驗效率方面的評價指標(biāo)，包括平均測驗長度、人均用題量等評價指標(biāo)，測驗效率方面的指標(biāo)主要用于變長CAT中。

3 CAT模擬研究的發(fā)展趨勢

CAT模擬研究呈現(xiàn)以下幾方面的發(fā)展趨勢：

第一，CAT選題策略（包括試題曝光率控制、測驗交疊率控制）、終止方法過去十多年是CAT研究的熱點領(lǐng)域，今后也將依然是研究的重點領(lǐng)域。Barrada,Olea,Ponsoda等（2010）提出選題策略的比較方法，即在CAT模擬中以控制最大試題曝光率為自變量，分析其對測驗的精度（以RMSE為指標(biāo)）和測驗安全性（以O(shè)verlap為指標(biāo)）的影響，并用類似反函數(shù)曲線圖形表示測驗精度與測驗安全性之間的關(guān)系，[28]此分析方法可作為選擇CAT選題策略的一個參考依據(jù)。

第二，CAT模擬的測驗內(nèi)容更貼合測驗實際情境。在CAT測驗內(nèi)容的各個方面都盡量讓CAT模擬設(shè)計貼近實際情況，例如：①在IRT模型方面：近年來的CAT模擬研究中，一些研究者使用含有反映猜測現(xiàn)象、失誤現(xiàn)象的四參數(shù)模型，[29]也有一些研究者提出基于被試能力水平、含有猜測參數(shù)的單參數(shù)模型；[30]②在題庫參數(shù)方面：模擬成適合實際被試群體分布需求的題庫或者直接使用實際題庫參數(shù)；③在被試能力參數(shù)模擬方面：或者是模擬實際被試能力群體分布，或者是以代表性被試能力點來代表被試群體；④在選題策略方面：一些研究者提出結(jié)合多方面因素的模式，包括結(jié)合被試作答反應(yīng)時間來進行選題，通過收集每一道試題的被試作答反應(yīng)時間，從而提出結(jié)合被試作答反應(yīng)時間形成半?yún)?shù)化的選題策略模式。[31]

第三，CAT研究設(shè)計采取多因素設(shè)計，將IRT模型、題庫類型、被試能力分布、選題策略、能力估計方法、終止策略等進行多因素設(shè)計，這種多因素設(shè)計方法已成為目前CAT模擬研究的一種主要設(shè)計方式。例如：Murphy,Dodd和Vaughn（2010）使用3個選題策略×2個IRT模型×3個題組效應(yīng)水平，共計18種情境；[32]在Lin（2011）的研究中，分析了4個選題策略×3個試題內(nèi)容平衡和試題曝光率×3個置信區(qū)間長度×2個能力水平區(qū)域，共計72種情境；[33]在Yen,Ho,Laio等的研究中，設(shè)計了2個數(shù)學(xué)模型× 2種測驗初始階段作答情境，對于CAT模擬研究結(jié)果的平均值、標(biāo)準誤，采用方差分析方法進行比較檢驗，比較不同測驗條件下是否存在主效應(yīng)、交互效應(yīng)。[34]

第四，CAT模擬結(jié)果分析呈現(xiàn)一種多方面評價、多指標(biāo)綜合考慮的趨勢。目前CAT研究中往往需要綜合考慮測量精度、測驗與題庫安全、題庫利用率、測驗效率等多個測驗?zāi)繕?biāo)，因此研究者進一步提出了反映多測驗?zāi)繕?biāo)約束控制方面的評價指標(biāo)，計算CAT模擬測驗達到約束控制目標(biāo)的所占比例，或者被試在CAT測驗中未達到約束控制目標(biāo)的平均次數(shù)，這些評價指標(biāo)包括達到約束條件要求的測驗百分比、[35]約束條件違背的平均測驗數(shù)量，[36]被試平均違規(guī)次數(shù)[37]等。對多測驗?zāi)繕?biāo)約束控制和綜合評價是CAT模擬研究結(jié)果評價的一種趨勢。

[1][29][34]Yen,Y.,Ho,R.,Laio,W.,et al.An empirical evaluation of the slip correction in the four parameter logistic models with com?puterized adaptive testing[J].Applied Psychological Measurement, 2012,36（2）:75-87.

[2][4]Sands,W.A.,Waters,B.K.,&Mcbride,J.R.Computerized adaptive testing.From inquiry to operation[M].Washington,DC: American Psychological Association,1997:50-51.

[3]陳平，張佳慧，辛濤.在線標(biāo)定技術(shù)在計算機化自適應(yīng)測驗中的應(yīng)用[J].心理科學(xué)進展,2013,21（10）:1883-1892.

[5]Wagner-Menghin,M.M.,&Masters,G.N.Adaptive testing for psy?chological assessment:how many items are enough to run an adap?tive testing algorithm[J].Journal of Applied Measurement,2013,14（2）:106-117.

[6]Sympson,J.B.,&Hetter,R.D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.

[7]Chang,S.W.,&Ansley,T.N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Edu?cational Measurement,2003,40（1）:71-103.

[8][11][22]Rulison,K.L.,&Loken,E.I’ve Fallen and I Can’t Get Up: Can High Ability Students Recover from Early Mistakes in CAT? [J].Applied Psychological Measurement,2009,33（2）:83-101.

[9]Barrada,J.R.,Julio Olea,Ponsoda,V.,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C/OL]. [2015-10-15]//Proceedings of the 2009 GMAC Conference on Com?puterized Adaptive Testing.http:www.psych.umn.edu/psylabs/CAT?Central/:2009.

[10]陳平，丁樹良，林海菁，等.等級反應(yīng)模型下計算機化自適應(yīng)測驗選題策略[J].心理學(xué)報,2006,38（3）:461-467.

[12]毛秀珍，辛濤.計算機化自適應(yīng)測驗選題策略述評[J].心理科學(xué)進展,2011,19（10）:1552-1562.

[13]簡小珠，戴海崎，張敏強，等.CAT選題策略分類概述[J].心理學(xué)探新,2014,34（5）:446-451.

[14]Chang H.Psychometrics behind computerized adaptive testing[J]. Psychometrika,2015,80（1）:1-20.

[15]Yi,Q.,Zhang,J.M.,&Chang,H.H.Severity of organized item theft in computerized adaptive testing:A simulation study[J].Ap?plied Psychological Measurement,2008（32）:543-558.

[16]Chen,S.A procedure for controlling general test overlap in comput?erized adaptive testing[J].Applied Psychological Measurement, 2010,34（6）:393-409.

[17]Chen,S.Y.,&Lei,P.Investigating the relationship between item exposure and test overlap:Item sharing and item pooling[J].British Journal of Mathematical and Statistical Psychology,2010（63）: 205-226.

[18]Zhang,J.,Chang,H.,&Yi,Q.Comparing single-pool and multi?ple-pool designs regarding test security in computerized testing[J]. Behavior Research Methods,2012（44）:742-752.

[19]Zhang,J.A Sequential Procedure for Detecting Compromised Items in the Item Pool of a CAT System[J].Applied Psychological Measurement,2014,38（2）:105-121.

[20][25]Warm,T.A.Weighted likelihood estimation of ability in item response theory[J].Psychometrika,1989（54）:427-450.

[21]Schuster,C.,&Yuan,K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statis?tics,2011,36（6）:720-735.

[23]Chen,S.The comparison of maximum likelihood estimation and ex?pected a posteriori in CAT using the graded response model[J].國教學(xué)報,1996（19）:339-371.

[24]Sun,S.,Tao,J.,Chang,H.,et al.Weighted Maximum-a-Posteriori Estimation in Tests Composed of Dichotomous and Polytomous Items [J].Applied Psychological Measurement,2012,36（5）:399-419.

[26][27]Choi,S.W.,Grady,M.W.,&Dodd,B.G.A New Stopping Rule for Computerized Adaptive Testing[J].Educational and Psy? chological Measurement,2011,71（1）:37-53.

[28]Barrada,J.R.,Olea,J.,Ponsoda,V.,et al.A Method for the Com?parison of Item Selection Rules in Computerized Adaptive Testing [J].Applied Psychological Measurement,2010,34（6）:438-452.

[30]Martín,E.S.,Del Pino,G.,&De Boeck,P.IRT Models for Abili?ty-Based Guessing[J].Applied Psychological Measurement,2006, 30（3）:183-203.

[31]Fan,Z.,Wang,C.,Chang H.,et al.Utilizing Response Time Distri?butions for Item Selection in CAT[J].Journal of Educational and Behavioral Statistics.2013,38（4）:381-417.

[32]Murphy,D.L.,Dodd,B.G.,&Vaughn,B.K.A Comparison of Item Selection Techniques for Testlets[J].Applied Psychological Measurement,2010,34（6）:424-437.

[33]Lin,C.Item Selection Criteria with Practical Constraints for Com?puterized Classification Testing[J].Educational and Psychological Measurement,2011,71（1）:20-36.

[35]Shin,C.D.,Chien,Y.,Way,W.D.,et al.Weighted Penalty Model for Content Balancing in CATS 2009[R/OL].[2015-10-15].http:// www.pearsonedmeasurement.com/downloads/research/Weighted% 20Penalty%20Model.pdf.

[36]Cheng,Y.,&Chang,H.The maximum priority index method for se?verely constrained item selection in computerized adaptive testing [J].British Journal of Mathematical and Statistical Psychology, 2009（62）:369-383.

[37]潘奕嬈,丁樹良,尚志勇.改進的最大優(yōu)先級指標(biāo)方法[J].江西師范大學(xué)學(xué)報（自然科學(xué)版），2011,35（2）:213-215.

The Research Paradigm and New Developments Direction of Computerized Adaptive Testing Simulation

JIAN Xiaozhu,DAI Buyun&CHEN Ping

Computerized Adaptive Testing（CAT）is widely used in the theory and practice of the educational tests. In this paper,the CAT research paradigm was summarized as two categories,including the actual CAT research paradigm and the CAT simulation research paradigm.The CAT simulation research in the literatures could be divided into three kinds of CAT simulation forms.To sum up all the CAT simulation research literature,the CAT simulation method comprises of ten components,including the choice of the IRT model,the simulating the item pool,the starting point of CAT,item selection strategies,test termination rules,etc.This paper also summarizes some new developments and future research direction of CAT simulation.Firstly,the item selection strategies and the test termination rules are still the research hotspot.Secondly,the test design of CAT simulation is dealt with and is close to the actual situation.The multi-factor experimental design was adopted in CAT simulation.The research results of the simulation tests are evaluated on multiple attributes in CAT simulation.

Item Response Theory;Computerized Adaptive Testing;CAT Simulation

G405

1005-8427（2016）01-0016-7

本文系江西省社會科學(xué)規(guī)劃青年項目（批準號：13JY47）的研究成果之一。

簡小珠，男，井岡山大學(xué)教師教育研究中心，副教授；江西師范大學(xué)心理學(xué)院，江西省心理與認知科學(xué)重點實驗室，博士后（江西吉安 343009）

戴步云，男，華南師范大學(xué)心理學(xué)院，在讀博士（廣州 560631）

陳平，男，北京師范大學(xué)認知神經(jīng)科學(xué)與學(xué)習(xí)國家重點實驗室，副教授（北京 100875）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

計算機化自適應(yīng)測驗?zāi)M方法的研究范式與特點

1 CAT模擬研究范式的分類

2 CAT模擬方法的步驟與特點

3 CAT模擬研究的發(fā)展趨勢