另外, 將模擬生成的θ和b截取在?3至3之間,a介于0.2至2.0之間。模擬的3個被試樣本以及題庫的描述統(tǒng)計量如表1所示。模擬生成的a與b之間的相關(guān)系數(shù)等于0.2507, 與預(yù)設(shè)的真值0.25非常接近。
3.2 新題生成
對每種測驗情境, 都模擬生成20個新題(m=20)。為了減少隨機誤差, 對包括生成新題、模擬被試在新題上的作答以及標(biāo)定新題的整個過程重復(fù)100次(rep=100)。另外, 模擬新題參數(shù)的方法與模擬舊題參數(shù)的方法相同, 也是從(19)式所示的先驗分布中隨機抽取。同樣, 新題的a介于0.2至2.0之間,b介于?3至3之間。
3.3 CAT全過程模擬程序描述
從初始題的選擇方法、選題策略、能力估計方法以及終止規(guī)則等方面對CAT全過程的模擬進(jìn)行描述:(1)一開始對被試能力一無所知, 所以將每名被試的能力值初始化為0 (即=0); (2)基于被試的能力估計值, 采用最大費舍信息量方法從題庫或剩余題庫中選擇第一個或下一個最適合被試作答的題目施測被試; (3)根據(jù)當(dāng)前被試的能力真值以及當(dāng)前題目的參數(shù)真值基于2PLM計算正確作答概率P, 然后將P與從均勻分布U(0,1)中隨機抽取的小數(shù)z進(jìn)行比較。如果P≥z, 模擬作答為1; 否則, 模擬作答為0; (4)被試完成對每個題目的作答后, 對被試能力的更新分為兩種情況:當(dāng)測驗長度較短(比如小于5)或出現(xiàn)全0或全1的作答模式時, 采用后驗期望法(Expected A Posteriori, EAP)更新被試的能力估計值; 否則, 采用MLE方法對進(jìn)行更新; (5)采用固定長度的終止規(guī)則, 并且預(yù)設(shè)測驗長度分別為t=10,20和30。也即上述的題目選擇、作答模擬以及能力估計等過程不斷重復(fù), 直至測驗長度達(dá)到t為止, 結(jié)束測驗。
在模擬CAT時還有一些重要細(xì)節(jié)值得強調(diào):(1)在實現(xiàn)EAP時, 假設(shè)能力的先驗分布為標(biāo)準(zhǔn)正態(tài)分布, 并且在[?3, 3] 上均勻抽取61個積分結(jié)點3選取61個積分結(jié)點的理由是:在預(yù)研究中, 我們考查了3種不同積分結(jié)點數(shù) (分別為21個、41個和61個) 對EAP估計精度的影響。結(jié)果發(fā)現(xiàn), 使用21個積分結(jié)點的精度最差, 采用41個結(jié)點已經(jīng)可以得到較高的估計精度, 但為了保險起見, 還是選取61個結(jié)點。(S=61), 于是步長step=6(S?1)=0.1, 積分結(jié)點qs=(?3)+(s?1)×step以及與之相伴隨的權(quán)重; (2)在實現(xiàn)MLE時, 采用牛頓?拉夫遜方法(Newton-Raphson, N-R)與二分法相結(jié)合的方式求解非線性方程。而且在具體編程時, 一般先采用速度較慢的二分法尋找包括零點的區(qū)間, 待找到后再換用迭代速度較快的N-R (迭代精度設(shè)為0.001); (3)不管是采用EAP還是MLE, 都將最終的能力估計值截取在[?3, 3] 之間。也即, 當(dāng)能力估計值大于3時, 將其賦值為3; 當(dāng)能力估計值小于?3時, 將其賦值為?3。
3.4 在線標(biāo)定實施程序描述
由于在線標(biāo)定包括在線標(biāo)定設(shè)計與在線標(biāo)定方法兩個重要環(huán)節(jié)(陳平等, 2013), 所以接下來分別對兩者的實施細(xì)節(jié)進(jìn)行描述。
3.4.1 在線標(biāo)定設(shè)計描述
考慮到隨機在線標(biāo)定設(shè)計實施起來非常方便而且能夠提供準(zhǔn)確穩(wěn)定的標(biāo)定結(jié)果(比如Ban et al.,2001; Chen et al., 2012), 本研究在CAT測驗過程中采用隨機在線標(biāo)定設(shè)計將新題分配給被試作答。具體而言, 首先從由20個新題組成的新題集中隨機選擇5個新題(即C=5), 然后將它們置于被試CAT的隨機位置。另外, 由于參與作答每個新題的被試數(shù)會影響新題的標(biāo)定精度, 因此參照Chen等人(2012)的做法, 本研究也將作答每個新題的被試數(shù)都控制在平均水平——(N×C)m, 也即對于3種樣本大小, 作答每個新題的被試數(shù)分別控制在250((1000× 5)20)、500((2000× 5)20)和750((3000× 5)/20)。這可以通過預(yù)先構(gòu)建一個行和都等于C、列和都等于(N×C)m的隨機矩陣V=(vij)N×m來實現(xiàn),其中vij用于標(biāo)識被試i是否會作答新題j。vij=1表示被試i會作答新題j, 否則vij=0。以3000的樣本大小為例, 簡單說明V的構(gòu)建方法:首先構(gòu)建大小為(m C)×m(即4× 20)的基本矩陣單元VB
其中?表示克羅內(nèi)克積(kronecker product)符號,易知VB的行和都等于C(即5)、列和都等于1。所以, 如果將(N×C)m(即750)個VB縱向合并(或?qū)?右邊的行向量換成大小為750× 5且元素全由1組成的矩陣)然后隨機調(diào)換行的位置、列的位置, 即可得到行和都等于C、列和都等于(N×C)m的矩陣V。對于1000和2000的樣本大小, V的構(gòu)建方法類似。
3.4.2 在線標(biāo)定方法實施程序描述
CAT測驗結(jié)束后, 計算機已經(jīng)收集所有被試在舊題上的作答以及在新題上的作答,根據(jù)與已知的舊題參數(shù)還可計算所有被試的能力估計值以及相對應(yīng)的能力估計誤差方差。接下來, 再使用本文討論的5種方法對新題進(jìn)行標(biāo)定。注意在具體實施不同方法時, 可能會用到上述的不同信息。比如, 對于Method A (True), 只需要被試能力真值就能標(biāo)定新題; 而對于Method A (Original), 需要用于新題標(biāo)定; 對于FFMLE- Method A和ECSE-Method A, 則需要用到以及Method A (Original)得到的估計結(jié)果等信息; 實施MEM需要用到以及等信息。
本文討論的5種方法在算法層面都需要使用N-R迭代, 而且預(yù)研究(未考慮新題參數(shù)的先驗分布)還發(fā)現(xiàn):當(dāng)用于標(biāo)定新題的被試數(shù)較少(比如本文1000的樣本大小所對應(yīng)的250)時, 容易出現(xiàn)迭代不收斂的情況。為了解決此問題, 本研究將貝葉斯眾數(shù)估計(Bayes Modal Estimation) (Mislevy,1986) 的思路融入到這5種方法中, 即使用貝葉斯版本的在線標(biāo)定方法, 也即在標(biāo)定過程中考慮新題參數(shù)的貝葉斯先驗。雖然以往有些研究(比如Ban et al.,2001)使用固定的貝葉斯先驗, 但在在線標(biāo)定情境下, Wainer和Mislevy (1990)提出更為合理的方案:首先對題庫中所有舊題的參數(shù)分布進(jìn)行分析, 然后將其作為新題參數(shù)的先驗分布?;诖? 本文將(19)式所示的舊題參數(shù)先驗分布作為新題參數(shù)的先驗分布, 記為g(γ)。值得注意的是, 貝葉斯版本的在線標(biāo)定方法較原始版本方法的變化僅在于:在對數(shù)似然函數(shù)項(對于前4種方法)或?qū)?shù)邊際似然函數(shù)項(對于MEM)后面都增加了貝葉斯先驗項——lng(γ)(詳見Baker & Kim, 2004; Zheng, 2014)。
其中函數(shù)norminv(?)用于計算標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)的逆,prj表示作答新題j的所有被試在該題上的通過率,aμ是舊題a參數(shù)的先驗均值。
3.5 評價指標(biāo)
對于每種測驗情境, 采用均方根誤差(Root
Mean Squared Error, RMSE)、偏差(Bias)以及皮爾遜相關(guān)系數(shù)(r)評價CAT的能力估計精度, 使用RMSE、Bias、r以及加權(quán)均方誤差(Weighted MSE,WMSE)評價各種方法的標(biāo)定精度。采用最小EM循環(huán)數(shù)(Min_Cycle)、最大EM循環(huán)數(shù)(Max_Cycle)、平均EM循環(huán)數(shù)(Mean_Cycle)評價MEM的標(biāo)定效率, 使用平均程序運行時間(Mean_Time)評價各種方法的標(biāo)定時間。
3.5.1 均方根誤差
3.5.2 偏差
Bias指標(biāo)中各符號的含義同RMSE指標(biāo), 兩者都是越小越好。
3.5.3 加權(quán)的均方誤差
該指標(biāo)用于評價題目參數(shù)的總體返真性, 具體計算估計的項目特征曲線(Item Characteristic Curves, ICCs)與真實ICCs的平均加權(quán)面積差異。
3.5.4 最小/最大/平均EM循環(huán)次數(shù)
因為MEM一般需要多次EM循環(huán)才能滿足收斂標(biāo)準(zhǔn), 所以記錄這些指標(biāo)以評價MEM的標(biāo)定效率。
其中EM_Cycle(c)是第c次重復(fù)時MEM所需的EM循環(huán)次數(shù), 函數(shù)min(?)、max(?)和round(?)分別用于求取最小值、最大值和四舍五入值。這3個值都是越小越好, 說明效率越高。
3.5.5 平均程序運行時間
該指標(biāo)用于反映采用每種方法標(biāo)定所有新題的平均計算時間, 單位是秒。
其中Running_Time(c)表示第c次重復(fù)時運行某種在線標(biāo)定方法程序所用的時間。值越小說明標(biāo)定效率越高。
另外, 本研究還使用r衡量能力(題目)參數(shù)估計值與真值間線性關(guān)系的程度大小,r值越高說明能力估計精度或題目標(biāo)定精度越高。
4 結(jié)果與結(jié)論
4.1 結(jié)果
本文從三個方面對研究結(jié)果(如表2至表7所示)進(jìn)行分析:(1)不同測驗情境下CAT的能力估計精度; (2)不同測驗情境下各種方法的標(biāo)定精度; (3)不同測驗情境下各種方法的標(biāo)定效率。
4.1.1 CAT的能力估計精度
表2描述的是在9種測驗情境下模擬的CAT測驗的能力估計精度。由表中數(shù)據(jù)可知, 所有測驗情境下得到的Bias都非常接近0, 范圍從0.0002到0.0146。而且不管樣本量有多大, RMSE都隨測驗長度的增加而嚴(yán)格單調(diào)遞減,r都隨測驗長度的增加而嚴(yán)格單調(diào)遞增。比如, 對于1000的樣本大小, 當(dāng)測驗長度從10增加到30時, RMSE分別為0.3615、0.2635和0.2253; 對于3000的樣本大小, 當(dāng)測驗長度從10增加到30時,r從0.9360增加到0.9757??傮w來講, 模擬的CAT能夠為被試提供準(zhǔn)確的能力估計值。
4.1.2 在線標(biāo)定方法的標(biāo)定精度
表3至表5呈現(xiàn)的分別是測驗長度為10、20和30時不同樣本量下各種方法的標(biāo)定精度結(jié)果。為了描述方便, 分別將Method A (True)、Method A(Original)、FFMLE-Method A、ECSE-Method A以及MEM記為M1至M5。值得強調(diào)的是, 對于樣本量N=1000、2000和3000, 分別有250、500和750名被試參與每個新題的標(biāo)定。而且在所有測驗情境下的所有100次重復(fù)中, 5種方法的迭代程序都正常收斂, 這說明使用貝葉斯版本的在線標(biāo)定方法可以避免N-R迭代不收斂的問題。
表2 不同測驗情境下CAT的能力估計結(jié)果
由表3可以看出, 3種樣本量下的Bias都非常接近0, 范圍從?0.0985到0.0072, 這說明估計的題目參數(shù)與真實題目參數(shù)間的平均差異較小, 對題目參數(shù)的修復(fù)能力較強。另外, 將兩種新方法M3和M4與M2進(jìn)行比較, 可以發(fā)現(xiàn):(1)從題目參數(shù)的總體返真性來看, M3和M4的WMSE與M5的值相同, 而且都一致小于M2的WMSE, 這說明對能力估計誤差進(jìn)行校正可以改進(jìn)Method A的標(biāo)定精度,符合預(yù)期假設(shè); (2)當(dāng)樣本量為1000時(nj=250),M3和M4在a上的RMSE (分別為0.1616和0.1678)明顯小于M2的值(0.1943), 但在b上的標(biāo)定精度有微小的降低(相對于M2, M3和M4在a上的RMSE降低16.83%和13.64%、而在b上的RMSE僅增加1.02%和1.36%)。但是當(dāng)樣本量增加到2000和3000時(nj=500和750), M3和M4較M2的優(yōu)勢開始突顯, M3和M4在a和b上的RMSE都明顯小于M2的相應(yīng)值。這說明當(dāng)樣本量足夠大時, FFMLE和ECSE的優(yōu)良性質(zhì)得到充分體現(xiàn), 這與 Stefanski和Carroll (1985)的研究結(jié)果一致; (3)盡管M3與M4的表現(xiàn)比較接近, 但還是可以看出M3總體上優(yōu)于M4, 這說明使用(16)式對能力估計誤差進(jìn)行校正比使用(17)式進(jìn)行校正能夠獲得更準(zhǔn)確的標(biāo)定結(jié)果。而且M3的表現(xiàn)已經(jīng)非常接近于性能最優(yōu)的M5; (4)樣本量越大, RMSE和WMSE都越小、r越大, 說明標(biāo)定精度越高。
當(dāng)測驗長度由10增加到20時, CAT提供的能力估計精度已有較大幅度的提高(詳見表2), 留給M3和M4“通過校正能力估計誤差改進(jìn)標(biāo)定精度”的空間就更小了。于是可以預(yù)見M3和M4較M2的改進(jìn)幅度相對于測驗長度為10時會更小一些,這通過觀察表4中數(shù)據(jù)可以得到證實, 具體體現(xiàn)在:(1) M2、M3、M4與M5的WMSE已基本相同(特例是:當(dāng)樣本量為2000時, M2的WMSE稍高一點); (2)在所有3種樣本量下, M3和M4在a上的RMSE都比M2的稍低一些, 然而它們在b上的RMSE都要比M2的稍高一些。至于為什么這兩種新方法不能像游曉鋒等人(2010)的方法一樣可同時改進(jìn)a和b的估計精度, 原因可能是:a本質(zhì)上是2PLM中θ的回歸系數(shù), 非常容易受到θ的測量誤差的影響; M3與M4對中蘊含的測量誤差進(jìn)行校正, 從而可提高a的標(biāo)定精度, 但是并未采取類似于“夾逼平均法” (游曉鋒等, 2010)的任何措施以提高b的標(biāo)定精度??傮w而言, M3和M4的表現(xiàn)還是優(yōu)于M24當(dāng)樣本量為1000時, 相對于M2, M3和M4在a上的RMSE降低4.04%和4.11%、而在b上的RMSE只增加0.78%和0.82%; 當(dāng)樣本量為2000時, 相對于M2, M3和M4在a上的RMSE降低9.59%和9.34%、而在b上的RMSE只增加1.88%和1.94%; 當(dāng)樣本量為3000時, 相對于M2, M3和M4在a上的RMSE降低11.84%和11.93%、而在b上的RMSE只增加3.05%和3.37%。所以, 如果將a和b的標(biāo)定精度看成同等重要的話, M3和M4的表現(xiàn)在總體上優(yōu)于M2。; (3) M4的表現(xiàn)與M3和M5的表現(xiàn)已非常接近。一種可能的解釋是:M4受測驗長度的正面影響(即測驗長度越長, M4的相對表現(xiàn)更好)可能較M3更大一些; (4)隨著樣本量的增大, 標(biāo)定精度也提高。另外, 3種樣本量下的Bias也都非常接近0,范圍是從?0.0421到0.0161。
表3 測驗長度為10時不同樣本量下各種方法的標(biāo)定結(jié)果
表4 測驗長度為20時不同樣本量下各種方法的標(biāo)定結(jié)果
隨著測驗長度增加到30, CAT的能力估計精度進(jìn)一步提高, 留給M3和M4的改進(jìn)空間進(jìn)一步減小, 主要表現(xiàn)在以下方面:(1) M2、M3、M4與M5在3種樣本量下的WMSE完全相等; (2)當(dāng)用于標(biāo)定新題的被試數(shù)較少時(nj=250), 相對于M2, M3沒有改進(jìn)標(biāo)定精度。只有當(dāng)nj達(dá)到500甚至是750時,M3通過校正能力估計誤差在a上可以小幅度改進(jìn)M2的標(biāo)定精度; (3)注意當(dāng)測驗長度達(dá)到30且樣本量為2000和3000時, M4已經(jīng)成為總體上表現(xiàn)最好的方法5當(dāng)樣本量為2000時, 相對于M2, M4在a上的RMSE降低2.85%、而在b上的RMSE增加2.23%; 當(dāng)樣本量為3000時, 相對于M2, M4在a上的RMSE降低3.49%、而在b上的RMSE增加2.94%。同樣,如果將a和b的標(biāo)定精度看成同等重要的話, M4的表現(xiàn)在總體上優(yōu)于M2。, 這進(jìn)一步證實M4受測驗長度的正面影響較大。另外, 樣本量越大, 標(biāo)定精度也越高。而且3種樣本量下的Bias也都非常接近0, 范圍從?0.0153到0.0238。
4.1.3 在線標(biāo)定方法的標(biāo)定效率
表6描述的是9種測驗情境下關(guān)于MEM方法EM循環(huán)次數(shù)的統(tǒng)計結(jié)果。從表中可以看出, 在所有測驗情境下, MEM的標(biāo)定效率都比較高, 最多只需要7次EM迭代就能滿足收斂標(biāo)準(zhǔn), 最少只需要3次迭代就能收斂, 平均迭代次數(shù)為6次(當(dāng)測驗長度為10時)或4次(當(dāng)測驗長度為20和30時)。而且還可以發(fā)現(xiàn):MEM所需的EM迭代次數(shù)受樣本量影響不大, 但會受測驗長度的影響, 比如當(dāng)測驗長度增加時, 最大迭代次數(shù)單調(diào)遞減(注意有一個特例, 即當(dāng)測驗長度為30且樣本量為2000時, 最大迭代次數(shù)是5)。這主要是因為如果被試作答更多的舊題, 在MEM的E步中就可以得到更精確的能力后驗分布, 從而導(dǎo)致更快的收斂。
表5 測驗長度為30時不同樣本量下各種方法的標(biāo)定結(jié)果
表6 不同測驗情境下MEM的EM循環(huán)次數(shù)結(jié)果
表7呈現(xiàn)的是在9種測驗情境下各種方法的平均運行時間。從表中容易看出, 在所有測驗情境下,Method A類4種方法(M1、M2、M3和M4)的標(biāo)定效率都很高, 整個標(biāo)定過程在瞬間完成, 平均用時不到0.02秒。而且還可以發(fā)現(xiàn):相對于M1和M2,M3和M4所花的時間稍多一點, 這主要是因為M3和M4首先在M2的基礎(chǔ)上對能力?θ中包含的測量誤差進(jìn)行校正, 然后再基于M2標(biāo)定新題。相比之下, MEM的算法更復(fù)雜, 所需的平均運行時間明顯更多(范圍在6.0827秒與21.0330秒之間), 所花時間約為其他4種方法的544倍至1618倍之間。盡管如此, MEM這種運行時間上的增加并不具有顯著的實際意義, 因為即使采用算法最復(fù)雜的MEM也只需22秒不到的時間即可完成標(biāo)定任務(wù)。但是當(dāng)將這些方法推廣到多維CAT情境時, Method A類4種方法較MEM的時間優(yōu)勢就開始突顯。在一項預(yù)研究中發(fā)現(xiàn):Method A類4種方法的多維版本只需2秒以內(nèi)的時間即可完成標(biāo)定, 而MEM的多維版本則需要長達(dá)1至2個小時的運行時間, 這在實踐中可能難以接受。
表7 不同測驗情境下各種方法的平均運行時間
4.2 結(jié)論
基于上述研究結(jié)果, 可以得出以下結(jié)論:
(1)當(dāng)CAT測驗長度較短或中等時(比如t=10或t=20), MEM總體上表現(xiàn)最優(yōu)。新方法FFMLE-Method A和ECSE-Method A較Method A總體上可以改進(jìn)標(biāo)定精度(t=10時的改進(jìn)幅度最大), 而且與MEM的表現(xiàn)非常接近6其實在標(biāo)定新題的過程中, MEM也和兩種新方法一樣對能力估計誤差進(jìn)行了控制。具體表現(xiàn)在:MEM在M步中是通過最大化對數(shù)邊際似然函數(shù)來估計新題參數(shù), 而邊際似然函數(shù)是在聯(lián)合似然函數(shù)的基礎(chǔ)上通過積分把能力θ積掉而得到。所以從本質(zhì)上講, MEM通過積掉θ來控制能力的估計誤差。。所以, 在實踐中如果對運行時間有較高要求的話, 強烈建議選擇兩種新方法中表現(xiàn)相對更好的FFMLE-Method A作為在線標(biāo)定方法; 否則, 建議使用MEM。
(2) 當(dāng)CAT測驗長度較長(比如t=30)且樣本量較大(比如N=2000和3000)時, 建議使用總體表現(xiàn)最好且標(biāo)定效率較高的ECSE-Method A;
(3) 在CAT新題標(biāo)定過程中融入新題參數(shù)的先驗信息, 能夠避免迭代算法不收斂的問題;
(4) MEM的標(biāo)定效率較高, 在不同條件下只需3至7次EM迭代就能滿足收斂標(biāo)準(zhǔn);
(5) 模擬的CAT可為被試提供準(zhǔn)確的能力估計值。
5 討論及今后的研究方向
Quellmalz和Pellegrino (2009)著重強調(diào)在線測驗在大規(guī)模評價項目中的重要作用, 比如國際學(xué)生評價項目(PISA)以及美國教育進(jìn)展評估(NAEP)都計劃使用計算機施測或已經(jīng)使用計算機呈現(xiàn)閱讀材料。目前美國已有超過27個州(包括Maryland、North Carolina和Oregon等)在州范圍或?qū)W期末的測驗中使用在線測驗形式。另外, 作為2001年美國小布什政府“不讓一個小孩掉隊” (No Child Left Behind)法案的擴展, 2009年奧巴馬政府頒布的“力爭上游” (Race to the Top)法案要求美國基礎(chǔ)教育階段(K-12)的州測評必須是計算機化的而且應(yīng)該使用創(chuàng)新的題型。因此, 由23個州組成的共同體——“大學(xué)與職業(yè)準(zhǔn)備測評聯(lián)盟” (Partnership for Assessment of Readiness for College and Career,PARCC)正在緊鑼密鼓地準(zhǔn)備他們的在線州測評,而由另外25個州組成的“智能均衡測評聯(lián)盟”(Smarter Balanced Assessment Consortium, SBAC)也正在積極合作為其州測評設(shè)計CAT (Zheng,2014)。這些都為CAT中的在線標(biāo)定技術(shù)提供了良好的發(fā)展前景。
Method A是最早提出的、最簡單的CAT在線標(biāo)定方法。針對Method A的理論缺陷, 本文將FFMLE和ECSE與Method A相結(jié)合得到兩種新方法——FFMLE-Method A和ECSE-Method A, 它們借鑒FFMLE和ECSE的誤差校正思路從理論上對被試的能力估計誤差進(jìn)行校正。為了考察兩種新方法的表現(xiàn), 本研究在多種測驗情境下將它們與Method A (True)、Method A (Original)和MEM進(jìn)行比較, 得到一些有意義的結(jié)果, 比如:(1)通過對能力估計誤差進(jìn)行校正, 新方法在大多數(shù)實驗條件下總體上可以改進(jìn)Method A的標(biāo)定精度; (2)當(dāng)CAT測驗長度較短(比如10題)時, 新方法對Method A的改進(jìn)程度最大7由2.3節(jié)對兩種新方法的描述可知:當(dāng)t→∞時, →, 因此當(dāng)nj足夠大時, 兩種新方法的統(tǒng)計量具有優(yōu)良統(tǒng)計特性。然而對于較短的測驗長度 (比如t=10), 上述假設(shè)會受到某種程度的違背,但這時新方法對Method A的改進(jìn)程度最大, 一種可能的原因是:測驗較短時, CAT提供的能力估計精度較低, 留給改進(jìn)的空間就比較大, 因此新方法通過校正能力估計誤差改進(jìn)標(biāo)定精度的幅度也較大;而違背上述假設(shè)受到的懲罰可能稍小一些。歡迎在今后的研究中對此有更為嚴(yán)格的解釋。; (3)由于考慮新題參數(shù)的先驗信息, 所有在線標(biāo)定程序的N-R迭代全部收斂。但是,本文還存在一些不足值得今后進(jìn)一步探討:
首先, 從嚴(yán)格意義上講, 所有在線標(biāo)定方法(包括Method A)的標(biāo)定精度都會受到題庫中舊題參數(shù)的估計誤差的影響。換句話說, 在構(gòu)建CAT題庫時, 題庫中每個題目的參數(shù)都估計自某個標(biāo)定樣本, 因此都存在某種程度的估計誤差(Cheng,2008)。這部分的誤差除了會傳遞到接下來的評分過程中, 對評分樣本的能力估計產(chǎn)生影響并低估能力估計的標(biāo)準(zhǔn)誤(Cheng & Yuan, 2010); 也會傳遞到MEM中E步和M步的相關(guān)計算中。本文提出的新方法(FFMLE-Method A和ECSE-Method A)在標(biāo)定新題的過程中僅對能力估計誤差進(jìn)行校正, 如果還能夠首先校正舊題參數(shù)的估計誤差(也即對兩類誤差都進(jìn)行校正), 意義將不言而喻。另外, 本文討論的FFMLE和ECSE能否用于對舊題參數(shù)的估計誤差進(jìn)行校正, 也有待進(jìn)一步的研究。
其次, Chen等人(2012)將Method A推廣至認(rèn)知診斷CAT (CD-CAT)領(lǐng)域(記為CD-Method A)。類似于Method A, CD-Method A也具有理論缺陷, 即將被試知識狀態(tài)(KS)估計值視為KS真值, 這樣KS的估計誤差也會傳遞到對新題的標(biāo)定過程中。因此,今后值得研究的一個新方向是將FFMLE和ECSE應(yīng)用于CD-Method A, 并對KS的估計誤差進(jìn)行校正。需要指出的是, 不同于CAT中的待估能力是一維的連續(xù)變量, CD-CAT中待確定的KS是多維的二分離散變量, 這使得對KS估計誤差的校正會更加復(fù)雜。而且在DINA等認(rèn)知診斷模型中, FFMLE和ECSE是否仍具有優(yōu)良的統(tǒng)計特性也有待進(jìn)一步的考證。另外, 汪文義、丁樹良和游曉鋒(2011)討論在CD-CAT測驗過程中植入新題時, 同樣考慮了KS的估計誤差, 并提出邊際MLE (MMLE)方法對屬性進(jìn)行標(biāo)定。Chen, Liu和Ying (2015)提出的“單個題目標(biāo)定方法” (SIE)也考慮了KS估計的不確定性, 并成功應(yīng)用于新題參數(shù)和新題屬性向量的同時估計。因此, 另一個有趣的問題是探索如何將MMLE和SIE方法應(yīng)用于KS估計誤差的校正中。
再次, 盡管本文提出的兩種新方法能夠克服Method A的理論缺陷、并改進(jìn)Method A的標(biāo)定精度, 但是它們需要在較大樣本的前提下才能表現(xiàn)出較好的效果(也即當(dāng)作答每個新題的被試數(shù)量nj=500和750時, 新方法的標(biāo)定精度才開始突顯;與此對應(yīng)的總被試樣本量N=2000和3000, 因為N=nj×(m C)且采用的是隨機在線標(biāo)定設(shè)計), 而大樣本的收集在真實測驗情境中往往會比較困難,所以這是新方法的局限性之一。今后應(yīng)當(dāng)重點考慮如何在小樣本情境下改進(jìn)Method A的標(biāo)定缺陷。
最后, 為了討論方便本文僅考慮固定長度的CAT終止規(guī)則, 今后還可以在變化長度的CAT測驗情境中探討新方法FFMLE-Method A和ECSE-Method A相對于Method A和MEM的表現(xiàn)。另外, 在更為復(fù)雜的CAT測驗情境下考查FFMLE-Method A和ECSE-Method A的表現(xiàn)也是值得探索的研究方向, 比如能夠滿足題目曝光控制、內(nèi)容均衡以及題目類型均衡等非統(tǒng)計約束條件的CAT、允許檢查并修改答案的CAT等。
Baker, F. B., & Kim, S. H. (2004).Item response theory: Parameter estimation techniques(2nded.). New York: Dekker.
Ban, J.-C., Hanson, B. A., Wang, T. Y., Yi, Q., & Harris, D. J.(2001). A comparative study of on-line pretest item—calibration/scaling methods in computerized adaptive testing.Journal of Educational Measurement, 38(3), 191–212.
Ban, J.-C., Hanson, B. A., Yi, Q., & Harris, D. J. (2002). Data sparseness and on-line pretest item calibration-scaling methods in CAT.Journal of Educational Measurement,39(3), 207–218.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R.Novick (Eds.),Statistical theories of mental test scores(pp.379–479). Reading, MA: Addison-Welsey.
Carroll, R. J., Ruppert, D., Stefanski, L. A., & Crainiceanu, C.M. (2006).Measurement error in nonlinear models: A modern perspective(2nded.). London: Chapman and Hall.
Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),Computers and their impact on state assessments:Recent history and predictions for the future(pp. 195–226).Charlotte, NC: Information Age.
Chang, H. H. (2015). Psychometrics behind computerized adaptive testing.Psychometrika, 80(1), 1–20.
Chang, H. H., Qian, J. H., & Ying, Z. L. (2001). a-stratified multistage computerized adaptive testing with b blocking.Applied Psychological Measurement, 25(4), 333–341.
Chang, H. H., & Stout, W. (1993). The asymptotic posterior normality of the latent trait in an IRT model.Psychometrika,58(1), 37–52.
Chang, Y.-C. I., & Lu, H. Y. (2010). Online calibration via variable length computerized adaptive testing.Psychometrika, 75(1),140–157.
Chen, P. (2011).Item replenishing in cognitive diagnostic computerized adaptive testing——Based on DINA model(Unpublished doctorial dissertation). Beijing Normal University.
[陳平. (2011).認(rèn)知診斷計算機化自適應(yīng)測驗的項目增補——以DINA模型為例(博士學(xué)位論文). 北京師范大學(xué).]
Chen, P., & Xin, T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(6), 710–724.
[陳平, 辛濤. (2011a). 認(rèn)知診斷計算機化自適應(yīng)測驗中在線標(biāo)定方法的開發(fā).心理學(xué)報, 43(6), 710–724.]
Chen, P., & Xin, T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(7), 836–850.
[陳平, 辛濤. (2011b). 認(rèn)知診斷計算機化自適應(yīng)測驗中的項目增補.心理學(xué)報, 43(7), 836–850.]
Chen, P., & Xin, T. (2014).A new online calibration approach for multidimensional computerized adaptive testing. Paper presented at the National Council on Measurement in Education, Philadelphia, PA.
Chen, P., Xin, T., Wang, C., & Chang, H. H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika, 77(2), 201–222.
Chen, P., Zhang, J. H., & Xin, T. (2013). Application of online calibration technique in computerized adaptive testing.Advances in Psychological Science, 21(10), 1883–1892.
[陳平, 張佳慧, 辛濤. (2013). 在線標(biāo)定技術(shù)在計算機化自適應(yīng)測驗中的應(yīng)用.心理科學(xué)進(jìn)展, 21(10), 1883–1892.]
Chen, Y. X., Liu, Y. C., & Ying, Z. L. (2015). Online item calibration for Q-matrix in CD-CAT.Applied Psychological Measurement, 39(1), 5–15.
Cheng, Y. (2008).Computerized adaptive testing – new developments and applications(Unpublished doctorial dissertation). University of Illinois at Urbana-Champaign.
Cheng, Y., & Yuan, K. H. (2010). The impact of fallible item parameter estimates on latent trait recovery.Psychometrika,75(2), 280–291.
Clark, R. R. (1982).The errors-in-variables problem in the logistic regression model(Unpublished doctorial dissertation).University of North Carolina, Chapel Hill.
Flaugher, R. (2000). Item pools. In H. Wainer, N. J. Dorans, R.Flaugher, B. F. Green, & R. J. Mislevy (Eds.),Computerized adaptive testing: A primer(Chap.3, 2nded., pp. 37–59).Mahwah, NJ: Erlabum.
Guo, F. M., & Wang, L. (2003).Online calibration and scale stability of a CAT program. Paper presented at the annual meeting of National Council on Measurement in Education,Chicago, IL.
Jones, D. H., & Jin, Z. Y. (1994). Optimal sequential designs for on-line item estimation.Psychometrika, 59(1), 59–75.
Lien, D.-H. D. (1985). Moments of truncated bivariate lognormal distributions.Economics Letters, 19(3), 243–247.
Lord, F. M. (1980).Applications of item response theory to practical testing problems. Hillside, NJ: Erlbaum.
Mislevy, R. J. (1986). Bayes modal estimation in item response models.Psychometrika, 51(2), 177–195.
Parshall, C. G. (1998).Item development and pretesting in a computer-based testing environment. Paper presented at the colloquium Computer-Based Testing: Building the Foundation for Future Assessments, Philadelphia, PA.
Qi, S. Q., Dai, H. Q., & Ding, S. L. (2002).Principles of modern educational and psychological measurement. Beijing,China: Higher Education Press.
[漆書青, 戴海琦, 丁樹良. (2002).現(xiàn)代教育與心理測量學(xué)原理. 北京: 高等教育出版社.]
Quellmalz, E. S., & Pellegrino, J. W. (2009). Technology and Testing.Science, 323(5910), 75–79.
Stefanski, L. A., & Carroll, R. J. (1985). Covariate measurement error in logistic regression.Annals of Statistics, 13(4),1335–1351.
Stocking, M. L. (1988).Scale drift in on-line calibration(Research Rep. 88–28). Princeton, NJ: ETS.
Tian, J. Q., Miao, D. M., Yang, Y. B., He, N., & Xiao, W.(2009). The development of computerized adaptive picture assembling test for recruits in China.Acta Psychologica Sinica, 41(2), 167–174.
[田健全, 苗丹民, 楊業(yè)兵, 何寧, 肖瑋. (2009). 應(yīng)征公民計算機自適應(yīng)化拼圖測驗的編制.心理學(xué)報, 41(2), 167–174.]
van der Linden, W. J., & Ren, H. (2015). Optimal Bayesian adaptive design for test-item calibration.Psychometrika,80(2), 263–288.
Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., Mislevy, R.J., Steinberg, L., & Thissen, D. (1990).Computerized adaptive testing: A primer. Hillsdale, NJ: Lawrence Erlbaum.
Wainer, H., & Mislevy, R. J. (1990). Item response theory,item calibration, and proficiency estimation. In H. Wainer,N. J. Dorans, R. Flaugher, B. F. Green, R. J. Mislevy, L.Steinberg, & D. Thissen (Eds.),Computerized adaptive testing: A primer(Chap. 4, pp. 65–102). Hillsdale, NJ:Erlbaum.
Wang, C. (2012).Semi-parametric models for response times and response accuracy in computerized testing(Unpublished doctorial dissertation). University of Illinois at Urbana-Champaign.
Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(8), 964–976.
[汪文義, 丁樹良, 游曉鋒. (2011). 計算機化自適應(yīng)診斷測驗中原始題的屬性標(biāo)定.心理學(xué)報, 43(8), 964–976.]
Weiss, D. J. (1982). Improving measurement quality and efficiency with adaptive testing.Applied Psychological Measurement, 6(4), 473–492.
You, X. F., Ding, S. L., & Liu, H. Y. (2010). Parameter estimation of the raw item in computerized adaptive testing.Acta Psychologica Sinica, 42(7), 813–820.
[游曉鋒, 丁樹良, 劉紅云. (2010). 計算機化自適應(yīng)測驗中原始題項目參數(shù)的估計.心理學(xué)報, 42(7), 813–820.]
Zheng, Y. (2014).New methods of online calibration for item bank replenishment(Unpublished doctorial dissertation).University of Illinois at Urbana-Champaign.