關(guān)丹丹 劉慶思
全國英語等級(jí)考試(Public English Tests System,PETS)是國內(nèi)目前唯一進(jìn)行嚴(yán)格題目試測并有現(xiàn)代化題庫支持的大規(guī)模社會(huì)性考試,所有客觀題都經(jīng)過試測和校準(zhǔn),采用的是Rasch測量模型。PETS多級(jí)別標(biāo)準(zhǔn)的系統(tǒng)描述處于世界先進(jìn)之列,5個(gè)級(jí)別對(duì)考生所掌握語言知識(shí)和語言能力的要求具有極強(qiáng)的系統(tǒng)性,較高級(jí)別涵蓋較低級(jí)別的要求,并在較低級(jí)別的基礎(chǔ)上有所拓寬和加深;同時(shí),各級(jí)別對(duì)考生語言能力的要求建立在同一能力量表之上,他們之間在統(tǒng)計(jì)上具有較強(qiáng)的可比性(劉慶思,2006)。
計(jì)算機(jī)自適應(yīng)序列測試(Computer-Adaptive Sequential Testing,CAST)是一種既能保持計(jì)算機(jī)自適應(yīng)測試的優(yōu)點(diǎn),又能堅(jiān)持專家智慧的設(shè)計(jì)(Wainer&Kiely,1987;Luech&Nungester,1998),正在成為考試改革的風(fēng)向標(biāo)。CAST允許學(xué)科專家對(duì)考試內(nèi)容的均衡性、科學(xué)性進(jìn)行把控,有利于提高考試質(zhì)量;使考生能夠繼續(xù)沿用參加紙筆考試時(shí)所采用的答題策略;同時(shí),還使對(duì)題池的維護(hù)更為方便,能夠適當(dāng)減輕網(wǎng)絡(luò)和服務(wù)器的工作負(fù)擔(dān)(關(guān)丹丹& 劉慶思,2010)。
PETS試圖在CAST領(lǐng)域進(jìn)行探索,并開發(fā)出相應(yīng)的測試系統(tǒng)(PETS-CAST),以便為考生提供優(yōu)質(zhì)的服務(wù)(關(guān)丹丹,劉慶思,莫春暉,2011)。那么,適合PETS特點(diǎn)的“最佳”CAST框架是什么?多少個(gè)階段,每個(gè)階段多少個(gè)模塊,每個(gè)模塊多少試題,如何計(jì)分,以及如何實(shí)現(xiàn)適應(yīng)性選擇才能保障對(duì)英語水平跨度極大的5個(gè)級(jí)別進(jìn)行相對(duì)準(zhǔn)確的測量?
模擬研究是一種在計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)的數(shù)學(xué)技術(shù),被廣泛應(yīng)用于參數(shù)估計(jì)、認(rèn)知診斷、CAT等各個(gè)領(lǐng)域,通過模擬研究,可預(yù)先獲知參數(shù)的真實(shí)值,然后根據(jù)參數(shù)估計(jì)方法得到其估計(jì)值,通過比較不同條件或者不同方法下的估計(jì)值與真實(shí)值的差異或者其他評(píng)價(jià)指標(biāo),可以檢驗(yàn)和比較所開發(fā)系統(tǒng)的穩(wěn)定性與精確度。
為了比較不同PETS-CAST測試框架的效果,研究者根據(jù)PETS考試特點(diǎn)設(shè)計(jì)了兩個(gè)測試框架,并通過模擬研究對(duì)比兩種CAST框架的基本性能,檢驗(yàn)測試的準(zhǔn)確性和可靠性,以期為PETS實(shí)現(xiàn)CAST設(shè)計(jì)奠定堅(jiān)實(shí)的理論基礎(chǔ)。
PETS-CAST將對(duì)考生在英語語言知識(shí)掌握方面和聽、讀方面的能力進(jìn)行考查,采用的題型為較適合自適應(yīng)測試需要的選擇題。因?qū)懽髂壳吧袩o法即時(shí)計(jì)分,暫時(shí)排除適應(yīng)性過程。研究者按照自適應(yīng)序列測試?yán)砟?,將PETS筆試的聽力、完形填空和閱讀理解三部分作為測試內(nèi)容,提出PETS-CAST測試的設(shè)想,即按測試內(nèi)容(聽力、英語知識(shí)運(yùn)用和閱讀理解)分多個(gè)階段測試,每個(gè)階段結(jié)束后,適應(yīng)性地選擇下一階段適合考生水平的試題內(nèi)容。構(gòu)成每個(gè)階段的不同模塊的題量大小與PETS紙筆測試中該級(jí)別該部分的題量保持一致,從而實(shí)現(xiàn)對(duì)考生在聽力、英語知識(shí)運(yùn)用和閱讀理解方面的能力進(jìn)行準(zhǔn)確、個(gè)性化考查的目的。
根據(jù)PETS考試的特點(diǎn),經(jīng)語言測量學(xué)專家、PETS考試設(shè)計(jì)者和心理測量學(xué)家的討論,最終提出了兩種CAST設(shè)計(jì)方案:一是采用1-3-5三階段自適應(yīng)序列測試框架,二是采用1-2-5-5四階段自適應(yīng)序列測試框架,見圖1和圖2。在1-3-5框架中,每個(gè)模板由9個(gè)模塊構(gòu)成,組成9條路徑。在1-2-5-5框架中,每個(gè)模板由13個(gè)模塊構(gòu)成,組成13條路徑。
PETS-CAST系統(tǒng)會(huì)對(duì)考生解答每一階段試題的情況進(jìn)行分析,估算出其大致的語言能力,然后按照圖1或圖2所示的測試框架為其投放相應(yīng)難度(級(jí)別)的下一階段的試題。試題難度恰當(dāng)與否是根據(jù)考生能力確定的。根據(jù)PETS各級(jí)別合格標(biāo)準(zhǔn),PETS-CAST為每個(gè)階段結(jié)束后確定了選擇下一階段的能力區(qū)間,從而為各階段不同難度(級(jí)別)試題的選擇奠定了基礎(chǔ),即建立了路徑規(guī)則。
兩種設(shè)計(jì)的相同點(diǎn)是,在初期的標(biāo)準(zhǔn)確定階段,所有考生都接受中等難度的PETS三級(jí)完形填空模塊,都作答完形填空、聽力和閱讀理解,從而確保英語考查內(nèi)容的平衡。兩種設(shè)計(jì)的不同點(diǎn)為,除了由于階段不同、模塊數(shù)量不同所帶來的路徑不同外,在能力估計(jì)上也做了不同考慮。對(duì)于1-3-5設(shè)計(jì)而言,無論考生最終接受的是哪一路徑的測試,其PETS三級(jí)完形填空的作答成績都作為考生初始能力參與后續(xù)的能力估計(jì)。而對(duì)于1-2-5-5設(shè)計(jì),PETS三級(jí)完形填空作答結(jié)束后,若考生的能力判斷為在三級(jí)范圍內(nèi),直接進(jìn)入PETS三級(jí)聽力模塊,且該階段的能力估計(jì)作為初始值參與后續(xù)的能力估計(jì);若考生的能力判斷低于三級(jí)或者高于三級(jí),系統(tǒng)會(huì)自動(dòng)為其拋出PETS二級(jí)完形填空或PETS四級(jí)完形填空??紤]到初始階段對(duì)考生能力估計(jì)的不穩(wěn)定性,會(huì)導(dǎo)致對(duì)考生能力估計(jì)值向正向或負(fù)向推得很遠(yuǎn)(Rulison&Loken,2009;張華華,2002),因此只將三級(jí)完形填空的成績作為第二階段的選題依據(jù),不作為初試能力值參與后續(xù)的能力估計(jì)過程。
圖2 1-2-5-5四階段CAST框架
為了檢驗(yàn)PETS-CAST的基本性能,本研究根據(jù)CAST模型的要求編制了相應(yīng)的模擬程序。
本研究采用Rasch模型。所有試題來自PETS題庫,由命題專家組建模塊和模板,試題難度參數(shù)已知,所有試題均為0/1計(jì)分。根據(jù)研究需要,組建了兩套試題(panel#1和panel#2),模擬過程以panel#1為主,僅在模擬復(fù)本重測信度和分類一致性時(shí)使用panel#2。
本研究分別采用1-3-5三階段和1-2-5-5四階段自適應(yīng)序列測試框架。
研究采用蒙特卡羅模擬法進(jìn)行(余嘉元,汪存友,2007)。為此編寫了考生能力真值生成程序、自適應(yīng)序列測試的模擬測試程序和考生能力估算程序。模擬過程如下:首先模擬生成一批考生能力真值,并讀入各模塊中所有試題的參數(shù);然后,啟動(dòng)自適應(yīng)序列測試的模擬測試程序,根據(jù)既定的路徑規(guī)則,在相應(yīng)模塊作答結(jié)束后,調(diào)用適合考生水平的下一階段的模塊,同時(shí)根據(jù)模擬產(chǎn)生的作答數(shù)據(jù)采用條件極大似然法不斷估算考生能力值,直至考生做完閱讀理解模塊,測試終止。測試中采用均勻生成隨機(jī)數(shù)的方法來確定考生得分,具體做法是先依據(jù)考生能力真值θ和試題難度參數(shù),根據(jù)公式算考生 j在試題 i上的答對(duì)概率Pji,產(chǎn)生一個(gè)RAND(0,1)的隨機(jī)數(shù)Rji,j=1,2,3…N;i=1,2,3…M。如果Pji>Rji,則認(rèn)為該考生在試題i上的作答正確,令 Xji=1,否則Xji=0。據(jù)此,生成考生在每一階段試題上的做答反應(yīng)。根據(jù)每一階段結(jié)束后考生的能力值、自適應(yīng)路徑和PETS各級(jí)別能力范圍標(biāo)準(zhǔn),確定下一階段投放給考生的試題模塊,考生完成閱讀理解模塊后測試結(jié)束。
考生能力水平參數(shù)θ服從平均數(shù)μ=0,標(biāo)準(zhǔn)差σ=1的標(biāo)準(zhǔn)正態(tài)分布。4個(gè)樣本的模擬能力情況見表1。
表1 考生模擬能力分布
評(píng)價(jià)能力估算精度的指標(biāo)有很多,本研究重點(diǎn)關(guān)注六個(gè):一是考生估計(jì)能力與真實(shí)能力的相關(guān),相關(guān)系數(shù)越高,表明能力估計(jì)越可靠。二是能力估算的標(biāo)準(zhǔn)誤SE(θ),考生能力估算的標(biāo)準(zhǔn)誤平均數(shù)小于0.3,即表明測驗(yàn)提供了足夠的信息量,整體估算的標(biāo)準(zhǔn)誤較為理想。三是測量偏差(Bias),計(jì)算公式為利用真實(shí)能力值θ與估算能力值?的平均誤差來衡量自適應(yīng)序列測試系統(tǒng)對(duì)考生能力估算的準(zhǔn)確性。四是絕對(duì)測量偏差(ABS),計(jì)算公式為實(shí)能力值θ與估算能力值θ?的誤差取絕對(duì)值后的平均數(shù)來衡量自適應(yīng)序列測試系統(tǒng)對(duì)考生能力估算的準(zhǔn)確性;ABS可以排除測量偏差可能有正有負(fù)而帶來的累加抵消現(xiàn)象。五是均方根誤差(RMSE),計(jì)算公式為RMSE=利用真實(shí)能力值θ與估算能力值θ?的均方根誤差(Root Mean Squared Error,RMSE)評(píng)估自適應(yīng)序列測試系統(tǒng)對(duì)考生能力估算的準(zhǔn)確度;RMSE利用對(duì)測量偏差進(jìn)行平方處理的原理也同樣排除了測量偏差可能有正有負(fù)而帶來的累加抵消現(xiàn)象。六是分類決策一致性系數(shù)(Kappa),對(duì)于水平性考試而言,對(duì)考生的分類決策準(zhǔn)確性和一致性比相關(guān)系數(shù)更有意義;由于PETS-CAST考試的分類結(jié)果有六類:不合格、一級(jí)合格、二級(jí)合格、三級(jí)合格、四級(jí)合格和五級(jí)合格,需要使用Kappa系數(shù)作為決策一致性和準(zhǔn)確性的指標(biāo)。表觀察一致率;稱為期望一致率。Landis和Koch(1977)將Kappa系數(shù)的大小劃分了6個(gè)區(qū)段:K<0,一致性強(qiáng)度極差;0.0~0.2,微弱;0.21~0.40,弱;0.41~0.60,中度;0.61~0.80,高度;0.81~1.00,極強(qiáng)。
計(jì)算每個(gè)階段結(jié)束后考生的能力估計(jì)值與其模擬能力值之間的相關(guān),見表2。
由表2可知,隨著階段的增加,考生能力估計(jì)值與其模擬能力值之間的相關(guān)逐漸增高;樣本大小對(duì)相關(guān)系數(shù)沒有明顯影響。從相關(guān)分析來看,1-2-5-5四階段設(shè)計(jì)因多一個(gè)階段,最終的能力估計(jì)值與模擬能力值之間的相關(guān)(平均為0.968)要高于1-3-5三階段設(shè)計(jì)(平均為0.961)。
計(jì)算每個(gè)階段結(jié)束后考生能力估計(jì)的標(biāo)準(zhǔn)誤,見表3。
由表3可知,隨著階段的增加,考生能力估計(jì)值的標(biāo)準(zhǔn)誤逐漸減小,樣本大小對(duì)估計(jì)標(biāo)準(zhǔn)誤沒有明顯影響。不同樣本下,1-2-5-5四階段設(shè)計(jì)最終的能力估計(jì)標(biāo)準(zhǔn)誤都小于0.180,好于1-3-5三階段設(shè)計(jì)(測量標(biāo)準(zhǔn)誤平均為0.202)。
計(jì)算能力估計(jì)的測量偏差、絕對(duì)測量偏差與均方根誤差,見表4。
由表4可知,樣本大小對(duì)測量偏差、絕對(duì)測量偏差與均方根誤差沒有明顯影響。就絕對(duì)測量偏差和均方根誤差而言,1-2-5-5四階段設(shè)計(jì)好于1-3-5三階段設(shè)計(jì),準(zhǔn)確性更高。
根據(jù)最初生成的四個(gè)樣本量大小不同的考生群體的能力真值,利用蒙特卡羅模擬方法,再次模擬考生在兩種CAST框架(1-3-5和1-2-5-5)上的作答反應(yīng),兩次能力估計(jì)的相關(guān)即為重測信度。
另外,原考生群體能力真值不變,換一套試題(panel#2)后,利用蒙特卡洛模擬方法,生成考生在兩種CAST框架(1-3-5和1-2-5-5)上的作答反應(yīng),兩次能力估計(jì)的相關(guān)即為復(fù)本重測信度,見表5。
由表5可知,樣本大小對(duì)重測信度與復(fù)本重測信度沒有明顯影響。就重測信度而言,1-2-5-5四階段設(shè)計(jì)好于1-3-5三階段設(shè)計(jì),可靠性更高;兩種設(shè)計(jì)的復(fù)本重測信度基本相當(dāng)。
表2 各階段能力估計(jì)值與模擬能力值相關(guān)
表3 各階段能力估計(jì)的標(biāo)準(zhǔn)誤
表4 測量偏差、絕對(duì)測量偏差與均方根誤差
根據(jù)考生的模擬能力值與估計(jì)能力值分別對(duì)考生的英語水平進(jìn)行分類后(0/1/2/3/4/5),可以計(jì)算Kappa系數(shù),作為CAST測試對(duì)考生的分類準(zhǔn)確性指標(biāo);另外,根據(jù)對(duì)同一批考生模擬的復(fù)本重測情況,基于兩次測試的估計(jì)值對(duì)考生的英語水平進(jìn)行分類(0/1/2/3/4/5),可以計(jì)算Kappa系數(shù),作為兩次測試對(duì)考生的分類一致性指標(biāo),見表6。
由表6可知,樣本大小對(duì)分類準(zhǔn)確性與一致性沒有明顯影響。就Kappa系數(shù)而言,兩個(gè)框架的決策準(zhǔn)確性均在0.6以上,準(zhǔn)確度較高;但兩次測試的分類一致性則在0.50以上,屬于中度一致。
模擬研究結(jié)果表明,無論是哪種測試框架,PETS-CAST測試隨著階段的增加,都提供了更多的測驗(yàn)信息,能力估計(jì)的標(biāo)準(zhǔn)誤逐漸減小,模擬能力與估計(jì)能力呈現(xiàn)出高相關(guān)。而且,能力估計(jì)的測量偏差、絕對(duì)測量偏差和均方根誤差均比較小,顯示了PETS實(shí)現(xiàn)CAST設(shè)計(jì)的準(zhǔn)確性較高。另外,模擬研究還顯示,PETS-CAST的重測信度和復(fù)本重測信度很高,均在0.90以上。依據(jù)PETS-CAST成績對(duì)考生的英語水平進(jìn)行分類的準(zhǔn)確性在0.6以上,兩次測試的分類一致性在0.50以上,說明基于PETS-CAST測試對(duì)考生進(jìn)行分類比較準(zhǔn)確、可靠。樣本量大小對(duì)模擬效果影響不大。這說明在選擇真實(shí)考生試測時(shí),只要樣本分布合理,不必選擇過大樣本量就可獲得可靠的結(jié)果。
就兩種PETS計(jì)算機(jī)自適應(yīng)序列測試框架比較而言,從測量指標(biāo)來看,1-2-5-5框架因增加了一個(gè)階段,提供了更多的測驗(yàn)信息量,對(duì)考生能力估計(jì)及分類決策的準(zhǔn)確性更高,結(jié)果更為可靠;從對(duì)兩端考生的測量精度考慮,盡管1-3-5測試框架也能提供比較好的測量結(jié)果,但考慮到PETS考試跨度極大,研究者認(rèn)為對(duì)兩端考生的測量(路徑345和路徑321)從內(nèi)容契合性上不如1-2-5-5框架(路徑3455和路徑3211)適應(yīng)性強(qiáng)。從考試的適應(yīng)性和考試的高利害性來看,PETS考試屬于高利害考試,1-2-5-5框架適應(yīng)性更強(qiáng),對(duì)考生的測量更準(zhǔn)確,更符合高利害考試的訴求。
綜上,研究者認(rèn)為,相對(duì)于1-3-5三階段測試框架,PETS-CAST采用1-2-5-5四階段測試框架更為合理。下一步將在真實(shí)考生中對(duì)PETS-CAST測試系統(tǒng)進(jìn)行反復(fù)試驗(yàn),以進(jìn)一步檢驗(yàn)其測試性能。
表5 重測信度與復(fù)本重測信度
表6 分類準(zhǔn)確性與一致性(Kappa系數(shù))
[1]關(guān)丹丹,劉慶思.計(jì)算機(jī)自適應(yīng)序列考試概述[J].中國考試,2010(1):29-35.
[2]關(guān)丹丹,劉慶思,莫春暉.PETS計(jì)算機(jī)自適應(yīng)序列測試設(shè)計(jì)與模擬研究[J].心理學(xué)探新,2011,31(5):467-471.
[3]劉慶思.英語等級(jí)考試題庫介紹[J].中國考試,2006(12):21-24.
[4]張華華.計(jì)算機(jī)自適應(yīng)考試設(shè)計(jì)中的誤區(qū)[J].考試研究,2002,第二輯:35-39.
[5]余嘉元,汪存友.項(xiàng)目反應(yīng)理論參數(shù)估算研究中的蒙特卡羅方法[J].南京師大學(xué)報(bào)(社會(huì)科學(xué)版),2007(1):87-91.
[6]Landis J.R.&Koch G.G.The measurement of observer agreement for Categorical data.Biometrics,1977,33,159-174.
[7]Luecht,R.M.,Nungester,R.J.Some practical examples of computer-adaptive sequential testing.Journal of Educational Measurement,1998(35):229-249.
[8]Wainer H.,Dorans N.,Eignor D.,F(xiàn)laugher R.,Green B.,Misley R.,Steinberg L.&Thissen D.Computerized adaptive testing:A primer[M].Hillsdale,N.J.:Lawrence Erlbaum,2nd ,2000,166.
[9]Rulison,K.,&Loken,E.I’ve fallen and I can’t get up:can high-ability students recover from early mistakes in CAT?Applied Psychological Measurement,2009,33(2),83–101.