簡(jiǎn)小珠,張敏強(qiáng),彭春妹
(華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631;井岡山大學(xué)教育學(xué)院,吉安 343009)
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試流程與測(cè)試技術(shù)
簡(jiǎn)小珠,張敏強(qiáng),彭春妹
(華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631;井岡山大學(xué)教育學(xué)院,吉安 343009)
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是現(xiàn)代教育測(cè)驗(yàn)的一種新形式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的指導(dǎo)理論和測(cè)試思想與傳統(tǒng)紙筆測(cè)驗(yàn)不同,而且測(cè)試方面有諸多的優(yōu)點(diǎn)。本文詳細(xì)論述計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本測(cè)試流程,包括被試即時(shí)能力估計(jì)、選題策略、曝光率控制、測(cè)驗(yàn)終止標(biāo)準(zhǔn)等八個(gè)基本步驟;并進(jìn)一步論述了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在實(shí)測(cè)中應(yīng)解決的關(guān)鍵技術(shù)與問(wèn)題:在線參數(shù)估計(jì)、試題與測(cè)驗(yàn)交疊率控制、紙筆測(cè)驗(yàn)與計(jì)算機(jī)等值、多維評(píng)價(jià)與認(rèn)知診斷等。
項(xiàng)目反應(yīng)理論;計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn);測(cè)試流程
測(cè)驗(yàn)是教育測(cè)量評(píng)價(jià)的主要手段,隨著現(xiàn)代測(cè)量技術(shù)的發(fā)展,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)作為一種新型的測(cè)驗(yàn)方式逐漸應(yīng)用于教育測(cè)量與評(píng)價(jià)中。美國(guó)的許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的形式。這些考試包括美國(guó)大學(xué)入學(xué)考試SAT考試、TOEFL考試、GRE考試、建筑師考試、商學(xué)院研究生入學(xué)考試、護(hù)士資格考試等。國(guó)內(nèi)在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研究與應(yīng)用方面也有長(zhǎng)足的進(jìn)步,早在80年代后期,漆書(shū)青進(jìn)行了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面的早期嘗試[1]。2008年全國(guó)大學(xué)英語(yǔ)四六級(jí)等級(jí)考試也初步嘗試了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的試驗(yàn)。2002年臺(tái)灣國(guó)民中學(xué)學(xué)生基本學(xué)力測(cè)驗(yàn)開(kāi)始采用了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)作為一種新型的測(cè)驗(yàn)方式,本文將詳細(xì)而系統(tǒng)的介紹計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本思想、測(cè)試技術(shù)流程。
從50年代項(xiàng)目反應(yīng)理論創(chuàng)立以來(lái),項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)逐漸成為現(xiàn)代教育與心理測(cè)量研究的主流方向,其中最主要的應(yīng)用就是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是一種與紙筆測(cè)驗(yàn)(Paper&Pencil Test,PPT)迥然不同的測(cè)驗(yàn)形式,在計(jì)算機(jī)輔助下以項(xiàng)目反應(yīng)理論為測(cè)量理論基礎(chǔ)建立題庫(kù),并根據(jù)每位考生的不同能力水平在題庫(kù)中選擇適合個(gè)別考生能力水平情況的試題進(jìn)行測(cè)試的一種測(cè)驗(yàn)新方式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)與傳統(tǒng)紙筆測(cè)驗(yàn)相比,主要有以下不同:(1)測(cè)量理論基礎(chǔ)不同。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是以項(xiàng)目反應(yīng)理論為基礎(chǔ);紙筆測(cè)驗(yàn)主要是以經(jīng)典測(cè)量理論為基礎(chǔ)。(2)測(cè)量技術(shù)不同。由于測(cè)量理論基礎(chǔ)不一樣,這兩種類型測(cè)驗(yàn)的項(xiàng)目分析、測(cè)驗(yàn)編制、評(píng)分、測(cè)驗(yàn)等值、分?jǐn)?shù)解釋等測(cè)量技術(shù)方法也都不一樣。(3)測(cè)驗(yàn)方式不同。紙筆測(cè)驗(yàn)只需要紙筆就可以進(jìn)行,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)必須借助計(jì)算機(jī)的輔助才能進(jìn)行,這是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的一個(gè)弱點(diǎn),但隨著計(jì)算機(jī)(特別是筆記本計(jì)算機(jī))的廣泛普及,這一弱點(diǎn)將被逐漸克服。
相對(duì)于每一個(gè)考生來(lái)說(shuō),難度適中的試題才最能有效且精確地測(cè)量其能力。而通常的一份紙筆測(cè)驗(yàn)的試題難度,很難適合每位考生的能力水平,從而很難滿足對(duì)每一個(gè)被試對(duì)象進(jìn)行精確測(cè)量。在項(xiàng)目反應(yīng)理論下,考生能力估計(jì)不受施測(cè)試題的影響,也就是說(shuō),不同的考生測(cè)試不同的試題,只要試題內(nèi)容性質(zhì)相同,不同能力考生的能力估計(jì)值可以被精確的估計(jì)出來(lái),而且是可以互相比較。要能做到試題難度隨考生能力不同(即根據(jù)考試個(gè)體能力水平差異)而調(diào)整,只有計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)形式才達(dá)到此要求。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)最基本的測(cè)量思想:在測(cè)試過(guò)程中,考生每完成一道試題就即時(shí)估計(jì)考生能力水平,并以此來(lái)挑選與考生能力水平相適應(yīng)難度的試題來(lái)測(cè)試,通過(guò)較少試題達(dá)到精確測(cè)量的目的。
在大型考試中實(shí)施計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn),具有以下優(yōu)點(diǎn):(1)依據(jù)考生不同能力水平來(lái)挑選不同的試題,降低考生的考試挫折感;高能力考生就不必回答過(guò)多的簡(jiǎn)單考題,而水平相對(duì)較低的考生也不必回答太多難題,可以適合每位考生的作答速度,通過(guò)較少的試題就能對(duì)考生的能力水平做出有效的測(cè)度;(2)可以更精確估計(jì)每一個(gè)的考生能力或潛在特質(zhì),提高每一次測(cè)驗(yàn)的精度(即測(cè)驗(yàn)信度);(3)可以加強(qiáng)測(cè)驗(yàn)施測(cè)的標(biāo)準(zhǔn)化過(guò)程,不必統(tǒng)一規(guī)定測(cè)驗(yàn)舉行的時(shí)間,考試部門(mén)一年可以組織多次測(cè)驗(yàn),考生可根據(jù)自己的情況選擇其中的一次或多次測(cè)驗(yàn);(4)題庫(kù)的試題管理由計(jì)算機(jī)控制,測(cè)驗(yàn)時(shí)安排的試題因人而異,可以加強(qiáng)測(cè)驗(yàn)的安全性;(5)能即時(shí)計(jì)分和報(bào)告成績(jī),并能將測(cè)試結(jié)果及時(shí)反饋給考生;并能克服紙筆測(cè)驗(yàn)評(píng)卷時(shí)由評(píng)卷者所帶來(lái)的主觀評(píng)分誤差。
當(dāng)然計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)也有不足:(1)要求大容量的題庫(kù),因而在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的前期階段需要大量的試題預(yù)測(cè)和校準(zhǔn)。一旦題庫(kù)建立后,可以使用試題在線測(cè)試技術(shù)對(duì)題庫(kù)進(jìn)行更新,從而滿足題庫(kù)容量的需要。(2)無(wú)法及時(shí)評(píng)估開(kāi)放性的主觀題,比如問(wèn)答題、作文,盡管計(jì)算機(jī)可以方便有效的記錄保存考生在這些試題上的作答,還需要評(píng)卷員進(jìn)行網(wǎng)上評(píng)卷。(3)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研發(fā)較為復(fù)雜。盡管計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)還有不足之處,但從測(cè)量的準(zhǔn)確性、標(biāo)準(zhǔn)化,它的優(yōu)勢(shì)是明顯的,代表了現(xiàn)代教育測(cè)量技術(shù)的發(fā)展方向。
最早的自適應(yīng)測(cè)驗(yàn) (即因材施測(cè)的測(cè)驗(yàn)方式)的雛形,是1908年Binet所編制的智力測(cè)驗(yàn)的研究,即根據(jù)兒童的年齡來(lái)安排不同測(cè)驗(yàn)項(xiàng)目。60年代末期,美國(guó)的教育測(cè)驗(yàn)服務(wù)中心(Educational Testing Service)的F.Lord在項(xiàng)目反應(yīng)理論和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面從事較為系統(tǒng)而完整的研究[2]。Lord認(rèn)為對(duì)于低能力與高能力的考生而言,固定長(zhǎng)度的測(cè)驗(yàn)無(wú)法有效的滿足這些考生能力估計(jì)的需求,如果被挑選用來(lái)施測(cè)的試題都能針對(duì)每位考生能力提供最大的參考信息的話,則減少施測(cè)的題數(shù)不會(huì)降低對(duì)每位考生能力的精確測(cè)量[3]。
70年代蒙特卡洛模擬方法在測(cè)量中逐漸應(yīng)用于計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研究中。在當(dāng)時(shí)還沒(méi)有實(shí)測(cè)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的情況下,模擬技術(shù)有力的推動(dòng)有關(guān)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在能力估計(jì)方法、選題策略、試題曝光率、測(cè)驗(yàn)信度、測(cè)驗(yàn)終止原則等方面的研究。1975年召開(kāi)第一次專門(mén)探討計(jì)算機(jī)自適應(yīng)考試的大會(huì),之后又分別于1977年和1979年在明尼蘇達(dá)大學(xué)召開(kāi)了兩次研討會(huì),這幾次研討會(huì)極大地促進(jìn)了計(jì)算機(jī)自適應(yīng)測(cè)試技術(shù)和應(yīng)用方面的研究。
1979年,最早的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)(ASVAB-CAT)啟動(dòng)研發(fā),1985年該測(cè)驗(yàn)系統(tǒng)在征兵入伍測(cè)驗(yàn)中正式投入使用。《Computerized adaptive testing:From inquiry to operation》[4]詳細(xì)的歸納了ASVAB-CAT測(cè)驗(yàn)系統(tǒng)的研發(fā)過(guò)程和基本技術(shù),并概括和總結(jié)了1979至1997年之間計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面的研究成果和基本技術(shù)。隨著計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)技術(shù)的不斷的完善和成熟。20世紀(jì)90年代初至21世紀(jì)初,美國(guó)許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)形式。1998年7月TOEFL考試、GRE考試在美國(guó)以及少數(shù)其他國(guó)家進(jìn)行了機(jī)考,2001年在全世界范圍內(nèi)普及了機(jī)考(即 CAT)。
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)要讓測(cè)驗(yàn)試題的難度適合每一個(gè)考生能力水平,必須需要以下兩個(gè)基本條件:(1)大容量的題庫(kù)。建立了一個(gè)容量較大的題庫(kù),并根據(jù)項(xiàng)目反應(yīng)理論對(duì)每一道試題進(jìn)行了參數(shù)量尺化;并配合良好的試題曝光率控制方法,保障在進(jìn)行測(cè)驗(yàn)時(shí)的題庫(kù)安全。(2)即時(shí)的能力估計(jì)方法和選題策略??忌孔鞔鹨坏涝囶}就能即時(shí)估計(jì)出考生的能力分?jǐn)?shù),并迅速根據(jù)選題策略選擇最適合考生能力水平的試題來(lái)測(cè)試。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試流程是一個(gè)復(fù)雜的流程技術(shù),包括以下八個(gè)基本流程:【測(cè)試起點(diǎn)】、【考生作答】、【即時(shí)能力估計(jì)】、【選題】、【終止標(biāo)準(zhǔn)】、【能力最終估計(jì)】、【分?jǐn)?shù)轉(zhuǎn)換與成績(jī)報(bào)告】、【分析評(píng)價(jià)】。
圖1 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試基本流程
先考哪一道試題,是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)所需面臨的重要問(wèn)題之一。常用的起點(diǎn)方法有五種:(1)難度適中的試題中隨機(jī)抽取一道試題;(2)從題庫(kù)中完全隨機(jī)抽取一道試題;(3)從考生已知的有關(guān)學(xué)業(yè)背景(包括以往的測(cè)驗(yàn)成績(jī))確定起點(diǎn),然后再?zèng)Q定出那一道試題。(4)讓考生初步作答3至5道試題,根據(jù)EAP方法或MLE方法進(jìn)行能力估計(jì),以此作為能力的起點(diǎn);(5)由考生自己決定第一道試題的難度(從難、中、易三個(gè)難度水平的試題中選擇一個(gè)水平來(lái)測(cè)試)。Lord(1977)研究認(rèn)為只要測(cè)驗(yàn)的題數(shù)不少于25題[3],以哪一道試題作為測(cè)試起點(diǎn),對(duì)被試最終能力估計(jì)值的影響不大。一般來(lái)說(shuō),許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的起點(diǎn)方法都是選擇第一種方法,而且目前許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的模擬研究和一些應(yīng)用研究也都是選擇第一種方法,第四種方法也應(yīng)用較多。如果采用第四種方法,則需要在【測(cè)試起點(diǎn)】與【考生作答】之間增加三個(gè)步驟:【考生初步作答幾道試題】、【能力初步估計(jì)】、【選擇下一道試題】。
考生在測(cè)試過(guò)程中,計(jì)算機(jī)屏幕一次只呈現(xiàn)一道試題,考生必須先作答完成正在呈現(xiàn)的試題,然后才能進(jìn)入下一道試題的測(cè)試。如果考生不知道正確答案,一般都要求考生隨機(jī)選擇一個(gè)選項(xiàng),不允許讓試題空著不作答??忌趨⒓佑?jì)算機(jī)自適應(yīng)測(cè)驗(yàn)之前,可以先使用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)練習(xí)軟件進(jìn)行初步考試練習(xí)和體驗(yàn),熟悉計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的形式,了解考試要求和規(guī)則。比如美國(guó)ETS為GRE考試推出了GRE POWERPREP考試練習(xí)軟件。
在測(cè)試過(guò)程中考生每完成一道試題的作答,就需要對(duì)被試能力作出即時(shí)能力估計(jì),并根據(jù)即時(shí)能力估計(jì)值選擇下一道試題??忌芰烙?jì)方法一般有三種:極大似然估計(jì)方法、期望能力估計(jì)方法、極大后驗(yàn)估計(jì)方法。因此在測(cè)試過(guò)程中,考生能力即時(shí)估計(jì)的主要方法極大似然估計(jì)方法,如果極大似然估計(jì)不能收斂,則采用能力后驗(yàn)期望估計(jì)的方法。
測(cè)驗(yàn)終止的標(biāo)準(zhǔn)主要有兩種,固定測(cè)驗(yàn)長(zhǎng)度和不固定測(cè)驗(yàn)長(zhǎng)度。(1)固定測(cè)驗(yàn)長(zhǎng)度:考生作答試題數(shù)量,已達(dá)到規(guī)定的上限,便中止測(cè)驗(yàn);(2)不固定測(cè)驗(yàn)長(zhǎng)度。不固定測(cè)驗(yàn)長(zhǎng)度中,以項(xiàng)目最大信息量作為選題標(biāo)準(zhǔn)時(shí),測(cè)驗(yàn)終止標(biāo)準(zhǔn)是測(cè)驗(yàn)信息總量達(dá)到指定的標(biāo)準(zhǔn)便終止測(cè)驗(yàn),以貝葉斯估計(jì)法作為選題標(biāo)準(zhǔn)時(shí),測(cè)驗(yàn)終止標(biāo)準(zhǔn)是估計(jì)能力之變異數(shù)小到某個(gè)預(yù)定的標(biāo)準(zhǔn)時(shí)終止施測(cè)。
此外,測(cè)驗(yàn)的總時(shí)間長(zhǎng)度也需要作為計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)終止的一個(gè)參考。為了測(cè)驗(yàn)的統(tǒng)一管理,也避免考生在考場(chǎng)漫無(wú)止境的思考,因此許多CAT測(cè)驗(yàn)都規(guī)定了測(cè)驗(yàn)的時(shí)間。一般來(lái)說(shuō),計(jì)算機(jī)自適測(cè)驗(yàn)規(guī)定的時(shí)間長(zhǎng)度都會(huì)很充裕,讓95%以上的考生都能完成作答[5]。
目前許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的終止標(biāo)準(zhǔn),主要是采用固定測(cè)驗(yàn)長(zhǎng)度 (測(cè)驗(yàn)長(zhǎng)度一般都在25至45題之間),并在考試說(shuō)明規(guī)定了測(cè)驗(yàn)時(shí)間長(zhǎng)度。CAT測(cè)驗(yàn)規(guī)定測(cè)驗(yàn)長(zhǎng)度和測(cè)驗(yàn)時(shí)間,主要從社會(huì)的公平性來(lái)考慮,所有考生都完成同樣的試題數(shù)量,而且是相同的時(shí)間,這樣能較好的體現(xiàn)社會(huì)公平性。
在自適應(yīng)測(cè)驗(yàn)過(guò)程中,選擇最適合考生能力水平的試題是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的關(guān)鍵。目前計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)采用的選題策略主要有三種:(1)最大項(xiàng)目信息量方法,即根據(jù)考生即時(shí)能力估計(jì)值,挑選能對(duì)考生能力估計(jì)提供最大項(xiàng)目信息量的試題。最大項(xiàng)目信息量方法有不同的變式。比如a分層最大項(xiàng)目信息量方法、b分層最大項(xiàng)目信息量方法(即根據(jù)試題難度分層)、c分層最大項(xiàng)目信息量方法(即根據(jù)試題內(nèi)容分層)等一些其他變式。(2)利用貝葉斯試題選擇法,將考生能力分配看成是某種先驗(yàn)分布,計(jì)算考生答對(duì)或答錯(cuò)未用到的試題之后驗(yàn)變異數(shù),再挑選能夠使這種考生能力后驗(yàn)分布之變異數(shù)為最小的試題,以作為施測(cè)的試題。(3)挑選試題難度最接近考生現(xiàn)階段能力估計(jì)的試題,答對(duì)了選擇稍難一些的試題,答錯(cuò)了選擇稍微容易一些的試題。
在選題過(guò)程,還必須考慮試題曝光率。試題曝光率是指每道試題的調(diào)用次數(shù)與已測(cè)試總?cè)藬?shù)比例,計(jì)算公式為:Pi(s)=Xi/NE,其中Pi(s)表示為第i題的曝光率水平;Xi為第i題累計(jì)調(diào)用的次數(shù),NE為參加測(cè)驗(yàn)總?cè)藬?shù)。某一試題調(diào)用的次數(shù)越多,觀察曝光率就越高,其被泄露的可能性就越大。曝光率控制水平,是指由測(cè)驗(yàn)專家根據(jù)題庫(kù)調(diào)用的模擬研究結(jié)果和期望曝光率水平來(lái)確定的試題的最大曝光率水平??刂破毓饴剩褪且罂刂圃囶}的觀察曝光率水平低于所預(yù)定的控制曝光率水平,即:Pi(s)=Xi/NE<ri。曝光率控制的方法目前最常用是Sympson和Hetter提出的SH條件概率方法。它是一種利用條件概率對(duì)曝光率進(jìn)行控制的方法,基本思想就是在項(xiàng)目的初步選擇和最終調(diào)用之間,加設(shè)一個(gè)“過(guò)濾器”。這樣就可以保證每一道的曝光率都被控制在某一預(yù)定的控制曝光率水平之下。SH條件概率方法后來(lái)又衍生了各種變式,比如SH-DP法、SH-SL法、SH-SLC法、SH-RT方法。最近也有不少研究者將SH條件概率控制方法和a分層選題策略配合使用,共同控制曝光率水平[6]。此外,最近還有些研究者進(jìn)一步提出了新的曝光率控制方法,如項(xiàng)目合格方法、多重曝光率方法。
在考生作答完成一道試題后,先要進(jìn)行能力估計(jì),再根據(jù)考生的即時(shí)能力估計(jì)值來(lái)選擇試題,并要進(jìn)行試題曝光率的控制方法算法,因此在選題這一環(huán)節(jié)中,計(jì)算機(jī)要經(jīng)歷較為復(fù)雜的運(yùn)算,需要一定時(shí)間來(lái)完成選題這一步驟;然而考試中又要求考生作答完成后,需要立即呈現(xiàn)給考生下一道試題。怎樣來(lái)處理選題時(shí)間較長(zhǎng)與試題需要立即呈現(xiàn)之間的矛盾?這可以采用預(yù)先估計(jì)考生能力,預(yù)先進(jìn)行選題的方法來(lái)處理[4]:在測(cè)試進(jìn)行過(guò)程中,第i題正呈現(xiàn)給考生作答,在考生思考和作答的過(guò)程的同時(shí),計(jì)算機(jī)測(cè)驗(yàn)系統(tǒng)在后臺(tái)就預(yù)先按考生答對(duì)、答錯(cuò)的兩種情況,分別預(yù)先進(jìn)行能力估計(jì),得到兩個(gè)能力估計(jì)值θ1,θ2(θ1對(duì)應(yīng)考生答對(duì)時(shí)的能力估計(jì)值;θ2對(duì)應(yīng)考生答錯(cuò)時(shí)的能力估計(jì)值),并預(yù)先根據(jù)這兩個(gè)能力估計(jì)值作為選題出發(fā)點(diǎn),從題庫(kù)中根據(jù)選題策略和曝光率控制的要求分別選擇一道試題T1或T2(T1對(duì)應(yīng)考生答對(duì)時(shí)需要呈現(xiàn)一道的試題;T2對(duì)應(yīng)考生答錯(cuò)時(shí)需要呈現(xiàn)一道的試題)??忌鞔鹜甑趇題時(shí),則將考生作答第題的情況,答對(duì)呈現(xiàn)T1,答錯(cuò)呈現(xiàn)T2。因此,CAT測(cè)試流程的詳圖為:
圖2 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試基本流程
CAT測(cè)試結(jié)束時(shí),需要對(duì)被試進(jìn)行最后的能力估計(jì)。被試的最后能力估計(jì)主要使用極大似然估計(jì)方法;如果極大似然估計(jì)不能收斂則使用能力后驗(yàn)期望估計(jì)。如果考生在規(guī)定的時(shí)間內(nèi)完成了規(guī)定題量的80%(比如測(cè)驗(yàn)總長(zhǎng)度為35題,那么考生至少要完成28題)及以上的題量,則根據(jù)考生這些作答情況進(jìn)行能力估計(jì)[5]。如果考生在規(guī)定時(shí)間內(nèi)未完成規(guī)定題量的80%(即少于28題),在這種情況下進(jìn)行超時(shí)懲罰。如果考生提前交卷而沒(méi)有完成規(guī)定題量的80%,則也進(jìn)行扣分后計(jì)算最終測(cè)驗(yàn)成績(jī)。
考生作答完成規(guī)定題量,提交試卷后,計(jì)算機(jī)會(huì)在幾秒之內(nèi)呈現(xiàn)該考生試的此次考試成績(jī)和基本分析報(bào)告。成績(jī)分?jǐn)?shù)包括該考試的考試T分?jǐn)?shù)、百分等級(jí)分?jǐn)?shù)、和評(píng)定等級(jí)(比如評(píng)定為不合格、合格、良好、優(yōu)秀四個(gè)等級(jí))。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)都不直接報(bào)告原始能力估計(jì)值,而是報(bào)告線性轉(zhuǎn)換后的分?jǐn)?shù)??忌詈蟮梅侄疾捎肨分?jǐn)?shù)形式來(lái)報(bào)告,一般采用 T=500+100×θ,那么 T 在 [200,800] 之間。GRE計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)報(bào)告一般都在200至800分之間[5]。如果考生的GRE分?jǐn)?shù)在600分以上,則是屬于高分。
CAT在計(jì)算機(jī)上進(jìn)行測(cè)試,可以有效收集考生在測(cè)驗(yàn)過(guò)程中的詳細(xì)作答信息,并利用這些作答信息來(lái)評(píng)鑒試題質(zhì)量的好壞、是否存在功能差異、以及診斷考生作答是否存在異常、診斷知識(shí)缺陷、能力差異等等,為考生自己下一步學(xué)習(xí)提供依據(jù)。教師可以利用這些作答信息來(lái)分析考生的作答信息,診斷分析學(xué)生知識(shí)掌握情況,并據(jù)此改進(jìn)教學(xué),或進(jìn)行有關(guān)的補(bǔ)課等教學(xué)輔導(dǎo)。此外,從學(xué)校層面、地區(qū)層面等教育管理部門(mén)的角度來(lái)看,通過(guò)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)可以較快收集到學(xué)校教學(xué)、學(xué)生學(xué)業(yè)水平質(zhì)量情況,為教育部門(mén)的教育決策提供參考。在美國(guó)TOEFL、GRE的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的成績(jī)是美國(guó)許多大學(xué)接受申請(qǐng)入學(xué)的一個(gè)必要依據(jù)。
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在實(shí)際應(yīng)用中,還需要注意和解決以下一些測(cè)量技術(shù)和問(wèn)題:比如種子試題(seed item)的在線測(cè)試與項(xiàng)目參數(shù)估計(jì)、測(cè)驗(yàn)交疊率、紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值等等。
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的題庫(kù)最初建立時(shí)需要紙筆測(cè)驗(yàn)對(duì)試題進(jìn)行試題參數(shù)量尺化。當(dāng)題庫(kù)已經(jīng)建立后,在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的使用過(guò)程中,可以將新的試題(seed item,種子試題)等值填充到題庫(kù)中去。但新的試題參數(shù)如何進(jìn)行參數(shù)估計(jì),并與題庫(kù)里的試題參數(shù)等值在同一量尺上?目前計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)已經(jīng)發(fā)展出了在計(jì)算機(jī)測(cè)驗(yàn)過(guò)程中,實(shí)現(xiàn)種子試題(seed item)的測(cè)試和試題參數(shù)量尺化的技術(shù)[7],即在線測(cè)試技術(shù)(On-line Pretest Item-Calibration Methods):在對(duì)考生進(jìn)行正式施測(cè)的過(guò)程中,加入少量的種子試題,可以在測(cè)試的同時(shí)得到種子試題的作答反應(yīng)矩陣,從而實(shí)現(xiàn)種子試題在線測(cè)試的參數(shù)估計(jì)。美國(guó)ETS的CAT測(cè)驗(yàn)中都加入了種子試題進(jìn)行測(cè)試和參數(shù)估計(jì)。
測(cè)驗(yàn)間交疊率是指一個(gè)CAT測(cè)驗(yàn)的試題同時(shí)出現(xiàn)在另外一個(gè)CAT測(cè)驗(yàn)的中,這時(shí)重復(fù)出現(xiàn)的試題數(shù)量除以測(cè)驗(yàn)長(zhǎng)度即可得到這兩個(gè)測(cè)驗(yàn)之間的交疊率。計(jì)算所有CAT測(cè)驗(yàn)之間的交疊率平均值,可以得到平均測(cè)驗(yàn)間交疊率。測(cè)驗(yàn)平均交疊率水平也反映了試題曝光的程度,測(cè)驗(yàn)平均交疊率越高,預(yù)示著考生之間分享試題而受益的概率越高,試題泄露的概率越大。有研究論述了試題交疊率和試題曝光率之間的關(guān)系[8],并認(rèn)為決定平均測(cè)驗(yàn)間交疊率的影響因素有:題庫(kù)的容量、測(cè)驗(yàn)長(zhǎng)度、所有項(xiàng)目曝光率的方差,并指出這三者之間存在函數(shù)關(guān)系。要想讓平均測(cè)驗(yàn)間的交疊率低于10%,則要求項(xiàng)目曝光的誤差大約為0.0014,同時(shí)題庫(kù)容量的大小至少是定長(zhǎng)測(cè)驗(yàn)長(zhǎng)度的12倍,這就是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中的“十二倍定律”。
紙筆測(cè)驗(yàn)作為最基本的測(cè)驗(yàn)形式,將一直與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)同時(shí)存在。兩種測(cè)驗(yàn)分?jǐn)?shù)之間如何進(jìn)行比較,這就是紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值問(wèn)題。美國(guó)ASVAB-CAT在施測(cè)時(shí),就對(duì)紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)等值的問(wèn)題進(jìn)行了探討,并著重考慮和解決了以下幾個(gè)問(wèn)題[4]:一是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)是等值到紙筆測(cè)驗(yàn)分?jǐn)?shù)量尺上,并且合格分?jǐn)?shù)線是以紙筆測(cè)驗(yàn)分?jǐn)?shù)常模來(lái)確定計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)線。二是被選擇等值測(cè)驗(yàn)的被試都是需要參加征兵入伍考試的考生,考試成績(jī)決定其是否符合入伍的條件,確??荚噭?dòng)機(jī)與正式測(cè)驗(yàn)是一樣的。而且所有考生都參加了紙筆測(cè)驗(yàn)和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn),一半考生先進(jìn)行紙筆測(cè)驗(yàn)測(cè)試后再進(jìn)行CAT測(cè)試,另一半考生先進(jìn)行CAT測(cè)試后再進(jìn)行紙筆測(cè)驗(yàn)測(cè)試。三是對(duì)考生群體進(jìn)行分類,建立亞群體常模,比如建立黑人、婦女等群體的常模。此外,在等值計(jì)算過(guò)程中,需要對(duì)考試群體分?jǐn)?shù)進(jìn)行數(shù)據(jù)平滑數(shù)據(jù)處理和分?jǐn)?shù)轉(zhuǎn)換。紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)如果實(shí)現(xiàn)有效的等值需要進(jìn)一步探討,對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的推廣與應(yīng)用具有重要意義。
[1]漆書(shū)青,戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究【M】.南昌:江西高校出版社.1992,
[2]Lord, F.M., Applications of item response theory to practical testing problems. 1980, Hillsdale, NJ:Lawrence Erlbaum Associates.
[3]Lord,F.M.,Practical applications of item characteristic curve theory. Journal of Educational Measurement,1977,14:p.117-138.
[4]Sands,W.A.,Waters,B.K.&McBride,J.R.Computerized adaptive testing.From inquiry to operation. 1997,Washington(DC):American Psychological Association.
[5]Mills,G.N.&Steffen M.,the GRE computerize adaptive test: operational issues, in Computerized Adaptive Testing:Theory And Practice.,W.J.Van Der Linden and C.A.W. Glas,Editors.2000,Kluwer Academic Publishers:DordrechBostonLondon.p.75-100.
[6]Leung,C.,Chang H.H.&Hau K.,Item Selection in Computerized Adaptive Testing: Improving the a-Stratified Design with the Sympson-Hetter Algorithm.Applied Psychological Measurement,2002、26:p.376-392.
[7]Ban, J.C., et al., A comparative study of on-line pretest item calibration-scaling methods in computerized adaptive testing. Journal of Educational Measurement,2001、38(3):p.191-212.
[8]Chen, S., Ankenmann, R.D. &Spray, J.A. The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing. Journal of Educational Measurement,2003.40(2):p.129-145.
[9]Segall,D.O.,Multidimensional adaptive testing.1996.p.331-354.
[10]Leighton, J.P.& Gierl M.J.. Cognitive diagnostic assessment for education-theory and applications.2007,Cambridge:Cambridge University Press.
TP306+.2 < class="emphasis_bold">文獻(xiàn)標(biāo)識(shí)碼:A
A
1671-5993(2012)01-0058-06
2012-02-21
“基礎(chǔ)教育監(jiān)測(cè)系統(tǒng)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)”(基金項(xiàng)目號(hào):9151063101000002)江西省教育科學(xué)“十二五”規(guī)劃課題(項(xiàng)目編號(hào):10YB254)資助。