計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試流程與測(cè)試技術(shù)

2012-12-28 05:21簡(jiǎn)小珠張敏強(qiáng)彭春妹

滁州職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2012年1期

關(guān)鍵詞：紙筆題庫(kù)測(cè)驗(yàn)

簡(jiǎn)小珠,張敏強(qiáng),彭春妹

（華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631；井岡山大學(xué)教育學(xué)院,吉安 343009）

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試流程與測(cè)試技術(shù)

簡(jiǎn)小珠,張敏強(qiáng),彭春妹

（華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631；井岡山大學(xué)教育學(xué)院,吉安 343009）

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是現(xiàn)代教育測(cè)驗(yàn)的一種新形式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的指導(dǎo)理論和測(cè)試思想與傳統(tǒng)紙筆測(cè)驗(yàn)不同，而且測(cè)試方面有諸多的優(yōu)點(diǎn)。本文詳細(xì)論述計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本測(cè)試流程，包括被試即時(shí)能力估計(jì)、選題策略、曝光率控制、測(cè)驗(yàn)終止標(biāo)準(zhǔn)等八個(gè)基本步驟；并進(jìn)一步論述了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在實(shí)測(cè)中應(yīng)解決的關(guān)鍵技術(shù)與問(wèn)題：在線參數(shù)估計(jì)、試題與測(cè)驗(yàn)交疊率控制、紙筆測(cè)驗(yàn)與計(jì)算機(jī)等值、多維評(píng)價(jià)與認(rèn)知診斷等。

項(xiàng)目反應(yīng)理論;計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn);測(cè)試流程

一、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本含義和發(fā)展歷程

測(cè)驗(yàn)是教育測(cè)量評(píng)價(jià)的主要手段，隨著現(xiàn)代測(cè)量技術(shù)的發(fā)展，計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing，CAT）作為一種新型的測(cè)驗(yàn)方式逐漸應(yīng)用于教育測(cè)量與評(píng)價(jià)中。美國(guó)的許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的形式。這些考試包括美國(guó)大學(xué)入學(xué)考試SAT考試、TOEFL考試、GRE考試、建筑師考試、商學(xué)院研究生入學(xué)考試、護(hù)士資格考試等。國(guó)內(nèi)在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研究與應(yīng)用方面也有長(zhǎng)足的進(jìn)步，早在80年代后期，漆書(shū)青進(jìn)行了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面的早期嘗試[1]。2008年全國(guó)大學(xué)英語(yǔ)四六級(jí)等級(jí)考試也初步嘗試了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的試驗(yàn)。2002年臺(tái)灣國(guó)民中學(xué)學(xué)生基本學(xué)力測(cè)驗(yàn)開(kāi)始采用了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)作為一種新型的測(cè)驗(yàn)方式，本文將詳細(xì)而系統(tǒng)的介紹計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本思想、測(cè)試技術(shù)流程。

（一）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本概念、基本思想

從50年代項(xiàng)目反應(yīng)理論創(chuàng)立以來(lái)，項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）逐漸成為現(xiàn)代教育與心理測(cè)量研究的主流方向，其中最主要的應(yīng)用就是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是一種與紙筆測(cè)驗(yàn)（Paper&Pencil Test，PPT）迥然不同的測(cè)驗(yàn)形式，在計(jì)算機(jī)輔助下以項(xiàng)目反應(yīng)理論為測(cè)量理論基礎(chǔ)建立題庫(kù)，并根據(jù)每位考生的不同能力水平在題庫(kù)中選擇適合個(gè)別考生能力水平情況的試題進(jìn)行測(cè)試的一種測(cè)驗(yàn)新方式。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)與傳統(tǒng)紙筆測(cè)驗(yàn)相比，主要有以下不同：（1）測(cè)量理論基礎(chǔ)不同。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是以項(xiàng)目反應(yīng)理論為基礎(chǔ)；紙筆測(cè)驗(yàn)主要是以經(jīng)典測(cè)量理論為基礎(chǔ)。（2）測(cè)量技術(shù)不同。由于測(cè)量理論基礎(chǔ)不一樣，這兩種類型測(cè)驗(yàn)的項(xiàng)目分析、測(cè)驗(yàn)編制、評(píng)分、測(cè)驗(yàn)等值、分?jǐn)?shù)解釋等測(cè)量技術(shù)方法也都不一樣。（3）測(cè)驗(yàn)方式不同。紙筆測(cè)驗(yàn)只需要紙筆就可以進(jìn)行，計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)必須借助計(jì)算機(jī)的輔助才能進(jìn)行，這是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的一個(gè)弱點(diǎn)，但隨著計(jì)算機(jī)（特別是筆記本計(jì)算機(jī)）的廣泛普及，這一弱點(diǎn)將被逐漸克服。

相對(duì)于每一個(gè)考生來(lái)說(shuō)，難度適中的試題才最能有效且精確地測(cè)量其能力。而通常的一份紙筆測(cè)驗(yàn)的試題難度，很難適合每位考生的能力水平，從而很難滿足對(duì)每一個(gè)被試對(duì)象進(jìn)行精確測(cè)量。在項(xiàng)目反應(yīng)理論下，考生能力估計(jì)不受施測(cè)試題的影響，也就是說(shuō)，不同的考生測(cè)試不同的試題，只要試題內(nèi)容性質(zhì)相同，不同能力考生的能力估計(jì)值可以被精確的估計(jì)出來(lái)，而且是可以互相比較。要能做到試題難度隨考生能力不同（即根據(jù)考試個(gè)體能力水平差異）而調(diào)整，只有計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)形式才達(dá)到此要求。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)最基本的測(cè)量思想：在測(cè)試過(guò)程中，考生每完成一道試題就即時(shí)估計(jì)考生能力水平，并以此來(lái)挑選與考生能力水平相適應(yīng)難度的試題來(lái)測(cè)試，通過(guò)較少試題達(dá)到精確測(cè)量的目的。

（二）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的優(yōu)勢(shì)與不足

在大型考試中實(shí)施計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)，具有以下優(yōu)點(diǎn)：（1）依據(jù)考生不同能力水平來(lái)挑選不同的試題，降低考生的考試挫折感；高能力考生就不必回答過(guò)多的簡(jiǎn)單考題，而水平相對(duì)較低的考生也不必回答太多難題，可以適合每位考生的作答速度，通過(guò)較少的試題就能對(duì)考生的能力水平做出有效的測(cè)度；（2）可以更精確估計(jì)每一個(gè)的考生能力或潛在特質(zhì)，提高每一次測(cè)驗(yàn)的精度（即測(cè)驗(yàn)信度）；（3）可以加強(qiáng)測(cè)驗(yàn)施測(cè)的標(biāo)準(zhǔn)化過(guò)程，不必統(tǒng)一規(guī)定測(cè)驗(yàn)舉行的時(shí)間，考試部門(mén)一年可以組織多次測(cè)驗(yàn)，考生可根據(jù)自己的情況選擇其中的一次或多次測(cè)驗(yàn)；（4）題庫(kù)的試題管理由計(jì)算機(jī)控制，測(cè)驗(yàn)時(shí)安排的試題因人而異，可以加強(qiáng)測(cè)驗(yàn)的安全性；（5）能即時(shí)計(jì)分和報(bào)告成績(jī)，并能將測(cè)試結(jié)果及時(shí)反饋給考生；并能克服紙筆測(cè)驗(yàn)評(píng)卷時(shí)由評(píng)卷者所帶來(lái)的主觀評(píng)分誤差。

當(dāng)然計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)也有不足：（1）要求大容量的題庫(kù)，因而在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的前期階段需要大量的試題預(yù)測(cè)和校準(zhǔn)。一旦題庫(kù)建立后，可以使用試題在線測(cè)試技術(shù)對(duì)題庫(kù)進(jìn)行更新，從而滿足題庫(kù)容量的需要。（2）無(wú)法及時(shí)評(píng)估開(kāi)放性的主觀題，比如問(wèn)答題、作文，盡管計(jì)算機(jī)可以方便有效的記錄保存考生在這些試題上的作答，還需要評(píng)卷員進(jìn)行網(wǎng)上評(píng)卷。（3）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研發(fā)較為復(fù)雜。盡管計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)還有不足之處，但從測(cè)量的準(zhǔn)確性、標(biāo)準(zhǔn)化，它的優(yōu)勢(shì)是明顯的，代表了現(xiàn)代教育測(cè)量技術(shù)的發(fā)展方向。

（三）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的發(fā)展歷程簡(jiǎn)要概述

最早的自適應(yīng)測(cè)驗(yàn) （即因材施測(cè)的測(cè)驗(yàn)方式）的雛形，是1908年Binet所編制的智力測(cè)驗(yàn)的研究，即根據(jù)兒童的年齡來(lái)安排不同測(cè)驗(yàn)項(xiàng)目。60年代末期，美國(guó)的教育測(cè)驗(yàn)服務(wù)中心(Educational Testing Service)的F.Lord在項(xiàng)目反應(yīng)理論和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面從事較為系統(tǒng)而完整的研究[2]。Lord認(rèn)為對(duì)于低能力與高能力的考生而言，固定長(zhǎng)度的測(cè)驗(yàn)無(wú)法有效的滿足這些考生能力估計(jì)的需求，如果被挑選用來(lái)施測(cè)的試題都能針對(duì)每位考生能力提供最大的參考信息的話，則減少施測(cè)的題數(shù)不會(huì)降低對(duì)每位考生能力的精確測(cè)量[3]。

70年代蒙特卡洛模擬方法在測(cè)量中逐漸應(yīng)用于計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的研究中。在當(dāng)時(shí)還沒(méi)有實(shí)測(cè)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的情況下，模擬技術(shù)有力的推動(dòng)有關(guān)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在能力估計(jì)方法、選題策略、試題曝光率、測(cè)驗(yàn)信度、測(cè)驗(yàn)終止原則等方面的研究。1975年召開(kāi)第一次專門(mén)探討計(jì)算機(jī)自適應(yīng)考試的大會(huì)，之后又分別于1977年和1979年在明尼蘇達(dá)大學(xué)召開(kāi)了兩次研討會(huì)，這幾次研討會(huì)極大地促進(jìn)了計(jì)算機(jī)自適應(yīng)測(cè)試技術(shù)和應(yīng)用方面的研究。

1979年，最早的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)（ASVAB-CAT）啟動(dòng)研發(fā)，1985年該測(cè)驗(yàn)系統(tǒng)在征兵入伍測(cè)驗(yàn)中正式投入使用。《Computerized adaptive testing：From inquiry to operation》[4]詳細(xì)的歸納了ASVAB-CAT測(cè)驗(yàn)系統(tǒng)的研發(fā)過(guò)程和基本技術(shù)，并概括和總結(jié)了1979至1997年之間計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面的研究成果和基本技術(shù)。隨著計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)技術(shù)的不斷的完善和成熟。20世紀(jì)90年代初至21世紀(jì)初，美國(guó)許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)形式。1998年7月TOEFL考試、GRE考試在美國(guó)以及少數(shù)其他國(guó)家進(jìn)行了機(jī)考，2001年在全世界范圍內(nèi)普及了機(jī)考（即 CAT）。

二、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試的基本流程

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)要讓測(cè)驗(yàn)試題的難度適合每一個(gè)考生能力水平，必須需要以下兩個(gè)基本條件：（1）大容量的題庫(kù)。建立了一個(gè)容量較大的題庫(kù)，并根據(jù)項(xiàng)目反應(yīng)理論對(duì)每一道試題進(jìn)行了參數(shù)量尺化；并配合良好的試題曝光率控制方法，保障在進(jìn)行測(cè)驗(yàn)時(shí)的題庫(kù)安全。（2）即時(shí)的能力估計(jì)方法和選題策略?？忌孔鞔鹨坏涝囶}就能即時(shí)估計(jì)出考生的能力分?jǐn)?shù)，并迅速根據(jù)選題策略選擇最適合考生能力水平的試題來(lái)測(cè)試。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試流程是一個(gè)復(fù)雜的流程技術(shù)，包括以下八個(gè)基本流程：【測(cè)試起點(diǎn)】、【考生作答】、【即時(shí)能力估計(jì)】、【選題】、【終止標(biāo)準(zhǔn)】、【能力最終估計(jì)】、【分?jǐn)?shù)轉(zhuǎn)換與成績(jī)報(bào)告】、【分析評(píng)價(jià)】。

圖1 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試基本流程

（一）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試起點(diǎn)

先考哪一道試題，是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)所需面臨的重要問(wèn)題之一。常用的起點(diǎn)方法有五種：(1)難度適中的試題中隨機(jī)抽取一道試題；(2)從題庫(kù)中完全隨機(jī)抽取一道試題；(3)從考生已知的有關(guān)學(xué)業(yè)背景（包括以往的測(cè)驗(yàn)成績(jī)）確定起點(diǎn)，然后再?zèng)Q定出那一道試題。(4)讓考生初步作答3至5道試題，根據(jù)EAP方法或MLE方法進(jìn)行能力估計(jì)，以此作為能力的起點(diǎn)；(5)由考生自己決定第一道試題的難度（從難、中、易三個(gè)難度水平的試題中選擇一個(gè)水平來(lái)測(cè)試）。Lord（1977）研究認(rèn)為只要測(cè)驗(yàn)的題數(shù)不少于25題[3]，以哪一道試題作為測(cè)試起點(diǎn)，對(duì)被試最終能力估計(jì)值的影響不大。一般來(lái)說(shuō)，許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的起點(diǎn)方法都是選擇第一種方法，而且目前許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的模擬研究和一些應(yīng)用研究也都是選擇第一種方法，第四種方法也應(yīng)用較多。如果采用第四種方法，則需要在【測(cè)試起點(diǎn)】與【考生作答】之間增加三個(gè)步驟：【考生初步作答幾道試題】、【能力初步估計(jì)】、【選擇下一道試題】。

（二）考生作答

考生在測(cè)試過(guò)程中，計(jì)算機(jī)屏幕一次只呈現(xiàn)一道試題，考生必須先作答完成正在呈現(xiàn)的試題，然后才能進(jìn)入下一道試題的測(cè)試。如果考生不知道正確答案，一般都要求考生隨機(jī)選擇一個(gè)選項(xiàng)，不允許讓試題空著不作答?？忌趨⒓佑?jì)算機(jī)自適應(yīng)測(cè)驗(yàn)之前，可以先使用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)練習(xí)軟件進(jìn)行初步考試練習(xí)和體驗(yàn)，熟悉計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的形式，了解考試要求和規(guī)則。比如美國(guó)ETS為GRE考試推出了GRE POWERPREP考試練習(xí)軟件。

（三）即時(shí)能力估計(jì)

在測(cè)試過(guò)程中考生每完成一道試題的作答，就需要對(duì)被試能力作出即時(shí)能力估計(jì)，并根據(jù)即時(shí)能力估計(jì)值選擇下一道試題?？忌芰烙?jì)方法一般有三種：極大似然估計(jì)方法、期望能力估計(jì)方法、極大后驗(yàn)估計(jì)方法。因此在測(cè)試過(guò)程中，考生能力即時(shí)估計(jì)的主要方法極大似然估計(jì)方法，如果極大似然估計(jì)不能收斂，則采用能力后驗(yàn)期望估計(jì)的方法。

（四）測(cè)驗(yàn)終止標(biāo)準(zhǔn)

測(cè)驗(yàn)終止的標(biāo)準(zhǔn)主要有兩種，固定測(cè)驗(yàn)長(zhǎng)度和不固定測(cè)驗(yàn)長(zhǎng)度。（1）固定測(cè)驗(yàn)長(zhǎng)度：考生作答試題數(shù)量，已達(dá)到規(guī)定的上限，便中止測(cè)驗(yàn)；（2）不固定測(cè)驗(yàn)長(zhǎng)度。不固定測(cè)驗(yàn)長(zhǎng)度中，以項(xiàng)目最大信息量作為選題標(biāo)準(zhǔn)時(shí)，測(cè)驗(yàn)終止標(biāo)準(zhǔn)是測(cè)驗(yàn)信息總量達(dá)到指定的標(biāo)準(zhǔn)便終止測(cè)驗(yàn)，以貝葉斯估計(jì)法作為選題標(biāo)準(zhǔn)時(shí)，測(cè)驗(yàn)終止標(biāo)準(zhǔn)是估計(jì)能力之變異數(shù)小到某個(gè)預(yù)定的標(biāo)準(zhǔn)時(shí)終止施測(cè)。

此外，測(cè)驗(yàn)的總時(shí)間長(zhǎng)度也需要作為計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)終止的一個(gè)參考。為了測(cè)驗(yàn)的統(tǒng)一管理，也避免考生在考場(chǎng)漫無(wú)止境的思考，因此許多CAT測(cè)驗(yàn)都規(guī)定了測(cè)驗(yàn)的時(shí)間。一般來(lái)說(shuō)，計(jì)算機(jī)自適測(cè)驗(yàn)規(guī)定的時(shí)間長(zhǎng)度都會(huì)很充裕，讓95%以上的考生都能完成作答[5]。

目前許多計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的終止標(biāo)準(zhǔn)，主要是采用固定測(cè)驗(yàn)長(zhǎng)度（測(cè)驗(yàn)長(zhǎng)度一般都在25至45題之間），并在考試說(shuō)明規(guī)定了測(cè)驗(yàn)時(shí)間長(zhǎng)度。CAT測(cè)驗(yàn)規(guī)定測(cè)驗(yàn)長(zhǎng)度和測(cè)驗(yàn)時(shí)間，主要從社會(huì)的公平性來(lái)考慮，所有考生都完成同樣的試題數(shù)量，而且是相同的時(shí)間，這樣能較好的體現(xiàn)社會(huì)公平性。

（五）選題

在自適應(yīng)測(cè)驗(yàn)過(guò)程中，選擇最適合考生能力水平的試題是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的關(guān)鍵。目前計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)采用的選題策略主要有三種：（1）最大項(xiàng)目信息量方法，即根據(jù)考生即時(shí)能力估計(jì)值，挑選能對(duì)考生能力估計(jì)提供最大項(xiàng)目信息量的試題。最大項(xiàng)目信息量方法有不同的變式。比如a分層最大項(xiàng)目信息量方法、b分層最大項(xiàng)目信息量方法（即根據(jù)試題難度分層）、c分層最大項(xiàng)目信息量方法（即根據(jù)試題內(nèi)容分層）等一些其他變式。（2）利用貝葉斯試題選擇法，將考生能力分配看成是某種先驗(yàn)分布，計(jì)算考生答對(duì)或答錯(cuò)未用到的試題之后驗(yàn)變異數(shù)，再挑選能夠使這種考生能力后驗(yàn)分布之變異數(shù)為最小的試題，以作為施測(cè)的試題。（3）挑選試題難度最接近考生現(xiàn)階段能力估計(jì)的試題，答對(duì)了選擇稍難一些的試題，答錯(cuò)了選擇稍微容易一些的試題。

在選題過(guò)程，還必須考慮試題曝光率。試題曝光率是指每道試題的調(diào)用次數(shù)與已測(cè)試總?cè)藬?shù)比例，計(jì)算公式為：Pi(s)=Xi/NE，其中Pi(s)表示為第i題的曝光率水平；Xi為第i題累計(jì)調(diào)用的次數(shù)，NE為參加測(cè)驗(yàn)總?cè)藬?shù)。某一試題調(diào)用的次數(shù)越多，觀察曝光率就越高，其被泄露的可能性就越大。曝光率控制水平，是指由測(cè)驗(yàn)專家根據(jù)題庫(kù)調(diào)用的模擬研究結(jié)果和期望曝光率水平來(lái)確定的試題的最大曝光率水平?？刂破毓饴剩褪且罂刂圃囶}的觀察曝光率水平低于所預(yù)定的控制曝光率水平，即：Pi(s)=Xi/NE＜ri。曝光率控制的方法目前最常用是Sympson和Hetter提出的SH條件概率方法。它是一種利用條件概率對(duì)曝光率進(jìn)行控制的方法，基本思想就是在項(xiàng)目的初步選擇和最終調(diào)用之間，加設(shè)一個(gè)“過(guò)濾器”。這樣就可以保證每一道的曝光率都被控制在某一預(yù)定的控制曝光率水平之下。SH條件概率方法后來(lái)又衍生了各種變式，比如SH-DP法、SH-SL法、SH-SLC法、SH-RT方法。最近也有不少研究者將SH條件概率控制方法和a分層選題策略配合使用，共同控制曝光率水平[6]。此外，最近還有些研究者進(jìn)一步提出了新的曝光率控制方法，如項(xiàng)目合格方法、多重曝光率方法。

在考生作答完成一道試題后，先要進(jìn)行能力估計(jì)，再根據(jù)考生的即時(shí)能力估計(jì)值來(lái)選擇試題，并要進(jìn)行試題曝光率的控制方法算法，因此在選題這一環(huán)節(jié)中，計(jì)算機(jī)要經(jīng)歷較為復(fù)雜的運(yùn)算，需要一定時(shí)間來(lái)完成選題這一步驟；然而考試中又要求考生作答完成后，需要立即呈現(xiàn)給考生下一道試題。怎樣來(lái)處理選題時(shí)間較長(zhǎng)與試題需要立即呈現(xiàn)之間的矛盾？這可以采用預(yù)先估計(jì)考生能力，預(yù)先進(jìn)行選題的方法來(lái)處理[4]：在測(cè)試進(jìn)行過(guò)程中，第i題正呈現(xiàn)給考生作答，在考生思考和作答的過(guò)程的同時(shí)，計(jì)算機(jī)測(cè)驗(yàn)系統(tǒng)在后臺(tái)就預(yù)先按考生答對(duì)、答錯(cuò)的兩種情況，分別預(yù)先進(jìn)行能力估計(jì)，得到兩個(gè)能力估計(jì)值θ1，θ2（θ1對(duì)應(yīng)考生答對(duì)時(shí)的能力估計(jì)值；θ2對(duì)應(yīng)考生答錯(cuò)時(shí)的能力估計(jì)值），并預(yù)先根據(jù)這兩個(gè)能力估計(jì)值作為選題出發(fā)點(diǎn)，從題庫(kù)中根據(jù)選題策略和曝光率控制的要求分別選擇一道試題T1或T2（T1對(duì)應(yīng)考生答對(duì)時(shí)需要呈現(xiàn)一道的試題；T2對(duì)應(yīng)考生答錯(cuò)時(shí)需要呈現(xiàn)一道的試題）?？忌鞔鹜甑趇題時(shí)，則將考生作答第題的情況，答對(duì)呈現(xiàn)T1，答錯(cuò)呈現(xiàn)T2。因此，CAT測(cè)試流程的詳圖為：

圖2 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試基本流程

（六）能力最終估計(jì)

CAT測(cè)試結(jié)束時(shí)，需要對(duì)被試進(jìn)行最后的能力估計(jì)。被試的最后能力估計(jì)主要使用極大似然估計(jì)方法；如果極大似然估計(jì)不能收斂則使用能力后驗(yàn)期望估計(jì)。如果考生在規(guī)定的時(shí)間內(nèi)完成了規(guī)定題量的80%（比如測(cè)驗(yàn)總長(zhǎng)度為35題，那么考生至少要完成28題）及以上的題量，則根據(jù)考生這些作答情況進(jìn)行能力估計(jì)[5]。如果考生在規(guī)定時(shí)間內(nèi)未完成規(guī)定題量的80%（即少于28題），在這種情況下進(jìn)行超時(shí)懲罰。如果考生提前交卷而沒(méi)有完成規(guī)定題量的80%，則也進(jìn)行扣分后計(jì)算最終測(cè)驗(yàn)成績(jī)。

（七）分?jǐn)?shù)轉(zhuǎn)換和呈現(xiàn)報(bào)告

考生作答完成規(guī)定題量，提交試卷后，計(jì)算機(jī)會(huì)在幾秒之內(nèi)呈現(xiàn)該考生試的此次考試成績(jī)和基本分析報(bào)告。成績(jī)分?jǐn)?shù)包括該考試的考試T分?jǐn)?shù)、百分等級(jí)分?jǐn)?shù)、和評(píng)定等級(jí)（比如評(píng)定為不合格、合格、良好、優(yōu)秀四個(gè)等級(jí)）。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)都不直接報(bào)告原始能力估計(jì)值，而是報(bào)告線性轉(zhuǎn)換后的分?jǐn)?shù)?？忌詈蟮梅侄疾捎肨分?jǐn)?shù)形式來(lái)報(bào)告，一般采用 T＝500＋100×θ，那么 T 在 [200，800] 之間。GRE計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)報(bào)告一般都在200至800分之間[5]。如果考生的GRE分?jǐn)?shù)在600分以上，則是屬于高分。

（八）分析評(píng)價(jià)

CAT在計(jì)算機(jī)上進(jìn)行測(cè)試，可以有效收集考生在測(cè)驗(yàn)過(guò)程中的詳細(xì)作答信息，并利用這些作答信息來(lái)評(píng)鑒試題質(zhì)量的好壞、是否存在功能差異、以及診斷考生作答是否存在異常、診斷知識(shí)缺陷、能力差異等等，為考生自己下一步學(xué)習(xí)提供依據(jù)。教師可以利用這些作答信息來(lái)分析考生的作答信息，診斷分析學(xué)生知識(shí)掌握情況，并據(jù)此改進(jìn)教學(xué)，或進(jìn)行有關(guān)的補(bǔ)課等教學(xué)輔導(dǎo)。此外，從學(xué)校層面、地區(qū)層面等教育管理部門(mén)的角度來(lái)看，通過(guò)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)可以較快收集到學(xué)校教學(xué)、學(xué)生學(xué)業(yè)水平質(zhì)量情況，為教育部門(mén)的教育決策提供參考。在美國(guó)TOEFL、GRE的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的成績(jī)是美國(guó)許多大學(xué)接受申請(qǐng)入學(xué)的一個(gè)必要依據(jù)。

三、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在應(yīng)用中的有關(guān)測(cè)量技術(shù)

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在實(shí)際應(yīng)用中，還需要注意和解決以下一些測(cè)量技術(shù)和問(wèn)題：比如種子試題（seed item）的在線測(cè)試與項(xiàng)目參數(shù)估計(jì)、測(cè)驗(yàn)交疊率、紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值等等。

（一）種子試題的在線測(cè)試與項(xiàng)目參數(shù)估計(jì)

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的題庫(kù)最初建立時(shí)需要紙筆測(cè)驗(yàn)對(duì)試題進(jìn)行試題參數(shù)量尺化。當(dāng)題庫(kù)已經(jīng)建立后，在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的使用過(guò)程中，可以將新的試題（seed item，種子試題）等值填充到題庫(kù)中去。但新的試題參數(shù)如何進(jìn)行參數(shù)估計(jì)，并與題庫(kù)里的試題參數(shù)等值在同一量尺上？目前計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)已經(jīng)發(fā)展出了在計(jì)算機(jī)測(cè)驗(yàn)過(guò)程中，實(shí)現(xiàn)種子試題（seed item）的測(cè)試和試題參數(shù)量尺化的技術(shù)[7]，即在線測(cè)試技術(shù)（On-line Pretest Item-Calibration Methods）：在對(duì)考生進(jìn)行正式施測(cè)的過(guò)程中，加入少量的種子試題，可以在測(cè)試的同時(shí)得到種子試題的作答反應(yīng)矩陣，從而實(shí)現(xiàn)種子試題在線測(cè)試的參數(shù)估計(jì)。美國(guó)ETS的CAT測(cè)驗(yàn)中都加入了種子試題進(jìn)行測(cè)試和參數(shù)估計(jì)。

（二）測(cè)驗(yàn)間交疊率問(wèn)題

測(cè)驗(yàn)間交疊率是指一個(gè)CAT測(cè)驗(yàn)的試題同時(shí)出現(xiàn)在另外一個(gè)CAT測(cè)驗(yàn)的中，這時(shí)重復(fù)出現(xiàn)的試題數(shù)量除以測(cè)驗(yàn)長(zhǎng)度即可得到這兩個(gè)測(cè)驗(yàn)之間的交疊率。計(jì)算所有CAT測(cè)驗(yàn)之間的交疊率平均值，可以得到平均測(cè)驗(yàn)間交疊率。測(cè)驗(yàn)平均交疊率水平也反映了試題曝光的程度，測(cè)驗(yàn)平均交疊率越高，預(yù)示著考生之間分享試題而受益的概率越高，試題泄露的概率越大。有研究論述了試題交疊率和試題曝光率之間的關(guān)系[8]，并認(rèn)為決定平均測(cè)驗(yàn)間交疊率的影響因素有：題庫(kù)的容量、測(cè)驗(yàn)長(zhǎng)度、所有項(xiàng)目曝光率的方差，并指出這三者之間存在函數(shù)關(guān)系。要想讓平均測(cè)驗(yàn)間的交疊率低于10%，則要求項(xiàng)目曝光的誤差大約為0.0014，同時(shí)題庫(kù)容量的大小至少是定長(zhǎng)測(cè)驗(yàn)長(zhǎng)度的12倍，這就是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中的“十二倍定律”。

（三）紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值

紙筆測(cè)驗(yàn)作為最基本的測(cè)驗(yàn)形式，將一直與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)同時(shí)存在。兩種測(cè)驗(yàn)分?jǐn)?shù)之間如何進(jìn)行比較，這就是紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值問(wèn)題。美國(guó)ASVAB-CAT在施測(cè)時(shí)，就對(duì)紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)等值的問(wèn)題進(jìn)行了探討，并著重考慮和解決了以下幾個(gè)問(wèn)題[4]：一是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)是等值到紙筆測(cè)驗(yàn)分?jǐn)?shù)量尺上，并且合格分?jǐn)?shù)線是以紙筆測(cè)驗(yàn)分?jǐn)?shù)常模來(lái)確定計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的分?jǐn)?shù)線。二是被選擇等值測(cè)驗(yàn)的被試都是需要參加征兵入伍考試的考生，考試成績(jī)決定其是否符合入伍的條件，確?？荚噭?dòng)機(jī)與正式測(cè)驗(yàn)是一樣的。而且所有考生都參加了紙筆測(cè)驗(yàn)和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)，一半考生先進(jìn)行紙筆測(cè)驗(yàn)測(cè)試后再進(jìn)行CAT測(cè)試，另一半考生先進(jìn)行CAT測(cè)試后再進(jìn)行紙筆測(cè)驗(yàn)測(cè)試。三是對(duì)考生群體進(jìn)行分類，建立亞群體常模，比如建立黑人、婦女等群體的常模。此外，在等值計(jì)算過(guò)程中，需要對(duì)考試群體分?jǐn)?shù)進(jìn)行數(shù)據(jù)平滑數(shù)據(jù)處理和分?jǐn)?shù)轉(zhuǎn)換。紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)如果實(shí)現(xiàn)有效的等值需要進(jìn)一步探討，對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的推廣與應(yīng)用具有重要意義。

[1]漆書(shū)青,戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究【M】.南昌：江西高校出版社.1992,

[2]Lord, F.M., Applications of item response theory to practical testing problems. 1980, Hillsdale, NJ：Lawrence Erlbaum Associates.

[3]Lord,F.M.,Practical applications of item characteristic curve theory. Journal of Educational Measurement,1977,14：p.117-138.

[4]Sands,W.A.,Waters,B.K.&McBride,J.R.Computerized adaptive testing.From inquiry to operation. 1997,Washington(DC)：American Psychological Association.

[5]Mills,G.N.&Steffen M.,the GRE computerize adaptive test： operational issues, in Computerized Adaptive Testing：Theory And Practice.,W.J.Van Der Linden and C.A.W. Glas,Editors.2000,Kluwer Academic Publishers：DordrechBostonLondon.p.75-100.

[6]Leung,C.,Chang H.H.&Hau K.,Item Selection in Computerized Adaptive Testing： Improving the a-Stratified Design with the Sympson-Hetter Algorithm.Applied Psychological Measurement,2002、26：p.376-392.

[7]Ban, J.C., et al., A comparative study of on-line pretest item calibration-scaling methods in computerized adaptive testing. Journal of Educational Measurement,2001、38(3)：p.191-212.

[8]Chen, S., Ankenmann, R.D. &Spray, J.A. The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing. Journal of Educational Measurement,2003.40(2)：p.129-145.

[9]Segall,D.O.,Multidimensional adaptive testing.1996.p.331-354.

[10]Leighton, J.P.& Gierl M.J.. Cognitive diagnostic assessment for education-theory and applications.2007,Cambridge：Cambridge University Press.

TP306+.2 < class="emphasis_bold">文獻(xiàn)標(biāo)識(shí)碼：A

1671-5993（2012）01-0058-06

2012-02-21

“基礎(chǔ)教育監(jiān)測(cè)系統(tǒng)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)”（基金項(xiàng)目號(hào)：9151063101000002）江西省教育科學(xué)“十二五”規(guī)劃課題（項(xiàng)目編號(hào)：10YB254）資助。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試流程與測(cè)試技術(shù)

一、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本含義和發(fā)展歷程

（一）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本概念、基本思想

（二）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的優(yōu)勢(shì)與不足

（三）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的發(fā)展歷程簡(jiǎn)要概述

二、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試的基本流程

（一）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的測(cè)試起點(diǎn)

（二）考生作答

（三）即時(shí)能力估計(jì)

（四）測(cè)驗(yàn)終止標(biāo)準(zhǔn)

（五）選題

（六）能力最終估計(jì)

（七）分?jǐn)?shù)轉(zhuǎn)換和呈現(xiàn)報(bào)告

（八）分析評(píng)價(jià)

三、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在應(yīng)用中的有關(guān)測(cè)量技術(shù)

（一）種子試題的在線測(cè)試與項(xiàng)目參數(shù)估計(jì)

（二）測(cè)驗(yàn)間交疊率問(wèn)題

（三）紙筆測(cè)驗(yàn)與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的等值

一、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本含義和發(fā)展歷程

（一）計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的基本概念、基本思想

二、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)測(cè)試的基本流程