CAT模擬結(jié)果的分析模式與評價(jià)指標(biāo)

2016-06-05 14:14:54簡小珠戴步云

中國考試 2016年12期

簡小珠戴步云陳平

簡小珠戴步云陳平

計(jì)算機(jī)化自適應(yīng)測驗(yàn)（CAT）模擬是CAT研究的主要方法之一。CAT模擬結(jié)果的評價(jià)分析內(nèi)容主要包括三個(gè)方面：被試能力估計(jì)與被試能力分類分析、題庫試題使用情況分析和CAT測驗(yàn)作答過程分析。CAT模擬結(jié)果的分析模式主要分為整體分析和細(xì)化分析兩種模式。本研究從測驗(yàn)?zāi)M返真性能、測驗(yàn)準(zhǔn)確性、題庫安全性、題庫使用率、測驗(yàn)分類效率與準(zhǔn)確性、多測驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度等角度概述CAT模擬結(jié)果的各類評價(jià)指標(biāo)。CAT模擬結(jié)果的評價(jià)角度和評價(jià)指標(biāo)需要根據(jù)CAT研究目標(biāo)和測驗(yàn)情境要求加以確定。

CAT；CAT模擬；分析模式；評價(jià)指標(biāo)

1 CAT模擬結(jié)果的分析模式

計(jì)算機(jī)化自適應(yīng)測驗(yàn)（Computerized Adaptive Testing,CAT）模擬是CAT測驗(yàn)技術(shù)研究的主要手段。從分析內(nèi)容角度來看，CAT測驗(yàn)技術(shù)研究主要從三個(gè)方面對CAT模擬結(jié)果進(jìn)行分析：一是被試能力估計(jì)和被試能力分類情況；二是題庫中試題使用情況，包括試題曝光率情況、題庫使用率和試題內(nèi)容平衡等；三是CAT作答過程，包括在CAT作答過程中被試能力估計(jì)值變化情況、試題曝光率情況等。從分析模式角度來看，CAT模擬結(jié)果的分析大致可以分為兩種模式：一種為整體分析模式，對所有被試在測驗(yàn)上的模擬結(jié)果進(jìn)行整體評價(jià)分析；另一種為細(xì)化分析模式，即依據(jù)CAT分析內(nèi)容的三個(gè)角度，或者從被試能力量尺的各個(gè)水平上對被試能力水平進(jìn)行細(xì)化分析，或者從試題難度量尺水平上對題庫試題利用情況、曝光情況進(jìn)行細(xì)化分析，或者對CAT的每一步作答過程進(jìn)行細(xì)化分析。

1.1 從被試能力水平方面分析CAT模擬結(jié)果

對被試能力進(jìn)行準(zhǔn)確估計(jì)和正確分類是CAT測驗(yàn)過程中的最主要目標(biāo)，因而幾乎所有CAT研究都包含對被試能力估計(jì)結(jié)果的分析。被試能力估計(jì)結(jié)果的分析模式可以分為三種：整體分析模式、細(xì)化分析模式和介于二者之間的分段分析模式。

（1）整體分析模式。使用整體分析模式時(shí)，被試群體能力往往設(shè)計(jì)為服從正態(tài)分布或均勻分布。在每一種測驗(yàn)情境下，在每一評價(jià)指標(biāo)上，所有被試的CAT模擬結(jié)果只使用一個(gè)數(shù)據(jù)來評價(jià)。大部分CAT研究都是使用這種整體分析模式。但是，這種分析模式只能反映被試整體的模擬返真情況，而不能反映處于不同能力水平的被試在模擬測驗(yàn)結(jié)果上的差異情況。例如，Chang和Ying在比較α分層與其他選題策略時(shí)，使用整體分析模式對每種測驗(yàn)情境下被試能力估計(jì)的MSE和Bias指標(biāo)進(jìn)行計(jì)算分析[1]。再如，Revuelta和Ponsoda在比較試題曝光率控制方法時(shí)，使用整體分析模式分析被試能力模擬返真性能[2]。

（2）細(xì)化分析模式。此種分析模式是在能力量尺上抽取各個(gè)對應(yīng)不同能力被試群體的代表性能力點(diǎn)進(jìn)行模擬結(jié)果分析。很多研究采用代表性能力真值進(jìn)行CAT模擬分析。例如，Bock和Mislevy選取了從-2.8至+2.8之間各個(gè)能力水平的被試，分析期望后驗(yàn)?zāi)芰烙?jì)方法（EAP）在CAT能力估計(jì)中的應(yīng)用特性[3]。Sympson和Hetter模擬了能力被平均分配在7個(gè)水平點(diǎn)（-3、-2、-1、0、1、2和3）上的7 000名被試，以分析被試能力估計(jì)情況和試題曝光率情況[4]。Chang和Ansley選取了固定在-3.2至＋3.2之間的17個(gè)能力點(diǎn)，以估算各水平段被試的能力的條件標(biāo)準(zhǔn)誤[5]。陳平和丁樹良在-3.2至＋3.2之間選取17個(gè)代表性能力點(diǎn)，每個(gè)點(diǎn)模擬100名被試[6]。Magis以0.5為間隔距離在-3至+3之間選取了13個(gè)代表性能力點(diǎn)[7]。

（3）分段分析模式。此模式介于前兩種模式之間，對CAT模擬結(jié)果按能力水平進(jìn)行分段計(jì)算分析，要求被試群體的能力服從正態(tài)分布或均勻分布。例如Rulison和Loken計(jì)算了全體被試、前10%的高能力被試和最末10%低能力被試的Bias、RMES等[8]。Lin在分析被試群體的整體被試分類準(zhǔn)確性時(shí)，還單獨(dú)對能力初始值大于-1的被試群體進(jìn)行分析[9]。

1.2 從題庫的試題使用情況方面分析CAT模擬結(jié)果

題庫試題使用情況主要指試題曝光率和題庫使用率。題庫試題使用情況的分析模式主要有兩種。一種是整體分析模式，即對題庫中所有試題的曝光率等指標(biāo)進(jìn)行評價(jià)分析，例如Chang和Ying提出α分層選題策略，在各種測驗(yàn)情境下對題庫中所有試題的使用情況（包括分析測驗(yàn)重疊率、卡方統(tǒng)計(jì)量、曝光率低于0.2的試題數(shù)量等評價(jià)指標(biāo)）進(jìn)行分析評價(jià)[1]。由于整體模式使用評價(jià)指標(biāo)值來評價(jià)題庫整體使用情況，往往較為籠統(tǒng)，難以細(xì)化整個(gè)題庫的試題使用情況。一些研究者便采取另外一種題庫分析模式——細(xì)化分析模式。細(xì)化分析模式又分為兩種情況。

第一種情況是以題庫容量為橫坐標(biāo)分析題庫使用情況。Chang和Ying以題庫試題序號為橫坐標(biāo)（試題按區(qū)分度由小到大進(jìn)行排序）、以試題曝光率為縱坐標(biāo)描繪整個(gè)題庫的試題曝光率情況，較為全面詳盡地比較了α分層選題策略和其他幾種選題策略對試題曝光率的影響[1]。Leung，Chang和Hau在分析采用α分層與最大題目信息量相結(jié)合的選題策略對試題曝光率的影響時(shí)，也采用類似的方法[10]。van der Linden和Veldkamp在對幾種傳統(tǒng)的試題曝光率控制方法與項(xiàng)目合格法進(jìn)行比較時(shí)，以題庫容量作為橫坐標(biāo)的最大坐標(biāo)，按照每一道試題曝光率由大到小依次排序形成線圖，較好地展示了試題曝光率的整體情況以及各個(gè)試題曝光率控制方法的對比情況[11]。

第二種情況是一些研究者對試題使用情況進(jìn)行分段統(tǒng)計(jì)，并運(yùn)用表格或圖形來更清晰地反映試題使用的細(xì)節(jié)。例如，Revuelta和Ponsoda使用表格統(tǒng)計(jì)曝光率水平分別為0、1%～10%、11%～20%直至91%～99%和100%的試題的數(shù)量，從而反映題庫在不同曝光率水平上試題使用的整體情況[12]。Thompson以題庫中的試題使用頻數(shù)作為分段標(biāo)準(zhǔn)，使用表格分段的方式來統(tǒng)計(jì)分析在各個(gè)分段內(nèi)的試題數(shù)量[13]。Han在研究中也使用類似表格形式來分析題庫整體曝光率情況[14]。同時(shí)，Han以試題序號為橫坐標(biāo)，以試題曝光率為縱坐標(biāo)，使用圖形描繪整個(gè)題庫中試題曝光率的散點(diǎn)圖[14]。

1.3 從CAT測驗(yàn)過程的角度來分析CAT模擬結(jié)果

大多數(shù)CAT研究往往只分析評價(jià)CAT模擬測驗(yàn)結(jié)束時(shí)的被試能力估計(jì)、題庫試題選擇使用情況以及被試作答信息，而沒有關(guān)注CAT測驗(yàn)過程中每一步作答的測驗(yàn)信息及其變化情況。一部分研究者為了進(jìn)一步探討CAT測驗(yàn)過程中對試題曝光率和測驗(yàn)交疊率的控制情況，分析被試能力和試題選擇的參數(shù)變化等情況，對CAT測驗(yàn)過程中的每一步選題、能力估計(jì)等測驗(yàn)信息均進(jìn)行記錄，從而實(shí)現(xiàn)對CAT測驗(yàn)過程中的各項(xiàng)測量指標(biāo)的分析評估以及對試題曝光率和區(qū)分度的控制。對CAT測驗(yàn)過程進(jìn)行分析評價(jià)的代表性研究有：（1）Cheng和Liou依據(jù)測驗(yàn)開始至第30題被試估計(jì)值的Bias變化情況，分析比較了幾種選題策略對被試能力估計(jì)準(zhǔn)確性的影響[15]。（2）Barrada,Veldkamp和Olea在CAT測驗(yàn)過程中的每一步都設(shè)置當(dāng)前位置的最大曝光率水平和累計(jì)最大曝光率水平，提出多重曝光率的控制方法。他們以最大曝光率為縱坐標(biāo)，以CAT測驗(yàn)過程（從第1題到第25題）為橫坐標(biāo)，繪制了CAT測驗(yàn)過程中題庫試題曝光率的變化趨勢[16]。（3）Gnambs和Batinic計(jì)算了CAT測驗(yàn)過程每一步驟的被試能力分類情況信息，包括被試分類準(zhǔn)確性的數(shù)量和百分比，并由模擬結(jié)果的比較分析得出，刪節(jié)的序列概率比檢驗(yàn)終止策略（SCSPRT）要優(yōu)于序列概率比檢驗(yàn)（SPRT）終止策略[17]。（4）簡小珠計(jì)算被試在CAT測驗(yàn)過程中每一步的能力估計(jì)值，據(jù)此計(jì)算多次模擬測驗(yàn)的能力估計(jì)值的平均值，并以能力估計(jì)值為縱坐標(biāo)，以測驗(yàn)長度為橫坐標(biāo)，較好地描繪了CAT測驗(yàn)過程中被試能力估計(jì)值的變化趨勢[18]。（5）Olea等分析第5題至第40題的CAT測驗(yàn)過程中，根據(jù)選題策略所選擇試題的參數(shù)變化情況，發(fā)現(xiàn)所選擇的試題a參數(shù)估計(jì)值和初始值的平均值都是隨著CAT測驗(yàn)進(jìn)程逐漸變小，所選擇的b參數(shù)估計(jì)值和初始值之間的差異均值隨著CAT測驗(yàn)進(jìn)程也逐漸變小[19]。

此外，CAT過程分析也有一種分階段分析的模式，即在CAT測驗(yàn)過程中分兩個(gè)階段進(jìn)行分析。Cheng、Chang和Yi在比較4種內(nèi)容模塊的選題策略時(shí)，提出在第一階段采用指定內(nèi)容選擇的選題方法，在第二階段則從指定內(nèi)容選擇和非指定內(nèi)容選擇（又稱內(nèi)容彈性選擇）兩種選題方法中任選其一。結(jié)果表明，兩階段均采用內(nèi)容彈性選擇的選題策略能夠?qū)崿F(xiàn)較好的題庫曝光率控制和題庫使用率[20]。Cheng、Chang和Douglas等在探討分析約束加權(quán)控制的α分層策略時(shí)，使用的也是分段分析模式[21]。目前這種分階段研究相對很少，但對于那些需要實(shí)現(xiàn)多測驗(yàn)?zāi)繕?biāo)約束控制的測驗(yàn)來說，在CAT測驗(yàn)過程中進(jìn)行分階段的控制分析是較為理想的一種模式。

2 CAT模擬結(jié)果的評價(jià)指標(biāo)

根據(jù)CAT測驗(yàn)情境要求，研究者已經(jīng)從多個(gè)角度提出對CAT模擬結(jié)果進(jìn)行評價(jià)的指標(biāo)?；诓煌难芯磕康?，往往需要使用不同的評價(jià)角度和評價(jià)指標(biāo)。本文歸納主要有6個(gè)評價(jià)角度：側(cè)重評價(jià)測驗(yàn)?zāi)M返真性能，側(cè)重分析測驗(yàn)的測量準(zhǔn)確性，側(cè)重評價(jià)分析題庫安全性，反映分析題庫的利用率，評價(jià)分析測驗(yàn)分類效率、分類準(zhǔn)確性，綜合評價(jià)測驗(yàn)多目標(biāo)約束控制的實(shí)現(xiàn)程度。在這6個(gè)評價(jià)角度下又分別有多個(gè)評價(jià)指標(biāo)，以下分別論述。

2.1 評價(jià)模擬返真性能方面的指標(biāo)

反映測驗(yàn)題目參數(shù)或被試能力參數(shù)的模擬返真性能指標(biāo)有：均方根誤差RMSE（或均方誤差MSE）、偏差Bias、平均絕對值誤差A(yù)BS、能力真值與能力估計(jì)值的皮爾遜積差相關(guān)系數(shù)以及標(biāo)準(zhǔn)誤等。

（1）均方根誤差（RMSE），是各個(gè)測量值離均差的平方和均值的平方根。它是對一組測量數(shù)據(jù)可靠性的估計(jì)。均方根誤差小，測量的可靠性大一些，反之，測量就不大可靠。計(jì)算公式為其中，N為被試（或測驗(yàn)試題）總數(shù)，M為模擬次數(shù)，xjk是第j個(gè)參數(shù)（此參數(shù)可以是題目參數(shù)，也可以是被試能力參數(shù)）在第k次模擬時(shí)的估計(jì)值，x0j是第j個(gè)參數(shù)的模擬初始值或模擬真值，以下公式中的符號含義與此相同。RMSE是CAT模擬研究中最常用的指標(biāo)，也是其他教育與心理測量模擬研究中最常用的指標(biāo)。

當(dāng)然在有些研究中使用均方誤差（MSE），MSE是均方根誤差的平方。Chang和van der Linden進(jìn)一步提出條件Bias和條件MSE或RMSE，條件Bias和條件MSE是指針對某一被試或某一單獨(dú)被試群體而計(jì)算的Bias和RMSE，條件Bias和條件MSE與Bias和MSE對CAT模擬返真性能評價(jià)意義是一樣的[22]。簡小珠對在-3至+3區(qū)間19個(gè)代表性被試分別計(jì)算每個(gè)被試的Bias和RMSE[18]。Rulison和Loken計(jì)算成績前10%的群體和成績最后10%群體的Bias和RMSE[8]。

（2）絕對值平均偏差（ABS）是數(shù)據(jù)估計(jì)值與模擬真值的絕對平均偏差，反映估計(jì)值與真值的絕對距離的大小，計(jì) 算公式為 ABSE=

（3）偏差（Bias）是參數(shù)估計(jì)值與模擬真值平均偏差程度的反映，表示測量估計(jì)值距離模擬真值的偏離的程度，可反映估計(jì)值是否存在整體偏差。計(jì)算公式為如果需要反映參數(shù)估計(jì)值的偏離方向是正向還是負(fù)向，就可以選擇Bias。例如，依據(jù)Rulison和Loken的研究，在三參數(shù)模型下，高能力被試答錯(cuò)前兩題后，使用Bias指標(biāo)分析模擬初始值和被試估計(jì)值，可以反映被試能力被低估的程度[8]。

（4）皮爾遜積差相關(guān)系數(shù)，即求取題目參數(shù)或能力參數(shù)真值與估計(jì)值的皮爾遜積差相關(guān)系數(shù)ρ。由以往的研究結(jié)果發(fā)現(xiàn)，皮爾遜積差相關(guān)系數(shù)ρ往往對真值與估計(jì)值相關(guān)性不靈敏，數(shù)值往往都在0.90以上，有些甚至為0.99或接近1，而且在不同的測驗(yàn)情境下皮爾遜積差相關(guān)系數(shù)ρ的變化都很小[22-23]。

RMSE、ABSE與SE這些指標(biāo)值越小，或Bias的絕對值越接近于零，或皮爾遜積差相關(guān)系數(shù) ρ越大，說明測驗(yàn)?zāi)M結(jié)果越準(zhǔn)確。此5項(xiàng)指標(biāo)中，RMSE和Bias最為常用。

2.2 評價(jià)測驗(yàn)測量精度方面的指標(biāo)

反映CAT模擬測驗(yàn)的測量精度的指標(biāo)有覆蓋百分率、測驗(yàn)信息量（測量誤差）和平均試題信息量。指標(biāo)值越大，說明模擬測驗(yàn)的測量結(jié)果越準(zhǔn)確。

（1）覆蓋百分率（percentage coverage of 95% confidence intervals，PCC）是指根據(jù)模擬測驗(yàn)的參數(shù)估計(jì)值和測驗(yàn)標(biāo)準(zhǔn)誤，計(jì)算第j個(gè)參數(shù)在第k次測驗(yàn)?zāi)M時(shí)的參數(shù)估計(jì)值xjk的95%置信區(qū)間，觀測第j個(gè)參數(shù)的模擬真值在第k次模擬時(shí)是否落入這個(gè)置信區(qū)間。如果落入此區(qū)間則αjk=1，否者αjk=0，則由N個(gè)被試（試題）M次模擬得到的能力估計(jì)值落入置信區(qū)間的次數(shù)，再除以N×M，即可得到覆蓋百分率。計(jì)算公式為也就是說，覆蓋百分率可以反映能力參數(shù)初始值能否落入試題參數(shù)、能力參數(shù)估計(jì)值的置信區(qū)間的次數(shù)百分比，也是測驗(yàn)參數(shù)估計(jì)穩(wěn)定性的指標(biāo)。如Rulison和Loken使用覆蓋百分率衡量被試能力估計(jì)的測量精度[8]。

（2）測驗(yàn)信息量（test information）。測驗(yàn)信息量反映的是CAT測驗(yàn)對估計(jì)被試能力所提供的信息多少，也是測量誤差大小的反映。Kingsbury和Zara在增加內(nèi)容模塊設(shè)計(jì)的CAT研究中，計(jì)算了被試在CAT過程中每一步的測驗(yàn)信息量[28]。

（3）測驗(yàn)試題的平均信息量，即計(jì)算CAT測驗(yàn)中所有被試在測驗(yàn)過程中的所有試題的測驗(yàn)信息量的平均值，反映了測驗(yàn)效率（與測驗(yàn)長度有關(guān)），也側(cè)面反映了測驗(yàn)測量誤差，其計(jì)算公式為以及程小揚(yáng)等在分析CAT結(jié)果時(shí)都使用了試題平均信息量指標(biāo)來反映被試能力的測量精度[29-31]。Revuelta和Ponsoda在比較幾種試題曝光率的研究中，使用圖形方式呈現(xiàn)了CAT測驗(yàn)過程中試題平均信息量的變化趨勢[2]。

2.3 評價(jià)測驗(yàn)安全控制方面的指標(biāo)

評價(jià)測驗(yàn)安全和試題曝光率控制方面的指標(biāo)包括觀察到的試題最大曝光率、測驗(yàn)重疊率、試題使用頻數(shù)的卡方統(tǒng)計(jì)量χ2以及過度曝光試題的數(shù)量。其中，最大曝光率觀測值、測驗(yàn)重疊率以及卡方統(tǒng)計(jì)量這三項(xiàng)指標(biāo)使用較多。

最大曝光率觀測值（observed maximum exposure rates）。題目曝光率是指某一試題被調(diào)用的次數(shù)與參加測驗(yàn)總?cè)藬?shù)之比。觀察題庫中試題的最大曝光率以及所有題目的曝光率是否都控制在某一預(yù)設(shè)值rmax之下，是評價(jià)測驗(yàn)安全性的一個(gè)標(biāo)準(zhǔn)要求，是所有CAT曝光率控制研究中都需要考慮的指標(biāo)。

測驗(yàn)重疊率（test overlap rate）。測驗(yàn)重疊率是指任意兩個(gè)被試間作答相同題目的比例，也是衡量測驗(yàn)安全性的一個(gè)重要指標(biāo)，Chen、Ankenmann和Spray推導(dǎo)了測驗(yàn)重疊率與題目曝光率（item exposure rate）之間的關(guān)系[32]：

卡方統(tǒng)計(jì)量（χ2statistic）。Chang和Ying提出χ2統(tǒng)計(jì)量用于反映曝光率分布的觀測值與理想值之間的差距，認(rèn)為題庫中題目曝光率的一致分布也是比較測驗(yàn)安全控制方法的一個(gè)指標(biāo)[1]。若題庫容量為N，測驗(yàn)長度為L，則題庫中題目曝光率的最一致的分布為，所以 χ2統(tǒng)計(jì)量的公式表示為其中erj是題目j的曝光率。χ2統(tǒng)計(jì)量越小，說明題庫的使用越均勻，題庫中所有試題的曝光率就相對較小。如果某種選題方法得到的χ2值較低，則說明題庫中絕大多數(shù)的題目都得到充分利用。在比較不同的選題策略的曝光率結(jié)果時(shí)，可以比較它們的χ2。對兩種不同選題方法得到的χ2求F值，表示為：F方法1，方法2=χ2方法1/χ2方法2。如果F方法1，方法2＜1，那么可以認(rèn)為方法1在題目曝光率的平衡方面要好于方法2。

試題曝光率在CAT測驗(yàn)過程中的分布均勻性。Barrada、Olea、Ponsoda和Abad以及Barrada、Veldkamp和Olea都提出在CAT測驗(yàn)過程的各個(gè)位置上設(shè)置最大試題曝光率閾限值，并分析題庫試題在CAT測驗(yàn)從開始到結(jié)束時(shí)各個(gè)測試位置上的試題曝光率分布[16,33]。Barrada、Veldkamp和Veldkamp以及Olea提出的多重曝光率控制方法有助于使得整個(gè)題庫試題曝光率均勻化。

過度曝光的試題數(shù)量（number of overexposed items）。當(dāng)某一試題實(shí)際曝光率超過曝光率限制值0.25（0.2或0.3），那么該試題就被認(rèn)為是過度曝光了。題庫中過度曝光的試題量越多，則題庫安全性就越差[34]。

2.4 評價(jià)題庫使用方面的指標(biāo)

反映題庫使用情況的指標(biāo)包括題庫使用率、題目使用均勻性、從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題量、高使用率試題的比例與低使用率試題的比例。

題庫使用率（utilization rate of item bank）是使用最多的評價(jià)指標(biāo)。題庫使用率是指在題庫中被調(diào)用試題所占全庫容量的比例（試題使用的數(shù)量與題庫容量之比）。Chang、Qian和Ying認(rèn)為在不降低測驗(yàn)效率的前提下，題庫中的中、低區(qū)分度試題的使用情況是題庫使用率的衡量標(biāo)準(zhǔn)[35]。

題目使用均勻性，即計(jì)算題庫中所有題目調(diào)用次數(shù)的標(biāo)準(zhǔn)差，該指標(biāo)也間接反映了題庫使用率。題目調(diào)用次數(shù)的標(biāo)準(zhǔn)差越小，則說明試題使用越均勻，也間接說明題庫使用率較高。程小揚(yáng)和丁樹良使用該指標(biāo)分析題庫試題利用率的均勻性[36]。

從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題數(shù)量，反映題庫中試題未被使用的情況。Lin在比較計(jì)算機(jī)化分類測驗(yàn)中的選題策略時(shí)，使用從未調(diào)用試題的數(shù)量這一指標(biāo)[9]。Chang和Ying使用曝光率低于0.02的試題數(shù)量這一指標(biāo)比較多種選題策略，發(fā)現(xiàn)使用α分層選題策略時(shí)曝光率低于0.02的試題數(shù)量最少[1]。

高使用率試題的比例與低使用率試題的比例。高使用率試題的比例是指被超過20%的被試用于測試的試題數(shù)量占整個(gè)題庫試題量的比例。低使用率試題的比例是指被少于2%的被試用于測試的試題數(shù)量占整個(gè)題庫試題量的比例。Huebner和Li在研究中使用了高使用率試題的比例與低使用率試題的比例這兩個(gè)指標(biāo)[37]。曝光率低于0.02的試題數(shù)量這一指標(biāo)僅僅是反映題庫使用的絕對數(shù)量；而低使用率試題的比例這一指標(biāo)反映了題庫使用的相對程度，因而要優(yōu)于曝光率低于0.02的試題數(shù)量這一指標(biāo)。

此外，題庫中的中等和低等區(qū)分度的題目使用情況也用來作為評價(jià)選題策略的重要標(biāo)準(zhǔn)之一。Hau和Chang發(fā)現(xiàn)在不降低測驗(yàn)效率的前提下，如果中等和低等區(qū)分度的題目被充分利用，則說明這種選題策略的效果較好，較容易避免高區(qū)分度題目過分曝光導(dǎo)致的測驗(yàn)安全問題和測驗(yàn)題目的維護(hù)與補(bǔ)充帶來的高成本問題[34]。

2.5 評價(jià)被試分類效率和分類準(zhǔn)確性方面的指標(biāo)

在計(jì)算機(jī)化分類測驗(yàn)（或掌握性自適應(yīng)測驗(yàn)）中需要評價(jià)測驗(yàn)對被試的分類情況，可以從兩個(gè)方面進(jìn)行評價(jià)：一是被試分類效率的評價(jià)指標(biāo)，包括平均測驗(yàn)長度和人均用題量。Lin在計(jì)算機(jī)化分類測驗(yàn)中使用了平均測驗(yàn)長度指標(biāo)[9]。陳平等在選題策略分析比較時(shí)使用了人均用題量指標(biāo)[38]。二是被試分類準(zhǔn)確性的評價(jià)指標(biāo)，包括被試正確分類的百分比（percentage of correct decision）和被試強(qiáng)制分類的百分率（forced classi fi cation rates）。Lin在計(jì)算機(jī)化分類測驗(yàn)中提出并使用被試正確分類的百分比這一評價(jià)指標(biāo)，用于比較各種選題策略方法的優(yōu)劣[9]。Wang和Huang在基于能力的猜測模型下，在計(jì)算機(jī)化分類測驗(yàn)研究中提出并使用被試強(qiáng)制分類的百分率這一指標(biāo)[39]。

2.6 評價(jià)多測驗(yàn)?zāi)繕?biāo)約束控制有效性方面的指標(biāo)

在多測驗(yàn)?zāi)繕?biāo)約束控制的CAT模擬研究中，要求CAT模擬設(shè)計(jì)要同時(shí)達(dá)到多個(gè)測驗(yàn)?zāi)繕?biāo)，此時(shí)需要三種評價(jià)指標(biāo)：一是He，Diao和Hauser使用的達(dá)到約束條件要求的測驗(yàn)百分比這一指標(biāo)[40]；二是Cheng和Chang在比較分析最大優(yōu)先指標(biāo)與其他選題策略時(shí)提出并使用的約束條件違背的平均測驗(yàn)數(shù)量這一指標(biāo)[41]；三是潘奕嬈、丁樹良和尚志勇、湯楠和丁樹良以及湯楠、丁樹良和余丹等在CAT選題策略研究中提出的被試平均違規(guī)次數(shù)這一指標(biāo)[42-44]。其中，達(dá)到約束條件要求的測驗(yàn)百分比是相對指標(biāo)，更能在整個(gè)測驗(yàn)情境中比較各種選題策略的優(yōu)劣；而約束條件違背的平均測驗(yàn)數(shù)量、被試平均違規(guī)次數(shù)是絕對指標(biāo)，只能局部地橫向比較各個(gè)選題策略。

2.7 其他評價(jià)指標(biāo)

評價(jià)CAT的模擬結(jié)果還有一些其他指標(biāo)，包括正確作答的題量、選題的耗時(shí)時(shí)長等。例如Chang和Ying使用正確作答的平均題量來分析CAT初始值位置對被試能力估計(jì)的影響[45]。在一些選題策略方法的研究中，需要考慮選題過程的耗時(shí)問題，因?yàn)镃AT往往需要即時(shí)為被試選擇和呈現(xiàn)下一道試題，以進(jìn)行下一步作答。例如，van der Linden報(bào)告了CAT選題時(shí)每選擇一道試題的平均耗時(shí)[46]。Passos、Berger和Tan的研究也報(bào)告了選題策略的選題時(shí)間情況[47]。

研究者還提出統(tǒng)一量綱方法，將各個(gè)評價(jià)指標(biāo)綜合計(jì)算成一個(gè)指標(biāo)，以作為選題策略的綜合評價(jià)指標(biāo)[30,48]。但統(tǒng)一量綱方法容易受到權(quán)重系數(shù)、評價(jià)指標(biāo)的實(shí)際數(shù)值的影響，需要研究者慎重確定權(quán)重系數(shù)的大小。

2.8 各個(gè)評價(jià)角度之間關(guān)系的分析

以上概括了CAT模擬結(jié)果的6個(gè)評價(jià)角度與評價(jià)指標(biāo)。在不同研究中，一些評價(jià)指標(biāo)會(huì)有不同的變式，或者不同研究者對某個(gè)評價(jià)指標(biāo)會(huì)使用不同的名稱，但本質(zhì)上是同一個(gè)指標(biāo)。

6個(gè)評價(jià)角度的基本關(guān)系可以概況如下：（1）測量準(zhǔn)確性（包括模擬返真性能指標(biāo)、測驗(yàn)精度指標(biāo)、被試分類準(zhǔn)確性）與測驗(yàn)安全性、題庫使用、多測驗(yàn)?zāi)繕?biāo)約束控制等其他評價(jià)角度的指標(biāo)存在著此消彼長的反向關(guān)系。如果CAT測驗(yàn)過程中選擇測量準(zhǔn)確性較高的選題策略和試題曝光率控制方法，那么題庫使用率將下降，測驗(yàn)安全性下降，多測驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度將下降；反之，如果要提高測驗(yàn)安全性、題庫使用率和多測驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度，則需要選擇測量準(zhǔn)確性較低的選題策略和試題曝光率控制方法；（2）題庫使用情況與測驗(yàn)安全這兩個(gè)角度的指標(biāo)評價(jià)性能是基本一致的：如果題庫使用情況較為全面且均勻，那么測驗(yàn)安全性就相對較高；如果題庫使用情況較為不均勻，那么部分試題曝光率就相對過高，測驗(yàn)安全性就相對較低。

如何選擇合適的評價(jià)角度與評價(jià)指標(biāo)呢？余嘉元和汪存友提出，需要根據(jù)CAT具體測驗(yàn)情境以及評價(jià)指標(biāo)的敏感性來選擇適當(dāng)?shù)腃AT評價(jià)指標(biāo)[49]。筆者根據(jù)以往研究概括為以下幾點(diǎn)：（1）如果CAT測驗(yàn)是選拔性、高利害關(guān)系的入學(xué)考試、職業(yè)資格考試等，就需要提高測驗(yàn)安全控制方面的要求，需要選擇測驗(yàn)安全性能評價(jià)指標(biāo)值較好的試題曝光率控制方法；（2）如果是低利害關(guān)系的練習(xí)性、診斷性的CAT測驗(yàn)，則不需要考慮測驗(yàn)安全性這方面的性能要求，主要側(cè)重于被試能力估計(jì)的準(zhǔn)確性；（3）被試分類效率與分類準(zhǔn)確性方面的評價(jià)指標(biāo)主要用于計(jì)算機(jī)化分類測驗(yàn)中評價(jià)被試分類情況；（4）多測驗(yàn)?zāi)繕?biāo)約束控制指標(biāo)（如達(dá)到約束條件要求的測驗(yàn)百分比、被試平均違規(guī)次數(shù)等）主要是在需要多個(gè)測驗(yàn)條件約束控制的CAT測驗(yàn)中使用。

2.9 測驗(yàn)準(zhǔn)確性與測驗(yàn)安全性兩個(gè)評價(jià)角度的綜合評價(jià)

具有較高的測驗(yàn)準(zhǔn)確性以及題庫試題被充分有效使用是所有CAT研究的測驗(yàn)?zāi)繕?biāo)或評價(jià)要求。然而，許多研究表明，CAT研究結(jié)果在測驗(yàn)準(zhǔn)確性與測驗(yàn)安全性上往往出現(xiàn)此消彼長的現(xiàn)象。有些選題策略（或終止策略）測量準(zhǔn)確性較高，但試題曝光率也高（即測驗(yàn)安全性低），如最大Fisher信息量方法；有些選題策略試題曝光率較低（即測驗(yàn)安全性較高），而測量精度也較低，如α分層法。在測量準(zhǔn)確性與測驗(yàn)安全性之間，如何比較與選擇較好的選題策略？Barrada、Olea、Ponsoda和Abad提出一種綜合比較的新方式，以控制最大試題曝光率為自變量，分析其對測驗(yàn)的精度（以RMSE為指標(biāo)）和安全性（以測驗(yàn)交疊率Overlap為指標(biāo)）的影響，并以圖形方式呈現(xiàn)測驗(yàn)準(zhǔn)確性與測驗(yàn)安全性之間的相對變化關(guān)系[50-51]。Barrada等比較了最大Fisher信息量（PFI）、似然函數(shù)加權(quán)Fisher信息量（FI-L）、似然函數(shù)KL信息函數(shù)法（KL-L）、最大項(xiàng)目信息量分層法（MIS-B）、過程法（progressive method,PG）和概率法（proportional method,PP）6種選題策略。結(jié)果顯示，在測驗(yàn)安全性方面，6種選題策略的重疊率依次升高的順序（測驗(yàn)安全性下降）是MIS-B、PP、PG、PFI、FI-L和KL-L；在測驗(yàn)精度方面，依次增大的順序恰好相反。RMSE與Overlap的反函數(shù)關(guān)系圖可以為CAT選題策略的選擇提供較好的參考依據(jù)，例如：當(dāng)需要最大化的測驗(yàn)精度，而可以容忍相對較低的測驗(yàn)安全性時(shí)，可以選擇使用KL-L、FI-L、PFI及其選題策略方法；如果需要盡可能高的測驗(yàn)安全性，同時(shí)又只能允許測驗(yàn)精度下降一點(diǎn)時(shí)，可以選擇使用PP選題策略方法；如果要追求測驗(yàn)安全性的最大化時(shí)，可以根據(jù)測驗(yàn)的長度和題庫的大小，使用MIS-B方法。

3 小結(jié)

CAT測量技術(shù)研究是近年來心理與教育測量的熱點(diǎn)領(lǐng)域之一，在教育入學(xué)考試、職業(yè)資格認(rèn)證、認(rèn)知診斷等領(lǐng)域有較廣泛的應(yīng)用。本研究概述了CAT研究評價(jià)可以分為被試能力估計(jì)、題庫試題使用情況、CAT測驗(yàn)過程三方面內(nèi)容，并且都有整體分析、細(xì)化分析兩種分析模式。CAT模擬結(jié)果的評價(jià)分析角度包括被試能力模擬返真性能、測驗(yàn)測量準(zhǔn)確性、測驗(yàn)安全性、題庫使用率、被試分類有效性與分類準(zhǔn)確性、多測驗(yàn)?zāi)繕?biāo)約束控制的有效性6個(gè)角度，每個(gè)角度又包含多個(gè)評價(jià)指標(biāo)。對CAT模擬結(jié)果分析模式與評價(jià)指標(biāo)的概括與總結(jié)可為今后CAT模擬研究的設(shè)計(jì)與評價(jià)提供參考依據(jù)。

[1]CHANG H,YING Z.α-Stratified multistage computerized adaptive testing[J].Applied Psychological Measurement,1999,23（3）:211-222.

[2]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（4）:311-327.

[3]BOCK R J,MISLEVY R D.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measurement,1982,6（4）:431-444.

[4]SYMPSON J B,HETTER R D.Controlling item exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development,1985.

[5]CHANG S W,ANSLEY T N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,2003,40（1）:71-103.

[6]陳平,丁樹良.允許檢查并修改答案的計(jì)算機(jī)化自適應(yīng)測驗(yàn)[J].心理學(xué)報(bào),2008,40（6）:737-747.

[7]MAGIS D.Efficient standard error formulas of ability estimators with dichotomous item response models[J].Psychometrika,2015,81（1）: 184-200.

[8]RULISON K,LOKEN E.I’ve fallen and I can’t get up:can highability students recover from early mistakes in CAT?[J].Applied Psychological Measurement,2009,33（2）:83-101.

[9]LIN C.Item selection criteria with practical constraints for computerized classification testing[J].Educational and Psychological Measurement,2011,71（1）:20-36.

[10]LEUNG C,CHANG H,HAU K.Computerized adaptive testing:A mixture item selection approach for constrained situations[J].British Journal of Mathematical and Statistical Psychology,2005,58（2）:239-257.

[11]VAN DER LINDEN W J,VELDKAMP B P.Conditional item-exposure control in adaptive testing using item-ineligibility probabilities [J].Journal of Educational and Behavioral Statistics,2007,32（4）: 398-418.

[12]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（4）:311-327.

[13]THOMPSON N A.Item selection in computerized classification testing[J].Educational and Psychological Measurement,2011,71（1）:114-128.

[14]HAN K T.A gradual maximum information ratio approach to item selection in computerized adaptive testing//Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing, 2009.[2016-08-01].www.psych.umn.edu/psylabs/CATCentral/.

[15]CHENG P E,LIOU M.Estimation of Trait Level in Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24（3）:257-265.

[16]BARRADA J R,VELDKAMP B P,OLEA J.Multiple maximum exposure rates in Computerized Adaptive Testing[J].Applied Psychological Measurement,2009,33（1）:58-73.

[17]GNAMBS T,BATINIC B.Polytomous adaptive classification testing:effects of item pool size,test termination criterion,and number of cutscores[J].Educational and Psychological Measurement,2011, 71（6）:1006-1022.

[18]簡小珠.IRT模型中c、γ參數(shù)對被試能力高估和低估現(xiàn)象的糾正[D].廣州:華南師范大學(xué),2011.

[19]OLEA J,BARRADA J R,ABAD F J,et al.Computerized adaptive testing:the capitalization on chance problem[J].Spanish Jouranl of Psychology,2012,15（1）:424-441.

[20]CHENG Y,CHANG H,YI Q.Two-Phase Item Selection Procedure for Flexible Content Balancing in CAT[J].Applied Psychological Measurement,2007,31（6）:467-482.

[21]CHENG Y,CHANG H H,DOUGLAS J,et al.Constraint-weighted α-stratification for computerized adaptive testing with nonstatistical constraints:Balancing measurement efficiency and exposure control[J].Educational and Psychological Measurement,2009,69（1）:35-49.

[22]CHANG H,VAN DER LINDEN W J.Optimal Stratification of Item Pools in α-Stratified Computerized Adaptive Testing[J].Applied Psychological Measurement,2003,27（4）:262-274.

[23]HE W,RECKASE M D.Item pool design for an operational variable-length computerized adaptive test[J].Educational and Psychological Measurement,2014,74（3）:473-494.

[24]WANG T,VISPOEL W P.Properties of ability estimation methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（2）:109-135.

[25]SCHUSTER C,YUAN K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statistics,2011,36（6）:720-735.

[26]RA?CHE G,BLAIS J G,MAGIS D,et al.Adaptive estimators of trait level in adaptive testing:Some proposals[Z].Graduate Management Admission Council Conference on Computerized Adaptive Testing（GMAC）,2007.

[27]CHEN S,ANKENMANN R D,CHANG H.A Comparison of Item Selection Rules at the Early Stages of Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24（3）:241-255.

[28]KINGSBURY C G,ZARA A R.A Comparison of Procedures for Content-Sensitive Item Selection in Computerized Adaptive Tests [J].Applied Measurement in Education,1991,4（3）:241-261.

[29]ZHANG J.The Impact of Variability of Item Parameter Estimators on Test Information Function[J].Journal of Educational and Behavioral Statistics,2012,37（6）:737-757.

[30]程小揚(yáng),丁樹良,嚴(yán)深海,等.引入曝光因子的計(jì)算機(jī)化自適應(yīng)測驗(yàn)選題策略[J].心理學(xué)報(bào),2011（43）:203-212.

[31]程小揚(yáng),丁樹良,巫華芳,等.多級評分模型下的題庫結(jié)構(gòu)對CAT的影響分析[J].心理學(xué)探新,2014（34）:452-456.

[32]CHEN S,ANKENMANN R D,SPRAY J A.The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing[J].Journal of Educational Measurement,2003,40（2）:129-145.

[33]BARRADA J R,OLEA J,PONSODA V,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C]// Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.[2016-08-01].www.psych.umn. edu/psylabs/CATCentral/.

[34]HAU K,CHANG H.Item selection in computerized adaptive testing:should more discriminating items be used first?[J].Journal of Educational Measurement,2001,38（3）:249-266.

[35]CHANG H,QIAN J,YING Z.α-Stratified multistage computerized adaptive testing with b blocking[J].Applied Psychological Measurement,2001,25（4）:333-341.

[36]程小揚(yáng),丁樹良.子題庫題量不平衡的按α分層選題策略[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（1）:5-9.

[37]HUEBNER A,LI Z.A stochastic method for balancing item exposure rates in computerized classification tests[J].Applied Psychological Measurement,2012,36（3）:181-188.

[38]陳平,丁樹良,林海菁,等.等級反應(yīng)模型下計(jì)算機(jī)化自適應(yīng)測驗(yàn)選題策略[J].心理學(xué)報(bào),2006,38（3）:461-467.

[39]WANG W,HUANG S.Response model with ability-based guessing computerized classification testing under the one-parameter logistic[J].Educational and Psychological Measurement,2011,71（6）:925-941.

[40]HE W,DIAO Q,HAUSER C.A Comparison of Four Item-Selection Methods for Severely Constrained CATs[J].Online Submission,2014,74（4）:27.

[41]CHENG Y,CHANG H.The maximum priority index method for severely constrained item selection in computerized adaptive testing[J]. British Journal of Mathematical and Statistical Psychology,2009,62（2）:369-383.

[42]潘奕嬈,丁樹良,尚志勇.改進(jìn)的最大優(yōu)先級指標(biāo)方法[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（2）:213-215.

[43]湯楠,丁樹良.一階段選題的最大優(yōu)先級指標(biāo)的修正[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2012,36（5）:452-455.

[44]湯楠,丁樹良,余丹.結(jié)合優(yōu)先級指標(biāo)和曝光因子的多級評分選題策略[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（6）:646-650.

[45]CHANG H H,YING Z.To weight or not to weight?Balancing influence of initial items in adaptive testing[J].Psychometrika,2008,73（3）:441-450.

[46]VAN DER LINDEN W J.Bayesian item selection criteria for adaptive testing[J].Psychometrika,1998,63（2）:201-216.

[47]PASSOS V L,BERGER M P F,TAN F E S.The D-optimality item selection criterion in the early stage of cat:a study with the Graded Response Model[J].Journal of Educational and Behavioral Statistics,2008,33（1）:88-110.

[48]戴海琦,陳德枝,丁樹良,等.多級評分題計(jì)算機(jī)自適應(yīng)測驗(yàn)選題策略比較[J].心理學(xué)報(bào),2006,38（5）:778-783.

[49]余嘉元,汪存友.項(xiàng)目反應(yīng)理論參數(shù)估計(jì)研究中的蒙特卡羅方法[J].南京師大學(xué)報(bào)（社會(huì)科學(xué)版）,2007（1）:87-91.

[50]BARRADA J R,OLEA J,PONSODA V,et al.Incorporating randomness in the Fisher information for improving item-exposure control in CATs[J].British Journal of Mathematical and Statistical Psychology,2008,61（2）:493-513.

[51]BARRADA J R,OLEA J,PONSODA V,et al.A Method for the Comparison of Item Selection Rules in Computerized Adaptive Testing[J].Applied Psychological Measurement,2010,34（6）:438-452.

Analysis Models and Evaluation Indexes of Computerized Adaptive Testing Simulation Results

JIAN Xiaozhu,DAI Buyun&CHEN Ping

Computerized Adaptive Testing（CAT）simulation is one of the main methods of CAT research. Evaluation and analysis of CAT simulation results mainly includes three aspects:estimation and classification analysis of examinee ability,analysis of the utilization of the test items from the item bank and analysis of the CAT response process.Analysis of CAT simulation results mainly involves a holistic approach and a fine-grained approach.This study provides an overview of the various evaluation indexes involved in evaluating CAT simulation results from the perspectives of simulation recovery,measurement accuracy,item security,item utilization rates, examinee classification efficiency and accuracy,and control of multiple test objectives.The perspectives and evaluation indexes required for a CAT simulation study have yet to depend on the purpose and context of that study.

Computerized Adaptive Testing;CAT Simulation;Analysis Model;Evaluation Index

G405

1005-8427（2016）12-0019-10

（責(zé)任編輯：陳寧）

本文系江西省高校人文社會(huì)科學(xué)研究青年項(xiàng)目“計(jì)算機(jī)化自適應(yīng)測驗(yàn)（CAT）測量技術(shù)與評價(jià)分析”（項(xiàng)目編號：XL1515）的研究成果之一。

簡小珠，男，井岡山大學(xué)教師教育中心，副教授，江西師范大學(xué)心理學(xué)院，江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室，博士后（江西吉安 343009）

戴步云，男，江西師范大學(xué)心理學(xué)院，江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室，博士后（南昌 330022）

陳平（通訊作者），男，北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，副教授（北京 100875）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

CAT模擬結(jié)果的分析模式與評價(jià)指標(biāo)

1 CAT模擬結(jié)果的分析模式

2 CAT模擬結(jié)果的評價(jià)指標(biāo)

3 小結(jié)