不定長CAT 引入曝光因子的平均調(diào)整信息選題策略研究*

2015-12-27 06:25:26朱隆尹丁樹良程小揚(yáng)藍(lán)立毅

心理學(xué)探新 2015年1期

朱隆尹，丁樹良，程小揚(yáng)，藍(lán)立毅

(1.江西師范大學(xué)，南昌330022;2.贛南師范學(xué)院，贛州341000)

1 引言

計(jì)算機(jī)化自適應(yīng)測驗(yàn)(Computerized Adaptive Test，CAT)是項(xiàng)目反應(yīng)理論(Item Response Theory，IRT)和計(jì)算機(jī)技術(shù)相結(jié)合的產(chǎn)物，是目前流行的現(xiàn)代考試方式之一。有了一個高質(zhì)量的題庫以后，CAT 需要考慮的主要問題有測驗(yàn)入口設(shè)計(jì)、能力估計(jì)方法、選題策略和終止規(guī)則等四個問題。一個好的選題策略要兼顧提高能力估計(jì)的精度和測驗(yàn)的安全性。Lord(1977)最早提出了極大Fisher 信息量選題策略(MFI)，張華華(2002)認(rèn)為極大信息量選題法雖然測驗(yàn)效率高，但試題曝光率太高，容易引發(fā)測驗(yàn)安全問題;Chang 和Ying(1999)進(jìn)而提出了按a-分層選題策略，文劍冰和侯杰泰(2001)研究過a-分層選題策略。一般情況下子題庫數(shù)量都是相等或近似相等，程小揚(yáng)和丁樹良(2011)認(rèn)為分層化選題策略中子題庫題量不平衡會改善CAT 性能他們在按a-分層選題策略基礎(chǔ)上提出子題庫題量不平衡的選題策略。Chang，Qian 和Ying(2001)和Qing等(2003)認(rèn)為按a-分層選題策略沒有考慮項(xiàng)目a、b 參數(shù)的相關(guān)性，由此提出了按b -分層的選題策略。Barrada，Mazuel 和Olea(2006)認(rèn)為按b -分層選題策略在3PLM 中沒有充分考慮項(xiàng)目的猜測度等參數(shù)，他們提出充分利用3PLM 項(xiàng)目所有參數(shù)的MIS-B 選題策略，特別有趣的是MIS -B 選題策略在2PLM 下實(shí)際上就是按b -分層選題策略。程小揚(yáng)、丁樹良、嚴(yán)深海和朱隆尹(2011)在Lord 的極大信息選題策略基礎(chǔ)上引入曝光因子以改善項(xiàng)目曝光率，具體做法如下:

記ecf(j)、λj和a(j，T，K)分別為項(xiàng)目j 的曝光因子、調(diào)節(jié)因子和區(qū)分度aj的冪函數(shù)，把極大Fisher信息量選題法中的信息量計(jì)算方法修正為:

表1 λj的取值與ecf(j)的關(guān)系

其中N 為題庫項(xiàng)目總數(shù)，nj為項(xiàng)目j 被前n -1 個考生使用的次數(shù)。

其中aj為項(xiàng)目j 的區(qū)分度，T 表示分T 個階段選題，k(k=1，2，…，T)表示當(dāng)前CAT 實(shí)施中選題所處的階段。

CAT 施測時每次只要從題庫中選取fj(θ^)最大的當(dāng)前考生尚未使用的項(xiàng)目(稱為該考生的剩余題庫，不致混淆時，簡稱為剩余題庫)即可。

程小揚(yáng)等人(2011)引入曝光因子的選題策略能很好地改善項(xiàng)目的曝光率，有力地增強(qiáng)了測驗(yàn)的安全性。為方便敘述，這里稱程小揚(yáng)等人(2011)的這個選題策略為程氏選題法。

程氏選題法是否有其他進(jìn)一步改進(jìn)的方法和策略，改進(jìn)后效果如何是一個值得探討的問題。

2 新選題策略設(shè)計(jì)

即

當(dāng)項(xiàng)目量小時，(5)式不一定成立，但是這里仍采用(5)式的區(qū)間作為的一個區(qū)間估計(jì)(只不過這時估計(jì) 精度比較差)。把［- ME()，+ME()］平均分成q 等分(q 為項(xiàng)目參數(shù)估計(jì)時結(jié)點(diǎn)數(shù)，據(jù)漆書青，戴海琦，丁樹良(2002)介紹，BILOG推薦使用項(xiàng)目數(shù)量的平方根取整的2 倍)，記為x1，x2，…，xq，則平均調(diào)整信息計(jì)算方法如下:

這樣，CAT 施測時每次只要從剩余題庫中選取Avgj()最大的項(xiàng)目即可。稱(6)式的選題法為極大平均調(diào)整信息策略(Maximum Average Adjustment Information Strategy，MAAIS)。

為了考察新的選題策略的表現(xiàn)，將其和幾種目前認(rèn)為較好的進(jìn)行比較，比較方法是Monte Carlo 模擬，并采用以下評價標(biāo)準(zhǔn)，CAT 的測驗(yàn)偏差Bias、測驗(yàn)標(biāo)準(zhǔn)誤差MSE、測驗(yàn)效率E、試題曝光均勻度Chi、測驗(yàn)重疊率R 和綜合評價Comp，各指標(biāo)計(jì)算公式如下:

設(shè)M 為被試總數(shù)，infj為被試j 測量的總信息量，Lj為被試j 的測試長度，為被試j 的能力估計(jì)值，θj為被試j 的能力真值，N 為題庫總項(xiàng)目數(shù)，Ai是題庫中第i 個項(xiàng)目的曝光率，TO 是被試的項(xiàng)目重疊總數(shù)，mi是題庫中第i 個項(xiàng)目使用的次數(shù)。

用AvgL 表示平均測驗(yàn)長度。

顯然，測驗(yàn)效率E 值越大越好;測驗(yàn)偏差Bias、測驗(yàn)標(biāo)準(zhǔn)誤差MSE、試題曝光均勻度Chi 和測驗(yàn)重疊率R 則是其值越小越好。

綜合評價Comp 的計(jì)算方法是對Bias、MSE、E、Chi 和R 統(tǒng)一量綱后再加權(quán)求和。陳德枝(2004)給這五個標(biāo)準(zhǔn)的權(quán)分別是0.5、0.5、1、1 和1(當(dāng)然也可根據(jù)實(shí)際需要適當(dāng)調(diào)整)。對評價標(biāo)準(zhǔn)統(tǒng)一量綱的方法是:對值越大越好的評價標(biāo)準(zhǔn)，所有方法在此標(biāo)準(zhǔn)上的最大值做分母，各種方法在該標(biāo)準(zhǔn)上的值做分子，求這兩者的比值;對值越小越好的評價標(biāo)準(zhǔn)，所有方法在此標(biāo)準(zhǔn)上的最小值做分子，各種方法在該標(biāo)準(zhǔn)上的值做分母，求這兩者的比值。顯見，Comp 是越大越好。

3 實(shí)驗(yàn)方法與結(jié)果分析

Monte Carlo 模擬實(shí)驗(yàn)中題庫分4 個階段，考試總信息量取16，考試最大試題長度為40 個，考生樣本數(shù)量為1000 人，試題庫數(shù)量為1000 題。考生群體能力服從標(biāo)準(zhǔn)正態(tài)分布，試題難度參數(shù)b 分別考慮服從N(0，1)且-3≤b≤3 和U(-3，3)兩種情況，試題區(qū)分度參數(shù)a 分別考慮lna 服從N(0，1)且0.2≤a≤2.5 和U(0.2，2.5)兩種情況，試題猜測度c 服從α 為5 和β 為17 的貝塔分布，考慮到每個題庫重復(fù)5 次實(shí)驗(yàn)的平均時間約1 小時左右，本文共模擬了6 個題庫，每個實(shí)驗(yàn)結(jié)果為6 個題庫分別重復(fù)5 次的總平均值。文中所有實(shí)驗(yàn)程序均采用Matlab 2007 編寫運(yùn)行。

表2 3PLM 不定長CAT 不同選題策略實(shí)驗(yàn)結(jié)果(lna∽N(0，1)，b∽N(0，1))

表3 3PLM 不定長CAT 不同選題策略實(shí)驗(yàn)結(jié)果(lna∽N(0，1)，b∽U(-3，3))

表4 3PLM 不定長CAT 不同選題策略實(shí)驗(yàn)結(jié)果(a∽U(0.2，2.5)，b∽U(-3，3))

表5 3PLM 不定長CAT 不同選題策略實(shí)驗(yàn)結(jié)果(a∽U(0.2，2.5)，b∽N(0，1))

縱觀上面四個表可以看出，與其他兩個選題策略相比，MAAIS 和OMAAIS 選題法都有較明顯的優(yōu)勢，當(dāng)難度b 服從標(biāo)準(zhǔn)正態(tài)分布時OMAAIS 要比MAAIS 好，當(dāng)難度服從均勻分布時，MAAIS 要比OMAAIS 好。

當(dāng)然在表中列出的選題策略中，按計(jì)算量由小到大排序的順序分別是:按b - 分層、程氏選題法、OMAAIS 和MAAIS。在模擬實(shí)驗(yàn)時在每個重復(fù)實(shí)驗(yàn)中MAAIS 下每個考生花費(fèi)的時間不到1 秒鐘，只要采用適當(dāng)?shù)木幊虄?yōu)化，MAAIS 增加的計(jì)算量可以接受。

4 進(jìn)一步要研究的問題

雖然這里只給出了3PLM 模型下不定長CAT的結(jié)果，事實(shí)上以上實(shí)驗(yàn)結(jié)果也適用于2PLM 模型下不定長CAT。

MAAIS 和OMAAIS 選題策略相對程氏選題法明顯增加了計(jì)算量，如何繼續(xù)進(jìn)一步優(yōu)化以減少計(jì)算量是今后要研究的問題之一;另外如何將MAAIS和OMAAIS 選題策略用到多級評分模型CAT 或認(rèn)知診斷的CAT，這也是今后要進(jìn)一步研究的問題;還有當(dāng)題量很小時，(5)式誤差或很大，估計(jì)區(qū)間是否應(yīng)該放大，以及如何放大，放大以后效果如何等等都值得考慮。

本文在第十屆海峽兩岸教育與心理測量年會上宣讀時，UIUC 張華華先生和臺灣中正大學(xué)蘇雅蕙女士給出了十分中肯的評論，給本文的修改提供了很大的幫助，特此致謝。

陳德枝.(2004).Samejima 等級反應(yīng)模型下CAT 選題策略比較研究.碩士論文.(未出版).南昌:江西師范大學(xué).

程小揚(yáng)，丁樹良.(2011).子題庫題量不平衡的按a 分層選題策略.江西師范大學(xué)學(xué)報，35(1)，5 -9.

程小揚(yáng)，丁樹良，嚴(yán)深海，朱隆尹. (2011). 引入曝光因子的計(jì)算機(jī)化自適應(yīng)測驗(yàn)選題策略.心理學(xué)報，43(2)，203 -212.

漆書青，戴海琦，丁樹良.(2002).現(xiàn)代教育與心理測量學(xué)原理.北京:高等教育出版社.

文劍冰，侯杰泰.(2001).A -stratified 方法在不定長度CAT中的應(yīng)用. 臺北:第五屆華人社會心理與教育學(xué)術(shù)研討會.

張華華.(2002). 計(jì)算機(jī)自適應(yīng)考試設(shè)計(jì)中的誤區(qū).考試研究，2，35 -39.

Chang，H.H.，Qian，J.，＆ Ying，Z.(2001).A-stratified multistage CAT with b -blocking. Applied Psychological Measurement，25，333 -341.

Chang，H.，＆ Ying，Z.(1999).A-stratified multistage computerized adaptive testing. Applied Psychological Measurement，25，211 -222.

Juan，R.B.，Paloma，M.J.，＆ Julio，O.(2006).Maximum information stratification method for controlling item exposure in computerized adaptive testing.Pslcothema，18(1)，156 -159.Load，F(xiàn).M.(1977).Practical applications of item characteristic curve theory.Journal of Educational Measurement，14，117 -138.

Qing，Y.，＆ Chang，H. H. (2003). A - stratified design with content-blocking.Br J Math Stat Psychol，56，359 -378.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

不定長CAT 引入曝光因子的平均調(diào)整信息選題策略研究*

1 引言

2 新選題策略設(shè)計(jì)

3 實(shí)驗(yàn)方法與結(jié)果分析

4 進(jìn)一步要研究的問題