黎光明 張敏強(qiáng)
IRT測驗(yàn)等值模型的選擇
——以廣東佛山市中考數(shù)學(xué)實(shí)測數(shù)據(jù)為例
黎光明 張敏強(qiáng)
以廣東省佛山市中考數(shù)學(xué)實(shí)測數(shù)據(jù)為例,說明IRT測驗(yàn)等值模型的選擇過程,其基本步驟包括等值設(shè)計(jì)、參數(shù)估計(jì)、量表化和測驗(yàn)等值等。供選擇的四種IRT測驗(yàn)等值模型分別為SL、SN、NR和GPCM模型。分析發(fā)現(xiàn),等值誤差由小到大依次是SL、SN、NR和GPCM,SL與GPCM、NR存在顯著性差異(p<0.001),SN與GPCM、NR存在顯著性差異(p<0.001),GPCM與NR 存在顯著性差異(p<0.001),但SL與SN不存在顯著性差異(p>0.05)。結(jié)果表明:(1)從模型等值的效果看,SL和SN最優(yōu)且相當(dāng),NR等值效果欠佳,GPCM等值變異最大,效果最差;(2)選擇IRT的SL或SN等級(jí)反應(yīng)模型進(jìn)行此類測驗(yàn)等值較為合適。
中考數(shù)學(xué)實(shí)測數(shù)據(jù);項(xiàng)目反應(yīng)理論(IRT);測驗(yàn)等值;心理與教育測量
測驗(yàn)等值是項(xiàng)目反應(yīng)理論研究的重要內(nèi)容,是題庫建設(shè)和進(jìn)行自適應(yīng)測驗(yàn)的基礎(chǔ)。測驗(yàn)等值的目的是為了將不同測驗(yàn)形式的分?jǐn)?shù)轉(zhuǎn)換到同一個(gè)分?jǐn)?shù)量尺上,以便將不同的測驗(yàn)結(jié)果進(jìn)行比較[1]。不論是基于經(jīng)典測量理論(Classic Test Theory,CTT)的測驗(yàn)分?jǐn)?shù)等值,還是基于項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)的測驗(yàn)分?jǐn)?shù)等值,由于存在各種模型、設(shè)計(jì)和方法,人們不得不對(duì)它們進(jìn)行比較,以選擇出適合數(shù)據(jù)資料的模型、設(shè)計(jì)和方法。
近年來,國內(nèi)一些學(xué)者[2][3][4]對(duì)等值設(shè)計(jì)及方法均有探討,但對(duì)等值模型的比較研究較少。實(shí)際上,在測量理論的實(shí)際應(yīng)用中,如進(jìn)行題庫建設(shè)或自適應(yīng)測驗(yàn),需要選擇合適的反應(yīng)模型來進(jìn)行等值,不同的模型適合于不同的等值數(shù)據(jù)。與CTT等值模型相比,由于IRT等值模型能夠進(jìn)行項(xiàng)目參數(shù)等值,IRT等值模型具有更多優(yōu)點(diǎn),所應(yīng)用的范圍更為廣泛[5]。但是,IRT存在多種反應(yīng)模型,既有二級(jí)反應(yīng)模型,也有多級(jí)反應(yīng)模型,所選擇的反應(yīng)模型不同,可能會(huì)有不同的等值結(jié)果。國內(nèi)以往的一些IRT等值研究[6][7],大多數(shù)是基于某一種模型之下,沒有考察多種反應(yīng)模型等值比較問題。那么,這就存在以下問題:一是沒有給出所選等值模型的充分理由,雖然有些研究給出了一些模型資料檢驗(yàn)的一些指標(biāo),但檢驗(yàn)并不充分;二是所選模型可能存在多種,理論上應(yīng)該一一檢驗(yàn)并進(jìn)行比較,僅考察一種模型,其做法顯得主觀化。因此,對(duì)IRT測驗(yàn)分?jǐn)?shù)等值,需要比較供等值的多種反應(yīng)模型。
Kolen和Brennan(2004)[8]根據(jù)不同模型的等值要求,給出了經(jīng)典測量理論下不同等值模型的觀察分?jǐn)?shù)和真分?jǐn)?shù)標(biāo)準(zhǔn)誤,并對(duì)它們進(jìn)行了比較研究。Kim(2005)等人[9]根據(jù)所設(shè)定的一些等值標(biāo)準(zhǔn),比較了IRT三參數(shù)Logistic模型與強(qiáng)真分?jǐn)?shù)理論下的Be?tas 4模型的真分?jǐn)?shù)及觀察分?jǐn)?shù)的等值結(jié)果。Von Davier,Alina和 Wilson(2008)[10]對(duì)包含二值記分的數(shù)據(jù)資料進(jìn)行了不同IRT模型下的測驗(yàn)真分?jǐn)?shù)等值比較。但是,這些學(xué)者并沒有在相同條件下對(duì)多種等級(jí)IRT等值模型進(jìn)行過比較。
國內(nèi)各種教育與心理測驗(yàn)所得的數(shù)據(jù)資料,常常既包含二級(jí)記分的題目,也包含多級(jí)記分的題目。根據(jù)此種實(shí)際情況,應(yīng)該選擇IRT的多級(jí)反應(yīng)模型來進(jìn)行數(shù)據(jù)等值,因?yàn)槎?jí)反應(yīng)模型可看作是多級(jí)反應(yīng)模型的特例。在等值的實(shí)際工作中,常常需要報(bào)告測驗(yàn)的觀察分?jǐn)?shù),即使采用真分?jǐn)?shù)等值,最后也要表達(dá)成相應(yīng)的觀察分?jǐn)?shù)。相應(yīng)地,本研究采用測驗(yàn)的觀察分?jǐn)?shù)來進(jìn)行等值。
研究可供選擇的IRT多級(jí)反應(yīng)模型包括:Same?jima(1969)邏輯斯蒂克等級(jí)反應(yīng)模型(SL)、Sameji?ma(1972)正態(tài)肩形等級(jí)反應(yīng)模型(SN)、Muraki(1992)拓廣分部評(píng)分模型(GPCM)、Bock(1972)稱名反應(yīng)模型(NR)?;谶@四種IRT多級(jí)反應(yīng)模型,用實(shí)測數(shù)據(jù)作測驗(yàn)觀察分?jǐn)?shù)等值,以比較這四種IRT多級(jí)反應(yīng)模型的等值精確度,從而選出適合數(shù)據(jù)資料等值的IRT多級(jí)反應(yīng)模型。
由廣東省佛山市教育局提供的2005年“中考數(shù)學(xué)”實(shí)測數(shù)據(jù)[2]。2005年佛山市普教進(jìn)行課程改革,分為“課改實(shí)驗(yàn)區(qū)”和“非課改實(shí)驗(yàn)區(qū)”?!爸锌紨?shù)學(xué)”相應(yīng)分為課改區(qū)的測驗(yàn)X和非課改區(qū)的測驗(yàn)Y。課改區(qū)有考生50 902人,非課改區(qū)有考生10 882人。測驗(yàn)X、測驗(yàn)Y各有24道題,其中客觀題15道,主觀題9道。測驗(yàn)X和測驗(yàn)Y有一個(gè)錨測驗(yàn)V,測驗(yàn)V的主客觀題共9道。
課改區(qū)與非課改區(qū)考生能力有所差異,且測驗(yàn)X與Y中有一個(gè)共用錨測驗(yàn),本研究采用非等組錨測驗(yàn)設(shè)計(jì)作為研究的等值設(shè)計(jì)。IRT等值方法主要有 MM(Mean/Mean)、MS(Mean/Sigma)、HA(Haeba?ra)和 SL(Stocking-Lord)方法。Stocking-Lord是基于項(xiàng)目特征曲線等值方法,具有較多優(yōu)良特性,本研究統(tǒng)一選用此種方法來進(jìn)行測驗(yàn)等值。
依據(jù)各種等值模型分別對(duì)測驗(yàn)X和測驗(yàn)Y進(jìn)行參數(shù)估計(jì),得出各測驗(yàn)的項(xiàng)目參數(shù)值。使用的軟件是 Parscale 3.5[11]和 Multilog 7.0[12],其中 Parscale用于估計(jì)SL、SN和GPCM的參數(shù),Multilog軟件用于估計(jì)NR的參數(shù)。
將測驗(yàn)X和測驗(yàn)Y所得兩測驗(yàn)的項(xiàng)目參數(shù)進(jìn)行量表化(Scaling),即統(tǒng)一量綱,使用的是STUIRT軟件[13]。
將測驗(yàn)X和測驗(yàn)Y量表化結(jié)果,通過POLYE?QUATE軟件[14]進(jìn)行等值轉(zhuǎn)換,就將得到四種IRT模型下的測驗(yàn)觀察分?jǐn)?shù)等值結(jié)果。
選擇某種CTT等值方法作為四種IRT模型觀察分?jǐn)?shù)等值的比較基準(zhǔn),供比較的CTT等值方法包括Tucker線性等值、Levine線性等值和未平滑的等百分位等值方法。
四種IRT模型測驗(yàn)觀察分?jǐn)?shù)比較標(biāo)準(zhǔn)是計(jì)算四種IRT模型測驗(yàn)觀察分?jǐn)?shù)等值結(jié)果與作為比較基準(zhǔn)的CTT觀察分?jǐn)?shù)等值結(jié)果的兩種差異量:
一是標(biāo)準(zhǔn)加權(quán)均方差或總誤差的平方根,由下式定義:
其中m是測驗(yàn)的題目數(shù),j是原始分?jǐn)?shù),f是獲得j分的人數(shù),n是總?cè)藬?shù),dj=(X-X′),X′是作為比較基準(zhǔn)的等值分,X是估計(jì)的等值分,是作為比較基準(zhǔn)的等值分的方差。
二是誤差平均差,由下式定義:
四種IRT模型下的測驗(yàn)觀察分?jǐn)?shù)等值結(jié)果及作為比較基準(zhǔn)的Tucker觀察分?jǐn)?shù)等值結(jié)果列于表1。為節(jié)省篇幅,以10分為一分?jǐn)?shù)段列出。
根據(jù)差異量定義公式,計(jì)算標(biāo)準(zhǔn)加權(quán)均方差或總誤差平方根,其結(jié)果如表2所示。
表1 四種IRT多級(jí)模型測驗(yàn)觀察分?jǐn)?shù)等值結(jié)果(舉例)
表2 四種IRT多級(jí)反應(yīng)模型總誤差平方根及排名
根據(jù)誤差平均差的定義,分別計(jì)算四種多級(jí)模型的誤差平均差,并把所得的誤差平均差作為因變量,四種模型作為自變量,進(jìn)行單因素方差分析,所得結(jié)果如表3所示。
表3 單因素方差分析
從表3可知四種IRT模型誤差平均差整體有差異。因此,需要進(jìn)一步作事后檢驗(yàn),結(jié)果如表4所示。
也給出四種模型誤差平均差均數(shù)的事后檢驗(yàn)圖示結(jié)果,如圖1所示。
表4 事后檢驗(yàn)結(jié)果
圖1 誤差平均差均數(shù)比較
采用非等組錨測驗(yàn)設(shè)計(jì),對(duì)測驗(yàn)X和測驗(yàn)Y進(jìn)行IRT多級(jí)反應(yīng)模型測驗(yàn)觀察分?jǐn)?shù)等值,其目的是根據(jù)數(shù)據(jù)資料選擇合適的多級(jí)反應(yīng)模型,以供等值使用。傳統(tǒng)的做法是進(jìn)行模型數(shù)據(jù)資料擬合度檢驗(yàn)。但是,檢驗(yàn)多個(gè)多級(jí)反應(yīng)模型時(shí)需要同時(shí)檢驗(yàn)多個(gè)指標(biāo),包括模型單維性、參數(shù)不變性及殘差等,許多技術(shù)仍不成熟。模型資料擬合檢驗(yàn)需要根據(jù)各種指標(biāo)量對(duì)IRT模型進(jìn)行一一檢驗(yàn),但有時(shí)所得結(jié)論會(huì)出現(xiàn)矛盾情形。Ostini[15]認(rèn)為IRT多級(jí)反應(yīng)模型比較可以用Monte-Carlo方法模擬數(shù)據(jù),并選擇合適的指標(biāo)進(jìn)行模型間的比較,但由于Monte-Carlo數(shù)據(jù)模擬需要選定某種一般模型來產(chǎn)生參數(shù)及作答反應(yīng)矩陣,而眾多多級(jí)反應(yīng)模型選哪種合適?常常給等值比較造成了困難。
Wang,Lee,Brennan和 Kolen(2006)[16]采用某種CTT觀察分?jǐn)?shù)等值結(jié)果作為IRT多級(jí)反應(yīng)等值模型觀察分?jǐn)?shù)等值結(jié)果的比較基準(zhǔn)。CTT等值方法較多,較常見的有Tucker線性等值、Levine線性等值和未平滑的等百分位等值方法等。CTT眾多等值方法存在差異,需要比較它們的優(yōu)劣。通過CIPE 1.0軟件[17]計(jì)算Tucker線性等值、Levine線性等值和未平滑的等百分位等值三種CTT方法的等值標(biāo)準(zhǔn)誤,并用等值標(biāo)準(zhǔn)誤作為衡量三種方法的優(yōu)劣指標(biāo)。從圖2不難看出Tucker線性等值方法的標(biāo)準(zhǔn)誤最小,Levine線性等值方法的標(biāo)準(zhǔn)誤次之,等百分位等值方法的標(biāo)準(zhǔn)誤較大。這說明在三種CTT等值方法中,Tucker線性等值方法的最好。因此,選擇Tucker線性等值方法的結(jié)果作為供IRT測驗(yàn)觀察分?jǐn)?shù)比較的標(biāo)準(zhǔn)。實(shí)際上,進(jìn)一步分析發(fā)現(xiàn)Tucker線性等值的兩個(gè)前提假設(shè)得到了較大的滿足,因而比其他兩種CTT等值方法的結(jié)果更為精確。因此,在表1中選擇Tucker線性等值方法作為供比較的標(biāo)準(zhǔn)更為合適。
圖2 三種CTT等值方法的標(biāo)準(zhǔn)誤
標(biāo)準(zhǔn)加權(quán)均方差或總誤差平方根是供比較的量化指標(biāo),應(yīng)該與大樣本標(biāo)準(zhǔn)、循環(huán)到自身、數(shù)據(jù)模擬等等值標(biāo)準(zhǔn)有所區(qū)分。這是因?yàn)闃?biāo)準(zhǔn)加權(quán)均方差或總誤差平方根和等值標(biāo)準(zhǔn)誤一樣隸屬于某種統(tǒng)計(jì)量,是一種量化的比較標(biāo)準(zhǔn)指標(biāo)。這個(gè)指標(biāo)是為了說明以Tucker線性等值結(jié)果作為觀察分?jǐn)?shù)等值基準(zhǔn),四種多級(jí)反應(yīng)模型測驗(yàn)X轉(zhuǎn)換為測驗(yàn)Y的觀察分?jǐn)?shù)后的等值變異。通過計(jì)算這個(gè)變異來,從總體上可以看出每種多級(jí)反應(yīng)模型等值后與設(shè)定基準(zhǔn)的離散程度。為了消除方向帶來的影響,常常用平方表示,這樣就形成了標(biāo)準(zhǔn)加權(quán)均方差或總誤差。此外,也可以構(gòu)建誤差平均差,來表示出多級(jí)反應(yīng)模型等值結(jié)果與設(shè)定基準(zhǔn)之間的離散程度。為了證明兩者能否一致地反映變異程度,該研究同時(shí)采用了兩者作為比較的標(biāo)準(zhǔn)。
從表2的標(biāo)準(zhǔn)加權(quán)均方差或總誤差平方根結(jié)果看,IRT的SN模型最小為0.086,其次是SL模型為0.087,再次是NR模型為2.820,最大是GPCM模型為5.846。根據(jù)總標(biāo)準(zhǔn)加權(quán)均方差或總誤差平方根值越小測驗(yàn)等值誤差越小的原則,發(fā)現(xiàn)SN和SL最佳(分別排名第一和第二),其次是NR模型(排名第三),最差是GPCM模型(排名第四)。
為了驗(yàn)證兩種比較標(biāo)準(zhǔn)對(duì)結(jié)果的一致性,也采用了誤差平均差作為比較標(biāo)準(zhǔn)。把所得的誤差平均差作為因變量,IRT的SN、SL、NR和GPCM四種模型作為自變量,進(jìn)行單因素方差分析(如表3所示)。從表3可以看出,方差分析的結(jié)果有顯著性差異,組間均方3578.339,組內(nèi)均方19.036,兩者的比值F=187.975(p<0.001),需要做事后檢驗(yàn)(如表4所示)。
根據(jù)表4的事后檢驗(yàn)結(jié)果,發(fā)現(xiàn)SL與GPCM、NR存在顯著性差異(p<0.001),SN與GPCM、NR存在顯著性差異(p<0.001),GPCM與NR存在顯著性差異(p<0.001),但SL與SN不存在顯著性差異(p>0.05)。從圖1的四種模型誤差平均差均數(shù)結(jié)果可知,IRT模型的SL和SN誤差平均數(shù)均值最小,NR次大,GPCM最大。
從以上分析可知,IRT的SL與SN兩種模型等值誤差最小,而且兩者的差異量相當(dāng)接近(差值僅為0.001)。那么,則表明SL與SN對(duì)數(shù)據(jù)資料的擬合優(yōu)于其他兩種模型,等值效果最佳。SL和SN同屬于Samejima等級(jí)反應(yīng)模型(GRM),兩者在形式上存在差異,但因?yàn)檫壿嬎沟倏说燃?jí)反應(yīng)模型和正態(tài)肩形等級(jí)反應(yīng)模型存在等量關(guān)系,因此兩種模型的等值效果幾乎一致。那么,可以認(rèn)為SL和SN屬于同質(zhì)模型,在模型選取中,只要擇其一則可。NR模型等值變異量較SL和SN模型大,說明等值效果欠佳,原因是NR是一種無序模型,用于有序數(shù)據(jù)等值效果自然不佳。GPCM模型的等值變異量在四種模型中最大,表明這種模型等值的效果最差,可能的原因是該年中考數(shù)學(xué)試題從總體上看并非每道試題都按部計(jì)分,某些試題存在反序現(xiàn)象,從而影響等值效果。因此,從結(jié)果看,選擇IRT的SL或SN兩種等級(jí)反應(yīng)模型進(jìn)行此類多級(jí)反應(yīng)等值較為合適。
(1)從模型等值的效果看,IRT的SL和SN最優(yōu)且相當(dāng),NR等值效果欠佳,GPCM等值變異最大,效果最差。
(2)選擇IRT的SL或SN等級(jí)反應(yīng)模型進(jìn)行此類測驗(yàn)觀察分?jǐn)?shù)等值較為合適,SL和SN屬于等級(jí)反應(yīng)模型的同質(zhì)模型,在模型選取中,只要擇其一則可。
[1]戴海崎,張鋒,陳雪楓.心理與教育測量(第三版)[M].廣州:暨南大學(xué)出版社.2011.
[2]張敏強(qiáng),黎光明,焦璨.普教“升中”考試中測驗(yàn)等值的應(yīng)用研究——以廣東省佛山市“升中”考試為例[J].心理與行為研究,2009,7(1):27-31.
[3]張敏強(qiáng),黎光明,劉曉瑜,焦璨.教學(xué)管理與評(píng)價(jià)的測量技術(shù):測驗(yàn)等值的理論、方法及應(yīng)用[J].教育研究與實(shí)驗(yàn),2009(2):54-57.
[4]黎光明,張敏強(qiáng).全測驗(yàn)與錨測驗(yàn)題型分值比對(duì)等值誤差的影響[J].考試研究,2009,5(3):71-77.
[5]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社.2002.
[6]周駿,歐東明,徐淑媛,戴海崎,漆書青.等級(jí)反應(yīng)模型下項(xiàng)目特征曲線等值法在大型考試中的應(yīng)用[J].心理學(xué)報(bào),2005(6):832-838.
[7]黎光明,劉曉瑜,張敏強(qiáng).測驗(yàn)等值技術(shù)在中小學(xué)教學(xué)管理與評(píng)價(jià)中的應(yīng)用[J].教育測量與評(píng)價(jià)(理論版),2009,14(3):8-11.
[8]Kolen,M.J.,&Brennan,R.L.Test equating,linking,and scaling:Methods and practices(2nd ed.).New York:Springer-Verlag.2004.
[9]Kim,D.I.,Brennan,R.L.,&Kolen,M.J.A Comparison of IRT Equating and Beta 4 Equating.Journal of Educational Measure?ment,2005,42(1):77-99.
[10]Von Davier,Alina,A.L.,&Wilson,C.Investigating the popula?tion sensitivity assumption of item response theory true-score equating across two subgroups of examinees and two test formats.Applied Psychological Measurement,2008,32(1):11-26.
[11]Thissen,D.Multilog user’s guide:Multiple,categorical item analy?sisand test scoring using item response theory[Computer program].Chicago:Scientific Software International.1991.
[12]Muraki,E.,&Bock,R.D.PARSCALE(Version 3.5):IRT item analysis and test scoring for rating-scale data[Computer program].Lincolnwood,IL:Scientific Software.1998.
[13]Kim,S.,&Kolen,M.J.STUIRT(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Avail?able from the web address:http://www.uiowa.edu/~casma).2004.
[14]Kolen,M.J.POLYEQUATE:A computer program.Iowa City,IA:The University of Iowa.(Available from the web address:http://www.uiowa.edu/~casma).2004.
[15]Ostini,R.,Identifying substantive measurement differences among a variety of polytomous IRT models.Ph.D.dissertation,University of Minnesota,United States.2001.
[16]Wang,T.,Lee,W.,Brennan,R.L.,&Kolen,M.J.A Comparison of the Frequency Estimation and Chained Equipercentile Methods Under the Common-Item Non-Equivalent Groups Design.Paper presented at theannual meeting of National Council of Measure?ment in Education,April,San Francisco.2006.
[17]Kolen,M.J.CIPE(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Available from the web address:http://www.uiowa.edu/~casma).2004.
How to Select Equating Models for College Entrance Examination Based on Item Response Theory
LI Guangming and ZHANG Minqiang
This research exemplified college entrance examination of Foshan city in Guangdong province and explored how to select the decent mode from SL、SN、NR and GPCM by such as equating design,data collection,prameter estimation,scaling,test equating,which could fit data by comparing the result of observed-score equating for four IRT models Methods.Compared merits and demerits of IRT models in terms of value of difference,we find:Rank of total error squared root were SL,SN,NR and GPCM.There was significant difference(p<0.001)between SL and GPCM and NR and between SN and GPCM and NR and between GPCM and NR,but there wasn’t significant difference(p>0.05)between SL and SN.The research show:(1)SL and SN were the best from the equating effect,but NR wasn’t good and GPCM was the worse;(2)It was wisdom and decent to select SL or SN to do test equating like this.
College Entrance Examination;Item Response Theory(IRT);Test Equating;Psychological and Educational Measurement
G405
A
1005-8427(2012)02-0008-6
廣州大學(xué)
華南師范大學(xué)