曾平飛 李雨秦 劉文惠 焦麗亞 康春花
(1.浙江師范大學(xué)教師教育學(xué)院,浙江金華 321004;2.合肥晶合集成電路有限公司,合肥 230012;3.教育部考試中心,北京 100084)
大規(guī)模測(cè)評(píng)中IRT等值的影響因素研究
曾平飛1李雨秦1劉文惠2焦麗亞3康春花1
(1.浙江師范大學(xué)教師教育學(xué)院,浙江金華 321004;2.合肥晶合集成電路有限公司,合肥 230012;3.教育部考試中心,北京 100084)
通過(guò)模擬和實(shí)證研究探討樣本量、題本量以及錨題題型對(duì)大尺度測(cè)評(píng)中項(xiàng)目參數(shù)等值精度的影響,模擬研究和實(shí)證研究的結(jié)果均表明:(1)0/1計(jì)分項(xiàng)目參數(shù)的等值精度在大多數(shù)條件下均好于多級(jí)計(jì)分項(xiàng)目,相對(duì)而言,實(shí)證研究的差異不如模擬研究明顯;(2)相對(duì)而言,樣本容量的增加對(duì)于提高項(xiàng)目參數(shù)等值精度有著重要的作用,而增加題本數(shù)量的作用甚微;(3)無(wú)論是區(qū)分度參數(shù)還是難度參數(shù),均表現(xiàn)為3個(gè)題本和2 000人的搭配已經(jīng)可以達(dá)到較好的等值精度,如果進(jìn)一步提高等值精度,只需將每一題本的樣本容量增加到3 000人即可;在多級(jí)計(jì)分時(shí),當(dāng)選用5個(gè)題本時(shí),每一個(gè)題本2 000人是最適宜的組合。
項(xiàng)目反應(yīng)理論;等值;同時(shí)估計(jì);錨測(cè)驗(yàn)非等組設(shè)計(jì)
在日益注重教育質(zhì)量和教育內(nèi)涵的“互聯(lián)網(wǎng)+”時(shí)代,學(xué)生能力國(guó)際評(píng)價(jià)項(xiàng)目(Programme for International Student Assessment,PISA)、國(guó)際教育成就評(píng)價(jià)協(xié)會(huì)(International Assessment for the Evaluation of Education,IEA)主持的數(shù)學(xué)與科學(xué)學(xué)習(xí)國(guó)際比較研究(The Trends in International Mathematics and Science Study,TIMSS)、美國(guó)國(guó)家教育進(jìn)展評(píng)估(National Assessment of Education Progress,NAEP)和我國(guó)的基礎(chǔ)教育質(zhì)量監(jiān)測(cè)(Basic Education Quality Assessment)等大型測(cè)評(píng)項(xiàng)目,在世界上的影響越來(lái)越大。就教育測(cè)量學(xué)的技術(shù)而言,這些測(cè)評(píng)項(xiàng)目的一個(gè)共同的經(jīng)驗(yàn)是:在對(duì)教育質(zhì)量進(jìn)行大范圍、廣領(lǐng)域的評(píng)估或監(jiān)測(cè)時(shí),都應(yīng)用了大規(guī)模教育測(cè)評(píng)中的矩陣取樣技術(shù)(matrix-sampling,MS)[1]。MS通過(guò)將測(cè)驗(yàn)題目的隨機(jī)平行等份(題本)分配給隨機(jī)選取的學(xué)生來(lái)估計(jì)測(cè)驗(yàn)總分。與傳統(tǒng)施測(cè)不同,在MS情境下,由于在不同題本上作答的學(xué)生樣本不同,為了實(shí)現(xiàn)對(duì)學(xué)生能力和題目參數(shù)的估計(jì)與比較,就涉及題本之間的等值問(wèn)題。MS可以分為完全矩陣取樣和不完全矩陣取樣兩類(lèi),兩者主要區(qū)別在于不同題本之間是否存在共同題或錨題(common items/anchor items)。不完全矩陣取樣的錨題可以幫助解決學(xué)生個(gè)體間結(jié)果的比較問(wèn)題,為避免錨題在不同題本間的位置效應(yīng),目前運(yùn)用最多的是平衡不完全組塊設(shè)計(jì)(Balanced Incomplete Block Design,BIB),其中錨題為循環(huán)錨。循環(huán)錨在等值設(shè)計(jì)中也有應(yīng)用,如錨題非等組設(shè)計(jì)(non-equivalent groups with anchor test design,NEAT)。
國(guó)內(nèi)外關(guān)于NEAT設(shè)計(jì)的等值研究主要集中在錨題特征和配置方式上。其中錨題特征主要包括錨題長(zhǎng)度、難度、題型等,錨題的配置方式是指題本以何種方式進(jìn)行鏈接。在錨測(cè)驗(yàn)長(zhǎng)度方面,Kolen等建議在相對(duì)較長(zhǎng)的測(cè)驗(yàn)中錨測(cè)驗(yàn)需要占20%;張忠華等探討了共同題數(shù)量和測(cè)驗(yàn)長(zhǎng)度對(duì)等值精確性的影響[2];蔡艷等在NEAT設(shè)計(jì)下固定測(cè)驗(yàn)長(zhǎng)度和樣本量,探討了錨題比例對(duì)等值精度的影響并討論了在實(shí)際等值中的應(yīng)用[3]。熊建華等采用模擬研究對(duì)IRT等值中錨題長(zhǎng)度進(jìn)行了研究,結(jié)果顯示,隨著測(cè)驗(yàn)題量的減少,錨題量需相應(yīng)增加[4]。在錨測(cè)驗(yàn)難度范圍方面,Shinharay等通過(guò)模擬和實(shí)證數(shù)據(jù),探討了3種錨測(cè)驗(yàn)(微型錨、midi錨和半midi錨)與總測(cè)驗(yàn)原始分的相關(guān),結(jié)果表明,midi錨和總測(cè)驗(yàn)的相關(guān)顯著高于微型錨和總測(cè)驗(yàn)的相關(guān)[5]。Liu等使用SAT實(shí)證數(shù)據(jù)驗(yàn)證midi錨和微型錨的性能,研究表明,midi錨的隨機(jī)等值誤差、總體偏差和RMSE在所有實(shí)驗(yàn)情境下都小于或近似于微型錨[6]。在錨測(cè)驗(yàn)題型方面,戴海琦等的實(shí)證研究證明了在NEAT設(shè)計(jì)下錨題為純客觀題時(shí)的等值結(jié)果最好[7]。黎光明等以等值標(biāo)準(zhǔn)誤為因變量探討了全測(cè)驗(yàn)與錨測(cè)驗(yàn)不同題型分值比對(duì)等值誤差的影響[8]。在錨測(cè)驗(yàn)配置方面,Kolen和Brennan研究指出,鏈?zhǔn)芥溄雍图惺芥溄釉诓煌瑮l件下各有優(yōu)劣[9]。楊濤等利用實(shí)測(cè)數(shù)據(jù)證明在多題本共同題設(shè)計(jì)下,在鏈?zhǔn)芥溄又须S著鏈接題本數(shù)量的增加,參數(shù)的等值精度下降[10]。
已有的研究大多關(guān)注兩個(gè)測(cè)驗(yàn)間的等值,但在大規(guī)模測(cè)評(píng)背景下,多題本設(shè)計(jì)已經(jīng)成為趨勢(shì)。我國(guó)學(xué)者楊濤、辛濤和高燕首次在NEAT設(shè)計(jì)下,利用實(shí)測(cè)數(shù)據(jù)研究了多題本間的等值問(wèn)題,探討了等值方法和錨題鏈接方式對(duì)等值效果的影響[10]。然而,對(duì)大規(guī)模測(cè)評(píng)的NEAT設(shè)計(jì)的等值效果同樣具有重要影響的測(cè)驗(yàn)題型、樣本量和題本數(shù)量等因素尚未探討?;诖?,本項(xiàng)研究采用在大規(guī)模測(cè)評(píng)中使用較多的NEAT等值設(shè)計(jì),考察測(cè)驗(yàn)題型、樣本量和題本數(shù)量對(duì)項(xiàng)目參數(shù)等值效果的影響,并用實(shí)證數(shù)據(jù)加以驗(yàn)證,以期為我國(guó)大規(guī)模測(cè)評(píng)項(xiàng)目的持續(xù)推進(jìn)提供有用的信息。
在NEAT設(shè)計(jì)中,根據(jù)錨題在測(cè)驗(yàn)中的配置方式可分為循環(huán)錨和中心錨兩種形式。相較而言,循環(huán)錨題設(shè)置在一定程度上包含矩陣取樣設(shè)計(jì)的思想,更加符合大規(guī)模測(cè)驗(yàn)的情境,因而本項(xiàng)研究選取循環(huán)錨作為錨題配置方式,如表1所示。
表1循環(huán)錨配置
本項(xiàng)研究主要探討在NEAT設(shè)計(jì)下,樣本量(1 000人、2 000人、3 000人)、題本數(shù)量(3個(gè)、5個(gè)、7個(gè))和錨題題型(0/1計(jì)分、多級(jí)計(jì)分)3個(gè)變量對(duì)等值效果的影響。根據(jù)3個(gè)變量之間不同水平的組合可得到3×3×2=18種實(shí)驗(yàn)條件,如表2所示。
NEAT模擬情境如表3所示。根據(jù)在以往研究中學(xué)者對(duì)各參數(shù)范圍設(shè)定的建議,用自編R語(yǔ)句實(shí)現(xiàn)模擬數(shù)據(jù)的生成,再用自編R程序調(diào)用Open-BUGS軟件進(jìn)行參數(shù)估計(jì),每種條件模擬20次。大體的數(shù)據(jù)模擬生成步驟如下。
(1)能力參數(shù)的產(chǎn)生:分別產(chǎn)生18種條件下服從N(0,1)分布的能力值,范圍界定于(-3~3)。
(2)項(xiàng)目參數(shù)的產(chǎn)生:分別產(chǎn)生符合18種條件的項(xiàng)目參數(shù),項(xiàng)目參數(shù)設(shè)定如下:區(qū)分度參數(shù)服從lognormal(1.13,0.6)分布,并將其范圍界定于(0.5~2.5)。難度參數(shù)服從N(0,1)分布,同時(shí)將其范圍界定于(-3~3)。
(3)被試作答反應(yīng)的生成:利用等級(jí)反應(yīng)模型(GRM)計(jì)算被試的正確作答概率,并和隨機(jī)數(shù)進(jìn)行比較。
表2變量設(shè)定
表3 NEAT模擬情境
根據(jù)以往研究,選用誤差均方根(RMSE)作為模擬研究的評(píng)價(jià)指標(biāo)[11]。
誤差均方根公式如下:
其中,N表示被試人數(shù);表示被試能力真值;表示被試能力估計(jì)值;n表示試題數(shù);表示項(xiàng)目參數(shù)真值;表示項(xiàng)目參數(shù)估計(jì)值。
區(qū)分度參數(shù)的等值RMSE如表4所示。
由表4可知,各個(gè)條件下的等值RMSE均在0.40以下,其中0/1計(jì)分項(xiàng)目的RMSE值范圍在0.1444~0.2171;多級(jí)計(jì)分項(xiàng)目的RMSE值范圍在0.2725~0.3923。不同條件下區(qū)分度參數(shù)等值的RMSE變化趨勢(shì)見(jiàn)圖1。
從圖1可以看出,總體而言,無(wú)論在何種樣本容量及何種題本數(shù)量下,0/1計(jì)分項(xiàng)目的區(qū)分度等值精度都要好于多級(jí)計(jì)分項(xiàng)目。具體而言,0/1計(jì)分時(shí),區(qū)分度等值的RMSE隨著樣本容量的增加而降低,然而在某一固定樣本容量?jī)?nèi)部,區(qū)分度在各題本時(shí)的等值精度并無(wú)差異。也就是說(shuō),在0/1計(jì)分時(shí),要提高區(qū)分度等值精度,只有增加每一題本內(nèi)的樣本容量,增加題本數(shù)目并不能起到顯著作用。但在多級(jí)計(jì)分情況下,3 000人時(shí),題本數(shù)量為3個(gè)和7個(gè)時(shí),等值精度最好,1 000人和2 000人時(shí),題本數(shù)量之間并無(wú)多大差異,3個(gè)題本也能達(dá)到與5個(gè)和7個(gè)同樣的等值精度。當(dāng)選用5個(gè)題本時(shí),選擇2 000人較為適宜。
表4區(qū)分度參數(shù)的等值RMSE
圖1不同條件下區(qū)分度參數(shù)等值的RMSE變化趨勢(shì)
難度參數(shù)的等值RMSE如表5所示。
由表5可知,各個(gè)條件下的等值RMSE均在0.48以下,其中0/1計(jì)分項(xiàng)目的RMSE值范圍在0.1470~0.1870;多級(jí)計(jì)分項(xiàng)目的RMSE值范圍在0.2551~0.4753。不同條件下難度參數(shù)等值的RMSE變化趨勢(shì)見(jiàn)圖2。
從圖2可以看出,與區(qū)分度參數(shù)一樣,總體而言,無(wú)論在何種樣本容量及何種題本數(shù)量下,0/1計(jì)分項(xiàng)目的難度參數(shù)等值精度都要好于多級(jí)計(jì)分項(xiàng)目。具體而言,在0/1計(jì)分時(shí),與區(qū)分度參數(shù)一致,難度參數(shù)的等值精度在各題本間并無(wú)顯著差異,而在樣本容量的變化趨勢(shì)上卻略有不同,相對(duì)而言,并不是樣本容量越大越好,而是2 000人比1 000人和3 000人要稍好。換句話說(shuō),在0/1計(jì)分時(shí),要提高難度參數(shù)等值精度,在3個(gè)、5個(gè)、7個(gè)題本時(shí),只需2 000人即可。就多級(jí)計(jì)分而言,難度參數(shù)等值精度的變化趨勢(shì)與區(qū)分度參數(shù)等值精度的變化趨勢(shì)不同。難度參數(shù)等值精度大體呈現(xiàn)隨樣本容量增大而提高的趨勢(shì),即無(wú)論何種題本數(shù)量,均為 3 000人時(shí),精度最高,且題本數(shù)量之間并無(wú)顯著差異。此外,當(dāng)1 000人和2 000人時(shí),3個(gè)題本的等值精度明顯好于5個(gè)和7個(gè)題本,尤其以2 000人時(shí)較為明顯。也就是說(shuō),在多級(jí)計(jì)分時(shí),較少的題本量和每一題本內(nèi)較適中的樣本容量即可達(dá)到較好的難度參數(shù)等值效果,要達(dá)到最好的等值效果,也只需將樣本容量繼續(xù)增加到3 000人即可,而無(wú)需增大題本量。
表5難度參數(shù)的等值RMSE
圖2不同條件下難度參數(shù)等值的RMSE變化趨勢(shì)
探查各模擬情境在實(shí)際測(cè)驗(yàn)情境中的適用情況,進(jìn)一步驗(yàn)證模擬研究的結(jié)果。
實(shí)證研究采用2011年TIMSS八年級(jí)學(xué)生科學(xué)成績(jī)數(shù)據(jù)。對(duì)TIMSS的數(shù)據(jù)進(jìn)行清理,實(shí)證數(shù)據(jù)結(jié)構(gòu)符合模擬研究中的各項(xiàng)條件。
等值設(shè)計(jì)為NEAT設(shè)計(jì),具體同模擬研究,錨題為循環(huán)錨配置。
實(shí)證研究工具與模擬研究中保持一致,同樣采用R軟件自編程序調(diào)用OpenBUGS軟件進(jìn)行參數(shù)估計(jì),最后計(jì)算等值估計(jì)誤差并使用SPSS18.0中文版軟件進(jìn)行各題本的描述性統(tǒng)計(jì)檢驗(yàn)。
實(shí)證研究采用楊濤等在研究大規(guī)模測(cè)評(píng)多題本等值時(shí)使用的指標(biāo)[10]。這個(gè)指標(biāo)是一種交叉驗(yàn)證(cross validation)的分析方法:以每種等值方法本身的大樣本等值效果為標(biāo)準(zhǔn),從大樣本中隨機(jī)抽取10%的樣本量作為小樣本,等值精度通過(guò)小樣本估計(jì)的各參數(shù)和通過(guò)大樣本估計(jì)的各參數(shù)間的差距大小來(lái)衡量。其計(jì)算公式為:
其中,CV表示交叉驗(yàn)證,N表示待等值題本中的題目數(shù)量,Yi是通過(guò)小樣本估計(jì)的各參數(shù),Y'i為依據(jù)大樣本估計(jì)的各參數(shù)。
從表6可以看出,在第一個(gè)條件中3個(gè)題本的總平均分接近,初步說(shuō)明3個(gè)題本的難度相近。另外,3個(gè)題本的α系數(shù)都在0.75以上,信度較高,并且其信度值也大體相近,滿足等值等信度的要求。限于篇幅,此處僅列舉條件1題本數(shù)據(jù)的描述性統(tǒng)計(jì),其他條件均符合要求。
表6 1 000人3題本0/1計(jì)分?jǐn)?shù)據(jù)的描述性統(tǒng)計(jì)表
表7區(qū)分度參數(shù)的RMSD
圖3不同條件下區(qū)分度參數(shù)等值的RMSD變化趨勢(shì)
區(qū)分度參數(shù)的RMSD如表7所示。
由表7可知,各個(gè)條件下的RMSD均在0.35以下,其中0/1計(jì)分項(xiàng)目的RMSD范圍在0.1371~0.2869;多級(jí)計(jì)分項(xiàng)目的RMSD范圍在0.1581~0.3488。不同條件下區(qū)分度參數(shù)等值的RMSD變化趨勢(shì)見(jiàn)圖3。
從圖3可以看出,總體而言,無(wú)論在何種樣本容量及何種題本數(shù)量下,0/1計(jì)分項(xiàng)目的區(qū)分度參數(shù)等值精度都要好于多級(jí)計(jì)分項(xiàng)目,然而,其差異程度并不如模擬研究結(jié)果明顯。具體而言,0/1計(jì)分項(xiàng)目的區(qū)分度等值精度的變化趨勢(shì)與模擬研究類(lèi)似,并且隨樣本容量的變化較模擬研究結(jié)果明顯,即在實(shí)證研究中,要提高區(qū)分度等值精度,也只需增加每一題本內(nèi)的樣本容量即可。就多級(jí)計(jì)分而言,區(qū)分度等值精度隨樣本容量的變化更為明顯,其趨勢(shì)與模擬研究結(jié)果也更為一致,即當(dāng)題本數(shù)量為3個(gè)和7個(gè)時(shí),區(qū)分度等值精度在樣本容量為3 000人時(shí)最好,而題本數(shù)量為5個(gè)時(shí),區(qū)分度等值精度在2 000人最好。也就是說(shuō),多級(jí)計(jì)分時(shí),實(shí)證研究結(jié)果同樣表明:當(dāng)選擇較少或較多的題本數(shù)目進(jìn)行施測(cè)時(shí),同樣需要增加每一題本內(nèi)的施測(cè)人數(shù),才能達(dá)到最好的等值效果;而當(dāng)題本數(shù)量適中時(shí),每一題本樣本容量適中即可,換句話講,比較經(jīng)濟(jì)的做法是選擇5個(gè)題本2 000人的搭配。
難度參數(shù)的RMSD如表8所示。
由8表可知,各個(gè)條件下的RMSD均在0.43以下,其中0/1計(jì)分項(xiàng)目的RMSD范圍在0.1817~0.4024;多級(jí)計(jì)分項(xiàng)目的RMSD范圍在0.1716~0.4295。不同條件下難度參數(shù)等值的RMSD變化趨勢(shì)見(jiàn)圖4。
從圖4可以看出,總體而言,與模擬研究結(jié)果類(lèi)似,無(wú)論在何種樣本容量及何種題本數(shù)量下,0/1計(jì)分項(xiàng)目的難度參數(shù)等值精度都要好于多級(jí)計(jì)分項(xiàng)目,但差異并不如模擬研究結(jié)果明顯。0/1計(jì)分時(shí),與模擬研究稍有不同,難度參數(shù)等值的RMSD隨著樣本容量的增加而降低,但2 000人與3 000人時(shí)差異并不大,并且無(wú)論在何種樣本容量下,均為選擇3個(gè)題本較適宜。多級(jí)計(jì)分時(shí),難度參數(shù)等值精度與模擬研究結(jié)果也大體相似,也呈現(xiàn)出隨樣本容量增加精度更好的趨勢(shì),3 000人時(shí),各題本之間幾乎無(wú)差異??v觀各樣本容量下各題本的差異,可發(fā)現(xiàn),3個(gè)題本和2 000人的搭配是較為適宜的,如果要進(jìn)一步提高等值精度,只需將人數(shù)增加至3 000人即可。
表8難度參數(shù)的RMSD
圖4不同條件下難度參數(shù)等值的RMSD變化趨勢(shì)
對(duì)于項(xiàng)目參數(shù)的等值誤差來(lái)說(shuō),0/1計(jì)分項(xiàng)目在大多數(shù)條件下均小于多級(jí)計(jì)分項(xiàng)目,這一研究結(jié)果與戴海琦等人的研究基本一致[7]。本項(xiàng)研究結(jié)果表明,樣本容量對(duì)于提高項(xiàng)目參數(shù)等值精度的作用相較于題本量來(lái)說(shuō)更大,馬洪超的研究發(fā)現(xiàn)考生樣本量影響等值精度,樣本量為2 000人左右時(shí)的等值結(jié)果較穩(wěn)定,考生樣本量進(jìn)一步增大等值誤差減小[12];本項(xiàng)研究第3個(gè)研究結(jié)果表明,無(wú)論是區(qū)分度參數(shù)還是難度參數(shù),均表現(xiàn)為3個(gè)題本2 000人的搭配已經(jīng)可以達(dá)到較好的等值精度,如果要進(jìn)一步提高等值精度,只需將每一題本的樣本容量增加到3 000人即可;在多級(jí)計(jì)分情境選用5個(gè)題本時(shí),每一題本2 000人是最適宜的組合,這一點(diǎn)以往研究并未涉及。
就項(xiàng)目參數(shù)等值誤差而言,0/1計(jì)分項(xiàng)目在大多數(shù)條件下均小于多級(jí)計(jì)分項(xiàng)目的原因,可能在于多級(jí)計(jì)分項(xiàng)目比0/1計(jì)分項(xiàng)目難以控制,因不同評(píng)分者的評(píng)分標(biāo)準(zhǔn)不同而造成較多的測(cè)量誤差,從而在未等值之前就已經(jīng)引入了較大的測(cè)量誤差,最終導(dǎo)致等值誤差的增大。研究發(fā)現(xiàn),樣本容量的增加對(duì)于提高項(xiàng)目參數(shù)等值精度有著重要的作用,樣本容量是影響隨機(jī)誤差的重要因素,增大樣本量可以減小測(cè)量的隨機(jī)誤差,進(jìn)而減小等值誤差最終提高等值精度;研究表明,增加題本數(shù)量對(duì)于提高等值精度的作用不大,而楊濤等人的研究表明,提高題本數(shù)量會(huì)降低等值精度,兩者結(jié)果不同的原因,可能在于楊濤等人的錨題配置方式為固定錨題,題本量的增加意味著鏈接次數(shù)的增加,每次鏈接或多或少會(huì)引入誤差,題本數(shù)的增多會(huì)最終導(dǎo)致后面鏈接的題本的項(xiàng)目參數(shù)等值誤差的增大,而本項(xiàng)研究的錨題配置方式為循環(huán)錨題,隨著題本數(shù)的增加等值精度變化不大。本項(xiàng)研究通過(guò)模擬和實(shí)證研究探討了在NEAT設(shè)計(jì)下,3種施測(cè)人數(shù)(1 000人、2 000人、3 000人)、3種題本量(5個(gè)、7個(gè)、9個(gè))、2種錨題題型(0/1計(jì)分題、多級(jí)計(jì)分題)下的項(xiàng)目參數(shù)等值效果,得到下列結(jié)論:
(1)0/1計(jì)分項(xiàng)目參數(shù)的等值精度在大多數(shù)條件下均好于多級(jí)計(jì)分項(xiàng)目,實(shí)證研究的差異相對(duì)不如模擬研究明顯。
(2)相對(duì)而言,樣本容量的增加對(duì)于提高項(xiàng)目參數(shù)等值精度有著重要的作用,而增加題本數(shù)量的作用甚微。
(3)無(wú)論是區(qū)分度參數(shù)還是難度參數(shù),均表現(xiàn)為3個(gè)題本2 000人的搭配已經(jīng)可以達(dá)到較好的等值精度,如果要進(jìn)一步提高等值精度,只需將每一題本的樣本容量增加到3 000即可;在多級(jí)計(jì)分時(shí),當(dāng)選用5個(gè)題本時(shí),每一題本2 000人是最適宜的組合。
[1]李凌艷,辛濤,董奇.矩陣取樣技術(shù)在大規(guī)模教育測(cè)評(píng)中的運(yùn)用[J].北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2007(6):19-25.
[2]張忠華,宋萑.共同題數(shù)量和測(cè)驗(yàn)長(zhǎng)度對(duì)項(xiàng)目參數(shù)等值精確性的影響[C]//第十屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集.上海,2005.
[3]蔡艷,丁樹(shù)良,涂冬波.鉚題比例對(duì)等值精度的影響[J].心理學(xué)探新,2009,29(2):86-89.
[4]熊建華,葉新蓉,丁樹(shù)良,等.等值設(shè)計(jì)中錨題比例研究[C]//教育技術(shù)與培訓(xùn)國(guó)際大會(huì)論文集.武漢,2010.
[5]SHINHARAY S,HOLLAND P W.Is It Necessary to Make Anchor Tests Mini-Versions of the Tests Being Equated or Can Some Restrictions Be Relaxed?[J].Journal of Educational Measurement,2007,44(3):249-275.
[6]LIU J,SHINHARAY S,HOLLAND P W,et al.Observed score equating using a mini-version anchor and an anchor with less spread of difficulty:A comparison study[J].Educational and Psychological Measurement,2011,71(2):346-361.
[7]戴海崎,劉啟輝.錨題題型與等值估計(jì)方法對(duì)等值的影響[J].心理學(xué)報(bào),2002,34(4):37-40.
[8]黎光明,張敏強(qiáng).全測(cè)驗(yàn)與錨測(cè)驗(yàn)題型分值比對(duì)等值誤差的影響[J].考試研究,2009(3):73-80.
[9]KOLEN M J,BRENNAN R L.Test equating,linking,and scaling:Methods and practices(2nd ed.)[M].New York,NY:Springer,2004.
[10]楊濤,辛濤,高燕.大尺度教育測(cè)評(píng)中IRT等值方法的比較研究[J].中國(guó)軟科學(xué),2013(12):158-164.
[11]劉玥,劉紅云.不同鉚測(cè)驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較[J].心理學(xué)報(bào),2013(4):466-480.
[12]馬洪超.考生樣本量對(duì)項(xiàng)目反應(yīng)理論(IRT)等值穩(wěn)定性的影響[J].考試研究,2011(2):62-66.
(責(zé)任編輯:周黎明)
A Research on the Influence Factors of IRT Equating in Large Scale Assessments
ZENG Pingfei1,LI Yuqin1,LIU Wenhui2,JIAO Liya3,KANG Chunhua1
(1.College of Teacher Education,Zhejiang Normal University,Jinhua 321004,China;2.Nexchip Semiconductor Corporation,Hefei 230012,China;3.National Education Examinations Authority,Beijing 100084,China)
Simulation study and empirical research are conducted to investigate the influence of sample size,the number of booklets,the item format on IRT parameter equating.Findings show that:a)dichotomous items produce small parameter equating errors than polytomous items,relatively,the difference between empirical research is not as obvious as the simulation study;b)relatively,the increase in sample size plays an important role in improving the equivalent accuracy of the parameters,but the effect of increasing the number of booklets is negligible;c)whether it is the a-parameters or the b-parameters,the matching of three booklets and 2 000 sample size has been able to achieve better accuracy.To further improve the equating accuracy,only the 3 000 sample size is needed.When using polytomous items,five booklets and 2 000 sample size are the best combination.
IRT;Equating;Concurrently Estimation;NEAT Design
G405
A
1005-8427(2017)09-0022-9
10.19360/j.cnki.11-3303/g4.2017.09.003
本文獲得教育部人文社會(huì)科學(xué)研究一般項(xiàng)目(項(xiàng)目編號(hào):16YJA190002)資助。
曾平飛(1963—),男,浙江師范大學(xué)教師教育學(xué)院,教授;李雨秦(1993—),女,浙江師范大學(xué)教師教育學(xué)院,在讀碩士;劉文惠(1992—),女,合肥晶合集成電路有限公司,管理師;焦麗亞(1982—),女,教育部考試中心,助理研究員;康春花(1974—),女,浙江師范大學(xué)教師教育學(xué)院,副教授。