王菲 任杰 張泉慧 曹文靜
等值是指調(diào)整不同版本平行測驗間的分?jǐn)?shù),使之統(tǒng)一在一個量表上、實現(xiàn)分?jǐn)?shù)互換的過程;在保證測驗的公平性和測驗分?jǐn)?shù)的可比性方面具有重要的作用,是建設(shè)題庫、開發(fā)計算機化測驗和適應(yīng)性測驗過程中的關(guān)鍵步驟。我國是一個考試大國,數(shù)量繁多的考試被廣泛應(yīng)用于社會的各個領(lǐng)域。然而,我國的大部分測驗和考試卻沒有實現(xiàn)等值,等值研究現(xiàn)階段仍是我國測量研究中一個比較薄弱的環(huán)節(jié),盡快實現(xiàn)等值是國內(nèi)許多考試所共同面臨的重要任務(wù);少數(shù)經(jīng)過等值的考試中,大多只限于對二級記分題目的等值,對多級記分題目的等值研究更是少之又少。
隨著實踐中教育測驗評價形式的豐富,多種多樣的考試題型應(yīng)運而生,對我們的等值工作提出了新的要求。許多考試中不僅包含有“0,1”記分的題目,還出現(xiàn)了正確答案為多個選項,按照答對數(shù)目賦分的多級記分題目。該研究正是針對包含多級記分題目的國內(nèi)某大型語言類考試,選擇了目前普遍應(yīng)用于多級記分等值的等級反應(yīng)模型,使用同時校準(zhǔn)法、固定共同題參數(shù)法以及鏈接獨立校準(zhǔn)法中的平均數(shù)標(biāo)準(zhǔn)差方法、平均數(shù)平均數(shù)方法、Haebara法和Stocking-Lord法六種方法進行等值,在各試卷版本之間利用共同題進行連接,通過比較六種方法的跨樣本一致性,并以此作為評價等值效果的標(biāo)準(zhǔn),為該考試選擇最優(yōu)的等值方法。
研究使用某語言類大型考試2011年正式考試的3份試卷作為實驗材料,其中1份為標(biāo)桿卷,另外2份待等值的試卷分別稱為新卷1、新卷2。等值以分測驗為單位進行,進行等值的包括其中兩個分測驗,分測驗一包含四種題型,共28道題,滿分35分;分測驗二包含三種題型,共25道題,滿分35分。該考試不同于一般“0,1”記分的考試,區(qū)別在于其記分方式不僅有“0,1”記分的題目,還包括“0,2”、“0,0.5”這樣的二級記分題目,而且出現(xiàn)了“0,0.5,1”這樣的多級記分題目。
等值的過程涉及等值數(shù)據(jù)的收集和等值數(shù)據(jù)的處理兩個方面。該考試采用非等組錨題設(shè)計(Non-Equivalent groups with Anchor Test,NEAT)收集數(shù)據(jù),也稱為共同題設(shè)計或錨題設(shè)計,即兩組水平不一樣的考生分別參加兩個不同考卷的測驗,這兩份試卷中包含一部分相同的題目。
在最常用的NEAT設(shè)計中,采用IRT理論對考試數(shù)據(jù)進行等值處理,第一個問題是模型的選取。研究采用的是目前普遍應(yīng)用于多級記分測驗的等級反應(yīng)模型(Grade Response Model,GRM)中的同質(zhì)模型,即每個項目只有一個區(qū)分度、每個等級上的區(qū)分度都是相同的。
設(shè)θ為被試潛在的特質(zhì),ui為一隨機變量,作為對項目i的分級題目反應(yīng)的記號,以ui(ui=0,1,2,…,mj)記錄實際反應(yīng)。記能力為θ的被試在第i題上得到ui分的概率為Pui(θ),Pui'(θ)表示該被試在第i題目上的得分大于或等于ui的概率,則有
經(jīng)分析,式1可以通過將多等級評分題目作“0,1”劃分將Pui'(θ)轉(zhuǎn)換成二級記分題目中的題目特征函數(shù)。在題目i中,令所有得分在ui或ui之上的被試為“通過”或“得1分”,得分小于ui的被試為“不通過”或“得0分”,則有Pui'(θ)=1,Pui+1'(θ)=0,等級反應(yīng)模型的表達(dá)式為
其中,D為常數(shù),ai為題目i的區(qū)分度,bui是題目i第ui等級的難度值,且第i題的等級難度是遞增的,即b0<b1<…<bmi。
等值處理的第二步是完成兩個試卷版本的IRT量表轉(zhuǎn)換。進行IRT量表轉(zhuǎn)換的方法主要有3種:
1)固定共同題參數(shù)法(Fixed common item parameters):先估計標(biāo)桿卷上共同題的參數(shù),在進行目標(biāo)卷的參數(shù)估計時把這些共同題參數(shù)固定為已經(jīng)得到的值,這樣就使得目標(biāo)卷的參數(shù)自動與標(biāo)桿卷位于一個量表中。該方法可分為固定共同題單參數(shù)、雙參數(shù)和三參數(shù)方法。
2)鏈接獨立校準(zhǔn)法(Linking separate calibration):首先分別估計標(biāo)桿卷和目標(biāo)卷的題目參數(shù),然后再依據(jù)一定的數(shù)學(xué)方法求解等值系數(shù),將目標(biāo)卷的參數(shù)轉(zhuǎn)換到標(biāo)桿卷上。
在NEAT設(shè)計中,由于不同考生群體分布可能不盡相同,經(jīng)過參數(shù)估計,同一個錨題可以得到兩個不同的能力分?jǐn)?shù)θx和θy,還可以得到兩組不同的題目參數(shù)ax、bx、cx和ay、by、cy,這兩組參數(shù)估計值滿足如下關(guān)系:
等值轉(zhuǎn)換系數(shù)可采用矩估計法或特征曲線法求取。
(1)矩估計法(Moment method):該方法使用題目參數(shù)的矩統(tǒng)計量來估計等值系數(shù),主要方法包括平均數(shù)/平均數(shù)法、平均數(shù)/標(biāo)準(zhǔn)差法等。
平均數(shù)標(biāo)準(zhǔn)差法(Mean/Sigma,MS)。Marco在1977年提出該方法,MS法使用錨題的b參數(shù)標(biāo)準(zhǔn)差及其均數(shù)來獲得轉(zhuǎn)換系數(shù)A和B,其公式如下:
σbxv是從X測驗估計出的錨題b參數(shù)的標(biāo)準(zhǔn)差,σbyv是從Y測驗估計出的錨題b參數(shù)的標(biāo)準(zhǔn)差。
平均數(shù)平均數(shù)法(Mean/Mean,MM)。該方法是Lord和Hoover于1980年提出的,其做法是使用錨題的a參數(shù)的均值和b參數(shù)的均值來獲得轉(zhuǎn)換系數(shù)A和B,其公式如下:
特征曲線法(Characteristic curve method):該方法是基于題目特征曲線的轉(zhuǎn)換方法,其實質(zhì)是通過減少題目特征曲線的差異實現(xiàn)量表轉(zhuǎn)換。對于量表J和量表I,具有特定能力考生i和考生 j回答不同量表中試題的答對概率是相同的,其數(shù)學(xué)含義如下:
此式對于任何一個考生和任何一個題目理論上都是成立的。但是用測驗樣本的題目參數(shù)估計值代入,則會存在誤差。求其誤差平方有兩種方法,由此引出兩種基于題目特征曲線等值數(shù)據(jù)處理方法。
Haebara法。1980年黑巴諾(Haebara)首先提出用題目特征曲線法完成量表的轉(zhuǎn)換,此方法是將一定能力的考生對每個題目的反應(yīng)的題目特征曲線間的平方差進行累加,充分利用了更多參數(shù)信息,其數(shù)學(xué)表達(dá)式如下:
該函數(shù)式是錨題 j:V的總和。等式是將兩個測驗中每個題目特征曲線間的差的平方進行相加。Hdiff是在考生的基礎(chǔ)上進行加和,其估計方式如下:
Stocking-Lord法。該方法是Stocking和Lord于1983年提出。Stocking-Lord方法與Haebara方法稍微不同,它是在固定考生的基礎(chǔ)上,對題目i進行累加,由上式可推知:
上式的含義是同一考生在同一批題目上的真分?jǐn)?shù)是相等的,并不受題目參數(shù)估計依據(jù)哪個群體的影響。代入具體的參數(shù)估計值,則兩真分?jǐn)?shù)之間存在誤差,平方可得:
該函數(shù)式是錨題 j:V的特征曲線之和的差的平方。SLdiff是在題目基礎(chǔ)上進行加和,其估計方法如下:
SLdiff(θi)表達(dá)式為給定能力值考生在錨題上的測驗特征曲線在不同量表間差異的平方。相反,Hdiff(θi)表達(dá)式為對某一給定能力的考生在所有錨題上的題目特征曲線差異的平方和。無論是Hcrit還是SLcrit,均是在它們最小的條件下計算出A和B。將它們分別對A和B求偏導(dǎo),并分別令其為0,可獲得二元非線性方程組。一般采用牛頓迭代法估計出A和B。通常A和B初值采用均數(shù)標(biāo)準(zhǔn)差所估計的值為好(漆書青,2002:217)。
3)同時校準(zhǔn)法(Concurrent calibration,CC):與鏈接獨立校準(zhǔn)法不同,同時校準(zhǔn)是將兩個測驗的數(shù)據(jù)合并,看成同一個測驗,將一組被試未作答的另一個測驗中非共同題上的反應(yīng)當(dāng)作缺失值,從而一次完成參數(shù)估計,得到的不同測驗的題目參數(shù)自然就在同一個量尺之上。
等值過程會存在誤差,等值效果的優(yōu)劣依賴于不同等值方法引入等值誤差的大小。為了評價等值的精確性,一般都采用比較等值誤差大小的方法。一種等值設(shè)計或者方法產(chǎn)生的誤差越小,這種等值設(shè)計或等值方法的效果就越好。
為評價等值效果,研究選擇穩(wěn)定性標(biāo)準(zhǔn),主要通過計算評價樣本敏感度的根均平方差(Root Mean Squared Difference,RMSD)和期望的差異平方根(REMSD)進行跨樣本的一致性檢驗??鐦颖疽恢滦詮牧硪粋€角度來說是等值的一個性質(zhì),理論上等值結(jié)果不受樣本的影響。但實際上等值或多或少都存在樣本的依賴性(Holland&Rubin,1982)。如果一種等值方法在不同的子樣本中表現(xiàn)一致,雖然我們不能做出該方法是最好方法的結(jié)論,但是如果跨樣本不一致,即這種方法對樣本敏感,則該方法一定不是好的等值方法。
跨樣本檢驗的具體做法是:把總體劃分為有限的排他的幾個樣本,然后用總體和樣本分別進行等值,進而比較樣本等值結(jié)果與總體等值結(jié)果的差異。差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。下圖以從考生群體O等值到考生群體Q為例說明跨樣本檢驗框架。
圖1 跨樣本檢驗示意圖
在NEAT設(shè)計中涉及兩個被試群體,將被試群體P和Q各劃分為不同的樣本:{Pj}和{Qj}。WPj是指樣本Pj的相應(yīng)權(quán)重,WQj表示Qj在Q中的相應(yīng)權(quán)重。WPj和WQj可被設(shè)定為某個值,只要總和為1。T是由被試組P和被試組Q按照一定比例組成的綜合組。由此可知:
對于P和Q的樣本{Pj}和{Qj},也有相應(yīng)的樣本綜合組Tj,可以定義為:
RMSD公式中的權(quán)重表示為:
用eTj(x)表示Tj中將X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù),eT(x)表示綜合組T上X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)。eTj
(x)和eT(x)的等值方法相同。von Davier,Holland&Thayer(2003)把NEAT設(shè)計中的RMSD(x)定義為:
由于Y卷分?jǐn)?shù)在綜合組T中并不能直接觀測到,因此綜合組T中Y卷分?jǐn)?shù)的標(biāo)準(zhǔn)差σYT的計算依賴于所選的等值方法。由公式可知,X卷上的每一個分?jǐn)?shù)點對應(yīng)到Y(jié)卷上都能計算出一個RMSD值,有的RMSD值比較小,有的則比較大,這樣我們就無法直接客觀地得出跨樣本是否一致的結(jié)論。為了得到單一值,可計算REMSD指標(biāo),即期望的差異平方根。
上式中,ET{}是指T組在X卷上分部的平均數(shù)。
在計算統(tǒng)計量時,需要考慮的問題是統(tǒng)計量達(dá)到多大就可認(rèn)為是顯著的,即RMSD值和REMSD值都需要一個標(biāo)準(zhǔn)來衡量。Dorans,Holland,Thayer&Tateneni(2003)建議用DTM(Difference that mat-ters)這個指標(biāo)。ETS多年來也是采用了這個標(biāo)準(zhǔn)。DTM是指報告分?jǐn)?shù)的半個單位,即我們采用四舍五入時可以忽略的分?jǐn)?shù)的一半。比如在某測驗分?jǐn)?shù)中,以1為分?jǐn)?shù)單位,此時DTM=0.5。由于RMSD和REMSD這兩個統(tǒng)計量通過σYT實現(xiàn)標(biāo)準(zhǔn)化,DTM也常常用它來實現(xiàn)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的DTM常常用SDTM表示。如果RMSD值和REMSD值均小于SDTM,則說明等值的跨樣本具有一致性。而且RMSD值和REMSD值值越小,則說明等值結(jié)果越精確、跨樣本一致性越高;RMSD指標(biāo)的變化趨勢越平穩(wěn),則說明等值結(jié)果越穩(wěn)定、跨樣本一致性越高。
使用業(yè)內(nèi)公認(rèn)的處理含有多級記分題目的考試的標(biāo)準(zhǔn)軟PARSCALE軟件進行參數(shù)估計,其他程序均使用Visual Foxpro 6.0自行編寫。
由表1可以看出:新卷的原始平均分都遠(yuǎn)低于標(biāo)桿卷;3個考生群體的分布(標(biāo)準(zhǔn)差)基本穩(wěn)定;3份試卷各部分都略微偏難,新卷均比標(biāo)桿卷稍難;3份試卷都具有較好的題目區(qū)分度;全卷的Alpha信度也是比較好的,分測驗時Alpha信度略有降低,可能與題量的減少有關(guān)。
表2 標(biāo)桿卷與新卷1共同題與分測驗的相關(guān)
表3 標(biāo)桿卷與新卷2共同題與分測驗的相關(guān)
由于等值設(shè)計中,新卷1和標(biāo)桿卷與新卷2和標(biāo)桿卷進行連接的題型不同,故新卷1、新卷2包含的來自標(biāo)桿卷共同題各不相同,但共同題題目數(shù)均在各分測驗部分題目總數(shù)的一半左右。上表中列出了兩份試卷共同題的相關(guān)分析結(jié)果。結(jié)果顯示:該考試中共同題與所在分測驗得分之間的相關(guān)較高,相關(guān)系數(shù)的P值均小于0.01。
研究以跨樣本一致性檢驗結(jié)果作為評價等值方法的標(biāo)準(zhǔn),所以首先對拆分的子樣進行了代表性檢驗。樣本代表性檢驗步驟如下:將參加新卷1的考生群體O(896人)、參加新卷2的考生群體P(906人)和參加標(biāo)桿卷的考生為群體Q(1 420人)各隨機分為兩個獨立的人數(shù)相等的樣本(即O1和O2、P1和P2、Q1和Q2),然后通過獨立樣本T檢驗來檢驗六個樣本的代表性。經(jīng)檢驗,各樣本均是各總體的無差樣本,都能很好地代表該總體。
表1 各試卷分測驗描述統(tǒng)計
跨樣本一致性檢驗分別從六種方法的RMSD值和REMSD值的大小,以及RMSD指標(biāo)的變化趨勢來比較他們對樣本的敏感性。
(1)RMSD值
圖2 新卷1分測驗一同時校準(zhǔn)法RMSD值
將每種方法各個分?jǐn)?shù)點的RMSD值與SDTM標(biāo)準(zhǔn)的情況作圖如上(限于篇幅,文中僅列一圖)。結(jié)果顯示,每種方法對各個部分的等值的過程中,每個分?jǐn)?shù)點跨樣本的RMSD值,除低分段的個別分?jǐn)?shù)點外,都基本低于SDTM的標(biāo)準(zhǔn),即在RMSD指標(biāo)上,四種方法都通過了SDTM標(biāo)準(zhǔn)的衡量,由此可見,四種方法都是可以實現(xiàn)跨樣本等值的。
(2)REMSD值
從以上REMSD值表可以看出:新卷1和新卷2兩個分測驗四個部分的REMSD值都遠(yuǎn)低于SDTM的標(biāo)準(zhǔn),在REMSD指標(biāo)上,六種方法也通過了SDTM標(biāo)準(zhǔn)的衡量,由此可知,六種方法都實現(xiàn)了跨樣本一致。另外,比較六種方法REMSD值的大小,分測驗一時,兩份試卷均是平均數(shù)平均數(shù)法的REMSD值最小,Stocking-Lord法次之;分測驗二時,兩份試卷均是固定共同題參數(shù)法的REMSD值最小,同時校準(zhǔn)法次之。
(3)六種方法的RMSD指標(biāo)比較
圖3 新卷1分測驗一四種方法RMSD值比較
表4 新卷1分測驗一六種方法的REMSD值
表5 新卷2分測驗一六種方法的REMSD值
表6 新卷1分測驗二六種方法的REMSD值
表7 新卷2分測驗二六種方法的REMSD值
圖4 新卷2分測驗一四種方法RMSD值比較
圖5 新卷1分測驗二四種方法RMSD值比較
圖6 新卷2分測驗二四種方法RMSD值比較
從六種方法各分?jǐn)?shù)點RMSD值的大小和變化趨勢來看,分測驗一時,兩份試卷大多數(shù)分?jǐn)?shù)點均是平均數(shù)平均數(shù)法的RMSD值最小,同時也是起伏變化最小、最穩(wěn)定的,Stocking-Lord法次之;分測驗二時,兩份試卷大多數(shù)分?jǐn)?shù)點均是固定共同題參數(shù)法的RMSD值最小,同時也是起伏變化最小、最穩(wěn)定的,同時校準(zhǔn)法次之。
從六種方法的跨樣本一致性檢驗結(jié)果可以看出,六種方法在每個分?jǐn)?shù)點的RMSD值和平均的REMSD值都基本低于SDTM的標(biāo)準(zhǔn),都是可以作為該考試等值備選方法的。通過具體比較六種方法對樣本的敏感性,從六種方法在每個分?jǐn)?shù)點的RMSD值和平均的REMSD值的大小、以及RMSD指標(biāo)的變化趨勢的情況來進行優(yōu)選,無論是精確性還是穩(wěn)定性,分測驗一均以平均數(shù)平均數(shù)法的等值效果最好,分測驗二則以固定共同題參數(shù)法為佳。需要注意的是,該考試較高的試卷質(zhì)量是各種等值方法效果較好的保證,現(xiàn)有的試卷結(jié)構(gòu)是得到這一結(jié)論的前提。
研究對幾種等值方法的探討和比較都是基于同一個模型——等級記分模型之下進行的,未能涉及其他已有的多級記分模型,基于不同模型之下等值方法的比較仍是一個有待研究的內(nèi)容。另外,等值效果的評價標(biāo)準(zhǔn)問題一直是等值研究中的難點,研究采用跨樣本一致性指標(biāo)這樣的穩(wěn)定性標(biāo)準(zhǔn)來進行檢驗。常用的幾種評價標(biāo)準(zhǔn)——循環(huán)等值、模擬等值、大樣本標(biāo)準(zhǔn)和研究采用的穩(wěn)定性標(biāo)準(zhǔn)都各有其局限性,相比較起來穩(wěn)定性的標(biāo)準(zhǔn)雖然不失為一種比較有說服力、可操作的標(biāo)準(zhǔn),但其不能排除等值方法自身存在的“穩(wěn)定的誤差”的局限性,使比較的結(jié)果具有一定的不確定性,尋找一種更理想的方法作為評價標(biāo)準(zhǔn)是值得進一步研究的課題。
[1] 漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社.2002.
[2] 韓寧.應(yīng)用項目反應(yīng)理論等值含有多種題型考試的一個實例[J].中國考試,2008(7):3-8.
[3] 謝小慶.對15種測驗等值方法的比較研究[J].心理學(xué)報,2000:32-2.
[4] 周駿,歐東明,徐淑媛,戴海琦,漆書青.等級反應(yīng)模型下題目特征曲線等值法在大型考試中的應(yīng)用[J].心理學(xué)報,2005(6):832-838.
[5] Brennan,R.L,(Ed.).Educational measurement(4th ed),Westport:American Council on Education and Praeger Publishers.2006.
[6] Dorans,N.J.,&Holland,P.W.Population invariance and the equatability of tests:Basic theory and the linear case.Journal of Educational Measurement,2000.37(4):281–306.
[7] Dorans,N.J.,Holland,P.W.,Thayer,D.T.,&Tateneni,K.Invariance of scoring across gender groups for three Advanced Placement Program examinations.In N.J.Dorans,(Ed.),Population invariance of score linking:Theory and applications to advanced placement program examinations.ETS RR-03-27.2003:79-118.
[8] Haebara,T.Equating logistic ability scales by a weighted least squares.Japanese Psychological Research,1980.22:144-149.
[9] Holland,P.W.,&Rubin,D.B.(Ed.).Test equating,New York:Academic Press.1982.
[10] Loyd,B.H.,&Hoover,H.D.Vertical equating using the Rasch model.Journal of Educational Measurement,1980.17:179-193.
[11] Marco,G.L.Item characteristic curve solutions to three intractable testing problems.Journal of Educational Measurement,1977.14:139-160.
[12] Samejima,F.Estimation of a latent ability using a response pattern of graded scores.Psychometrika Monograph Supplement,1969:17.
[13] Stocking,M.L.,&Lord,F.M.Developing a common metric in item response theory.Applied Psychological Measurement,1983.7(2):201-210.
[14] von Davier,A.A.,Holland,P.W.,&Thayer,D.T.Population invariance and chain versus post-stratification methods for equating and test linking.In N.Dorans(Ed.),Population invariance of score linking:Theory and applications to advanced placement program examinations.ETS RR-03-27.2003:19-36.
[15] Wingersky,M.S.,&Lord,F.M.An investigation of methods for reducing sampling error in certain IRT procedures.Applied Psychological Measurement,1984.8(3):347-364.