趙海燕 辛 濤 田 偉
(1.北京教育考試院,北京 100083;2.北京師范大學(xué)心理學(xué)部,北京 100875;3.北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,北京 100875)
主觀題作為一種重要的題目形式,由于形式多樣、考查靈活以及能夠探查考生深層次的能力,備受測(cè)驗(yàn)編制者和命題者的青睞,業(yè)已成為眾多大型測(cè)驗(yàn)和考試的重要組成部分[1-2]。主觀題評(píng)分通常先制訂評(píng)分細(xì)則,再由評(píng)分員根據(jù)主觀印象按照細(xì)則對(duì)行為樣本進(jìn)行評(píng)定。不管評(píng)定量尺建構(gòu)得如何好,量尺信度仍然主要取決于進(jìn)行評(píng)定的人,主觀題最突出的構(gòu)念無關(guān)變異主要來自于評(píng)分員[3]。研究表明,評(píng)分員自身在多次評(píng)分時(shí)難以保持一致,不同評(píng)分員對(duì)于相同行為樣本的評(píng)分也不盡相同。評(píng)分員自身以及不同評(píng)分員間在多次評(píng)定上的不一致性,直接降低了結(jié)果分?jǐn)?shù)的信度和效度,這種現(xiàn)象被稱為評(píng)分者效應(yīng)(rater effects)[4]。一段時(shí)間以來,研究者傾向于將評(píng)分者效應(yīng)視為評(píng)分員固有的一種靜態(tài)特征,不隨時(shí)間、場(chǎng)合和任務(wù)發(fā)生改變,并以相同方式影響著所有被評(píng)價(jià)的行為樣本。隨著研究的深入,研究者逐漸認(rèn)識(shí)到評(píng)分員的表現(xiàn)會(huì)隨著時(shí)間、場(chǎng)合以及任務(wù)的變化而改變[3,5-6],從而引起評(píng)分者效應(yīng)的波動(dòng),即發(fā)生評(píng)分者漂移(rater DRIFT)。
一些大型測(cè)驗(yàn)機(jī)構(gòu)和教育管理部門已經(jīng)意識(shí)到評(píng)分者漂移的存在與危害,如美國教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(The Standards for Educational and Psychological Testing)明確指出:測(cè)驗(yàn)實(shí)施者必須對(duì)評(píng)分員的表現(xiàn)進(jìn)行實(shí)時(shí)監(jiān)控,以確定是否存在評(píng)分者漂移,并在報(bào)告結(jié)果分?jǐn)?shù)時(shí)要去除這種測(cè)驗(yàn)無關(guān)變異的影響[7]。評(píng)分者漂移的存在凸顯了動(dòng)態(tài)評(píng)估的重要性,為評(píng)分過程的質(zhì)量監(jiān)控提出了新的挑戰(zhàn)。在此背景下,研究評(píng)分者漂移的模式、規(guī)律以及內(nèi)在機(jī)制,深入挖掘評(píng)卷質(zhì)量的發(fā)展與保持機(jī)制,不僅對(duì)評(píng)分過程的改進(jìn)、有效監(jiān)控機(jī)制的建立、評(píng)分員的遴選與評(píng)價(jià)的完善具有重要的實(shí)踐價(jià)值,也能為補(bǔ)償方案的制定奠定基礎(chǔ),最終有助于提升大規(guī)??荚嚨男哦?、效度與公平性。
評(píng)分者漂移屬于新近出現(xiàn)的研究主題,對(duì)多數(shù)研究者而言比較陌生。有鑒于此,本文將重點(diǎn)介紹評(píng)分者漂移的定義、使用的指標(biāo)與傳統(tǒng)的檢測(cè)方法,并對(duì)未來研究方向加以展望。
研究表明,評(píng)分員的知識(shí)背景、綜合能力、工作經(jīng)驗(yàn)、情緒偏好以及疲勞程度等個(gè)人特征,均會(huì)對(duì)評(píng)分的精確性和客觀性產(chǎn)生影響,從而導(dǎo)致評(píng)分者效應(yīng)的出現(xiàn)[4];在主觀題和其他類似任務(wù)的評(píng)分中,評(píng)分者效應(yīng)非常普遍,這些效應(yīng)會(huì)隨著培訓(xùn)與監(jiān)控減弱,但不會(huì)完全消失[4,8-15]。
Scullen等認(rèn)為,評(píng)分者效應(yīng)是一大類效應(yīng),導(dǎo)致這類效應(yīng)的系統(tǒng)變異與評(píng)分員在評(píng)定中的表現(xiàn)有關(guān),與被試的行為無關(guān)[16]。評(píng)分者效應(yīng)按表現(xiàn)與影響機(jī)制可細(xì)分為多個(gè)子類別。一般說來,最受關(guān)注的效應(yīng)有嚴(yán)厲度或?qū)捤啥刃?yīng)(severity/leniency)、不準(zhǔn)確性效應(yīng)以及評(píng)定量尺使用模式上的系統(tǒng)變異,如趨中效應(yīng)(central tendency)和范圍限制等[17]。
在評(píng)分進(jìn)程中,諸多因素都可能影響評(píng)分員的行為表現(xiàn),其中包括個(gè)人因素、評(píng)卷環(huán)境的物理因素以及評(píng)分過程中的學(xué)習(xí)、質(zhì)量監(jiān)控和培訓(xùn)的延遲作用等。大規(guī)??荚嚨脑u(píng)卷過程短則持續(xù)數(shù)天,長(zhǎng)則持續(xù)數(shù)個(gè)星期;影響評(píng)分表現(xiàn)的諸多因素都會(huì)隨著時(shí)間、場(chǎng)合以及任務(wù)的變化而變化;相應(yīng)地,評(píng)分員的表現(xiàn)也會(huì)發(fā)生改變[3],從而引起評(píng)分者效應(yīng)的波動(dòng),即評(píng)分者漂移。
評(píng)分者漂移的定義也隨著研究進(jìn)程的發(fā)展而逐漸演變。早期研究認(rèn)為,評(píng)分者漂移源自于評(píng)分員使用評(píng)分細(xì)則的前后不一致[18]。隨著研究的推進(jìn),研究者認(rèn)識(shí)到評(píng)分員會(huì)“隨著時(shí)間進(jìn)程的推進(jìn)逐漸地、或多或少地展示出評(píng)分者效應(yīng)”,評(píng)分者漂移是“評(píng)分員隨著評(píng)卷時(shí)間進(jìn)程的推進(jìn)所發(fā)生的在評(píng)分表現(xiàn)上的差異性變化”[19]。實(shí)際上,在Wolfe等的最初提法中,評(píng)分者漂移的英文名稱DRIFT近似為Differential Reader Functioning over Time的首字母,意為評(píng)分員的跨時(shí)間功能差異[5]。評(píng)分者漂移也是多種評(píng)分者效應(yīng)波動(dòng)的總稱,如嚴(yán)厲度漂移、不準(zhǔn)確性漂移以及趨中效應(yīng)漂移等。
評(píng)分員的嚴(yán)厲度水平會(huì)隨著評(píng)卷進(jìn)程的推進(jìn)而變化:當(dāng)評(píng)卷過程持續(xù)較長(zhǎng)時(shí)間時(shí),評(píng)分員的平均評(píng)定可能在今天與明天、上午與下午,甚至試卷批次間發(fā)生波動(dòng),即評(píng)分員表現(xiàn)出嚴(yán)厲度漂移[6]。趨中效應(yīng)同樣會(huì)發(fā)生波動(dòng):隨著評(píng)卷進(jìn)程的推進(jìn),一些評(píng)分員會(huì)更加頻繁地使用量尺的中間類別,表現(xiàn)一種漸進(jìn)的范圍限制,即發(fā)生量尺類別使用的漂移[6]。不準(zhǔn)確性效應(yīng)也會(huì)隨著評(píng)卷進(jìn)程發(fā)生漂移:一方面,練習(xí)效應(yīng)使一些評(píng)分員變得更加準(zhǔn)確;另一方面,疲勞和厭倦也可能導(dǎo)致評(píng)分誤差隨著評(píng)卷進(jìn)程的推進(jìn)而上升。此外,一些評(píng)分項(xiàng)目還包含持續(xù)培訓(xùn)或階段性校正,這些做法也會(huì)導(dǎo)致不準(zhǔn)確性效應(yīng)發(fā)生變化[20]。
評(píng)分者漂移領(lǐng)域最受青睞的是嚴(yán)厲度效應(yīng),大部分研究均針對(duì)該效應(yīng)展開[3,18]。只有少數(shù)研究關(guān)注其他效應(yīng)的漂移[6,21-23]。研究表明,即使在相同評(píng)分環(huán)境下,不同評(píng)分員的評(píng)分表現(xiàn)也會(huì)隨著時(shí)間進(jìn)程的推進(jìn)出現(xiàn)不同的趨勢(shì)??偟恼f來,研究者已經(jīng)認(rèn)識(shí)到了評(píng)分者漂移研究的意義與價(jià)值,并進(jìn)行了一定規(guī)模的研究。這些研究的方法和結(jié)論對(duì)了解評(píng)分行為有所助益,盡管仍存在一些不盡人意之處。
早期研究多采用重復(fù)評(píng)定策略,借助評(píng)定間的分?jǐn)?shù)變化、相關(guān)分析和方差分析探查嚴(yán)厲度的跨時(shí)間變化[24]。隨后,Congdon等[3]基于多面Rasch模型(Many Faceted Rasch Model,MFRM)[25]和差異檢驗(yàn)方法檢測(cè)嚴(yán)厲度漂移;在此基礎(chǔ)上,Wolfe等拓展了一個(gè)監(jiān)控評(píng)分者漂移的通用框架,并用于檢測(cè)多個(gè)效應(yīng)的漂移[6,26]。此外,還有一些研究借助多水平模型檢測(cè)評(píng)分者漂移[23,27-28]。下文著重介紹傳統(tǒng)的檢測(cè)方法。
Wolfe等提出的通用框架將評(píng)分者漂移的監(jiān)控過程分為4個(gè)步驟:一是將評(píng)卷進(jìn)程劃分為時(shí)間片段,劃分基于評(píng)卷進(jìn)程的長(zhǎng)度和內(nèi)部特點(diǎn),相應(yīng)地可按星期、天,甚至小時(shí)進(jìn)行劃分。二是確定評(píng)分者效應(yīng)的指標(biāo),計(jì)算各時(shí)段的指標(biāo)值并進(jìn)行基線比較或相鄰比較。前者選擇一個(gè)時(shí)段作為參照,探查評(píng)分員在參照時(shí)段和目標(biāo)時(shí)段間的行為變化;后者則將某一時(shí)段與相鄰時(shí)段進(jìn)行比較,以偵測(cè)評(píng)分員在相鄰時(shí)段間的行為變化。兩者在本質(zhì)上屬于簡(jiǎn)單的差異顯著性檢驗(yàn);當(dāng)結(jié)果顯示差異顯著時(shí),即認(rèn)定存在評(píng)分者漂移。三是選擇刻畫評(píng)分者漂移的參照框架,可分為內(nèi)部參照框架和外部參照框架。內(nèi)部參照框架根據(jù)特定評(píng)分員與其他評(píng)分員的一致性程度來刻畫其表現(xiàn),適用于采用多重評(píng)定的評(píng)分程序;外部參照框架則根據(jù)評(píng)分員的評(píng)定與某外部標(biāo)準(zhǔn)(如客觀題分?jǐn)?shù)或?qū)<掖蚍郑┑囊恢滦猿潭葋砜坍嬈浔憩F(xiàn),適用于采用單一評(píng)定的評(píng)分程序。四是決定是否采用錨定策略以及是否使用全部數(shù)據(jù)建立鏈接。使用外部參照框架時(shí),要采用錨定策略,即用外部指標(biāo)固定某些參數(shù)值。若不采用錨定策略,則要使用全部數(shù)據(jù)建立量尺標(biāo)度[6]。
傳統(tǒng)Rasch模型可視為包含兩個(gè)面:個(gè)體能力和題目難度。事實(shí)上,個(gè)體在主觀題上的得分不僅取決于其能力和題目難度,還受到評(píng)分員嚴(yán)厲度和題目特定等級(jí)難度等因素的影響。有鑒于此,Linacre將傳統(tǒng)Rasch模型拓展為多面Rasch模型?;A(chǔ)的多面Rasch模型中只加入了一個(gè)評(píng)分員側(cè)面,其數(shù)學(xué)表達(dá)式為:
其中,πnrx和πnrx-1分別為個(gè)體n被評(píng)分員r評(píng)為等級(jí)x和x-1的概率;An為個(gè)體n的能力水平,即在潛在能力連續(xù)體上的位置;Sr為評(píng)分員r的嚴(yán)厲度;Tx為等級(jí)x相對(duì)于等級(jí)x-1的難度或閾限位置。
多面Rasch模型有幾種變式可用于處理評(píng)分者漂移。第一個(gè)變式中加入了一個(gè)時(shí)間側(cè)面,故稱為時(shí)間模型(the time facet model)[25],可用于探測(cè)評(píng)分員在不同時(shí)段間的整體變化。要直接估計(jì)評(píng)分員個(gè)體在每一時(shí)段的水平,則要用到分離模型(the separate model)[25]。時(shí)間模型也可以進(jìn)一步擴(kuò)展為交互作用模型(the interaction model)[25],模型中加入了評(píng)分員和時(shí)間的交互項(xiàng),表示評(píng)分員在每一時(shí)段對(duì)其總嚴(yán)厲度的偏離。
多面Rasch模型自誕生以來,廣泛用于主觀題的分?jǐn)?shù)等值、評(píng)分者效應(yīng)偵測(cè)、題目審定過程的質(zhì)量監(jiān)控和考試公平性研究等領(lǐng)域[2,8-9,11-13,20,26]。在評(píng)分者漂移的傳統(tǒng)檢測(cè)方法中,多個(gè)指標(biāo)直接源自或部分基于多面Rasch模型。
2.3.1 嚴(yán)厲度效應(yīng)
當(dāng)評(píng)分員打分具有持續(xù)低于或高于個(gè)體真實(shí)能力水平的傾向時(shí),就表現(xiàn)出嚴(yán)厲度或?qū)捤啥刃?yīng)[9,11,29]。對(duì)嚴(yán)厲度效應(yīng)的定義通常處于一定的測(cè)驗(yàn)理論框架下。如在項(xiàng)目反應(yīng)理論框架下,嚴(yán)厲度或?qū)捤啥刃?yīng)被定義為:相較于其他評(píng)分員,目標(biāo)評(píng)分員一致地給出偏低或者偏高的評(píng)定的傾向,前提是考慮該評(píng)分員所評(píng)的特定行為樣本的水平[13,20]。嚴(yán)厲度效應(yīng)的度量可直接使用經(jīng)典測(cè)量理論框架下的平均數(shù),當(dāng)然這只作為一種粗略的度量;更常見的做法是從評(píng)分者模型中直接獲得嚴(yán)厲度估計(jì),大多數(shù)評(píng)分者模型均直接給出了嚴(yán)厲度參數(shù),如多面Rasch模型的Sr等。
2.3.2 趨中效應(yīng)
范圍限制是指評(píng)分員未能使用整個(gè)量尺,將評(píng)定限制在量尺的某個(gè)范圍或區(qū)域內(nèi)[12,29]。當(dāng)分?jǐn)?shù)聚集在量尺中部時(shí),范圍限制一般也被稱為趨中效應(yīng),趨中效應(yīng)是范圍限制的一個(gè)特例[12,29]。趨中效應(yīng)并不影響量尺中段評(píng)定的準(zhǔn)確性和有效性,但會(huì)導(dǎo)致低端被試能力的高估和高端被試能力的低估。與嚴(yán)厲度效度不同,趨中效應(yīng)在多數(shù)評(píng)分者模型中并沒有直接指標(biāo),研究者為此開發(fā)了若干導(dǎo)出指標(biāo)。
探測(cè)范圍限制和趨中效應(yīng),最簡(jiǎn)單的指標(biāo)是原始分的標(biāo)準(zhǔn)差或方差[30]。一般說來,分?jǐn)?shù)向平均數(shù)集中且標(biāo)準(zhǔn)差較小意味著存在趨中效應(yīng)[31]。
多面Rasch模型的常用估計(jì)程序FACETS[32]給出的均方擬合指標(biāo)(fit indexes),也可用于探測(cè)趨中效應(yīng)。均方擬合指標(biāo)相當(dāng)于卡方統(tǒng)計(jì)量除以自由度,取值范圍為0~+∞。均方擬合指標(biāo)的值在0.50~1.50[10]或0.60~1.50[33]表明擬合度可以接受。當(dāng)存在趨中效應(yīng)時(shí),擬合統(tǒng)計(jì)量明顯小于1[31]。
基于模型考查趨中效應(yīng)還可計(jì)算殘差與期望值的相關(guān)(the expected-residual correlation,rres,exp)[4,31]。殘差與期望值的相關(guān)被稱為殘期相關(guān);當(dāng)存在趨中效應(yīng)時(shí),殘期相關(guān)為負(fù),趨近于-1;當(dāng)存在極端化傾向(趨中效應(yīng)的反面)時(shí),殘期相關(guān)為正,趨近于+1[4]。類似指標(biāo)還有殘差與模型分的相關(guān)(the correlation between ratee measures and modelbased residuals,rres,score)。殘差與模型分的相關(guān)被稱為殘模相關(guān),同樣可作為趨中效應(yīng)指標(biāo)。二者的區(qū)別在于分?jǐn)?shù)的單位,期望值的單位為logit,模型分的單位則為原始分?jǐn)?shù)單位[31]。
2.3.3 不準(zhǔn)確性效應(yīng)
不準(zhǔn)確性效應(yīng)指評(píng)分員的評(píng)分與個(gè)體真實(shí)能力間看似隨機(jī)的差異與分歧[4]。通常,評(píng)分者效應(yīng)強(qiáng)調(diào)對(duì)評(píng)分誤差的均衡的系統(tǒng)性貢獻(xiàn);與此不同的是,不準(zhǔn)確性效應(yīng)屬于非均衡性誤差,可以因時(shí)間、特質(zhì)、群體、被評(píng)價(jià)個(gè)體的不同而異[12],實(shí)際上對(duì)效度構(gòu)成更大的潛在威脅[8]。評(píng)分情境下的諸多因素均會(huì)導(dǎo)致不準(zhǔn)確性效應(yīng)出現(xiàn),如評(píng)分員對(duì)測(cè)驗(yàn)的內(nèi)容背景了解不充分,評(píng)分前未經(jīng)過充分培訓(xùn),具有不可改變的偏見等,主要原因都是評(píng)分員未掌握評(píng)分細(xì)則[31]。
不準(zhǔn)確性效應(yīng)同樣可借助殘期相關(guān)進(jìn)行偵測(cè)。Wolfe指出,當(dāng)存在趨中效應(yīng)時(shí),殘期相關(guān)為負(fù)向;當(dāng)存在不準(zhǔn)確性效應(yīng)時(shí),殘期相關(guān)接近零[4]。度量不準(zhǔn)確性效應(yīng)還可借助一個(gè)基于原始分的指標(biāo):他評(píng)相關(guān),即與其他評(píng)分員給分的相關(guān)(rSR-ROR)。相較準(zhǔn)確性較低的評(píng)分員,準(zhǔn)確性較高的評(píng)分員的他評(píng)相關(guān)指標(biāo)應(yīng)更高一些[12]。與他評(píng)相關(guān)類似的指標(biāo)是原模相關(guān)[31],即評(píng)分員所給原始分?jǐn)?shù)與模型估得的個(gè)體能力分?jǐn)?shù)間的相關(guān)(the score-measure correlation或the point-measure correlation,rscore,measure)。較高的正的原模相關(guān)說明評(píng)分員給分與被試能力估計(jì)間具有較強(qiáng)的一致性[31]。此外,均方擬合指標(biāo)可說明評(píng)分員能否對(duì)行為樣本進(jìn)行可信區(qū)分,因此可同時(shí)作為趨中效應(yīng)和不準(zhǔn)確性效應(yīng)的指標(biāo)。這兩個(gè)指標(biāo)的期望值均為1,大于1表明變異大于預(yù)期,即存在不準(zhǔn)確性效應(yīng)[33-34]。
傳統(tǒng)方法檢測(cè)嚴(yán)厲度漂移,首先要基于分離模型或交互作用模型[30]擬合得到分時(shí)段的嚴(yán)厲度指標(biāo),然后對(duì)不同時(shí)段的指標(biāo)進(jìn)行差異檢驗(yàn)。
當(dāng)基于分離模型擬合數(shù)據(jù)時(shí),可計(jì)算標(biāo)準(zhǔn)化差異指標(biāo)(Signed Area Index,SAI)探查嚴(yán)厲度漂移[6,35],用公式表示為:
其中,SAIrc表示標(biāo)準(zhǔn)化差異指標(biāo);c為待比較的時(shí)段,b為基線時(shí)段;Src和Srb指評(píng)分員r在時(shí)段c和b的嚴(yán)厲度估計(jì)。SAI的顯著性檢驗(yàn)主要借助Z檢驗(yàn)[6,35],用公式表示為:
其中,ZSAIrc表示標(biāo)準(zhǔn)化差異指標(biāo)的檢驗(yàn)值和表示在時(shí)段c和b的評(píng)分員嚴(yán)厲度估計(jì)的方差。ZSAIrc的正值表示評(píng)分員變得嚴(yán)厲,負(fù)值表示變得寬松。計(jì)算出ZSAIrc后,可將它與標(biāo)準(zhǔn)正態(tài)分布直接比較。一些學(xué)者建議將它看作效果量指標(biāo)(effect size indicator),數(shù)值大于0.50表示效應(yīng)有意義[36]。
擬合交互作用模型得到的交互項(xiàng)估計(jì)Irt可直接作為嚴(yán)厲度漂移指標(biāo),表示評(píng)分員在每一時(shí)段的嚴(yán)厲度對(duì)其自身平均嚴(yán)厲度的偏離。對(duì)該指標(biāo)可進(jìn)行Waldt-test檢驗(yàn),零假設(shè)為評(píng)分員在時(shí)段c對(duì)其總嚴(yán)厲度的偏離為0。當(dāng)樣本足夠大時(shí),可以將t值與Z分布直接比較,t值計(jì)算公式表示為:
一些研究使用標(biāo)準(zhǔn)化差異指標(biāo)探查嚴(yán)厲度漂移[15,18]。這個(gè)指標(biāo)的主要不足在于其分布未知。大多數(shù)研究者假設(shè),在零假設(shè)條件下標(biāo)準(zhǔn)化差異指標(biāo)服從標(biāo)準(zhǔn)正態(tài)分布[3,15,18]。另一些研究使用交互項(xiàng)指標(biāo)探測(cè)嚴(yán)厲度漂移[3,38]。此外,還有些研究對(duì)上述兩個(gè)指標(biāo)進(jìn)行比較,但并未得出一致結(jié)論[6]。
評(píng)分員所給分?jǐn)?shù)的標(biāo)準(zhǔn)差或方差可作為趨中效應(yīng)的粗略指標(biāo)。比較評(píng)分員在不同時(shí)段所做評(píng)定的方差,可用來說明是否存在趨中效應(yīng)漂移。方差的比較一般采用F檢驗(yàn),指標(biāo)計(jì)算公式表示為:
當(dāng)存在趨中效應(yīng)時(shí),源自FACETS程序的均方擬合指標(biāo)一般小于1。若評(píng)分員出現(xiàn)趨中效應(yīng)漂移,均方擬合指標(biāo)也會(huì)相應(yīng)變小。因此,均方擬合指標(biāo)在統(tǒng)計(jì)上顯著降低將指示這種量尺類別使用上的變化。均方擬合指標(biāo)近似符合卡方分布除以自由度,那么,兩個(gè)均方擬合指標(biāo)的比值應(yīng)近似地符合F分布,自由度分別等于各自的自由度。檢驗(yàn)值計(jì)算公式表示為:
其中,MSc和MSb分別為時(shí)段c和時(shí)段b的均方擬合指標(biāo)。評(píng)分員變異性的跨時(shí)間下降將導(dǎo)致均方擬合指標(biāo)的數(shù)值隨之下降,即Ffit小于1[6]。此外,F(xiàn)fit還可以用作不準(zhǔn)確性漂移的檢測(cè)指標(biāo),檢驗(yàn)原理與指標(biāo)計(jì)算公式相同。
在評(píng)分者效應(yīng)的指標(biāo)中,多個(gè)均為相關(guān)系數(shù),如度量不準(zhǔn)確性效應(yīng)的他評(píng)相關(guān)[12]和原模相關(guān)[31]、度量趨中效應(yīng)和不準(zhǔn)確性效應(yīng)的殘期相關(guān)[4,31]以及度量趨中效應(yīng)的殘模相關(guān)[31]等。對(duì)于這類指標(biāo),要先將相關(guān)系數(shù)轉(zhuǎn)化為Fisher-Z函數(shù),再進(jìn)行Z檢驗(yàn)。如對(duì)于他評(píng)相關(guān),轉(zhuǎn)換公式與檢驗(yàn)指標(biāo)計(jì)算公式表示為[6]:
其中,ZrSR-RORc與ZrSR-RORb分別為在時(shí)段c和b的他評(píng)相關(guān)的Fisher-Z函數(shù)轉(zhuǎn)換值。Nc和Nb分別為ZrSR-RORc與ZrSR-RORb所基于的評(píng)定數(shù)。其他幾個(gè)相關(guān)系數(shù)類指標(biāo)的檢驗(yàn)同理。
利用差異檢驗(yàn)法偵測(cè)評(píng)分者漂移,優(yōu)點(diǎn)是簡(jiǎn)單明了,可以遵循現(xiàn)成的統(tǒng)計(jì)原理;不足在于每次只能比較兩個(gè)時(shí)段,難以縱覽評(píng)分者漂移的全貌。此外,當(dāng)劃分時(shí)段較多時(shí),比較數(shù)量也隨之增加;多重比較的Ⅰ類錯(cuò)誤率也會(huì)相應(yīng)地呈指數(shù)增長(zhǎng)。在這種情況下須對(duì)Ⅰ類錯(cuò)誤率進(jìn)行校正[27]。
針對(duì)評(píng)分者效應(yīng)和漂移,前人做了大量的研究。這些研究著眼于諸多評(píng)分者效應(yīng),基于不同的研究方法,在一定程度上揭示了評(píng)分者效應(yīng)和漂移的機(jī)制以及負(fù)面影響。令人遺憾的是,評(píng)分者效應(yīng)和漂移領(lǐng)域的大部分研究均針對(duì)有限的評(píng)分周期、有限的評(píng)分員樣本以及有限的評(píng)分者效應(yīng)展開。
結(jié)合現(xiàn)有研究的不足,對(duì)未來研究的可能方向加以展望:
首先,評(píng)分者效應(yīng)和漂移領(lǐng)域目前大部分研究均采取心理測(cè)量取向,重視評(píng)分者模型的開發(fā),并不關(guān)注效應(yīng)產(chǎn)生的認(rèn)知過程。事實(shí)上,研究評(píng)分者效應(yīng)和漂移,除了心理測(cè)量取向外,還可以著眼于認(rèn)知過程,通過構(gòu)筑認(rèn)知模型,厘清評(píng)分過程中的不同要素的作用及關(guān)系[14,17,39]。在評(píng)分者效應(yīng)領(lǐng)域,兩個(gè)取向的研究目前基本處于分離狀態(tài)。然而,評(píng)分行為的外在表現(xiàn)和內(nèi)在認(rèn)知過程是難以分割的有機(jī)整體。只有將認(rèn)知過程和心理測(cè)量有效融合,才能真正揭示外在差異背后的深層次心理原因,從而實(shí)現(xiàn)對(duì)評(píng)分者效應(yīng)和漂移的有效鑒別與控制,最終保證行為表現(xiàn)測(cè)量的信度、效度和公平性。
其次,評(píng)分者效應(yīng)和漂移研究方法相對(duì)單一,過于倚重差異檢驗(yàn)方法,并未考慮多重評(píng)分策略導(dǎo)致的數(shù)據(jù)層級(jí)性。多次差異檢驗(yàn)不僅易導(dǎo)致I類錯(cuò)誤率增加,而且很難反映評(píng)分員的整體趨勢(shì)變化。目前,評(píng)分者漂移的研究主要基于多面Rasch模型和差異檢驗(yàn)方法。傳統(tǒng)方法有其優(yōu)勢(shì),也存在明顯的不足。相較而言,借助適合數(shù)據(jù)結(jié)構(gòu)特點(diǎn)的多水平模型偵測(cè)評(píng)分者漂移,不失為一種可行方法。評(píng)分者漂移在測(cè)量領(lǐng)域并不屬于熱點(diǎn)主題,目前多水平方面的應(yīng)用尚處于起步階段,在效應(yīng)變量的選取、時(shí)間變量的加入、模型的細(xì)節(jié)設(shè)置方面都有待深入研究。這些探索將有助于提升評(píng)分者漂移檢測(cè)的效度和效率。
第三,評(píng)分者效應(yīng)的大部分研究、評(píng)分者漂移的絕大部分研究均針對(duì)嚴(yán)厲度效應(yīng)進(jìn)行,只有極少數(shù)研究關(guān)注其他效應(yīng)[6]。而且,大多數(shù)研究均基于英語作文評(píng)分背景下的有限評(píng)分員樣本,嚴(yán)重制約了結(jié)論的外部效度。不僅很少有研究關(guān)注高利害性大規(guī)模教育考試的真實(shí)評(píng)分過程,而且較大樣本的多種評(píng)分者效應(yīng)的整合研究在國內(nèi)外都是稀缺的。事實(shí)上,統(tǒng)計(jì)無法從根本上消除評(píng)分者效應(yīng)和漂移。對(duì)于評(píng)分者漂移的調(diào)控,認(rèn)識(shí)到其存在以及危害性僅僅是一個(gè)開端,更重要的是從評(píng)分設(shè)計(jì)入手,在評(píng)分過程中尋求解決方案。研究評(píng)分過程和評(píng)分設(shè)計(jì)的改進(jìn),在研究設(shè)計(jì)上要綜合考慮各方面因素,加入足夠的評(píng)分員變量,綜合多種評(píng)分者效應(yīng),實(shí)現(xiàn)對(duì)評(píng)分過程的全面刻畫。在此基礎(chǔ)上采取恰當(dāng)?shù)慕y(tǒng)計(jì)解決方案,才能在效應(yīng)發(fā)生后進(jìn)行有效的事后補(bǔ)救。