賀滿足
(湖南第一師范學(xué)院外語系,湖南 長沙 410205)
多層面Rasch模型分析寫作測試中評(píng)卷者的偏差性*
賀滿足
(湖南第一師范學(xué)院外語系,湖南 長沙 410205)
運(yùn)用多層面Rasch模型探討寫作測試中評(píng)卷者的評(píng)分一致性、嚴(yán)厲程度及與考生的交互作用。發(fā)現(xiàn)評(píng)卷者在評(píng)分過程中嚴(yán)厲程度一致,但評(píng)卷者之間有顯著差別;評(píng)卷者與某些考生之間存在顯著的交互作用,但偏差情況各不相同,且交互作用模型也不明確。由此可以看出,評(píng)分者是寫作測試中的一個(gè)重要變量,在高風(fēng)險(xiǎn)的考試中,評(píng)分者必須接受嚴(yán)格的培訓(xùn)并且認(rèn)真參與試評(píng),以便最大程度地保證考試的公平性。
多層面Rasch模型;寫作測試;評(píng)分者;偏差性
現(xiàn)在的英語寫作考試主要采用主觀題型,要求考生根據(jù)要求完成一定的綜合性任務(wù)以顯示其所學(xué)的知識(shí)或技能,因而一些專家將其稱之為做事測試。Brown&Hudson認(rèn)為,基于做事的測試可以采取多種方法,如寫作、訪談等。做事測試對心理測量學(xué)家、試卷設(shè)計(jì)者、研究者提出了挑戰(zhàn),要求他們設(shè)計(jì)出一些情景,從中得到一些證據(jù),以此推斷學(xué)生的語言能力。做事測試為產(chǎn)出型能力測試,涉及試題(任務(wù)),考生的表現(xiàn)、考生的能力和個(gè)人特點(diǎn),評(píng)分量表、測試的能力、評(píng)卷者等。這些層面的關(guān)系可以用圖1所示的模型來表示。
圖1 做事測試模型
Rasch模型是一種單參數(shù)項(xiàng)目反應(yīng)理論模型,用來分析多項(xiàng)選擇題中試題的難度和考生的能力。多層面Rasch模型則是一種延伸,用來分析主觀試題。它可以實(shí)現(xiàn)在同一個(gè)羅基量表上分析主觀測試中考生能力、任務(wù)難度、評(píng)卷者的嚴(yán)厲度(以logit為單位顯示)及評(píng)分量表的準(zhǔn)確度等層面的表現(xiàn)以及相互間的交互作用,同時(shí)還可判斷各層面的成員之間是否有顯著差異,如評(píng)卷人嚴(yán)厲程度的差別等。此外,也可以對每個(gè)層面進(jìn)行Rasch模型擬和分析。很多研究利用這個(gè)模型來分析諸如寫作和口語等做事測試,如王躍武等研究了網(wǎng)上作文評(píng)卷的信度;李清華、孔文利用多層面Rasch模型分析了TEM-4寫作新分項(xiàng)式評(píng)分標(biāo)準(zhǔn)的評(píng)分質(zhì)量。
本文探討英語作文測試中評(píng)卷者的評(píng)分情況。具體而言,回答兩個(gè)問題:
(1)評(píng)分中,評(píng)卷者的總體嚴(yán)厲程度如何?
(2)評(píng)卷者是否對某些考生過于嚴(yán)厲或?qū)捤?如果是,評(píng)卷者/考生是如何交互作用的?
37個(gè)英語專業(yè)二年級(jí)學(xué)生參加試驗(yàn),從7個(gè)班級(jí)隨機(jī)挑選。研究要求學(xué)生就要求的題目寫一篇200字左右的議論文。為避免因書寫問題影響評(píng)分,所有的手寫稿都一字不改地打印出來,且不含任何個(gè)人信息。閱卷者使用的評(píng)分量表為Jacobs等人于1981年制定的分析法評(píng)分量表,包括內(nèi)容、詞匯、語法、語言組織和技巧(如大小寫,標(biāo)點(diǎn)等)5個(gè)層面,每個(gè)層面具有相同權(quán)重,分1到5五個(gè)級(jí)別。前測結(jié)果表明,該評(píng)分標(biāo)準(zhǔn)能夠確保評(píng)分者評(píng)分時(shí)前后一致。評(píng)卷前4位評(píng)卷老師參加了培訓(xùn)以熟悉評(píng)分標(biāo)準(zhǔn)和評(píng)卷的注意事項(xiàng),并進(jìn)行試評(píng);待評(píng)卷者充分掌握評(píng)分標(biāo)準(zhǔn)后,開始正式評(píng)分。
可靠性分析顯示,整個(gè)評(píng)分的Cronbach系數(shù)為 .913,表明評(píng)卷者之間的評(píng)分具有較好的一致性。FACETS分析顯示考生的寫作能力相差很大:水平最高的考生能力測量值為3.6 logits作用,而水平較低的考生的測量值為-2.1logits。下面主要分析評(píng)卷者的嚴(yán)厲程度與及考生之間的交互作用。
(一)評(píng)卷者
評(píng)卷者的表現(xiàn)可以從嚴(yán)厲程度和評(píng)分的內(nèi)部一致性來分析。FACETS分析顯示:四個(gè)評(píng)卷者的嚴(yán)厲程度相差1.72 logits(-0.64-1.08),2號(hào)評(píng)卷者最為嚴(yán)格(1.08 logits)。分隔指數(shù)信度(reliability of separation index)為.98,表明評(píng)卷者的嚴(yán)厲程度有很大的差異,這種差異是否有顯著意義的區(qū)別可以通過卡方檢驗(yàn)來驗(yàn)證。卡方檢驗(yàn)結(jié)果顯示卡方值為140.9,顯著性p=.00,表明評(píng)卷者評(píng)分的嚴(yán)厲程度有顯著意義的差別。這與大多數(shù)的研究結(jié)果相似。盡管評(píng)卷時(shí)對評(píng)卷者進(jìn)行了較為系統(tǒng)、全面的培訓(xùn),但嚴(yán)厲度差異仍然存在。這意味著對評(píng)卷人的培訓(xùn)對提高評(píng)卷的內(nèi)部一致性很有幫助,但不一定能很好地縮小評(píng)卷者之間的差異。
評(píng)卷者之間的差異有多方面的原因。例如,長時(shí)間的評(píng)卷,評(píng)卷者會(huì)感到疲倦,注意力不集中;評(píng)卷者有自己的偏好,對考生的期望度也不盡相同;對評(píng)分標(biāo)準(zhǔn)的理解有時(shí)會(huì)受自己個(gè)人信仰的影響;在分?jǐn)?shù)的把握上會(huì)有所不同。因此評(píng)卷者之間存在主觀上的差異,相同評(píng)卷者在不同的時(shí)間內(nèi)也具有不穩(wěn)定性,在評(píng)分的準(zhǔn)確性、嚴(yán)厲度等方面,同一評(píng)卷者難以在多次評(píng)分中保持一致,不同評(píng)卷者對于相同被試的評(píng)分也難以相同。
評(píng)卷者評(píng)分的相對一致性可以通過評(píng)卷者的擬和統(tǒng)計(jì)分析來檢驗(yàn)。Infit MnSq為加權(quán)的均方擬和統(tǒng)計(jì)量,可接受的取值范圍介于平均值+2個(gè)標(biāo)準(zhǔn)差之間。如果評(píng)卷人評(píng)卷的一致性很差(表現(xiàn)為很高的擬和值,通常是高于平均值+2個(gè)標(biāo)準(zhǔn)差),那么評(píng)卷者就需要重新培訓(xùn)或者予以更換。如果觀察值和預(yù)測值的差異比模型預(yù)測的更小(表現(xiàn)為較低的擬和值),則表明此評(píng)卷者較為寬容,評(píng)分中可能沒有使用全部的分?jǐn)?shù)段,評(píng)分也沒能區(qū)分出考生之間的差異。那么評(píng)卷者要重新參加培訓(xùn)。FACETS分析結(jié)果顯示,四個(gè)評(píng)卷者的評(píng)分都在可以接受的范圍之內(nèi)(0.71-1.27),說明評(píng)卷者的嚴(yán)厲程度雖然不同,但具有內(nèi)部一致性,因而評(píng)分是可靠的。
同時(shí),此次測量的誤差平均值為.11,進(jìn)一步說明該評(píng)分比較準(zhǔn)確。
(二)偏差分析:評(píng)卷者與考生的交互作用
偏差分析可以找出各個(gè)層面之間交互作用的模型。當(dāng)Z值大于2.0或小于-2.0時(shí)(低于 -2.0表示評(píng)卷者對此考生更寬容;高于2.0表示評(píng)卷者對此考生生更嚴(yán)厲),說明該偏差有顯著意義。分析結(jié)果顯示,140個(gè)交互作用組合中,15個(gè)有顯著偏差,且呈不均勻分布(1號(hào)評(píng)卷者與1個(gè)考生,2號(hào)評(píng)卷者與7個(gè)考生,3號(hào)評(píng)卷者與5個(gè)考生,4號(hào)評(píng)卷者與2個(gè)考生)。同時(shí),評(píng)卷者之間的偏差情況不相同(表現(xiàn)為3號(hào)評(píng)卷者與寫作能力最差的4號(hào)考生有顯著的交互作用,其他3個(gè)評(píng)卷者與寫作能力為中等或以上的考生發(fā)生交互作用),且與考生的交互作用模型不很明確(即這些考生的寫作能力差異較大)。這表明,應(yīng)加強(qiáng)對評(píng)卷者評(píng)判極端水平作文的培訓(xùn)。同時(shí)也說明,由于這類水平的作文數(shù)量有限,多層面Rasch模型不能進(jìn)行多次標(biāo)定,因而無法準(zhǔn)確地測量這類考生的寫作能力。
對于顯著偏差的原因,需要進(jìn)一步的定性研究來了解那些作文的深層次特點(diǎn)以及評(píng)卷者評(píng)分時(shí)的思維過程(thinkaloud protocol)。此外,對評(píng)卷者更深入的培訓(xùn)以及更詳盡的評(píng)分說明也能減少這種差異。但Bonk和Ockey指出,不管怎么培訓(xùn),評(píng)分說明如何詳盡,只能降低其程度,不能完全消除其差異。
四位評(píng)卷者的均方擬和統(tǒng)計(jì)值(.1和1.3之間)都在可以接受的范圍內(nèi)(0.6+2×0.5),且每份試卷由四位評(píng)卷者進(jìn)行評(píng)判,因而評(píng)卷者嚴(yán)厲度的差異以及對少數(shù)考生評(píng)分的偏差并不會(huì)對整個(gè)評(píng)分的可信度產(chǎn)生較大的負(fù)面影響。
已有的一些研究通過計(jì)算α值估計(jì)評(píng)卷者的內(nèi)部一致性,沒能進(jìn)一步討論評(píng)卷者的嚴(yán)厲度以及評(píng)卷者與考生等層面的交互影響。雖然通過t檢驗(yàn)和方差分析也能了解評(píng)分者嚴(yán)厲度的差異,但不能顯示層面間的交互作用。多層面Rasch模型卻能提供這些信息,且能找到一些具體問題。通過多層面分析得知,本次評(píng)分中評(píng)卷者有較好的前后一致性。然而,評(píng)卷者的嚴(yán)厲度還存在顯著差異。這一發(fā)現(xiàn)和Weigle(1998)的研究結(jié)果類似,即培訓(xùn)能夠幫助評(píng)卷者給出可以預(yù)測到的分?jǐn)?shù)(評(píng)卷者內(nèi)在效度),但不一定能夠很好地使不同評(píng)卷者給出相同的分?jǐn)?shù)(評(píng)卷者間的信度)。因此,在寫作測試中,可以采取增加題目數(shù)量的辦法來提高考試分?jǐn)?shù)的可信度。
以上分析表明評(píng)卷者的嚴(yán)厲程度有顯著差別,且評(píng)卷者與某些考生之間存在顯著的交互作用,但每個(gè)評(píng)卷者與考生的交互作用模型不相同且不明確。這說明不同評(píng)卷者的嚴(yán)厲程度不相同,同一評(píng)卷者的嚴(yán)厲程度也不是一成不變的。這對外語教學(xué)和測試有一定的啟示作用,即評(píng)分者是影響寫作測試效度的一個(gè)重要變量。在高風(fēng)險(xiǎn)的考試中,如高考和大學(xué)英語等級(jí)考試,測試的目的是對每一篇文章進(jìn)行準(zhǔn)確評(píng)分,那么評(píng)分者之間的一致性顯得至關(guān)重要,因而評(píng)分者必須接受嚴(yán)格的培訓(xùn)并且認(rèn)真參與試評(píng),以便最大程度地保證考試的公平性。
此外,多層面Rasch模型在做事測試非常有用。通過分析評(píng)卷者、考生等層面的表現(xiàn)以及兩者之間的交互作用,可以幫助了解評(píng)卷者的態(tài)度以及對評(píng)分標(biāo)準(zhǔn)的掌握情況,并及時(shí)把這些信息反饋給他們,以保證評(píng)分的一致性;對學(xué)生層面的分析可以幫助老師了解學(xué)生的表現(xiàn),從而采取相應(yīng)的措施幫助提高他們的寫作能力??傊?,多層面Rasch模型能夠?yàn)橥庹Z教學(xué)和測試提供許多非常有用的信息,在以后的研究中可以廣泛應(yīng)用。
[1]Bonk W J,Ockey G L.A many-facet Rasch analysis of the second language group oral discussion task[J].Language Testing,2003,20(1):89-110.
[2]Eckes T.Rater types in writing performance assessments:A classification approach to rater variability[J].Language Testing.2008,(25):155-185.
[3]McNamara T F.Measuring second language performance[M].New York:Longman,1996.
[4]劉建達(dá).話語填充測試方法的多層面Rasch模型分析[J].現(xiàn)代外語,2005,(28):157 -168.
[5]劉建達(dá).做事測試的信度和效度的Rasch模型分析[J].外語藝術(shù)教學(xué)研究,2007,(4):3-10.
[6]劉建達(dá),楊滿珍.做事測試評(píng)卷中的質(zhì)量控制[J].外語電化教學(xué),2010,(1):26 -32.
[7]李清華,孔文.TEM-4寫作新分項(xiàng)式評(píng)分標(biāo)準(zhǔn)的多層面Rasch模型分析[J].外語電化教學(xué),2010,(1):19-25.
2011-01-14
賀滿足(1980-),女,湖南衡陽人,講師,碩士。