陳建林
大規(guī)模英語考試作文評分標(biāo)準效度驗證
陳建林
本研究收集評分員對130篇大學(xué)專業(yè)英語八級考試(TEM-8)作文的評分數(shù)據(jù),采用多面Rasch模型分析法以及有聲思維法收集證據(jù)對TEM-8作文評分標(biāo)準進行了多維度效度驗證。結(jié)果表明,評分標(biāo)準大體上能夠反映寫作理論構(gòu)念,評分尺度劃分較為合理;大部分評分員能夠有效使用評分標(biāo)準進行評分,可信度較高。
多面Rasch模型;有聲思維法;評分標(biāo)準;效度驗證
在語言測試中,制定或者選擇什么樣的評分標(biāo)準對于由評分員判定結(jié)果的行為測試(performance assessment)來說十分重要。Weigle(2002)在總結(jié)McNamara(1996)關(guān)于評分標(biāo)準的重要性時指出,“為寫作能力行為測試所制定的評分標(biāo)準,以顯性或隱性的方式,體現(xiàn)了測試設(shè)計所依據(jù)的理論基礎(chǔ)”。行為測試曾經(jīng)一度不被大范圍采用,其中一個主要原因就是主觀評判的可信度受到了極大的質(zhì)疑??梢姡绾翁岣咴u分效度是行為測試的關(guān)鍵所在,而衡量評分效度的一個重要參數(shù)就是評分標(biāo)準效度(Shaw,2007)。大學(xué)英語專業(yè)八級考試(TEM-8)是用來檢查大學(xué)英語專業(yè)教學(xué)質(zhì)量的一項規(guī)模較大、風(fēng)險性較高的考試。因此,如何提升考試的公平性是考試設(shè)計者和開發(fā)者的一項重要任務(wù)。提升TEM-8考試公平性的措施之一就是保證評分效度(鄒申,2011),因此有必要從多方面收集證據(jù)對TEM-8作文考試的評分標(biāo)準進行效度驗證。本文采用多面Rasch模型分析法以及有聲思維法(TAPs)收集證據(jù)對TEM-8作文評分標(biāo)準進行效度驗證。
作文評分標(biāo)準的效度研究在近20年來取得了較大發(fā)展,研究主要集中在兩個領(lǐng)域。一是對不同類型的評分標(biāo)準及其對測試結(jié)果影響的研究。比如,F(xiàn)reedman(1979)的研究發(fā)現(xiàn),專業(yè)寫作者的作文和大學(xué)生的作文在采用分項式評分(analytic scor?ing)時的結(jié)果表現(xiàn)出一定差異,然而采用整體式評分(holistic scoring)卻并無差別。Hamp-Lyons(1995)認為整體式評分適合第一語言寫作,而對于第二語言寫作來講,分項式評分則更具有信度和效度。Carr(2000)認為采用不同的評分方式會影響對分數(shù)的解釋,原因在于整體式評分結(jié)果只對一種構(gòu)念提供了證據(jù),而分項式評分的結(jié)果則是多重構(gòu)念證據(jù)的集合。對評分標(biāo)準效度研究的另外一個領(lǐng)域是評分員在評分過程中如何理解和運用評分標(biāo)準。DeRemer(1998)在分析了三位經(jīng)驗豐富的評分員評分時的有聲思維數(shù)據(jù)后認為,評分員利用評分標(biāo)準對作文作出評價的過程是一個問題解決的過程(Anderson,1990),評分員的目的就是要依靠標(biāo)準所給出的提示對作文質(zhì)量作出判斷。在這個過程中,評分員需要將標(biāo)準中抽象的文字表達內(nèi)化為概念,因而,運用評分標(biāo)準對作文作出評判的過程是一種行為建構(gòu)過程(DeRemer,1998)。Lumley(2002,2005)采用有聲思維法研究了四位經(jīng)驗豐富的評分員對評分標(biāo)準的運用,研究發(fā)現(xiàn)評分結(jié)果是評分員對作文的整體印象、文本特征以及評分標(biāo)準的表述三者之間進行折中的結(jié)果。Lumley進一步指出,評分標(biāo)準并不能涵蓋所有評分過程中出現(xiàn)的事件,這就迫使評分員采用各種各樣的評分策略來處理這些事件。與此相似,Barkaoui(2008)的研究發(fā)現(xiàn),不同的評分方法以及評分員的經(jīng)驗均會對評分結(jié)果產(chǎn)生影響。
從研究方法上來看,近年來有兩種方法在評分過程以及評分標(biāo)準的研究中得到了較多的運用:一種是多面Rasch模型(Multi-Facets Rasch Model,MFRM)(Linacre,2010),另一種是有聲思維法(Think-aloud Protocols,TAPs)(Ericsson and Simon, 1993)。前者屬于定量分析方法,是項目反應(yīng)理論的運用,采用這種方法可以將評分員評分的嚴厲與寬松程度、受試能力的高低、測試項目的難易度、評分標(biāo)準各個尺度的難易度以及其他影響評分效度的因素在同一刻度標(biāo)準下展現(xiàn)出來,因而被許多研究者所采用(Bachman,1995;Weigle,1998;Eckes, 2008;Zhang,2011;劉建達,2010;李航,2011)。TAPs用于作文評分過程研究有許多優(yōu)勢,比如,與訪談和問卷相比,它能反映出評分員實際上在做什么、在思考什么,而不是他們認為自己做了什么,或思考了什么(Huot,1993)。然而TAPs也存在一些不足,除了數(shù)據(jù)收集、標(biāo)注分析過程繁瑣之外,對它的批評主要有兩個方面:真實性和反作用性(Barka?oui,2011),即有聲思維并不能全面反映受試的思維過程,以及有聲表達會改變受試的思維方式。盡管有研究表明TAPs的確存在以上所說的不足,但是這并不能否定它在作文評分過程研究中的運用(Barkaoui,2011)。相反,TAPs在評分效度研究方面大有用途,例如,可以用來分析評分員在評分過程中的關(guān)注點(Vaughan,1992;Connor&Carrell, 1993);用來調(diào)查在評分過程中經(jīng)驗豐富的評分員與新手之間所表現(xiàn)出的差異(Huot,1998;Wolfe, 1998);用來研究評分員背景對評分過程以及評分標(biāo)準使用的影響(Smith,2000;Erdosy,2004);用來描述評分過程并建立評分過程模型(Cumming, 2002;Lumley,2005)等。
盡管有關(guān)評分效度的研究有了較大發(fā)展,但這些研究大多選取理想中的評分員作為研究對象,而大規(guī)模考試環(huán)境下的評分員背景卻相差較大,以隨機抽取的真實評分環(huán)境下的評分員作為研究對象則更具有代表性。更重要的是,TEM-8評分標(biāo)準與以往研究中的評分標(biāo)準有所不同,比如Lumley(2005)研究中的step考試中的寫作評分所使用的評分標(biāo)準對每一個分數(shù)段都進行了相應(yīng)的文本特征描述,描述盡量做到簡潔和避免使用元語言詞語,而TEM-8評分標(biāo)準則只列出了較為詳細的評分關(guān)注點,并未對各分數(shù)段的文本特征進行描述。另外,以往研究中效度證據(jù)收集的方式比較單一,將對分數(shù)的定量分析證據(jù)與對評分員的定性分析證據(jù)結(jié)合起來的研究較少。
本研究將以真實作文評分環(huán)境下的評分員為研究對象,采用定性與定量相結(jié)合的方法,收集證據(jù)對TEM-8評分標(biāo)準進行效度驗證。主要研究問題有:(1)評分員能否較好地運用評分標(biāo)準?(2)評分標(biāo)準與評分員之間的互動是怎樣的?
3.1 TEM-8評分標(biāo)準
TEM-8評分標(biāo)準共有三個維度:思想與表達、語言運用能力和寫作規(guī)范。思想與表達又包含思想內(nèi)容、表達效果和篇章組織結(jié)構(gòu)三個次維度;語言運用能力包括準確性、豐富性和得體性三個次維度。評分標(biāo)準中的評分范圍分別是,思想內(nèi)容1~10分,有優(yōu)秀、良好、一般、較差、極差五個分數(shù)段;語言運用1~8分,也分為五個分數(shù)段;寫作規(guī)范0.5~2分,分為優(yōu)秀、良好、一般、較差四個分數(shù)段。需要說明的是,由于寫作規(guī)范的評分出現(xiàn)了小數(shù)點,為方便Facets分析,分析前給每個評分都乘以2,這樣就避免了小數(shù)點的出現(xiàn),但分析結(jié)果不會受到影響。
3.2 評分員及試卷選取
本研究從TEM-8作文評分員中隨機選取13位評分員,其中男性3人,女性10人,年齡在27歲到42歲之間,有1人為助教,9人為講師,3人為副教授,其中6位具有TEM-8評分經(jīng)驗,7人為首次參加TEM-8作文評分。請語言測試專家憑經(jīng)驗從學(xué)生作文中挑選10份能夠代表不同水平學(xué)生的作文,分別讓這13位評分員進行了模擬評分。為避免順序效應(yīng),在給每位評分員發(fā)放作文時次序是打亂的。評分員內(nèi)部一致性分析顯示Cronbach α系數(shù)為0.91,表明評分員評分的相關(guān)度很高。
3.3 數(shù)據(jù)收集步驟
第一步,采用有聲思維法進行評分。整個過程基本按照Ericsson and Simon(1993)所要求的步驟進行,即先對評分員進行培訓(xùn),然后讓他們在熟悉安靜的環(huán)境下獨立進行評閱,并要求他們將評分過程中的思維活動表達出來,然后進行錄音,每篇作文評分的錄音長度從3分鐘到5分鐘不等。第二步,錄音結(jié)束后,筆者對其中10位進行了面對面的訪談,并進行了錄音。第三步,考慮到工作量,筆者從13位評分員中選取6位,將其錄音進行轉(zhuǎn)寫,并設(shè)計標(biāo)注體系進行標(biāo)注。第四步,在初步分析轉(zhuǎn)寫數(shù)據(jù)后又針對聲音不清楚的地方對評分員進行了電話訪談。
3.4 有聲思維標(biāo)注
按照學(xué)者(Huot,1988;Green,1997)的觀點,有聲思維數(shù)據(jù)的分類及標(biāo)注體系應(yīng)當(dāng)與研究環(huán)境相適應(yīng)。本研究所關(guān)注的問題是評分員對評分標(biāo)準的使用,因此,根據(jù)評分標(biāo)準的各個維度制定了標(biāo)注體系,然后對6位評分員的有聲思維轉(zhuǎn)寫數(shù)據(jù)進行了標(biāo)注。為檢驗標(biāo)注的信度,筆者同時請另一位有經(jīng)驗的教師對隨機抽取的30句命題句進行了標(biāo)注,標(biāo)注結(jié)果與筆者之間的相關(guān)系數(shù)達到了0.86。轉(zhuǎn)寫后的小句與本研究有關(guān)的共計736句,每小句標(biāo)注一次,標(biāo)注總數(shù)736次。
3.5 數(shù)據(jù)分析
數(shù)據(jù)收集完成后,利用Facets3.5軟件對13位評分員的評分情況進行定量分析,再利用QSR Nvi?vo8.0定性分析軟件對有聲思維數(shù)據(jù)進行編碼、標(biāo)注、統(tǒng)計,然后結(jié)合訪談錄音對評分員使用評分標(biāo)準的情況進行定性分析。
4.1 多面Rasch模型結(jié)果及分析
首先,從Facets運行結(jié)果來說(見圖1),所有作文的水平刻度均分布在-3.00到3.00之間,差距較大,但是分布比較均勻,基本代表了受試寫作水平的各個層次,與專家們選取作文時的設(shè)想一致。大部分評分員的嚴厲刻度都集中在0.00附近,只有一位評分員接近2.00,說明這位評分員評分比較嚴厲,其他評分員評分比較適中。從評分標(biāo)準的難易度來看,三個維度難易程度相差不大,都在0.00附近,但是相對來講書寫規(guī)范得分稍微容易一些。這說明,從整體情況來看,評分員的評分結(jié)果較為理想。
圖1 評分層面圖
再來看各分數(shù)段統(tǒng)計數(shù)據(jù),以“思想與表達”維度為例(見表1),從不同分數(shù)段的評分分布來看,總體成正態(tài)分布,評分最多的比例不超過25%,這說明評分員的評分未呈現(xiàn)過于集中或過于分散的狀況。再來看各分數(shù)段的平均測量值(Avge Means),總體從上到下依次呈遞增趨勢,而且除了觀測值為4的遠合指數(shù)(Outfit MnSq)為1.7之外,其余的值均不高于1.0,且分數(shù)段的間隔基本上都在1.00 logit左右,不超過3.00 logits,比較均勻,再次說明評分沒有出現(xiàn)過于集中或分散狀況。但是,在“思想與表達”這個維度的兩極出現(xiàn)了平均測量值不成遞增的趨勢(用*號標(biāo)出),即觀測值為6的平均測量值(-3.16)低于觀測值為4的平均測量值(-3.01),觀測值為20的平均測量值(2.86)也低于觀測值為18的平均測量值(2.93),說明這四個分數(shù)段的劃分不合理,應(yīng)該將高分段合并到低分段去(Linacre, 1997)。但需要說明的是,由于評分員和受試人數(shù)較少,在分數(shù)段兩極出現(xiàn)的不規(guī)則情況也許與統(tǒng)計量較少有關(guān),這一點還得進一步去驗證。但是,總體來看,“思想與表達”這個維度的分數(shù)段分配是合理的。其他兩個維度的分類統(tǒng)計數(shù)據(jù)均顯示評分未出現(xiàn)過分集中或過分分散的情況,而且分數(shù)段的分配也比較合理,限于篇幅,不再列表詳細討論。
從分數(shù)段的概率曲線圖來看(見圖2),各個分數(shù)段的曲線均呈現(xiàn)出峰狀,也就是說,從左往右,隨著受試能力從一個刻度到相鄰刻度的過渡,受試得到下一個較高分數(shù)的概率也在增大。比如在-6.0 logits時受試得到4分的概率很大,而得到6分的概率則較低,然而隨著刻度向右,得4分的概率不斷降低,而得6分的概率則在上升,到-3.0 logits的時候,得4分的概率便沒有得6分的概率那么高了。這再一次說明評分標(biāo)準的分數(shù)段分配是合理的。
再來看評分員評分情況,表2的第一列是每位評分員觀測分數(shù)總和,第二列是評分員測量值,越往上端表示評分越寬松,越往下端表示越嚴厲。除5號評分員(R5)之外,其他評分員的Logit值都在-0.58到0.33之間,說明R5(1.69 logits)的評分相對來說要嚴厲得多。再來看評分員擬合度值(Infit MnSq)。理想的擬合度值應(yīng)該為1,取值范圍從0到∞,擬合度大于1,說明評分員評分有分散趨勢(Mis?fit),如果小于1,則表明評分有集中趨勢(Overfit)。按照經(jīng)驗,可接受的取值范圍有兩類,一是Linacre(2011)所建議的0.5~1.5之間,另外一類是一些學(xué)者所 建 議 的 0.7/0.75~1.3/1.35之 間(McNamara, 1996)。如果按照第一種取值范圍,本研究中所有評分員的擬合值均在可接受的范圍之內(nèi)。但是按照第二種取值范圍,則有三位評分員(R6,R7,R1)屬于過度擬合(Overfit),其余評分員均在可接受范圍之內(nèi)。這說明評分員評分的前后一致性較高,能較好運用評分標(biāo)準進行評分。
表1 “思想與表達”維度統(tǒng)計數(shù)據(jù)
圖2 各分數(shù)段概率曲線圖
表2最下方為分割值(Separation)、分割信度(Reliability)、卡方值和p值。如果評分員之間嚴厲度一致,那么分割值為1或者更小,本研究中分割度為2.07,說明評分員之間的嚴厲度有所不同;分割信度越接近1說明評分員嚴厲度區(qū)別越大,本研究為0.81,卡方值(66.8)和p值(0.00)均顯示評分員之間的嚴厲度有顯著差異。造成這一顯著差異的原因可能主要是R5在評分時過于嚴厲。筆者試著將R5數(shù)據(jù)刪除后再次運行Facets,果然發(fā)現(xiàn)評分員之間并未表現(xiàn)出顯著差異。(Separation=0.75;Reliabil?ity=0.36;chi-square=18.8,p=0.07)
從以上定量分析獲得的證據(jù)可以得出初步結(jié)論,本研究中,除了極個別評分員評分過于嚴厲或前后一致性稍差之外,大部分評分員能夠較好地使用評分標(biāo)準進行評分,評分效果較好,評分標(biāo)準各維度、各分數(shù)段劃分較為合理,評分標(biāo)準能夠較好地在評分過程中發(fā)揮作用。
4.2 TAPs結(jié)果分析
4.2.1 評分員關(guān)注點分析
如前文所述,在進行TAPs數(shù)據(jù)統(tǒng)計時,選取6位評分員(R2,R4,R6,R9,R11,R13)。首先來看這6位評分員評分過程中的關(guān)注點是否與評分標(biāo)準所列項目一致。從表3可以看出,評分員的評價只有10.1%屬于其他方面的評價,也就是說,有90%的評價都是在評分標(biāo)準所列項目之內(nèi),評分員關(guān)注最多的維度是思想與表達,其次是語言運用能力,第三是寫作規(guī)范。超出這三個維度的關(guān)注點中有37次是“是否有標(biāo)題”,這是因為本次TEM-8作文考試為非命題作文,在閱卷培訓(xùn)時,評分員就被告知要關(guān)注是否有題目,如無題目則要扣分。剩下的27項主要是“表達冗長”“題目是否表明觀點”“不成句”“有沒有總領(lǐng)句”等。從有聲思維數(shù)據(jù)來看,大部分評分員都是在評分標(biāo)準的引導(dǎo)下進行評價的,比如R2評分員是這樣評價某篇作文的:
表2 評分員評分報告
表3 評分關(guān)注點統(tǒng)計
(1)我先給他語言打一個分,第二項,語言運用能力,一般吧,一般還好吧,還是有一些小錯誤,給他5分吧,應(yīng)該是上不了6分。
(2)再看看思想與表達的得分,這個觀點比較簡單,觀點太簡單了,有點幼稚,然后論述不是很充分,雖然有三點,但是觀點比較簡單,所以……但是也還是寫了三點,算是中規(guī)中矩吧……
(3)然后第三項,看寫的工整么,比較工整,但是字數(shù)不夠,而且有些拼錯的詞。
從上例可以看出,R2先是對語言能力進行評價評分,然后再對思想與表達進行評價評分,最后對書寫規(guī)范進行評價評分,說明其對作文的評價基本是按照評分標(biāo)準的指導(dǎo)進行的??傮w來說,評分員是在按照標(biāo)準所列項目進行評價。但是評分員也會遇到個別在標(biāo)準中沒有列出的事件,比如R9評分員有4次提到“總領(lǐng)句”:
(4)第二部分沒有總領(lǐng)句;這個有總領(lǐng)句;看分論點,又沒有總領(lǐng)句;沒有一個總領(lǐng)句。
當(dāng)筆者對其進行電話訪談時,R9說:
(5)所謂“總領(lǐng)句”就是連接opening與body之間的承上啟下的句子,可以出現(xiàn)在第一部分末尾,也可以出現(xiàn)在第二部分開頭。以我的經(jīng)驗來看,我比較注重這個“總領(lǐng)句”。因為我在教給學(xué)生寫作課時比較強調(diào)這一點。
雖然這一項沒有在標(biāo)準中列出,但是R9依然把有沒有“總領(lǐng)句”作為判斷作文結(jié)構(gòu)以及質(zhì)量的因素。可見,評分員經(jīng)驗顯然也是影響評價的一個方面。
再來看評分員關(guān)注最多的項目,見表4。表4顯示,評分員關(guān)注最多的前6項涉及思想內(nèi)容、組織結(jié)構(gòu)、語言表達等主要評判維度。然而也有一些項目很少引起評分員的注意,比如“語氣恰當(dāng)”“習(xí)語正確”“標(biāo)點符號”等,尤其是“語氣恰當(dāng)”這一項竟然沒有一位評分員在其評價中提到。電話訪談時,R4這樣說:
(6)專八作文不像專四作文是讓學(xué)生寫便條,寫便條時因為是涉及到給特定的人講話,可能我會注意語氣如何,但是專八作文是議論文,似乎很難把握什么是“語氣恰當(dāng)”……
可見,“語氣恰當(dāng)”這一項似乎并不符合本次評分的情景,反而有可能加重評分員的負擔(dān)。
4.2.2 評分標(biāo)準對評價行為建構(gòu)的作用
按照DeRemer(1998)的觀點,評分行為是一種建構(gòu)過程。但是DeRemer并沒有明確指出影響這一建構(gòu)的因素是什么。相關(guān)研究表明評分標(biāo)準、評分培訓(xùn)、評分員經(jīng)驗都會對評分過程產(chǎn)生影響(Huot,1998;Erdosy,2004;Lumley,2005),那么,這些因素顯然也會對評分行為的建構(gòu)起主要作用。對有聲思維數(shù)據(jù)的分析發(fā)現(xiàn),盡管評分員之間的建構(gòu)模式在一些方面不盡相同,但總體上仍然是在評分標(biāo)準的統(tǒng)領(lǐng)下。為說明這一點,選取其中一位評分員R4對某篇作文的評價:
(7)現(xiàn)在這篇,有題目,但沒出現(xiàn)觀點,然后文章一共寫了兩頁,分段還行……然后我看文章的段落,第一段first and foremost,besides,last but not least,all in all,結(jié)構(gòu)還可以吧,看看寫的怎么樣。第一段……只能說是有觀點,內(nèi)容倒是切題……文章給個60分吧……第二段(閱讀),release pressure,這個倒還行,……還用了decrease,還可以,可以給個13。這篇文章沒有大的錯誤,結(jié)構(gòu)也還行,雖然剛才說了那么多的問題,但是拿個60分是沒有問題的,我覺得可以給到13?6+6+1.5=13.5吧。但是如果他都能拿13.5的話,那剛才的15.5我覺得都給低了?!野褎偛诺?4.5的那篇加成了15.5,……這樣才比較公平。
表4 關(guān)注最多與最少項
R4在評分時首先關(guān)注的是文章的整體,接下來她關(guān)注文章的結(jié)構(gòu)安排,然后看有沒有觀點、論證如何、在閱讀過程中尋找語言能力的證據(jù),作出初步?jīng)Q定,進行修正,再作出最后決定。R4的評分行為可以大致描述如圖3所示。圖中虛線表示評分員在評分的每一個步驟中都可能做出預(yù)設(shè)決定。R4在尋找“觀點及論證”證據(jù)的同時進行著語言能力證據(jù)的收集??梢钥闯?,R4對評分行為的建構(gòu)極大地受到了評分標(biāo)準的影響,這再次說明,評分標(biāo)準在評分過程中對評分員發(fā)揮了有效的作用。
通過以上對有聲思維數(shù)據(jù)的分析可以得出以下結(jié)論:在評分過程中,盡管有個別評價超出了標(biāo)準的范圍,也有某些標(biāo)準中所列的項目未引起評分員的關(guān)注。但從整體上來看,評分員的評分行為基本上是在評分標(biāo)準的引導(dǎo)下進行的,評分員對作文的評價也大都圍繞標(biāo)準中所列項目進行。
4.3 討論
評分員培訓(xùn)是保證評分效度的有效措施之一。Lumley(2005)認為評分過程就是評分員將自己對文本的感知與外在的、概括的評分標(biāo)準之間達成一致的過程。然而由于評分員的經(jīng)驗不同,對評分標(biāo)準的理解也會不盡相同,評分培訓(xùn)就是為了讓評分員對標(biāo)準的理解和使用達到較高的一致性。本研究發(fā)現(xiàn),盡管評分標(biāo)準對評分員的評分行為建構(gòu)起到了引導(dǎo)作用,但依然存在著諸如有的評分員評分前后一致性不高,評分過于集中或過于嚴厲等現(xiàn)象。有聲思維數(shù)據(jù)分析表明他們對評分行為的建構(gòu)體系不盡相同,個人經(jīng)驗起到了較大作用。因此,評分員培訓(xùn)應(yīng)該重視評分員對評分行為的構(gòu)建,盡可能讓這種構(gòu)建具有一致性和可操作性。
另外,在語言測試界,有關(guān)大規(guī)模寫作測試究竟應(yīng)使用整體式還是分項式評分方式的爭論一直存在。比如,有學(xué)者認為整體式評分比分項式更具有真實性(White,1995),由于可以快速評分而在大規(guī)模測試中具有更大的可行性(Shaw&Weir, 2007)。分項式評分方式相對于整體式則更能提高評分信度(Hamp-Lyons,1991),然而也由于較多的文本特征描述給評分員造成過重的負擔(dān)(Luoma, 2004)等等。盡管TEM-8采用分項式的評分標(biāo)準,但是TAPs數(shù)據(jù)顯示,有一些評分員在評分時并不是按照所列標(biāo)準逐一進行評分,正如Weigle(2002)在論述分項式評分的真實性時所說的那樣,“評分員也許會先作出整體評價,然后調(diào)整各分項分數(shù)來與整體評價保持一致”。TEM-8屬于有一定規(guī)模的考試,考試設(shè)計者面臨兩難選擇,使用整體式評分能降低閱卷成本,但卻要冒著降低評分信度的風(fēng)險;使用分項式評分雖然理論上能夠提高信度,但是卻費時費力。設(shè)計出既能保證評分信度不受影響,又能使閱卷成本降低的評分方式是開發(fā)者需要認真研究的課題。
圖3 R4評分行為建構(gòu)模型
最后,本研究發(fā)現(xiàn)盡管評分標(biāo)準能夠發(fā)揮較好功能,但也存在一些不足。比如,評分標(biāo)準的制定雖然較好體現(xiàn)了理論構(gòu)念,列舉了比較詳細的項目,但是也給評分員造成了一定的負擔(dān),有的項目在評分中并沒有被關(guān)注或極少被關(guān)注。而且,標(biāo)準只列舉了評分中的關(guān)注項目和給分段,并沒有對各分數(shù)段所對應(yīng)的文本特征進行易于理解的描述。Alderson(1991)在對IELTS以評分員為中心的評分標(biāo)準的制定過程進行描述時講到:“一些表述方式因為太過復(fù)雜和使用元語言描述而被修正?!笨梢姡琓EM-8作文評分標(biāo)準的制定應(yīng)該更加注重簡潔性和可行性,并且能夠增加與分數(shù)段相對應(yīng)的文本特征描述語。
本研究采用定量、定性等方法對TEM-8評分進行了分析,研究結(jié)果表明評分標(biāo)準能較好地反映寫作測試的理論構(gòu)念,各維度及分數(shù)段劃分較為合理,大部分評分員能較好使用評分標(biāo)準,其評分過程也是在標(biāo)準的引導(dǎo)下進行,評分結(jié)果信度較高。但也存在一些問題,比如有少數(shù)評分員在使用評分標(biāo)準時存在前后不一致和評分過度嚴厲的情況,有一些評分員借助了標(biāo)準之外的經(jīng)驗因素進行判斷,而一些標(biāo)準所列項目并未得到或者很少得到評分員的關(guān)注等。
本研究尚存在以下不足之處,首先,樣本數(shù)量較少會導(dǎo)致測量誤差較大;其次TAPs數(shù)據(jù)收集無法克服真實性和反作用性兩大缺陷;另外,本研究雖然從多方面收集證據(jù)對TEM-8評分標(biāo)準進行效度驗證,然而對于評分過于嚴厲,或者評分擬合過度或擬合不足的評分員仍需做進一步探究。
[1]Alderson,J.C.Bands and scores[C]//Alderson,J.C,&North,B.(eds.).Language testing in the 1990s London.Macmillan,Develop?ments in ELT,1991:71-86.
[2]Anderson,J.C.Testing Reading Comprehension Skills(part 2)[J]. Reading in a Foreign Language,1990(7):465-503.
[3]Bachman,L.F.,Lynch,B.K.,&Mason,M.Investigating variability in tasks and rater judgements in a performance test of foreign lan?guage speaking[J].Language Testing,1995(12):238-257.
[4]Barkaoui,K.Think-aloud protocols in research on essay rating:An empirical study of their veridicality and reactivity[J].Language Test?ing,2011,28(1):51-75.
[5]Carr,N.A comparison of the effects of analytic and holistic rating scale types in the contest of composition tests[J].Issues in Applied linguistics,2000(11):207-241.
[6]Connor,U.,&Carrell,P.The interpretation of tasks by writers and readers in holistically rated direct assessment of writing[C]//Carson, J.G.,&Leki,I.Reading in the composition classroom.Boston,MA: Heinle and Heinle.1993:141-160.
[7]Cumming,A.,Kantor,R.,&Powers,D.Decision making while scor?ing ESL/EFL compositions:A descriptive model[J].Modern Lan?guage Journal,2002(86):67-96.
[8]DeRemer,M.Writing assessment:Raters’elaboration of the rating task[J].Assessing Writing,1998(5):7-29.
[9]Eckes,T.Rater types in writing performance assessments:A classifi?cation approach to rater variability[J].Language Testing,2008,25(2):155-185.
[10]Erdosy,M.U.Exploring Variability in Judging Writing Ability in a Second Language:A Study of Four Experienced Raters of ESL Compositions:TOEFL Research Report[R].Princeton,NJ:Educa?tional Testing Service,2004.
[11]Ericsson,K.A.,&Simon,H.A.Protocol Analysis:Verbal Reports as Data[M].Cambridge,MA:The MIT Press,1993.
[12]Freedman,S.W.How characteristics of student essays influence teachers’evaluations[J].Journal of Educational Psychology,1979(71):328-338.
[13]Green,A.J.K.Verbal protocol analysis in language teaching re?search[M].Cambridge:Cambridge University Press and University of Cambridge Local Examinations Syndicate,1997.
[14]Hamp-Lyons,L.Scoring procedures[C]//Hamp-Lyons,L.Assess?ing second language writing in academic contexts.Norwood,NJ: Ablex,1991:241-276.
[15]Hamp-Lyons,L.Rating non-native writing:the trouble with holis?tic scoring[J].TESOL Quarterly,1995,29(4):759-762.
[16]Huot,B.A.The validity of holistic scoring:A comparison of talkaloud protocols of expert and novice holistic raters[D].Indiana, PA:Indiana University of Pennsylvania,1988.
[17]Linacre,J.M.Guidelines for Rating Scales and Andrich Thresh?olds[EB/OL].[2015-10-13].http://www.rasch.org/rn2.htm.
[18]Linacre,J.M.A User’s Guide to FACETS:Rasch-Model Comput?er Program[EB/OL].[2015-10-13].http://www.winsteps.com.
[19]Lumley,T.Assessment criteria in a large-scale writing test:what do they really mean to the raters?[J].Language Testing,2002,19(3):246-276.
[20]Lumley,T.Assessing second language writing:The rater’s per?spective[M].Frankfurt am Main:Peter Lang,2005.
[21]Luoma,S.Assessing speaking[M].Cambridge:Cambridge Univer?sity Press,2004.
[22]McNamara,T.F.Measuring Second Language Performance[M]. Harlow:Addison Wesle Longman,1996.
[23]Messick,S.Validity[C]//Linn,R.L.Educational measurement(3rd ed.).London:Collier Macmillan,1989:12-103.
[24]Shaw,S.,&Weir,C.J.Examining Writing in a Second Language [M].Cambridge,UK:Cambridge University Press and Cambridge ESOL,2007.
[25]Smith,D.Rater judgements in the direct assessment of competen?cy-based second language writing ability[C]//Brindley,G.Studies in immigrant English language assessment(vol 1).Sydney:NCEL?TR,Macquarie University,2000:159-89.
[26]Vaughan,C.Holistic assessment:what goes on in the rater’s mind? [C]//Hamp-Lyons,L.Assessing Second Language Writing in Aca?demic Contexts.Norwood,NJ:Ablex Publishing Corporation, 1991:111-125.
[27]Weigle,S.Using FACETS to model rater training effects[J].Lan?guage Testing,1998,15(2):263-87.
[28]Weigle,S.C.Assessing writing[M].Cambridge,UK:Cambridge University Press,2002.
[29]White,E.M.An apologia for the timed impromptu essay test[J]. College Composition and Communication,1995(46):30-45.
[30]Wolfe,E.W.,Kao,C.W.,&Ranney,M.Cognitive differences in proficient and non-proficient essay scorers[J].Written Communi?cation,1998(14):465-492.
[31]Zhang,Y.,&Elder,C.Judgements of oral proficiency by non-na?tive and native English speaking teacher raters:Competing or com?plementary constructs?[J].Language Testing,2011,28(1):31-50.
[32]李航.基于概化理論和多層面Rasch模型的CET-6作文評分信度研究[J].外語與外語教學(xué),2011(5):51-56.
[33]劉建達.評卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語, 2010(2):185-193.
[34]鄒申.提升考試公平性:以英語專業(yè)四、八級考試為例[J].外語測試與教學(xué),2011(1):42-50.
Validating TEM-8 Rating Scale via MFRM and TAPs Based Evidence
CHEN Jianlin
The validation study of the rating scale used in Test of English Majors(TEM-8)writing assessment was conducted based on data from the rating scores of 13 raters each rating 10 TEM-8 essays and their Think-aloud Protocols during rating.Quantitative analysis using Multi-Facets Rasch Model and qualitative analysis using Nvivio showed the following results:1)the rating scale is appropriately categorized and operates well during the rating process;2)although a few raters’ratings exhibit some misfit and severity,the majority of the raters are able to rate with high consistency using the scale.
Multi-Facets Rasch Model;Think-aloud Protocols;Rating Criteria;Validation
G405
A
1005-8427(2016)01-0029-10
本文系教育部人文社會科學(xué)青年基金項目“基于語料庫的甘肅藏漢中學(xué)生書面語對比研究”(項目編號:15YJC740004)的研究成果之一;本文得到“蘭州大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項資金”(項目編號:2022014skzy001)資助。
陳建林,男,蘭州大學(xué)外國語學(xué)院,講師,博士(蘭州 730000)