大規(guī)模英語考試作文評分標(biāo)準效度驗證

2016-06-05 14:18:00陳建林

中國考試 2016年1期

陳建林

陳建林

本研究收集評分員對130篇大學(xué)專業(yè)英語八級考試（TEM-8）作文的評分數(shù)據(jù)，采用多面Rasch模型分析法以及有聲思維法收集證據(jù)對TEM-8作文評分標(biāo)準進行了多維度效度驗證。結(jié)果表明，評分標(biāo)準大體上能夠反映寫作理論構(gòu)念，評分尺度劃分較為合理；大部分評分員能夠有效使用評分標(biāo)準進行評分，可信度較高。

多面Rasch模型；有聲思維法；評分標(biāo)準；效度驗證

1 引言

在語言測試中，制定或者選擇什么樣的評分標(biāo)準對于由評分員判定結(jié)果的行為測試（performance assessment）來說十分重要。Weigle（2002）在總結(jié)McNamara（1996）關(guān)于評分標(biāo)準的重要性時指出，“為寫作能力行為測試所制定的評分標(biāo)準，以顯性或隱性的方式，體現(xiàn)了測試設(shè)計所依據(jù)的理論基礎(chǔ)”。行為測試曾經(jīng)一度不被大范圍采用，其中一個主要原因就是主觀評判的可信度受到了極大的質(zhì)疑?？梢姡绾翁岣咴u分效度是行為測試的關(guān)鍵所在，而衡量評分效度的一個重要參數(shù)就是評分標(biāo)準效度（Shaw,2007）。大學(xué)英語專業(yè)八級考試（TEM-8）是用來檢查大學(xué)英語專業(yè)教學(xué)質(zhì)量的一項規(guī)模較大、風(fēng)險性較高的考試。因此，如何提升考試的公平性是考試設(shè)計者和開發(fā)者的一項重要任務(wù)。提升TEM-8考試公平性的措施之一就是保證評分效度（鄒申，2011），因此有必要從多方面收集證據(jù)對TEM-8作文考試的評分標(biāo)準進行效度驗證。本文采用多面Rasch模型分析法以及有聲思維法（TAPs）收集證據(jù)對TEM-8作文評分標(biāo)準進行效度驗證。

2 相關(guān)文獻分析

作文評分標(biāo)準的效度研究在近20年來取得了較大發(fā)展，研究主要集中在兩個領(lǐng)域。一是對不同類型的評分標(biāo)準及其對測試結(jié)果影響的研究。比如，F(xiàn)reedman（1979）的研究發(fā)現(xiàn)，專業(yè)寫作者的作文和大學(xué)生的作文在采用分項式評分（analytic scor?ing）時的結(jié)果表現(xiàn)出一定差異，然而采用整體式評分（holistic scoring）卻并無差別。Hamp-Lyons（1995）認為整體式評分適合第一語言寫作，而對于第二語言寫作來講，分項式評分則更具有信度和效度。Carr（2000）認為采用不同的評分方式會影響對分數(shù)的解釋，原因在于整體式評分結(jié)果只對一種構(gòu)念提供了證據(jù)，而分項式評分的結(jié)果則是多重構(gòu)念證據(jù)的集合。對評分標(biāo)準效度研究的另外一個領(lǐng)域是評分員在評分過程中如何理解和運用評分標(biāo)準。DeRemer（1998）在分析了三位經(jīng)驗豐富的評分員評分時的有聲思維數(shù)據(jù)后認為，評分員利用評分標(biāo)準對作文作出評價的過程是一個問題解決的過程（Anderson,1990），評分員的目的就是要依靠標(biāo)準所給出的提示對作文質(zhì)量作出判斷。在這個過程中，評分員需要將標(biāo)準中抽象的文字表達內(nèi)化為概念，因而，運用評分標(biāo)準對作文作出評判的過程是一種行為建構(gòu)過程（DeRemer,1998）。Lumley（2002,2005）采用有聲思維法研究了四位經(jīng)驗豐富的評分員對評分標(biāo)準的運用，研究發(fā)現(xiàn)評分結(jié)果是評分員對作文的整體印象、文本特征以及評分標(biāo)準的表述三者之間進行折中的結(jié)果。Lumley進一步指出，評分標(biāo)準并不能涵蓋所有評分過程中出現(xiàn)的事件，這就迫使評分員采用各種各樣的評分策略來處理這些事件。與此相似，Barkaoui（2008）的研究發(fā)現(xiàn)，不同的評分方法以及評分員的經(jīng)驗均會對評分結(jié)果產(chǎn)生影響。

從研究方法上來看，近年來有兩種方法在評分過程以及評分標(biāo)準的研究中得到了較多的運用：一種是多面Rasch模型（Multi-Facets Rasch Model，MFRM）（Linacre,2010），另一種是有聲思維法（Think-aloud Protocols，TAPs）（Ericsson and Simon, 1993）。前者屬于定量分析方法，是項目反應(yīng)理論的運用，采用這種方法可以將評分員評分的嚴厲與寬松程度、受試能力的高低、測試項目的難易度、評分標(biāo)準各個尺度的難易度以及其他影響評分效度的因素在同一刻度標(biāo)準下展現(xiàn)出來，因而被許多研究者所采用（Bachman,1995;Weigle,1998;Eckes, 2008;Zhang,2011;劉建達，2010;李航，2011）。TAPs用于作文評分過程研究有許多優(yōu)勢，比如，與訪談和問卷相比，它能反映出評分員實際上在做什么、在思考什么，而不是他們認為自己做了什么，或思考了什么（Huot,1993）。然而TAPs也存在一些不足，除了數(shù)據(jù)收集、標(biāo)注分析過程繁瑣之外，對它的批評主要有兩個方面：真實性和反作用性（Barka?oui,2011），即有聲思維并不能全面反映受試的思維過程，以及有聲表達會改變受試的思維方式。盡管有研究表明TAPs的確存在以上所說的不足，但是這并不能否定它在作文評分過程研究中的運用（Barkaoui,2011）。相反，TAPs在評分效度研究方面大有用途，例如，可以用來分析評分員在評分過程中的關(guān)注點（Vaughan,1992;Connor&Carrell, 1993）；用來調(diào)查在評分過程中經(jīng)驗豐富的評分員與新手之間所表現(xiàn)出的差異（Huot,1998;Wolfe, 1998）；用來研究評分員背景對評分過程以及評分標(biāo)準使用的影響（Smith,2000;Erdosy,2004）；用來描述評分過程并建立評分過程模型（Cumming, 2002;Lumley,2005）等。

盡管有關(guān)評分效度的研究有了較大發(fā)展，但這些研究大多選取理想中的評分員作為研究對象，而大規(guī)模考試環(huán)境下的評分員背景卻相差較大，以隨機抽取的真實評分環(huán)境下的評分員作為研究對象則更具有代表性。更重要的是，TEM-8評分標(biāo)準與以往研究中的評分標(biāo)準有所不同，比如Lumley（2005）研究中的step考試中的寫作評分所使用的評分標(biāo)準對每一個分數(shù)段都進行了相應(yīng)的文本特征描述，描述盡量做到簡潔和避免使用元語言詞語，而TEM-8評分標(biāo)準則只列出了較為詳細的評分關(guān)注點，并未對各分數(shù)段的文本特征進行描述。另外，以往研究中效度證據(jù)收集的方式比較單一，將對分數(shù)的定量分析證據(jù)與對評分員的定性分析證據(jù)結(jié)合起來的研究較少。

3 研究方法

本研究將以真實作文評分環(huán)境下的評分員為研究對象，采用定性與定量相結(jié)合的方法，收集證據(jù)對TEM-8評分標(biāo)準進行效度驗證。主要研究問題有：（1）評分員能否較好地運用評分標(biāo)準？（2）評分標(biāo)準與評分員之間的互動是怎樣的？

3.1 TEM-8評分標(biāo)準

TEM-8評分標(biāo)準共有三個維度：思想與表達、語言運用能力和寫作規(guī)范。思想與表達又包含思想內(nèi)容、表達效果和篇章組織結(jié)構(gòu)三個次維度；語言運用能力包括準確性、豐富性和得體性三個次維度。評分標(biāo)準中的評分范圍分別是，思想內(nèi)容1～10分，有優(yōu)秀、良好、一般、較差、極差五個分數(shù)段；語言運用1～8分，也分為五個分數(shù)段；寫作規(guī)范0.5～2分，分為優(yōu)秀、良好、一般、較差四個分數(shù)段。需要說明的是，由于寫作規(guī)范的評分出現(xiàn)了小數(shù)點，為方便Facets分析，分析前給每個評分都乘以2，這樣就避免了小數(shù)點的出現(xiàn)，但分析結(jié)果不會受到影響。

3.2 評分員及試卷選取

本研究從TEM-8作文評分員中隨機選取13位評分員，其中男性3人，女性10人，年齡在27歲到42歲之間，有1人為助教，9人為講師，3人為副教授，其中6位具有TEM-8評分經(jīng)驗，7人為首次參加TEM-8作文評分。請語言測試專家憑經(jīng)驗從學(xué)生作文中挑選10份能夠代表不同水平學(xué)生的作文，分別讓這13位評分員進行了模擬評分。為避免順序效應(yīng)，在給每位評分員發(fā)放作文時次序是打亂的。評分員內(nèi)部一致性分析顯示Cronbach α系數(shù)為0.91，表明評分員評分的相關(guān)度很高。

3.3 數(shù)據(jù)收集步驟

第一步，采用有聲思維法進行評分。整個過程基本按照Ericsson and Simon（1993）所要求的步驟進行，即先對評分員進行培訓(xùn)，然后讓他們在熟悉安靜的環(huán)境下獨立進行評閱，并要求他們將評分過程中的思維活動表達出來，然后進行錄音，每篇作文評分的錄音長度從3分鐘到5分鐘不等。第二步，錄音結(jié)束后，筆者對其中10位進行了面對面的訪談，并進行了錄音。第三步，考慮到工作量，筆者從13位評分員中選取6位，將其錄音進行轉(zhuǎn)寫，并設(shè)計標(biāo)注體系進行標(biāo)注。第四步，在初步分析轉(zhuǎn)寫數(shù)據(jù)后又針對聲音不清楚的地方對評分員進行了電話訪談。

3.4 有聲思維標(biāo)注

按照學(xué)者（Huot,1988；Green,1997）的觀點，有聲思維數(shù)據(jù)的分類及標(biāo)注體系應(yīng)當(dāng)與研究環(huán)境相適應(yīng)。本研究所關(guān)注的問題是評分員對評分標(biāo)準的使用，因此，根據(jù)評分標(biāo)準的各個維度制定了標(biāo)注體系，然后對6位評分員的有聲思維轉(zhuǎn)寫數(shù)據(jù)進行了標(biāo)注。為檢驗標(biāo)注的信度，筆者同時請另一位有經(jīng)驗的教師對隨機抽取的30句命題句進行了標(biāo)注，標(biāo)注結(jié)果與筆者之間的相關(guān)系數(shù)達到了0.86。轉(zhuǎn)寫后的小句與本研究有關(guān)的共計736句，每小句標(biāo)注一次，標(biāo)注總數(shù)736次。

3.5 數(shù)據(jù)分析

數(shù)據(jù)收集完成后，利用Facets3.5軟件對13位評分員的評分情況進行定量分析，再利用QSR Nvi?vo8.0定性分析軟件對有聲思維數(shù)據(jù)進行編碼、標(biāo)注、統(tǒng)計，然后結(jié)合訪談錄音對評分員使用評分標(biāo)準的情況進行定性分析。

4 結(jié)果及討論

4.1 多面Rasch模型結(jié)果及分析

首先，從Facets運行結(jié)果來說（見圖1），所有作文的水平刻度均分布在-3.00到3.00之間，差距較大，但是分布比較均勻，基本代表了受試寫作水平的各個層次，與專家們選取作文時的設(shè)想一致。大部分評分員的嚴厲刻度都集中在0.00附近，只有一位評分員接近2.00，說明這位評分員評分比較嚴厲，其他評分員評分比較適中。從評分標(biāo)準的難易度來看，三個維度難易程度相差不大，都在0.00附近，但是相對來講書寫規(guī)范得分稍微容易一些。這說明，從整體情況來看，評分員的評分結(jié)果較為理想。

圖1 評分層面圖

再來看各分數(shù)段統(tǒng)計數(shù)據(jù)，以“思想與表達”維度為例（見表1），從不同分數(shù)段的評分分布來看，總體成正態(tài)分布，評分最多的比例不超過25%，這說明評分員的評分未呈現(xiàn)過于集中或過于分散的狀況。再來看各分數(shù)段的平均測量值（Avge Means），總體從上到下依次呈遞增趨勢，而且除了觀測值為4的遠合指數(shù)（Outfit MnSq）為1.7之外，其余的值均不高于1.0，且分數(shù)段的間隔基本上都在1.00 logit左右，不超過3.00 logits，比較均勻，再次說明評分沒有出現(xiàn)過于集中或分散狀況。但是，在“思想與表達”這個維度的兩極出現(xiàn)了平均測量值不成遞增的趨勢（用*號標(biāo)出），即觀測值為6的平均測量值（-3.16）低于觀測值為4的平均測量值（-3.01），觀測值為20的平均測量值（2.86）也低于觀測值為18的平均測量值（2.93），說明這四個分數(shù)段的劃分不合理，應(yīng)該將高分段合并到低分段去（Linacre, 1997）。但需要說明的是，由于評分員和受試人數(shù)較少，在分數(shù)段兩極出現(xiàn)的不規(guī)則情況也許與統(tǒng)計量較少有關(guān)，這一點還得進一步去驗證。但是，總體來看，“思想與表達”這個維度的分數(shù)段分配是合理的。其他兩個維度的分類統(tǒng)計數(shù)據(jù)均顯示評分未出現(xiàn)過分集中或過分分散的情況，而且分數(shù)段的分配也比較合理，限于篇幅，不再列表詳細討論。

從分數(shù)段的概率曲線圖來看（見圖2），各個分數(shù)段的曲線均呈現(xiàn)出峰狀，也就是說，從左往右，隨著受試能力從一個刻度到相鄰刻度的過渡，受試得到下一個較高分數(shù)的概率也在增大。比如在-6.0 logits時受試得到4分的概率很大，而得到6分的概率則較低，然而隨著刻度向右，得4分的概率不斷降低，而得6分的概率則在上升，到-3.0 logits的時候，得4分的概率便沒有得6分的概率那么高了。這再一次說明評分標(biāo)準的分數(shù)段分配是合理的。

再來看評分員評分情況，表2的第一列是每位評分員觀測分數(shù)總和，第二列是評分員測量值，越往上端表示評分越寬松，越往下端表示越嚴厲。除5號評分員（R5）之外，其他評分員的Logit值都在-0.58到0.33之間，說明R5（1.69 logits）的評分相對來說要嚴厲得多。再來看評分員擬合度值（Infit MnSq）。理想的擬合度值應(yīng)該為1，取值范圍從0到∞，擬合度大于1，說明評分員評分有分散趨勢（Mis?fit），如果小于1，則表明評分有集中趨勢（Overfit）。按照經(jīng)驗，可接受的取值范圍有兩類，一是Linacre（2011）所建議的0.5～1.5之間，另外一類是一些學(xué)者所建議的 0.7/0.75～1.3/1.35之間（McNamara, 1996）。如果按照第一種取值范圍，本研究中所有評分員的擬合值均在可接受的范圍之內(nèi)。但是按照第二種取值范圍，則有三位評分員（R6，R7，R1）屬于過度擬合（Overfit），其余評分員均在可接受范圍之內(nèi)。這說明評分員評分的前后一致性較高，能較好運用評分標(biāo)準進行評分。

表1 “思想與表達”維度統(tǒng)計數(shù)據(jù)

圖2 各分數(shù)段概率曲線圖

表2最下方為分割值（Separation）、分割信度（Reliability）、卡方值和p值。如果評分員之間嚴厲度一致，那么分割值為1或者更小，本研究中分割度為2.07，說明評分員之間的嚴厲度有所不同；分割信度越接近1說明評分員嚴厲度區(qū)別越大，本研究為0.81，卡方值（66.8）和p值（0.00）均顯示評分員之間的嚴厲度有顯著差異。造成這一顯著差異的原因可能主要是R5在評分時過于嚴厲。筆者試著將R5數(shù)據(jù)刪除后再次運行Facets，果然發(fā)現(xiàn)評分員之間并未表現(xiàn)出顯著差異。（Separation=0.75;Reliabil?ity=0.36;chi-square=18.8,p=0.07）

從以上定量分析獲得的證據(jù)可以得出初步結(jié)論，本研究中，除了極個別評分員評分過于嚴厲或前后一致性稍差之外，大部分評分員能夠較好地使用評分標(biāo)準進行評分，評分效果較好，評分標(biāo)準各維度、各分數(shù)段劃分較為合理，評分標(biāo)準能夠較好地在評分過程中發(fā)揮作用。

4.2 TAPs結(jié)果分析

4.2.1 評分員關(guān)注點分析

如前文所述，在進行TAPs數(shù)據(jù)統(tǒng)計時，選取6位評分員（R2，R4，R6，R9，R11，R13）。首先來看這6位評分員評分過程中的關(guān)注點是否與評分標(biāo)準所列項目一致。從表3可以看出，評分員的評價只有10.1%屬于其他方面的評價，也就是說，有90%的評價都是在評分標(biāo)準所列項目之內(nèi)，評分員關(guān)注最多的維度是思想與表達，其次是語言運用能力，第三是寫作規(guī)范。超出這三個維度的關(guān)注點中有37次是“是否有標(biāo)題”，這是因為本次TEM-8作文考試為非命題作文，在閱卷培訓(xùn)時，評分員就被告知要關(guān)注是否有題目，如無題目則要扣分。剩下的27項主要是“表達冗長”“題目是否表明觀點”“不成句”“有沒有總領(lǐng)句”等。從有聲思維數(shù)據(jù)來看，大部分評分員都是在評分標(biāo)準的引導(dǎo)下進行評價的，比如R2評分員是這樣評價某篇作文的：

表2 評分員評分報告

表3 評分關(guān)注點統(tǒng)計

（1）我先給他語言打一個分，第二項，語言運用能力，一般吧，一般還好吧，還是有一些小錯誤，給他5分吧，應(yīng)該是上不了6分。

（2）再看看思想與表達的得分，這個觀點比較簡單，觀點太簡單了，有點幼稚，然后論述不是很充分，雖然有三點，但是觀點比較簡單，所以……但是也還是寫了三點，算是中規(guī)中矩吧……

（3）然后第三項，看寫的工整么，比較工整，但是字數(shù)不夠，而且有些拼錯的詞。

從上例可以看出，R2先是對語言能力進行評價評分，然后再對思想與表達進行評價評分，最后對書寫規(guī)范進行評價評分，說明其對作文的評價基本是按照評分標(biāo)準的指導(dǎo)進行的?？傮w來說，評分員是在按照標(biāo)準所列項目進行評價。但是評分員也會遇到個別在標(biāo)準中沒有列出的事件，比如R9評分員有4次提到“總領(lǐng)句”：

（4）第二部分沒有總領(lǐng)句；這個有總領(lǐng)句；看分論點，又沒有總領(lǐng)句；沒有一個總領(lǐng)句。

當(dāng)筆者對其進行電話訪談時，R9說：

（5）所謂“總領(lǐng)句”就是連接opening與body之間的承上啟下的句子，可以出現(xiàn)在第一部分末尾，也可以出現(xiàn)在第二部分開頭。以我的經(jīng)驗來看，我比較注重這個“總領(lǐng)句”。因為我在教給學(xué)生寫作課時比較強調(diào)這一點。

雖然這一項沒有在標(biāo)準中列出，但是R9依然把有沒有“總領(lǐng)句”作為判斷作文結(jié)構(gòu)以及質(zhì)量的因素。可見，評分員經(jīng)驗顯然也是影響評價的一個方面。

再來看評分員關(guān)注最多的項目，見表4。表4顯示，評分員關(guān)注最多的前6項涉及思想內(nèi)容、組織結(jié)構(gòu)、語言表達等主要評判維度。然而也有一些項目很少引起評分員的注意，比如“語氣恰當(dāng)”“習(xí)語正確”“標(biāo)點符號”等，尤其是“語氣恰當(dāng)”這一項竟然沒有一位評分員在其評價中提到。電話訪談時，R4這樣說：

（6）專八作文不像專四作文是讓學(xué)生寫便條，寫便條時因為是涉及到給特定的人講話，可能我會注意語氣如何，但是專八作文是議論文，似乎很難把握什么是“語氣恰當(dāng)”……

可見，“語氣恰當(dāng)”這一項似乎并不符合本次評分的情景，反而有可能加重評分員的負擔(dān)。

4.2.2 評分標(biāo)準對評價行為建構(gòu)的作用

按照DeRemer（1998）的觀點，評分行為是一種建構(gòu)過程。但是DeRemer并沒有明確指出影響這一建構(gòu)的因素是什么。相關(guān)研究表明評分標(biāo)準、評分培訓(xùn)、評分員經(jīng)驗都會對評分過程產(chǎn)生影響（Huot,1998;Erdosy,2004;Lumley,2005），那么，這些因素顯然也會對評分行為的建構(gòu)起主要作用。對有聲思維數(shù)據(jù)的分析發(fā)現(xiàn)，盡管評分員之間的建構(gòu)模式在一些方面不盡相同，但總體上仍然是在評分標(biāo)準的統(tǒng)領(lǐng)下。為說明這一點，選取其中一位評分員R4對某篇作文的評價：

（7）現(xiàn)在這篇，有題目，但沒出現(xiàn)觀點，然后文章一共寫了兩頁，分段還行……然后我看文章的段落，第一段first and foremost,besides,last but not least，all in all,結(jié)構(gòu)還可以吧，看看寫的怎么樣。第一段……只能說是有觀點，內(nèi)容倒是切題……文章給個60分吧……第二段（閱讀），release pressure,這個倒還行，……還用了decrease,還可以，可以給個13。這篇文章沒有大的錯誤，結(jié)構(gòu)也還行，雖然剛才說了那么多的問題，但是拿個60分是沒有問題的，我覺得可以給到13?6+6+1.5=13.5吧。但是如果他都能拿13.5的話，那剛才的15.5我覺得都給低了?！野褎偛诺?4.5的那篇加成了15.5，……這樣才比較公平。

表4 關(guān)注最多與最少項

R4在評分時首先關(guān)注的是文章的整體，接下來她關(guān)注文章的結(jié)構(gòu)安排，然后看有沒有觀點、論證如何、在閱讀過程中尋找語言能力的證據(jù)，作出初步?jīng)Q定，進行修正，再作出最后決定。R4的評分行為可以大致描述如圖3所示。圖中虛線表示評分員在評分的每一個步驟中都可能做出預(yù)設(shè)決定。R4在尋找“觀點及論證”證據(jù)的同時進行著語言能力證據(jù)的收集?？梢钥闯?，R4對評分行為的建構(gòu)極大地受到了評分標(biāo)準的影響，這再次說明，評分標(biāo)準在評分過程中對評分員發(fā)揮了有效的作用。

通過以上對有聲思維數(shù)據(jù)的分析可以得出以下結(jié)論：在評分過程中，盡管有個別評價超出了標(biāo)準的范圍，也有某些標(biāo)準中所列的項目未引起評分員的關(guān)注。但從整體上來看，評分員的評分行為基本上是在評分標(biāo)準的引導(dǎo)下進行的，評分員對作文的評價也大都圍繞標(biāo)準中所列項目進行。

4.3 討論

評分員培訓(xùn)是保證評分效度的有效措施之一。Lumley（2005）認為評分過程就是評分員將自己對文本的感知與外在的、概括的評分標(biāo)準之間達成一致的過程。然而由于評分員的經(jīng)驗不同，對評分標(biāo)準的理解也會不盡相同，評分培訓(xùn)就是為了讓評分員對標(biāo)準的理解和使用達到較高的一致性。本研究發(fā)現(xiàn)，盡管評分標(biāo)準對評分員的評分行為建構(gòu)起到了引導(dǎo)作用，但依然存在著諸如有的評分員評分前后一致性不高，評分過于集中或過于嚴厲等現(xiàn)象。有聲思維數(shù)據(jù)分析表明他們對評分行為的建構(gòu)體系不盡相同，個人經(jīng)驗起到了較大作用。因此，評分員培訓(xùn)應(yīng)該重視評分員對評分行為的構(gòu)建，盡可能讓這種構(gòu)建具有一致性和可操作性。

另外，在語言測試界，有關(guān)大規(guī)模寫作測試究竟應(yīng)使用整體式還是分項式評分方式的爭論一直存在。比如，有學(xué)者認為整體式評分比分項式更具有真實性（White,1995），由于可以快速評分而在大規(guī)模測試中具有更大的可行性（Shaw&Weir, 2007）。分項式評分方式相對于整體式則更能提高評分信度（Hamp-Lyons,1991），然而也由于較多的文本特征描述給評分員造成過重的負擔(dān)（Luoma, 2004）等等。盡管TEM-8采用分項式的評分標(biāo)準，但是TAPs數(shù)據(jù)顯示，有一些評分員在評分時并不是按照所列標(biāo)準逐一進行評分，正如Weigle（2002）在論述分項式評分的真實性時所說的那樣，“評分員也許會先作出整體評價，然后調(diào)整各分項分數(shù)來與整體評價保持一致”。TEM-8屬于有一定規(guī)模的考試，考試設(shè)計者面臨兩難選擇，使用整體式評分能降低閱卷成本，但卻要冒著降低評分信度的風(fēng)險；使用分項式評分雖然理論上能夠提高信度，但是卻費時費力。設(shè)計出既能保證評分信度不受影響，又能使閱卷成本降低的評分方式是開發(fā)者需要認真研究的課題。

圖3 R4評分行為建構(gòu)模型

最后，本研究發(fā)現(xiàn)盡管評分標(biāo)準能夠發(fā)揮較好功能，但也存在一些不足。比如，評分標(biāo)準的制定雖然較好體現(xiàn)了理論構(gòu)念，列舉了比較詳細的項目，但是也給評分員造成了一定的負擔(dān)，有的項目在評分中并沒有被關(guān)注或極少被關(guān)注。而且，標(biāo)準只列舉了評分中的關(guān)注項目和給分段，并沒有對各分數(shù)段所對應(yīng)的文本特征進行易于理解的描述。Alderson（1991）在對IELTS以評分員為中心的評分標(biāo)準的制定過程進行描述時講到：“一些表述方式因為太過復(fù)雜和使用元語言描述而被修正?！笨梢姡琓EM-8作文評分標(biāo)準的制定應(yīng)該更加注重簡潔性和可行性，并且能夠增加與分數(shù)段相對應(yīng)的文本特征描述語。

5 結(jié)論

本研究采用定量、定性等方法對TEM-8評分進行了分析，研究結(jié)果表明評分標(biāo)準能較好地反映寫作測試的理論構(gòu)念，各維度及分數(shù)段劃分較為合理，大部分評分員能較好使用評分標(biāo)準，其評分過程也是在標(biāo)準的引導(dǎo)下進行，評分結(jié)果信度較高。但也存在一些問題，比如有少數(shù)評分員在使用評分標(biāo)準時存在前后不一致和評分過度嚴厲的情況，有一些評分員借助了標(biāo)準之外的經(jīng)驗因素進行判斷，而一些標(biāo)準所列項目并未得到或者很少得到評分員的關(guān)注等。

本研究尚存在以下不足之處，首先，樣本數(shù)量較少會導(dǎo)致測量誤差較大；其次TAPs數(shù)據(jù)收集無法克服真實性和反作用性兩大缺陷；另外，本研究雖然從多方面收集證據(jù)對TEM-8評分標(biāo)準進行效度驗證，然而對于評分過于嚴厲，或者評分擬合過度或擬合不足的評分員仍需做進一步探究。

[1]Alderson,J.C.Bands and scores[C]//Alderson,J.C,&North,B.（eds.）.Language testing in the 1990s London.Macmillan,Develop?ments in ELT,1991:71-86.

[2]Anderson,J.C.Testing Reading Comprehension Skills（part 2）[J]. Reading in a Foreign Language,1990（7）:465-503.

[3]Bachman,L.F.,Lynch,B.K.,&Mason,M.Investigating variability in tasks and rater judgements in a performance test of foreign lan?guage speaking[J].Language Testing,1995（12）:238-257.

[4]Barkaoui,K.Think-aloud protocols in research on essay rating:An empirical study of their veridicality and reactivity[J].Language Test?ing,2011,28（1）:51-75.

[5]Carr,N.A comparison of the effects of analytic and holistic rating scale types in the contest of composition tests[J].Issues in Applied linguistics,2000（11）:207-241.

[6]Connor,U.,&Carrell,P.The interpretation of tasks by writers and readers in holistically rated direct assessment of writing[C]//Carson, J.G.,&Leki,I.Reading in the composition classroom.Boston,MA: Heinle and Heinle.1993:141-160.

[7]Cumming,A.,Kantor,R.,&Powers,D.Decision making while scor?ing ESL/EFL compositions:A descriptive model[J].Modern Lan?guage Journal,2002（86）:67-96.

[8]DeRemer,M.Writing assessment:Raters’elaboration of the rating task[J].Assessing Writing,1998（5）:7-29.

[9]Eckes,T.Rater types in writing performance assessments:A classifi?cation approach to rater variability[J].Language Testing,2008,25（2）:155-185.

[10]Erdosy,M.U.Exploring Variability in Judging Writing Ability in a Second Language:A Study of Four Experienced Raters of ESL Compositions:TOEFL Research Report[R].Princeton,NJ:Educa?tional Testing Service,2004.

[11]Ericsson,K.A.,&Simon,H.A.Protocol Analysis:Verbal Reports as Data[M].Cambridge,MA:The MIT Press,1993.

[12]Freedman,S.W.How characteristics of student essays influence teachers’evaluations[J].Journal of Educational Psychology,1979（71）:328-338.

[13]Green,A.J.K.Verbal protocol analysis in language teaching re?search[M].Cambridge：Cambridge University Press and University of Cambridge Local Examinations Syndicate,1997.

[14]Hamp-Lyons,L.Scoring procedures[C]//Hamp-Lyons,L.Assess?ing second language writing in academic contexts.Norwood,NJ: Ablex,1991:241-276.

[15]Hamp-Lyons,L.Rating non-native writing:the trouble with holis?tic scoring[J].TESOL Quarterly,1995,29（4）:759-762.

[16]Huot,B.A.The validity of holistic scoring:A comparison of talkaloud protocols of expert and novice holistic raters[D].Indiana, PA:Indiana University of Pennsylvania,1988.

[17]Linacre,J.M.Guidelines for Rating Scales and Andrich Thresh?olds[EB/OL].[2015-10-13].http://www.rasch.org/rn2.htm.

[18]Linacre,J.M.A User’s Guide to FACETS:Rasch-Model Comput?er Program[EB/OL].[2015-10-13].http://www.winsteps.com.

[19]Lumley,T.Assessment criteria in a large-scale writing test:what do they really mean to the raters?[J].Language Testing,2002,19（3）:246-276.

[20]Lumley,T.Assessing second language writing:The rater’s per?spective[M].Frankfurt am Main：Peter Lang，2005.

[21]Luoma,S.Assessing speaking[M].Cambridge:Cambridge Univer?sity Press,2004.

[22]McNamara,T.F.Measuring Second Language Performance[M]. Harlow:Addison Wesle Longman,1996.

[23]Messick,S.Validity[C]//Linn,R.L.Educational measurement（3rd ed.）.London:Collier Macmillan,1989:12-103.

[24]Shaw,S.,&Weir,C.J.Examining Writing in a Second Language [M].Cambridge，UK:Cambridge University Press and Cambridge ESOL,2007.

[25]Smith,D.Rater judgements in the direct assessment of competen?cy-based second language writing ability[C]//Brindley,G.Studies in immigrant English language assessment（vol 1）.Sydney:NCEL?TR,Macquarie University,2000:159-89.

[26]Vaughan,C.Holistic assessment:what goes on in the rater’s mind? [C]//Hamp-Lyons,L.Assessing Second Language Writing in Aca?demic Contexts.Norwood,NJ:Ablex Publishing Corporation, 1991:111-125.

[27]Weigle,S.Using FACETS to model rater training effects[J].Lan?guage Testing,1998,15（2）:263-87.

[28]Weigle,S.C.Assessing writing[M].Cambridge,UK:Cambridge University Press,2002.

[29]White,E.M.An apologia for the timed impromptu essay test[J]. College Composition and Communication,1995（46）:30－45.

[30]Wolfe,E.W.,Kao,C.W.,&Ranney,M.Cognitive differences in proficient and non-proficient essay scorers[J].Written Communi?cation,1998（14）:465-492.

[31]Zhang,Y.,&Elder,C.Judgements of oral proficiency by non-na?tive and native English speaking teacher raters:Competing or com?plementary constructs?[J].Language Testing,2011,28（1）:31-50.

[32]李航.基于概化理論和多層面Rasch模型的CET-6作文評分信度研究[J].外語與外語教學(xué),2011（5）:51-56.

[33]劉建達.評卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語, 2010（2）:185-193.

[34]鄒申.提升考試公平性:以英語專業(yè)四、八級考試為例[J].外語測試與教學(xué),2011（1）:42-50.

Validating TEM-8 Rating Scale via MFRM and TAPs Based Evidence

CHEN Jianlin

The validation study of the rating scale used in Test of English Majors（TEM-8）writing assessment was conducted based on data from the rating scores of 13 raters each rating 10 TEM-8 essays and their Think-aloud Protocols during rating.Quantitative analysis using Multi-Facets Rasch Model and qualitative analysis using Nvivio showed the following results:1）the rating scale is appropriately categorized and operates well during the rating process;2）although a few raters’ratings exhibit some misfit and severity,the majority of the raters are able to rate with high consistency using the scale.

Multi-Facets Rasch Model;Think-aloud Protocols;Rating Criteria;Validation

G405

1005-8427（2016）01-0029-10

本文系教育部人文社會科學(xué)青年基金項目“基于語料庫的甘肅藏漢中學(xué)生書面語對比研究”（項目編號:15YJC740004）的研究成果之一；本文得到“蘭州大學(xué)中央高?；究蒲袠I(yè)務(wù)費專項資金”（項目編號：2022014skzy001）資助。

陳建林，男，蘭州大學(xué)外國語學(xué)院，講師，博士（蘭州 730000）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大規(guī)模英語考試作文評分標(biāo)準效度驗證

1 引言

2 相關(guān)文獻分析

3 研究方法

4 結(jié)果及討論

5 結(jié)論