北京信息科技大學(xué)
鄭美玲
提 要: 為了科學(xué)地量化考生在新聞編譯測試中的作答表現(xiàn),本研究基于新聞編譯能力模型構(gòu)建三分項五等級編譯評分量表,包括內(nèi)容轉(zhuǎn)換的準(zhǔn)確和客觀、信息編輯的適度和合理、語言運用的準(zhǔn)確與得體三大評分維度,另在文獻(xiàn)分析的基礎(chǔ)上編制新聞編譯九級整體量表,并利用facet軟件對3名評分員使用兩份評分量表對同樣60份編譯文的評分結(jié)果進(jìn)行對比分析,以驗證量表的質(zhì)量。數(shù)據(jù)顯示,兩份量表具有較好的信度和效度。相比之下,分項量表能更準(zhǔn)確地區(qū)分考生的新聞編譯能力,量表各分?jǐn)?shù)段之間的區(qū)別更明顯,評分員使用該量表時評分員效應(yīng)更小,評分信度更高。
編譯是媒體機構(gòu)從業(yè)人員所從事的典型筆譯活動,新聞編譯助推中外信息交流離不開一支高水平的編譯隊伍。《中國英語能力等級量表》的翻譯書面論述能力分量表中也明確指出,譯者要能夠根據(jù)需要適當(dāng)“編譯”新聞,這一標(biāo)準(zhǔn)的提出對編譯的教、學(xué)與測產(chǎn)生了深遠(yuǎn)影響。其中,編譯測試是編譯人才培養(yǎng)中必不可少的一部分,而考核學(xué)生的編譯能力則需要一套可靠有效的測量工具。近年來,行為測試因其任務(wù)的真實性而深受青睞(Messick, 1995; McNamara, 1996; Bachman, 2002; Brown, 2004),對于采用直接測試題型的翻譯行為測試而言,其效度“良好”,但也容易出現(xiàn)評分信度不易把握等問題,“翻譯測試評分信度問題成為一個亟待解決的難題”(王金銓、文秋芳,2009)。建立能夠反映被測群體翻譯能力構(gòu)念的評分量表是關(guān)鍵環(huán)節(jié)(陳怡,2010),其科學(xué)性與測試的效度直接相關(guān)。然而,國內(nèi)外大學(xué)使用的某些翻譯評分標(biāo)準(zhǔn)存在主觀性較強或理論論證不充分等問題(穆雷,2006),大多數(shù)行為測試的評分量表僅在已有量表的基礎(chǔ)上進(jìn)行措辭上的微調(diào),量表實證研究也有待加強(McNamara, 1996, 1997轉(zhuǎn)引自孔文等,2007),開發(fā)嚴(yán)格細(xì)致的評分量表等翻譯測試評分研究亟待展開(張新玲,2011;江進(jìn)林等,2012)。因此,本文擬圍繞新聞編譯測試評分量表的研發(fā)進(jìn)行探究,推動編譯人才培養(yǎng)及相關(guān)研究。
交際語言行為測試主要采用綜合型和分析型兩種評分方法(王振亞,2012b: 332)。整體法耗時少,評分員可以在較短的時間內(nèi)對譯文質(zhì)量做出評價,經(jīng)濟實用。但是,評分員往往只關(guān)注部分譯文特征,容易“只見森林不見樹木”,影響信效度;相比之下,評分員使用分項法從不同維度分別評價譯者能力,觀察更細(xì)致,可以為考生和測試使用者提供更多的診斷或反饋信息,考生分?jǐn)?shù)的解釋力更強,缺點是成本較高。兩種評分方法在信度、效度、實用性等方面各有優(yōu)缺點(Weigle, 2002),不同量表的使用對主觀測試的評分結(jié)果產(chǎn)生重要影響,在條件允許的情況下,二者結(jié)合是最理想的做法,可以取長補短,發(fā)揮各自的優(yōu)勢(喬潔,2016)。
有鑒于此,本文將采用綜合型和分析型相結(jié)合的方法,重點探討如下兩個問題:
(1) 如何設(shè)計新聞編譯分項評分量表的評分分項、分項量表和整體量表的等級和描述詞?
(2) 兩份量表的效度怎樣?
對于問題一,將基于新聞編譯能力模型這一測試構(gòu)念分別研制編譯分項評分量表和整體評分量表;對于問題二,擬通過一項模擬真實語境下的新聞編譯行為測試任務(wù)獲得受試作答表現(xiàn),然后使用多面Rasch模型對三位評分員使用兩量表所取得的評分結(jié)果進(jìn)行對比分析,利用實證數(shù)據(jù)檢驗量表的質(zhì)量。
測試構(gòu)念是評分量表的理論基礎(chǔ),量表的操作定義要基于所測構(gòu)念這一理論定義,例如語言能力評分量表的各個評分維度應(yīng)該與語言能力模型的各個子能力相對應(yīng),這是開發(fā)量表需要遵循的一條重要原則(Bachman & Palmer, 1996)。摘譯測試分項評分量表的研發(fā)(鄭美玲,2019)就是以摘譯能力的構(gòu)成要素為基礎(chǔ),探究如何有效地測量學(xué)生的摘譯能力。本文借鑒該思路,在厘清新聞編譯能力構(gòu)成成分的基礎(chǔ)上,探討如何科學(xué)地設(shè)計評分量表,用以評價譯者運用編譯這另一重要的變譯方法處理新聞素材的表現(xiàn)。
1. 新聞編譯能力
翻譯能力的定義和分解一直是翻譯研究者關(guān)注的焦點之一(呂曉軒,2016: 138)。學(xué)者們普遍認(rèn)為,翻譯能力由諸多子能力構(gòu)成(Cao, 1996: 328-336; Colina, 2009: 132-133;王振亞,2012a: 45-47;馬會娟,2013: 56;白玲、馮莉、嚴(yán)明,2018: 101-110)?!队h新聞編譯能力探究》(鄭美玲,2018)一文以交際語言能力和多元素翻譯能力模型為理論基礎(chǔ)構(gòu)建新聞編譯能力模型,并通過對新聞編譯從業(yè)者的訪談與問卷調(diào)查對該模型進(jìn)行了驗證與修正,既有理論推導(dǎo)又有實證數(shù)據(jù)檢驗,因此本研究將以該模型為理論基礎(chǔ)設(shè)計評分量表。新聞編譯能力可以包含雙語能力、知識結(jié)構(gòu)、使用能力、選擇能力、轉(zhuǎn)換能力和心理-生理機制。語言能力和知識結(jié)構(gòu)是說明性知識,使用、選擇和轉(zhuǎn)換能力是程序性知識。選擇能力和轉(zhuǎn)換能力共同構(gòu)成編譯者的核心能力,其中選擇能力是編譯者所特有的能力,指譯者通過多種渠道從英文新聞“現(xiàn)場”中選擇有價值的稿件作為原稿件,或依據(jù)給定主題選擇有價值的稿件作為補充素材的選題能力,以及選擇向特定讀者群體呈現(xiàn)所選新聞“場面”里的哪些信息、如何呈現(xiàn)這些信息的編輯能力,如譯者根據(jù)意識形態(tài)、媒體立場、讀者需求和版面情況,調(diào)動分析、歸納、綜合、概述等認(rèn)知機制完成對文本信息的增、減、調(diào)、并等處理的能力,本質(zhì)上考察譯者區(qū)分主次的能力。
2. 分項評分量表
翻譯分項評分量表一般由評分維度、等級水平和對考生表現(xiàn)的詳細(xì)說明三要素構(gòu)成(Goodrich, 1997)。評分員根據(jù)考生在各個維度上的表現(xiàn),依據(jù)等級描述,分別打分,最后簡單相加或加權(quán),形成總分。評分量表可以采用簡化參數(shù)、能力描述和語義微分三種模式,其中簡化參數(shù)式的操作性更強,評估參數(shù)和權(quán)重可以根據(jù)翻譯任務(wù)的情境適當(dāng)調(diào)整(鄭美玲,2019),故采用該模式。筆者基于新聞編譯能力模型,制定初步的評價表單,然后參考業(yè)內(nèi)標(biāo)準(zhǔn)修正該表單,最終生成評價因素清單,包括信息準(zhǔn)確、編輯適度、語法準(zhǔn)確、語言得體、語篇流暢、立場堅定、體例準(zhǔn)確等。評分維度數(shù)量過多會給評分員造成認(rèn)知負(fù)荷,分項設(shè)置為2—5個比較合理,可以提高量表的可操作性。有鑒于此,筆者對這些評估因素進(jìn)行歸類整合,得到內(nèi)容轉(zhuǎn)換、信息編輯、語言表述作為新聞編譯測試分項評分量表的三個維度,每個維度下包含五個評價級別,5代表最高級,1代表最低級(見表1)。內(nèi)容轉(zhuǎn)換和信息編輯分項分別主要對應(yīng)轉(zhuǎn)換能力和編輯能力,但二者與語言能力、使用能力、知識結(jié)構(gòu)和心理-生理素養(yǎng)都有一定的關(guān)系;語言表述分項主要對應(yīng)語言能力中的詞匯、語法和語篇知識,但是與知識結(jié)構(gòu)、使用能力、編輯能力和轉(zhuǎn)換能力也有互動關(guān)系。使用能力和知識結(jié)構(gòu)在三維度上均有體現(xiàn),因此不再另設(shè)維度,也沒有單獨測量選題能力,因為這里考察的是編譯成品,即考生的編譯文本作答表現(xiàn),而非過程,而且選題并非必需能力。對各分項的具體解讀如下:
表1. 新聞編譯行為測試分項評分量表
(1) 內(nèi)容轉(zhuǎn)換分項指編譯的準(zhǔn)確性和客觀性。譯者須準(zhǔn)確理解源稿信息,還要慎用形容詞和具有感情色彩的詞語,符合國家和媒體立場。內(nèi)容分量表重點考察主要新聞事實、數(shù)字、人名、地名、機構(gòu)名、時間等編輯后的信息轉(zhuǎn)換是否準(zhǔn)確,有無主觀翻譯和立場問題。
(2) 信息編輯分項指語篇層面信息處理的適度性和邏輯性,譯者需要使用多種編輯方法對原稿進(jìn)行加工,具體指在詞、句、段層面進(jìn)行刪、調(diào)、并、增等信息的取舍和編排,“刪”指取舍信息,保證篇幅符合要求;“調(diào)”指按照倒金字塔結(jié)構(gòu)調(diào)整段落的安排,使語篇銜接連貫;“并”指合并刪減后的信息;“增”指增加背景信息或過渡性的語句使譯文銜接通順。編輯分量表重點考察刪和調(diào)的合理性,即是否圍繞稿件主旨恰當(dāng)?shù)厝∩嵝畔ⅲ瑯?biāo)題簡明扼要,導(dǎo)語和正文部分無冗余信息且邏輯性強。
(3) 語言表述分項指語言的準(zhǔn)確性和得體性,譯稿要符合新聞文體特征,保證成文后為新聞稿件,而非散文或者記敘文。詞匯、語法、句式的處理要準(zhǔn)確。語言分量表重點考察譯稿有無語法、錯別字、標(biāo)點、搭配等錯誤,遣詞造句是否符合新聞文體。
3. 整體評分量表
我們在Carroll(1980)交際語言測試評分量表的基礎(chǔ)上設(shè)計編譯九級綜合性評分量表(見表2)。該量表重點關(guān)注譯者對“原文的理解能力”、“編輯能力”和“譯文的表達(dá)能力”,包含九個級別,9代表編譯質(zhì)量最高,1代表質(zhì)量最差。
表2. 新聞編譯行為測試九級整體評分量表
1. 研究方法
1) 編譯任務(wù)
筆者調(diào)查編譯在媒體機構(gòu)中的使用情況,結(jié)合工作實際,盡可能設(shè)計真實的編譯任務(wù): 要求考生把兩篇國際時政新聞(1000字左右/英)整理成一篇有重點,有邏輯,可讀性強的新聞(700—950/中)供國內(nèi)讀者閱讀,譯稿篇幅約占全譯文的一半。譯者需要自行編寫標(biāo)題和導(dǎo)語,標(biāo)題要具體、生動,導(dǎo)語能準(zhǔn)確概括主旨,正文部分要重點突出、邏輯清晰,必要時刪減信息并調(diào)整段落。
2) 數(shù)據(jù)收集
受試為外語類重點院校、985高校的MTI專業(yè)和英語專業(yè)本科(翻譯方向)高年級學(xué)生,來自MTI新聞編譯班、MTI翻譯班和本科高年級翻譯班,我們征求任課教師意見,在新聞編譯課或翻譯課上實施測試,共100分鐘,并事先告知考生測試成績將計入平時成績。在兩個班級進(jìn)行試測后,為了保證評分質(zhì)量,我們在評分前對評分員(教齡均在8年以上)進(jìn)行培訓(xùn),通過研讀分項量表,熟悉各等級描述,就評分標(biāo)準(zhǔn)達(dá)成一致;組織評分員對照簡明評分量表進(jìn)行試評并統(tǒng)計評分結(jié)果,根據(jù)量表的效度指標(biāo)修正量表的描述詞,依據(jù)評分員一致性信度指標(biāo)指導(dǎo)評分員調(diào)整嚴(yán)厲度。隨后,在另外三個班級進(jìn)行正式測試,對60份具有代表性的編譯稿逐一編號并復(fù)印,每份答卷均由3名評分員獨立評分。在正式評分階段,我們請3位評分員先采用整體評分量表評分。三個月后,請這3位評分員按照修改后的分項評分量表再次給編譯文打分。
3) 數(shù)據(jù)分析
多面Rasch模型能夠提供評分員、考生、評分量表以及其它層面豐富的診斷信息,具有無可比擬的優(yōu)勢。在過去40年間,語言測試界大力提倡該方法的使用(McNamara & Knoch, 2012: 555-576)。本研究采用多面Rasch模型考察兩量表在各層面的表現(xiàn)以及評分員與考生、評分員與評分分項的交互情況。對整體量表的考察采用評等量尺模型(Rating Scale Model),數(shù)學(xué)公式為: log(Pnjk/Pnj(k-1))=Bn-Cj-Fk,主要考察2個測量層面,分別為被試的編譯能力(Bn)和評分員的嚴(yán)厲度(Cj),公式中的Pnjk表示被試的編譯文n由評分員j評為k等級的概率,Pnj(k-1)指被試的編譯文n由評分員j評為k-1等級的概率;分項量表采用部分得分模型(partial credit model),公式為: log(Pnjik/Pnji(k-1))=Bn-Cj-Di-Fk,這里的考察涉及3個測量層面,分別為被試的編譯能力(Bn)、評分員(Cj)和量表各評分分項的難度(Di),其中Pnjik表示被試的編譯文n由評分員j在評分維度i上評為k等級的概率,Pnji(k-1)指被試的編譯文n由評分員j在評分維度i上評為k-1等級的概率。以上兩個多層面Rasch模型分析均在FACETS 3.58.0軟件中進(jìn)行。
2. 結(jié)果與討論
1) 考生層面
篇幅有限,考生層面輸出結(jié)果不做列表展示。第一,McNamara(1996: 173)認(rèn)為,平均值正負(fù)兩個標(biāo)準(zhǔn)差之間的Infit取值范圍都可接受。據(jù)此,考生層面的整體量表Infit值應(yīng)該在-0.92— 2.76之間,而分項量表在0.08—1.88之間。標(biāo)準(zhǔn)擬合統(tǒng)計量(Z值)是評價擬合度的另一個指標(biāo),表示對過度擬合和不擬合進(jìn)行t檢驗的結(jié)果(Linacre, 2002b: 878),取值范圍在-2—2 之間。按照這些標(biāo)準(zhǔn),整體量表下有4位不擬合考生,其中一位呈顯著不擬合(Z值大于2),無過度擬合和顯著過度擬合考生;分項量表下不擬合的考生有五位,無過度擬合考生,|Z| 值在合理范圍內(nèi)。絕大多數(shù)考生得分與模型預(yù)期良好。第二,整體量表下分隔比率(2.48)、 分隔信度(0.86)和卡方檢驗結(jié)果(卡方值411.9,p=0.00)表明考生之間在能力上存在顯著差異且具有統(tǒng)計意義;分項量表的分隔比率(3.12),分隔信度(0.91)和卡方值(583.1)更大,且具顯著性(p=0.00),說明分項量表對考生的區(qū)分能力更強且考生間能力存在差異的把握更大。分項量表下的SPSS輸出結(jié)果進(jìn)一步證實了這一結(jié)論。受試中有一部分MTI學(xué)生參加了環(huán)球網(wǎng)的新聞編譯實習(xí)(約半年),若引入實習(xí)這一變量,這些考生可進(jìn)一步劃分為五個群體,其編譯測試成績按照由大到小的順序排列依次為: 既上編譯課又參加實習(xí)的MTI學(xué)生、參加實習(xí)但未上編譯課的MTI學(xué)生、上編譯課但未參加實習(xí)的MTI學(xué)生、既未上課也未參加實習(xí)的MTI學(xué)生、本科高年級學(xué)生。方差分析(F值=8.469,顯著性=0.000)顯示,五個群體的編譯成績有顯著差異,方差齊性條件下的事后多重比較進(jìn)一步顯示,本科高年級班與無課無實習(xí)的MTI學(xué)生成績無顯著差異,與其他所有群體的成績均呈顯著性差異,該班僅在考試前接受新聞編譯指導(dǎo),這樣的結(jié)果與預(yù)期是相符的。無課無實習(xí)的MTI學(xué)生與有課有實習(xí)的MTI學(xué)生雖屬同一年級,成績卻存在呈顯著差異,這在一定程度上說明,為期半年的新聞編譯課和環(huán)球網(wǎng)編譯實習(xí)的聯(lián)合培養(yǎng)模式有助于編譯能力的提高。
2) 評分員層面
首先,根據(jù)表3,若將評分員按照嚴(yán)厲度由高到低的順序進(jìn)行排列,整體量表下依次為評分員C、評分員B、評分員A,而分項量表下則為評分員C、評分員A、評分員B。從嚴(yán)厲度的跨度來看,整體量表下最嚴(yán)厲與最仁慈的評分員之間相差近2.5個洛基值,而分項量表下僅0.35個洛基值。另外,分隔比率、分隔信度和卡方檢驗值也是表示評分員嚴(yán)厲度的重要統(tǒng)計量。分隔信度越大,說明評分員之間的差異越大,一致性越低,若同時分隔比率也大,說明該差異與誤差無關(guān)。表3整體量表下的分隔比率為6.31,分隔信度0.98,卡方值81,且呈顯著性(p=0.00), 這說明三位評分員的嚴(yán)厲度有顯著差異。而分項量表下的分隔比率(0.66)小于2,分隔信度(0.30)小于0.9,卡方值僅2.9,不具顯著性(p=0.24>0.05),這說明可以接受評分員評分無差異的零假設(shè),分項量表下三位評分員的嚴(yán)厲度沒有顯著差異,這是理想的結(jié)果。
表3. 兩量表下評分員的嚴(yán)厲度與一致性
其次,擬合統(tǒng)計量(Infit)則反映了評分員評分的自身一致性,相當(dāng)于經(jīng)典測試?yán)碚撝械摹霸u分員內(nèi)部信度”(intra-rater reliability)(Myford & Wolf, 2000: 6)。在評分過程中,由于受到各種主觀因素的影響,評分員不可能總按照一定的嚴(yán)厲度進(jìn)行評分,適當(dāng)?shù)淖兓窃试S的。按照Infit取值范圍在正負(fù)兩個標(biāo)準(zhǔn)差之間的標(biāo)準(zhǔn),兩量表下三位評分員的加權(quán)均方擬合值均在合理范圍(整體量表0.53—1.29,分項量表0.92-1.04),且|Z|<2,這表明三位評分員在使用兩個量表時內(nèi)部一致性較好。若超出允許的范圍,需要對非擬合或者過度擬合的評分員繼續(xù)進(jìn)行重新培訓(xùn)或者予以更換(劉建達(dá),2005: 162)。非擬合說明評分員對評分標(biāo)準(zhǔn)把握不準(zhǔn),評分時而寬松時而嚴(yán)格,要結(jié)合考生-評分員的交互來分析具體原因。過度擬合說明評分員在評分時可能存在一定的趨中性或光環(huán)效應(yīng),可使用SPSS分析相關(guān)評分員使用的評分量表等級情況,如果非擬合或者過度擬合個數(shù)不多,也可視為內(nèi)部一致性可接受。
3) 評分分項層面
第一,評分分項的擬合統(tǒng)計量是驗證評分量表效度的重要指標(biāo)。不擬合(misfit)表示維度欠合理或區(qū)分度不高,如果不擬合情況較少,則有證據(jù)說明該評分分項的效度較高(Wright & Master, 1982)。表4顯示分項量表各個維度的加權(quán)均方擬合值均在合理范圍(0.94— 1.02),且|Z|<2,這表明量表沒有冗余的分項,所設(shè)置的三個分項代表了新聞編譯能力的不同維度,共同測量了新聞編譯能力這一構(gòu)念。將考生在不同維度上的分?jǐn)?shù)相加作為對考生新聞編譯能力的考察是合理的。第二,分項的度量值越高,其難度越高,評分員對該項的評分越嚴(yán)厲,考生在該項上越難得到分?jǐn)?shù),這里編輯分項的難度最高,語言分項難度最低,這與編譯子能力的特點和編譯方向有關(guān): 編輯能力是編譯者特有的核心子能力,因此評分員可能會更重視該能力,在評價時更嚴(yán)厲;而且,編輯能力是考生在具備一定的理解能力之后才發(fā)展起來的能力。此外,英漢方向的編譯對于母語為漢語的考生而言,語言表達(dá)的難度一般低于內(nèi)容理解的難度。第三,該表底部的分隔比率(2.48)、分隔信度(0.86) 和卡方檢驗結(jié)果(卡方值21.2,p=0.00)表明三個分項之間的難度具有統(tǒng)計意義上的顯著差異。
表4. 評分分項的合理性
表5. 整體量表評分員與考生的偏差分析表
4) 評分量表層面
本層面重點考察整體量表和分項量表各分項下所有分?jǐn)?shù)段的使用情況(見表5)。第一,從各分?jǐn)?shù)段的使用頻次來看,各表第一列顯示,三位評分員在使用所有量表時都未使用最低分,這可能與考生層次有關(guān): 所有測試對象均接受過系統(tǒng)的翻譯訓(xùn)練,具備一定的翻譯能力,有一半的考生上過新聞編譯課或者進(jìn)行過編譯實習(xí),其他考生在考前都接受了編譯培訓(xùn),因此考生能力均在1級以上。但是,達(dá)到專家級水平對考生提出了極高的要求,因此整體量表下沒有評分員給出9分最高分。各表第三列顯示,整體量表下的中間分?jǐn)?shù)段4、5、6級使用次數(shù)最多。分項量表下也是3、4中間分?jǐn)?shù)段使用較多。
第二,分?jǐn)?shù)段與考生能力的對應(yīng)情況還要參考未加權(quán)均方擬合度(Outfit MnSq)這一重要指標(biāo)。實際觀測到的考生平均度量值和模型預(yù)測度量值越接近,Outfit值越接近理想值1。若該值大于2,表明給評分過程帶來噪音,可能無法正確反映考生能力(Linacre, 1999: 103-122)。數(shù)據(jù)顯示,整體量表下絕大多數(shù)分?jǐn)?shù)段的Outfit值接近1,所有分?jǐn)?shù)段的Outfit均值為0.96;內(nèi)容分量表的Outfit均值為0.90,編輯和語言量表均值為1,情況較理想。另外,考生能力越高,得分也應(yīng)越高,所有量表的各分?jǐn)?shù)段上實測考生能力平均度量值和模型預(yù)測度量值呈單調(diào)遞增趨勢,這說明每個分?jǐn)?shù)段均體現(xiàn)了考生相應(yīng)的能力。
第三,表格最右列為階標(biāo)定值(step calibration),即各分?jǐn)?shù)段的起始值,該值也應(yīng)呈單調(diào)遞增趨勢,而且各分?jǐn)?shù)的起始值應(yīng)該具備足夠的間隔來區(qū)分考生能力。間隔應(yīng)該在1—5個洛基值之間(Linacre, 2002a: 85-106)或1.4—5個洛基值之間(Bond & Fox, 2007: 224)。如果間隔過小,就要合并分?jǐn)?shù)段或者修改評分量表。這里各量表各分?jǐn)?shù)段的階梯標(biāo)定值呈單調(diào)遞增趨勢,且各分?jǐn)?shù)段之間的間隔均在合理范圍之內(nèi),具備足夠的區(qū)分考生能力的分隔間距,這說明評分員能較一致的正確利用各個等級分?jǐn)?shù)段來區(qū)分考生能力。
第四,概率曲線圖能直觀的觀察各等級的使用情況。每個波形代表一個分值(等級),應(yīng)該有一個相對獨立且有一定間隔的峰尖,像一座分布均勻的小山峰,每個分值對應(yīng)一個明顯的能力區(qū)域,兩個波形的交點是相鄰兩個分值的臨界點,該區(qū)域內(nèi)的考生更容易獲得該分值(Park, 2004: 15)。整體量表和三個分項的分?jǐn)?shù)段概率曲線圖顯示,兩量表的各個分?jǐn)?shù)段都有獨立的峰尖及明顯的考核區(qū)域,能區(qū)分不同水平考生的能力。
5) 偏差分析
偏差分析能為我們提供更多的診斷信息,通過觀察t值的大小,可以判斷評分員是否對某些考生或者在使用某些分項時過于寬松或嚴(yán)厲,與模型預(yù)期不符。偏差分析一般處理顯著偏差(|t|大于2),顯著偏差占所有項目的比例在5%左右是可接受的范圍(McNamara, 1996)。筆者分別檢驗了兩個量表下評分員與考生之間的交互以及分項量表下評分員與評分分項之間的交互。首先來看評分員與考生之間的交互作用。由于篇幅有限,僅列出存在顯著偏差的數(shù)據(jù)。表6為整體量表下評分員與考生的偏差分析,三位評分員與60名考生共產(chǎn)生180對交互組合,其中顯著交互組合(|t|>2)共5對(3%),其中有3對所涉及到的考生為考生層面非擬合的考生(8號、16號、2號),這說明評分員在評判這些考生的譯稿時產(chǎn)生了偏見,另外兩位考生不擬合可能與考生自身的作答情況不一致有關(guān)。分項量表下的180對交互組合中無顯著交互組合。因此,從評分員與考生交互結(jié)果來看,分項量表的質(zhì)量更高。分項量表增加了考察的維度,從而減少了影響評分員評分的干擾因素,可能出現(xiàn)的偏差更少。其次來看評分員與評分分項之間的交互。三位評分員與三個評分分項共產(chǎn)生9對交互組合,t值均在合理范圍內(nèi),未出現(xiàn)顯著交互組合,這說明分項量表中各個分項的描述清晰合理,評分員能正確使用各個分項。
表5. 兩量表各分?jǐn)?shù)段使用情況
本文依據(jù)新聞編譯能力模型,嘗試研發(fā)新聞編譯整體評分量表和分項評分量表,并運用多面Rasch模型對兩個量表的質(zhì)量進(jìn)行效度驗證,研究結(jié)果如下: (1) 考生成績與模型預(yù)期較好,除有個別不擬合考生外,其他所有層面上各個體的擬合統(tǒng)計量均在合理范圍之內(nèi);兩量表下的考生能力之間存在顯著差異,評分員均能較好地使用量表將不同能力的考生區(qū)分開來,但分項量表下考生之間的差異更大。(2) 整體量表下的評分員之間的嚴(yán)厲度有顯著差異,而分項量表下則無顯著差異,評分員在使用分項量表評分時能保持較好的一致性。(3) 三個評分分項之間難度值存在差異,但跨度值僅有1個洛基值。分?jǐn)?shù)段統(tǒng)計各指標(biāo)數(shù)據(jù)均顯示兩個量表的等級設(shè)置較合理。三位評分員在使用量表對考生譯稿打分時,基本能夠準(zhǔn)確使用各分?jǐn)?shù)段,但分項量表下最低分?jǐn)?shù)段使用較少,有待增加考生樣本量進(jìn)一步考察。(4) 偏差分析結(jié)果顯示,整體量表下評分員與考生之間有顯著交互;分項量表下評分員與考生、評分員與評分分項之間均無顯著交互。
整體而言,兩個評分量表具備較高的效度,質(zhì)量較好。相比而言,分項量表的質(zhì)量要優(yōu)于整體量表。研究結(jié)果對評價或診斷學(xué)生的編譯能力,行業(yè)準(zhǔn)入以及資格評定,媒體單位選拔編譯人才等具有一定的啟示意義。未來研究可從以下方面著手: 增加評分員和考生樣本量以收集更多數(shù)據(jù),繼續(xù)研發(fā)漢英方向編譯分項評分表量表,并綜合利用經(jīng)典測試?yán)碚?、概化理論和項目反?yīng)理論從不同視角驗證量表的效度,對比其有效性。