江進林
【摘要】近五十年來,國內(nèi)外相繼開發(fā)出多個英語作文自動評分系統(tǒng),研究日臻成熟。在翻譯領(lǐng)域,自動評分研究主要局限于機器翻譯評價,人工譯文自動評分研究仍處于初級階段。近年國內(nèi)建立起針對中國學生的漢譯英自動評分模型,針對英譯漢的自動評分研究也開始起步。由于中國學生的英譯漢具有自身的特點,其評分系統(tǒng)在變量挖掘、模型驗證等方面與已有研究不同。
【關(guān)鍵詞】自動評分;作文;翻譯;學生英譯漢
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2013)06—0062—05
引言
主觀題是測量語言技能的有效方式,目前已被廣泛運用于各類英語考試,其自動評分是測試領(lǐng)域關(guān)注的一個焦點。自二十世紀六十年代以來,國外己開發(fā)出多個作文自動評分系統(tǒng),并應(yīng)用于GRE、GMAT等大型考試中。在國內(nèi),梁茂成研制了適合中國英語學習者的作文自動評分系統(tǒng),取得了良好的效果。在翻譯領(lǐng)域,極少數(shù)研究也對學生漢譯英的自動評分進行了嘗試。但是,針對英譯漢的自動評分研究仍處于起步階段。本文將回顧近五十年來自動評分技術(shù)的優(yōu)劣,探討英譯漢機器評分系統(tǒng)與已有研究的異同。
一 作文自動評分系統(tǒng)
歷史上第一個作文自動評分系統(tǒng)是1966年研制的PEG。二十世紀九十年代以后,IEA、E-rater、IntelliMetric、MY Aeeess等作文自動評分系統(tǒng)相繼出現(xiàn)。近年來,自動評分擴展到醫(yī)學、建筑、藝術(shù)、計算機等領(lǐng)域,評分對象涉及簡答、繪圖、口試等多種主觀題。本文僅對四個主要作文自動評分系統(tǒng)進行回顧,其主要特點見表1。
第一,測量對象。表1顯示,作文自動評分系統(tǒng)的測量對象從語言形式發(fā)展到語義內(nèi)容,再過渡到語言、內(nèi)容和結(jié)構(gòu)三個方面。在梁茂成的研究中,內(nèi)容模塊主要考察作文是否緊扣主題;語言模塊主要衡量作文語言形式的準確性;結(jié)構(gòu)模塊主要評判作文是否滿足獨立成篇的條件。這三個模塊可以直接追溯到寫作能力的構(gòu)念,具有較好的效度,也更符合寫作測試的評價標準。
第二,評分方法。PEG、E-rater和梁茂成的系統(tǒng)都采用變量提取、多元回歸、計算作文分數(shù)三大步驟來完成評分。首先,研究者從一批事先評分的作文中提取一系列文本特征,再以這些特征為自變量、人工評分為因變量進行多元線性回歸分析,得到能夠最大限度地預(yù)測分數(shù)的回歸方程,最后將新作文的相關(guān)變量代入方程,獲得機器給新作文評出的分數(shù)。
第三,主要技術(shù)。四個評分系統(tǒng)都采用多種技術(shù)來提取變量。其中,IEA和梁茂成的系統(tǒng)都采用了潛語義分析方法(Latent Semantic Analysis)。其基本假設(shè)是,文本中隱藏著一個潛在的語義空間,是所有詞匯的語義之和。由于語言中存在大量多詞同義和一詞多義現(xiàn)象,語義空間往往帶有許多噪音,需要通過特征過濾、選擇、抽取來進行壓縮。具體做法是:首先,研究者使用停詞表過濾信息量很少的詞匯;其次,選擇一批與主題相關(guān)的文本(如專家作文、主題知識材料)構(gòu)建詞頻矩陣,并根據(jù)詞頻對詞匯賦予不同權(quán)重。詞匯出現(xiàn)的次數(shù)越多,表示信息量越小,權(quán)重越低;最后,使用奇異值分解技術(shù)(SingularValue Decomposition)對矩陣進行降維。這種技術(shù)類似于主成分分析法,壓縮后的矩陣既保留了原矩陣的重要信息,又排除了干擾信息,代表作文主題的典型潛在語義空。潛語義分析具有提取語義內(nèi)容的優(yōu)勢,甚至能夠處理創(chuàng)造性的記敘文。不過,它忽略了詞匯順序、句法、邏輯等信息,不能反映學生的全部知識,因而需要與反映語言形式的變量結(jié)合使用。
與潛語義分析不同,E-rater使用向量空間模型(VectorSpace Model)來判定文本內(nèi)容的相關(guān)度。不過,這是一種基于主題詞分析的技術(shù),難以達到潛語義分析的降維、消除噪音等效果。
第四,主要變量。各個系統(tǒng)使用的主要變量與其測量對象對應(yīng)。例如,梁茂成采用流利度、地道性、復雜度方面的變量來考察語言形式質(zhì)量,采用語義相似度來衡量語義質(zhì)量,采用連接詞等特征來評判作文結(jié)構(gòu)質(zhì)量。
第五,驗證方法。上述系統(tǒng)主要采用相關(guān)度和一致性來檢驗機器評分與人工評分的接近程度。相關(guān)度反映機器與人工排序的相似性,既包括機器與單個評分員評分的相關(guān),也包括機器與多名評分員平均分數(shù)的相關(guān)。第一種相關(guān)度不一定可靠,因為單個評分員的評分可能具有偏差(bias),內(nèi)部一致性難以保證;第二種相關(guān)度更有價值,因為多名評分員對同一名學生的平均評分接近其真分數(shù)(true score)。
一致性反映具體評分等級的一致程度,包括絕對一致和相鄰一致百分比。前者指機器與人工所評等級相同的文本數(shù)量占所評文本總數(shù)的比例,后者指機器與人工所評等級相差1級的文本數(shù)量占所評文本總數(shù)的比例,兩者各有所長。當評分結(jié)果為離散數(shù)據(jù)且等級較少時,往往使用絕對一致百分比;當評分等級較多時,相鄰一致百分比更適合。E-rater和梁茂成的研究對兩種百分比都進行了統(tǒng)計。
除了上述系統(tǒng)外,極少數(shù)人還對漢語作文的自動評分進行了初步研究。不過,該研究僅探討了潛語義分析技術(shù)在自動評分中的應(yīng)用,不夠全面。
總之,現(xiàn)有作文自動評分系統(tǒng)在評分步驟、主要技術(shù)和變量挖掘方面對英譯漢的機器評分研究具有重要啟示。研究結(jié)果表明,不管考生處于哪個年齡段、作文話題如何變化,上述系統(tǒng)的評分與人工評分的相關(guān)度都在0.7-0.9之間,一般為0.8-0.85,可以代替一名評分員使用。
二 翻譯譯自動評分系統(tǒng)
翻譯自動評分系統(tǒng)有兩種,分別對機器翻譯和人工譯文進行評價,下面分兩部分進行述評。
1 機器翻譯評價系統(tǒng)
機器翻譯評價主要采用兩種方法:
第一,基于N元組(Ngram)的評價。其主要思想是:高質(zhì)量的機器譯文應(yīng)與人工譯文具有較多相同的語言片段。BLEU和NIST是該方法的主要代表。BLEU通過計算機器翻譯與一組參考譯文內(nèi)N元組的相似度來考察機器譯文的質(zhì)量,即N元組的匹配數(shù)量所占機器譯文N元組的比例。如果機器譯文比它最接近的參考譯文短,相似度的結(jié)果還需要乘以長度罰分比(Brevity Penalty),以接受一定的懲罰。在BLEU的基礎(chǔ)上,NIST根據(jù)N元組在參考譯文中出現(xiàn)的頻率,對它們賦予不同的信息權(quán)重。頻率越低,則信息量越大,權(quán)重越大。BLEU和NIST不僅方法簡單,所評分數(shù)與人工評分也高度相關(guān),可供英譯漢機器評分系統(tǒng)借鑒。
第二,基于測試點的評價。其主要思想是:模擬標準化考試的方法,不評價整句,而是通過設(shè)置測試點簡化測試目標。測試點分6組:詞匯量測試、固定詞組測試、詞法測試,以及初、中、高級句法測試。研究者采用描述語言對各句的測試點進行句法描述,使評測可以全自動完成。程序評估機器譯文中各個測試點的翻譯質(zhì)量,加權(quán)平均后獲得最終的機器翻譯評價結(jié)果。由于翻譯中有些語言點的區(qū)分度比較高,基于測試點的評價方法能夠有效縮短評價時間,值得借鑒。
2 人工譯文評價系統(tǒng)
除了機器翻譯評價,人工譯文自動評價研究也已起步,國內(nèi)己建立起針對中國英語學習者的漢譯英自動評分模型。下面從六個方面進行介紹。
第一,語料來源。該研究使用國內(nèi)英語專業(yè)三、四年級學生的300篇英譯漢譯文。原文為記敘文,包括9個句子,約300字。為滿足研究需要,測試時既呈現(xiàn)整個篇章供學生整體理解,也提供單個句子讓學生逐句翻譯,單句譯文合并即可獲得篇章譯文。
第二,模型設(shè)計。該系統(tǒng)按用途分為診斷性和選拔性評分模型,采用分模塊設(shè)計。診斷性模型包括篇章和單句譯文的語義內(nèi)容、語言形式評分模塊,通過提取各個模塊對應(yīng)的文本特征,可以分別構(gòu)建它們的評分模型,并提供有針對性的診斷性信息。選拔性模型僅包括篇章譯文的語義評分模塊,可以對大規(guī)模測試中的漢譯英進行評分。
第三,人工評分。該研究采用兩次人工評分。第一次評分比較細致,以“忠實、通順”為標準,分別對譯文的語義內(nèi)容和語言形式進行評價,結(jié)果分別用于構(gòu)建診斷性語義、形式評分模型。語義評分時,先將原文各句劃分為2~3個語義單位,逐個單位進行評價。形式評分以句為單位,衡量語言的準確性和恰當性。第二次評分比較簡化,僅對具有較大區(qū)分度的語義點進行評價,結(jié)果用于構(gòu)建選拔性評分模型。
第四,變量挖掘。該研究采用語料庫工具、自然語言處理、信息檢索技術(shù)和統(tǒng)計方法,挖掘了多個文本特征。其中,反映譯文語義質(zhì)量的變量有三類:N元組匹配數(shù)量及其百分比、語義相似度和語義點對齊數(shù)量。語義點對齊技術(shù)考察譯文對區(qū)分度較高語言點的翻譯能否與正確譯文表匹配,和俞士汶等使用的針對測試點的評價方法有相似之處。該研究還提取了字詞、句子、篇章三個層面的形式變量。表2對主要變量進行了總結(jié)。
第五,模型構(gòu)建。該研究首先在事先評分的一半譯文(訓練集)中計算所提取的變量與相應(yīng)人工評分之間的相關(guān)度,采用與人工評分相關(guān)的變量作為譯文質(zhì)量預(yù)測因子;然后進行多元線性回歸分析,選擇性能最佳的模型,作為預(yù)測因子與人工評分之間的關(guān)系方程。數(shù)據(jù)表明,診斷性篇章譯文語義、形式評分模型的決定系數(shù)R2分別為0.794、0.547。該研究進一步使用三種數(shù)量的訓練集譯文(30、50、100篇)構(gòu)建了選拔性評分模型,模型的相關(guān)系數(shù)R都在0.8以上。
第六,模型驗證。該研究使用從訓練集中獲得的多元回歸方程,計算另一半學生譯文(驗證集)的機器評分,然后分析機器與三名評分員平均評分的相關(guān)度和一致性。研究結(jié)果表明,診斷性篇章譯文機器語義、形式評分與人工評分的相關(guān)度分別為0.842**、0.741**。在選拔性模型中,機器與人工評分的相關(guān)度都在0.8以上。若需提高評分效率,以100篇譯文構(gòu)建的評分模型就能滿足大規(guī)模測試評分的需要。
總之,該研究探索了診斷性與選拔性評分模型的區(qū)別,構(gòu)建的模型能夠準確、有效地評價中國學生的漢譯英譯文。不過,研究也存在一定的不足:(1)不同文體的原文及其譯文在內(nèi)容、語言、風格上都具有顯著差異,該研究使用記敘文譯文構(gòu)建模型,難以判定譯文質(zhì)量預(yù)測因子在其他文體中有效。(2)人工語義評分主要針對信息量較大的語義點進行,當學生未譯或誤譯某處次級信息時,自動評分模型難以進行診斷性反饋。(3)采用保留樣本法,訓練集一直用于建模,驗證集一直用于檢驗?zāi)P?,結(jié)果在一定程度上受到譯文分集的影響。
除了漢譯英自動評分研究外,王立欣對英譯漢的自動評分進行了初步探討。該研究的原文是一個廣告段落,譯文有230份,模型構(gòu)建也經(jīng)過變量提取、多元回歸、計算新譯文分數(shù)等步驟。研究采用10折交叉檢驗法,使用9成語料構(gòu)建模型,1成語料進行驗證,經(jīng)過10次循環(huán)計算的人機評分相關(guān)度均值為0.75**。研究中使用的主要變量見表3。
該研究采用的一些變量值得借鑒,模型的驗證方法比較科學。不過,研究也存在一些不足:(1)原文為廣告文體,難以判斷模型中的變量對其他文體的譯文起作用。(2)未采用分模塊設(shè)計,機器僅對譯文質(zhì)量進行整體評分,難以對語義、形式質(zhì)量及其分項特征進行有針對性的反饋。(3)采用機器翻譯評價的慣例,僅使用4篇參考譯文,而人工譯文的多樣性和復雜性都遠遠超過機器譯文,這種做法對變量的有效性造成了一定影響。
除了王立欣外,Tian等人也考察了關(guān)鍵詞匹配和語義相似度對英譯漢譯文語義質(zhì)量的預(yù)測力。不過,該研究的語料為句子譯文,容易忽略篇章層面的質(zhì)量預(yù)測因子,并且研究挖掘的變量比較有限。三英譯漢機器評分系統(tǒng)的新探索
筆者將借鑒上述研究的經(jīng)驗,構(gòu)建適用于中國學生英譯漢的機器評分系統(tǒng)。該系統(tǒng)與已有研究的區(qū)別在于以下幾個方面:
首先,人工評分。(1)漢譯英的目的語是學生的外語,譯文達到“忠實、通順”己屬不易,因而漢譯英自動評分研究的人工評分以“忠實、通順”為標準。而英譯漢的目的語是學生的母語,譯文在語言形式上往往比較通順,需要采用更高的標準來衡量。本研究將在“忠實、通順”的基礎(chǔ)上加入“風格切合度”,對語言形式進行更高層次的評價。(2)本研究將原文劃分為符合搭配規(guī)則、意義單一、完整的多詞單元,即翻譯單位。評分員對每個翻譯單位的譯文逐個進行評分,能夠更全面地衡量譯文的語義質(zhì)量,也便于機器對譯文的語義優(yōu)劣進行更細致的反饋。
其次,變量挖掘。(1)為擬合人工評分過程,研究者將根據(jù)翻譯單位的最佳譯文和正確譯文列表,提取學生譯文中的翻譯單位對齊數(shù)量。由于翻譯單位符合搭配規(guī)則,并具有單一和完整的意義,能夠較好地評價譯文的語法性、連貫性和地道性。(2)由于英漢語言表達的差異和漢語分詞的影響,一個英語詞匯可能對應(yīng)一個或多個漢語詞語,也可能出現(xiàn)多對一、多對多的情況。同時,少數(shù)英語詞匯的漢語翻譯呈分離狀態(tài),如as quickly as的譯文“像……一樣快”,中間間隔一個或多個詞語。此外,中國學生的英譯漢譯文中大量使用同義詞和近義詞,如in radiant bloom的翻譯包括“盛開”、“開花”、“開放”、“綻放”、“怒放”等。針對以上特點,本研究的詞對齊不僅考察英、漢語的一一對應(yīng),還將進行一對多、多對一、多對多的對齊,同時考慮英語詞匯與漢語分離結(jié)構(gòu)對應(yīng)的情況,還將嵌入同義詞詞林,考察原文詞匯與詞典譯文的同義詞、近義詞對應(yīng)的情況。初步研究發(fā)現(xiàn),這種詞對齊的效果優(yōu)于僅僅基于詞典的詞對齊技術(shù)[25]。
再次,文體類別。本研究將采用說明文、記敘文、議論文三種文體,分別使用300多篇學生譯文構(gòu)建機器評分模型。通過比較,進一步挖掘?qū)θN文體的譯文質(zhì)量都具有預(yù)測力的文本特征,以便提高系統(tǒng)的遷移性。
最后,驗證方法。本研究將對機器與人工評分差異較大的譯文進行質(zhì)性分析并究其原因,在此基礎(chǔ)上提出改進變量、提高系統(tǒng)性能的方法,以便減少大規(guī)模測試中機器評分的偏差。
四 結(jié)語
本文對近五十年來自動評分系統(tǒng)的優(yōu)缺點進行了回顧和評價,探討了現(xiàn)有技術(shù)對英譯漢機器評分系統(tǒng)的啟示,以及其中可資借鑒的方面。在總結(jié)以往經(jīng)驗的基礎(chǔ)上,研究者將針對中國學生英譯漢譯文的特點,在人工評分、變量挖掘、文體類別,以及對機器評分結(jié)果的分析方面進行新的探索,以便構(gòu)建適用于中國學生英譯漢的機器評分模型。