尹寶生,苗雪雷,季 鐸,蔡?hào)|風(fēng),張桂平
(沈陽航空航天大學(xué)人機(jī)智能研究中心,沈陽 110136)
隨著全球經(jīng)濟(jì)一體化發(fā)展的快速推進(jìn),多語信息處理將成為一個(gè)巨大的產(chǎn)業(yè),對(duì)人工翻譯和機(jī)器翻譯技術(shù)都有著極大的需求。無論采用人工翻譯、機(jī)器翻譯還是人機(jī)協(xié)同翻譯來完成翻譯任務(wù),其工作的重點(diǎn)都是保證譯文質(zhì)量并提高翻譯效率。對(duì)譯文質(zhì)量的評(píng)測(cè)方法分為自動(dòng)評(píng)測(cè)和人工評(píng)測(cè)2種。
目前著名的自動(dòng)評(píng)測(cè)方法主要有IBM提出的 BLEU(Bilingual Evaluation Understudy)方法[1]和美國國家標(biāo)準(zhǔn)與技術(shù)局(NIST:National Institute of Standards and Technology)在BLUE方法上改進(jìn)提出的NIST評(píng)測(cè)標(biāo)準(zhǔn)[2]。現(xiàn)有的自動(dòng)評(píng)測(cè)方法必須給定參考譯文的情況下才能對(duì)機(jī)器翻譯的譯文做出評(píng)價(jià),通過將機(jī)器翻譯的譯文與參考譯文相比較,認(rèn)為越接近參考譯文的自動(dòng)翻譯結(jié)果正確率越高。這類自動(dòng)評(píng)測(cè)方法重點(diǎn)在于評(píng)價(jià)機(jī)器翻譯系統(tǒng)的性能,而對(duì)翻譯結(jié)果的評(píng)價(jià)卻依賴于給定的參考譯文。這在實(shí)際的翻譯工作中是不現(xiàn)實(shí)的,因?yàn)椴豢赡芤笏械馁Y料都事先給出參考譯文。
在對(duì)質(zhì)量要求高的實(shí)際翻譯項(xiàng)目中,多采用人工評(píng)測(cè)的方式來評(píng)價(jià)譯文質(zhì)量。人工評(píng)測(cè)主要是在翻譯過程中設(shè)置一個(gè)審校環(huán)節(jié),由審校人員對(duì)翻譯環(huán)節(jié)產(chǎn)生的譯文進(jìn)行評(píng)測(cè)來控制翻譯質(zhì)量。對(duì)于未通過評(píng)測(cè)的譯文要返回給翻譯人員修改,如此往復(fù)直到通過質(zhì)量審查。由此可見,人工評(píng)測(cè)是確保翻譯質(zhì)量的核心步驟,但是人工評(píng)測(cè)耗時(shí)費(fèi)力,效率低下,而且由于人的主觀因素,對(duì)于同一篇譯文不同的評(píng)測(cè)人員可能給出不同的判斷。
在多人參與的大規(guī)模資料翻譯項(xiàng)目中,人工評(píng)測(cè)時(shí)常常發(fā)現(xiàn)譯員之間存在術(shù)語不一致、表達(dá)不規(guī)范、語義錯(cuò)誤和漏譯情況多的現(xiàn)象,甚至存在大量低級(jí)的拼寫錯(cuò)誤和語法錯(cuò)誤。
傳統(tǒng)的語法拼寫檢查工具能夠幫助譯員解決部分拼寫和語法問題,但由于這類語法拼寫工具只對(duì)譯文進(jìn)行檢查,而不能檢查譯文的忠實(shí)情況;詞庫規(guī)模小,無法識(shí)別大量的專業(yè)術(shù)語;語法檢查規(guī)則簡(jiǎn)單,不能適用專業(yè)領(lǐng)域的特殊翻譯規(guī)則;不能解決不同譯員間的一致性問題;不能對(duì)譯文質(zhì)量形成量化評(píng)價(jià)。
本文提出一種譯文質(zhì)量自動(dòng)評(píng)測(cè)方法,該方法可以在無參考譯文的情況下,從流暢性、正確性和忠實(shí)程度等方面對(duì)譯文進(jìn)行客觀的質(zhì)量評(píng)價(jià)。
基于該方法實(shí)現(xiàn)的譯文質(zhì)量自動(dòng)檢查系統(tǒng)應(yīng)用于國家知識(shí)產(chǎn)權(quán)局百萬專利翻譯項(xiàng)目中(總字?jǐn)?shù)超過3億字,數(shù)百人同時(shí)翻譯)。在該項(xiàng)目中,自動(dòng)評(píng)測(cè)系統(tǒng)主要用于幫助翻譯人員發(fā)現(xiàn)并糾正翻譯錯(cuò)誤、評(píng)價(jià)譯文質(zhì)量。應(yīng)用效果表明,譯文質(zhì)量評(píng)測(cè)技術(shù)有效保證了翻譯質(zhì)量并提高了整體翻譯效率。
譯文質(zhì)量的自動(dòng)評(píng)測(cè)方法主要分為有參考的譯文質(zhì)量評(píng)測(cè)方法和無參考的譯文質(zhì)量評(píng)測(cè)方法。目前對(duì)于有參考的譯文質(zhì)量評(píng)測(cè)的研究較多,并且主要應(yīng)用于機(jī)器翻譯的譯文質(zhì)量評(píng)測(cè)中。
2002年6月,NIST舉辦了首次正式的機(jī)器翻譯評(píng)測(cè)活動(dòng)。包括IBM公司,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University),南加州信息科學(xué)研究所(USC/ISI),德國亞琛(RWTH Aachen)大學(xué),微軟研究院(Redmond)和中國科學(xué)院計(jì)算研究所在內(nèi)的6家研究機(jī)構(gòu)的機(jī)器翻譯系統(tǒng)參加了評(píng)測(cè),同時(shí),NIST還評(píng)測(cè)了SYSTRAN公司的商用機(jī)器翻譯系統(tǒng)作為一個(gè)橫向比較。測(cè)試語言包括中英翻譯和阿拉伯語到英語的翻譯,實(shí)驗(yàn)表明,它們的評(píng)測(cè)結(jié)果和人工評(píng)測(cè)有較大的相關(guān)性。
國內(nèi)針對(duì)有參考的譯文質(zhì)量評(píng)價(jià)方法的研究,主要是由北京大學(xué)計(jì)算語言學(xué)研究所俞士汶教授研究開發(fā)的MTE系統(tǒng),該系統(tǒng)是世界上第一個(gè)機(jī)器翻譯自動(dòng)評(píng)測(cè)系統(tǒng),該系統(tǒng)采用的就是基于測(cè)試集的評(píng)價(jià)方法,以測(cè)試點(diǎn)和題庫相結(jié)合的方法解決譯文質(zhì)量自動(dòng)評(píng)測(cè)的難題,并建立了機(jī)器翻譯評(píng)測(cè)大綱[3]。它是以句子為評(píng)測(cè)單位,還借鑒了語言測(cè)試中分離式測(cè)試方法,即對(duì)于一個(gè)句子不是評(píng)測(cè)整個(gè)句子的翻譯,而是每句側(cè)重一個(gè)測(cè)試點(diǎn)(每個(gè)測(cè)試點(diǎn)代表一個(gè)語言點(diǎn)),只評(píng)測(cè)測(cè)試點(diǎn)的翻譯,用測(cè)試集做評(píng)測(cè)是一種有意義的嘗試,這種方法使機(jī)器翻譯擺脫了評(píng)測(cè)過程的主觀性,同時(shí)也節(jié)省了人力物力,但是這種自動(dòng)評(píng)測(cè)集的建立是一個(gè)繁瑣復(fù)雜的任務(wù),需要機(jī)器翻譯專家、機(jī)器翻譯系統(tǒng)的開發(fā)者、語言學(xué)家和軟件工程師的密切配合,同時(shí)建立一個(gè)測(cè)試集是一個(gè)長(zhǎng)期的過程,測(cè)試點(diǎn)的建立與描述需要不斷完善。另外,國家863計(jì)劃也組織了幾次專家評(píng)測(cè),對(duì)當(dāng)時(shí)的漢英和英漢翻譯系統(tǒng)進(jìn)行了現(xiàn)場(chǎng)評(píng)測(cè)。
無參考的譯文質(zhì)量評(píng)測(cè)主要是基于統(tǒng)計(jì)的N-Gram語言模型來衡量,語言模型可以通過對(duì)目標(biāo)語言的特定語料訓(xùn)練得到,它可以給出一個(gè)混亂度來反映測(cè)試句子在訓(xùn)練語料中觀察到的可能性,該方法已經(jīng)用于機(jī)器翻譯系統(tǒng)譯文質(zhì)量的評(píng)測(cè)中[5]。使用大規(guī)模的語料訓(xùn)練出來的語言模型對(duì)于預(yù)測(cè)某個(gè)在訓(xùn)練語料中學(xué)習(xí)到的字符序列出現(xiàn)的概率可以取得較好的效果,但是在實(shí)際的應(yīng)用中,由于訓(xùn)練語料的不平衡性,難免會(huì)出現(xiàn)數(shù)據(jù)稀疏問題,所以在訓(xùn)練模型時(shí)就需要一些平滑技術(shù)來預(yù)測(cè)未知事件,目前常見的數(shù)據(jù)平滑算法有加法平滑,Good-Turning平滑,線形插值平滑,回退式平滑,kneser-Ney平滑和Witten-Bell平滑等。
Jones利用句法樹的平衡性、n元模型、語義共現(xiàn)等信息作為翻譯質(zhì)量的衡量尺度。Brew利用詞頻、詞性標(biāo)記的分布規(guī)律以及其它文本特征來評(píng)價(jià)翻譯質(zhì)量。Quirk采用人工評(píng)注過的翻譯句子作特征向量,并以此訓(xùn)練出一個(gè)分類器來給譯文打分,他所使用的特征包括根據(jù)語言模型所得到的句子混亂度、源語言句子長(zhǎng)度、以及一些翻譯特征,包括所學(xué)習(xí)到的翻譯映射對(duì),以及譯文中的單詞是否來自翻譯映射或者是來自詞典,實(shí)驗(yàn)證明這種基于機(jī)器學(xué)習(xí)的方法對(duì)句子級(jí)別的評(píng)測(cè)有較好的效果。
本文從實(shí)際應(yīng)用出發(fā),提出多策略的大規(guī)模無參考譯文質(zhì)量自動(dòng)評(píng)測(cè)方法,采用語言模型結(jié)合Kneser-Ney平滑算法來進(jìn)行譯文流暢度衡量;采用句法分析結(jié)合大量的規(guī)則來對(duì)譯文的正確性進(jìn)行衡量;采用基于統(tǒng)計(jì)的詞對(duì)齊方法來進(jìn)行譯文忠實(shí)度評(píng)測(cè)。與傳統(tǒng)的自動(dòng)評(píng)測(cè)方法相比,該方法無需預(yù)先選取帶有參考譯文的測(cè)試集,在大規(guī)模工程化的翻譯項(xiàng)目中,對(duì)個(gè)人或者整體的翻譯質(zhì)量進(jìn)行評(píng)測(cè),一方面可以幫助翻譯人員提高翻譯質(zhì)量,另一方面可以減輕翻譯審校人員的工作量,具有重要的實(shí)用價(jià)值。
本文從譯文的流暢度(語句是否流暢),忠實(shí)度(譯文是否如實(shí)的表達(dá)了原文的意思)以及正確度(語法或語義的正確度)3個(gè)方面來衡量譯文質(zhì)量。在實(shí)際的研究應(yīng)用中,譯文忠實(shí)度的評(píng)價(jià)遠(yuǎn)比流暢度的評(píng)價(jià)困難的多[4]。
對(duì)于大規(guī)模的語料資源,能夠較好地獲得期語言模型數(shù)據(jù)。語言模型是自然語言的數(shù)學(xué)模型,它主要描述自然語言的統(tǒng)計(jì)和結(jié)構(gòu)方面的內(nèi)在規(guī)律,并通過概率的大小描述當(dāng)前語言片段的結(jié)構(gòu)合理性,概率越高,語言片段的結(jié)構(gòu)越合理,流利程度越高。由卡耐基梅隆大學(xué)開發(fā)的CMU和美國的語言技術(shù)研究實(shí)驗(yàn)室開發(fā)的Srilm[6]是2種比較流行的語言模型訓(xùn)練工具。
由于人類的語言現(xiàn)象千差萬別,因此會(huì)造成語言模型在概率統(tǒng)計(jì)上的不準(zhǔn)確,必須采用一定平滑手段。
Kneser-Ney給出的平滑公式被定義為:
本文采用CMU語言模型結(jié)合Kneser-Ney平滑算法來進(jìn)行譯文流暢度衡量。該方法能夠依據(jù)語言模型對(duì)出現(xiàn)概率較低的語言現(xiàn)象進(jìn)行打分,并提示譯員更高概率的表述方式。在專業(yè)性越強(qiáng)的資料翻譯項(xiàng)目中,這種語言模型的效果越明顯。
譯文的正確性主要是指譯文是否存在目標(biāo)語系中的拼寫錯(cuò)誤、語法錯(cuò)誤和規(guī)范性錯(cuò)誤。以漢英翻譯為例,英語重結(jié)構(gòu),漢語重語義。英語是用大量的關(guān)系詞、連接詞和引導(dǎo)詞等連接起來的結(jié)構(gòu)清楚、層次分明、邏輯嚴(yán)密的“形態(tài)語”,所以可通過有效的句法分析規(guī)則對(duì)譯文進(jìn)行語法分析,分清句子中各成分之間的語法關(guān)系,即找出句子的主干,弄清句子的各個(gè)修飾成分以及修飾關(guān)系,進(jìn)而尋找譯文中的語法錯(cuò)誤。下圖為基于語法分析的謂語動(dòng)詞單復(fù)數(shù)錯(cuò)誤問題。
本文在句法結(jié)構(gòu)分析的基礎(chǔ)上,制定了2400條用戶規(guī)則來對(duì)譯文正確性進(jìn)行評(píng)價(jià)和提示。該方法可以檢查漢英翻譯中最常見的主謂一致錯(cuò)誤、拼寫錯(cuò)誤、規(guī)范性錯(cuò)誤等。
圖1 基于語法分析的謂語動(dòng)詞單復(fù)數(shù)錯(cuò)誤識(shí)別舉例
譯文忠實(shí)度主要是指譯文是否對(duì)原文進(jìn)行完全的翻譯,做到不漏譯。譯文是否存在漏譯可以通過原文中每個(gè)詞語在譯文中的對(duì)譯來體現(xiàn)。因此,對(duì)于忠實(shí)度的評(píng)測(cè)可以采用詞對(duì)齊的策略進(jìn)行衡量,例如:
圖2 雙語詞對(duì)齊結(jié)果舉例
現(xiàn)有詞對(duì)齊方法主要分為2類:統(tǒng)計(jì)(statistical)方法和啟發(fā)式(heuristic)方法。統(tǒng)計(jì)方法通過建立模型來描述平行文本之間的關(guān)系,模型參數(shù)可以從訓(xùn)練語料庫中自動(dòng)學(xué)習(xí)(例如,Brown 1993;Vogel 1996)。統(tǒng)計(jì)方法和啟發(fā)式方法的主要區(qū)別在于統(tǒng)計(jì)方法是基于概率模型而啟發(fā)式方法則依賴于相似度函數(shù)。研究表明,統(tǒng)計(jì)對(duì)齊模型要優(yōu)于簡(jiǎn)單的Dice系數(shù)方法。本文在基于統(tǒng)計(jì)方法實(shí)現(xiàn)詞對(duì)齊的基礎(chǔ)上,結(jié)合忠實(shí)度判斷規(guī)則(長(zhǎng)度比例規(guī)則、領(lǐng)域規(guī)則、次序規(guī)則等)進(jìn)行譯文忠實(shí)度評(píng)測(cè)。
在應(yīng)用驗(yàn)證中,我們基于中國1985~2006年的中文專利摘要語料庫進(jìn)行(中譯英),英文語料庫為Derwent英文專利摘要庫。即首先從中文專利庫中選取機(jī)械領(lǐng)域?qū)@墨I(xiàn)摘要作為翻譯語料(中譯英),該批資料的特點(diǎn)是專業(yè)術(shù)語多、內(nèi)容關(guān)聯(lián)度高、語言規(guī)范性強(qiáng)。同時(shí)選擇近8萬篇Derwent英文機(jī)械領(lǐng)域?qū)@贑MU工具進(jìn)行語言模型的訓(xùn)練工作。
將20名專業(yè)翻譯人員分為A、B2組,各包括5名英語能力等級(jí)為CET6和5名TEM8的專業(yè)譯員。
應(yīng)用時(shí)間為10工作日,分為2個(gè)階段,每個(gè)階段5個(gè)工作日,安排如下:
表1 A、B兩組譯員翻譯安排
參考國家翻譯服務(wù)標(biāo)準(zhǔn):筆譯部分(GB/T 19363.1-2003)采用如下譯文差錯(cuò)率計(jì)算方法:
1)譯文質(zhì)量的差錯(cuò)類別
第Ⅰ類:對(duì)原文理解和譯文表述存在核心語義差錯(cuò)或關(guān)鍵字詞(數(shù)字)、句段漏譯、錯(cuò)譯。
第Ⅱ類:一般語義差錯(cuò),非關(guān)鍵字詞(數(shù)字)、句段漏譯、錯(cuò)譯,譯文表述存在用詞、語法錯(cuò)誤或表述含混。
第Ⅲ類:專業(yè)術(shù)語不準(zhǔn)確、不統(tǒng)一、不符合標(biāo)準(zhǔn)或慣例,或?qū)S妹~錯(cuò)譯。
第Ⅳ類:計(jì)量單位、符號(hào)、縮略語等未按規(guī)(約)定譯法。
2)綜合差錯(cuò)率設(shè)置
譯文綜合差錯(cuò)率計(jì)算:
其中:
K——綜合難度系數(shù),取值范圍(0.5 ~1.0)
CA——譯文的使用目的系數(shù)
第Ⅰ類使用目的系數(shù):CA=1;
第Ⅱ類使用目的系數(shù):CA=0.75;
第Ⅲ類使用目的系數(shù):CA=5;
第Ⅳ類使用目的系數(shù):CA=0.25;
DⅠ、DⅡ、DⅢ、DⅣ——Ⅰ、Ⅱ、Ⅲ、Ⅳ類錯(cuò)誤重復(fù)出現(xiàn)的次數(shù),重復(fù)性錯(cuò)誤按一次計(jì)算。
CⅠ、CⅡ、CⅢ、CⅣ—— Ⅰ、Ⅱ、Ⅲ、Ⅳ類錯(cuò)誤的系數(shù),取值如下:
CⅠ=3;CⅡ=1;CⅢ=0.5;CⅣ=0.25。
譯文質(zhì)量綜合差錯(cuò)率低于1.5‰滿足國家翻譯質(zhì)量標(biāo)準(zhǔn)。
A組和B組的譯員每天完成譯文后,都匿名提交給統(tǒng)一審校組按照譯文綜合差錯(cuò)率進(jìn)行評(píng)分,以譯文綜合差錯(cuò)率的差異來驗(yàn)證自動(dòng)評(píng)測(cè)系統(tǒng)的應(yīng)用效果。連續(xù)觀察2個(gè)階段,A、B兩組的綜合差錯(cuò)率如下:
圖3和圖4中的數(shù)據(jù)表明,在兩個(gè)測(cè)試階段內(nèi),使用自動(dòng)評(píng)測(cè)系統(tǒng)組的綜和譯文質(zhì)量綜合差錯(cuò)率都較未使用的組有明顯下降。
表2 A、B兩組平均綜合差錯(cuò)率
表2中的數(shù)據(jù)還表明,A、B兩組各自在使用自動(dòng)評(píng)測(cè)系統(tǒng)時(shí)都較未使用時(shí)質(zhì)量有明顯提升。A組從使用到不使用質(zhì)量差異不大,分析原因是A組在第一階段通過使用自動(dòng)評(píng)測(cè)系統(tǒng)已經(jīng)學(xué)到了一些錯(cuò)誤實(shí)例并轉(zhuǎn)化成自身翻譯能力,所以脫離系統(tǒng)后影響較小。
大規(guī)模無參考譯文質(zhì)量自動(dòng)評(píng)測(cè)方法可以對(duì)一篇給定的譯文進(jìn)行客觀的打分,并且按實(shí)際需求的目標(biāo)給出質(zhì)量好壞的客觀的定性評(píng)價(jià),大大減輕翻譯翻譯和審校人員的工作量,提高翻譯的總體質(zhì)量和效率。
由于語言現(xiàn)象的多種多樣,導(dǎo)致研究中所用到的統(tǒng)計(jì)模型的數(shù)據(jù)稀疏嚴(yán)重,如何平滑當(dāng)前數(shù)據(jù)獲得理想的目標(biāo)語言模型,以及如何在現(xiàn)有的詞對(duì)齊方法中進(jìn)一步提高詞對(duì)齊的正確率,是在實(shí)際應(yīng)用中遇到的主要問題。
語法分析方面,如何正確的識(shí)別長(zhǎng)距離的句法依存關(guān)系,提高句法分析的正確性,以及在沒有給定參考譯文的情況下,如何自動(dòng)的做出合理的評(píng)價(jià)以及評(píng)價(jià)標(biāo)準(zhǔn)。
對(duì)于翻譯質(zhì)量衡量,無論是機(jī)器翻譯還是人工翻譯都沒有絕對(duì)的標(biāo)準(zhǔn)答案,評(píng)價(jià)結(jié)果是相對(duì)的并存在一定的主觀性。但在機(jī)器翻譯性能評(píng)測(cè)以及大規(guī)模翻譯項(xiàng)目質(zhì)量控制等方面卻有著重要的應(yīng)用價(jià)值。隨著技術(shù)的不斷改進(jìn)和完善也必將發(fā)揮越來越大的作用。
[1] Kishore Papieni,SalimRoukos,Todd Ward,et al.BLUE:a Method for Automatic Evaluation of Machine Translation[A].ACL 2002[C]:Philadelphia,2002:232-240.
[2] Coughlin,Deborah.Correlating automated and human assessments of machine translation quality[A].Proceedings of MT SummitIX[C].New Orleans,2003.
[3] Yu Shi-Wen.Automatic evaluation of output quality for machine translation systems[J].Machine Translation,1993(8):117 -126.
[4] Michael Gamon,Anthony Aue,Martine Smets.Sentence-level MT evaluation without reference translations:beyond language modeling[A].Proceedings of EAMT 2005[C].Budapest,2005.
[5] Callison-Burch,Chris and Raymond S.FLOURNOY.A program for automatically selecting the best output from multiple machine translation engines[A].Proceedings of MT Summit VIII[C].Santiago de Compostela,2001:63 -66.
[6] Andreas Stolcke.Srilm-an extensible language modeling toolkit[A].Speech Technology and Research LaboratorySRI International[C].Menlo Park,2002.
[7] Liu Yang,Sun Jiasong,Wang Zuoying.Comparison of several smoothing methods in statistical languagemodel[A].International Symposium on Chinese Spoken Language Processing ISCSLP 2000[C].Beijing,2000.
[8]寧偉,苗雪雷,胡永華,等.基于SVM 的無參考譯文的譯文質(zhì)量評(píng)測(cè)[A].第四屆全國機(jī)器翻譯研討會(huì)[C].北京,2008.