国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器翻譯譯文質(zhì)量估計綜述

2023-01-18 03:37:56鄧涵鋮熊德意
中文信息學報 2022年11期
關(guān)鍵詞:譯文單詞特征

鄧涵鋮,熊德意

(天津大學 智能與計算學部,天津 300350)

0 引言

機器翻譯(Machine Translation,MT)技術(shù)在全球化中扮演著十分重要的角色。隨著全球化推進,機器翻譯技術(shù)也在不斷地進步,尤其是近些年來神經(jīng)機器翻譯技術(shù)(Neural Machine Translation,NMT)的出現(xiàn),將機器譯文質(zhì)量提升到了新的高度。盡管如今機器翻譯技術(shù)達到了較高水平,但不少機器譯文仍存在著錯譯、漏譯、過譯等問題,且無法在機器翻譯系統(tǒng)中實時反映給使用者。即當前機器翻譯系統(tǒng)尚無法滿足人類的翻譯需求,尤其是在缺少人類后期編輯(post-editing,PE)干預時。目前機器翻譯僅能作為計算機輔助翻譯(Computer-Assisted Translation,CAT)的手段之一[1]。如何在使用機器翻譯系統(tǒng)的過程中,實時地掌握機器譯文質(zhì)量成了人們研究的問題。因此針對不需要參考譯文的機器翻譯質(zhì)量估計(Machine Translation Quality Estimation,MTQE,QE)的研究應運而生。

與如BLEU[2]、METEOR[3]、NIST[4]、TER[5]等需要參考譯文來計算對應的指標以評價機器譯文質(zhì)量的方法不同,QE僅需源語言文本及其經(jīng)過機器翻譯系統(tǒng)生成的目標語言文本,即可自動估計出目標語言文本的翻譯質(zhì)量。Gandraburd等人[6]受語音識別領(lǐng)域中置信度估計(Confidence Estimation)的啟發(fā),最早將置信度估計引入到機器翻譯中。Quirk等人[7]將機器譯文句子人工標注為Ideal、Acceptable、Possibly、Unacceptable四類質(zhì)量標簽作為數(shù)據(jù)集,從雙語中提取有效特征,并通過SVM算法對機器譯文進行分類。早期的QE任務并沒有準確定義,針對QE的研究[8-10]大多集中在對統(tǒng)計機器翻譯系統(tǒng)本身,且并未形成規(guī)模。2009年,Specia等人[11]提出了一套包括譯文句子人工打分標注、雙語特征提取、機器學習算法訓練譯文分數(shù)模型在內(nèi)的QE方案。自2012年機器翻譯研討會(Workshop on Machine Translation,WMT)針對該方案正式將譯文質(zhì)量估計作為一項任務[12],QE任務開始廣泛被研究。發(fā)展至今,QE研究可分為三個階段: 基于特征工程和機器學習的QE方法階段、基于深度學習的QE方法階段、融入預訓練模型的QE方法階段。

本文組織結(jié)構(gòu)如下: 引言部分主要介紹機器翻譯質(zhì)量估計研究的背景及其意義;第1節(jié)介紹機器翻譯質(zhì)量估計作為WMT的經(jīng)典任務,在WMT中的具體任務描述,包括任務目標、任務所使用的數(shù)據(jù)集、任務評價指標等內(nèi)容;第2節(jié)介紹基于傳統(tǒng)機器學習與特征工程的機器翻譯質(zhì)量估計的方法,包括常用的機器學習方法及常見特征;第3節(jié)介紹翻譯質(zhì)量估計方法過渡到神經(jīng)方法階段后出現(xiàn)的主流方法及其存在的問題;第4節(jié)介紹以BERT為代表的自然語言處理預訓練模型(Pre-trained Models,PTMs)出現(xiàn)后,融入預訓練模型的QE方法;第5節(jié)介紹除從QE模型方面改進之外,圍繞數(shù)據(jù)增強展開的QE方法;第6節(jié)討論目前機器翻譯質(zhì)量估計所面臨的一些挑戰(zhàn)和未來的研究方向;第7節(jié)為本文小結(jié)。

1 三種不同粒度的QE任務描述

按照不同的質(zhì)量估計粒度劃分,QE任務可分為單詞級(word-level)、短語級(phrase-level)、句子級(sentence-level)、段落級(paragraph-level)及文檔級(document)五種,其中單詞級QE任務與短語級QE任務較為相似,也被稱為亞句子級(subsentence-level)QE任務[13]。

QE任務是WMT上的一項經(jīng)典任務,最早作為WMT的具體任務出現(xiàn)是在WMT12中。此后,不少Q(mào)E的工作都圍繞WMT上的QE任務來展開,所以以下主要按照WMT上的QE任務,來具體介紹不同粒度QE任務的具體內(nèi)容。由于短語級QE任務和段落級QE任務分別與單詞級QE任務和文檔級QE任務較為相似,均只在WMT早期某些年份中少次出現(xiàn),且最近的研究工作較少圍繞短語級QE任務及段落級QE任務展開,故在本文中只介紹單詞級、句子級及文檔級三種粒度的QE任務。

1.1 單詞級QE任務

單詞級QE任務即預測給定機器譯文中每一個單詞及符號的質(zhì)量,可以幫助機器翻譯系統(tǒng)用戶直接了解到翻譯不好的位置,幫助后編輯工作者直接定位翻譯質(zhì)量差的單詞進行修改。

1.1.1 預測目標

單詞級QE任務的目標為估計譯文中每一單詞或標點符號的針對源語言文本的翻譯質(zhì)量。單詞級QE任務可以被認作是一種有監(jiān)督的分類任務,可分為二分類目標(Binary Classification)、Level 1分類目標(Level 1 Classification)和多分類目標(Multi-class Classification)。

單詞級QE任務二分類的目標是預測譯文中每個詞或符號的好/壞(OK/BAD)標簽,以表示每個詞或符號翻譯的優(yōu)劣。自WMT 2018起,除預測譯文中的詞或符號質(zhì)量外,QE任務還要求參與者預測詞或符號間空格的質(zhì)量,即判斷翻譯中有無遺漏單詞,并用BAD來標注空格以表示有漏譯情況,OK表示無漏譯情況。

Level 1分類目標是在二分類的基礎(chǔ)上,將錯誤翻譯的單詞(即BAD標簽所對應的單詞)按照多維度質(zhì)量指標[14](Multidimensional Quality Metrics,MQM)中的一級錯誤分類(包含準確度錯誤、流利度錯誤兩類)細粒度化,即預測出翻譯中的錯誤屬于準確度錯誤還是流利度錯誤。

單詞級QE任務的多分類目標是在Level 1分類目標的基礎(chǔ)上將錯誤翻譯更細粒度化,將每個錯誤翻譯的單詞都用MQM中的細粒度錯誤類別(大小寫、標點、術(shù)語、錯誤翻譯、遺漏等)來標記。

Level 1分類目標與多分類目標在早期的WMT中均有出現(xiàn),但其數(shù)據(jù)集標注相對于二分類目標的數(shù)據(jù)集標注更加復雜耗時,并且各參賽系統(tǒng)獲得在前兩項任務上的效果與二分類目標任務相比差距較大,作為二分類任務外的子任務,較少研究團隊參加。所以在WMT15及之后年份的WMT中,單詞級QE任務僅采用二分類目標任務作為唯一任務。且相對于難度較大的Level 1分類目標與多分類目標,二分類目標相對簡單并以其實用性成為人們在單詞級QE任務上的主要研究目標。

1.1.2 數(shù)據(jù)集

總體來說,單詞級、句子級、文檔級三種粒度的QE任務所使用的訓練集和開發(fā)集都包含以下幾部分: 源語言文本(src)、機器譯文文本(mt)、譯后編輯文本(pe)、數(shù)據(jù)標簽(labels)。其中,歷屆WMT中的單詞級QE和句子級QE任務都使用同樣的src、mt及pe,僅因其預測目標的區(qū)別而有不同數(shù)據(jù)標簽,測試集不包含pe及l(fā)abels。

具體而言,WMT中的單詞級及句子級的QE任務數(shù)據(jù)集一般選取特定領(lǐng)域(新聞、信息科技、制藥、生命科學等領(lǐng)域)的不同語言對的平行語料,并使用機器翻譯系統(tǒng)對平行語料中的一類語言文本(源語言文本)進行翻譯得到目標語言文本,再由專業(yè)的譯員參照平行語料對目標語言文本后編輯得到譯后編輯文本(記作pe)。

不同年份WMT的單詞級QE任務因有著不同的預測目標,因而其所使用的數(shù)據(jù)標簽也不盡相同。如今主要使用的是OK/BAD二分類標簽,可通過TERCOM(1)http://www.cs.umd.edu/~snover/tercom/工具對比機器譯文與譯后編輯文本自動計算得來。表1以WMT2019中的英語-德語QE任務為例,展示單詞級QE數(shù)據(jù)集主要內(nèi)容。

表1 單詞級QE任務數(shù)據(jù)集示例

每個單詞都被標記為OK或BAD。此外,在WMT18之后,如果兩個單詞之間有一個或多個單詞需要被插入,那么每個單詞之間的間隔都被標記為BAD,否則標記為OK。所以,如果目標句子單詞的數(shù)量若為N個,則每個目標句子的標簽數(shù)量是2N+1。

1.1.3 評價指標

與其他分類任務相似,單詞級QE方法可使用準確率(precision)、召回率(recall)、F1值(precision和recall的調(diào)和平均數(shù))作為評價指標,precision和recall的計算方式如式(1)、式(2)所示。

其中,TP、FP、FN分別表示QE模型預測出的真正類(True Positive)、假正類(False Positive)、假負類(False Negative)的樣本數(shù)。F1計算方式如式(3)所示。

(3)

單詞級QE任務的最終評價指標是“OK”和“BAD”類別的F1值的乘積,記作Fmult。

由于數(shù)據(jù)集中的OK標簽遠遠多于BAD標簽,即單詞級QE這一分類任務中的類具有非常大的不平衡性。因此在WMT19及之后,馬修斯相關(guān)系數(shù)[15](Matthews correlation coefficient,MCC)也因其在類不平衡時的有效性,作為一項額外的評價指標被引入到單詞級QE任務中[16],其計算如式(4)~式(6)所示。

其中,N表示所有的預測總數(shù),即TP+TN+FP+FN,TN為模型預測的真負類(True Negative)的樣本數(shù)。

1.2 句子級QE任務

句子級QE任務,旨在對每條翻譯的句子進行整體的質(zhì)量估計,是最早被定義和研究的QE任務[7],同時因為機器翻譯系統(tǒng)最常用于翻譯句子上,機器翻譯系統(tǒng)通常以句子為輸入并處理整條句子,因此句子級機器翻譯質(zhì)量估計具有很高的實用性,句子級QE任務也是最受各研究團隊關(guān)注的任務。

1.2.1 預測目標

在WMT中,句子級QE任務可分為打分和排名兩個子任務,其中打分任務是給出一個代表句子質(zhì)量的絕對分數(shù),而排名任務是對所有機器譯文句子按照估計的質(zhì)量進行排序,打分任務為主要任務。作為最早出現(xiàn)在WMT上的QE任務發(fā)展至今,打分任務本身的預測目標也是一直在變化的,但其始終是圍繞將機器譯文句子后編輯至可出版水平的所需工作量(2)簡稱后編輯工作量,Post-Editing Effort。出發(fā)的。根據(jù)Krings[17]的觀點,后編輯工作量可分時間、認知及技術(shù)三個維度。其中時間維度的后編輯工作量是指將機器譯文后編輯至可出版水平所需的時間,簡稱后編輯時間。認知維度指的是從人類(特指人類譯員)的認知角度(譯員付出的腦力勞動),將機器譯文后編輯至可出版水平所需的工作量,具有很強的主觀性。技術(shù)維度的后編輯工作量指的是將機器譯文后編輯至可出版水平所涉及到的技術(shù)操作(如插入、刪除、替換、移動等)的工作量。

后編輯時間的長短能夠直接比較不同機器譯文的好壞程度,其作為一種直觀的后編輯工作量體現(xiàn)方式,曾作為句子級QE子任務的預測目標出現(xiàn)于WMT13[18]及WMT14[19]中。但是后編輯時間是一項具有很強主觀性的指標,在后編輯時間數(shù)據(jù)標簽標注過程中,不同譯者可能因翻譯經(jīng)驗、熟練水平、打字速度等因素,對于相同機器譯文句子,后編輯時間差異較大,后編輯時間同樣可能會受因譯者個人狀況(如分心、勞累)等因素影響。并且,譯者在后編輯的過程中還需要時間閱讀、修改、校對,這些時間也具有較強的主觀性,它們與后編輯時間之間的關(guān)系也難以定義。因此,將后編輯時間作為句子級QE任務的預測目標缺乏一定的客觀性和實用性,WMT在2015年及之后不再將預測譯文后編輯時間來作為句子級QE的子任務,輔助的數(shù)據(jù)標簽出現(xiàn)于WMT16-WMT18句子級QE任務中。

認知維度的后編輯工作量主要由人類譯者對譯文后編輯工作量打分來間接體現(xiàn),又稱感知后編輯工作量(perceived post-editing effort[19])。例如,在WMT12[12]中,句子級QE任務的預測目標為基于李克特量表的1~5分的質(zhì)量分數(shù)[20],其中1分表示譯文無法進行后編輯,需要從頭開始翻譯,2~4分分別表示約50%~70%、25%~50%、10%~25%的譯文需要后編輯,5分表示譯文清晰易懂,幾乎不需要后編輯。在WMT14[19]中,句子級QE任務的預測目標為基于李克特量表的1~3分的質(zhì)量分數(shù),與之前不同的是,分數(shù)越低表示譯文需要的后編輯工作量越少,譯文質(zhì)量越高,1分表示無需任何后編輯的完美譯文,2分表示譯文中包含的錯誤不超過3個及可能帶有一些易于修正的簡單錯誤(如大小寫、標點符號等),3分表示譯文質(zhì)量非常低,且無法輕易修正。認知維度的后編輯工作量同樣具有很強的主觀性,同一譯文句子需要多個譯者(后編輯者)進行打分標注,而不同的譯者對于相同的譯文句子打分可能差異較大,因此認知維度的后編輯工作量(感知后編輯工作量)作為數(shù)據(jù)標簽是耗時耗力且不穩(wěn)定的,不適合作為句子級QE任務的預測目標。

技術(shù)維度的后編輯工作量中最常用且最具代表性的衡量指標是人工翻譯編輯率(Human-targeted Translation Edit Rate[5],HTER),是翻譯編輯率(Translation Edit Rate[5],TER)的變種。TER的計算方法為機器譯文到參考譯文的最小編輯(插入、刪除、替換、移動等四類編輯)次數(shù)除以其若干條非定向參考譯文(Untargeted Reference Translations)的平均長度。HTER的計算方式同樣為最小編輯次數(shù)與參考譯文的比值,但其參考譯文為經(jīng)過人工后編輯的定向參考譯文(3)Human-target Reference Translation,即1.1.2節(jié)中提到的PE。,由人類譯者參考非定向參考譯文以了解語義后,本著最少編輯次數(shù)的原則對機器譯文進行后編輯得來。HTER相對于TER有更小及更客觀的最小編輯次數(shù),能更合理地反映機器譯文的質(zhì)量。HTER的計算如式(7)所示。

(7)

其中,I,D,S,Sh分別代表插入(Insert)、刪除(Delete)、替換(Substitute)、移動(Shift)操作的次數(shù),R代表定向參考譯文中單詞的個數(shù)。

HTER的范圍在[0,1]之間,其值越高,表示譯文需要修改的次數(shù)越多,質(zhì)量越差。相比于其他指標它更能直觀且客觀地反映機器譯文所需工作量。因此從WMT13[18]開始,預測機器譯文的HTER成為句子級QE的一項子任務,后于WMT15開始成為句子級QE唯一打分任務,并沿用至今。

1.2.2 數(shù)據(jù)集

如1.1.2節(jié)中所提到,單詞級QE和句子級QE任務共用數(shù)據(jù)集中的src、mt及pe。使用TERCOM工具即可自動計算出句子級QE任務所需的HTER標簽。除此之外,如1.2.1節(jié)中提到的,部分數(shù)據(jù)集中還有部分額外的如后編輯時間、后編輯者鍵盤點擊次數(shù)等輔助數(shù)據(jù)標簽。

1.2.3 評價指標

不同的子任務及不同的預測目標有著不同的評價指標。早期的句子級QE任務采用平均絕對誤差(MAE)作為主要評價指標,均方根誤差(RMSE)作為次要評價指標。同時使用DeltaAvg,Spearman作為排名任務的評價指標。

Graham等人[21]指出,若QE模型的預測結(jié)果中方差較高,它將導致較高的平均絕對誤差,即使是在預測結(jié)果的分布遵循真實標簽分布的情況下。該問題在用于句子級別QE的數(shù)據(jù)集中很常見,因此建議使用皮爾遜相關(guān)系數(shù)r(Pearson correlation coefficient)作為句子級QE預測HTER任務的評價指標,其計算方法如式(8)所示。

(8)

Souza等人[22]指出,由于皮爾遜相關(guān)系數(shù)r使用的前提假設之一是兩個變量均服從正態(tài)分布,而句子級QE任務中的HTER標簽往往并非呈正態(tài)分布,因此將皮爾遜相關(guān)系數(shù)r作為句子級QE任務的唯一評價指標是不可靠的,建議將MAE與皮爾遜相關(guān)系數(shù)r結(jié)合考慮,以更好評價句子級QE模型的效果。

1.3 文檔級QE任務

文檔級(又稱篇章級)QE任務是指在沒有人工參考譯文的情況下對給定的翻譯文檔進行質(zhì)量估計,其文檔泛指包含多個句子(3個句子及以上)的文本。

1.3.1 預測目標

文檔級QE任務自2016年作為一項新任務出現(xiàn)于WMT,發(fā)展至今主要分為兩類預測目標,一類預測是WMT16[23]中采用的兩階段后編輯方法[24]計算質(zhì)量得分,另一類是預測WMT18[25]中采用的由多維度質(zhì)量指標(Multidimensional Quality Metrics,MQM)計算得來的MQM分數(shù)及譯文文檔中句子級的MQM錯誤標簽。

兩階段后編輯方法是Scarton等人[24]從文檔級特性出發(fā)提出的一種衡量文檔級譯文后編輯工作量的方法。在第一階段,句子順序被隨機打亂,然后由譯員進行后編輯,記作PE1;在第二階段,將PE1中的句子按順序放回原處,由譯員將其作為整個文檔考慮其篇章特性,再次進行后編輯,記作PE2。該方法的動機是將文檔級QE與句子級QE區(qū)分開來,體現(xiàn)句子之間的銜接性和連貫性。然后譯文到PE1和PE2的后編輯代價HTER分別記為PE1×MT、PE2×MT。但Bojar等人[23]發(fā)現(xiàn)PE1×MT與PE2×MT差值較小,難以體現(xiàn)文檔級的后編輯代價,而PE2×PE1值較大,表明當只考慮文檔級別的錯誤時,文檔的變化更大,顯然忽略了單詞及句子級別的問題,影響整個文檔的質(zhì)量。因此,Bojar等人[23]提出了設置權(quán)重將PE1×MT和PE2×PE1線性組合衡量文檔級后編輯代價,計算方法如式(9)所示。

f=w1·PE1×MT+w2·PE2×PE1

(9)

其中,w1及w2為權(quán)重,由經(jīng)驗得來,WMT16中的設置為w1=1,w2=13。

與以上這種基于后編輯代價來估計文檔級譯文質(zhì)量不同?;贛QM模型的預測目標的出發(fā)點是估計譯文文檔中的翻譯錯誤程度,參與者被要求預測基于MQM錯誤類型及錯誤嚴重程度計算得來的MQM分數(shù)。MQM模型將譯文中的錯誤分為輕微錯誤(minor)、重大錯誤(major)、嚴重錯誤(critical)三種嚴重程度,由專業(yè)譯員參考譯文中單詞級的錯誤并按照Sanchez-Torron等人[26]提出的方法進行標注分類。MQM分數(shù)計算如式(10)所示。

(10)

其中,nminor、nmajor、ncritical分別代表文檔中輕微錯誤、重大錯誤、嚴重錯誤的個數(shù),n表示整個文檔的單詞數(shù)。MQM越大,表示譯文質(zhì)量越高,上限為1(即譯文中無任何錯誤),若錯誤很嚴重,MQM分數(shù)有可能為負數(shù)。

此外,自WMT19開始,參與者還被要求預測機器譯文文檔中單詞級的錯誤類型(與1.2.1節(jié)類似)。

1.3.2 數(shù)據(jù)集

不同的預測目標對應著帶有不同數(shù)據(jù)標簽的數(shù)據(jù)集?;趦呻A段后編輯方法質(zhì)量分數(shù)的數(shù)據(jù)標簽以及MQM分數(shù)標簽都由專業(yè)譯員標注得來。與單詞級和句子級QE任務數(shù)據(jù)集共用src、mt、pe不同,文檔級QE任務的基本單位為文檔(至少包含3個句子)。一般而言,帶有MQM分數(shù)標簽的文檔級QE任務數(shù)據(jù)還帶有細粒度錯誤(單詞級錯誤)類型標注及錯誤嚴重程度標注。

近期的文檔級QE任務(WMT18-20)使用的數(shù)據(jù)集均基于亞馬遜產(chǎn)品評論數(shù)據(jù)集(4)http://jmcauley.ucsd.edu/data/amazon/(Amazon Product Reviews dataset),源語言文本來自亞馬遜網(wǎng)上最受歡迎的英文的體育和戶外產(chǎn)品名稱和描述,將其經(jīng)過最先進的機器翻譯系統(tǒng)翻譯得到法語機器譯文,并由Unbabel團隊人員標注獲得MQM分數(shù)標簽。

1.3.3 評價指標

預測兩階段后編輯質(zhì)量得分及預測MQM得分都與預測HTER的句子級QE任務同樣采用皮爾遜相關(guān)系數(shù)作為主要評價指標,評價預測值與真實值的相關(guān)性,同時采用MAE、RMSE作為輔助評價指標。而預測機器譯文文檔中單詞級的錯誤類型的評價指標則與單詞級QE任務的相同,同樣使用F1值作為評價指標。

2 基于特征工程與機器學習的QE方法

如引言部分所提及,早期針對QE任務的研究未形成規(guī)模,QE任務未被準確定義,學界對機器譯文質(zhì)量也尚未形成統(tǒng)一分類標準。隨著QE任務被納入WMT12,QE任務逐漸形成基于特征工程與機器學習的研究框架,該框架將QE任務定義為有監(jiān)督的回歸/分類預測任務?;谔卣鞴こ膛c機器學習的QE方法框架如圖1所示,其核心部分為特征提取模塊與機器學習模塊,特征提取模塊用以對源語言及機器譯文文本進行特征提取及特征選擇,該過程又稱特征工程;機器學習模塊通過提取好的特征在訓練階段可對不同粒度的數(shù)據(jù)標簽進行訓練擬合,學習到特征與質(zhì)量標簽的關(guān)系,即可在預測階段實現(xiàn)對機器譯文的質(zhì)量估計。此階段相關(guān)的工作主要圍繞特征工程和機器學習算法的選擇兩方面進行展開。

圖1 基于特征工程與機器學習的QE方法框架

2.1 基于特征工程的QE方法

基于特征工程的QE方法主要從兩方面出發(fā),一是特征抽取,即如何從源語言及機器譯文文本中提取與翻譯質(zhì)量相關(guān)的特征;二是特征選擇與特征過濾,即在眾多特征中選取與機器譯文質(zhì)量最為相關(guān)的特征。

在特征提取方面,2013年Specia等人[27]提出的QuEst模型(5)在2015年改進為QuEst++[28],并作為WMT13-18的基線模型。將QE任務使用的特征歸納為了四大類: 復雜度特征,流利度特征,忠實度特征,置信度特征(圖2)。其中,復雜度特征由源語言得來,主要反映源語言文本的復雜程度與翻譯難度,例如源語言句子長度、源語言句子語言模型概率等;流利度特征由機器譯文中得來,包括機器譯文句子長度、機器譯文句子語言模型概率等;忠實度特征則由源語言文本與機器譯文共同得來,以反映翻譯是否將源語言文本中的意思完整保留及表達,主要包括源語言句子與譯文句子長度比、源語言句子與譯文句子中各類詞性單詞個數(shù)比值等特征,以上這三類特征與具體機器翻譯系統(tǒng)本身無關(guān),又被稱為黑盒特征(Black-box Features)。置信度特征由機器翻譯系統(tǒng)得來,依賴于機器系統(tǒng)本身,又被稱為白盒特征(Glass-box Features),例如機器翻譯系統(tǒng)本身對輸出譯文的打分、n-best列表中不同翻譯假設(hypotheses)的個數(shù)、譯文中短語的平均長度等。

圖2 QuEst框架特征分類

除QuEst模型中提出的的四類特征外,不少團隊對其他種類的句子級QE特征提取展開了研究,其中最為常見的是基于語言學的特征和偽參照譯文(pseudo references)、回譯[29](back-translation)特征。Almaghout等人[30]主要采用了組合范疇語法(Combinatory Categorial Grammar,CCG)特征,他們認為與上下文無關(guān)的短語結(jié)構(gòu)語法形式相比,CCG更適合處理SMT文本。他們將翻譯分成從CCG解析圖中提取的最大語法塊,使用CCG特征來估計翻譯的合乎語法性,并對比了CCG特征與基線特征在法語-英語和阿拉伯語-英語數(shù)據(jù)集上的實驗效果,結(jié)果表明CCG特征優(yōu)于基線特征。Langlois等人[31]提出的LORIA系統(tǒng)首次引入基于潛在語義索引(Latent Semantic Indexing,LSI)的特征來衡量源語言與目標語言的詞匯相似性,并加入了基于偽參照譯文特征來判斷其與機器譯文的相似性。Kozlova等人[32]研究了更為傳統(tǒng)的句法特征對源語言與目標語言句法解析樹的作用,提取如寬度(來自根節(jié)點的依賴數(shù)量)、最大深度、內(nèi)部節(jié)點比例、主語數(shù)量、關(guān)系子句等與句法樹、句型、詞性標注等相關(guān)的句法特征,并將源語言文本輸入在線機器翻譯系統(tǒng)以獲取偽參考譯文,又將偽參考譯文回譯為源語言文本,最后再針對以上提及的文本進行特征設計。Abdelsalam等人[33]基于詞對齊和雙語分布式表示,為句子級QE任務引入了一組新特征。Sagemo等人[34]使用不同工具提取詞對齊特征、詞性(POS)特征、基于短語結(jié)構(gòu)的特征、語言模型特征,并通過量化名詞翻譯錯誤、重新排序措施、語法一致性和結(jié)構(gòu)完整性來獲得體現(xiàn)SMT系統(tǒng)翻譯難點的一致性特征。

除了基于語言學的特征和偽參照譯文特征外,Bi?ici等人[35-36]基于可識別訓練語料和測試語料之間翻譯行為的參考翻譯機器模型[37](referential translation machines,RTMs),直接估計翻譯輸出質(zhì)量,判斷文本之間語義相似度的方法,該方法無須依賴SMT系統(tǒng)信息及語言學分析,并通過特征衰減算法(feature decay algorithms,F(xiàn)DA5)在大量的候選平行語料中選擇與已經(jīng)給出的訓練和測試語料之間翻譯行為相同的語料,添加到訓練語料中。Shah等人[38]除了使用QuEst++中的基線特征外,還使用神經(jīng)網(wǎng)絡提取了連續(xù)空間語言模型特征(將在第3.1節(jié)展開)。

以上特征提取方法主要針對句子級QE任務,對句子級QE基線方法QuEst使用的特征進行擴充。Luong等人[39]針對單詞級QE任務使用了基于系統(tǒng)的(圖拓撲、語言模型、對齊上下文等)、詞法的(詞性標簽)、語法的(成分標簽、到成分樹根的距離)和語義的(多義詞計數(shù))特征。除了SMT系統(tǒng)的現(xiàn)有組件外,還使用了其他外部工具和資源進行特征提取。例如,TreeTagger(用于獲取詞性標簽)、使用AnCora treebank訓練的Bekerley parser(用于西班牙語生成組成樹)、WordNet和BabelNet(用于多義詞計數(shù))、谷歌翻譯等。該文提出的特征為WMT15-WMT18單詞級QE任務主要特征,并可使用MARMOT工具(6)https://github.com/qe-team/marmot進行抽取。

在特征選擇方面,González-Rubio等人[40]指出基于特征工程的QE方法存在著特征集高度冗余的問題,特征之間有高度的多重共線性,有些特征可能與預測質(zhì)量分數(shù)無關(guān);且由于特征的數(shù)量和種類很多,而且訓練集通常相對較小,因此需要對特征進行降維操作,提出了偏最小二乘回歸的特征降維方法,并在文獻[41]中提出主成分分析的特征降維方法,通過在不同QE模型上的實驗發(fā)現(xiàn)特征降維方法能顯著提升模型性能。Shah等人[42]使用高斯過程(Gaussian Process,GPs)在82個特征中選取了前20個特征,且取得較好實驗結(jié)果。除此之外,特征過濾同樣能在一定程度上解決特征冗余的問題,Langlois等人[31]采用反向算法[43](backward algorithm)過濾無效的特征。

2.2 基于傳統(tǒng)機器學習的QE方法

對于句子級QE任務預測HTER這種表示為連續(xù)分數(shù)的標簽,回歸算法是自然的選擇。一系列的如邏輯回歸[30]、M5P算法[44]、局部最小二乘法[11]、高斯過程回歸[45-46]、極端隨機樹[47]、單層和多層感知機[8,48-49]、嶺回歸[35]、支持向量機[50]、基于多項式核的支持向量回歸算法[51]均被探索應用于句子級QE任務中。Tezcan等人[52]通過實驗對比了在相同實驗設置及相同特征工程下基于支持向量機、線性回歸模型、隨機森林(Random Forest, RF)這三類機器學習算法,實驗結(jié)果顯示支持向量機的效果最好。

單詞級QE任務被定義為有監(jiān)督的分類模型,由于單詞級的QE任務總在譯文句子內(nèi)進行,因此針對單詞級傳統(tǒng)QE方法的研究可分為非序列類和序列類[13]兩類模型。非序列類模型將句子中每一單詞獨立看待,不考慮單詞間的相互依賴性,序列類模型則是在進行QE任務時關(guān)注到單詞所在的句子序列信息,即上下文信息。許多標準的機器學習模型都可用于非序列模型訓練,Singh等人[53]及Esplà-Gomis等人[54]使用隨機森林分類器學習訓練數(shù)據(jù)的決策樹集成,Rubino等人[55]使用了支持向量,Esplà-Gomis等人[56]及Tezcan等人[52]使用多層感知機作為單詞級QE的分類器,非序列模型早期展現(xiàn)了比較好的實驗效果,但因忽略上下文信息,逐漸被持續(xù)發(fā)展的序列模型超越。例如,Esplà-Gomis等人[56]在WMT15中單詞級QE任務排名第一,但其在文獻[54]中的改進版本在WMT16中單詞級QE任務排名下降到第七。

序列模型中最常用的是條件隨機場(Conditional Random Fields,CRF)模型[57],它類似于生成隱馬爾可夫模型,其中任何變量的值都以其鄰居的值為條件,能夠較好地對單詞級QE任務進行上下文建模。Luong等人[39]將CRF首次應用于單詞級QE任務,并在WMT13-14上取得較好成績。但近些年來,用以構(gòu)建序列模型的CRF逐漸被循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)所替代(基于神經(jīng)網(wǎng)絡的QE方法將在第3節(jié)中展開)。

2.3 問題與挑戰(zhàn)

基于特征工程與傳統(tǒng)機器學習的QE方法的核心在于特征工程,但特征提取和特征選擇嚴重依賴于人們對語言對的語言學分析,并需要進行人工特征設計,若沒有強大的語言學分析及人力資源,難以對其開展研究。此外,不同語言對及不同粒度的譯文有著截然不同的特征,即特征抽取耗時耗力且難以復用,缺乏在不同語言中的通用性。同時,特征的選擇及抽取本身就存在較大誤差,大量帶有誤差的特征導致誤差在模型中累積,從而導致模型在QE任務上表現(xiàn)較差,且難以突破該框架本身對QE任務建模的能力。

3 基于深度學習的QE方法

3.1 利用神經(jīng)網(wǎng)絡進行特征提取的QE方法

隨著神經(jīng)網(wǎng)絡和深度學習技術(shù)在自然語言處理領(lǐng)域的初步應用,詞嵌入[58-59](又稱詞向量)技術(shù)以及神經(jīng)網(wǎng)絡機器翻譯(Neural Machine Translation, NMT)模型的出現(xiàn),一些研究團隊開始將神經(jīng)網(wǎng)絡用于QE任務中的特征提取。Shah等人[38,42]除了使用QuEst中的傳統(tǒng)手工特征外,還使用基于詞袋模型(Continuous Bag-of-Words,CBOW)的Word2Vec[58]工具提取詞嵌入,以及計算源語言和目標語言單詞在彼此詞嵌入空間映射的相似度,作為單詞級QE任務的額外特征;在句子級QE任務上,將訓練連續(xù)空間語言模型[60](Continuous Space Language Model,CSLM)所產(chǎn)生的語言模型概率作為特征,并與傳統(tǒng)特征相結(jié)合,文獻[38]的實驗結(jié)果顯示加入了CSLM特征的模型的句子級QE效果比未加入CSLM特征的模型更好。Shah等人[61]在此基礎(chǔ)上將NMT系統(tǒng)產(chǎn)生的基于對數(shù)似然估計的條件語言模型概率特征與CSLM提取的句子向量和交叉熵特征、由QuEst提取的傳統(tǒng)手工特征相結(jié)合,較文獻[38]中的方法取得了句子級QE任務上更好的實驗結(jié)果。

Chen等人[62-63]在Shah等人工作的基礎(chǔ)上,使用多種方法提取詞嵌入特征,并使用算術(shù)平均、TF-IDF加權(quán)平均、最小值、乘法等4種方法將詞嵌入合成為句子向量特征,并且使用循環(huán)神經(jīng)網(wǎng)絡的語言模型提取語言模型概率特征,將句子向量特征與語言模型概率特征結(jié)合,進一步提升了神經(jīng)網(wǎng)絡在QE任務特征提取上的表現(xiàn)。此外,Abdelsalam等人[33]和Scarton等人[64]也將詞向量特征結(jié)合傳統(tǒng)特征分別應用在了句子級和文檔級QE任務中。

另一方面,一些研究者嘗試完全使用神經(jīng)網(wǎng)絡進行特征提取并進行質(zhì)量估計,Kreutzer等人[65]提出的QUETCH方法利用基于多層感知機的深度前饋神經(jīng)網(wǎng)絡在平行語料上無監(jiān)督地訓練一個將目標詞分類為OK/BAD的二分類模型,然后將其用于單詞級QE任務,且以固定大小的滑動窗口形式輸入若干個目標詞將向量拼接,以將上下文雙語表示信息傳入下游的前饋神經(jīng)網(wǎng)絡中,該方法屬于不依賴傳統(tǒng)手工特征而完全使用神經(jīng)網(wǎng)絡提取特征的QE方法,且取得了較好的實驗效果,但其實驗效果并不如融入了在此基礎(chǔ)上的傳統(tǒng)特征的QUETCH+方法。Martins等人[66]在QUETCH的基礎(chǔ)上,加入雙向門控循環(huán)單元(Bidirectional Gated Recurrent Units,BiGRU)網(wǎng)絡并堆疊前饋神經(jīng)網(wǎng)絡對QUETCH中的神經(jīng)網(wǎng)絡架構(gòu)進行改進,并加入了源與目標語言輸入的詞性(Part of Speech,POS)特征,取得了優(yōu)于基于傳統(tǒng)特征QE方法的實驗結(jié)果。Patel等人[67]也在QUETCH的基礎(chǔ)上提出一種基于RNN的QE方法,同樣使用了預訓練詞向量的方法,并基于滑動窗口輸入雙語單詞序列,分別使用LSTM、GRU兩種RNN變體提取雙語序列的表示;并針對單詞級QE訓練集中OK/BAD標簽的不平衡問題,借用了Shang等人[68]提出的細粒度化標簽方法,根據(jù)單詞在句子中的位置將OK標簽分為更細粒度的三類OK標簽,以達到均衡標簽分布的目的,其實驗結(jié)果證明了其改進的有效性。除此之外,Paetzold等人[69]、Patel等人[67]也都分別在單詞級和句子級QE任務中使用了RNN提取特征。

3.2 完全基于神經(jīng)網(wǎng)絡模型的QE方法

Kreutzer等人[65]提出的QUETCH方法雖然使用了神經(jīng)網(wǎng)絡來進行特征提取,但他們在模型輸入部分均采用的是基于滑動窗口以保留雙語上下文信息的方法,需要源語言文本和譯文之間每一個單詞及符號的對齊信息,然而QE數(shù)據(jù)集中語言對之間的對齊信息本身就是由基于統(tǒng)計方法的工具提取的,具有較大誤差,對QE效果造成巨大影響。

隨著深度學習技術(shù)和計算設備的進一步發(fā)展,端到端的神經(jīng)機器翻譯方法[70]被提出,并取得了極大的進展,且其效果也超越了統(tǒng)計機器翻譯模型。因此,在QE領(lǐng)域,人們也開始思考完全基于神經(jīng)網(wǎng)絡的模型的QE方法,即無須提取手工特征的方法。

Kim等人[71-72]提出將基于雙向RNN并引入注意力機制[70](Attention Mechanisms)的機器翻譯模型應用到句子級QE任務上,是第一個“純神經(jīng)網(wǎng)絡”QE方法。2017年,Kim等人[73]將其命名為預測器-估計器(Predictor-Estimator,PredEst)模型,PredEst模型首先對引入注意力機制的RNNSearch[70]NMT模型進行了改進,并將RNNSearch解碼器部分改為雙向RNN。如圖3所示,PredEst模型分為兩個模塊,并分兩個階段分別對兩個模塊進行訓練: (1)第一階段,使用大規(guī)模平行語料訓練單詞預測器(Word Predictor)模塊(如圖3第Ⅰ部分所示),詞預測器的任務是根據(jù)輸入的源語言及目標語言信息,來預測目標語言中心詞,近似一個NMT模型。與NMT模型不同的是,在解碼階段PredEst模型通過雙向RNN不僅能接收到從左到右的目標語言信息,同時也能獲取從右到左的目標語言信息,可充分利用目標語言上下文信息,更加符合QE任務的實際。在預測中心詞的過程中,我們可以充分獲取源端和目標端的雙向上下文信息,以提取每一特定中心詞的質(zhì)量向量,該質(zhì)量向量包含了當前位置應該被正確預測為中心詞單詞的信息; (2)第二階段,使用帶有質(zhì)量標簽的QE數(shù)據(jù)訓練質(zhì)量估計器(Quality Estimator)模塊(如圖3第Ⅱ部分所示),首先將QE數(shù)據(jù)中的雙語文本輸入到預測器中,以提取機器譯文句子每一單詞的質(zhì)量向量,再將譯文單詞質(zhì)量向量逐一輸入到估計器模塊,經(jīng)過估計器中的RNN模型輸入QE數(shù)據(jù)中的質(zhì)量標簽,由估計器對機器譯文質(zhì)量向量及質(zhì)量標簽進行擬合。在預測階段,輸入源語言與目標語言,經(jīng)過預測器提取譯文質(zhì)量,經(jīng)過估計器即可進行譯文質(zhì)量標簽預測。為了有效訓練神經(jīng)網(wǎng)絡,Kim等人[74]利用一種堆棧傳播(Stack Propagation)算法,針對單詞級QE任務、短語級QE任務和句子級QE任務對神經(jīng)網(wǎng)絡進行聯(lián)合訓練。

圖3 預測器-估計器模型框架

Li等人[75-76]針對預測器-估計器模型中兩個網(wǎng)絡需獨立訓練的問題,將預測器-估計器框架重構(gòu)為聯(lián)合神經(jīng)網(wǎng)絡框架,提出了端到端的QE方法,并稱之為UNQE聯(lián)合神經(jīng)模型。

Martins等人[77-78]在WMT17中針對單詞級QE任務提出了由一個含有大量手工特征的序列線性模型LINEARQE和一個神經(jīng)網(wǎng)絡模型NEURALQE堆疊而成的STACKEDQE模型。LINEARQE線性模型集成了一元特征(依賴單個輸出標簽)、二元特征(依賴連續(xù)輸出標簽)、句法特征(POS標注等)等三大類特征,并使用MIRA算法[79]來對計算特征權(quán)重。NEURALQE純神經(jīng)網(wǎng)絡模型在輸入層除輸入源文及譯文句子外,還增加了詞對齊、詞嵌入及POS特征,并通過多次堆疊前饋神經(jīng)網(wǎng)絡及雙向GRU獲取上下文向量。作者將上述兩個模型堆疊成為STACKEDQE模型,取得了較兩個單獨模型更好的實驗結(jié)果。并在此基礎(chǔ)上堆疊自動后編輯(Automatic Post-editing,APE)系統(tǒng)將其拓展為FULLSTACKEDQE以進行句子級QE任務。該方法取得WMT 17的單詞級QE任務上取得第二名的好成績,但在句子級QE任務上較于同年提出的預測器-估計器模型有較明顯差距。Hu等人[80]針對單詞級QE任務,在NEURALQE[77]的基礎(chǔ)上提出了對目標詞的局部和全局上下文信息進行有效編碼的方法,并將之命名為上下文編碼QE模型(Context Encoding Quality Estimation,CEQE)。該模型由三部分神經(jīng)網(wǎng)絡組成,第一部分為詞嵌入層,用于對目標中心詞進行表征,除與NEURALQE模型詞嵌入層一樣使用了POS特征、詞對齊信息外,還加入了目標詞相鄰詞及對應源文相鄰詞詞向量,豐富了目標中心詞局部上下文信息;第二部分為一維卷積層,用于為每個目標中心詞集成局部上下文信息;第三部分由前饋神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡堆疊而成,用于對句子中全局上下文信息進行編碼。該方法取得WMT 18單詞級QE任務中6個語言方向中3個方向第一名的優(yōu)異成績,但與同期的“雙語專家”模型(將于3.3節(jié)介紹)在另3個語言方向上的單詞級QE任務效果差距明顯。

3.3 雙語專家(Bilingual Expert)模型

隨著帶有自注意力(self-attention)機制的Transformer模型[81]在機器翻譯領(lǐng)域的廣泛應用,Wang等人[82]在預測器-估計器模型框架的基礎(chǔ)上引入Transformer模型,加強目標語言與源語言關(guān)系的建模,并設計了判斷機器譯文正確與否的人工特征,在WMT18單詞級及句子級QE任務的所有參賽語言方向中取得最好成績。

該模型基于預測器-估計器模型架構(gòu),包含詞預測和質(zhì)量估計兩個模塊,同樣需要分開在兩個階段訓練,F(xiàn)an等人[83]將基于大規(guī)模平行語料訓練的詞預測器類比為精通雙語的專家,并將該模型命名為雙語專家模型(Bilingual Expert),如圖4所示。在詞預測模塊中,雙語專家模型使用Transformer編碼器代替預計器中的RNN編碼器,使用雙向Transformer解碼器代替預測器中解碼器的雙向RNN解碼器。該模塊類似機器翻譯系統(tǒng),Transformer結(jié)構(gòu)的使用加強了模型對目標語言與源語言關(guān)系的建模,并可避免因輸入序列過長而導致RNN產(chǎn)生的計算問題。但與基于Transformer結(jié)構(gòu)的機器翻譯模型不同,雙語專家模型使用的雙向Transformer解碼結(jié)構(gòu)增加了后向自注意力機制,使模型在預測中心詞任務時,分別使用前向自注意力機制和后向自注意力機制,融入前文及后文的目標語言信息,該設置更貼近QE任務實際應用場景。詞預測模塊經(jīng)過訓練后可提取出上下文隱層狀態(tài)z和上下文詞向量e兩種特征。除此之外,作者針對中心詞的預測設計了一個用以衡量機器譯文中心詞與雙語專家模型預測中心詞間差距的特征,名為錯誤匹配特征(mis-matching Feature),該特征通過比較譯文中心詞和模型預測中心詞概率分布得來。質(zhì)量估計模塊使用了廣泛用于序列標注和序列分類任務的雙向LSTM模型,將由詞預測模塊的所有特征拼接為一個向量輸入到雙向LSTM中,即可進行句子級HTER回歸任務及單詞級序列標注任務。由于雙語專家模型預測的中心詞可被視作參考譯文,作者指出可擴展模型以支持結(jié)合QE和APE的多任務學習。

此外,作者還嘗試在雙向LSTM層后添加額外的CRF層,但其對原始模型實驗結(jié)果并無顯著改善;還嘗試使用自注意力機制模塊代替代雙向LSTM,但實驗結(jié)果反而變差。作者認為是第一階段用以訓練詞預測模塊的平行語料與第二階段用以訓練質(zhì)量估計模塊的QE數(shù)據(jù)間巨大數(shù)據(jù)量差異導致了這種結(jié)果。

圖4 雙語專家模型框架

3.4 問題與挑戰(zhàn)

PredEst和雙語專家模型都是基于預測器-估計器模型架構(gòu)的QE方法,并在不同時期取得了QE研究領(lǐng)域內(nèi)最好的實驗結(jié)果。該框架展現(xiàn)了強大的雙語關(guān)系建模及特征提取能力,因此成為完全基于神經(jīng)網(wǎng)絡模型QE方法的主流框架。但兩階段訓練數(shù)據(jù)存在巨大數(shù)據(jù)量差異,從預測器中提取的特征由大量平行語料訓練得來,而由數(shù)據(jù)量小很多且翻譯質(zhì)量參差不齊的QE數(shù)據(jù)訓練而得來的估計器難以利用好這些特征。其次,雙語專家模型依賴大規(guī)模平行語料進行訓練,而不少語種之間缺乏平行語料,因此這一類基于預測器-估計器模型架構(gòu)的QE方法同樣具有難以擴展到其他語種對間的挑戰(zhàn)。

4 融入預訓練模型的QE方法

融入預訓練模型的QE方法,又可稱為基于遷移學習的QE方法。隨著ELMo[84]、BERT[85]、XLM[86]等大規(guī)模預訓練語言模型(7)以下簡稱預訓練模型的出現(xiàn)與應用及發(fā)展,尤其是在大規(guī)模平行語料上基于掩碼(Mask)訓練的BERT出現(xiàn),并在一些下游任務上的表現(xiàn)遠超原有方法,一些研究工作開始嘗試將預訓練模型融入QE模型中,以更好地提取源語言文本和譯文文本的質(zhì)量向量,從而達到提高QE準確度的目的。

Kepler等人[87]分別使用了BERT、XLM等預訓練模型代替了預測器-估計器模型框架中的預測器,并對比了基于BERT、XLM、雙語專家模型的QE模型的實驗效果,實驗發(fā)現(xiàn)融合了跨語言知識的基于XLM的QE模型性能最好,并獲得了當時WMT19中QE任務的最好成績[16]。Hou等人[88]提出了兩種QE模型: 雙向翻譯QE模型和基于BERT的QE模型,雙向翻譯QE模型利用回譯文本從兩個不同的翻譯方向運用兩種語言之間的翻譯知識,基于BERT的QE模型則從源端和目標端獲取額外的單語知識,該模型取得了WMT19上句子級QE任務的較好成績。Zhou等人[89]對比使用雙語專家模型、ELMo模型、BERT模型在QE上的效果,其中基于ELMo模型的QE方法取得了當時最好效果,他們猜測是因為ELMo減少了目標語言下文的可見信息,使得預測器對中心詞預測更加困難,并迫使模型更關(guān)注源語言信息,獲得更多來自源語言的特征。

Yankovskaya等人[90]使用BERT和LASER[91];兩種預訓練模型得到的向量作為回歸神經(jīng)網(wǎng)絡模型的特征,并進一步提出了使用機器翻譯系統(tǒng)的對數(shù)概率作為輸入特征,與BERT提取到的向量特征、LASER提取到的向量特征一并輸入前饋神經(jīng)網(wǎng)絡進行融合,實驗證明了機器翻譯系統(tǒng)對數(shù)概率特征的有效性。Mathur等人[92]提出了一種基于預訓練模型語境向量的無監(jiān)督機器譯文自動評價方法,其實驗結(jié)果與人類評價相關(guān)度較高,說明在不依賴參考譯文的情況下對機器譯文質(zhì)量進行判斷是可行的,同時也提示我們使用無監(jiān)督學習方法研究機器譯文質(zhì)量估計的可能性。

Miao等人[93]基于BERT提出了三種融合預訓練模型的QE方法: ①將BERT與雙語專家模型各自提取的特征融合的混合整合模型(Mixed Integration Model); ②基于BERT+LSTM+MLP的直接整合模型(Direct Integration Model); ③使用對齊知識約束機制的約束整合模型(Constrained Integration Model)。Miao等人推測直接整合模型方法可能太依賴于預先訓練的語言模型,且有可能學習到一些有偏差的特征,沒有充分考慮平行句子對的對齊知識,所以提出了一種約束方法,在預測質(zhì)量分數(shù)時,添加使用一個對齊知識對模型進行約束,實驗表明添加了約束條件的模型性能更優(yōu)。

Wu等人[94]在WMT20上提交的系統(tǒng)集成了兩個模型: 用平行語料訓練的基于Transformer的PredEst模型和經(jīng)過微調(diào)的基于XLM的PredEst模型。在這兩種模型中,預測器部分均作為特征提取器?;赬LM的預測器產(chǎn)生兩種上下文表示: 掩碼表示和非掩碼表示,基于Transformer的預測器僅產(chǎn)生非掩碼表示。估計器采用Transformer或LSTM訓練,將具有不同模型和具有不同參數(shù)的同一模型的系統(tǒng)集成在一起,以生成單個句子級的預測。該方法在WMT20上英-中句子級QE任務上取得最好成績。

Wang等人[95]提交在WMT20上的系統(tǒng)同樣使用PredEst架構(gòu),使用一個經(jīng)WMT新聞翻譯任務的平行語料預訓練的不帶隨機掩碼的Transformer作為預測器,估計器部分針對特定任務(單詞級/句子級)使用特定分類器,采用多任務學習的統(tǒng)一模型對單詞和句子級QE任務進行聯(lián)合訓練。Wang等人還指出,由于QE數(shù)據(jù)集與平行語料相比較小,若網(wǎng)絡中所有權(quán)值均被更新,則容易出現(xiàn)過擬合的現(xiàn)象,因此使用了瓶頸適配器層[96](Bottleneck Adapter Layers),以保持與訓練好的Transformer參數(shù)固定,以提高遷移學習效率,防止過擬合。

融入了預訓練模型的QE方法展現(xiàn)了強大的針對QE任務的建模能力,但訓練預訓練模型的龐大數(shù)據(jù)量和參數(shù)量對硬件資源要求較高。不少研究團隊無法獨立地進行規(guī)模龐大的預訓練,只能使用其他團隊公開發(fā)布的預訓練模型,為QE的研究工作帶來了局限性。

5 基于數(shù)據(jù)增強的QE方法

除了在模型上對QE方法進行改進之外,由于QE數(shù)據(jù)的稀缺性,一個很自然的想法是使用數(shù)據(jù)增強的方法來提升QE的效果。在一定程度上來說,無論是在模型中使用Word2Vec、GloVe[59]等外部工具提取的詞向量,還是基于PredEst結(jié)構(gòu),使用大規(guī)模平行語料訓練估計器,還是融入預訓練模型,都可算作數(shù)據(jù)增強的方法。具體說來,當前基于數(shù)據(jù)增強的QE方法可以從以下幾個方面出發(fā): ①使用額外的平行語料; ②偽參照譯文及回譯方法使用; ③偽數(shù)據(jù)標簽構(gòu)造; ④偽后編輯譯文的生成。

Kim等人[73]提出的預測器-估計器模型,在預測器訓練階段,需要大規(guī)模的平行語料進行預訓練,幫助預測器學習跨語言信息,并在質(zhì)量估計階段進行知識遷移,以應對當前QE數(shù)據(jù)集規(guī)模較小的問題,但預訓練平行語料與QE數(shù)據(jù)集中帶噪聲的語料之間的巨大數(shù)據(jù)量差異所導致的QE模型無法很好擬合質(zhì)量標簽的問題,也亟待解決。Liu等人[97]采用平行語料訓練額外的機器翻譯系統(tǒng),并對一部分平行語料進行N-best解碼,最后將機器翻譯系統(tǒng)的輸出作為QE模型的訓練數(shù)據(jù),在最大邊際似然估計的框架下,進行形式化訓練,以擴充帶噪聲的QE數(shù)據(jù)。

Wu等人[98]提出了一種擬合QE數(shù)據(jù)中錯誤類型分布的偽數(shù)據(jù)標簽構(gòu)造方法,不依賴外部機器翻譯系統(tǒng)及預訓練,使用平行語料進行QE數(shù)據(jù)增強。首先統(tǒng)計QE數(shù)據(jù)集中的插入、刪除、替換、移動四類錯誤的分布,然后選取平行語料中與QE數(shù)據(jù)TF-IDF相似度的較高的句子對,并在選取出的句子對的目標語言句子中根據(jù)錯誤分布構(gòu)造錯誤,以達到構(gòu)造QE偽數(shù)據(jù)的目的,因錯誤分布相同,故偽數(shù)據(jù)的HTER標簽也與原QE數(shù)據(jù)相似。該方法較為新穎,且無須訓練額外的機器翻譯系統(tǒng)或使用大規(guī)模語料預訓練模型,但由于QE偽數(shù)據(jù)的構(gòu)造完全由機器自動生成,僅考慮翻譯錯誤的分布而進行構(gòu)造,無法模擬具體翻譯錯誤的產(chǎn)生及真實的機器翻譯場景。

受Back-Translation的啟發(fā),Junczys-Dowmunt等人[99]提出一種基于Round-Trip Translation的翻譯后編輯數(shù)據(jù)集增強方法,使用TERCOM工具對比偽后編輯譯文數(shù)據(jù)集與偽機器譯文數(shù)據(jù)集計算HTER便可得到QE數(shù)據(jù)集。該方法首先訓練一個機器翻譯系統(tǒng),然后使用單語語料進行兩次翻譯,兩次翻譯后的原始單語語料可被當作后編輯譯文。該方法巧妙地自動獲取偽后編輯譯文數(shù)據(jù)及偽HTER數(shù)據(jù),但兩次翻譯會使機器翻譯系統(tǒng)中的誤差疊加,嚴重影響數(shù)據(jù)集質(zhì)量。受Martins等人[77]APE-QE啟發(fā),Kepler等人將APE系統(tǒng)的輸出作為偽后編輯文本,并使用TERCOM工具自動生成單詞級及句子級質(zhì)量標簽。

Wang等人[95]假設機器譯文到參照譯文的“距離”約等于機器譯文到后編輯譯文的“距離”加上后編輯譯文到參考譯文的“距離”,利用APE系統(tǒng)或其他在線翻譯系統(tǒng)生成不同的偽參照,并將質(zhì)量稍差的偽參照作為偽后編輯譯文,便可計算偽數(shù)據(jù)標簽以進行QE任務,該方法被稱為偽后編輯譯文輔助QE方法(Pseudo-PE assisted QE,PEAQE)。實驗表明,加入偽后編輯譯文數(shù)據(jù)進行QE任務,與只使用SRC和MT文本相比顯著提高了模型性能。

6 未來發(fā)展及挑戰(zhàn)

總體說來,經(jīng)過近20年的發(fā)展,QE領(lǐng)域的研究取得了長足的進步,尤其是近年來深度學習和神經(jīng)機器翻譯技術(shù)的發(fā)展帶動了QE研究的快速發(fā)展,與此同時也伴隨著新的挑戰(zhàn),主要有以下問題亟待解決。

(1) 本文概述的QE模型主要為句子級別的QE任務模型,單詞級與文檔級的研究工作相對于句子級QE任務少很多?;谏疃葘W習和遷移學習雖然使單一模型可以進行多任務學習,但較少工作的出發(fā)點圍繞單詞級和文檔級QE展開,尤其是單詞級QE面向輔助機器翻譯或以后編輯較句子級QE更有實用性的情況下,單詞級QE和文檔級QE理應更受到關(guān)注。

(2) 如Tu等人[100]所指出,盡管NMT在翻譯質(zhì)量上有了顯著的提高,但它往往存在過翻譯和欠翻譯的問題。在機器譯文自動評價(Machine Translation Evaluation)領(lǐng)域中,Yang等人[101]針對NMT中過翻譯和欠翻譯現(xiàn)象提出的自動評價指標OTEM和UTEM彌補了BLEU等指標只能對譯文質(zhì)量進行機械式評價,而無法針對特定語言現(xiàn)象進行評價的缺陷。目前QE領(lǐng)域暫未出現(xiàn)針對特定語言現(xiàn)象研究的譯文質(zhì)量的工作,該方法為我們提供了從機器譯文的具體語言現(xiàn)象著手,并更具有解釋地進行質(zhì)量估計的角度。同時,如何將機器譯文估計(QE)與機器翻譯自動評估(Evaluation)更好地結(jié)合,提高QE與人類評價的相關(guān)度,或者利用無監(jiān)督學習及零資源學習的方式,無須參考譯文即可估計譯文的質(zhì)量,也是值得我們思考的問題。

(3) 輔助譯后編輯作為機器翻譯質(zhì)量估計技術(shù)的主要應用,體現(xiàn)了APE任務與QE任務是可以互相促進的。理論上,QE任務的預測結(jié)果可直接輸入到APE系統(tǒng)判斷譯文是否需要后編輯及完成自動后編輯,而另一方面,APE任務的輸出結(jié)果也可被QE系統(tǒng)所用,以生成QE任務的質(zhì)量標簽,同時使質(zhì)量標簽更具有解釋性。因此,能否使用強化學習等方法使QE模型向APE模型拓展,如何將APE任務與QE任務有效結(jié)合,需要我們進一步探究。

(4) 融入了預訓練模型的QE方法展現(xiàn)了強大的針對QE任務的建模能力,但訓練預訓練模型的龐大數(shù)據(jù)量和參數(shù)量對硬件資源要求較高。不少研究團隊無法獨立地進行規(guī)模龐大的預訓練,只能使用其他團隊公開發(fā)布的預訓練模型,為QE的研究工作帶來了局限性。但它還是沒有突破PredEst模型的局限性,如何解決預訓練數(shù)據(jù)與QE數(shù)據(jù)之間巨大的數(shù)據(jù)鴻溝及如何讓更多的源語言信息參與到第二階段估計器的訓練中來,仍然是目前QE研究領(lǐng)域懸而未決的問題。

(5) 在數(shù)據(jù)增強方面,現(xiàn)階段采用的方法均為使用平行語料庫或預訓練語言模型等外部資源提前擴增QE數(shù)據(jù)來達到擴增數(shù)據(jù)的目的,能否在QE系統(tǒng)中利用現(xiàn)成的QE數(shù)據(jù)資源自動地生成額外的QE數(shù)據(jù),以達到實時的數(shù)據(jù)增強效果,是值得嘗試的方向。

7 小結(jié)

機器翻譯的質(zhì)量估計作為一種不需要參考譯文就能實時評估機器譯文質(zhì)量的應用,有著很強的實用性,并且能夠促進機器翻譯本身的發(fā)展。本文對機器翻譯的質(zhì)量估計進行了全面的分析和介紹。根據(jù)歷年WMT中QE任務中的變化,介紹了從句子級、單詞級、文檔級三個粒度QE任務的具體概念和細節(jié),并將QE方法發(fā)展過程歸納為基于傳統(tǒng)機器學習、基于深度學習、融入預訓練語言模型方法的三個階段,詳細介紹了每一階段相關(guān)研究工作的進展,對各類方法的優(yōu)點和局限性進行了歸納,并從方法和數(shù)據(jù)兩個方面,對QE方法的發(fā)展進行了詳細介紹和總結(jié),最后針對當前QE任務研究工作所存在的問題及挑戰(zhàn)提出了未來潛在的研究方向。

猜你喜歡
譯文單詞特征
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
譯文摘要
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
看完這些單詞的翻譯,整個人都不好了
I Like Thinking
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
大荔县| 乐陵市| 施甸县| 隆昌县| 上饶市| 阜南县| 比如县| 福州市| 晴隆县| 保定市| 湖北省| 永胜县| 无极县| 瑞昌市| 阳新县| 贵定县| 叙永县| 鹤岗市| 根河市| 延津县| 佛冈县| 资兴市| 河南省| 呼玛县| 泾川县| 黔江区| 泊头市| 漾濞| 元谋县| 南康市| 宣化县| 璧山县| 图木舒克市| 南涧| 漯河市| 汉中市| 苏尼特左旗| 临沂市| 安阳县| 临沭县| 上饶县|