国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

句子級別機器譯文質(zhì)量估計研究綜述

2022-06-14 09:22羅蘭何賢敏李茂西
情報工程 2022年2期
關(guān)鍵詞:級別譯文機器

羅蘭 何賢敏 李茂西,2

1. 江西師范大學計算機信息工程學院 南昌 330022;

2. 江西師范大學管理科學與工程研究中心 南昌 330022

引言

機器譯文質(zhì)量估計(Quality Estimation, QE)是指不依賴人工參考譯文的情況下實時地估計翻譯的質(zhì)量,它是機器翻譯的最新研究方向之一[1]。它的主要作用包括[2-3]:(1)以機器譯文的后編輯工作量或人工評價結(jié)果為翻譯質(zhì)量估計基準,提供一個有實際含義的譯文質(zhì)量指標,使機器翻譯的普通用戶(主要是僅懂目標語言的用戶)了解機器譯文的可靠程度;告訴在機器譯文上進行后編輯的專業(yè)譯員后編輯需要的工作量大小并摒棄質(zhì)量低劣的機器譯文。(2)譯文質(zhì)量估計方法針對句子級別相關(guān)性進行模型優(yōu)化,因此可以克服利用人工參考譯文的機器譯文自動評價方法(Automatic Evaluation of Machine Translation, MTE)[4]在句子級別與人工評價相關(guān)性低的不足。(3)由于機器譯文質(zhì)量估計不需要人工參考譯文,因此它能輔助神經(jīng)翻譯模型進行網(wǎng)絡權(quán)重的自訓練,以代替?zhèn)鹘y(tǒng)的通過開發(fā)集(開發(fā)集中每個待翻譯的句子都有人工參考譯文)優(yōu)化翻譯系統(tǒng)網(wǎng)絡權(quán)重的方法。

機器譯文質(zhì)量估計根據(jù)對翻譯結(jié)果的評價粒度不同而分為單詞級別、短語級別、句子級別和文檔級別。單詞或短語級別譯文質(zhì)量估計一般是二分類任務,模型主要是對機器譯文中的單詞或者短語標記“OK”或“BAD”的二進制標簽來代表機器譯文的優(yōu)劣,多用于指明譯文后編輯時需要檢查的單詞,該方法簡單,但是應用范圍較窄;句子級別譯文質(zhì)量估計則是對整個機器譯文句子進行分數(shù)預測,可用于選出最優(yōu)的句子進行后編輯;文檔級別譯文質(zhì)量估計是將句子級別上的分數(shù)預測擴展到整篇文章上,該任務多用于自動化機器翻譯場景,難度較大。綜合各種因素,研究者們多致力于句子級別譯文質(zhì)量估計,為了更全面的對譯文質(zhì)量估計歷年來的研究方法進行綜述,本文將研究級別定位為句子級別。句子級別譯文質(zhì)量估計在缺乏人工參考譯文,僅給定源語言句子和它的機器譯文的情況下,通常被看作一個有監(jiān)督的回歸/分類任務[2]。形式化描述為給定訓練 集其中符號si,zi分別表示訓練集中第i個源語言句子si和其機器翻譯輸出譯文zi;yi表示對應的譯文質(zhì)量人工評價值,一般為人工標注的譯文質(zhì)量等級(介入1-5的整數(shù)值)[2]、或度量后編輯工作量大小的HTER值(0-1之間的實數(shù)值)[3,5]、或直接評價值(Direct Assessment, DA)[6],N表示訓練集中樣本數(shù)量,由于人工標注譯文質(zhì)量比較耗時費力,訓練集的規(guī)模一般比較小,僅包含幾萬個樣本;然后利用該訓練集建立模型預測(估計)未知的源語言句子sj的譯文zj的翻譯質(zhì)量。因此如何從源語言句子和其機器譯文中自動提取表征譯文質(zhì)量的特征,并利用這些特征構(gòu)建有效的分類/回歸模型是譯文質(zhì)量估計的兩個重要問題。我們根據(jù)特征提取和模型構(gòu)建方法的不同將句子級別譯文質(zhì)量估計分為基于傳統(tǒng)機器學習的方法、基于神經(jīng)翻譯模型的方法和基于預訓練語言模型的方法。

基于傳統(tǒng)機器學習的句子級別譯文質(zhì)量估計方法是早期的方法,它通過啟發(fā)式規(guī)則人工設計影響譯文質(zhì)量的特征,使用傳統(tǒng)機器學習算法預測譯文的質(zhì)量。在特征提取時通常結(jié)合外部語言資源(大規(guī)模語言模型和雙語平行語料等)和詞法、句法以及語義分析工具(詞形分析、句子依存結(jié)構(gòu)分析和語義角色標注等)從源語言句子和機器譯文二元組中提取表征譯文質(zhì)量的流利度和忠實度等統(tǒng)計信息;在模型構(gòu)建時采用支持向量機、貝葉斯分類器或隨機森林等算法預測譯文質(zhì)量。該類方法典型的代表是QuEst框架[1]。

基于神經(jīng)翻譯模型的句子級別譯文質(zhì)量估計方法假設待估計的譯文由神經(jīng)翻譯系統(tǒng)生成,通過遷移學習利用神經(jīng)翻譯模型部分網(wǎng)絡層提取描述譯文質(zhì)量的詞級序列特征,使用循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)將詞級特征抽象表示為句子級別特征并預測譯文質(zhì)量。其中神經(jīng)翻譯模型由于參數(shù)量大,通常使用雙語平行語料進行預訓練;而RNN預測網(wǎng)絡則在譯文質(zhì)量估計訓練集上進行訓練。由于神經(jīng)機器翻譯分為基于RNN帶注意力機制的編碼器-解碼器模型[7]和Transformer模型等[8],因此,其特征提取方法也分為基于RNN編碼器-解碼器的方法和基于Transformer的方法,前者代表性的工作是預測器-估計器模型(Predictor-Estimator)[9],而后者代表性的工作是雙語專家(Bilingual Expert)[10]。

基于預訓練語言模型的句子級別譯文質(zhì)量估計方法利用在大規(guī)模語料上訓練獲取的語言模型[11]提取表征譯文質(zhì)量的特征,使用神經(jīng)網(wǎng)絡或支持向量機預測機器譯文質(zhì)量。由于預訓練語言模型的種類很多,包括靜態(tài)預訓練語言模型[12]、動態(tài)上下文預訓練語言模型[13]和跨語種預訓練語言模型[14,15]等,該類譯文質(zhì)量估計方法也可以據(jù)此進行細分,其中基于靜態(tài)預訓練語言模型的譯文質(zhì)量估計方法代表性工作為SHEF-NN[16],基于動態(tài)預訓練語言模型的譯文質(zhì)量估計方法代表性工作為Multi-BERT QE[11],基于跨語種預訓練語言模型的譯文質(zhì)量估計方法代表性工作為TransQuest[17]。

不同種類譯文質(zhì)量估計方法提取的特征從不同角度描述了譯文的質(zhì)量。為了提高譯文質(zhì)量估計效果,許多工作[11,18]將不同種類特征拼接融合,這些方法不能簡單的歸為某一類,下文將根據(jù)其主要使用的特征對其進行歸類介紹。

本文1,2,3小節(jié)分別詳細介紹這三種方法,第4節(jié)介紹相關(guān)的評測活動WMT QE任務、CCMT QE任務和其評價指標,最后對未來的研究方向和發(fā)展趨勢進行展望。

1 基于傳統(tǒng)機器學習的句子級別機器譯文質(zhì)量估計

基于傳統(tǒng)機器學習的句子級別譯文質(zhì)量估計方法采用機器學習中“特征工程+任務建?!钡姆妒竭M行譯文質(zhì)量估計,由人工指定與譯文質(zhì)量相關(guān)的詞法、句法和語義統(tǒng)計特征,利用計算機自動從源語言句子和機器譯文中通過語言學分析提取這些特征[19],根據(jù)回歸模型建立特征與譯文質(zhì)量之間的映射函數(shù)。

QuEst 框架把機器譯文質(zhì)量估計問題看作是一個回歸問題,它使用基于徑向基函數(shù)核的支持向量機回歸算法估計機器譯文的質(zhì)量,利用網(wǎng)格搜索進行特征權(quán)重學習。同時,該框架提供隨機拉索(Randomized Lasso)和高斯過程(Gaussian Process)算法進行特征的選擇如見圖1所示。

圖1 QuEst特征提取模塊

其特征提取模塊從源語言句子、機器譯文和外部語言資源中提取3類總共17個與譯文質(zhì)量相關(guān)的基本特征。這3類特征包括:(1)從待翻譯的源語言句子中提取定量反映翻譯句子復雜度的4個特征;(2)從機器譯文中提取描述譯文流利程度的3個特征;(3)從源語言句子與機器譯文的對應關(guān)系中提取描述譯文忠實度的10 個特征,提取這10個特征需要使用[20]訓練得到的詞對齊關(guān)系以及源語言句子和機器譯文的詞性和句法分析結(jié)果。除了能提取這3類與翻譯系統(tǒng)無關(guān)的基本特征,如果能獲取機器翻譯系統(tǒng)解碼的細節(jié),比如翻譯系統(tǒng)對機器譯文的全局打分、n-best 列表等,那么,該平臺還能提取描述翻譯系統(tǒng)置信度[21]的“黑盒子”特征。提取的這些特征都完全不需要人工參考譯文。

QuEst框架作為早期應用廣泛的譯文質(zhì)量估計系統(tǒng),在WMT12-18評測的句子級別譯文質(zhì)量估計子任務中被作為基線系統(tǒng)提供給參加評測的單位使用,其在不同年份的評測中性能如圖2所示。

圖2 QuEst在WMT12-18評測中與人工評價的相關(guān)性

QuEst框架為機器譯文質(zhì)量估計搭建了一個基準平臺,在其基礎(chǔ)上許多工作對其進行了擴展,包括:(1)針對特征提取的研究,Hokamp等[22]結(jié)合停止詞(Stop Words)和詞性標注POS構(gòu)建語言模型,引入反向“白盒子”特征來作為目標端的質(zhì)量特征;Scarton等[23]采用隨機森林算法先對特征進行排序,然后采用逆向特征選擇方法,以獲得更優(yōu)的特征集。(2)針對機器學習算法的研究,Bi?ici等[24]基于參考翻譯機器(RTM)和并行特征衰減算法(ParFDA5)提取特征,在提取特征后采用嶺回歸算法進行機器譯文質(zhì)量估計;Beck等[25]提出稀疏高斯過程對機器譯文質(zhì)量進行估計;Esplà-Gomis等[26]采用多層感知器算法對機器譯文質(zhì)量進行估計。

由于基于傳統(tǒng)機器學習的方法在特征提取時需要對譯文進行復雜的語言學分析,這些語言學分析不僅需要額外的資源,且與待估計的機器譯文語言種類相關(guān),這導致該類方法不易擴展,且泛化性差[27],另外人工提取的特征大多數(shù)是一些語法和淺層語義特征,很少涉及譯文的深層次語義信息[28]。隨著深度學習的引入,深度神經(jīng)網(wǎng)絡強大的特征學習和表征能力,為譯文質(zhì)量估計提供了一個更好的選擇。

2 基于神經(jīng)翻譯模型的句子級別機器譯文質(zhì)量估計

該類方法通過強制學習(Teacher Forcing)將源語言句子和其機器譯文輸入已在雙語平行語料上訓練好的神經(jīng)翻譯模型上提取表征翻譯質(zhì)量的詞語級別質(zhì)量向量,利用RNN網(wǎng)絡匯總該質(zhì)量向量獲取句子級別質(zhì)量向量,通過前饋神經(jīng)網(wǎng)絡估計譯文質(zhì)量值。根據(jù)提取質(zhì)量向量使用的神經(jīng)翻譯模型的不同,該類方法可以分為基于RNN編碼器-解碼器的句子級別質(zhì)量估計模型和基于Transformer的句子級別質(zhì)量估計模型。

2.1 基于RNN編碼器-解碼器的句子級別QE模型

預測器-估計器[9]是該類方法的一個典型代表。其模型整體結(jié)構(gòu)如圖3所示,預測器通過基于雙向RNN[29]的編碼器-解碼器模型依次提取譯文中每個詞語的質(zhì)量向量qi;估計器將具有時序的質(zhì)量向量qi通過RNN預測譯文質(zhì)量。

圖3 預測器-估計器總體網(wǎng)絡框架

形式化描述如下,給定源語言句子s和其待估計機器譯文z,將s和z中每一個詞si和zj表征為詞向量,作為編碼器和解碼器的輸入。編碼器利用上一時間步的輸出hi-1和當前時間步的輸入si得到當前時間步的隱藏狀態(tài)hi,解碼器將編碼器中各個時間步的隱藏狀態(tài)做加權(quán)平均來獲得上下文向量cj。

函數(shù)f(·)表示循環(huán)神經(jīng)網(wǎng)絡隱藏層的變換,函數(shù)p(·)表示將編碼器各個時間步的隱藏狀態(tài)做加權(quán)平均。

解碼器利用上一時間步的輸入和隱藏狀態(tài),結(jié)合上下文向量cj對當前詞zj進行預測。

函數(shù)g(·)為預測目標詞zj概率的非線性函數(shù),和為權(quán)重矩陣,Z表示機器譯文當前時間步的所有輸出,Kz是機器譯文的詞匯表大小,d是質(zhì)量向量的維度,l是最大單元輸出的維度,tj是最大單元的輸出,它包含了目標詞zj的質(zhì)量信息。

通過tj可以計算出各個詞的質(zhì)量向量qj:

在估計器中,RNN最后一個隱藏狀態(tài)bN包含所有質(zhì)量特征的信息,將其作為匯總特征A,使用前饋神經(jīng)網(wǎng)絡得到機器譯文質(zhì)量的預測值。

函數(shù)U(·)表示RNN通過當前時間步的質(zhì)量向量和上一時間步的隱藏狀態(tài)得到當前時間步的隱藏狀態(tài)。σ(·)表示sigmoid函數(shù),r為匯總特征A的維度。

預測器-估計器模型的提出,啟發(fā)了神經(jīng)機器譯文質(zhì)量估計的研究,后續(xù)很多相關(guān)方法以此模型作為基本框架進行擴展,包括Kim等[30]在WMT17機器譯文質(zhì)量估計評測任務[31]中對預測器-估計器模型進行改進,提出利用堆棧傳播聯(lián)合學習預測器-估計器兩階段模型,實現(xiàn)從估計器到預測器的反向傳播,并且部署了帶有堆棧傳播的多級任務學習;Patel等[32]提出在RNN模型中基于雙語設置上下文窗口來提取質(zhì)量特征;Shah等提出的SHEF-LIUM模型[33]聯(lián)合連續(xù)空間語言模型(Continuous Space Language Model, CSLM)和神經(jīng)網(wǎng)絡模型來提取質(zhì)量特征Martins等[34]結(jié)合三個神經(jīng)系統(tǒng):一個前饋系統(tǒng),一個卷積神經(jīng)網(wǎng)絡和一個循環(huán)系統(tǒng)來進行機器譯文的質(zhì)量估計而Li等[35]認為將預測器和估計器分別在雙語平行語料和機器譯文質(zhì)量估計語料上單獨訓練,訓練后的模型不一定是最優(yōu)的譯文質(zhì)量估計模型,提出聯(lián)合神經(jīng)網(wǎng)絡模型進行譯文質(zhì)量估計。

2.2 基于Transformer結(jié)構(gòu)的句子級別QE模型

雙語專家模型[10]是該類方法的一個典型代表。模型整體結(jié)構(gòu)如圖4所示,該模型基于Transformer構(gòu)造預測器,基于雙向長短期記憶網(wǎng)絡(Bi-LSTM)[36]構(gòu)造估計器。預測器模塊主要包括三個部分:基于自注意力機制的編碼器,輸入機器譯文的前向/后向編碼器和機器譯文的重構(gòu)器。其中,兩個編碼器存在一定的差異,第一個編碼器包括自注意力層和全連接網(wǎng)絡層;第二個編碼器包括遮蔽自注意力層,編碼器-解碼器自注意力層和全連接網(wǎng)絡層,因為第二個編碼器的作用不同于翻譯模型中的解碼器,其作用更像編碼器,所以將其稱為前向/后向編碼器。給定平行語料(s,z),輸入預測器對模型進行預訓練時,條件概率p(z|y)p(y|s)是未知的,但是潛在變量y包含源語言句子和機器翻譯輸出之間豐富的深層語義信息,根據(jù)貝葉斯公式,可以得出潛在變量y的后驗分布:

圖4 雙語專家模型整體框架

優(yōu)化上面的目標函數(shù),相當于最大化:

新的目標函數(shù)可以直接計算條件概率p(y|s);公式中最大似然期望是一個變分自動編碼器,近似表示為:

基于單向Transformer構(gòu)造的編碼器和基于雙向Transformer構(gòu)造的前向/后向編碼器表示q(z|t,s),重構(gòu)器則對應p(t|z)。為了使預測更加高效,將p(t|z)和q(z|t,s)進行因式分解,明確假設條件獨立性:

基于雙向Transformer構(gòu)造的前向/后向編碼器,每一次在預測機器譯文的當前詞時,Transformer 需要使用前向與后向兩部分信息。例如,當前要預測機器譯文的第j個詞,對于正向序列而言,模型需要使用目標端第j-1個詞的前向深層語義特征向量和第j-1個詞的詞向量。而對于后向序列而言,模型需要使用目標端第j+1個詞的后向深層語義特征向量與第j+1個詞的詞向量。提取的特征有:正向深層語義特征向量;反向深層語義特征向量;前一個詞的詞向量ezj?1;后一個詞的詞向量ezj+1。

Fan 等認為模型的翻譯結(jié)果與預訓練模型給出的正確翻譯結(jié)果會存在一個差值,這個差值在提取的特征中起到關(guān)鍵作用,他們通過實驗發(fā)現(xiàn)只利用這一特征(即4維“不匹配”特征)做下一步預測,也會得到較好的結(jié)果。這一部分提取的特征有:目標端強制解碼為當前詞的概率信息,概 率 最 高詞語的概率信息,強制解碼為當前詞與解碼為概率最高詞的概率信息差異當前詞與預測詞是否一致即得到4維“不匹配”特征:

lj表示使用softmax函數(shù)之前的對數(shù)向量,kj表示翻譯輸出中第j個詞在字典中的編號,表示雙語專家預測的編號,Ⅱ表示指示函數(shù)。

Fan等將從預測器中提取的深層語義特征和4維“不匹配”特征一起輸入到基于Bi-LSTM的估計器中,將Bi-LSTM最后一個時間步的前向和后向隱藏狀態(tài)[37]作為機器譯文質(zhì)量估計值。K表示翻譯輸出的總詞數(shù),表示所有序列特征沿深度方向連接得到的單個向量。

最后最小化真實的HTER值和預測的句子級質(zhì)量估計分數(shù)之間的差值:

其中w為線性層的權(quán)值向量。

Fan等在訓練預測器時使用的是大規(guī)模雙語平行語料,訓練估計器時使用的是譯文質(zhì)量估計訓練數(shù)據(jù),由于WMT評測提供的譯文質(zhì)量估計訓練數(shù)據(jù)規(guī)模較小,因此他們在英德和德英兩個語言方向上分別構(gòu)造了30萬左右的譯文質(zhì)量估計偽訓練數(shù)據(jù)。先用構(gòu)造的偽數(shù)據(jù)和真實數(shù)據(jù)來訓練估計器,然后再次使用真實數(shù)據(jù)對估計器進行微調(diào)。該模型在WMT18譯文質(zhì)量估計評測任務中獲得6項任務的第一名[38]。

雙語專家模型的提出進一步推動了神經(jīng)譯文質(zhì)量估計的研究,目前大多數(shù)譯文質(zhì)量估計模型都是基于Transformer結(jié)構(gòu),包括Hou等[39]提出的BiQE模型,其從兩個不同的翻譯方向運用兩種語言之間的翻譯知識來提取特征;Wang等[40]提出利用層融合機制的Transformer-DLCL模型進行譯文質(zhì)量估計特征提??;陳聰?shù)萚41]提出僅使用Transformer瓶頸層提取詞語特征,結(jié)合Bi-LSTM網(wǎng)絡進行機器譯文質(zhì)量估計。

雖然以預測器-估計器作為基本框架的譯文質(zhì)量估計模型得到了廣泛地應用,但是Cui等[42]認為該框架存在兩個問題:(1)預測器是在大量平行語料上訓練,而估計器是在譯文質(zhì)量估計數(shù)據(jù)上進行訓練,會造成數(shù)據(jù)不一致的問題;(2)預測器的目的是進行詞預測,而估計器的目的是進行譯文質(zhì)量估計任務,這也造成了任務不一致的問題。這兩個問題會對質(zhì)量估計的結(jié)果造成負面影響,因此他們提出DirectQE模型,直接訓練機器譯文質(zhì)量估計模型。該模型包括兩個階段:第一個階段是生成器,在大量平行語料上進行訓練,這一階段關(guān)鍵是生成大量的譯文質(zhì)量估計偽數(shù)據(jù);第二階段是檢測器,它在生成器生成的譯文質(zhì)量估計偽數(shù)據(jù)上進行預訓練,在真實譯文質(zhì)量估計數(shù)據(jù)上進行微調(diào)。該模型的生成器和檢測器都是基于Transformer結(jié)構(gòu)。

從2019年開始WMT評測將Unbabel團隊提出的開源框架OpenKiwi[43]作為譯文質(zhì)量估計評測任務的基線系統(tǒng),OpenKiwi基于Pytorch深度學習框架實現(xiàn)了四個譯文質(zhì)量估計系統(tǒng):(1)基于連續(xù)的空間深度神經(jīng)網(wǎng)絡的QUETCH模型[44];(2)基于兩個連續(xù)的前饋層和一個門控循環(huán)單元(GRU)層[45]的NUQE模型[34];(3)基于RNN的預測器-估計器模型[31];(4)以及將神經(jīng)網(wǎng)絡模型堆疊成一個含豐富特征的機器譯文質(zhì)量估計系統(tǒng)[46]。

3 基于預訓練語言模型的句子級別機器譯文質(zhì)量估計

該類方法在進行機器譯文質(zhì)量估計之前,先訓練神經(jīng)網(wǎng)絡語言模型,或者直接采用已經(jīng)訓練好的神經(jīng)網(wǎng)絡語言模型提取句子特征[47]。根據(jù)預訓練語言模型的不同可以分為基于靜態(tài)預訓練詞向量的方法,基于動態(tài)預訓練詞向量的方法,和基于跨語種預訓練詞向量的方法。

3.1 基于靜態(tài)預訓練詞向量的句子級別QE方法

SHEF-NN框架[16]是該類方法的一個典型代表,該框架選用的是連續(xù)語言空間模型(CSLM)。模型輸入的是預測詞的上下文單詞,即zj=wj-n+1,…,wj-2,wj-1, (zj為第j個待預測詞,w為單詞的表示),采用one-hot編碼,輸出是詞匯表中所有單詞的后驗概率。由于輸出詞匯表太大,Schwenk等采用短列表方法[48],即在該詞匯表中僅選擇32K最頻繁的單詞,在標準回退n-gram語言模型上得到這些單詞的后驗概率作為輸入特征,加上QuEst框架提取的17個基線特征一起輸入到有監(jiān)督學習算法中,從而獲得譯文質(zhì)量估計值。值得注意的是,Shah等在CSLM模型中使用具有四個隱藏層的深度神經(jīng)網(wǎng)絡:第一層用于單詞投影(每個上下文單詞有320個單元),另外三個隱藏層有1024個單元用于概率估計。此外,該框架也適用于單詞級別的機器譯文質(zhì)量估計,采用連續(xù)詞袋模型(The Continuous Bag-of-Words Model, CBOW),也取到了不錯的結(jié)果。

基于靜態(tài)預訓練詞向量的方法提取特征是對僅使用基線特征作為譯文質(zhì)量估計特征的一大改進,促進了后續(xù)的研究。陳志明等[18]提出利用上下文單詞預測模型和矩陣分解模型訓練詞向量提取特征,然后采用算術(shù)平均方法將詞向量轉(zhuǎn)化為句子向量以預測譯文質(zhì)量估計值。

3.2 基于動態(tài)預訓練詞向量的句子級別QE方法

該類方法的典型代表有陸等人提出的基于Multi-BERT[49]和聯(lián)合編碼的預訓練語言模型[11],為了使源語言句子和機器翻譯輸出能更好的進行語義間的交互,陸等人使用少量平行語料對Multi-BERT進行二次訓練,并且強制要求遮擋詞[MASK]只能出現(xiàn)在機器譯文中,使該模型能夠捕獲所有的源語言句子信息,以更充分地預測譯文中帶[MASK]標記的單詞。

在Multi-BERT的基礎(chǔ)上,陸等人使用多種不同的網(wǎng)絡結(jié)構(gòu)對提取的特征進行了處理,如在Multi-BERT后面連接Bi-GRU網(wǎng)絡,采用“Multi-BERT+信息交互”的網(wǎng)絡結(jié)構(gòu)、使用Multi-BERT+Bi-GRU+LASER[50]+Baseline的網(wǎng)絡結(jié)構(gòu)融入了多種特征以探究其對于Multi-BERT隱狀態(tài)的應用效率,實驗結(jié)果表明僅利用不同類型的神經(jīng)網(wǎng)絡進行微調(diào),對模型性能的提升作用不大,而融合外部特征之后,模型性能提升明顯,即使用Multi-BERT+Bi-GRU+ LASER+Baseline的網(wǎng)絡結(jié)構(gòu)得到的實驗效果最好如圖5所示。

圖5 基于Multi-BERT和Bi-GRU的QE模型

基于動態(tài)預訓練詞向量的方法能更充分地提取語義間潛在信息,基于此Hou等[39]在WMT19的機器譯文質(zhì)量估計評測任務中同樣采用Multi-BERT預訓練模型實現(xiàn)句子特征的提取。為了更好的評估譯文的質(zhì)量,他們還使用基于Transformer的自注意力機制將源語言句子替換成偽參考譯文(即二次翻譯),將偽參考譯文和其待估計機器譯文作為句子對輸入Multi-BERT,提取特征向量,最終通過基于Bi-LSTM的評估器得到機器譯文質(zhì)量估計值;李培蕓等[51]在聯(lián)合神經(jīng)網(wǎng)絡模型的基礎(chǔ)上增加BERT預訓練語言模型特征以獲得譯文的流利度特征和忠實度特征以預測譯文質(zhì)量。

3.3 基于跨語種預訓練詞向量的句子級別QE方法

隨著跨語種預訓練語言模型的出現(xiàn),如XLM[14]、XLM-R[15]等,使不同語言中句子間詞匯的交互更加充分。它打破了單語種模型之間的壁壘,單個模型可以應用于多種語言的任務。但對該類模型進行微調(diào)以進行譯文質(zhì)量估計很困難,一是因為模型參數(shù)量過大,普通的GPU設備顯存難以完整的加載模型參數(shù);二是譯文質(zhì)量估計訓練數(shù)據(jù)匱乏,在其上不能充分進行微調(diào)。所以目前是直接利用預訓練的跨語種語言模型以提取表征譯文質(zhì)量的特征向量,該方法的典型代表有Ranasinghe等[17]提出的TransQuest框架。

Ranasinghe等認為之前的譯文質(zhì)量估計模型都僅在單個語言對上起作用,而對于其他語言對,則需要重新訓練模型,這一過程不僅泛化性差,而且需要耗費大量的計算資源,于是他們提出一種基于跨語言模型的譯文質(zhì)量估計模型,即基于XLM-R模型的TransQuest框架,包括MonoTransQuest模型和SiameseTransQuest模型。

如圖6所示,MonoTransQuest模型輸入源語言句子和機器譯文的拼接,它們間由[SEP]符號分隔。在XLM-R模型輸出的詞向量上使用三種池化策略提取描述譯文質(zhì)量向量的特征:CLS向量表示(CLS是序列的第一個詞,包含了整個序列的特征)、平均池化和最大值池化。實驗結(jié)果表明,采用CLS策略進行譯文質(zhì)量估計效果最好。

圖6 MonoTransQuest模型

如圖7所示,SiameseTransQuest模型使用兩個獨立的XLM-R預訓練模型,分別輸入源語言句子和機器譯文,與MonoTransQuest模型相同,也使用了三種池化策略,然后計算池化后兩個輸出向量之間的余弦相似度。實驗發(fā)現(xiàn)在該模型下平均池化的效果優(yōu)于其他兩種策略。

圖7 SiameseTransQuest模型

Ranasinghe等分別在單語言對和多語言對數(shù)據(jù)集上進行實驗,他們發(fā)現(xiàn)將高資源語言的知識遷移到低資源語言上有助于提高低資源語言的性能,從而提升模型性能,這也從另一方面驗證了遷移學習的有效性。

Amit等基于知識蒸餾的方法,以TransQuest為 教 師 模 型(Teacher Model),DeepQuest[52]中的雙向RNN(BiRNN)作為學生模型(Student Model)直接將TransQuest的知識轉(zhuǎn)移到BiRNN模型中[53]。利用教師-學生框架(Teacher-Student Framework)生成額外的訓練數(shù)據(jù),即數(shù)據(jù)增強。具體做法為:使用生成測試數(shù)據(jù)的機器翻譯系統(tǒng),根據(jù)源語言和相關(guān)領(lǐng)域的數(shù)據(jù)生成訓練數(shù)據(jù),再使用該教師模型生成預測,作為訓練學生模型的標簽;最后提出了一種基于不確定性量化的機制來過濾掉生成訓練數(shù)據(jù)集中的噪聲樣本。Li等[54]提出基于組置換(Group-Permutation)的知識蒸餾方法和用于深度神經(jīng)網(wǎng)絡的跳過子層(Skipping Sub?layer)正則化方法,實現(xiàn)將深層次模型所學到的知識轉(zhuǎn)移到較小的淺層次模型中。

利用跨語種語言模型提取句子特征進行機器譯文質(zhì)量估計是近兩年的研究熱點:Huang等提出在黑盒設置下執(zhí)行無監(jiān)督的譯文質(zhì)量估計[55],該模型的預測器基于三種不同的預訓練模型,即BERT,XLM和XLM-R。編碼器的輸入為源語言句子和機器翻譯輸出的拼接。為了在進行句子級質(zhì)量估計預測時充分利用上下文信息,在預先訓練好的模型基礎(chǔ)上增加了一層Bi-RNN網(wǎng)絡??紤]到質(zhì)量估計直接評估(DA)方向的訓練數(shù)據(jù)十分匱乏,他們使用MTE指標來代替人類評估,從而為譯文質(zhì)量估計任務創(chuàng)建大量偽數(shù)據(jù),即先使用MTE指標來對譯文進行評估,估計結(jié)果可以替代人工標注的DA[56],然后使用偽DA分數(shù),結(jié)合源語言句子和機器翻譯輸出后的句子對,來訓練譯文質(zhì)量估計模型;Hu等[57]針對遷移學習,多任務學習,模型集成問題在WMT20譯文質(zhì)量估計共享任務上提出基于Multi-BERT,XLM-R的譯文質(zhì)量估計模型,模型將更深層的基于Transformer的機器翻譯模型納入譯文質(zhì)量估計模型中。該模型在WMT20 譯文質(zhì)量估計評測[58]多項子任務上獲得第一名。

4 機器譯文質(zhì)量估計評測與評價

機器譯文質(zhì)量估計評測活動(Quality Estimation Task)發(fā)布基準的數(shù)據(jù)集和評價方法,為不同譯文質(zhì)量估計模型提供了一個公平比較的平臺,它極大的促進了譯文質(zhì)量估計的研究。目前機器譯文質(zhì)量估計評測活動主要包括:國際WMT譯文質(zhì)量估計評測和國內(nèi)CCMT譯文質(zhì)量估計評測。

WMT會議最早組織開展譯文質(zhì)量估計評測,從2012年至今,剛好10年。它主要針對歐洲語言之間互譯的質(zhì)量估計,包括英語-西班牙語、英語-德語和英語-西班牙語等翻譯方向;從2020年開始支持英語-漢語翻譯方向的譯文質(zhì)量估計。國內(nèi)很多研究團隊參與了該項評測活動,并取得了較好的成績,包括:(1)在WMT 18 機器譯文質(zhì)量估計評測任務中阿里團隊和江西師范大學團隊取得了多個單項上的第一名;(2)在WMT 19 句子級別機器譯文質(zhì)量估計任務中,南京大學團隊在英語-德語的項目上獲得第三名;(3)在WMT 20 句子級別機器譯文質(zhì)量估計任務中,東北大學小牛翻譯團隊在多個單項上獲得第一名。需要說明的是每年評測活動后,評測官方都會公開發(fā)布相關(guān)數(shù)據(jù)集供研究者繼續(xù)使用。

CCMT會議(2019年前簡稱為CWMT會議)從2018年開始開展譯文質(zhì)量估計評測活動,它主要針對英語-漢語和漢語-英語翻譯方向的譯文質(zhì)量估計任務。在2020年漢語-英語翻譯方向質(zhì)量估計任務評測中北京交通大學、南京大學和騰訊等參評團隊分別取得前三名的好成績,而英語-漢語翻譯方向的前三名分別是北京交通大學、騰訊和南京大學等參評團隊。由于對譯文質(zhì)量估計研究的逐步升溫,越來越多的研究團隊參與了該項評測活動。

在評測活動中,為了比較不同參評模型的優(yōu)劣,一般使用皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)定量計算參評系統(tǒng)對譯文質(zhì)量打分和人工對譯文質(zhì)量打分之間的相關(guān)性。相關(guān)性越高,對應模型越可靠。

皮爾森相關(guān)系數(shù)r計算方法如下:

其中,yi和yi’分別為人工對譯文質(zhì)量打分結(jié)果和模型預測譯文質(zhì)量得分;y和y′為相應的均值;N是待估計機器譯文的總數(shù)。

斯皮爾曼相關(guān)系數(shù)ρ計算方法如下:

其中,R(yi)和R(yi’)分別是機器譯文人工評分排名和預測得分排名。

其它參考的評價指標包括平均絕對值誤差(Mean Absolute Error, MAE)和均方根誤差(Root Mean Squared Error, RMSE)等。

為了將各典型方法的性能進行對比,陳聰?shù)萚41]將這些模型在同一數(shù)據(jù)集即CWMT2018的數(shù)據(jù)集上進行實驗,幾個典型的模型分別是參加CWMT2018句子級別譯文質(zhì)量估計評測任務最優(yōu)的系統(tǒng)(CWMT18 1st ranked)、基于RNN編碼器-解碼器的聯(lián)合神經(jīng)網(wǎng)絡模型(UNQE)、基于跨語種預訓練詞向量方法的模型TransQuest、基于雙語專家的譯文質(zhì)量估計模型(QE Brain)、融合BERT語境詞向量的譯文質(zhì)量估計模型(CUNQEAVE4)和基于BERT的聯(lián)合神經(jīng)網(wǎng)絡模型TUNQEBERT,表1按照皮爾森相關(guān)系數(shù)值由小到大的順序?qū)⒁陨细鱾€模型進行排序。

表1 各典型方法性能的對比

各個模型在該數(shù)據(jù)集上的性能如表1所示,TUNQEBERT的性能最優(yōu),CUNQEAVG4的性能次之,而CWMT18 1st ranked雖然當年在該評測任務中取到第一名的好成績,但是性能還是比不上各典型模型。更直觀的趨勢圖如圖8所示。

圖8 各模型性能趨勢對比圖

5 未來研究趨勢

機器譯文質(zhì)量估計可以及時準確預測譯文質(zhì)量的優(yōu)劣,指導翻譯系統(tǒng)的開發(fā)和推動機器譯文應用,它的未來研究方向包括:

(1)更準確的譯文質(zhì)量估計端到端模型,盡管譯文質(zhì)量估計的性能不斷提升,特別是基于神經(jīng)翻譯模型的句子級別機器譯文質(zhì)量估計和基于預訓練語言模型的句子級別機器譯文質(zhì)量估計極大的提高了譯文質(zhì)量估計的效果。但是在訓練語料缺乏的情況下,更準確的譯文質(zhì)量預測模型仍然是研究者孜孜以求的目標。

(2)其是否可以替代傳統(tǒng)譯文自動評價方法對譯文質(zhì)量進行自動預測?由于傳統(tǒng)的譯文自動評價方法依賴人工參考譯文,使用不方便,能否利用譯文質(zhì)量估計方法對其進行替代,性能能否獲得保障,是研究者關(guān)注的一個重要問題,也是WMT評測近年來重點調(diào)查的一項內(nèi)容。一些初步實驗結(jié)果表明,神經(jīng)機器譯文質(zhì)量估計的預測結(jié)果在英語-漢語方向上與人工評價的相關(guān)性與當前廣泛使用的譯文自動評價尺度BLEU相當[59],但是它能否推廣到其它翻譯方向還有待譯文質(zhì)量估計效果的提升,以及進一步的實驗和考察。

(3)指導翻譯模型的自訓練,從統(tǒng)計翻譯系統(tǒng)的最小錯誤率訓練[60]到神經(jīng)翻譯系統(tǒng)的最小風險訓練[61],翻譯模型的特征權(quán)重優(yōu)化問題一直伴隨著機器翻譯的研究。由于譯文質(zhì)量估計能夠?qū)崟r的給出譯文質(zhì)量的度量數(shù)值且不需要人工參考譯文,當翻譯模型完成源語言句子翻譯后,它能實時計算出譯文質(zhì)量,從而指導翻譯系統(tǒng)的參數(shù)調(diào)整。這種翻譯模型的參數(shù)優(yōu)化方式必然極大減少對開發(fā)集的依賴,模型甚至可以在測試集上進行自訓練,當然這也很大程度上取決于譯文質(zhì)量估計的可靠性。

6 總結(jié)

總之,機器譯文質(zhì)量估計是機器翻譯研究中一項新的子任務,它在機器翻譯的發(fā)展和應用中發(fā)揮著重要的作用,目前已有取代傳統(tǒng)譯文自動評價任務的趨勢。本文對句子級別機器譯文質(zhì)量估計進行了全面的綜述和分析,介紹了三類句子級別譯文質(zhì)量估計方法:以它們代表性的方法為錨點,逐步擴展描述其它相關(guān)方法;并對句子級別機器譯文質(zhì)量估計的評測、評價和未來的發(fā)展趨勢進行了簡要介紹。

猜你喜歡
級別譯文機器
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
機器狗
機器狗
級別分明
未來機器城
邁向UHD HDR的“水晶” 十萬元級別的SIM2 CRYSTAL4 UHD
新年導購手冊之兩萬元以下級別好物推薦
弟子規(guī)
你是什么級別的
弟子規(guī)
绍兴县| 武隆县| 巴彦淖尔市| 洞头县| 碌曲县| 光泽县| 大化| 金山区| 镇远县| 嘉义市| 正蓝旗| 开阳县| 吉隆县| 思南县| 都匀市| 铜梁县| 翁源县| 雷州市| 儋州市| 上杭县| 台州市| 嫩江县| 若羌县| 安阳县| 琼中| 武夷山市| 敖汉旗| 北碚区| 新营市| 石台县| 运城市| 灌阳县| 平利县| 霍林郭勒市| 新疆| 湘乡市| 城步| 阿克苏市| 龙门县| 全南县| 赤峰市|