將預訓練語言模型(PLM,pre-trained language model),如BERT[1]等,融入神經機器翻譯模型中是自然語言處理領域十分熱門的研究方向[2-5]。融合之后,機器翻譯模型能夠利用PLM學習到豐富語義和句法知識[6-15],進而提升翻譯模型的魯棒性和翻譯效果[16]。但之前的研究更關注改進模型的效果,忽略了對這些提升的來源進行解釋,并且缺乏預訓練語言模型如何影響翻譯模型魯棒性的考量。
本文首先檢驗了BERT能否改進機器翻譯模型的句法能力。使用一些探針對傳統(tǒng)的神經機器翻譯模型Transformer[17](記作NMT模型)的編碼器和融合了BERT的Transformer模型(記作BERT-NMT模型)的編碼器進行測試[10,18],檢驗它們分別編碼了哪些句法相關的信息。實驗結果表明,融合BERT后,機器翻譯模型編碼器在詞序建模以及重建依存句法樹相關任務上的表現(xiàn)更好。為了驗證這些提升確實是由BERT帶來的,實驗過程中使用掩碼操作分別遮掩了自注意力模塊和BERT-編碼器(BERT-Enc,BERT-encoder)注意力模塊。結果證明,BERT的確能夠幫助提高翻譯模型對詞序進行建模的能力,特別是顯著提高模型在雙詞調換(BShift,bi-gram shift)任務上的表現(xiàn)。
直覺上來講,這種特性能夠幫助機器翻譯模型更好地處理源語言句子中的詞序擾動攻擊。為了檢驗這一猜想,本文提出了一種以概率交換兩個相鄰詞以改變詞序的攻擊方法,并使用雙語替換評測[19](BLEU,bilingual evaluation understudy)和BERTScore[20]對攻擊后模型的翻譯結果進行評價。在機器翻譯工坊(WMT,workshop on machine translation)提供的多個語言翻譯任務上進行實驗表明,雖然詞序擾動的概率不同,BERT-NMT模型生成的譯文質量幾乎優(yōu)于NMT模型生成的譯文,但在英德翻譯任務中,隨著擾動概率的增加,使用英文BERT反而會給模型生成的譯文質量帶來消極影響,說明英文BERT將破壞翻譯模型的魯棒性。
1.1.1 將PLM融合至神經機器翻譯模型
在BERT[1]被提出之后,出現(xiàn)了許多將BERT融入機器翻譯模型的簡單嘗試,包括使用PLM的輸出替代機器翻譯模型的嵌入層[21],以及使用PLM的參數對NMT模型的編碼器進行初始化[22]。Zhu等[2]設計了BERT-Enc和BERT-解碼器(BERT-Dec,BERT-decoder)注意力模塊,并且混合了不同模塊輸出的表示。類似地,APT框架使用基于層的注意力機制對BERT的各層輸出進行動態(tài)混合[13]。Guo 等[23]使用兩個BERT分別作為編碼器和解碼器,在BERT不同層之間添加適配器,以同時利用編碼器端和解碼器端BERT包含的信息。Guo 等[24]進一步提出凍結BERT參數并添加適配器的方法來加速機器翻譯模型的訓練過程。Shavarani等[15]提出更加充分地利用BERT包含的語言學信息,而非簡單地將其作為詞嵌入的替代品。Xu 等[25]使用145 GB德語文本訓練了一個特制的雙語語言模型BiBERT,來提高模型的翻譯效果。
1.1.2 跨語言的語言模型預訓練
由于BERT在訓練過程中僅使用單語語料,并不適合執(zhí)行機器翻譯任務,Conneau等[26]設計了一個新的翻譯語言模型(TLM,translation language model)任務,并使用雙語平行語料訓練得到XLM模型。此外,以BERT為代表的單語語言模型往往僅包含編碼器,與翻譯模型常采用的編碼器?解碼器架構并不匹配,為此,Song 等[27]提出預訓練一個序列到序列架構的模型MASS。此后,Liu 等[28]設計了更為復雜的預訓練任務,并使用25種語言訓練得到mBART,使得在翻譯任務上進行微調成為可能。Lin 等[29]使用隨機對齊替換任務訓練了一個普適性更強的多語言翻譯模型mRASP。Pan等[30]在mRASP的基礎上引入對比學習和基于對齊的數據增強以提高模型效果。Li等[31]的研究表明,對序列到序列模型進行預訓練的過程中使用雙向解碼器能顯著提高模型的翻譯效果。
盡管相比先前的統(tǒng)計機器翻譯模型,神經機器翻譯模型生成的譯文質量有了顯著提高,但其仍存在一些不足之處。Belinkov等[32]發(fā)現(xiàn)基于字符的神經機器翻譯模型的翻譯效果很容易受到文本中噪聲的影響。Cheng 等[33]指出同義詞替換同樣能夠降低神經機器翻譯模型的翻譯效果。為了檢驗神經機器翻譯模型的魯棒性,之前的研究還嘗試在輸入中加入筆誤,對輸入中的字符或單詞執(zhí)行交換、重復以及刪除操作,并對模型的相應輸出進行評價[34~35]。
為了提高NMT模型的魯棒性,主流的方法為基于對抗學習[32],即使用人工添加噪聲的數據訓練NMT模型。Sato 等[36]提出向輸入添加使得損失增大最多的噪聲以增強模型的魯棒性。Cheng 等[37]設計了一個基于梯度的方法來生成對抗樣本。此外,Sennrich 等[38]以及Michel和Neubig[39]說明使用子詞表示句子能夠幫助機器翻譯模型更好地處理擾動。Cheng 等[33]提出了一個新的訓練目標,最大化原始輸入和擾動過的樣本之間的相似性。UniDrop[40]在特征、結構和數據3 個維度使用丟棄法來提高機器翻譯模型的效果。此外,Cheng等[41]將有監(jiān)督訓練和自監(jiān)督訓練相結合來提高神經機器翻譯模型應對代碼轉換類型干擾的魯棒性。
2.1.1 探針任務
表1 句法探針任務的示例
2.1.2 數據
對于Distance和Depth任務,使用STS 12-16[42-46]的數據,并且使用開源工具Stanza[47]生成每個句子對應的依存句法樹以計算單詞之間的距離和每個單詞的深度。對全部數據按照7:2:1劃分為訓練集、驗證集和測試集,分別包含36 000、10 000、5 000條句子。
對于其他探針任務,使用SentEval[48]提供的數據集。每個任務的訓練集包含100 000條句子,驗證集和測試集的大小均為10 000。
使用WMT14英德數據集訓練神經機器翻譯模型。在訓練之前,首先使用40 000次合并操作的字節(jié)對編碼[38](BPE,byte-pair encoding)算法對句子進行編碼。驗證集為newstest2013,測試集為newstest2014。
2.1.3 模型
圖1 NMT模型的整體結構
Figure 1 The whole structure of the NMT model
2.1.4 訓練設置
圖2 BERT-fused編碼器結構和掩碼操作示意
Figure 2 Overview of the structure of BERT-fused encoder and masking methods
2.1.5 翻譯模型結果
表2 句法相關的探針任務實驗結果
3.1.1 攻擊方法
表3 使用攻擊方法按照不同概率生成的樣例
3.1.2 數據
為了囊括盡可能多的語言,本文選擇了5種來自不同語系的語言對,包括WMT14德語?英語數據集(De-En,包括4 500 000條平行語料)、WMT14英語?德語數據集(En-De)、WMT17芬蘭語?英語數據集(Fi-En,包括2 600 000條平行語料)、WMT17土耳其語?英語數據集(Tr-En,包括207 000條平行語料)以及WMT17中文?英語數據集(Zh-En,包括20 800 000條平行語料)。對于WMT14 英德數據集,借助Moses提供的腳本進行分詞,之后使用40 000次BPE合并操作進行編碼,并生成一個共享字典。對于WMT17 Fi-En和Tr-En,使用WMT17官方提供的預處理后的版本,同樣使用源語言和目標語言的共享字典。至于WMT17 Zh-En數據集,首先使用jieba對中文文本進行分詞處理,之后對中文和英文數據集分別使用32 000次BPE合并操作構建字典。
表4 NMT和BERT-NMT在相應測試集上的BLEUScore和BERTScore
3.1.3 模型
3.1.4 評價指標
3.2.1 BLEUScore和BERTScore的變化
3.2.2 源語言端和目標語言端語義的變化
Figure 3 Plots of differences between BERT-NMT and NMT in terms of BLEUScore and BERTScore
圖4 源語言和目標語言端語義變化
Figure 4 Changes of semantics in the source side and target side
3.2.3 源語言端和目標語言端語義的差值
圖5 源語言和目標語言端間的語義差值
Figure 5 Semantic difference between the source side and target side
3.3.1 復制行為
3.3.2 低頻詞翻譯不足
表5 當輸入分別為未受攻擊的句子和擾動后的句子時NMT和BERT-NMT生成的翻譯樣例
表6 Tr-En中不同頻率單詞NMT和BERT-NMT的翻譯F1值
表7 En-De中不同頻率單詞NMT和BERT-NMT的翻譯F1值
Research on the robustness of neural machine translation systems in word order perturbation
ZHAO Yuran, XUE Tang, LIU Gongshen
School of Cyber Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
Pre-trained language model is one of the most important models in the natural language processing field, as pre-train-finetune has become the paradigm in various NLP downstream tasks. Previous studies have proved integrating pre-trained language models (e.g., BERT) into neural machine translation (NMT) models can improve translation performance. However, it is still unclear whether these improvements stem from enhanced semantic or syntactic modeling capabilities, as well as how pre-trained knowledge impacts the robustness of the models. To address these questions, a systematic study was conducted to examine the syntactic ability of BERT-enhanced NMT models using probing tasks. The study revealed that the enhanced models showed proficiency in modeling word order, highlighting their syntactic modeling capabilities. In addition, an attacking method was proposed to evaluate the robustness of NMT models in handling word order. BERT-enhanced NMT models yielded better translation performance in most of the tasks, indicating that BERT can improve the robustness of NMT models. It was observed that BERT-enhanced NMT model generated poorer translations than vanilla NMT model after attacking in the English-German translation task, which meant that English BERT worsened model robustness in such a scenario. Further analyses revealed that English BERT failed to bridge the semantic gap between the original and perturbed sources, leading to more copying errors and errors in translating low-frequency words. These findings suggest that the benefits of pre-training may not always be consistent in downstream tasks, and careful consideration should be given to its usage.
neural machine translation, pre-training model, robustness, word order
趙彧然, 薛儻, 劉功申. 基于詞序擾動的神經機器翻譯模型魯棒性研究[J]. 網絡與信息安全學報, 2023, 9(5): 138-149.
The National Natural Science Foundation of China (U21B2020), Shanghai Science and Technology Plan (22511104400)
ZHAO Y R, XUE T, LIU G S. Research on the robustness of neural machine translation systems in word order perturbation[J]. Chinese Journal of Network and Information Security, 2023, 9(5): 138-149.