黃孟欽
(昆明理工大學信息工程與自動化學院,云南昆明 650500)
2013 年,Nal Kalchbrenner 和Phil Blunsom 提出了端到端編碼器-解碼器結(jié)構(gòu)[1],這一創(chuàng)新將神經(jīng)機器翻譯引入了主流研究領(lǐng)域。近年來,基于深度學習的方法逐漸在機器翻譯領(lǐng)域占據(jù)主導地位。這些方法在許多語言對之間的翻譯任務上表現(xiàn)出色,有些情況下甚至超越了人類翻譯的質(zhì)量。
然而,基于神經(jīng)網(wǎng)絡的翻譯模型高度依賴于可用平行數(shù)據(jù)的數(shù)量和語言之間的相關(guān)性。在一些擁有豐富平行語料的語言對,尤其是同一語系的語言對上,神經(jīng)機器翻譯已經(jīng)展現(xiàn)出了卓越性能[2]。但在實際應用中,存在很多語言對之間缺乏足夠平行語料的情況,有些語言甚至沒有可用的平行數(shù)據(jù),導致神經(jīng)機器翻譯的性能下降。
為了減少神經(jīng)機器翻譯模型對平行數(shù)據(jù)的依賴,文獻[3]提出了無監(jiān)督神經(jīng)機器翻譯(Unsupervised Neural Machine Translation, UNMT)方法。這種方法僅利用兩種語言的單語語料庫進行翻譯,而不使用平行語料,從而擺脫了對大量平行數(shù)據(jù)的需求。在某些語言對上,無監(jiān)督神經(jīng)機器翻譯已經(jīng)取得了出色的效果,甚至能夠媲美有監(jiān)督神經(jīng)機器翻譯。然而,在一些遠距離語言對,例如中-英語言對,其翻譯效果仍然不夠理想。這主要是因為遠距離語言對之間的對齊信息較為稀缺,語言之間的相似性較低。因此,針對遠距離語言對的無監(jiān)督神經(jīng)機器翻譯面臨著一個難題,即如何讓源語言和目標語言在潛在空間中實現(xiàn)有效的對齊。
為提供更多對齊信息,研究者們開始嘗試引入外部知識來輔助模型學習兩種語言之間的對齊關(guān)系。文獻[4]探索了使用詞典輔助無監(jiān)督神經(jīng)機器翻譯的方法,將翻譯過程分解為兩個階段:首先,利用源語言到目標語言的雙語詞典,將源語句中的部分詞替換為詞典中對應的目標詞,生成粗略的中間譯文;然后,將生成的中間譯文輸入神經(jīng)機器翻譯模型,以獲得流暢的目標語言譯文。這種方法旨在為翻譯模型提供更多對齊信息,從而改善遠距離語言對的翻譯效果。
神經(jīng)機器翻譯在取得卓越性能時的一個前提條件是擁有大量的平行語料,這些語料用于訓練模型以學習源語言和目標語言之間的映射關(guān)系。然而,在應用中確實存在很多語言對之間缺乏足夠平行語料的情況,比如德語和俄羅斯語之間的翻譯。構(gòu)建平行語料庫需要昂貴的成本,而缺乏平行語料會顯著降低神經(jīng)機器翻譯模型的性能[5]。
為了減少神經(jīng)機器翻譯模型對平行數(shù)據(jù)的依賴,研究人員開始嘗試不使用平行語料,而是僅使用兩種語言的單語語料庫來訓練模型,被稱為無監(jiān)督神經(jīng)機器翻譯[3]。這種方法有助于克服對平行數(shù)據(jù)的嚴重依賴,從而能夠在缺乏平行語料的情況下進行翻譯。然而,需要注意的是,無監(jiān)督神經(jīng)機器翻譯仍然面臨一些挑戰(zhàn),尤其是在遠距離語言對的情況下,語言之間的對齊信息非常有限,導致翻譯質(zhì)量受到影響。
雙語詞典歸納(Bilingual Lexicon Induction, BLI)[6]用于在缺乏兩種語言之間平行語料的情況下,利用各自語言的單語語料生成對齊的雙語詞嵌入,并通過這些嵌入來歸納出雙語詞典。雙語詞典歸納的核心思想在于學習一個映射函數(shù),該函數(shù)能夠?qū)煞N語言中的詞嵌入映射到一個共同的向量空間中,以便于進行后續(xù)的對齊操作。雖然沒有直接的平行語料,但通過將單語語料中的詞嵌入映射到共享的空間中,可以在一定程度上實現(xiàn)不同語言之間詞匯的對應關(guān)系。
通過雙語詞典歸納,可以在缺乏平行數(shù)據(jù)的情況下,利用單語語料中的信息構(gòu)建一些基本的語言關(guān)聯(lián),從而實現(xiàn)單詞級別的翻譯任務。這對于處理缺乏大量平行語料的語言對或語種之間的翻譯任務非常有幫助。
在早期,一些方法開始嘗試利用預訓練模型的表征向量來初始化神經(jīng)機器翻譯(Neural Machine Translation, NMT)模型的表征向量。這一策略顯著提升了模型的訓練效果,特別是對于訓練數(shù)據(jù)稀缺的語言對而言。這表明預訓練模型的表征向量可能在NMT模型訓練中發(fā)揮了一定作用,因為它們包含豐富的語義信息。
其中,跨語言模型(Crosslingual Language Model,XLM)預訓練是第一個嘗試將預訓練應用于跨語言方向的方法。這種方法在多語言文本數(shù)據(jù)上進行預訓練,使得模型能夠同時學習兩種語言的語法和文本特征。這種跨語言預訓練方法有助于模型在不同語言之間進行知識遷移,從而提高跨語言任務的性能。當前,研究者們在跨語言預訓練語言模型領(lǐng)域進行了大量嘗試,主要的跨語言模型包括BERT[7]、XLM[8]、XLM-R[9]、MASS[10]、mBART[11]等。這些跨語言預訓練模型的出現(xiàn)豐富了多語言NLP 研究領(lǐng)域,為不同語言之間的自然語言處理任務提供了強大的工具和基礎(chǔ)。
雖然兩者造型差不多,但光路完全不同。從D500的光學取景器看到的是反光板反射到對焦屏上的光線,而X-H1的電子取景器看到的是傳感器接收到畫面。當然,D500也可以切換到實時取景模式,但切換時反光板需要抬起,這意味著光學取景器失效(必須使用機背屏幕取景),而且D500引以為傲的相位對焦傳感器也同樣會失去用途,轉(zhuǎn)而使用原始的反差偵測對焦。相比之下,無反結(jié)構(gòu)的X-H1不會面臨這個問題,無論使用取景器還是屏幕,相機的對焦方式都不會發(fā)生變化。
盡管BERT[7]在自然語言處理領(lǐng)域取得了顯著的成就,但是不同語言之間的BERT 模型并不具有相互通用性,即它們學習到的知識不會被共享。因此,F(xiàn)acebook對BERT 進行了改進,提出了XLM[8],以便于在多種語言之間進行訓練,從而使模型能夠獲得更多的跨語言信息。XLM 的方法主要分為兩種:基于平行語料的有監(jiān)督方法和沒有平行語料的無監(jiān)督方法。
因果語言模型(Causal Language Modeling, CLM)和遮蔽語言模型(Masked Language Modeling, MLM)使用單語語料進行訓練,而翻譯語言模型(Translation Language Model, TLM)是MLM 的擴展,不同之處在于它使用平行語料進行訓練。在TLM 任務中,將MLM 的輸入單語語料替換成雙語平行語料,然后模型試圖預測源語言和目標語言之間的對應關(guān)系,這使得模型能夠借助平行語言的信息來提升翻譯質(zhì)量。翻譯語言模型結(jié)構(gòu)如圖1所示。
圖1 翻譯語言模型結(jié)構(gòu)
在本研究中,采用文獻[12]提出的方法,借助無監(jiān)督的單詞嵌入映射技術(shù),從僅使用源語言和目標語言的單語語料庫中提取雙語詞典。具體而言,首先使用Word2Vec[13]將源語言和目標語言的單詞表示成分布式向量,即各自的單詞嵌入。接下來,使用文獻[12]的無監(jiān)督單詞嵌入映射方法,利用自學習或?qū)剐杂柧殎韺W習一個映射函數(shù)f(X) =WX,將源語言和目標語言的單語詞嵌入映射到一個共享的嵌入空間中,然后利用CSLS[14]計算詞向量之間的相似性。最后,選擇在共享空間中相似性最高的詞嵌入,以提取本文中要使用的雙語詞典。
TLM 任務是一種有監(jiān)督的任務,其目標是訓練能夠進行翻譯的語言模型。通常情況下,這種任務需要大量的雙語平行語料進行訓練,但很多語言之間缺乏足夠的平行語料,這導致訓練比較困難。本文提出了一種改進的方法,采用詞典融合的策略代替?zhèn)鹘y(tǒng)的平行語料進行模型訓練。
這種方法的基本思想是利用單語語料和雙語詞典訓練語言模型。具體來說,模型首先接受源語言的句子作為輸入;然后,不同于TLM 的平行語料輸入,模型還接受把源語言句子用雙語詞典處理后的數(shù)據(jù)作為輸入,在此輸入中,模型會將源語言句子中在雙語詞典出現(xiàn)的單詞替換為相應的目標語言翻譯詞,這一步可以看作是一種跨語言信息融合的過程。
接下來,模型會對源語言句子和目標語言翻譯句子的部分單詞進行隨機遮蔽。具體地,約80%的詞會被用[MASK]進行遮蔽,約10%的詞會被隨機的標記替換,而余下的約10%將保持原樣。這個步驟有助于模型學習到源語言和目標語言之間的對應關(guān)系,同時也鼓勵了模型對上下文的理解和單詞預測能力的提升。
需要強調(diào)的是,本文使用的雙語詞典是通過無監(jiān)督的方式獲得的,這意味著不需要依賴于任何平行語料。通過使用被替換過的源語言句子進行訓練,模型可以從兩個方面獲得信息:首先,模型通過源語言的上下文單詞來預測被遮蔽的詞;其次,模型通過被替換的目標語言單詞進行學習。這樣,語言模型不僅能夠?qū)W習源語言的信息,還能夠?qū)W習兩種語言之間的對應關(guān)系。這些額外的跨語言信息在后續(xù)的翻譯任務中將提供有力的支持,使得模型能夠更好地進行翻譯工作。這一方法為解決缺乏平行語料的語言翻譯任務提供了一種有效的替代方案。
Dict-TLM 模型的預訓練結(jié)構(gòu)如圖2 所示。
圖2 Dict-TLM 模型結(jié)構(gòu)
本文的實驗中,采用了Facebook 于2018 年提出的完全無監(jiān)督方法,即vecmap,從兩種語言的單語數(shù)據(jù)中獲得雙語詞典。該方法的獨特之處在于詞典的生成過程不涉及任何平行語料的使用,而是通過無監(jiān)督的方式生成一個種子詞典,作為后續(xù)詞嵌入學習的初始知識。
在本文的實驗中,使用WMT14中2007年和2008年新聞數(shù)據(jù)集中的英文以及中文單語數(shù)據(jù)集,每種語言都包含了500 萬個句子。選擇中國科學院自動化研究所在2015 年發(fā)布的CASIA-2015 數(shù)據(jù)集作為平行語料庫,將平行語料中的目標語言語料替換為用雙語詞典處理后的源語言語料。對于后續(xù)的預訓練任務,所有的數(shù)據(jù)都使用mosesdecoder 提供的tokenizer 進行正則化處理,中文語料使用斯坦福大學的NLP 工具進行分詞處理。
在本文的所有實驗中,所采用的模型架構(gòu)是Transformer[15],具體包括1 024 個隱藏單元、8 個注意力頭、GELU 激活函數(shù)[16]、0.1 的丟失率以及學習位置嵌入。使用Adam 優(yōu)化器[17],采用線性預熱策略[15],學習率在訓練過程中從10-4逐漸增加到5×10-4。
在預訓練階段,采用XLM 中的TLM 作為預訓練語言模型。TLM 任務是遮蔽語言模型的改進版本,類似于BERT 的遮蔽語言模型任務。在TLM 訓練過程中,隨機遮蔽了源語言句子和目標語言句子中部分單詞,其中80%的詞用[MASK]進行遮蔽,10%的詞用隨機的token進行替換,最后10%的詞保持不變。
本文采用BLEU[18]作為評價指標,來比較本文方法和其他方法的性能差異。這種評價方法認為翻譯系統(tǒng)翻譯出來的譯文和人工翻譯的譯文越接近,那么翻譯系統(tǒng)的翻譯質(zhì)量就越高。
本文進行了兩個模型的訓練。首先,以Lample 等人使用單語語料進行的機器翻譯方法作為基準,對比了本文方法和UNMT 方法。表1 中總結(jié)了在英中和中英語言對上的基線方法和Dict-TLM 方法的性能表現(xiàn)。
表1 各個模型在不同的語言對上的BLEU 值
如表1 所示,實驗結(jié)果表明,本文方法在中英語言對上的BLEU 分數(shù)相對于傳統(tǒng)的無監(jiān)督神經(jīng)機器翻譯提高了4%,而在英中語言對上的BLEU 分數(shù)也提高了4%。通過分析實驗結(jié)果,可以得出結(jié)論:將源語言句子中在雙語詞典存在的單詞替換為相應的目標語言翻譯詞,并以此作為源語言對應的平行語料進行模型訓練,有助于模型更好地學習跨語言信息,從而實現(xiàn)源語言和目標語言之間更好的對齊,進而獲得更出色的翻譯效果。
本文介紹了一種創(chuàng)新方法,將源語言句子在雙語詞典中存在的單詞替換為相應的目標語言翻譯詞,用以替代TLM 中的平行語料作為預訓練模型的輸入。這一方法的主要優(yōu)勢在于減少了模型對平行語料的依賴,給遠距離語言對之間提供了更多的對齊信息,從而提高了對這些遠距離語言對的翻譯效果。研究結(jié)果顯示,這一方法在無監(jiān)督神經(jīng)機器翻譯中實現(xiàn)了顯著的性能提升。
盡管取得了令人滿意的進展,但在沒有平行語料的情況下如何進一步提升無監(jiān)督神經(jīng)機器翻譯的性能仍然是一個值得深入研究的問題。未來的研究方向包括如何在無監(jiān)督情況下獲得更高質(zhì)量的雙語詞典,以及如何更有效地將這些詞典與翻譯模型融合,以更好地輔助模型實現(xiàn)更出色的翻譯性能。