国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學(xué)習(xí)的漢越神經(jīng)機(jī)器翻譯

2021-02-02 08:51黃繼豪余正濤于志強(qiáng)文永華
關(guān)鍵詞:編碼器語(yǔ)料平行

黃繼豪,余正濤,于志強(qiáng),文永華

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南昆明650500)

隨著我國(guó)“一帶一路”戰(zhàn)略的提出,中越兩國(guó)交流日益頻繁,漢語(yǔ)-越南語(yǔ)(簡(jiǎn)稱漢越)雙語(yǔ)翻譯技術(shù)需求不斷增長(zhǎng),但是漢語(yǔ)-越南語(yǔ)神經(jīng)機(jī)器翻譯(neural machine translation,NMT)平行語(yǔ)料規(guī)模較小,翻譯性能不夠理想,這成為制約中越兩國(guó)交流的瓶頸問(wèn)題.基于編解碼模型的端到端NMT[1-2]是目前機(jī)器翻譯的主流研究方向,其利用編碼器將源語(yǔ)言文本編碼為固定長(zhǎng)度的語(yǔ)義表示,解碼器利用該表示逐詞生成相應(yīng)的目標(biāo)翻譯.目前基于編解碼的NMT模型包含大量的參數(shù),需要利用大規(guī)模平行語(yǔ)料實(shí)現(xiàn)參數(shù)優(yōu)化,因此雖然NMT模型在資源豐富型語(yǔ)言翻譯任務(wù)上已具備很好的翻譯性能[3-4],但是低資源語(yǔ)言因?yàn)檎Z(yǔ)料規(guī)模有限,模型無(wú)法得到充分的訓(xùn)練,導(dǎo)致模型性能不佳.Zoph等[5]也證明在低資源的場(chǎng)景下,NMT性能甚至低于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(SMT).因此探索如何利用資源豐富型語(yǔ)言來(lái)提升漢越NMT性能成為了當(dāng)下的研究熱點(diǎn).

目前樞軸語(yǔ)言和遷移學(xué)習(xí)是解決低資源場(chǎng)景下NMT效果不佳的有效方法.Wu等[6]和Utiyama等[7]提出基于樞軸語(yǔ)言的翻譯方法,使用資源豐富型樞軸語(yǔ)言橋接源語(yǔ)言和目標(biāo)語(yǔ)言,利用存在的源語(yǔ)言-樞軸語(yǔ)言和樞軸語(yǔ)言-目標(biāo)語(yǔ)言的平行語(yǔ)料庫(kù),分別訓(xùn)練源語(yǔ)言到樞軸語(yǔ)言和樞軸語(yǔ)言到目標(biāo)語(yǔ)言的翻譯模型.該方法的優(yōu)點(diǎn)在于,即使在缺乏大規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)的低資源場(chǎng)景下,也可以利用樞軸語(yǔ)言實(shí)現(xiàn)源語(yǔ)言和目標(biāo)語(yǔ)言的有效翻譯;但是直接使用樞軸語(yǔ)言作為翻譯的中間橋梁,會(huì)因?yàn)樵凑Z(yǔ)言到樞軸語(yǔ)言、樞軸語(yǔ)言到目標(biāo)語(yǔ)言的二次解碼而造成誤差累積.相較于樞軸語(yǔ)言方法,遷移學(xué)習(xí)(transfer learning,TL)可以直接改進(jìn)源語(yǔ)言-目標(biāo)語(yǔ)言模型參數(shù).Zoph等[5]提出使用遷移學(xué)習(xí)提升低資源NMT的方法,利用資源豐富語(yǔ)言上訓(xùn)練得到的翻譯模型參數(shù)對(duì)低資源語(yǔ)言翻譯模型參數(shù)進(jìn)行初始化.Cheng等[8]提出一種基于樞軸語(yǔ)言的遷移學(xué)習(xí)方法,在模型訓(xùn)練中考慮源語(yǔ)言-樞軸語(yǔ)言和樞軸語(yǔ)言-目標(biāo)語(yǔ)言之間的關(guān)聯(lián)性,并通過(guò)對(duì)源語(yǔ)言-樞軸語(yǔ)言和樞軸語(yǔ)言-目標(biāo)語(yǔ)言翻譯模型進(jìn)行聯(lián)合訓(xùn)練,且在訓(xùn)練期間共享模型參數(shù).但源語(yǔ)言到樞軸語(yǔ)言,樞軸語(yǔ)言到目標(biāo)語(yǔ)言這樣分步訓(xùn)練的過(guò)程缺少雙語(yǔ)平行語(yǔ)料的指導(dǎo),導(dǎo)致多語(yǔ)言輸入所產(chǎn)生的噪聲現(xiàn)象;而且上述方法更側(cè)重于改進(jìn)低資源場(chǎng)景下模型的參數(shù),并沒(méi)有對(duì)單獨(dú)的編碼器或者解碼器進(jìn)行改進(jìn).

漢越NMT是一種典型的低資源場(chǎng)景下的NMT,其訓(xùn)練語(yǔ)料稀缺,但是漢語(yǔ)-英語(yǔ)(簡(jiǎn)稱漢英)、英語(yǔ)-越南語(yǔ)(簡(jiǎn)稱英越)平行語(yǔ)料卻大量存在,因此適用于使用遷移學(xué)習(xí)與樞軸語(yǔ)言的方法來(lái)解決其翻譯性能不佳的問(wèn)題.本文提出一種基于遷移學(xué)習(xí)的漢越NMT(TLNMT-CV)模型,將遷移學(xué)習(xí)的思想應(yīng)用到漢越NMT模型的訓(xùn)練中,在此基礎(chǔ)上引入樞軸語(yǔ)言思想,選擇英語(yǔ)作為樞軸語(yǔ)言來(lái)緩解漢越語(yǔ)言差異大的問(wèn)題.首先利用漢英、英越平行語(yǔ)料訓(xùn)練編碼器與解碼器的參數(shù),然后利用此參數(shù)對(duì)漢越NMT模型的編碼器與解碼器參數(shù)進(jìn)行初始化,最后使用漢越小規(guī)模平行語(yǔ)料對(duì)模型參數(shù)進(jìn)行微調(diào),從而提升漢越翻譯的性能.

1 基于遷移學(xué)習(xí)的NMT

NMT是一個(gè)典型的編解碼結(jié)構(gòu),其中編碼器讀取整個(gè)句子序列并進(jìn)行編碼,得到句子的向量表示,解碼器利用編碼器獲取到的句子向量作為目標(biāo)輸入,逐詞生成目標(biāo)語(yǔ)言的單詞序列.遷移學(xué)習(xí)可以將模型學(xué)習(xí)到的參數(shù)遷移到相近的任務(wù)上,利用高資源翻譯任務(wù)得到的參數(shù)來(lái)改善低資源翻譯任務(wù)的性能,從而降低翻譯任務(wù)對(duì)平行數(shù)據(jù)的依賴[9].Lakew等[10]提出使用動(dòng)態(tài)詞表的方法,通過(guò)將初始語(yǔ)言對(duì)的模型參數(shù)遷移到新的語(yǔ)言對(duì)來(lái)提升機(jī)器翻譯模型的性能與收斂速度.Hill等[11]證明了在語(yǔ)義相似性任務(wù)上,從NMT編碼器中得到的單詞向量表示優(yōu)于從單語(yǔ)(例如語(yǔ)言建模)編碼器中獲得的單詞向量表示.Mccann等[12]使用NMT模型的注意力機(jī)制將詞向量語(yǔ)境化來(lái)改善自然語(yǔ)言處理任務(wù)的性能.李亞超等[13]在藏語(yǔ)-漢語(yǔ)(簡(jiǎn)稱藏漢)NMT研究中采用遷移學(xué)習(xí)方法緩解藏漢平行語(yǔ)料數(shù)量不足的問(wèn)題:首先使用大規(guī)模英漢平行語(yǔ)料訓(xùn)練得到一個(gè)英漢NMT模型;其次,在訓(xùn)練藏漢NMT模型時(shí),采用英漢翻譯模型整體參數(shù)初始化藏漢翻譯模型參數(shù);最后對(duì)英漢翻譯模型參數(shù)初始化后的漢藏模型使用藏漢平行語(yǔ)料進(jìn)行參數(shù)微調(diào)得到最終的模型.與Zoph等[5]提出的方法不同,李亞超等[13]提出的方法對(duì)藏漢翻譯模型的所有參數(shù)均使用英漢模型來(lái)初始化,且在初始化時(shí)不要求兩種翻譯模型的漢語(yǔ)詞向量一致,沒(méi)有對(duì)翻譯模型結(jié)構(gòu)進(jìn)行修改,更加適用于低資源場(chǎng)景下的NMT.通過(guò)以上分析可知,在富資源語(yǔ)言上預(yù)訓(xùn)練NMT模型的參數(shù)初始化低資源模型的參數(shù),不僅可以保證富資源語(yǔ)言上學(xué)習(xí)的語(yǔ)言知識(shí)能夠遷移到低資源模型中,還可以加快模型的收斂速度.

2 TLNMT-CV模型

NMT模型將源語(yǔ)言句子表示成一個(gè)定長(zhǎng)向量,但是固定長(zhǎng)度的向量不能充分表達(dá)出源語(yǔ)言句子的語(yǔ)義信息.基于注意力機(jī)制的NMT先將源語(yǔ)言句子編碼為向量序列,然后在生成目標(biāo)語(yǔ)言時(shí),通過(guò)注意力機(jī)制動(dòng)態(tài)尋找與生成該詞相關(guān)的源語(yǔ)言詞語(yǔ)信息,大大增強(qiáng)了NMT的表達(dá)能力.本文在Klein等[14]提出的基于注意力機(jī)制的Transformer基礎(chǔ)上訓(xùn)練漢英與英越的翻譯模型,訓(xùn)練流程如圖1所示.首先采用大規(guī)模的漢英平行語(yǔ)料與大量的英越平行語(yǔ)料訓(xùn)練得到兩個(gè)預(yù)訓(xùn)練模型(A和B);其次,在訓(xùn)練漢越NMT模型時(shí),采用漢英模型的編碼器參數(shù)初始化漢越翻譯模型的編碼器參數(shù),并且采用英越模型的解碼器參數(shù)初始化漢越翻譯模型的解碼器參數(shù);最后,對(duì)初始化參數(shù)后的模型采用漢越平行語(yǔ)料進(jìn)行微調(diào)訓(xùn)練,得到最終的TLNMT-CV模型(C).

圖1 TLNMT-CV訓(xùn)練流程圖Fig.1Training flow chart of TLNMT-CV

與Zoph[5]等和李亞超等[13]方法不同的是,本文對(duì)漢越翻譯模型的編碼器與解碼器參數(shù),使用漢英模型的漢語(yǔ)端編碼器與英越模型的越南語(yǔ)端解碼器的參數(shù)來(lái)初始化,在此基礎(chǔ)上再使用小規(guī)模漢越雙語(yǔ)平行語(yǔ)料進(jìn)行微調(diào)訓(xùn)練,得到漢越NMT模型.為了提升預(yù)訓(xùn)練得到的編碼器與解碼器之間的關(guān)聯(lián)性,保證初始化的參數(shù)更有利于微調(diào)訓(xùn)練,本文在進(jìn)行實(shí)驗(yàn)前對(duì)訓(xùn)練集進(jìn)行擴(kuò)充.首先在已有的漢英、英越的訓(xùn)練集中,對(duì)樞軸語(yǔ)言英語(yǔ)進(jìn)行回譯[15],使用大規(guī)模英漢平行語(yǔ)料訓(xùn)練英漢翻譯模型;然后利用英漢翻譯模型對(duì)英越平行語(yǔ)料中的英語(yǔ)進(jìn)行回譯,從而得到漢-英-越三語(yǔ)平行語(yǔ)料;再使用數(shù)據(jù)增強(qiáng)[16]的方法增加漢-英-越三語(yǔ)平行語(yǔ)料,提升模型參數(shù)之間的關(guān)聯(lián)性,減少存在的噪聲.

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)采用規(guī)模為10萬(wàn)句對(duì)的漢越平行語(yǔ)料,其中測(cè)試語(yǔ)料0.13萬(wàn)句對(duì),驗(yàn)證語(yǔ)料0.1萬(wàn)句對(duì);70萬(wàn)句對(duì)英越平行語(yǔ)料,其中測(cè)試語(yǔ)料0.5萬(wàn)句對(duì),驗(yàn)證語(yǔ)料0.4萬(wàn)句對(duì); 漢英平行語(yǔ)料5 000萬(wàn)句對(duì),其中測(cè)試語(yǔ)料3萬(wàn)句對(duì),驗(yàn)證語(yǔ)料1萬(wàn)句對(duì).在訓(xùn)練之前對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行過(guò)濾亂碼與分詞處理,其中漢語(yǔ)分詞工具采用結(jié)巴分詞,越南語(yǔ)分詞采用Underthesea-Vietnamese NLP工具.

為了增加實(shí)驗(yàn)數(shù)據(jù),使用回譯與數(shù)據(jù)增強(qiáng)的方法,擴(kuò)充漢越訓(xùn)練語(yǔ)料.回譯階段使用漢英大規(guī)模語(yǔ)料訓(xùn)練翻譯模型,對(duì)2萬(wàn)英越平行句對(duì)中的英語(yǔ)語(yǔ)句進(jìn)行回譯得到2萬(wàn)偽平行的漢英語(yǔ)料,與越南語(yǔ)對(duì)應(yīng)并經(jīng)人工篩選后得到1.5萬(wàn)漢越平行語(yǔ)料,將得到的漢越平行語(yǔ)料加入到初始的10萬(wàn)漢越平行語(yǔ)料中.最后使用數(shù)據(jù)增強(qiáng)的方法對(duì)11.5萬(wàn)的漢越平行語(yǔ)料詞表(詞表為3.2萬(wàn)個(gè)詞)中出現(xiàn)次數(shù)少于3的稀有詞進(jìn)行替換,再通過(guò)人工篩選得到12萬(wàn)漢越平行語(yǔ)料.

3.2 實(shí)驗(yàn)設(shè)置

為了評(píng)估TLNMT-CV模型的有效性,實(shí)驗(yàn)選取5個(gè)基線系統(tǒng)(基于SMT的Moses[17]、基于OPENNMT[14]框架的Transformer、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于注意力機(jī)制的Google NMT(GNMT)[18]和李亞超等[13]提出的遷移學(xué)習(xí)翻譯(Nmt-trans)模型作為對(duì)比.

Moses、Transformer、CNN、Nmt-trans、GNMT與本文提出的TLNMT-CV模型,在漢越翻譯方向上均以12萬(wàn)的漢越平行語(yǔ)料作為訓(xùn)練集.

Moses訓(xùn)練中,使用Mgiza[19]訓(xùn)練詞對(duì)齊,利用Lmplz[20]訓(xùn)練三元語(yǔ)法的語(yǔ)言模型(LM).

Transformer、TLNMT-CV和Nmt-trans模型使用的詞表設(shè)置為3.2萬(wàn),句子的最大長(zhǎng)度設(shè)置為50,“transformer_ff”設(shè)置為 2 048,“l(fā)abel_smoothing”設(shè)置為0.1,“attention head”設(shè)置為2,“dropout”設(shè)置為0.2,隱藏層數(shù)量設(shè)置為2,詞嵌入維度設(shè)置為256,“batch_size”設(shè)置為128,學(xué)習(xí)率設(shè)置為0.2.優(yōu)化器選擇Adam[21],其參數(shù)設(shè)置為β1=0.9,β2=0.99,ε=10-8.CNN中編碼器設(shè)置為10層,解碼器則采用長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò),批次大小為64,卷積核大小設(shè)置為3.GNMT中隱藏層數(shù)量設(shè)置為2,“num_units”設(shè)置為128,“dropout”設(shè)置為0.2.

3.3 實(shí)驗(yàn)結(jié)果

本文采用雙語(yǔ)互譯評(píng)估(BLEU)值作為評(píng)測(cè)指標(biāo).表1給出的是基線系統(tǒng)與TLNMT-CV在漢越和越漢兩個(gè)翻譯方向上模型的BLEU值對(duì)比結(jié)果.其中TLNMTe為參照TLNMT-CV模型只對(duì)編碼器參數(shù)預(yù)訓(xùn)練,TLNMTd為參照TLNMT-CV模型只對(duì)解碼器參數(shù)預(yù)訓(xùn)練.

表1 不同模型的BLEU值對(duì)比Tab.1 Comparison of BLEU values of different models

從實(shí)驗(yàn)結(jié)果可以看出漢越雙語(yǔ)NMT上TLNMT-CV模型效果明顯均優(yōu)于基線系統(tǒng),其中TLNMTe模型BLEU值對(duì)比Moses模型在漢越翻譯方向上提升1.52個(gè)百分點(diǎn),在越漢翻譯方向上提升1.31個(gè)百分點(diǎn).對(duì)比Transformer模型,TLNMTe模型BLEU值在漢越翻譯方向上提升0.38個(gè)百分點(diǎn),越漢翻譯方向上提升0.44個(gè)百分點(diǎn). TLNMT-CV模型在漢越翻譯方向上BLEU值對(duì)比Nmt-trans模型提升0.71個(gè)百分點(diǎn),越漢翻譯方向上提升0.48個(gè)百分點(diǎn).TLNMT-CV模型在漢越翻譯方向上BLEU值對(duì)比Transformer模型提升1.16個(gè)百分點(diǎn),在越漢翻譯方向上提升1.05個(gè)百分點(diǎn).

表2給出的是基線系統(tǒng)與TLNMT-CV模型在漢越翻譯方向上譯文的對(duì)比示例.

以上翻譯示例說(shuō)明,本文方法雖然仍存在翻譯不充分的問(wèn)題,但是在漢越NMT任務(wù)上,比基線系統(tǒng)能產(chǎn)生更高質(zhì)量和準(zhǔn)確度的譯文.

表2 不同模型的譯文示例Tab.2 Translation examples of different models

4 結(jié) 論

本文提出的TLNMT-CV方法,能夠利用漢英和英越大規(guī)模語(yǔ)料訓(xùn)練漢越NMT的編碼器與解碼器的初始化參數(shù),通過(guò)小規(guī)模漢越語(yǔ)料微調(diào)訓(xùn)練獲得漢越NMT模型,該方法能夠提升低資源場(chǎng)景下漢越NMT性能.對(duì)比實(shí)驗(yàn)也證明了本文提出方法的有效性.下一步可以繼續(xù)探索利用大規(guī)模的漢越單語(yǔ)語(yǔ)料進(jìn)行預(yù)訓(xùn)練,并將預(yù)訓(xùn)練得到的語(yǔ)言知識(shí)融合到漢越雙語(yǔ)NMT模型構(gòu)建中,提升翻譯的性能.

猜你喜歡
編碼器語(yǔ)料平行
WV3650M/WH3650M 絕對(duì)值旋轉(zhuǎn)編碼器
向量的平行與垂直
平行
設(shè)定多圈絕對(duì)值編碼器當(dāng)前圈數(shù)的方法
逃離平行世界
轉(zhuǎn)爐系統(tǒng)常用編碼器選型及調(diào)試
舞臺(tái)機(jī)械技術(shù)與設(shè)備系列談(二)
——編碼器
淺談視頻語(yǔ)料在對(duì)外漢語(yǔ)教學(xué)中的運(yùn)用
可比語(yǔ)料庫(kù)構(gòu)建與可比度計(jì)算研究綜述
平行板電容器的兩類動(dòng)態(tài)分析
晋江市| 东乌珠穆沁旗| 合川市| 格尔木市| 庄浪县| 始兴县| 定州市| 湟源县| 雅江县| 溧阳市| 徐闻县| 广南县| 桃园县| 西贡区| 抚州市| 喜德县| 彰武县| 淮北市| 佳木斯市| 赣榆县| 香港 | 黑水县| 绥滨县| 德清县| 洛南县| 定边县| 宁德市| 饶阳县| 临洮县| 遂昌县| 嘉峪关市| 五华县| 朝阳区| 平昌县| 杂多县| 朝阳县| 宜良县| 乌海市| 顺昌县| 松原市| 社会|