国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于領(lǐng)域特征的神經(jīng)機(jī)器翻譯領(lǐng)域適應(yīng)方法

2019-08-05 02:28段湘煜
中文信息學(xué)報(bào) 2019年7期
關(guān)鍵詞:英德語(yǔ)料基準(zhǔn)

譚 敏,段湘煜,張 民

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

0 引言

近年來(lái),基于編碼器—解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯系統(tǒng)(neural machine translation,NMT)[1-3]的提出,顯著提升了傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation, SMT)的性能。NMT基于平行語(yǔ)料來(lái)訓(xùn)練,語(yǔ)料的質(zhì)量、數(shù)量、領(lǐng)域?qū)Ψg效果都有很大的影響。NMT對(duì)于訓(xùn)練的語(yǔ)料很敏感,每個(gè)領(lǐng)域都有自己的語(yǔ)言風(fēng)格、句子結(jié)構(gòu)、專業(yè)術(shù)語(yǔ)等,例如“bank”這個(gè)英文單詞,在金融領(lǐng)域通常被翻譯為“銀行”,而在計(jì)算機(jī)領(lǐng)域,一般被解釋為“庫(kù)”“存儲(chǔ)體”等。如果用基于計(jì)算機(jī)領(lǐng)域語(yǔ)料訓(xùn)練出的NMT模型來(lái)翻譯金融領(lǐng)域的句子,就會(huì)導(dǎo)致翻譯效果不理想。NMT系統(tǒng)大多利用大規(guī)模新聞?lì)I(lǐng)域的平行語(yǔ)料,其他領(lǐng)域如對(duì)話、專利、科技等領(lǐng)域可獲得的平行語(yǔ)料規(guī)模較小。利用資源豐富的領(lǐng)域語(yǔ)料來(lái)幫助語(yǔ)料稀少的領(lǐng)域提升翻譯質(zhì)量,稱為機(jī)器翻譯的領(lǐng)域適應(yīng)[4]。資源豐富的領(lǐng)域被稱為外領(lǐng)域(out-domain),資源稀缺的領(lǐng)域被稱為內(nèi)領(lǐng)域(in-domain)。

本文提出基于領(lǐng)域特征的神經(jīng)機(jī)器翻譯領(lǐng)域適應(yīng)方法以提升內(nèi)領(lǐng)域的翻譯質(zhì)量。在機(jī)器翻譯的語(yǔ)料中,有一些單詞只是某個(gè)領(lǐng)域特有的,而另外一些單詞在內(nèi)領(lǐng)域和外領(lǐng)域通用,不需要對(duì)這些單詞區(qū)分領(lǐng)域,學(xué)習(xí)單詞的領(lǐng)域特性有助于提升譯文質(zhì)量。為獲得和應(yīng)用這些領(lǐng)域特性,我們首先基于目標(biāo)端隱藏層信息訓(xùn)練一個(gè)領(lǐng)域判別器,使其能夠區(qū)分當(dāng)前詞屬于外領(lǐng)域還是內(nèi)領(lǐng)域,從而學(xué)習(xí)到領(lǐng)域特征;繼而基于這個(gè)領(lǐng)域判別器,提出領(lǐng)域敏感網(wǎng)絡(luò)(domain sensitive network,DSN),可以使得領(lǐng)域判別器更加準(zhǔn)確;并提出領(lǐng)域不敏感網(wǎng)絡(luò)(domain insensitive network,DIN),可以欺騙領(lǐng)域判別器做出錯(cuò)誤判斷。通過(guò)DSN可以識(shí)別各個(gè)領(lǐng)域的特征,通過(guò)DIN可以識(shí)別領(lǐng)域間的共有特征。最后,一個(gè)系統(tǒng)集成機(jī)制被提出,以融合基準(zhǔn)神經(jīng)翻譯網(wǎng)絡(luò)、DSN、DIN,得到最終的翻譯系統(tǒng)。實(shí)驗(yàn)結(jié)果顯示,融合領(lǐng)域特征的網(wǎng)絡(luò),在資源稀缺的中英廣播對(duì)話領(lǐng)域、英德口語(yǔ)領(lǐng)域,均有顯著的翻譯質(zhì)量提升。

本文的主要貢獻(xiàn)如下:

① 提出基于領(lǐng)域判別器的領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò),以分別對(duì)領(lǐng)域特有特征和領(lǐng)域共有特征進(jìn)行建模;

② 通過(guò)系統(tǒng)集成方法,融合領(lǐng)域特有特征和領(lǐng)域共有特征,共同進(jìn)行訓(xùn)練,以實(shí)現(xiàn)神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng);

③ 本文提出的領(lǐng)域適應(yīng)方法,在中英數(shù)據(jù)和英德數(shù)據(jù)上均顯著提升了基準(zhǔn)系統(tǒng)的領(lǐng)域適應(yīng)能力,并優(yōu)于相關(guān)研究的翻譯質(zhì)量。

本文的結(jié)構(gòu)如下: 第1節(jié)介紹相關(guān)工作,包括機(jī)器翻譯的領(lǐng)域適應(yīng)研究和系統(tǒng)集成研究;第2節(jié)介紹基準(zhǔn)神經(jīng)翻譯系統(tǒng);第3節(jié)闡述領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò)以及融合二者的系統(tǒng)集成方法;第4節(jié)闡述實(shí)驗(yàn)結(jié)果,并進(jìn)行實(shí)驗(yàn)分析;第5節(jié)給出總結(jié)。

1 相關(guān)工作

領(lǐng)域適應(yīng)方法首先在SMT上進(jìn)行研究,主要方法包括兩種: 模型適應(yīng)和數(shù)據(jù)選擇[5]。模型適應(yīng)主要是將內(nèi)領(lǐng)域的模型和外領(lǐng)域的模型修改到同一模型級(jí)別上;數(shù)據(jù)選擇主要是通過(guò)語(yǔ)言模型從外領(lǐng)域的語(yǔ)料里挑選平行語(yǔ)句對(duì)來(lái)擴(kuò)充內(nèi)領(lǐng)域的語(yǔ)料。借鑒SMT的領(lǐng)域適應(yīng)方法,NMT的領(lǐng)域適應(yīng)方法也可分為基于數(shù)據(jù)的方法和基于模型的方法。

基于數(shù)據(jù)的方法主要是通過(guò)訓(xùn)練模型來(lái)對(duì)外領(lǐng)域的數(shù)據(jù)進(jìn)行打分并挑選出得分高的句子來(lái)擴(kuò)充內(nèi)領(lǐng)域的語(yǔ)料。Wang等[6]提出計(jì)算源端詞嵌入向量(word embedding)的中心點(diǎn),通過(guò)詞嵌入向量來(lái)模擬句子的相似性,對(duì)比內(nèi)領(lǐng)域和外領(lǐng)域句子的詞嵌入向量挑選出詞嵌入向量相似的句子。Van der Wees等[7]提出動(dòng)態(tài)數(shù)據(jù)選擇方法,在系統(tǒng)的訓(xùn)練過(guò)程中,不同的訓(xùn)練輪數(shù)選擇不同的訓(xùn)練語(yǔ)料。

基于模型的方法主要是在訓(xùn)練過(guò)程中改變訓(xùn)練方法從而得到最優(yōu)的領(lǐng)域訓(xùn)練目標(biāo)。Wang等[8]使用調(diào)整實(shí)例權(quán)重的方法,在計(jì)算損失函數(shù)時(shí)增加內(nèi)領(lǐng)域的實(shí)例損失比重。Wang同時(shí)還提出了一種調(diào)整領(lǐng)域權(quán)重的方法,在訓(xùn)練過(guò)程中將內(nèi)領(lǐng)域和外領(lǐng)域的數(shù)據(jù)一起訓(xùn)練,調(diào)整每一批(mini-batch)訓(xùn)練里內(nèi)領(lǐng)域句子和外領(lǐng)域句子的比重。Kobus等[9]提出在詞嵌入向量層加入詞級(jí)別的領(lǐng)域特征,給每個(gè)詞加上了領(lǐng)域標(biāo)簽。Luong等[10]提出“兩步訓(xùn)練”的領(lǐng)域適應(yīng)方法: 第一步,用外領(lǐng)域的數(shù)據(jù)訓(xùn)練出翻譯模型;第二步,在第一步訓(xùn)練好的模型的基礎(chǔ)上,加上內(nèi)領(lǐng)域的數(shù)據(jù)繼續(xù)訓(xùn)練。

區(qū)別于上述相關(guān)工作,本文的方法著重于學(xué)習(xí)領(lǐng)域特征,其中領(lǐng)域共有特征的訓(xùn)練借鑒了生成對(duì)抗網(wǎng)絡(luò)(generative adversarial Networks,GAN)。GAN最先由Goodfellow等[11]提出,隨后,Wu[12]、Yang[13]等將其應(yīng)用于機(jī)器翻譯中,他們使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)訓(xùn)練判別器,來(lái)區(qū)分人類專家的翻譯和機(jī)器生成的翻譯,與此同時(shí),改善生成器讓機(jī)器生成的譯文騙過(guò)判別器,在互搏中讓生成器和判別器變得更強(qiáng)。本文的判別器用于區(qū)分語(yǔ)料的所屬領(lǐng)域,DIN基于領(lǐng)域判別器,通過(guò)對(duì)抗訓(xùn)練學(xué)習(xí)到領(lǐng)域共有特征,讓生成的譯文欺騙判別器,使其判別不出譯文的領(lǐng)域。DSN學(xué)習(xí)到領(lǐng)域特有特征,增強(qiáng)判別器性能,讓神經(jīng)機(jī)器翻譯模型在翻譯時(shí)攜帶領(lǐng)域信息。

本文學(xué)習(xí)到的領(lǐng)域特有特征和領(lǐng)域共有特征屬于不同的系統(tǒng),提出一個(gè)系統(tǒng)集成機(jī)制讓翻譯系統(tǒng)在翻譯時(shí)融合兩種特征,充分利用領(lǐng)域特性。神經(jīng)機(jī)器翻譯里最常用的系統(tǒng)集成方法是Jean等[14]提出的集成方法(ensemble),在解碼時(shí)集成多個(gè)模型的預(yù)測(cè)結(jié)果并得到最優(yōu)翻譯。Garmash等[15]提出兩種融合方法,一種是使用固定的權(quán)重向量集成多個(gè)目標(biāo)端的預(yù)測(cè)概率,另一種是在訓(xùn)練時(shí)用門機(jī)制動(dòng)態(tài)地控制每個(gè)模型對(duì)預(yù)測(cè)概率的貢獻(xiàn),集成的每個(gè)模型的源端語(yǔ)言不一樣,目標(biāo)端語(yǔ)言相同。

2 基準(zhǔn)系統(tǒng)

本文使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的RNMT[1-2]作為基準(zhǔn)系統(tǒng),具體結(jié)構(gòu)如圖1所示。

圖1 基準(zhǔn)神經(jīng)機(jī)器翻譯模型

2.1 編碼器

編碼器用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)源端輸入建模: 源端詞匯被映射成詞嵌入向量序列,得到編碼的輸入向量序列:X=x1,x2,…,xn,n是源端句子的長(zhǎng)度。編碼器將輸入序列編碼成隱藏層h=h1,h2,…,hn的向量序列表示,每個(gè)詞的隱藏層向量由雙向RNN的結(jié)果拼接得到,如式(1~2)所示。

2.2 解碼器

解碼器通過(guò)注意力向量、目標(biāo)端隱藏層來(lái)預(yù)測(cè)目標(biāo)端詞匯的生成。圖1中的“Attention layer”用來(lái)計(jì)算上下文向量ct,本文用Luong等[2]提出的全局注意力方法,具體公式如式(3~5)所示。

其中,Wa∈q×p,p是源端隱藏層維度,q是目標(biāo)端狀態(tài)隱藏層維度,αtj表示注意力信息。目標(biāo)端狀態(tài)隱藏層st由LSTM得到,上下文向量ct和目標(biāo)端狀態(tài)隱藏層st拼接得到注意力隱藏層最終的目標(biāo)端詞的概率分布yt由進(jìn)行softmax操作得到,如式(6~7)所示。

其中,f()為L(zhǎng)STM,Wc∈l×(p+q),Wy∈Vy×l,l是注意力隱藏層維度,Vy是目標(biāo)端詞表大小。源端最終的隱藏層狀態(tài)初始化目標(biāo)端隱藏層。

2.3 損失函數(shù)

RNMT中,每句話的損失函數(shù)定義如式(9)所示。

(9)

其中,m是目標(biāo)端譯文長(zhǎng)度,在RNMT的訓(xùn)練過(guò)程中,最終目標(biāo)是最小化損失函數(shù),使得翻譯模型越來(lái)越準(zhǔn)確。

3 基于領(lǐng)域特征的NMT領(lǐng)域適應(yīng)

圖2 基于領(lǐng)域特征的神經(jīng)網(wǎng)絡(luò)領(lǐng)域適應(yīng)方法

3.1 領(lǐng)域判別器

其中,dt表示t時(shí)刻單詞的領(lǐng)域類別,本文中領(lǐng)域類別只有兩種: 內(nèi)領(lǐng)域和外領(lǐng)域。VT∈v×o,Ws∈o×l,本文中,v為2,o設(shè)置為250,l為注意力隱藏層維度。判別器的損失函數(shù)設(shè)計(jì)如式(12)所示。

(12)

其中,m為當(dāng)前目標(biāo)端譯文的長(zhǎng)度。整個(gè)網(wǎng)絡(luò)在訓(xùn)練領(lǐng)域判別器時(shí)固定生成器網(wǎng)絡(luò)參數(shù),只更新領(lǐng)域判別器參數(shù)。

3.2 領(lǐng)域敏感網(wǎng)絡(luò)DSN

(13)

3.3 領(lǐng)域不敏感網(wǎng)絡(luò)DIN

與領(lǐng)域敏感網(wǎng)絡(luò)不同,領(lǐng)域不敏感網(wǎng)絡(luò)的損失函數(shù)是最大化判別器的損失,如式(14)所示。

(14)

3.4 融合G、DSN、DIN

為了利用DSN的領(lǐng)域特有特征和DIN的領(lǐng)域共有特征,本文構(gòu)建一個(gè)集成系統(tǒng),將G、DSN、DIN融合訓(xùn)練。對(duì)于領(lǐng)域?qū)S性~匯,需要借助領(lǐng)域特有特征,生成其對(duì)應(yīng)領(lǐng)域的正確譯文;對(duì)于通用詞匯,需要借助領(lǐng)域共有特征,避免錯(cuò)誤的翻譯。G、DSN、DIN具有不同的特性,預(yù)測(cè)出的目標(biāo)端詞匯概率分布也不一樣,本文的集成系統(tǒng)將不同網(wǎng)絡(luò)預(yù)測(cè)出的目標(biāo)端詞匯概率融合在一起,來(lái)得到一個(gè)綜合預(yù)測(cè)ytcomb,如式(15~16)所示。

其中,ytG、ytDSN、ytDIN分別是生成器預(yù)測(cè)的目標(biāo)端詞概率分布、領(lǐng)域敏感網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)端詞概率分布和領(lǐng)域不敏感網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)端詞概率分布。Wd∈1×3是權(quán)重向量,參與網(wǎng)絡(luò)訓(xùn)練和更新。集成系統(tǒng)中網(wǎng)絡(luò)的損失計(jì)算與基準(zhǔn)系統(tǒng)相同。Garmash等[15]使用固定的參數(shù)來(lái)融合模型,以0.1的步長(zhǎng)調(diào)試出最優(yōu)的權(quán)重分布,但此方法并不適用于領(lǐng)域適應(yīng)。領(lǐng)域適應(yīng)需要在不同的語(yǔ)言、不同的領(lǐng)域進(jìn)行融合,若采用固定的參數(shù)來(lái)融合,則需要花費(fèi)很長(zhǎng)的時(shí)間去尋找最佳的匹配參數(shù)。本文對(duì)Wd進(jìn)行隨機(jī)初始化,通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,來(lái)找到最佳的權(quán)重組合。使用softmax函數(shù)是為了確保綜合預(yù)測(cè)概率ytcomb的概率分布和為1。

4 實(shí)驗(yàn)結(jié)果和分析

4.1 數(shù)據(jù)集

本文分別在中英和英德兩種語(yǔ)言翻譯上驗(yàn)證本文領(lǐng)域適應(yīng)方法的有效性。語(yǔ)料統(tǒng)計(jì)信息如表1所示。

表1 語(yǔ)料統(tǒng)計(jì)信息

(注: in表示內(nèi)領(lǐng)域的語(yǔ)料信息,out表示外領(lǐng)域的語(yǔ)料信息,validation表示驗(yàn)證集信息,test1、test2分別表示兩個(gè)測(cè)試集信息。Sentences表示語(yǔ)料中句子的個(gè)數(shù),Src tokens、Tgt tokens分別表示語(yǔ)料的源端單詞總數(shù)和目標(biāo)端單詞總數(shù)。)

中英數(shù)據(jù)的內(nèi)領(lǐng)域語(yǔ)料使用LDC(Linguistic Data Consortium)中文廣播對(duì)話平行語(yǔ)料(LDC2016T09),外領(lǐng)域語(yǔ)料是從LDC語(yǔ)料里抽取的125萬(wàn)句平行語(yǔ)句對(duì),語(yǔ)料包括LDC2002E18、LDC2003E07、LDC2003E14以及LDC2004T07、LDC2004T08、LDC2005T06。本文從內(nèi)領(lǐng)域分別抽取了1千句作為驗(yàn)證集和測(cè)試集(表1中的test1和test2),抽取的驗(yàn)證集、測(cè)試集與訓(xùn)練集沒(méi)有交集。

英德數(shù)據(jù)上采用IWSLT2015(The International Workshop on Spoken Language Translation)英語(yǔ)到德語(yǔ)的數(shù)據(jù)集[16]作為內(nèi)領(lǐng)域的訓(xùn)練語(yǔ)料,該語(yǔ)料所對(duì)應(yīng)的領(lǐng)域是口語(yǔ)領(lǐng)域。外領(lǐng)域語(yǔ)料采用的是WMT2015(Workshop on Machine Translation)英語(yǔ)到德語(yǔ)的數(shù)據(jù)集。本文把IWSLT2015中的TED tst2012作為驗(yàn)證集,TED tst2013(test1)、TED tst2014(test2)作為測(cè)試集。

4.2 實(shí)驗(yàn)設(shè)置

本文的基準(zhǔn)系統(tǒng)是基于Pytorch的神經(jīng)機(jī)器翻譯系統(tǒng)Fairseq[注]https: //github.com/pytorch/fairseq/tree/v0.4.0。在中英數(shù)據(jù)上,首先對(duì)中文做分詞,對(duì)英文做tokenization等預(yù)處理工作;其次分別對(duì)中文、英文實(shí)施Byte Pair Encoding (BPE)[17]操作,該方法將訓(xùn)練語(yǔ)料中單詞拆分成更為常見的子部分。做BPE處理時(shí),詞匯表大小設(shè)置為3萬(wàn)。對(duì)于英德數(shù)據(jù),本文做了tokenization、BPE等處理,做BPE處理時(shí)將英文和德文語(yǔ)料混合在一起,生成3萬(wàn)的BPE詞表。訓(xùn)練時(shí),中英數(shù)據(jù)不區(qū)分大小寫,并且不限制句長(zhǎng),英德數(shù)據(jù)區(qū)分大小寫且設(shè)置最大句長(zhǎng)為50。本文使用multi-bleu. perl評(píng)測(cè)腳本,評(píng)測(cè)BLEU[18]值時(shí),中英數(shù)據(jù)大小寫不敏感,英德數(shù)據(jù)大小寫敏感。

實(shí)驗(yàn)首先訓(xùn)練出內(nèi)領(lǐng)域和外領(lǐng)域語(yǔ)料的基準(zhǔn)模型,訓(xùn)練這兩個(gè)模型時(shí)源端和目標(biāo)端使用同一個(gè)字典,該字典是混合內(nèi)領(lǐng)域和外領(lǐng)域語(yǔ)料生成的,也就是公有字典。Fairseq訓(xùn)練參數(shù)設(shè)置如下: max-token設(shè)置為4 000,詞嵌入向量維度設(shè)為512,源端和目標(biāo)端隱藏層維度設(shè)為512,使用Nag優(yōu)化方法,初始學(xué)習(xí)率是0.25,dropout設(shè)置為0.2。解碼時(shí),使用beam-search方法,beam的大小設(shè)置為10,其他參數(shù)使用Fairseq的默認(rèn)參數(shù)設(shè)置。

4.3 實(shí)驗(yàn)結(jié)果

本文分別在中英數(shù)據(jù)和英德數(shù)據(jù)上實(shí)現(xiàn)了基于領(lǐng)域特征的神經(jīng)機(jī)器翻譯領(lǐng)域適應(yīng),實(shí)驗(yàn)結(jié)果如表2、表3所示。表2是中英廣播對(duì)話的領(lǐng)域適應(yīng)結(jié)果,表3是英德的IWSLT15口語(yǔ)領(lǐng)域適應(yīng)結(jié)果。表中Baseline-in為內(nèi)領(lǐng)域的基準(zhǔn)模型,Baseline-out為外領(lǐng)域的基準(zhǔn)模型,Baseline-mixed是在混合內(nèi)領(lǐng)域語(yǔ)料和外領(lǐng)域語(yǔ)料后訓(xùn)練生成的模型,也就是混合領(lǐng)域的基準(zhǔn)模型,該模型同時(shí)也是生成器G。DSN-mixed和DIN-mixed分別對(duì)應(yīng)領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò)在混合語(yǔ)料上訓(xùn)練的模型,Comb-G-DSN-DIN-in為融合G、DSN、DIN模型后在內(nèi)領(lǐng)域語(yǔ)料上繼續(xù)訓(xùn)練的結(jié)果,Comb-G-DSN-DIN-mixed為融合G、DSN、DIN模型后在混合語(yǔ)料上繼續(xù)訓(xùn)練的結(jié)果。

表2 中英數(shù)據(jù)實(shí)驗(yàn)結(jié)果

表3 英德數(shù)據(jù)實(shí)驗(yàn)結(jié)果

本文比較了Luong等[10]和 Jean等[14]提出的系統(tǒng)集成方法。 Luong-out-mixed復(fù)現(xiàn)了Luong等人提出的先在外領(lǐng)域語(yǔ)料上訓(xùn)練,再繼續(xù)在混合語(yǔ)料上訓(xùn)練的方法。Ensemble-G-DSN-DIN-mixed是在測(cè)試時(shí)融合G、DSN、DIN的預(yù)測(cè)結(jié)果[14]。

本節(jié)表中test1列為模型在測(cè)試集test1上的BLEU值,test2列為模型在測(cè)試集test2上的BLEU值,avg為平均BLEU值。

中英領(lǐng)域適應(yīng)結(jié)果

① 從表2可以看出,外領(lǐng)域的基準(zhǔn)模型(Baseline-out)在測(cè)試集上的表現(xiàn)優(yōu)于內(nèi)領(lǐng)域的基準(zhǔn)模型,混合領(lǐng)域的基準(zhǔn)模型(Baseline-mixed)翻譯效果在基準(zhǔn)模型中最優(yōu);

② 學(xué)習(xí)到領(lǐng)域特有特征的DSN(DSN-mixed)和領(lǐng)域共有特征的DIN(DIN-mixed),各自的翻譯性能均有提升,與混合領(lǐng)域的基準(zhǔn)模型相比,在測(cè)試集上平均提升了0.70和1.13個(gè)BLEU值;

③ 本文提出的集成G、DSN、DIN的翻譯結(jié)果,均好于Luong[10]等提出的“兩步訓(xùn)練”法(Luong-out-mixed)和Jean[14]等提出的“ensemble”方法(Ensemble-G-DSN-DIN-mixed)的翻譯結(jié)果,其中在混合領(lǐng)域上的集成訓(xùn)練模型(Comb-G-DSN-DIN-mixed),與混合領(lǐng)域的基準(zhǔn)模型相比,平均提升了2.93個(gè)BLEU值。

英德領(lǐng)域適應(yīng)結(jié)果

① 從表3可以看出,外領(lǐng)域的基準(zhǔn)模型在測(cè)試集上的翻譯性能沒(méi)有優(yōu)于內(nèi)領(lǐng)域的基準(zhǔn)模型(Baseline-in),混合領(lǐng)域的基準(zhǔn)模型在test1上的BLEU值低于內(nèi)領(lǐng)域基準(zhǔn)模型;

② DSN和DIN的翻譯效果均好于內(nèi)、外領(lǐng)域基準(zhǔn)模型的翻譯效果,與混合領(lǐng)域的基準(zhǔn)模型相比,平均提升了0.46和0.39個(gè)BLEU值;

③ 本文的系統(tǒng)集成方法在英德數(shù)據(jù)上,內(nèi)領(lǐng)域上的實(shí)驗(yàn)結(jié)果(Comb-G-DSN-DIN-in)好于混合領(lǐng)域(Comb-G-DSN-DIN-mixed)的實(shí)驗(yàn)結(jié)果,與混合領(lǐng)域基準(zhǔn)模型相比,提升了2.95個(gè)BLEU值。同時(shí),我們的方法也顯著優(yōu)于Luong[10]等的方法和Jean[14]等的方法。

本文提出的領(lǐng)域適應(yīng)方法,在中英數(shù)據(jù)和英德數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果,與基準(zhǔn)系統(tǒng)翻譯效果相比均有顯著的提升。因此,基于領(lǐng)域特征的神經(jīng)機(jī)器翻譯領(lǐng)域適應(yīng)方法能有效地提升資源稀缺領(lǐng)域的翻譯質(zhì)量。

4.4 實(shí)驗(yàn)對(duì)比分析

4.4.1 中英與英德實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)比表2、表3各實(shí)驗(yàn)結(jié)果,在中英數(shù)據(jù)與英德數(shù)據(jù)上表現(xiàn)有一些不同。中英數(shù)據(jù)的基準(zhǔn)模型中,外領(lǐng)域的翻譯模型表現(xiàn)好于內(nèi)領(lǐng)域的翻譯模型,而英德數(shù)據(jù)中外領(lǐng)域基準(zhǔn)模型的翻譯效果沒(méi)有內(nèi)領(lǐng)域表現(xiàn)得好。本文分析,中英數(shù)據(jù)內(nèi)領(lǐng)域的數(shù)據(jù)量較小,外領(lǐng)域的數(shù)據(jù)量是內(nèi)領(lǐng)域的數(shù)據(jù)量的60倍左右,而機(jī)器學(xué)習(xí)對(duì)樣本的數(shù)據(jù)量要求較高,因此內(nèi)領(lǐng)域的基準(zhǔn)模型翻譯質(zhì)量較差,外領(lǐng)域充足的語(yǔ)料有助于內(nèi)領(lǐng)域翻譯效果的提升。這也是系統(tǒng)集成時(shí),中英數(shù)據(jù)在混合語(yǔ)料上的翻譯結(jié)果比內(nèi)領(lǐng)域效果好的原因。英德數(shù)據(jù)上,內(nèi)領(lǐng)域的語(yǔ)料量較為充分,所以內(nèi)領(lǐng)域的基準(zhǔn)模型翻譯效果較好。同理,結(jié)合領(lǐng)域特征,集成系統(tǒng)在內(nèi)領(lǐng)域翻譯效果優(yōu)于混合領(lǐng)域。

4.4.2 領(lǐng)域判別準(zhǔn)確率對(duì)比

本文對(duì)比了混合語(yǔ)料中,內(nèi)領(lǐng)域數(shù)據(jù)占比不同對(duì)領(lǐng)域判別準(zhǔn)確率的影響。本文進(jìn)行了4組對(duì)比實(shí)驗(yàn),從表4可以看出,無(wú)論內(nèi)領(lǐng)域數(shù)據(jù)占比多大,判別器和領(lǐng)域敏感網(wǎng)絡(luò)的領(lǐng)域判別準(zhǔn)確率都在0.99左右,可以準(zhǔn)確地判別實(shí)例所屬領(lǐng)域,領(lǐng)域不敏感網(wǎng)絡(luò)訓(xùn)練時(shí)使判別器區(qū)分不清句子所屬領(lǐng)域,所以準(zhǔn)確率很低。當(dāng)內(nèi)領(lǐng)域語(yǔ)料所占比例提高時(shí),判別器的acc_in有所提升,acc_out略微下降,acc_mixed總體呈下降趨勢(shì),這表明增加內(nèi)領(lǐng)域數(shù)據(jù)的比例,會(huì)使判別器過(guò)擬合外領(lǐng)域的領(lǐng)域特征。將判別器和生成器一起訓(xùn)練時(shí),無(wú)論內(nèi)領(lǐng)域語(yǔ)料的所占比例是多少,領(lǐng)域敏感網(wǎng)絡(luò)的acc_mixed都維持在0.999左右,具有準(zhǔn)確的領(lǐng)域判別能力。test1和test2列對(duì)應(yīng)內(nèi)領(lǐng)域占比不同的中英混合語(yǔ)料在領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果,avg列為平均BLEU值。從表中可以看出,對(duì)于領(lǐng)域敏感網(wǎng)絡(luò),當(dāng)內(nèi)領(lǐng)域與外領(lǐng)域占比為3∶1時(shí),在test1上取得最好結(jié)果;當(dāng)內(nèi)領(lǐng)域與外領(lǐng)域占比為1∶1時(shí),在test2上取得最好結(jié)果;當(dāng)內(nèi)領(lǐng)域與外領(lǐng)域占比增加到6∶1時(shí),平均BLEU值開始下降,且下降明顯。對(duì)于領(lǐng)域不敏感網(wǎng)絡(luò),內(nèi)領(lǐng)域與外領(lǐng)域占比為1∶1時(shí)在test1和test2上均得到最好翻譯效果,隨著內(nèi)領(lǐng)域與外領(lǐng)域占比增加,平均BLEU值小幅度波動(dòng)。由此可見,將一份內(nèi)領(lǐng)域語(yǔ)料和外領(lǐng)域語(yǔ)料混合在一起,已能充分訓(xùn)練判別器性能,提升翻譯質(zhì)量。

表4 中英數(shù)據(jù)實(shí)驗(yàn)對(duì)比

(注: 單元格中in: out表示內(nèi)領(lǐng)域語(yǔ)料和外領(lǐng)域語(yǔ)料混合比例,acc_mixed表示判別器對(duì)混合語(yǔ)料里句子領(lǐng)域判別的準(zhǔn)確率,acc_in表示判別器對(duì)混合語(yǔ)料中內(nèi)領(lǐng)域數(shù)據(jù)的領(lǐng)域判別準(zhǔn)確率,acc_out表示判別器對(duì)混合語(yǔ)料中外領(lǐng)域數(shù)據(jù)的領(lǐng)域判別準(zhǔn)確率,-表示未列出結(jié)果。)

4.4.3 與“兩步訓(xùn)練”法對(duì)比

與Luong等[10]提出的“兩步訓(xùn)練”法(Luong-out-mixed)相比,本文在中英數(shù)據(jù)上最好結(jié)果(Comb-G-DSN-DIN-mixed)比其高1.34個(gè)BLEU值,英德數(shù)據(jù)上的最好結(jié)果(Comb-G-DSN-DIN-in)比其高2.45個(gè)BLEU值。Luong等人使用預(yù)訓(xùn)練的外領(lǐng)域翻譯模型在內(nèi)領(lǐng)域上再訓(xùn)練,導(dǎo)致內(nèi)、外領(lǐng)域中領(lǐng)域特有單詞信息被覆蓋,同時(shí)缺乏領(lǐng)域特征引導(dǎo)領(lǐng)域共有詞匯的翻譯,而本文用判別器訓(xùn)練出內(nèi)外領(lǐng)域的領(lǐng)域特有特征和共有特征,再通過(guò)系統(tǒng)集成融合領(lǐng)域信息,指導(dǎo)模型翻譯。

4.4.4 系統(tǒng)集成方法對(duì)比

Jean等人的系統(tǒng)集成方法是在測(cè)試時(shí)融合翻譯模型,本文的集成方法則是在訓(xùn)練時(shí)融合各翻譯系統(tǒng)。表5是這兩種系統(tǒng)集成方法在多個(gè)基準(zhǔn)系統(tǒng)和領(lǐng)域網(wǎng)絡(luò)系統(tǒng)上的融合實(shí)驗(yàn)對(duì)比,表中的模型均是在中英混合語(yǔ)料上訓(xùn)練,其中Baseline-1-mixed、Baseline-2-mixed、Baseline-3-mixed是三個(gè)初始化不同的基準(zhǔn)模型。從表中可以看出,融合三個(gè)基準(zhǔn)模型時(shí),本文提出的集成方法Comb-Baselines-mixed的實(shí)驗(yàn)結(jié)果比采取Jean方法的Ensemble-Baselines-mixed平均提高了1.39個(gè)BLEU值,這表明本文的系統(tǒng)集成方法更能充分融合各模型的預(yù)測(cè)結(jié)果,提高模型泛化能力,這也是Comb-G-DSN-DIN-mixed比Ensemble-G-DSN-DIN-mixed效果好的原因。 此外,用Jean的方法融合領(lǐng)域網(wǎng)絡(luò)的Ensemble-G-DSN-DIN-mixed在測(cè)試集上的平均得分比融合基準(zhǔn)系統(tǒng)的Ensemble-Baselines-mixed提高了1.22個(gè)點(diǎn),這也從側(cè)面證明了本文的領(lǐng)域網(wǎng)絡(luò)DSN、DIN學(xué)習(xí)到的領(lǐng)域特征確實(shí)能幫助翻譯模型提升譯文質(zhì)量。

綜上所述,不論是中英數(shù)據(jù)還是英德數(shù)據(jù),通過(guò)領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò)提取出領(lǐng)域特有特征和領(lǐng)域共有特征,均能有效地提升翻譯質(zhì)量。并且,在特殊領(lǐng)域的翻譯任務(wù)上,領(lǐng)域的特有特征能幫助專有詞匯的翻譯,領(lǐng)域的共有特征能表示通過(guò)詞匯信息,融合二者可以更有效地提升翻譯質(zhì)量。

表5 兩種系統(tǒng)集成方法在中英混合語(yǔ)料上的對(duì)比

5 總結(jié)

本文提出了基于領(lǐng)域特征的神經(jīng)機(jī)器翻譯領(lǐng)域適應(yīng)方法,通過(guò)判別器訓(xùn)練領(lǐng)域特征,基于判別器的領(lǐng)域特征分別得到領(lǐng)域敏感網(wǎng)絡(luò)和領(lǐng)域不敏感網(wǎng)絡(luò),使其分別攜帶領(lǐng)域特有特征和領(lǐng)域共有特征。最后構(gòu)建集成系統(tǒng),融合領(lǐng)域特有特征和領(lǐng)域共有特征。實(shí)驗(yàn)在中英數(shù)據(jù)上和英德數(shù)據(jù)上的翻譯效果均顯著提升了神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)能力,并優(yōu)于相關(guān)研究的翻譯效果。

猜你喜歡
英德語(yǔ)料基準(zhǔn)
Comprehensive performance of a ball-milled La0.5Pr0.5Fe11.4Si1.6B0.2Hy/Al magnetocaloric composite
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
盧英德:百事可樂(lè)女王
下期要目
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
應(yīng)如何確定行政處罰裁量基準(zhǔn)
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
對(duì)弗萊克斯納現(xiàn)代大學(xué)職能觀的理解——《現(xiàn)代大學(xué)論——美英德大學(xué)研究》讀后感
英德革命烈士陵園
滑落還是攀爬