短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯

2022-01-09 05:19寧秋怡史小靜段湘煜

計(jì)算機(jī)技術(shù)與發(fā)展 2021年12期

寧秋怡，史小靜，段湘煜

(蘇州大學(xué)，江蘇蘇州 215006)

0 引言

機(jī)器翻譯(machine translation，MT)[1-2]是基于自然語(yǔ)言數(shù)據(jù)研究的項(xiàng)目，近年來(lái)，機(jī)器翻譯的發(fā)展已經(jīng)達(dá)到一個(gè)較高的水平，特別是基于編碼器和解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯系統(tǒng)(neural machine translation，NMT)[3-5]。但在現(xiàn)階段，不論是統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation，SMT)[6]模型還是神經(jīng)機(jī)器翻譯模型，它們的性能取決于語(yǔ)料庫(kù)的規(guī)模和質(zhì)量。高質(zhì)量的機(jī)器翻譯系統(tǒng)訓(xùn)練都依賴于大規(guī)模的平行數(shù)據(jù)，這些數(shù)據(jù)一般在通用領(lǐng)域中大量存在，如新聞?lì)I(lǐng)域。然而在一些不常用的低資源領(lǐng)域，往往只有小規(guī)模的平行語(yǔ)料，甚至在一些領(lǐng)域中不存在平行數(shù)據(jù)，如電子商務(wù)領(lǐng)域。如今電子商務(wù)活動(dòng)日益頻繁，隨之而來(lái)的電子商務(wù)平臺(tái)產(chǎn)品信息翻譯成為了一個(gè)突出的問(wèn)題。通過(guò)人工進(jìn)行產(chǎn)品信息翻譯將消耗大量的時(shí)間和資金，因此希望通過(guò)機(jī)器翻譯來(lái)輔助電商產(chǎn)品信息翻譯，構(gòu)建電子商務(wù)翻譯系統(tǒng)。

通過(guò)利用其他通用領(lǐng)域訓(xùn)練的翻譯系統(tǒng)進(jìn)行稀缺領(lǐng)域資源的翻譯，但是兩個(gè)領(lǐng)域數(shù)據(jù)差異較大，翻譯效果不佳?？梢岳觅Y源豐富的領(lǐng)域語(yǔ)料來(lái)幫助語(yǔ)料稀少的領(lǐng)域提升翻譯質(zhì)量，稱為機(jī)器翻譯的領(lǐng)域適應(yīng)(machine translation adaptation)[7]。在領(lǐng)域適應(yīng)機(jī)器翻譯中，資源豐富的領(lǐng)域被稱為外領(lǐng)域(out-domain)，資源稀缺的領(lǐng)域被稱為內(nèi)領(lǐng)域(in-domain)。

在機(jī)器翻譯領(lǐng)域適應(yīng)中，有監(jiān)督的領(lǐng)域適應(yīng)要求內(nèi)領(lǐng)域和外領(lǐng)域都具有平行語(yǔ)料，然而在電子商務(wù)領(lǐng)域，不存在公開的大規(guī)模平行數(shù)據(jù)，并且構(gòu)建電子商務(wù)平行語(yǔ)料是十分困難的，所以采用無(wú)監(jiān)督領(lǐng)域適應(yīng)的方法，避免了對(duì)內(nèi)領(lǐng)域平行語(yǔ)料的需求。目前無(wú)監(jiān)督領(lǐng)域適應(yīng)中，提升模型翻譯效果主要有兩種方式。第一種方法是生成內(nèi)領(lǐng)域的偽平行數(shù)據(jù)。最為顯著的方法是2015年Sennrich等人[8]通過(guò)將內(nèi)領(lǐng)域目標(biāo)語(yǔ)言反向翻譯來(lái)構(gòu)建偽平行數(shù)據(jù)。反向翻譯(back-translation)是給定目標(biāo)語(yǔ)言句子y，用訓(xùn)練好的目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯模型得到偽句子對(duì)(x',y)，訓(xùn)練過(guò)程始終保持目標(biāo)端的真實(shí)性。此外，2017年Anna Currey等人[9]復(fù)制內(nèi)領(lǐng)域目標(biāo)語(yǔ)言文本的方法都是不斷更新擴(kuò)充領(lǐng)域內(nèi)的數(shù)據(jù)。2019年Hu等人[10]通過(guò)詞庫(kù)歸納構(gòu)建域內(nèi)偽平行語(yǔ)料庫(kù)，大大提高了翻譯質(zhì)量。第二種方法是在現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)上設(shè)計(jì)出新的網(wǎng)絡(luò)模型，Xia等人[11]在利用偽平行的數(shù)據(jù)的基礎(chǔ)上，提出雙向?qū)W習(xí)的方法提升模型的性能。2018年Zhen Yang等人[12]在翻譯模型中引入對(duì)抗分類器的方法實(shí)現(xiàn)無(wú)監(jiān)督的領(lǐng)域適應(yīng)。2019年Dou等人[13]提出將領(lǐng)域特征嵌入到網(wǎng)絡(luò)中編碼端的無(wú)監(jiān)督領(lǐng)域適應(yīng)方法，并通過(guò)多任務(wù)學(xué)習(xí)訓(xùn)練了整個(gè)網(wǎng)絡(luò)。

為了解決內(nèi)領(lǐng)域平行資源稀缺的問(wèn)題，該文使用無(wú)監(jiān)督領(lǐng)域適應(yīng)，并在迭代訓(xùn)練的過(guò)程中，通過(guò)數(shù)據(jù)逐步混合訓(xùn)練策略提升翻譯性能，充分利用單語(yǔ)數(shù)據(jù)。同時(shí)針對(duì)于無(wú)監(jiān)督領(lǐng)域適應(yīng)過(guò)程中詞對(duì)匹配不佳的問(wèn)題，提出短語(yǔ)后驗(yàn)證的方法進(jìn)一步強(qiáng)化。通過(guò)大量實(shí)驗(yàn)對(duì)比，在電子商務(wù)領(lǐng)域上該方法超于現(xiàn)有的方法，較最強(qiáng)基線系統(tǒng)高出約1.5 Bleu點(diǎn)。

該文的貢獻(xiàn)包含以下幾點(diǎn)：

(1)獲取電子商務(wù)單語(yǔ)數(shù)據(jù)，以無(wú)監(jiān)督領(lǐng)域適應(yīng)方法搭建電子商務(wù)機(jī)器翻譯平臺(tái)；

(2)無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯系統(tǒng)采用混合策略為主體框架，充分利用內(nèi)領(lǐng)域數(shù)據(jù)，探索內(nèi)外領(lǐng)域混合比例，提升翻譯性能；

(3)提出短語(yǔ)后驗(yàn)證的方法解決無(wú)監(jiān)督領(lǐng)域適應(yīng)機(jī)器翻譯中詞對(duì)匹配不佳問(wèn)題，同時(shí)最大化利用內(nèi)領(lǐng)域數(shù)據(jù)。

首先介紹了近年在領(lǐng)域適應(yīng)機(jī)器翻譯方面的相關(guān)研究以及工作，其次詳細(xì)描述無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯的主體框架以及短語(yǔ)后驗(yàn)證方法，再次介紹實(shí)驗(yàn)設(shè)置和實(shí)驗(yàn)結(jié)果，并對(duì)相關(guān)實(shí)驗(yàn)進(jìn)行詳細(xì)的分析，最后給出結(jié)論與未來(lái)工作計(jì)劃。

1 短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)

1.1 混合策略的主體框架

短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯是在混合策略基礎(chǔ)上實(shí)現(xiàn)的，它是訓(xùn)練雙向翻譯過(guò)程，整個(gè)框架見圖1。從源端到目標(biāo)端系統(tǒng)，目標(biāo)端到源端系統(tǒng)，記做src→tgt和tgt→src。

圖1 基于混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)框架結(jié)構(gòu)

首先由外領(lǐng)域翻譯模型獲得內(nèi)領(lǐng)域的初始偽平行數(shù)據(jù)，如圖1中的{src',tgt}和{tgt',src}。該過(guò)程是神經(jīng)機(jī)器翻譯模型，它是一種非線性結(jié)構(gòu)，其經(jīng)典的架構(gòu)是編碼器—解碼器(encoder—decoder)。編碼器首先將源端語(yǔ)句X={x1,x2,…,xn}輸入轉(zhuǎn)換成Eencoder={e1,e2,…,en}編碼，然后將其編碼成隱藏狀態(tài)h，并發(fā)送到解碼器decoder。解碼器類似，將目標(biāo)端語(yǔ)言輸入Y={y1,y2,…,ym}轉(zhuǎn)換成Edecoder={e1,e2,…,em}，然后給定輸入歷史和隱藏狀態(tài)h，生成Z，具體公式如下：

(1)

其中，θ是神經(jīng)模型參數(shù)，z≤i是歷史輸入。訓(xùn)練過(guò)程的損失如公式(2)：

(2)

1.2 短語(yǔ)后驗(yàn)證

混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)在訓(xùn)練過(guò)程中通過(guò)數(shù)據(jù)混合充分利用了內(nèi)領(lǐng)域單語(yǔ)數(shù)據(jù)以及外領(lǐng)域的平行語(yǔ)料，大大地提升了翻譯效果。但反向翻譯產(chǎn)生的偽平行語(yǔ)料質(zhì)量難以保證，所以在混合策略訓(xùn)練的前期始終保持目標(biāo)語(yǔ)言的數(shù)據(jù)是真實(shí)的，避免因使用低質(zhì)量的偽數(shù)據(jù)作為目標(biāo)端，導(dǎo)致在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中翻譯模型的偏離。但由外領(lǐng)域訓(xùn)練產(chǎn)生的詞對(duì)存在匹配不佳的問(wèn)題，通過(guò)引入短語(yǔ)后驗(yàn)證方法解決該問(wèn)題。

圖2 前向翻譯驗(yàn)證示意圖

1.3 綜合訓(xùn)練

在混合訓(xùn)練策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)框架結(jié)構(gòu)基礎(chǔ)上加入前向翻譯驗(yàn)證的方法，由于訓(xùn)練開始產(chǎn)生的前向翻譯數(shù)據(jù)質(zhì)量較低，為了保證訓(xùn)練的新驗(yàn)證短語(yǔ)質(zhì)量，每次迭代訓(xùn)練后，增加c*i數(shù)量前向翻譯與反向翻譯學(xué)習(xí)校驗(yàn)原句中源端數(shù)據(jù)的詞進(jìn)行替換，從而產(chǎn)生新的偽語(yǔ)料繼續(xù)訓(xùn)練，重復(fù)迭代訓(xùn)練與前向翻譯驗(yàn)證過(guò)程直至收斂。

2 實(shí)驗(yàn)設(shè)置及過(guò)程

2.1 實(shí)驗(yàn)設(shè)置

該文所有實(shí)驗(yàn)采用開源代碼Fairseq[15]，將模型設(shè)置為Transformer[16]，dropout設(shè)置為0.3，編碼器和解碼器層數(shù)均為6層，其他基本的超參數(shù)設(shè)置為Fairseq中的默認(rèn)參數(shù)選項(xiàng)。解碼時(shí)，采用集束搜索(beam search)，其中beam_size設(shè)置為5，其余參數(shù)采用默認(rèn)設(shè)置。訓(xùn)練和測(cè)試均基于GTX1080Ti。采用雙語(yǔ)互譯評(píng)估(bilingual evaluation understudy，BLEU)[17]，它已經(jīng)被廣泛應(yīng)用于自然語(yǔ)言處理和機(jī)器翻譯任務(wù)。該文采用BLEU自動(dòng)化腳本multi-bleu.perl。

2.2 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理

在新聞?lì)I(lǐng)域，平行數(shù)據(jù)非常豐富，因此通常被用作域外領(lǐng)域數(shù)據(jù)。選擇linguistic data consortium (LDC)作為領(lǐng)域外的數(shù)據(jù)集，這是一個(gè)中英新聞?wù)Z料，大約有125萬(wàn)個(gè)平行句。領(lǐng)域內(nèi)的數(shù)據(jù)是本節(jié)中獲取的電子商務(wù)領(lǐng)域數(shù)據(jù)。

目前，電子商務(wù)領(lǐng)域不存在公開的語(yǔ)料，為了構(gòu)建電子商務(wù)翻譯系統(tǒng)，在此之前首先構(gòu)建一份電子商務(wù)語(yǔ)料。這是一份包含英文和中文的單語(yǔ)電商語(yǔ)料庫(kù)，分別通過(guò)中英電商平臺(tái)獲取產(chǎn)品文本信息。數(shù)據(jù)包含四類：男士服裝、女士服裝、食物和玩具。筆者構(gòu)建了訓(xùn)練集為單語(yǔ)數(shù)據(jù)，平行數(shù)據(jù)分別為測(cè)試集和驗(yàn)證集，數(shù)據(jù)的詳細(xì)數(shù)量見表1。表中數(shù)字為數(shù)據(jù)集的句子數(shù)量，其中訓(xùn)練集是以百萬(wàn)(M)為單位。

表1 電商領(lǐng)域數(shù)據(jù)統(tǒng)計(jì)

對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了預(yù)處理，去掉網(wǎng)絡(luò)中特殊字符，并且針對(duì)中文，由于字符之間沒(méi)有明顯的分割符號(hào)，一般采用中文分詞工具進(jìn)行分詞，這里使用jieba分詞工具；針對(duì)英文，可以依據(jù)單詞之間的空格進(jìn)行切分，同時(shí)進(jìn)行詞串識(shí)別(tokenization)處理。為了去除分詞工具在模型評(píng)估中的影響，在測(cè)試過(guò)程中，在英文到中文方向上，以字級(jí)別文本文件作為參考譯文。

2.2.1 數(shù)據(jù)bpe設(shè)置

在神經(jīng)機(jī)器翻譯的訓(xùn)練中，使用了(byte pair encoder，BPE)[18]技術(shù)處理所有的數(shù)據(jù)，進(jìn)行了詞表的壓縮。使用所有的數(shù)據(jù)訓(xùn)練得到bpe編碼，并且分別對(duì)不同大小的bpe進(jìn)行了實(shí)驗(yàn)，對(duì)源端與目標(biāo)端分別做bpe和聯(lián)合源端與目標(biāo)端做bpe進(jìn)行了實(shí)驗(yàn)。在外領(lǐng)域數(shù)據(jù)上訓(xùn)練得到的內(nèi)領(lǐng)域四類測(cè)試數(shù)據(jù)結(jié)果如表2所示，英—中和中—英方向均是64K bpe效果最佳，最終決定中英分別使用64K bpe編碼。

表2 不同bpe設(shè)置實(shí)驗(yàn)對(duì)比

2.2.2 數(shù)據(jù)比例設(shè)置

為了探尋基于混合策略的無(wú)監(jiān)督訓(xùn)練過(guò)程中，內(nèi)領(lǐng)域和外領(lǐng)域數(shù)據(jù)在不同混合比例下的效果，在整個(gè)訓(xùn)練前進(jìn)行了不同比例的多組實(shí)驗(yàn)。通過(guò)外領(lǐng)域平行句與內(nèi)領(lǐng)域偽平行句不同比例組合，該偽語(yǔ)料是獲取的反向翻譯。實(shí)驗(yàn)結(jié)果如表3所示。表中的混合比率表示域內(nèi)數(shù)據(jù)和域外數(shù)據(jù)的比率。根據(jù)結(jié)果，當(dāng)外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)以1∶1混合時(shí)，與Sennrich等人[19]得到的結(jié)論一致。

表3 不同的數(shù)據(jù)比例實(shí)驗(yàn)結(jié)果

2.3 實(shí)驗(yàn)過(guò)程

基于上述的實(shí)驗(yàn)設(shè)置，采用中英分別64K bpe，內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù)1∶1的設(shè)置，并且數(shù)據(jù)總量保持不變。分別訓(xùn)練了混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯以及短語(yǔ)后驗(yàn)證方法，此外在電子商務(wù)領(lǐng)域數(shù)據(jù)上分別采用了下面基準(zhǔn)實(shí)驗(yàn)進(jìn)行性能的對(duì)比，實(shí)驗(yàn)具體結(jié)果見表4。

表4 電子商務(wù)產(chǎn)品翻譯測(cè)試BLEU值

2.3.1 基準(zhǔn)系統(tǒng)

為了更好地探索短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督在電商上的效果，利用以下多個(gè)無(wú)監(jiān)督基準(zhǔn)系統(tǒng)：

外領(lǐng)域nmt：在外領(lǐng)域平行語(yǔ)料上使用fairseq訓(xùn)練神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。

nmt反向翻譯：由外領(lǐng)域nmt系統(tǒng)進(jìn)行反向翻譯，聯(lián)合外領(lǐng)域數(shù)據(jù)構(gòu)成偽平行語(yǔ)料，訓(xùn)練神經(jīng)翻譯模型。

nmt反向翻譯+前向翻譯：在nmt反向翻譯的基礎(chǔ)上，前期融合前向翻譯數(shù)據(jù)，聯(lián)合外領(lǐng)域數(shù)據(jù)構(gòu)成偽平行語(yǔ)料，訓(xùn)練神經(jīng)翻譯模型。

目標(biāo)端復(fù)制：在內(nèi)領(lǐng)域，目標(biāo)語(yǔ)言句子被直接復(fù)制到源語(yǔ)言，以構(gòu)建偽平行語(yǔ)料。聯(lián)合外領(lǐng)域平行數(shù)據(jù)，訓(xùn)練新的神經(jīng)翻譯模型。

DAFE反向翻譯：在內(nèi)領(lǐng)域偽平行語(yǔ)料庫(kù)和外領(lǐng)域平行數(shù)據(jù)的組合上訓(xùn)練神經(jīng)翻譯系統(tǒng)，在編碼器的每一層添加領(lǐng)域感知函數(shù)嵌入和任務(wù)特定函數(shù)嵌入。

無(wú)監(jiān)督詞歸納領(lǐng)域適應(yīng)：通過(guò)所有領(lǐng)域單語(yǔ)數(shù)據(jù)訓(xùn)練一個(gè)詞嵌入，使用最近鄰搜索獲得歸納詞，根據(jù)該詞表構(gòu)建內(nèi)領(lǐng)域偽平行數(shù)據(jù)。然后，將內(nèi)領(lǐng)域偽數(shù)據(jù)和真實(shí)外領(lǐng)域數(shù)據(jù)結(jié)合起來(lái)訓(xùn)練新模型。

監(jiān)督詞歸納領(lǐng)域適應(yīng)：在無(wú)監(jiān)督詞歸納的基礎(chǔ)上用外領(lǐng)域詞典作為種子詞典來(lái)進(jìn)行有監(jiān)督的詞匯歸納。

2.3.2 短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)

混合訓(xùn)練：根據(jù)混合策略，先由外領(lǐng)域nmt模型獲得初始數(shù)據(jù)，在迭代中逐步混合內(nèi)領(lǐng)域和外領(lǐng)域數(shù)據(jù)，其中常數(shù)c為50k，迭代訓(xùn)練i經(jīng)過(guò)6輪，最后混合前向翻譯訓(xùn)練更新得到最佳模型，m∶n∶k=1∶1∶1，整個(gè)訓(xùn)練過(guò)程數(shù)據(jù)總量保持不變。

混合訓(xùn)練+短語(yǔ)后驗(yàn)證：在混合訓(xùn)練的每輪更新模型后，加上短語(yǔ)后驗(yàn)證從而產(chǎn)生新的偽平行句對(duì)，代入繼續(xù)訓(xùn)練。重復(fù)這個(gè)過(guò)程直至收斂。

3 實(shí)驗(yàn)分析

3.1 基準(zhǔn)系統(tǒng)

通過(guò)基準(zhǔn)實(shí)驗(yàn)系統(tǒng)結(jié)果表明，nmt反向翻譯以及DAFE反向翻譯高于外領(lǐng)域nmt系統(tǒng)，這表明內(nèi)領(lǐng)域數(shù)據(jù)構(gòu)建偽平行數(shù)據(jù)能夠提升翻譯性能。此外nmt反向翻譯+前向翻譯較外領(lǐng)域nmt系統(tǒng)有提升，但由于前向翻譯質(zhì)量影響，在效果上低于反向翻譯方法。

詞歸納通過(guò)歸納詞構(gòu)建初始數(shù)據(jù)進(jìn)行訓(xùn)練和通過(guò)目標(biāo)端復(fù)制構(gòu)建偽平行語(yǔ)料進(jìn)行訓(xùn)練，結(jié)果表現(xiàn)出較強(qiáng)的基準(zhǔn)，這是因?yàn)殡娚虜?shù)據(jù)包含大量的低頻詞，并且在相關(guān)產(chǎn)品的描述時(shí)，會(huì)存在短語(yǔ)的堆疊現(xiàn)象。例如：“尺碼：m x xl xxl”，“品牌：adidas”，這體現(xiàn)了詞匹配優(yōu)化在電子商務(wù)中是具有一定效果。

3.2 短語(yǔ)后驗(yàn)證 vs. 基準(zhǔn)系統(tǒng)

混合訓(xùn)練充分利用內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù)，采用漸進(jìn)增加方法，避開了前期的前向翻譯質(zhì)量較低問(wèn)題，從而使得訓(xùn)練能夠達(dá)到基準(zhǔn)系統(tǒng)。通過(guò)加入短語(yǔ)的后驗(yàn)證，在此基礎(chǔ)上，不僅最大化利用了內(nèi)領(lǐng)域數(shù)據(jù)，同時(shí)解決了無(wú)監(jiān)督領(lǐng)域適應(yīng)的詞匹配問(wèn)題，在中—英和英—中方向超過(guò)最強(qiáng)基線分別為1.54 Bleu點(diǎn)和1.78 Bleu點(diǎn)。

此外為了更好地驗(yàn)證混合訓(xùn)練與短語(yǔ)后驗(yàn)證方法對(duì)數(shù)據(jù)質(zhì)量的提升，在測(cè)試集進(jìn)行單詞匹配驗(yàn)證。通過(guò)fasttext[14]對(duì)測(cè)試集及參考譯文構(gòu)建出內(nèi)領(lǐng)域詞對(duì)，在構(gòu)建內(nèi)領(lǐng)域詞對(duì)過(guò)程中，若抽取的該領(lǐng)域內(nèi)的詞對(duì)在外領(lǐng)域中存在則去除該詞對(duì)，剩余的對(duì)齊詞集合構(gòu)成新詞對(duì)的參考集合。

根據(jù)該參考集合，在驗(yàn)證集上分別測(cè)出其精確率、召回率和F值。其過(guò)程與構(gòu)建內(nèi)領(lǐng)域過(guò)程相同，分別對(duì)最強(qiáng)的基線系統(tǒng)、混合訓(xùn)練+短語(yǔ)后驗(yàn)證方法進(jìn)行新詞對(duì)集合提取。

表5中顯示各方法驗(yàn)證集的單詞配對(duì)三個(gè)值。其中混合訓(xùn)練、混合訓(xùn)練+短語(yǔ)后驗(yàn)證方法在中—英和英—中兩個(gè)方向的召回率遠(yuǎn)超于基準(zhǔn)系統(tǒng)的召回率。而在精確率上英—中的基準(zhǔn)系統(tǒng)偏高，中—英幾種模型之間差距較小。根據(jù)精確率以及召回率，綜合指標(biāo)F值三者參考各方法產(chǎn)生的詞對(duì)質(zhì)量，表明文中方法能夠改善詞對(duì)質(zhì)量，提升翻譯性能。

表5 驗(yàn)證集的單詞配對(duì)評(píng)分 %

4 結(jié)束語(yǔ)

在電子商務(wù)機(jī)器翻譯中，資源十分稀缺。獲取大量電子商務(wù)數(shù)據(jù)，通過(guò)一系列預(yù)處理構(gòu)建了電子商務(wù)中英單語(yǔ)語(yǔ)料庫(kù)。在此語(yǔ)料庫(kù)上構(gòu)建短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯，通過(guò)無(wú)監(jiān)督領(lǐng)域適應(yīng)避開了對(duì)電商平行資源的需求。并且該方法在混合策略的無(wú)監(jiān)督領(lǐng)域基礎(chǔ)上，充分利用內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù)，將短語(yǔ)后驗(yàn)證方法融入該訓(xùn)練，解決無(wú)監(jiān)督領(lǐng)域適應(yīng)的詞對(duì)匹配不佳問(wèn)題，使得電商產(chǎn)品信息翻譯模型性能夠得到進(jìn)一步的提升。在未來(lái)將拓展更多的語(yǔ)言的電商產(chǎn)品數(shù)據(jù)信息，進(jìn)行進(jìn)一步的研究與創(chuàng)新。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡