国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯

2022-01-09 05:19寧秋怡史小靜段湘煜
關(guān)鍵詞:語(yǔ)料平行短語(yǔ)

寧秋怡,史小靜,段湘煜

(蘇州大學(xué),江蘇 蘇州 215006)

0 引 言

機(jī)器翻譯(machine translation,MT)[1-2]是基于自然語(yǔ)言數(shù)據(jù)研究的項(xiàng)目,近年來(lái),機(jī)器翻譯的發(fā)展已經(jīng)達(dá)到一個(gè)較高的水平,特別是基于編碼器和解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯系統(tǒng)(neural machine translation,NMT)[3-5]。但在現(xiàn)階段,不論是統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,SMT)[6]模型還是神經(jīng)機(jī)器翻譯模型,它們的性能取決于語(yǔ)料庫(kù)的規(guī)模和質(zhì)量。高質(zhì)量的機(jī)器翻譯系統(tǒng)訓(xùn)練都依賴于大規(guī)模的平行數(shù)據(jù),這些數(shù)據(jù)一般在通用領(lǐng)域中大量存在,如新聞?lì)I(lǐng)域。然而在一些不常用的低資源領(lǐng)域,往往只有小規(guī)模的平行語(yǔ)料,甚至在一些領(lǐng)域中不存在平行數(shù)據(jù),如電子商務(wù)領(lǐng)域。如今電子商務(wù)活動(dòng)日益頻繁,隨之而來(lái)的電子商務(wù)平臺(tái)產(chǎn)品信息翻譯成為了一個(gè)突出的問(wèn)題。通過(guò)人工進(jìn)行產(chǎn)品信息翻譯將消耗大量的時(shí)間和資金,因此希望通過(guò)機(jī)器翻譯來(lái)輔助電商產(chǎn)品信息翻譯,構(gòu)建電子商務(wù)翻譯系統(tǒng)。

通過(guò)利用其他通用領(lǐng)域訓(xùn)練的翻譯系統(tǒng)進(jìn)行稀缺領(lǐng)域資源的翻譯,但是兩個(gè)領(lǐng)域數(shù)據(jù)差異較大,翻譯效果不佳??梢岳觅Y源豐富的領(lǐng)域語(yǔ)料來(lái)幫助語(yǔ)料稀少的領(lǐng)域提升翻譯質(zhì)量,稱為機(jī)器翻譯的領(lǐng)域適應(yīng)(machine translation adaptation)[7]。在領(lǐng)域適應(yīng)機(jī)器翻譯中,資源豐富的領(lǐng)域被稱為外領(lǐng)域(out-domain),資源稀缺的領(lǐng)域被稱為內(nèi)領(lǐng)域(in-domain)。

在機(jī)器翻譯領(lǐng)域適應(yīng)中,有監(jiān)督的領(lǐng)域適應(yīng)要求內(nèi)領(lǐng)域和外領(lǐng)域都具有平行語(yǔ)料,然而在電子商務(wù)領(lǐng)域,不存在公開的大規(guī)模平行數(shù)據(jù),并且構(gòu)建電子商務(wù)平行語(yǔ)料是十分困難的,所以采用無(wú)監(jiān)督領(lǐng)域適應(yīng)的方法,避免了對(duì)內(nèi)領(lǐng)域平行語(yǔ)料的需求。目前無(wú)監(jiān)督領(lǐng)域適應(yīng)中,提升模型翻譯效果主要有兩種方式。第一種方法是生成內(nèi)領(lǐng)域的偽平行數(shù)據(jù)。最為顯著的方法是2015年Sennrich等人[8]通過(guò)將內(nèi)領(lǐng)域目標(biāo)語(yǔ)言反向翻譯來(lái)構(gòu)建偽平行數(shù)據(jù)。反向翻譯(back-translation)是給定目標(biāo)語(yǔ)言句子y,用訓(xùn)練好的目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯模型得到偽句子對(duì)(x',y),訓(xùn)練過(guò)程始終保持目標(biāo)端的真實(shí)性。此外,2017年Anna Currey等人[9]復(fù)制內(nèi)領(lǐng)域目標(biāo)語(yǔ)言文本的方法都是不斷更新擴(kuò)充領(lǐng)域內(nèi)的數(shù)據(jù)。2019年Hu等人[10]通過(guò)詞庫(kù)歸納構(gòu)建域內(nèi)偽平行語(yǔ)料庫(kù),大大提高了翻譯質(zhì)量。第二種方法是在現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)上設(shè)計(jì)出新的網(wǎng)絡(luò)模型,Xia等人[11]在利用偽平行的數(shù)據(jù)的基礎(chǔ)上,提出雙向?qū)W習(xí)的方法提升模型的性能。2018年Zhen Yang等人[12]在翻譯模型中引入對(duì)抗分類器的方法實(shí)現(xiàn)無(wú)監(jiān)督的領(lǐng)域適應(yīng)。2019年Dou等人[13]提出將領(lǐng)域特征嵌入到網(wǎng)絡(luò)中編碼端的無(wú)監(jiān)督領(lǐng)域適應(yīng)方法,并通過(guò)多任務(wù)學(xué)習(xí)訓(xùn)練了整個(gè)網(wǎng)絡(luò)。

為了解決內(nèi)領(lǐng)域平行資源稀缺的問(wèn)題,該文使用無(wú)監(jiān)督領(lǐng)域適應(yīng),并在迭代訓(xùn)練的過(guò)程中,通過(guò)數(shù)據(jù)逐步混合訓(xùn)練策略提升翻譯性能,充分利用單語(yǔ)數(shù)據(jù)。同時(shí)針對(duì)于無(wú)監(jiān)督領(lǐng)域適應(yīng)過(guò)程中詞對(duì)匹配不佳的問(wèn)題,提出短語(yǔ)后驗(yàn)證的方法進(jìn)一步強(qiáng)化。通過(guò)大量實(shí)驗(yàn)對(duì)比,在電子商務(wù)領(lǐng)域上該方法超于現(xiàn)有的方法,較最強(qiáng)基線系統(tǒng)高出約1.5 Bleu點(diǎn)。

該文的貢獻(xiàn)包含以下幾點(diǎn):

(1)獲取電子商務(wù)單語(yǔ)數(shù)據(jù),以無(wú)監(jiān)督領(lǐng)域適應(yīng)方法搭建電子商務(wù)機(jī)器翻譯平臺(tái);

(2)無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯系統(tǒng)采用混合策略為主體框架,充分利用內(nèi)領(lǐng)域數(shù)據(jù),探索內(nèi)外領(lǐng)域混合比例,提升翻譯性能;

(3)提出短語(yǔ)后驗(yàn)證的方法解決無(wú)監(jiān)督領(lǐng)域適應(yīng)機(jī)器翻譯中詞對(duì)匹配不佳問(wèn)題,同時(shí)最大化利用內(nèi)領(lǐng)域數(shù)據(jù)。

首先介紹了近年在領(lǐng)域適應(yīng)機(jī)器翻譯方面的相關(guān)研究以及工作,其次詳細(xì)描述無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯的主體框架以及短語(yǔ)后驗(yàn)證方法,再次介紹實(shí)驗(yàn)設(shè)置和實(shí)驗(yàn)結(jié)果,并對(duì)相關(guān)實(shí)驗(yàn)進(jìn)行詳細(xì)的分析,最后給出結(jié)論與未來(lái)工作計(jì)劃。

1 短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)

1.1 混合策略的主體框架

短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯是在混合策略基礎(chǔ)上實(shí)現(xiàn)的,它是訓(xùn)練雙向翻譯過(guò)程,整個(gè)框架見圖1。從源端到目標(biāo)端系統(tǒng),目標(biāo)端到源端系統(tǒng),記做src→tgt和tgt→src。

圖1 基于混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)框架結(jié)構(gòu)

首先由外領(lǐng)域翻譯模型獲得內(nèi)領(lǐng)域的初始偽平行數(shù)據(jù),如圖1中的{src',tgt}和{tgt',src}。該過(guò)程是神經(jīng)機(jī)器翻譯模型,它是一種非線性結(jié)構(gòu),其經(jīng)典的架構(gòu)是編碼器—解碼器(encoder—decoder)。編碼器首先將源端語(yǔ)句X={x1,x2,…,xn}輸入轉(zhuǎn)換成Eencoder={e1,e2,…,en}編碼,然后將其編碼成隱藏狀態(tài)h,并發(fā)送到解碼器decoder。解碼器類似,將目標(biāo)端語(yǔ)言輸入Y={y1,y2,…,ym}轉(zhuǎn)換成Edecoder={e1,e2,…,em},然后給定輸入歷史和隱藏狀態(tài)h,生成Z,具體公式如下:

(1)

其中,θ是神經(jīng)模型參數(shù),z≤i是歷史輸入。訓(xùn)練過(guò)程的損失如公式(2):

(2)

1.2 短語(yǔ)后驗(yàn)證

混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)在訓(xùn)練過(guò)程中通過(guò)數(shù)據(jù)混合充分利用了內(nèi)領(lǐng)域單語(yǔ)數(shù)據(jù)以及外領(lǐng)域的平行語(yǔ)料,大大地提升了翻譯效果。但反向翻譯產(chǎn)生的偽平行語(yǔ)料質(zhì)量難以保證,所以在混合策略訓(xùn)練的前期始終保持目標(biāo)語(yǔ)言的數(shù)據(jù)是真實(shí)的,避免因使用低質(zhì)量的偽數(shù)據(jù)作為目標(biāo)端,導(dǎo)致在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中翻譯模型的偏離。但由外領(lǐng)域訓(xùn)練產(chǎn)生的詞對(duì)存在匹配不佳的問(wèn)題,通過(guò)引入短語(yǔ)后驗(yàn)證方法解決該問(wèn)題。

圖2 前向翻譯驗(yàn)證示意圖

1.3 綜合訓(xùn)練

在混合訓(xùn)練策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)框架結(jié)構(gòu)基礎(chǔ)上加入前向翻譯驗(yàn)證的方法,由于訓(xùn)練開始產(chǎn)生的前向翻譯數(shù)據(jù)質(zhì)量較低,為了保證訓(xùn)練的新驗(yàn)證短語(yǔ)質(zhì)量, 每次迭代訓(xùn)練后,增加c*i數(shù)量前向翻譯與反向翻譯學(xué)習(xí)校驗(yàn)原句中源端數(shù)據(jù)的詞進(jìn)行替換,從而產(chǎn)生新的偽語(yǔ)料繼續(xù)訓(xùn)練,重復(fù)迭代訓(xùn)練與前向翻譯驗(yàn)證過(guò)程直至收斂。

2 實(shí)驗(yàn)設(shè)置及過(guò)程

2.1 實(shí)驗(yàn)設(shè)置

該文所有實(shí)驗(yàn)采用開源代碼Fairseq[15],將模型設(shè)置為Transformer[16],dropout設(shè)置為0.3,編碼器和解碼器層數(shù)均為6層,其他基本的超參數(shù)設(shè)置為Fairseq中的默認(rèn)參數(shù)選項(xiàng)。解碼時(shí),采用集束搜索(beam search),其中beam_size設(shè)置為5,其余參數(shù)采用默認(rèn)設(shè)置。訓(xùn)練和測(cè)試均基于GTX1080Ti。采用雙語(yǔ)互譯評(píng)估(bilingual evaluation understudy,BLEU)[17],它已經(jīng)被廣泛應(yīng)用于自然語(yǔ)言處理和機(jī)器翻譯任務(wù)。該文采用BLEU自動(dòng)化腳本multi-bleu.perl。

2.2 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理

在新聞?lì)I(lǐng)域,平行數(shù)據(jù)非常豐富,因此通常被用作域外領(lǐng)域數(shù)據(jù)。選擇linguistic data consortium (LDC)作為領(lǐng)域外的數(shù)據(jù)集,這是一個(gè)中英新聞?wù)Z料,大約有125萬(wàn)個(gè)平行句。領(lǐng)域內(nèi)的數(shù)據(jù)是本節(jié)中獲取的電子商務(wù)領(lǐng)域數(shù)據(jù)。

目前,電子商務(wù)領(lǐng)域不存在公開的語(yǔ)料,為了構(gòu)建電子商務(wù)翻譯系統(tǒng),在此之前首先構(gòu)建一份電子商務(wù)語(yǔ)料。這是一份包含英文和中文的單語(yǔ)電商語(yǔ)料庫(kù),分別通過(guò)中英電商平臺(tái)獲取產(chǎn)品文本信息。數(shù)據(jù)包含四類:男士服裝、女士服裝、食物和玩具。筆者構(gòu)建了訓(xùn)練集為單語(yǔ)數(shù)據(jù),平行數(shù)據(jù)分別為測(cè)試集和驗(yàn)證集,數(shù)據(jù)的詳細(xì)數(shù)量見表1。表中數(shù)字為數(shù)據(jù)集的句子數(shù)量,其中訓(xùn)練集是以百萬(wàn)(M)為單位。

表1 電商領(lǐng)域數(shù)據(jù)統(tǒng)計(jì)

對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了預(yù)處理,去掉網(wǎng)絡(luò)中特殊字符,并且針對(duì)中文,由于字符之間沒(méi)有明顯的分割符號(hào),一般采用中文分詞工具進(jìn)行分詞,這里使用jieba分詞工具;針對(duì)英文,可以依據(jù)單詞之間的空格進(jìn)行切分,同時(shí)進(jìn)行詞串識(shí)別(tokenization)處理。為了去除分詞工具在模型評(píng)估中的影響,在測(cè)試過(guò)程中,在英文到中文方向上,以字級(jí)別文本文件作為參考譯文。

2.2.1 數(shù)據(jù)bpe設(shè)置

在神經(jīng)機(jī)器翻譯的訓(xùn)練中,使用了(byte pair encoder,BPE)[18]技術(shù)處理所有的數(shù)據(jù),進(jìn)行了詞表的壓縮。使用所有的數(shù)據(jù)訓(xùn)練得到bpe編碼,并且分別對(duì)不同大小的bpe進(jìn)行了實(shí)驗(yàn),對(duì)源端與目標(biāo)端分別做bpe和聯(lián)合源端與目標(biāo)端做bpe進(jìn)行了實(shí)驗(yàn)。在外領(lǐng)域數(shù)據(jù)上訓(xùn)練得到的內(nèi)領(lǐng)域四類測(cè)試數(shù)據(jù)結(jié)果如表2所示,英—中和中—英方向均是64K bpe效果最佳,最終決定中英分別使用64K bpe編碼。

表2 不同bpe設(shè)置實(shí)驗(yàn)對(duì)比

2.2.2 數(shù)據(jù)比例設(shè)置

為了探尋基于混合策略的無(wú)監(jiān)督訓(xùn)練過(guò)程中,內(nèi)領(lǐng)域和外領(lǐng)域數(shù)據(jù)在不同混合比例下的效果,在整個(gè)訓(xùn)練前進(jìn)行了不同比例的多組實(shí)驗(yàn)。通過(guò)外領(lǐng)域平行句與內(nèi)領(lǐng)域偽平行句不同比例組合,該偽語(yǔ)料是獲取的反向翻譯。實(shí)驗(yàn)結(jié)果如表3所示。表中的混合比率表示域內(nèi)數(shù)據(jù)和域外數(shù)據(jù)的比率。根據(jù)結(jié)果,當(dāng)外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)以1∶1混合時(shí),與Sennrich等人[19]得到的結(jié)論一致。

表3 不同的數(shù)據(jù)比例實(shí)驗(yàn)結(jié)果

2.3 實(shí)驗(yàn)過(guò)程

基于上述的實(shí)驗(yàn)設(shè)置,采用中英分別64K bpe,內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù)1∶1的設(shè)置,并且數(shù)據(jù)總量保持不變。分別訓(xùn)練了混合策略的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯以及短語(yǔ)后驗(yàn)證方法,此外在電子商務(wù)領(lǐng)域數(shù)據(jù)上分別采用了下面基準(zhǔn)實(shí)驗(yàn)進(jìn)行性能的對(duì)比,實(shí)驗(yàn)具體結(jié)果見表4。

表4 電子商務(wù)產(chǎn)品翻譯測(cè)試BLEU值

2.3.1 基準(zhǔn)系統(tǒng)

為了更好地探索短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督在電商上的效果,利用以下多個(gè)無(wú)監(jiān)督基準(zhǔn)系統(tǒng):

外領(lǐng)域nmt:在外領(lǐng)域平行語(yǔ)料上使用fairseq訓(xùn)練神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。

nmt反向翻譯:由外領(lǐng)域nmt系統(tǒng)進(jìn)行反向翻譯,聯(lián)合外領(lǐng)域數(shù)據(jù)構(gòu)成偽平行語(yǔ)料,訓(xùn)練神經(jīng)翻譯模型。

nmt反向翻譯+前向翻譯:在nmt反向翻譯的基礎(chǔ)上,前期融合前向翻譯數(shù)據(jù),聯(lián)合外領(lǐng)域數(shù)據(jù)構(gòu)成偽平行語(yǔ)料,訓(xùn)練神經(jīng)翻譯模型。

目標(biāo)端復(fù)制:在內(nèi)領(lǐng)域,目標(biāo)語(yǔ)言句子被直接復(fù)制到源語(yǔ)言,以構(gòu)建偽平行語(yǔ)料。聯(lián)合外領(lǐng)域平行數(shù)據(jù),訓(xùn)練新的神經(jīng)翻譯模型。

DAFE反向翻譯:在內(nèi)領(lǐng)域偽平行語(yǔ)料庫(kù)和外領(lǐng)域平行數(shù)據(jù)的組合上訓(xùn)練神經(jīng)翻譯系統(tǒng),在編碼器的每一層添加領(lǐng)域感知函數(shù)嵌入和任務(wù)特定函數(shù)嵌入。

無(wú)監(jiān)督詞歸納領(lǐng)域適應(yīng):通過(guò)所有領(lǐng)域單語(yǔ)數(shù)據(jù)訓(xùn)練一個(gè)詞嵌入,使用最近鄰搜索獲得歸納詞,根據(jù)該詞表構(gòu)建內(nèi)領(lǐng)域偽平行數(shù)據(jù)。然后,將內(nèi)領(lǐng)域偽數(shù)據(jù)和真實(shí)外領(lǐng)域數(shù)據(jù)結(jié)合起來(lái)訓(xùn)練新模型。

監(jiān)督詞歸納領(lǐng)域適應(yīng):在無(wú)監(jiān)督詞歸納的基礎(chǔ)上用外領(lǐng)域詞典作為種子詞典來(lái)進(jìn)行有監(jiān)督的詞匯歸納。

2.3.2 短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)

混合訓(xùn)練:根據(jù)混合策略,先由外領(lǐng)域nmt模型獲得初始數(shù)據(jù),在迭代中逐步混合內(nèi)領(lǐng)域和外領(lǐng)域數(shù)據(jù),其中常數(shù)c為50k,迭代訓(xùn)練i經(jīng)過(guò)6輪,最后混合前向翻譯訓(xùn)練更新得到最佳模型,m∶n∶k=1∶1∶1,整個(gè)訓(xùn)練過(guò)程數(shù)據(jù)總量保持不變。

混合訓(xùn)練+短語(yǔ)后驗(yàn)證:在混合訓(xùn)練的每輪更新模型后,加上短語(yǔ)后驗(yàn)證從而產(chǎn)生新的偽平行句對(duì),代入繼續(xù)訓(xùn)練。重復(fù)這個(gè)過(guò)程直至收斂。

3 實(shí)驗(yàn)分析

3.1 基準(zhǔn)系統(tǒng)

通過(guò)基準(zhǔn)實(shí)驗(yàn)系統(tǒng)結(jié)果表明,nmt反向翻譯以及DAFE反向翻譯高于外領(lǐng)域nmt系統(tǒng),這表明內(nèi)領(lǐng)域數(shù)據(jù)構(gòu)建偽平行數(shù)據(jù)能夠提升翻譯性能。此外nmt反向翻譯+前向翻譯較外領(lǐng)域nmt系統(tǒng)有提升,但由于前向翻譯質(zhì)量影響,在效果上低于反向翻譯方法。

詞歸納通過(guò)歸納詞構(gòu)建初始數(shù)據(jù)進(jìn)行訓(xùn)練和通過(guò)目標(biāo)端復(fù)制構(gòu)建偽平行語(yǔ)料進(jìn)行訓(xùn)練,結(jié)果表現(xiàn)出較強(qiáng)的基準(zhǔn),這是因?yàn)殡娚虜?shù)據(jù)包含大量的低頻詞,并且在相關(guān)產(chǎn)品的描述時(shí),會(huì)存在短語(yǔ)的堆疊現(xiàn)象。例如:“尺碼:m x xl xxl”,“品牌:adidas”, 這體現(xiàn)了詞匹配優(yōu)化在電子商務(wù)中是具有一定效果。

3.2 短語(yǔ)后驗(yàn)證 vs. 基準(zhǔn)系統(tǒng)

混合訓(xùn)練充分利用內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù),采用漸進(jìn)增加方法,避開了前期的前向翻譯質(zhì)量較低問(wèn)題,從而使得訓(xùn)練能夠達(dá)到基準(zhǔn)系統(tǒng)。通過(guò)加入短語(yǔ)的后驗(yàn)證,在此基礎(chǔ)上,不僅最大化利用了內(nèi)領(lǐng)域數(shù)據(jù),同時(shí)解決了無(wú)監(jiān)督領(lǐng)域適應(yīng)的詞匹配問(wèn)題,在中—英和英—中方向超過(guò)最強(qiáng)基線分別為1.54 Bleu點(diǎn)和1.78 Bleu點(diǎn)。

此外為了更好地驗(yàn)證混合訓(xùn)練與短語(yǔ)后驗(yàn)證方法對(duì)數(shù)據(jù)質(zhì)量的提升,在測(cè)試集進(jìn)行單詞匹配驗(yàn)證。通過(guò)fasttext[14]對(duì)測(cè)試集及參考譯文構(gòu)建出內(nèi)領(lǐng)域詞對(duì),在構(gòu)建內(nèi)領(lǐng)域詞對(duì)過(guò)程中,若抽取的該領(lǐng)域內(nèi)的詞對(duì)在外領(lǐng)域中存在則去除該詞對(duì),剩余的對(duì)齊詞集合構(gòu)成新詞對(duì)的參考集合。

根據(jù)該參考集合,在驗(yàn)證集上分別測(cè)出其精確率、召回率和F值。其過(guò)程與構(gòu)建內(nèi)領(lǐng)域過(guò)程相同,分別對(duì)最強(qiáng)的基線系統(tǒng)、混合訓(xùn)練+短語(yǔ)后驗(yàn)證方法進(jìn)行新詞對(duì)集合提取。

表5中顯示各方法驗(yàn)證集的單詞配對(duì)三個(gè)值。其中混合訓(xùn)練、混合訓(xùn)練+短語(yǔ)后驗(yàn)證方法在中—英和英—中兩個(gè)方向的召回率遠(yuǎn)超于基準(zhǔn)系統(tǒng)的召回率。而在精確率上英—中的基準(zhǔn)系統(tǒng)偏高,中—英幾種模型之間差距較小。根據(jù)精確率以及召回率,綜合指標(biāo)F值三者參考各方法產(chǎn)生的詞對(duì)質(zhì)量,表明文中方法能夠改善詞對(duì)質(zhì)量,提升翻譯性能。

表5 驗(yàn)證集的單詞配對(duì)評(píng)分 %

4 結(jié)束語(yǔ)

在電子商務(wù)機(jī)器翻譯中,資源十分稀缺。獲取大量電子商務(wù)數(shù)據(jù),通過(guò)一系列預(yù)處理構(gòu)建了電子商務(wù)中英單語(yǔ)語(yǔ)料庫(kù)。在此語(yǔ)料庫(kù)上構(gòu)建短語(yǔ)后驗(yàn)證的無(wú)監(jiān)督領(lǐng)域適應(yīng)電商機(jī)器翻譯,通過(guò)無(wú)監(jiān)督領(lǐng)域適應(yīng)避開了對(duì)電商平行資源的需求。并且該方法在混合策略的無(wú)監(jiān)督領(lǐng)域基礎(chǔ)上,充分利用內(nèi)領(lǐng)域與外領(lǐng)域數(shù)據(jù),將短語(yǔ)后驗(yàn)證方法融入該訓(xùn)練,解決無(wú)監(jiān)督領(lǐng)域適應(yīng)的詞對(duì)匹配不佳問(wèn)題,使得電商產(chǎn)品信息翻譯模型性能夠得到進(jìn)一步的提升。在未來(lái)將拓展更多的語(yǔ)言的電商產(chǎn)品數(shù)據(jù)信息,進(jìn)行進(jìn)一步的研究與創(chuàng)新。

猜你喜歡
語(yǔ)料平行短語(yǔ)
探求線面平行中平行關(guān)系的尋找方法
向量的平行與垂直
平行
海量標(biāo)注語(yǔ)料庫(kù)智能構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
初中英語(yǔ)詞組高頻考點(diǎn)聚焦
淺談視頻語(yǔ)料在對(duì)外漢語(yǔ)教學(xué)中的運(yùn)用
可比語(yǔ)料庫(kù)構(gòu)建與可比度計(jì)算研究綜述
平行板電容器的兩類動(dòng)態(tài)分析
英語(yǔ)教學(xué)中真實(shí)語(yǔ)料的運(yùn)用