国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樞軸語言的漢越神經(jīng)機器翻譯偽平行語料生成*

2021-04-06 10:48:28賈承勛余正濤文永華于志強
計算機工程與科學(xué) 2021年3期
關(guān)鍵詞:樞軸語料詞典

賈承勛,賴 華,余正濤,文永華,于志強

(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點實驗室,云南 昆明 650500)

1 引言

神經(jīng)機器翻譯NMT(Neural Machine Translation)是目前機器翻譯領(lǐng)域的熱點研究方法,相較于統(tǒng)計機器翻譯SMT(Statistical Machine Translation)[1],神經(jīng)機器翻譯在大量的平行句對上取得了更好的翻譯效果[2,3],但是神經(jīng)機器翻譯在平行語料匱乏的低資源環(huán)境下,效果并不理想[4]。為緩解語料缺乏困境,早期研究者們利用人工標注方式擴充語料,然而人工標注具有周期長、成本高的缺點,因此研究者們開始關(guān)注語料的自動擴充方法[5]。漢語-越南語是典型的低資源語言對,漢越神經(jīng)機器翻譯同樣面臨數(shù)據(jù)稀缺問題[6],這一問題嚴重影響神經(jīng)機器翻譯在實際中的應(yīng)用,因此如何通過語料擴充手段改善漢越神經(jīng)機器翻譯的性能是值得研究的問題。

目前通過生成偽平行數(shù)據(jù)緩解數(shù)據(jù)稀疏問題,是低資源神經(jīng)機器翻譯的一個重要研究方向[7]。對于偽平行數(shù)據(jù)擴充的研究,目前主要有2種方式:抽取式和生成式。抽取式是根據(jù)一定規(guī)則從可比語料、樞軸語料或者2種語言的單語語料中抽取偽平行語料[8 - 11];生成式是在已有小規(guī)模平行語料的前提下,通過詞的替換、單語數(shù)據(jù)回譯[12]和建立樞軸模型等方法,生成更多的偽平行數(shù)據(jù)[12 - 14]。

目前基于生成式的偽平行數(shù)據(jù)擴充方法的有效性已經(jīng)得到了充分驗證,但缺少對這些方法融合利用方面的研究。

因此,本文針對漢越神經(jīng)機器翻譯任務(wù),對基于詞的替換、單語數(shù)據(jù)回譯和基于樞軸語言3種生成式方法的融合利用進行研究。在基于樞軸語言方法的基礎(chǔ)上,將詞替換和回譯2種方法融合進來,在樞軸方法生成偽平行數(shù)據(jù)的過程中,生成質(zhì)量更優(yōu)的漢越偽平行數(shù)據(jù),然后利用語言模型對生成的偽平行數(shù)據(jù)進行篩選,優(yōu)化偽平行數(shù)據(jù)的質(zhì)量。實驗表明,本文方法相比單一的生成式方法性能有明顯提高。

2 相關(guān)工作

近年來,國內(nèi)外相關(guān)研究人員針對小規(guī)模平行語料進行偽平行語料生成的方法進行了廣泛研究,并取得了一系列成果。目前在神經(jīng)機器翻譯中能有效生成偽平行數(shù)據(jù)的方法主要有3種。

第1種是基于詞的替換方法。Fadaee等人[15]利用基于詞替換的翻譯數(shù)據(jù)增強技術(shù)TDA(Translation Data Augmentation),通過將平行句對中的高頻詞替換為平行句對中的低頻詞,從而得到新的偽平行句對,但是當(dāng)出現(xiàn)一詞多譯的情況時效果不佳,且易出現(xiàn)噪聲;蔡子龍等人[16]首先對句子進行分塊,找出句子中的最小翻譯單元MTU(Minimum Translation Unit),然后找到句子中最相似的2個模塊,通過對調(diào)他們的位置生成新的偽平行句對,但是容易產(chǎn)生語法語義上的錯誤,使偽平行數(shù)據(jù)質(zhì)量不佳。

第2種是利用單語數(shù)據(jù)進行回譯的方法。Sennrich等人[12]利用現(xiàn)有的神經(jīng)機器翻譯模型提出了回譯方法(Back-Translation),通過利用已有的小規(guī)模平行句對訓(xùn)練2個不同翻譯方向的神經(jīng)機器翻譯模型,將目標端單語數(shù)據(jù)翻譯成源語言,從而構(gòu)成偽平行數(shù)據(jù)。此方法有效提高了翻譯性能,但是嚴重依賴于小規(guī)模平行句對的質(zhì)量,并且不能解決零資源語言的數(shù)據(jù)稀疏問題。

第3種是利用樞軸語言連接源語言和目標語言的方法[17,18],使用源-樞軸模型將源語言翻譯成樞軸語言,然后使用樞軸目標模型將樞軸語言翻譯成目標語言,具體流程如圖1所示。Johnson等人[5]對基于樞軸的神經(jīng)機器翻譯方法進行了改進,并表明基于樞軸的神經(jīng)機器翻譯的翻譯性能比無需增量訓(xùn)練的通用模型更好,該方法有效解決了零資源或只有小規(guī)模平行語料語言的數(shù)據(jù)稀疏問題。李強等人[19]在統(tǒng)計機器翻譯上將樞軸方法分為系統(tǒng)級、語料級和短語級3種方法,通過擴大生成訓(xùn)練數(shù)據(jù)的規(guī)模以及優(yōu)化詞對齊質(zhì)量的方式來提高翻譯性能。Wu等人[20]通過對雙語數(shù)據(jù)中的單語語料進行翻譯的方法直接優(yōu)化最終的翻譯性能,即語料級的樞軸方法中,翻譯模型中所有參數(shù)的調(diào)優(yōu)直接通過優(yōu)化漢語至低資源語言的翻譯來完成,翻譯過程如圖2所示。

Figure 1 Flowchart of traditional pivot language method

Figure 2 Flowchart of corpus-level approach to pivot translation

Figure 3 Flowchart of the method for generating pseudo-parallel data

在生成偽平行語料的方法中,使用樞軸語言連接源語言和目標語言是一個重要方向,由于其簡單有效,在傳統(tǒng)的統(tǒng)計機器翻譯中也被廣泛使用[18]。在神經(jīng)機器翻譯中,基于樞軸語言的方法已經(jīng)普遍用于偽平行數(shù)據(jù)的生成,但這種基于樞軸的方法通常需要將解碼過程分成2個步驟,第一個模型中出現(xiàn)翻譯錯誤,會直接影響到下一個模型的訓(xùn)練效果,從而增加數(shù)據(jù)的模糊性。

目前3種生成式方法都有各自的優(yōu)勢和不足,目前還沒有將這些方法進行融合的研究,因此本文在將生成式方法相結(jié)合的基礎(chǔ)上,提出了融入雙語詞典的正反向樞軸方法。首先,針對基于樞軸的方法存在許多無法有效翻譯的詞和短語,會使翻譯錯誤連續(xù)傳遞,影響生成的偽平行數(shù)據(jù)的質(zhì)量,同時無法在所有的翻譯任務(wù)上都獲得最優(yōu)的翻譯性能的問題,本文對源語言單語數(shù)據(jù)進行一次正向的樞軸語言翻譯生成偽平行數(shù)據(jù)后,再對目標語言的單語數(shù)據(jù)進行一次反向的傳統(tǒng)樞軸語言方法的翻譯過程,以此實現(xiàn)樞軸語言方法和回譯方法的結(jié)合;其次,在上述改進的基礎(chǔ)上,通過構(gòu)建雙語詞典[21]進行稀有詞的替換,將雙語詞典輸入到源-樞軸和樞軸-目標的神經(jīng)機器翻譯模型中訓(xùn)練,將樞軸方法、回譯和詞替換3種方法結(jié)合并生成更多的偽平行數(shù)據(jù);最后將生成的偽平行數(shù)據(jù)通過語言模型進行篩選,將篩選后的偽平行數(shù)據(jù)與原始數(shù)據(jù)混合進行模型訓(xùn)練。

3 漢越偽平行數(shù)據(jù)生成方法

目前在神經(jīng)機器翻譯的樞軸語言方法中,并沒有在詞級上對樞軸方法進行分析,針對其存在的問題,本文結(jié)合了詞替換的思想,在樞軸方法的基礎(chǔ)上融入利用稀有詞構(gòu)建的雙語詞典,減小了詞和短語翻譯錯誤的幾率,從而緩解錯誤傳播的問題;針對零資源語言的數(shù)據(jù)稀疏問題,將樞軸方法與回譯方法相結(jié)合,進行一次反向的樞軸翻譯過程,即按照目標→樞軸→源的方向再次對數(shù)據(jù)進行擴充;融入雙語詞典的正反向樞軸方法是一種將詞替換方法、回譯方法和樞軸語言方法結(jié)合利用的方法。樞軸語言的選擇對基于樞軸語言的方法有著至關(guān)重要的影響,需要選擇同時與源語言和目標語言都具有大量可利用數(shù)據(jù)資源的語言作為樞軸語言。本文源語言為漢語,目標語言為越南語,由于漢英、英越機器翻譯可以獲得大規(guī)模高質(zhì)量的平行語料,因此以英語作為樞軸語言對漢越偽平行語料生成方法展開研究。

圖3中漢英翻譯模型和英漢翻譯模型為利用同一訓(xùn)練數(shù)據(jù)訓(xùn)練的神經(jīng)機器翻譯模型,同理英越和越英翻譯模型。本文結(jié)合了詞替換的思想,在樞軸方法的基礎(chǔ)上融入了利用稀有詞構(gòu)建的雙語詞典,減小了詞和短語翻譯錯誤的幾率,從而緩解錯誤傳遞問題;針對零資源語言數(shù)據(jù)稀疏問題,在樞軸方法的基礎(chǔ)上與回譯方法相結(jié)合,在正向樞軸翻譯后再利用額外的越南語數(shù)據(jù)進行反向的樞軸翻譯,即按照目標→樞軸→源的方向再次對數(shù)據(jù)進行擴充;而在此方法基礎(chǔ)上將雙語詞典結(jié)合進來,在翻譯數(shù)據(jù)的過程中進行稀有詞的替換,這便是本文提出的融入雙語詞典的正反向樞軸方法。

3.1 融入雙語詞典的樞軸方法

本文利用稀有詞,即常規(guī)詞表以外的詞來構(gòu)建雙語詞典。使用GIZA++工具對語料進行對齊處理得到對齊結(jié)果,排除常規(guī)詞表內(nèi)的詞來構(gòu)建雙語詞典,對于一詞多譯的情況,只保留對齊概率最大的詞。本文使用Li等人[22]的方法在模型翻譯過程中融入雙語詞典進行詞的替換。

在傳統(tǒng)的樞軸語言方法中采取2種不同的方式結(jié)合雙語詞典,第1種是利用現(xiàn)有數(shù)據(jù)構(gòu)建出源到樞軸的雙語詞典SP(Source to Pivot)和樞軸到目標語言的雙語詞典PT(Pivot to Target),將2個雙語詞典直接融入到相應(yīng)的模型中;第2種是在第1種方法的基礎(chǔ)上,將2個雙語詞典相結(jié)合,將其中英語部分相同的詞保留,對不包含在原詞典的英語詞進行人工整理。例如,“Monday”這個詞既存在詞典SP中又存在于詞典PT中,則保留,而“Jesus”這個詞只存在于詞典PT中,則將其人工添加到詞典SP中,如圖4所示。整合后得到的雙語詞典命名為SPT(Source to Pivot add Target)和PTS(Pivot to Target add Source),然后將其融入到相應(yīng)的模型中。

Figure 4 Building integrated bilingual dictionary

Figure 5 Comparison of traditional pivot language method and integrated bilingual dictionary pivot method

3.2 反向樞軸方法

在對生成偽平行數(shù)據(jù)的方法進行結(jié)合時,為了進一步提升生成數(shù)據(jù)的數(shù)量,本文將結(jié)合回譯的思想。在執(zhí)行原樞軸方向的基礎(chǔ)上,直接進行目標到源語言的回譯會受到2種語言之間數(shù)據(jù)稀缺性和形態(tài)差異的影響,因此也可以將這個過程分為2個簡單的步驟。原樞軸方向為源→樞軸→目標,進行回譯的反向樞軸即為目標→樞軸→源方向,如圖6所示。

Figure 6 Combination of pivot and back-translation

首先將目標語言單語數(shù)據(jù)翻譯為樞軸語言,然后再將其翻譯為源語言,形成偽平行數(shù)據(jù),最后與正向樞軸生成的偽數(shù)據(jù)混合。此方法的優(yōu)點是可以直接建模,并且不需修改模型框架及參數(shù),存在大量的目標語言T到樞軸語言P的雙語數(shù)據(jù)集,可以利用目標語言單語數(shù)據(jù)生成更多的偽平行數(shù)據(jù)。圖7為利用越南語句子反向樞軸生成偽平行句子的流程示例。

Figure 7 Example of reverse pivot process

利用越英翻譯模型將越南語單語數(shù)據(jù)翻譯成英語,然后通過英漢翻譯模型將其翻譯成漢語數(shù)據(jù),以此反向樞軸生成偽平行數(shù)據(jù),并與正向樞軸方法生成的偽平行數(shù)據(jù)一起與原始數(shù)據(jù)混合進行模型訓(xùn)練。

Figure 8 Filtering pseudo-parallel sentences by language model

3.3 融入雙語詞典的正反向樞軸方法

對于詞替換、回譯和樞軸3種方法的結(jié)合,是在樞軸方法融入雙語詞典的基礎(chǔ)上,執(zhí)行反向樞軸的翻譯過程,與單純的反向樞軸方法不同的是,此次結(jié)合在反向樞軸的過程中融入了雙語詞典,可以較好地利用源語言和目標語言單語數(shù)據(jù),同時可以有效地減少兩步翻譯的錯誤傳遞,提升反向樞軸生成的偽平行數(shù)據(jù)的質(zhì)量,以此生成更多質(zhì)量較高的偽數(shù)據(jù),與正向樞軸翻譯生成的數(shù)據(jù)混合,然后進行模型訓(xùn)練。

本文方法的整體流程如圖3所示,將雙語詞典分別融入到對應(yīng)的模型中,然后將漢語單語數(shù)據(jù)通過漢英翻譯模型翻譯為英語譯文,再通過英越翻譯模型翻譯為越南語譯文,以此正向樞軸方法生成偽平行數(shù)據(jù);其次將越南語單語數(shù)據(jù)通過越英翻譯模型翻譯為英語譯文,再通過英漢翻譯模型翻譯為漢語譯文,以此反向樞軸生成偽平行數(shù)據(jù)。最后將生成的偽平行數(shù)據(jù)與原始數(shù)據(jù)混合訓(xùn)練漢越神經(jīng)機器翻譯模型。

3.4 基于語言模型的偽平行數(shù)據(jù)篩選

通過融入雙語詞典的正反向樞軸方法可以生成新的偽平行數(shù)據(jù),但在低資源環(huán)境中很難有效地訓(xùn)練良好的回譯模型,并且引入樞軸方法可能會產(chǎn)生部分語義問題,難免會增加數(shù)據(jù)的噪聲,噪聲的存在可能會降低源語言-目標低資源語言的翻譯性能。為改善這一問題,本文利用語言模型對生成的偽平行數(shù)據(jù)進行篩選。由于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)可以將每個詞映射到一個緊湊的連續(xù)向量空間,該空間使用相對小的參數(shù)集合并使用循環(huán)連接來建模長距離上下文依賴,因此本文選用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型RNNLM(Recurrent Neural Network Language Model)[23]進行偽平行數(shù)據(jù)的篩選,具體流程如圖8所示。

首先利用大量漢語和越南語分別訓(xùn)練漢語語言模型和越南語語言模型,通過訓(xùn)練的語言模型對翻譯生成的句子進行打分,利用預(yù)先訓(xùn)練的漢語語言模型對反向樞軸生成的偽平行句對中的漢語句子進行打分,利用訓(xùn)練的越南語語言模型對正向樞軸方法生成的偽平行句對中的越南語句子進行打分,通過設(shè)置一個合理的閾值,將評分低于此值的句子刪除,以此實現(xiàn)偽平行數(shù)據(jù)的篩選,從而可以減少訓(xùn)練模型的計算次數(shù),同時降低時間復(fù)雜度。用篩選后得到的偽平行數(shù)據(jù)與原始數(shù)據(jù)一起訓(xùn)練最終的漢越神經(jīng)機器翻譯模型。

4 實驗及結(jié)果分析

4.1 實驗設(shè)置

實驗中傳統(tǒng)樞軸方法和語料級方法中使用的漢英雙語數(shù)據(jù)均來自WMT2017(Workshop on Machine Translation 2017),使用的英越雙語數(shù)據(jù)同樣來自WMT2017,生成漢越偽平行數(shù)據(jù)使用的漢語單語數(shù)據(jù)來自TED2013(Technology Entertainment Design 2013)中漢語數(shù)據(jù)的前10萬句,反向樞軸中使用的越南語單語數(shù)據(jù)來自Wikipedia。實驗樞軸語言均為英語,其中各個實驗步驟的數(shù)據(jù)如表1所示。

Table 1 Experimental data

通過網(wǎng)絡(luò)爬蟲獲取漢越數(shù)據(jù),在進行實驗之前對語料做了清洗和Tokenizaiton處理,除去空行并過濾長度大于50的句子,最終獲得183 000個漢越雙語平行句對。使用結(jié)巴分詞工具對漢語數(shù)據(jù)進行分詞處理,從原始雙語數(shù)據(jù)中分別隨機抽取1 500個平行句對作為實驗的驗證集和測試集。并將與偽平行數(shù)據(jù)一起訓(xùn)練翻譯模型的原始數(shù)據(jù)分為10萬和18萬分別進行實驗,采用原始數(shù)據(jù)直接訓(xùn)練的回譯方法、詞典替換方法和傳統(tǒng)樞軸方法作為基準實驗(baseline),其中詞表大小設(shè)置為30 000,為防止出現(xiàn)過擬合現(xiàn)象,在多次實驗調(diào)整后將迭代損失值設(shè)置為0.1,批大小為128,隱藏單元大小為512,輪次為20,訓(xùn)練步長為2×105,使用BLEU4作為評測指標。

4.2 實驗結(jié)果

實驗均利用Transformer模型架構(gòu)進行本文所有翻譯模型的訓(xùn)練。傳統(tǒng)的樞軸方法利用漢英200萬平行語料和英越100萬平行語料訓(xùn)練模型,回譯和詞典替換方法則使用10萬原始漢越雙語語料進行訓(xùn)練。為了驗證生成的偽平行數(shù)據(jù)的有效性,利用語言模型對生成的偽平行數(shù)據(jù)進行篩選,然后與原始數(shù)據(jù)混合打亂一起訓(xùn)練最終的漢越神經(jīng)機器翻譯模型,為了測試與不同語料規(guī)模的數(shù)據(jù)混合生成的偽平行數(shù)據(jù)的有效性,還設(shè)置了在18萬規(guī)模的數(shù)據(jù)集中添加偽平行數(shù)據(jù)的對比實驗。為了保證實驗結(jié)果的可靠性,每組的實驗結(jié)果的BLEU值都是利用相同測試集進行實驗得到的,實驗結(jié)果如表2所示。

實驗結(jié)果可分為2個部分,第1~5行是基準實驗,第6~9行是利用語言模型對本文方法生成的偽平行數(shù)據(jù)進行篩選后與不同規(guī)模的平行雙語數(shù)據(jù)進行混合訓(xùn)練的實驗結(jié)果,是對漢越神經(jīng)機器翻譯性能提升效果的驗證。由實驗結(jié)果可知,利用融入雙語詞典并結(jié)合回譯的樞軸方法生成的偽平行數(shù)據(jù)進行訓(xùn)練,提升效果最好,經(jīng)過語言模型篩選后,性能獲得了進一步提升。第6行為融入雙語詞典的樞軸方法,在10萬的數(shù)據(jù)集上比傳統(tǒng)樞軸方法的BLEU值高0.33,相比直接訓(xùn)練的模型提高了0.61,在18萬的數(shù)據(jù)集上相比直接訓(xùn)練的模型的BLEU值提高了0.48;第7行為融入了整合后雙語詞典的樞軸方法,效果比傳統(tǒng)樞軸方法的BLEU值提高了0.43,并且在10萬和18萬的數(shù)據(jù)集上的對比都具有較好的改進效果;第8行為反向樞軸的方法,同樣具有較好的改進效果,但由于反向樞軸生成的偽平行數(shù)據(jù)質(zhì)量不佳,因此提升效果相對于單回譯方法略低一點;第9行為融入雙語詞典的正反向樞軸方法,使用的漢語和越南語單語數(shù)據(jù)均為10萬,相比傳統(tǒng)樞軸方法的BLEU值提升了0.64,在18萬的數(shù)據(jù)集上依然可以取得較好的提升,相對于直接訓(xùn)練BLEU值提升了0.89,取得了最好的翻譯效果。

Table 2 Experimental results comparison between the generative methods and proposed method

4.3 實驗對比分析

由實驗結(jié)果可知,在樞軸語言方法中融入雙語詞典后翻譯性能總體都有所提升,將雙語詞典進行整合后融入樞軸翻譯方法中,可以進一步提升漢越神經(jīng)機器翻譯模型的性能。翻譯性能與訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量以及語言本身的差異性息息相關(guān),為了更好地分析本文方法生成的偽平行數(shù)據(jù)提升翻譯性能的原因,本文對生成的偽平行數(shù)據(jù)進行了分析評估。

4.3.1 困惑度分析

為了檢驗生成的偽平行數(shù)據(jù)的可用性,利用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型RNNLM和生成的偽平行數(shù)據(jù)訓(xùn)練語言模型,通過測試其困惑度PPL(PerPLexity),對生成句對的流利性進行評估,檢測偽平行數(shù)據(jù)的質(zhì)量。此實驗中訓(xùn)練語言模型的數(shù)據(jù)均為生成的漢越偽平行數(shù)據(jù),結(jié)果如表3所示。

Table 3 Evaluation results of Chinese-Vietnamese pseudo-parallel data perplexity

實驗中均使用同一測試集進行評價,其句子都是正常的句子,給測試集中的句子賦予較高正確概率值的語言模型較好,當(dāng)語言模型訓(xùn)練完之后,訓(xùn)練好的語言模型在測試集上的正確概率越高越好。語言模型困惑度的評判標準是,困惑度越小,句子正確的概率越大,語言模型就越好。由表3所示實驗結(jié)果可知,本文方法可以降低困惑度,提高偽平行數(shù)據(jù)的語義流暢性。

4.3.2 句子打分

為了評測生成的偽數(shù)據(jù)的語法語義的準確性,利用語言模型來對生成的漢越偽數(shù)據(jù)進行句子打分,以此對偽平行數(shù)據(jù)的質(zhì)量進行評估。對語言模型打分實質(zhì)上是評估這個句子出現(xiàn)的概率,數(shù)據(jù)較少的情況下分數(shù)一般都很小。分數(shù)是對句子概率取對數(shù)后的結(jié)果,因此分值一般為負數(shù),分數(shù)越高這個句子出現(xiàn)的可能性越高,即語法語義正確的可能性更高。通過設(shè)置一個閾值,能夠有效地將語法語義有誤的句子篩選出來,因此本實驗依然使用語言模型的得分評價生成的漢越偽平行語料在語法語義上的正確性。

首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對漢語和越南語的單語語料中的句子進行打分,以原始語料中句子的語法語義為基準;然后分別計算出漢語單語語料和越南語單語語料中句子的平均分,并將其作為基準分數(shù);最后同樣使用語言模型對生成的漢越偽平行句子分別進行打分,這里使用的測試集包含1 000句語句,計算出其平均分,與基準分數(shù)進行比較,表4所示為生成的越南語句子的評價結(jié)果,表5所示為反向樞軸生成的漢語句子的評價結(jié)果。

Table 4 Scoring results of generated Vietnamese sentence

Table 5 Scoring results of generated Chinese sentence

由打分結(jié)果可以看出,生成的漢越偽平行句對的分數(shù)都略低于漢語和越南語測試集的基準分數(shù),而融入整合后雙語詞典的樞軸方法生成的越南語數(shù)據(jù)和融入整合雙語詞典的正反向樞軸方法生成的漢語數(shù)據(jù)的句子打分結(jié)果最接近基準分數(shù),因此我們認為在樞軸方法基礎(chǔ)上將詞替換和回譯進行結(jié)合的方式,使生成的漢越偽平行句對語法語義正確的可能性較高。

4.3.3 翻譯對比分析

通過例舉本文方法生成偽平行數(shù)據(jù)的典型句子樣例,對同一漢語句子所生成的偽平行數(shù)據(jù)進行對比,可以直觀地觀察效果,對比樣例如表6所示。

Table 6 Example comparison of generating pseudo-parallel data

5 結(jié)束語

在漢越神經(jīng)機器翻譯任務(wù)上,針對資源稀缺型語言的訓(xùn)練數(shù)據(jù)稀缺問題,將3種生成偽平行數(shù)據(jù)的方法進行融合,提出了一種融入雙語詞典的正反向樞軸方法,以此生成漢越偽平行數(shù)據(jù),經(jīng)過語言模型篩選后與原始數(shù)據(jù)混合訓(xùn)練模型。實驗結(jié)果表明,這種方法與單一的生成方法相比,可以在資源稀缺型神經(jīng)機器翻譯中更好地緩解數(shù)據(jù)稀疏問題。接下來我們將繼續(xù)針對低資源神經(jīng)機器翻譯數(shù)據(jù)稀疏問題,對樞軸方法進行模型層面的融合研究。

猜你喜歡
樞軸語料詞典
WK-35 電鏟中央樞軸液氮冷裝工藝研究
面向神經(jīng)機器翻譯的樞軸方法研究綜述
探討參數(shù)區(qū)間估計中樞軸量的選取——以單個正態(tài)總體均值為例
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標準探索
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
抽水蓄能電站球閥樞軸軸套故障分析及改造
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
耒阳市| 吴川市| 香格里拉县| 南涧| 普兰县| 澄江县| 徐闻县| 台南市| 翁牛特旗| 尉犁县| 宜兴市| 北海市| 木里| 嘉善县| 新化县| 洛扎县| 通海县| 吴旗县| 洪江市| 仁寿县| 大竹县| 濮阳县| 绍兴市| 津南区| 体育| 扶沟县| 大埔区| 大冶市| 开鲁县| 崇州市| 峡江县| 根河市| 聂荣县| 高密市| 前郭尔| 丹阳市| 固原市| 温宿县| 吕梁市| 泉州市| 平舆县|