国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞典注入的藏漢機器翻譯模型預(yù)訓(xùn)練方法

2023-10-25 02:22:00桑杰端珠才讓加
中文信息學(xué)報 2023年8期
關(guān)鍵詞:藏漢解碼器編碼器

桑杰端珠,才讓加

(1. 青海師范大學(xué) 計算機學(xué)院,青海 西寧 810000;2. 青海師范大學(xué) 藏語智能信息處理及應(yīng)用國家重點實驗室,青海 西寧 810000)

0 介紹

目前神經(jīng)機器翻譯(Neural Machine Translation,NMT)[1-3]已經(jīng)成為最主流機器翻譯方法,在性能上全方位超越傳統(tǒng)短語統(tǒng)計翻譯模型(Statistical Machine Translation,SMT)[4],并成為工業(yè)界機器翻譯服務(wù)系統(tǒng)的標(biāo)準(zhǔn)實現(xiàn)方法[5],甚至研究者聲稱在特定領(lǐng)域和語言對上NMT的性能可以接近甚至超越人類的翻譯水平[6]。與SMT不同的是,NMT以端到端風(fēng)格的建模方式將翻譯決策過程視為單個條件概率模型的參數(shù)估計過程,從而摒棄了SMT不同組件獨立優(yōu)化各自訓(xùn)練目標(biāo)的建模范式。但是目前NMT卓越的性能表現(xiàn)是以具備大規(guī)模、高質(zhì)量和多領(lǐng)域?qū)R數(shù)據(jù)為重要前提的,受制于市場規(guī)模較小、數(shù)據(jù)標(biāo)注成本高昂等客觀因素,現(xiàn)階段藏漢機器翻譯的質(zhì)量距離漢英等主流語言存在巨大的差距。

在對齊數(shù)據(jù)受限的條件下,對于多數(shù)語言,單語數(shù)據(jù)的來源相對較為廣泛且容易收集,研究者自然地探索了各類在NMT框架內(nèi)有效利用目標(biāo)端和源端單語數(shù)據(jù)的方法。其中最簡單和直接的是回譯方法[7],該方法利用監(jiān)督式方法訓(xùn)練一個初始的反向模型,將目標(biāo)端的單語數(shù)據(jù)進行翻譯,用于擴充訓(xùn)練正向模型的數(shù)據(jù)?;刈g方法不僅能改善低資源場景下的翻譯性能,同時在富資源場景中也能緩解領(lǐng)域適應(yīng)等問題[8]?;刈g方法要求初始回譯模型本身有較高的性能,但是在現(xiàn)實中很多低資源語言的對齊數(shù)據(jù)無法保證初始回譯模型的性能。

近年來,受到計算機視覺研究的啟發(fā)[9],在未標(biāo)注的海量文本數(shù)據(jù)、高階的分布式優(yōu)化方案、強大的序列學(xué)習(xí)模型和高性能計算加速設(shè)備的共同加持下自監(jiān)督式預(yù)訓(xùn)練(Self-supervised Pretraining)模型[10-12]激起了自然語言處理(Natural Language Processing, NLP)領(lǐng)域內(nèi)的研究熱潮。預(yù)訓(xùn)練模型使研究者可以不用從頭訓(xùn)練昂貴和復(fù)雜的大規(guī)模模型,直接使用現(xiàn)有預(yù)訓(xùn)練模型在下游目標(biāo)任務(wù)上結(jié)合任務(wù)自身特點進行微調(diào),就往往可以獲得比監(jiān)督式訓(xùn)練更好的性能表現(xiàn)。在諸多的預(yù)訓(xùn)練模型中,具有代表性的包括掩碼語言模型(Masked Language Model, MLM) BERT[10]、自回歸語言模型(Autoregressive Language Model, ALM) GPT[13]、置換語言模型(Permuted Language Model, PLM)XLNet[14]、降噪自編碼器模型(Denoising Auto Encoder,DAE)BART[15]等。其中BERT和XLNet語言模型是Transformer[3]的編碼器,能對語言序列進行雙向的表示學(xué)習(xí),主要用于序列的語義理解。GPT 使用了Transformer的解碼器,結(jié)合已生成的解碼片段和當(dāng)前時刻的輸入,以自回歸的方式逐詞生成目標(biāo)序列,而BART模型可以視為結(jié)合BERT和GPT泛化的預(yù)訓(xùn)練模型,與BERT和GPT不同的是,BART模型采用序列到序列的建模方式,使用單個Transformer模型對編碼器端完成各類加噪操作的輸入序列在解碼器端完成重構(gòu),通過降噪自編碼為優(yōu)化目標(biāo),完成整個解碼器和編碼器的聯(lián)合預(yù)訓(xùn)練,然后在下游的目標(biāo)任務(wù)上通過標(biāo)注數(shù)據(jù)進行微調(diào),非常適合于機器翻譯和知識問答等采用編碼器-解碼器構(gòu)架的建模任務(wù)。BART是針對單一語言(英語)的預(yù)訓(xùn)練,而隨后提出的mBART[16]則是將BART的建模方式擴展到多語言場景下,完成多語言模型的預(yù)訓(xùn)練。同樣是采用BART訓(xùn)練目標(biāo)的M2M-100[17]更是進一步擴大了所覆蓋的語言種類,支持100個語言之間的多對多翻譯。對于藏文這種低資源語言而言,多語言預(yù)訓(xùn)練是一個非常具有吸引力的設(shè)想,因為除了支持多語言翻譯外,M2M-100級別的大規(guī)模預(yù)訓(xùn)練模型本身能夠有效支持通用語義知識的遷移。但是mBART和M2M-100的訓(xùn)練都沒有包含藏文。本文旨在探索訓(xùn)練BART風(fēng)格的藏漢翻譯預(yù)訓(xùn)練模型的有效方法,為后續(xù)的藏語多語言翻譯課題提供研究基礎(chǔ)。

BART在預(yù)訓(xùn)練過程中主要學(xué)習(xí)當(dāng)前輸入語言的表示和分布,缺乏雙語對齊監(jiān)督信號的直接參與,沒有顯式地學(xué)習(xí)語言對之間的映射關(guān)系。這種預(yù)訓(xùn)練方式不利于平行資源匱乏的藏漢語言對的預(yù)訓(xùn)練效果??紤]到雙語詞典是重要的先驗知識來源,人類語言學(xué)習(xí)者在學(xué)習(xí)一門新語言時,往往會借助雙語詞典探索所要學(xué)習(xí)的語言,通過詞典建立新語言和其他已掌握的語言之間的關(guān)聯(lián)。人類翻譯人員也會使用雙語詞典推敲用詞、查詢專業(yè)詞匯,以改善翻譯工作的質(zhì)量。此外,受到跨語言交流過程中使用混合語言往往能夠增加溝通效率[18]這一現(xiàn)象的啟發(fā),本文提出了一種基于雙語詞典注入的藏漢預(yù)訓(xùn)練翻譯模型的訓(xùn)練方法,即基于詞典注入的藏漢機器翻譯預(yù)訓(xùn)練模型(Pretrained Translation Model with Dictionary Injection, PTMDI)。通過構(gòu)建較大規(guī)模的雙語詞典,然后利用詞典對大規(guī)模的藏漢單語數(shù)據(jù)進行跨語言數(shù)據(jù)注入,以降噪自編碼為訓(xùn)練目標(biāo)完成藏漢機器翻譯模型的預(yù)訓(xùn)練。詞典的數(shù)據(jù)注入如表1所示。

表1 詞典的數(shù)據(jù)注入樣例

圖1 BART的加噪方法示意圖

在規(guī)模分別為6.9M和5.2M句子規(guī)模的藏漢單語數(shù)據(jù)、500K句對的藏漢平行數(shù)據(jù)和314K詞條雙語詞典的數(shù)據(jù)設(shè)定下,本文中的PTMDI模型在藏漢和漢藏翻譯方向的測試集上的BLEU值比BART這一強基準(zhǔn)模型分別高出2.3和2.1,充分證實了本文所提出的預(yù)訓(xùn)練方法在藏漢機器翻譯任務(wù)上的有效性。

綜上,本文的貢獻為:

(1) 考慮到雙語詞典能在預(yù)訓(xùn)練過程中提供有效的監(jiān)督信號,同時受跨語言交流中使用混合的多語言詞匯能提高溝通效率這一現(xiàn)象啟發(fā),提出一種利用藏漢雙語詞典和藏漢單語數(shù)據(jù)進行詞典注入的機器翻譯預(yù)訓(xùn)練方法,即PTMDI;

(2) 在通過與包括監(jiān)督式Transformer、回譯、BART的性能對比實驗,證實本文提出的PTMDI方法在測試數(shù)據(jù)集上比各類基準(zhǔn)模型均有大幅性能提升;

(3) 由于使用了藏漢雙語詞典,本文提出的PTMDI模型適用于翻譯模型的領(lǐng)域適應(yīng)問題,能夠借助領(lǐng)域詞典和單語數(shù)據(jù)學(xué)習(xí)平行數(shù)據(jù)中缺乏的翻譯知識。

1 相關(guān)工作

近年來,隨著人工智能領(lǐng)域技術(shù)的迅猛發(fā)展和日益密切的跨語言交流需求,藏漢機器翻譯技術(shù)取得了長足發(fā)展。和其他低資源機器翻譯研究課題一樣,藏漢機器翻譯的研究集中在致力于在平行數(shù)據(jù)資源受限的條件下探索提高機器翻譯性能的方法。其中包括優(yōu)化藏漢翻譯模型的詞表大小和分布[20-21],利用大規(guī)模單語數(shù)據(jù)進行迭代式回譯[22]、遷移學(xué)習(xí)[23]、融合藏文多層次先驗特征[24]、融合目標(biāo)端語言模型的方法[25]等。此外,還有一些與藏文預(yù)訓(xùn)練語言模型相關(guān)的研究工作,比如中國少數(shù)民族預(yù)訓(xùn)練語言模型CINO[26]。該模型使用了XLM-R[27]風(fēng)格的預(yù)訓(xùn)練方法,是至迄今為止規(guī)模最大的支持藏文的公開跨語言預(yù)訓(xùn)練語言模型。CINO雖然只在文本分類任務(wù)上進行了測試和驗證,由于該模型可以進行跨語言的表示,所以可以用于初始化藏漢機器翻譯的解碼器、編碼器或者整個模型的參數(shù)。

2 方法

2.1 NMT

給定源端句子x={x1,…,xN}和目標(biāo)端句子y={y1,…,yM},NMT將句子級別的翻譯概率建模問題轉(zhuǎn)換為詞級別的條件概率的積,如式(1)所示。

(1)

其中,θ為模型所要估計的參數(shù),y

2.2 機器翻譯預(yù)訓(xùn)練模型

類BERT掩碼語言模型能夠?qū)π蛄械碾p向上下文表示進行建模,但是其訓(xùn)練是按照分類任務(wù)進行的,即將編碼器的輸出輸入到Softmax層預(yù)測被掩碼的詞在整個詞表上的概率分布。類GPT自回歸模型和傳統(tǒng)的語言模型的訓(xùn)練方式一致,即通過當(dāng)前已生成序列的信息預(yù)測下一個詞。BART將類似BERT具有雙向表示能力的構(gòu)架作為編碼器學(xué)習(xí)加噪序列的表示,而將類似于GPT的自回歸構(gòu)架運用于解碼器,用于逐詞生成原始未加噪的序列。其訓(xùn)練的優(yōu)化目標(biāo)為在整個訓(xùn)練集D上加噪序列片段與原始序列片段的似然概率,即:

(2)

其中,N(x)表示加噪函數(shù),BART在預(yù)訓(xùn)練過程中采用了多個加噪方法,包括:①詞的遮蔽; ②句子順序擾動; ③文檔轉(zhuǎn)換; ④詞刪除; ⑤序列片段替換等,這些加噪方法的示意如圖1所示。

2.3 詞典注入的藏漢機器翻譯模型預(yù)訓(xùn)練方法

PTMDI的預(yù)訓(xùn)練沿用了BART加噪并重構(gòu)的建模方法,但是與BART不同的是PTMDI中詞典注入代替了各類加噪方案。詞典的注入不僅能起到加噪的作用,同時也在客觀上要求編碼器學(xué)習(xí)跨語言的聯(lián)合表示。本文在完成詞典注入的單語數(shù)據(jù)上進行預(yù)訓(xùn)練之后,在規(guī)模為500K的平行數(shù)據(jù)上進行微調(diào)。具體的預(yù)訓(xùn)練和微調(diào)的示意圖如圖2和圖3所示??紤]到收集的雙語詞典的詞條大部分為名詞,在進行詞典注入時優(yōu)先替換單語數(shù)據(jù)中的名詞,同時保證被替換的詞的數(shù)量不超過整個句子詞長度的15%。

圖2 預(yù)訓(xùn)練過程

圖3 微調(diào)過程

因為編碼器需要學(xué)習(xí)藏漢兩種語言的表示,需要模型有更大的學(xué)習(xí)容量,所以本文中使用了解碼器更深的網(wǎng)絡(luò)構(gòu)架。此外,編碼器的表示和理解性能相對而言比解碼器的自回歸生成和掩碼自編碼性能,對翻譯最終表現(xiàn)有更加重要的影響[28],因而在多語言機器翻譯任務(wù)中研究者有使用較深的編碼器、較淺的解碼器的應(yīng)用實踐[29],在翻譯性能不退化的前提下,提高翻譯速度。

PTMDI訓(xùn)練方法能通過注入詞典的方式進行翻譯模型的預(yù)訓(xùn)練,因為詞典的對齊特性使得模型在預(yù)訓(xùn)練階段就開始進行跨語言的信息交互,學(xué)習(xí)跨語言信息的關(guān)聯(lián)。此外,這種詞典注入方式使得離散的詞典特征能夠很好地整合到端到端序列學(xué)習(xí)的連續(xù)過程中,是一種在機器翻譯模型中有效融合先驗知識的方法。考慮到相較于特定領(lǐng)域內(nèi)的對齊數(shù)據(jù),領(lǐng)域詞典和領(lǐng)域單語數(shù)據(jù)比較容易獲取和收集,所以PTMDI也是一種能以較為低廉的代價進行機器翻譯領(lǐng)域適應(yīng)的方法,尤其是適用于藏漢語言對這樣的低資源機器翻譯任務(wù)。

3 實驗

3.1 數(shù)據(jù)設(shè)定

3.1.1 詞典

為使藏漢雙語詞典涵蓋較為廣泛的領(lǐng)域,尤其是學(xué)習(xí)到受限的藏漢對齊文本之外的翻譯知識,本文使用藏漢、漢藏、藏英、英藏四個方向的雙語詞典資源和利用統(tǒng)計詞對齊工具FastAlign[30]在藏漢平行數(shù)據(jù)中獲取的藏漢對齊詞表。其中所有詞典數(shù)據(jù)中只提取有單個釋義的詞條。另外,對于藏英、英藏詞典,先將英文通過Google在線翻譯系統(tǒng)翻譯為漢文,然后再進行篩選處理;對于統(tǒng)計對齊詞表設(shè)定篩選的詞,對齊概率閾值為0.3;若有多個超過該閾值的對齊詞表項,則隨機選擇。詞典詞源的統(tǒng)計信息見表2,藏漢和漢藏詞典的領(lǐng)域包括日常用詞、法律、生物、化學(xué)、醫(yī)療、數(shù)學(xué)、計算機等,藏英和英藏詞典則主要是日常用詞。對如表2所示的總計384 654個篩選的詞條進行正則化和去重處理之后,最終獲得 314 500 個獨立詞條。

表2 詞典資源統(tǒng)計表

3.1.2 雙語數(shù)據(jù)

與英文等具有顯式的詞分隔符不同,如藏文和漢文如果直接使用純粹基于頻率統(tǒng)計的子詞分詞方法,將可能會生成大量在語言學(xué)上無實際意義的子詞結(jié)構(gòu),這一現(xiàn)象對藏文這種拼音文字尤其明顯。在低資源的機器翻譯任務(wù)設(shè)定中,這些冗余的子詞使得機器翻譯模型需要學(xué)習(xí)額外的構(gòu)詞規(guī)律,在客觀上加大了模型的學(xué)習(xí)負(fù)擔(dān)。除了低資源機器翻譯任務(wù)之外,涉及漢文、日文、朝鮮文等語言的富資源機器翻譯任務(wù)中一般也采用先分詞再學(xué)習(xí)子詞的數(shù)據(jù)預(yù)處理流程[31]。本文中數(shù)據(jù)的預(yù)處理也是采用了這種策略,漢文分詞使用了jieba(1)https://github.com/fxsjy/jieba分詞工具進行分詞,藏文分詞采用了文獻[32]提出的藏文分詞方法。對文本進行分詞處理之后使用Sentence-Piece(2)https://github.com/google/sentencepiece[33]進行子詞學(xué)習(xí)。為了過濾平行數(shù)據(jù)中的噪聲樣本,本文通過fasttext(3)https://github.com/facebookresearch/fastText[34]中的語言標(biāo)識模型去除藏文句子中的漢文和漢文句子中的藏文,同時也刪除了數(shù)據(jù)樣本中的非Unicode字符。本文限制了對齊句對的最大長度為120個詞,同時剔除了藏漢詞長度比大于4的句對。通過去重方法保證訓(xùn)練集、驗證集和測試集沒有交集。最終的藏漢平行數(shù)據(jù)規(guī)模如表3所示。

表3 平行數(shù)據(jù)和單語數(shù)據(jù)規(guī)模

3.1.3 單語數(shù)據(jù)

由于用于微調(diào)的平行數(shù)據(jù)主要是新聞領(lǐng)域的,為了更加有效的模型訓(xùn)練,本文在收集藏語和漢語的單語數(shù)據(jù)時也使用了新聞領(lǐng)域的數(shù)據(jù)。單語數(shù)據(jù)的主要來源是各類藏文新聞網(wǎng)站和這些網(wǎng)站對應(yīng)漢文網(wǎng)站的對應(yīng)欄目,以完成數(shù)據(jù)更好的領(lǐng)域適配。單語數(shù)據(jù)的預(yù)處理方式和平行數(shù)據(jù)的預(yù)處理方式是一致的,也是先分詞,再學(xué)習(xí)子詞。在進行正則去噪、去重等預(yù)處理之后,最終保留的藏文和漢文單語數(shù)據(jù)的規(guī)模分別為6.9M和5.2M。

3.2 模型設(shè)定

本文中所有模型的訓(xùn)練和測試都是基于Fairseq(4)https://github.com/pytorch/fairseq/[35]框架實現(xiàn)的,使用了4張Nvidia Quadro P1000 GPU?;鶞?zhǔn)模型中純監(jiān)督式模型和回譯模型使用了6層的Transformer編碼器和解碼器;藏文和漢文的詞表大小分別為8K和9K。PTMDI 模型使用了10層的Transformer編碼器和6層的Transformer解碼器,編碼器共享了藏語和漢語的詞表,解碼器使用了獨立的對應(yīng)目標(biāo)語言的詞表。所有模型解碼器和編碼器的嵌入維度為512,編碼器和解碼器的前饋網(wǎng)絡(luò)的維度為2 048,使用了Adam優(yōu)化器進行參數(shù)優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減函數(shù)選用了平方根倒數(shù),批處理大小為4 096個詞,所有的模型都訓(xùn)練了60輪次。

3.3 實驗結(jié)果

表4列出了純監(jiān)督式Transformer模型、回譯模型、BART和PTMDI模型在測試集上的最終BLUE的測定值。從表中可以看出,本文中的PTMDI模型比BART這一強基準(zhǔn)模型在藏漢和漢藏翻譯任務(wù)上BLEU值分別高出2.3和2.1,用實證方法證實了PTMDI在藏漢機器翻譯任務(wù)上的有效性。此外從圖4中模型在驗證集上的BLEU變化和圖5中訓(xùn)練過程中的損失變化,可以得知PTMDI模型有更好的收斂特性,證實了模型在預(yù)訓(xùn)練階段就通過詞典學(xué)習(xí)雙語映射關(guān)系確實能夠幫助提高微調(diào)過程中模型的學(xué)習(xí)能力。

圖5 各個模型的訓(xùn)練損失變化

表4 各個模型在測試集上 BLEU 值

從表5可以看出,在測試集樣例中的專業(yè)詞匯“食用菌”和“羊肚菌”在PTMDI模型中被較為準(zhǔn)確地譯出,且譯文更加流暢。

表5 測試集中的譯文樣例

除了驗證模型在雙語數(shù)據(jù)的領(lǐng)域有良好性能之外,本文還對其他跨領(lǐng)域場景下的性能進行了測試,如表6所示的是測試所有模型在計算機科學(xué)領(lǐng)域表現(xiàn)的一個樣例,從該譯文樣例中可以發(fā)現(xiàn)比如匯編、編譯器等雙語平行數(shù)據(jù)中不存在的詞條也被準(zhǔn)確翻譯出來。說明PTMDI確實在預(yù)訓(xùn)練過程中挖掘了先驗的雙語詞典內(nèi)的翻譯知識。

表6 跨領(lǐng)域的譯文樣例

4 總結(jié)

本文受到雙語交流中混和語言能有效增進交流這一現(xiàn)象啟發(fā),利用多個領(lǐng)域的藏漢雙語詞典和百萬句子級別的藏漢單語數(shù)據(jù),以BART風(fēng)格降噪自編碼為訓(xùn)練目標(biāo),通過在單語數(shù)據(jù)中有效注入詞典,進行藏漢跨語言模型的預(yù)訓(xùn)練,并在已有藏漢平行數(shù)據(jù)上進行微調(diào)。經(jīng)過廣泛的實驗驗證,本文中的方法比BART強基準(zhǔn)模型在測試集上的BLUE值在藏漢和漢藏方向上分別提高2.3和2.1。結(jié)合利用更大規(guī)模的單語數(shù)據(jù),更加準(zhǔn)確有效的詞典注入方式,混合BART和詞典注入的訓(xùn)練方法,應(yīng)該可以更進一步提高藏漢翻譯的性能,我們將在未來的工作中繼續(xù)進行研究和探索。此外,本文方法能為后續(xù)一到多、多到一、多到多等藏文多語言翻譯課題提供可靠的研究基礎(chǔ)。

猜你喜歡
藏漢解碼器編碼器
日常交際用語之藏漢對比分析
客聯(lián)(2022年4期)2022-07-06 05:46:23
藏漢孩子是一家
黃河之聲(2022年4期)2022-06-21 06:54:52
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
基于Android 平臺的藏漢雙語學(xué)習(xí)軟件的研究與實現(xiàn)
西藏科技(2015年12期)2015-09-26 12:13:51
龙泉市| 阿瓦提县| 东城区| 泽库县| 沅江市| 黄骅市| 西林县| 灌南县| 府谷县| 屏南县| 阿拉尔市| 舒兰市| 恩施市| 凌云县| 通海县| 城口县| 盐边县| 雷山县| 广东省| 聊城市| 邵阳县| 胶州市| 淳安县| 土默特左旗| 定南县| 成安县| 监利县| 康平县| 屯昌县| 临西县| 昌乐县| 石柱| 鲁山县| 黄大仙区| 波密县| 白城市| 新干县| 临湘市| 阳信县| 尤溪县| 朝阳县|