国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

譯文語序的領(lǐng)域性思考:一種融合主題信息的領(lǐng)域自適應(yīng)調(diào)序模型

2017-11-27 09:05:37劉夢眙姚建民
中文信息學(xué)報 2017年5期
關(guān)鍵詞:語料短語領(lǐng)域

劉夢眙,姚 亮,洪 宇,劉 昊,姚建民

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

譯文語序的領(lǐng)域性思考:一種融合主題信息的領(lǐng)域自適應(yīng)調(diào)序模型

劉夢眙,姚 亮,洪 宇,劉 昊,姚建民

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

領(lǐng)域自適應(yīng)研究的目標(biāo)是建立一種動態(tài)調(diào)整翻譯模型,使翻譯模型對目標(biāo)領(lǐng)域的語言特征具備較強(qiáng)的學(xué)習(xí)和處理能力,借以保證翻譯系統(tǒng)在不同領(lǐng)域獲得平衡可靠的翻譯能力?,F(xiàn)有翻譯模型的自適應(yīng)研究已經(jīng)取得顯著進(jìn)展,但調(diào)序過程的領(lǐng)域適應(yīng)性研究相對較少。在該文前期工作中通過對大規(guī)模源語言和目標(biāo)語言的真實互譯樣本統(tǒng)計發(fā)現(xiàn),在語義等價的短語級互譯對子中,36.17%的樣本在不同領(lǐng)域中的語序存在顯著差異。針對這一問題,該文從主題角度出發(fā),探索不同主題分布下的短語調(diào)序差異,提出一種融合主題信息的領(lǐng)域自適應(yīng)調(diào)序模型。實驗結(jié)果顯示,嵌入調(diào)序適應(yīng)性模型的翻譯系統(tǒng)取得了較為明顯的性能優(yōu)勢。

統(tǒng)計機(jī)器翻譯;領(lǐng)域適應(yīng)性;調(diào)序模型;主題模型

1 引言

通常認(rèn)為,統(tǒng)計機(jī)器翻譯(statistical machine translation,SMT)系統(tǒng)的性能很大程度上依賴于語料的規(guī)模和質(zhì)量[1]。一般地,訓(xùn)練語料的規(guī)模越大、質(zhì)量越好,則有效的翻譯知識越多,涵蓋的語言現(xiàn)象越充分,因而更有助于提升翻譯系統(tǒng)中統(tǒng)計模型(翻譯模型、語言模型、調(diào)序模型)的訓(xùn)練效果。

然而,當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)所屬領(lǐng)域不一致時,機(jī)器翻譯系統(tǒng)的性能往往偏低。造成這一問題的核心原因是,語言現(xiàn)象在特定領(lǐng)域中具有一定的獨立性,換言之,語義的收斂性和語用的多樣性促成了不同領(lǐng)域文字表述的本質(zhì)的差異,文法、修辭、術(shù)語、語序和慣用規(guī)則,都在特定領(lǐng)域有著明顯的獨立性,而在不同領(lǐng)域間有著可見的差異,這對雙語之間的互譯造成了一定影響。本文研究的主要對象,即為語序的領(lǐng)域特性,尤其是如何識別、模擬和應(yīng)用這一特性,改進(jìn)現(xiàn)有的機(jī)器翻譯模型。

本文側(cè)重研究利用主題信息提升調(diào)序模型領(lǐng)域適應(yīng)性的可行性及方法學(xué)。這一探索源于如下經(jīng)驗性的發(fā)現(xiàn): 主題的分布往往能夠表現(xiàn)領(lǐng)域的特性,比如,法律領(lǐng)域的主題往往集中于“審判”“拘捕”和“罪行”等,自然科學(xué)領(lǐng)域則集中于“發(fā)現(xiàn)”“方法學(xué)”和“實驗”等。而語言的組織(如語用形式、語序關(guān)系和語義表示形式等)往往與主題有著更為直接的聯(lián)系。因此,我們提出一種基本的直推式假設(shè): 領(lǐng)域→主題→語言組織→語序。通過這一間接推理,語序作為語言組織的重要組成部分,可通過與主題的關(guān)聯(lián)程度和形式,決定其與特定領(lǐng)域的關(guān)系。這一點將成為支持本文方法學(xué)的核心,即利用主題信息調(diào)整翻譯過程中的語序結(jié)果,以適應(yīng)特定領(lǐng)域的文字特點。為了便于理解上述例子,下面給出了一對源語言(中文)和目標(biāo)語言(英文)的語序樣例,及其關(guān)聯(lián)的主題和領(lǐng)域:

源語言: 保安 司 可 隨時 指示 將 一個 根據(jù) 羈留 令 被 羈留 的 人 釋放。

目標(biāo)語言: the secretary for security may at any time direct that a person detained under a detention warrant be released.

[例1]

源語言: 可以 隨時 根據(jù) 偏好 重新 排列 搜索 規(guī)則。

目標(biāo)語言: you can reorder the search rules according to the preference at any time.

[例2]

上述是“at any time”在法律和科技領(lǐng)域下調(diào)序的一個實例。例1來源于法律條文,從例句中可以看出,“at any time”相對于前一個短語“may”,在源語言端對應(yīng)的短語相對位置保持不變。此時短語“at any time”的調(diào)序類型是單調(diào)調(diào)序(M)。例2來源于科技文獻(xiàn),從例句中可以看出,“at any time”相對于前一個短語“preference”,在源語言端對應(yīng)的短語相對位置進(jìn)行了交換且間隔開了。此時短語“at any time”的調(diào)序類型是不連續(xù)調(diào)序(D)。基于此調(diào)序現(xiàn)象,本文利用法律和科技領(lǐng)域較大規(guī)模的平行文本進(jìn)行統(tǒng)計分析,結(jié)果發(fā)現(xiàn),“隨時 at any time”在法律領(lǐng)域下單調(diào)調(diào)序(M)的概率為62%,而在科技領(lǐng)域下不連續(xù)調(diào)序(D)的概率為97%。從統(tǒng)計中可以發(fā)現(xiàn),該短語對在法律領(lǐng)域下更傾向于單調(diào)調(diào)序,而在科技領(lǐng)域下更傾向于不連續(xù)調(diào)序。

從上述分析可以看出,短語調(diào)序受領(lǐng)域影響,在不同領(lǐng)域下短語調(diào)序的傾向不同。龐弘燊等[2]指出: 通過對某一領(lǐng)域文獻(xiàn)的主題進(jìn)行分析,是了解和評價學(xué)科領(lǐng)域發(fā)展的歷史、現(xiàn)狀和趨勢的一種有效途徑。可以看出,主題能夠表現(xiàn)領(lǐng)域特性,上述法律領(lǐng)域的主題多集中于“失職”“釋放”“審判”等;科技領(lǐng)域的主題多集中于“軟件”“服務(wù)器”“計算機(jī)”等。因而本文猜測具有與特定領(lǐng)域?qū)?yīng)性的主題分布,能夠間接反映該領(lǐng)域中調(diào)序的特點,這就構(gòu)成了本文通過捕捉主題信息,將其引入調(diào)序模型,讓調(diào)序具備領(lǐng)域特點的基本動機(jī)。

基于上述現(xiàn)象,本文提出一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法。其核心思想如下: 首先,利用主題模型估計不同領(lǐng)域下雙語文檔的主題分布;其次,利用極大似然估計的方法,獲取不同主題下短語對的調(diào)序分布。最終在解碼時,該方法借助待測文本的主題信息對短語對的調(diào)序概率進(jìn)行加權(quán),從而優(yōu)化短語對的調(diào)序分布,以提升特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能?;贜IST標(biāo)準(zhǔn)測試集的實驗表明,本文所提優(yōu)化調(diào)序模型的方法改進(jìn)了機(jī)器翻譯系統(tǒng)的性能,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.76%。

本文章節(jié)組織如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹傳統(tǒng)調(diào)序模型;第四節(jié)描述融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法;第五節(jié)給出實驗結(jié)果和分析;第六節(jié)總結(jié)工作并提出展望。

2 相關(guān)工作

調(diào)序問題是統(tǒng)計機(jī)器翻譯中的重要問題,常見的詞匯化調(diào)序模型主要出現(xiàn)在短語模型中,包括基于詞、基于短語、基于層次化短語的調(diào)序。近年來在調(diào)序模型上的探索不乏一些值得借鑒的工作: 馮洋等[3]認(rèn)為正確地對介詞短語進(jìn)行調(diào)序?qū)μ岣叻g質(zhì)量至關(guān)重要,在層次短語模型基礎(chǔ)上,利用條件隨機(jī)場模型識別出介詞短語,然后抽取帶有介詞短語的規(guī)則,構(gòu)建新的同步上下文無關(guān)文法;何鐘豪等[4]針對最大熵調(diào)序模型中短語調(diào)序?qū)嵗龢颖痉植疾黄胶獾膯栴},引入集成學(xué)習(xí)多分類器融合的模型訓(xùn)練方法,發(fā)現(xiàn)通過性能加權(quán)投票融合的無放回欠采樣的方法,相比于基線系統(tǒng)提升最為顯著;肖欣延等[5]提出面向?qū)哟味陶Z模型的詞匯化調(diào)序方法,定義變量與鄰接詞語的調(diào)序關(guān)系,并使用變量所泛化短語片段的邊界詞信息來指導(dǎo)調(diào)序,解碼時將此調(diào)序模型作為新特征融入基準(zhǔn)系統(tǒng)中;Cao等[6]提出一種直接構(gòu)建在同步文法規(guī)則上的詞匯化的調(diào)序模型,對包含在文法規(guī)則里的每個目標(biāo)端短語,計算其在文法規(guī)則下的調(diào)序概率,在解碼時將該調(diào)序模型融入翻譯解碼器,提高了系統(tǒng)系能。

當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)所屬領(lǐng)域不一致時,機(jī)器翻譯系統(tǒng)的性能往往偏低。統(tǒng)計機(jī)器翻譯領(lǐng)域自適應(yīng)研究大致包括如下兩種思路:

(1) 領(lǐng)域相關(guān)數(shù)據(jù)選擇

平行句對選擇是翻譯模型適應(yīng)性研究中簡單而有效的實施方法。當(dāng)前,面向特定領(lǐng)域的雙語文本往往比較匱乏,從大規(guī)模通用領(lǐng)域句對中選擇與目標(biāo)領(lǐng)域相關(guān)的平行句對,可作為擴(kuò)充特定領(lǐng)域翻譯模型訓(xùn)練數(shù)據(jù)的重要來源。Yasuda等[7]利用小規(guī)模目標(biāo)領(lǐng)域雙語語料,分別在源端和目標(biāo)端訓(xùn)練語言模型,利用語言模型困惑度衡量通用領(lǐng)域平行句對和目標(biāo)領(lǐng)域的領(lǐng)域相關(guān)性,進(jìn)而選擇相關(guān)程度較高的平行句對擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),提升特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能;Axelrod等[1]改進(jìn)基于語言模型困惑度的句對選擇方法,分別計算特定領(lǐng)域和通用領(lǐng)域的語言模型困惑度,并利用其差值評價句對的領(lǐng)域相關(guān)性;Duh等[8]首次應(yīng)用深度神經(jīng)網(wǎng)絡(luò)語言模型代替?zhèn)鹘y(tǒng)的N-gram語言模型評價平行句對,進(jìn)而選擇句對擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),取得較好的性能;王星等[9]提出基于分類的平行語料選擇方法,特征采用雙語詞典翻譯質(zhì)量、翻譯模型概率、語言模型、句子長度及未對齊詞數(shù)量,利用少數(shù)句對特征差異較大的句對構(gòu)建分類器,從而對其他未分類句對進(jìn)行分類;Liu等[10]提出融合特定領(lǐng)域翻譯模型和語言模型評價雙語句對質(zhì)量,有效地解決了基于語言模型方法選取的領(lǐng)域相關(guān)句對中存在翻譯質(zhì)量較差的問題。

(2) 統(tǒng)計特征優(yōu)化。

Foster等[11]提出從短語特征層次出發(fā),對來自不同領(lǐng)域的翻譯模型進(jìn)行線性或?qū)?shù)線性融合;Matsoukas等[12]通過計算通用領(lǐng)域句對和目標(biāo)領(lǐng)域的領(lǐng)域相似程度,給句對賦予不同的權(quán)重值;曹杰等[13]提出一種基于上下文信息的翻譯概率計算模型。該模型利用上下文相關(guān)的領(lǐng)域特征,重新估計雙語短語的翻譯概率,實現(xiàn)了領(lǐng)域信息和翻譯知識的有效融合;Foster等[14]在前人的基礎(chǔ)上從短語實例粒度考慮,為領(lǐng)域相關(guān)的短語實例賦予較高的權(quán)重,并重新估計翻譯模型,提升了翻譯性能;Su等[15]借助領(lǐng)域單語語料訓(xùn)練主題模型,并通過構(gòu)建目標(biāo)領(lǐng)域和通用領(lǐng)域主題映射,重新估計通用翻譯模型的參數(shù);Hewavitharana等[16]將測試文本與訓(xùn)練文檔的主題相似度作為額外的翻譯特征,以提升口語的翻譯性能。Hasler等[17]通過改進(jìn)LDA模型,提出推理雙語主題模型的方法,并將其應(yīng)用于計算主題適應(yīng)的短語翻譯特征。Chen等[18]首次進(jìn)行了調(diào)序模型領(lǐng)域適應(yīng)性的研究,提出將線性混合模型技術(shù)運用到調(diào)序模型領(lǐng)域適應(yīng)性中,該方法為不同領(lǐng)域的子語料賦予不同的權(quán)重,以獲取適應(yīng)目標(biāo)領(lǐng)域的調(diào)序模型。此外,Chen等[18]還通過平滑領(lǐng)域內(nèi)語料和文檔頻率加權(quán)的方法提高了翻譯系統(tǒng)性能。

上述研究仍存在以下不足: 首先,依據(jù)語料來源標(biāo)簽人工劃分語料領(lǐng)域(例如,若語料標(biāo)簽為news-wire(新聞專線),則將其劃分為新聞領(lǐng)域)。但新聞?wù)Z料可能包含各種主題(體育、娛樂、政治等)的文本,因此,該方法在劃分時過于泛化,缺乏對文本內(nèi)容的分析。其次,該方法并不適用于測試文本來源未知的情況,即無法根據(jù)測試文本的變化動態(tài)優(yōu)化調(diào)序模型。

針對上述問題,Wang等[19]在判別相鄰短語的調(diào)序方向時,融入短語對所在文檔的主題信息作為特征,將該特征加入最大熵分類器中,此外,還使用邊界單詞及單詞主題作為特征。在解碼時,將該調(diào)序模型融入統(tǒng)計機(jī)器翻譯系統(tǒng)中,提升了翻譯性能;Zhang等[20]提出一種基于結(jié)構(gòu)化學(xué)習(xí)的判別式調(diào)序模型(discriminative reordering model,DRM),用以探索不同領(lǐng)域中調(diào)序特征的關(guān)聯(lián)性,以使從通用領(lǐng)域中學(xué)習(xí)的調(diào)序規(guī)律更適應(yīng)于目標(biāo)領(lǐng)域,該模型挖掘不同領(lǐng)域共有的調(diào)序特征,并將這些特征融入翻譯解碼過程中。

受上述工作鼓勵,本文嘗試強(qiáng)化調(diào)序模型的適應(yīng)性,但區(qū)別于將主題作為特征維間接干涉調(diào)序過程,本文利用主題分布概率計算調(diào)序概率,直接影響調(diào)序結(jié)果。

3 傳統(tǒng)調(diào)序模型

利用不同語言對同一語義進(jìn)行表述時,語序往往存在較大差異。就句子級的表述形式而言,句子結(jié)構(gòu)迥異。調(diào)序模型用于對譯文片段的相對位置進(jìn)行建模,以生成符合常用語言表述習(xí)慣的譯文。例如,中文“樹上有只小鳥”,對應(yīng)的英文譯文為“there is a bird in the tree”。由此可見,互譯的短語中“樹(tree)”和“小鳥(bird)”的相對位置發(fā)生了變化。調(diào)序模型旨在將目標(biāo)端譯文短語重新排序,以滿足目標(biāo)語言的表述習(xí)慣。同樣地,調(diào)序模型的訓(xùn)練也包括調(diào)序表的抽取和調(diào)序概率計算,表1所示為調(diào)序表樣例。

表1 調(diào)序表樣例

調(diào)序模型包括以下三部分: 源端短語(如上“上海 浦東 發(fā)展”)、目標(biāo)端短語(如上“and pudong development”)、短語對調(diào)序特征得分(如上“-0.51 -1.61 -1.61 -0.51 -1.65 -1.63”)。其中,調(diào)序特征常根據(jù)具體情況而定,此處特征為短語模型中常用的MSD調(diào)序特征。詞匯化調(diào)序模型由Tillmann等[21]首次提出,對任意一個短語對,這種調(diào)序模型考慮三種調(diào)序類型: 單調(diào)調(diào)序(M);交換調(diào)序(S);非連續(xù)調(diào)序(D)。

其中oi為M、S或D,概率以ai-1和ai為條件來確保方向oi與短語對齊一致,如式(2)所示。

因此,可以用以下三個特征函數(shù)對調(diào)序方向構(gòu)建模型,每個函數(shù)對應(yīng)一個調(diào)序方向。此處的短語對調(diào)序方向是相對于前一個短語對來確定的,分別對應(yīng)表1中短語對的前三個特征,如式(3)~(5)所示。

除了上述的三種特征,也可以融入另外三個相似的特征(fM-b,fS-b和fD-b,分別對應(yīng)表1中短語對的后三個特征)。這三個特征中的短語對調(diào)序方向是相對于后一個短語對來確定的,其中oi以(ai,ai+1) 為條件,而不是(ai-1,ai)。

4 融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法

本文提出一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法,該方法旨在解決測試文本領(lǐng)域未知的翻譯問題,并利用文檔主題分布動態(tài)優(yōu)化調(diào)序模型。核心思想如下: 首先,利用主題模型估計包含不同主題的雙語文檔的主題分布;其次,統(tǒng)計短語對在每篇文檔中以M、S或D為調(diào)序方向的次數(shù),利用文檔的主題分布對調(diào)序次數(shù)進(jìn)行加權(quán),從而獲取不同主題下短語對的調(diào)序分布;最終在解碼時,該方法借助待測文本的主題信息對不同主題下短語對的調(diào)序概率進(jìn)行加權(quán),從而優(yōu)化短語對的調(diào)序分布,以提升跨領(lǐng)域機(jī)器翻譯系統(tǒng)的性能。方法框架如圖1所示。

圖1 融合主題信息的調(diào)序模型自適應(yīng)方法框架

4.1 估計不同主題下短語對的調(diào)序分布

本文這一部分內(nèi)容旨在量化同一短語對在不同主題下調(diào)序的差異性。借助于Latent Dirichlet Allocation(LDA)[22]主題模型,本文從規(guī)模較大的領(lǐng)域混雜平行文檔中學(xué)習(xí)短語對的調(diào)序分布,并借助文檔主題對調(diào)序進(jìn)行優(yōu)化。

4.2 利用測試集文檔主題分布優(yōu)化調(diào)序模型

本文分別對部分調(diào)序特征及全部調(diào)序特征進(jìn)行優(yōu)化,旨在驗證本文所提方法的有效性。部分調(diào)序特征包括: 短語對相對于前一個短語的調(diào)序方向(fM-f,fS-f和fD-f)、短語對相對于后一個短語的調(diào)序方向(fM-b,fS-b和fD-b)。

5 實驗與結(jié)果分析

5.1 語料配置

為了驗證不同領(lǐng)域下的短語調(diào)序分布存在差異,本文對法律和科技語料進(jìn)行統(tǒng)計。其中法律語料來源于LDC香港平行文本法律部分(規(guī)模為: 400k句);科技語料來源于中國科學(xué)技術(shù)信息研究所英漢科技文獻(xiàn)句子級對齊語料庫(規(guī)模為: 600k句)。統(tǒng)計分析語料如表2所示。

表2 統(tǒng)計分析語料

①香港平行文本400k科技中信所英漢科技文獻(xiàn)句子級對齊語料庫600k①LDC2004T08香港平行文本法律部分。

本文實驗使用NiuTrans[25]機(jī)器翻譯引擎搭建漢英短語翻譯系統(tǒng)。翻譯模型訓(xùn)練語料是由LDC官方提供的英漢雙語平行語料,本文過濾句子數(shù)少于10或大于50的文檔(規(guī)模為: 933k句);語言模型訓(xùn)練語料取自LDC2005T12英語單語語料(規(guī)模為: 11m句);翻譯系統(tǒng)的開發(fā)集使用2002年NIST MT公開測試集(NIST02),包含878個中文句子和對應(yīng)4個英文翻譯結(jié)果;翻譯系統(tǒng)的測試集1使用NIST03,包含919個中文句子和對應(yīng)4個英文翻譯結(jié)果;翻譯系統(tǒng)的測試集2使用NIST04,包含1 788個中文句子和對應(yīng)4個英文翻譯結(jié)果。機(jī)器翻譯系統(tǒng)的語料如表3所示。

表3 機(jī)器翻譯系統(tǒng)語料

5.2 系統(tǒng)配置

本文實驗采用NiuTrans開源機(jī)器翻譯系統(tǒng),該系統(tǒng)融合GIZA++[26]工具實現(xiàn)雙語句對詞對齊,并從詞對齊的平行句對中抽取短語翻譯規(guī)則。本文采用SRILM[27]工具訓(xùn)練4-gram語言模型,并以傳統(tǒng)MSD調(diào)序模型作為基線系統(tǒng)的調(diào)序模型,翻譯系統(tǒng)模型權(quán)重采用最小錯誤率[28]訓(xùn)練方法獲得,系統(tǒng)輸出結(jié)果采用大小寫不敏感的BLEU-4[29]值進(jìn)行評價。本文設(shè)置如下五個翻譯系統(tǒng),以驗證本文所提方法的有效性:

(1) Baseline: 搭建基于短語的翻譯系統(tǒng),包含翻譯模型、語言模型、調(diào)序模型等特征。

(2) Hybrid: 實現(xiàn)文獻(xiàn)[18]提出的基于混合模型的調(diào)序模型領(lǐng)域適應(yīng)性方法,并搭建基于短語的翻譯系統(tǒng)。

(3) LDA_a: 利用主題信息優(yōu)化調(diào)序模型的全部調(diào)序特征,作為新特征融入短語翻譯系統(tǒng)。

(4) LDA_f: 利用主題信息優(yōu)化相對于前一個短語的調(diào)序特征(fM-f,fS-f和fD-f),將得到的調(diào)序模型作為新特征融入短語翻譯系統(tǒng)。

(5) LDA_b: 利用主題信息優(yōu)化相對于后一個短語的調(diào)序特征(fM-b,fS-b和fD-b),將得到的調(diào)序模型作為新特征融入短語翻譯系統(tǒng)。

為了訓(xùn)練融入主題信息的調(diào)序模型,本文選用吉布斯采樣方法推斷LDA模型的參數(shù),使用GibbsLDA++*http://sourceforge.net/projects/gibbslda/。開源工具來進(jìn)行主題的估計和推斷。本文在進(jìn)行主題估計前去除了中文停用詞(共558個),主題數(shù)目取20,超參數(shù)均設(shè)為0.05,迭代次數(shù)設(shè)為1 000。

5.3 實驗結(jié)果及分析5.3.1 統(tǒng)計現(xiàn)象

為驗證不同領(lǐng)域中短語調(diào)序分布存在差異這一猜想,本文對法律和科技領(lǐng)域的語料進(jìn)行統(tǒng)計。本文只保留在兩個領(lǐng)域下共現(xiàn)次數(shù)大于20的短語對,并分別計算兩個領(lǐng)域下的調(diào)序分布RDlaw和RDtech。 本文用KL距離來衡量同一個短語對在兩個領(lǐng)域下調(diào)序分布的差異性,KL距離計算如式(9)所示。

對符合條件的10 661個短語對根據(jù)其KL距離從大到小進(jìn)行編號排序,做出如圖2所示折線圖,為了折線圖顯示效果,編號5000以后的點不在圖中顯示。其中,橫坐標(biāo)表示短語對的編號,縱坐標(biāo)表示短語對的兩個調(diào)序分布RDlaw與RDtech之間的KL距離。

圖2 短語對的調(diào)序分布差異——KL距離折線圖

其中,編號3856的短語對為“效果 effect”,其在兩個領(lǐng)域下的調(diào)序分布如表4所示,分布的KL距離為0.157 1,三個概率值分別表示短語對以M、S或D進(jìn)行調(diào)序的概率。從表中可以看出,該短語對在法律領(lǐng)域下更傾向于單調(diào)調(diào)序(M),而在科技領(lǐng)域下更傾向于不連續(xù)調(diào)序(D)。KL距離越大,短語對在兩個領(lǐng)域下的調(diào)序分布差異越大。那么,KL距離大于0.157 1的短語對調(diào)序分布差異更加明顯,所占比重為36.17%(3 856/10 661),故至少36.17%的短語對在不同領(lǐng)域的調(diào)序存在差異。

表4 短語對“效果 effect”在兩個領(lǐng)域下的調(diào)序分布

此外,從語料中也可以發(fā)現(xiàn)短語對“效果 effect”在兩個領(lǐng)域下的不同調(diào)序現(xiàn)象,如表5所示。目標(biāo)端短語“effect”相對于其前一個短語“possible”,在源語言端對應(yīng)的短語(“可能”“效果”)相對位置保持不變,故此時的調(diào)序類型是單調(diào)調(diào)序(M);而在科技領(lǐng)域下,目標(biāo)端短語“effect”相對于其前一個短語“display”,在源語言端對應(yīng)的短語(“顯示”“效果”)相對位置發(fā)生了改變,不再保持連續(xù),故此時調(diào)序類型是不連續(xù)調(diào)序(D)。

表5 短語對“效果 effect”在不同領(lǐng)域下的調(diào)序現(xiàn)象

綜上所述,至少36.17%的短語對在不同領(lǐng)域的調(diào)序存在差異性,本文針對這部分短語對的調(diào)序分布進(jìn)行優(yōu)化,融入短語所在文檔的主題信息,以期提高翻譯系統(tǒng)的性能。

5.3.2 實驗結(jié)果與分析

本文搭建漢英機(jī)器翻譯系統(tǒng),并基于最小錯誤率訓(xùn)練方法調(diào)節(jié)特征權(quán)重,最終解碼得到翻譯結(jié)果。本文構(gòu)建的五個翻譯系統(tǒng)(Baseline、Hybrid、LDA_a、LDA_f、 LDA_b)性能如表6所示。實驗結(jié)果表明, 優(yōu)化調(diào)序模型的翻譯系統(tǒng)相比于原始的翻譯系統(tǒng)(Baseline),在測試集上性能均有提升。其中優(yōu)化

全部調(diào)序特征的翻譯系統(tǒng)(LDA_a)性能最好,相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.76%,在NIST04上提升了0.38%;而優(yōu)化部分調(diào)序特征的翻譯系統(tǒng)性能則不如優(yōu)化全部調(diào)序特征的翻譯系統(tǒng)(LDA_a),其中優(yōu)化相對于前一個短語對的調(diào)序特征的翻譯系統(tǒng)(LDA_f),相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.55%,在NIST04上提升了0.33%;優(yōu)化相對于后一個短語對的調(diào)序特征的翻譯系統(tǒng)(LDA_b),相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.38%,在NIST04上提升了0.28%。綜上所述,本文提出的利用主題信息優(yōu)化調(diào)序模型的方法是有效的。原因在于,本文方法能充分考慮不同主題下調(diào)序的差異性,并根據(jù)測試文檔的主題分布動態(tài)地進(jìn)行優(yōu)化,以獲得最佳的調(diào)序效果。同時,調(diào)序的性能會最終影響整體的翻譯效果,達(dá)到提升翻譯性能的目的。

表6 機(jī)器翻譯系統(tǒng)性能

另一方面,與Chen(2013)提出的基于混合模型方法優(yōu)化調(diào)序模型搭建的翻譯系統(tǒng)(Hybrid)相比,性能也有一定的提升。從表6可以看出,LDA_a在NIST03上比Hybrid提升了0.39%,在NIST04上提升了0.14%;而優(yōu)化部分調(diào)序特征的翻譯系統(tǒng)(LDA_f、LDA_b)在測試集上性能也有所提升。該部分實驗結(jié)果表明,人工粗略地根據(jù)語料來源和文體進(jìn)行領(lǐng)域劃分并不是最優(yōu)的,借助主題模型進(jìn)而利用主題信息進(jìn)行領(lǐng)域的區(qū)分相比于人工的方法更加的精確,且減少了人工標(biāo)注需要的工作量。 表7為一個中到英的翻譯實例,分別由本文所搭建的Baseline和LDA_a翻譯所得。

表7 一個中英翻譯實例

從表中可以看出,“海牙 法庭 醫(yī)療 小組”的翻譯,LDA_a與參考譯文基本一致,“海牙 法庭”的英文翻譯調(diào)序到“醫(yī)療 小組”的后面。從詞匯化調(diào)序模型的觀點來看,調(diào)序方向是交換調(diào)序(S)。而在Baseline中,對“海牙 法庭”進(jìn)行了順序翻譯,沒做任何調(diào)序,反而將人名“波貝特克”錯誤地調(diào)序到“醫(yī)療 小組”前面。此外,對于“確認(rèn) 波貝特克 的 病情”的翻譯,LDA_a與參考譯文都進(jìn)行了順序翻譯,從詞匯化調(diào)序模型的觀點來看,調(diào)序方向是單調(diào)調(diào)序(M)。而在Baseline中,“確認(rèn) 波貝特克 的 病情”對應(yīng)的翻譯片段及順序是“波貝特克”、“the conditions of”、“confirm”,Baseline對短語“確認(rèn)”進(jìn)行了錯誤的調(diào)序。從以上分析可以看出,利用本文所提方法搭建的翻譯系統(tǒng)對短語進(jìn)行了正確的調(diào)序,證實了本文所提方法的有效性。

6 總結(jié)與展望

本文驗證了短語調(diào)序分布在不同的領(lǐng)域下存在差異,并提出了一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法,利用文檔的主題信息優(yōu)化短語的調(diào)序分布。本文所提優(yōu)化調(diào)序模型的方法改進(jìn)了機(jī)器翻譯系統(tǒng)的性能,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.76%。這證實了在短語調(diào)序中融入文檔主題信息的有效性。最后,本文分析了融入主題信息能夠提升調(diào)序性能的原因。

[1] Axelrod A, He Xiaodong, Gao Jianfeng. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processins. Edingburg, Scotland, United Kingdom: Association for Computational Linguistics, 2011, 355-362.

[2] 龐弘燊, 方曙, 楊志剛, 等. 研究領(lǐng)域的主題發(fā)展趨勢分析方法研究: 基于多重共現(xiàn)的視角[J].情報理論與實踐, 2012, 35(8): 44-47,73.

[3] 馮洋, 張冬冬, 劉群. 層次短語翻譯模型的介詞短語調(diào)序[J]. 中文信息學(xué)報, 2012, 26(1): 31-36.

[4] 何鐘豪, 蘇勁松, 史曉東, 等. 引入集成學(xué)習(xí)的最大熵短語調(diào)序模型[J]. 中文信息學(xué)報, 2014, 28(1): 87-93.

[5] 肖欣延, 劉洋, 劉群, 等. 面向?qū)哟味陶Z翻譯的詞匯化調(diào)序方法研究[J]. 中文信息學(xué)報, 2012, 26(1): 37-41,50.

[6] Cao Hailong, Zhang Dongdong, Li Mu, et al. A lexicalized reordering model for hierarchical phrase-based translation[C]//Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: Technical Papers, 2014: 1144-1153.

[7] Yasuda K, Zhang Ruiqiang, Hirofumi Y, et al.Method of selecting training data to build a compact and efficient translation model[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing. Hyderabad, India: The Association for Computer Linguistics, 2008: 655-660.

[8] Duh K, Neubig G, Sudoh K, et al. Adaptation data selection using neural language models: experiment in machine translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 678-683.

[9] 王星, 涂兆鵬, 謝軍, 等. 一種基于分類的平行語料選擇方法[J]. 中文信息學(xué)報, 2013, 27(6): 144-150.

[10] Liu Le, Hong Yu, Liu Hao, et al. Effective selection of translation model training data[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 569-573.

[11] Foster G, Kuhn R. Mixture-model adaptation for SMT[C]//Proceedings of the 2nd Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128-135.

[12] Matsoukas S, Rosti A V I, Zhang B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708-717.

[13] 曹杰, 呂雅娟, 蘇勁松, 等. 利用上下文信息的統(tǒng)計機(jī)器翻譯領(lǐng)域自適應(yīng)[J]. 中文信息學(xué)報, 2010, 24(6): 50-56.

[14] Foster G, Goutte C, Kuhn R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Massachusetts, USA: Association for Computational Linguistics, 2010: 451-459.

[15] Su Jinsong, Wu Hua, Wang Haifeng, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 459-468.

[16] Hewavitharana S, Mehay D N, Ananthakrishnan S, et al. Incremental topic-based translation model adaptation for conversational spoken language translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 697-701.

[17] Hasler E, Blunsom P, Koehn P, et al. Dynamic Topic Adaptation for Phrase-based MT[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden: Association for Computational Linguistics, 2014: 328-337.

[18] Chen B, Foster G, Kuhn R. Adaptation of reordering models for statistical machine translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Atlanta, Georgia: Association for Computational Linguistics, 2013: 938-946.

[19] Wang X, Xiong D, Zhang Min, et al.A topic-based reordering model for statistical machine translation[M]. Berlin Heidelberg: Springer, 2014.

[20] Zhang B, Su J, Xiong D, et al. Discriminative reordering model adaptation via structural learning[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 1040-1046.

[21] Tillmann C, Zhang T. A localized prediction model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan: Association for Computational Linguistics, 2005: 557-564.

[22] Blei D M, Andrew Y Ng, Michael I J. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[23] Koehn P, Och F, Marcu D. Statistical phrase-based translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Canada: Association for Computational Linguistics, 2003: 48-54.

[24] Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177-180.

[25] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 19-24.

[26] Franz J O, Hermann N. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003, 29(Jan): 19-51.

[27] Andreas S. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing. Denver, Colorado, USA: Interspeech, 2002: 901-904.

[28] Franz J O. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan: Association for Computational Linguistics, 2003: 160-167.

[29] Kishore P, Salim R, Todd W, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania: Association for Computational Linguistics, 2002: 311-318.

劉夢眙(1993—),碩士研究生,主要研究領(lǐng)域為自然語言處理、機(jī)器翻譯。

E-mail: lmysd2015@163.com

姚亮(1993—),碩士研究生,主要研究領(lǐng)域為自然語言處理、機(jī)器翻譯。

E-mail: yaoliang310@163.com

洪宇(1978—),通信作者,副教授,研究生導(dǎo)師,主要研究領(lǐng)域為話題檢測、信息檢索和信息抽取。

E-mail: tianxianer@gmail.com

DomainAdaptationofReorderingModelviaTopicInformation:WordOrderinTranslatedTextacrossDomains

LIU Mengyi, YAO Liang, HONG Yu, LIU Hao, YAO Jianmin

(School of Computer Science amp; Technology, Soochow University, Suzhou, Jiangsu 215006, China)

The research on domain adaptation (DA) for statistical machine translation (SMT) aims at dynamically adjusting the translation model to ensure balanced and reliable translation quality in different domains. Existing researches on adaptation of translation model have made remarkable progress, but neglect the reordering issue. This paper investigates the translation samples in a large scale source bilingual corpus, revealing that 36.17% samples exhibits clear word order differences in phrase level translation pairs. Therefore, we propose a domain adaptive reordering model based on fusing topic information, to explore the reordering differences of phrases under different topic distribution. Experimental results show that translation systems with adaptive reordering model yield obvious performance improvements.

statistical machine translation; domain adaptation; reordering model; topic model

1003-0077(2017)05-0050-09

TP391

A

2016-08-16定稿日期2017-04-26

國家自然科學(xué)基金(61373097,61672368,61672367, 61331011);江蘇省科技計劃(SBK2015022101);教育部—中國移動科研基金(MCM20150602)

猜你喜歡
語料短語領(lǐng)域
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
3D 打?。合冗M(jìn)制造領(lǐng)域的必爭之地
杭州科技(2013年5期)2013-03-11 16:40:59
社旗县| 云梦县| 安西县| 湾仔区| 瑞丽市| 东莞市| 城步| 汉川市| 普兰县| 太和县| 岑巩县| 工布江达县| 普陀区| 阜宁县| 双辽市| 张北县| 义乌市| 澜沧| 香格里拉县| 克拉玛依市| 锡林郭勒盟| 白沙| 阳春市| 靖安县| 延庆县| 灵台县| 花垣县| 石城县| 巩留县| 南阳市| 斗六市| 团风县| 桐梓县| 北京市| 永泰县| 东阿县| 昭苏县| 海原县| 卓尼县| 武隆县| 方城县|