楊南,李沐
(1.中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,安徽合肥 230026;2. 微軟亞洲研究院,北京 100080)
基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)機(jī)器翻譯的預(yù)調(diào)序模型
楊南1,李沐2
(1.中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,安徽合肥 230026;2. 微軟亞洲研究院,北京 100080)
長(zhǎng)距離調(diào)序是統(tǒng)計(jì)機(jī)器翻譯的一個(gè)主要挑戰(zhàn)。之前的研究工作表明預(yù)調(diào)序是解決這個(gè)問(wèn)題的一個(gè)可能的途徑。在該工作中,我們沿著預(yù)調(diào)序這個(gè)研究方向,將神經(jīng)網(wǎng)絡(luò)建模結(jié)合到線性排序的框架之下,提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型。這個(gè)的預(yù)調(diào)序模型能夠利用從海量未標(biāo)注數(shù)據(jù)中抽取的句法和語(yǔ)意信息,從而更好的對(duì)不同語(yǔ)言之間的語(yǔ)序差異進(jìn)行預(yù)測(cè)。我們?cè)谥形牡接⑽囊约叭瘴牡接⑽牡臋C(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了該方法的有效性。
統(tǒng)計(jì)機(jī)器翻譯;預(yù)調(diào)序;神經(jīng)網(wǎng)絡(luò)
對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言之間語(yǔ)序的差異進(jìn)行建模是統(tǒng)計(jì)機(jī)器翻譯研究的一個(gè)主要問(wèn)題?;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型[1]將短語(yǔ)對(duì)作為一個(gè)基本的翻譯單元,自動(dòng)的記錄了局部的調(diào)序現(xiàn)象,但對(duì)于長(zhǎng)距離的調(diào)序現(xiàn)象缺乏有效的描述。為了解決長(zhǎng)距離調(diào)序的問(wèn)題,研究人員進(jìn)行了多種嘗試,提出了不同的方法。例如,Xiong等[2]提出了基于最大熵的詞匯化的調(diào)序模型,利用詞匯信息對(duì)語(yǔ)序進(jìn)行更好的刻畫;Chiang[3]等考慮語(yǔ)言的層級(jí)結(jié)構(gòu)對(duì)調(diào)序進(jìn)行建模。
在語(yǔ)序差異顯著的語(yǔ)言對(duì)之間,例如,主—謂—賓(S-V-O)結(jié)構(gòu)的英文與主—賓—謂(S-O-V)結(jié)構(gòu)的日文,長(zhǎng)距離調(diào)序的問(wèn)題更加明顯,在基于短語(yǔ)的翻譯系統(tǒng)中難以得到很好的解決。基于句法的語(yǔ)法系統(tǒng),例如,Liu等[4]的工作,將源語(yǔ)言句法樹的信息直接放入翻譯模型,能在一定程度上對(duì)長(zhǎng)距離調(diào)序進(jìn)行描述,但同時(shí)也帶來(lái)了翻譯模型中翻譯規(guī)則數(shù)量巨大,翻譯解碼時(shí)間較長(zhǎng)等問(wèn)題。另一種方法稱為預(yù)調(diào)序,它只用源語(yǔ)言段的詞匯或者句法的信息,在翻譯解碼之前將輸入源語(yǔ)言的句子調(diào)整為接近目標(biāo)語(yǔ)言的語(yǔ)序,然后用一個(gè)標(biāo)準(zhǔn)的基于短語(yǔ)的機(jī)器翻譯系統(tǒng)對(duì)調(diào)序之后的句子進(jìn)行翻譯。這種預(yù)調(diào)序方法,一方面能夠有效的利用源語(yǔ)言的詞匯和句法信息幫助解決調(diào)序問(wèn)題;另一方面又保留了基于短語(yǔ)的翻譯系統(tǒng)的簡(jiǎn)潔性,在實(shí)踐中得到了較好的效果?;陬A(yù)調(diào)序的主要工作有Tromble和Eisner[5]等。
本工作沿著預(yù)調(diào)序這一研究方向,提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)機(jī)器翻譯預(yù)調(diào)序模型。本方法利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[6]的方法,從未標(biāo)注文本學(xué)習(xí)詞匯的抽象表示,然后利用一個(gè)多層神經(jīng)網(wǎng)絡(luò),將這個(gè)詞匯表示和其他特征結(jié)合起來(lái),融入到一個(gè)線性排序的模型中;我們從自動(dòng)對(duì)齊或者人工標(biāo)注對(duì)齊的雙語(yǔ)平行語(yǔ)料獲取詞排序模型需要的訓(xùn)練樣本,用隨機(jī)梯度下降的方法進(jìn)行判別訓(xùn)練。為了驗(yàn)證此方法的有效性,我們?cè)谥形牡接⑽囊约叭瘴牡接⑽牡臋C(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相比于基準(zhǔn)系統(tǒng),本文提出的基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型在測(cè)試數(shù)據(jù)集上能顯著提高機(jī)器翻譯系統(tǒng)性能。
調(diào)序問(wèn)題一直是機(jī)器翻譯研究的重難點(diǎn)[7-8]。在機(jī)器翻譯預(yù)調(diào)序方向上,一些工作提出了基于句法樹手寫調(diào)序規(guī)則的方法,例如,Collins等[9]針對(duì)德語(yǔ)和英語(yǔ)之間的詞序問(wèn)題定制了一系列規(guī)則。Xu等[10]設(shè)計(jì)了一種基于優(yōu)先級(jí)概念的調(diào)序規(guī)則,處理了英語(yǔ)到幾種SOV語(yǔ)言的調(diào)序問(wèn)題。手工規(guī)則的缺點(diǎn)是它依賴于專家知識(shí),對(duì)于不同的語(yǔ)言對(duì)需要特別的制定對(duì)應(yīng)的規(guī)則。
部分研究人員也探討過(guò)從數(shù)據(jù)自動(dòng)學(xué)習(xí)預(yù)調(diào)序模型。其中,Tromble和Eisner[5]提出了一種基于線性排序的預(yù)調(diào)序模型;Yang等[11]提出了基于排序的預(yù)調(diào)序模型;Visweswariah等[12]將預(yù)調(diào)序問(wèn)題看成是一個(gè)非對(duì)稱旅行商 (ATS) 問(wèn)題。這些工作中的模型采用基于稀疏特征的線性模型,可能遇到數(shù)據(jù)稀疏的問(wèn)題。
利用神經(jīng)網(wǎng)絡(luò)處理機(jī)器翻譯調(diào)序問(wèn)題的主要工作是Li等[13]。此工作提出用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)機(jī)器翻譯的調(diào)序過(guò)程進(jìn)行描述。與這個(gè)工作不同的是,我們是在預(yù)調(diào)序的框架下利用神經(jīng)網(wǎng)絡(luò)解決翻譯調(diào)序問(wèn)題的。
在本章中,我們首先介紹用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞匯的向量表示;然后闡述線性排序模型;最后提出基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型。
3.1 詞匯的向量表示
為了改善這一問(wèn)題,Bengio等[6]提出了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型。在他們的工作中,一個(gè)神經(jīng)網(wǎng)絡(luò)模型將高維的詞匯特征轉(zhuǎn)化為低維的、稠密的向量表示;通過(guò)在大量文本上進(jìn)行判別訓(xùn)練,該模型能將上下文相似的詞匯映射到低維向量空間上相近的點(diǎn)。沿著這一方向,Collobert等[14]提出了一種基于負(fù)抽樣(negative-sampling)的更快速的學(xué)習(xí)方法,有效的在大規(guī)模的語(yǔ)料上學(xué)習(xí)到了大量詞匯的向量表示。Collobert等的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 學(xué)習(xí)詞匯向量表示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
s(w-n,…,w0,…,wn)=l2·tanh·
l1·LOOKUP(w-n,…,w0,…,wn)
(1)
其中:
(2)
Mikolov等[15]提出了另一種基于Skip-ngram快速學(xué)習(xí)詞匯表示的方法。在這種方法中,一個(gè)前饋神經(jīng)網(wǎng)絡(luò)被用來(lái)建立詞w和它上下文中的詞c(w)的條件概率模型,如式(3)所示。
(3)
其中l(wèi)是一個(gè)線性層,輸入長(zhǎng)度為詞匯表示的長(zhǎng)度,輸出長(zhǎng)度為詞表的大小;softmax將l的輸出歸一化為概率。為了加速歸一化,Mikolov提出了采用基于哈夫曼樹的層級(jí)softmax方法進(jìn)行加速。Skip-ngram的訓(xùn)練采用隨機(jī)梯度下降對(duì)此條件概率做訓(xùn)練數(shù)據(jù)的最大似然估計(jì)。
以上學(xué)習(xí)詞匯表示的方法還可以推廣到對(duì)詞匯n元(n-gram)進(jìn)行學(xué)習(xí)。我們將詞匯n元x看成一個(gè)整體,用神經(jīng)網(wǎng)絡(luò)建立它和上下文的詞匯c(w)(上下文依然是詞匯,不是詞匯n元)的條件概率模型,如式(4)所示。
(4)
詞匯n元表示的訓(xùn)練方法與詞匯表示訓(xùn)練方法完全相同。由于我們的模型上下文依然是詞匯,訓(xùn)練詞匯n元的低維表示與訓(xùn)練詞匯表示的計(jì)算量是相同的;不同的是n元數(shù)量遠(yuǎn)多于詞匯,需要更多的數(shù)據(jù)才能進(jìn)行準(zhǔn)確估計(jì)。詞匯n元能夠包含無(wú)法用詞匯表示組合出的信息。
通過(guò)在大量文本上進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)學(xué)到的詞匯向量表示能將語(yǔ)法、語(yǔ)意上相近的詞映射到低維空間相近的位置。將這種詞匯向量表示作為特征作為調(diào)序模型的輸入,我們能自動(dòng)的利用其中蘊(yùn)含的信息,學(xué)到更好的調(diào)序模型。
3.2 線性排序模型
(5)
(6)
也就是說(shuō),(i,j)在置換中保持相對(duì)順序不變,那么它們的分?jǐn)?shù)是s(i,j,0);如果他們的相對(duì)順序倒轉(zhuǎn),則分?jǐn)?shù)是s(i,j,1)。
(7)
(8)
其中f是一個(gè)特征向量,θ是對(duì)應(yīng)的特征權(quán)重向量。
在這個(gè)調(diào)序模型的框架下,機(jī)器翻譯預(yù)調(diào)序的問(wèn)題被轉(zhuǎn)化為了一個(gè)尋找最高分置換的搜索過(guò)程,如式(9)所示。
(9)
影響此模型性能的一個(gè)關(guān)鍵因素是能否設(shè)計(jì)合適的特征f。在Tromble的工作中,他采用了大量的高維詞匯特征。由于詞匯特征難以推廣,他們又引入了詞類,詞性標(biāo)注等粗粒度特征進(jìn)行平滑。
3.3 基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的詞匯向量表示蘊(yùn)含豐富的語(yǔ)法、語(yǔ)意信息;我們認(rèn)為,這種信息能夠幫助預(yù)測(cè)機(jī)器翻譯的詞序。為此,我們提出以下基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型。此模型是建立在線性調(diào)序的框架下,將詞匯調(diào)序問(wèn)題分解為句子中詞的兩兩排序問(wèn)題,對(duì)于其中每一對(duì)詞的排序,我們用一個(gè)多層神經(jīng)網(wǎng)絡(luò)對(duì)它進(jìn)行打分。
(10)
ssparse是普通的稀疏特征計(jì)算出的分?jǐn)?shù),sNN是一個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算的分?jǐn)?shù),如式(11)所示。
(11)
神經(jīng)網(wǎng)絡(luò)將第i詞和第j詞的上下文窗口中的詞匯和詞匯n元(n-gram)作為輸入,通過(guò)查找層LOOKUP將他們轉(zhuǎn)化為向量化表示,再依次通過(guò)線性層l1,雙曲正切層tanh以及第二個(gè)線性層l2得到輸出sNN。輸出結(jié)果sNN是一個(gè)二維向量,sNN[0]表示(i,j)在置換中保持相對(duì)順序不變的分?jǐn)?shù),sNN[1]表示(i,j)在置換中相對(duì)順序倒轉(zhuǎn)的分?jǐn)?shù)。圖2給出了這個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
圖2 預(yù)調(diào)序模型中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
此外,我們可以在sNN的最后輸出層加入稀疏特征,用以補(bǔ)充神經(jīng)網(wǎng)絡(luò)中由向量化詞匯表示難以描述的信息,如兩個(gè)詞之間的距離等。
在應(yīng)用這個(gè)模型進(jìn)行預(yù)調(diào)序的時(shí)候,我們將搜索如下的模型最優(yōu)解作為輸出,如式(12)所示。
(12)
訓(xùn)練我們的模型有兩個(gè)工作,一是從雙語(yǔ)平行語(yǔ)料中獲取排序模型所需的訓(xùn)練數(shù)據(jù);二是基于獲得的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行統(tǒng)計(jì)參數(shù)學(xué)習(xí)。
4.1 調(diào)序訓(xùn)練數(shù)據(jù)的獲取
我們的模型的訓(xùn)練樣本從有詞對(duì)齊的雙語(yǔ)平行語(yǔ)料中獲取。 對(duì)于一個(gè)有詞對(duì)齊信息的雙語(yǔ)句對(duì)(e,f,a),其中e是源語(yǔ)言句子,f是目標(biāo)語(yǔ)言句子,a是它們之間的詞對(duì)齊關(guān)系,e的長(zhǎng)度是n。我們想得到一個(gè)源語(yǔ)言句子e的重排序π*,使它和目標(biāo)語(yǔ)言句子的語(yǔ)序最相似。在這里,我們沿用Yang等[11]法,采用一個(gè)叫做交叉連接數(shù) (crosslink) 的標(biāo)準(zhǔn)作為衡量調(diào)序結(jié)果好壞的標(biāo)準(zhǔn)。我們用一個(gè)數(shù)對(duì)(i,j)表示一個(gè)詞對(duì)齊連接,它表示從源語(yǔ)言第i個(gè)詞連接到目標(biāo)語(yǔ)言第j個(gè)詞。我們稱兩個(gè)詞對(duì)齊鏈接(i1,j1)和(i2,j2)是交叉的,如果它們滿足:
如果我們定義:
那么源語(yǔ)言一種重排序π的交叉連接數(shù)如式(13)所示。
(13)
我們采用交叉連接數(shù)最少的重排序π*作為訓(xùn)練時(shí)的目標(biāo)排序,如式(14)所示。
(14)
4.2 參數(shù)學(xué)習(xí)
(15)
其中π-是不同于π*的所有排序中分?jǐn)?shù)最高的一個(gè)重排序。此損失函數(shù)是一種帶邊界的合頁(yè)損失,促使模型對(duì)目標(biāo)重排序π*給出更高的分?jǐn)?shù)。
我們采用標(biāo)準(zhǔn)的隨機(jī)梯度下降算法對(duì)此進(jìn)行優(yōu)化。對(duì)于雙語(yǔ)語(yǔ)料中的所有句對(duì),我們依次抽取其中一個(gè)句對(duì),用當(dāng)前的參數(shù)值對(duì)它進(jìn)行CKY解碼,取得π-,并和最優(yōu)的π*進(jìn)行對(duì)比。如果對(duì)比之下?lián)p失不為0,那么我們將針對(duì)此損失求梯度,并對(duì)參數(shù)進(jìn)行更新:
其中γ是一個(gè)大于0的學(xué)習(xí)率,L(θ)是對(duì)應(yīng)的梯度。稀疏特征的特征權(quán)重的參數(shù)的梯度如式(16)所示。
(16)
其中fsparse是稀疏特征的特征向量。對(duì)于神經(jīng)網(wǎng)絡(luò)中的參數(shù),我們可以通過(guò)標(biāo)準(zhǔn)的反向傳播算法(back-propagation)[6]計(jì)算得到。
在模型參數(shù)初始化的時(shí)候,我們將從大量文本學(xué)習(xí)到的詞匯向量化表示作為神經(jīng)網(wǎng)絡(luò)的查找層參數(shù)的初始值;對(duì)神經(jīng)網(wǎng)絡(luò)中兩個(gè)線性層的參數(shù),我們隨機(jī)的把它們初始化到一個(gè)小的區(qū)間;對(duì)于稀疏特征的特征權(quán)重,我們統(tǒng)一初始化為0。
為了驗(yàn)證基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序方法的有效性,我們?cè)谥形牡接⑽囊约叭瘴牡接⑽纳线M(jìn)行了實(shí)驗(yàn)。
5.1 實(shí)驗(yàn)數(shù)據(jù)
我們的實(shí)驗(yàn)數(shù)據(jù)分為三個(gè)部分: 一是用于訓(xùn)練詞匯向量表示和語(yǔ)言模型的單語(yǔ)文本;二是用于進(jìn)行預(yù)調(diào)序模型和翻譯模型訓(xùn)練的雙語(yǔ)數(shù)據(jù);三是用于評(píng)測(cè)翻譯效果的測(cè)試數(shù)據(jù)。
(1) 單語(yǔ)語(yǔ)料: 我們的單語(yǔ)文本是從互聯(lián)網(wǎng)上抓取的單語(yǔ)文本。經(jīng)過(guò)正規(guī)化、去重等處理,我們得到了約十億句英文文本,四億句中文文本,兩億句日文文本。其中,英文作為目標(biāo)語(yǔ)言,用于訓(xùn)練語(yǔ)言模型;中文和日文作為源語(yǔ)言,用于訓(xùn)練詞匯的向量化表示。
(2) 雙語(yǔ)平行語(yǔ)料: 我們的平行語(yǔ)料是從互聯(lián)網(wǎng)上自動(dòng)抓取的。在本次實(shí)驗(yàn)中,我們使用的中文到英文數(shù)據(jù)包含約2 600萬(wàn)句對(duì),日文到英文數(shù)據(jù)包含約1 500萬(wàn)句對(duì)。我們使用這些語(yǔ)料訓(xùn)練預(yù)調(diào)序模型以及翻譯模型。
(3) 機(jī)器翻譯實(shí)驗(yàn)測(cè)試數(shù)據(jù): 對(duì)于中文到英文,我們采用標(biāo)準(zhǔn)的NIST機(jī)器翻譯評(píng)測(cè)測(cè)試集,其中NIST05作為開發(fā)集,NIST06和NIST08作為測(cè)試集。對(duì)于日文到英文的實(shí)驗(yàn),我們采用自己人工翻譯的5 000句新聞?wù)Z料,其中2 500句作為開發(fā)集,2 500句作為測(cè)試集。
5.2 實(shí)現(xiàn)細(xì)節(jié)和基準(zhǔn)系統(tǒng)
本工作的翻譯系統(tǒng)是一個(gè)基于最大熵的詞匯化調(diào)序的BTG短語(yǔ)機(jī)器翻譯系統(tǒng)[2]。除了詞匯化的調(diào)序特征外,它還具有一般短語(yǔ)翻譯系統(tǒng)的主要特征,例如,正向反向短語(yǔ)、詞匯翻譯概率,4-gram語(yǔ)言模型,詞匯、短語(yǔ)懲罰等。我們的4-gram語(yǔ)言模型是自己基于Trie樹實(shí)現(xiàn)的Katz-backoff[17]的語(yǔ)言模型。
本工作的基準(zhǔn)系統(tǒng)有兩個(gè): 一個(gè)是未經(jīng)過(guò)預(yù)調(diào)序的翻譯系統(tǒng),它用于驗(yàn)證使用預(yù)調(diào)序技術(shù)對(duì)于翻譯系統(tǒng)的影響;第二個(gè)是對(duì)于輸入做基于稀疏特征的預(yù)調(diào)序的翻譯系統(tǒng),它用于驗(yàn)證使用向量化詞匯表示的神經(jīng)網(wǎng)絡(luò)預(yù)調(diào)序模型對(duì)于翻譯結(jié)果的影響。
本文中使用的稀疏特征包括詞匯特征,詞性標(biāo)記,詞與詞之間距離,詞與詞之間依存句法關(guān)系等。
對(duì)神經(jīng)網(wǎng)絡(luò)模型,我們使用的詞匯向量表示的長(zhǎng)度是100,神經(jīng)網(wǎng)絡(luò)輸入層的窗口大小是5,中間隱含層的長(zhǎng)度是50。在學(xué)習(xí)的過(guò)程中,初始的學(xué)習(xí)率設(shè)置為0.1,并隨著訓(xùn)練的進(jìn)行逐漸減小。我們?cè)趩握Z(yǔ)數(shù)據(jù)上學(xué)習(xí)詞匯向量的方法是按照Mikolov等[14]的方法實(shí)現(xiàn)的,并使用AdaptiveGradient方法加速訓(xùn)練過(guò)程。我們的實(shí)驗(yàn)中,中文和日文是源語(yǔ)言,因此我們只需對(duì)中文和日文的表示進(jìn)行學(xué)習(xí)。對(duì)中文和日文,我們都只保留詞匯表中最高頻的50萬(wàn)個(gè)詞。對(duì)于詞匯n元,我們采用長(zhǎng)度為64的低維表示;我們對(duì)單語(yǔ)語(yǔ)料中頻率高于50的2—4元學(xué)習(xí)低維表示,其中中文約有1.2億個(gè)n元,而日文有0.6億個(gè)n元。
對(duì)于使用預(yù)調(diào)序的系統(tǒng),我們會(huì)在未預(yù)調(diào)序的系統(tǒng)上進(jìn)行詞對(duì)齊,在此基礎(chǔ)上訓(xùn)練預(yù)調(diào)序模型;預(yù)調(diào)序模型訓(xùn)練好后,我們用它對(duì)整個(gè)訓(xùn)練語(yǔ)料的源語(yǔ)言進(jìn)行預(yù)調(diào)序,然后再在調(diào)整之后的雙語(yǔ)句對(duì)上進(jìn)行詞對(duì)齊,翻譯模型抽取等工作。這樣,我們能保持訓(xùn)練和測(cè)試時(shí)使用的翻譯模型的一致性,從而取得更好的效果[10]。我們的詞對(duì)齊是使用GIZA++[18]生成的IBM-4詞對(duì)齊,使用grow-diag-final[1]的啟發(fā)式規(guī)則進(jìn)行雙向合并。由于自動(dòng)生成的詞對(duì)齊有噪聲,會(huì)影響預(yù)調(diào)序模型的訓(xùn)練,我們手工定制了一些規(guī)則去除了關(guān)于一些停用詞 (如“the”等) 的對(duì)齊。
5.3 機(jī)器翻譯實(shí)驗(yàn)結(jié)果
我們?cè)谥杏⒑腿沼⒌臄?shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的評(píng)測(cè)采用大小寫無(wú)關(guān)的BLEU-4[19]作為評(píng)價(jià)標(biāo)準(zhǔn)(表1、表2)。我們用“NoPR”表示沒有使用需調(diào)序的翻譯系統(tǒng),“SparsePR”表示只使用稀疏特征預(yù)調(diào)序的翻譯系統(tǒng),“NNPR”表示基于神經(jīng)網(wǎng)絡(luò)預(yù)調(diào)序的翻譯系統(tǒng)。
表1 中文到英文翻譯結(jié)果
表2 日語(yǔ)到英語(yǔ)翻譯結(jié)果
可以看出,我們提出的預(yù)調(diào)序方法在兩種語(yǔ)言都比未使用預(yù)調(diào)序的翻譯系統(tǒng)取得了顯著的提高。
在日英數(shù)據(jù)集上,使用神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型和只使用稀疏特征的模型相比取得了相當(dāng)?shù)慕Y(jié)果;而在中英數(shù)據(jù)集上,神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型比只使用稀疏特征的模型相比有一定的提高。出現(xiàn)這種現(xiàn)象的原因是,日英間的調(diào)序主要由語(yǔ)法決定,這些語(yǔ)法信息在詞性標(biāo)記等特征上已經(jīng)得到了一定的體現(xiàn);而對(duì)于中英文間的翻譯,調(diào)序更依賴于一些詞匯化的模式,神經(jīng)網(wǎng)絡(luò)模型使用的向量化的詞匯表示能夠發(fā)現(xiàn)這些模式之間的相似性,從而能更好的推廣到測(cè)試數(shù)據(jù)上。
5.4 預(yù)調(diào)序結(jié)果的衡量
除了機(jī)器翻譯的結(jié)果,我們想衡量預(yù)調(diào)序在調(diào)整語(yǔ)序這個(gè)任務(wù)上的性能。為此,我們采用源語(yǔ)言和目標(biāo)語(yǔ)言間的詞對(duì)齊交叉連接數(shù)進(jìn)行評(píng)價(jià)。調(diào)序過(guò)的源語(yǔ)言與目標(biāo)語(yǔ)言的語(yǔ)序越一致,他們之間的詞對(duì)齊交叉連接數(shù)就應(yīng)該越小,說(shuō)明預(yù)調(diào)序的效果越好。由于自動(dòng)生成的詞對(duì)齊可能會(huì)有錯(cuò)誤,我們?cè)谥杏⒑腿沼⒌臄?shù)據(jù)集上各選擇了500個(gè)句對(duì)進(jìn)行了詞對(duì)齊標(biāo)注,然后在這500個(gè)句對(duì)上進(jìn)行測(cè)試。
從表3、表4中可以看出,預(yù)調(diào)序能幫助減少詞對(duì)齊的交叉連接數(shù)。在日英數(shù)據(jù)集上,預(yù)調(diào)序?qū)τ谡Z(yǔ)序的改善非常明顯。在中英數(shù)據(jù)集上,預(yù)調(diào)序也取得了一定的效果,并且基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型比基于稀疏特征的預(yù)調(diào)序模型取得了更好的效果。這些實(shí)驗(yàn)結(jié)果與機(jī)器翻譯性能的實(shí)驗(yàn)結(jié)果的趨勢(shì)是一致的: 詞對(duì)齊交叉連接數(shù)較小的系統(tǒng),翻譯性能會(huì)相對(duì)好一些。
表3 中文到英文詞每個(gè)句對(duì)對(duì)齊交叉連接數(shù)平均值
表4 日文到英文詞每個(gè)句對(duì)對(duì)齊交叉連接數(shù)平均值
5.5 與其他預(yù)調(diào)序方法的比較
預(yù)調(diào)序看作線性排序(LO)問(wèn)題外,還可以被形式化為非對(duì)稱旅行商(ATS)問(wèn)題[12]或一般排序(Ranking)問(wèn)題[11]。在這里,我們實(shí)現(xiàn)了基于稀疏特征的非對(duì)稱旅行商方法和一般排序方法的預(yù)調(diào)序系統(tǒng),實(shí)驗(yàn)結(jié)果如表5和表6所示。
表5 中文到英文不同預(yù)調(diào)序方法比較
表6 日語(yǔ)到英語(yǔ)不同預(yù)調(diào)序方法比較
從實(shí)驗(yàn)結(jié)果中我們發(fā)現(xiàn),不同形式化的預(yù)調(diào)序模型的結(jié)果非常接近。在日文到英文的實(shí)驗(yàn)中,三種采用稀疏特征的預(yù)調(diào)序模型和神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型的結(jié)果相當(dāng);在中文到英文的實(shí)驗(yàn)中,三種采用稀疏特征的預(yù)調(diào)序模型結(jié)果相當(dāng),而使用神經(jīng)網(wǎng)絡(luò)的線性排序模型結(jié)果好于只采用稀疏特征的模型。這說(shuō)明在我們的實(shí)驗(yàn)中,預(yù)調(diào)序模型的不同形式化在輸入特征相同的情況下效果區(qū)別不大。
5.6 預(yù)訓(xùn)練的作用
神經(jīng)網(wǎng)絡(luò)模型的一個(gè)優(yōu)勢(shì)是能通過(guò)預(yù)訓(xùn)練,自動(dòng)的從單語(yǔ)數(shù)據(jù)中學(xué)習(xí)特征表示。為了驗(yàn)證單語(yǔ)數(shù)據(jù)預(yù)訓(xùn)練的作用,我們?cè)谥形牡接⑽纳献隽藢?duì)比實(shí)驗(yàn)。在對(duì)比實(shí)驗(yàn)中,我們隨機(jī)的初始化詞匯和詞匯n元的低維表示,并直接在雙語(yǔ)數(shù)據(jù)上進(jìn)行模型訓(xùn)練(表7)。
表7 詞匯表示預(yù)訓(xùn)練的作用
實(shí)驗(yàn)結(jié)果表明,如果不做預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型相較使用稀疏特征的線性模型并沒有顯著的優(yōu)勢(shì)。我們認(rèn)為這是由于我們的神經(jīng)網(wǎng)絡(luò)模型采用了詞匯和詞匯n元的低維表示,它們數(shù)量巨大,只用雙語(yǔ)數(shù)據(jù)的源語(yǔ)言部分很難對(duì)他們進(jìn)行準(zhǔn)確的估計(jì);而通過(guò)在單語(yǔ)數(shù)據(jù)的訓(xùn)練,我們能更好的利用低頻n元和高頻n元的相似性,從而得到更好的效果。
為了進(jìn)一步說(shuō)明這一點(diǎn),我們展示幾個(gè)詞匯n元在低維空間中的最近鄰的方式。表8列出了幾個(gè)詞匯n元在詞匯空間中的最近鄰。由于這些詞匯n元在雙語(yǔ)數(shù)據(jù)中出現(xiàn)次數(shù)很少,直接從雙語(yǔ)數(shù)據(jù)學(xué)習(xí)的低維表示不能很好的對(duì)它們進(jìn)行聚類。但由于我們使用了大量的單語(yǔ)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這些低頻n元仍然能被很好的聚類。例如,對(duì)低頻二元“卡伊達(dá) 組織”,我們可以發(fā)現(xiàn)它與相對(duì)高頻的“基地 組織”非常接近;神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型能夠利用這樣的相似性,避免了將這個(gè)專有名詞在預(yù)調(diào)序時(shí)切割開來(lái),而基于稀疏特征的模型沒有這樣的信息,難以對(duì)這樣的情況進(jìn)行正確處理。
表8 詞匯n元在低維空間中的最近鄰
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)機(jī)器翻譯預(yù)調(diào)序模型。本方法利用神經(jīng)語(yǔ)言模型的方法,從未標(biāo)注文本學(xué)習(xí)詞匯的向量表示,然后利用一個(gè)多層神經(jīng)網(wǎng)絡(luò),將這個(gè)詞匯表示和其他特征結(jié)合起來(lái),融入到一個(gè)線性排序的模型中。在中文到英文以及日文到英文的實(shí)驗(yàn)結(jié)果表明,相比于基準(zhǔn)系統(tǒng),本文提出的基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型能顯著提高機(jī)器翻譯系統(tǒng)性能。
沿著現(xiàn)在的方向,我們?cè)趯?lái)打算探索短語(yǔ)的向量表示方法,以及這種表示對(duì)機(jī)器翻譯預(yù)調(diào)序的作用。此外,我們計(jì)劃考察在基于句法系統(tǒng)中本文的方法的表現(xiàn),以及研究如何對(duì)更加抽象的語(yǔ)法樹片段進(jìn)行向量表示的學(xué)習(xí)。
[1] Philipp Koehn,F(xiàn)ranz Josef Och,Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.2003,1: 48-54.
[2] Deyi Xiong,Qun Liu,Shouxun Lin. Maximum entropy based phrase reordering model for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 521-528.
[3] David Chiang. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.2005: 263-270.
[4] Yang Liu,Qun Liu,Shouxun Lin. Tree-to-string alignment template for statistical machine translation[C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 609-616.
[5] Roy Tromble,Jason Eisner. Learning linear ordering problems for better translation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.2009,1: 1007-1016.
[6] Yoshua Bengio,Holger Schwenk,Jean-Sébastien Senécal,et al. Neural probabilistic language models[J]. Innovations in Machine Learning,2006,194: 137-186.
[7] 馮洋,張冬冬,劉群. 層次短語(yǔ)翻譯模型的介詞短語(yǔ)調(diào)[J]. 中文信息學(xué)報(bào),2012,26(1): 31-37.
[8] 肖欣延,劉洋,劉群,林守勛. 面向?qū)哟味陶Z(yǔ)翻譯的詞匯化調(diào)序方法研究[J]. 中文信息學(xué)報(bào),2012,26(1): 37-41.
[9] Michael Collins,Philipp Koehn,Ivona Kucerova. Clause restructuring for statistical machine translation[C]//Proceedings of the 43rd annual meeting on association for computational linguistics.2005: 531-540.
[10] Peng Xu,Jaeho Kang,Michael Ringgaard,et al. Using a dependency parser to improve SMT for subject-object-verb languages[C]//Proceedings of human language technologies: The 2009 annual conference of the North American chapter of the association for computational linguistics.2009: 245-253.
[11] Nan Yang,Mu Li,Dongdong Zhang et al. A ranking-based approach to word reordering for statistical machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.2013,1: 912-920.
[12] Karthik Visweswariah,Rajakrishnan Rajkumar,Ankur Gandhe,et al. A word reordering model for improved machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011: 486-496.
[13] Peng Li,Yang Liu,Maosong Sun. Recursive Autoencoders for ITG-based Translation[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013: 567-577.
[14] Ronan Collobert,Jason Weston,Léon Bottou,et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research 2011,12(1): 2493-2537.
[15] Tomas Mikolov,Ilya Sutskever,Kai Chen,et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of Advances in Neural Information Processing Systems,2013: 3111-3119.
[16] Dekai Wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J]. Computational linguistics,1997: 377-403.
[17] Franz Josef Och,Hermann Ney. GIZA++: Training of statistical translation models[Z]. 2000.
[18] Kishore Papineni,Salim Roukos,Todd Ward,et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics.2002: 311-318.
[19] Slava Katz. Estimation of probabilities from sparse data for the language model component of a speech recognizer[J]. IEEE Transactions on Acoustics,Speech and Signal Processing,1987,35(3): 400-401.
A Neural Pre-reordering Model for Statistical MT
YANG Nan1,LI Mu2
(1. School of Information Science and Technology,University of Science and Technology of China,Hefei,Anhui 230026,China;2. Microsoft Research Asia,Beijing 100080,China)
Long distance reordering is a major challenge in statistical machine translation. Previous work has shown that pre-reordering is a promising way to tackle this problem. In this work,we extend this line of research and propose a neural network based pre-reorder model,which integrates neural network modeling into a linear ordering framework. The neural network based model can leverage syntactic and semantic information extracted from unlabeled data to predict the word order difference between languages. Experiments on Chinese-English,and Japanese-English machine translation tasks show the effectiveness of our approach.
statistical machine translation; pre-reorder; neural network
楊南(1985—),博士,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語(yǔ)言處理,深度學(xué)習(xí)。E?mail:nyang.ustc@gmail.com李沐(1972—),博士,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語(yǔ)言處理,深度學(xué)習(xí)。E?mail:muli@microsoft.com
2014-04-07 定稿日期: 2014-08-10
1003-0077(2016)03-00103-08
TP391
A