国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊研究

2019-08-05 02:28李軍輝周國(guó)棟
中文信息學(xué)報(bào) 2019年7期
關(guān)鍵詞:單調(diào)向量單詞

丁 穎,李軍輝,周國(guó)棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

0 概述

句子對(duì)齊旨在從給定的雙語(yǔ)文本中提取語(yǔ)義相同的句子對(duì),為構(gòu)建雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)提供技術(shù)支持。就自然語(yǔ)言處理領(lǐng)域中的一些應(yīng)用,如機(jī)器翻譯[1-3]、跨語(yǔ)言信息檢索[4-6]、多語(yǔ)言詞匯表征[7]以及構(gòu)建雙語(yǔ)詞典[8]等,都需要大規(guī)模的平行語(yǔ)料支持。大多數(shù)傳統(tǒng)的句子對(duì)齊方法主要依賴于人工制定的淺層信息特征,并且受語(yǔ)言特性影響。例如,基于句子長(zhǎng)度信息[9]的對(duì)齊方法適用于同語(yǔ)系的語(yǔ)言對(duì),在印歐語(yǔ)言對(duì)上對(duì)齊性能較好,但在不同語(yǔ)系語(yǔ)言上對(duì)齊性能急劇下降?;陔p語(yǔ)詞匯[10-11]的方法能更充分地利用雙語(yǔ)句對(duì)中的詞匯信息,從而提高句子的對(duì)齊性能。近年來(lái),由于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的自主提取特征的能力,基于神經(jīng)網(wǎng)絡(luò)的方法也開始應(yīng)用于句子對(duì)齊任務(wù)中[12-13]。

然而,現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的句子對(duì)齊方法是基于句子級(jí)別建模,首先將每個(gè)輸入句子映射成為固定長(zhǎng)度的向量表示,然后根據(jù)這些向量表示來(lái)判斷句子是否對(duì)齊[12]。該方法簡(jiǎn)單易實(shí)現(xiàn),也獲得了一定的對(duì)齊性能,表明了使用神經(jīng)網(wǎng)絡(luò)進(jìn)行句子對(duì)齊任務(wù)是可行的,但該方法僅將源端句子和目標(biāo)端句子映射成向量表示,不可避免地會(huì)丟失很多重要信息,特別是單詞級(jí)別的對(duì)齊信息。

為了克服上述困難,受相互對(duì)齊的句子對(duì)包含大量相互對(duì)齊的單詞對(duì)這一直覺的啟發(fā),本文通過(guò)建模詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的方法來(lái)直接捕獲細(xì)粒度的單詞級(jí)信息,然后使用該信息判斷句子是否對(duì)齊,而不是使用句子級(jí)信息。

實(shí)驗(yàn)中使用中/英機(jī)器翻譯數(shù)據(jù)集和OpenSubtitles2018數(shù)據(jù)集進(jìn)行性能評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文提出的基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊方法能夠較好地提高單調(diào)文本和非單調(diào)文本的句子對(duì)齊性能[14]。

1 相關(guān)工作

傳統(tǒng)的句子對(duì)齊方法主要是基于統(tǒng)計(jì)的方法,如Gale和Church[9]提出了基于句子長(zhǎng)度統(tǒng)計(jì)的方法,Moore[15]采用基于句子長(zhǎng)度和自動(dòng)派生的字典結(jié)合起來(lái)的方法,Braune等[16]利用Moore對(duì)齊模型找到最小最優(yōu)可能的句子對(duì)齊關(guān)系,并提出兩步聚類的方法判斷句子對(duì)齊。Ma[17]則提出利用外部詞典來(lái)計(jì)算句對(duì)相似性,并為頻率較低的單詞翻譯對(duì)賦予較高的權(quán)重的方法進(jìn)行句子對(duì)齊。隨后,Li等[18]在Ma的基礎(chǔ)上,將輸入文本切分成更小的文本片段進(jìn)行句子對(duì)齊。

雖然基于半監(jiān)督或無(wú)監(jiān)督方法的句子對(duì)齊已經(jīng)有了大量研究[注]www.statmt.org/survey/Topic/SentenceAlignment,但由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的自動(dòng)學(xué)習(xí)特征表示能力,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督方法的研究開始流行起來(lái)。Gregoire和Langlais[12]提出通過(guò)使用深度學(xué)習(xí)方法而不是傳統(tǒng)的特征工程方法來(lái)提取平行句子。該方法借助雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)將句子編碼成固定大小的向量表示,然后將該向量表示輸入到全連接層來(lái)計(jì)算句子對(duì)相互對(duì)齊的概率。本文中對(duì)比方法aveRNN與上述方法相似。Grover和Mitra[13]首先獲得單詞對(duì)間的相似性分?jǐn)?shù)矩陣,然后將動(dòng)態(tài)池化操作應(yīng)用于相似性分?jǐn)?shù)矩陣上,最后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行分類。

本文提出的詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)方法在一定程度上與神經(jīng)機(jī)器翻譯(NMT)中使用的注意力機(jī)制類似,兩者都是針對(duì)源端和目標(biāo)端雙語(yǔ)表示,設(shè)計(jì)網(wǎng)絡(luò)計(jì)算源端單詞與目標(biāo)端單詞之間的對(duì)應(yīng)關(guān)系,但兩者存在著顯著不同。一方面,NMT中的注意力機(jī)制使用當(dāng)前時(shí)刻t的目標(biāo)端狀態(tài),分別與源端每個(gè)單詞的表示計(jì)算其對(duì)齊概率。該對(duì)齊概率也被認(rèn)為是目標(biāo)端第t個(gè)單詞與源端各個(gè)單詞的對(duì)齊概率。但在詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)中,本文采用三種相似度度量方法,直接使用目標(biāo)端單詞的表示與源端單詞的表示進(jìn)行相似度計(jì)算。另一方面,在NMT的注意力機(jī)制中,模型使用softmax函數(shù)限制第t個(gè)目標(biāo)單詞與源端每個(gè)單詞的對(duì)齊概率之和為1。而在詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)中,并沒(méi)有類似限制。同時(shí),本文采用最大池化操作來(lái)獲取詞對(duì)相似度中最具信息量的部分。

此外,與本文對(duì)詞對(duì)建模的目的不同的是,其他自然語(yǔ)言處理任務(wù)中,如語(yǔ)義文本相似度研究中也廣泛研究了詞對(duì)信息。例如,He和Lin[19]提出了建模詞對(duì)間相互作用并提出相似性焦點(diǎn)機(jī)制來(lái)識(shí)別重要的對(duì)應(yīng)關(guān)系。Wang等[20]在“匹配聚集”框架下提出了雙邊多視匹配(BiMPM)模型,用于更一般的句子匹配任務(wù)。Seo等[21]提出雙向注意流來(lái)匹配查詢和答案對(duì)。與上述研究不同的是,本文通過(guò)計(jì)算單詞對(duì)的跨語(yǔ)言相似性來(lái)進(jìn)行句子對(duì)齊研究。

2 本文方法

本節(jié)將描述基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊方法,該方法將句子對(duì)齊任務(wù)看作二分類任務(wù),通過(guò)建模詞對(duì)間相似關(guān)系判斷句子是否對(duì)齊。

2.1 問(wèn)題描述

單調(diào)文本遵循單調(diào)性假設(shè),即相互對(duì)齊的兩個(gè)句子在兩種語(yǔ)言文本中以相似的順序出現(xiàn),一般不出現(xiàn)交叉對(duì)齊的情況[22-23]。圖1(a)中顯示了沒(méi)有交叉對(duì)齊句對(duì)的單調(diào)對(duì)齊。相比之下,非單調(diào)文本中相互對(duì)齊的句子對(duì)通常以不同的順序出現(xiàn)在文本中,存在任意交叉句對(duì)的情況,圖1(b)中顯示了具有任意交叉對(duì)齊句對(duì)的非單調(diào)對(duì)齊。由于非單調(diào)文本中1-多/多-1的判斷在實(shí)際操作時(shí)非常復(fù)雜,因此,本文假設(shè)源端的每個(gè)句子只與目標(biāo)端的一個(gè)或零個(gè)句子對(duì)齊,即1-0/0-1和1-1對(duì)齊。

圖1 文本對(duì)齊類型

句子對(duì)齊任務(wù)以源文本X={x1,x2,…,xM}和目標(biāo)文本Y={y1,y2,…,yN}作為輸入,其中M為源文本句子的個(gè)數(shù),N為目標(biāo)文本句子的個(gè)數(shù)。本文將句子對(duì)齊任務(wù)看作是分類任務(wù),首先通過(guò)模型獲得句子對(duì)齊的概率矩陣F∈RM×N,其中,F(xiàn)ij表示源文本X中第i個(gè)句子xi和目標(biāo)文本Y中第j個(gè)句子yj的對(duì)齊概率L表示句對(duì)Xi和yj是否對(duì)齊的標(biāo)簽,L=1表示對(duì)齊,L=0表示不對(duì)齊,定義如式(1)所示。

Fij=p(l=1|xi,yj)

(1)

其中,p(l=1|xi,yj)是句子對(duì)xi和yj經(jīng)過(guò)模型計(jì)算后輸出的對(duì)齊概率值(2.2.4節(jié))。由于在雙語(yǔ)文本中尋找對(duì)齊句對(duì)時(shí),存在源文本中一個(gè)句子對(duì)應(yīng)目標(biāo)文本中多個(gè)句子的情況,因此需要根據(jù)矩陣F的值,進(jìn)一步獲取源文本X和目標(biāo)文本Y之間的句子對(duì)齊矩陣A∈{0,1}M×N,其中Aij=1表示句子對(duì)xi和yj相互對(duì)齊,反之,Aij=0表示句子對(duì)不對(duì)齊。對(duì)于單調(diào)文本來(lái)說(shuō),對(duì)齊矩陣A可以通過(guò)動(dòng)態(tài)規(guī)劃算法[17]獲得,并且動(dòng)態(tài)規(guī)劃算法也適用于識(shí)別1-多/多-1對(duì)齊。對(duì)于非單調(diào)文本而言,本文使用啟發(fā)式搜索算法[24]尋找局部最優(yōu)來(lái)獲得對(duì)齊矩陣A,包括以下兩個(gè)步驟:

① 在概率矩陣F中選擇最大非零值Fij≥0.5,設(shè)置Aij=1,表示句子對(duì)xi和yj相互對(duì)齊,并將Fi*,j*(1≤i*≤M,1≤j*≤N)設(shè)置為0。

② 重復(fù)上述步驟直到F中所有數(shù)值均小于0.5。

最終,根據(jù)對(duì)齊矩陣A得到最終1-0/0-1和1-1的句對(duì)。

2.2 基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊方法

以句子對(duì)(“來(lái)自 空中 的 戰(zhàn)爭(zhēng) 威脅”,“war threats from the sky”)為例,圖2展示了本文提出的基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊模型,包括:

? 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional recurrent neural network (Bi-RNN) layer),用于對(duì)輸入的句子進(jìn)行上下文建模,并作為后續(xù)網(wǎng)絡(luò)層的基礎(chǔ)。

? 詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)層(Word-pair relevance network layer),用于從多個(gè)角度捕獲詞對(duì)間語(yǔ)義關(guān)系,計(jì)算相似性分?jǐn)?shù);

? 池化層(Max Pooling),用于獲取相似性分?jǐn)?shù)矩陣中最具信息量的部分,并將其重塑為一個(gè)向量;

? 多層感知器層(Multi-layer perceptron, MLP),用于句子分類,其中1表示句子對(duì)齊,0表示句子不對(duì)齊。

為方便起見,將本文提出的基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的模型簡(jiǎn)稱為WPRN模型。以下以句對(duì)(x,y)為例,分別描述各個(gè)網(wǎng)絡(luò)層的相關(guān)細(xì)節(jié)。其中,源端句子表示為x=(x1,x2,…,xm),目標(biāo)端句子表示為y=(y1,y2,…,yn),m表示源端句子的單詞個(gè)數(shù),n表示目標(biāo)端句子的單詞個(gè)數(shù),dh表示源端和目標(biāo)端隱藏狀態(tài)的大小。

圖2 基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的句子對(duì)齊模型結(jié)構(gòu)

2.2.1 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

前向RNN網(wǎng)絡(luò)考慮了單詞前面文本的信息,后向RNN網(wǎng)絡(luò)考慮了單詞后面的文本信息,使得經(jīng)過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼的每個(gè)單詞的隱藏狀態(tài)均考慮到了整個(gè)句子信息。特別地,本文使用相同的Bi-RNN對(duì)源端和目標(biāo)端句子編碼。

2.2.2 詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)

現(xiàn)有的基于特征的句子對(duì)齊系統(tǒng)表明詞對(duì)特征是判斷句子是否對(duì)齊的關(guān)鍵性因素。如圖2中例句所示,該句子存在包括(來(lái)自, from)、(空中, sky)、(戰(zhàn)爭(zhēng), war)、(威脅, threats)等四組對(duì)齊的詞對(duì),這為判斷此句對(duì)是對(duì)齊的提供了有力證據(jù)。受對(duì)齊的句子對(duì)通常包含大量對(duì)齊的單詞對(duì)這種直覺的啟發(fā),本節(jié)提出的詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)即通過(guò)建模詞對(duì)間相似度計(jì)算的方法來(lái)獲得句對(duì)間的對(duì)齊詞對(duì)信息。

對(duì)于給定的源端句子x=(x1,x2,…,xm)和目標(biāo)端句子y=(y1,y2,…,yn),獲得其隱藏狀態(tài)hx=(hx1,hx2,…,hxm)和hy=(hy1,hy2,…,hyn)之后,詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)從不同角度來(lái)計(jì)算每個(gè)詞對(duì)(hxi,hyj)的相似度分?jǐn)?shù)。具體來(lái)說(shuō),該網(wǎng)絡(luò)使用以下三種方法來(lái)計(jì)算詞對(duì)間相似度分?jǐn)?shù)。

① 余弦相似度(cosine): cos(hxi,hyj)通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估它們的相似度。

② 雙線性模型(bilinear model): 定義如式(2)所示。

(2)

其中,M∈Rdh×dh是要學(xué)習(xí)的模型參數(shù)[25-26]。雙線性模型能夠簡(jiǎn)單有效地捕獲兩個(gè)向量之間的強(qiáng)線性相互作用。

③ 單層神經(jīng)網(wǎng)絡(luò)(single layer network (SLN)): 定義如式(3)所示。

s(hxi,hyj)=uTf(V[hxi,hyj]+b)

(3)

其中,u∈Rk,V∈Rk×2dh,b∈Rk是要學(xué)習(xí)的模型參數(shù),f是非線性激活函數(shù),k是可以任意設(shè)置的超參[27]。單層神經(jīng)網(wǎng)絡(luò)可以用來(lái)捕獲兩個(gè)向量間的非線性相互作用,同時(shí)也可以看作雙線性模型的補(bǔ)充。

詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)通過(guò)余弦相似度、雙線性模型和單層神經(jīng)網(wǎng)絡(luò)三種計(jì)算相似度的方法從多個(gè)角度計(jì)算詞對(duì)間的相似關(guān)系,充分考慮了詞對(duì)間的語(yǔ)義關(guān)系,從而得到一個(gè)大小為3×m×n的相似性分?jǐn)?shù)矩陣。

2.2.3 池化層

兩個(gè)句子之間的相似關(guān)系通常是由一些強(qiáng)烈的語(yǔ)義關(guān)系決定的。因此,本文采用最大池化策略將詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)得到的相似性分?jǐn)?shù)矩陣,如圖2所示,劃分為一組非重疊子區(qū)域,并獲取每個(gè)子區(qū)域的最大值。假設(shè)最大化池的大小為3×k1×k2,則最終可以獲得大小為(m/k1)×(n/k2)的最具信息量的相似性分?jǐn)?shù)矩陣。值得注意的是,此處最大池的第一維大小設(shè)置為2.2.2節(jié)所述的計(jì)算相似性方法的個(gè)數(shù)。也就是說(shuō),最大化池的輸出與計(jì)算相似性方法的數(shù)量無(wú)關(guān)。

最后,將相似性分?jǐn)?shù)矩陣重塑為一個(gè)向量,作為多層感知器層的輸入。

2.2.4 多層感知器層

多層感知器(MLP)層由兩個(gè)隱藏層和一個(gè)輸出層組成。池化層的輸出經(jīng)過(guò)兩個(gè)全連接隱藏層獲得了更加抽象的表示,并最終連接到輸出層。對(duì)于句子對(duì)齊任務(wù)而言,輸出為二分類的分類概率。本文通過(guò)預(yù)測(cè)概率p(l=1|x,y)來(lái)判斷兩個(gè)句子是否對(duì)齊,定義如式(4)所示。

p(l=1|x,y)=σ(z)

(4)

其中,z是MLP層的輸出,σ是sigmoid函數(shù)。

3 實(shí)驗(yàn)

本節(jié)中,將使用中/英非單調(diào)文本和單調(diào)文本來(lái)評(píng)估WPRN模型抽取平行句對(duì)的性能。

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

訓(xùn)練數(shù)據(jù)來(lái)源于NIST機(jī)器翻譯評(píng)測(cè)數(shù)據(jù),由中英平行語(yǔ)料庫(kù)LDC2003E14、LDC2004T07、LDC2005T06和LDC2005T10等構(gòu)成,共包含61 968篇文章和1.25MB平行句對(duì),含有27.9MB中文單詞和34.5MB英文單詞。本文以所有的平行句對(duì)作為句子對(duì)齊的正例,同時(shí)以文檔為單位,對(duì)于每個(gè)源端句子,從目標(biāo)端隨機(jī)選擇一個(gè)句子來(lái)獲得負(fù)例,從而構(gòu)建相同規(guī)模的負(fù)例作為訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)中,使用NIST MT 02數(shù)據(jù)集作為開發(fā)集,保存最優(yōu)模型。

本文使用兩種不同測(cè)試集來(lái)評(píng)估WPRN模型的性能,即NIST MT測(cè)試集和OpenSubtitles測(cè)試集[注]https://www.opensubtitles.org/zh。NIST測(cè)試集是由NIST MT 03、04、05數(shù)據(jù)集(分別包含919、1 788、1 082個(gè)句子對(duì))人工生成的、領(lǐng)域內(nèi)的數(shù)據(jù)集。由于NIST MT數(shù)據(jù)集最初僅包含1-1對(duì)齊,為了獲得1-0和0-1對(duì)齊,本文從源端隨機(jī)選擇90個(gè)句子刪除,從目標(biāo)端隨機(jī)選擇60個(gè)句子刪除。需要注意的是,此處隨機(jī)刪除的句子個(gè)數(shù)可以設(shè)為任意數(shù),僅是為了使NIST MT測(cè)試集中包含1-0和0-1對(duì)齊而設(shè)置,隨機(jī)刪除的句子數(shù)越多,表明1-0和0-1對(duì)齊的數(shù)量也越多。此時(shí),獲得NIST MT單調(diào)測(cè)試集。此外,將上述數(shù)據(jù)集中句子順序打亂來(lái)獲得NIST MT非單調(diào)測(cè)試集。表1顯示了該測(cè)試集的統(tǒng)計(jì)數(shù)據(jù)。

表1 NIST MT測(cè)試集的句子數(shù)量及對(duì)齊關(guān)系統(tǒng)計(jì)

OpenSubtitles(OSs)測(cè)試集是來(lái)自O(shè)penSubtitles2018真實(shí)的、領(lǐng)域外數(shù)據(jù)集。本文從OpenSubtitles2018中隨機(jī)選擇8篇中英文文檔作為另一個(gè)測(cè)試集,該測(cè)試集為單調(diào)文本,包含1-0/0-1、1-1、1-2/2-1和1-3/3-1對(duì)齊。表2顯示了該測(cè)試集的統(tǒng)計(jì)數(shù)據(jù)。

表2 OpenSubtitles(OSs)測(cè)試集的句子數(shù)量及對(duì)齊關(guān)系統(tǒng)計(jì)

3.1.2 模型設(shè)置

根據(jù)訓(xùn)練語(yǔ)料分別選擇詞頻最高的前30K個(gè)單詞作為源端詞表和目標(biāo)端詞表,分別占總詞匯量的98.4%和99.0%。對(duì)于所有不在詞表中的單詞,將其統(tǒng)一映射到特殊標(biāo)記UNK上。為了初始化本文模型的詞向量,使用由Zou等[28]提供的50維預(yù)先訓(xùn)練好的中英雙語(yǔ)詞向量,并在訓(xùn)練過(guò)程中更新詞向量。

為了有效地訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,源端和目標(biāo)端句子長(zhǎng)度被限制在50之內(nèi)。在Bi-RNN層,本文使用GRU[29]作為RNN的激活函數(shù),并設(shè)置其隱藏狀態(tài)大小為150。此時(shí),詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)層將輸出大小為3×50×50的相似性分?jǐn)?shù)矩陣。其中,設(shè)置單層神經(jīng)網(wǎng)絡(luò)(SLN)中k值為2,非線性激活函數(shù)f為tanh。在Max Pooling層,設(shè)置最大化池大小為3×3×3,并獲得維度為289的向量(即(50/3)×(50/3))。最后,在MLP層中,隱藏層大小分別設(shè)置為2 000和1 000。

在訓(xùn)練過(guò)程中,使用AdaDelta[30]來(lái)優(yōu)化模型參數(shù),其中ε=10-6、ρ=-0.95。對(duì)于除了詞向量外的所有模型參數(shù),使用[-0.1, 0.1]中的均勻分布來(lái)隨機(jī)初始化它們。此外,dropout設(shè)置為0.5,批處理大小設(shè)置為80。模型基于Theano深度學(xué)習(xí)框架開發(fā),在訓(xùn)練集上進(jìn)行10輪迭代,使用單個(gè)GeForce GTX 1080 GPU,需要約24h。

3.1.3 模型訓(xùn)練

(5)

3.1.4 Baseline系統(tǒng)

與本文提出的WPRN模型進(jìn)行比較的Baseline系統(tǒng)如下:

① aveRNN: 使用Bi-RNN對(duì)源端和目標(biāo)端句子進(jìn)行編碼,取其所有單詞隱藏狀態(tài)的平均值作為句子級(jí)別的向量表示。最后將兩個(gè)源端和目標(biāo)端句子的向量表示拼接后輸入到MLP層進(jìn)行句子對(duì)齊分類。

② attRNN: 該模型類似于aveRNN,區(qū)別在于使用結(jié)構(gòu)化注意機(jī)制[31]的方法獲得句子級(jí)別的表示[注]本文在重現(xiàn)Lin等[31]的方法時(shí)設(shè)置r=4。。

③ G&M(2017): 該模型在本文實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上重現(xiàn)了Grover和Mitra[13]提出的方法,使用余弦相似度計(jì)算相似性分?jǐn)?shù)矩陣,并使用動(dòng)態(tài)池化將其映射到固定維度上,然后使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行分類。

④ NMT: 該系統(tǒng)使用神經(jīng)機(jī)器翻譯(NMT)方法獲得在給定源端句子xi時(shí),翻譯為目標(biāo)句子yj的概率,即對(duì)源端句子xi進(jìn)行強(qiáng)制解碼,獲得目標(biāo)譯文yj的分?jǐn)?shù)[注]為了避免長(zhǎng)翻譯傾向于具有低翻譯概率的問(wèn)題,本文定義如Wu等[32]的評(píng)分函數(shù)。。本文使用基于注意力機(jī)制的NMT系統(tǒng)[2],并使用與本文相同的實(shí)驗(yàn)數(shù)據(jù)集來(lái)訓(xùn)練該NMT模型。

上述Baseline系統(tǒng)中,aveRNN和attRNN是基于句子級(jí)向量表示的方法,G&M(2017)是基于詞對(duì)相似度建模的方法,最后一個(gè)是利用NMT技術(shù)的翻譯方法。

3.1.5 評(píng)估指標(biāo)

為了評(píng)估模型的性能,本文采用精確度(P)、召回率(R)和F1值作為實(shí)驗(yàn)的評(píng)估指標(biāo)。同時(shí),計(jì)算精確度、召回率和F1值的平均性能(Micro-P/R/F1)來(lái)評(píng)估所有對(duì)齊的總體性能。

3.2 實(shí)驗(yàn)結(jié)果

3.2.1 非單調(diào)文本句子對(duì)齊

表3給出了NIST MT非單調(diào)測(cè)試集的句子對(duì)齊性能,從中可以發(fā)現(xiàn):

表3 NIST MT非單調(diào)測(cè)試集的句子對(duì)齊性能

首先,細(xì)粒度的詞級(jí)信息是判斷句子是否對(duì)齊的重要信息。WPRN模型的整體F1值分別高出aveRNN、attRNN和NMT方法36.1、15.9、和8.3的F1值,性能明顯優(yōu)于基于句子級(jí)向量表示的方法和基于機(jī)器翻譯的方法,表明將整個(gè)句子信息僅僅匯入一個(gè)句子級(jí)向量是不夠的,這容易造成句子語(yǔ)義間重要信息的丟失。同時(shí),由于NMT模型訓(xùn)練的目標(biāo)是最大化整個(gè)目標(biāo)句子的翻譯概率,并沒(méi)有強(qiáng)調(diào)詞對(duì)之間的翻譯,因此往往容易造成詞的錯(cuò)翻;而WPRN模型的目的在于獲取雙語(yǔ)句對(duì)的詞對(duì)間相關(guān)性,三種相似度計(jì)算方法可以從三種不同角度來(lái)建模詞對(duì)關(guān)系,可以在一定程度上緩解NMT模型對(duì)齊錯(cuò)誤的現(xiàn)象。

其次,WPRN模型性能高出G&M(2017)模型12.0F1值,說(shuō)明了使用不同相似度計(jì)算方法來(lái)從不同角度捕獲詞對(duì)間語(yǔ)義關(guān)系優(yōu)于僅使用一種相似度計(jì)算方法。

另外,從表3中還可以發(fā)現(xiàn)1-0/0-1對(duì)齊比1-1對(duì)齊更難識(shí)別,這也與Quan[14]中實(shí)驗(yàn)結(jié)果保持了一致。1-0/0-1對(duì)齊性能較低的一個(gè)重要原因在于本文的預(yù)測(cè)模型是判斷兩個(gè)句子是否對(duì)齊,并不是為了專門預(yù)測(cè)某個(gè)句子在另一端是否存在對(duì)齊句子。

最后,本文同時(shí)與三個(gè)現(xiàn)有的句子對(duì)齊工具進(jìn)行比較。Moore[注]https://www.dssz.com/905003.html是一種基于句子長(zhǎng)度和自動(dòng)派生的雙語(yǔ)詞典的句子對(duì)齊工具[15];Gargantua[注]https://github.com/braunefe/Gargantua是用于對(duì)稱和非對(duì)稱平行語(yǔ)料庫(kù)的無(wú)監(jiān)督句子對(duì)齊工具[16];Champollion[注]http://champollion.sourceforge.net是基于詞典的句子對(duì)齊工具,為潛在噪聲的平行文本而設(shè)計(jì)[17]。表3中的最后三行比較了它們?cè)诜菃握{(diào)文本上的對(duì)齊性能,從中可以發(fā)現(xiàn)這些句子對(duì)齊工具的性能受非單調(diào)性的影響非常嚴(yán)重,并且不適用于非單調(diào)的雙語(yǔ)文本。

3.2.2 單調(diào)文本句子對(duì)齊

本文提出的句子對(duì)齊方法同樣可以在單調(diào)文本上取得優(yōu)越的性能。如2.1節(jié)所述,本文采用動(dòng)態(tài)規(guī)劃方法[17]來(lái)獲得最優(yōu)對(duì)齊結(jié)果。表4給出了NIST MT單調(diào)測(cè)試集的性能。同時(shí),為了驗(yàn)證WPRN模型的可行性,本文也在跨領(lǐng)域的、真實(shí)的OpenSubtitles測(cè)試集上進(jìn)行了評(píng)估,對(duì)齊性能如表5所示。

表4 NIST MT單調(diào)測(cè)試集的句子對(duì)齊性能

表5 OpenSubtitles測(cè)試集的句子對(duì)齊性能

從表4和表5可以看出,使用詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)模型:

首先,OpenSubtitles測(cè)試集上的句子對(duì)齊比NIST MT測(cè)試集的句子對(duì)齊更具挑戰(zhàn)性。一方面,前者是跨領(lǐng)域數(shù)據(jù)集,而后者是領(lǐng)域內(nèi)數(shù)據(jù)集;另一方面,OpenSubtitles測(cè)試集包含1-N/N-1(N>1)的情況,句子對(duì)齊情況相對(duì)復(fù)雜。

其次,在不同類型的對(duì)齊中,1-0/0-1對(duì)齊是最難識(shí)別的,其次是1-2/2-1和3-1/1-3對(duì)齊,而1-1對(duì)齊相對(duì)簡(jiǎn)單。

對(duì)比表4和表5中WPRN和其他三種方法的性能,可以發(fā)現(xiàn)雖然現(xiàn)有的對(duì)齊工具都取得了良好的對(duì)齊性能,但WPRN模型在NIST MT測(cè)試集上取得了高達(dá)99.3的F1值,在OpenSubtitles測(cè)試集上取得了76.6的F1值,明顯優(yōu)于其他三種對(duì)齊工具,表明了監(jiān)督學(xué)習(xí)有利于提高句子對(duì)齊性能,并且WPRN模型能夠較好地捕獲句子之間的語(yǔ)義關(guān)系。

3.3 實(shí)驗(yàn)分析

3.3.1 部分非單調(diào)文本句子對(duì)齊

由于完全非單調(diào)雙語(yǔ)文本在實(shí)際應(yīng)用中很少見,而部分非單調(diào)雙語(yǔ)文本卻不是。本文根據(jù)Quan[14]的分析方法來(lái)說(shuō)明本文提出WPRN模型的實(shí)用性。本文通過(guò)隨機(jī)打亂測(cè)試數(shù)據(jù)集中0%、10%、20%、40%、60%、80%、100%的句子來(lái)構(gòu)建七個(gè)版本測(cè)試集,測(cè)試WPRN方法的性能,如圖3所示。理論上,文本的非單調(diào)性比例對(duì)本文方法的性能沒(méi)有影響,因此,對(duì)于任意比例的非單調(diào)性文本應(yīng)有相同的性能,圖3也表明了這一點(diǎn)。從圖3中還可以發(fā)現(xiàn)Moore、Gargantua和Champollion在近似單調(diào)文本上表現(xiàn)出良好的性能,但是當(dāng)非單調(diào)比例增加時(shí),它們的性能顯著下降。此外,當(dāng)文本幾乎完全單調(diào)時(shí),WPRN模型的性能也優(yōu)于其他方法,說(shuō)明本文的方法適用范圍更加廣泛。

圖3 WPRN模型在不同程度的非單調(diào)文本上的性能

3.3.2 實(shí)例分析

本文以相同的源端句子和不同的目標(biāo)端句子為例,來(lái)說(shuō)明WPRM模型相比于其他模型的優(yōu)越性。如表6所示,其中(Source, Target1)不是相互對(duì)齊的句對(duì),而基于句子級(jí)向量(如aveRNN和attRNN)的方法將它們預(yù)測(cè)為高概率(即對(duì)齊概率0.98和0.81)的對(duì)齊句對(duì)。另外,雖然C&M(2017)方法也預(yù)測(cè)出它們不是對(duì)齊句對(duì),但WPRN模型給出了更接近于0的對(duì)齊概率。(Source, Target2)是相互對(duì)齊的句對(duì),所有方法都正確地將其預(yù)測(cè)為對(duì)齊句對(duì),但概率值之間存在相當(dāng)大的差異。例如,aveRNN獲得了0.91的概率值,甚至低于與Target1對(duì)齊的概率,說(shuō)明基于句子級(jí)向量的方法雖然能進(jìn)行句子對(duì)齊任務(wù),但性能并不理想;C&M(2017)雖然獲得了0.67的概率值,但在最終對(duì)齊策略中很容易將其判斷為不對(duì)齊句對(duì);而WPRN獲得了幾乎100%的概率。同時(shí),從(Source, Target2)句對(duì)中可以發(fā)現(xiàn)(鮑爾, powell)、(視察, inspect)、(泰國(guó), Thailand)、(印尼, Indonesia)、(斯里蘭卡, lanka)、(災(zāi)情, disaster)、(高峰, summit)等許多一一對(duì)應(yīng)的同義詞對(duì),而(Source, Target1)句對(duì)中幾乎沒(méi)有同義詞對(duì),WPRN分別給出了0.05和0.999 6的對(duì)齊預(yù)測(cè)概率,準(zhǔn)確地判斷兩個(gè)句對(duì)之間的對(duì)齊關(guān)系。上述兩個(gè)例子對(duì)比表明了詞級(jí)信息是判斷句子對(duì)齊的重要信息,WPRN模型能夠較好地捕獲詞對(duì)間的語(yǔ)義關(guān)系,從而能夠更準(zhǔn)確地判斷句對(duì)之間關(guān)系。

4 總結(jié)

本文提出了一種基于詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)(WPRN)的句子對(duì)齊方法,該方法的主要特點(diǎn)是采用不同的相似性度量方法從不同的角度捕捉單詞對(duì)的語(yǔ)義交互信息。在非單調(diào)和單調(diào)文本上的實(shí)驗(yàn)結(jié)果表明,對(duì)詞對(duì)間的相似性建模是進(jìn)行句子對(duì)齊任務(wù)至關(guān)重要的步驟,詞對(duì)關(guān)聯(lián)網(wǎng)絡(luò)能夠有效準(zhǔn)確地捕獲詞對(duì)間的語(yǔ)義信息。在將來(lái)的工作中,將進(jìn)一步改進(jìn)現(xiàn)有的WPRN模型,同時(shí)探索研究從可比語(yǔ)料庫(kù)中提取平行句對(duì)、提高跨領(lǐng)域文本的句子對(duì)齊性能等,這將更具挑戰(zhàn)性。

猜你喜歡
單調(diào)向量單詞
向量的分解
單調(diào)任意恒成立,論參離參定最值
聚焦“向量與三角”創(chuàng)新題
數(shù)列的單調(diào)性
數(shù)列的單調(diào)性
單詞連一連
對(duì)數(shù)函數(shù)單調(diào)性的應(yīng)用知多少
看圖填單詞
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
象山县| 镇康县| 酒泉市| 龙南县| 淮滨县| 岳西县| 肇东市| 和政县| 佛山市| 临西县| 南木林县| 吉安县| 子长县| 沾化县| 岚皋县| 海盐县| 湘潭市| 晴隆县| 石泉县| 方山县| 望奎县| 永嘉县| 姜堰市| 长丰县| 全椒县| 沙河市| 久治县| 雷波县| 鄂州市| 林州市| 赣榆县| 新河县| 大理市| 宜阳县| 海淀区| 松潘县| 衢州市| 株洲市| 田东县| 乃东县| 中江县|