国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對比注意力機(jī)制的跨語言句子摘要系統(tǒng)

2020-05-20 10:22:42殷明明史小靜俞鴻飛段湘煜
計(jì)算機(jī)工程 2020年5期
關(guān)鍵詞:源端語料平行

殷明明,史小靜,俞鴻飛,段湘煜

(蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

0 概述

句子摘要是將源端句子中的主要思想進(jìn)行抽取和概況,并以摘要短語的形式呈現(xiàn)。句子摘要系統(tǒng)通過快速瀏覽句子以獲取其中的主要信息,再對該信息進(jìn)行重寫生成相對應(yīng)的摘要短語。在已有研究中,多數(shù)學(xué)者主要是針對單語進(jìn)行句子摘要[1-2],即源端句子和目標(biāo)端摘要短語屬于同種語言,但基于單語的形式嚴(yán)重阻礙了人們快速獲取不同語言文本中所包含的主要信息。與基于單語的句子摘要任務(wù)不同,現(xiàn)實(shí)中跨語言的句子摘要缺少大量的平行語料以供使用,屬于零樣本學(xué)習(xí)問題。在大規(guī)模單語句子摘要系統(tǒng)的平行語料和神經(jīng)機(jī)器翻譯系統(tǒng)的跨語言平行語料基礎(chǔ)上,可將兩個(gè)系統(tǒng)相結(jié)合以解決該零樣本學(xué)習(xí)問題。

由于單語的句子摘要系統(tǒng)存在大規(guī)模的平行語料,因此采用神經(jīng)網(wǎng)絡(luò)構(gòu)建序列到序列(seq2seq)的模型。在平行語料中,源端序列是長句子文本,目標(biāo)端是與之對應(yīng)的摘要短語。該系統(tǒng)利用編碼器將源端序列編碼成固定維度的向量空間,再通過解碼器解碼出具體的摘要短語。神經(jīng)網(wǎng)絡(luò)的廣泛使用使得神經(jīng)機(jī)器的翻譯性能有了顯著提升[3-4]。目前,主流的神經(jīng)機(jī)器翻譯方法[5-6]主要包括基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的神經(jīng)機(jī)器翻譯方法[7-8]、基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的神經(jīng)機(jī)器翻譯方法[9]和基于完全注意力機(jī)制的神經(jīng)機(jī)器翻譯方法(Transformer)[7],其中Transformer在各類數(shù)據(jù)集上的表現(xiàn)上相比于其他方法具有明顯優(yōu)勢。

早期學(xué)者對于跨語言摘要任務(wù)的研究主要利用抽取和壓縮的方法。通過從原文檔中抽取關(guān)鍵的句子進(jìn)行翻譯,再采用壓縮方法刪除翻譯譯文中最不相關(guān)的信息。單純抽取和壓縮得到的摘要短語不能安全包含源句中的主要含義。在近期研究中,文獻(xiàn)[8]提出利用神經(jīng)網(wǎng)絡(luò)構(gòu)建序列到序列的跨語言句子摘要系統(tǒng),將單語平行語料中目標(biāo)端的摘要短語通過神經(jīng)機(jī)器翻譯系統(tǒng)翻譯成另外一種語言的摘要短語,與源端長句共同構(gòu)建跨語言的偽平行語料對。在此基礎(chǔ)上借鑒神經(jīng)機(jī)器翻譯中的“老師-學(xué)生”框架[6],將單語句子生成式摘要模型作為“老師”,跨語言句子生成式摘要模型作為“學(xué)生”。

本文借鑒回譯思想[10-11],將單語句子摘要平行語料中的源端通過神經(jīng)機(jī)器翻譯系統(tǒng)翻譯成另外一種語言,與句子摘要平行語料中真實(shí)目標(biāo)端的摘要短語構(gòu)成跨語言的偽平行語料。另外,句子摘要將從源端長句中抽取出的主要信息以摘要短語的形式進(jìn)行呈現(xiàn),然而,源端和目標(biāo)端句子長度存在較大差異。在序列到序列模型中傳統(tǒng)注意力機(jī)制主要是使目標(biāo)端獲取與源端最相關(guān)的信息,但在句子摘要生成過程中,由于較短目標(biāo)端摘要短語需從較長的源端獲取最相關(guān)的信息,因此源端和目標(biāo)端句子長度的不匹配使得傳統(tǒng)注意力機(jī)制不再適用于此類情況。為解決該問題,本文提出對比注意力機(jī)制,通過該機(jī)制使目標(biāo)端可從源端中獲取最不相關(guān)的信息。

1 相關(guān)工作

1.1 單語的句子摘要

針對單語的句子摘要問題,學(xué)者提出一些基于統(tǒng)計(jì)模型和神經(jīng)網(wǎng)絡(luò)的方法。由于基于統(tǒng)計(jì)模型的方法需構(gòu)建大規(guī)模單語句子摘要的平行語料,因此基于神經(jīng)網(wǎng)絡(luò)的方法逐漸成為主流方式。文獻(xiàn)[12]采用帶有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建序列到序列的句子摘要系統(tǒng),學(xué)者們在此基礎(chǔ)上進(jìn)行了深入研究,例如文獻(xiàn)[13]融入豐富的語言學(xué)信息以擴(kuò)大詞典,文獻(xiàn)[14]增強(qiáng)了摘要主題,文獻(xiàn)[15]對編碼器添加選擇門機(jī)制。在文檔級別的摘要任務(wù)中,文獻(xiàn)[16]將原始文本轉(zhuǎn)化為相應(yīng)的抽象語義表示圖,再通過語義字典過濾抽象語義表示圖中的冗余信息。文獻(xiàn)[17]提出融合Doc2Vec模型、K-means算法和TextRank算法的自動提取摘要系統(tǒng)。

1.2 跨語言的句子摘要

早期學(xué)者未對跨語言句子摘要進(jìn)行較多研究,而是主要關(guān)注于跨語言文檔級別的摘要研究。文獻(xiàn)[18]對原文檔中句子進(jìn)行打分,選擇最優(yōu)句子進(jìn)行翻譯形成摘要,并且基于抽取式摘要模型設(shè)計(jì)兩個(gè)圖,圖中包含雙語的信息。文獻(xiàn)[19]利用翻譯和解析信息引入雙語概念和特征,生成跨語言多文檔摘要。文獻(xiàn)[8]利用“老師-學(xué)生”框架完成跨語言句子摘要模型的訓(xùn)練過程,而本文摒棄了復(fù)雜的“老師-學(xué)生”框架,通過對比注意力機(jī)制來彌補(bǔ)傳統(tǒng)注意力機(jī)制的不足,從而加強(qiáng)跨語言的句子摘要能力。

2 跨語言句子摘要系統(tǒng)

2.1 基準(zhǔn)模型

在實(shí)驗(yàn)中,本文選擇標(biāo)準(zhǔn)Transformer模型作為單語句子摘要模型和神經(jīng)機(jī)器翻譯模型。Transformer與循環(huán)神經(jīng)網(wǎng)絡(luò)及卷積神經(jīng)網(wǎng)絡(luò)不同,其完全基于注意力機(jī)制實(shí)現(xiàn)。在該模型中包含編碼器-解碼器結(jié)構(gòu),編碼器將源端序列信息編碼成固定維度隱藏層向量,解碼器從源端隱藏層向量中解碼出具體的目標(biāo)端序列,編碼器與解碼器之間通過注意力機(jī)制實(shí)現(xiàn)連接。

Transformer中主要采用縮放的點(diǎn)乘注意力機(jī)制,具體公式如下:

(1)

其中,Q、K、V分別為問題向量、關(guān)鍵字向量和值向量,dk為向量K的維度,激活函數(shù)softmax返回在向量V上的權(quán)重概率分布,函數(shù)Attention(Q,K,V)生成與當(dāng)前時(shí)刻最相關(guān)的上下文信息。

在整個(gè)Transformer模型中,縮放的點(diǎn)乘注意力機(jī)制主要應(yīng)用如下:

1)自注意力機(jī)制(Self-Attention),在編碼器端和解碼器端都采用自注意力機(jī)制。在編碼器端,向量Q是源端序列中當(dāng)前位置的隱藏層向量,而向量K和向量V為整個(gè)源端序列中所有位置隱藏層向量組成的向量矩陣。與編碼器端不同,在解碼器端的序列是從左向右依次解碼,對于當(dāng)前位置而言后面位置的信息不可見。因此,在解碼器端對于向量矩陣K和向量矩陣V當(dāng)前位置往后的信息需要通過掩碼矩陣進(jìn)行掩碼,而向量Q與編碼器端相同,為目標(biāo)端序列當(dāng)前位置的隱藏層向量。

2)編碼器-解碼器注意力機(jī)制(Encoder-Decoder Attention),與傳統(tǒng)序列到序列模型中的注意力機(jī)制類似,通過目標(biāo)端當(dāng)前位置的信息獲取源端序列中最相關(guān)的信息。向量Q為解碼器端當(dāng)前位置的隱藏層向量,向量K和向量V為編碼器中源端序列中所有位置隱藏層向量組成的向量矩陣。

另外,在上述兩種注意力機(jī)制中都采用多頭的注意力機(jī)制。將向量Q、向量K和向量V切分成更小維度的向量,通過不同視角獲取多樣的注意力信息。切分的維度等于最初向量維度的1/h,其中h為切分的頭數(shù)目。具體地,將向量Q、向量K和向量V維度設(shè)置為512維,分為8個(gè)頭,即每個(gè)向量被分為8份,每一份為64維。在此基礎(chǔ)上將每一個(gè)頭的向量通過式(1)計(jì)算注意力信息,最終將各頭的注意力信息進(jìn)行拼接再次映射成512維,具體公式如下:

MultiHead=Concat(head1,head2,…,headh)WO

(2)

(3)

2.2 管道方法

單語句子摘要系統(tǒng)是一個(gè)端到端的實(shí)現(xiàn)方式,即給定源端輸入后通過模型得到具體的摘要短語輸出,但是對于跨語言句子摘要任務(wù)而言不存在類似的端到端系統(tǒng)。因此,本文通過兩步方式實(shí)現(xiàn)跨語言句子摘要。首先預(yù)訓(xùn)練一個(gè)單語摘要系統(tǒng)和一個(gè)翻譯系統(tǒng),然后將兩個(gè)系統(tǒng)結(jié)合生成最終的跨語言摘要系統(tǒng)。具體實(shí)現(xiàn)過程有如下兩種方式:

1)先摘要-后翻譯,記作Pipeline-ST。給定具體語言的源端句子,先通過單語摘要系統(tǒng)生成同語言的摘要短語,再使用翻譯系統(tǒng)將生成的摘要短語翻譯成另一種語言的摘要短語。

2)先翻譯-后摘要,記作Pipeline-TS。與上述方法相反,先將具體語言的源端句子使用翻譯系統(tǒng)翻譯成另一種語言,再對該句子使用單語句子摘要系統(tǒng)生成最終的摘要短語。

2.3 回譯方法

由于大規(guī)模的單語句子摘要平行語料的存在,使得基于神經(jīng)網(wǎng)絡(luò)的單語摘要系統(tǒng)得到廣泛應(yīng)用,但是跨語言句子摘要不存在任何相關(guān)的平行語料,因此在實(shí)驗(yàn)過程中本文借鑒機(jī)器翻譯中的回譯方法,通過此方法構(gòu)建偽語料以供使用。

在機(jī)器翻譯領(lǐng)域,訓(xùn)練模型需要使用大量的平行語料,通常構(gòu)建平行語料需要花費(fèi)巨大的人力物力,但是現(xiàn)實(shí)中存在大量的單語語料,因此可通過回譯方法將單語語料翻譯成與平行語料中源端相同語言的文本,構(gòu)成具備真實(shí)目標(biāo)端的偽平行語料,然后使用該偽語料對原有的平行語料進(jìn)行數(shù)據(jù)擴(kuò)充。

本文采用回譯思想,借用機(jī)器翻譯系統(tǒng)將單語句子摘要的平行語料中的源端翻譯成另一種語言,構(gòu)成具有虛假源端和真實(shí)目標(biāo)端的跨語言句子摘要的偽平行語料。與文獻(xiàn)[8]方法不同,本文將單語句子摘要平行語料中的目標(biāo)端通過機(jī)器翻譯系統(tǒng)生成另一種語言文本,形成由真實(shí)源端和虛假目標(biāo)端共同構(gòu)成的跨語言句子摘要的偽平行語料。

本文實(shí)現(xiàn)了從中文句子到英文摘要短語的過程,使用預(yù)訓(xùn)練的英文到中文的神經(jīng)機(jī)器翻譯系統(tǒng)將英文單語句子摘要語料中的源端翻譯成中文文本,再與該數(shù)據(jù)中英文目標(biāo)端構(gòu)成跨語言句子摘要的偽平行語料,如圖1所示。其中,實(shí)線框表示真實(shí)數(shù)據(jù),虛線框表示偽數(shù)據(jù),實(shí)線雙箭頭表示真實(shí)平行語料,虛線雙箭頭表示偽平行語料,NMT表示使用機(jī)器翻譯模型進(jìn)行翻譯。

圖1 回譯過程

2.4 對比注意力機(jī)制

與機(jī)器翻譯不同,句子摘要任務(wù)中需保留源端序列中的主要信息,并過濾次要信息。文獻(xiàn)[15]在編碼器中添加選擇門機(jī)制,通過選擇門機(jī)制過濾源端序列中的次要信息。本文在Transformer基準(zhǔn)系統(tǒng)上添加對比注意力機(jī)制來獲取源端序列中不重要的信息。

本文將序列到序列結(jié)構(gòu)中的編碼器-解碼器注意力機(jī)制定義為傳統(tǒng)注意力機(jī)制,用來獲取源端序列中的主要信息。如圖2所示,標(biāo)準(zhǔn)Transformer結(jié)構(gòu)包含編碼器、解碼器以及傳統(tǒng)編碼器-解碼器注意力機(jī)制,對比注意力機(jī)制包含注意力轉(zhuǎn)換(Attention Transfer)、反向注意力(Opponent Attention)和反向概率分布(Opponent Probability)。除此之外,Transformer模型結(jié)構(gòu)中通常采用的是多層疊加結(jié)構(gòu),前一層的輸出作為下一層的輸入,其中Nx表示N層相同結(jié)構(gòu)的疊加,但在反向注意力結(jié)構(gòu)中只采用一層結(jié)構(gòu)。本文將αc定義為傳統(tǒng)注意力機(jī)制的注意力權(quán)重,具體公式如下:

(4)

圖2 對比注意力機(jī)制的模型結(jié)構(gòu)

將αo定義為對比注意力機(jī)制的注意力權(quán)重,對比注意力機(jī)制通過傳統(tǒng)注意力機(jī)制轉(zhuǎn)換而來,具體公式如下:

αo=softmax(α′c)

(5)

Attentiono(Q,K,V)=αoVL,h

(6)

其中,α′c是將傳統(tǒng)注意力權(quán)重αc中最大的權(quán)重值重新賦值為-inf,使其經(jīng)過激活函數(shù)softmax后使αo對應(yīng)的權(quán)重變?yōu)?。將傳統(tǒng)注意力機(jī)制轉(zhuǎn)換為對比注意力機(jī)制的主要目的是將傳統(tǒng)注意力機(jī)制中與源端最相關(guān)信息在對比注意力機(jī)制中變?yōu)樽畈幌嚓P(guān)信息。VL,h和KL,h是相同的向量矩陣,為編碼器端最后一層的第h個(gè)頭對應(yīng)的源端所有位置的隱藏層向量組成的向量矩陣。在此方法中,傳統(tǒng)注意力機(jī)制獲取源端與目標(biāo)端最相關(guān)的信息,而對比注意力機(jī)制則獲取目標(biāo)端與源端序列中最不相關(guān)的信息。

具體地,在Transformer基準(zhǔn)系統(tǒng)中主要包含6層相同的子結(jié)構(gòu),并且每一層包含8個(gè)頭的傳統(tǒng)注意力機(jī)制。本文通過分析跨語言摘要偽平行語料在基準(zhǔn)系統(tǒng)上每一層每一個(gè)頭的傳統(tǒng)注意力對齊情況,發(fā)現(xiàn)第5層的第7個(gè)頭的傳統(tǒng)注意力對齊效果最佳。因此,在實(shí)驗(yàn)過程中將第5層的第7個(gè)頭的傳統(tǒng)注意力機(jī)制轉(zhuǎn)換為對比注意力機(jī)制,即將所對應(yīng)的注意力權(quán)重分布中最大的權(quán)重重新賦值為-inf。除此之外,Transformer基準(zhǔn)系統(tǒng)是6層子結(jié)構(gòu),但是在對比注意力機(jī)制中僅有一層結(jié)構(gòu)。

2.5 訓(xùn)練與解碼

Transformer結(jié)構(gòu)中除了注意力機(jī)制還需要經(jīng)過層正則化(Layer Normalization)、殘差連接(Residual Connection)、前饋網(wǎng)絡(luò)(Feed Forward)和激活函數(shù)softmax,最終得到候選詞的概率分布。具體地,給定一對平行語料,其中,源端X={x1,x2,…,xn},目標(biāo)端Y={y1,y2,…,ym}。在訓(xùn)練過程中,通過激勵傳統(tǒng)注意力機(jī)制獲取源端最相關(guān)信息并生成目標(biāo)端候選詞的最大化概率Pc(yi|y[1:(i-1)],X)。

在傳統(tǒng)注意力機(jī)制中,通過激活函數(shù)softmax激勵模型獲取源端序列中的最相關(guān)信息,但是在對比注意力機(jī)制中需懲罰最相關(guān)信息,從而獲得不相關(guān)信息。因此,在對比注意力機(jī)制中將傳統(tǒng)注意力機(jī)制中的激活函數(shù)softmax替換成softmin,具體公式如下:

z1=LayerNorm(Attentiono)

(7)

z2=FeedForward(z1)

(8)

z3=LayerNorm(z1+z2)

(9)

Po(yi|y[1:(i-1)],X)=softmin(Wz3)

(10)

其中,W是模型訓(xùn)練參數(shù)。激活函數(shù)softmin和訓(xùn)練目標(biāo)分別如下:

(11)

L=loga(Pc(yi|y[1:(i-1)]))+

λloga(Po(yi|y[1:(i-1)]))

(12)

其中,λ為平衡因子。在解碼時(shí),模型通過束搜索尋找最大化函數(shù)L。

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)現(xiàn)了一個(gè)中文句子到英文摘要短語的系統(tǒng)。訓(xùn)練集主要使用單語句子摘要的平行語料和英中機(jī)器翻譯的平行語料。由于不存在跨語言句子摘要的測試集,將單語句子摘要的平行語料中的源端英文句子通過人工翻譯為中文句子,構(gòu)成標(biāo)準(zhǔn)的{中文句子,英文摘要短語}測試集。

3.1 數(shù)據(jù)集

單語句子摘要的平行語料使用的是帶有注釋的Gigaword[20],對該數(shù)據(jù)的處理方式與文獻(xiàn)[12]一致,將每一篇文章的第一句作為源端句子與該篇文章的標(biāo)題構(gòu)成平行語料對。經(jīng)處理后該數(shù)據(jù)集中共包含約380萬對的訓(xùn)練集,8 000對驗(yàn)證集和1 951對測試集。另外,也使用DUC-2004[21]作為測試集,該數(shù)據(jù)中包含500篇文檔,每一篇文檔對應(yīng)4種人工生成的摘要。

本文還使用英文到中文的機(jī)器翻譯系統(tǒng)。訓(xùn)練該系統(tǒng)使用的英中平行語料是從LDC中抽取的125萬句英中平行語句對,其中包括LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07、LDC2004T08和LDC2005T06中的議會議事錄部分。選擇NISTMT02、NISTMT03、NISTMT04、NISTMT05、NISTMT08作為測試集,NISTMT06作為驗(yàn)證集。

在實(shí)驗(yàn)過程中,從Gigaword數(shù)據(jù)的驗(yàn)證集中隨機(jī)抽取2 000個(gè)句對,并將該句對中的源端使用人工翻譯成對應(yīng)的中文作為跨語言句子摘要系統(tǒng)的驗(yàn)證集。同時(shí),將Gigaword數(shù)據(jù)集中的測試集和DUC-2004數(shù)據(jù)中的源端翻譯成對應(yīng)中文,作為本文跨語言句子摘要任務(wù)的標(biāo)準(zhǔn)測試集。除此之外,為實(shí)驗(yàn)公平起見,參照文獻(xiàn)[8]方法使用大規(guī)模的中文短文本摘要平行語料LCSTS[22],該語料主要從新浪微博上收集整理,其中,訓(xùn)練集包含約240萬對平行語料,測試集包含725對平行語料。

3.2 實(shí)驗(yàn)參數(shù)

本文英中翻譯系統(tǒng)和句子摘要系統(tǒng)中都使用Transformer作為基本結(jié)構(gòu),具體代碼實(shí)現(xiàn)基于Fairseq。該結(jié)構(gòu)中編碼器和解碼器都設(shè)為6層,其中多頭注意力機(jī)制使用8個(gè)頭,詞向量及隱藏層維度都設(shè)置為512維,Adam優(yōu)化器,初始學(xué)習(xí)率為0.000 5,β1=0.9,β2=0.99,ε=10-9,其他參數(shù)與文獻(xiàn)[7]相同。在單語句子摘要系統(tǒng)中,共享編碼器和解碼器中的詞向量。解碼時(shí)使用束搜索方法,束搜索寬度設(shè)置為12,最大句長設(shè)置為50。

在實(shí)驗(yàn)過程中,采用BPE[23]技術(shù)處理語料中的低頻詞問題,BPE大小設(shè)置為32 000。在單語句子摘要任務(wù)中源端和目標(biāo)端使用聯(lián)合BPE的方式。另外,對于人工翻譯得到的中文文本,首先使用分詞工具Jieba進(jìn)行分詞,然后使用BPE進(jìn)行處理。

3.3 評測標(biāo)準(zhǔn)

本文使用ROUGE[24]作為評測腳本。對于Gigaword測試集,測試其全長度的F值得分,其中包括ROUGE-1(R-1)、ROUGE-2(R-2)和ROUGE-L(R-L)。在DUC-2004測試集上,文獻(xiàn)[8]提出使用全長度的F值作為評測標(biāo)準(zhǔn)。因?yàn)檎倩芈实梅峙c生成序列的長度相關(guān),所以為公平起見使用全長度的F值得分作為評測標(biāo)準(zhǔn),本文也采用該評測方法。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 超參數(shù)確定

在實(shí)驗(yàn)過程中的主要超參數(shù)是式(12)中的平衡因子λ,其用于平衡傳統(tǒng)注意力機(jī)制和對比注意力機(jī)制,如果λ越大,則系統(tǒng)生成候選詞的概率分布越偏向于對比注意力機(jī)制。本文分別設(shè)置λ為0.2、0.4和0.6,根據(jù)其對應(yīng)模型在驗(yàn)證集上的具體表現(xiàn)選擇最終的λ。如表1所示,當(dāng)λ取0.4時(shí)在驗(yàn)證集上的ROUGE得分最高,因此本文系統(tǒng)中λ設(shè)定為0.4。

表1 不同平衡因子λ時(shí)的ROUGE得分

3.4.2 對比注意力機(jī)制中的K值確定

在對比注意力機(jī)制中,將傳統(tǒng)注意力的權(quán)重分布中最大的K個(gè)值重新賦值為-inf,使其在對比注意集中經(jīng)過再次softmax后所對應(yīng)的權(quán)重值變?yōu)?,即在傳統(tǒng)注意力權(quán)重中最相關(guān)的信息在對比注意力機(jī)制中變?yōu)榇我畔ⅰT诖嘶A(chǔ)上,分析對比注意力機(jī)制選取不同K值在驗(yàn)證集上的ROUGE得分。如表2所示,當(dāng)K值取1時(shí)對比注意力機(jī)制在驗(yàn)證集上表現(xiàn)最優(yōu)。因此,在本文實(shí)驗(yàn)中將K值設(shè)置為1。

表2 不同K值時(shí)的ROUGE得分

3.4.3 單語句子摘要系統(tǒng)實(shí)驗(yàn)結(jié)果

Transformer模型在神經(jīng)機(jī)器翻譯領(lǐng)域取得顯著成效,但是其在摘要任務(wù)中尚未有深入的研究。本文使用Transformer作為句子摘要基準(zhǔn)系統(tǒng),實(shí)驗(yàn)結(jié)果表明該系統(tǒng)在單語句子摘要測試集上性能表現(xiàn)較好。

如表3所示,ABS[12]和ABS+[12]使用注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建單語句子摘要;SEASS[15]通過在編碼端增加選擇門機(jī)制,對源端信息進(jìn)行選擇性編碼;Actor-Critic[14]在序列到序列的模型基礎(chǔ)上引入增強(qiáng)學(xué)習(xí)方法;FactAware[25]利用開放式信息抽取和依存關(guān)系來描述源端文本中的信息。本文在Transformer結(jié)構(gòu)的基礎(chǔ)上,對訓(xùn)練集采用BPE預(yù)處理,定義為Transformer-BPE,其在Gigaword和DUC-2004測試集上均達(dá)到較高的水平,并且在跨語言句子摘要中采用相同的處理方法。

表3 單語句子摘要系統(tǒng)的ROUGE得分

Table 3 ROUGE scores of monolingual sentence summary systems

系統(tǒng)GigawordDUC-2004R-1R-2R-LR-1R-2R-LABS[12]29.6011.3026.4026.557.0622.05ABS+[12]29.8011.9027.0028.188.4923.81SEASS[15]36.2017.5033.6029.209.6025.50Actor-Critic[14]36.1017.9034.30———FactAware[25]37.3017.7034.20———Transformer37.1018.2034.4030.6010.5026.60Transformer-BPE38.1019.1035.2031.2010.7027.10

3.4.4 機(jī)器翻譯系統(tǒng)實(shí)驗(yàn)結(jié)果

在Pseudo-Source方法中,本文將英文的源端通過機(jī)器翻譯系統(tǒng)生成對應(yīng)的中文譯文,因此需提前訓(xùn)練一個(gè)英中的翻譯系統(tǒng)。使用Transformer作為翻譯系統(tǒng),訓(xùn)練集是約125萬的LDC中英數(shù)據(jù)集,測試集分別使用NIST02、NIST03、NIST04、NIST05和NIST08,驗(yàn)證集是NIST06并使用multi-bleu.perl作為評測腳本。

如表4所示,本文分別呈現(xiàn)了中英(Our Transformer Ch2En)和英中(Our Transformer En2Ch)兩個(gè)方向的翻譯得分。在中英翻譯系統(tǒng)中,每個(gè)NIST測試集包含4個(gè)人工生成的英文參考集。在英中翻譯系統(tǒng)中,將中英的測試集交換語向,同時(shí)每個(gè)NIST測試集分別測試4個(gè)參考集的得分,最后4個(gè)參考集的平均得分作為該NIST測試集的最終得分。將本文翻譯系統(tǒng)與Robust Translation[26]系統(tǒng)做對比,該系統(tǒng)是中英翻譯系統(tǒng),采用與本文相同的訓(xùn)練集及模型結(jié)構(gòu),在NIST02測試集上,本文Our Transformer Ch2En系統(tǒng)的得分低于該系統(tǒng),但在平均得分上本文系統(tǒng)更具優(yōu)勢。

表4 中英和英中翻譯系統(tǒng)在NIST測試集上的BLEU得分

Table 4 BLEU scores of Chinese-English and English-Chinese translation system on the NIST testing set

測試集RobustTranslationOurTransformerCh2EnOurTransformerEn2ChNIST0246.1045.5839.38NIST0344.0745.1934.48NIST0445.6146.8038.10NIST0544.0646.5636.20NIST0834.9437.2730.80平均值42.9644.2835.79

3.4.5 跨語言句子摘要系統(tǒng)實(shí)驗(yàn)結(jié)果

跨語言句子摘要系統(tǒng)得分如表5所示,其中前兩個(gè)系統(tǒng)基于管道方法,其作為跨語言句子摘要的基準(zhǔn)系統(tǒng)。Pseudo-Target[8]實(shí)現(xiàn)了英文句子到中文摘要的過程,使用的摘要系統(tǒng)是基于LSTM的模型結(jié)構(gòu),未使用BPE技術(shù)處理低頻詞。為實(shí)驗(yàn)公平起見,在Transformer-BPE的基礎(chǔ)上進(jìn)行Pseudo-Target從中文句子到英文摘要的實(shí)現(xiàn)。Pseudo-Target實(shí)驗(yàn)結(jié)果差于管道方法,主要原因?yàn)?1)Pseudo-Target中構(gòu)建了目標(biāo)端的偽語料,使模型訓(xùn)練過程中不能得到真實(shí)生成詞的概率分布P(yi|y[1:(i-1)],X);2)在重現(xiàn)過程中,使用中文摘要語料LCSTS,該語料與Gigaword和DUC-2004具有一定的差異性。

表5 跨語言句子摘要系統(tǒng)的ROUGE得分

Table 5 ROUGE scores of cross-lingual sentence summary systems

系統(tǒng)GigawordDUC-2004R-1R-2R-LR-1R-2R-LPipeline-TS25.809.7023.6023.676.7820.92Pipeline-ST22.007.0020.9020.885.3318.32Pseudo-Target[8]21.506.6019.6019.334.2916.97Pseudo-Source27.9010.9025.6024.376.6421.39Contrastive-Attention29.4011.3027.1024.576.7121.72

本文提出的基于序列到序列的跨語言句子摘要系統(tǒng)的具體實(shí)驗(yàn)結(jié)果如表5中最后兩行所示。Pseudo-Source通過回譯將Gigaword語料中源端通過機(jī)器翻譯系統(tǒng)生成對應(yīng)的中文文本,與該語料中目標(biāo)端構(gòu)成了跨語言句子摘要的偽平行語料,用于訓(xùn)練序列到序列模型。該方法的BLEU得分相對于兩種基準(zhǔn)系統(tǒng)有顯著的提升,基準(zhǔn)系統(tǒng)主要是通過翻譯系統(tǒng)和摘要系統(tǒng)得到最終結(jié)果,兩種系統(tǒng)之間存在一定的差異性,從而導(dǎo)致摘要水平明顯低于序列到序列模型。

在Contrastive-Attention方法中,目標(biāo)端通過傳統(tǒng)注意力機(jī)制獲取源端與之最相關(guān)的信息,同時(shí)通過對比注意力機(jī)制獲取源端最不相關(guān)的信息,聯(lián)合兩者進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,Contrastive-Attention相對于Pseudo-Source有極大的性能提升,達(dá)到基于單語句子摘要的平行語料[12]效果。

4 跨語言句子摘要實(shí)例

下文列舉了不同句子摘要系統(tǒng)生成的跨語言句子摘要實(shí)例如例1、例2所示,將本文跨語言系統(tǒng)生成的例句優(yōu)于基于管道方法的單語句子摘要系統(tǒng)的結(jié)果部分進(jìn)行加粗。通過例句可以看出本文系統(tǒng)生成的摘要短語明顯優(yōu)于基于管道方法的單語句子摘要系統(tǒng),并且短語更加流暢,更加符合人類語言的表述方式。

例1

Ch-Sentence:意大利 左翼 反對派 在 # 月 選舉 失敗 后 , 希望 利用 反對 削減 教育 開支 的 抗議 活動 ,重新 獲得 反對 總理 西爾 維奧 - 貝盧斯科尼 政府 的 主動權(quán) 。

En-Sentence:italy’s leftwing opposition,bruised by its election defeat in april,is hoping to take advantage of protests against education spending cuts to regain the initiative against the government of prime minister silvioberlusconi.

Reference:italian opposition seeks to UNK on education protests.

Pipline-TS:italy’s left party hopes to gain initiative of government.

Pipline-ST:italian left - wing opposition hopes to regain the government ’s initiative.

Pseudo-Target:italian left wing calls foroppositiontobudgetcuts.

Pseudo-Source:italy’s left seeks to rally opposition to education cuts.

Contrastive-Attention:italianoppositiontoprotestseducationcuts.

例2

Ch-Sentence:周一 早間 交易 中 , 蘭特 對 美元 的 匯率 略有 走軟 , 開盤 于 #.#### / ## 對 美元 的 比價(jià) 是 ####年 ## 月 ## 日 收盤 時(shí) 的 #.#### / ##% 。

En-Sentence:the rand was slightly weaker against the dollar in early trade here monday,opening at #.#### / ## to the greenback compared to its close friday of #.#### / ##.

Reference:rand slightly weaker against dollar in early trade.

Pipline-TS:foreign exchange rates in malaysia.

Pipline-ST:randt’s exchange rate against us dollar slightly soft.

Pseudo-Target:foreign exchange rates in hongkong.

Pseudo-Source:yuanweakensagainstdollarinearlytrading.

Contrastive-Attention:randweakeragainstdollarinearlytrading.

5 結(jié)束語

本文設(shè)計(jì)一種序列到序列的跨語言句子摘要系統(tǒng),通過回譯方法構(gòu)建偽平行語料,解決跨語言句子摘要缺少平行語料的問題,并引入對比的注意力機(jī)制捕獲源端與目標(biāo)端中的不相關(guān)信息。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)相比基于管道方法的單語句子摘要系統(tǒng)整體性能有了較大提升。后續(xù)將通過無監(jiān)督學(xué)習(xí)的方式構(gòu)建序列到序列的句子摘要模型,進(jìn)一步提高跨語言的句子摘要質(zhì)量。

猜你喜歡
源端語料平行
向量的平行與垂直
平行
逃離平行世界
融合源端句法和語義角色信息的AMR解析
基于仿真分析的傳輸線電路特性研究
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
飛機(jī)燃油系統(tǒng)對多路輸入信號源選擇的方法
科技視界(2016年22期)2016-10-18 15:53:02
再頂平行進(jìn)口
汽車觀察(2016年3期)2016-02-28 13:16:36
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
武夷山市| 凤凰县| 平顶山市| 马尔康县| 杭锦后旗| 凌云县| 博罗县| 民乐县| 横峰县| 织金县| 龙胜| 濮阳县| 垫江县| 罗城| 古浪县| 腾冲县| 砚山县| 会泽县| 蓝山县| 武陟县| 祁门县| 沈阳市| 旺苍县| 图们市| 南投市| 汶川县| 洞口县| 青冈县| 县级市| 含山县| 河北区| 万年县| 兴义市| 新巴尔虎左旗| 轮台县| 池州市| 娄底市| 开平市| 昌都县| 鹤壁市| 西丰县|