汪 浩,李軍輝,貢正仙
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
代詞在自然語言中占有重要地位,其蘊涵著豐富的語篇信息。在漢語、日語等語言中,如果可以從周圍的語境或對話中推斷出句子中的代詞,那么該代詞往往會被省略,以使句子更加簡潔精煉。這種特殊的語法現(xiàn)象被稱為零指代現(xiàn)象,這些語言被稱為代詞省略語言(Pro-drop Languages)。這種充滿口語化的表達雖然不會對人類理解語言造成困難,但當計算機處理此類文本時,則對文本理解可能會出現(xiàn)極大的偏差。在機器翻譯任務中,這種不適應現(xiàn)象尤其顯著。當把代詞省略語言的句子翻譯成非代詞省略語言的時候(如從漢語到英語),機器翻譯系統(tǒng)會因為無法正確翻譯出省略的代詞(Dropped Pronouns,DP)而導致翻譯性能明顯下降。這個問題在非正式的文本領域中尤其嚴重,如對話和會談等,因為在這些領域中,為了使句子更加緊湊,代詞經常被省略[1]。Wang等[2]分析了一個大規(guī)模中英對話語料庫,結果表明,在該語料中文端的文本中,大約有26%的代詞被省略了。由此可見,解決省略代詞翻譯難題對非正式文本領域的機器翻譯任務具有重大的意義。
先前的研究人員在統(tǒng)計機器翻譯模型和傳統(tǒng)的神經機器翻譯模型基礎上做了一些緩解省略代詞翻譯錯誤的研究。例如,Wang等[3]首次提出利用平行語料庫中的對齊信息自動標注出省略代詞的方法,較大程度上恢復了中文對話語料的省略代詞,使得翻譯性能得到了非常顯著的提升。Tan等[4]利用特殊的標注方法,將標注的省略代詞的翻譯作為外部詞匯知識整合到神經網絡翻譯中。但由于零指代機器翻譯領域一直得到的關注不足,導致研究人員尚未基于最為先進的機器翻譯模型——Transformer[5]來解決省略代詞翻譯的難題,相關研究一直存在空白。受此啟發(fā),本文首次將機器翻譯模型Transformer引入零指代機器翻譯領域。Transformer雖然能夠利用獨特的多頭注意力機制來捕獲更多的語義信息,但面對看不見的省略代詞,也只能翻譯出一些簡單的部分,仍然無法準確地翻譯出更復雜句子中的省略代詞。特別地,由于零指代的識別往往需要篇章上下文信息,因此本文先通過往模型中引入篇章上下文信息,再進行零指代識別。同時,本文將零指代識別看作是一個分類任務,即識別零指代在句子中擔當的句法成分。
本文利用聯(lián)合學習的架構,將分類任務和翻譯任務聯(lián)合起來,在不改變翻譯模型的基礎上,向翻譯模型隱式地加入有效的零指代信息,緩解省略代詞翻譯錯誤問題。同樣,我們也期望分類任務和翻譯任務的作用: 分類為翻譯提供更多的零指代信息,翻譯幫助分類解決歧義等問題。此外,先前的研究表明篇章信息能夠很好地處理零指代消解問題[6-7],而且篇章信息早已被證明能夠顯著提高機器翻譯的性能,解決譯文不通順、不連貫的問題[8-10]。Wang等[11]使用層次神經網絡來總結文本中當前句子的上下文,并將其集成到預測省略代詞的聯(lián)合模型中,取得了不錯的效果。但是Wang并未充分利用篇章信息來同時提高翻譯與預測任務的性能。本文的模型更進一步,利用聯(lián)合學習共享模塊的結構和注意力機制,充分利用豐富的篇章信息來同時提升兩個任務的效果。本文提出的方法在大規(guī)模中英對話語料庫上的實驗結果表明,該方法可以顯著提高省略代詞的翻譯性能,與本文中強大的基準模型相比,翻譯性能提高了1.48個BLEU值。
本文的主要貢獻有:
(1) 本文首次在零指代機器翻譯任務中引入當前最為先進的機器翻譯建模模型Transformer,并取得顯著效果;
(2) 本文提出了一個簡單的模型來共同學習翻譯任務和省略代詞的分類任務,并且證明了分類任務可以輔助提升翻譯任務的性能;
(3) 本文驗證了篇章上下文信息對機器翻譯任務和零指代任務的有效性。
零指代機器翻譯離不開省略代詞的恢復任務,前人在省略代詞的恢復研究方面取得了很大的進展。Yang等[1]首次提出在中文文本信息中恢復省略代詞,通過訓練一個17類的最大熵分類器來判斷句子中省略代詞的類別。Wang等[3]首次提出利用平行語料的對齊關系來恢復省略代詞的方法,取得了非常卓越的效果。但Wang等提出的方法存在天然的缺陷,解碼過程中由于無法看到目標端的句子,因此無法利用對齊關系來恢復測試集的源端省略代詞,轉而利用已恢復的語料訓練生成器生成省略代詞,但該模型性能較差,會造成錯誤傳播,影響到翻譯任務的性能。Wang等[2,11]在聯(lián)合學習的架構基礎上,利用一種重構的方式將編碼器和解碼器輸出表征重構回恢復省略代詞后的源端句子,解碼時由于翻譯模塊參數已固定而且輸入源端句子為未恢復省略代詞的句子,不會受到省略代詞的錯誤預測的影響,取得了不錯的效果。
本文在前人的基礎上,引入了更為先進的機器翻譯建模模型Transformer,在翻譯任務的基礎上,聯(lián)合了更為有效的句法成分識別任務,除此之外,進一步加入篇章上下文,使得零指代機器翻譯取得更好的效果。
主流的機器翻譯關注句子級別的翻譯,這種逐句翻譯的方式在句子層次上可能是完美的,但是忽略掉了篇章之內句子之間的上下文信息,會導致翻譯句子缺乏流暢性和邏輯性,篇章級翻譯的興起有效改善了這些問題。
Wang等[12]提出了多層次循環(huán)神經網絡,總結句子之間的篇章信息,并利用不同的策略將這些篇章信息集成到標準NMT模型中。Zhang等[9]采用多編碼器的結構,通過額外的編碼器來對上下文信息進行特征抽取,與源語言信息融合,用于目標語言生成。Maruf等[13]在Transformer的基礎上,將篇章級上下文表征和字符級注意力表征相結合,并將這種多層上下文注意力模塊融入編碼器和解碼器中。Yang等[14]提出了一種新的以查詢?yōu)閷虻哪z囊網絡,該網絡利用改進的動態(tài)路由算法來增強篇章級神經機器翻譯的性能??紤]到主流篇章級翻譯模型通常采用一個額外的上下文編碼器,Chen等[15]使用大規(guī)模源端單語篇章對該上下文編碼器進行預訓練。Chen等[16]進一步使用大規(guī)模源端單詞篇章和平行句對大幅度提高篇章翻譯的性能。研究者在基于源端上下文建模的方式上取得了顯著的成果,而基于目標端上下文建模的方式同樣也受到很多關注。Voita等[17]和Xiong等[8]采用兩階段訓練方法,第一階段生成句子級目標端句子,第二階段從生成的譯文中抽取篇章信息,進行譯文的二次生成,都取得了性能提升。
與之前的工作相比較,本文為了減少算力消耗和參數量,采用共享參數的多編碼器結構來抽取篇章信息,由于模型的多個任務共享編碼器模塊,因此本文只是在編碼器中融入篇章信息。
在代詞省略語言中,如漢語和日語,零指代出現(xiàn)的頻率明顯要高于非代詞省略語言如英語[6]。由于代詞在語篇中包含了豐富的指代信息,而且對話領域中的句子一般都較短,零指代現(xiàn)象不僅導致代詞的翻譯缺失,而且損害了輸出的句子結構甚至語義。如表1展示的是有省略代詞句子的翻譯實例,Src和Ref表示源端句子和參考譯文,NMT表示標準Transformer的輸出譯文。從源端句子可以看出,例1中的主語代詞“我們”和例2中的賓語代詞“它”都被省略了,但在目標端翻譯中這些代詞是不可缺少的。對人類來說,理解源端具有省略成分的句子不是問題,因為我們可以很容易地從上下文中推理出這些省略的代詞。如例2展示,代詞“它”是一個指示代詞,指示著前一句中的先行詞“蛋糕”,人類可以輕易地從前一句推斷出后一句省略了“它”,但這對機器來說是非常困難的。如例1展示,人類也能夠從全句推斷出句子缺少了主語,然后根據具體語義推斷主語代詞為“我們”,這同樣考驗著機器的理解能力。
表1 省略代詞的翻譯實例(括號中代詞指源端句子中的省略代詞)
具體地,省略代詞的存在使代詞省略語言到非代詞省略語言的翻譯模型面臨巨大的挑戰(zhàn)。如表1中的例子所示,NMT是使用當前最先進的機器翻譯建模模型Transformer生成的譯文,如例1中Transformer無法成功地將源端缺失的代詞翻譯出來,造成目標端譯文不夠完整,語義不通順。例2中,NMT由于無法捕捉到省略代詞的信息,導致將源端句子翻譯成“did you do”,不僅譯文翻譯不完整,而且出現(xiàn)了錯誤翻譯的現(xiàn)象。
句子級神經機器翻譯模型: 機器翻譯的目標是將輸入的源語言句子轉化為目標語言句子,經典的方法是通過多分類模型對源端句子進行建模,并通過自回歸模型生成目標端句子的分布。設源端句子為x=x1,x2,…,xJ,目標端句子為y=y1,y2,…,yI,其中y 而神經機器翻譯(NMT)的目標是通過深度神經網絡的編碼器-解碼器結構構造這個目標函數,其中θ為神經網絡的超參數。 篇章級神經機器翻譯模型: 基于篇章上下文的機器翻譯任務則是在句子級翻譯建模模型的基礎上,結合同一篇章內部分或所有上下文信息來進行建模,如式(2)所示。 其中,D表示對應篇章中所有句子的集合,D-j表示篇章中除去第j個句子的其他句子。 給定一個句子,傳統(tǒng)的零指代識別需要識別零指代出現(xiàn)的位置,以及缺失的代詞。一方面,考慮到零指代出現(xiàn)的位置非常具有歧義性,如在句子“今天 要 不要 去 電影”中,省略的代詞既可以出現(xiàn)在“今天”前,也可以出現(xiàn)在其后。另一方面,考慮到省略的代詞種類繁多,如實驗數據訓練集中省略的代詞種類達28種。 而本文提出的零指代識別任務是指利用分類器模塊對源端句子中省略代詞所表示的句法成分進行識別。本文模型中分類器的真實標簽來自于識別出省略代詞后的句子。我們先識別原始句子中的省略代詞,訓練集使用詞對齊的方式識別省略代詞,測試集則是使用Wang等[3]提出的省略代詞生成器自動識別省略代詞,然后利用開源的依存句法分析庫DDParser(1)https://gitee.com/baidu/DDParser分析這些省略代詞的句法成分,統(tǒng)計并歸類,最終確定了分類器分類的四個標簽: 缺失主語類,缺失賓語類、缺失定語類以及不缺失代詞類,標簽實例如表2所示。 本文的出發(fā)點是如何更加有效地利用零指代信息來提升翻譯模型的效果。本文提出的模型的框架如圖1所示, 模型框架是基于Transformer的序列到序列模型,Transformer采用多頭注意力機制(multi-head attention), 能夠直接對序列中任意位置之間的關系進行建模,這很好地解決了長距離依賴問題,進行多頭注意力計算時,需要將輸入表征分別處理成Query(Q),Key(K),Value(V),然后利用這三個表征進行注意力的計算,該過程用式(3)~式(5)表示如下。 圖1 融合零指代識別的神經機器翻譯模型 其中,dk表示為表征K的維度。 (4) 其中,Cat表示拼接操作,h表示總頭數,WO表示多頭拼接之后進行線性變換的權重矩陣。 本文模型在Transformer的基礎上進行了適應性改進,整體模型由編碼器(Encoder)、解碼器(Decoder)和分類器三個模塊構成。 編碼器我們對標準的Transformer編碼器進行了改進。編碼器由多層完全相同的子模塊堆疊而成,每一個子模塊由一個多頭自注意力子層、一個多頭上下文注意力子層和一個全連接前饋神經網絡構成。與標準的Transformer編碼器不同,本文額外引入了上下文注意力子層來融合篇章上下文信息,如圖1中虛線所指就是上下文信息的編碼過程,編碼端的輸入由當前句及其上下文組成。為了減少計算成本,本文采用共享編碼器的結構,編碼器先編碼當前句的上下文句子,上下文注意力子層不參與此過程,第二步編碼當前句時三個子層同時參與計算,上下文注意力子層的輸入K,V來自于第一步中上下文的編碼輸出,Q來自于當前句自注意力子層的輸出,當前句的編碼輸出結果輸入到解碼端進行下一步計算。 解碼器解碼器與標準的Transformer解碼器一致,由多個完全相同的子模塊堆疊而成,每一個子模塊由一個多頭掩碼自注意力子層、一個多頭上下文注意力子層和一個全連接前饋神經網絡構成。解碼端輸入只有源端當前句的對應目標端句子,這與編碼端的輸入不同。解碼器的輸出會被映射到目標端詞表的空間,利用Softmax函數計算詞表中各個詞對應的預測概率,最終將預測結果與真實結果計算損失。 分類器分類器由兩層全連接層加上Sigmoid函數構成,輸出是四元標簽分類的結果。由于分類器的分類目標是基于句子級的向量表征,本文將編碼器的輸出表征通過Max-pooling和Mean-pooling操作之后拼接在一起構成分類器的輸入。最終,分類器的輸出與真實的標簽計算損失。 本文模型采用聯(lián)合學習的訓練方式,分為翻譯任務和分類任務。模型的損失函數分為兩部分,包括神經機器翻譯模型的翻譯損失和省略代詞的分類損失。 翻譯目標端的相關損失函數如式(6)所示。 (6) 其中,D表示訓練集中總平行篇章對數,Sn表示第n個平行篇章對中的句子總數,Xn和Yn表示第n個平行篇章對的源端句子和目標端句子。wn,t表示第n個平行篇章對的第t個句子的總token數,cn,(t)表示引入的上下文信息,θ表示模型的訓練參數。 零指代分類損失如式(7)所示。 最終,本文的聯(lián)合學習的訓練目標如式(8)所示。 其中,α是零指代分類損失的權重參數,本文模型中設置α為1.0。 本文在大規(guī)模中英對話語料庫上進行驗證實驗。該對話數據集由電影或電視劇字幕構成,訓練集、驗證集和測試集分別包含2.15M,1.09K和1.15K個平行句對,驗證集和測試集是隨機選擇兩集完整的電視劇節(jié)目字幕挑選出來的,表3列出了語料的統(tǒng)計情況,該語料中句子一般較短,源語言和目標語言的代詞數量差距較大,這體現(xiàn)了代詞省略的問題,表中也展示了訓練集、驗證集和測試集中省略代詞(DP)的數量。 表3 對話數據集的統(tǒng)計情況 本文采用Jieba分詞工具(2)https://github.com/fxsjy/jieba對中文句子進行分詞,而目標端英文句子則使用Moses腳本[18]進行分詞處理。由于原數據集中保留了篇章信息,但是沒有生成獨立的篇章,我們手動將數據集切割成獨立的篇章,每個篇章中包含7個句子。本文對中英文數據分別采用了子詞化操作[19],子詞化操作數為30K。翻譯任務的評估指標為大小寫不敏感的NIST BLEU[20],由mteval-v13a.pl測試腳本計算得出。此外,本文還對模型翻譯性能的BLEU值提升進行了顯著性測試[21]。 本文的建模模型Transformer來源于OpenNMT(3)https://github.com/OpenNMT/OpenNMT-py,在其基礎上加以改進,將其改進為以篇章為單位更新參數的模型。本文將編碼器和解碼器設置為6層,多頭注意力機制中含有8個頭,同時設置Dropout值為0.1,隱層維度和前饋神經網絡中間層單元數分別為512和2 048,學習率設置為1.0。選擇的優(yōu)化器為Adam優(yōu)化函數[22],其中β1為0.9,β2為0.998。訓練時批處理大小為4 096個token以內。進行解碼時,設置Beam Size為5,所有其他的設置采用Vaswani系統(tǒng)[5]中的默認設置。 為了驗證本文提出方法和模型的有效性,我們在中英翻譯任務上進行實驗,實驗包括四個模型,如表4所示。 表4 中英對話翻譯實驗結果(表示與Baseline相比較,BLEU值在p=0.01時具有顯著性提高) (1) 基準模型是由沒有標注出省略代詞的中英雙語語料使用標準Transformer模型訓練,在同樣沒有經過標注處理的測試集上進行測試,由表中的Baseline表示。 (2) +Context表示在Baseline基礎上,在源端編碼器中融合篇章上下文信息,本文中選取的篇章上下文為兩句。 (3) +DP-parse表示在Baseline基礎上,聯(lián)合判斷省略代詞在句子中句法成分的分類任務,測試集利用的省略代詞信息是由Wang[3]提出的代詞生成器模型自動生成的。 (4) +Context +DP-parse 表示在聯(lián)合任務的基礎上, 向模型加入源端上下文信息所取得的翻譯效果。 本文提出模型的實驗效果表4展示出本文提出模型在中英對話測試集上的性能結果。 (1) 與基準模型相比,只聯(lián)合省略代詞的分類任務后取得了0.88的BLEU值提升,這證明了本文使用聯(lián)合學習方法的有效性。 (2) 在進一步向模型中加入篇章上下文后,翻譯任務的BLEU取得了1.48的明顯提升,最終測試集BLEU值達到了37.40,分類任務的準確率也提升了約3個百分點,這也表明篇章上下文信息不僅能夠提升翻譯效果,對省略代詞的分類任務也有積極的作用。 與先前研究的對比表4展示了之前經典的零指代機器翻譯研究的模型性能。 (1) DPEs-ref通過LSTM+CRF的標注模型,恢復了對話語料中的省略代詞,并用等價的目標語言代詞代替省略代詞的方式,有效提高了翻譯的性能,但是由于該機器翻譯建模采用為基于RNN的序列到序列模型,最終模型性能只與標準Transformer模型性能相一致,這也顯示出Transformer建模模型的強大之處。 (2) Shared-Rec研究是通過聯(lián)合重構器模塊的方式,利用編碼器和解碼器的輸出來重新解析省略代詞信息。ZP-joint是在Shared-Rec的基礎之上額外聯(lián)合一個序列標注任務,最終取得了37.11的性能。 (3) 與之前模型相比較,本文提出的模型在參數量遠小于其他模型的條件下,依舊取得了37.40的BLEU值,比之前該大規(guī)模對話語料上最好效果提高了0.29個BLEU,證明了本文提出的模型不僅具有優(yōu)異的性能,還具有消耗算力少、訓練時間短的優(yōu)勢。 顯式融合零指代信息指直接將識別出的省略代詞加入到原始句子,然后利用識別后的句子訓練模型,由于訓練集利用詞對齊識別代詞方法的準確率遠高于測試集利用代詞生成器的識別方式,這導致使用自動識別的測試集測試時,錯誤的省略代詞會嚴重影響翻譯的性能。針對顯式融合零指代信息方式對翻譯性能的影響,本文在兩種訓練集和三種不同的測試集上做了對比實驗。如表5所示: ①訓練集包括未識別原始訓練集中省略代詞和利用詞對齊自動識別原始訓練集中省略代詞兩種; ②測試集包括未識別原始測試集中的省略代詞,自動識別省略代詞和人工標注省略代詞三種。該對比實驗使用的模型都用標準Transformer訓練,參數都保持一致。 表5 代詞識別質量對翻譯性能影響的實驗結果 分析模型在不同數據集組合上的翻譯效果后,得到以下結論: (1) 在未識別省略代詞訓練集的實驗中,使用自動識別和人工識別的測試集都可以提高最終的測試效果,但自動識別的方式提高了0.93個BLEU值,而人工識別提高了3.75個BLEU值,這證明了識別省略代詞的效果越好,翻譯性能提升越明顯,進一步證明零指代翻譯具有很大的研究前景。 (2) 在自動識別省略代詞訓練集的實驗中,由于訓練數據中帶有省略代詞的信息,因此使用未識別的測試集時,訓練和測試存在不一致,性能會出現(xiàn)巨大的下降;使用自動識別的測試集時,與未識別出省略代詞訓練集組相比,性能下降了0.6個BLEU值,本文認為這是由于詞對齊識別的準確率很高,自動識別代詞錯誤率很高,錯誤的省略代詞影響了句子的原本語義,導致識別出的省略代詞沒有對翻譯產生積極影響;使用人工識別的測試集時,與未識別出省略代詞訓練集組相比,提升了0.7個BLEU,達到了40.37的BLEU值性能,本文認為這是由于訓練數據和測試數據的識別質量都很高,因此可以達到更好的效果。 上述實驗結果表明,在無平行數據條件下提高省略代詞的識別質量是零指代機器翻譯的重難點,這也是我們未來研究的重點。 參考Miculicich[23-24]的研究,本文對測試集中代詞的翻譯效果進行分析實驗,實驗結果如表6所示。由實驗結果可以看出,與Baseline的代詞翻譯效果相比較,本文模型提升了0.97個百分點,證明了本文提出的融合零指代信息和篇章信息的模型能夠有效地提升指代翻譯的性能。 表6 代詞翻譯性能的實驗結果 本文通過引入篇章上下文信息提升了翻譯性能。為了探究不同的篇章長度對翻譯性能的影響,本文做了相關的對比實驗。表7展示了本文提出模型在不同長度的篇章信息下的翻譯性能。由實驗結果可以看出,當篇章句子長度為2時模型取得最佳的翻譯效果,使用更多的篇章句子時不僅使得翻譯效果下降,而且還增加了計算代價。這與Zhang等[9]的結論相一致,遠距離篇章上下文信息的影響是有限的。因此本文采用的篇章上下文句子長度為2句。 表7 不同的篇章長度對翻譯性能影響實驗結果 雖然本文實驗使用的對話數據集句子中存在很多的省略代詞,但是數據集中大部分句子都是完整無省略代詞的句子。為了探究無省略代詞和有省略代詞句子的翻譯性能的差距,本文做了相關的對比實驗。如表8中所示,我們根據句子是否存在省略代詞將原始的測試集分成了無省略測試集(表示為NDP),和有省略測試集(表示為DP),分別使用標準的Transformer模型和本文提出的模型進行測試。 表8 有省略句子和無省略句子翻譯對比實驗結果 分析模型在兩種不同數據集上的測試效果后,得到以下結論: (1) 在無省略測試集上,Baseline和本文提出模型的性能都高于全部的原始測試集,這證明了無省略代詞的翻譯能夠取得更好的效果,本文提出模型比Baseline提高了1.27個BLEU值,因而認為我們的模型融合的篇章信息中除了零指代信息之外,還存在其他的語義信息,能夠幫助提高翻譯的效果。 (2) 在有省略測試集上,Baseline的翻譯效果出現(xiàn)了明顯的下降,而我們的模型雖然也出現(xiàn)了下降,但是達到的效果與Baseline相比,提高了1.8個BLEU值,這表明標準的Transformer難以很好地處理省略代詞的翻譯,而本文提出的模型可有效地緩解省略代詞的翻譯錯誤問題。 本節(jié)展示一些使用本文提出的模型識別出省略代詞的例子,進一步證明本文提出方法的有效性。如表9所示,Source表示源端未識別代詞的句子;Context表示源端的上下文,本文模型采用兩句上下文,以“||”分割;Ref表示目標端參考譯文;Baseline是使用Transformer模型得到的譯文;NMT表示使用本文提出模型得到的譯文。 表9 實例分析 例1和例2中,源端句子存在省略代詞"你"和"我們",Baseline由于沒有融合零指代信息,所以無法成功翻譯出you和we,而Our模型正確地翻譯出you和we,這表明了本文提出的模型能有效捕捉省略代詞的信息。例3和例4的實例中雖然也能夠捕捉到零指代信息,卻沒有正確地翻譯出代詞,我們認為這是由于有些省略代詞是需要充分結合上下文才能推斷得出的,本文模型雖然融入了篇章信息,但是模型預測復雜的零指代關系時,還存在著一些不足,無法從篇章信息獲取對應的零指代信息,這也需要進一步對篇章信息進行加工處理融合與零指代關系更有效的篇章信息。 針對對話領域的零指代機器翻譯如何利用好零指代信息來提升翻譯效果,本文提出了一種基于聯(lián)合學習的模型結構。首先,引入現(xiàn)今最先進的神經機器翻譯建模模型Transformer來提升翻譯的質量,在此基礎上聯(lián)合分類任務對源端句子中的省略成分進行分類,再通過融入篇章信息來進一步提升翻譯和分類的性能。在大規(guī)模中英對話數據集上的實驗證明了本文提出模型的有效性。 但是,本文模型還存在著一些不足。本文融合篇章信息的方式存在優(yōu)化的空間,在處理比較復雜的省略代詞信息時,由于模型難以從駁雜的篇章信息中抽取有效地零指代信息,導致難以正確翻譯出省略代詞。在未來的研究中,會對如何更加有效的利用好篇章信息進行進一步研究。除此之外,如何在無平行數據的情況下提高省略代詞的識別準確性也是我們研究的重點。3 融合零指代識別的篇章級神經機器翻譯
3.1 零指代識別任務
3.2 模型結構
3.3 聯(lián)合學習
4 實驗
4.1 實驗設置
4.2 實驗結果
4.3 代詞恢復質量對翻譯性能的影響
4.4 代詞翻譯的性能
4.5 篇章長度對翻譯性能的影響
4.6 有省略句子與無省略句子翻譯性能對比
4.7 實例分析
5 總結