国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Transfer和Triangulation融合的中介語(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法

2017-10-11 07:09朱靖波
中文信息學(xué)報(bào) 2017年4期
關(guān)鍵詞:源語(yǔ)斷點(diǎn)斷路

王 強(qiáng),杜 權(quán),肖 桐,朱靖波

(東北大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,遼寧 沈陽(yáng) 110819)

基于Transfer和Triangulation融合的中介語(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法

王 強(qiáng),杜 權(quán),肖 桐,朱靖波

(東北大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,遼寧 沈陽(yáng) 110819)

為了解決在構(gòu)建統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)過(guò)程中所面臨的雙語(yǔ)平行數(shù)據(jù)缺乏的問(wèn)題,該文提出了一種新的基于中介語(yǔ)的翻譯方法,稱(chēng)為T(mén)ransfer-Triangulation方法。該方法可以在基于中介語(yǔ)的翻譯過(guò)程中,結(jié)合傳統(tǒng)的Transfer方法和Triangulation方法的優(yōu)點(diǎn),利用解碼中介語(yǔ)短語(yǔ)的方法改進(jìn)短語(yǔ)表。該文方法是在使用英語(yǔ)作為中介語(yǔ)的德-漢翻譯任務(wù)中進(jìn)行評(píng)價(jià)的。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的基于中介語(yǔ)方法的基線(xiàn)系統(tǒng),該方法顯著提高了翻譯性能。

統(tǒng)計(jì)機(jī)器翻譯; 基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯;中介語(yǔ);質(zhì)量控制因子

Abstract: This paper presents a transfer-triangulation method for pivot-based translation between two languages with poor bilingual data. It takes the best of both typical transfer method and triangulation method for pivot-based translation, and decodes pivot phrases to improve phrase table. Evaluated on German-Chinese translation task with English as the pivot language, results show that our method achieves significant improvement over baseline pivot-based methods.

Key words: statistical machine translation; pivot-based statistical machine translation; pivot language; quality control factor

收稿日期: 2015-08-26 定稿日期: 2016-03-25

基金項(xiàng)目: 國(guó)家自然科學(xué)基金青年基金(61300097);國(guó)家自然科學(xué)基金(61272376);國(guó)家自然科學(xué)基金(61432013)

1 引言

構(gòu)建性能優(yōu)異的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)通常需要數(shù)百萬(wàn)乃至更多的雙語(yǔ)平行數(shù)據(jù)進(jìn)行訓(xùn)練。然而在實(shí)際應(yīng)用時(shí),除少量數(shù)據(jù)資源豐富的語(yǔ)言對(duì)外(如英漢、英阿),大多數(shù)語(yǔ)言對(duì)往往面臨雙語(yǔ)平行數(shù)據(jù)資源缺乏的問(wèn)題(如德漢)。

為此,研究人員提出了基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,其核心思想是: 通過(guò)與源語(yǔ)和目標(biāo)語(yǔ)均存在大規(guī)模平行語(yǔ)料的第三方語(yǔ)言,間接地滿(mǎn)足源語(yǔ)-目標(biāo)語(yǔ)的平行數(shù)據(jù)的要求。兩個(gè)典型的基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法分別為T(mén)ransfer方法[1]和Triangulation[2-3]方法。Transfer方法是句子級(jí)的中介語(yǔ)方法,核心思想是先將源語(yǔ)句子翻譯為中介語(yǔ)句子,再將中介語(yǔ)句子翻譯為目標(biāo)語(yǔ)句子。其缺點(diǎn)是翻譯過(guò)程需要解碼兩次,不但更耗時(shí),而且存在翻譯錯(cuò)誤蔓延的問(wèn)題。而Triangulation方法是短語(yǔ)級(jí)的中介語(yǔ)方法,核心思想是分別訓(xùn)練源語(yǔ)-中介語(yǔ)短語(yǔ)翻譯表Ts-p、中介語(yǔ)—目標(biāo)語(yǔ)的短語(yǔ)翻譯表Tp-t,再利用相同的中介語(yǔ)短語(yǔ)進(jìn)行短語(yǔ)表融合,構(gòu)建出源語(yǔ)-目標(biāo)語(yǔ)的短語(yǔ)表Ts-t。Triangulation方法能夠利用推導(dǎo)出的源語(yǔ)-目標(biāo)語(yǔ)短語(yǔ)表直接進(jìn)行翻譯,避免了Transfer方法的兩次解碼的不足,并且其處理對(duì)象是短語(yǔ),相比于句子有更大的靈活性,成為了目前中介語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的研究熱點(diǎn)。然而,在Triangulation方法中,只考慮了在Ts-p和Tp-t中共現(xiàn)的中介語(yǔ)短語(yǔ),忽略了非共現(xiàn)的中介語(yǔ)短語(yǔ)(本文稱(chēng)這種類(lèi)型的中介語(yǔ)短語(yǔ)為中介語(yǔ)斷點(diǎn))。這將導(dǎo)致產(chǎn)生大量的互譯性不高的噪聲翻譯規(guī)則,干擾解碼器的譯文選擇過(guò)程,并且還存在源語(yǔ)短語(yǔ)丟失的問(wèn)題。

針對(duì)上述問(wèn)題,本文提出一種基于Transfer和Triangulation融合的中介語(yǔ)方法,其核心思想是利用短語(yǔ)級(jí)而不是句子級(jí)的Transfer方法,將原本被忽略的中介語(yǔ)斷點(diǎn)翻譯成目標(biāo)語(yǔ),形成中介語(yǔ)-目標(biāo)語(yǔ)的翻譯規(guī)則,從而將中介語(yǔ)斷點(diǎn)轉(zhuǎn)化成非斷點(diǎn)。本文提出的方法能夠利用傳統(tǒng)Triangulation方法中忽略的中介語(yǔ)斷點(diǎn)信息改善推導(dǎo)出的短語(yǔ)表,從而提高整體翻譯性能。在以英文作為中介語(yǔ)的德-漢翻譯任務(wù)中,本文的方法相比于傳統(tǒng)的Transfer方法和Triangulation方法,BLEU-4分別提高4.74和0.84。

2 基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯

2.1 Transfer方法 Transfer方法是一種句子級(jí)的中介語(yǔ)方法。首先分別利用源語(yǔ)—中介語(yǔ)、中介語(yǔ)—目標(biāo)語(yǔ)雙語(yǔ)平行數(shù)據(jù)訓(xùn)練出源語(yǔ)—中介語(yǔ)翻譯系統(tǒng)Ss-p以及中介語(yǔ)—目標(biāo)語(yǔ)的翻譯系統(tǒng)Sp-t。給定源語(yǔ)句子s,當(dāng)進(jìn)行源語(yǔ)—目標(biāo)語(yǔ)的翻譯任務(wù)時(shí),利用Ss-p先將s翻譯成m(m≥1)個(gè)中介語(yǔ)結(jié)果,記作p1,p2,…,pm,再通過(guò)Sp-t將每一個(gè)中介語(yǔ)結(jié)果pi(1≤i≤m)翻譯為n(n≥1)個(gè)目標(biāo)語(yǔ)譯文,記作ti1,ti2,…,tin,共產(chǎn)生m×n個(gè)翻譯結(jié)果,最后從中選擇1best作為最終的翻譯結(jié)果。由于Transfer方法中需要解碼兩次(s→p和p→t),所以整體的解碼時(shí)間更長(zhǎng),更關(guān)鍵的是,連續(xù)的解碼將造成翻譯錯(cuò)誤的蔓延。

2.2 Triangulation方法

Triangulation方法是短語(yǔ)級(jí)的中介語(yǔ)方法。首先分別訓(xùn)練源語(yǔ)—中介語(yǔ)短語(yǔ)翻譯表Ts-p、中介語(yǔ)—目標(biāo)語(yǔ)的短語(yǔ)翻譯表Tp-t,再利用相同的中介語(yǔ)短語(yǔ)進(jìn)行短語(yǔ)表融合,構(gòu)建出源語(yǔ)—目標(biāo)語(yǔ)的短語(yǔ)表Ts-t,該過(guò)程如圖1所示。在德—英短語(yǔ)表中,存在翻譯規(guī)則“drastisch zurückgegangen→fallen dramatically”,同時(shí)在英-漢短語(yǔ)表中,存在翻譯規(guī)則“fallen dramatically→急劇下降”,通過(guò)共現(xiàn)的英文短語(yǔ)“fallen dramatically”,能夠推導(dǎo)出德—漢翻譯規(guī)則“drastisch zurückgegangen→急劇下降”。同理,還可以推導(dǎo)出“drastisch zurückgegangen→戲劇性地衰退”、“drastisch zurückgegangen→已經(jīng)大幅下滑”。

圖1 使用Triangulation方法進(jìn)行源語(yǔ)—目標(biāo)語(yǔ)翻譯規(guī)則推導(dǎo)

Triangulation方法中最關(guān)鍵的問(wèn)題是: 如何給推導(dǎo)出的短語(yǔ)翻譯規(guī)則進(jìn)行特征打分,主要包括雙向的短語(yǔ)翻譯概率、雙向的詞匯化權(quán)重。給定源語(yǔ)短語(yǔ)s,目標(biāo)語(yǔ)短語(yǔ)t,則在Triangulation方法中[2],使用式(1)對(duì)基于中介語(yǔ)的短語(yǔ)翻譯概率?進(jìn)行建模。

(1)

使用式(2)對(duì)基于中介語(yǔ)的源語(yǔ)—目標(biāo)語(yǔ)的詞對(duì)齊推導(dǎo)。

(2)

其中,As-p、Ap-t、As-t分別表示源語(yǔ)-中介語(yǔ)、中介語(yǔ)—目標(biāo)語(yǔ)、源語(yǔ)—目標(biāo)語(yǔ)之間的詞對(duì)齊信息。使用式(3)計(jì)算詞匯化權(quán)重[4]。

(3)

其中,

(4)

在基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中,可以使用式(5)[2]對(duì)源語(yǔ)詞匯和目標(biāo)語(yǔ)詞匯共現(xiàn)次數(shù)進(jìn)行建模。

(5)

其中,K表示被推導(dǎo)出的規(guī)則總數(shù);當(dāng)x=y時(shí),δ(x,y)=1,否則δ(x,y)=0。

使用上述的公式對(duì)推導(dǎo)出的短語(yǔ)規(guī)則進(jìn)行特征打分后,便得到了完整的源語(yǔ)-目標(biāo)語(yǔ)的短語(yǔ)翻譯表。然后按照標(biāo)準(zhǔn)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,直接進(jìn)行源語(yǔ)到目標(biāo)語(yǔ)的翻譯。

雖然Triangulation方法能夠直接把源語(yǔ)翻譯為目標(biāo)語(yǔ),避免了Transfer方法中多次解碼造成的翻譯錯(cuò)誤蔓延問(wèn)題。但是,該方法也面臨其他的問(wèn)題:

(1) 產(chǎn)生互異性不高的噪聲翻譯規(guī)則。如圖2(a)所示,源語(yǔ)短語(yǔ)s翻譯為中介語(yǔ)p1的概率為0.9,表示為?(p1|s)=0.9,同時(shí)?(p2|s)=0.1。在應(yīng)用Triangulation方法時(shí),由于高翻譯概率的p1無(wú)法翻譯為任何目標(biāo)語(yǔ)短語(yǔ),則s只能通過(guò)低翻譯概率的p2推導(dǎo),從而形成互譯性不高的翻譯規(guī)則s→t2,而這些噪聲翻譯規(guī)則將干擾解碼器的譯文選擇過(guò)程。

(2) 源語(yǔ)短語(yǔ)丟失。如圖2(b)所示,源語(yǔ)短語(yǔ)s對(duì)應(yīng)的全部中介語(yǔ)短語(yǔ)p1和p2都無(wú)法翻譯成任何目標(biāo)語(yǔ)短語(yǔ),導(dǎo)致s無(wú)法推導(dǎo)出目標(biāo)語(yǔ)翻譯規(guī)則,所以在應(yīng)用Triangulation方法時(shí),s將在被構(gòu)建的源語(yǔ)-目標(biāo)語(yǔ)短語(yǔ)表中丟失。

圖2 傳統(tǒng)Triangulation方法存在的問(wèn)題(直線(xiàn)上的數(shù)值表示短語(yǔ)翻譯概率)

本文定義圖2(a)中的p1,以及圖2(b)中的p1和p2為中介語(yǔ)斷點(diǎn),稱(chēng)這種現(xiàn)象為中介語(yǔ)斷路。以上兩個(gè)問(wèn)題產(chǎn)生的主要原因都是由于中介語(yǔ)斷路,所以本文的出發(fā)點(diǎn)就是通過(guò)解碼中介語(yǔ)斷點(diǎn)的方式將其轉(zhuǎn)化成非斷點(diǎn),利用更多的中介語(yǔ)信息改善短語(yǔ)翻譯表質(zhì)量。

3 Transfer-Triangulation方法

3.1 中介語(yǔ)斷點(diǎn) 對(duì)于任意源語(yǔ)短語(yǔ)s,本文定義滿(mǎn)足下列條件的中介語(yǔ)短語(yǔ)為中介語(yǔ)斷點(diǎn)條件:

在本文實(shí)驗(yàn)數(shù)據(jù)中,我們發(fā)現(xiàn)約75%的中介語(yǔ)短語(yǔ)是斷點(diǎn)。這說(shuō)明大量的中介語(yǔ)短語(yǔ)無(wú)法在Triangulation方法中用來(lái)推導(dǎo)源語(yǔ)-目標(biāo)語(yǔ)短語(yǔ)規(guī)則,造成可用規(guī)則的丟失,同時(shí)影響已推導(dǎo)出的翻譯規(guī)則的概率估計(jì)。而出現(xiàn)中介語(yǔ)斷路的原因是由于源語(yǔ)到中介語(yǔ)的雙語(yǔ)訓(xùn)練語(yǔ)料和中介語(yǔ)到目標(biāo)語(yǔ)的雙語(yǔ)訓(xùn)練語(yǔ)料中,不可避免地存在如領(lǐng)域、語(yǔ)言習(xí)慣、表達(dá)方式等各種差異,最終反映到訓(xùn)練得到的短語(yǔ)翻譯表中。所以,可以說(shuō)中介語(yǔ)斷路現(xiàn)象難以避免,而且會(huì)隨著語(yǔ)料的相關(guān)性差異增大而越來(lái)越嚴(yán)重,而中介語(yǔ)斷路現(xiàn)象本身也將影響Triangulation方法的性能。

圖3 利用解碼中介語(yǔ)短語(yǔ)緩解上述問(wèn)題示意圖

3.2 解碼中介語(yǔ)斷點(diǎn)

(1) 如何計(jì)算p→t′的短語(yǔ)翻譯概率和詞對(duì)齊?

(2) 應(yīng)該解碼哪些中介語(yǔ)斷點(diǎn)?

本小節(jié)主要解決的是問(wèn)題(1)。給定D是將中介語(yǔ)斷點(diǎn)p翻譯為目標(biāo)語(yǔ)t′的完整推導(dǎo)過(guò)程,則使用式(6)計(jì)算短語(yǔ)規(guī)則p→t′的短語(yǔ)翻譯概率φ(t′|p)。

(6)

p→t′的詞對(duì)齊推導(dǎo)算法描述如圖4所示。算法核心思想是根據(jù)翻譯推導(dǎo)的過(guò)程,依次將與推導(dǎo)對(duì)應(yīng)的span[i,j](j>i≥0)、span[j+1,k](k>j+1)拼接,根據(jù)目標(biāo)語(yǔ)拼接方向(正向或反向),更新span[i,k]的詞對(duì)齊信息。圖4中的Step2就是更新兩個(gè)span詞對(duì)齊的過(guò)程,Step3是進(jìn)行span拼接,得到更新詞對(duì)齊后的更大的span,并利用翻譯推導(dǎo)信息繼續(xù)更新詞對(duì)齊。圖5展示了使用本算法更新兩個(gè)span詞對(duì)齊結(jié)果的示例。

圖4 解碼結(jié)果的詞對(duì)齊推導(dǎo)算法

圖5 解碼結(jié)果的詞對(duì)齊推導(dǎo)算法示例

3.3 質(zhì)量控制因子

本小節(jié)描述的是如何解決判斷哪些中介語(yǔ)斷點(diǎn)應(yīng)該被解碼的問(wèn)題。直覺(jué)上,并不是所有中介語(yǔ)斷點(diǎn)都對(duì)完善短語(yǔ)表有幫助。我們期望捕獲的是在不可靠的短語(yǔ)推導(dǎo)過(guò)程中,沒(méi)有被利用的高質(zhì)量中介語(yǔ)斷點(diǎn)。

本文引入質(zhì)量控制因子ψ的概念,利用推導(dǎo)產(chǎn)生的包含最大正向短語(yǔ)翻譯概率的翻譯規(guī)則所使用的中介語(yǔ)信息,衡量在給定源語(yǔ)短語(yǔ)s的推導(dǎo)過(guò)程的質(zhì)量,其定義如下:

(7)

利用質(zhì)量控制因子計(jì)算出的推導(dǎo)過(guò)程可靠性,本文將所有推導(dǎo)分為如下三類(lèi):

(8)

所以,本文解碼中介語(yǔ)斷點(diǎn)的定位是: 通過(guò)解碼Discard型推導(dǎo)中的中介語(yǔ)斷點(diǎn)緩解源語(yǔ)短語(yǔ)OOV問(wèn)題,通過(guò)解碼Low型推導(dǎo)中低于λ的高質(zhì)量中介語(yǔ)斷點(diǎn)產(chǎn)生更多優(yōu)質(zhì)的翻譯規(guī)則。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置 德-英、英-漢系統(tǒng)使用的數(shù)據(jù)如表1所示。

表1 雙語(yǔ)訓(xùn)練數(shù)據(jù)/開(kāi)發(fā)集/測(cè)試集 數(shù)據(jù)說(shuō)明

我們采用基于短語(yǔ)模型的NiuTrans開(kāi)源工具[5]完成以英語(yǔ)為中介語(yǔ)的德-漢翻譯任務(wù)。使用GIZA++[6]工具獲得雙向詞對(duì)齊結(jié)果,再使用“grow-diag-final-and”方法[4]進(jìn)行詞對(duì)齊對(duì)稱(chēng)化。抽取德-英短語(yǔ)對(duì)的長(zhǎng)度設(shè)置為3-3,英-漢短語(yǔ)對(duì)的長(zhǎng)度設(shè)置為3-5,則最終被推導(dǎo)出的德-漢短語(yǔ)長(zhǎng)度為3-5。對(duì)所有抽取的短語(yǔ)翻譯表進(jìn)行取Top-N處理,這里設(shè)置N=30,即每一個(gè)源語(yǔ)短語(yǔ)對(duì)應(yīng)的翻譯候選最多為30個(gè)。分別使用66 522 497句和42 946 518句單語(yǔ)句子訓(xùn)練5元英文和中文的語(yǔ)言模型,均使用修正的Kneser-Ney平滑方法[7]。需要注意的是,在解碼中介語(yǔ)斷點(diǎn)時(shí),使用的仍是上述語(yǔ)言模型,并沒(méi)有因?yàn)榻獯a結(jié)果是短語(yǔ)而做針對(duì)性?xún)?yōu)化。所有的特征采用最小錯(cuò)誤率訓(xùn)練MERT[8]進(jìn)行參數(shù)調(diào)優(yōu)。使用基于詞的BLEU-4[9]評(píng)價(jià)最終的翻譯性能。

4.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)一 中介語(yǔ)斷點(diǎn)比例

應(yīng)用本文的實(shí)驗(yàn)數(shù)據(jù)及設(shè)置,得到德-英、英-漢短語(yǔ)翻譯表信息如表2第一行及第二行所示。然后使用Triangulation方法得到被推導(dǎo)出的德-漢短語(yǔ)翻譯表,其信息如表2第三行所示??梢钥吹剑隆⒍陶Z(yǔ)表中包含1 915萬(wàn)唯一的英文短語(yǔ);英-漢短語(yǔ)表中包含3 969萬(wàn)唯一的英文短語(yǔ),但只有495萬(wàn)條英文短語(yǔ)在Triangulation方法中被使用。

表2 系統(tǒng)訓(xùn)練得到的短語(yǔ)翻譯表及Triangulation方法推導(dǎo)出的短語(yǔ)翻譯表(M表示百萬(wàn))

這里,我們以德—英的英文短語(yǔ)條數(shù)為參考,則斷路的英文短語(yǔ)數(shù)為1 915-495=1 420萬(wàn)條,比例達(dá)(1 420萬(wàn)/1 915萬(wàn))×100%=74.15%。也就是說(shuō),在德-英短語(yǔ)表中,有74.15%的英文短語(yǔ)存在斷路情況,這是一個(gè)在基于Triangulation的中介語(yǔ)統(tǒng)計(jì)機(jī)器翻譯中普遍存在的問(wèn)題。而本文的出發(fā)點(diǎn)正是想緩解中介語(yǔ)短語(yǔ)斷路的問(wèn)題。

實(shí)驗(yàn)二 質(zhì)量控制因子閾值λ對(duì)翻譯結(jié)果的影響

由于不同的質(zhì)量控制因子閾值的設(shè)置,對(duì)判斷需要解碼的中介語(yǔ)短語(yǔ)數(shù)目有關(guān),從而對(duì)改善短語(yǔ)翻譯表產(chǎn)生影響,這里我們做了下列實(shí)驗(yàn): 在開(kāi)發(fā)集上,通過(guò)改變閾值λ的取值,觀(guān)察其對(duì)翻譯結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 質(zhì)量控制因子閾值λ在開(kāi)發(fā)集上對(duì)翻譯結(jié)果的影響

之所以呈現(xiàn)先增后減的趨勢(shì),本文分析結(jié)果是: 如果質(zhì)量控制因子閾值設(shè)置得過(guò)小,只有較少的高質(zhì)量斷路中介語(yǔ)短語(yǔ)被重新解碼利用起來(lái),對(duì)整體的翻譯性能幫助并不明顯。但如果設(shè)置質(zhì)量控制因子的閾值過(guò)大,將會(huì)引入一些低質(zhì)量的中介語(yǔ)短語(yǔ),從而對(duì)翻譯性能造成損害。這里我們看到λ=0.4時(shí)翻譯性能達(dá)到最高,所以后續(xù)的實(shí)驗(yàn)?zāi)J(rèn)設(shè)置λ=0.4。

實(shí)驗(yàn)三 不同推導(dǎo)類(lèi)型對(duì)翻譯性能的影響

我們對(duì)比了傳統(tǒng)的Transfer方法、Triangulation方法和本文提出的Transfer-Triangulation方法中處理不同推導(dǎo)類(lèi)型的翻譯性能結(jié)果,如表3所示。

表3 Baseline及處理不同推導(dǎo)類(lèi)型在測(cè)試集上的翻譯性能(*表示顯著高于Baseline)

由第一行和第二行可以看到,Triangulation方法比Transfer方法翻譯性能更好,BLEU值上升了3.9個(gè)點(diǎn)。對(duì)于+Discard方法,在2 000句的測(cè)試集上僅僅減少了八個(gè)未登錄詞,并沒(méi)有如設(shè)想地緩解了未登錄詞問(wèn)題。分析其中原因發(fā)現(xiàn),對(duì)于大多數(shù)的包含源語(yǔ)未登錄詞的源語(yǔ)-中介語(yǔ)短語(yǔ),相應(yīng)的中介語(yǔ)短語(yǔ)也包含未登錄詞,從而導(dǎo)致解碼的結(jié)果中也包含未登錄詞,造成解碼失敗。對(duì)于+Low方法,由于傳統(tǒng)的Triangulation方法丟失了一些高質(zhì)量的中介語(yǔ)短語(yǔ),而本文方法能夠有效利用這部分高質(zhì)量的中介語(yǔ)短語(yǔ)進(jìn)行短語(yǔ)翻譯表改善,最終實(shí)驗(yàn)結(jié)果也證實(shí)了該想法的有效性。對(duì)于+Discard&Low方法同只+Low的方法在BLEU上沒(méi)有太多差異,且對(duì)OOV現(xiàn)象緩解的作用很小。

5 相關(guān)工作

基于中介語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的典型方法有兩種: Transfer方法和Triangulation方法。

對(duì)于Transfer方法,由2.1節(jié)分析可知,給定一個(gè)源語(yǔ)句子,最終會(huì)產(chǎn)生m×n個(gè)目標(biāo)語(yǔ)的翻譯結(jié)果。González-Rubio 和Duh等人[10-11]提出使用基于最小貝葉斯風(fēng)險(xiǎn)的系統(tǒng)融合方法去選擇最優(yōu)的翻譯結(jié)果。

對(duì)于Triangulation方法,Kholy等人[12]提出從詞對(duì)齊信息中抽取兩個(gè)與語(yǔ)言獨(dú)立的特征,該特征指示了被推導(dǎo)出的源語(yǔ)-目標(biāo)語(yǔ)翻譯規(guī)則的可靠性。Tofigh等人[13]提出利用基于中介語(yǔ)的上下文向量,從而計(jì)算被推導(dǎo)出的源語(yǔ)-目標(biāo)語(yǔ)翻譯規(guī)則間的短語(yǔ)相似度,并依據(jù)該相似度進(jìn)行短語(yǔ)表過(guò)濾,從而起到過(guò)濾噪聲規(guī)則的目的。朱曉寧等人[14]提出使用隨機(jī)漫步方法獲取潛在的源語(yǔ)-目標(biāo)語(yǔ)短語(yǔ)路徑,從而緩解源語(yǔ)未登錄詞問(wèn)題。而后,朱曉寧等人[15]又提出在融合短語(yǔ)表前直接對(duì)源語(yǔ)-目標(biāo)語(yǔ)的短語(yǔ)對(duì)共現(xiàn)次數(shù)進(jìn)行估計(jì)的方法,避免了在短語(yǔ)推導(dǎo)時(shí)由于中介語(yǔ)斷點(diǎn)導(dǎo)致破壞短語(yǔ)翻譯概率空間的問(wèn)題。Miura等人[16]提出在進(jìn)行短語(yǔ)規(guī)則推導(dǎo)時(shí)記錄所使用的中介語(yǔ)信息,在進(jìn)行源語(yǔ)-目標(biāo)語(yǔ)的翻譯過(guò)程中額外考慮中介語(yǔ)的語(yǔ)言模型特征。

另外,Michael等人[17]探索了不同中介語(yǔ)的選擇對(duì)系統(tǒng)的影響,英文更適合作為印歐語(yǔ)系及部分亞洲語(yǔ)言(如泰語(yǔ)、越語(yǔ))之間的中介語(yǔ)。

不同于上述方法,本文提出的Transfer-Triangulation方法是將Transfer方法應(yīng)用于短語(yǔ)級(jí),利用解碼中介語(yǔ)短語(yǔ)的方法改善被推導(dǎo)出的短語(yǔ)表。

6 總結(jié)

本文提出Transfer和Triangulation融合的中介語(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法,通過(guò)應(yīng)用短語(yǔ)級(jí)的Transfer方法,將高質(zhì)量的中介語(yǔ)斷點(diǎn)解碼成相應(yīng)的目標(biāo)語(yǔ)短語(yǔ),從而將中介語(yǔ)斷點(diǎn)轉(zhuǎn)換為非斷點(diǎn),使得Triangulation方法能夠利用更多中介語(yǔ)信息,達(dá)到改善短語(yǔ)表、提高翻譯性能的目的。其中,本文解決了計(jì)算解碼結(jié)果短語(yǔ)翻譯概率和詞對(duì)齊問(wèn)題,并提出了質(zhì)量控制因子的概念,將使用Triangulation方法推導(dǎo)過(guò)程分為三類(lèi): 丟棄型、低可信、高可信,利用質(zhì)量控制因子閾值挑選Triangulation方法中無(wú)法使用的高質(zhì)量中介語(yǔ)短語(yǔ)信息。實(shí)驗(yàn)結(jié)果表明,中介語(yǔ)短語(yǔ)斷路現(xiàn)象是在應(yīng)用Triangulation方法時(shí)普遍存在的問(wèn)題,本實(shí)驗(yàn)中斷路的中介語(yǔ)短語(yǔ)比例達(dá)74.15%;隨著質(zhì)量控制因子閾值λ增大,翻譯性能呈先上升后下降的趨勢(shì),原因在于: 如果λ過(guò)小,只有較少的高質(zhì)量斷路中介語(yǔ)短語(yǔ)被解碼,而如果λ過(guò)大,將會(huì)引入低質(zhì)量的斷路中介語(yǔ)短語(yǔ),損害翻譯性能;對(duì)低可信推導(dǎo)中的高質(zhì)量中介語(yǔ)斷點(diǎn)重新解碼產(chǎn)生的推導(dǎo)規(guī)則,能夠有效改善傳統(tǒng)Triangulation方法推導(dǎo)出的短語(yǔ)表,減少了噪聲翻譯規(guī)則,并且擴(kuò)大了短語(yǔ)表的覆蓋度,BLEU值提高了0.86個(gè)點(diǎn)。但是對(duì)丟棄型推導(dǎo)的重解碼處理并沒(méi)有如預(yù)期有效緩解OOV問(wèn)題,其原因在于源語(yǔ)如果包含OOV,其相應(yīng)的中介語(yǔ)短語(yǔ)也往往包含OOV,從而造成解碼失敗。未來(lái)我們將探索如何將中介語(yǔ)的解碼結(jié)果作為翻譯特征,幫助解碼器選擇正確的翻譯選項(xiàng)。

[1] Masao Utiyama, Hitoshi Isahara. A comparison of pivot methods for phrase-based statistical machine translation[C]//Proceedings of Human Language Technology: the Conference of the North American Chapter of the Association for Computational Linguistics, 2007: 484-491.

[2] Hua Wu, Haifeng Wang. Pivot language approach for phrase-based statistical machine translation[C]//Proceedings of 45th Annual Meeting of the Association for Computational Linguistics, 2007: 856-863.

[3] Trevor Cohn, MirellaLapata. Machine translation by triangulation: make effective use of multi-parallel corpora[C]//Proceedings of 45th Annual Meeting of the Association for Computational Linguistics, 2007: 828-735.

[4] Philipp Koehn, Franz Och, Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics(HLT: NAACL), 2003: 48-54, Edmonton, Canada, June.

[5] Tong Xiao, Jingbo Zhu, Hao Zhang, et al. NiuTrans: An open source toolkit for phrase-based and Syntax-based machine translation[C]//Proceedings of ACL: System Demonstrations, 2012: 19-24, Jeju Island, Korea, July.

[6] Franz Josef Och, Hermann Ney. A comparison of alignment models for statistical machine translation[C]//Proceedings of the 18th International Conference on Computational Linguistics, 2000: 1086-1090.

[7] Stanley F. Chen, Joshua Goodman. An empirical study of smoothing techniques for language modeling[J]. Computer Speech & Language, 1999(13): 359-393.

[8] Franz Och. Minimum error rate training in statistical machine translation[C]//Proceedings of ACL, 2003: 160-167, Sapporo, Japan, July.

[9] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computation Linguistics, 2002: 311-319.

[10] Jesús González-Rubio, Alfons Juan, Francisc Casacuberta. Minimum bayes-risk system[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 1268-1277.

[11] Kevin Duh, Katsuhito Sudoh, Xianchao Wu, et al. Generalized minimum bayes risk system combination[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1356-1360.

[12] Kholy A E, Habash N, Leusch G, et al. Language independent connectivity strength features for phrase pivot statistical machine translation[J]. Proc of Acl, 2013.

[13] Samira Tofighi Zahabi, Somayeh Bakhshaei, Shahram Khadivi. Using context vectors in improving a machine translation system with bridge language[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 318-322.

[14] Xiaoning Zhu, Zhongjun He, Hua Wu, H et al.2013. Improving pivot-based statistical machine translation using random walk[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 524-534.

[15] Xiaoning Zhu, Zhongjun He, Hua Wu, et al.2014. Improving pivot-based statistical machine translation by pivoting the co-occurrence count of phrase pairs[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2014: 1665-1675.

[16] Akiva Miura, Graham Neubig, Sakriani Sakti, et al.2015. Improving pivot translation by remembering the pivot[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015: 573-577.

[17] Michael Paul, Hirofumi Yamamoto, Eiichiro Sumita? et al. On the importance of pivot language selection for statistical machine translation[C]//Proceedings of NAACL HLT 2009: Short Papers, 2009: 221-224.

王強(qiáng)(1990—),博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。

E-mail: wangqiang@gmail.com

杜權(quán)(1989—),博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。

E-mail: duquanneu@126.com

肖桐(1982—),博士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。

E-mail: xiaotong@mail.neu.edu.cn

Transfer-Triangulation Method for Pivot-Based Statistical Machine Translation

WANG Qiang, DU Quan, XIAO Tong, ZHU Jingbo

(NLP Lab,Northeastern University, Shenyang, Liaoning 110819, China)

1003-0077(2017)04-0036-08

TP391

A

猜你喜歡
源語(yǔ)斷點(diǎn)斷路
一種適用于繼電保護(hù)在線(xiàn)整定的極小斷點(diǎn)集求取算法
對(duì)機(jī)電設(shè)備電氣斷路故障的深析
用Eclipse調(diào)試Python
火力發(fā)電機(jī)組自啟停(APS)系統(tǒng)架構(gòu)設(shè)計(jì)方案
一類(lèi)無(wú)限可能問(wèn)題的解法
電路故障的判斷
釋義理論指導(dǎo)下的口譯教學(xué)新模式探究
關(guān)于卡特福德翻譯理論的思考
乏燃料水池缺乏虹吸斷路開(kāi)孔事件經(jīng)驗(yàn)反饋
英語(yǔ)翻譯中悖論的發(fā)現(xiàn)與理解