米莉萬(wàn)·雪合來(lái)提,劉 凱,吐?tīng)柛ひ啦祭?/p>
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 中國(guó)科學(xué)院大學(xué),北京 100190;3. 烏魯木齊市工商局,新疆 烏魯木齊 830002)
?
基于維吾爾語(yǔ)詞干詞綴粒度的漢維機(jī)器翻譯
米莉萬(wàn)·雪合來(lái)提1,2,3,劉 凱2,吐?tīng)柛ひ啦祭?
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 中國(guó)科學(xué)院大學(xué),北京 100190;3. 烏魯木齊市工商局,新疆 烏魯木齊 830002)
漢語(yǔ)到維吾爾語(yǔ)的自動(dòng)機(jī)器翻譯有著重要的現(xiàn)實(shí)意義。目前對(duì)于漢維統(tǒng)計(jì)機(jī)器翻譯方法的研究相對(duì)空白。該文提出了一種以維吾爾語(yǔ)為詞干詞綴粒度的漢維機(jī)器翻譯方法。該方法利用維吾爾語(yǔ)形態(tài)分析后的詞干詞綴作為翻譯的基本單位,并且根據(jù)其黏著語(yǔ)特性提出了一種基于有向圖的維吾爾語(yǔ)“詞干-詞綴”語(yǔ)言模型。基于開(kāi)放語(yǔ)料的實(shí)驗(yàn)證明我們的詞干詞綴翻譯模型以及語(yǔ)言模型顯著優(yōu)于之前的基于詞粒度的模型。
維吾爾語(yǔ);機(jī)器翻譯;漢維翻譯;詞干;詞綴;形態(tài)分析
漢語(yǔ)和維吾爾語(yǔ)之間的翻譯從語(yǔ)言學(xué)本質(zhì)上可以看作是孤立語(yǔ)和黏著語(yǔ)之間的翻譯。目前國(guó)內(nèi)已經(jīng)有部分孤立語(yǔ)到黏著語(yǔ)翻譯的研究。針對(duì)維吾爾語(yǔ)到漢語(yǔ)機(jī)器翻譯的研究工作有: Batuer AISHAN[1]在翻譯過(guò)程中引入詞干詞綴信息輔助維漢翻譯;在CWMT2011評(píng)測(cè)中,參加單位中國(guó)科學(xué)院計(jì)算技術(shù)研究所直接利用維文端多種不同的粒度來(lái)進(jìn)行的維漢翻譯[2-3]。到目前為止,大部分相關(guān)工作均是基于黏著語(yǔ)到非黏著語(yǔ)翻譯的,例如,一些基于土耳其語(yǔ)和韓語(yǔ)的工作[4-5]。也有部分工作是基于非黏著語(yǔ)到黏著語(yǔ)翻譯的工作[6]。但是目前基本上沒(méi)有直接針對(duì)漢語(yǔ)到維吾爾語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的研究。并且由于漢維翻譯為非黏著語(yǔ)到黏著語(yǔ)的翻譯,其翻譯目標(biāo)端為黏著語(yǔ),面臨著與維漢翻譯不一樣的挑戰(zhàn): 缺少以目標(biāo)端為黏著語(yǔ)的翻譯工作研究;維漢平行語(yǔ)料資源稀缺;維語(yǔ)語(yǔ)料不如漢語(yǔ)資源豐富,所以訓(xùn)練語(yǔ)言模型的語(yǔ)料相對(duì)較少。
本文提出了一種利用維吾爾語(yǔ)端詞干詞綴粒度進(jìn)行翻譯建模的漢語(yǔ)到維吾爾語(yǔ)的機(jī)器翻譯方法。在該方法中我們利用維吾爾語(yǔ)端的詞干詞綴作為翻譯的基本單位,并對(duì)維吾爾語(yǔ)中“詞干-詞干”,“詞干-詞綴”結(jié)構(gòu)進(jìn)行建模,設(shè)計(jì)了一種針對(duì)維吾爾語(yǔ)的黏著語(yǔ)有向圖語(yǔ)言模型。我們的模型直接改進(jìn)了現(xiàn)有的翻譯模型,并最終提升了翻譯質(zhì)量。實(shí)驗(yàn)結(jié)果證明我們?cè)O(shè)計(jì)的基于詞干詞綴翻譯方法和語(yǔ)言模型能夠顯著提高翻譯質(zhì)量。
本文將在第2節(jié)介紹相關(guān)的機(jī)器翻譯的技術(shù)背景及維吾爾語(yǔ)的特點(diǎn);在第3節(jié)介紹我們利用詞干詞綴作為翻譯基本單位的翻譯方法,以及基于有向圖的詞干詞綴的維吾爾語(yǔ)語(yǔ)言模型;第4節(jié)中的實(shí)驗(yàn)結(jié)果證明了我們這種翻譯方法的有效性;最后我們對(duì)本文中工作進(jìn)行了總結(jié),并提出了進(jìn)一步改進(jìn)工作的方向。
2.1 統(tǒng)計(jì)機(jī)器翻譯
隨著統(tǒng)計(jì)機(jī)器翻譯的發(fā)展,多種不同的翻譯方法相繼被提出: 基于詞的翻譯模型[7],基于短語(yǔ)的翻譯模型[8],基于形式句法的翻譯模型[9-10],基于句法的翻譯模型[11]等。本文中采用目前工業(yè)界和學(xué)術(shù)界中廣泛使用的層次短語(yǔ)模型(基于形式句法),來(lái)對(duì)機(jī)器翻譯進(jìn)行簡(jiǎn)要的說(shuō)明。
統(tǒng)計(jì)機(jī)器翻譯流程中,以下幾點(diǎn)為機(jī)器翻譯的關(guān)鍵。
? 詞語(yǔ)對(duì)齊
利用大量雙語(yǔ)平行句對(duì),依靠無(wú)監(jiān)督的統(tǒng)計(jì)信息,自動(dòng)對(duì)雙語(yǔ)平行句對(duì)進(jìn)行詞對(duì)齊。常用的工具為根據(jù)IBM model[4]實(shí)現(xiàn)的GIZA++。對(duì)齊效果如圖1中所示。
? 規(guī)則抽取
本文中以層次短語(yǔ)為例,在圖1中給出了部分根據(jù)對(duì)齊信息抽取的翻譯規(guī)則。同樣地,在規(guī)則抽取過(guò)程中需要統(tǒng)計(jì)相應(yīng)翻譯規(guī)則的各種概率及權(quán)重。
圖1 統(tǒng)計(jì)機(jī)器翻譯的關(guān)鍵步驟
? 語(yǔ)言模型
語(yǔ)言模型是根據(jù)單語(yǔ)語(yǔ)料庫(kù)統(tǒng)計(jì)得出的一個(gè)語(yǔ)言的生成式的概率模型。在翻譯中,語(yǔ)言模型用來(lái)對(duì)不同的翻譯候選結(jié)果給出相應(yīng)的語(yǔ)言模型概率等分,對(duì)最終翻譯結(jié)果的流利度影響很大。
? 翻譯解碼
翻譯解碼的過(guò)程就是利用之前抽取的各種翻譯規(guī)則和語(yǔ)言模型,對(duì)目標(biāo)端進(jìn)行解碼,同時(shí)計(jì)算各種概率和得分,最終獲得模型相對(duì)得分最高的翻譯的過(guò)程。
從以上可以看出,統(tǒng)計(jì)機(jī)器翻譯中各關(guān)鍵流程均非常依賴統(tǒng)計(jì)信息。但在漢維翻譯中,上述關(guān)鍵流程由于維吾爾語(yǔ)的黏著語(yǔ)特點(diǎn)(2.2節(jié))均會(huì)遇到相應(yīng)的統(tǒng)計(jì)問(wèn)題。
2.2 維吾爾語(yǔ)特點(diǎn)
維吾爾語(yǔ)屬于阿爾泰語(yǔ)系的東突厥語(yǔ)族。按形態(tài)分類,它屬于黏著語(yǔ),與漢語(yǔ)之間的差異很大。維吾爾語(yǔ)作為黏著語(yǔ),具有豐富的詞匯形態(tài)[12],這些形態(tài)是通過(guò)詞干綴接不同構(gòu)形詞綴來(lái)呈現(xiàn)的。同一個(gè)詞的不同形態(tài)表示以詞干意義為主的不同的語(yǔ)法功能,構(gòu)形詞綴還可以多層綴接。如表1所示可以看出: 一個(gè)維吾爾語(yǔ)詞匯是由一個(gè)詞干綴接多個(gè)詞綴(字符串前帶“+”)來(lái)表達(dá)豐富的語(yǔ)義;一個(gè)維吾爾語(yǔ)單詞往往能表達(dá)漢語(yǔ)中一個(gè)短語(yǔ)甚至是短句的意義;并且漢語(yǔ)中對(duì)應(yīng)的重要的實(shí)詞在維吾爾語(yǔ)中也可能由詞綴形式來(lái)表達(dá)(例如,表1中的“你們”)。
因此,由不同詞干詞綴組合而成的維吾爾語(yǔ)詞匯的數(shù)量非常龐大,在統(tǒng)計(jì)方法中將會(huì)導(dǎo)致非常嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。我們?cè)谖迦f(wàn)句對(duì)的漢維政府平行語(yǔ)料上分別統(tǒng)計(jì)了單詞種類個(gè)數(shù)、單詞總數(shù)以及所有單詞出現(xiàn)的頻數(shù),在表2和表3中給出??梢钥闯?,維吾爾語(yǔ)單詞相比漢語(yǔ)數(shù)據(jù)稀疏問(wèn)題更為突出。但是如果將所有維吾爾語(yǔ)單詞拆分成詞干、詞綴的形式, 以詞干、 詞綴單獨(dú)作為單詞再次統(tǒng)計(jì),如表2所示。可以看出,如果維吾爾語(yǔ)以詞干、詞綴作為單詞,單詞數(shù)目顯著減少,平均單詞頻度相應(yīng)升高。其中表3給出了漢語(yǔ)和維吾爾語(yǔ)使用頻度最高的五個(gè)單詞及其使用頻數(shù)。根據(jù)以上觀察,我們認(rèn)為將維吾爾語(yǔ)端分解成詞干、詞綴形式可以顯著減小數(shù)據(jù)稀疏對(duì)機(jī)器翻譯的影響。
表1 一個(gè)維吾爾語(yǔ)詞干綴接多個(gè)詞綴表達(dá)豐富的語(yǔ)義
表2 維吾爾語(yǔ)漢語(yǔ)單詞種類、使用總數(shù)及平均單詞使用頻數(shù)
表3 維漢雙語(yǔ)頻數(shù)排名前5的單詞及它們?cè)谡Z(yǔ)料中使用的頻數(shù)
常用維吾爾詞頻數(shù)常用詞綴頻數(shù)常用漢語(yǔ)頻數(shù)we21542+i141507的52610bilen9626+ni66877和17064bir6487+ning50976在11360qilish6350+si34062了7849k?rek6132+d27066是5944
從句法角度看,維吾爾語(yǔ)和漢語(yǔ)也有顯著區(qū)別: 漢語(yǔ)的句法是SVO(主謂賓)結(jié)構(gòu),而維吾爾語(yǔ)是SOV(主賓謂)結(jié)構(gòu)。例如,漢語(yǔ)中的“我讀了一本書”,對(duì)應(yīng)的維吾爾語(yǔ)為: “man(我) birkitap(一本書) oqudum(讀了)”。這種結(jié)構(gòu)的不一致將更容易導(dǎo)致翻譯中的長(zhǎng)距離調(diào)序問(wèn)題。
本節(jié)中我們將介紹我們基于詞干、詞綴的漢維翻譯方法。首先,我們將維吾爾語(yǔ)端分解成詞干、詞綴形式,并以此為機(jī)器翻譯的基本單位,緩解了統(tǒng)計(jì)機(jī)器翻譯中數(shù)據(jù)稀疏問(wèn)題。然后,我們根據(jù)維吾爾語(yǔ)特點(diǎn)設(shè)計(jì)了一種基于“詞干-詞干”、“詞干-詞綴”的有向圖語(yǔ)言模型,并將其作為翻譯特征融入到翻譯解碼流程中。
3.1 詞干、詞綴拆分翻譯
在本節(jié)中我們介紹將維吾爾語(yǔ)端拆分成詞干、詞綴的翻譯方法。基本關(guān)鍵流程同圖1所示,不同的是我們將雙語(yǔ)語(yǔ)料中的維吾爾語(yǔ)端切分成詞干、詞綴形式,并以詞干、詞綴為基本單位進(jìn)行雙語(yǔ)對(duì)齊、規(guī)則抽取、并最終根據(jù)詞干詞綴的源端輸入進(jìn)行翻譯。
由于詞干詞綴切分,顯著地減小了詞語(yǔ)的數(shù)據(jù)稀疏問(wèn)題,顯著改善了雙語(yǔ)無(wú)監(jiān)督的詞語(yǔ)對(duì)齊質(zhì)量。并且由于對(duì)齊粒度減小,使得自動(dòng)對(duì)齊更加細(xì)致和準(zhǔn)確。例如圖2(a)中,在詞級(jí)對(duì)齊中漢語(yǔ)端單詞“對(duì)”并沒(méi)有被對(duì)上,而在詞干詞綴級(jí)對(duì)齊中“對(duì)”被準(zhǔn)確的對(duì)齊到了“+ge”這個(gè)詞綴。
更加極端的情況如圖2(b)中所示,在詞粒度下對(duì)我們之前表1中舉的例子進(jìn)行對(duì)齊后,漢語(yǔ)端所有詞均對(duì)應(yīng)到維吾爾語(yǔ)端的一個(gè)詞。在翻譯抽取規(guī)則的過(guò)程中只能獲得一個(gè)大片段的翻譯對(duì): “你們不能進(jìn)行標(biāo)準(zhǔn)化嗎,?lchemleshtürelmemsiler”。在翻譯過(guò)程中這種規(guī)則很難被使用上,因?yàn)橹灰g短語(yǔ)與該抽取的短語(yǔ)有一點(diǎn)不同,例如,“你們不能進(jìn)行標(biāo)準(zhǔn)化”,就會(huì)導(dǎo)致該規(guī)則不能匹配,最終導(dǎo)致整個(gè)短語(yǔ)無(wú)法翻譯。如圖2(b)中的詞干詞綴對(duì)齊例子,如果利用詞干詞綴進(jìn)行對(duì)齊,我們可以根據(jù)對(duì)齊獲得粒度更小、更準(zhǔn)確的翻譯片段,同時(shí)能夠很好地解決上述翻譯問(wèn)題。
3.2 有向圖詞干詞綴語(yǔ)言模型
在本節(jié)中介紹我們?yōu)樵~干詞綴粒度的翻譯模型設(shè)計(jì)的語(yǔ)言模型。與維漢翻譯不同的是以維吾爾語(yǔ)為目標(biāo)端的翻譯需要一個(gè)維吾爾語(yǔ)的語(yǔ)言模型,并且維吾爾語(yǔ)作為黏著語(yǔ)本身具有一定的特點(diǎn): 詞綴的選擇主要依靠所依附的詞干信息和之前的詞綴信息,并且一個(gè)詞內(nèi)部詞綴之間的排列組合也依據(jù)一定的規(guī)則;一句之中所有詞干表達(dá)了整個(gè)句子的結(jié)構(gòu)信息,詞干的選擇和之間的順序決定了整個(gè)句子結(jié)構(gòu)表達(dá)的正確性。根據(jù)上述特點(diǎn),我們?cè)O(shè)計(jì)了一種基于“詞干-詞干”和“詞干-詞綴”的有向圖結(jié)構(gòu)的語(yǔ)言模型。如圖3所示,我們將一般的基于詞序列的語(yǔ)言模型拆分成“詞干-詞干”和“詞干-詞綴”兩部分,計(jì)算語(yǔ)言模型的路徑將所有詞干詞綴組織成一個(gè)有向圖。
圖2 詞級(jí)對(duì)齊與詞干詞綴級(jí)對(duì)齊的效果
圖3 不同結(jié)構(gòu)的詞語(yǔ)言模型和詞干詞綴語(yǔ)言模型
在一般的詞序列語(yǔ)言模型中,一個(gè)詞wi在當(dāng)前串中的概率計(jì)算為P(wi|...wi-2wi-1),其中wi-1和wi-2分別為位置在i-1和i-2的詞。我們的詞干詞尾語(yǔ)言模型與詞序列語(yǔ)言模型不同的是,我們將詞干詞尾分開(kāi)計(jì)算語(yǔ)言模型。其中詞干si的概率只由上下文的詞干決定: P(si|...si-2si-1),si-2和si-1為si之前的兩個(gè)詞干;詞尾am的概率只由所依附的詞干和前面的詞尾決定: P(am|si...sm-1),其中si為am所依附的詞干,am-1為am之前的一個(gè)詞尾。
由此,我們定義了一個(gè)具有黏著語(yǔ)特色的以詞干、詞綴為單位的有向圖結(jié)構(gòu)的語(yǔ)言模型。其中,黏著語(yǔ)的有向圖建模已在黏著語(yǔ)詞法分析中證明能夠很好地描述黏著語(yǔ)[13]。由于該語(yǔ)言模型根據(jù)黏著語(yǔ)的特點(diǎn)設(shè)計(jì),可以更好地描述作為黏著語(yǔ)的維吾爾語(yǔ)。
3.3 詞干詞綴訓(xùn)練及翻譯流程
詞干、詞綴翻譯模型的訓(xùn)練流程如圖4中實(shí)線所示。我們分別利用經(jīng)過(guò)分詞的漢語(yǔ)句子和詞法分析后詞干、詞綴粒度的維吾爾語(yǔ)句子進(jìn)行詞匯對(duì)齊;利用該對(duì)齊結(jié)果進(jìn)行規(guī)則抽取,獲得維吾爾語(yǔ)端為詞干、詞綴粒度的規(guī)則表;同時(shí)使用維吾爾語(yǔ)詞干、詞綴粒度的訓(xùn)練語(yǔ)料,根據(jù)上一節(jié)描述的方法訓(xùn)練“詞干-詞干”“詞干-詞綴”的有向圖語(yǔ)言模型;利用最小錯(cuò)誤率訓(xùn)練(MERT)(圖中省略了調(diào)參流程)得到模型參數(shù),得到最后的翻譯模型。
圖4 翻譯訓(xùn)練及解碼流程圖
利用獲得的模型進(jìn)行翻譯的流程如圖4中虛線所示。我們將待翻譯語(yǔ)料分詞后直接利用翻譯模型進(jìn)行翻譯解碼獲得最終的翻譯結(jié)果。
我們?cè)诒竟?jié)中對(duì)我們提出詞干詞綴粒度翻譯模型以及詞干、詞綴語(yǔ)言模型進(jìn)行了驗(yàn)證。我們分別使用詞和詞干、詞綴級(jí)別進(jìn)行漢維翻譯,并在翻譯過(guò)程中利用我們提出的詞干、詞綴語(yǔ)言模型。
4.1 實(shí)驗(yàn)設(shè)置
我們?cè)趯?shí)驗(yàn)中利用12萬(wàn)句對(duì)的語(yǔ)料,其中包括CWMT2011[2]公開(kāi)評(píng)測(cè)所提供的5萬(wàn)句對(duì)的維漢雙語(yǔ)訓(xùn)練語(yǔ)料作為翻譯訓(xùn)練集,其中開(kāi)放的700句開(kāi)發(fā)集也被作為我們翻譯訓(xùn)練的開(kāi)發(fā)集。另外我們自己組織了1 000句作為實(shí)驗(yàn)的測(cè)試集。
我們利用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的維吾爾語(yǔ)形態(tài)分析工具[14](分析的F值為91.4%)對(duì)需要進(jìn)行形態(tài)分析的維吾爾語(yǔ)進(jìn)行形態(tài)分析。中文端使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的分詞工具進(jìn)行分詞。訓(xùn)練雙語(yǔ)語(yǔ)料利用GIZA++進(jìn)行無(wú)監(jiān)督詞匯對(duì)齊對(duì)齊結(jié)果如圖1所示。我們分別利用詞級(jí)別和詞干詞綴級(jí)別的維吾爾語(yǔ)語(yǔ)料(雙語(yǔ)語(yǔ)料維吾爾語(yǔ)端)訓(xùn)練不同元數(shù)的詞序列語(yǔ)言模型和“詞干-詞干”、“詞干-詞綴”語(yǔ)言模型。
我們使用開(kāi)源的moses翻譯解碼器中的層次短語(yǔ)解碼器進(jìn)行翻譯實(shí)驗(yàn)。其中短語(yǔ)規(guī)則抽取長(zhǎng)度為7。我們利用BLEU評(píng)價(jià)指標(biāo)對(duì)不同翻譯結(jié)果進(jìn)行評(píng)價(jià)(以詞干詞綴為粒度)。我們以重排序的方法將詞干詞綴語(yǔ)言模型嵌入到moses解碼器中,我們利用詞干詞綴語(yǔ)言模型在解碼器生成的nbest譯文上進(jìn)行語(yǔ)言模型打分,并根據(jù)開(kāi)發(fā)集調(diào)參重排序得到最后的譯文。如圖5所示,我們對(duì)翻譯的nbest譯文根據(jù)詞干詞綴語(yǔ)言模型進(jìn)行重新打分,依據(jù)新打的分?jǐn)?shù)及之前翻譯模型的特征分?jǐn)?shù)將模型認(rèn)為較好的譯文排到前面作為最終譯文。
圖5 nbest譯文重排序
4.2 實(shí)驗(yàn)結(jié)果
我們利用上一節(jié)的工具和資源分別訓(xùn)練詞和詞干詞綴級(jí)別的漢維翻譯模型。翻譯結(jié)果如表4所示: 其中前五行為詞粒度翻譯模型利用不同語(yǔ)言模型的翻譯結(jié)果;詞粒度翻譯系統(tǒng)中的詞干、詞綴語(yǔ)言模型是在形態(tài)分析后翻譯結(jié)果的基礎(chǔ)上計(jì)算的; 六到九行為我們?cè)~干、詞綴翻譯模型利用不同語(yǔ)言模型的翻譯結(jié)果;最后一行為我們利用詞干詞綴抽取長(zhǎng)度為4規(guī)則長(zhǎng)度的測(cè)試結(jié)果。
表4 詞和詞干詞綴粒度的翻譯對(duì)比實(shí)驗(yàn)(*是以詞干詞綴作為詞序列的語(yǔ)言模型)
翻譯粒度語(yǔ)言模型BLEU%詞詞級(jí)別5元51.19詞級(jí)別5元+詞干級(jí)別3元53.10(+1.91)詞級(jí)別5元+詞干級(jí)別5元53.18(+1.99)詞干詞綴3元53.18(+1.99)詞干詞綴5元53.44(+2.25)詞干詞綴詞級(jí)別5元?54.26(+3.07)詞干詞綴3元54.91(+3.72)詞干詞綴5元55.26(+4.07)詞級(jí)別5元?+詞干詞綴5元55.32(+4.13)詞干詞綴詞級(jí)別5元?+詞干詞綴5元+規(guī)則長(zhǎng)度454.45(+2.26)
從結(jié)果可以看出我們提出的詞干、詞綴翻譯模型顯著優(yōu)于比詞粒度的翻譯方法。同時(shí),我們提出的詞干、詞綴語(yǔ)言模型在兩種粒度的翻譯中均能起到顯著的作用,效果在詞級(jí)別的翻譯中尤其顯著,證明了我們圖結(jié)構(gòu)的“詞干-詞干”、“詞干-詞綴”語(yǔ)言模型確實(shí)能夠更準(zhǔn)確地描繪維吾爾語(yǔ)的黏著語(yǔ)特點(diǎn)。
本文提出了一種基于詞干詞綴的漢維翻譯模型及維吾爾語(yǔ)有向圖語(yǔ)言模型。我們將維吾爾語(yǔ)詞分析為詞干詞綴粒度,很好地解決了漢維翻譯過(guò)程中的數(shù)據(jù)稀疏問(wèn)題,同時(shí)圖結(jié)構(gòu)的詞干詞綴語(yǔ)言模型能夠較好地描述作為黏著語(yǔ)的維吾爾語(yǔ)。該方法具有良好的適應(yīng)性,可以用在所有非黏著語(yǔ)到維吾爾語(yǔ)翻譯的場(chǎng)合,而不是僅僅限定在漢維翻譯中。實(shí)驗(yàn)結(jié)果證明我們提出的翻譯方法和圖結(jié)構(gòu)語(yǔ)言模型均能夠顯著地提升翻譯效果,對(duì)比基線系統(tǒng)有4.13 BLEU的提升。下一步我們將完全地利用詞干詞綴的有向圖結(jié)構(gòu)對(duì)維吾爾語(yǔ)進(jìn)行翻譯建模,以期能夠從模型上直接描繪維吾爾語(yǔ)的黏著語(yǔ)特性。
[1] Batuer AISHAN, Maosong SUN. Uyghur-Chinese Statistical Machine Translation by Incorporating Morphological Information[J].Journal of Computational System, 2010,6(10):3137-3145.
[2] 趙紅梅,呂雅娟,賁國(guó)生,等. 第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011)評(píng)測(cè)報(bào)告[C]//第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集,2011:3-31.
[3] 劉凱,王志洋,于惠,等.2011全國(guó)機(jī)器翻譯研討會(huì)計(jì)算所系統(tǒng)描述[C]//第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集,2011: 46-58.
[4] Brown P F, Pietra V J D, Pietra S A D,et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational linguistics, 1993, 19:263-311.
[5] Koehn P, Och F J, Marcu D. Statistical phrase-based translation [C]//Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology-Volume 1, 2003:48-54.
[6] Chiang D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33:201-228.
[7] Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation [C]//Proceedings of the Association for Computational Linguistics, 2006:521-528.
[8] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation [C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, 2006:609-616.
[9] 阿依克孜·卡德?tīng)?,開(kāi)沙爾·卡德?tīng)枺聽(tīng)柛ひ啦焕?面向自然語(yǔ)言信息處理的維吾爾語(yǔ)名詞形態(tài)分析研究[J].中文信息學(xué)報(bào),2006,20(3):43-48.
[10] 姜文斌,吳金星,長(zhǎng)青,等。蒙古語(yǔ)詞法分析的有向圖模型[J].中文信息學(xué)報(bào),2011,25(5):94-100.
[11] 麥熱哈巴·艾力,姜文斌,王志洋,等.維吾爾語(yǔ)詞法分析的有限圖模型[J];軟件學(xué)報(bào);2012,(23)12: 3115-3129.
[12] 麥熱哈巴·艾力,姜文斌,吐?tīng)柛ひ敛祭?維吾爾語(yǔ)詞法中音變現(xiàn)象的自動(dòng)還原模型[J].中文信息學(xué)報(bào),2012,26(1):91-96.
[13] Arianna Bisazza, Marcello Federico. Morphological pre-processing for Turkish to English statistical machine translation[C]//Proceedings of IWSLT,2009:1-135.
[14] Young-Suk Lee. Morphological analysis for statistical machine translation[C]//Proceedings of HLT-NAACL, Short Papers, 2004: 57-60.
[15] Minh-ThangLuong, PreslavNakov, Min-Yen Kan. A hybrid morpheme-word representation for machine translation of morphologically rich languages[C]//Proceedings of EMNLP,2010: 148-157.
[16] ReyyanYeniterzi, Kemal Oflazer. Syntaxto-morphology mapping in factored phrase-based statistical machine translation from English to Turkish[C]//Proceedings of ACL, 2010: 454-464.
Chinese-Uyghur Machine Translation based on smallest Translation Units of Stems and Suffixes
Miliwan xuehelaiti1,2,3, LIU Kai2, Turgun Ibrahim1
(1. Information Science and Technology Institute, Xinjiang University, Urumqi, Xinjiang 830046,China; 2. University of Chinese Academy of Sciences, Beijing 100190, China; 3. Urumqi Administration of Industry and Commerce, Urumqi, Xinjiang 830046, China)
Machine translation from Chinese to Uyghur has substantial real applications. Focusing on the insufficiently addressed issue, this paper, proposes a novel Chinese-Uyghur translation method employing stems and suffixes in Uyghur are used as the basic translation unit. Based on the directed graph, this “stem-suffix” language model is proved to be significant better than previous word based models.
Uyghur; machine translation; stem; suffix; morphologicalanalysis
米莉萬(wàn)·雪合來(lái)提(1984—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。E?mail:mihreban@126.com劉凱(1987—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。E?mail:liukai@ict.a(chǎn)c.cn吐?tīng)柛ひ啦祭?1958—),通訊作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、軟件工程。E?mail:turgun@xju.edu.cn
1003-0077(2015)03-0201-06
2013-03-27 定稿日期: 2013-08-14
國(guó)家自然科學(xué)基金(61063026,61032008);國(guó)家社會(huì)科學(xué)基金(10AYY006);新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題。
TP391
A