金 鵬 張春祥 馮禹瑄 賈永剛 王淇楨
(哈爾濱理工大學(xué) 軟件與微電子學(xué)院,黑龍江 哈爾濱150080)
在機(jī)器翻譯系統(tǒng)中翻譯知識(shí)是重要的知識(shí)源,能夠完成源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換任務(wù)。目前,從語(yǔ)料庫(kù)中學(xué)習(xí)翻譯知識(shí)已經(jīng)占到了主流地位?;谡Z(yǔ)料庫(kù)的機(jī)器翻譯可以分為兩種形式:基于統(tǒng)計(jì)的翻譯系統(tǒng)和基于實(shí)例的翻譯系統(tǒng)。
1.1 統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT),又稱數(shù)據(jù)驅(qū)動(dòng)的翻譯,是一種采用統(tǒng)計(jì)學(xué)習(xí)技術(shù)來(lái)獲取知識(shí)的方法。這種方法將翻譯知識(shí)表示為模型參數(shù),利用雙語(yǔ)語(yǔ)料來(lái)優(yōu)化模型參數(shù)。統(tǒng)計(jì)機(jī)器翻譯主要包括基于信源信道模型的統(tǒng)計(jì)翻譯、基于平行概率語(yǔ)法的統(tǒng)計(jì)翻譯和基于最大熵的統(tǒng)計(jì)翻譯[1]。
1.2 基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT),其基本原理是:把雙語(yǔ)語(yǔ)料看作翻譯知識(shí)庫(kù),通過(guò)實(shí)例的查詢和相似度計(jì)算來(lái)實(shí)現(xiàn)知識(shí)的查找和匹配。類比源語(yǔ)言與翻譯實(shí)例,通過(guò)組合相近的實(shí)例片斷來(lái)生成目標(biāo)語(yǔ)譯文。實(shí)例的查詢和相似度計(jì)算本身就是一個(gè)知識(shí)獲取的過(guò)程。這種方法不通過(guò)深層次的分析,僅使用已有的經(jīng)驗(yàn)知識(shí),通過(guò)類比原理來(lái)進(jìn)行翻譯[2]。
本文對(duì)漢英雙語(yǔ)語(yǔ)料進(jìn)行詞匯對(duì)齊,根據(jù)詞鏈從中抽取漢英對(duì)譯片斷對(duì)。同時(shí),給出了基于對(duì)譯片斷對(duì)的機(jī)器翻譯框架,對(duì)輸入的漢語(yǔ)句子進(jìn)行翻譯轉(zhuǎn)換。
對(duì)譯片斷對(duì)也就是人們常說(shuō)的翻譯等價(jià)對(duì)。翻譯等價(jià)對(duì)獲取不但是機(jī)器翻譯課題中的一個(gè)重要環(huán)節(jié),而且也是自然語(yǔ)言處理中亟待解決的問(wèn)題。在處理像漢- 英這樣具有異構(gòu)語(yǔ)法體系的語(yǔ)言對(duì)時(shí),現(xiàn)行的對(duì)譯片斷對(duì)抽取方法會(huì)遇到很多問(wèn)題。對(duì)以下漢- 英雙語(yǔ)句對(duì),其對(duì)譯片斷對(duì)的抽取過(guò)程如下所示:
漢語(yǔ)句子:這是收據(jù)和零錢
英語(yǔ)句子:Here is the receipt and your change
詞匯對(duì)齊結(jié)果如圖1 所示:
圖1 漢英句對(duì)的詞匯對(duì)齊結(jié)果
對(duì)譯片斷對(duì):這是<->Here is 收據(jù)<->the receipt和<->and 零錢<->your change
在實(shí)際應(yīng)用中,對(duì)譯片斷對(duì)是很復(fù)雜的。片斷既可以是符合語(yǔ)法的,也可以是不符合語(yǔ)法的。無(wú)論是哪一種情況,對(duì)于機(jī)器翻譯系統(tǒng)而言都是有意義的,都應(yīng)該搜集起來(lái)作為翻譯知識(shí)。對(duì)以上的例子而言,對(duì)譯片斷對(duì)也可以包括以下形式:是收據(jù) 和<->is the receipt and、和 零錢<->your change and。
因此,對(duì)譯片斷對(duì)獲取的原則為:
(1)直接由詞匯對(duì)齊結(jié)果得到的對(duì)譯片斷對(duì)稱為原子對(duì)譯片斷對(duì)。
(2)如果漢語(yǔ)句子的片斷中被對(duì)齊的所有詞匯經(jīng)過(guò)詞匯對(duì)齊映射到英語(yǔ)句子的片斷中,并且英語(yǔ)句子的片斷中被對(duì)齊的所有詞匯經(jīng)過(guò)詞匯對(duì)齊映射到漢語(yǔ)句子的片斷中,那么漢語(yǔ)句子的片斷與英語(yǔ)句子的片斷稱為對(duì)齊閉包。
(3)在一個(gè)對(duì)齊閉包中,如果邊界詞匯也被對(duì)齊,那么認(rèn)為由對(duì)齊邊界詞匯從對(duì)齊閉包中所劃分出來(lái)的片斷也是對(duì)齊的。
(4)如果一個(gè)對(duì)齊閉包,不能由連續(xù)的子片斷對(duì)順序組合得到,那么該封閉片斷對(duì)稱為封閉對(duì)譯片斷對(duì)。
從漢英雙語(yǔ)句對(duì)中抽取對(duì)譯片斷對(duì)的過(guò)程如圖2 所示。
圖2 基于詞匯對(duì)齊的對(duì)譯片斷對(duì)獲取
本文給出了一個(gè)基于對(duì)譯片斷對(duì)的機(jī)器翻譯框架,如圖3所示。
圖3 基于對(duì)譯片斷對(duì)的機(jī)器翻譯框架
以對(duì)譯片斷對(duì)庫(kù)為基礎(chǔ)對(duì)輸入的漢語(yǔ)句子進(jìn)行分割,找到與漢語(yǔ)片斷最相近的對(duì)譯片斷對(duì)。對(duì)輸入的漢語(yǔ)句子,有多種片斷劃分方案。每一個(gè)漢語(yǔ)片斷可能有多個(gè)英語(yǔ)譯文。對(duì)于每種片斷劃分方案而言,其英語(yǔ)譯文組合形成了一條譯文路徑。因此,每個(gè)漢語(yǔ)句子有多個(gè)不同的候選英語(yǔ)譯文。
從多個(gè)候選英語(yǔ)譯文中選擇一個(gè)與輸入的漢語(yǔ)句子語(yǔ)義最相似的英語(yǔ)譯文是提高機(jī)器譯文輸出質(zhì)量的關(guān)鍵因素。
本文將根據(jù)輸入的漢語(yǔ)句子與候選英語(yǔ)譯文之間的相似度來(lái)進(jìn)行譯文選擇。在計(jì)算相似度時(shí),主要采用以下三種策略:
(1)累積漢- 英詞對(duì)之間的翻譯概率來(lái)計(jì)算片斷對(duì)的譯文相似度。
翻譯概率可以度量出漢語(yǔ)詞匯與英語(yǔ)詞匯之間的互譯程度,能夠從某種角度反映出漢語(yǔ)詞匯與英語(yǔ)詞匯之間的語(yǔ)義對(duì)等關(guān)系。在大規(guī)模漢英雙語(yǔ)句對(duì)中,通過(guò)統(tǒng)計(jì)漢英詞對(duì)共現(xiàn)的頻率可以計(jì)算出漢語(yǔ)詞匯與英語(yǔ)詞匯之間的翻譯概率。以此為基礎(chǔ),可以形成漢英詞匯翻譯概率表。在輸入的漢語(yǔ)句子與英語(yǔ)譯文之間,計(jì)算出每個(gè)漢語(yǔ)單詞c 與每個(gè)英語(yǔ)單詞e 之間的翻譯概率P(c,e)。
累積對(duì)譯片斷對(duì)中漢- 英詞匯之間的翻譯概率來(lái)計(jì)算對(duì)譯片斷對(duì)的可信度。對(duì)于漢語(yǔ)片斷CSeg=c1,c2,…,cm與英語(yǔ)片斷ESeg=e1,e2,…,en,對(duì)譯片斷對(duì)可信度PT(CSeg,ESeg)的計(jì)算過(guò)程如公式(1)所示。
(2)利用對(duì)譯片斷對(duì)中對(duì)齊詞匯個(gè)數(shù)評(píng)價(jià)譯文質(zhì)量。
詞匯對(duì)齊是度量漢英詞匯互譯的重要手段。在經(jīng)過(guò)詞匯對(duì)齊工具處理之后,若漢英詞匯之間存在詞鏈,則該漢英詞匯的互譯程度較高。反之,則認(rèn)為該漢英詞匯的互譯程度較低,或者是語(yǔ)義上是不等價(jià)的。在對(duì)譯片斷對(duì)中,若對(duì)齊詞鏈密度越大,則認(rèn)為該對(duì)譯片斷對(duì)互譯的質(zhì)量也越高。在譯文路徑選擇過(guò)程中,計(jì)算每一條譯文路徑的詞鏈個(gè)數(shù),優(yōu)先選擇對(duì)齊詞鏈密度最高的路徑。
對(duì)于漢語(yǔ)片斷CSeg=c1,c2,…,cm與英語(yǔ)片斷ESeg=e1,e2,…,en,若對(duì)齊詞鏈數(shù)為L(zhǎng),則對(duì)齊詞鏈密度Den(CSeg,ESeg)的計(jì)算過(guò)程如公式(2)所示。
(3)譯文片斷的最小覆蓋數(shù)。
若輸入的漢語(yǔ)句子劃分片斷的數(shù)量過(guò)多的話,則其英語(yǔ)譯文將從多個(gè)對(duì)譯片斷對(duì)中獲取。若漢語(yǔ)句子的英語(yǔ)譯文來(lái)自一個(gè)漢英句對(duì)的話,則其譯文質(zhì)量最高,最接近于人工譯文。若輸入的漢語(yǔ)句子的英語(yǔ)譯文來(lái)自多個(gè)漢- 英對(duì)譯片斷對(duì),則其譯文質(zhì)量較差。
本文使用Visual C++開發(fā)了基于語(yǔ)言學(xué)資源的漢- 英機(jī)器翻譯工具,如圖4 所示。
圖4 漢英機(jī)器翻譯工具
搜集了60000 漢- 英雙語(yǔ)句對(duì),使用哈爾濱工業(yè)大學(xué)的漢語(yǔ)分詞工具對(duì)其中的漢語(yǔ)句子進(jìn)行詞匯切分,利用哈爾濱工業(yè)大學(xué)的英語(yǔ)詞形還原工具對(duì)其中的英語(yǔ)詞匯進(jìn)行詞形還原。使用哈爾濱工業(yè)大學(xué)的漢- 英詞匯對(duì)齊工具對(duì)雙語(yǔ)句對(duì)進(jìn)行詞匯對(duì)齊。利用本文所提出的方法從中提取漢- 英對(duì)譯片斷對(duì),搜集所提取的漢- 英對(duì)譯片斷對(duì)形成對(duì)譯片斷對(duì)庫(kù)。搜集了50句漢語(yǔ)句子,用于測(cè)試機(jī)器翻譯工具的譯文輸出質(zhì)量。人工給出這50 句漢語(yǔ)句子的英語(yǔ)譯文答案。分別使用Bleu 和Nist 評(píng)價(jià)方法對(duì)機(jī)器譯文進(jìn)行評(píng)分,其結(jié)果如表1 所示。
表1 測(cè)試句子的機(jī)器譯文評(píng)測(cè)分?jǐn)?shù)
本文在分析了現(xiàn)有機(jī)器翻譯技術(shù)的基礎(chǔ)上,提出了一種基于語(yǔ)言學(xué)資源的翻譯知識(shí)獲取與譯文選擇方法。對(duì)漢- 英平行雙語(yǔ)語(yǔ)料進(jìn)行詞匯對(duì)齊,根據(jù)詞鏈抽取漢- 英對(duì)譯片斷對(duì)并建立翻譯知識(shí)庫(kù)。以對(duì)譯片斷對(duì)為基礎(chǔ),建立機(jī)器翻譯模型,對(duì)輸入的漢語(yǔ)句子進(jìn)行翻譯。實(shí)驗(yàn)結(jié)果表明:機(jī)器譯文的Nist5 評(píng)測(cè)分?jǐn)?shù)達(dá)到了5.4188,Bleu5 評(píng)測(cè)分?jǐn)?shù)達(dá)到了0.4400。