于 恒,凃兆鵬,劉 群,劉 洋
(1.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息重點(diǎn)實(shí)驗(yàn)室,北京100190;2.清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京100084)
音譯作為一種按照文字讀音進(jìn)行近似翻譯的方法,在人名翻譯中有著廣泛的應(yīng)用[1]。人名音譯接受一個(gè)源語(yǔ)言的人名作為輸入,在保證發(fā)音基本不變的原則下,輸出與該人名以目標(biāo)語(yǔ)言表示的翻譯。例如,“Julianne”→“朱麗安”。由于音譯從讀音角度處理翻譯問(wèn)題,在處理未登錄詞翻譯問(wèn)題上有著良好的效果,因此在很多跨語(yǔ)言任務(wù)如機(jī)器翻譯、跨語(yǔ)言檢索以及跨語(yǔ)言問(wèn)答系統(tǒng)中有著廣泛的應(yīng)用。
由于語(yǔ)言習(xí)慣的不同,人名音譯過(guò)程中,應(yīng)當(dāng)適當(dāng)調(diào)整源語(yǔ)言的序列結(jié)構(gòu)(即切分),以使之符合目標(biāo)語(yǔ)言的語(yǔ)言習(xí)慣。因此翻譯粒度一直是音譯研究的重點(diǎn)之一。Knight和Graehl[2]在日英人名音譯中,以英文音素和日文音素為單位,通過(guò)發(fā)音相似性尋求轉(zhuǎn)換。Al-Onaizan和 Knight[3],Sherif[4]提出以字母為單位,跳過(guò)發(fā)音過(guò)程,直接進(jìn)行翻譯。Wei-Hao Lin和 Hsin-His Chen[5]使用音節(jié)相似度模型進(jìn)行人名音譯。鄒波、趙軍[6]將音節(jié)切分問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,采用機(jī)器學(xué)習(xí)的方法進(jìn)行人名音譯。以上方法從不同角度處理音譯粒度問(wèn)題,取得了良好的效果,但每種方法均存在不足之處,主要有以下幾個(gè)方面。
(1)以字母為粒度的方法能夠生成較為廣泛的音譯規(guī)則,但規(guī)則錯(cuò)誤率較高,無(wú)法充分利用發(fā)音信息輔助切分。
(2)以音節(jié)為粒度的方法利用發(fā)音信息進(jìn)行音節(jié)切分,生成準(zhǔn)確度較高的音譯規(guī)則,但模型魯棒性較差,對(duì)一些特例或歧義性音譯無(wú)法得到正確切分。
(3)采用機(jī)器學(xué)習(xí)方法的音譯策略能夠從語(yǔ)料中自主學(xué)習(xí)音譯知識(shí)。但對(duì)標(biāo)注語(yǔ)料的依賴(lài)性較強(qiáng),對(duì)語(yǔ)料外的切分問(wèn)題處理能力不佳。
因此,本文提出基于多粒度的英漢人名音譯方法。通過(guò)詞圖融合各種粒度的切分,從而緩解了因切分錯(cuò)誤而導(dǎo)致的音譯錯(cuò)誤,在充分利用語(yǔ)言學(xué)知識(shí)的同時(shí)又提高了模型的魯棒性和音譯規(guī)則的多樣性。實(shí)驗(yàn)結(jié)果表明,在英漢人名音譯中基于多粒度音譯方法效果好于單一粒度的音譯方法,在準(zhǔn)確率上提高3.1%,在翻譯BLEU值上提高2.2個(gè)百分點(diǎn)。
音譯問(wèn)題可以應(yīng)用P Br own[7]提出的噪聲信道模型進(jìn)行建模。當(dāng)觀(guān)察到噪聲信道的信號(hào)為O時(shí),我們可以得到一個(gè)可能的輸入序列集合F(O),其中的每組輸入序列f都能得到對(duì)應(yīng)的輸出序列e。我們的目標(biāo)是找到概率最高的作為輸出。
在人名音譯問(wèn)題中,O即為輸入英文人名,f為可能的音節(jié)切分序列,e為人名翻譯。模型的目標(biāo)是從O中獲取最佳的切分序列f,然后利用音譯規(guī)則進(jìn)行解碼,得到正確的音譯結(jié)果e。理論上,我們可以簡(jiǎn)單地通過(guò)窮舉F(O)集合中的所有可能序列f來(lái)得到最佳翻譯,但這樣做會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷(xiāo)。實(shí)際上,許多可能的序列都具有相同的子片段,因此通過(guò)詞圖對(duì)這些可能的序列進(jìn)行表示并在此基礎(chǔ)上進(jìn)行解碼會(huì)大大提升系統(tǒng)的性能。
詞圖G=<V,E>為一個(gè)由點(diǎn)和有向邊構(gòu)成的有向無(wú)環(huán)圖,其中V為點(diǎn)集合,E為有向邊集合。形式上是一種帶權(quán)有限自動(dòng)機(jī)。如圖1所示。
圖1 詞圖示意圖
詞圖可以表示各種輸入序列,并且支持相同子序列的共享,從初始節(jié)點(diǎn)0到終止節(jié)點(diǎn)的每條路徑都代表一組可能的序列,因此能夠?qū)⒉煌斎肴诤显谕粋€(gè)圖結(jié)構(gòu)中。
在音譯問(wèn)題中,假設(shè)源端為n個(gè)字母的詞,詞圖上的每個(gè)節(jié)點(diǎn)為源端的跨度(從0到n),連接節(jié)點(diǎn)的邊為該跨度下可能的翻譯。我們的目標(biāo)即為找到一條概率最大的路徑,路徑上的邊即為生成的目標(biāo)翻譯。
如圖2所示,音譯“Julianne”的最佳路徑為紅線(xiàn)標(biāo)出的“0-2-4-7-8”,生成的結(jié)果為“朱麗安”。
圖2 實(shí)例Julianne的詞圖及最優(yōu)翻譯路徑
Chiang[8]提出了基于上下文無(wú)關(guān)文法(SCFG)的層次短語(yǔ)翻譯模型。在解碼過(guò)程中,不斷使用翻譯規(guī)則匹配源端輸入串,生成翻譯片段,同時(shí)在目標(biāo)端生成基于SCFG的樹(shù)結(jié)構(gòu)。本文采用類(lèi)似方法,從對(duì)齊語(yǔ)料中抽取符合上下文無(wú)關(guān)文法的音譯規(guī)則進(jìn)行解碼。
在我們的解碼算法中包含兩種元素。
1.[X→α·β,i,j]表示在跨度(i,j)上未匹配完成規(guī)則,“·”為位點(diǎn),指示當(dāng)前需要匹配的符號(hào)位置。
2.[X,i,j]表示在跨度(i,j)上為非終結(jié)符X。解碼的目標(biāo)為找到一組覆蓋整個(gè)詞圖跨度[S,0,|V|-1]的規(guī)則推導(dǎo)。
在解碼中,我們定義如下兩種規(guī)則推導(dǎo)。
1.匹配一個(gè)終結(jié)符β,位點(diǎn)前進(jìn)一位,同時(shí)覆蓋相應(yīng)詞圖上的一條邊。規(guī)則跨度變?yōu)椋踚,j+1],生成新的翻譯片段 wj,j+1
2.匹配一個(gè)非終結(jié)符X,位點(diǎn)移位,并找到其對(duì)應(yīng)后繼,將兩者的翻譯片段合并為w1×w2。
基于以上兩種推導(dǎo)規(guī)則,我們使用CKY算法,按照自底向上的順序,對(duì)詞圖進(jìn)行解碼。
為了進(jìn)行多粒度的融合,需要獲得各種粒度的英文切分。本節(jié)主要介紹三種切分方法。
基于字母的切分方法[3-4]以英文字母為單位,采用統(tǒng)計(jì)的方法學(xué)習(xí)源端和目標(biāo)端的對(duì)應(yīng)關(guān)系。
Wei-Hao Lin和 Hsin-His Chen[5]提出以英文音節(jié)為單位的切分方法。從發(fā)音的角度來(lái)尋找符合目標(biāo)端語(yǔ)言習(xí)慣的最佳切分。如圖3所示。
圖3 音譯的切分獲取方法
首先英文部分利用CMU pronouncing dict①http://www.speech.cs.c mu.edu/cgi-bin/c mudict將英文序列拆分成相應(yīng)的音節(jié),再通過(guò)音節(jié)詞典轉(zhuǎn)換為國(guó)際通用發(fā)音序列Inter national Phonetic Alphabet(IPA)。同時(shí)中文端將漢字轉(zhuǎn)化為拼音,再轉(zhuǎn)化為IPA序列。這樣源端和目標(biāo)端通過(guò)IPA序列進(jìn)行語(yǔ)音比較,從而找到源端正確的切分。
我們將英文音節(jié)的切分看成一個(gè)序列標(biāo)注的問(wèn)題:以L(fǎng)(音節(jié)首),M(音節(jié)中),R(音節(jié)尾),S(獨(dú)立音節(jié))來(lái)標(biāo)識(shí)英文字母在所在音節(jié)中的位置。這四個(gè)類(lèi)別可以覆蓋英文字母位置的所有情況。給定一個(gè)人工切分好音節(jié)的訓(xùn)練集,我們可以很容易得到英文字母的標(biāo)注序列。
在估計(jì)字母位置標(biāo)注的概率分布時(shí),我們使用最大熵模型。假設(shè)h為該標(biāo)注的上下文特征集合,t為可能的標(biāo)注集,則最終標(biāo)注的概率可以表示為H和T的聯(lián)合概率分布,如式(2)所示。
其中π為歸一化常數(shù),{μ,a1,…,ak}為模型參數(shù),{f1,…,fk}為最大熵模型中定義的特征,fj(h,t)∈{0,1}。對(duì)于每一個(gè)特征fj,都有一個(gè)參數(shù)aj與之對(duì)應(yīng),作為該特征的權(quán)重。在訓(xùn)練過(guò)程中,給定一個(gè)英文字母序列{c1,…,cn}和它們的標(biāo)注集{t1,…,tn},訓(xùn)練的目的是找到一組最佳的參數(shù){μ,a1,…,ak},使訓(xùn)練數(shù)據(jù)的P的似然值L(P)最大。
最大熵模型的效果在很大程度上取決于選擇合適的特征。在(h,t)給定的條件下,所選特征必須包含對(duì)預(yù)測(cè)t有用的信息。我們?cè)趯?shí)驗(yàn)中使用特征見(jiàn)表1。
表1 切分特征模板
如上列表所示,我們定義了三類(lèi)特征,第一類(lèi)是基于當(dāng)前和上下文字母的特征(12345 第二類(lèi)是基于前一二個(gè)字母的標(biāo)注特征(6),第三類(lèi)是默認(rèn)特征(7),用來(lái)捕捉前兩類(lèi)無(wú)法表示的情況。當(dāng)訓(xùn)練完成時(shí),特征和它們的對(duì)應(yīng)權(quán)重將可以用作計(jì)算未知數(shù)據(jù)中各種標(biāo)記的出現(xiàn)概率,如式(4)所示。
給定一個(gè)序列{c1,…,cn},通過(guò)viter bi算法可以得到概率最大的標(biāo)注序列{t1,…,tn},進(jìn)而得到切分序列。
實(shí)驗(yàn)的語(yǔ)料來(lái)源于Chinese-English Name Entity Lists v1.0(LDC2005 T34),該語(yǔ)料庫(kù)包括565935音譯對(duì)。我們從中過(guò)濾掉一些其他語(yǔ)種音譯對(duì),得到4萬(wàn)英漢人名對(duì)。從中隨機(jī)挑選500對(duì)作為開(kāi)發(fā)集,500對(duì)作為測(cè)試集,其余作為訓(xùn)練集。漢語(yǔ)語(yǔ)言模型以漢字為單位使用訓(xùn)練集進(jìn)行訓(xùn)練。
我們分別使用第4節(jié)所述的三種切分方法獲得不同粒度的英文切分,再使用GIZA++工具對(duì)中英文兩端進(jìn)行對(duì)齊。音譯規(guī)則抽取及詞匯化模型的訓(xùn)練在生成的對(duì)齊數(shù)據(jù)上進(jìn)行。
我們使用最小錯(cuò)誤率訓(xùn)練方法來(lái)優(yōu)化線(xiàn)性模型的參數(shù)。所使用的解碼器是層次短語(yǔ)解碼的C++重實(shí)現(xiàn)版本。該解碼器采用CKY方式進(jìn)行解碼,并使用cube-pr uning的方法進(jìn)行剪枝,以減少搜索空間。實(shí)驗(yàn)所使用的棧大小為100。
我們使用層次短語(yǔ)的經(jīng)典特征進(jìn)行解碼:
1.英文序列e音譯為漢語(yǔ)序列c的概率P(c|e)
2.漢語(yǔ)序列c音譯為英文序列e的概率P(e|c(diǎn))
3.英文序列e音譯為漢語(yǔ)序列c的詞匯化概率lex(c|e)
4.漢語(yǔ)序列c音譯為英文序列e的詞匯化概率lex(e|c(diǎn))
5.語(yǔ)言模型特征l m(c)
6.漢語(yǔ)譯文長(zhǎng)度L(c)
7.音譯規(guī)則使用數(shù)量n
8.黏著規(guī)則使用數(shù)量m
在實(shí)驗(yàn)中,我們比較了基于各種粒度的音譯效果,評(píng)價(jià)的標(biāo)準(zhǔn)如下。
部分管理者甚至認(rèn)為有了先進(jìn)的設(shè)備就可以忽略人的作用,將人與設(shè)備對(duì)立了起來(lái),導(dǎo)致設(shè)備的無(wú)人看管和缺少維護(hù)。完全依靠先進(jìn)設(shè)備進(jìn)行電網(wǎng)調(diào)度的做法使得很多具體情況不能夠得到充分認(rèn)識(shí)和考慮,使工作中出現(xiàn)顧此失彼的現(xiàn)象。
1.準(zhǔn)確率:音譯結(jié)果完全匹配的結(jié)果百分比。
2.BLEU:機(jī)器翻譯中常用評(píng)價(jià)指標(biāo),表征音譯結(jié)果片段的準(zhǔn)確率。
由于準(zhǔn)確率只考慮完全匹配的情況,從而忽視了某些音譯片段的效果提升。因此我們加入BLEU作為評(píng)價(jià)標(biāo)準(zhǔn),從更細(xì)的粒度來(lái)考察音譯的準(zhǔn)確率。
如表2所示,以字母為粒度的音譯方法準(zhǔn)確率為49.2%,BLEU值為0.5325,在所有方法中效果較差。主要原因是因?yàn)橐宰帜笧榱6葘?dǎo)致對(duì)齊邊的增多,從而引入了很多對(duì)齊錯(cuò)誤,導(dǎo)致許多錯(cuò)誤的切分。在沒(méi)有其他發(fā)音信息的輔助下,生成過(guò)多無(wú)用的音譯規(guī)則,使規(guī)則表達(dá)到29 MB。而以音節(jié)為粒度的方法充分利用發(fā)音信息,系統(tǒng)性能有所提升準(zhǔn)確率為54.2%,BLEU值為0.5513。但此方法生成的音譯規(guī)則過(guò)少,導(dǎo)致覆蓋率不足,并且不具備處理音譯歧義現(xiàn)象的能力。通過(guò)機(jī)器學(xué)習(xí)方法得到切分的音譯模型在性能上有了進(jìn)一步的提升,準(zhǔn)確率為61.2%,BLEU值為0.5721。該方法通過(guò)標(biāo)注語(yǔ)料自動(dòng)學(xué)習(xí)切分,但由于人工標(biāo)注語(yǔ)料較為稀少,所以覆蓋率有限。
表2 不同粒度實(shí)驗(yàn)效果比較
本文采用詞圖的方法混合以上三種粒度進(jìn)行音譯規(guī)則抽取。實(shí)驗(yàn)結(jié)果如表3所示。
ch+sy:融合字母和音節(jié)粒度
ch+ml:融合字母和機(jī)器學(xué)習(xí)粒度
sy+ml:融合音節(jié)和機(jī)器學(xué)習(xí)粒度
ch+sy+ml:同時(shí)融合三種粒度
表3 不同粒度融合實(shí)驗(yàn)效果比較
從表3中可以發(fā)現(xiàn),基于詞圖的多粒度融合方法取得了明顯的性能提升。值得注意的是字母粒度雖然自身的性能較差,但是和其他兩種粒度融合都取得了明顯的效果。而音節(jié)粒度和機(jī)器學(xué)習(xí)粒度的融合卻沒(méi)有取得明顯的效果提升。造成這種現(xiàn)象的原因是音節(jié)粒度和機(jī)器學(xué)習(xí)粒度生成規(guī)則的相似性較高,且粒度都較大,因此規(guī)則數(shù)量較少。所以?xún)烧呷诤虾笠?guī)則表數(shù)量并無(wú)明顯提升,性能上也沒(méi)有顯著增長(zhǎng)。而字母為粒度的方法生成規(guī)則和其他兩種方法差異較大,從某種意義上提升了規(guī)則的多樣性,從而在融合中取得了良好的效果。最終,我們將三種粒度進(jìn)行混合,得到最佳的性能,準(zhǔn)確率為64.3%,BLEU值為0.594,比單粒度的最好性能準(zhǔn)確率提升3.1%,BLEU 提升2.2%。
表4列出了不同音譯粒度下英文人名,“Julianne”的音譯結(jié)果。我們可以發(fā)現(xiàn)單粒度的結(jié)果都存在著不同程度上的問(wèn)題。而多粒度融合的方法能夠得到正確的結(jié)果。
表4 不同粒度方法音譯“Julianne”的結(jié)果
近些年來(lái),研究者們?cè)谌嗣糇g領(lǐng)域進(jìn)行了廣泛的研究,Knight和Graehl[2]在日英人名音譯中,提出以英文音素為粒度,通過(guò)發(fā)音相似性尋求轉(zhuǎn)換的方法。Al-Onaizan 和 Knight[3],Sherif[4]提出以字母為單位,跳過(guò)發(fā)音過(guò)程,直接進(jìn)行翻譯。Wei-Hao Lin和 Hsin-His Chen[5]使用音節(jié)相似度模型進(jìn)行人名音譯。Long Jiang[10]通過(guò)人工定義規(guī)則的方法進(jìn)行了有益的嘗試,將英文字母劃分為元音和輔音,在切分時(shí)遵循元音和輔音配對(duì)的原則。鄒波,趙軍[6]將音節(jié)切分問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,將機(jī)器學(xué)習(xí)和統(tǒng)計(jì)機(jī)器翻譯模型用于音譯。本文的模型融合以上方法的優(yōu)勢(shì),通過(guò)詞圖融合生成多粒度的音譯規(guī)則,緩解了因切分錯(cuò)誤帶來(lái)的翻譯錯(cuò)誤,提高了系統(tǒng)的魯棒性。
在使用機(jī)器學(xué)習(xí)方法進(jìn)行切分時(shí),本文使用了最大熵模型[11]。該方法在NLP其他領(lǐng)域都有廣泛的應(yīng)用,如Ratnaparkni[12]將其用于處理詞性標(biāo)注問(wèn)題,Nianwen Xue 在處理中文分詞問(wèn)題時(shí)也用到類(lèi)似方法,取得良好的效果。
在詞圖解碼算法上,Christopher Dyer[14]將其使用在機(jī)器翻譯上,融合源端的多種分詞結(jié)果,提升機(jī)器翻譯的性能。
本文提出了一種基于多粒度的英漢人名音譯方法,融合多種粒度的切分信息,生成更魯棒的音譯規(guī)則。實(shí)驗(yàn)結(jié)果在準(zhǔn)確率上比單粒度效果提升3.1%,BLEU提升2.2%。在后續(xù)的研究中,我們將探索更多的切分方法的融合,并改進(jìn)解碼算法,爭(zhēng)取進(jìn)一步提升音譯系統(tǒng)的性能。
[1]Li Haizhou,Zhang Min,Su Jian.A Joint Source-Channel Model f or Machine Transliteration[C]//Proceedings of ACL,2004:159-166.
[2]Kevin Knight,J.Graehl.Machine Transliteration[J],Co mputational Linguistics,1998,24(4):599-612.
[3]Yaser Al-Onaizan,Kevin Knight.Translating named entities using monolingual and bilingual resources[C]//Proceedings of ACL,2002:400-408.
[4]Tarek Sherif,Grzegorz Kondrak.Bootstrapping a stochastic transducer f or Arabic-English transliteration extraction[C]//Proceedings of ACL,2007:864-871.
[5]Wei-Hao Lin,Hsin-His Chen.Back ward Machine Transliteration by Lear ning Phonetic Si milarity[C]//Pr oceedings of the 6th Co NLL,2002:139-145.
[6]鄒波,趙軍.英漢人名音譯方法研究[C]//第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論集,2008:24-30.
[7]Brown P F,Pietra S A D,Pietra V J D.The mathematics of statistical machine translation:parameter esti mation[J].Co mputational Linguistics,1993:19(2):263-311.
[8]David Chiang. Hierarchical phrase-based translation[J].Co mputational Linguistics,2007,33(2):201-288.
[9]Franz Josef Och,Her mann Ney.A Systematic Comparison of Various Statistical Align ment Models[J].Co mputational Linguistics,2003,29(1):19-51.
[10]Long Jiang,Ming Zhou,Lee-Feng Chien,et al.Na med entity translation with web mining and transliteration[C]//Proceedings of IJCAI,2007:1629-1634.
[11]Adam L Berger,Stephen A.Della Pietra,Vincent J.Della Pietra.A Maxi mu m Entropy appr oach to Natural Language Processing[J].Computational Linguistics,1996,22:156-242.
[12]Ratnapar khi,Ad wait,A maxi mu m entropy part of speech tagger[C]//Proceedings of EMNLP,1996:133-124.
13 Nian wen Xue.Chinese Wor d Seg mentation as Character Tagging[J].Computational Linguistics and Clinese Language Processing,2003,8(1):29-48.
[14]Christopher Dyer,Muresan,Philip Resnik.Generalizing Wor d Lattice Transltion[C]//Proceedings of ACL,2008:1012-1020.