王紅利
(陜西警官職業(yè)學(xué)院,陜西 西安 710021)
英語(yǔ)長(zhǎng)句由于句式結(jié)構(gòu)復(fù)雜,與漢語(yǔ)句式差異大,已成為機(jī)器翻譯系統(tǒng)研究開(kāi)發(fā)時(shí)的主要難題[1]。目前,關(guān)于英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯算法有基于句法分析、多策略分析和語(yǔ)料庫(kù)翻譯等,主要側(cè)重于詞義排查、語(yǔ)義特征的處理等[2-4],但這些機(jī)器翻譯算法翻譯準(zhǔn)確率偏低,且回收率較高,翻譯結(jié)果可靠性差。英語(yǔ)復(fù)雜長(zhǎng)、難句盡管句式復(fù)雜,但句內(nèi)各語(yǔ)義層次相互關(guān)聯(lián),通過(guò)把握復(fù)雜長(zhǎng)句內(nèi)語(yǔ)義層次關(guān)系,掌握原句內(nèi)部各層意思,從理論上講,能夠極大提高英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯的準(zhǔn)確率和可靠性?;诖?,本文基于語(yǔ)義關(guān)系,優(yōu)化英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯算法,并對(duì)優(yōu)化結(jié)果進(jìn)行分析。
英語(yǔ)復(fù)雜長(zhǎng)句在科技英語(yǔ)中非常普遍,有的甚至長(zhǎng)達(dá)數(shù)十行,包括上百個(gè)單詞,蘊(yùn)含很多個(gè)從句和非謂語(yǔ)動(dòng)詞,這些從句和短語(yǔ)之間相互依存,具有非常鮮明的語(yǔ)義層次關(guān)系。因此在傳統(tǒng)切分英語(yǔ)長(zhǎng)句的基礎(chǔ)上,分析各分句之間的層次關(guān)系,利用語(yǔ)義關(guān)系進(jìn)行模型訓(xùn)練,構(gòu)建語(yǔ)義網(wǎng)絡(luò)模型進(jìn)行機(jī)器翻譯,是科學(xué)的且是容易實(shí)現(xiàn)的。基于語(yǔ)義關(guān)系的英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯算法流程如圖1所示。
圖1中的機(jī)器翻譯算法添加了語(yǔ)義關(guān)系部分,通過(guò)各層次語(yǔ)義關(guān)系訓(xùn)練語(yǔ)料庫(kù),可以有效避免翻譯斷層造成的翻譯錯(cuò)誤?;谡Z(yǔ)義關(guān)系的機(jī)器翻譯模型的翻譯結(jié)果更加精確,翻譯速度更加快速。該算法利用余弦相似度[5]獲得兩向量的語(yǔ)義相似關(guān)系,通過(guò)帶權(quán)向量加法[6]計(jì)算兩個(gè)相似向量的區(qū)別,獲得精準(zhǔn)翻譯結(jié)果,通過(guò)權(quán)重方式訓(xùn)練句子,獲得關(guān)鍵短語(yǔ)。
圖1 基于語(yǔ)義關(guān)系的英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯算法
英語(yǔ)復(fù)雜長(zhǎng)句的切分簡(jiǎn)化處理方法為:輸入原文句子,逐個(gè)掃描其各短語(yǔ)和分句,并通過(guò)該短語(yǔ)的基本語(yǔ)義,在實(shí)義語(yǔ)料庫(kù)檢索長(zhǎng)句切分處理結(jié)果。由于長(zhǎng)句的分句之間是通過(guò)關(guān)聯(lián)特征詞連接的,因此以句子的特征點(diǎn)為分界線,將句子分成前后兩部分,分別進(jìn)行翻譯,再采用斷句拼合的方法,給出整句的翻譯結(jié)果。而對(duì)于句子中的修飾成分、特征關(guān)聯(lián)詞和特征標(biāo)志詞等,首先提取出來(lái),并進(jìn)行優(yōu)先歸約分析處理。
余弦相似度模型是目前常用的衡量?jī)啥陶Z(yǔ)詞義差異的重要模型,其基于多維空間,通過(guò)兩向量夾角的余弦值來(lái)表示兩向量之間的差異。若兩短語(yǔ)之間的余弦值越大,表明兩語(yǔ)義向量夾角越小,兩短語(yǔ)的詞義越接近;相反,如果兩短語(yǔ)之間的余弦值越小,則兩短語(yǔ)的語(yǔ)義差異就越大。設(shè)相同語(yǔ)料庫(kù)中兩個(gè)短語(yǔ)為多維語(yǔ)義向量u,v,假定u=[a1,a2,…,an],v=[b1,b2,…,bn],n為向量的維數(shù),則兩短語(yǔ)之間的英語(yǔ)翻譯相似度Sim(u,v)采用公式(1)進(jìn)行計(jì)算。
(1)
相同語(yǔ)料庫(kù)中的單詞可以通過(guò)多維語(yǔ)義向量合成語(yǔ)義向量p,具體合成方法如下:
p=u+v=[a1+b1,a2+b2,…,an+bn]
(2)
具體應(yīng)用分析:短語(yǔ)“復(fù)雜長(zhǎng)句”語(yǔ)義向量設(shè)置為6維向量u=[2,3,8,6,3,1] ,短語(yǔ)“機(jī)器翻譯”的語(yǔ)義向量設(shè)置為6維向量v=[1,2,3,4,5,6],合成的語(yǔ)義向量“復(fù)雜長(zhǎng)句機(jī)器翻譯”的語(yǔ)義向量p=[3,5,11,10,8,7]。
直接利用向量合成會(huì)造成語(yǔ)義誤差,導(dǎo)致翻譯錯(cuò)誤,為有效解決此問(wèn)題,本文提出帶權(quán)向量加法進(jìn)行修正,具體如下:
p=αu+βv
(3)
式中:α為“英語(yǔ)長(zhǎng)句”的權(quán)重,α=0.6;β為“機(jī)器翻譯”的權(quán)重,β=0.4。則“英語(yǔ)長(zhǎng)句機(jī)器翻譯”的語(yǔ)義向量p=[2.4,3.2,4.8,6.4,6.2,3.0]。
如果把“英語(yǔ)長(zhǎng)句機(jī)器翻譯”當(dāng)做新短語(yǔ),并對(duì)“英語(yǔ)長(zhǎng)句”、“機(jī)器翻譯”進(jìn)行新權(quán)重訓(xùn)練,設(shè)置新的權(quán)重α=0.7,β=0.3,可獲得“英語(yǔ)長(zhǎng)句機(jī)器翻譯”新的語(yǔ)義向量為p=[1.7,1.4,5.1,6.8,6.3,2.5]。對(duì)比不同權(quán)重的兩個(gè)語(yǔ)義向量,可以發(fā)現(xiàn)兩個(gè)短語(yǔ)存在極大的差別。
英語(yǔ)復(fù)雜長(zhǎng)句的合成語(yǔ)義向量遵循公式(4):
(4)
式中:ωi為各組合單元的單詞語(yǔ)義向量;λi為各組合單詞短語(yǔ)的權(quán)重。
為檢測(cè)本文翻譯算法的可靠性和實(shí)用性,將其與傳統(tǒng)的混合策略翻譯算法[7]進(jìn)行對(duì)比分析,混合策略翻譯算法是目前常用的機(jī)器翻譯算法。結(jié)果分析評(píng)價(jià)量包括測(cè)試集BLEU值、翻譯實(shí)例對(duì)比、切分正確率、回收率以及交叉連接數(shù)。
本文實(shí)驗(yàn)數(shù)據(jù)采用Chinese Treebank 6.0中文樹(shù)語(yǔ)料庫(kù),其包含1 067個(gè)文件,20 367個(gè)句子,包括英文單詞647 523個(gè)、漢字963 461個(gè)。實(shí)驗(yàn)的開(kāi)發(fā)集選擇NIST 05,中文句子有1 082句,每句有4個(gè)不同的翻譯結(jié)果,即有英文句子4 328個(gè)。測(cè)試集采用NIST 06和NIST 08,其中,NIST 06有中文1 641句,即英文有6 564句;NIST 08有中文1 027句,即英文有5 428句。
解碼器采用層次短語(yǔ)解碼器C++版本。翻譯的具體步驟為:英漢、漢英兩方向的詞語(yǔ)信息對(duì)齊采用GIZA++工具實(shí)現(xiàn),主要利用grow-diagfinal-and的啟發(fā)作用[7]實(shí)現(xiàn)多對(duì)詞語(yǔ)的對(duì)齊。翻譯結(jié)果中的詞對(duì)齊交叉連接數(shù)越小,表明翻譯結(jié)果準(zhǔn)確率越高。英語(yǔ)語(yǔ)言模型獲取方式是利用SRILM工具在Gigaword新華部分獲取。因?yàn)镸ERT的不穩(wěn)定性,本文采用Clark等提出的重復(fù)實(shí)驗(yàn)方法,求平均值作為最終的實(shí)驗(yàn)結(jié)果。
表1為傳統(tǒng)翻譯算法和本文基于語(yǔ)義關(guān)系的英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯算法對(duì)不同數(shù)據(jù)集的翻譯評(píng)價(jià)結(jié)果,評(píng)價(jià)指標(biāo)為BLEU值[8]。BLEU值是機(jī)器譯文與參考譯文的相似度,相似度越高,翻譯質(zhì)量越好。本文選用NIST 06和NIST 08測(cè)試集,獲得其翻譯評(píng)價(jià)結(jié)果,結(jié)果顯示本文算法的BLEU值比傳統(tǒng)翻譯算法分別增加了0.35和0.23,說(shuō)明采用本文算法獲得的翻譯結(jié)果準(zhǔn)確率更高。顯著性檢驗(yàn)分析[9]結(jié)果滿足P<0.05。
表1 不同算法BLEU值
對(duì)測(cè)試集中的語(yǔ)句“If the Olympic Games in the summer of 2008 could be hosted in China, which has one quarter of the world's population, it would help boost the popularization of Olympics among the masses” 進(jìn)行翻譯,其中 “ it would help boost the popularization of Olympics among the masses”采用了兩種翻譯算法,分別是傳統(tǒng)的混合策略翻譯算法和本文的基于語(yǔ)義關(guān)系的英語(yǔ)復(fù)雜長(zhǎng)句的機(jī)器翻譯算法。參考譯文為“如果2008年奧運(yùn)會(huì)能夠在擁有世界人口四分之一的中國(guó)舉辦,將極大推動(dòng)奧林匹克運(yùn)動(dòng)的大眾化”,傳統(tǒng)翻譯算法譯文為“如果2008年夏季奧運(yùn)會(huì)能夠在中國(guó)舉辦,中國(guó)人口占世界人口的四分之一,將有助于推動(dòng)奧林匹克運(yùn)動(dòng)在大眾中的普及”,本文算法的譯文為“如果2008年奧運(yùn)會(huì)能夠在占四分之一世界人口的中國(guó)舉行,將激發(fā)推動(dòng)奧林匹克運(yùn)動(dòng)大眾化”。由此可見(jiàn),采用本文算法得到的譯文與參考譯文一致,表明基于本文算法的英語(yǔ)復(fù)雜長(zhǎng)句機(jī)器翻譯語(yǔ)言準(zhǔn)確率更高,翻譯結(jié)果更加可靠。
表2為傳統(tǒng)算法與本文算法的切分正確率、回收率以及交叉連接數(shù)平均值對(duì)比表。切分正確率和回收率[10]分別表示英語(yǔ)復(fù)雜長(zhǎng)句劃分的準(zhǔn)確率和具體翻譯時(shí)的使用率,這是保證英語(yǔ)長(zhǎng)句翻譯準(zhǔn)確的基礎(chǔ),也是重要的衡量指標(biāo)。對(duì)于英語(yǔ)復(fù)雜長(zhǎng)難句翻譯,切分正確率越高,平均回收率越小,翻譯正確率將越高。
表2 不同算法正確率、回收率及交叉連接數(shù)對(duì)比表
由表2可見(jiàn):本文算法交叉連接數(shù)為16.4,相對(duì)于傳統(tǒng)翻譯算法,減少了12.8,表明本文翻譯算法性能更優(yōu)。與傳統(tǒng)算法相比,本文翻譯算法具有更高的翻譯準(zhǔn)確率和回收率,因此具有更高的實(shí)用性。
本文基于英語(yǔ)復(fù)雜長(zhǎng)句各分句(短語(yǔ))之間的語(yǔ)義關(guān)系,提出了一種新的機(jī)器翻譯算法,該算法借助語(yǔ)義關(guān)系和傳統(tǒng)切分算法,構(gòu)建翻譯相似度模型的語(yǔ)義網(wǎng)絡(luò)模型,再利用余弦相似度和帶權(quán)向量加法優(yōu)化計(jì)算,獲得翻譯結(jié)果,利用權(quán)重訓(xùn)練獲得關(guān)鍵短語(yǔ)。實(shí)驗(yàn)結(jié)果表明:
1)該算法具有更高的翻譯結(jié)果準(zhǔn)確率和回收率,既可以實(shí)現(xiàn)獨(dú)立語(yǔ)義表達(dá),還可以有效排除具有歧義的詞語(yǔ)。
2)該算法具有更低的交叉連接數(shù)平均值和更高的BLEU值,翻譯結(jié)果更加貼近參考譯文。
因此,該翻譯算法具有更好的實(shí)用性,應(yīng)用于英語(yǔ)復(fù)雜長(zhǎng)句翻譯具有重要的實(shí)際意義。
機(jī)械設(shè)計(jì)與制造工程2020年12期