趙足娥 李培隆
摘 要: 針對傳統(tǒng)英文機(jī)器翻譯過于依賴專家總結(jié),而對弱化規(guī)則下英文翻譯誤差大的缺點(diǎn),提出一種基于弱化語法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對英文的語法規(guī)則進(jìn)行分析,再對語義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語義信息熵?cái)?shù)據(jù),并將語義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語義非線性譜特征。最終實(shí)現(xiàn)特征識別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問題。最后對提出的算法進(jìn)行仿真驗(yàn)證,結(jié)果表明使用該算法可以得到較好的英文翻譯效果,從而證明了該算法的發(fā)展空間較好。
關(guān)鍵詞: 英文機(jī)器翻譯; 弱化語法規(guī)則; 信息熵; 特征識別
中圖分類號: TN911?34; TP393 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)22?0027?03
Abstract: An English machine translation optimization algorithm based on weakening grammar rules is proposed in this paper, which aims at the shortcomings of large error of English translation under weakening grammar rules and too much dependence on expert summary in traditional English machine translation methods. The English grammatical rules are analyzed with the algorithm. and then obtains the rectangular window function by Gaussian peripherization of the semantics is carried out to obtain the rectangular window function, window feature vector and project semantic information entropy data, and add the semantic association factor to the information entropy and information gain of the text. And the semantic non?linear spectrum feature is obtained, and the feature recognition is finally realized, which solves the problem of large error in traditional English machine translation. The simulation results of the proposed algorithm show that the algorithm can obtain better English translation effect, which proves that the proposed algorithm has better development space.
Keywords: English machine translation; weakening grammar rule; information entropy; feature recognition
早在20世紀(jì)40年代隨著計(jì)算機(jī)技術(shù)的發(fā)展出現(xiàn)了機(jī)器翻譯,其是以計(jì)算機(jī)為平臺,將一種語言翻譯成另一種語言[1?3]。但傳統(tǒng)英文機(jī)器翻譯過于依賴專家總結(jié),而對弱化規(guī)則下英文翻譯存在誤差大的缺點(diǎn)[4?6]。為了對該種情況進(jìn)行改進(jìn),諸多文獻(xiàn)提出了解決方案[7?9],但大多存在擴(kuò)展性差、翻譯誤差大的缺點(diǎn)。本文基于對英文語法規(guī)則的分析,提出了一種基于弱化語法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對語義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語義信息熵?cái)?shù)據(jù),并將語義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語義非線性譜特征。最終實(shí)現(xiàn)特征識別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問題。
1 英文機(jī)器翻譯原理
英文機(jī)器翻譯首先需要對翻譯的源語句進(jìn)行語義分析,然后按照語法轉(zhuǎn)換規(guī)則對與源語句中短語相對應(yīng)的英文短語進(jìn)行連接,并選擇組合英文短語完成譯文輸出,即完成翻譯。其具體步驟如下:設(shè)源語句集合為T,Ti為切分后源語句,源語句短語可翻譯的種類為j,則源語句與譯文中短語鏈接為:
上述原理可以有效地完成英文翻譯,但大多數(shù)翻譯獲取語法規(guī)則過于依賴專家總結(jié),存在較大誤差。
2 弱化語法規(guī)則下英文機(jī)器翻譯改進(jìn)算法
2.1 語法特征選擇
對英文機(jī)器翻譯進(jìn)行優(yōu)化,先對英文語法規(guī)則進(jìn)行分析,并對語義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,然后投影語義信息熵?cái)?shù)據(jù),具體步驟如下:
設(shè)兩個(gè)語義特征轉(zhuǎn)換成的有向圖為G1和G2,兩者的交集為Gc,得到i時(shí)刻翻譯英文輸入變量,用{xi1, xi2,…,xim}表示,對應(yīng)的語句類型為yi,則英文翻譯整體準(zhǔn)則為:[zmar=max-yi?xi1,xi2,…,ximGc?G1,G2iZxyfy1,y2] (4)
式中:Zxy為句子之間的映射關(guān)系;f(y1,y2)為句子與句子之間的聯(lián)合概率密度函數(shù)。
將水平特征量聚點(diǎn)的思想融合進(jìn)去,構(gòu)建特征識別數(shù)學(xué)模型,用式(5)進(jìn)行表達(dá)。其是由中心語驅(qū)動(dòng)的,其中切分出來的短語不同時(shí)態(tài)的翻譯為f(x1,x2,…,
2.2 英文機(jī)器翻譯優(yōu)化endprint
基于弱化語法規(guī)則的英文機(jī)器翻譯優(yōu)化將語義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語義非線性譜特征,最終實(shí)現(xiàn)特征識別,具體步驟如下:
向量空間中的n維向量用di表示,文檔中出現(xiàn)詞語的次數(shù)用tf表示,idf為反文檔頻率,則語義的特征權(quán)值為式(9),文本中各信息增益為式(10)。
3 仿真證明
3.1 基于不同算法英文機(jī)器翻譯的準(zhǔn)確性
為了證明本文提出算法的有效性,基于Windows搭建翻譯平臺,從《人民日報(bào)》摘取800句中文語句作為測試數(shù)據(jù),并將機(jī)器翻譯結(jié)果與專業(yè)英語教師給出的譯文進(jìn)行比較。分別利用本文算法與文獻(xiàn)[9]中的算法進(jìn)行實(shí)驗(yàn)比較,翻譯結(jié)果的詞錯(cuò)誤率與切分錯(cuò)誤率如圖1、圖2所示。
3.2 基于不同算法英文機(jī)器翻譯的特征識別效果對比
比較本文算法與文獻(xiàn)[9]的算法翻譯結(jié)果的語義特征識別、分類效果,兩者的對比圖如圖3、圖4所示。
從圖1~圖4中可看出,本文提出的算法詞錯(cuò)誤率與切分錯(cuò)誤率均低于文獻(xiàn)[9]中的算法,特征識別與分類效果也優(yōu)于文獻(xiàn)[9],從而較好地證明了本文提出算法的整體有效性。
4 結(jié) 語
針對傳統(tǒng)英文機(jī)器翻譯過于依賴專家總結(jié),而對弱化規(guī)則下英文翻譯誤差大的缺點(diǎn),本文提出一種基于弱化語法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對英文的語法規(guī)則進(jìn)行分析,再對語義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語義信息熵?cái)?shù)據(jù),并將語義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語義非線性譜特征。最終實(shí)現(xiàn)特征識別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問題。本文最后對提出的算法進(jìn)行仿真驗(yàn)證,其結(jié)果表明使用該算法可得到較好的英文翻譯效果,從而證明本算法發(fā)展空間良好。
注:本文通訊作者為李培隆。
參考文獻(xiàn)
[1] 粟千.弱化語法規(guī)則下英文機(jī)器翻譯的優(yōu)化仿真[J].計(jì)算機(jī)仿真,2016,33(11):414?417.
[2] 趙丹培,肖騰蛟,史駿,等.基于顯著語義模型的機(jī)場與油庫目標(biāo)的識別方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2014,26(1):47?55.
[3] 張明,王燕,盧清.一種基于語義特征的快速人臉檢索方法[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,31(2):56?60.
[4] 劉琦,肖仰華,汪衛(wèi).一種面向海量中文文本的典型類屬關(guān)系識別方法[J].計(jì)算機(jī)工程,2015,41(2):26?30.
[5] 朱銘武,韓軍,陸冬明,等.自然場景中基于局部輪廓特征的對象識別方法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(1):162?167.
[6] 馬彬,洪宇,楊雪蓉,等.基于推理線索構(gòu)建的事件關(guān)系識別方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):133?141.
[7] 賈霞光.支持多語義層次的短文本特征提取及其分類技術(shù)[D].沈陽:東北大學(xué),2014.
[8] 王哲.特征空間互信息區(qū)域劃分語義離散度增強(qiáng)算法[J].計(jì)算機(jī)仿真,2015,32(5):266?269.
[9] 李朝印.基于本體的語義檢索技術(shù)研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2014.endprint