英漢機(jī)器翻譯中譯文自動(dòng)生成系統(tǒng)設(shè)計(jì)

2018-12-14 09:05邢蕾

現(xiàn)代電子技術(shù) 2018年24期

邢蕾

關(guān)鍵詞：英漢機(jī)器翻譯; 譯文生成; 詞法分析; 解碼; 譯文規(guī)則; 系統(tǒng)設(shè)計(jì)

中圖分類號(hào)： TN911.23?34; TP391.02 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼： A ? ? ? ? ? ? ? ?文章編號(hào)： 1004?373X（2018）24?0086?04

Design of translation automatic generation system for

English?Chinese machine translation

XING Lei

（Shandong University of Technology， Zibo 255000， China）

Abstract： Since the traditional translation generation system has long?term existing problems of inaccurate translation generation results and little similarity with the original text in the process of English?Chinese machine translation， a translation automatic generation system based on double?layer analysis is proposed and designed for English?Chinese machine translation. The system is mainly composed of preprocessing module， lexical analysis and word segmentation module， part?of?speech tagging and phrase analysis module， translation rule establishment module， decoding module and translation generation module. Experimental analysis was carried out. The experimental results show that， in comparison with the traditional generation system， the translation generation accuracy and similarity （with the original text） of the improved generation system are increased respectively by about 34.8% and about 0.4， and the system has a certain advantage and high practicability.

Keywords： English?Chinese machine translation; translation generation; lexical analysis; decoding; translation rule; system design

0 ?引 ?言

當(dāng)下，互聯(lián)網(wǎng)得到了廣泛普及，經(jīng)濟(jì)全球化范圍不斷擴(kuò)大，推動(dòng)了國(guó)際間的交流與協(xié)作不斷深入[1]。各個(gè)行業(yè)的人們每天都要與講不同語(yǔ)言的人進(jìn)行交流，瀏覽大量使用了他們不熟悉的語(yǔ)言所書(shū)寫(xiě)的文檔資料，這使得人們的交流障礙越來(lái)越嚴(yán)重，對(duì)語(yǔ)言的翻譯需求越來(lái)越多，語(yǔ)言差異已經(jīng)成為國(guó)際間交流與合作的主要障礙[2]。由原始的人工翻譯到突破語(yǔ)言障礙的機(jī)器翻譯，加快了信息傳播的速度。如何在這種信息傳播方式下，快速地生成其譯文，成為該領(lǐng)域亟待解決的問(wèn)題[3]。傳統(tǒng)的英漢機(jī)器翻譯譯文生成系統(tǒng)，主要通過(guò)以短語(yǔ)中心點(diǎn)構(gòu)造短語(yǔ)結(jié)構(gòu)，改進(jìn)標(biāo)準(zhǔn)GLR算法實(shí)現(xiàn)對(duì)英漢機(jī)器翻譯譯文自動(dòng)生成，但存在生成結(jié)果準(zhǔn)確度低與原文的相關(guān)性差。對(duì)此，提出并設(shè)計(jì)基于雙層分析的英漢機(jī)器翻譯譯文自動(dòng)生成系統(tǒng)，并進(jìn)行實(shí)驗(yàn)分析。

1 ?英漢機(jī)器翻譯譯文自動(dòng)生成系統(tǒng)整體結(jié)構(gòu)

英漢機(jī)器翻譯譯文自動(dòng)生成系統(tǒng)由以下模塊組成：預(yù)處理模塊、詞法分析及分詞模塊、詞類標(biāo)注及短語(yǔ)分析模塊、譯文規(guī)則建立模塊、解碼模塊、譯文生成模塊。

1.1 ?預(yù)處理模塊

在進(jìn)行英漢機(jī)器翻譯過(guò)程中，分隔單詞主要利用標(biāo)點(diǎn)符號(hào)或者是空格，不過(guò)在分詞過(guò)程中容易出現(xiàn)錯(cuò)誤。雖然字典中助動(dòng)詞通常被當(dāng)成是多字單詞的一部分，訂單在句子中還是要根據(jù)語(yǔ)法進(jìn)行形態(tài)的不規(guī)則變化[4]，而預(yù)處理模塊就是針對(duì)這一變化做出相應(yīng)處理的模塊。預(yù)處理模塊的功能是對(duì)標(biāo)點(diǎn)符號(hào)和單詞連寫(xiě)進(jìn)行特殊處理，并且對(duì)助動(dòng)詞的不規(guī)則形態(tài)變化進(jìn)行規(guī)范處理，將空格當(dāng)作唯一的單詞分隔符，使英漢機(jī)器翻譯能夠在格式良好的字符串中對(duì)詞法進(jìn)行分析，降低詞法分析過(guò)程中出現(xiàn)分詞錯(cuò)誤的概率。

中國(guó)國(guó)家標(biāo)準(zhǔn)總局頒布了一套標(biāo)準(zhǔn)的文檔格式，該標(biāo)準(zhǔn)總共收錄了6 763個(gè)漢字，還包含了希臘字母、拉丁字母、日語(yǔ)平假名及片假名字母等特殊字符[5]。目前該標(biāo)準(zhǔn)已經(jīng)滿足中文巨大部分的需要，國(guó)內(nèi)的中文系統(tǒng)和國(guó)際版本的系統(tǒng)都支持GB2312編碼格式。

1.2 ?詞法分析及分詞模塊

經(jīng)過(guò)預(yù)處理模塊的特殊處理后，由空格分開(kāi)的字符串有4種表現(xiàn)形式：第1種是單詞;第2種是多字單詞的一部分;第3種是特殊符號(hào);第4種是某個(gè)單詞的變形。通過(guò)對(duì)字符串的形態(tài)進(jìn)行分析，對(duì)比字典判斷字符串是否為變形單詞，再參照詞典中單詞的詞義等知識(shí)為后續(xù)處理進(jìn)行鋪墊[6]。詞法分析及分詞模塊主要包括單詞形態(tài)分析、未登錄詞的處理和多字單詞的切分三個(gè)部分。

在對(duì)詞法分析的基礎(chǔ)上對(duì)其進(jìn)行分詞處理，詞法分析及分詞模塊是系統(tǒng)的核心模塊，該模塊主要分為2個(gè)子模塊，最大匹配模塊和命名實(shí)體識(shí)別模塊見(jiàn)圖1。

1.3 ?詞類標(biāo)注及短語(yǔ)分析模塊

作為詞匯最重要的屬性之一，詞類能夠?qū)⒃~匯連接到句法。在自然語(yǔ)言中，單詞兼類普遍存在，但是在給定句子中兼類詞必須具有明確的詞類[7]。對(duì)于這種現(xiàn)象，詞類標(biāo)注模塊的主要任務(wù)就是給句子中的單詞確定一個(gè)最大可能性的詞類序列。起初，詞類標(biāo)注主要根據(jù)規(guī)則方法，之后慢慢發(fā)展為重點(diǎn)使用統(tǒng)計(jì)方法。在本文設(shè)計(jì)的系統(tǒng)中，詞類標(biāo)注模塊對(duì)兼類詞的詞類備注是依照基于單詞的兼類消歧的規(guī)則來(lái)進(jìn)行的。

短語(yǔ)分析模塊的功能是在短語(yǔ)層次識(shí)別出句子的短語(yǔ)結(jié)構(gòu)，主要對(duì)名詞短語(yǔ)（NP）、動(dòng)詞短語(yǔ)（VP）、副詞短語(yǔ)（ADVP）和形容詞短語(yǔ)（ADJP）進(jìn)行識(shí)別。短語(yǔ)分析模塊的主要任務(wù)是依據(jù)詞類信息對(duì)短語(yǔ)進(jìn)行識(shí)別，針對(duì)有歧義的并列結(jié)構(gòu)短語(yǔ)，則需要依照詞匯的語(yǔ)義信息和詞匯的搭配信息進(jìn)行識(shí)別[8]。如果有單詞不是以NP，VP，ADVP和ADJP四類短語(yǔ)組成，為了保證后續(xù)處理的統(tǒng)一性，都作為短語(yǔ)看待。依照短語(yǔ)在句子中的位置，生成相對(duì)應(yīng)的短語(yǔ)符號(hào)序列，方便后續(xù)分析過(guò)程的使用。

1.4 ?譯文規(guī)則建立模塊

譯文規(guī)則建立模塊的主要功能是選擇詞匯級(jí)語(yǔ)義、轉(zhuǎn)換短語(yǔ)級(jí)結(jié)構(gòu)、添加量詞和否定詞等。詞義選擇是語(yǔ)義消歧的具體實(shí)現(xiàn)部分，主要解決了多一次的譯文選擇問(wèn)題[9]。詞義選擇主要依照詞典內(nèi)的信息對(duì)詞匯進(jìn)行約束，并參照詞匯的上下文，給出詞匯級(jí)譯文。如果是未登錄詞，則直接給出對(duì)應(yīng)的譯文即可。短語(yǔ)級(jí)結(jié)構(gòu)的轉(zhuǎn)換是在短語(yǔ)的內(nèi)部進(jìn)行詞匯的調(diào)整，調(diào)整是參照目標(biāo)語(yǔ)短語(yǔ)的結(jié)構(gòu)知識(shí)進(jìn)行的。在選擇詞義的基礎(chǔ)上，依據(jù)短語(yǔ)的結(jié)構(gòu)和短語(yǔ)的中心詞語(yǔ)義屬性來(lái)決定量詞和否定詞是否需要添加以及如何添加。

設(shè)立一種中間語(yǔ)言，將源語(yǔ)言轉(zhuǎn)換成中間語(yǔ)言，再將中間語(yǔ)言轉(zhuǎn)換成目標(biāo)語(yǔ)言，這種方法稱為中間語(yǔ)言法。理論上，中間語(yǔ)言法是比較方便的方法，但實(shí)際操作過(guò)程中，中間語(yǔ)言的設(shè)立是很困難的，中間語(yǔ)言獨(dú)立于各種自然語(yǔ)言，卻可以準(zhǔn)確表達(dá)出各種自然語(yǔ)言，因此尋找或創(chuàng)造一種中間語(yǔ)言是有很大難度的。譯文規(guī)則建立模塊如圖2所示。

中間語(yǔ)言法是一種更為徹底的源語(yǔ)言分析。中間語(yǔ)言法與直接翻譯法的不同之處主要表現(xiàn)在翻譯過(guò)程中，兩種方法對(duì)源語(yǔ)言的分析程度不同。直接翻譯法是不需要考慮源語(yǔ)言的語(yǔ)法結(jié)構(gòu)，不需對(duì)源語(yǔ)言進(jìn)行深層次的分析，而中間語(yǔ)言法則需要對(duì)源語(yǔ)言的語(yǔ)法結(jié)構(gòu)進(jìn)行分析，并且將其轉(zhuǎn)換成相對(duì)應(yīng)的內(nèi)部表達(dá)[10]。

1.5 ?解碼模塊

解碼器是系統(tǒng)的核心模塊，通過(guò)解碼，將一個(gè)輸入的漢語(yǔ)句子翻譯成英語(yǔ)句子，流程圖如圖3所示。

1.6 ?譯文生成模塊

機(jī)器翻譯系統(tǒng)完成從源語(yǔ)言的翻譯過(guò)程，是一個(gè)復(fù)雜的整體過(guò)程，從功能上來(lái)講，系統(tǒng)的實(shí)現(xiàn)可分為源語(yǔ)分析和譯文生成兩部分，如圖4所示。

源語(yǔ)分析部分對(duì)源語(yǔ)言的詞法、形態(tài)、語(yǔ)義、語(yǔ)法依照語(yǔ)言學(xué)的知識(shí)分別進(jìn)行深層次的分析，分析結(jié)果用內(nèi)部表示形式表現(xiàn)出來(lái)[11]。這種內(nèi)部表示形式通過(guò)譯文生成部分轉(zhuǎn)化為目標(biāo)語(yǔ)中的合法語(yǔ)句，進(jìn)一步生成所需要的譯文。

由于英語(yǔ)中一個(gè)單詞往往對(duì)應(yīng)著多個(gè)漢語(yǔ)的多個(gè)譯文，因此在小句分析、短語(yǔ)分析和詞類標(biāo)注的基礎(chǔ)上，依照上下文進(jìn)行分析，確定單詞的譯文。

規(guī)則庫(kù)中的排序是依照優(yōu)先級(jí)的原則進(jìn)行的，這個(gè)優(yōu)先級(jí)在規(guī)則匹配的過(guò)程中起著主導(dǎo)作用。普遍而言，規(guī)則越是具體證明該規(guī)則的優(yōu)先級(jí)越高，規(guī)則越是抽象則代表該規(guī)則的優(yōu)先級(jí)越低。因此，在同一個(gè)規(guī)則庫(kù)下，結(jié)構(gòu)更長(zhǎng)、約束更多、更具體的規(guī)則將被放在前面。語(yǔ)言規(guī)則是具有層次性的，規(guī)則的層次性有利于解決規(guī)則的沖突。本文采用如圖5所示的方法對(duì)譯文進(jìn)行轉(zhuǎn)換和生成。

2 ?實(shí)驗(yàn)結(jié)果分析

2.1 ?開(kāi)發(fā)技術(shù)及工具

本系統(tǒng)運(yùn)用工具及平臺(tái)設(shè)置如下：

操作系統(tǒng)為Windows 10，腳本語(yǔ)言為PHP，開(kāi)發(fā)工具為Dreamweaver CS3，數(shù)據(jù)庫(kù)為MySQL，數(shù)據(jù)庫(kù)管理工具為Navicat for MySQL，軟件集成環(huán)境為XAMPP。

2.2 ?評(píng)估指標(biāo)

本文設(shè)置生成準(zhǔn)確率和本文相似度兩個(gè)指標(biāo)對(duì)翻譯結(jié)果進(jìn)行驗(yàn)證。

生成準(zhǔn)確率指在基于模式方法中，相似度超過(guò)門(mén)限從而能夠進(jìn)行譯文輸出語(yǔ)句占總輸入譯文的比例，即：

[ξp=NAN×100%] ? ? ? ?（1）

式中：[ξp]表示基于模式的生成準(zhǔn)確率;[N]為輸入譯文總數(shù);[NA]表示譯文輸出語(yǔ)句量。

GTM（General Text Matcher）是基于調(diào)和平均值的文本相似度方法，計(jì)算公式如下：

[GTM=2·Precision·RecallPrecall+Recall] ? ? ? （2）

[Preision=MMS/Lsys，Recall=MMS/Lres]

式中：MMS為最大匹配長(zhǎng)度;GTM得分范圍在0～1之間，分?jǐn)?shù)越高越好。

2.3 ?實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證本文改進(jìn)的生成系統(tǒng)在譯文生成準(zhǔn)確度方面具有優(yōu)勢(shì)，將傳統(tǒng)方法與本文方法進(jìn)行對(duì)比實(shí)驗(yàn)，具體的實(shí)驗(yàn)結(jié)果如圖6所示。

根據(jù)圖6分析能夠看出，隨著譯文量的不斷增加，傳統(tǒng)方法的準(zhǔn)確度圍繞著50%上下波動(dòng)，最低為48%，最高僅為60%;相比之下，本文方法的準(zhǔn)確度從89%開(kāi)始不斷上升，當(dāng)譯文量達(dá)到400時(shí)，準(zhǔn)確度為100%，并一直保持穩(wěn)定。由此可以說(shuō)明，在進(jìn)行中英文翻譯時(shí)，本文方法在譯文生成時(shí)的準(zhǔn)確度穩(wěn)定，隨著譯文量的增加而不斷提高，并且高于傳統(tǒng)方法，具有一定的優(yōu)越性。

進(jìn)一步驗(yàn)證采用本文方法改進(jìn)生成系統(tǒng)在譯文相似度方面具有優(yōu)越性，將本文方法與傳統(tǒng)方法進(jìn)行實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)結(jié)果見(jiàn)圖7。

由圖7分析可知，采用傳統(tǒng)方法，當(dāng)譯文量在0～40之間，GTM從0提升到0.4，在譯文量達(dá)到220時(shí)GTM僅達(dá)到0.8;相比之下，采用本文方法，譯文量在0～20之間，GTM有大幅度的提升，從0提升到0.78，當(dāng)譯文量達(dá)到220時(shí)，GTM達(dá)到1。由此可以說(shuō)明，相較于傳統(tǒng)方法在進(jìn)行中英文翻譯時(shí)，本文方法在譯文生成時(shí)的相似度更高，具有一定的優(yōu)越性。

3 ?結(jié) ?論

針對(duì)傳統(tǒng)自動(dòng)生成系統(tǒng)一直存在生成準(zhǔn)確度低、相似度差的問(wèn)題，提出并設(shè)計(jì)了基于雙層分析的英漢機(jī)器翻譯譯文自動(dòng)生成系統(tǒng)。實(shí)驗(yàn)結(jié)果表明，采用改進(jìn)系統(tǒng)，其生成正確度較高，且譯文與原文的相似度較高，具有一定優(yōu)勢(shì)。

參考文獻(xiàn)

[1] 蔣向勇，邵娟萍.英漢借形縮略語(yǔ)生成的認(rèn)知闡釋[J].北京化工大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2017（2）：44?48.

JIANG Xiangyong， Shao Juanping. A cognitive exploration on the motivations of homographic abbreviations in English & Chinese [J]. Journal of Beijing University of Chemical Technology （Social sciences edition）， 2017（2）： 44?48.

[2] 范松.從商貿(mào)英漢翻譯看譯者主體性[J].昭通學(xué)院學(xué)報(bào)，2017，39（4）：113?116.

FAN Song. An analysis of translator′s subjectivity in business and trade E?C translation [J]. Journal of Zhaotong University， 2017， 39（4）： 113?116.

[3] 余碧燕.機(jī)器翻譯中的歧異性研究現(xiàn)狀綜述[J].蘭州文理學(xué)院學(xué)報(bào)（社會(huì)科學(xué)版），2017，33（5）：106?111.

YU Biyan. Current studies on translation divergence in machine translation at home and abroad [J]. Journal of Lanzhou University of Arts and Science （Social sciences edition）， 2017， 33（5）： 106?111.

[4] 朱麗秋.英漢機(jī)器翻譯中的短語(yǔ)自動(dòng)識(shí)別算法[J].現(xiàn)代電子技術(shù)，2017，40（15）：126?128.

ZHU Liqiu. Phrase automatic identification algorithm for English?Chinese machine translation [J]. Modern electronics technique， 2017， 40（15）： 126?128.

[5] 仇蓓玲.術(shù)語(yǔ)生成原則視角下的文學(xué)術(shù)語(yǔ)翻譯新范式[J].中國(guó)科技術(shù)語(yǔ)，2017，19（4）：24?28.

QIU Beiling. A new paradigm for translation of literary terms under the principle of terminology processing [J]. China terminology， 2017， 19（4）： 24?28.

[6] 李洪政，趙凱，胡韌奮，等.面向?qū)＠I(lǐng)域的漢英機(jī)器翻譯融合系統(tǒng)[J].情報(bào)工程，2017，3（3）：105?115.

LI Hongzheng， ZHAO Kai， HU Renfen， et al. A hybrid system for Chinese?English patent machine translation [J]. Technology intelligence engineering， 2017， 3（3）： 105?115.

[7] 孔金英，李曉，王磊，等.調(diào)序規(guī)則表的深度過(guò)濾研究[J].計(jì)算機(jī)科學(xué)與探索，2017，11（5）：785?793.

KONG Jinying， LI Xiao， WANG Lei， et al. Research of deep filtering lexical reordering table [J]. Journal of frontiers of computer science & technology， 2017， 11（5）： 785?793.

[8] 姚亮，洪宇，劉昊，等.基于語(yǔ)義分布相似度的翻譯模型領(lǐng)域自適應(yīng)研究[J].山東大學(xué)學(xué)報(bào)（理學(xué)版），2016，51（7）：43?50.

YAO Liang， HONG Yu， LIU Hao， et al. Translation model adaptation based on semantic distribution similarity [J]. Journal of Shandong University （Natural science）， 2016， 51（7）： 43?50.

[9] 蔣宗禮，王威.融合檢索技術(shù)的譯文推薦系統(tǒng)[J].哈爾濱工程大學(xué)學(xué)報(bào)，2017，38（3）：419?424.

JIANG Zongli， WANG Wei. Translation recommendation system with information retrieval technology [J]. Journal of Harbin Engineering University， 2017， 38（3）： 419?424.

[10] 高恩婷，段湘煜.英漢機(jī)器音譯系統(tǒng)對(duì)比研究[J].北京大學(xué)學(xué)報(bào)（自然科學(xué)版），2017，53（2）：287?294.

GAO Enting， DUAN Xiangyu. A comparative study on English?Chinese machine transliteration [J]. Acta Scientiarum Naturalium Universitatis Pekinensis， 2017， 53（2）： 287?294.

[11] 方芳.“翻譯能力”為核心的應(yīng)用型英語(yǔ)專業(yè)模塊化探索[J].應(yīng)用型高等教育研究，2017，2（1）：58?62.

FANG Fang. The exploration of translation?ability?centered module course system for application?oriented English majors [J]. Application?oriented higher education research， 2017， 2（1）： 58?62.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

英漢機(jī)器翻譯中譯文自動(dòng)生成系統(tǒng)設(shè)計(jì)

0 ?引 ?言

1 ?英漢機(jī)器翻譯譯文自動(dòng)生成系統(tǒng)整體結(jié)構(gòu)

2 ?實(shí)驗(yàn)結(jié)果分析

3 ?結(jié) ?論