国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法和語義的英漢翻譯記憶系統(tǒng)設(shè)計(jì)研究

2022-12-02 06:12:26董菊霞
電腦與電信 2022年8期
關(guān)鍵詞:庫中英漢翻譯句法

董菊霞

(平頂山學(xué)院,河南 平頂山 467000)

1 引言

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,促進(jìn)了機(jī)器翻譯系統(tǒng)開發(fā),借助互聯(lián)網(wǎng)平臺(tái),實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)庫信息實(shí)時(shí)更新,為用戶提供網(wǎng)絡(luò)訪問連接[1]。該系統(tǒng)支持多種語言的相互轉(zhuǎn)換,能夠?yàn)橛脩艚涣魈峁┍憷麠l件。目前,機(jī)器翻譯系統(tǒng)主要分為兩種類型,分別是語料庫翻譯、語法分析翻譯[2]。相比之下,語料庫翻譯技術(shù)發(fā)展較好。由于自然語言歷經(jīng)多年發(fā)展形成,人們針對(duì)相同的語言理解存在一定差異,因而降低了機(jī)器翻譯的準(zhǔn)確性。面對(duì)重復(fù)率較高的文件翻譯工作,耗費(fèi)時(shí)間較多[3]。翻譯記憶技術(shù)的提出,打破了傳統(tǒng)機(jī)器翻譯模式,能夠縮減重復(fù)語句的翻譯時(shí)間[4,5]。由于翻譯記憶技術(shù)研發(fā)時(shí)間比較短,尚未形成完善的英漢翻譯記憶系統(tǒng)。本文嘗試將語義和句法作為譯文指標(biāo),開發(fā)一套英漢翻譯記憶系統(tǒng)。

2 英漢翻譯記憶

2.1 英漢翻譯記憶方法

翻譯記憶指的是將以往翻譯任務(wù)獲取的經(jīng)驗(yàn)作為信息基礎(chǔ),開展下一次翻譯任務(wù),在此期間使用的系統(tǒng),是翻譯記憶系統(tǒng)[6]。本文提出的英漢翻譯記憶,是以英語和漢語作為翻譯相互轉(zhuǎn)換的兩種語言,運(yùn)用翻譯記憶系統(tǒng),在記憶庫中搜索相似資源,作為譯文參考依據(jù)。用戶在使用該系統(tǒng)過程中,以系統(tǒng)提供的資源作為輔助翻譯工具,根據(jù)自己的理解,調(diào)整最終翻譯結(jié)果,以此提高翻譯效率。當(dāng)系統(tǒng)處理新的翻譯任務(wù)時(shí),將此任務(wù)與數(shù)據(jù)庫中資料進(jìn)行匹配,生成相似譯文,作為翻譯參考依據(jù),用戶根據(jù)譯文情況,選擇接受此翻譯結(jié)果,或者在此基礎(chǔ)上做出更改[7]。當(dāng)本次翻譯結(jié)束后,相關(guān)翻譯信息將被存儲(chǔ)至記憶庫中。隨著使用時(shí)間不斷積累,記憶庫中的資源就會(huì)逐漸增加,有助于翻譯效率的提升[8]。

2.2 英漢翻譯記憶作業(yè)流程

英漢翻譯記憶方法涉及的主要技術(shù)有相似度計(jì)算、記憶庫技術(shù)、譯文構(gòu)造技術(shù)[9]。運(yùn)用這3項(xiàng)技術(shù),對(duì)數(shù)據(jù)進(jìn)行檢索、資源匹配、人工校對(duì)等處理,從而生成翻譯結(jié)果。本文提出的英漢翻譯記憶系統(tǒng),從記憶庫中檢索相關(guān)數(shù)據(jù),與原文數(shù)據(jù)進(jìn)行對(duì)比,完成英語和漢語之間的轉(zhuǎn)換處理。如圖1所示為英漢翻譯記憶作業(yè)流程。

圖1 英漢翻譯記憶作業(yè)流程

首先,根據(jù)原文數(shù)據(jù),調(diào)用記憶庫中的信息,經(jīng)過數(shù)據(jù)檢索,尋找與之匹配的譯文資源。接著,對(duì)比檢索譯文資源與原文數(shù)據(jù)是否完全匹配,如果完全匹配,則生成譯文結(jié)果。反之,采用人工校對(duì)的方式,對(duì)本次譯文結(jié)果進(jìn)行校對(duì),同時(shí)將校對(duì)相關(guān)信息存儲(chǔ)至記憶庫中,以此豐富記憶庫中的譯文資源,同時(shí)優(yōu)化譯文標(biāo)準(zhǔn)。

3 基于句法和語義的英漢翻譯相似度算法

翻譯相似度算法作為翻譯記憶系統(tǒng)開發(fā)的核心工具,以語義和句法作為翻譯相似度判斷指標(biāo),分析英語句子和漢語句子的譯文是否匹配。一般情況下,相似度范圍[0,1],數(shù)值越接近1,則認(rèn)為翻譯語句與原句越相似,從語義、句法兩個(gè)方面來看都是滿足翻譯意思標(biāo)準(zhǔn)的[10]。另外,單詞排序同樣符合譯文要求。如果相似度數(shù)值接近0,則認(rèn)為兩個(gè)語句之間不存在聯(lián)系,語義和句法幾乎都不同[11]。本算法中,利用[0,1]范圍內(nèi)數(shù)據(jù)表示譯文句子之間的相似程度。

關(guān)于相似度算法的開發(fā),首先利用Link Grammar Parser軟件計(jì)算需要翻譯的句子,獲取該語句的句法結(jié)構(gòu)[12]。其次,判斷生成的句法結(jié)構(gòu)與原句的句法結(jié)構(gòu)是否相同,如果完全相同,運(yùn)用算法繼續(xù)計(jì)算獲取語義,并判斷生成的語義與原句的語義是否相似。其中,句義相似度的判定,以句子中的各個(gè)組成部分作為判定對(duì)象,分別對(duì)各個(gè)部分的語義相似度進(jìn)行判斷,得到綜合判斷結(jié)果,從而避免譯文句子與原句之間實(shí)際相似度與計(jì)算結(jié)果產(chǎn)生偏差。例如,句子s1:TIFF IFD entry value has wrong size.句子s2:TIFF IFD entry has invalid value.對(duì)這兩個(gè)句子的相似度的計(jì)算,首先進(jìn)行拆分,而后分別計(jì)算各個(gè)對(duì)應(yīng)詞組的相似度。詞組1:(TIFF IFD entry),(TIFF IFD entry value);詞組2:(has),(has);詞組3:(invalid value),(wrong value)。這種相似度方法,與傳統(tǒng)方法中計(jì)算賓語value方法不同,給出的主要成分entry和value更加貼近實(shí)際語義。假設(shè)句子成分?jǐn)?shù)量為n,利用句子成分字符串計(jì)算得到n數(shù)值,并采用公式(1)計(jì)算句子相似度:

假如抽取句子單詞的期間,發(fā)現(xiàn)單詞抽取后句子的成分為空,那么該句子中的被過濾單詞判定為代詞,句子中的各個(gè)成分相似度利用公式(2)計(jì)算。

公式(2)中,v1和v2代表向量,c1m和c2m均為字符。

例如句子They like singing.和句子He likes reading.之間的相似度計(jì)算,句子成分分為3個(gè)詞組。詞組1:{(they)(he)};詞組2:{(like)(like)};詞組3:{(sing)(read)}。利用公式(3)計(jì)算。通常情況下,采用wup計(jì)算的數(shù)據(jù)值范圍是(0,1),在Synset之間LCS深度不可能是0的情況下,可以使用公式(3)進(jìn)行計(jì)算分析,但是如果輸入的Synsets相同,數(shù)據(jù)值就是1。

公式(3)中,wup方法得到的計(jì)算結(jié)果范圍為(0,1);LCS代表公共包容最小值;depth代表深度。

基于上述原理,利用C語言進(jìn)行編程,如下:

4 基于句法和語義的英漢翻譯記憶系統(tǒng)設(shè)計(jì)

4.1 系統(tǒng)總體架構(gòu)設(shè)計(jì)

本系統(tǒng)架構(gòu)主要分為3個(gè)模塊,分別是索引生成模塊、相似度計(jì)算模塊、譯文處理模塊。其中,相似度計(jì)算模塊又分為句法處理模塊、語義計(jì)算模塊。如圖2所示為系統(tǒng)總體架構(gòu)。

圖2 系統(tǒng)總體架構(gòu)

該架構(gòu)中,索引生成模塊包括句子長度索引、字符串索引、句法索引3項(xiàng)功能;譯文處理模塊包括譯文處理、譯文存儲(chǔ)2項(xiàng)功能;句法處理模塊包括句法生成、句法比較2項(xiàng)功能;語義計(jì)算模塊包括關(guān)鍵詞抽取、語義相似度計(jì)算2項(xiàng)功能。

(1)句子長度索引:以“句子長度”為對(duì)象,在記憶庫中創(chuàng)建索引關(guān)系;

(2)字符串索引:以“字符串”為對(duì)象,在記憶庫中創(chuàng)建索引關(guān)系;

(3)句法索引:以“句法”為對(duì)象,在記憶庫中創(chuàng)建索引關(guān)系;

(4)句法比較:采用相似度計(jì)算方法,對(duì)原句和譯文結(jié)果中的句法進(jìn)行比較;

(5)句法生成:通過相似度計(jì)算,生成句法相似度計(jì)算結(jié)果;

(6)關(guān)鍵詞抽?。簭脑渲谐槿£P(guān)鍵詞,作為譯文比對(duì)重點(diǎn)對(duì)象;

(7)語義相似度計(jì)算:采用相似度計(jì)算方法,對(duì)原句和譯文結(jié)果中的語義進(jìn)行比較。

4.2 系統(tǒng)總體作業(yè)流程

按照如圖2所示的總體框架結(jié)構(gòu),設(shè)計(jì)系統(tǒng)總體作業(yè)流程:

第一步:向系統(tǒng)中輸入需要翻譯的語句;

第二步:根據(jù)英漢語言轉(zhuǎn)換需求,確定翻譯語句的語言類型;

第三步:分析句子字符串、長度,調(diào)用系統(tǒng)記憶庫,從庫中找到相似的譯文資源;

第四步:對(duì)比譯文資源的句子與原文的語義是否相符,如果相符,則輸出譯文,反之,執(zhí)行下一步;

第五步:將句法作為資源搜索條件,從記憶庫中搜尋與原文的句法相似的例句;

第六步:計(jì)算記憶庫生成句子與原句的句法相似度;

第七步:從生成的例句中,挑選出句法相似度最高的例句,作為譯文結(jié)果;

第八步:根據(jù)用戶對(duì)譯文結(jié)果的滿意程度,決定是否對(duì)譯文進(jìn)行更改。如果對(duì)譯文滿意,則直接輸出譯文結(jié)果,反之,對(duì)譯文采取修正處理,并將相關(guān)信息存儲(chǔ)至系統(tǒng)記憶庫中。

4.3 翻譯記憶庫設(shè)計(jì)

翻譯記憶庫分為3個(gè)級(jí)別,包括詞匯級(jí)、句子級(jí)、更深層級(jí)。其中,采用詞匯級(jí)設(shè)計(jì)的記憶庫優(yōu)點(diǎn)為:譯文生成過程比較簡單,記憶庫作業(yè)簡單;缺點(diǎn)為:加工程序較為繁瑣,降低了翻譯效率。采用句子級(jí)設(shè)計(jì)的記憶庫優(yōu)點(diǎn)為:加工程序比較簡單,容易擴(kuò)充,句子翻譯較為清晰,容易比對(duì);缺點(diǎn)為:譯文生成計(jì)算難度較高,對(duì)雙語資料的加工處理要求偏高。采用更深層級(jí)設(shè)計(jì)的記憶庫優(yōu)點(diǎn)為:譯文生成的信息偏多,包括句子結(jié)構(gòu)、詞類等,譯文資源較多;缺點(diǎn)為:加工程序頗深,加大了譯文信息例句擴(kuò)充難度。

通過對(duì)比上述3個(gè)層級(jí)的實(shí)例庫的優(yōu)點(diǎn)和缺點(diǎn)可知,如果前期譯文工作量較少,后期記憶庫的加工程度就會(huì)更大,反之前期工作量過重,后期可以降低加工程度,但是增加了管理工作量。對(duì)于英語句子的翻譯,是將句子拆分為多個(gè)簡單的句子,每個(gè)句子又分為主語、謂語、賓語。因此,本系統(tǒng)設(shè)計(jì)記憶庫時(shí),以簡單句子為單位,根據(jù)句子成分展開翻譯,以此降低譯文難度,使得記憶庫開發(fā)比較容易實(shí)現(xiàn)。

本系統(tǒng)設(shè)計(jì)的記憶庫,兼顧系統(tǒng)管理與譯文檢索效率,以句子的句法、語義作為檢索要點(diǎn),設(shè)計(jì)如表1所示的記憶庫結(jié)構(gòu)。

表1 記憶庫結(jié)構(gòu)

按照表1所示的記憶庫結(jié)構(gòu),存儲(chǔ)譯文資源,如果譯文結(jié)果未能得到用戶認(rèn)可,則存儲(chǔ)用戶更改過的譯文信息,作為下一次相同句子翻譯參考依據(jù)。

關(guān)于記憶庫的創(chuàng)建,利用SQL Sever軟件開發(fā)3個(gè)數(shù)據(jù)信息表,表中的信息按照表1中的結(jié)構(gòu)編輯。以下為3個(gè)數(shù)據(jù)信息表的設(shè)計(jì)方案:

(1)Component表:用于存儲(chǔ)句子的各個(gè)譯文內(nèi)容和句子結(jié)構(gòu)。

(2)Structure表:用于存儲(chǔ)與句子相關(guān)的信息,例如:譯文的句法結(jié)構(gòu)等。

(3)Sentence表:用于顯示譯文結(jié)果,包括英語句子信息、漢語句子信息,兩部分信息相對(duì)應(yīng)。

4.4 相似度計(jì)算

本系統(tǒng)采用相似度算法,對(duì)原句、譯文句子的相似度進(jìn)行判斷,該判斷結(jié)果將作為系統(tǒng)翻譯處理依據(jù)。如果相似度達(dá)到100%,則輸出譯文結(jié)果,如果相似度不足,則繼續(xù)遍歷譯文結(jié)果,經(jīng)過對(duì)比計(jì)算相似度參數(shù)數(shù)值,如果仍未達(dá)到100%,則與之前遍歷的譯文相似度數(shù)值進(jìn)行對(duì)比,取最大值。而后判斷當(dāng)前是否仍然存在未計(jì)算相似度對(duì)應(yīng)的譯文例句,如果存在,繼續(xù)遍歷譯文并計(jì)算相似度,與之前最大值進(jìn)行對(duì)比,直至所有譯文例句的相似度數(shù)值計(jì)算結(jié)束,從中選取相似度數(shù)值最大的譯文語句作為譯文結(jié)果,輸出譯文結(jié)果后,等待用戶審核,判斷是否對(duì)此譯文結(jié)果滿意,如果不滿意,更改譯文結(jié)果。如圖3所示為相似度計(jì)算流程。

圖3 相似度計(jì)算流程

首先,以句子的字符串作為對(duì)比對(duì)象,開展相似度對(duì)比。如果句子中的字符串完全相似,則生成相似度結(jié)果為“1”,反之,生成原句的句法結(jié)構(gòu),將其作為下一步相似度對(duì)比對(duì)象。接下來,對(duì)比原句的句法與譯文的句法是否一致,如果達(dá)成一致,則從譯文中抽取各個(gè)成分關(guān)鍵詞組,計(jì)算相似度,并生成相似度結(jié)果,數(shù)值范圍[0,1]。如果句法未能達(dá)成一致,則生成相似度結(jié)果為“0”。最后,返回相似度計(jì)算初端,開啟下一次句子相似度計(jì)算。

4.5 譯文生成

本系統(tǒng)針對(duì)英漢語句的翻譯,采用相似度算法進(jìn)行計(jì)算,所得計(jì)算結(jié)果范圍[0,1]。按照相似度取值情況,將譯文匹配類別劃分為3種:(1)“完全不匹配”,對(duì)應(yīng)相似度數(shù)值為0,此情況需要修改譯文才可以使用,譯文生成的流程為“wrong size”→“invalid value”→“非法值”→修改大小錯(cuò)誤→生成譯文結(jié)果。(2)“模糊匹配”,對(duì)應(yīng)相似度數(shù)值為(0,1),此情況需要采用人工翻譯生成的譯文才可以使用,譯文生成的流程為“has”→“has”→“有錯(cuò)誤”→調(diào)整部分譯文結(jié)果→生成譯文結(jié)果。(3)“完全匹配”,對(duì)應(yīng)相似度數(shù)值為1,直接復(fù)用譯文即可,譯文生成的流程為“TIFF IFD array entry”→“TIFF IFD array entry”→“TIFF圖像的IFD數(shù)組項(xiàng)”→復(fù)用“TIFF圖像的IFD數(shù)組項(xiàng)”→生成譯文結(jié)果。

5 系統(tǒng)測試與分析

5.1 測試內(nèi)容與方法

(1)英漢翻譯系統(tǒng)的索引生成和關(guān)鍵詞的提取

索引生成測試:記憶庫中,創(chuàng)建主索引和次索引。其中,主索引創(chuàng)建建立在英語句子字符串基礎(chǔ)上,次索引創(chuàng)建建立在句子長度基礎(chǔ)上,根據(jù)索引關(guān)系在記憶庫中快速完成句子的檢索,從而找到與待譯句子相近的例句。

關(guān)鍵詞的提取測試:主要測試系統(tǒng)提取出的關(guān)鍵詞是否為待譯句子的核心和主要詞匯。

(2)英漢翻譯系統(tǒng)相似度測試

本次測試以傳統(tǒng)機(jī)器翻譯系統(tǒng)作為對(duì)照組,以本文設(shè)計(jì)的英漢翻譯系統(tǒng)作為實(shí)驗(yàn)組,分別對(duì)兩種系統(tǒng)的英漢語句翻譯中譯文結(jié)果相似度進(jìn)行測試。測試中,分為兩種情況,其中一種情況為不含有重復(fù)句子(全為新句),另外一種情況為含有重復(fù)句子(部分為新句)。每種情況設(shè)定英語句子的數(shù)量分別為200個(gè)、400個(gè)、800個(gè)。

(3)英漢翻譯系統(tǒng)耗時(shí)測試:該項(xiàng)測試內(nèi)容以不同情況下的系統(tǒng)作業(yè)耗時(shí)作為主要測試指標(biāo),兩種情況及英語句子數(shù)量設(shè)置同測試內(nèi)容(2)。

5.2 測試結(jié)果分析

對(duì)本系統(tǒng)的索引生成和關(guān)鍵詞的提取功能進(jìn)行測試,結(jié)果如表2所示。

表2中測試結(jié)果顯示,本系統(tǒng)能夠有效創(chuàng)建待譯句與數(shù)據(jù)庫中例句之間的索引關(guān)系,并且提取句子關(guān)鍵詞的可靠性較高,有助于系統(tǒng)英漢翻譯準(zhǔn)確性的提升。

表2 系統(tǒng)索引生成和關(guān)鍵詞提取功能測試結(jié)果

另外,按照系統(tǒng)測試內(nèi)容與方法,分別對(duì)傳統(tǒng)機(jī)器翻譯系統(tǒng)、本翻譯系統(tǒng)的譯文相似度、耗時(shí)情況進(jìn)行測試,結(jié)果如表3、表4所示。

表3中,與傳統(tǒng)機(jī)器翻譯系統(tǒng)相比,本文設(shè)計(jì)的翻譯系統(tǒng)生成的譯文相似度更高,僅有英語句子增加至800個(gè)時(shí),存在2個(gè)句子譯文相似度未能達(dá)到標(biāo)準(zhǔn),而傳統(tǒng)機(jī)器翻譯系統(tǒng)的譯文相似度不達(dá)標(biāo)數(shù)量達(dá)到了37個(gè)。針對(duì)重復(fù)語句情況,本翻譯系統(tǒng)的譯文相似度效果更佳,僅有1個(gè)句子譯文未能達(dá)到標(biāo)準(zhǔn),而傳統(tǒng)機(jī)器翻譯系統(tǒng)的譯文相似度出現(xiàn)了下降變化趨勢。因此,本翻譯系統(tǒng)在英漢句子翻譯中的精確度更具優(yōu)勢。

表3 英漢翻譯系統(tǒng)的譯文相似度測試結(jié)果

表4中,與傳統(tǒng)機(jī)器翻譯系統(tǒng)譯文耗時(shí)情況相比,本翻譯系統(tǒng)在不同情況下的譯文耗時(shí)更短一些,隨著句子數(shù)量的增加,單個(gè)句子譯文耗時(shí)明顯下降。另外,英語句子中存在重復(fù)語句情況下,傳統(tǒng)機(jī)器翻譯系統(tǒng)的耗時(shí)幾乎保持不變,而本翻譯系統(tǒng)的耗時(shí)出現(xiàn)了明顯下降的變化特點(diǎn)。因此,本翻譯系統(tǒng)在英漢句子翻譯中的耗時(shí)更具優(yōu)勢。

表4 英漢翻譯系統(tǒng)的耗時(shí)測試結(jié)果

6 結(jié)語

本文采用翻譯記憶技術(shù),以語義、句法作為翻譯處理指標(biāo),設(shè)計(jì)一套英漢翻譯記憶系統(tǒng)。該系統(tǒng)通過構(gòu)建記憶庫,將兩種語言的翻譯資源存儲(chǔ)至其中,而后按照原文中的語義、句法,提取記憶庫中的資源,與原文進(jìn)行匹配,取相似度最高的譯文作為翻譯結(jié)果,經(jīng)過人工修正生成譯文。系統(tǒng)測試結(jié)果表明,本系統(tǒng)能夠更為精準(zhǔn)地翻譯句子,且作業(yè)效率較高。

猜你喜歡
庫中英漢翻譯句法
動(dòng)物城堡
動(dòng)物城堡
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
高校英漢翻譯課程思政建設(shè)的思考與實(shí)踐
甘肅教育(2020年22期)2020-04-13 08:10:42
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
英漢翻譯中的文化負(fù)遷移
智能盤庫在自動(dòng)化立體庫中的探索和應(yīng)用
動(dòng)態(tài)對(duì)等理論在傳記文學(xué)英漢翻譯中的應(yīng)用
天镇县| 永兴县| 岗巴县| 怀来县| 阿城市| 沙河市| 永胜县| 北安市| 苗栗县| 静安区| 南丰县| 吐鲁番市| 京山县| 南阳市| 尼玛县| 桃园县| 棋牌| 富锦市| 屯昌县| 泰和县| 克山县| 金溪县| 景德镇市| 上饶市| 大庆市| 石林| 芦山县| 农安县| 洛扎县| 慈溪市| 曲靖市| 宿迁市| 建水县| 临汾市| 莱阳市| 库尔勒市| 苏尼特右旗| 东兰县| 阳朔县| 铅山县| 定州市|