基于句子與基于字符串的兩種翻譯記憶模式的分析

2018-03-27 12:34:28羅煦四川傳媒學(xué)院

傳播力研究 2018年13期

羅煦四川傳媒學(xué)院

1966年，自動語言處理咨詢委員會(ALPAC)發(fā)布的一份報告初步定義了歐洲煤鋼鐵協(xié)會(CECA)所使用的早期的翻譯記憶系統(tǒng)為：“包含上下文的自動字典查詢。[...]翻譯者用下劃線表示他想要的幫助。然后將整個句子按鍵打開并送入計算機。計算機通過搜索程序并打印出與問題句子最明顯匹配(在詞匯項目中)的一個句子或多個句子。譯者然后檢索打印出來的所需項目的上下文以及它們在源文件中出現(xiàn)的順序?！?ALPAC 1966，27)這個系統(tǒng)的出現(xiàn)，為了為現(xiàn)代翻譯記憶系統(tǒng)的發(fā)展鋪平道路，一些關(guān)鍵特征如文本對齊，自動匹配和檢索被創(chuàng)造了出來。

一、翻譯記憶

翻譯記憶(TM)是一個存儲“段”的數(shù)據(jù)庫，它存儲著之前翻譯過的句子，段落或類似句子的單位(列表中的標(biāo)題，標(biāo)題或元素)，借以此幫助翻譯人員。翻譯記憶通常與專用計算機輔助翻譯(CAT)工具，文字處理程序，術(shù)語管理系統(tǒng)，多語言字典或甚至原始機器翻譯輸出結(jié)合使用。雖然翻譯人員可用的技術(shù)范圍包括從電子詞典和詞匯提取工具到高度復(fù)雜的翻譯環(huán)境等各個領(lǐng)域，但翻譯及一系統(tǒng)存儲和檢索能力以非凡的速度發(fā)展，因而對翻譯這個行業(yè)帶來了變革。因此，就像在翻譯和翻譯之間架起了一座橋梁。當(dāng)翻譯人員使用翻譯記憶庫工具翻譯新文本時，該工具會識別新文本片段和存儲的源文本之間的相似性。在此過程中，搜索和檢索功能是所有翻譯記憶工具的基本功能。

現(xiàn)如今，翻譯行業(yè)正在為今后幾年的需求大幅增長做好準(zhǔn)備。根據(jù)Common Sense Advisory的調(diào)查，語言服務(wù)市場2015年的增長率為6.46%。雖然語言技術(shù)只占整個語言服務(wù)市場的2.8%，但它確實表明了語言技術(shù)發(fā)展的巨大潛力。Common Sense Advisory將名為翻譯自動化軟件的三家大型公司列為混合語言服務(wù)提供商，向所有市場利益相關(guān)者銷售服務(wù)，包括SDL，STAR和TransPerfect。他們的套裝包括翻譯記憶庫，術(shù)語管理和TMS。

而翻譯記憶最新發(fā)展是“文本記憶”，這一概念與翻譯記憶相反。這也是LISA OSCAR(前本地化產(chǎn)業(yè)標(biāo)準(zhǔn)協(xié)會出臺的標(biāo)準(zhǔn))的基礎(chǔ)。在xml：tm中的文本內(nèi)存包含“譯者內(nèi)存”和“翻譯記憶”。譯者記憶用于記錄譯者編輯當(dāng)中出現(xiàn)的改動。翻譯記憶則使用譯者記憶中的信息來實現(xiàn)翻譯記憶匹配。雖然主要針對XML文檔，但可以將XML：tm用于任何可以轉(zhuǎn)換為XLIFF格式的文檔。

翻譯記憶模式是指翻譯記憶存儲的方式。根據(jù)國內(nèi)研究人員(王華偉，崔啟良2005,107)的分類，目前有兩種翻譯記憶模式。一種是基于句子的模式(SB)，其中翻譯記憶以翻譯單元的形式存儲。另一種是雙語語料庫內(nèi)的字符串(CSB)模式。目前，SB模式被應(yīng)用于大多數(shù)翻譯記憶工具。因此，本文在比較兩種模型時將更重視前者。

二、基于句子的翻譯記憶模式(SB)

就該模式而言，翻譯記憶系統(tǒng)是一種特殊類型的支持工具，它維護源語言和目標(biāo)語言對的數(shù)據(jù)庫，并自動檢索數(shù)據(jù)庫中出現(xiàn)的新文本中的這些句子的翻譯。換句話說，每個源語句與目標(biāo)語句中的語句完全匹配。在這一模式中，翻譯記憶系統(tǒng)將根據(jù)句子級別搜索和檢索數(shù)據(jù)。

(一)基于句子模式的優(yōu)勢

為什么句子是大多數(shù)翻譯記憶工具選擇的首選翻譯單元？語料庫對在不同層面都差異甚大，比如文本、段落、句子、短語和詞語層面。一些像黃俊紅這樣的學(xué)者(2007,21)認(rèn)為，對齊單位越小，它傳達(dá)的語言信息就越多。然而，Bowker(2002,56)認(rèn)為，詞匯層次上的對齊非常困難，容易被誤解，因為大多數(shù)自然語言可以找到它們之間的確切等價關(guān)系，而段落對太寬而無法搜索和檢索。因此，詞匯對齊應(yīng)該是構(gòu)建雙語平行語料庫最合適的方法。

此外，通常來講，這樣的匹配也是高度精確的。盡管能夠訪問比句子更小的片段的工具可能會產(chǎn)生更多的匹配，但使用該句子作為基本單元的顯著益處在于，出現(xiàn)的匹配更有可能是相關(guān)的。這被認(rèn)為是高精度，低召回的搜素形式。

這種基于句子的模型的另一個優(yōu)點是它基于容易識別的單位(句子)進行操作；系統(tǒng)可以根據(jù)形式標(biāo)準(zhǔn)(例如開頭的大寫字母，最后的標(biāo)點符號)快速且比較容易地確定每個句子的開始和結(jié)束。但是，當(dāng)文本中出現(xiàn)含有句點的縮寫詞時就會出現(xiàn)問題，但這可以在一定程度上用停用列表來幫助程序識別和忽略這些縮寫(Bowker 2002,95)。

任何以句對形式存在的翻譯記憶數(shù)據(jù)庫都促進了翻譯記憶系統(tǒng)在不同系統(tǒng)和用戶之間的可交換性，因為市場上大多數(shù)翻譯記憶系統(tǒng)使用該模式，而另一方面得歸功于本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(LISA)，因為它開發(fā)了TMX(翻譯記憶交換)，這是一種標(biāo)準(zhǔn)格式，允許翻譯單元從一個翻譯記憶程序中導(dǎo)出并在另一個中重新打開，而不會丟失附加到這些單元的信息。

(二)基于句子模式的劣勢

最明顯的缺點在于源文本和目標(biāo)文本之間由于句子結(jié)構(gòu)不同而導(dǎo)致的對齊問題。有時需要將兩個源語言句子合并成一個目標(biāo)語言句子，或者將一個源語言句子分解成兩個目標(biāo)語言句子，特別是在由很多分句組成的長句中(Bedard 1998,25)。

第二個明顯的缺點是匹配算法。匹配是通過字符匹配過程實現(xiàn)的，通過計算兩個段或子段中相同和相同順序的字符串?dāng)?shù)量。此計算以匹配值的形式表示，通常為百分比。這種匹配方式只考慮了語言因素，而不是語句所表達(dá)的意思。一些研究人員用以下三句話進行了測試：

(1) The wild child is destroying his new toy.

(2) The wild chief is destroying his new tool.

(3) The wild children are destroying their new toy.

事實證明，(2)和(1)比(3)和(1)匹配得更好，而我們都知道(1)和(3)在意義上更接近的事實，因為考慮到兩個句子只有單數(shù) 和復(fù)數(shù)形式。由于TM系統(tǒng)僅考慮共同字的數(shù)量，所以這個結(jié)果出來了。這種結(jié)果算法甚至?xí)a(chǎn)生無用匹配的更大風(fēng)險，這被稱為“噪聲”。

三、雙語語料庫內(nèi)的字符串翻譯記憶模式

雙語語料庫內(nèi)的字符串模式允許用戶看到更廣泛的匹配上下文(即整個段落或文本而不僅僅是一個單獨的段)。此外，用戶可以利用更大塊的重復(fù)或相似的文本，如段落或頁面，而不僅僅是在句子層面上運作。

(一)雙語語料庫內(nèi)的字符串模式的優(yōu)勢

在雙語語料庫中搜索字符串，而非在單獨的句對中查找匹配，這一模式的優(yōu)點在于能夠完整保存句子層面之外的上下文。用戶可以看到更廣泛的上下文匹配內(nèi)容，即整個段落或文本，而不僅僅是一個單獨的片段。

此外，用戶可以利用更大塊的重復(fù)或相似的文本，如段落或頁面，而不是在句子層面進行操作。例如，如果要翻譯的文本中有大量重復(fù)的材料集中在大塊中(可能是更新或修訂的情況)，雙語語料庫內(nèi)的字符串模式的翻譯記憶系統(tǒng)具有能夠立刻識別和處理多個連續(xù)的相同句子。

在基于句子模式的翻譯記憶系統(tǒng)中，精確對準(zhǔn)非常重要。這意味著創(chuàng)建和維護數(shù)據(jù)庫必須花費更多的時間。相反，當(dāng)在雙語語料庫內(nèi)的字符串模式中保留上下文時，可以在翻譯過程中用很少額外的努力來糾正錯誤對齊。

(二)雙語語料庫內(nèi)的字符串模式的劣勢

盡管擁有能夠拾取短字符串的優(yōu)點，但該模式可能以子段塊的形式產(chǎn)生更多的“噪音”，因為該系統(tǒng)可能識別許多兩個三字的字符串。

此外，當(dāng)前文本的翻譯通常不會被添加到翻譯記憶中或者在翻譯過程完成之后才被驗證，從而使用戶難以地利用內(nèi)部重復(fù)。這意味著，對于基于句子的模型，一旦翻譯完成，新的句對就可以很容易地從同一個數(shù)據(jù)庫中檢索出來。而在基于雙語語料庫內(nèi)的字符串模式中，直到整個翻譯完成并添加到數(shù)據(jù)庫之前，新文本的內(nèi)容才能以雙語語料的格式進行搜索。即使在翻譯過程中將術(shù)語和表達(dá)方式添加到術(shù)語銀行，除非用戶在每次添加后重復(fù)每個過程，否則這些術(shù)語和表達(dá)方式不會被識別為內(nèi)部重復(fù)。

最后，雙語語料庫內(nèi)的字符串模式不太可能在系統(tǒng)和用戶之間轉(zhuǎn)移，因為TMX標(biāo)準(zhǔn)格式是基于句子模式發(fā)明的。

本文的主要目的是分析兩種翻譯記憶模型：基于句子的模式和雙語語料庫內(nèi)的字符串模式。但是，目前雙語語料庫內(nèi)的字符串模式的翻譯記憶系統(tǒng)幾乎已經(jīng)在市場上消失了。本文仍詳細(xì)分析了雙語語料庫內(nèi)的字符串模式，旨在為翻譯記憶系統(tǒng)的新功能的研究和開發(fā)提供參考，因為它具有其獨特的優(yōu)勢。

[1]ALPAC，Language and Machines：Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee，Division of Behavioral Sciences，National Academy of Sciences，National Research Council，Washington，DC.1996.

[2]王華偉，崔啟亮.軟件本地化[M].北京：電子工業(yè)出版社，2005.

[3]Bedard，Claude.“Jamais plus vous ne traduirez，ou les memoires des traduction，deuxieme partie”，Circuit，vol.61，1998：23.

[4]Bowker，Lynne.Computer-Aided Translation Technology：A Practical Introduction，University of Ottawa Press，2002.

[5]黃俊紅，范云，黃萍.雙語平行語料庫對齊技術(shù)述評[J].外語電化教學(xué)，2007(118)：21-25.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡