洛陽理工學(xué)院外語系 胡富茂
中外商務(wù)交往中有相當(dāng)一部分是通過信函形式進(jìn)行,所以商務(wù)信函的翻譯就成了一種日益多見的翻譯形式。面對(duì)海量的商務(wù)信函文件,依靠傳統(tǒng)的人工翻譯已不能滿足時(shí)代需要。機(jī)器翻譯作為突破語言障礙的重要技術(shù)手段,對(duì)加速和擴(kuò)展世界范圍內(nèi)的信息傳播具有深遠(yuǎn)意義,在經(jīng)濟(jì)發(fā)展和社會(huì)生活中日趨重要,成為當(dāng)前研究的熱點(diǎn)之一。
商務(wù)信函是一種比較正式的公務(wù)文書,其一般目的是建立和保持良好的商務(wù)關(guān)系、獲得或發(fā)布商務(wù)信息、達(dá)成合作和交易等。(張新紅,李明,2003)我們構(gòu)建的商務(wù)信函平行語料庫的語料收集范圍為商務(wù)業(yè)務(wù)信函,分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等,這些信函涉及商務(wù)活動(dòng)的全過程。在語料庫語言學(xué)理論的指導(dǎo)下,我們通過初步建立一個(gè)100萬詞次的英漢雙語商務(wù)信函平行語料庫(包括兩個(gè)子庫:英漢商務(wù)信函平行語料庫,漢英商務(wù)信函平行語料庫)。該庫為動(dòng)態(tài)的、開放的,可以自動(dòng)獲取服務(wù)于機(jī)器翻譯的知識(shí)資源。
語塊提取是近年來語料庫語言學(xué)和機(jī)器翻譯研究領(lǐng)域的重點(diǎn)課題。濮建忠教授(2003)把語塊(chunks)定義為:“語塊(詞塊)是以詞形或詞為基本單位,由連續(xù)或非連續(xù)的兩個(gè)或多個(gè)詞形或詞組合而成的,允許抽象度高于詞的單位出現(xiàn)的,有一定使用頻率、結(jié)構(gòu)相對(duì)完整、能表達(dá)一定意義的,有心理現(xiàn)實(shí)性的語言形式,以整體形式儲(chǔ)存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位?!鄙虅?wù)信函中的語言大多是具有一定的言語程式或行話, 如: Enclosed please find… (隨函附寄……, 請(qǐng)查收), cash on delivery (貨到付款), 等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲(chǔ)于人體大腦的語言板塊構(gòu)成。確定一個(gè)多詞單位是否為語塊,可以從語塊的三個(gè)重要特征加以界定和區(qū)分,即語塊共現(xiàn)的頻率性、語塊儲(chǔ)存和提取的整體性、語塊可記憶的韻律性。我們?cè)谡Z塊理論的指導(dǎo)下,從結(jié)構(gòu)和功能上明確英漢商務(wù)信函中的語塊特征,從而確定提取的具體對(duì)象。商務(wù)信函語塊可分為4種情況:(1)多詞詞匯,如: buy cheap and sell dear, fi rm offer, 等。(2)習(xí)慣搭配, 如: …for your reference, an offer subject to…, 等。(3)慣用表達(dá)式, 如: As requested, …, Enclosed please fi nd…, 等。(4)句型框架, 如: We look forward to hearing from you…, 等。為了進(jìn)行商務(wù)信函平行語料庫中的語塊提取,我們提出了一套特有的提取方法——商務(wù)信函語塊提取法(如圖1所示)。
商務(wù)信函平行語料庫中的語塊提取是基于實(shí)例的商務(wù)信函機(jī)器翻譯的重要方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動(dòng)提取語塊提出思路和設(shè)想。
在商務(wù)信函機(jī)器翻譯研究的探索實(shí)踐中,我們逐漸認(rèn)識(shí)到,單純使用一種方法難以處理自然語言中各種復(fù)雜現(xiàn)象。所以,我們提出了在統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)上引入特定語法結(jié)構(gòu)的一種方法——并列結(jié)構(gòu)的英漢翻譯轉(zhuǎn)換方法?;谏虅?wù)信函平行語料庫,通過句法分析研究并列結(jié)構(gòu)的形式化構(gòu)成,連接詞(若含)的前后管轄范圍,內(nèi)部嵌套情況以及并列結(jié)構(gòu)前后臨界搭配的情況,并制定可行句法轉(zhuǎn)換規(guī)則。
并列結(jié)構(gòu)是最普遍的一種復(fù)雜結(jié)構(gòu),它推動(dòng)了句子復(fù)雜化和簡單化的雙向活動(dòng),但目前的算法對(duì)并列結(jié)構(gòu)的處理錯(cuò)誤比較嚴(yán)重。英語有許多復(fù)雜的句子,它們往往有許多嵌套或者不嵌套的并列結(jié)構(gòu),翻譯系統(tǒng)如果將并列的轄域和層次關(guān)系以及前后界限分析錯(cuò)誤,就會(huì)嚴(yán)重影響翻譯的結(jié)果。例如,帶有連接詞“and”的并列結(jié)構(gòu)通,過Google翻譯系統(tǒng)的測(cè)試,得到如下譯文:
原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.
譯文:大家都明白,中國拖鞋在您的市場(chǎng)很受歡迎的高品質(zhì)及他們的產(chǎn)品和服務(wù)競爭力的價(jià)格。
分析:該譯句第一個(gè)and的后半部分轄域判斷過長,造成錯(cuò)誤。
可以看出統(tǒng)計(jì)機(jī)器翻譯對(duì)并列結(jié)構(gòu)等復(fù)雜結(jié)構(gòu)的處理并不理想。即便是在局部翻譯處理正確的情況下,結(jié)構(gòu)翻譯錯(cuò)誤往往會(huì)造成整體譯文不知所云。我們的研究方法:(1)參照北大雙語語料庫加工標(biāo)注規(guī)范,利用雙語對(duì)齊軟件以及人工校正達(dá)到商務(wù)信函平行語料庫的句子級(jí)對(duì)齊。(2)通過基于統(tǒng)計(jì)學(xué)手段尋找測(cè)試語料中的并列結(jié)構(gòu),確定相當(dāng)數(shù)目的測(cè)試集,并按照當(dāng)代語言學(xué)理論以及形式化理論對(duì)其分類。(3)將各類測(cè)試集送入Google統(tǒng)計(jì)翻譯系統(tǒng)進(jìn)行翻譯,得出譯文,分析錯(cuò)誤原因,進(jìn)行錯(cuò)誤歸類。(4)將各類測(cè)試集送入基于統(tǒng)計(jì)的句法分析系統(tǒng),分析結(jié)果,制定規(guī)則。
經(jīng)過Standard Parser(經(jīng)典統(tǒng)計(jì)句法分析器)的分析,例句的分析結(jié)果如下:
通過基于統(tǒng)計(jì)的句法分析器進(jìn)行分析,例句中的并列結(jié)構(gòu)分析完全正確。
綜上所述,平行語料庫在商務(wù)信函機(jī)器翻譯中的應(yīng)用研究具有多方面的意義。(1)它是國家科技支撐子課題—HNC機(jī)器翻譯引擎轉(zhuǎn)換處理研究的組成部分,為研制HNC經(jīng)貿(mào)機(jī)器翻譯系統(tǒng)創(chuàng)造必需的條件。(2)它構(gòu)建的商務(wù)信函平行語料庫為英漢雙語商務(wù)信函學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到輔助作用。(3)它構(gòu)建的商務(wù)信函平行語料庫中的語塊提取方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動(dòng)提取語塊提出思路和設(shè)想。(4)語塊提取與并列結(jié)構(gòu)處理為英漢統(tǒng)計(jì)機(jī)器翻譯和機(jī)器輔助翻譯的譯準(zhǔn)率提高起到重要作用。
[1]Allen,James.Natural Language Understanding[M].The Benjamin/Cummings Publishing Company, Inc.,1995.
[2]Sinclair,J.M.Corpus,concordance,collocation[M]. Oxford: Oxford University Press,1991.
[3]Wray, A. Formulaic Language and the Lexicon[M]. Cambridge:Cambridge University Press,2002.
[4]馮志偉.機(jī)器翻譯研究[M].北京:中國對(duì)外翻譯出版公司.2004.
[5]濮建忠.英語詞匯教學(xué)中的類聯(lián)接、搭配與詞塊[J].外語教學(xué)與研究, 2003,(6).
[6]張新紅,李明.商務(wù)英語翻譯 [M].北京:高等教育出版社.2003.