熊 兵謝家成
(1.華中師范大學(xué) 外國語學(xué)院,湖北 武漢 430079;2.長江大學(xué) 外國語學(xué)院,湖北 荊州 434023)
應(yīng)用文漢英雙語平行語料庫研制與應(yīng)用
熊 兵1謝家成2
(1.華中師范大學(xué) 外國語學(xué)院,湖北 武漢 430079;2.長江大學(xué) 外國語學(xué)院,湖北 荊州 434023)
雙語語料庫主要有平行語料庫(parallel corpus)和對比語料庫(comparable corpus)兩種形式。平行語料庫由于其獨特的優(yōu)勢受到國內(nèi)外研究者的高度關(guān)注。應(yīng)用文漢英雙語平行語料庫屬于專門用途全文語料庫,目前規(guī)模約200萬字/詞,中遠期規(guī)模為600萬字/詞。建成后,將主要用于4個方面的研究:語言與語言對比研究、應(yīng)用文翻譯研究、翻譯教學(xué)研究、資源提取與機器輔助翻譯運用研究。
應(yīng)用文;英漢平行語料庫;翻譯研究;翻譯教學(xué)
雙語語料庫是相對于單語語料庫而言的。雙語語料庫主要有平行語料庫(parallel corpus)和對比語料庫(comparable corpus)兩種形式。平行語料庫能同時提取原文和目的語對應(yīng)譯文;對比語料庫則包含兩個語域或者話題類似的雙語語料,即具有可對比性的雙語語料。這兩種語料庫涉及兩種語言,因而被廣泛應(yīng)用于雙語對比研究、翻譯研究與翻譯教學(xué)等相關(guān)領(lǐng)域。
平行語料庫由于其獨特的優(yōu)勢受到國內(nèi)外研究者的高度關(guān)注,從上個世紀90年代開始,國內(nèi)外的一些機構(gòu)和研究者開始建設(shè)多種類型的平行語料庫并進行應(yīng)用研究。不過,目前國內(nèi)高校和研究機構(gòu)建設(shè)的平行語料庫主要是通用型的平行語料庫或文學(xué)翻譯語料庫,以應(yīng)用文為主體的平行語料庫只有某些分支的語料庫,如法律平行語料庫、旅游平行語料庫、商務(wù)語料庫等。另外,此類研究大多著眼于個別的語言現(xiàn)象或翻譯現(xiàn)象。筆者擬構(gòu)建國內(nèi)首個具有較大規(guī)模的綜合性應(yīng)用文漢英雙語平行語料庫,并以此為基礎(chǔ),進行更為廣泛而系統(tǒng)的應(yīng)用文文體特征、翻譯特征及翻譯教學(xué)研究。同時,本語料庫的建設(shè),對于翻譯實務(wù),如機器輔助翻譯也具有十分積極的作用。總之,隨著國家政治、經(jīng)濟、文化等各項事業(yè)的飛速發(fā)展以及對外交流活動的日益頻繁,對應(yīng)用文文本的翻譯需求也與日俱增,本語料庫的建成將能夠滿足這種需求。這對于國民經(jīng)濟的發(fā)展和中外經(jīng)濟、文化的交流將具有積極的推動作用。
雙語語料庫的構(gòu)建始于上世紀90年代中后期。目前已有若干所大學(xué)、研究機構(gòu)或研究者建立了多種類型的雙語平行語料庫。在國外,英國曼徹斯特大學(xué)科技學(xué)院(UMIST)翻譯研究中心1995年創(chuàng)建了世界上第一個翻譯語料庫(Translational English Corpus)。該語料庫主要收集從各國語言翻譯成英語的文本,目前已有上千萬詞的語料。不過,它并不要求必須雙語對齊,因此并不是雙語平行語料庫,而是對比語料庫。在國內(nèi),最早建立起較大規(guī)模雙語平行語料庫的是北京外國語大學(xué)中國外語教育研究中心,該中心2004年初步建成了“新型雙語對應(yīng)語料庫”(含漢英、漢日兩個雙語平行語料庫)[1],規(guī)模為3000萬詞次。在其中的漢英雙語平行語料庫中,語料文本類型主要有文學(xué)類、人文類、社科類和科技類。受國家社科基金重大規(guī)劃課題資助,該語料庫目前正在進行擴展,目標為1億詞次的超大規(guī)模綜合性通用英漢/漢英平行語料庫。另外,一些學(xué)者也建設(shè)了具有一定規(guī)模的綜合性通用英漢/漢英平行語料庫,如李德?。?],[3]主持建設(shè),以漢英詞典研編為主要目的,規(guī)模為2000萬詞次的英漢平行語料庫;衛(wèi)乃興[4]主持建設(shè),以研究探討英漢對等表達為目的的規(guī)模約900萬詞次的英漢平行語料庫。一些機構(gòu),如哈爾濱工業(yè)大學(xué)(英漢雙語語料庫,40萬對)、中科院軟件所(英漢雙語語料庫,15萬對)等,也建設(shè)了規(guī)模不等的英漢/漢英綜合性平行語料庫。
除了綜合性通用英漢/漢英平行語料庫外,國內(nèi)學(xué)者還構(gòu)建了一些針對某一特定文本的英漢/漢英平行語料庫,如針對特定文學(xué)作品的翻譯平行語料庫,有《紅樓夢》漢英平行語料庫[5]、莎士比亞戲劇英漢平行語料庫[6]、紹興文理學(xué)院的中國古典文學(xué)英譯雙語平行語料庫等。
專門用途英漢雙語平行語料庫也是雙語平行語料庫的重要類型,典型的有商務(wù)英漢雙語平行語料庫[7]、雙語旅游語料庫[8]、中國法律法規(guī)漢英平行語料庫等。這些專門用途英漢平行語料庫主要為單一用途的語料庫,或規(guī)模有限,或并未公開、無法獲取,因此,有必要建設(shè)更為全面、規(guī)模更大的開放型應(yīng)用文平行語料庫。
雙語平行語料庫的相關(guān)研究可大致分為兩大類別:
一是探討如何科學(xué)規(guī)劃、高效構(gòu)建各種類型的英漢/漢英平行語料庫[1],[7],[8],如設(shè)計理論、操作程序,包括文本的轉(zhuǎn)換、語料的標注、語料的對齊等。
二是雙語平行語料庫的相關(guān)應(yīng)用研究,主要包括以下幾個方面:
利用雙語語料庫進行翻譯研究。目前利用雙語語料庫進行翻譯研究已得到廣泛重視[9]。雙語語料庫翻譯研究在研究方法上以語言學(xué)和翻譯理論為指導(dǎo),以概率和統(tǒng)計為手段,以雙語真實語料為對象,對翻譯進行歷時或共時的研究[10],因此語料庫方法與Gideon Toury[11]所提出的描寫翻譯研究有很多交合點。可以說,基于語料庫的翻譯研究為認識、研究翻譯現(xiàn)象提供了新的思路和方法[12],[13],因而被廣泛應(yīng)用于翻譯研究,尤其是翻譯特征研究及對翻譯共性的研究[14],如利用對比語料庫探討翻譯漢語的詞匯特征[15]、文學(xué)翻譯中人稱代詞的顯化和變異[16],以及利用漢英雙語平行語料庫分析英譯漢文本的詞類分布、詞匯組合等方面的語言特征等[17]。也有考察特定作品翻譯特征的研究,如基于《紅樓夢》語料庫的漢英習(xí)語及其翻譯研究等[18]。目前基于雙語語料庫的翻譯研究主要是針對文學(xué)翻譯,不過對非文學(xué)翻譯的研究也正日益受到關(guān)注,如利用雙語旅游語料庫對旅游宣傳文本的翻譯研究[8]。在對翻譯特征的研究方法方面,除了充分利用語料庫技術(shù)手段外,也有研究者利用人工分析標注的方法,對文本翻譯進行語篇、功能等層次的深入研究。如利用Werlich[19](P150)提出的平行文本比較模式對文本內(nèi)部構(gòu)成規(guī)則(internal composition rules,即文本構(gòu)成的基本因素及其組合規(guī)則,如開頭、順序形式、文本結(jié)構(gòu)、文本單位和結(jié)尾等)進行分析和歸納,挖掘中英文酒店文宣在文本慣例上呈現(xiàn)出的不同特點[8]。另外,也有研究基于雙語語料庫并結(jié)合體裁分析考察專門用途英語翻譯[20]。這些研究表明,語料庫檢索手段與人工標注相結(jié)合能更全面、更深入地探討文本的翻譯特征。
雙語平行語料庫也被用于漢英對比研究。這些研究大多利用雙語平行語料庫進行英漢對比個案研究,如“so…that”的漢語對應(yīng)結(jié)構(gòu)研究[21]、“把”字句研究[22]、“一……就”的英譯對比研究等[23]?;谄叫姓Z料庫的英漢對比研究有助于深入了解英漢雙語轉(zhuǎn)換規(guī)律,不僅適用于一些特定的疑難表達,也可用于大規(guī)模的雙語對等表達提取,尤其是應(yīng)用文翻譯中的術(shù)語提取。實際上,基于平行語料庫的對等詞提取研究目前已成為平行語料庫研究的一個熱點(如衛(wèi)乃興[4],李文中[24]),這類研究不僅有助于翻譯實踐,也有助于各種詞典的編纂。國內(nèi)一些機構(gòu)和研究者還研制了相應(yīng)的對應(yīng)表達提取工具和詞典編纂輔助工具[2]。這些研究有助于雙語語料庫資源的有效獲取與運用。
雙語平行語料庫在翻譯培訓(xùn)[25]、語言及翻譯教學(xué)[26],[27]、機器輔助翻譯教學(xué)[7]等方面也受到了廣泛關(guān)注。比如通過自建或在線語料庫,教師精心設(shè)計學(xué)習(xí)點[26]或?qū)W生自主探究學(xué)習(xí),通過檢索軟件在語料庫中提取并呈現(xiàn)相關(guān)索引,供學(xué)生練習(xí)和討論,教師隨后作總結(jié),有助于翻譯教學(xué)。
語料庫構(gòu)建中最重要的因素是語料的代表性,語料的代表性與語料庫的設(shè)計目的密切相關(guān)。筆者擬構(gòu)建具有較大規(guī)模的應(yīng)用文漢英雙語平行語料庫(屬于專門用途全文語料庫),目前規(guī)模約200萬字/詞(為統(tǒng)計方便,中文部分按字數(shù)計算,英文部分按詞數(shù)計算),中遠期規(guī)模為600萬字/詞。本語料庫的設(shè)計目的主要是進行與應(yīng)用文相關(guān)的雙語對比研究、翻譯研究及翻譯教學(xué)與翻譯實務(wù)研究。下面從語料的構(gòu)成、選取與錄入、整理、對齊、標注等方面分別進行介紹。
語料的構(gòu)成。本研究將應(yīng)用文定義為“人們在工作、生活、學(xué)習(xí)中為處理實際事務(wù)而寫作,有著實用性特點,并形成慣用格式的文本”。具體類別包括新聞文本、廣告文本、旅游宣傳文本、合同協(xié)議、演說詞、公文信函、說明書、求職信、公示語、菜譜,等等。與此相應(yīng),整個語料庫包括7個子庫:新聞文本子庫、廣告文本子庫、旅游宣傳文本子庫、合同協(xié)議文本子庫、演說詞文本子庫、公文信函文本子庫、其他類型文本子庫(包括說明書、求職信、公示語、菜譜等)。本語料庫文本類別包括漢語原創(chuàng)文本、對應(yīng)英語譯本、英語原創(chuàng)文本、對應(yīng)漢語譯本4種。根據(jù)以上語域類別分層抽樣、均衡抽樣,使入庫語料具有較好的代表性。收錄比例注意協(xié)調(diào)、均衡,英譯漢稍多于漢譯英。
語料的選取與錄入。語料的選擇決定著語料庫的典型性、代表性,因此語料的選擇與監(jiān)控也是語料庫建設(shè)的關(guān)鍵。語料庫所收錄的文本絕大部分來源于以下途徑:網(wǎng)上的電子文本或CD-ROM光盤,網(wǎng)上數(shù)字圖書館,以紙質(zhì)形式呈現(xiàn)的印刷品、書籍或宣傳頁等。這些材料都通過互聯(lián)網(wǎng)下載、格式轉(zhuǎn)換、文本電子掃描、人工錄入等各種方式轉(zhuǎn)為TXT文檔。由于語言材料數(shù)量多,質(zhì)量難免良莠不齊,這就凸顯了語料選取的原則——必須挑選語言質(zhì)量高的文本。文本若含有明顯的語法、用詞或印刷上的錯誤,均不收錄;語料選取時應(yīng)注意譯本的質(zhì)量,力避太過貼近原文句法結(jié)構(gòu)以致僵硬的譯文和太過自由的意譯,因為本語料庫除了用于語言研究外,還會用于教學(xué),嚴謹選材顯得尤為重要。為確保收集的文本質(zhì)量與內(nèi)容符合標準,本語料庫在建設(shè)中實行多層把關(guān)制,以甄別、核實文本的代表性。
語料的整理。選取好的語料之后,還需對其進行加工處理。對所有的語料都要進行降噪處理,清除雜質(zhì)、冗余符號等無關(guān)信息。有些文本帶有插圖、照片、標志、字體等非言語因素,是應(yīng)用文文本中不可缺少的一部分,但在轉(zhuǎn)換成電子文本語料后,這些非言語因素都必須去除,以方便標注和日后檢索。作為補償,將對具有這些特征的文本在其電子文本的篇頭和文中進行標注,方便研究者和學(xué)習(xí)者查找相應(yīng)的原始文檔。語料的篇頭標注也是語料整理的重要環(huán)節(jié),詳細的篇頭標注能為所收錄語料提供必要的信息,如文本類型、百科分類、篇名、作者名、作者背景、譯者名、譯者背景、年代、出版信息或其他來源、文本字數(shù)、有無非言語因素等。
語料的對齊。平行語料庫建設(shè)過程中很重要的一環(huán)是語料的對齊。整理后的中英文語料首先借助Winalign工具,實現(xiàn)以句為單位的粗略對齊,然后人工檢查,以方便Paraconc檢索。
語料的標注。整理對齊后的語料還需進一步做機器自動標注。中文語料用中科院計算技術(shù)研究所開發(fā)的“漢語詞匯分析系統(tǒng)”(ICTCLAS)進行分詞處理,以方便進一步檢索和研究。為了更深入、更廣泛地探索應(yīng)用文的語篇結(jié)構(gòu),還對不同類型的文本分別選取少量典型的樣本,根據(jù)體裁分析方法,基于功能進行語步(move)的人工標注。這種標注有助于揭示應(yīng)用文文本的語篇構(gòu)成特色。
語料整理對齊并標注后,統(tǒng)一將文本轉(zhuǎn)換成XML格式,方便傳播和檢索。
本語料庫建成后,將主要用于4個方面的研究。
第一,語言與語言對比研究。利用本平行語料庫,開展基于應(yīng)用文語料的語言與語言對比研究。既有將應(yīng)用文作為整體與通用語言的對比研究,也有針對具體應(yīng)用文類型的分類研究,還可以結(jié)合譯文,開展英漢雙語對比研究,重點考察英漢應(yīng)用文在詞匯、句法、語篇和文體上的共性和差異,以此揭示該文本類型中特有的語言現(xiàn)象和規(guī)律。這種基于大量語料的實證研究,相比傳統(tǒng)的經(jīng)驗式或感悟式個案研究,具有更高的可信度。
第二,應(yīng)用文翻譯研究。主要包括微觀和宏觀兩個方面。微觀方面,研究翻譯轉(zhuǎn)換規(guī)律,主要集中于應(yīng)用文文本翻譯過程中詞法和句法層面的轉(zhuǎn)換機制,前者如詞類轉(zhuǎn)換情況,后者如各種句式的轉(zhuǎn)換情況,特別是應(yīng)用文英漢互譯中漢語某些特有的句式(如無主句、“把”字句、意念被動句等)的轉(zhuǎn)換機制。宏觀方面,以實證和量化的方式對應(yīng)用文翻譯的文體、風(fēng)格、翻譯共性等進行研究,根據(jù)大量語料對譯者個人偏愛的語言表達形式(如詞類/標記比率、句子長度、詞頻、句型、搭配方式、敘事結(jié)構(gòu)等)加以分析,從中發(fā)現(xiàn)更有說服力的翻譯文體/風(fēng)格表征及其表現(xiàn)手段。另外,還可對以下問題進行研究:應(yīng)用文翻譯與普通翻譯在語言特點上是否存在共性?是否具有另外的特點?這些特點與特定文本類型或特定時期的翻譯規(guī)范是否有關(guān)?
第三,翻譯教學(xué)研究。應(yīng)用文翻譯教學(xué)及其研究是目前翻譯教學(xué)中的一個重要環(huán)節(jié)。本語料庫的構(gòu)建解決了大量應(yīng)用文語料的存儲及其定性/定量分析的問題?;诙嗑S度的研究發(fā)現(xiàn)以及較大規(guī)模的雙語語料庫平臺,教師可精心設(shè)計數(shù)據(jù)驅(qū)動教學(xué)(data-driven learning),如利用語料庫檢索軟件生成的索引幫助學(xué)習(xí)者發(fā)掘雙語轉(zhuǎn)換的規(guī)律,從中揣摩職業(yè)譯員所用的翻譯策略,學(xué)習(xí)他們常用的方法與技巧,提升應(yīng)用文翻譯的綜合轉(zhuǎn)換能力。
第四,資源提取與機器輔助翻譯運用研究。具有較大規(guī)模的應(yīng)用文漢英雙語平行語料庫是一種寶貴的資源,通過多種語料庫手段,能夠提取豐富的雙語對比表達,尤其是術(shù)語表達。這些術(shù)語表達,以及平行語料本身,可充分用于目前的機器輔助翻譯。
綜上所述,本語料庫具有很好的應(yīng)用前景,有助于深入探討英漢應(yīng)用文文體特征的異同,以及英漢應(yīng)用文互譯時在詞匯、句法及語篇層次轉(zhuǎn)換方面的特色、翻譯策略等。這些對比研究成果以及作為豐富資源的雙語語料庫平臺的建成,將有助于培養(yǎng)高素質(zhì)的應(yīng)用型翻譯人才,促進針對應(yīng)用文的機器輔助翻譯實踐與研究。
[1]王克非.新型雙語語料庫的設(shè)計與構(gòu)建[J].中國翻譯,2004(6).
[2]李德俊.基于英漢平行語料庫的詞典編寫系統(tǒng)CpsDict的研制[J].現(xiàn)代外語,2006(4).
[3]李德俊.完全對等、零對等的考察與漢英雙語詞典研編——基于平行語料庫的研究[J].辭書研究,2009(2).
[4]衛(wèi)乃興.基于語料庫的對比短語學(xué)研究[J].外國語,2011(4).
[5]劉澤權(quán).《紅樓夢》中英文平行語料庫的創(chuàng)建[J].當代語言學(xué),2008(4).
[6]胡開寶.莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應(yīng)用[J].外語研究,2009(5).
[7]王立非.高校《機輔商務(wù)翻譯》課程建設(shè)及教學(xué)系統(tǒng)的研發(fā)[J].中國翻譯,2011(2).
[8]李德超,王克非.新型雙語旅游語料庫的研制和應(yīng)用[J].現(xiàn)代外語,2010(1).
[9]Laviosa,S.Corpus-based Translation Studies:Theory,F(xiàn)indings and Applications[M].Amsterdam:Rodopi,2002.
[10]王克非,黃立波.語料庫翻譯學(xué)的幾個術(shù)語[J].四川外語學(xué)院學(xué)報,2007(6).
[11]Toury,G.Descriptive Translation Studies and Beyond[M].Amsterdam and Philadelphia:Benjamins,1995.
[12]秦洪武,王克非.基于語料庫的語言對比和翻譯研究[J].外語電化教學(xué),2006(6).
[13]王克非.語料庫翻譯學(xué)——新研究范式[J].中國外語,2006(3).
[14]王克非,黃立波.語料庫翻譯學(xué)十五年[J].中國外語,2008(6).
[15]王克非,胡顯耀.基于語料庫的翻譯漢語詞匯特征研究[J].中國翻譯,2008(6).
[16]王克非,胡顯耀.漢語文學(xué)翻譯中人稱代詞的顯化和變異[J].中國外語,2010(4).
[17]秦洪武,王克非.基于對應(yīng)語料庫的英譯漢語言特征分析[J].外語教學(xué)與研究,2009(2).
[18]劉澤權(quán).《紅樓夢》中的習(xí)語及其翻譯研究[J].外語教學(xué)與研究,2008(6).
[19]Werlich,E.A Text Grammar of English[M].Heidelberg:Quelle and Meyer,1982.
[20]謝家成.基于體裁分析的專門用途語篇翻譯模式及運用[J].上海翻譯,2010(2).
[21]秦洪武,王克非.基于語料庫的翻譯語言分析——以“so…that”的漢語對應(yīng)結(jié)構(gòu)為例[J].現(xiàn)代外語,2004(1).
[22]王克非.漢語把字句的特點、分布及英譯研究[J].外語與外語教學(xué),2003(12).
[23]謝家成.“一……就”的英譯——兼談英漢平行語料庫輔助漢譯英調(diào)查[J].中國科技翻譯,2004(2).
[24]李文中.平行語料庫設(shè)計及對應(yīng)單位識別[J].當代外語研究,2010(9).
[25]Zanettin,F(xiàn).Bilingual Comparable Corpora and the Training of Translators[J].Meta,1998(4).
[26]秦洪武,王克非.對應(yīng)語料庫在翻譯教學(xué)中的應(yīng)用:理論依據(jù)和實施原則[J].中國翻譯,2007(5).
[27]王克非,秦洪武,王海霞.雙語對應(yīng)語料庫翻譯教學(xué)平臺的應(yīng)用初探[J].外語電化教學(xué),2007(6).
Development and Application of Chinese-English Bilingual Parallel Corpus for Practical Writing
XIONG Bing (Philosophy Department,Central China Normal University,Wuhan Hubei 430079)
XIE Jia-cheng (School of Foreign Studies,Yangtze University,Jingzhou Hubei 434023)
Bilingual corpus has two main forms:parallel corpus and comparable,and much attention is paid to the former at home and abroad due to its unique advantages.Chinese-English bilingual parallel corpus for practical writing belongs to special purpose full text corpus,with a size of about 2million characters/word at present and a size of 6million characters/word in the future.It would be mainly used in the following 4areas of research:language and contrastive study of languages,translation research on practical writing,translation teaching research,research on resource extraction and machine-assisted translation application.
practical writing;parallel corpus;translation research;translation teaching
H315
A
1673-1395(2012)02-0075-04
2012-01-02
教育部人文社科規(guī)劃基金項目(10YJA740104)
熊兵(1967-),男,湖北武漢人,教授,博士生導(dǎo)師,主要從事英漢語言對比與翻譯研究。
責任編輯 強 琛 E-mail:qiangchen42@163.com