葛厚偉
?
《尚書》漢英平行語料庫的創(chuàng)建與應用
葛厚偉
(滁州學院 外國語學院,安徽 滁州 239000;揚州大學 文學院,江蘇 揚州 225009)
介紹《尚書》漢英平行語料庫的創(chuàng)建過程,探討漢英語料文本的選擇、輸入、清理、標注、對齊、檢索等具體操作方案;應用《尚書》漢英平行語料庫,比較和探討各英譯本在詞匯層面的基本特征和成語翻譯風格上的異同,力求拓展《尚書》英譯的研究視角和途徑,以期促進《尚書》英譯的多維研究,同時為其他典籍翻譯研究提供參考和借鑒。
《尚書》;平行語料庫;創(chuàng)建;應用
《尚書》是中國乃至世界最早的典籍,為“七經之冠冕”,記錄的是賢君明王和賢臣的言論和事跡,體現了儒家的道統(tǒng)觀念,承載著中國悠久的上古文明,是中國古代社會的一面鏡子,折射著華夏文明豐富多彩的不同側面。雖然《尚書》作為儒家經典,地位最受人尊敬,但由于《尚書》佶屈聱牙、晦澀難懂、文辭古奧,翻譯界對其關注度遠小于其他典籍。
近十年來,作為《尚書》學研究的一個重要分支,《尚書》譯學研究開辟了《尚書》研究的新領域。鄭麗欽(2006)依據闡釋學和功能翻譯理論剖析和研究了英國漢學家理雅各譯本[1];陸振慧(2010)從跨文化傳播層面深入剖析理雅各譯本在跨文化交流中的傳播動機、傳播策略及傳播效果,由點窺面,為拓展?jié)h籍與經學研究、深化文化傳播研究提供了嘗試[2];陸振慧博士的一系列研究,為《尚書》英譯研究提供了不少思路;林風(2012)基于闡釋學理論和歸化、異化翻譯學說,從語言和文化層面對四個譯本進行比較研究[3];陳丹丹(2015)以功能語言學為理論基礎,從語音、詞匯、語法三個層面,分析比較三個譯本對原文銜接關系的不同建構策略[4]。錢宗武、沈思芹(2017)分析了學術轉型期朱子《尚書》學的理路風格與特征,深刻影響了理雅各譯本的翻譯理念、翻譯策略和文本的具體轉換[5]。
作為翻譯學的全新研究范式,語料庫翻譯學利用語料庫的技術優(yōu)勢,提取關于翻譯事實或翻譯現象的豐富語料作為研究對象,進行數據分析,歸納出翻譯語言特征和翻譯過程的內在規(guī)律,從而有效避免傳統(tǒng)譯學研究的主觀性和片面性缺陷。平行語料庫(parallel corpus)是由原文文本及其平行對應的譯語文本構成的雙語語料庫,將翻譯好的成品展現給人們,從這些成品中人們可以了解不同語言之間的相似之處和不同之處,比較便利地研究譯文的語言特性和譯者的文體等諸多因素。隨著語料庫翻譯學的興起,語料庫翻譯學為中國古代典籍的英譯研究增加了新的范式。目前《尚書》英譯研究還處于起始階段,《尚書》英譯研究需要借助語料庫技術的輔助作用,進一步擴展研究的廣度與深度。
1.中文語料
眾所周知,《尚書》有今文《尚書》和古文《尚書》之分,《尚書》的形成過程非常復雜,版本、篇章、經文真?zhèn)巍⒏髌獙懽髂甏葐栴}亦未有定論;漢代流傳的《尚書》28篇是由伏生口述、晁錯用隸書筆錄的,史料價值甚高,本研究只限于今文《尚書》?!渡袝分杏⑽钠叫姓Z料庫的中文文本采用江灝、錢宗武譯注,貴州人民出版社出版的《今古文尚書全譯》,該書主要參考《尚書正義》《書集傳》《尚書今古文注疏》《尚書正讀》和《尚書易解》,篇次和文字據《十三經注疏》本的《尚書正義》,依據《尚書易解》斷句,注釋參考古今傳注,實事求是,擇善而從[6]。
2.英文語料
理雅各(James Legge)和高本漢(Bernhard Karlgren)的譯本是最受歡迎、普遍使用的兩個《尚書》英譯本。理雅各的《尚書》英譯本(1865年出版),翻譯的是今文和古文《尚書》共58篇,時至今日理氏譯本依然具有相當高的學術價值,一直被奉為“標準本”,而無法被其他譯本完全取代。鑒于理氏的譯文和注釋切實可信,頗具參考價值,至今尚無人超越,《大中華文庫》采用了該譯本,2013年重印了漢英對照版《尚書》,由湖南人民出版社出版[7]。高本漢翻譯了今文《尚書》28篇,1950年發(fā)表于《遠東博物館館刊》第22期,學術界認為其譯文準確地翻譯了這些經文的古代語言[8]。2014年,漢學家彭馬田(Martin Palmer)英譯了今文和古文《尚書》共58篇,由英國Penguin Group出版,這是目前最新的《尚書》英譯本[9]。自上世紀八、九十年代開始,國內也出現“經典復譯”熱,1993年山東友誼出版社也出版了杜瑞清教授翻譯的《尚書》,這是國內首部《尚書》英譯本[10]。以上四位譯者既有國外也有國內的,譯本出版時間橫跨了三個世紀,從時空上充分代表了《尚書》英譯的整體狀況,本研究將以上四個今文《尚書》譯本作為平行語料庫的英文文本[11]。
在確定好本研究所選的《尚書》中英文文本后,開始輸入中英文語料。語料的輸入主要有兩種方法:一是傳統(tǒng)的方法:印刷文稿+掃描儀+ORC軟件,并以鍵盤輸入制作電子文本;二是直接獲取電子文檔,如:網絡直接下載、圖書館服務、CD等電子介質。《尚書》源語文本在網絡上可以找到電子版并免費下載,雖然省去了中文語料的輸入工作,但是網絡資源往往存在各種各樣的錯誤,筆者參照《今古文尚書全譯》中的源語文本,進行逐字逐句校對,期間還有增、刪等編輯工作,以保證語料庫中文語料的準確性。
所選的四個《尚書》英譯本目前未見電子文稿,只有紙質印刷文本,需要通過手工輸入或使用掃描儀掃描的方式,完成英文語料的輸入,將紙質文檔轉化成計算機可以讀取和編輯的電子文檔。筆者先用掃描儀將四個《尚書》英譯本的紙質文檔掃描成圖片后,再利用漢王OCR識別軟件轉化成可編輯的電子文檔。為保證英文語料質量以及研究的可靠性,完成英文語料的輸入后,參照相應的紙質版逐字逐句核對,更正語料中的錯誤,確保文本的準確性。確定所選《尚書》中英文文本準確無誤后,將所有語料統(tǒng)一使用 UTF-8 編碼保存語料文本并分別存儲在“CN”和“EN”兩個文件夾里,CN文件夾下的中文文本以CN01、CN02……CN28命名;EN文件夾下又設理譯、高譯、彭譯和杜譯四個子文件夾,各章節(jié)文本分別以L01、L02……;G01、G02……;P01、P02……;D01、D02……類似文件名依序命名,其中大寫英文字母代表譯者姓名的簡寫,數字代表篇章數。
文本清理又稱文本除噪,即清除無關的內容,以便得到清潔的語料文本。從網絡上下載的文本、通過掃描轉化的電子文本,通常存在格式問題,需要糾正錯誤的書寫,刪除多余空格(□)、多余空行、多余硬回車(斷行)和軟回車(↓)等不合規(guī)范的符號,語料文本如果不進行清理,會直接影響后續(xù)的語料對齊、詞性標注和檢索的質量。例如,多余的回車(或者空段落)是指回車前面沒有別的內容,可以使用 Microsoft Word清除多余的回車(空段落),在MS-word中調出“查找替換”功能,“查找內容”框輸入“^p^p”(兩個段落標志),“替換為”框輸入“^p”(一個段落標志), 點擊“全部替換”若干次,就可以清除多余的空行。
“雙語對應語料庫的質量主要取決于語料各類標注的質量和語料對齊的質量。”語料的標注主要指對原始語料的詞性、詞類進行劃分標注,把表示語言特征的附碼添加在相應的語言成分上,以便進一步分析和檢索,是建立語料庫的一個重要環(huán)節(jié)。由于《尚書》源文本是古漢語,古漢語與現代漢語有許多不同之處,不能簡單地把標注現代漢語的方法直接運用于古漢語的研究與分析,目前還沒有任何針對古漢語進行詞性標注的軟件,由此本研究只對漢語語料進行分詞處理,便于檢索分析軟件處理。語料整理完成后,選用中國科學院計算技術研究所研制的漢語詞法分析系統(tǒng)ICTCLAS 3.0對漢語語料進行自動分詞處理,為了提高分詞的準確率,再輔以大量的人工校對分詞。
對于譯文的英文語料,采用英國蘭卡斯特大學計算機語料庫研究中心開發(fā)的 CLAWS 詞性附碼器,CLAWS 4.0是CLAWS 的最新版本,使用第七代附碼集(C7 tagset),詳細的附碼集及附碼所代表的意義可查看相關網站中的資料,此軟件準確率可達97%;使用 CLAWS 4.0 的免費網絡服務,分別對《尚書》的四個英譯文本進行在線詞性標注,待標注后的文本在網頁上加載后,再將標注后文本復制到相應的Word文檔中保存;最后將標注后的中文原文及每個譯文保存為純文本文件,分別放在“CN tagged”和“EN tagged”兩個文件夾里,這樣就建成了標注過的平行語料庫。
源語文本和翻譯文本之間有多種對應方式,比如篇章、段落、句子,以及詞匯等不同層級的對齊,平行語料庫建立后,在翻譯研究中,可以通過檢索軟件很容易確定對應關系。篇章對齊和段落對齊實現的難度不大,但值得研究的翻譯現象往往不能立即呈現出來,對于翻譯批評來說,詞匯對齊最有用,但由于《尚書》語言為上古漢語,晦澀難懂、詰詘聱牙,是古籍中最難通讀的一種,因此,《尚書》的源語文本和英譯文本之間很難實現詞匯層面對齊,創(chuàng)建本語料庫主要采取句級對齊。為了達到一定的效度和信度,句級層面的對齊則需要借助于軟件應用和人工校對相結合的方式來實現。
本研究總體對齊原則是以源語文本的句子劃分為基準,適當調整譯文以適應原文,將句號、問號、感嘆號、句末的省略號作為劃分中英文本最小標注單位的依據,采用Tmxmall平臺中的在線對齊功能來實現句級對齊處理,其語料對齊技術在國內首屈一指,受到用戶的廣泛好評。Tmxmall在線對齊省去了用戶下載和安裝對齊軟件等一系列繁瑣過程,即可隨時隨地使用在線對齊服務。在Tmxmall頁面分別導入要對齊的兩個文檔,先手動調整到段落對齊,然后參照原文點擊“合并”“拆分”“上移”“下移”等按鈕來調整譯文,再輔以大量人工校對來實現源語文本與其譯文自動對齊(見圖1)。按照以上程序,分別完成四個譯本在線對齊工作后,將對齊文件下載到本地計算機或存儲在Tmxmall私有云記憶庫中備用。
圖1 借助Tmxmall平臺對《尚書》語料對齊工作界面
本研究中的一對四漢英平行語料庫包括了5個文本,若想實現同時共現或對比,Para Conc(國際著名的平行語料庫軟件)是不可能實現的,因為該軟件最多支持原文與3個不同譯文的對照顯示。筆者使用CUC_ParaConc(中國傳媒大學平行語料檢索)作為檢索軟件,它是一款免費共享綠色軟件,主要用于檢索雙語、多語平行語料,支持對Unicode、UTF8、ANSI等編碼的純文本語料檢索,最新版本是0.3版,最大特點是支持多個國家的平行語料檢索,多語檢索可以實現1對16的平行語料,即一個原文可以對齊1-16個譯文,這一點恰好彌補了Para Conc的不足。但是Para Conc對原文和譯文的對齊方式要求非常嚴格,必須一致才行,否則無法正常使用,所以在對齊語料時遇到某句的譯文缺失就以“Omission”這一單詞來補充完整。
以《堯典》篇中“德”字英譯對比分析為例,運行CUC_ParaConc,點擊“一對多平行語料檢索”,進入“加載語料及檢索參數設置”界面,選擇“源文本目錄”及“保存目錄”,將“選擇譯本數”設為4,“文本編碼”設為“Default”;在“檢索和提取”界面的“原文關鍵詞”欄中輸入“德”,共有4條相匹配的句對,其中每一對應單元的最上面是漢語原文,下面的譯文分別是對應的理譯、高譯、彭譯及杜譯。顯示的部分結果如圖2:
翻譯語言特征研究是語料庫翻譯學的一個重要研究領域。在實現《尚書》漢英雙語語料平行對齊并賦碼標注后,就可以利用相關軟件對語料庫各文本的語言特征進行描述統(tǒng)計和對比分析,可以在宏觀層次對比研究《尚書》各譯本的詞匯、句法、語篇特征;也可以探討微觀層面上的翻譯特征,對宏觀研究的補充和深化,包括文化負載詞翻譯、成語翻譯、修辭翻譯等?;谝呀ǔ傻摹渡袝窛h英文平行語料庫,筆者在《基于語料庫的<尚書>英譯本詞匯特征研究》一文中,運用語料庫檢索軟件對《尚書》四個英譯本在詞匯層面的基本特征進行了數據統(tǒng)計和量化分析,比較和探討四個英譯本在高頻詞、詞長分布、類符/形符比、詞匯密度和主題詞等五個方面表現出來的獨特風格,為全面系統(tǒng)地進行《尚書》英譯研究提供有益的啟示和借鑒[11]。宏觀特征與微觀特征相結合可以使研究更趨全面合理,下文以《尚書》成語翻譯為例,探討各譯本在微觀層面表現的特征。
圖2 利用CUC_ParaConc進行原語對應譯語檢索
現代漢語成語源遠流長,源自經傳的成語最早可追溯到今文《尚書》。成語英譯一直是一個難題,譯者常常很難找到完全對等的表達形式來準確翻譯其內涵與外延意義,特別是對于源自《尚書》這些成語,其翻譯的難度和復雜性可想而知。以成語“光被四表”為例,利用CUC_ParaConc軟件檢索出四個譯文,比較和探討各英譯文在翻譯風格上的異同。
“光被四表”源于《虞夏書·堯典》篇中“允恭克讓,光被四表,格于上下”。被:加于,及于;四表:四方極遠之地,亦泛指天下。該成語的概念意義為光輝普照四方。在原文語境中該句描寫和頌揚堯的品德,意思是堯對他人恭敬,又能讓賢,德光普照四方,至于天地?!肮獗凰谋怼钡恼Z源意義是君王的品德像陽光一樣給四面八方帶來光明,該成語的四個譯文如下所示:
理譯:He was sincerely courteous, and capable of (all) complaisance., and reached to heaven above and earth beneath.
高譯:He was truly respectful and could be modest.. He reached to Heaven above, and Earth below.
彭譯:He was also sincere, able and, reaching from Heaven itself down to Earth.
杜譯:Reverential and magnanimous,and renowned both in Heaven and on earth.
成語的語義具有整體性,往往不能從組成成語的單個詞語意義中猜測出來。許多漢語成語如果直譯成英文,盡管讀者能了解成語中每個字的含義,但很難理解該成語的整體意義,此時譯者應舍棄成語的原文形式,靈活采取其他翻譯策略,在譯文中傳達該成語的蘊涵意義。以上四個譯文均采用了意譯法,未將原文的“光”簡單直譯為“the light”,否則會詞不達意、不合邏輯、效果不佳;譯文根據上下文語境,意譯為“influence of these qualities”“his reputation”或行為主體“he”,充分傳達要義——“德光”,幫助讀者理解其隱義——堯品德高尚。意譯中譯者并未對內容隨意刪改,而是深入鉆研原文,抓住要點,達到融會貫通。
與直譯相比,意譯則從原文的意蘊出發(fā),將目的語讀者的接受程度作為衡量譯文質量的重要指標,即不注重原文的形式,譯文自然流暢即可,形變而義不變,力求做到雖失原作形貌,但不失原作的內容精髓而且與原作的風格相適應。值得注意的是理譯采用了釋義法,在譯文中直接解釋了原詞在上下文中的意義,其特點在于保留直譯的形象生動,又能確保譯文容易為讀者理解。為了在譯文中凸顯“his reputation”,彭譯中使用了轉換法,將名詞“光”轉換為動詞習語“l(fā)ight up(shine lights on sb./sth.)”,使譯文信息得到明晰傳達,譯文邏輯連貫,流利順暢,臻于完善。
創(chuàng)建《尚書》漢英平行語料庫是《尚書》譯學研究的一種創(chuàng)新性嘗試,對《尚書》多譯文本進行客觀的數據分析,有助于更加科學地開展《尚書》譯者風格及英譯語言特征研究,不僅可以彌補傳統(tǒng)主觀分析翻譯研究模式的不足,而且能夠增強《尚書》英譯研究結論的效度和信度,拓展研究的深度和廣度,有利于實現《尚書》英譯研究的多角度和跨學科性?!渡袝窛h英平行語料庫的創(chuàng)建過程比較復雜,該過程主要包括了語料文本的選擇、輸入、清理、標注、對齊、檢索等,將為產生更好的《尚書》英譯本提供實物平臺,為同類語料庫的建設積累經驗,同時為其他典籍翻譯研究提供參考和借鑒,推動中國文化“走出去”。
[1]鄭麗欽.與古典的邂逅:解讀理雅各的《尚書》譯本[D]. 福州:福建師范大學,2006.
[2]陸振慧.跨文化傳播語境下的理雅各《尚書》譯本研究[D].揚州:揚州大學,2010.
[3]林風.《尚書》四譯本比較研究[D].福州:福建師范大學,2012.
[4]陳丹丹.《尚書》譯本中的語篇銜接重構[J].揚州大學學報(人文社會科學版),2015(4):59-67.
[5]錢宗武,沈思芹.從英譯《尚書》看朱熹的儒家詮釋學思想對理雅各的影響[J].海外華文教育,2017(4): 445-454.
[6]江灝,錢宗武.今古文尚書全譯[M].修訂版.貴陽:貴州出版集團,2009.
[7]Legge, J. The Chinese Classics. Vol.Ⅲ. The Shoo King, or The Book of Historical Documents [M]. Taipei: SMC Publishing Inc.2000.
[8]Karlgren, B. The Book of Documents [J]. Stockholm: The Museum of Far Eastern Antiquities, Bulletin, 1950(22):1-81.
[9]Martin Palmer. The Most Venerable Book [M].London: Penguin Group. 2014.
[10]杜瑞清.The book of history[M].濟南:山東友誼出版社,1993.
[11]葛厚偉.基于語料庫的《尚書》英譯本詞匯特征研究[J].青海師范大學學報(哲學社會科學版), 2016(6):121-127.
The Creation and Application ofChinese-English Parallel Corpus
GE Hou-wei
(School of Foreign Language, Chuzhou University, Chuzhou 239000;School of Liberal Arts, Yangzhou University, Yangzhou 225009)
This paper introduces the creation process of the Chinese-English parallel corpus of the, exploring the specific operation schemes for selecting, inputting, clearing, labeling, aligning, and retrieving Chinese-English material texts, and applies the Chinese-English parallel corpus ofto compare and explore the basic characteristics of the lexical level and the similarities and differences in the idioms translation style of the English translations to expand the research perspectives and approaches of English translation of, in order to promote the multidimensional study of the English translation ofand provide reference for translation studies of other classics.
; parallel corpus; creation; application
2018-07-08
安徽省哲學社會科學規(guī)劃項目“《尚書》漢英平行語料庫的創(chuàng)建與應用”(AHSKY2016D118);江蘇省普通高校研究生科研創(chuàng)新計劃項目“《尚書》漢英平行語料庫的創(chuàng)建與應用”(KYZZ16_0483)。
葛厚偉(1979— ),男,安徽天長人,滁州學院教授,揚州大學博士研究生,研究方向:認知語義學、典籍翻譯研究。
10.14096/j.cnki.cn34-1044/c.2018.04.11
H0
A
1004-4310(2018)04-0066-05