賀 敏 張春明
(上海外語教育出版社 上海 200083)
上海外語教育出版社(以下簡稱“外教社”)承擔的上海市科委課題“雙語詞典編纂系統(tǒng)的研發(fā)”是上海市政府扶持辭書編纂出版數字化的重大科研項目,該課題的總體目標是開發(fā)一個基于語料庫的數字化雙語詞典編纂出版系統(tǒng),其子課題之一就是構建一個服務于雙語詞典編纂、經過深加工的、通用共時并在句子層面對齊的英漢雙語書面語語料庫。該語料庫以英語為原語、以漢語為譯語,以XML(extensible Markup Language)為標注語言,對英語原文語料的標注做到分詞(tokenization)、主詞標注(lemmatization)及詞性賦碼(part of speech tagging),對漢語譯文語料的標注做到分詞及詞性賦碼?;谠撜Z料庫,詞典編纂者及詞典用戶可以通過在線檢索平臺提取有效的詞典例證,統(tǒng)計具體詞語的詞頻信息,了解詞匯的分布情況,獲得具體詞語或結構的用法信息(包括語義、語法、搭配等方面)。經過三年多的建設,該語料庫一期工程已建成收錄68萬英漢雙語平行句對的語料庫,總字數達5455萬。本文將綜述該語料庫的設計和構建過程,內容涉及語料的采集、加工、標注、檢索等方面。
課題研究開始時,外教社課題組與各合作單位進行了較為廣泛的調查工作,并以此為基礎制訂了詳細的語料庫建設實施方案,確定語料庫設計階段的主要任務為:(1)確定標注語言;(2)確立語料選取的原則及語料來源;(3)制訂語料儲存方案與各項工作流程;(4)編制語料庫技術開發(fā)需求規(guī)約。
英漢雙語平行句對語料庫的標注語言采用了XML,即可擴展標記語言。XML是目前通用的數據標記語言,它能描述多種類型的文本邏輯結構,能創(chuàng)建不受平臺或格式化協定限制的開放數據。XML的設計宗旨是傳輸數據,使其成為獨立的信息傳輸與集成工具。XML文件沒有任何預定義標簽,因其“高度靈活,擴展性強”(梁茂成等2010)的特點,在跨平臺數據交換、數據建模與分析、網絡服務等眾多領域得到了廣泛應用。Jeffrey Zeldma在Designing with Web Standards(2nd Ed.)中這樣描述XML的開放性:“XML于1998年2月被引入軟件工業(yè)界時,它給整個行業(yè)帶來了一場風暴。有史以來第一次,這個世界擁有了一種用來結構化文檔和數據的通用且適應性強的格式,它不僅僅可以用于 WEB,而且可以被用于任何地方”(http:∥www.w3school.com.cn/x.asp)。正是由于 XML具有開放性強、兼容性好、靈活性高、擴展性強的特點,可實現信息內容、結構和表現三者的分離,我們選用了XML作為英漢雙語平行句對語料的標注語言。
根據語料庫的性質與定位,我們確立了六大語料選取原則:(1)語料以英語為原語,以漢語為譯語,漢譯英類語料不收。(2)以20世紀以來的現當代作品語料為主。(3)以書面語語料為主,口語、錄音文本不收。(4)為盡量保證語料庫的平衡性,確定了人文社科類語料占70%、自然科學與應用科學類語料占15%、其他類語料占15%的語料分布比例。文學類語料包括虛構類(fiction)與非虛構類(non-fiction),但不收錄詩歌作品。學科廣度原則優(yōu)于深度原則,科技類語料以科普類作品為主。(5)為保證語篇的連貫性與完整性,語料收錄以整部或整篇為單位,片段性語料不予收錄。片段性語料指的是須從作品中逐個析出的以句子或段落為單位的語料,一般包括翻譯教材中的譯例、詞典中的例證,等等。(6)除了語料庫的性質與定位外,確立語料選取原則時須納入考慮的另一個因素是語料本身的質量,這就涉及語料原本與譯本的選擇。為了保證質量,我們在選取語料時盡可能遵循兩個原則:(1)選擇聲譽高、影響大、專業(yè)性出版機構的出版物;(2)同一部英語作品有多種漢語譯本的,選擇質量高或權威的譯本。
作為全國最大、最權威的外語出版基地之一,外教社本身就擁有大量雙語語料資源。在這些語料資源中,我們共選取了近200種已出版的、符合語料庫定位的英漢雙語對照圖書的電子文本,用于語料庫建設。其他語料的來源有正式紙質出版物和來自互聯網的電子文本兩種,以紙質出版物為主,互聯網文本為輔。出于保證語料質量的考慮,這些語料必須具備四大要素——作品名、英語作者、漢語譯者、出版社(或網址),語料來源最終由外教社確定。
結合自身的情況,我們初步制訂了一個基本的語料加工流程(見圖1)。
該語料庫一期工程的規(guī)模原設定為50萬句對(5000萬字),但最終為68萬句對。要構建一個如此規(guī)模的語料庫,工作量大、耗時長久、涉及人員眾多。為了保證語料加工工作的有序開展與有效進行,我們還針對圖1中的各個流程制訂了詳細的工作規(guī)范,內容涉及原始語料的儲存及文件的命名、語料來源信息的記錄、原始語料在加工前的預處理、句對齊處理的原則等。關于編制語料庫技術開發(fā)需求規(guī)約方面的工作,因技術性較強,本文不展開詳述。
圖1 外教社英漢雙語平行句對語料加工流程
在確定語料庫建設方案后,就進入了語料庫構建階段。語料庫構建階段的工作主要由三部分組成:(1)原始語料的采集與整理;(2)語料的句對齊與標注處理;(3)分詞、主詞標注與詞性賦碼。
一般來說,語料來源有兩種,即紙質出版物或互聯網電子文本。紙質出版物語料經掃描、識別與初步校對后,形成TXT格式的電子文件;互聯網電子文本經轉換、除噪與初步校對后,形成TXT格式的電子文件。語料文本的編碼統(tǒng)一使用UTF-8。盡管經過初步校對,這些生語料還是存在各種各樣的問題,如:遺漏空格或存在多余空格、存在亂碼、多余的段落標記符及連字符、全角或半角標點符號的使用錯誤,等等。為了獲得清潔文本,為下一階段的語料加工工作做好準備,需要對這些電子文件做進一步的預處理。文本預處理的類型主要有以下三種:
1)使用外教社自行研發(fā)的句對標注工具去除文本中多余的段落標記符;
2)對電子文本中不能顯示或不能正確顯示的特殊字符予以補充或修正,如:上撇號、外國人名譯名中的中圓點,等等;
3)將英語語料中的全角標點符號替換為半角標點符號,將漢語語料中的半角標點符號替換為全角,統(tǒng)一破折號的形式,等等。
在文本預處理完成后,語料加工者需填寫EXCEL格式的“英漢雙語平行語料來源信息表”,該表具體包括:語料加工者;加工開始及完成時間;語料驗收者;語料驗收日期;分布類別;英語書名;漢語書名;英語作者;漢語譯者;英語版出版社及出版年;漢語版出版社及出版年;是否英漢對照。英語版及漢語版網址、備注、索書號為選填項目。由于語料多來源于正式紙質出版物,為保證學科分類的科學性,分布類別信息按中圖分類法,填寫版權頁書號中的中圖分類號。正如Leech(1997)所言,對語料庫進行各類標注會使語料庫增值,而雙語平行句對語料庫最基本的標注就是句對齊標注。
句對齊處理采取自動對齊與人工編輯相結合的辦法。從現階段的技術現狀來看,自動對齊的正確率尚難以令人滿意,要實現語料的完全對齊,還需要人工干預。
英漢雙語平行句對語料庫的總體對齊原則是一句英語對一句漢語,但由于英漢兩種語言在表達方式和習慣上均有較大差異,有時無法實現“一對一”。遇到此類情況時,我們采取了兩種方式處理:若一句英語的漢語譯文為多句,則采取一對多的辦法;若多句英語的漢語譯文為一句,則采取多對一的辦法。有時漢語譯文因行文需要與英語原文的語序有所不同,為保證英漢文本在語義上的對應,則采取擴大對應單位的辦法,合并相應句子,如《埃及女王克婁巴特拉》中的句對:
The spectators were about to witness a spectacle that none of them would ever forget.Cleopatra,queen of Egypt,was arriving to greet the most powerful leader of the Roman world.
克婁巴特拉,埃及的女王,正趕來這兒會見羅馬最強大的將領。這里即將上演的一幕,所有到場的人都將永生難忘。
自動對齊完成后,加工者還需要對自動對齊的文件進行人工核對。核對的重點為:(1)糾錯。主要是改正錯別字或拼寫錯誤,補充遺漏的空格或刪除多余的空格,刪除單詞間多余的連字符(如to-day)。為保證語料的原始性,加工者對譯文質量有問題之處不做修改。(2)強制對齊。主要是根據句對齊原則糾正機器未對齊句子。(3)處理原書中的圖、表、公式、符號、文內注釋編號、頁眉、頁腳、頁碼、腳注、尾注、行號、夾注、譯者注。處理原則為:a.原書的頁碼、頁眉、頁腳、腳注、尾注、原文正文中指示腳注、尾注位置的編號、行號等一律刪除;b.原文和譯文同時對應存在的夾注保留;c.譯文中的譯者注刪除;d.圖片、表格、公式、符號等在文本文件中無法正確顯示的內容均刪除,在刪除處“[]”加注(即,在英、漢語料中刪除圖、表、公式、符號的原始位置分別加上“[Illustration/Chart/Formula/Symbol omitted]”與“[圖/表/公式/符號略]”)。
我們使用外教社自行開發(fā)的雙語平行句對標注工具進行句對齊語料的XML標注。該工具的功能主要有:生成及編輯雙語平行句對標注XML文件、統(tǒng)計雙語平行句對標注XML文件的句對數及折合漢字數。
XML是一種自定義標記語言,以XML標記語料就需要一整套規(guī)范來定義語料的元素、屬性等,保證以XML格式標記的語料具有可交換性和共享性。表1為英漢雙語平行句對語料庫使用的元信息元素集。
表1 外教社英漢雙語平行語料庫語料元信息元素表
(續(xù)表1)
將TXT格式的對齊文本及EXCEL格式的“英漢雙語平行語料來源信息表”導入平行句對標注工具,生成句對齊標注語料。語料加工者根據元信息標注規(guī)則與句對齊原則,在平行句對標注工具中對句對齊標注語料進行編輯。此外,語料加工者還可以通過平行句對標注工具統(tǒng)計某種語料文本的句對數量與總字數。句對齊標注語料經過多次檢查后驗收入庫,做進一步自動分詞、主詞標注與詞性賦碼處理。
分詞(tokenization)指的是將一連串的字符轉換成相互分離的可識別形符(token)。英漢雙語平行句對語料庫對英語形符做如下分類:
1) 一般意義上的單詞(以空格隔開),如:ability、British、where、cliché、cleaning。
2) 帶連字符的單詞,如:mark-up、post-war、just-in-time、wonder-of-the-world。
3) 帶“.”或不帶“.”的縮寫,如:UNESCO、Mr.、St.、U.S.A.、etc.。
4) 數字或數字與字母的組合,如:0.16、1/2、1000、1,000、2010、3rd、21th、3D,1980s。
5)縮約式,如:'d、've。英漢雙語平行句對語料庫對縮約式的處理示例詳見表2。
表2 英語文本縮約式分詞前后對照表
(續(xù)表2)
詞典編纂者通常需要研究詞的語法特征,因此,經過詞形標注的語料還需要更進一步的標注,即英語單詞的主詞標注(lemmatization)和詞性賦碼(part-of-speech tagging)。主詞標注是將單詞的屈折變化形式還原成單詞的原形,即主詞(lemma)。如,英語單詞look做動詞用時,其屈折變化形式有現在式復數形式及第一人稱單數形式look、現在時第三人稱單數looks、過去式和過去分詞looked,以及現在分詞和動名詞looking。在語料處理中,需標注具體語境中的屈折變化形式的主詞。對單詞進行主詞標注使語料檢索手段多樣化,檢索結果也更為豐富,提高了語料的使用價值,更方便詞典編纂者。在主詞標注的技術實現上,我社借鑒了通用的開源算法,準確率達到90%左右,然后進行進一步修正。
而對于詞性賦碼,我們結合語言學研究成果和詞典編纂慣例,為本語料庫制定了一個英語詞性賦碼集,具體內容如表3所示:
表3 英語單詞詞性賦碼集
(續(xù)表3)
漢語的分詞是一項非常復雜的工作,在分詞標準上漢語研究學界也尚未達成共識。“分詞是漢語信息處理中的一項基礎工程。解決漢語分詞問題,意義重大,但困難重重,所以‘分詞問題已成為當前中文信息處理的瓶頸’。在分詞的諸多問題中,最重要的是:分詞的標準是什么……所以黃昌寧先生正確地指出,在漢語分詞問題中,‘首先必須就漢語的分詞標準取得共識’”(郭曙綸2011:35)。要制定出一套科學的、具有可操作性的分詞規(guī)則需要以語言研究為基礎,而本語料庫首先是服務于雙語詞典編纂系統(tǒng)的,在這種情況下,我們未自行制定漢語分詞與詞性賦碼集,而是遵循GB/T20532—2006《信息處理用現代漢語詞類標記規(guī)范》進行分詞與詞性賦碼處理。該規(guī)范將分詞單位定義為“漢語信息處理使用的,具有確定語法功能的基本單位”,包括詞、短語、縮略語、前接成分、后接成分,等等。下文以列表的形式對該規(guī)范的詞性賦碼原則略做說明。
表4 漢語詞性賦碼集
“語料庫檢索的目的是導出索引行,以便于我們批量觀察類似的語言現象,找到其中的規(guī)律?!?梁茂成2010)對于雙語詞典編纂者而言,通過檢索獲取的索引行可以幫助他們找到合適的對應詞與適用的例證,以更好地描述詞匯的語義、語法及語用特征。實現有效檢索的首要前提就是語料庫檢索工具。外教社英漢雙語平行句對語料庫的檢索平臺與雙語詞典編纂系統(tǒng)集成在一個系統(tǒng)平臺上,可以更好地為詞典編纂提供在線語料檢索服務。該平臺主要功能有:(1)語料檢索;(2)語料管理;(3)詞表生成;(4)語料統(tǒng)計。檢索界面如下:
圖2 外教社英漢雙語平行句對語料庫檢索界面
現就該檢索平臺的核心功能——語料檢索功能做簡要說明。
為便于詞典編纂者更準確地檢索到想獲取的內容,檢索平臺可以通過語料庫檢索工具設置了多個具體的檢索選項:
1)檢索項:檢索項可為一個具體的詞、短語(如:careful,look down upon,我們)或任何一個含通配符的結構(如:be*)。英漢雙語平行句對語料庫中用到的通配符主要有兩種,即“*”與“?”?!?”可匹配任意字符串(包括無字符的情況),如:be* 匹配 be,been,being,before,behave 等;“?”可匹配任意一個字符,如:h?t匹配 hat,hit,hot等。
2)語種:若選擇“英語”,則檢索的范圍為英語語料;若選擇“漢語”,則檢索的范圍為漢語語料。系統(tǒng)默認選擇“英語”。
3)詞性:若語種選擇“英語”,則“詞性”下拉菜單為英語詞性選擇列表,系統(tǒng)默認選擇全部;若語種選擇“漢語”,則“詞性”下拉菜單為漢語詞性選擇列表,系統(tǒng)默認選擇全部。
4)英語主詞匹配:僅當語種為“英語”時,此選項有效。若語種選擇“漢語”,則“英語主詞匹配”選項無效。該選項系統(tǒng)默認為“是”。此時,系統(tǒng)查找檢索項(英語單詞)的原形及其所有屈折變化形式。如,若檢索項為look,系統(tǒng)除檢索 look外,還檢索look、looks、looking、looked等屈折變化形式。選擇“否”時,系統(tǒng)按“完全匹配”原則檢索,即檢索與檢索項完全相同的形式。
5)區(qū)分大小寫:僅當語種為“英語”時,此選項有效。默認為“否”(即不區(qū)分大小寫)。如,若檢索項為being,則檢索結果既包含being,也包含Being。
6)漢語分詞匹配:僅當語種為“漢語”時,此選項有效。若語種選擇“英語”,則“漢語主詞匹配”選項無效,系統(tǒng)默認為“是”。此時,系統(tǒng)按漢語分詞規(guī)則查找檢索項。選擇“否”時,系統(tǒng)僅檢索字符串,漢語分詞不作為檢索條件。
7)作品名、作者/譯者、出版者:輸入關鍵字,確定檢索范圍。若為空白,則不作為檢索條件。
8)最早出版年份、最晚出版年份:設定語料的出版時間區(qū)間。年份格式為YYYY。若為空白,則不作為檢索條件。
9)分布選項:本語料按中國圖書館圖書分類法對語料加以分類,系統(tǒng)默認選擇全部類別。
按“檢索”按鈕,系統(tǒng)按設定的檢索條件在語料庫中查找檢索項。檢索結束后,系統(tǒng)統(tǒng)計檢索項總數,并按頁顯示句對,每頁顯示10個句對(見圖3)。句對中包含的檢索項用紅色字體顯示。如用戶需查閱某個句對的上下文,可點擊句對右邊的“語篇”標簽,系統(tǒng)彈出窗口,顯示句對所在語篇的前后各兩個句對。
英漢雙語平行句對語料庫經過三年多的建設,目前已初具規(guī)模,并已正式上線試用。該語料庫主要用于詞典編纂,但同時也可用于包括詞匯研究、句法及語用研究、比較語言學、翻譯研究、話語分析等在內的語言學各分支學科研究。鑒于英漢雙語平行句對語料庫建設是一個復雜的跨學科的科研工作,內容涉及建庫目的的確立、建庫標準的制訂、建庫流程的優(yōu)化、語料的采集與校訂、語料的機器處理與入庫、語料的檢索與利用以及相關工具軟件的研發(fā)等方面,本語料庫目前尚處于初步定型階段,有待進一步完善和擴容。我們下一步要做的工作還有許多:繼續(xù)擴大語料庫的規(guī)模,增強語料庫的平衡性;提高語料標注質量并嘗試更深層次的標注;升級檢索工具的功能,尤其是搭配信息檢索功能,使之進一步滿足詞典編纂者及語言學研究者提取語料數據、總結語言規(guī)律的實際需要;總結經驗,繼續(xù)開發(fā)主要用于雙語詞典編纂的其他外語—漢語(如法漢、意漢、德漢等)平行句對語料庫,以全面推動我國雙語詞典編纂出版從傳統(tǒng)紙質載體時代向真正意義上的現代數字載體時代的轉變。
圖3 外教社英漢雙語平行句對語料庫檢索結果示例
1.郭曙綸.漢語語料庫的建設及應用.上海:上海外語教育出版社,2001.
2.梁茂成,李文中,許家金.語料庫應用教程.北京:外語教學與研究出版社,2010.
3.Leech G.Introducing Corpus Annotation.∥Garside R,Leech G,McEnery T.(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora.London:Longman,1997.