胡富茂
(洛陽理工學院 外語系,河南 洛陽 471023)
國內的語塊研究越來越細致與深入,涉及的方面主要包括搭配研究(繆海燕、孫藍,2005)、語塊運用與英語口語和寫作之間的關系研究(王立非、張巖,2006)、語塊學習在二語習得中的地位研究(濮建忠,2003)、語塊提取(李潔晶、趙曉臨,2007;衛(wèi)乃興,2009;邢富坤,2012)等。語塊是語言的半成品,以整體形式儲存在大腦中,有較固定的語法結構限制和穩(wěn)定的搭配意義,因此,在應用時具有快捷方便、準確流利的優(yōu)勢。此種言語程式或行話由于出現(xiàn)頻率很高,并且形式和意義較固定,使用的語境也較固定,就像一個板塊一樣,如:cash on delivery(貨到付款)、confirming your order(確認你方的訂單)、accept your firm offer(接受你方的實盤)等。Sinclair(1991)認為:“那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構成”?!皳娔X統(tǒng)計數(shù)據顯示,像這些語義較固定的各類形式的語塊在自然語言中占到90%的比例”(李太志,2006)。
本文提出了一種基于規(guī)則匹配的語塊自動提取方案,通過自動在互聯(lián)網上采集網頁構建動態(tài)語料庫,利用英漢商務信函語塊的結構、意義和功能等方面的特征,將英漢商務信函語塊分為全稱縮略語塊、慣用表達語塊、專業(yè)術語語塊三種類型,并制定英漢商務信函語塊自動提取規(guī)則,最終實現(xiàn)從語料中自動提取英漢商務信函語塊的功能。
語料庫已成為語言學理論研究、語言學應用研究和語言信息處理不可缺少的基礎資源。為了對英漢商務信函語塊的語言學特點進行觀察總結,同時進行基于規(guī)則的英漢商務信函語塊提取,我們需要先構建一個規(guī)模足夠大的語料庫。顯然,通過手工的方法下載分析成千上萬的網頁、提取語料信息是不可行的。因此,通過動態(tài)語料庫構建的方式自動獲取大規(guī)模的文本語料就顯得尤為重要。
通過觀察,我們發(fā)現(xiàn)隨著互聯(lián)網在信息傳遞中的地位越來越突出,很多報紙、期刊紛紛建立網站,以與紙質媒體同步的速度提供大量文獻資料。這些文獻資料大都結構規(guī)范一致,信息完整。這也為后期英漢商務信函語塊的提取提供了方便。因此,我們希望對這些網站進行自動下載和分析,收集大量語料,構建英漢商務信函動態(tài)語料庫。
從互聯(lián)網上直接下載的語料是半結構化的,往往結構復雜,含有大量HTML語言標記,語料信息淹沒在蕪雜的網頁標記中,不方便直接提取文本內容。我們采用基于網頁結構分析的方法,通過HTML的起止標記來提取語料信息。HTML文檔包括文本和標記,一條基本的標記語句形式為:
<標記名稱 屬性列表(參數(shù)列表)>[</標記名稱>]
我們可以簡單地把標記分為兩類:包容標記和空標記。包容標記由一個開始標記和一個結束標記構成,中間是數(shù)據對象??諛擞浿挥衅鹗紭擞浂鴽]有結束標記。因此可以通過對網頁中HTML標記的起止標記進行格式分析,判斷標記的意義,提取其中有效的信息。我們以《中國日報(財經頻道)》的英文官方網站“http://www.chinadaily.com.cn/business/”和中文官方網站“http://www.chinadaily.com.cn/hqcj/”為例,從網頁自動下載和語料信息抽取兩個方面來說明動態(tài)語料庫的構建方法。
首先,分析一下《中國日報(財經頻道)》英文官方網站的特點,該網站提供的每一篇文獻都有其單獨的網頁,網頁地址中的編號簡單遞增(如 http://www.chinadaily.com.cn/business/2011-02/26/content_12082981.htm)。利用網頁地址中編號的變化規(guī)律對網站進行爬取,就可以下載所有的文獻網頁。同樣,《中國日報(財經頻道)》中文網站提供的每一篇文獻也都有其單獨的網頁(如http://www.chinadaily.com.cn/hqcj/gjcj/2011 -02 -24/content_1849755.html),網頁地址中的編號簡單遞增。根據第一篇文獻的網頁地址向服務器發(fā)出HTTP請求,捕獲服務器的HTTP響應信息,取出信息內容存入結果文本。改變參數(shù)n和code的值,依次獲取所有文獻網頁。
每個網站都有自己的一套HTML起止標記模板,通過判斷這些標記的意義,我們可以解析出大量網頁的語料信息。
通過對上述網頁的HTML語言標記的格式分析,可以建立其邏輯結構圖,如圖1所示。
圖1 網頁邏輯結構圖
根據上面的起止標記可以解析得到網頁的標題、正文等信息。由于我們建立動態(tài)語料庫的目的是用于自動提取英漢商務信函語塊,而同時包含英漢商務信函語塊的句子一般只存在于網頁的正文中,因此,構建動態(tài)語料庫只需要提取網頁的正文部分。通過對《中國日報(財經頻道)》的英文官方網站和中文官方網站網頁HTML格式的分析,我們發(fā)現(xiàn)網頁正文部分起止標記如下:
<P class=MsoNormal style=[參數(shù)]align=[參數(shù)]>(正方信息)</P>
語料信息抽取主要利用起止標記,通過所設計的Extract類提供的屬性和方法提取網頁的正文信息。Extract類包含一個extract函數(shù),該函數(shù)主要通過調用.NET Framework基類String類的成員public string Substring(int startIndex,int length)的方法實現(xiàn)單一信息的抽取功能,如抽取文章的標題等等。extract方法的數(shù)據輸入為:待抽取的HTML字符串(string strInput)、模板的起止標記字符串(string strLeft,string strRight)。輸出數(shù)據為抽取到的字符串(string strOutput)。具體流程如圖2所示:
圖2 語料信息抽取流程圖
解析得到的數(shù)據還需要進行數(shù)據清洗和格式化。許多網頁為了美觀都加入了大量的網頁特效標記、圖片以及超鏈接等等,如:換行符(<br> </br>)、鏈接標記(<a> </a>)、層標記(<div> </div>)、空格標記( )等,這些都需要經過特別處理來實現(xiàn)對語料信息的格式化?!罢齽t表達式是處理此類語塊的強大工具。”(Friedl,2006)我們通過編程,利用正則表達式實現(xiàn)對數(shù)據的清洗和格式化處理工作。數(shù)據清洗和格式化用到的正則表達式舉例如下:
(<[a-zA-Z]+[^>]* >)|(</[a-zA -Zd]+>)|( )
第一個“|”號前面部分匹配HTML開始標記,它查找一個“<”字符,后面跟a到z之間的大小寫任意的任何一個或多個字母(“[a-zA-Z]+”部分中,“[a-zA -Z]”表示任意一個大寫或小寫字母,“+”表示一個或多個),接著是除“>”以外的零到多個任意字符(“[^>]* ”部分,“^”表示非,“[^>]”表示除“>”之外的任意字符,“* ”表示零或多個),最后以“>”字符結尾。
兩個“|”號中間的部分“(< /[a-zA -Zd]+ >)”匹配結束標記,它匹配一個“<”字符,后跟一個“/”字符,然后是a到z之間的大小寫任意的任何一個或多個字母或者數(shù)字(“d”表示數(shù)字),最后以“>”字符結尾。
最后的部分匹配空格標記“ ”。
如果還有其他特殊標記,可以參照上述方法設計相應的正則表達式進行清除。這樣就基本完成了數(shù)據清洗和格式化,得到干凈的文本,可以進行英漢商務信函語塊的提取。
基于規(guī)則的英漢商務信函語塊提取共包括三個步驟:英漢商務信函識別規(guī)則設計、文本預處理和后期處理。
目前課題組初步構建了一個規(guī)模為200萬詞次的英漢商務信函語料庫,包括四個子庫:英語商務信函語料庫、漢語商務信函語料庫、英漢商務信函平行語料庫、漢英商務信函平行語料庫,該庫為動態(tài)的,可以自動獲取服務于語塊自動提取的知識資源。我們從語言學的研究角度,將英漢商務信函語塊分為全稱縮略語塊、慣用表達語塊、專業(yè)術語語塊三種類型:①全稱縮略語塊。經濟原則是大量商務縮略詞產生和被使用的最大原因。全稱縮略語塊涉及到貿易價格術語、保險、運輸、支付與結算等商務各個方面。例如:FOB(Free On Board)船上交貨、CFR(cost and freight)成本加運、FCA(Free Carrier)貨交承運人、FPA(Free from Particular Average)平安險、WPA(With Particular Average)水漬險,等等。②慣用表達語塊。慣用表達短語雖然專業(yè)性沒有那么強,但是也是較常用的。例如:In reply to your letter(茲復)、Thank you for your cooperation(多謝你方合作)、by the way(轉換話題)、such as(列舉事物)、general speaking(評價),等等。③ 專業(yè)術語語塊。商務英語信函中幾乎每個環(huán)節(jié)都有套話與行話。例如:confirming your order(確認你方的訂單)、accept your firm offer(接受你方的實盤),等等。
英漢商務信函語塊識別部分的主要任務是根據英漢商務信函語塊的結構特征、意義特征、功能特征,制定相應的規(guī)則識別出文本中的候選語塊,從全稱縮略語塊、慣用表達語塊、專業(yè)術語語塊三種分類中制定英漢商務信函語塊提取規(guī)則并進行識別。下表是在候選英語商務信函語塊識別過程中使用到的文本標記和句法特征詞規(guī)則。
表1 文本標記和句法特征詞規(guī)則
確定句子以后就可以利用英語商務信函語塊識別規(guī)則對候選英語商務信函語塊進行識別。下表是制定的候選漢語商務信函語塊提取規(guī)則。
找到候選漢語商務信函語塊以后,系統(tǒng)可以利用該規(guī)則進行查找,將找到的詞語與文本標記或句法特征詞之間的字符串作為候選縮略語。在英漢商務信函語塊提取階段,系統(tǒng)利用模板將候選英語商務信函語塊與候選漢語商務信函語塊進行逐一匹配,最后找出正確的英漢商務信函語塊。
文本預處理部分的主要任務是對動態(tài)語料庫中的語料進行初步的處理,提取出包含指定規(guī)則的句子用于英漢商務信函語塊識別。下面以縮略語的提取為例進行說明。該部分主要包括兩個步驟:
(1)去除不可能包含英漢商務信函縮略語語塊的括號。通過對實際語料的觀察,我們發(fā)現(xiàn)存在一些括號作為插入語用于解釋或說明。有的括號僅包含數(shù)字或者是數(shù)字加上特定符號(如百分號“%”、連字號“-”、斜杠“/”)等等。
對于這種括號中僅包含數(shù)字或者是數(shù)字加上特定符號的情況,由于括號內不可能包含英漢商務信函縮略語語塊,如果不預先處理,勢必會在下一步語塊識別中進行許多無用的提取,浪費系統(tǒng)資源和時間,并且影響準確率。因此,有必要預先去除這種括號。
(2)將文本切分為句子,提取出包含括號的句子。如果一個句子中含有多個括號,則以右括號“)”為標記,將句子切分為若干個子句,提取出包含括號的子句。
對英語文本進行句子切分,鑒于英語文本中句點“.”的情況復雜,“需要設計詳細的規(guī)則和相應的正則表達式,并結合一定的統(tǒng)計數(shù)據,才能提高英語句子自動切分的準確率”(Clough,2001)。我們采用了上述規(guī)則和統(tǒng)計相結合的句子切分方法,效果良好?!坝⒄Z句子切分也可以用最大熵的方法解決”(Kit&Liu,2005)。漢語句子的切分也不容易,逗號“,”經常也可以作為斷句的標記,利用中文樹庫,“通過機器學習的方法可以達到比較理想的切分效果”(Xue,2005)。切分好的英、漢句子可以通過句長、雙語詞典等進行句對齊處理(Gale&Church,1991;Brown et al,1991;Chen,1993;Wu,1994;Li et al,2010)。
我們安排了課題組中兩位外國語言學與應用語言學專業(yè)商務英語語言研究方向的教師(碩士學位)分別對測試語料中的英漢商務信函語塊進行人工合法性驗證,如果兩位教師的意見出現(xiàn)分歧,則以課題組共同的意見為準。
圖3 基于規(guī)則的英漢商務信函語塊自動提取系統(tǒng)層次結構圖
英漢商務信函語塊自動提取系統(tǒng)包括基礎資源層、提取規(guī)則層和應用層三個層次。具體層次結構如圖3所示。
各層次的主要功能和作用分別是:(1)基礎資源層。該層通過對互聯(lián)網中指定網站的網頁進行定期爬取和更新以及對網頁語料信息的抽取和格式化,自動構筑大規(guī)模英漢商務信函語料庫,為英漢商務信函語塊自動提取提供基礎資源;(2)提取規(guī)則層。該層為英漢商務信函語塊自動提取的規(guī)則庫。英漢商務信函語塊的自動提取規(guī)則主要通過人工內省的方式制定,輔之以規(guī)則與統(tǒng)計相結合的語言信息處理學習方法,從而對規(guī)則進行不斷完善;(3)應用層。該層將英漢商務信函語塊自動提取的多種規(guī)則綜合地應用到語塊的自動識別過程中,實現(xiàn)英漢商務信函語塊的自動提取。通過英漢商務信函動態(tài)語料庫的不斷更新,逐步構建起一個較大規(guī)模的英漢商務信函語塊庫。
英漢商務信函語塊自動提取系統(tǒng)包括動態(tài)語料庫構筑和英漢商務信函語塊自動提取兩大部分,共五個模塊。(1)網頁自動下載模塊。網頁自動下載模塊主要利用網頁地址編號將指定網站的網頁批量下載到本地硬盤;(2)語料信息抽取和格式化模塊。語料信息抽取和格式化模塊主要利用起止錨點標記對下載的網頁進行結構解析,抽取網頁正文部分的信息,利用正則表達式去除網頁特效標記和超鏈接標記等噪音,對語料信息進行數(shù)據清洗和格式化,最后得到干凈的文本語料;(3)文本預處理模塊。文本預處理模塊主要根據英漢商務信函語塊的文本標記集和句法特征詞集對輸入的語料文本進行初步的處理,在排除一些不可能包含英漢商務信函語塊的括號以后,提取出包含括號的句子;(4)英漢商務信函語塊識別模塊。英漢商務信函語塊識別部分的主要任務是根據英漢商務信函語塊的結構特征、意義特征、功能特征,制定相應的規(guī)則識別出文本中的候選語塊,從全稱縮略語塊、慣用表達語塊、專業(yè)術語語塊三種分類中制定英漢商務信函語塊自動提取規(guī)則進行識別;(5)后期處理模塊。后期處理模塊根據英漢商務信函語塊的類型對提取出的英漢商務信函語塊進行合法性驗證。
為了測試系統(tǒng)對開放性語料中英漢商務信函語塊自動提取的能力,我們進行了實驗測試。下文以縮略語提取為例進行說明。
本次實驗的測試語料是從動態(tài)語料庫中隨機選取的500篇英文和500篇中文未經人工校對、自動分詞以及詞性標注的生語料,共計322156個英漢商務信函詞形,語料大小約4.1M。我們的語料收集范圍分為建立業(yè)務關系函、產品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運通知函、支付結算函、索賠函、保險函等,這些信函涉及商務活動的全過程。
為了更加客觀地對系統(tǒng)性能進行評測,我們將準確率(Precision)、召回率(Recall rate)和F值(F values)作為測試結果的評價指標,將語言學家的意見作為參考標準。
一般情況下,達到一定的識別精度后,識別的準確率和召回率存在著一定的反相關性,準確率的提高以召回率的降低為代價。本研究希望通過語動態(tài)語料庫的不斷更新,逐步構建起一個較大規(guī)模的英漢商務信函語塊庫,因此我們相對更注重準確率的提高。
利用基于規(guī)則的英漢商務信函語塊自動提取系統(tǒng),我們最后提取到367個英漢商務信函縮略語語塊,其中正確的有360個。根據專家的反饋信息,測試語料中共有395個英漢商務信函縮略語語塊。測試結果見表3。
表3 基于規(guī)則的英漢商務信函語塊自動提取系統(tǒng)測試結果
經過分析,測試結果中共有218個不同的英漢商務信函語塊。下表是在測試結果中出現(xiàn)100次以上的英漢商務信函語塊。
表4 測試結果中出現(xiàn)100次以上的英漢商務信函語塊(部分)
從測試結果來看,英漢商務信函語塊自動提取系統(tǒng)取得了較好的效果,測試的準確率為96.49%、召回率為94.99%、F值為95.73%。經過分析,出現(xiàn)錯誤提取和未能提取出英漢商務信函語塊的原因主要有以下幾個方面:
(1)英漢商務信函語塊都作為注釋放在括號中;
(2)括號中除了英漢商務信函語塊還包括其他信息。
造成提取問題的主要原因是因為自然語言系統(tǒng)并不是一個精心規(guī)劃的系統(tǒng),很難用一套規(guī)則提取所有的英漢商務信函語塊,需要根據每種語言的具體情況不斷對規(guī)則庫進行完善。
語塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實的,因此,研究如何利用語料庫進行語塊的自動提取,在英漢語言教學和機器翻譯等方面的研究中具有十分重要的意義。我們利用計算機進行基于英漢商務信函語料庫的語塊提取研究,具有兩方面重要意義:(1)英漢商務信函語塊提取的實現(xiàn)為研制在互聯(lián)網上進行機器輔助英漢商務信函翻譯系統(tǒng)提供基礎;(2)我們構建的英漢商務信函動態(tài)語料庫是面向商務領域的一個特定的語料庫,它對商務英語學習者、商務漢語學習者、翻譯學習者及工作者的研究與學習起到指導作用。
[1]李潔晶,趙曉臨.慶祝楊惠中先生執(zhí)教50周年暨應用語言學研討會綜述[J].外語界,2007(3):75-79.
[2]李太志.詞塊在外貿英語寫作教學中的優(yōu)勢及產出性訓練[J].外語界,2006(1):34-39.
[3]繆海燕,孫藍.非詞匯化高頻動詞搭配的組塊效應——一項基于語料庫的研究[J].解放軍外國語學院學報,2005(3):41-44.
[4]濮建忠.英語詞匯教學中的類聯(lián)接、搭配與詞塊[J].外語教學與研究,2003(6):438-445.
[5]王立非,張巖.基于語料庫的大學生英語議論文中的語塊使用模式研究[J].外語電化教學,2006(4):36-41.
[6]衛(wèi)乃興.語料庫語言學的方法論及相關理念[J].外語研究,2009(5):36-42.
[7]邢富坤.多詞單位的描寫識別與詞典編纂[J].當代語言學,2012(4):407-417.
[8]Brown,Peter F.,Jennifer C.Lai & L.Robert,Mercer.Aligning sentences in parallel corpora[C]//Proceedings of the29th Annual Meeting of the Association for Computational Linguistics.California:Berkeley,USA.1991:169 -176.
[9]Chen,Stanley F.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics.Ohio:Columbus,USA.1993:9-16.
[10]Clough P.A Perl Program for Sentence Splitting Using Rules[M].University of Sheffield,2001.
[11]Friedl,Jeffrey.Mastering Regular Expressions(3rd Edition)[M].Publisher:O’Reilly,2006.
[12]Li P,Sun M,Xue P.Fast-Champollion:a Fast and Robust Sentence Alignment Algorithm[C]//Proceedings of the23rd International Conference on Computational Linguistics.Posters,2010:710 -718.
[13]Gale,William A.& Kenneth W.Church.A Program for Aligning Sentences in Bilingual Corpora[C]//Proceedings of the29thAnnual Conference of the Association for Computational Linguistics.Berkeley,1991:177 -184.
[14]Kit,C.,Liu X.Period Disambiguation with MaxEnt Model[C]//Natural Language Processing-IJCNLP2005.Springer Berlin Heidelberg,2005:223 -232.
[15]Sinclair,J.M.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.
[16]Xue N,Xia F,Chiou F D,et al.The Penn Chinese Tree-Bank:Phrase Structure Annotation of a Large Corpus[J].Natural Language Engineering,2005,11(2):207-216.
[17]Wu,Dekai.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the32nd Annual Meeting of the Association for Computational Linguistics.Las Cruces,New Mexico,USA.1994:80 –87.