張博
摘 要:英漢商務(wù)信函語料庫中語塊提取研究在借鑒語塊理論研究的基礎(chǔ)上,提出商務(wù)信函中英語和漢語語塊的界定標(biāo)準(zhǔn),對其進(jìn)行了分類和形式化描述,提出了一種基于規(guī)則匹配的方案,通過自動在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)筑動態(tài)語料庫,利用英漢商務(wù)信函語塊的結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語塊自動提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料中自動提取英漢商務(wù)信函語塊的功能。該文依據(jù)語塊理論來探討英漢商務(wù)信函語料庫中語塊提取研究的研究目的,主要工作和研究成果。
關(guān)鍵詞:英漢商務(wù)信函 語料庫 語塊提取 研究目的
中圖分類號:F711 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2015)08(c)-0190-02
1 語塊理論
語塊研究在國內(nèi)外語言學(xué)界已引起廣泛的重視。該研究的熱潮可從2009年5月在對外經(jīng)濟(jì)貿(mào)易大學(xué)英語學(xué)院成功召開的“首屆全國語言語塊教學(xué)與研究學(xué)術(shù)研討會”得到印證。國內(nèi)的語塊研究越來越細(xì)致、深入,主要涉及搭配的研究;揭示詞塊運(yùn)用與英語口語和寫作之間的關(guān)系;強(qiáng)調(diào)詞塊學(xué)習(xí)在二語習(xí)得中的重要地位;語塊提取等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構(gòu)成。由于商務(wù)信函中的語言大多是具有一定的言語程式或行話,如:Enclosed please find…(隨函附寄……,請查收),cash on delivery(貨到付款)等。此種言語程式或行話由于出現(xiàn)頻率很高, 并且形式和意義較固定, 使用的語境也較固定, 就像一個板塊一樣。可以預(yù)測,借助于語料庫、統(tǒng)計(jì)分析、認(rèn)知科學(xué)等方面的知識和方法,語塊理論應(yīng)用于語言教學(xué)、信息檢索和機(jī)器翻譯等方面的研究將更為明確化和具體化。因此,英漢商務(wù)信函語料庫的構(gòu)建及語塊提取具有重要意義。
國內(nèi)外學(xué)者對“語塊(chunks)”的表述有多種形式,如: “l(fā)exical phrases”(Nattinger & DeCarrico,1992),“formulaic sequence” (Wray,2002)。雖然名稱不同,且這些名稱所指的內(nèi)容也有一定的差別,但其探討的本質(zhì)基本相同。Lewis (1997) 認(rèn)為,語言不是由傳統(tǒng)的語法結(jié)構(gòu)與詞匯組成,而是由多詞的語塊組成的。Altenberg & Granger(2001)發(fā)現(xiàn),大約70%的日常口語都是由預(yù)制語塊構(gòu)成的。半固定化的結(jié)構(gòu)和其它預(yù)制語言或“板塊”結(jié)構(gòu)在語言習(xí)得和語言運(yùn)用中起十分重要的作用。因此,我們不應(yīng)該僅僅在課堂中提供給學(xué)生大量的抽象的語法結(jié)構(gòu)、孤立的單詞或者大段語篇的輸入,而應(yīng)該教給學(xué)生類似語塊這種結(jié)合了語法結(jié)構(gòu)、意義和功能的語言單位,且通過大量重復(fù)性的操練使這些語塊固定在學(xué)生的心理詞庫中。
關(guān)于語塊的研究方法,現(xiàn)有的研究主要使用了語法學(xué)方法、語料庫語言學(xué)方法、語言心理學(xué)研究方法以及近年來才出現(xiàn)的教學(xué)實(shí)驗(yàn)研究方法。語法學(xué)的研究方法出現(xiàn)得最早,這種方法強(qiáng)調(diào)要對語塊的定義和所包含的范圍進(jìn)行嚴(yán)格的界定。但從研究成果來看,語塊的名稱、定義和分類有很多種,沒有形成一個統(tǒng)一的受到普遍認(rèn)可的理論框架。且現(xiàn)有的對語塊的定義和分類都是在對英語這一語言進(jìn)行分析的基礎(chǔ)上進(jìn)行的,不能確定這種定義和分類方法也適合其他語言。并且,語塊的范圍是可變的,在不同的領(lǐng)域,如語言教學(xué)領(lǐng)域的語塊,就不同于文學(xué)創(chuàng)作領(lǐng)域的語塊。語料庫語言學(xué)方法注重通過考察在大規(guī)模語料庫中的出現(xiàn)頻率再加上常識判斷來識別多詞結(jié)構(gòu)、固定搭配和其他反復(fù)出現(xiàn)的語塊。在語料庫語言學(xué)的研究領(lǐng)域,語塊的提取一直是個難題?,F(xiàn)有的詞塊提取方法主要有搭配法、詞叢法和搭配——詞叢法,在此基礎(chǔ)之上,濮建忠(2007)獨(dú)辟蹊徑,構(gòu)建了語料庫數(shù)據(jù)驅(qū)動的連續(xù)詞塊自動提取模型,這不僅有效地排除了“結(jié)構(gòu)”和“意義”不完整的噪音序列,而且較好地避免了詞叢法選取的詞塊之間的重疊部分,提取出的詞塊準(zhǔn)確地反映了真實(shí)語言的使用情況(李晶潔,衛(wèi)乃興2010)。
筆者認(rèn)為,上述方法都有各自的優(yōu)點(diǎn)和不足之處。同時(shí),各種方法又相輔相成、互為依據(jù)、互相補(bǔ)充。語法學(xué)研究方法是所有其他研究之根本,不對語塊的概念進(jìn)行嚴(yán)格的定義,不按照統(tǒng)一標(biāo)準(zhǔn)對語塊進(jìn)行分類,就無法使用篩選、統(tǒng)計(jì)、分析等語料庫語言學(xué)方法; 不通過語言心理學(xué)的相關(guān)研究方法,使用語法學(xué)研究方法研究出的理論就會缺乏相應(yīng)的科學(xué)依據(jù);不通過教學(xué)實(shí)驗(yàn),使用語法學(xué)研究方法提出的關(guān)于語塊作用的理論也得不到驗(yàn)證。
總的來看,語塊研究在國內(nèi)剛起步,還有許多問題尚待研究,應(yīng)加強(qiáng)語塊本體和應(yīng)用的研究,特別是筆者關(guān)注的語言教學(xué)和翻譯領(lǐng)域。因此,英漢商務(wù)信函語料庫的構(gòu)建及語塊提取具有重要意義。
2 研究目的
到目前為止,國內(nèi)外鮮有學(xué)者專門針對英漢商務(wù)信函語料庫中的語塊提取展開研究。由于商務(wù)交往中有相當(dāng)?shù)囊徊糠謨?nèi)容是通過信函形式進(jìn)行,針對英漢商務(wù)信函語塊對商務(wù)英語教學(xué)、信息檢索和機(jī)器翻譯等方面工作造成的障礙,英漢商務(wù)信函語料庫中語塊提取研究在借鑒其他語塊研究的基礎(chǔ)上,提出了商務(wù)信函中英語和漢語語塊的界定標(biāo)準(zhǔn),對其進(jìn)行了分類和形式化描述并提出了一種基于規(guī)則匹配的方案,通過自動在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)筑動態(tài)語料庫,利用英漢商務(wù)信函語塊結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語塊自動提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料中自動提取英漢商務(wù)信函語塊的功能。
3 主要工作和研究成果
(1)在借鑒英語和漢語對語塊概念與分類研究的基礎(chǔ)上,將英漢商務(wù)信函語塊分為三種類型:全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊。(2)為了制定英漢商務(wù)信函語塊自動提取規(guī)則,通過對大量英漢商務(wù)信函語料的分析,將基于規(guī)則的英漢商務(wù)信函語塊自動提取共包括三個步驟:文本預(yù)處理、英漢商務(wù)信函語塊識別和后期處理,并對其進(jìn)行了形式化描述,分析了基于規(guī)則的英漢商務(wù)信函語塊自動提取的關(guān)鍵技術(shù)。(3)設(shè)計(jì)制作英漢商務(wù)信函語塊自動提取實(shí)驗(yàn)系統(tǒng),通過“網(wǎng)頁自動下載模塊、語料信息抽取與格式化模塊、文本預(yù)處理模塊、英漢商務(wù)信函語塊識別模塊、后期處理模塊”五個模塊,采用基于規(guī)則的方法實(shí)現(xiàn)了從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料文本中自動提取英漢商務(wù)信函語塊的功能,取得了較好的提取效果。
4 研究意義
語塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實(shí)的,因此,研究如何利用語料庫進(jìn)行語塊的提取,在語言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。英漢商務(wù)信函語料庫中語塊提取研究是利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函雙語語料庫的語塊提取研究,具有多方面的重要意義:(1)該研究為開展對外經(jīng)貿(mào)交流和向國外有關(guān)企業(yè)機(jī)構(gòu)提供經(jīng)濟(jì)技術(shù)合作和貿(mào)易方面的信息咨詢服務(wù)并解決英漢商務(wù)信函中的語言溝通障礙。(2)英漢商務(wù)信函語塊自動提取的實(shí)現(xiàn)為英漢商務(wù)信函機(jī)器輔助翻譯系統(tǒng)的譯準(zhǔn)率提高起到關(guān)鍵作用,為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ),為研制經(jīng)貿(mào)專業(yè)機(jī)器翻譯系統(tǒng)創(chuàng)造必要的條件。(3)英漢商務(wù)信函語塊自動提取方法對進(jìn)一步對大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動提取語塊提供了思路。(4)構(gòu)建的一個規(guī)模為100萬詞次的英漢商務(wù)信函語料庫(包括四個子庫:英語商務(wù)信函語料庫,漢語商務(wù)信函語料庫,英漢商務(wù)信函平行語料庫,漢英商務(wù)信函平行語料庫)該庫為動態(tài)的,可以自動獲取服務(wù)于語塊自動提取的知識資源,是面向商務(wù)領(lǐng)域的一個特定的語料庫,它對商務(wù)英語學(xué)習(xí)者、商務(wù)漢語學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。
參考文獻(xiàn)
[1] 濮建忠.英語詞匯教學(xué)中的類聯(lián)接、搭配及詞塊[J].外語教學(xué)與研究,2003(6):438-445.
[2] Wray, A. Formulaic Language and the Lexicon[M].Cambridge: Cambridge University Press,2002.
[3] Altenberg B.& Granger S.The Grammatical and Lexical Patterning of “Make”in Native and Non native Student Writing[J].Applied Linguistics,2001,22(2):173-194.
[4] 王立非,陳香蘭.語言語塊教學(xué)與研究在中國的進(jìn)展—— “首屆全國語言語塊教學(xué)與研究學(xué)術(shù)研討會”綜述[J].外國語,2009(6):90-94.
[5] 曹合建.基于語料庫的商務(wù)英語研究[M].北京:對外經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2008.
[6] 李晶潔,衛(wèi)乃興.學(xué)術(shù)英語文本中連續(xù)短語單位的提取方法[J].解放軍外國語學(xué)院學(xué)報(bào),2010(2):45-50.