羅志高
(重慶工商大學 外語學院,重慶 400067)
20世紀中后期,語料庫語言學興起,大規(guī)模電子語料庫逐漸出現(xiàn),1964年布朗語料庫(Brown Corpus,100萬詞)在美國創(chuàng)建,這是世界上第一個電子語料庫,之后相繼有了LOB(100萬詞)和LLC(50萬詞)。BROWN、LOB和 LLC并稱為三大經(jīng)典語料庫。(Kennedy,1998)20世紀90年代前后,隨著計算機儲存容量不斷增大,光電字符識別技術(shù)不斷發(fā)展,出現(xiàn)了更大規(guī)模的語料庫,如COBUILD(45億詞)、ICLE(250萬詞)、BNC(1億詞)、ANC(1億詞)和ICE(24個分庫各100萬詞)等,語料庫作為自然語言集合體,規(guī)模越來越大。
20世紀90年代,網(wǎng)絡上出現(xiàn)了海量電子文本和數(shù)據(jù),學者們開發(fā)出了第一代網(wǎng)絡語料庫WebCorp(Web as Corpus),它以海量網(wǎng)絡文本為語料,以搜索引擎和網(wǎng)絡檢索軟件為檢索工具,并以傳統(tǒng)語料庫方式提供檢索結(jié)果。但是,作為第一代網(wǎng)絡語料庫,WebCorp存在語料代表性、語料加工、檢索速度慢等缺點(邢富坤,2006)。第二代網(wǎng)絡語料庫Web學術(shù)語料庫應運而生,其英語全稱是WebCorp Linguist’s Search Engine,縮寫為 WebCorp LSE。
Web學術(shù)語料庫是一個學術(shù)性網(wǎng)絡語料庫檢索系統(tǒng),其語料來源于網(wǎng)絡,但按語言學標準進行了篩選,并進行了語言學標注,專門服務于語言教學與研究。它集成了網(wǎng)絡、搜索引擎和傳統(tǒng)語料庫的優(yōu)點,具有自己的特征。
在Web學術(shù)語料庫出現(xiàn)之前,也有學者把網(wǎng)絡當作語料庫從事語言研究,并利用商業(yè)搜索引擎檢索語言信息??蔀檎Z言學家利用網(wǎng)絡資源提供巨大幫助,然而這些研究都依賴商業(yè)搜索引擎,因而時受詬病,稱其檢索信息不可靠。有鑒于此,Web學術(shù)語料庫建立了自己的搜索引擎和爬蟲工具,爬蟲工具得到“種子”和參數(shù)后,就按指令從網(wǎng)絡上下載文檔,或從網(wǎng)絡文檔上實時提取新詞。爬蟲工具可設置的參數(shù)包括:每個領(lǐng)域網(wǎng)頁下載數(shù)量、要抓取文件類型、要排除的字符串或網(wǎng)頁等。爬蟲工具能根據(jù)網(wǎng)頁超級鏈接,從一個網(wǎng)頁爬到另一個網(wǎng)頁,并下載各種類型的文檔,包括HTML、PDF、Word、PS以及 TXT文檔。然后,離線語料處理工具對其進一步處理,如語料離線標注、日期提取與整理等。
Web學術(shù)語料庫定期檢索網(wǎng)絡、更新語料,并按日期存儲語料。因此,相對于傳統(tǒng)語料庫,該庫語料新穎、時尚。此外,其搜索引擎和爬蟲工具還具有以下特點:(1)根據(jù)黑名單不檢索或不下載某些網(wǎng)頁;(2)記錄錯誤和重新檢索部分網(wǎng)頁;(3)提取日期、作者、標題和次標題信息;(4)分析網(wǎng)址并提取指定部分的內(nèi)容;(5)按日期儲存文檔;(6)剔除廣告標語和鏈接;(7)剔除網(wǎng)頁中非文字符號。
大多數(shù)語料庫研究使用網(wǎng)絡語料時,只考慮HTML 格式文檔(參見 Ide,2002;Fletcher,2004;Baroni& Bernardini,2004)。這是因為HTML格式文檔網(wǎng)絡上最多、最容易得到。然而谷歌搜索對象還包含了其他格式文檔,如PDF、DOC和PS格式文檔。Kehoe&Gee(2007)為了檢驗網(wǎng)絡上各種文件類型數(shù)據(jù),通過Google文件管理器得到了以下數(shù)據(jù):
表1 谷歌數(shù)據(jù):英文網(wǎng)頁文檔中主要文檔格式及其數(shù)量
Renouf(2005)認為,第一代網(wǎng)絡語料庫的“網(wǎng)絡文本”是不合格語料庫文本,因此,Web學術(shù)語料庫重新定義了“網(wǎng)絡文本”:(1)是連貫語篇;(2)語篇完整、意義明確;(3)以完整句子表達內(nèi)容,并帶有句號;(4)包含段落。Web學術(shù)語料庫借用了Ide等2002年的“連貫語篇”定義:即至少包含2000個字符,其段落平均字符至少30個。Cavaglia和Kilgarriff(2001)的相關(guān)研究也排除了非標記符號不到2000的所有網(wǎng)頁。
表2進一步顯示出,每種網(wǎng)絡文檔格式中,段落平均字符超過30個,且字符總數(shù)超過2000文檔占各自類型文檔總數(shù)百分比:
表2 谷歌數(shù)據(jù):“合格網(wǎng)絡文本”占本類型網(wǎng)絡文本的百分比
從表2可以看出,雖然絕大多數(shù)(約占93%)網(wǎng)絡文檔是HTML格式,但網(wǎng)絡上仍然有相當數(shù)量其他格式文檔,尤其是PDF文檔,且能達到“網(wǎng)絡文本”標準。所以,Web學術(shù)語料庫進一步拓展了“網(wǎng)絡文本”概念,即不僅包括 HTML文檔,還包括PDF、Word、PS、RTF和TXT格式文檔,而且設定了“網(wǎng)絡文本”的語言質(zhì)量標準,從而保證了其語料的良好代表性。
HTML格式文檔是網(wǎng)絡上原生格式文檔,為了方便屏幕閱讀,它們往往以短段落形式呈現(xiàn),因此,HTML文檔段落劃分不嚴謹。此外,網(wǎng)絡上每個子網(wǎng)頁都是獨立文檔,不一定是連貫的完整語篇。為了避免這種情況,Web學術(shù)語料庫的爬蟲能根據(jù)網(wǎng)頁上“下一頁”或“更多”鏈接把單獨子文檔拼湊起來,從而形成完整連貫語篇。Web學術(shù)語料庫還有一系列工具,用來從網(wǎng)絡上提取非HTML語料,如在線學術(shù)期刊文本提取工具、PDF轉(zhuǎn)XML格式工具、RTF文件類型篩選工具。每個工具中都被嵌入了獨特程序,以提取作者、出版日期等信息。
總而言之,Web學術(shù)語料庫的語料質(zhì)量高、代表性強,能充分代表網(wǎng)絡上海量、動態(tài)的語言資源。
傳統(tǒng)語料庫的一個典型問題在于Zipfan(美國語言學家,1902-1950)規(guī)律。即,在任何自然語言語料庫中,頻率最高詞匯出現(xiàn)次數(shù)幾乎是頻率第二高詞匯出現(xiàn)次數(shù)的兩倍,第二高詞匯又是第三高詞匯的兩倍,依次類推。如此算來,布朗語料庫前135個最常用詞匯就占了其總量的一半。因此,語言學家們希望語料庫越來越大,以保證非常用詞匯及各種用法的出現(xiàn)。所以,Web學術(shù)語料庫設計規(guī)模達到100億字符,這幾乎是世界上所有語料庫規(guī)模的總和。
根據(jù)谷歌1998年的數(shù)據(jù),谷歌緩存數(shù)據(jù)至少有10000億字符。(Brin&Page,1998)Web學術(shù)語料庫雖未含有整個互聯(lián)網(wǎng),但其篩選后語料不僅具有語言學價值,且能體現(xiàn)或代表全部互聯(lián)網(wǎng)語言資源精髓。Web學術(shù)語料庫構(gòu)成如下:(1)一系列特定領(lǐng)域子庫,每月更新;(2)報刊子庫,每日更新;(3)一個多TB微型互聯(lián)網(wǎng)語料子庫。網(wǎng)絡語料每天增加幾百萬網(wǎng)頁,這給Web學術(shù)語料庫提供了最新、最全的語料,大大提高了語言研究者找到新發(fā)現(xiàn)的機率。相對于第一代網(wǎng)絡語料庫,Web學術(shù)語料庫的語料雖然還是海量,但能計算出大小,其子庫也是規(guī)模已知和可掌握實體,能進行相對詞頻、搭配和比例方面的統(tǒng)計,其檢索結(jié)果和統(tǒng)計信息更準確。
Web學術(shù)語料庫具有傳統(tǒng)語料庫的基本功能,如單詞、短語、結(jié)構(gòu)、通配符檢索或詞性檢索與統(tǒng)計。但它不同于傳統(tǒng)語料庫、普通搜索引擎,它的功能獨特,能對檢索結(jié)果進行復雜分析與處理,且用戶界面簡單易用。
首先,它具有詞匯篩選功能,可以限定其他詞匯同頁共現(xiàn)或不出現(xiàn)。另外,它還有“附近共現(xiàn)”搜索功能,如,在檢索欄輸入“cooks NEAR broth”,檢索行就會同時包含“cook”和“broth”這兩個詞,同時這兩詞之間距離不超過10個單詞,這兩個功能可以提高搜索準確性。
其次,它能從多角度篩選檢索結(jié)果,用戶可以設定參數(shù),系統(tǒng)自動篩選,或者手動篩選結(jié)果,如用戶指定只顯示某時間段語料,或按日期升序或降序排列語料;檢索結(jié)果能按時間、搭配、排序和原始信息等進行深入分析。其中,語料原始信息包括:語料產(chǎn)生日期、來源網(wǎng)址、所屬領(lǐng)域、字符數(shù)、檢索行和來源網(wǎng)站數(shù)量。
另外,該語料庫還具有瀏覽器日志功能,即能保存用戶檢索要求和結(jié)果,保存時間為一個月;還能記下熱門搜索詞,從而揭示學術(shù)熱點。
基于以上特征和功能,Web學術(shù)語料庫有其獨特應用價值。
傳統(tǒng)語料庫以書面語料為主,其建設和更新耗時費力,所以往往只代表特定時段的語言。如Brown、LLC、LOB 代表20 世紀60、70年代英語,BNC和ANC代表20世紀90年代英語,這些語料庫具有時間局限性。而且傳統(tǒng)語料庫容量有限,一般檢索不到荒廢詞或稀有詞匯,而新詞在傳統(tǒng)語料庫更不容易找到。但Web學術(shù)語料庫時時更新,語料時間跨度大、新穎、時尚、規(guī)模大,可以應用于新詞、荒廢詞或稀有詞匯的研究。
Web學術(shù)語料庫支持通配符檢索,通配符后面還可以出現(xiàn)數(shù)字,用于規(guī)定短語中該位置最多可出現(xiàn)的單詞數(shù)。比如,檢索要求“it was*3 which”中,其中數(shù)字“3”用于限定通配符所在位置最多可出現(xiàn)3個單詞。這一功能可應用于語言固定結(jié)構(gòu)變異性用法的研究。例如,“all your eggs in one basket”用法似乎已經(jīng)成為“凝固表達式”,但是,語言研究者可以在Web學術(shù)語料庫中調(diào)查其變異性或創(chuàng)新性用法。在檢索欄輸入“all your* in one basket”,同時在詞匯篩選欄中輸入“-eggs”,以確保檢索結(jié)果不包含“all your eggs in one basket”的檢索行,檢索結(jié)果如下(檢索時間:2013.08):
me never to put all your Kabbalists in one basket or plate,as the old adage,“Don’t put all your cows in one basket.I know’men’Ahhh,it’s called”Putting all your nuts in one basket.
以上例句顯示出,固定短語也有變異性或創(chuàng)新性用法,至于取代詞與原詞存在怎樣關(guān)系,則有待進一步研究。
Web學術(shù)語料庫有一套時間檢測與標注機制,其爬蟲工具到達某一網(wǎng)頁時,會依次檢測網(wǎng)頁服務器標頭、寫作日期、網(wǎng)頁修改日期、網(wǎng)址所含日期、版權(quán)日期等,并記錄下其中之一,作為語料產(chǎn)生的日期。該語料庫能按時間先后對檢索結(jié)果進行排序,并能以圖表形式顯示檢索詞或短語的出現(xiàn)頻率,出現(xiàn)頻率可以按天、月或年計算,也可以按某個領(lǐng)域、某個國家范圍或某種格式文檔總量計算。
Web學術(shù)語料庫還包含專門的歷時語料庫,在語言歷時研究方面有很大價值。以短語“weapons of mass destruction”為例,在檢索欄中輸入該短語(檢索時間:2013.08),得出的檢索結(jié)果和頻率圖表揭示出以下信息:該短語最早出現(xiàn)于2000年,2003年使用頻率最高。而普通搜索引擎包括谷歌,搜索時間范疇也僅限于一年內(nèi),其可供選擇的時間范圍有:過去24小時、過去1周、過去1個月。
Web學術(shù)語料庫可以限定某個詞匯共現(xiàn)在同一頁面、文檔、句子,或檢索詞前后一定范圍內(nèi),從而提高搜索精確度。比如,在檢索欄輸入“energy”,同時在詞匯篩選欄里輸入“positive,-flower”,選擇共現(xiàn)在“句子”(或“整個文檔”)范圍內(nèi),檢索詞所在句子就會包含“positive”,同時不包含“flower”,因此該語料庫能搜索特定的搭配關(guān)系,區(qū)別詞語的歧義性表達。
常見詞匯稀有用法是詞典編撰一大難題,這種用法很難在傳統(tǒng)語料庫找到匹配行。Web學術(shù)語料庫的語料來自網(wǎng)絡,時時更新,海量而新穎,再加上該語料庫的“附近共現(xiàn)”功能,Web學術(shù)語料庫使得詞典編撰這一難題迎刃而解。例如,在檢索行輸入“sole NEAR shoe”,可以檢索到39個例句(檢索時間:2013.08),這種檢索方式得到的檢索行中,“sole”意思是“鞋底”,而不是常見的“唯一的”意思。這表明,該共現(xiàn)功能起到創(chuàng)造語義韻的作用(Louw,1993),從而保證只搜索檢索詞的特定意義。
Web學術(shù)語料庫有自己獨特的網(wǎng)絡語料提取、處理、檢索工具等,并且集成在一個網(wǎng)頁界面上,方便易用,即便語料庫初入門的研究者也能輕易上手。傳統(tǒng)語料庫因有自己獨特的語料標注格式或語料庫工具,常常將入門研究者阻擋在門外,而Web學術(shù)語料庫的這種集成性使得語料庫這一研究范式能得到更廣泛的應用。Web學術(shù)語料庫不僅充分利用了網(wǎng)絡語料的海量、動態(tài)和新穎性,還吸收了搜索引擎和第一代網(wǎng)絡語料庫的優(yōu)點,具有自己獨特的功能與應用,彌補了傳統(tǒng)語料庫的不足。它不僅開拓了英語母語者的研究視野,對外語研究與教學也有很大價值。
[1]Baroni,M.& Bernardini,S.BootCaT:Bootstrapping Corpora and Terms from the Web[C]//Proceedings of the4th International Conference on Language Resources and Evaluation(LREC).Lisbon:Lisbon University Press,2004:1313–1316.
[2]Brin,S.& L.Page.The Anatomy of a Large - scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998(30):107 -117.
[3]Cavaglià,G.& A.Kilgarriff.Corpora from the Web[C]//Fourth Annual CLUCK Colloquium.Sheffield:Sheffield University Press,2001.
[4]Fletcher,W.H.Making the Web More Useful as a Source for Linguistic Corpora[G]//Ulla Connor and Thomas A.Upton.Applied CorpusLinguistics:AMultidimensional Perspective.Rodopi,Amsterdam,2004:191-205.
[5]Ide,N.,R.Reppen & K.Suderman.The American National Corpus:More Than the Web can Provide[C]//Proceedings of the Third Language Resources and Evaluation Conference(LREC).Las Palmas,CanaryIslands,Spain,2002:839-44.
[6]Kehoe,A.& Renouf,A.WebCorp:Applying the Web to Linguistics and Linguistics to the Web[C]//World Wide Web2002Conference.Honolulu,Ha-waii,2002.
[7]Kehoe,A.& M.Gee.New Corpora from the Web:Making Web TextMore “Text-like”[G]//P. Pahta, I.Taavitsainen,T.Nevalainen & J.Tyrkk.Studies in Variation,Contacts and Change in English Volume2:Towards Multimedia in Corpus Studies.Helsinki:Helsink:University Press,2007.
[8]Kennedy,G.An Introduction to Corpus Linguistics[G].London:Addison Wesley Longman,1998.
[9]Kilgarriff,A.Web as Corpus[C]//Proceedings of Corpus Linguistics2001.Lancaster University,2001:342– 344.
[10]Louw,B.Irony in the Text or Insincerity in the Writer?The Diagnostic Potential of Semantic Prosodies[C]//Baker,M.,F(xiàn)rancis,G.& E.Tognini-Bonelli.Text and Technology.Philadelphia/Amsterdam:John Benjamins,1993.
[11]Renouf,A.WebCorp:Providing a Renewable Data Source for Corpus Linguists[G]//S.Granger and S.Petch-Tyson.Extending the Scope of Corpus-based Research:New Applications,New Challenges.Amsterdam and Atlanta:Rodopi,2003:39 -58.
[12]Volk,M.Exploiting the WWW as a Corpus to Resolve PP Attachment Ambiguities[C]//Proceedings of Corpus Linguistics.Lancaster RECL,2001.
[13]Renouf,A.,A.Kehoe & J.Banerjee.The WebCorp Search Engine:a Holistic Approach to Web Text Search[C]//Electronic Proceedings of CL2005,Birmingnam:University of Birmingham,2005.
[14]邢富坤.Web語料庫及其特征初探——與傳統(tǒng)語料庫的對比研究[J].外語電化教學,2006(2):62-64.