Web學術(shù)語料庫的特征及其應用初探

2015-11-14 01:58羅志高

外國語文 2015年5期

羅志高

(重慶工商大學外語學院，重慶 400067)

1.引言

20世紀中后期，語料庫語言學興起，大規(guī)模電子語料庫逐漸出現(xiàn)，1964年布朗語料庫(Brown Corpus，100萬詞)在美國創(chuàng)建，這是世界上第一個電子語料庫，之后相繼有了LOB(100萬詞)和LLC(50萬詞)。BROWN、LOB和 LLC并稱為三大經(jīng)典語料庫。(Kennedy，1998)20世紀90年代前后，隨著計算機儲存容量不斷增大，光電字符識別技術(shù)不斷發(fā)展，出現(xiàn)了更大規(guī)模的語料庫，如COBUILD(45億詞)、ICLE(250萬詞)、BNC(1億詞)、ANC(1億詞)和ICE(24個分庫各100萬詞)等，語料庫作為自然語言集合體，規(guī)模越來越大。

20世紀90年代，網(wǎng)絡上出現(xiàn)了海量電子文本和數(shù)據(jù)，學者們開發(fā)出了第一代網(wǎng)絡語料庫WebCorp(Web as Corpus)，它以海量網(wǎng)絡文本為語料，以搜索引擎和網(wǎng)絡檢索軟件為檢索工具，并以傳統(tǒng)語料庫方式提供檢索結(jié)果。但是，作為第一代網(wǎng)絡語料庫，WebCorp存在語料代表性、語料加工、檢索速度慢等缺點(邢富坤，2006)。第二代網(wǎng)絡語料庫Web學術(shù)語料庫應運而生，其英語全稱是WebCorp Linguist’s Search Engine，縮寫為 WebCorp LSE。

2.Web學術(shù)語料庫及其特征

Web學術(shù)語料庫是一個學術(shù)性網(wǎng)絡語料庫檢索系統(tǒng)，其語料來源于網(wǎng)絡，但按語言學標準進行了篩選，并進行了語言學標注，專門服務于語言教學與研究。它集成了網(wǎng)絡、搜索引擎和傳統(tǒng)語料庫的優(yōu)點，具有自己的特征。

2.1 獨特搜索引擎與爬蟲工具

在Web學術(shù)語料庫出現(xiàn)之前，也有學者把網(wǎng)絡當作語料庫從事語言研究，并利用商業(yè)搜索引擎檢索語言信息?？蔀檎Z言學家利用網(wǎng)絡資源提供巨大幫助，然而這些研究都依賴商業(yè)搜索引擎，因而時受詬病，稱其檢索信息不可靠。有鑒于此，Web學術(shù)語料庫建立了自己的搜索引擎和爬蟲工具，爬蟲工具得到“種子”和參數(shù)后，就按指令從網(wǎng)絡上下載文檔，或從網(wǎng)絡文檔上實時提取新詞。爬蟲工具可設置的參數(shù)包括:每個領(lǐng)域網(wǎng)頁下載數(shù)量、要抓取文件類型、要排除的字符串或網(wǎng)頁等。爬蟲工具能根據(jù)網(wǎng)頁超級鏈接，從一個網(wǎng)頁爬到另一個網(wǎng)頁，并下載各種類型的文檔，包括HTML、PDF、Word、PS以及 TXT文檔。然后，離線語料處理工具對其進一步處理，如語料離線標注、日期提取與整理等。

Web學術(shù)語料庫定期檢索網(wǎng)絡、更新語料，并按日期存儲語料。因此，相對于傳統(tǒng)語料庫，該庫語料新穎、時尚。此外，其搜索引擎和爬蟲工具還具有以下特點:(1)根據(jù)黑名單不檢索或不下載某些網(wǎng)頁;(2)記錄錯誤和重新檢索部分網(wǎng)頁;(3)提取日期、作者、標題和次標題信息;(4)分析網(wǎng)址并提取指定部分的內(nèi)容;(5)按日期儲存文檔;(6)剔除廣告標語和鏈接;(7)剔除網(wǎng)頁中非文字符號。

2.2 網(wǎng)絡文本格式全而有代表性

大多數(shù)語料庫研究使用網(wǎng)絡語料時，只考慮HTML 格式文檔(參見 Ide，2002;Fletcher，2004;Baroni＆ Bernardini，2004)。這是因為HTML格式文檔網(wǎng)絡上最多、最容易得到。然而谷歌搜索對象還包含了其他格式文檔，如PDF、DOC和PS格式文檔。Kehoe＆Gee(2007)為了檢驗網(wǎng)絡上各種文件類型數(shù)據(jù)，通過Google文件管理器得到了以下數(shù)據(jù):

表1 谷歌數(shù)據(jù):英文網(wǎng)頁文檔中主要文檔格式及其數(shù)量

Renouf(2005)認為，第一代網(wǎng)絡語料庫的“網(wǎng)絡文本”是不合格語料庫文本，因此，Web學術(shù)語料庫重新定義了“網(wǎng)絡文本”:(1)是連貫語篇;(2)語篇完整、意義明確;(3)以完整句子表達內(nèi)容，并帶有句號;(4)包含段落。Web學術(shù)語料庫借用了Ide等2002年的“連貫語篇”定義:即至少包含2000個字符，其段落平均字符至少30個。Cavaglia和Kilgarriff(2001)的相關(guān)研究也排除了非標記符號不到2000的所有網(wǎng)頁。

表2進一步顯示出，每種網(wǎng)絡文檔格式中，段落平均字符超過30個，且字符總數(shù)超過2000文檔占各自類型文檔總數(shù)百分比:

表2 谷歌數(shù)據(jù):“合格網(wǎng)絡文本”占本類型網(wǎng)絡文本的百分比

從表2可以看出，雖然絕大多數(shù)(約占93%)網(wǎng)絡文檔是HTML格式，但網(wǎng)絡上仍然有相當數(shù)量其他格式文檔，尤其是PDF文檔，且能達到“網(wǎng)絡文本”標準。所以，Web學術(shù)語料庫進一步拓展了“網(wǎng)絡文本”概念，即不僅包括 HTML文檔，還包括PDF、Word、PS、RTF和TXT格式文檔，而且設定了“網(wǎng)絡文本”的語言質(zhì)量標準，從而保證了其語料的良好代表性。

HTML格式文檔是網(wǎng)絡上原生格式文檔，為了方便屏幕閱讀，它們往往以短段落形式呈現(xiàn)，因此，HTML文檔段落劃分不嚴謹。此外，網(wǎng)絡上每個子網(wǎng)頁都是獨立文檔，不一定是連貫的完整語篇。為了避免這種情況，Web學術(shù)語料庫的爬蟲能根據(jù)網(wǎng)頁上“下一頁”或“更多”鏈接把單獨子文檔拼湊起來，從而形成完整連貫語篇。Web學術(shù)語料庫還有一系列工具，用來從網(wǎng)絡上提取非HTML語料，如在線學術(shù)期刊文本提取工具、PDF轉(zhuǎn)XML格式工具、RTF文件類型篩選工具。每個工具中都被嵌入了獨特程序，以提取作者、出版日期等信息。

總而言之，Web學術(shù)語料庫的語料質(zhì)量高、代表性強，能充分代表網(wǎng)絡上海量、動態(tài)的語言資源。

2.3 海量而新穎的網(wǎng)絡語料

傳統(tǒng)語料庫的一個典型問題在于Zipfan(美國語言學家，1902－1950)規(guī)律。即，在任何自然語言語料庫中，頻率最高詞匯出現(xiàn)次數(shù)幾乎是頻率第二高詞匯出現(xiàn)次數(shù)的兩倍，第二高詞匯又是第三高詞匯的兩倍，依次類推。如此算來，布朗語料庫前135個最常用詞匯就占了其總量的一半。因此，語言學家們希望語料庫越來越大，以保證非常用詞匯及各種用法的出現(xiàn)。所以，Web學術(shù)語料庫設計規(guī)模達到100億字符，這幾乎是世界上所有語料庫規(guī)模的總和。

根據(jù)谷歌1998年的數(shù)據(jù)，谷歌緩存數(shù)據(jù)至少有10000億字符。(Brin＆Page，1998)Web學術(shù)語料庫雖未含有整個互聯(lián)網(wǎng)，但其篩選后語料不僅具有語言學價值，且能體現(xiàn)或代表全部互聯(lián)網(wǎng)語言資源精髓。Web學術(shù)語料庫構(gòu)成如下:(1)一系列特定領(lǐng)域子庫，每月更新;(2)報刊子庫，每日更新;(3)一個多TB微型互聯(lián)網(wǎng)語料子庫。網(wǎng)絡語料每天增加幾百萬網(wǎng)頁，這給Web學術(shù)語料庫提供了最新、最全的語料，大大提高了語言研究者找到新發(fā)現(xiàn)的機率。相對于第一代網(wǎng)絡語料庫，Web學術(shù)語料庫的語料雖然還是海量，但能計算出大小，其子庫也是規(guī)模已知和可掌握實體，能進行相對詞頻、搭配和比例方面的統(tǒng)計，其檢索結(jié)果和統(tǒng)計信息更準確。

2.4 Web學術(shù)語料庫的獨特功能

Web學術(shù)語料庫具有傳統(tǒng)語料庫的基本功能，如單詞、短語、結(jié)構(gòu)、通配符檢索或詞性檢索與統(tǒng)計。但它不同于傳統(tǒng)語料庫、普通搜索引擎，它的功能獨特，能對檢索結(jié)果進行復雜分析與處理，且用戶界面簡單易用。

首先，它具有詞匯篩選功能，可以限定其他詞匯同頁共現(xiàn)或不出現(xiàn)。另外，它還有“附近共現(xiàn)”搜索功能，如，在檢索欄輸入“cooks NEAR broth”，檢索行就會同時包含“cook”和“broth”這兩個詞，同時這兩詞之間距離不超過10個單詞，這兩個功能可以提高搜索準確性。

其次，它能從多角度篩選檢索結(jié)果，用戶可以設定參數(shù)，系統(tǒng)自動篩選，或者手動篩選結(jié)果，如用戶指定只顯示某時間段語料，或按日期升序或降序排列語料;檢索結(jié)果能按時間、搭配、排序和原始信息等進行深入分析。其中，語料原始信息包括:語料產(chǎn)生日期、來源網(wǎng)址、所屬領(lǐng)域、字符數(shù)、檢索行和來源網(wǎng)站數(shù)量。

另外，該語料庫還具有瀏覽器日志功能，即能保存用戶檢索要求和結(jié)果，保存時間為一個月;還能記下熱門搜索詞，從而揭示學術(shù)熱點。

3.Web學術(shù)語料庫的應用探索

基于以上特征和功能，Web學術(shù)語料庫有其獨特應用價值。

3.1 用于新詞或稀有用法研究

傳統(tǒng)語料庫以書面語料為主，其建設和更新耗時費力，所以往往只代表特定時段的語言。如Brown、LLC、LOB 代表20 世紀60、70年代英語，BNC和ANC代表20世紀90年代英語，這些語料庫具有時間局限性。而且傳統(tǒng)語料庫容量有限，一般檢索不到荒廢詞或稀有詞匯，而新詞在傳統(tǒng)語料庫更不容易找到。但Web學術(shù)語料庫時時更新，語料時間跨度大、新穎、時尚、規(guī)模大，可以應用于新詞、荒廢詞或稀有詞匯的研究。

3.2 用于短語創(chuàng)新性用法研究

Web學術(shù)語料庫支持通配符檢索，通配符后面還可以出現(xiàn)數(shù)字，用于規(guī)定短語中該位置最多可出現(xiàn)的單詞數(shù)。比如，檢索要求“it was*3 which”中，其中數(shù)字“3”用于限定通配符所在位置最多可出現(xiàn)3個單詞。這一功能可應用于語言固定結(jié)構(gòu)變異性用法的研究。例如，“all your eggs in one basket”用法似乎已經(jīng)成為“凝固表達式”，但是，語言研究者可以在Web學術(shù)語料庫中調(diào)查其變異性或創(chuàng)新性用法。在檢索欄輸入“all your* in one basket”，同時在詞匯篩選欄中輸入“－eggs”，以確保檢索結(jié)果不包含“all your eggs in one basket”的檢索行，檢索結(jié)果如下(檢索時間:2013.08):

me never to put all your Kabbalists in one basket or plate，as the old adage，“Don’t put all your cows in one basket.I know’men’Ahhh，it’s called”Putting all your nuts in one basket.

以上例句顯示出，固定短語也有變異性或創(chuàng)新性用法，至于取代詞與原詞存在怎樣關(guān)系，則有待進一步研究。

3.3 用于語言歷時研究

Web學術(shù)語料庫有一套時間檢測與標注機制，其爬蟲工具到達某一網(wǎng)頁時，會依次檢測網(wǎng)頁服務器標頭、寫作日期、網(wǎng)頁修改日期、網(wǎng)址所含日期、版權(quán)日期等，并記錄下其中之一，作為語料產(chǎn)生的日期。該語料庫能按時間先后對檢索結(jié)果進行排序，并能以圖表形式顯示檢索詞或短語的出現(xiàn)頻率，出現(xiàn)頻率可以按天、月或年計算，也可以按某個領(lǐng)域、某個國家范圍或某種格式文檔總量計算。

Web學術(shù)語料庫還包含專門的歷時語料庫，在語言歷時研究方面有很大價值。以短語“weapons of mass destruction”為例，在檢索欄中輸入該短語(檢索時間:2013.08)，得出的檢索結(jié)果和頻率圖表揭示出以下信息:該短語最早出現(xiàn)于2000年，2003年使用頻率最高。而普通搜索引擎包括谷歌，搜索時間范疇也僅限于一年內(nèi)，其可供選擇的時間范圍有:過去24小時、過去1周、過去1個月。

3.4 區(qū)別歧義搜索或稀有用法研究

Web學術(shù)語料庫可以限定某個詞匯共現(xiàn)在同一頁面、文檔、句子，或檢索詞前后一定范圍內(nèi)，從而提高搜索精確度。比如，在檢索欄輸入“energy”，同時在詞匯篩選欄里輸入“positive，－flower”，選擇共現(xiàn)在“句子”(或“整個文檔”)范圍內(nèi)，檢索詞所在句子就會包含“positive”，同時不包含“flower”，因此該語料庫能搜索特定的搭配關(guān)系，區(qū)別詞語的歧義性表達。

常見詞匯稀有用法是詞典編撰一大難題，這種用法很難在傳統(tǒng)語料庫找到匹配行。Web學術(shù)語料庫的語料來自網(wǎng)絡，時時更新，海量而新穎，再加上該語料庫的“附近共現(xiàn)”功能，Web學術(shù)語料庫使得詞典編撰這一難題迎刃而解。例如，在檢索行輸入“sole NEAR shoe”，可以檢索到39個例句(檢索時間:2013.08)，這種檢索方式得到的檢索行中，“sole”意思是“鞋底”，而不是常見的“唯一的”意思。這表明，該共現(xiàn)功能起到創(chuàng)造語義韻的作用(Louw，1993)，從而保證只搜索檢索詞的特定意義。

4.結(jié)語

Web學術(shù)語料庫有自己獨特的網(wǎng)絡語料提取、處理、檢索工具等，并且集成在一個網(wǎng)頁界面上，方便易用，即便語料庫初入門的研究者也能輕易上手。傳統(tǒng)語料庫因有自己獨特的語料標注格式或語料庫工具，常常將入門研究者阻擋在門外，而Web學術(shù)語料庫的這種集成性使得語料庫這一研究范式能得到更廣泛的應用。Web學術(shù)語料庫不僅充分利用了網(wǎng)絡語料的海量、動態(tài)和新穎性，還吸收了搜索引擎和第一代網(wǎng)絡語料庫的優(yōu)點，具有自己獨特的功能與應用，彌補了傳統(tǒng)語料庫的不足。它不僅開拓了英語母語者的研究視野，對外語研究與教學也有很大價值。

［1］Baroni，M.＆ Bernardini，S.BootCaT:Bootstrapping Corpora and Terms from the Web［C］//Proceedings of the4th International Conference on Language Resources and Evaluation(LREC).Lisbon:Lisbon University Press，2004:1313–1316.

［2］Brin，S.＆ L.Page.The Anatomy of a Large － scale Hypertextual Web Search Engine［J］.Computer Networks and ISDN Systems，1998(30):107 －117.

［3］Cavaglià，G.＆ A.Kilgarriff.Corpora from the Web［C］//Fourth Annual CLUCK Colloquium.Sheffield:Sheffield University Press，2001.

［4］Fletcher，W.H.Making the Web More Useful as a Source for Linguistic Corpora［G］//Ulla Connor and Thomas A.Upton.Applied CorpusLinguistics:AMultidimensional Perspective.Rodopi，Amsterdam，2004:191－205.

［5］Ide，N.，R.Reppen ＆ K.Suderman.The American National Corpus:More Than the Web can Provide［C］//Proceedings of the Third Language Resources and Evaluation Conference(LREC).Las Palmas，CanaryIslands，Spain，2002:839－44.

［6］Kehoe，A.＆ Renouf，A.WebCorp:Applying the Web to Linguistics and Linguistics to the Web［C］//World Wide Web2002Conference.Honolulu，Ha-waii，2002.

［7］Kehoe，A.＆ M.Gee.New Corpora from the Web:Making Web TextMore “Text-like”［G］//P. Pahta， I.Taavitsainen，T.Nevalainen ＆ J.Tyrkk.Studies in Variation，Contacts and Change in English Volume2:Towards Multimedia in Corpus Studies.Helsinki:Helsink:University Press，2007.

［8］Kennedy，G.An Introduction to Corpus Linguistics［G］.London:Addison Wesley Longman，1998.

［9］Kilgarriff，A.Web as Corpus［C］//Proceedings of Corpus Linguistics2001.Lancaster University，2001:342– 344.

［10］Louw，B.Irony in the Text or Insincerity in the Writer?The Diagnostic Potential of Semantic Prosodies［C］//Baker，M.，F(xiàn)rancis，G.＆ E.Tognini-Bonelli.Text and Technology.Philadelphia/Amsterdam:John Benjamins，1993.

［11］Renouf，A.WebCorp:Providing a Renewable Data Source for Corpus Linguists［G］//S.Granger and S.Petch－Tyson.Extending the Scope of Corpus－based Research:New Applications，New Challenges.Amsterdam and Atlanta:Rodopi，2003:39 －58.

［12］Volk，M.Exploiting the WWW as a Corpus to Resolve PP Attachment Ambiguities［C］//Proceedings of Corpus Linguistics.Lancaster RECL，2001.

［13］Renouf，A.，A.Kehoe ＆ J.Banerjee.The WebCorp Search Engine:a Holistic Approach to Web Text Search［C］//Electronic Proceedings of CL2005，Birmingnam:University of Birmingham，2005.

［14］邢富坤.Web語料庫及其特征初探——與傳統(tǒng)語料庫的對比研究［J］.外語電化教學，2006(2):62－64.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡