陳 功
(北京外國(guó)語(yǔ)大學(xué),北京,100089)
目前語(yǔ)料庫(kù)已經(jīng)被越來(lái)越多的研究者所接受,成為語(yǔ)言研究的“默認(rèn)數(shù)據(jù)源”(Teubert 2005)。通過語(yǔ)料庫(kù)檢索軟件對(duì)語(yǔ)言現(xiàn)象進(jìn)行檢索,能夠系統(tǒng)地對(duì)海量的文本進(jìn)行審視,并且快速獲得該語(yǔ)言現(xiàn)象使用的基礎(chǔ)數(shù)據(jù),如頻數(shù)信息,使我們有可能發(fā)現(xiàn)一些過去從未有機(jī)會(huì)發(fā)現(xiàn)的語(yǔ)言事實(shí)(Sinclair 1991)??梢哉f(shuō),語(yǔ)料庫(kù)檢索已經(jīng)成為語(yǔ)言研究的重要手段之一。研究者若能對(duì)語(yǔ)料庫(kù)進(jìn)行有效、準(zhǔn)確的檢索,不僅可以觀察到豐富的語(yǔ)言現(xiàn)象,還可以從語(yǔ)料庫(kù)中獲得科學(xué)、準(zhǔn)確的基礎(chǔ)數(shù)據(jù)。
然而,在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究飛速發(fā)展的過程中,語(yǔ)料庫(kù)檢索這一看似簡(jiǎn)單實(shí)則重要的問題被擱置了下來(lái)。本文認(rèn)為,在語(yǔ)料庫(kù)用戶結(jié)構(gòu)逐漸多元化的今天,語(yǔ)料庫(kù)檢索方面的問題開始凸顯。主要基于以下兩個(gè)現(xiàn)實(shí):(1)語(yǔ)料庫(kù)研究不再局限于本領(lǐng)域或相關(guān)領(lǐng)域的研究者,不同學(xué)術(shù)背景的研究人員紛紛介入(衛(wèi)乃興2009)。新的研究群體對(duì)語(yǔ)料庫(kù)研究方法的完全接納需要一個(gè)過程,而且并不是所有人都能最終完全掌握。(2)具體到語(yǔ)料庫(kù)檢索方面,如今網(wǎng)絡(luò)搜索引擎的強(qiáng)大影響力讓很多研究者誤認(rèn)為,語(yǔ)料庫(kù)檢索操作很簡(jiǎn)單。但是,在實(shí)際檢索過程中,我們往往容易忽略很多重要的細(xì)節(jié),從而導(dǎo)致語(yǔ)言現(xiàn)象的漏檢或誤檢。因此,如果我們對(duì)語(yǔ)料庫(kù)檢索的有效性和準(zhǔn)確性不給予足夠的重視,語(yǔ)料庫(kù)研究的價(jià)值可能會(huì)大打折扣。
對(duì)不同格式的語(yǔ)料庫(kù)①進(jìn)行檢索,需要相應(yīng)檢索工具的支持,這是語(yǔ)料庫(kù)檢索的一個(gè)重要前提。檢索工具的性能和局限暫且不論,作為語(yǔ)言研究者,我們更應(yīng)該關(guān)注的是如何最大限度地利用好已有的檢索工具,從語(yǔ)料庫(kù)中準(zhǔn)確查找出符合研究目的所需的語(yǔ)言信息。這就要求我們要有針對(duì)性地使用不同的檢索模式,以達(dá)到預(yù)期的研究目的。
按照用戶所使用的檢索語(yǔ)言,我們將常用的語(yǔ)料庫(kù)檢索分為以下三種模式:自然語(yǔ)言檢索、人工語(yǔ)言檢索、自然語(yǔ)言和人工語(yǔ)言相結(jié)合的檢索。
自然語(yǔ)言檢索,顧名思義,即通過構(gòu)成語(yǔ)料庫(kù)文本的字面字符串(literal string)進(jìn)行的語(yǔ)料庫(kù)檢索。檢索項(xiàng)可以是任意的單詞、短語(yǔ)或句子。是三種模式中最簡(jiǎn)單易學(xué)的檢索方式,主要有以下兩方面的優(yōu)勢(shì):(1)該檢索模式的操作方式簡(jiǎn)單,往往是研究者在研究初期觀察語(yǔ)料時(shí)最常用、最便捷的檢索方式。通過觀察索引行可以幫助研究者判斷該語(yǔ)言現(xiàn)象是否具有深入研究的價(jià)值;(2)對(duì)于語(yǔ)料庫(kù)初學(xué)者來(lái)說(shuō),直接使用自然語(yǔ)言進(jìn)行檢索更符合其行為習(xí)慣,而且容易上手,因此他們大多傾向于使用自然語(yǔ)言檢索。目前,我國(guó)語(yǔ)料庫(kù)研究者能夠從互聯(lián)網(wǎng)獲取的通用性英語(yǔ)語(yǔ)料庫(kù)檢索工具已經(jīng)達(dá)10余種(李亮2007),基本上都支持自然語(yǔ)言檢索。
然而,自然語(yǔ)言檢索模式往往無(wú)法滿足較為復(fù)雜的研究需求。例如,在英語(yǔ)三詞復(fù)雜介詞②的研究中,如果使用自然語(yǔ)言檢索模式,研究者首先需要解決的問題就是如何窮盡所有的三詞復(fù)雜介詞。在這種模式下,語(yǔ)料庫(kù)檢索反而變得復(fù)雜、繁瑣,而且無(wú)法充分利用語(yǔ)料庫(kù)研究方法的優(yōu)勢(shì)??梢?自然語(yǔ)言檢索模式雖簡(jiǎn)單易懂,但其有限的檢索表達(dá)能力在實(shí)際研究中局限性較大。
所謂人工語(yǔ)言檢索,其實(shí)是相對(duì)于自然語(yǔ)言檢索而言的。這里探討的人工語(yǔ)言主要有兩種③:語(yǔ)料庫(kù)標(biāo)注碼和正則表達(dá)式。兩者產(chǎn)生的目的和發(fā)展階段雖各不相同,但都是根據(jù)自然語(yǔ)言設(shè)計(jì)的規(guī)范性人造語(yǔ)言,為語(yǔ)料庫(kù)研究突破自然語(yǔ)言檢索模式的局限提供了最大限度的可能性。
2.2.1 語(yǔ)料庫(kù)標(biāo)注碼檢索
多層級(jí)標(biāo)注是對(duì)語(yǔ)料庫(kù)進(jìn)行深度分析的必備條件(梁茂成2006)。因此,標(biāo)注碼檢索模式下,首先要求對(duì)語(yǔ)料庫(kù)生文本(raw text)做進(jìn)一步加工,按照制定好的標(biāo)注方案對(duì)語(yǔ)料庫(kù)進(jìn)行標(biāo)注,如詞性標(biāo)注、句法標(biāo)注、語(yǔ)義標(biāo)注等,才能“從語(yǔ)言學(xué)的角度對(duì)語(yǔ)料庫(kù)進(jìn)行解釋”(Leech 1997:2)。目前通行的英語(yǔ)語(yǔ)料庫(kù)大部分都為研究者提供了帶有詞性標(biāo)注的語(yǔ)料(POS tagged data)。
標(biāo)注給語(yǔ)料庫(kù)增加了信息,也就意味著,研究者可以充分利用這些信息拓展自己的研究。Tognini-Bonelli(2001)認(rèn)為標(biāo)注使得語(yǔ)言的結(jié)構(gòu)容易把握,方便從抽象層面進(jìn)行語(yǔ)言研究。這是該檢索模式的一大優(yōu)勢(shì)。以詞性標(biāo)注為例,詞性賦碼大多是在傳統(tǒng)語(yǔ)言學(xué)詞類劃分的基礎(chǔ)上設(shè)計(jì)的,因此,同類詞的賦碼便具有共同的特征,如在CLAWS賦碼集中,情態(tài)動(dòng)詞的碼為VM。也就是說(shuō),只需檢索VM就可以得到包含所有情態(tài)動(dòng)詞的索引行和相關(guān)數(shù)據(jù)。Hunston(2002/2006:79)把這種通過標(biāo)注碼進(jìn)行語(yǔ)料庫(kù)研究的方法稱為“基于類”(category-based)的研究方法。其檢索項(xiàng)可以是單個(gè)碼或者多碼序列,取決于研究者的研究目的。
顯然,與基于自然語(yǔ)言的檢索相比,使用標(biāo)注碼進(jìn)行語(yǔ)料庫(kù)檢索在研究某一類語(yǔ)言現(xiàn)象上優(yōu)勢(shì)明顯,但在使用中也存在一些問題。首先,對(duì)于多數(shù)初級(jí)用戶而言,對(duì)不同格式標(biāo)注碼的熟悉和靈活使用需要一個(gè)過程。其次,任何一種語(yǔ)料庫(kù)標(biāo)注碼的設(shè)計(jì)都不是完美的,這也會(huì)給研究帶來(lái)不可避免的問題。我們將在第三部分做進(jìn)一步探討。
2.2.2 正則表達(dá)式檢索
正則表達(dá)式成熟于計(jì)算機(jī)程序匯編工作中對(duì)文本處理的需求。有著同樣需求的語(yǔ)料庫(kù)語(yǔ)言學(xué)研究者正是看到了正則表達(dá)式出色的文本處理能力,而將其應(yīng)用到了語(yǔ)料庫(kù)研究中來(lái)?!斑@種技術(shù)簡(jiǎn)潔而功能強(qiáng)大,可以用為數(shù)不多的幾個(gè)符號(hào)來(lái)匹配各種存在一定規(guī)律的字符串?!梢詷O大地提高檢索效率,因此正則表達(dá)式是語(yǔ)料庫(kù)檢索和文本清潔過程中必備的技術(shù)”(梁茂成等2010:17)。
與語(yǔ)料庫(kù)詞性賦碼的類屬相比,正則表達(dá)式的一些符號(hào)可以表示比字符串更大范圍的“類”的概念,如S(表示所有非空格)、w(表示所有的字母、數(shù)字和下劃線)、d(表示所有的數(shù)字);還可以表示字符串的數(shù)量等,如{1,}表示字符串使用一次以上,那么very{1,}可以匹配very使用一次以上的情況。不過,單單使用正則表達(dá)式往往無(wú)法實(shí)現(xiàn)對(duì)具體語(yǔ)言現(xiàn)象的檢索。因此,在實(shí)際的語(yǔ)料庫(kù)應(yīng)用研究中,正則表達(dá)式通常會(huì)和語(yǔ)料庫(kù)標(biāo)注碼或字符串一起作為檢索項(xiàng)使用,以便更準(zhǔn)確地定位檢索目標(biāo),實(shí)現(xiàn)較好的查準(zhǔn)率。例如,如果要在CLAWS賦碼文本中觀察have所有形式的使用情況,則可以通過兩種人工語(yǔ)言相結(jié)合的方式,檢索“w+_VHw”④輕松得到觀察語(yǔ)料。目前,大部分語(yǔ)料庫(kù)檢索軟件和文本處理工具都支持正則表達(dá)式。
近年來(lái),越來(lái)越多的語(yǔ)料庫(kù)研究者已經(jīng)意識(shí)到了正則表達(dá)式在語(yǔ)料庫(kù)檢索和文本處理中的強(qiáng)大功能。但是,對(duì)于大多數(shù)非計(jì)算機(jī)專業(yè)背景的研究者來(lái)說(shuō),正則表達(dá)式是一種完全不熟悉的語(yǔ)言,加之其易讀性差,導(dǎo)致用戶在理解和接受方面還存在困難,這在一定程度上也限制了該檢索模式的推廣。為了讓更多的研究者能夠享受正則表達(dá)式帶來(lái)的便捷,國(guó)內(nèi)學(xué)者,如梁茂成教授,為此做了一系列的努力,編寫出了國(guó)內(nèi)第一款免費(fèi)的正則表達(dá)式編寫輔助工具Pattern Builder(參見梁茂成2009;梁茂成等2010),不僅可以方便初學(xué)者了解正則表達(dá)式在檢索中的作用,還為中高級(jí)用戶提供了正則表達(dá)式測(cè)試功能。
在實(shí)際的語(yǔ)料庫(kù)研究中,除了自然語(yǔ)言檢索和人工語(yǔ)言檢索之外,還有一種非常重要的檢索模式,即將自然語(yǔ)言和人工語(yǔ)言相結(jié)合進(jìn)行檢索。簡(jiǎn)單來(lái)講,就是將“字符串+語(yǔ)料庫(kù)標(biāo)注碼”、“字符串+正則表達(dá)式”或“字符串+語(yǔ)料庫(kù)標(biāo)注碼+正則表達(dá)式”作為檢索項(xiàng)的檢索模式。目的是為了最大限度地準(zhǔn)確完成研究者制定的檢索任務(wù)。
例如,在CLAWS賦碼的文本中觀察“it is+形容詞+that…”結(jié)構(gòu),可將檢索項(xiàng)寫為:
it_(S+)sis_(S+)s(S+)_JJsthat_(S+)
這個(gè)檢索項(xiàng)包含了字符串(it,is,that)、語(yǔ)料庫(kù)詞性標(biāo)注碼(JJ,表示普通形容詞)和正則表達(dá)式(S+和s,其中S+用于匹配未知的標(biāo)注碼或詞,s表示空格)。檢索結(jié)果如下圖所示:
不難看出,組合檢索模式不僅突破了自然語(yǔ)言有限的檢索表達(dá)能力,還發(fā)揮了人工語(yǔ)言在類屬關(guān)系等方面的優(yōu)勢(shì)。具體來(lái)說(shuō),組合模式一方面利用字符串或標(biāo)注碼進(jìn)行精確定位,另一方面借助正則表達(dá)式強(qiáng)大的匹配功能進(jìn)行查找,有效實(shí)現(xiàn)了對(duì)某一語(yǔ)言現(xiàn)象的檢索??梢灶A(yù)見,這種組合模式的檢索將在語(yǔ)料庫(kù)研究中發(fā)揮愈加重要的作用,應(yīng)該引起研究者的關(guān)注。
在語(yǔ)料庫(kù)研究中,我們不僅需要根據(jù)研究?jī)?nèi)容選擇有效的檢索模式,同時(shí)也要確保檢索過程的科學(xué)性和檢索結(jié)果的準(zhǔn)確性。作為語(yǔ)料庫(kù)研究的前期工作之一,語(yǔ)料庫(kù)檢索對(duì)后續(xù)的研究意義重大。因?yàn)橥ㄟ^初期檢索獲得的基礎(chǔ)數(shù)據(jù),如頻數(shù),往往成為研究者進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)和分析的基礎(chǔ),基礎(chǔ)數(shù)據(jù)一旦出現(xiàn)問題,將會(huì)給整個(gè)研究帶來(lái)顛覆性的后果。而“作為語(yǔ)料庫(kù)研究的一個(gè)基本前提,數(shù)據(jù)及其算法的準(zhǔn)確性具有至高無(wú)上的重要性”(陳功、梁茂成2010)。因此,我們對(duì)語(yǔ)料庫(kù)檢索需持科學(xué)謹(jǐn)慎的態(tài)度。
語(yǔ)料庫(kù)檢索過程中可能發(fā)生這樣或者那樣的問題,對(duì)各種因素或細(xì)節(jié)的忽視都會(huì)導(dǎo)致檢索結(jié)果的不準(zhǔn)確。下面分別用兩個(gè)簡(jiǎn)單的案例說(shuō)明:
案例一:
檢索對(duì)象:英語(yǔ)三詞復(fù)雜介詞,如bymeansof,intermsof等;
檢索文本:經(jīng)過CLAWS自動(dòng)詞性賦碼后的語(yǔ)料庫(kù)(LOCNESS),其中三詞復(fù)雜介詞有統(tǒng)一的賦碼,如:in_II31terms_II32of_II33;
檢索項(xiàng):根據(jù)CLAWS三詞復(fù)雜介詞賦碼的特性,將檢索項(xiàng)設(shè)置為:
(S+_II31)s(S+_II32)s(S+_II33)
檢索結(jié)果:經(jīng)過人工核對(duì),能夠全部檢索出帶有相應(yīng)標(biāo)注碼的三詞復(fù)雜介詞,說(shuō)明該檢索模式還是有效的。但是通過反向隨機(jī)檢查⑤卻發(fā)現(xiàn),部分研究?jī)?nèi)容由于被賦予了其他形式的標(biāo)注碼而被遺漏,如by_IIvirtue_NN1of_IO,for_IFpurposes_NN2of_IO等。
案例二:
檢索對(duì)象:形容詞最高級(jí)中使用most的情況,如themostsignificant;
檢索文本:WECCL(1.0)賦碼語(yǔ)料庫(kù);
檢索項(xiàng):根據(jù)已知項(xiàng)和待檢項(xiàng),設(shè)置如下:
(the_AT)s(most_RGT)s(S+_JJ)
檢索結(jié)果:未找到匹配的檢索對(duì)象。檢索失敗的原因是:檢索項(xiàng)編寫格式與文本標(biāo)注格式不一致,即WECCL(1.0)語(yǔ)料庫(kù)詞性賦碼格式為:“單詞+空格+<詞性標(biāo)注碼>”,如“the
(thes
通過上述兩個(gè)簡(jiǎn)單的案例可以發(fā)現(xiàn),語(yǔ)料庫(kù)檢索需要考慮許多方面的因素,有時(shí)即便是忽略一個(gè)空格都會(huì)造成檢索結(jié)果的不準(zhǔn)確,而“檢索的效果會(huì)直接影響到研究的信度”(梁茂成等2010:70)。因此,在語(yǔ)料庫(kù)檢索中,研究者要結(jié)合研究目的設(shè)計(jì)準(zhǔn)確的檢索模式,做到精確檢索。當(dāng)然,還要找出容易導(dǎo)致檢索失誤的原因,這對(duì)提升語(yǔ)料庫(kù)檢索的準(zhǔn)確性意義重大。本文認(rèn)為,語(yǔ)料庫(kù)檢索結(jié)果不準(zhǔn)確可能是由客觀和主觀兩方面因素造成的。
3.2.1 客觀因素
研究者有時(shí)會(huì)在語(yǔ)料庫(kù)檢索的實(shí)際操作中發(fā)現(xiàn),有些困難和問題是難以避免的。然而,不論如何,我們都應(yīng)對(duì)其根本原因有客觀充分的認(rèn)識(shí)。
(1) 不論是語(yǔ)料庫(kù)加工者還是語(yǔ)料庫(kù)應(yīng)用研究者,對(duì)語(yǔ)言的認(rèn)識(shí)都是有限的。相應(yīng)地,為語(yǔ)料庫(kù)添加語(yǔ)言學(xué)信息的深度也是有限的,標(biāo)注碼的設(shè)計(jì)也無(wú)法做到盡善盡美。例如,what在CLAWS詞性賦碼文本中被標(biāo)注為DDQ(wh-determiner),而what在具體使用中絕非只有這一種用法,如what在感嘆句中的標(biāo)注就值得我們考慮(What_DDQa_ATterrible_JJlife_NN1 !_!)。那么,標(biāo)注碼的設(shè)計(jì)到底應(yīng)該細(xì)致到何種程度才算合適?過于寬泛,則無(wú)法反映語(yǔ)言的特殊現(xiàn)象;過于細(xì)致,卻容易失去分類的意義。在大量的語(yǔ)料面前,這個(gè)矛盾讓語(yǔ)料庫(kù)加工者很難找到一個(gè)合理的平衡。而這個(gè)問題對(duì)語(yǔ)料庫(kù)應(yīng)用者的實(shí)際操作來(lái)說(shuō)也有不小的影響,很多時(shí)候,我們只能通過人工判斷來(lái)篩選合乎研究目的的檢索結(jié)果。
(2) 自然語(yǔ)言是在不斷發(fā)展變化的,相對(duì)而言,語(yǔ)料庫(kù)標(biāo)注碼的設(shè)計(jì)則略顯滯后。在面對(duì)一些尚處在發(fā)展過程中、或尚未進(jìn)入詞典的語(yǔ)言現(xiàn)象時(shí),標(biāo)注碼的設(shè)計(jì)者可能會(huì)有所忽略。例如,案例一中CLAWS對(duì)英語(yǔ)三詞復(fù)雜介詞的標(biāo)注,就可能遺漏了一些語(yǔ)言現(xiàn)象。其中inregardto被標(biāo)注為in_II31regard_II32to_II33,而inregardsto則被標(biāo)注成了in_RPregards_VVZto_II。顯然,CLAWS詞性標(biāo)注碼的設(shè)計(jì)者將inregardto放在了固定復(fù)雜介詞之列,而未給inregardsto一個(gè)合理的身份。然而,通過BNC在線檢索系統(tǒng)(http:∥corpus.byu.edu/bnc/)檢索發(fā)現(xiàn),inregardto使用頻率為3次,而inregardsto出現(xiàn)了7次;只不過兩者出現(xiàn)的語(yǔ)體有所差異,前者均出現(xiàn)在書面語(yǔ)正式文體中,而后者則多出現(xiàn)在口語(yǔ)中。由此,我們至少可以肯定,inregardsto在語(yǔ)言使用中的地位已經(jīng)基本確立。對(duì)于我們語(yǔ)料庫(kù)應(yīng)用研究者來(lái)說(shuō),一旦發(fā)現(xiàn)類似的、由于語(yǔ)言演變?cè)斐傻臉?biāo)注碼滯后問題,唯一的補(bǔ)救辦法就是在經(jīng)過考證之后,修改語(yǔ)料庫(kù)中的賦碼,并加以說(shuō)明,使檢索結(jié)果盡可能科學(xué)準(zhǔn)確。
(3) 語(yǔ)料庫(kù)標(biāo)注的誤差。馮志偉(2009:xxviii)總結(jié)了學(xué)術(shù)界對(duì)語(yǔ)料庫(kù)標(biāo)注的批評(píng),其中一種批評(píng)認(rèn)為,“手工標(biāo)注的語(yǔ)料庫(kù)準(zhǔn)確性高而一致性差,自動(dòng)或半自動(dòng)的標(biāo)注一致性高而準(zhǔn)確性差,語(yǔ)料庫(kù)的標(biāo)注難以做到兩全其美?!币宰詣?dòng)詞性標(biāo)注為例,CLAWS7對(duì)英語(yǔ)本族語(yǔ)者書面語(yǔ)進(jìn)行自動(dòng)標(biāo)注時(shí),賦碼準(zhǔn)確率可達(dá)到96%~97%(梁茂成2006)。雖然達(dá)到這樣的準(zhǔn)確率已實(shí)屬不易,但誤差是客觀存在的,如CLAWS將in_RPregards_VVZto_II中的regards標(biāo)為動(dòng)詞第三人稱單數(shù)顯然是不對(duì)的。因此,作為研究者,我們?cè)跈z索中要注意細(xì)心觀察索引行,及時(shí)排除類似問題。尤其在使用人工標(biāo)注的語(yǔ)料庫(kù)時(shí),更要警惕標(biāo)注一致性的問題。
3.2.2 主觀因素
客觀因素雖然存在,但主觀因素往往是導(dǎo)致語(yǔ)料庫(kù)檢索出現(xiàn)問題的直接原因。主要有以下幾個(gè)方面:
(1) 未做好檢索項(xiàng)的設(shè)計(jì)。在考慮檢索需求時(shí),語(yǔ)料庫(kù)研究者應(yīng)該盡可能全面地考慮某一語(yǔ)言現(xiàn)象的各種使用情況。比如,理論上,修飾名詞的形容詞可以有無(wú)窮多個(gè),那么我們?cè)诰幹茩z索項(xiàng)時(shí)就應(yīng)該盡量照顧到這個(gè)現(xiàn)象。只有充分考慮各種可能性,才能使語(yǔ)料庫(kù)檢索結(jié)果盡可能窮盡所有的相關(guān)語(yǔ)言現(xiàn)象。但是規(guī)則之后總是潛藏著一些例外。比如,絕大部分的形容詞都在名詞之前做修飾語(yǔ),但也有一些只能位于名詞之后。而哪些問題可解決,哪些問題不可避免,都是我們?cè)谘芯壳捌诘牟粩鄧L試中應(yīng)該考慮清楚的。
(2) 未了解語(yǔ)料庫(kù)文本的特征。在進(jìn)行語(yǔ)料庫(kù)檢索之前,研究者首先需要認(rèn)識(shí)文本,確定研究應(yīng)使用生文本還是經(jīng)過標(biāo)注的文本。如果是經(jīng)過標(biāo)注的語(yǔ)料庫(kù),則要確認(rèn)標(biāo)注內(nèi)容(是詞性標(biāo)注,還是句法標(biāo)注、語(yǔ)義標(biāo)注,或錯(cuò)誤標(biāo)注等)、標(biāo)注格式⑥(即單詞和標(biāo)注信息的組合呈現(xiàn)方式),以及所依據(jù)的標(biāo)注集(tagset)分別是什么。案例二中的檢索失敗就是由于不了解語(yǔ)料庫(kù)賦碼文本的格式導(dǎo)致的。
(3) 未了解檢索工具的設(shè)置。檢索工具啟動(dòng)之后均表現(xiàn)為系統(tǒng)的默認(rèn)設(shè)置,如AntConc3.2.2w啟動(dòng)之后,Search Term默認(rèn)設(shè)置為Words,不區(qū)分大小寫,File Setting為.txt文件,Tag setting為Show tags等等。如果研究有特殊要求,我們就應(yīng)該對(duì)檢索工具進(jìn)行重新設(shè)置。如果想用AntConc3.2.2w檢索What一詞在句首的使用情況,就應(yīng)將Search Term的第二個(gè)選項(xiàng)Case選中,同時(shí)在檢索框中輸入首字母大寫的What(參見下圖)。
同理,需要使用正則表達(dá)式進(jìn)行檢索時(shí),也要點(diǎn)擊Regex的復(fù)選框進(jìn)行設(shè)置。
(4) 未做好人工核準(zhǔn)工作。語(yǔ)料庫(kù)研究有了工具的輔助,并不意味著單靠工具就可以得到準(zhǔn)確的結(jié)果,相反,語(yǔ)料庫(kù)檢索的每一步都離不開研究者的檢查核對(duì)。首先,檢索項(xiàng)編寫好之后要反復(fù)測(cè)試,以便盡可能窮盡相關(guān)內(nèi)容,在使用正則表達(dá)式時(shí)尤其應(yīng)該注意其匹配范圍。其次,要對(duì)檢索結(jié)果進(jìn)行反查,以便及時(shí)發(fā)現(xiàn)遺漏問題。另外,需要注意的是,為了不遺漏任何一例語(yǔ)言現(xiàn)象,檢索項(xiàng)設(shè)置時(shí)往往需要擴(kuò)大匹配目標(biāo),但同時(shí)也不可避免地導(dǎo)致了冗余語(yǔ)例的出現(xiàn)。因此,還需要人工判斷檢索結(jié)果,剔除不相關(guān)內(nèi)容。
語(yǔ)料庫(kù)檢索是一個(gè)反復(fù)的、循環(huán)式的、不斷完善優(yōu)化檢索結(jié)果的過程。語(yǔ)料庫(kù)檢索的有效性和準(zhǔn)確性應(yīng)該成為研究者密切關(guān)注的問題?!澳芊袷褂谜_的方法對(duì)不同格式的語(yǔ)料庫(kù)文本進(jìn)行檢索是語(yǔ)料庫(kù)數(shù)據(jù)分析和提取的關(guān)鍵”(梁茂成等2010:57)。做好一次語(yǔ)料庫(kù)檢索,其實(shí)現(xiàn)過程要比聽上去復(fù)雜得多,這其中的每一個(gè)環(huán)節(jié)都需要研究者認(rèn)真對(duì)待。我們反對(duì)唯工具論,語(yǔ)料庫(kù)研究工具固然是研究的有力助手,但卻愈發(fā)需要研究者深刻思想的指引和嚴(yán)謹(jǐn)細(xì)致的科學(xué)態(tài)度的規(guī)范。正像Hunston(2002/2006:214)的感慨一樣:“語(yǔ)料庫(kù)使生活變得更加簡(jiǎn)單,但語(yǔ)料庫(kù)同時(shí)也使生活變得更加復(fù)雜”,語(yǔ)料庫(kù)研究不僅僅讓我們“更加無(wú)法忽略語(yǔ)言本身無(wú)限的復(fù)雜性”,也需要我們能夠正視研究過程的復(fù)雜性并謹(jǐn)慎對(duì)待之。
附注:
① 主要指未經(jīng)過標(biāo)注(raw)或經(jīng)過標(biāo)注(tagged)的語(yǔ)料庫(kù)。其中,標(biāo)注過的語(yǔ)料庫(kù)也可能有不同的呈現(xiàn)方式,詳見附注⑥。
② 英語(yǔ)復(fù)雜介詞(complex preposition)指的是在語(yǔ)義和句法功能上與單個(gè)介詞相同的多詞序列,包括兩詞組合(becauseof)、三詞組合(bymeansof)以及四詞組合(asaresultof)等(Biberetal.1999:75)。
③ 嚴(yán)格來(lái)講,一些檢索工具指定的通配符也可以在語(yǔ)料庫(kù)檢索中發(fā)揮積極的作用,但是由于各個(gè)檢索工具的通配符并不一定有統(tǒng)一的設(shè)置標(biāo)準(zhǔn),因此,本文在此暫不做討論。
④ 在“w+_VHw”這個(gè)表達(dá)式中,w+匹配have所有的形式,VH為have各形式詞性標(biāo)注碼中共有的前兩位,后面的w匹配一個(gè)字母、數(shù)字或下劃線,也就是說(shuō)“VHw”可匹配have所有形式的詞性標(biāo)注碼,如VH0(have原形)、VHZ(has)、VHG(having)等。
⑤ 得到檢索結(jié)果后,通過觀察所有三詞復(fù)雜介詞的組合規(guī)律,發(fā)現(xiàn)第一位上的介詞通常為in,by,for,on,with,as,而最后一位上的介詞通常為of,from,to,for,with。這樣,便可以通過這些已知信息反過來(lái)對(duì)檢索結(jié)果進(jìn)行核查,如(in_S+)s+(S+_S+)s+(of_S+)。
⑥ 以詞性標(biāo)注為例,呈現(xiàn)方式主要有以下幾種:word_tag,word
Biber, D., S.Johansson, G.Leech, S.Conrad & E.Finegan.1999.LongmanGrammarofSpokenandWrittenEnglish[M].London: Longman.
Hunston, S.2002/2006.CorporainAppliedLinguistics[M].Beijing: World Publishing Corporation.
Leech, G.1997.Introducing corpus annotation [A].In R.Garsideetal.(eds.).CorpusAnnotation:LinguisticInformationfromComputerTextCorpora[C].London/New York: Longman.1-18.
Sinclair, J.1991.Corpus,Concordance,Collocation[M].Oxford: Oxford University Press.
Teubert, W.2005.My version of corpus linguistics [J].InternationalJournalofCorpusLinguistics10(1): 1-13.
Tognini-Bonelli, E.2001.CorpusLinguisticsatWork[M].Amsterdam/Philadelphia: John Benjamins.
陳功、梁茂成.2010.首屆全國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)專題研討會(huì)綜述[J].外語(yǔ)電化教學(xué)134:77-80.
馮志偉.2009.導(dǎo)讀[A].R.Mitkov.牛津計(jì)算語(yǔ)言學(xué)手冊(cè)[M].北京:外語(yǔ)教學(xué)與研究出版社.
李亮.2007.英語(yǔ)語(yǔ)料庫(kù)檢索工具的設(shè)計(jì)理念及其深層化[J].外語(yǔ)電化教學(xué)118:16-20.
梁茂成.2006.學(xué)習(xí)者英語(yǔ)書面語(yǔ)料自動(dòng)詞性賦碼的信度研究[J].外語(yǔ)教學(xué)與研究(4):279-286.
梁茂成.2009.詞性賦碼語(yǔ)料庫(kù)的檢索與正則表達(dá)式的編寫[J].中國(guó)外語(yǔ)教育(2):65-73.
梁茂成、李文中、許家金.2010.語(yǔ)料庫(kù)應(yīng)用教程[M].北京:外語(yǔ)教學(xué)與研究出版社.
衛(wèi)乃興.2009.語(yǔ)料庫(kù)語(yǔ)言學(xué)的方法論及相關(guān)理念[J].外語(yǔ)研究(5):36-42.