石志亮
(中原工學(xué)院 外國語學(xué)院,河南鄭州 450007)
語塊類似于詞匯和語法之間的橋梁,是一個完整的詞匯和語法單位,Wray(2002)認(rèn)為,語塊具有心理上的現(xiàn)實性、結(jié)構(gòu)上的完整性和語義上的一致性。上述特點使得語塊在交際中可以整存整取,減輕了交際者大腦處理的負(fù)擔(dān),節(jié)約語言處理的時間和精力,獲得像本族語者一樣的流利性,增加語言輸出的準(zhǔn)確性、流利性和地道性。近二十年來,隨著認(rèn)知語言學(xué)、心理語言學(xué)和構(gòu)式語法理論的興起,語塊(lexical chunks)在二語產(chǎn)出過程中的重要作用日益凸顯。語料庫語言學(xué)的興起為語塊的研究開創(chuàng)了新的視角,近年來語塊已經(jīng)成為語言學(xué)研究和教學(xué)研究的一個熱點,且研究視角呈現(xiàn)出多元化趨勢。本文主要從語料庫語言學(xué)的角度對語塊的提取方式進(jìn)行論述,以此來深化我們對語塊這一語言現(xiàn)象的理解。
目前語塊的研究呈現(xiàn)出三種視角:語法學(xué)、語料庫語言學(xué)和心理語言學(xué)。由于覆蓋范圍及研究重點不同,這三種視角對語塊的定義表述不一。語法學(xué)家將其看作“充當(dāng)句子成分、具有句法功能的詞的組合”;語料庫語言學(xué)家更多地“關(guān)注那些出現(xiàn)頻率超過提取頻點的重現(xiàn)詞叢,而忽略其地道性和結(jié)構(gòu)特征”;心理語言學(xué)家則認(rèn)為,語塊是“一串預(yù)制的連貫或不連貫的詞或其他意義單位,整體存儲于記憶中,使用時直接提取,無需經(jīng)過語法生成和分析”(Wray,2002:9)。這就是語塊儲存和提取的整體性(即心理現(xiàn)實性)。詞的組合能否作為整體被儲存和提取是決定詞的組合是否為語塊的重要指標(biāo)。
由此可見,人們尚未對語塊給出一致的明確定義,國外創(chuàng)造和使用的術(shù)語多達(dá)57個,如formulaic sequence, chunk, lexical chunk,prefabricated chunk, collocation, colligation,N-gram等,國內(nèi)對它的翻譯也是名稱繁多,尚無定論。中國期刊全文數(shù)據(jù)庫文史哲輯專欄目錄(1997-2011)檢索的結(jié)果為:語塊、組塊、套語、多詞單位、預(yù)制語塊、搭配、習(xí)語、成語、慣用語、類聯(lián)結(jié)等,如此大量的術(shù)語說明了語塊研究的重要意義和語塊現(xiàn)象的多面性和復(fù)雜性(段士平,2008)。簡單地說,語塊是真實言語交際中以高頻率出現(xiàn)的大于單個單詞的整體的多詞單位。基于語法學(xué)、語料庫語言學(xué)和心理語言學(xué)三個視角的研究發(fā)現(xiàn),語塊具有心理現(xiàn)實性和結(jié)構(gòu)上的連續(xù)與非連續(xù)性特征。
語塊是心理學(xué)概念組塊(chunking)的結(jié)果,組塊就是記憶對信息的加工過程,也就是把單個信息組成更多的信息單位。心理學(xué)家通過分析短時記憶與長時記憶的差別,發(fā)現(xiàn)語塊具有組塊效應(yīng),對記憶及語言學(xué)習(xí)至關(guān)重要。心理學(xué)家Miller的研究表明,短時記憶所能加工與處理的信息容量非常有限,其容量大約為5~9個組塊或者有意義的信息單元(Miller,1956)。長時記憶中加工與存儲的信息容量巨大,以語義方式進(jìn)行編碼與儲存,信息儲存的時間長,甚至可以保持永久。Simon(1974)的研究也驗證了Miller的短時記憶容量的觀點,認(rèn)為語塊是人類記憶的基本單位。因此,人們可以通過加強(qiáng)語塊內(nèi)部信息單位之間的意義聯(lián)系來擴(kuò)大短時記憶的容量,重新編碼后的信息單位變?yōu)橛幸饬x的語塊即可進(jìn)入長時記憶,以語塊的形式整體儲存、整體提取,這就是語塊的組塊效應(yīng),即心理現(xiàn)實性。McClelland的連通理論發(fā)現(xiàn),人類大腦中無數(shù)的節(jié)點及其相互之間的連接構(gòu)成了一個巨大的網(wǎng)絡(luò),知識就儲存在這些聯(lián)結(jié)線上,聯(lián)結(jié)的強(qiáng)度決定知識掌握的程度(陳萬會,2008)。由于語塊中各個組成部分共現(xiàn)的頻率較高,所以它們之間的聯(lián)結(jié)會不斷增強(qiáng)。語言輸出時,語塊更容易從心理詞庫中提取出來,使交際變得流暢、高效。因此,Wray(2002)認(rèn)為,詞塊是指出現(xiàn)頻率高、作為整體儲存和使用的詞語程式。二語習(xí)得研究也表明,語言學(xué)習(xí)是通過規(guī)則學(xué)習(xí)和范例學(xué)習(xí)兩種途徑發(fā)展的,后者就是預(yù)制語塊的構(gòu)建(Skehan,1998 :49)。
語塊從結(jié)構(gòu)上可分為四類(Nattinger &DeCarrico,1992:33):多元詞語塊(polywords)、習(xí)俗語語塊(institutionalized expressions)、短語架構(gòu)語塊(phrasal constraints)、句子構(gòu)建語塊(sentence builders)。Lewis(1993) 從 結(jié) 構(gòu)和功能上把語塊分為四種情況:聚合詞,指具有習(xí)語性質(zhì)的固定詞組,比如on the one hand,on the other hand;搭配詞,指共現(xiàn)頻率很高的詞語,如動詞+名詞、形容詞+名詞搭配,如put forward a suggestion;慣用話語,指形式固定或半固定的具有語用功能的單詞組合,如If I were you;句子構(gòu)架和引語,這一類僅指書面語詞匯,如firstly... and finally。此外,還可以按照語塊成分間連續(xù)情況將其分為:連續(xù)性、固定語塊,如once upon a time, on the other hand等;非連續(xù)性可變語塊,如firstly...and finally,it occurred to sb.to do...基于語塊的心理現(xiàn)實性和結(jié)構(gòu)方面的特征并結(jié)合語料庫研究的方法,本文把語塊界定為:以整體形式儲存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位,這就把名稱為語塊、搭配、類聯(lián)結(jié)和預(yù)制語塊等多詞單位統(tǒng)統(tǒng)包括在內(nèi)。也就是說,語塊的概念模糊了原有的詞匯搭配之間的界限,它不僅包括多詞的搭配、句子框架,還可以擴(kuò)大到句子甚至語篇。
要研究語塊,首先必須快速識別和提取語塊,目前主要通過機(jī)器自動識別和人工多方驗證兩種方式。人工識別主觀性強(qiáng),速度太慢。語塊提取的經(jīng)典方法是基于語料庫的方法,這是語料庫語言學(xué)和自然語言結(jié)合的產(chǎn)物。語料庫的優(yōu)勢在于能快速檢索和統(tǒng)計大量語料,注重頻數(shù)信息是語料庫方法的一個顯著特征。事實上,現(xiàn)有的從大規(guī)模語料庫中自動提取語塊的方法多是以統(tǒng)計為主,輔之以詞性、句法等語言學(xué)規(guī)則(謝家成,2008)。隨著人們對語塊認(rèn)識的深入,語料庫的方法也不斷改進(jìn)。語料庫除了通過檢索行凸顯搭配外,還可實現(xiàn)搭配的自動提取在自然語言處理領(lǐng)域,語言檢索的工具和技術(shù)進(jìn)展很快。語塊識別的技術(shù)也從人工識別進(jìn)入了機(jī)器識別。語塊檢索技術(shù)的起點是從語料庫中提取連續(xù)的、固定的詞串,經(jīng)過幾年的發(fā)展,已可以提取非連續(xù)的可變語塊。
語塊提取軟件
上表為六個語塊提取軟件的概貌,下文主要從以下三個方面對語塊提取軟件進(jìn)行分項闡述:語塊提取軟件的運(yùn)行方式與收費(fèi)情況,語塊的提取方式,即有無既定的中心詞及語塊的種類。
軟件的運(yùn)行方式主要分為單機(jī)運(yùn)行和在線運(yùn)行兩種方式,一般情況下單機(jī)運(yùn)行的軟件多為收費(fèi)的商業(yè)軟件,功能也較全面,如Wordsmith Tools,在線運(yùn)行的軟件多為免費(fèi)軟件,功能相對單一,如N-Gram Phrase Extractor,Sketch Engine,Concgram。AntConc是免費(fèi)的,功能強(qiáng)大,界面友好,支持正則表達(dá)式檢索等因素,國內(nèi)研究者多傾向于使用它,目前是語料庫檢索的主流軟件。
語料庫提取語塊可分為基于既定中心詞和無既定中心詞兩種情況,本文將《新概念英語3》全部60篇文章作為檢索語料,以AntConc軟件為例進(jìn)行語塊提取的演示。
2.1 基于既定中心詞的連續(xù)語塊提取
以既定中心詞possible為例提取《新概念英語3》中相關(guān)的連續(xù)語塊。第一步,通過點擊菜單欄File下拉菜單中的Open File(s), 導(dǎo)入要提取的語料《新概念英語3》,再點擊軟件主界面上方的Clusters(詞叢)按鈕,然后在主界面下方的Search Term(搜索輸入框)中輸入檢索詞possible。第二步,設(shè)置Cluster Size, 通常提取的語塊長度范圍為2~6個詞。由于不同長度的語塊重疊,因此語塊的邊界的確定也是困擾研究者的一個問題。我們可以采取從長到短的順序提取語塊,并依次屏蔽已經(jīng)提取的語塊,這樣可以最大限度地避免語塊重疊問題。本文中語塊長度范圍設(shè)置,最小為4,最大也為4, 表示要提取包含檢索詞在內(nèi)的4詞短語。第三步,設(shè)置Min. Cluster Frequency(出現(xiàn)的最小頻數(shù))為默認(rèn)值1,設(shè)置Sort by為Sort by Fre (按頻率顯示)。第四步,點擊Start即可提取出包含possible在內(nèi)的所有連續(xù)4詞語塊來。語塊提取結(jié)果如下:
2.2 無既定中心詞的連續(xù)語塊提取
如果需要了解某篇文章中的語塊總體使用情況,可以如下操作:第一步,導(dǎo)入要提取的語料《新概念英語3》,點擊主界面上方的Clusters按鈕,勾選主界面下方的N-grams(N元結(jié)構(gòu)); 第二步,設(shè)置N-gram Size, 一般設(shè)置Min. Size 為2, Max. Size為6。本文把二者皆設(shè)置為4;第三步,設(shè)置Min. Cluster Frequency為默認(rèn)值1,設(shè)置Sort by為Sort by Fre;第四步,點擊Start即可提取出語料中的所有連續(xù)的4詞語塊來。語塊提取結(jié)果如下:
以這種方式提取的語塊多是基于詞形的外在物理毗鄰進(jìn)行人為切分,統(tǒng)計共現(xiàn)頻數(shù),忽視了詞語序列的內(nèi)部黏著力。因此,提取的數(shù)據(jù)中含有大量結(jié)構(gòu)不完整、語義不清晰的強(qiáng)干擾序列,識別的準(zhǔn)確率稍低,還需人工運(yùn)用語言學(xué)知識進(jìn)行篩選,但是這種機(jī)切語塊往往能凸顯容易被忽略的語言適用范式(何安平,2011;林維燕,2011)。
根據(jù)語塊的結(jié)構(gòu),可以將其分為連續(xù)性和非連續(xù)性語塊。連續(xù)性語塊的提取較為容易,非連續(xù)語塊的提取方法相對比較復(fù)雜。這種檢索主要是圍繞某個既定中心詞提取其相關(guān)的搭配模式,一次檢索只能針對一組詞語??梢岳肳ordsmith工具中的Concordance檢索工具中Context word語境詞功能,也可運(yùn)用ConcGram(框合結(jié)構(gòu))或Sketch Engine進(jìn)行檢索。下文仍以AntConc軟件為例,檢索in...of構(gòu)成的非連續(xù)語塊在新概念英語第三冊中出現(xiàn)的情況。
第一步,導(dǎo)入要提取的語料《新概念英語3》,在軟件主界面下方的Search Term中輸入in; 第二步,點擊其右側(cè)的Advanced(高級),在隨后彈出的界面上勾選Use Contexts Words and Horizons(使用語境詞和設(shè)置語境詞左右范圍),在Contexts Words(語境詞)框中輸入of,點擊Add,接著把Context Horizon(語境詞左右范圍)設(shè)置成From2R to 4R(右2至右4),表示of必須出現(xiàn)在檢索詞in 右邊的第二到第四的位置上;第三步,點擊Apply,自動回到主界面,再點擊Start即可提取出在in...of 這個短語框架下的所有的非連續(xù)性語塊。語塊提取結(jié)果如下:
從上面的檢索結(jié)果可以看出,AntConc的局限性在于它只能檢索既定中心詞之間的單向搭配,即“in在前,of在后”的這個方向的搭配,而不能檢索“of在前,in在后”的反向搭配的語塊。ConcGram(框合結(jié)構(gòu))可以克服AntConc的這一局限性,檢索由多個中心詞構(gòu)成的非連續(xù)語塊,且不考慮這些詞的先后順序(即任意方向的強(qiáng)搭配)。ConcGram的具體操作步驟詳見詹宏偉 (2011)的《語料庫中語塊提取的工具與方法》,在此不再贅述。
綜上所述,語塊是語言中高頻共現(xiàn)的多詞組合。在結(jié)構(gòu)特征上,可以分為連續(xù)和非連續(xù)兩類;在語塊提取的方式上,又可分為基于既定中心詞和無既定中心詞兩種情況。并且語塊具有整存整取的心理現(xiàn)實性和統(tǒng)計上的顯著性。因此,語塊的提取應(yīng)充分考慮上述特征?;谡Z料庫自動提取出的大量語塊,雖然頻率較高,但不一定都具有心理現(xiàn)實性,尚需結(jié)合心理語言學(xué)的相關(guān)知識進(jìn)行人工篩選。因此,我們相信心理語言學(xué)與語料庫語言學(xué)兩大研究視角的融合,將更能夠?qū)崿F(xiàn)二者的優(yōu)勢互補(bǔ),達(dá)到人工篩選和自動識別的高度彌合,加深人們對語塊這一語言現(xiàn)象的認(rèn)識,提高語塊研究的效率和深度。
[1]Lewis, M. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.
[2]Miller, G. a.The Magical Number of Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information[J].Psychological Review,1956,(63).
[3]Nattinger, J & J. DeCarrico. Lexical Phrases and Language Teaching[M]. Oxford: Oxford University Press, 1992.
[4]Simon, H. a.How Big Is a Chunk? [J].Science, 1974, (183).
[5]Skehan, P. A Cognitive Approach to Language Learning[M]. Oxford: Oxford University Press, 1998.
[6]Wray, a.Formulaic Language and the Lexicon[M]. Cambridge: Cambridge University Press,2002.
[7]陳萬會. 詞塊的心理現(xiàn)實性及其特征[J]. 外語學(xué)刊,2008,(6).
[8]段士平. 國內(nèi)二語語塊教學(xué)研究述評[J]. 中國外語,2008,(4).
[9]何安平. 短語理論視角下的英語教師課堂話語探究[J]. 外語教學(xué)理論與實踐,2011,(3).
[10]林維燕. 機(jī)切語塊立場標(biāo)識特性的理論與實證研究[J]. 中國外語,2011,(5).
[11]謝家成. 搭配的多視角透視[J]. 解放軍外國語學(xué)院學(xué)報,2008,(2).
[12]詹宏偉. 語料庫中語塊提取的工具與方法[J]. 外語教學(xué),2011,(2).