王 穎
(深圳信息職業(yè)技術(shù)學院,廣東 深圳 518029)
“語料庫是按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片斷而建成的具有一定容量的大型電子文本庫”。[1]語料庫現(xiàn)已成為語言學實證研究的一個重要手段。語料庫的研究方法有:生成單詞表、多項檢索、設(shè)置語境詞檢索、正則檢索、詞項重組、提取關(guān)鍵詞表、通過搭配(Collocation)選項觀察詞語的搭配情況、近義詞辨析等。
詞塊稱作“語塊”、“程式化語言”、“詞匯短語”、它是指一個具有一定結(jié)構(gòu),表達一定意義的預制的多詞單位,它以整體形式被記憶儲存,并在即時交際時被整體提取,而不需要使用語法規(guī)則來加工分析。我們可以認為詞塊為“在語料庫中頻繁出現(xiàn)的不同長度的連續(xù)詞語片段?!盵2]根據(jù)文獻[3]的結(jié)論“語塊個數(shù)、語塊運用頻度與二語口語流利性之間存在著相關(guān)性,也就是說,語塊個數(shù)越多、語塊使用頻度越高,口語表達越流利?!彼砸囵B(yǎng)學生以詞塊為基本單位記憶和使用詞匯的習慣。語言尤其是口語不應(yīng)該只學習單詞,而是學習預制結(jié)構(gòu),這樣會加快學習過程并且增強口語的流利性。[1]
為了提高學生習得的詞塊個數(shù)和口語流利程度,本文嘗試運用AntConc免費綠色軟件和COCA美國當代英語語料庫作為研究工具,結(jié)合風靡美國多年的長篇情景喜劇《老友記》(“Friends”)腳本語料庫中的詞塊從以下三個方面進行研究:高頻詞塊的提取、提取語境共現(xiàn)(Concordance)發(fā)現(xiàn)單詞的普遍用法、提取搭配詞表發(fā)現(xiàn)詞塊的搭配信息。
AntConc是日本早稻田大學Laurence Anthony博士實驗室研發(fā)的多平臺的語料庫分析工具。AntConc可以免費下載使用并具有良好的語言教學輔助功能:生成單詞表、索引呈現(xiàn)(Concordance)、檢索詞或詞組在上下文中高亮顯示、設(shè)定關(guān)鍵詞左右語境、檢索結(jié)果的打印和存儲等。
COCA(corpus of contemporary American English)—美國當代英語語料庫(http://www.americancorpus.org/)由美國楊伯翰大學Mark Davies 教授開發(fā),該語料庫庫容量目前為4億多詞匯,涵蓋美國1990~2009年的口語、小說、流行雜志、報紙和學術(shù)期刊五大類型的語料,該語料庫免費在線供研究者和學習者使用。
詞塊的頻數(shù)高低反映詞塊在真實語言材料中的使用情況,詞塊的頻數(shù)信息也可以使學生初步掌握詞塊,并了解詞塊的難易程度,AntConc軟件中的ngram功能可以提取高頻詞塊。n-gram是由n個連續(xù)單詞組成的序列,一個、兩個、三個詞組成的元組分別叫uni-gram,bi-gram,tri-gram等。需要強調(diào)的是,由于計算機只是機械地切分統(tǒng)計詞塊的頻數(shù),所以對于計算機生成的詞塊表,一定要進行后期的意義分析,把生成詞塊表中沒有意義的詞塊或者與研究主題不相關(guān)的詞塊去除。本文以二元詞塊和四元詞塊為例。“Friends”腳本語料庫的二元詞塊經(jīng)過處理后的檢索結(jié)果如下:
表1 “Friends”腳本語料庫的二元詞塊
本文以“kind of”為例:“kind of”在“Friends”腳本語料庫中總共出現(xiàn)292次,在292個索引行中去除表示類別(type)的意思后,剩下的153個索引行經(jīng)過觀察分析是模糊用語(hedge),部分索引行如下:
表2 “kind of”作為模糊用語的索引行
我們發(fā)現(xiàn)模糊用語的發(fā)言者通常都語氣含糊,對所說的話不肯定或者負責任的程度較低。模糊標簽語的功能主要是語用的,它給聽話者提供了解讀話語的方向和框架范圍。由于實時話語的壓力和對客觀世界知識的局限,許多信息不可能準確地表達,而為了保險起見或出于禮貌的考慮,說話者會故意不準確地表達信息。這些動因?qū)е铝四:龢撕炚Z在本族語話語中的大量使用。表面上話語似乎顯得空洞無物,但極為自然和適切,體現(xiàn)合作與禮貌原則等。[2]模糊語言的使用在英語教學過程中并未引起重視,所以可以將關(guān)于“kind of”的索引行向?qū)W生展示并截取相應(yīng)的視頻供學生欣賞并反復操練,改正學生的話語具有書面用語的特征并且缺乏口語交際的語用品質(zhì),使得學生的話語能夠做到交互性、合作性、禮貌性、適切性等品質(zhì)?!癋riends”腳本語料庫的四元詞塊的檢索結(jié)果如下:
表3 “Friends”腳本語料庫的四元詞塊
本文以“I can’t believe”為例:“I can’t believe”總共出現(xiàn)了335次,以下是部分索引行的展示:
表4 “I can’t believe”部分索引行
根據(jù)對索引行的分析,“I can’t believe”通常后面都跟人稱代詞,表達對問題的看法,通常是一些憤怒、驚訝和質(zhì)疑的態(tài)度。(I can’t believe(epistemic)+(you,it,they)personal involvement,emphatically,indignation,emotional and emphatic)。它可以被認為是一個組織性詞塊,是一種完全預制或部分預制單位。預制詞塊就像單詞一樣作為不可分的組塊儲存在大腦詞庫中,很容易自動檢索。所以,這樣的一些預制詞塊給學生提供在缺乏豐富的語言資源時自我表達的可能性,學生無需知道其內(nèi)部結(jié)構(gòu)就可以流利地表達,在交際時可以整體快速提取使用,大大減輕大腦的語言編碼壓力,極大地提高語言的流利性。同時,詞塊大都是按照一定的語法規(guī)則生成的語言單位,可以保證語言使用的正確性。
本文運用AntConc軟件的語境共現(xiàn)(Concordance)中的KWIC顯示格式(關(guān)鍵詞居中對齊顯示)查看檢索結(jié)果,檢索結(jié)果可以保存為text文件。
本文以attracted為例觀察到“attracted”20個例子中有18個是“be attracted to”的用法。互信息MI值(Mutual Information)是對隨機的兩個詞相關(guān)性的度量,也就是要查詢的詞和可能性搭配詞在所有語料庫中的共現(xiàn)搭配比重(百分比),根據(jù)互信息MI值衡量的是詞語搭配的力度,觀察MI值很容易發(fā)現(xiàn)語料庫中的專有名詞、科技術(shù)語、特殊詞組和固定搭配,并且語料庫的整體容量對MI值的影響并不是很大。一般認為當MI>=3.0時,搭配呈現(xiàn)出顯著性。“attracted”在“Friends”腳本語料庫中搭配詞的MI值如下:
表5 “attracted”在“Friends”腳本語料庫中搭配詞的MI值
綜合分析頻數(shù)和MI值,我們發(fā)現(xiàn)“be attracted to”是“attracted”的普遍用法,那么該數(shù)據(jù)是否只是在“Friends”腳本中的個案體現(xiàn)呢?我們在COCA口語語料庫中同樣輸入“attracted”并且把結(jié)果按照相關(guān)度排列(Relevance),它能過濾掉高頻搭配的噪音詞(empty words),并給出與所查詢的詞關(guān)系最為緊密的搭配詞,查詢結(jié)果按所查詢的詞的互信息(MI)值的高低排列。本文僅展示部分數(shù)據(jù):
表6 “attracted”在COCA口語語料庫中搭配詞的MI值
表頭的英文說明如下:“CONTEXT”是上下文限定,也就是“attracted”的搭配詞;“TOT”表示詞塊出現(xiàn)的總數(shù);“ALL”表示所查到的與attracted搭配的詞在整個語料庫中出現(xiàn)的總數(shù)。檢索出現(xiàn)的495個“attracted to”的組成部分又是那些呢?首先我們輸入“[be]attracted to ”
表7 “[be]attracted to”在COCA口語語料庫中的頻數(shù)
然后我們再輸入“[be]* attracted to”
表8 “[be]* attracted to”在COCA口語語料庫中的頻數(shù)
總結(jié)表7和表8中的數(shù)據(jù):“be attracted to”出現(xiàn)的總次數(shù)超過400次,所以綜合運用AntConc軟件和COCA語料庫,我們證實“be attracted to”是“attracted”的普遍用法。
本文運用AntConc的搭配(Collocation)功能,觀察要進行搭配研究的節(jié)點詞(nod),將跨度(span)定義為節(jié)點兩側(cè)與其相關(guān)的詞語數(shù)量,在跨度范圍內(nèi)的詞項為搭配詞(collocate)。辛克萊教授一直在尋找搭配跨度的最佳設(shè)置,他提出:“搭配是兩個詞同時出現(xiàn),而中間間隔不超過四個單詞。這是橫組合方向最簡單、最明顯的關(guān)系?!彼?jīng)過十三年的研究實踐的檢驗,認為4:4的詞匯跨度是最合理的設(shè)置。故此,本文把搭配跨度設(shè)置為4:4,以下是”odds”在“Friends”腳本語料庫中的搭配信息:
表9 “odds”在“Friends”腳本語料庫中搭配詞的MI值
所以發(fā)現(xiàn)最常見的搭配詞是:the,are,what等,這些搭配詞構(gòu)成了“what are the odds”詞塊,那么 “what are the odds”是不是odds的惟一搭配呢?參考美國COCA口語語料庫的odds的搭配詞及其MI值數(shù)據(jù)如下:
表10 “odds”在COCA口語語料庫中搭配詞的MI值
表10顯示against是與odds最常見的搭配,相關(guān)的搭配詞塊行如下:
表11 “against*odds”在COCA口語語料庫中出現(xiàn)次數(shù)
通過分析以上數(shù)據(jù),我們對“odds”的詞語搭配情況有了全面的了解。詞語搭配分析對研究詞語行為具有重要的意義,因為,“詞語像人類一樣喜歡聚集”,一個詞的出現(xiàn)往往預示或決定其他詞的出現(xiàn)。所以,研究詞語與詞語搭配在句法學、語義學以及語用學研究中具有重要價值。在外語學習中,學習者并不是孤立地學習單個的詞匯,而是成組成塊地學習和運用。[4]
本文綜合利用AntConc軟件和COCA口語語料庫對“Friends”腳本語料庫進行某些詞塊的定量分析,以期在口語教學中引入自然真實的語料并找到一些普遍用法促進英語詞匯教學。目前,在校生包括很多英語教師都沒有在英語國家口語交際的實戰(zhàn)經(jīng)驗,口語語料庫的詞塊學習可以彌補這個缺憾。詞塊的熟練掌握使學生節(jié)省編碼時間、緩解交際的實時壓力、增加語言范例、提高口語流利性等。所以,我們應(yīng)重視詞塊的研究和教學,培養(yǎng)學生理解和運用詞塊的能力,掌握詞塊學習這一提高英語口語交際的重要學習策略。
[1]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002:33.
[2]衛(wèi)乃興.中國學生英語口語的短語學特征研究—COLSEC語料庫的詞塊證據(jù)分析[J].現(xiàn)代外語,2007,(8):289,281.
[3]原萍.語塊與二語口語流利性的相關(guān)性研究[J].外語界,2010,(1):61.
[4]李文中.語料庫索引在外語教學中的應(yīng)用[J].解放軍外國語學院學報,2001,(3):22.