劉艷芹 李卓++孫承榮
[摘要] 基于學習者及本族語者語料庫,采用中介語對比分析法,借助語料庫統(tǒng)計分析軟件,分析中國英語專業(yè)學生同英美本族語者大學生英語作文中自由產出性詞匯的差異及原因,結果表明:中國英語專業(yè)學生詞匯密度居首位,但平均詞長小于英美大學生,七字母以上單詞使用量及句長標準差遠落后于英美大學生;中國英語專業(yè)學生詞頻概貌中一級詞匯使用率低,二級詞匯使用率高,三級及詞表外詞匯使用率低,反映出中國英語專業(yè)學生英語自由產出性詞匯運用中仍存在一些問題。針對這些問題,教師應鼓勵學習者較多使用剛學到的低頻詞,采用語義網絡聯(lián)想等方法加速學習者低頻詞的習得,同時多渠道增加學習者詞匯的地道輸入和輸出。
[關鍵詞] 自由產出性詞匯;英語作文;語料庫
[中圖分類號]H313
[文獻標識碼]A
[文章編號] 1673-5595(2015)01-0074-06
一、引言
近年來,國內外學者對英語作為二語或外語學習者的英語詞匯研究不斷升溫。國外學者Nation認為詞匯可分為接受性詞匯與產出性詞匯。[1] 后來, Laufer和Nation進一步將產出性詞匯分為控制產出性詞匯和自由產出性詞匯。[2]語言學習者通過將接受性詞匯轉化為控制產出性詞匯,繼而轉化為自由產出性詞匯,以此完成對詞匯的最終習得。自由產出性詞匯作為詞匯習得的最終產物是語言學習者詞匯運用能力的主要標志,自由產出性詞匯能力的不足將嚴重影響學習者語言能力的全面發(fā)展。
國外學者對自由產出性詞匯的早期研究集中于縱向跟蹤研究,但后期對比研究逐漸顯出優(yōu)勢,如有研究發(fā)現(xiàn),二語學習者英語作文詞頻概貌比例同本族語大學生相比明顯不同,一級詞匯使用率高于本族語者10%以上,二語學習者將近90%的自由產出性詞匯皆為一級詞匯;二級詞匯使用率低,三級及詞表外詞匯使用率不高。[3]191,[4]8,[5]國內學者在這方面的對比研究也不斷升溫,如馬廣惠以中美大學生作文為語料開展了研究。[6]5文秋芳等將中國英語專業(yè)三、四年級學習者與本族語者進行對比,認為中國學生一、二級詞匯使用率高,三級及詞表外詞匯使用率低。[7]272李志雪、李景泉以中國英語專業(yè)三、四年級英語作文及美國大學生作文為語料進行研究,發(fā)現(xiàn)除一級詞匯外,中國大學生詞匯使用率與美國大學生無統(tǒng)計意義上的顯著差異。[8]56濮建忠以中國學習者英語語料庫(CLEC)中非英語專業(yè)學習者子語料庫ST3和ST4為學習者語料進行研究,發(fā)現(xiàn)中國非英語專業(yè)學習者詞匯密度低于本族語者10%以上,提出中國英語教學要解決的核心問題在于如何使中國英語學習者從使用中國式英語向使用本族語者的地道英語過渡。[9]128
語料庫類型的飛速發(fā)展帶來各種專用語料庫的不斷分化,其中一個重要趨勢便是學習者語料庫的興起。中國學習者英語語料庫(CLEC)于1996年籌建,1999年完成。[10]學習者語料庫的建立以及語料庫統(tǒng)計分析軟件的日臻完善使得定性分析和定量分析得以更好結合。在這種條件下基于語料庫的中介語對比研究方法的優(yōu)勢表現(xiàn)得尤為突出。這一方法以目標語典型性和學習者偏離作為其研究視角,本項研究即采用這一方法對自由產出性詞匯各維度開展對比研究。
為了研究中國英語專業(yè)三、四年級學習者同英國及美國大學生寫作中自由產出性詞匯運用情況的不同,本文增加了中國大學生同英國大學生與美國大學生的分別對比,并借鑒濮建忠[9]128及Ringbom[3]191的研究參數考察外語學習環(huán)境下中國英語專業(yè)高年級學習者同英美本族語者大學生自由產出性詞匯的差異并剖析其原因所在,在此基礎上提出相應建議。
二、研究設計
(一)研究問題
本項研究主要回答以下四個問題:
1.與英美大學生相比,中國大學生書面作文中詞匯密度為多少;
2.與英美大學生相比,中國大學生書面作文中平均詞長及各長度詞標準頻數為多少;
3.與英美大學生相比,中國大學生書面作文中句長標準差為多少;
4.與英美大學生相比,中國大學生書面作文中詞頻概貌結果如何。
中國石油大學學報(社會科學版)2015年2月
第31卷第1期劉艷芹,等:中外大學生英語詞匯學習的語料庫研究
(二)語料來源
本研究采用中國學習者英語語料庫CLEC和LOCNESS。LOCNESS (The Louvain Corpus of Native English Essays)由比利時Louvain大學的Sylviane Granger教授主持建設,該語料庫包含美國大學生寫的英語議論文共200多篇,約20萬詞。[11]LOCNESS語料庫由以下幾個部分組成:英國A-level作文114篇;英國大學生作文90篇,其中議論文 33篇;美國大學生作文107篇,其中議論文74篇。
CLEC共有100萬詞的語料,分為五部分:高中生英語自由作文(ST2),非英語專業(yè)大學一、二年級學生試卷作文(ST3),非英語專業(yè)大學三、四年級學生試卷作文(ST4),英語專業(yè)一、二年級自由作文(ST5),英語專業(yè)三、四年級自由作文(ST6)。
本研究選取CLEC的ST6子語料庫,該子語料庫共包含428篇文章,文體一致,全部為議論文;LOCNESS中選取議論文部分。為達到文體一致的目的,英國大學生語料僅采用其中33篇議論文,美國大學生語料采用其中74篇議論文。
(三)研究工具
本研究使用WordSmith Tools 30, Range, Bright Corpus Detagger等軟件進行統(tǒng)計分析。WordSmith Tools 30是由英國利物浦大學Mike Scott設計的具有詞表、主題詞表、語境共現(xiàn)等多重功能的語料庫統(tǒng)計分析軟件。Range是一款基于三個詞匯底表的詞匯分級分布統(tǒng)計軟件,包含Range_GSL_AWL.zip和Range_BNC.zip兩個版本,第一個版本為書面語語料庫,第二個版本是BNC英語口語語料庫。由于本文研究對象為書面語,因此采用第一個版本。Bright Corpus Detagger①是一款語料庫標注去除軟件,用于去除CLEC語料的錯誤標記及文本前元信息標注。
(四)數據處理
首先,本研究使用Bright Corpus Detagger去掉CLEC子語料庫ST6中的錯誤標注及文本前面的元信息標注,去除標題,將得到的清潔文本使用WordSmith Tools 30中“詞表”選項卡操作,得出各語料庫參數:總形符數、總類符數、類符/形符比、標準類符/形符比、平均詞長、1—14(+)各長度詞頻數及句長標準差。將LOCNESS中英美本族語者語料文本進行了分類整理,分別分出33篇英國文本和74篇美國文本。這些文本為清潔文本,直接使用“詞表”選項卡操作得出以上參數信息。由于各語料庫容量不同,需要在excel中使用函數fx=(A1/B1)×1000將各長度詞頻數標準化,將基數定為1000,然后使用Range進行操作。Range一次可以同時分寫32個文本的詞匯分布,于是分別抽取三種語料中的32篇文本。Range軟件中輸入的文本需要去除專有名詞并修改文章中的拼寫錯誤。需要手動從三種語料的文本中分別選出32篇生成單獨的文本文檔,去掉專有名詞并改正拼寫錯誤。然后經Range操作生成三種語料的詞頻概貌報告,包括一、二、三級及詞表外詞匯的形符百分比、類符百分比、一二三級詞匯的詞族數。
三、結果與分析
通過軟件WordSmith Tools 30得出的數據如表1所示。
(一)詞匯密度對比
從表1可以看出各語料庫參數??傂畏麛凳钦Z料庫容量的常用測量單位。三個語料庫容量分別為:228499,68229,18828。類符/形符比是用來衡量文本詞匯密度的常用方法。三種語料的類符/形符比分別為:513,963,1421。文本每增加一個詞,形符就增加一個,但類符未必增加,因此文本越長,類符/形符比就會越低。雖然表1中國英語專業(yè)三、四年級學生的類符/形符比最低,遠落后于英美大學生,但這一數值并不具有可靠的比較意義。為彌補文本不等的誤差,我們采用標準類符/形符比測量詞匯密度,三者的比值分別為4050,4018,4042。標準化以后,中國英語專業(yè)三、四年級學生標準類符/形符比最高,比英國大學生高008,比美國大學生高032。這一結果同馬廣惠[6]6的結果一致。在馬廣惠的中美大學生英語語篇對比修辭分析研究中,她通過對比中美大學生作文,得出中國大學生作文詞比均值顯著高于美國學生作文詞比均值的結論。其中的詞比均值與本研究的詞匯密度具有同質性。這一結果說明中國英語專業(yè)三、四年級學生自由產出性詞匯的掌握及運用具有一定豐富性,詞匯重復使用率低。但本項研究與李志雪、李景泉[8]56和濮建忠[9]128的研究結果不一致。這是因為李志雪、李景泉采用的類符/形符比沒有標準化,因此會受到文本長度不等的影響而產生誤差;而濮建忠研究中的研究對象為非英語專業(yè)學習者,因此標準化的類符/形符比低于美國學習者也是情理之中的事。
當然,筆者并不否認這樣的結果一定程度上有語料選取的原因。本項研究所選取的語料平均長度均超過中國大學生作文的平均長度。Biber認為, 短篇文章和長篇文章相比, 短篇文章的詞比大于長篇文章的詞比。[12]然而本研究采用標準化類符/形符比避免了文本長度的誤差。因此研究結果表明中國英語專業(yè)三、四年級學生書面作文中自由產出性詞匯量較大,書面寫作中熟練運用的詞匯多樣性高于英美大學生。筆者認為,這一結果可能是中國英語專業(yè)學生比較注重書面語中單詞的記憶,而英美大學生相對來說更關注日常生活中的口語,因此會造成這一差異。
(二)詞匯復雜度對比
本研究的自由產出性詞匯復雜度通過平均詞長及各長度詞標準頻數之間的關系來考察。表1顯示英國大學生平均詞長最高,為484;其次是美國大學生,為473;中國大學生平均詞長最低,為461。通過WordSmith Tools 30的統(tǒng)計結果,我們得到1—14(+)各長度詞的頻數結果(15個字母以上單詞數量較少,因此本研究設置的最大值為14)。由于語料庫容量不等,這一數據不能直接用于比較,因此我們將頻數標準化,以1000為基準,通過excel函數fx=(A1/B1)×1000(其中A1為各長度詞頻數,B1為其語料庫容量,即總形符數)算出各長度詞的標準化頻數,如表2所示。
匯使用呈現(xiàn)出共同點,即使用最多的為三個字母的單詞,其次依次是二字母單詞、四字母單詞和五字母單詞。英國大學生兩個字母的單詞使用最多,其次是三字母、四字母和六字母單詞。英國一、二字母單詞使用量均高于中國和美國大學生。就六字母單詞而言,英國大學生標準頻數為9422,美國大學生僅為8464,中國大學生為8553。雖然中國大學生六字母單詞標準頻數略高于美國大學生,但是遠低于英國大學生。此外,通過整個標準頻數表,我們發(fā)現(xiàn)大部分中國英語專業(yè)三、四年級學生七字母以上單詞標準頻數遠低于英美大學生。英國大學生六字母以上單詞使用率一直很高。這一結果可能是由于作文話題不同引起的。英國大學生的33篇議論文題目一致,政治色彩比較濃,內容為“歐洲一體化”,盡管文體同中美大學生相比沒有什么不同,但內容更為正式,用詞就更偏長??梢钥闯鲋袊⒄Z專業(yè)高年級學生在正式文體中對于較長較難詞匯的使用還不是很熟練,這一方面的靈活運用有待加強。
這一結果與濮建忠[9]128的研究結果不一致。在濮建忠的研究中,非英語專業(yè)大學生中的一、二年級學習者的字母單詞標準頻數達到905,而三、四年級達到872,遠高于本研究的中國英語專業(yè)三、四年級及英美本族語者,說明中國非英語專業(yè)學習者同英語專業(yè)高年級學習者相比仍有很大差距。其中三字母單詞標準頻數也遠高于本項研究,非英語專業(yè)大學生中的一、二年級學習者和三、四年級學習者及本族語者標準頻數分別為2491、2568、2541。9—13字母標準頻數遠低于本項研究,這說明非英語專業(yè)學習者傾向于使用較短的詞匯。
(三)句長標準差對比
單詞的習得最終是為形成句子服務的,因而本研究采用了句長標準差這一參數從另一側面衡量學習者自由產出性詞匯的發(fā)展。
由表1可知,英國大學生句長標準差為2291,美國大學生句長標準差為1137;中國英語專業(yè)三、四年級大學生句長標準差為1061,雖然同美國大學生僅差076,但遠遠落后于英國大學生。筆者在閱讀語料的過程中發(fā)現(xiàn),中國大學生使用復合句數量低于英美大學生,尤其是英國大學生。這同馬廣惠[6]7的結果一致。馬廣惠認為中國大學生簡單句使用量顯著高于美國學生, 而美國大學生復合句使用量顯著高于中國學生。本文未對句法層面展開更深入的研究,但從句長標準差來看,中國英語專業(yè)三、四年級大學生的自由產出性詞匯量雖然較大,但句子長度及復雜度較低,這一方面亟待提高。
(四)詞頻概貌對比
Laufer[13]提出用詞頻概貌來統(tǒng)計書面語中各詞頻等級的分布,這一提議基于Laufer和Nation[14]307沿用Thorndike[15]的詞匯分類,將書面語中的詞匯分為首批1000 詞(最常用的前1000詞)、第二批1000詞(次常用的1000詞)、學術類詞匯(大學通識詞匯) 和詞表外詞匯(低頻詞)。這四類詞匯涵蓋了英語書面語的所有詞匯。書面作文的質量越高, 包含的學術類詞匯與低頻詞匯也越多。Laufer 和Nation[14]307驗證了這一方法具有較高的信度和效度,因此本研究也同樣采用了這一方法。
用于統(tǒng)計詞頻概貌的Range軟件包含三個以詞族為基本單位的詞匯底表,分別為BASEWRD1.txt、BASEWRD2.txt、BASEWRD3.txt。在這三個Range底表中,單詞按屈折形式和派生形式被歸為不同的詞族,一個詞族包含族長詞及其所有基本的屈折及派生詞。Range在計算文本的詞族數時,將一個詞的族長詞及其所有基本的屈折及派生詞計作一個詞族。前兩個底表為基礎詞表,基礎詞表中的詞族來自West編寫的《通用英語詞表》(A General Service List of English Words②)。盡管這一詞表的年代較遠,但事實上英語中的前2000詞在這段時間內無顯著變化,因而可以使用。第三個詞表中的詞族,源自Coxhead[16]的“學術英語詞匯表”(Academic Word List)。三個詞表的Range統(tǒng)計結果如表3所示。
由表4可知,美國大學生一級詞匯使用率最高,中國英語專業(yè)三、四年級大學生比英國大學生高048%,這一結果與李志雪、李景泉[8]56的結果不同,原因在于李志雪、李景泉研究中美大學生語料時,采用肖美玲編寫的美國大學生作文薈萃[18],里面的作文題材較多,并且這些美國大學生的文章在經過中國專家學者的修改后減少了高頻詞的使用,因此一級詞匯使用率低。而本文的美國大學生語料題材較少,并且為學生的原始語料,因此一級詞匯使用率高些。這一結果也不同于文秋芳等[7]273的研究結果,其研究結果為中國高水平英語學習者一級詞匯使用率84%,該研究用于對比的本族語者比例直接采用了Cobb[4]8的結果,即本族語者作文中一級詞匯使用率為70%。筆者認為這一差異的原因在于文秋芳等[7]269的研究語料是中國某大學英語專業(yè)一到四年級的限時作文。首先,英語學習者迫于時間壓力為達到字數要求會傾向于使用最基本的詞匯,而一級詞匯是英語學習者最易從大腦中提取的常用詞匯。另外,文秋芳等[7]272的研究在統(tǒng)計詞頻概貌時計算的是四個年級的均值,由于英語專業(yè)一、二年級學生仍處于英語學習的起步階段,因此更傾向于使用一級詞匯。而本項研究的語料僅為英語專業(yè)三、四年級的文本,學生英語水平高于一、二年級,因此一級詞匯的使用比例相對低。同時,本研究采用的CLEC中子語料庫ST6的語料為自由作文,寫作時沒有時間限制,作者有充足的時間從頭腦中提取較難的高級詞匯,并且可查閱詞典等輔助資料來完成作文,因而一級詞匯使用率相對較低。但通過對每個單獨文本結果的分析,得出中國英語專業(yè)三、四年級學生一級詞匯使用率最高為8289%,最低僅為599%;美國大學生最高達到8421%,最低為6294%;英國大學生最高為7739%,最低為6054%。以上結果說明學習者水平不均衡。但英國大學生最高僅為7739%,這說明中國英語專業(yè)三、四年級的學生仍需要努力擴大自由產出性詞匯的廣度及深度。
相對來說,中國英語專業(yè)三、四年級學生二級詞匯使用率最高,為949%,美國大學生為703%,而英國大學生僅為571%。從文本獨立結果可以看出,英美大學生二級詞匯使用比例明顯偏低,這一結果不同于Ringbom[3]191的研究結果。Ringbom研究所用學習者語料為魁北克學習者語料庫中高級英語學習者的作文語料。高級英語學習者為蒙特利爾魁北克大學TESL(Teaching English as a Second Language)培訓項目成功申請者,本族語者作文二級詞匯使用率為10%。筆者認為這一差異原因在于Ringbom分析的本族語者語料為說明文,而本項研究為議論文,因而造成二級詞匯使用率不同。
就三級及詞表外詞匯而言,中國大學生使用率較低,僅為869%,英國大學生三級詞匯使用率為1296%。通過觀察獨立文本結果,我們發(fā)現(xiàn)英國大學生三級詞匯使用率最高達到20%,中國大學生最高只有1546%,詞表外詞匯呈現(xiàn)出同樣的趨勢,這一結果與文秋芳等[7] 268的結果一致,即中國英語專業(yè)三、四年級學生低頻詞匯使用率不高。梁茂成等[17]135指出類符的三級及詞表外詞匯是詞匯難度可靠的判別標準,同時指出在三個詞表中,三級及詞表外詞匯,特別是三級詞表對文本整體的詞匯難度有較好的判別能力。因此,可以得出英國大學生書面作文詞匯難度最大,其次是美國大學生,最后是中國英語專業(yè)高年級學習者的結論。這也說明中國英語專業(yè)高年級學習者在書面表達中仍較依賴高頻詞匯,應該增加對低頻詞的使用,提高自由產出性詞匯的豐富性。
四、結論與啟示
本研究主要結論如下:
其一,與英美大學生相比,中國英語專業(yè)三、四年級學生寫作中自由產出性詞匯密度居首位,表明其詞匯具有一定的豐富性。
其二,中國英語專業(yè)三、四年級學生寫作中自由產出性詞匯的平均詞長低于英美大學生,七字母以上單詞使用標準頻數遠低于英美大學生,說明中國英語專業(yè)高水平學習者依然有依賴小詞、短詞的傾向。
其三,中國英語專業(yè)三、四年級學生寫作的句長標準差略低于美國大學生,但低于英國大學生123,說明中國英語專業(yè)高水平學習者寫作中句子長度及復雜度亟待提高。
其四,從詞頻概貌來看,中國英語專業(yè)三、四年級學生一級詞匯使用率較低,二級詞匯使用率遠高于英國大學生,略高于美國大學生,三級及詞表外詞匯使用率低于英美大學生,說明中國英語專業(yè)三、四年級學生低頻詞使用率不高。
針對以上研究結果,筆者提出以下建議:
首先,在教學過程中,教師應該讓學生認識到作為中國英語專業(yè)高水平學習者,不應該僅僅滿足于英語高頻詞的準確使用,還應該較多使用剛學到的低頻詞。教師可以采用語義網絡聯(lián)想方法,通過構建聯(lián)想語義網絡,讓低頻詞不斷在大腦中復現(xiàn),激活并完善學生的記憶模塊。經過不斷訓練,可以使得處于語義聯(lián)想網絡最末端的低頻詞轉化為自由產出性詞匯的機會大大增加。
其次,教師應該有意識地采取多種渠道促進學習者詞匯的輸入和輸出。在輸入上,教師可以采用多種方式,不斷增加學生的可理解性輸入,或采用輸入強化等內隱性教學手段潛移默化地提高學生詞匯的吸收量。同時詞匯的習得離不開語言輸出訓練,如果沒有輸出或輸出的機會較少,學生的產出性詞匯在其廣度及深度上都難以得到長足的發(fā)展??梢圆捎猛醭趺鹘淌谔岢摹皩戦L法”,以寫促學,鼓勵學生寫出具有一定高度、一定內涵的較長文章,并積極引導學生對主要復雜句型認真學習和吸收,增加作文中句式的豐富性。
最后,本研究僅從寫作中單個詞匯的角度進行了獨立研究,沒有涉及類聯(lián)接及搭配的詞塊或詞叢研究,也沒有涉及句法層面的詳細研究,因此不能全面地反映中國英語專業(yè)高年級學生自由產出性詞匯的全貌。但筆者認為這依然是一次關于自由產出性詞匯研究的有益嘗試,可以起到拋磚引玉的作用,有助于我們進一步了解中國英語專業(yè)高年級學生自由產出性詞匯的發(fā)展,建議以后的研究可以更多地傾向于后者,并可從細微處著眼對自由產出性詞匯進行深化研究。
注釋:
① Bright Corpus Detagger 是一款語料庫去除標注軟件,由廣東外語外貿大學李亮博士提供。
② A General Service List of English Words(《通用英語詞表》)是語言學家Michael West于1953年通過計算機分析得出英語最常用的通用詞匯表,共2285個詞匯,該詞匯表不含詞匯音標和詞義。
[參考文獻]
[1] Nation P. Teaching and Learning Vocabulary [M].New York:Newbury House, 1990:5.
[2] Laufer B, Nation P. A vocabulary size test of controlled productive ability[J]. Language Testing, 1999,16(1):3351.
[3] Ringbom H. Highfrequency verbs in the ICL E Corpus[M]//A Renouf. Explorations in Corpus L inguistics. Amsterdam: John Benjamin Publishing Company,1998.
[4] Cobb T. One size fits all? Francophone learners and English vocabulary tests [J]. Canadian Modern Language Review, 2000,57(2).
[5] Cobb T. Analyzing Late Interlanguage with Learner Corpora: Québec Replications of Three European Studies[J].Canadian Modern Language Review, 2003(3):394423.
[6] 馬廣惠.中美大學生英語語篇對比修辭分析[J].解放軍外國語學院學報,2001(6).
[7] 文秋芳,丁言仁,王文宇.中國大學生書面語中的口語化傾向[J].外語教學與研究,2003(4).
[8] 李志雪,李景泉.中國高水平英語學習者產出性詞匯使用情況研究[J].山東外語教學,2005(3).
[9] 濮建忠.基于學習者語料庫的中國非英語專業(yè)大學生中間語狀況調查[M]//楊惠中.基于CLEC語料庫的中國英語學習者英語分析.上海:上海外語教育出版社,2005.
[10] 桂詩春,楊惠中.中國學習者英語語料庫[M].上海:上海外語教育出版社,2003:1334.
[11] 王立非,張巖.大學生英語議論文中高頻動詞使用的語料庫研究[J]. 外語教學與研究, 2007(2):110119.
[12] Biber D. Variation Across Speech and Writing [M]. Cambridge: Cambridge University Press, 1988.
[13] Laufer B. The Lexical Profile of Second Language Writing: Does It Change Over Time[J]. RELC Journal,1994(2):2131.
[14] Laufer B, Nation P. Vocabulary Size and Use: Lexical Richness in L2 Written Production[J]. Applied Linguistic, 1995(3).
[15] Thorndike E L. The vocabularies of school pupils[M]//J Carelton Bell. Contribution to Education. New York: World Book Co., 1924:6976.
[16] Coxhead A. A new academic word list[J]. TESOL Quarterly, 2000,34(2):213238.
[17] 梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010.
[18] 肖美玲,等.美國大學生作文薈萃[M].長沙:國防科技大學出版社,1999.
[責任編輯:夏暢蘭]