焦培慧, 劉傳江
(1. 贛南醫(yī)學(xué)院,江西 贛州341000;2. 廣東金融學(xué)院,廣州510521)
詞匯量是一個人的教育程度、 智力高低或閱讀面的反映[1],外語學(xué)習(xí)者的詞匯量則是其目標(biāo)語言能力高低的重要決定因素。 因此,語言教學(xué)專家長期致力于詞表(wordlist)或詞匯表(vocabulary list)的研制,以期為語言教學(xué)大綱制定、教材開發(fā)和試題編制等提供參考依據(jù)。 在早期開發(fā)的眾多英語教學(xué)詞表當(dāng)中,Thorndike[2]開發(fā)的《教師詞匯手冊30000 詞》 及West[3]開發(fā)的 《通用英語詞表》(General Service List of English Words,GSL) 影響力最大[1]。 這兩份經(jīng)典詞表被證明在當(dāng)今仍具權(quán)威性,對BNC 和JDEST 語料庫的覆蓋率都達(dá)到95%以上[4],對當(dāng)前的英語教學(xué)仍有指導(dǎo)意義。 特別是GSL,不僅對教學(xué)的指導(dǎo)作用經(jīng)久不衰, 而且是后人研究和開發(fā)詞表不可忽視的標(biāo)桿。可見,一份科學(xué)的詞表對語言教學(xué)及其研究的深遠(yuǎn)影響。
得益于現(xiàn)代科技而迅速發(fā)展的語料庫語言學(xué)為詞表研究和開發(fā)提供了便捷,新的詞表因此不斷涌現(xiàn)。特別是21 世紀(jì)以來,不僅通用英語詞表推陳出新,而且學(xué)術(shù)英語或?qū)iT用途英語詞表也遍地開花。自Coxhead[5]發(fā)布通用學(xué)術(shù)英語詞表(Academic Word List,AWL)以來,ESP 教學(xué)研究者相繼推出了其他專業(yè)領(lǐng)域的英語詞表。 這些ESP/EAP 詞表不僅有助于課程教學(xué)大綱的設(shè)置, 也有助于教材的編寫與評估, 特別是對教材中生詞和重點(diǎn)詞匯的遴選、 釋義及詞匯練習(xí)的設(shè)計(jì)有著極其重要的參考價(jià)值。
值得注意的是,研究者對醫(yī)學(xué)英語詞表的開發(fā)有著非同一般的興趣。自我國第四軍醫(yī)大學(xué)醫(yī)學(xué)英語課題組[6]在國際權(quán)威期刊English for Specific Purposes發(fā)表醫(yī)學(xué)英語學(xué)術(shù)詞表 (Medical Academic Word List,MAWL)后,又有我國臺灣義守大學(xué)徐文華[7]教授在Language Teaching Research發(fā)表醫(yī)學(xué)英語詞表(Medical Word List,MWL), 我國華中科技大學(xué)雷蕾[8]教授在Journal of English for Academic Purposes發(fā)表醫(yī)學(xué)英語學(xué)術(shù)詞匯表(Medical Academic Vocabulary List,MAVL);同時,AWL 的開發(fā)者Coxhead[9-10]教授也高度關(guān)注醫(yī)學(xué)英語詞表的研制,并發(fā)表了相關(guān)成果。 根據(jù)金檀、劉康龍和吳金城[11]的研究,學(xué)術(shù)英語詞表的研制范式可歸為三種——總體語料驅(qū)動、個體課文驅(qū)動與具體詞網(wǎng)驅(qū)動。三種范式因詞表研制的目標(biāo)不同,因此方法各異。其中,總體語料驅(qū)動范式旨在通過大容量語料庫確定學(xué)術(shù)英語的高頻詞匯,為學(xué)術(shù)英語教學(xué)指引方向;個體課文驅(qū)動范式旨在計(jì)算單篇課文的詞匯覆蓋率, 確定課文生詞表;具體詞網(wǎng)驅(qū)動范式旨在生成與具體話題相關(guān)的詞匯,幫助學(xué)習(xí)者提高輸出技能[11]。 上述醫(yī)學(xué)英語詞表均遵循總體語料驅(qū)動范式研制而成,目標(biāo)在于確定醫(yī)學(xué)英語高頻詞匯,為醫(yī)學(xué)英語教學(xué)提供方向指引。
問題是,既然有多份采用同一范式研制的醫(yī)學(xué)英語詞表,那么醫(yī)學(xué)英語課程教學(xué)及研究人員該如何選擇呢?不同研究者在不同時期針對同一學(xué)科開發(fā)詞表,反映了詞表研究的什么趨勢,對將來的詞表研究有何啟示? 為回答上述問題,有必要對不同醫(yī)學(xué)英語詞表及其研制過程加以比較分析。 鑒于MAWL、MWL 和MAVL 三份詞表的研究成果均在國際權(quán)威期刊發(fā)表,而且公布了詞表全文,下文對三份詞表進(jìn)行比較分析,以期為詞表的選用及將來的研究提供有益參考。
語料驅(qū)動范式的學(xué)術(shù)英語詞表研制由四個步驟組成,即構(gòu)建總體語料、生成初始詞表、比較詞匯頻率及生成詞匯總表[11]。 盡管四個步驟的具體操作可能因?yàn)樵~表研制的目標(biāo)有所不同,但基本流程大同小異,造成最終所得詞表存在差異的主要因素在于兩個方面:一是語料庫的容量和語料來源,二是選詞標(biāo)準(zhǔn)。 此外,詞表研究者對詞匯單位的定義也可能不同, 因而最后所得詞表的呈現(xiàn)方式會有差異。 以往的詞表開發(fā)者通常以詞族(word family)為詞匯單位,但最近一些詞表的開發(fā)者則傾向于以詞元(lemma)為單位,其主要理由是與詞族相比,詞元能體現(xiàn)詞匯的基本語法信息, 而且語義透明度(semantic transparency)更高[12-13]。 下文考察的三份詞表中,MAWL 和MWL 以詞族為單位,MAVL 以詞元為單位, 在概述三份詞表的基本樣貌之后,再分別考察構(gòu)建各份詞表所用的語料及選詞標(biāo)準(zhǔn)。
三份詞表的基本信息見表1。MAWL 收入的詞匯數(shù)量為623 個詞族,MWL 為595 個詞族,MAVL為819 個詞元。MAVL 的開發(fā)者[8]曾將MAWL 轉(zhuǎn)換為詞元形式, 得出的詞元數(shù)量是1751 個, 亦即MAVL 的長度不及MAWL 的一半。 據(jù)此,則從詞表的長度看, 更晚開發(fā)的詞表更經(jīng)濟(jì)。 但是,用Familizer 把MAVL 轉(zhuǎn)換為詞族形式, 得出的詞族數(shù)量是665 個①Familizer(網(wǎng)址https://www.lextutor.ca/familizer/)轉(zhuǎn)換結(jié)果為663 個詞族,但另有2 個(cytokine 和pathway)未歸類,故總數(shù)為665 個。。由此,因三份詞表所用詞匯單位不同,僅通過詞族/詞元轉(zhuǎn)換的方法比較其長度,未必完全可靠。
表1 三份詞表基本信息
覆蓋率的高低是詞表是否具有代表性的直接體現(xiàn)。 從三份詞表開發(fā)者匯報(bào)的覆蓋率看,MAWL對自建語庫的覆蓋率為12.24%,MWL 為10.72%,MAVL 對兩個自建語庫的覆蓋率分別為19.44%和20.18%。 MAVL 的開發(fā)者還檢驗(yàn)了MAWL 在他們的兩個自建語庫中的覆蓋率, 分別是10.52%和12.97%[8]。 從以上數(shù)據(jù)看,前兩份詞表的覆蓋率較為接近,第三份詞表則幾乎是前兩份的倍數(shù)。然而,由于用于生成和檢驗(yàn)三份詞表覆蓋率的語料庫并不相同,僅從各自匯報(bào)的數(shù)據(jù)難以斷言覆蓋率的高低。 事實(shí)上,詞表的形式特征和覆蓋率不足以判斷詞表的科學(xué)性,還需要追溯生成詞表的語料構(gòu)成及選詞標(biāo)準(zhǔn)。
三份詞表的研究者均構(gòu)建了較大規(guī)模的語料庫,所選語料涵蓋了眾多醫(yī)學(xué)分支領(lǐng)域,見表2。 三者當(dāng)中,生成MAWL 的語料庫容量最小,但也超過了百萬詞,語料來源為96 篇Science Direct 在線數(shù)據(jù)庫中的醫(yī)學(xué)學(xué)術(shù)論文, 涵蓋32 個醫(yī)學(xué)分支領(lǐng)域(每個領(lǐng)域選取3 篇論文),論文作者均為英語母語者。 生成MWL 的語料庫規(guī)模最大, 達(dá)到1500 萬詞,語料來源為155 本醫(yī)學(xué)專業(yè)教材,涵蓋31 個醫(yī)學(xué)分支領(lǐng)域(每個領(lǐng)域選取5 本教材)。MAVL 的研究者構(gòu)建了兩個語料庫,一是用于生成詞表的學(xué)術(shù)論文語料庫(MAEC),庫容為270 萬詞,語料來源是在Elsevier 期刊庫收藏的SCI 醫(yī)學(xué)期刊中隨機(jī)選取38 份刊物后從中選取的760 篇學(xué)術(shù)論文(每份刊物選取20 篇論文), 涵蓋21 個醫(yī)學(xué)分支領(lǐng)域; 二是用于驗(yàn)證詞表覆蓋率的教材語料庫(MTEC),庫容為350 萬詞,語料來源是牛津大學(xué)出版社發(fā)行的3 卷本醫(yī)學(xué)教材,共33 章,涵蓋所有醫(yī)學(xué)分支領(lǐng)域。
表2 三份詞表的語料構(gòu)成一覽表
三個語料庫雖然庫容大小不一,但用于生成詞表的語料都具有代表性,MAWL 和MAVL 的語料來源都是通過分層隨機(jī)抽樣獲得的醫(yī)學(xué)期刊論文。MWL 的語料來源與其他兩份詞表不同, 未采用期刊論文,而是醫(yī)學(xué)專業(yè)教材,其理由是醫(yī)學(xué)專業(yè)本科生在學(xué)習(xí)期間以閱讀教材為主, 而非學(xué)術(shù)論文,也有其合理性。三份詞表的語料來源涵蓋了醫(yī)學(xué)的主要分支領(lǐng)域。 盡管MAVL 的研究者構(gòu)建的詞表生成語庫MAEC 涵蓋的領(lǐng)域?yàn)?1 個, 比另兩份少,但若所得詞表在驗(yàn)證參照語庫MTEC 中有較高覆蓋率,則語料代表性也不構(gòu)成問題。實(shí)際上,構(gòu)建詞表驗(yàn)證參照語庫的做法已經(jīng)為詞表研究者所推崇,Coxhead 的相關(guān)研究[10]即為明證。 簡而言之,三份詞表的研究者構(gòu)建的總體語料庫滿足生成詞表的語料需求。
MAWL 和MWL 的研發(fā)者均采用Coxhead 開發(fā)AWL 所設(shè)置的三個詞匯篩選指標(biāo)[5],即專業(yè)特性(Specialized Occurrence)、覆蓋范圍(Range)和頻次閾值(Frequency),但設(shè)置的篩選標(biāo)準(zhǔn)稍有不同,見表3。 在專業(yè)特性方面,兩個詞表研發(fā)者所用的通用詞匯參照詞表不同, 前者以GSL2000 為參照排除通用詞匯, 后者則以BNC3000 為參照排除通用詞匯。 兩者設(shè)置的覆蓋范圍相同,均要求入選詞匯涵蓋半數(shù)以上的分支領(lǐng)域。兩者設(shè)置的頻次閾值差異較大,前者參考Coxhead 開發(fā)AWL 的標(biāo)準(zhǔn)[5],要求入選詞匯在總體語庫中出現(xiàn)的頻次不少于30 次①生成MAWL 的語料庫容量為100 余萬詞,是生成AWL 的語料庫容量(350 余萬詞)的三分之一,故MAWL 開發(fā)者取AWL 頻次閾值(100 次)的三分之一,設(shè)置為30 次。,后者并未以AWL 的標(biāo)準(zhǔn)為參照, 而是以MWL 與BNC3000 及專有名詞列表組合后的覆蓋率必須達(dá)到98%為最終目標(biāo),反復(fù)調(diào)試詞匯的頻次閾值,將其設(shè)定為863 次。
MAVL 的研發(fā)者設(shè)置了6 個詞匯篩選指標(biāo),除D 值(Dispersion,即離散度)外,其他5 個指標(biāo)均可納入Coxhead 設(shè)置的三個指標(biāo),見表3。 從表3 可知,MAVL 開發(fā)者設(shè)置的覆蓋范圍與另兩份詞表一樣,但對專業(yè)特性和頻次閾值兩個指標(biāo)做了更加精細(xì)的處理。 在專業(yè)特性方面,MAVL 的開發(fā)者并未參照通用詞表排除通用詞匯,而是借鑒詞表研發(fā)的新方法[12],首先觀察詞匯在總庫和子庫中的頻次比例,要求入選詞匯在總庫中出現(xiàn)的頻次不超過其在任意3 個子庫中出現(xiàn)的期望頻次的3 倍,以確保入選詞匯是醫(yī)學(xué)領(lǐng)域通用的詞匯,而非某個醫(yī)學(xué)分支領(lǐng)域的專用詞匯; 在此基礎(chǔ)上, 開發(fā)者在參照Brezina 和Gablasova 研制的new-GSL[13]及醫(yī)學(xué)英語詞典排除非醫(yī)學(xué)通用詞匯。 在頻次閾值方面,開發(fā)者首先參照AWL 的閾值,將之換算為28.57 次/百萬詞,先后在兩個語庫中選取符合最低閾值要求的詞匯, 然后又以BNC 非學(xué)術(shù)語料庫的詞頻為參照, 進(jìn)一步篩選在自建語庫中出現(xiàn)頻率高出在BNC 非學(xué)術(shù)語庫出現(xiàn)頻率50%以上的詞匯, 其目的在于排除在醫(yī)學(xué)語篇中出現(xiàn)的高頻通用詞匯,從而選出具有代表性的醫(yī)學(xué)詞匯。
表3 三份詞表的選詞標(biāo)準(zhǔn)
三份詞表開發(fā)者設(shè)置的選詞標(biāo)準(zhǔn),MAVL 最為嚴(yán)謹(jǐn),在專業(yè)特性和頻次閾值兩個方面都設(shè)置了雙重標(biāo)準(zhǔn),而且還增加了離散度這一指標(biāo),以保證入選詞匯在各子語庫中分布均勻。 值得注意的是,三份詞表開發(fā)者用于排除通用詞表的通用詞表并不相同,MAWL 參照的是歷史較久遠(yuǎn)的GSL 詞表中的2000 高頻詞,MWL 參照的是BNC 詞表中的3000 高頻詞,而MAVL 則是新近開發(fā)的new-GSL。三者采用的參照詞表都具有權(quán)威性,但是對通用詞匯設(shè)置的門檻不一樣,MAWL 僅排除GSL2000 高頻詞, 導(dǎo)致生成的詞表中仍有較大比例的通用詞匯,而且與通用學(xué)術(shù)英語詞表AWL 有較高的重合率,這也是MWL 開發(fā)者之所以研制新詞表的緣由之一[7]。 MWL 開發(fā)者采用BNC3000,因此過濾了較多通用詞匯, 這也部分解釋了MWL 比MAWL 所含詞匯數(shù)量少的原因。MAVL 開發(fā)者并未首先參照通用詞表排除通用詞匯,其理由是在醫(yī)學(xué)文本中出現(xiàn)的高頻通用詞匯可能具有醫(yī)學(xué)意義[8];理論上,結(jié)合通用詞表和醫(yī)學(xué)詞典排除非醫(yī)學(xué)通用詞匯的做法可以增強(qiáng)詞表的代表性,提高詞表的覆蓋率。
鑒于醫(yī)學(xué)英語課程的詞匯學(xué)習(xí)負(fù)擔(dān)十分沉重[10,14],研發(fā)具有代表性的醫(yī)學(xué)英語詞表是十分必要的,這方面的努力勢必持續(xù)下去。 從不同詞表中選出適用的詞表, 可以幫助教學(xué)人員明確教學(xué)目標(biāo),提高教學(xué)效率。
從上文對三份詞表的基本樣貌、 語料構(gòu)成和選詞標(biāo)準(zhǔn)的比較分析可知,由于詞表開發(fā)者用于建庫的語料不同,語料庫規(guī)模不一,而且設(shè)置的選詞標(biāo)準(zhǔn)存在差異,因而詞表的內(nèi)容、長度及覆蓋率存在差異。 實(shí)際上,造成詞表差異更深層的原因是開發(fā)者對詞表設(shè)定的目標(biāo),即服務(wù)于何種教學(xué)目的。 開發(fā)者是根據(jù)詞表目標(biāo)構(gòu)建語料庫和篩選詞匯的。 因此,教學(xué)人員應(yīng)首先判斷詞表目標(biāo)與教學(xué)目標(biāo)是否一致,從不同詞表中選擇適用的詞表。
從三份詞表的名稱可以看出,MAWL 和MAVL定位于服務(wù)醫(yī)學(xué)EAP 的教學(xué), 因此開發(fā)者用于生成詞表的語料庫由學(xué)術(shù)論文構(gòu)成;而MWL 定位于服務(wù)醫(yī)學(xué)專業(yè)本科生的ESP 課程教學(xué), 故語料庫由醫(yī)學(xué)專業(yè)教材構(gòu)成。三份詞表開發(fā)者設(shè)置的選詞標(biāo)準(zhǔn),也受制于詞表目標(biāo)。 開發(fā)者都試圖選出能夠體現(xiàn)醫(yī)學(xué)學(xué)科共性的詞匯,因此盡可能排除無法體現(xiàn)醫(yī)學(xué)和通用文本特征的通用詞匯。 但是,開發(fā)者排除通用詞匯的方案有差異。 比如,MAWL 的開發(fā)者將GSL2000 高頻詞排除在外;MWL 的開發(fā)者則認(rèn)為GSL2000 門檻過低, 由此得出的詞表包含較多通用詞匯,故而參照BNC3000 排除通用詞匯;而MAVL 的開發(fā)者為了避免將帶有醫(yī)學(xué)意義的通用詞匯排除在外,所以另辟蹊徑,結(jié)合new-GSL 和醫(yī)學(xué)詞典排除不具有醫(yī)學(xué)意義的通用詞匯。盡管理論上MAVL 的選詞標(biāo)準(zhǔn)和方法能夠確保把具有醫(yī)學(xué)意義的高頻詞匯選入詞表,但是這些詞匯在通用語域和醫(yī)學(xué)語域中的用法可能重合或高度相似,因此,在詞表使用過程中,還是應(yīng)根據(jù)學(xué)習(xí)者的水平和需求及具體的教學(xué)內(nèi)容和目標(biāo)對這些詞匯靈活處理,做到因地制宜、因材施教。
從上文對三份醫(yī)學(xué)英語詞表的比較分析,可以看出語料庫驅(qū)動范式學(xué)術(shù)英語詞表開發(fā)的基本走向:一是建庫的規(guī)模逐漸壯大,二是選詞的標(biāo)準(zhǔn)越來越嚴(yán)密。 計(jì)算機(jī)硬件和軟件的不斷升級迭代,為構(gòu)建大型語料庫、 實(shí)施復(fù)雜選詞運(yùn)算提供了方便??梢灶A(yù)見,將來會繼續(xù)涌現(xiàn)從更大規(guī)模語料庫精選出來的、覆蓋率更高的詞表。 然而,面對多份詞表,盡管教學(xué)人員可以根據(jù)詞表目標(biāo)、語料來源和選詞標(biāo)準(zhǔn)從中選出適用于教學(xué)目標(biāo)的詞表,但是,以詞表研發(fā)者匯報(bào)的研制過程和基本數(shù)據(jù)為判斷依據(jù)未必是萬全之策。
如前所述,MAVL 的開發(fā)者使用自建語庫比較了MAWL 和MAVL 的覆蓋率, 盡管數(shù)據(jù)顯示后者大大超越前者, 但是兩份詞表的生成語庫不同,使用其中一份詞表的生成語庫比較該詞表與另一詞表的覆蓋率,有可能出現(xiàn)偏好問題。因之,有研究者嘗試根據(jù)教學(xué)目標(biāo)構(gòu)建第三方語料庫,對兩份同類詞表進(jìn)行驗(yàn)證。 比如,有研究者[15]就將一門課程所用教材的50 篇課文匯集為語料庫, 比較了AWL與AVL 兩份學(xué)術(shù)英語詞表的覆蓋率。 這樣的驗(yàn)證方法不但可以有效避免上述語料偏好問題,也有助于在不同詞表之間做出合理的選擇。
另外, 對三份醫(yī)學(xué)詞表的比較分析顯示三份詞表開發(fā)者在通用詞匯是否入選詞表方面有不同見解,因而設(shè)置了不同的遴選標(biāo)準(zhǔn)。 關(guān)于通用詞匯是否選入醫(yī)學(xué)詞表的問題,有研究者[16]曾提出不宜僅以其在通用詞表中的位次或頻率高低為依據(jù),而還應(yīng)深入考察其在醫(yī)學(xué)語料庫中的共選特征,從而做出更為精確的判斷。 觀察詞匯在搭配、類聯(lián)接、 語義趨向和語義韻多個層次的共選特征是否因語域不同而出現(xiàn)差異, 不失為驗(yàn)證學(xué)術(shù)詞表效度的有效途徑。
新形勢下,ESP/EAP 教學(xué)已經(jīng)成為我國高校英語教學(xué)的重要組成部分。 ESP/EAP 教學(xué)探索始于制定合理的教學(xué)大綱,而參考詞表又是教學(xué)大綱不可或缺的內(nèi)容。 因此,開展ESP/EAP 詞表的開發(fā)和研究十分必要。 經(jīng)過長期探索,語料庫驅(qū)動的詞表開發(fā)已經(jīng)形成一套成熟的范式。詞表研發(fā)者可以參照該范式構(gòu)建較大規(guī)模的語料庫,設(shè)置嚴(yán)密的選詞標(biāo)準(zhǔn),生成符合目標(biāo)的詞表。面對多份類似詞表,教學(xué)人員可以結(jié)合教學(xué)目標(biāo)自建語料庫或采用第三方語料庫,比較詞表的覆蓋率,同時觀察詞匯在通用語域和目標(biāo)語域的共選特征,決定是否將詞表中的通用詞匯納入教學(xué)范圍。 當(dāng)然,借助語料庫研制和選擇服務(wù)于課程教學(xué)目標(biāo)的詞表只是在教學(xué)實(shí)踐中應(yīng)用語料庫的一種方式,教學(xué)人員還可以參照個體課文驅(qū)動和具體詞網(wǎng)驅(qū)動范式,構(gòu)建服務(wù)于課文教學(xué)目標(biāo)和輸出技能提高的教學(xué)詞表。