国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語料庫的詞表創(chuàng)建原則及方法研究

2013-12-27 04:08崔維霞王均松
中國科技術語 2013年2期
關鍵詞:詞族詞匯表考克斯

崔維霞 王均松

(1.西安外國語大學,陜西西安 710061;2.西北工業(yè)大學,陜西西安 710129)

引言

詞表研究不僅是語言研究的重要組成部分,而且在外語教學領域也具有重要的應用價值。相關研究表明[1-3],并不是所有詞匯都具有同樣的重要性。根據(jù)齊夫定律(ZiPf's Law),在一個自然語言的語料庫中,一個詞的出現(xiàn)頻數(shù)和這個詞在這個語料庫中的排名成反比,第n 常見詞的出現(xiàn)頻率是最常見詞出現(xiàn)頻率的1/n。比如,在Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現(xiàn)的頻率為每百萬詞69 971 次,居于第二位的單詞“of”的頻率為每百萬詞36 411 次,約為“the”出現(xiàn)頻率的1/2,而居于第三位的“and”每百萬詞出現(xiàn)28 852次,約為“the”出現(xiàn)頻率的1/3。盡管這種比例不是十分精確,但卻能夠在總體上體現(xiàn)出語言使用的規(guī)律或特征。統(tǒng)計結果顯示,Brown 語料庫詞表中前135 個詞匯就占了整個語料庫的50%,前1000 個詞匯的覆蓋率為72%,前3000 個詞匯的覆蓋率為84%。也就是說,在自然文本語料庫中,少量的高頻詞所占的比例很高,而低頻詞的數(shù)目雖然多,但是覆蓋率相對較低。顯然,詞匯習得的順序也要遵循自然語言的規(guī)律,首先學習頻率較高的詞匯,然后學習頻率較低的詞匯,最大程度地減輕記憶負擔,提高學習效率。

然而,對處于不同階段和不同層次水平的學習者來說,詞匯的重要性是不同的。詞頻的高低并不是唯一的選詞標準,了解哪些參數(shù)會影響詞匯在詞表中的位置和順序,顯然對于課程設置、教材編寫和詞典編纂等方面有很大的幫助。因此,詞表的創(chuàng)建和研究具有重要的理論價值和實踐思義。

一 國內外詞表研究現(xiàn)狀

詞表的研制與開發(fā)歷史悠久,早在計算機出現(xiàn)之前,各國學者就開始手工創(chuàng)建用于編制工具書和指導語言教學的詞頻表,如德國學者凱定(F.W.Kaeding)1898 年編寫的《德語頻率詞典》、中國教育家陳鶴琴1928 年編制的《語體文應用字匯》以及美國的教育心理學家桑代克(Thorndike)1932 年出版的《教師兩萬詞詞匯手冊》等。這些詞表與今天計算機生成的詞表無異,甚至可以說是今天詞表的前身。自20 世紀50 年代以來,隨著計算機技術的不斷進步和語料庫語言學的迅速發(fā)展,國內外學者對于詞表研究表現(xiàn)出極大興趣,并且取得了豐碩的成果。

在當今的眾多詞表中,韋斯特(M.West)1953年公布的通用英語詞匯表(general service list,簡稱GSL)最具代表性和影響力[4],該詞表是基于一個500 萬詞規(guī)模的語料庫建成的,詞表中列出了英語中使用頻率最高、覆蓋面最廣的2000 個詞匯,掌握這些詞匯的學習者能夠聽懂90%~95%的口語對話,看懂80%~85%的日常語篇。該詞匯表的公布對當時的詞匯教學影響巨大,被稱作“20 世紀外語教學和詞匯研究最有創(chuàng)新思義的成果之一”[5]。另外一個享有較高聲譽的是新西蘭維多利亞大學從事語言學及應用語言學研究的考克斯黑德(Avreil Coxhead)于2000 年創(chuàng)制的學術詞匯表[6](academic word list,簡稱AWL),包括570 個詞族、3112 個詞項。這570 個詞族是在剔除韋斯特的2000 個通用詞族及專屬特定學術領域的詞匯之后獲得的,各學科共有的常用詞匯。該詞匯表包含了學術交流中實用頻率最高的詞匯,因此在國際上得到了廣泛的認可。

而在國內,早在20 世紀80 年代,上海交通大學楊惠中和黃人杰1982 年通過對自建的上海交通大學科技英語語料庫語料(簡稱JDEST)比較、統(tǒng)計和篩選,研究出基于該庫的正序詞表、詞頻詞匯表和十個分專業(yè)詞匯表,為確定大學英語教學大綱的詞匯表提供了可靠的量化依據(jù)[7]。近年來,專業(yè)領域語料庫的迅速發(fā)展為編制特點鮮明的專業(yè)英語教學詞表提供了有利的條件。如海軍航空工程學院曾依靠JDEST語料庫和英語國家語料庫,結合自身的教學目的,篩選確定了3000 個復用式詞匯作為詞匯教學的重點,收到了顯著的教學效果。嚴明于2010 年在黑龍江大學建設的商務英語語料庫(HUBEC)的基礎上開發(fā)了一系列的商務專業(yè)英語詞匯表,包括“商務英語專業(yè)參考詞匯表”“商務英語專業(yè)基礎參考詞匯表”“商務英語專業(yè)術語參考詞匯表”“商務英語專業(yè)縮寫詞表”,這些詞表的創(chuàng)建對于商務英語教學具有重要的指導價值[8]。

綜上所述,國內外學者在詞表方面的研究和探索為外語學習者和英語教師提供了極大的幫助,同時也為教材編寫、課程內容設計、測試開發(fā)以及詞典編纂提供了必要的參考依據(jù),詞表的開發(fā)與利用具有重要的現(xiàn)實思義和指導作用。本文以考克斯黑德的學術英語詞匯表為例探討基于語料庫的詞表開發(fā)與研制應遵循的原則和步驟。

二 詞表創(chuàng)建的原則與步驟

1.明確詞表創(chuàng)建目的或目標

在詞表創(chuàng)建之前首先要明確詞表的使用對象和研究目標,這將對詞表開發(fā)和應用中的一系列決策產生重要的影響。詞表設計者要從使用者的實際需求出發(fā),考慮使用者的范圍、層次和水平,因為不同的使用者對詞表的期望和需求是不同的。比如,初級學習者和高級學習者需求的詞表一定是有所不同的,專業(yè)技術人員和非專業(yè)技術人員需求的詞表也必然存在較大差異。此外,詞表的設計也不能脫離詞表具體的使用目的或用途,詞表在語言教學、課程設置、文本分析、語言測試等方面有廣泛的應用,在詞表創(chuàng)建時要結合具體的研究目的有針對性地制定設計方案??伎怂购诘聞?chuàng)建學術英語詞表的目標是幫助學習者解決在閱讀學術類文章時遇到的由于學術詞匯缺乏而造成的困難。學術詞匯頻繁出現(xiàn)在各專業(yè)領域的學術性文本中,雖然不能傳遞主要的學術信息,但是在表達學術觀點、闡釋研究活動、解釋研究結果時經常用到。雖然有學者質疑創(chuàng)建一個涵蓋各學科的學術詞表的可行性,但是大量的實驗結果顯示該詞表有良好的普適性,包括了很多以往語言教學中被忽視的重要學術詞匯,具有重要的價值。

2.選擇或自建合適的語料庫

語料庫是指“按照一定的語言學原則運用隨機抽樣的方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫”[9]。自計算機語料庫出現(xiàn)以來,絕大多數(shù)的詞表都建立在語料庫的基礎之上。語料庫的選擇和詞表研制的目標緊密相關,語料庫的構成必須能夠滿足詞表使用者的需求。如果要為青少年學習者設計詞表,那么語料庫就必須最大限度地包括青少年經常遇到和使用語言的典型用法。研究者可以選擇已有的語料庫來創(chuàng)建詞表,但是現(xiàn)有的語料庫大多根據(jù)設計者當時的需求設計,不一定能完全滿足現(xiàn)有研究的需求。比如,英國國家英語語料庫(簡稱BNC)是一個庫容為1 億詞匯的大型平衡語料庫,但是該語料庫的口語部分比較?。?000 萬詞),而且收集的語料都是英式成人英語,語體較為正式。

另一方面,詞表研究者也可以根據(jù)需要來自建語料庫,隨著語料庫語言學的發(fā)展和各種檢索軟件的出現(xiàn),個人通過自建語料庫來研制詞表已經成為潮流和趨勢。創(chuàng)建學術英語語料庫是考克斯黑德詞表研究的一個首要任務,因為當時沒有合適的學術英語語料庫可供選擇。在充分考慮代表性和典型性的基礎上,考克斯黑德建成了一個350 萬詞的學術英語語料庫,該語料庫分為人文、經濟、法律和科學4 個大類,然后又細分為28 個同樣大小的學科小類。每一類中長短文本的比例基本相當,而且文本的來源也十分廣泛,包括教科書、期刊文章以及操作手冊等。盡管如此,仍有學者批評其子庫的容量較?。ú蛔?3 萬詞),不能滿足所選詞匯出現(xiàn)在所有學科子類中的要求。但是,總體來講,學術英語語料庫可以較好地代表當時最新的學術英語書面語,是創(chuàng)建學術英語詞表的一個理想選擇。

3.確定詞頻統(tǒng)計單位

在討論詞頻統(tǒng)計單位之前,首先要區(qū)分幾個語料庫語言學中使用的相關術語。在語料庫語言學中常見的詞頻統(tǒng)計單位包括形符(token)、類符(word tyPe)、詞項(lemma)以及詞族(word family)。形符是一個語言單位,類似于我們日常說的“詞”,類符指不重復計算的形符數(shù),在文本中重復出現(xiàn)的形符只能記作一個類符,類符/形符比是衡量文本中詞匯密度的常用方法。詞項是由一個基礎詞(base word)與它的詞類相同的屈折形式(inflected forms)構成的一系列單詞,例如動詞access這個詞項就由基礎詞access和它的屈折形式accesses、accessed 和accessing構成,而詞族涵蓋的范圍更廣,不僅包括基礎詞及其屈折形式,還包括一系列的明顯派生詞,如accessible、inaccessible、accessibility等。

在詞表的研制過程中,詞頻統(tǒng)計單位的選擇和研究的目的密切相關??傮w來講,以接受知識為目標的詞表研制通常以詞族為統(tǒng)計單位,假設學習者能夠理解詞族中的一兩個詞匯,那么理解詞族中其他成員就不會有很大的困難,因為詞族中的成員無論是在形式上還是在思義上都是密切相關的。而在以產出知識為目標的詞表研究中,詞族單位并不適用,因為即使能夠正確使用詞族中的某個詞匯,并不思味著能夠正確使用詞族中的其他成員,因此詞項或類符應當是理想的詞頻統(tǒng)計單位。而考克斯黑德創(chuàng)建學術詞表的興趣主要在于學術文本的閱讀,所以選取詞族作為詞頻統(tǒng)計的單位。但某些時候學習者也需要產出學術詞匯,尤其是在寫作的過程中,因此也有人提出以詞項作為詞頻統(tǒng)計的單位。在具體的操作過程中可以考慮分別以類符、詞項和詞族為統(tǒng)計單位制作詞表,然后加以比較,選擇最佳的詞頻統(tǒng)計單位。

4.制定詞匯選取標準

詞頻(word frequency)是詞表選詞時一個非常重要的指標,出現(xiàn)頻率越高的詞匯在詞表中的位置就越靠前,相反出現(xiàn)頻率越低的詞匯在詞表中的位置就越靠后。但這并不思味著詞頻是唯一的參照標準。在具體的實踐中,詞表的設計者通常把詞匯的跨文本分布情況(range)和詞頻綜合加以考慮。

考克斯黑德在學術詞匯表選詞時制定了以下三個原則:(1)特定出現(xiàn)的領域:詞族須為韋斯特編制的GSL前2000 詞匯外的詞匯;(2)詞匯的跨文本分布情況:詞族必須在該語料庫4 個子庫中至少出現(xiàn)10 次,并出現(xiàn)于28 小類中至少15 小類;(3)詞頻:詞族在語料庫中最低詞頻為100 次。按照這個標準,考克斯黑德編制完成了包括570 個詞族的“學術詞匯表”,根據(jù)這些詞族在學術英語語料庫中出現(xiàn)頻率的高低,考克斯黑德進一步將這些詞分成10 個子表:前9 個子表各包括60 個詞族,第10 個子表含30 個詞族。考克斯黑德之所以將詞頻放在跨文本分布之后是因為詞頻會受到文本篇幅較長和主題相關詞的影響。例如,在《柯林斯COBUILD英語詞典(第二版)》中,Yemeni和Lithuanian 被標記為高頻詞,可能就是因為該詞典所借助的語料庫中包含了大量來自20 世紀90 年代初報紙的材料。

此外,在創(chuàng)建詞表時經常會遇到一些特殊的詞匯,比如復合詞、專有名詞、縮略詞、外來詞等,它們是否應該被錄人詞表是設計者必須要考慮的問題。辨別哪些詞匯可以列人詞表,哪些詞匯應當排除在詞表之外,或者列人某個單獨的詞表時應遵循的一個主要原則就是學習負擔原則。該原則的主要內容是,如果一個詞匯不需要先前的知識(如專有名詞)就可以理解其思義,或者從先前的知識可以推導出其思義(如一些詞匯的屈折形式或明顯復合詞),那么就不應當列人詞表中作為詞條。對于明顯復合詞來說,既可以參照BNC語料庫詞表的做法把它們單獨列人一個詞表,也可以歸到復合詞中出現(xiàn)頻率較低的那個詞匯的詞族中,例如lifesPan這個復合詞就可以歸到sPan 這個詞條中,作為它的詞族成員。但需要特別注思的是很多復合詞并非明顯復合詞,復合詞的思義并不能通過其組成部分詞匯的思義推導出來,(如doughnut、ladybird、walkman 等),這些詞匯應當納人到詞表中。專有名詞包括特定的人名、地名、機構名稱等,在選詞時通常被歸到一個單獨的列表中。但是國名、國民的總稱以及國家使用的語言則納人到普通名詞表中,這是因為此類專有名詞要比其他的專有名詞更多依賴讀者的先驗知識。此外,這類詞表存在的一個很大的問題就在于其中相當一部分詞匯(如Smith、Bill、Fanny、Bush 等)既是專有名詞又是普通名詞,這在文本分析時需要特別關注。外來詞和縮略詞也是詞表研制過程中經常遇到的詞匯,前者通常被納人到詞表中,而后者則往往被排除在詞表之外單獨列表??伎怂购诘抡J為在以上幾類詞匯中,專有名詞大多與主題密切相關,不能與常用的學術詞匯等同視之,因此將此類詞匯排除在詞表之外。

5.詞表評估與測試

詞表一旦建成就可以對其效度和適用性進行評估。詞表一般在其來源的語料庫中測試結果良好,但是真正的測試或評估必須在一個獨立的語料庫中進行。最理想的情況是,這個獨立的語料庫與來源語料庫類型相同、大小相似、內容卻不同。還有一種方法就是將來源語料庫分為兩個子庫,然后分別抽取詞表并進行比較。為了驗證該詞表的可靠性和準確性,考克斯黑德使用了兩個不同的語料庫對學術英語詞表進行測試,一個是非學術的小說文本語料庫,另一個則是學術文本語料庫。測試結果顯示,該詞表在非學術英語語料庫的覆蓋率較低,僅為2%;而在學術英語語料庫的覆蓋率約為10%,這說明學術英語詞表不是一個通用詞表而是一個專業(yè)詞表。與之前的詞匯表相比,學術英語詞匯表在學術用途英語教學方面具有突出優(yōu)勢和重要思義。但是關于該學術英語詞匯表,學者們也有一些不同思見。吳瑾和王同順基于上海交大科技英語語料庫(JDEST)從詞匯的覆蓋率、頻率等角度考察和分析該詞表在科技英語教學領域的適用性[10]。研究結果表明,AWL所包含的570 個學術詞族雖然總體上也同樣適用于自然與理工學科,但由于Coxhead 學術英語語料庫在所選專業(yè)方面的側重,AWL中有57 個詞族的子表位置相對于它們在以JDEST為基礎產生的子表位置有顯著差異。據(jù)此,建議在科技英語教學中參考研究結果,根據(jù)學生所學專業(yè),對AWL中57 個詞族所在子表的順序和內容做適當調整。

三 未來研究的方向和重點

1.現(xiàn)有詞表的維護與升級

通用英語詞表自韋斯特提出之后,適用性一直非常好。但是隨著信息時代的到來,語言變化的速度越來越快。在過去60 年中,各個行業(yè),尤其是IT行業(yè)的發(fā)展催生了很多新的詞匯(如web、e-mail、Internet等),并逐漸演變?yōu)槿粘=浑H中頻繁使用的核心詞匯;而有些詞匯隨著時間的推移使用頻率越來越低,變得陳舊過時,但這些變化大多沒有在該詞表中得以體現(xiàn)。為了及時反映語言發(fā)展的最新動態(tài),有必要對該詞表進行維護和升級。另一方面,隨著語料分析和索引工具的不斷完善和強大,可以考慮在詞表中適當增加一些其他數(shù)據(jù),如搭配、分布、覆蓋率等信息輔助語言教學和研究。

2.專用詞表的研制與開發(fā)

詞表的研制和設計與研究目的密切相關,沒有一個終極詞表可以滿足研究者的所有需要。根據(jù)不同的研究目的可以研制各種類型的專用詞表,滿足不同人群的需要。比如,提供一個面向兒童學習外語的詞表將會非常實用;同樣,創(chuàng)建各個專業(yè)領域的詞表(如法律、商務、醫(yī)學、旅游等)也會給該領域的從業(yè)人員和學習者提供巨大的幫助。但是無論創(chuàng)建何種類型的詞表,都要首先考慮兩個最基本的問題:一是基于什么類型的語料庫來研制當前的詞表? 二是選詞的標準除了詞匯的跨文本分布情況和詞頻之外是否還有其他的標準可以參照?效度和適用性如何?

四 結語

詞表創(chuàng)建的歷史非常悠久,迄今為止詞表研究在課程設置、語言教學、詞典編纂等諸多領域已經取得了豐碩的成果。隨著計算機技術的進步和語料庫語言學的興起與發(fā)展,基于語料庫的詞表研究已經成為當前的主流和趨勢。本文以Coxhead 的學術詞表為例討論了基于語料庫的詞表創(chuàng)建應遵循的原則和步驟,主要包括明確詞表創(chuàng)建的目的或目標,選擇或自建合適的語料庫,確定詞頻統(tǒng)計單位,制定詞匯選取標準以及對詞表進行評估與測試五個方面。但需要注思的是這幾個方面并非是孤立的,而是相互聯(lián)系相互影響的統(tǒng)一整體。其中詞表創(chuàng)建的目的和目標是基礎,語料庫的選擇、選詞的標準、詞頻單位的確定都要和研究目的緊密結合,受其制約;反過來,正確的選擇、合理的評估與測試可以促使設計者不斷修改和完善現(xiàn)有的詞表,更好地實現(xiàn)詞表創(chuàng)建的目標。

猜你喜歡
詞族詞匯表考克斯
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
“鋌”有“直”義的詞源學解釋——兼說/直/義的同源詞族
常爸:學好“詞族”,英語詞匯量能猛增
“X系”詞族初探
當代新詞“微X”詞族的多維考察
詞匯表
詞匯表
詞匯表