国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詞頻研究新成果——《當代美語頻率詞典:詞匯素描、搭配和主題詞表》評介*

2013-06-01 08:03朱玉彬
辭書研究 2013年4期
關(guān)鍵詞:詞目語域主題詞表

朱玉彬

章宜華、雍和明(2007:406)指出:“從語言內(nèi)容處理上講,當代詞典學需要有認知學、社會學、語言學包括詞匯學、語義學、句法學、語用學以及翻譯學等學科的理論支持;從語言處理的技術(shù)上講,需要計算機科學、信息學、統(tǒng)計學以及語料庫的支持?!边\用計算機技術(shù)進行詞典編纂,是當代詞典學的一個重要特征,而詞頻詞典的編纂更離不開計算機技術(shù)的支持。作為勞特里奇(Routledge)系列頻率詞典的一種,美國楊百翰大學(Brigham Young University)語言學和英語語言系Mark Davies教授、Dee Gardner副教授編纂的《當代美語頻率詞典:詞匯素描、搭配和主題詞表》(A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists;以下簡稱《當代美語頻率詞典》)于2010年2月出版[1]。這是一部利用語料庫和自然語言處理技術(shù)編纂的,可供美語學習者、英語教師及語言研究者參考的實用工具書。該書展現(xiàn)的5000常用詞的頻率、搭配等語言信息基本反映了當代美語使用的真實情況。

一、主要內(nèi)容

本詞典的核心部分是詞目索引,即在當代美國英語中最為常用的5000個詞按照不同的分類標準分成三種類型的索引。其中主索引是優(yōu)化后按照由高到低的頻次順序排列的

5000個詞目詞(詞匯原型,即lemma[2]),每個詞目詞包含信息如下:

詞目序號(1,2,3,…5000) 詞目詞 詞性

搭配詞(按照詞性歸類,每類搭配詞又按照頻率由多到少的順序排列)

原始頻次 |散布指數(shù)(0.00—1.00)(語域標記:S—口語,F(xiàn)—小說,M—雜志,N—報紙,A—學術(shù)期刊)

例如第2203號詞目:

2203 enable v

noun.student,system.,technology.,program.,teacher,.user,information,.researcher,skill.,software.,.individual,process.,development,.scientist,tool.miscwill.,.us,develop,design.,thus.

15117|0.91 A

在enable這一詞條中,noun表示可在中心詞enable前后各四詞的范圍內(nèi),構(gòu)成搭配同現(xiàn)結(jié)構(gòu)的名詞,其中最常見的搭配同現(xiàn)詞是student;misc表示其他一些詞性的搭配同現(xiàn)詞。這里所有的搭配同現(xiàn)詞也都是詞匯原型,并按照由高到低的出現(xiàn)頻次排列。一些搭配同現(xiàn)詞前后的“.”表示中心詞所在位置,如“.scientist”表示enable scientists。詞條末尾的語域標記(本例為A,即學術(shù)期刊語域)不是每一個詞條都有,只有當某一詞匯原型在某一個語域中出現(xiàn)的頻率至少是其在整個語料庫中出現(xiàn)頻率的一半時,才使用相應(yīng)的一個或幾個語域符號標示出該詞匯原型出現(xiàn)頻率最高的語域。因此,像the,break等通用詞是沒有語域標記的。關(guān)于修正詞匯原型原始頻次的散布系數(shù)(本例為0.91)將在下一節(jié)介紹。

第二個索引是字母順序索引,即按照英文字母表的順序排列這5008個詞目,每個詞目的格式如下:

中心詞 詞性 詞目序號(與主索引的詞目序號一致)

其后的第三個索引是詞性索引,即按照英語的基本詞性(如動詞、名詞、形容詞等)將上述詞目分類,每個詞類中的詞目按照主索引的詞目序號升序排列,即最常見的詞目(詞目序號最小)排在最前面。每個條目的格式如下:

詞目序號(與主索引的詞目序號一致) 中心詞

這三個索引通過詞目序號連成一體,其中主索引所占的頁數(shù)將近另外兩個索引總頁數(shù)的四倍。

筆者根據(jù)該詞典前面的縮略符號(p.ix)將詞典詞目分成三大類,分別統(tǒng)計如下:

實義詞統(tǒng)計表*

功能詞統(tǒng)計表*

語法標記(詞)統(tǒng)計表*

三大類詞匯各自所占比重

此外,《當代美語頻率詞典》前后共收錄了31個主題詞表。其中有關(guān)于動物、身體部位、服飾、顏色、情感等的主題詞表15個,每個主題詞表中的詞目按照出現(xiàn)頻次降序排列。如“動物”主題詞表列舉了前80個詞,并在每個詞的右下角給出了該詞在整個語料庫中的原始頻次,前面五個依次為:dogn49897,fishn41277,birdn35610,horsen30042,chickenn23955(p.15)。由于一些表示動物的詞有比喻義,或是一些體育運動隊的吉祥物,它們實際的使用頻次可能會增加,編纂者細心地為這些詞語加了圓括號,如排于該主題詞表中第20位的pig8048等(p.15)。接著是口語、小說、流行雜志、報紙、學術(shù)期刊這五種語域的主題詞表5張,然后是11張關(guān)于英語語言知識的主題詞表,包括美語新詞、美式英語和英式英語、不規(guī)則名詞復數(shù)、短語動詞、單詞長度(Zipf定律)等主題詞表,每個詞表基本都按照原始頻次來排列詞目。這些主題詞表是極具價值的英語教學材料。

二、編纂特色

1.語料來源權(quán)威

詞頻詞典的質(zhì)量取決于供計算機抽取詞頻的語料庫的質(zhì)量。對于一個平衡語料庫來說,容量問題和代表性問題最為關(guān)鍵。《當代美語頻率詞典》的語言信息抽取自當代美語語料庫(Corpus of Contemporary American English,COCA)。該語料庫從1990年開始每年收錄2000萬詞的最新資料,包含超過15萬個文本文件,迄今為止已達4億詞,堪稱全球英語語料庫中的“巨無霸”(參見http:∥www.a(chǎn)mericancorpus.org)。它比1990年開始籌建的1億詞的美國國家語料庫(American National Corpus,ANC)還要大三倍,且美國國家語料庫目前也只完成了2200萬詞的收錄及詳細標注工作(參見http:∥www.a(chǎn)mericannationalcorpus.org)。鑒于當代美語語料庫按照年份每年收錄2000萬詞,完全可以將其作為當代美語的監(jiān)控語料庫。

就語料庫的代表性而言,該詞頻詞典編纂時,當代美語語料庫一共涵蓋了由五個語域構(gòu)成的五個子庫(pp.3—4):(1)口語子庫包括從150個電視與廣播節(jié)目的無腳本對話轉(zhuǎn)寫的文本,覆蓋全美主要的電視及廣播媒體,共7900萬詞;(2)小說子庫涵蓋從文學雜志、兒童雜志以及流行雜志搜集到的小說及戲劇文本,1990年至今出版的小說的第一版第一章和電影腳本,共7600萬詞;(3)雜志子庫覆蓋全美100多種雜志,按照年份和雜志類別共搜集8100萬詞;(4)報紙子庫包括全美10種主要報紙,按照不同版面分類搜集了7600萬詞;(5)學術(shù)期刊語域包括近100本同行評審的學術(shù)期刊,覆蓋了美國國會圖書館分類標準的全部代碼,每年抽取一定詞量形成本子庫的文本文件,共7600萬詞。因此,在這樣一個容量巨大(3.88億詞)、抽樣均衡的大型平衡語料庫的基礎(chǔ)上抽取的詞頻信息,是可以充分反映當代美語詞匯的使用情況的。

2.詞目排序科學

本詞典的詞目排序不是簡單地按照詞目的原始頻次降序排列,而是運用了自然語言處理技術(shù)中的“散布系數(shù)(dispersion index)”來優(yōu)化原始的詞匯頻次,這就形成了最終排序時采用的數(shù)值,其計算公式為“頻次值=原始頻次×散布系數(shù)”。因為一些詞目(特別是一些科技術(shù)語,如計算機術(shù)語cache)可能會較多出現(xiàn)在某一個或幾個語域中,若按照未經(jīng)修正的原始頻次排序,并不能充分反映語言使用的真實情況,而根據(jù)優(yōu)化后的詞目頻次重新排序,則可以大大減少誤差。

3.搭配信息豐富

自然語言處理領(lǐng)域中,運用信息論中的互信息(Mutual Information,MI)數(shù)值來測算兩詞或表達之間的同現(xiàn)關(guān)系是從20世紀90年代初開始的。Church&Hanks于1990年提出用“點互信息(Pointwise Mutual Information)”的方法計量單詞或表達式的同現(xiàn)情況。具體而言就是,設(shè)定一個語料庫中的兩個單詞w1和w2,P(w1,w2)和freq(w1,w2)表示兩詞同現(xiàn)的概率和頻次,P(w1)和freq(w1)是w1在整個語料庫中單獨出現(xiàn)的概率和頻次,P(w2)和freq(w2)是w2單獨出現(xiàn)的概率和頻次,N是語料庫的總詞數(shù),則單詞w1和w2共現(xiàn)的互信息其實就是兩個詞語共現(xiàn)概率除以兩詞單獨出現(xiàn)概率乘積的對數(shù),公式演算過程如下:

在自然語言處理領(lǐng)域,研究者發(fā)現(xiàn)互信息在稀疏數(shù)據(jù)集上會出現(xiàn)很大問題,即對于那些出現(xiàn)頻次較低的單詞而言,不能達到預期的測試效果(Manning&Schütze 1999/2003:182)。有研究者建議將詞頻的最小值設(shè)定為3,即只關(guān)注出現(xiàn)頻次在3次以上的兩個詞語之間的互信息,但是這也不能完全解決互信息的一些問題(Manning&Schütze 1999/2003:182)。因為互信息在本質(zhì)上是“測量兩詞語間互不相關(guān)性的一種好方法”(Manning&Schütze 1999/2003:182)。盡管互信息在測量兩個詞語的同現(xiàn)情況方面不是十分理想,但使用互信息的一個顯著優(yōu)勢是可以提供更多的搭配同現(xiàn)信息。因為“互信息的數(shù)值越接近0,則說明兩詞越是獨立出現(xiàn)”(Manning&Schütze 1999/2003:182),即兩詞之間共現(xiàn)的可能性越小;反之,數(shù)值越大,則說明這兩個詞語越會在一起出現(xiàn)。具體到實際操作中,《當代美語頻率詞典》的編纂者編寫出一個程序去檢索整個語料庫,然后統(tǒng)計出包括節(jié)點詞(node word)及其前后四個詞在內(nèi)的序列(共計9個詞的檢索行)的總頻次,然后邀請至少四名本族語為美語的使用者進行人工鑒別(p.6)。之后為了獲得更多有效的搭配信息,兩位編者通過初步的抽樣試點計算之后將互信息臨界值設(shè)定為2.5(p.6),這樣可以包括更多的同現(xiàn)詞,最后確定錄入本詞典中每個詞目的搭配詞。

4.電子資源配套

特別值得一提的是,本詞典還配備供不同使用者使用的電子版本。電子版在收詞數(shù)目、搭配同現(xiàn)詞的數(shù)量等方面均與紙質(zhì)版有所不同。電子介質(zhì)的詞典又有三種版本:PDF版本、txt文本文件版本和Excel表格版本,且區(qū)分了商用和學術(shù)研究用的購買價格。該詞典的電子版本最多收錄了2萬個詞目,每個詞目帶有200~300個搭配詞,提供了非常豐富的搭配信息。(參見 http:∥www.wordfrequency.info/purchase.a(chǎn)sp)

三、不足之處

《當代美語頻率詞典》也有一些問題:

(1)詞典“縮略符號”一頁提供的詞目加起來一共有5045個(參見本文第一節(jié)的最后一張統(tǒng)計表格),這與詞典正文部分收錄的5000個最為常用的詞目在數(shù)目上有些差異。在詞典的三個索引中,兼類詞按照詞性單獨列為詞典詞目,并單獨配有相應(yīng)的詞目序號,所以不可能出現(xiàn)不同詞性的詞同屬一個詞目而造成詞匯數(shù)目“縮水”。筆者曾就此發(fā)電子郵件咨詢過主編Davies教授。Davies教授指出:《當代美語頻率詞典》的正文是5000條詞目,確實比根據(jù)詞典前面的詞類縮略符號一頁提供的數(shù)據(jù)統(tǒng)計出的結(jié)果少了1%左右的詞目,但這不影響整部詞典統(tǒng)計數(shù)據(jù)的可靠性。筆者推測,這一問題可能是因截取點定在第5000個詞目后,沒有相應(yīng)地修改“縮略符號”頁上提供的詞目數(shù)造成的。

(2)關(guān)于“冠詞”類中詞目擴大化的問題,筆者也曾向Davies教授求教。Davies教授指出,在前2萬個詞目中,屬于冠詞范疇的詞目依次為(括號內(nèi)的數(shù)字是根據(jù)當代美語語料庫算出的最新詞目序號):the(1),a(5),his(25),their(36),her(42),my(44),your(69),its(78),our(79),no(93),every(172),thy(10226),his/her(12456),yer(19414),并進一步指出其理據(jù)來源于蘭開斯特大學開發(fā)的CLAW賦碼器的第七版賦碼集(C7 Tagset)(參見http:∥ucrel.lancs.a(chǎn)c.uk/claws)對于此類詞匯的賦碼。筆者查看了C7賦碼集,上述這些詞匯的賦碼為:

這三個詞類的確都是以A開頭的,AT1作為AT的一個相關(guān)詞類,包含了a和an這兩個傳統(tǒng)語法界定的“不定冠詞”。但是,將APPGE歸入“冠詞”的做法畢竟有違一般的語法觀念。基于語料庫編纂的《朗文英語口語和筆語語法》(Biberet al.1999/2000)用不同術(shù)語指稱這些詞:definite article(the),indefinite article(a,an),possessive determiner(his,your)和quantifier(no)。因此,對“冠詞”范疇擴大化的問題還是有必要向讀者做出一些說明的,不然很多讀者會產(chǎn)生疑惑。比如可以從這幾類詞的功能上加以說明,他們都能修飾名詞,并對被修飾的詞加以限制說明。

(3)《當代美語頻率詞典》的數(shù)據(jù)基礎(chǔ)是詞匯形式的出現(xiàn)頻率,而不是其語義的出現(xiàn)頻率。盡管兩位編纂者根據(jù)詞性對搭配詞進行了歸類,但是它們最多只能反映出詞匯語義的粗顆粒度差異,對于詞匯語義的細顆粒度差異,還需要真正基于語義標注的大型平衡語料庫助一臂之力。其實這也是大多數(shù)基于形式出現(xiàn)頻率編纂的詞頻詞典的共同缺陷。值得關(guān)注的是,現(xiàn)在國際上已有很多研究者正在積極地進行詞匯句法語義標注的理論研究與工程實踐,希望將來研究者可以編纂出實用的語義頻率詞典。

上述問題不過是《當代美語頻率詞典》這塊美玉上的幾個瑕疵。能從一個4億詞(最初編制的主索引是從3.8億詞的語料庫中抽取,參見Davies 2009)的當代美語語料庫中提取如此豐富準確的詞頻信息,單就這一項艱辛的工作來說已實屬不易。黃昌寧和李娟子(2002:172)指出:詞頻統(tǒng)計信息在“決定詞典的收詞,編寫語言教科書和開發(fā)自然語言處理系統(tǒng)的機器詞典等諸多方面都有重要的參考價值”?!懂敶勒Z頻率詞典》向語言學習者、語言教師及研究者提供了當代美語詞匯使用的實際情況,其應(yīng)用價值是不言而喻的。希望國內(nèi)研究者可以充分利用這部詞典的研究成果,并結(jié)合在英國國家語料庫基礎(chǔ)上編纂的《英語書面語與口語的詞匯頻率》(Leechet al.2001)一書,在英語教學、英漢詞典編纂與語言研究中取得更多的成果。

附 注

[1]本文直接引證《當代美語頻率詞典:詞匯素描、搭配和主題詞表》的有關(guān)內(nèi)容時,只標出頁碼(如:p.6)。

[2]有研究者將lemma譯為“削尾詞”,這里我們稱為“詞匯原型”。

1.黃昌寧,李娟子.語料庫語言學.北京:商務(wù)印書館,2002.

2.章宜華,雍和明.當代詞典學.北京:商務(wù)印書館,2007.

3.Biber D.et al.Longman Grammar of Spoken and Written English.Beijing:Foreign Language Teaching and Research Press,1999/2000.

4.Church K W,Hanks P.Word Association Norms,Mutual Information,and Lexicography.Computational Linguistics,1990(1):22—29.

5.Davies M.The 385+Million Word Corpus of Contemporary American English(1990—2008+):Design,Architecture,and Linguistic Insights.International Journal of Corpus Linguistics,2009(2):159—190.

6.Davies M,Gardner D.A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists.London/New York:Routledge,2010.

7.Leech G.et al.Word Frequencies in Written and Spoken English Based on the British National Corpus.London:Longman,2001.

8.Manning C D,Schütze H.Foundations of Statistical Natural Language Processing.Cambridge:The MIT Press,1999/2003.

9.Oakes M P.Statistics for Corpus Linguistics.Edinburgh:Edinburgh University Press,1998.

猜你喜歡
詞目語域主題詞表
藏語傳統(tǒng)辭書詞目編排法探析
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
日語中“V1+V2型復合名詞”的分類
——基于《廣辭苑》從有無對應(yīng)動詞形角度
意義隱喻與語域的關(guān)系——基于自建英語新聞?wù)Z料庫的研究
《漢語大詞典》漏收宋代筆記詞目補釋
淺析語域的特性及教學模式探討
《漢語新詞新語年編2003-2005》詞目年代研究——兼論《編年本〈漢語新詞語〉系列詞典部分詞目的著錄年代》