語料庫時(shí)代的漢語中型語文詞典出版狀況研究*

2017-01-26 13:31李仕春

中國出版 2017年3期

□文│李仕春

釋義是詞典的靈魂，多義詞的釋義更是重中之重，古今中外辭書最大的差別就在多義詞的釋義方面。文章主要在漢英語文詞典的視角下，以多義詞的釋義為切入點(diǎn)，研究漢語中型語文詞典的出版狀況。

在中國辭書史上，一詞多義的現(xiàn)象首先見于漢代《說文解字》，其釋義特點(diǎn)是據(jù)形釋義、一詞一義，偶爾涉及一詞多義，多義詞和單義詞的區(qū)分并不明顯。此后，經(jīng)歷代字書、韻書的發(fā)展，漢語辭書中多義詞和單義詞的區(qū)分越來越明顯，清代《康熙字典》則已收錄了大量多義詞。古代詞典對(duì)多義詞的釋義基本是隨文釋義性質(zhì)的，很不科學(xué)。20世紀(jì)以后，中國出現(xiàn)了以《現(xiàn)代漢語詞典》（下文簡(jiǎn)稱《現(xiàn)漢》）為代表的一批具有現(xiàn)代意義的詞典，這一時(shí)期多義詞義項(xiàng)的劃分比較科學(xué)、合理，缺點(diǎn)是由于靠語感確定多義詞的義項(xiàng)，因此詞典中多義詞義項(xiàng)存在收錄不全的情況。以上便是漢語多義詞義項(xiàng)劃分在中國歷代詞典中的縮影，也可以說它是20世紀(jì)80年代以前，世界各國詞典對(duì)多義詞義項(xiàng)劃分從無到有、從釋義不科學(xué)到釋義科學(xué)的一個(gè)縮影。然而，世界語言學(xué)自20世紀(jì)五六十年代進(jìn)入語料庫時(shí)代后，詞典編纂發(fā)生了革命性的變化。

一、英語中型語文詞典的出版狀況

張志毅先生指出：“ 語料庫理念萌生于1959年倫敦大學(xué)語言學(xué)教授夸克（R. Quirk），幾年間建起涵蓋多種語體的上百萬字的‘英語用法語料庫’。1961年美國布朗大學(xué)建起第一個(gè)機(jī)讀的逾百萬字的‘布朗語料庫’。從20世紀(jì)80年代起，柯林斯等出版社和伯明翰等大學(xué)合作，創(chuàng)建了‘CO-BUILD（資源共建）語料庫’，由此開發(fā)了《柯林斯COBUILD英語詞典》?！杜＝蚋唠A英語學(xué)習(xí)詞典》《朗文當(dāng)代高級(jí)英語辭典》《錢伯斯基礎(chǔ)英語詞典》等的最新版本，也都是以語料庫為依托編寫而成?！盵1]語料庫的重要作用就在于可以讓詞典編纂者在短時(shí)間內(nèi)占有大量語料，進(jìn)而通過對(duì)海量語料的窮盡性分析使詞典中多義詞義項(xiàng)的收錄更加全面、科學(xué)、合理，因此語料庫的誕生使20世紀(jì)的詞典編纂明顯分為兩個(gè)時(shí)期：靠語感編纂的時(shí)期和運(yùn)用語料庫技術(shù)編纂的時(shí)期。20世紀(jì)80年代以前，由于沒有大型語料庫，詞典編纂者占有的語料有限，因此英語中型語文詞典中常用詞的義項(xiàng)劃分往往比較粗疏、存在漏收的情況；20世紀(jì)80年代以后，由于詞典編纂者能夠占有足夠的語料，英語中型語文詞典中常用詞義項(xiàng)的收錄往往比較全面、基本不存在漏收的情況，這種現(xiàn)象可以用數(shù)據(jù)來證明。為了便于操作，筆者以100核心詞在英語多部中型語文詞典中的平均義項(xiàng)為例做說明。

《牛津高階英語詞典》（本文簡(jiǎn)稱《牛津》）1948年發(fā)行第1版，此后，分別在1963年、1974年、1989年、1995年、2000年、2005年、2012年出了修訂版，共有8個(gè)版本。從歷時(shí)角度看，《牛津》第1～8版中100核心詞的平均義項(xiàng)分別是7.55個(gè)、7.91個(gè)、7.03個(gè)、8.25個(gè)、8.47個(gè)、10.2個(gè)、10.47個(gè)、10.61個(gè)，這表明《牛津》第1～8版的修訂者20世紀(jì)八九十年代把用語料庫技術(shù)豐富補(bǔ)充常用詞的義項(xiàng)作為重點(diǎn)修訂對(duì)象，其標(biāo)志是出版于1974～2000年的第3、4、5、6版中100核心詞的平均義項(xiàng)數(shù)目變化較大，而這段時(shí)間正是語料庫技術(shù)運(yùn)用于詞典編纂中的時(shí)間段。以此作為分界線，出版于1948～1974年的第1、2、3版中100核心詞的平均義項(xiàng)數(shù)目基本沒有變化，這是由于這段時(shí)期大型英語語料庫還沒有建成，所以這三版中多義詞義項(xiàng)的劃分還處在靠語感編纂的階段。2000～2012年的第6、7、8版中100核心詞的平均義項(xiàng)數(shù)目基本穩(wěn)定下來，這說明經(jīng)過20多年的修訂，《牛津》詞典編纂者在2000年就已經(jīng)完成了用語料庫技術(shù)豐富并補(bǔ)充英語語文詞典中多義詞義項(xiàng)劃分的任務(wù)。

從共時(shí)的角度看，其他英語中型語文詞典的編纂也大致經(jīng)歷了與《牛津》同樣的過程。例如，在最新出版的英語類中型語文詞典中，100核心詞的平均義項(xiàng)分別是：《牛津簡(jiǎn)明英語詞典》（第10版）12.81個(gè)，《麥克米倫高階英語詞典》（第2版）11.68個(gè)，《韋氏高階英語詞典》（2009年）11.43個(gè)，《郎文當(dāng)代英語詞典》（第4版）10.35個(gè)。這說明，目前占據(jù)英語辭書主要市場(chǎng)的牛津、韋氏、朗文與麥克米倫等英語詞典的最新版本都是在語料庫的基礎(chǔ)上編成的。

與傳統(tǒng)憑借語感編纂的詞典相比，建立在語料庫技術(shù)基礎(chǔ)上的英語類中型語文詞典在多義詞義項(xiàng)劃分方面更加細(xì)化、義項(xiàng)收錄更加全面，在詞典編纂史上實(shí)現(xiàn)了里程碑式的跨越發(fā)展。

二、漢語中型語文詞典的出版狀況

20世紀(jì)90年代以來，中國相繼建設(shè)了一批漢語語料庫，最有代表性的如北京大學(xué)中國語言學(xué)研究中心研制的語料庫（Center for Chinese Linguistics PKU，簡(jiǎn)稱“CCL語料庫”），截止到2016年9月6日規(guī)模已達(dá)7.83億字；北京語言大學(xué)漢語國際教育技術(shù)研究中心研制的北京語言大學(xué)現(xiàn)代漢語語料庫（Beijing Language and Culture University Chinese Corpus，簡(jiǎn)稱“BCC現(xiàn)代漢語語料庫”），規(guī)模已達(dá)100億字。可以說，目前我國的語料庫已經(jīng)初步具備了詞典編纂所需要的規(guī)模，盡管如此，在當(dāng)今中國，用語料庫技術(shù)發(fā)現(xiàn)漢語多義詞新義項(xiàng)的方法還沒有引起漢語詞典編纂者的足夠重視。為了說明這種情況，筆者以與英語100核心詞相對(duì)應(yīng)的漢語100核心詞在有代表性的漢語中型語文詞典中的平均義項(xiàng)為例做說明。

《現(xiàn)代漢語詞典》是一部中型語文詞典。該詞典1956年由國家立項(xiàng)，1958年6月正式開編，1960年印出“試印本”征求意見，1965年印出“試用本”送審稿，1973年內(nèi)部發(fā)行，1978年正式發(fā)行第1版?！冬F(xiàn)漢》正式出版后，分別在1983年、1996年、2002年、2005年、2012年出了修訂版，共有6個(gè)版本。從歷時(shí)的角度看，《現(xiàn)漢》第1～6版中100核心詞的平均義項(xiàng)分別是4.85個(gè)、5.20個(gè)、5.18個(gè)、5.18個(gè)、5.20個(gè)、5.42個(gè)，上述數(shù)字說明《現(xiàn)漢》第1～6版中100核心詞的平均義項(xiàng)數(shù)目基本沒有變化，這表明《現(xiàn)漢》第1～6版的詞典修訂者并沒有把豐富補(bǔ)充多義詞的義項(xiàng)作為重點(diǎn)修訂對(duì)象。

此外，進(jìn)入21世紀(jì)以來，中國先后出版了幾部有代表性的漢語中型語文詞典，主要有由李行健主編，外語教學(xué)與研究出版社、語文出版社聯(lián)合出版的《現(xiàn)代漢語規(guī)范詞典》（2004），先后出版3版；商務(wù)印書館辭書研究中心編，商務(wù)印書館出版的《現(xiàn)代漢語學(xué)習(xí)詞典》（2010）等。從共時(shí)的角度看，在最新出版的漢語類中型語文詞典中，100核心詞的平均義項(xiàng)分別是：《現(xiàn)代漢語規(guī)范詞典》（第3版）5.68個(gè)，《現(xiàn)代漢語學(xué)習(xí)詞典》（2010版）5.7個(gè)。由此可見，在漢英100核心詞中，漢語中型語文詞典中每個(gè)核心詞的平均義項(xiàng)比英語中型語文詞典少5或6個(gè)。這說明，在最新出版的漢語中型語文詞典中，100核心詞乃至更多多義詞義項(xiàng)的劃分并沒有建立在大型語料庫的基礎(chǔ)上進(jìn)行成規(guī)模地系統(tǒng)修訂，從而導(dǎo)致漢語中型語文詞典義項(xiàng)的劃分比較粗疏、存在漏收的情況。

三、漢語中型語文詞典的修訂建議

目前英美等辭書強(qiáng)國已經(jīng)完成了用語料庫技術(shù)研究英語常用詞義項(xiàng)分布情況的工作，而中國的語文詞典還沒有展開這項(xiàng)工作，因此，這是一項(xiàng)亟待展開的工作。與以往憑借語感，劃分多義詞義項(xiàng)不同，用語料庫技術(shù)劃分多義詞義項(xiàng)有以下優(yōu)點(diǎn)。

1.方法先進(jìn)

用語料庫技術(shù)研究常用詞義項(xiàng)分布的最大貢獻(xiàn)就在于把語料庫技術(shù)也即把上百億倍的搜集語料的方法引進(jìn)到詞匯學(xué)、詞典學(xué)研究中來，這在中國詞典學(xué)史、詞匯學(xué)史乃至語言學(xué)史上具有里程碑式的、劃時(shí)代的方法論意義。

以“黑”為例：用語料庫檢索的方法可以在16毫秒的時(shí)間內(nèi)得出“黑”在北京大學(xué)CCL現(xiàn)代漢語語料庫中有130831條。假設(shè)用人工閱讀的方法查找1條含有“黑”字的語句需要用1個(gè)小時(shí)（實(shí)際上有時(shí)候不止1個(gè)小時(shí)），那么要找130831條“黑”字語料則要用130831小時(shí)。經(jīng)過計(jì)算可以知道查找同樣多的語料，用語料庫技術(shù)的方法約是人工閱讀的290多億倍，簡(jiǎn)直是神速。

2.語料海量

已有漢語類中型語文詞典的釋義基本依靠語感通過做卡片的方式編纂，每個(gè)詞占有的語料非常有限，而用語料庫技術(shù)的方法可以在極端的時(shí)間內(nèi)獲得海量語料。對(duì)大多數(shù)常用詞義項(xiàng)的考察，可以根據(jù)具體情況的不同，分類下載語料。例如，對(duì)于諸如像走、跑、跳、紅、黃、綠等使用頻率高、構(gòu)詞能力強(qiáng)、義項(xiàng)豐富的核心詞，我們只有在下載3萬條共計(jì)160多萬字語料的基礎(chǔ)上進(jìn)行研究，才能研究清楚其義項(xiàng)分布情況；而對(duì)于像思、抓、咬、講、緊等使用頻率較高、構(gòu)詞能力較強(qiáng)、義項(xiàng)較豐富的常用詞，可以在下載2萬條共計(jì)100多萬字語料的基礎(chǔ)上進(jìn)行研究，就可以發(fā)現(xiàn)其全部義項(xiàng)了；對(duì)于像豬、牛、羊、芽、樹等常用詞，只要下載1萬條共計(jì)50多萬字的語料進(jìn)行研究就可以了。

李仕春《基于語料庫的現(xiàn)代漢語“黃”字義項(xiàng)分布研究》[2]等系列論文就介紹了運(yùn)用語料庫技術(shù)研究現(xiàn)代漢語常用詞義項(xiàng)分布的具體方法。總之，我們的系列論文證明漢語類中型語文詞典核心詞的平均義項(xiàng)與英語類中型語文詞典核心詞的平均義項(xiàng)基本一致。

新理論新方法是推動(dòng)一門學(xué)科進(jìn)步的兩大引擎，正因?yàn)橛谜Z料庫技術(shù)研究常用詞義項(xiàng)分布具有劃時(shí)代的方法論意義，所以把語料庫技術(shù)和詞典編纂結(jié)合起來成規(guī)模地、系統(tǒng)地研究現(xiàn)代漢語常用詞的義項(xiàng)分布，是一項(xiàng)亟待展開的重大基礎(chǔ)應(yīng)用研究項(xiàng)目。只有這樣，才能盡快完成豐富并補(bǔ)充漢語中型語文詞典中多義詞義項(xiàng)的目的。

四、結(jié)語

相對(duì)于以往漢語詞典靠語感確定多義詞義項(xiàng)的情況來講，充分利用語料庫資源和計(jì)算機(jī)強(qiáng)大的計(jì)算功能研究現(xiàn)代漢語中常用詞的義項(xiàng)分布情況，是一座非常誘人的學(xué)術(shù)富礦，有著巨大的挖掘潛力。張志毅先生指出：“今天的語料庫已經(jīng)成為能量巨大的語言樣本集。它正在印證、充實(shí)、修訂、改寫甚至顛覆以往的辭書釋語。它也正孕育出、孕育著更現(xiàn)代，更可信的辭書?！盵3]真正建立在語料庫技術(shù)基礎(chǔ)上的漢語詞典，必將會(huì)在中國辭書史上留下濃重的一筆，成為中國辭書史上具有里程碑式性質(zhì)的辭書。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語料庫時(shí)代的漢語中型語文詞典出版狀況研究*

一、英語中型語文詞典的出版狀況

二、漢語中型語文詞典的出版狀況