国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語料庫的現(xiàn)代漢語“黃”字義項分布研究*

2016-10-31 04:56:43李仕春
關(guān)鍵詞:多義詞古代漢語義項

李仕春

(西南大學 文學院,重慶 400715)

?

基于語料庫的現(xiàn)代漢語“黃”字義項分布研究*

李仕春

(西南大學 文學院,重慶 400715)

《現(xiàn)代漢語詞典》以往版本中常用詞的釋義基本依靠語感通過做卡片的方式編纂,每個詞占有的語料非常有限,因此多數(shù)常用詞義項的劃分比較粗疏、存在義項漏收的情況。相對于過去靠人工搜集語料,用語料庫技術(shù)搜集語料的優(yōu)勢在于可以在極短的時間內(nèi)搜集到幾百萬字的語料,這在詞典學史上具有里程碑式的、劃時代的方法論意義。文章運用語料庫技術(shù)的方法,以個案研究的形式對“黃”字在現(xiàn)代漢語中的義項分布情況進行了描寫,認為按照《現(xiàn)代漢語詞典》的釋義原則,《現(xiàn)代漢語詞典》(第6版)中“黃”字的義項漏收了7個!由此可見,把語料庫技術(shù)和詞典編纂結(jié)合起來,豐富并補充常用詞的義項是一項刻不容緩的工作。

語料庫;語料;方法;新義項

語言學作為科學的最基本信條之一就是語言研究過程具有可操作性、研究結(jié)果具有可驗證性。為了客觀地反映“黃”字在現(xiàn)代漢語中的義項分布情況,本文首先設(shè)計了運用語料庫技術(shù)的方法研究現(xiàn)代漢語中“黃”字義項分布的一系列操作程序,繼而在《現(xiàn)代漢語詞典》第6版(本文簡稱《現(xiàn)漢》)對“黃”字釋義的基礎(chǔ)上,得出了“黃”字在現(xiàn)代漢語中的義項分布情況,我們相信如果其他學者按照本文的操作程序也會得出類似的結(jié)論。

一、下載語料

截止2016年1月18日,北京大學中國語言學研究中心研制的CCL語料庫的語料規(guī)模已達783,463,175字,該語料庫首先分為現(xiàn)代漢語語料庫(581,794,456字)和古代漢語語料庫(201,668,719字)。一方面,北大CCL現(xiàn)代漢語語料庫共涵蓋18種不同語體的語料;另一方面,從時間上來看,該語料庫涵蓋了從20世紀初魯迅、茅盾、老舍的文學作品到當代的人民日報、百家講壇等語料,跨越了整個20世紀。因此,我們在下載預料時首先要注意保證所取語料在量上具有充足性,*根據(jù)我們研究,對于常用詞來說,要保證所抽取語料在量上的充足性最適宜的條數(shù)就是30000條共計160多萬字,如果低于這個數(shù)字常用詞的新義項則不宜發(fā)現(xiàn),如果高于這個數(shù)字就會做一些無用功。同時還要保證所取語料的均衡性,這就要求我們在檢索并下載“黃”字條目的每類語料后,還要抽取不同時間段的同類語料,最終建立“黃”字語料庫。我們所建“黃”字語料庫的具體語料情況如下:

當代|口語“黃”有456條語料.

當代|史傳“黃”有1046條語料。

當代|應(yīng)用文“黃”有2170條語料。

當代|報刊|人民日報“黃”有3739條語料。

當代|報刊|作家文摘“黃”有4494條語料。

當代|報刊|市場報“黃”有2309條語料。

當代|報刊|故事會“黃”有96條語料。

當代|報刊|讀書“黃”有3156條語料。

當代|報刊|讀者“黃”有2872條語料。

當代|報刊|青年文摘“黃”有28條語料。

當代|文學“黃”有3083條語料。

當代|電視電影“黃”有1001條語料。

當代|網(wǎng)文“黃”有2907條語料。

現(xiàn)代下面“黃”有2643條語料:

現(xiàn)代|戲劇“黃”有233條語料。

現(xiàn)代|文學“黃”有2410條語料。

二、建立“黃”字語料庫并對“黃”字義項進行標注

首先,建立Access數(shù)據(jù)庫。打開Access數(shù)據(jù)庫,在【文件】→【獲取外部數(shù)據(jù)】→【導入】項目下,將準備好的語料導入Access中,建立“黃”字語料庫。

接著,對語料庫進行相應(yīng)的設(shè)置。打開“黃”字語料庫,點擊【設(shè)計】,在“字段名稱”欄中,把字段名稱依次改為“例句”、“專名”、“義項”、“備注”、“復字詞”、“出處”、“文章類別”及“作者”。再次打開“黃”字語料庫,便出現(xiàn)下表。

上表中各欄目具體標注說明如下:

1、《現(xiàn)漢》中已有義項的標注

以上義項在語料庫“義項”一欄分別標注為1、2、3、4、5、6、7、8。

新義項也標注在“義項”一欄,“黃”的新義項(指《現(xiàn)漢》沒有的義項)標注:“嬌嫩”標為9,“年齡小,涉世淺”標為10,“成熟”標為11,“枯萎”標為12,“(人臉)干枯、無光彩”標為13,“警告,預警”標為14,“膿”標為15。

2、語料庫“專名”一欄的標注:“人名”標為1,“地名”標為2,“官職名”標為3“其他專有名詞”標為4。

3、復字詞的標注

凡語料中第一次出現(xiàn)的復字詞都標注于此欄的對應(yīng)位置。

4、語料庫“備注”、“出處”、“文章類別”及“作者”等欄做相應(yīng)的標注。

三、現(xiàn)代漢語中“黃”字義項的分布

通過語料標注,我們初步確定“黃”字義項在現(xiàn)代漢語中的分布情況如下:

①操場四周的白楊,綠柳,紫丁香,紅玫瑰,花壇里的馬蘭,黃花,郁郁蔥蔥,次第開放。(人民日報/1993年)

②地是光光的,冰硬的,灰黃的,城墻是灰黑的,堅硬的,光光的。(老舍《四世同堂》)*本文全部語料取自北大CCL語料庫中的現(xiàn)代漢語語料庫。

2、指黃金。在我們建的語料庫中,共2465條,約占8.217%。例句:

③岳父說,他年初過商州下漢口時,花了黃貨才弄到手這包罌粟種子。(陳忠實《白鹿原》)

④內(nèi)急,走進公廁撒了一泡尿,出來以后,猛然想到自己剛才滿眼都對黃白之物,居然能站住了不倒,覺得自己很了不起,就急忙來告訴我。(王小波《個人尊嚴》)

⑤上四味先煮三味去滓,內(nèi)阿膠烊化盡,后內(nèi)雞子黃,溫服。(《歷代古方驗案按》)

⑥也是在母體中受精,排出以后,這種小的受精卵在它的母體里得到卵黃的營養(yǎng),使它發(fā)育長大,這是卵胎生。(曹玉茹《“狂”鯊》)

⑦領(lǐng)導親自出面跟彭鋼談,都沒談成。當然,這事黃了。(作家文摘/1995年)

⑧鹿子霖原以為嘉軒事到臨頭要反悔要變卦了,單怕到手的二畝水地又黃了。(陳忠實《白鹿原》)

⑨應(yīng)該說,這些年來政府狠抓掃黃、整頓服務(wù)行業(yè)取得了很大成效。(人民日報/1993年)

⑩科長便說:“好呀,看黃色片,黨員記大過,干部要撤職?!?方方《埋伏》)

6、指黃河。在我們建的語料庫中,共2174條,約占7.246%。例句:

7、指黃帝,我國古代傳說中的帝王。該義項只出現(xiàn)在“炎黃”、“黃老”、“黃陵”等搭配中,在我們建的語料庫中,共521條,約占1.73%。例句:

10、年齡小,涉世淺。在我們建的語料庫中,共91條,約占0.303%。例句:

13、(人臉)干枯、無光彩。在我們建的語料庫中,共190條,約占0.633%。例句:

14、警告、預警。在我們建的語料庫中,共181條,約占0.603%。例句:

15、指膿。在我們建的語料庫中,共11條,約占0.037%。例句:

16、專有名詞。除了姓有7872條外,在我們建的語料庫中,其他專名共6534條(包括地名1908條,官職名17條,其他專有名詞有4609條)約占21.78%,以下是“黃”字組成的專有名詞簡單舉例:

黃巢起義、黃檗、黃道帶、黃道、黃道吉日、黃歷、黃教、黃龍、黃連、黃曲霉菌、黃梅戲、黃熱病、黃芽菜。

四、《現(xiàn)漢》常用詞“黃”釋義獻疑

把上文對“黃”字在現(xiàn)代漢語中的義項分布情況與《現(xiàn)漢》對顏色詞“黃”的釋義進行比較,可以看出《現(xiàn)漢》漏收了以下7個義項:“嬌嫩”、“年齡小,涉世淺”、“成熟”、“枯萎”、“(人臉)干枯、無光彩”、“警告,預警”、“膿”等。我們認為《現(xiàn)漢》應(yīng)補錄以上義項,這一建議既有客觀依據(jù)又有理論依據(jù),下文主要從共時和歷時兩個方面來解釋上述義項成立的原因。共時依據(jù)是指“黃”的上述義項客觀存在于現(xiàn)代漢語中,歷時依據(jù)是指“黃”的上述某些義項也客觀存在于古代漢語中。

(一)共時依據(jù)

1、“黃”在現(xiàn)代漢語中有“嬌嫩”義。植物的幼苗或植物的嫩芽一般是嫩黃色的,剛出生的鳥類的嘴或一些剛出生的動物的絨毛一般也是黃色的,張志毅、張慶云先生指出,“一些形容詞的意義常是由所形容者決定的?!盵1](P198)由于“黃”經(jīng)常用來修飾它們,自然“黃”字就有了“嬌嫩”義,該義項不僅經(jīng)常出現(xiàn)在“新黃”、“黃芽”、“鵝黃”、“嫩黃”、“嬌黃”等搭配中,而且還經(jīng)常單獨運用。例如:

2、“黃”在現(xiàn)代漢語中有“年齡小,涉世淺”義。該義項經(jīng)常出現(xiàn)在“黃花姑娘”、“黃口小兒”、“黃毛丫頭”等搭配中。例如:

幼兒的頭發(fā)或少年剛長出的胡須是黃色的,由于他們年齡小不懂世故,因此,“黃”在表示“年齡小”的同時還有了“涉世淺”義?!包S”的這一義項不能單獨使用,多出現(xiàn)在固定搭配中,該義項在我們建的語料庫中共91條,約占0.280%,由于使用穩(wěn)定,頻次較高并且生命力較強,人們已經(jīng)接受了“黃”的這一義項,所以《現(xiàn)漢》應(yīng)收“黃”的義項“年齡小,涉世淺”。

3、“黃”在現(xiàn)代漢語中有“成熟”義,該義項經(jīng)常單獨使用。例如:

在生活實踐中,一些植物成熟后常常變黃,人們就用“黃”來形容這些植物成熟時的顏色,因此“黃”自然就沾染了“成熟”的意義?!包S”表示“成熟”義的語義范圍只局限于植物域中的部分成員,但是它在表達上直觀形象,增強了視覺效果,正因為這種獨特的語義價值,“黃”的“成熟”義使用比較普遍穩(wěn)定,所以《現(xiàn)漢》應(yīng)收“黃”的“成熟”義。

4、“黃”在現(xiàn)代漢語中有“枯萎”義。例如:

隨著秋天的來臨,草本植物或木本植物的葉子通常會因枯萎而變黃,自然“黃”也就有了“枯萎”的意義。例如:

從大量語料可以看出,“黃”的這一義使用頻次較高,非常穩(wěn)定,而且已經(jīng)約定俗成了,因此,《現(xiàn)漢》應(yīng)收“黃”的“枯萎”義。植物葉子變黃枯萎,最終的結(jié)果是標志它們“衰老、死亡”,在隱喻認知機制的作用下“黃”的“枯萎”義可以進一步引申出“事情失敗或計劃不能實現(xiàn)”義,如:

5、“黃”在現(xiàn)代漢語中也有“(人臉)干枯、無光彩”義?!包S”有“枯萎”義,自然又可以由物喻人,轉(zhuǎn)指人臉的干枯和缺乏光彩,“黃”的這一義項不能單獨運用是語素義。例如:

6、“黃”在現(xiàn)代漢語中還有“警告,預警”義。

現(xiàn)代生活中,幾乎每個城市都有指示交通的信號燈,一律用“黃燈”表示短暫時間的等待,有預警的意思;體育競賽以及其他生活中常用“黃牌”表示對違規(guī)者進行警告;天氣預報中用“黃色”對災(zāi)害性天氣進行提前預警;另外日常生活中還經(jīng)常使用“黃線”來“警告”人們不要侵犯某些事物,等等。上述現(xiàn)象都使“黃”有了“警告,預警”的含義?!包S”的這一義項在現(xiàn)代生活中應(yīng)用的廣泛而又普遍,所以我們認為《現(xiàn)漢》應(yīng)收該義?!包S”的這一義項同樣不能單獨運用,所以它是語素義。

7、“黃”在現(xiàn)代漢語中還有“膿”的意義。

某些炎癥病變所形成的汁液的顏色是黃色的,而“黃”在現(xiàn)代漢語中又經(jīng)常來形容這些汁液,所以“黃”有了“膿”意義,該義項在我們建的語料庫中有11條,約占我們所建語料庫語料總數(shù)的0.034%,這說明“黃”的這一義項已固定于常見用法之中,例如:

《現(xiàn)漢》未收“黃”的“膿”意義,我們建議收。*我們以《現(xiàn)漢》中“黃”字義項的最低使用頻率作為標準,凡是使用頻率高于最低使用頻率的就定為義項,例如在我們建的"黃"字語料庫中,《現(xiàn)漢》第三個義項“指蛋黃等黃顏色的可食用的東西”共8條,使用頻率是8÷30000≈0.026%,其使用頻率最低,我們新發(fā)現(xiàn)的義項“嬌嫩”、“年齡小,涉世淺”、“成熟”、“枯萎”、“(人臉)干枯,(年齡)大”等的使用頻率都高于0.026%,所以我們把它們就定為義項。雖然“黃”的義項“膿”在我們建的語料庫中只有11條語料,但其使用頻率約為0.034%,還是高于“黃”字的最低使用頻率,所以我們也把它定為義項。

(二)歷時依據(jù)

“黃”字不但在現(xiàn)代漢語中有“嬌嫩”、“年齡小,涉世淺”、“成熟”、“枯萎”、“(人臉)干枯、無光彩”等義項,而且“黃”字的上述義項也同樣大量存在于古代漢語中。根據(jù)我們對北京大學CCL古代漢語語料庫中“黃”字語料的統(tǒng)計,發(fā)現(xiàn)古代漢語中存在大量類似語料。例如:

1、“黃”在古代漢語中有“嬌嫩”義。同現(xiàn)代漢語中一樣,古代漢語中“黃”字表示“(植物、動物等)嬌嫩”義分布很廣。例如:

2、“黃”的表示人“年齡小、涉世淺”義在古代漢語中分布也很廣,例如:

3、“黃”在古代漢語中也有“成熟”義。例句如下:

4、“黃”在古代漢語中也有“枯萎”義。例句如下:

5、“黃”在古代漢語中也有“(人臉)干枯、無光彩”義。例句如下:

五、結(jié)語

在中國辭書史上,一詞多義的現(xiàn)象首先見于漢代《說文解字》,其釋義特點主要是據(jù)形釋義、一詞一義,僅僅是偶爾涉及到一詞多義,多義詞和單義詞的區(qū)分并不明顯。此后,經(jīng)歷代字書、韻書的發(fā)展,漢語詞典中多義詞和單義詞的區(qū)分越來越明顯,清代《康熙字典》則已收錄了大量多義詞。古代辭書對多義詞的釋義基本是隨文釋義性質(zhì)的,很不科學。20世紀以后,中國出現(xiàn)了以《現(xiàn)代漢語詞典》為代表的一批具有現(xiàn)代意義的詞典,這一時期多義詞義項的劃分比較科學、合理,缺點是由于靠語感確定多義詞的義項,因此詞典中存在多義詞義項收錄不全的情況。以上便是漢語多義詞義項劃分在中國歷代辭書中的縮影,也可以說它是20世紀50年代以前,世界各國詞典對多義詞義項劃分從無到有的一個縮影。世界語言學自20世紀50、60年代進入語料庫時代后,詞典編纂發(fā)生了革命性的變化。

國外:從20世紀80年代開始,語料庫技術(shù)就已經(jīng)廣泛應(yīng)用于詞典編纂與研究中了,目前,占據(jù)英語辭書主要市場的牛津、韋氏、朗文與麥克米倫等英語詞典,都是在語料庫的基礎(chǔ)上編成的。英語詞典編纂者非常重視用語料庫技術(shù)發(fā)現(xiàn)英語多義詞的新義項。

國內(nèi):20世紀90年代以來,中國相繼建設(shè)了一批漢語語料庫,最有代表性的如北京大學中國語言學研究中心研制的“CCL語料庫”,截止2016年1月18日現(xiàn)代漢語語料庫規(guī)模已達5.81億字,可以說,目前我國的語料庫已經(jīng)初步具備了詞典編纂所需要的規(guī)模。盡管如此,在當今中國,用語料庫技術(shù)研究漢語多義詞新義項的方法還沒有引起漢語詞典編纂者的足夠重視,誠如章宜華先生所言:“詞典語料庫是西方上世紀70-80年代的產(chǎn)物,而我們直到90年代才有這方面的成果發(fā)表,而至今大多仍只限于紙上談兵,沒有投入商業(yè)運營的大型詞典語料庫;而在西方談?wù)Z料庫的建設(shè)和重要性已經(jīng)是個過時的話題。這些都值得學術(shù)界和出版界注意?!盵2]因此,李仕春指出:“漢語類中型語文性詞典中常用多義詞的義項精細度至今依然處在20世紀50、60年代靠語感確定義項的編纂水準,從而導致漢語類中型語文性詞典義項的劃分比較粗疏、存在義項漏收的情況?!盵3]

用語料庫技術(shù)研究漢語多義詞新義項的優(yōu)點主要在于用語料庫搜集語料具有里程碑式的、劃時代的方法論意義,以“黃”為例:用語料庫檢索的方法可以在16毫秒的時間內(nèi)得出“黃”在北京大學CCL現(xiàn)代漢語語料庫中有146077條。假設(shè)用人工閱讀的方法查找1條含有“黃”字的語句需要用1小時(實際上有時候不止1小時),那么要找146077條含有“黃”字語料約用146077小時。

1小時=3600秒

1秒=1000毫秒

146077小時=146077×3600×1000≈5.258772×1011毫秒

5.258772×1011÷16﹦3.28625×1010倍

經(jīng)過計算可以知道查找同樣多的語料,用語料庫技術(shù)的方法的是人工閱讀的300多億倍,簡直是神速。

與傳統(tǒng)憑借語感編纂的詞典相比,建立在語料庫技術(shù)基礎(chǔ)上的語文性詞典在多義詞的義項劃分方面更加細化、義項收錄更加全面,在詞典編纂史上實現(xiàn)了里程碑式的跨越發(fā)展。因此,張志毅、長召其先生指出:“今天的語料庫已經(jīng)成為能量巨大的語言樣本集。它正在印證、充實、修訂、改寫甚至顛覆以往的辭書釋語。它也正孕育出、孕育著更現(xiàn)代,更可信的辭書?!盵4]我們翹首以待。

[1] 張志毅,張慶云.詞匯語義學[M].北京:商務(wù)印書館,2005.

[2] 章宜華.與新時期詞典學理論和編纂方法的創(chuàng)新[J].辭書研究,2010,(1):57-69.

[3] 李仕春.漢英中型語文詞典義項精細度對比研究[J].長江學術(shù), 2016,(3):115-121.

[4] 張志毅,長召其.辭書編纂現(xiàn)代化的新理念——人機接口工具使用的智能發(fā)揮[A].樂嘉民,亢世勇.辭書編纂現(xiàn)代化研究[C].上海:上海辭書出版社,2009.42.

責任編輯:周延云

The Distribution of Meaning Items of "Huang" in Modern Chinese Based on Corpus

Li Shichun

(College of Liberal Arts, Southwest University, Chongqing 400715, China)

Compared with the past artificial collecting corpus, corpus technology is used to collect the linguistic data which is made up of millions of words in a very short time. The method is a milestone in the dictionary history. Using CCL corpus, the paper analyzes the distribution of meaning items of "Huang" in modern Chinese. The research results indicate that Modern Chinese Dictionary needs to be added seven meaning items.

corpora; corpus; method; new meaning item

2016-05-08

國家社會科學基金重點項目“語料庫視野下的現(xiàn)代漢語單音多義詞義項分布研究”(14AYY018);西南大學中央高校基本業(yè)務(wù)費專項資金創(chuàng)新團隊項目(SWU1609105);西南大學科研基金人才引進項目(SWU1509502)

李仕春(1973-),男,山東莒縣人,西南大學文學院教授,主要從事語言學史和詞匯學、詞典學研究。

H02

A

1672-335X(2016)05-0103-07

猜你喜歡
多義詞古代漢語義項
多義詞
如何學習掌握古代漢語詞義*——何九盈先生《古漢語詞義叢談》評介
留學生古代漢語教學設(shè)計探索——以《遠水不救近火》為例
小心兩用成語中的冷義項
淺議多義詞在語境中的隱喻認知
多義詞way的語義認知分析及實證研究
提升學生在古代漢語課堂中參與性的應(yīng)用對策
兩用成語中的冷義項
知識窗(2015年1期)2015-05-14 09:08:17
Enhanced Precision
Beijing Review(2012年37期)2012-10-16 02:24:10
古代漢語教學發(fā)展研究綜述
饶平县| 准格尔旗| 绵竹市| 武定县| 漳州市| 兴隆县| 田阳县| 泰来县| 水富县| 沧州市| 浦江县| 罗田县| 临桂县| 叶城县| 石狮市| 乐昌市| 仪陇县| 喜德县| 永城市| 五华县| 双柏县| 揭西县| 莱西市| 黄浦区| 张掖市| 米易县| 吉林市| 绿春县| 榆树市| 蓬安县| 木兰县| 甘德县| 马关县| 泰兴市| 衡山县| 柯坪县| 武清区| 法库县| 合阳县| 吴堡县| 昭平县|