国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多義詞詞典義項(xiàng)可區(qū)分度的度量

2020-07-16 03:43柏曉鵬
辭書(shū)研究 2020年4期
關(guān)鍵詞:多義詞區(qū)分度義項(xiàng)

摘要多義詞詞典義項(xiàng)的可區(qū)分度是指,人們根據(jù)詞典提供的信息在語(yǔ)料中對(duì)多義詞義項(xiàng)進(jìn)行辨析的難度。文章探討如何度量多義詞可區(qū)分度。以往對(duì)這個(gè)問(wèn)題的研究主要使用兩種方法: 基于義類(lèi)體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。文章提出利用人工標(biāo)注詞典義項(xiàng),然后對(duì)標(biāo)注結(jié)果計(jì)算標(biāo)注者一致性(interannotators agreement)的方法,從而計(jì)算多義詞義項(xiàng)可區(qū)分度?;趯?duì)幾種方法的討論和對(duì)比,文章發(fā)現(xiàn),通過(guò)計(jì)算人工標(biāo)注結(jié)果一致性的方法較為有效、直觀(guān)和省力。文章認(rèn)為,“多義詞詞典義項(xiàng)可分區(qū)度”是利用人對(duì)多義詞辨析的結(jié)果,對(duì)詞典義項(xiàng)的評(píng)價(jià),并不必然反映詞典釋義的好壞,它應(yīng)該被視為一類(lèi)參考數(shù)據(jù),為詞典編纂提供指示。

關(guān)鍵詞多義詞義項(xiàng)可區(qū)分度標(biāo)注一致性詞義消歧

一、 多義詞詞典義項(xiàng)的可區(qū)分度

在使用詞典釋義進(jìn)行多義詞辨析的過(guò)程中,多義詞義項(xiàng)區(qū)別的難易程度是不同的,而這種難易程度不一定與詞典釋義有關(guān)。有的多義詞義項(xiàng)比較難區(qū)分。如“包圍”有兩個(gè)義項(xiàng)[1]:

(1) 包圍1四面圍?。?亭子被茂密的松林包圍著。

包圍2正面進(jìn)攻的同時(shí),向敵人的翼側(cè)和后方進(jìn)攻。

就詞典釋義來(lái)看,“包圍”的兩個(gè)義項(xiàng)不難區(qū)分。但在我們的實(shí)驗(yàn)中(將于下文第四節(jié)討論),“包圍”的詞典義項(xiàng)可區(qū)分度僅為0.38。

又如,“暴雨”有兩個(gè)義項(xiàng):

(2) 暴雨1大而急的雨。

暴雨2氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨。

從詞典釋義上來(lái)看,“氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨”應(yīng)該是一種“大而急的雨”,難以區(qū)分。在我們的實(shí)驗(yàn)中,“暴雨”的可區(qū)分度為0.86。

我們把這種區(qū)別多義詞詞典義項(xiàng)的難易程度稱(chēng)為“可區(qū)分度”。從詞義關(guān)系的角度看,多義詞義項(xiàng)可區(qū)分度體現(xiàn)了義項(xiàng)在語(yǔ)義上的“重合”程度(肖航2010),它是一種對(duì)詞義關(guān)系的描寫(xiě)。盡管各家詞典在多義詞義項(xiàng)分立的標(biāo)準(zhǔn)和釋義方法上多有不同,但是沒(méi)有一部詞典能夠做到所有多義詞都有等同的可區(qū)分度。這是因?yàn)?,詞典釋義是“語(yǔ)言輸入”,而可區(qū)分度是對(duì)多義詞辨析結(jié)果——“語(yǔ)言輸出”——的評(píng)價(jià)。從學(xué)習(xí)多義詞詞典釋義到使用它在具體上下文中辨析詞義的過(guò)程來(lái)看,從詞典釋義到義項(xiàng)可區(qū)分度過(guò)程如下:

1) 詞典對(duì)多義詞定義;

2) 用戶(hù)學(xué)習(xí)詞典釋義,掌握多義詞義項(xiàng)區(qū)別;

3) 在語(yǔ)料中進(jìn)行多義詞辨析;

4) 對(duì)辨析結(jié)果進(jìn)行評(píng)價(jià);

5) 得到義項(xiàng)可區(qū)分度。

根據(jù)上面的過(guò)程描述,可以發(fā)現(xiàn),一方面,義項(xiàng)可區(qū)分度不是對(duì)多義詞詞典釋義的直接評(píng)價(jià),它從義項(xiàng)辨析結(jié)果中獲得,反映詞典釋義對(duì)多義詞辨析的有效性,即,人們學(xué)習(xí)了詞典釋義后,可以使用它有效地區(qū)分多義詞義項(xiàng);另一方面,作為“輸出”的可區(qū)分度直接受到詞典釋義的影響,并反映詞典釋義可能存在的問(wèn)題,為詞典編纂提供參考性指示。義項(xiàng)的可區(qū)分度小,意味著人們對(duì)義項(xiàng)的區(qū)分有困難,詞典編纂者可以對(duì)該多義詞的釋義進(jìn)行檢視。在積累了一些多義詞義項(xiàng)可區(qū)分度數(shù)據(jù)后,詞典編纂者可進(jìn)一步對(duì)義項(xiàng)分立的原則和依據(jù)進(jìn)行探討。

我們認(rèn)為,義項(xiàng)可區(qū)分度的形式應(yīng)該是一個(gè)有限范圍內(nèi)的數(shù)值,所以無(wú)法通過(guò)理論探討獲得,必須在實(shí)證研究(empirical study)框架中,通過(guò)某種方法計(jì)算得到。

本文將討論計(jì)算多義詞詞典義項(xiàng)可區(qū)分度的方法?,F(xiàn)有的計(jì)算方法基本可以視為是對(duì)義項(xiàng)可區(qū)分度的簡(jiǎn)介描寫(xiě)。我們提出通過(guò)計(jì)算詞義標(biāo)注任務(wù)中的標(biāo)注者一致性來(lái)估計(jì)義項(xiàng)的可區(qū)分度。本文內(nèi)容安排如下: 第一節(jié),提出我們對(duì)義項(xiàng)可區(qū)分度的定義;第二節(jié),討論已有的計(jì)算義項(xiàng)可區(qū)分度的方法,指出這些方法的缺陷;第三節(jié),我們提出使用標(biāo)注一致性估計(jì)可區(qū)分度;第四節(jié),我們簡(jiǎn)單對(duì)比機(jī)器學(xué)習(xí)方法和標(biāo)注者一致性方法的相關(guān)性;最后是結(jié)論和討論。

二、 計(jì)算義項(xiàng)可區(qū)分度的方法

計(jì)算義項(xiàng)可區(qū)分度,是要將可區(qū)分度以數(shù)值形式量化地表示,使得“可區(qū)分度”這一概念被直觀(guān)地表示出來(lái)。詞典義項(xiàng)是書(shū)面語(yǔ)構(gòu)成的句子,無(wú)法被直接計(jì)算,所以首先需要將義項(xiàng)轉(zhuǎn)換為可計(jì)算的表示方式。表示方式有兩種,一種是將義項(xiàng)映射到一個(gè)詞義分類(lèi)體系中,然后通過(guò)計(jì)算義項(xiàng)在義類(lèi)體系中的距離,以此代表可區(qū)分度;另一種是在大規(guī)模語(yǔ)料庫(kù)中抽取義項(xiàng)的語(yǔ)言學(xué)特征,使用機(jī)器學(xué)習(xí)算法進(jìn)行詞義自動(dòng)消歧(word sense disambiguation,以下簡(jiǎn)稱(chēng)WSD),用WSD的結(jié)果表示義項(xiàng)可區(qū)分度。這兩種方法都需要比較大規(guī)模的語(yǔ)言資源,且各有利弊。

(一) 基于義類(lèi)體系的方法

詞的義類(lèi)體系以詞義的上下位關(guān)系為主線(xiàn),將詞義以義項(xiàng)為單位組織成樹(shù)狀結(jié)構(gòu)。義類(lèi)體系由根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn)和詞義集合組成。根節(jié)點(diǎn)是義類(lèi)體系的開(kāi)頭,衍生出若干下位節(jié)點(diǎn)(子節(jié)點(diǎn));中間節(jié)點(diǎn)位于根節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間,每個(gè)中間節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn)(父節(jié)點(diǎn)),并衍生出若干個(gè)下位節(jié)點(diǎn);葉子節(jié)點(diǎn)是處于最下方的節(jié)點(diǎn),每一個(gè)葉子節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn),且不再衍生出下位節(jié)點(diǎn);每個(gè)節(jié)點(diǎn)代表一個(gè)義類(lèi),每個(gè)義類(lèi)對(duì)應(yīng)一個(gè)詞義集合,一個(gè)詞義集合包含若干詞義?;诹x類(lèi)體系的方法首先將多義詞義項(xiàng)分配到義類(lèi)樹(shù)上(一個(gè)義項(xiàng)對(duì)應(yīng)義類(lèi)樹(shù)的一個(gè)節(jié)點(diǎn)),然后計(jì)算義項(xiàng)在義類(lèi)樹(shù)上的距離,即,從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)需要經(jīng)過(guò)多少步。距離越小,意味著義項(xiàng)在義類(lèi)樹(shù)上越接近,則越難區(qū)分——可區(qū)分度越低。最小的距離為0,這時(shí)義項(xiàng)對(duì)應(yīng)義類(lèi)樹(shù)上的同一個(gè)義類(lèi)節(jié)點(diǎn)。

該方法省時(shí)省力,不依賴(lài)詞義標(biāo)注語(yǔ)料庫(kù)和復(fù)雜的計(jì)算方法,可以快速實(shí)現(xiàn)義項(xiàng)可區(qū)分度計(jì)算。(李安2014)

然而,該方法的缺陷也很明顯。

第一,該方法假設(shè),在義類(lèi)樹(shù)上,節(jié)點(diǎn)到節(jié)點(diǎn)的距離是相等的,即,任意兩個(gè)存在上下位關(guān)系的義類(lèi)在語(yǔ)義上的差距是等同的(否則它就失去了通過(guò)計(jì)算義類(lèi)節(jié)點(diǎn)相隔路徑長(zhǎng)度得到義項(xiàng)可區(qū)分度的基礎(chǔ)),但實(shí)際上這個(gè)假設(shè)不成立。義類(lèi)體系賴(lài)以建立的詞義上下位關(guān)系只規(guī)定了詞義的語(yǔ)義關(guān)系,并未對(duì)義類(lèi)之間的這種語(yǔ)義關(guān)系的強(qiáng)弱做任何說(shuō)明,義類(lèi)體系也無(wú)法體現(xiàn)這一點(diǎn)。

第二,該方法依賴(lài)義類(lèi)體系,而義類(lèi)體系的建設(shè)存在隨機(jī)性和主觀(guān)性,且目前沒(méi)有評(píng)價(jià)義類(lèi)體系優(yōu)劣的有效方法。構(gòu)成義類(lèi)樹(shù)的基本詞義關(guān)系是上下位關(guān)系,現(xiàn)實(shí)的義類(lèi)體系則往往由多種詞義關(guān)系和詞義特征共同決定。比如,“同義詞詞林”至少包含了詞義的相似關(guān)系和相關(guān)關(guān)系;“現(xiàn)代漢語(yǔ)詞義分類(lèi)體系”則納入了詞義在句法上實(shí)現(xiàn)的特征。另外,現(xiàn)有理論認(rèn)為,義類(lèi)劃分應(yīng)該盡可能避免跨類(lèi),認(rèn)為分類(lèi)應(yīng)該是離散且互斥的,所以不同的學(xué)者對(duì)義類(lèi)體系中義類(lèi)的數(shù)量、定義以及具體詞義應(yīng)該納入哪個(gè)義類(lèi),其意見(jiàn)是不統(tǒng)一的。比如,“鍋”可以是“廚具類(lèi)”,也可以是“容器類(lèi)”。這樣一來(lái),義項(xiàng)在義類(lèi)樹(shù)上的距離會(huì)因?yàn)槭褂昧瞬煌牧x類(lèi)體系而不同。

第三,該方法要求先對(duì)多義詞義項(xiàng)進(jìn)行義類(lèi)標(biāo)注,即,將義項(xiàng)劃分到義類(lèi)樹(shù)的一個(gè)義類(lèi)上,這使得該方法在本質(zhì)上是對(duì)義項(xiàng)詞典釋義進(jìn)行比較,而非本文所定義的“義項(xiàng)可區(qū)分度”。

(二) 基于機(jī)器學(xué)習(xí)的詞義消歧方法

詞義消歧是在語(yǔ)料庫(kù)中對(duì)多義詞進(jìn)行義項(xiàng)自動(dòng)判別的工作。Ide和Veronis(1998)、吳云芳和俞士汶(2006)認(rèn)為,傳統(tǒng)詞典在多義詞定義方面缺乏一致性,義項(xiàng)間語(yǔ)義距離(稱(chēng)為“語(yǔ)義顆粒度”,semantic granuity)不等,使得對(duì)WSD結(jié)果難以準(zhǔn)確評(píng)價(jià)。不過(guò),這恰好可以為計(jì)算義項(xiàng)可區(qū)分度服務(wù)。既然WSD結(jié)果受詞典定義影響,可以認(rèn)為,語(yǔ)義距離大的義項(xiàng),其消歧結(jié)果可能會(huì)比較好,其可區(qū)分度就比較大,反之,可區(qū)分度比較小。

該方法首先需要在語(yǔ)料庫(kù)中標(biāo)注多義詞的詞典義項(xiàng),然后在語(yǔ)料庫(kù)中抽取多義詞義項(xiàng)的各種語(yǔ)言學(xué)特征,用這些特征構(gòu)成向量來(lái)表示義項(xiàng),通過(guò)計(jì)算義項(xiàng)向量的距離,來(lái)獲得可區(qū)分度數(shù)值。

詞義消歧的方法使用真實(shí)語(yǔ)料庫(kù),在消歧算法一致的前提下能夠公正地評(píng)價(jià)義項(xiàng)可區(qū)分度,其優(yōu)勢(shì)在于盡可能地?cái)[脫了主觀(guān)性因素,使得計(jì)算結(jié)果較為客觀(guān)。

當(dāng)然,該方法亦有其缺陷。

第一,該方法假設(shè),詞典對(duì)義項(xiàng)的定義會(huì)充分反映在語(yǔ)料庫(kù)中,所以從語(yǔ)料庫(kù)抽取特征表示義項(xiàng)。但是,并不是所有的詞義特征都會(huì)被顯性地實(shí)現(xiàn)在語(yǔ)言中,尤其是語(yǔ)用義、修辭義。

第二,詞義消歧依賴(lài)從語(yǔ)料庫(kù)中獲取的義項(xiàng)特征,而能夠獲取到什么樣的特征,取決于語(yǔ)料庫(kù)加工的深度和規(guī)模。如果語(yǔ)料庫(kù)中沒(méi)有語(yǔ)法標(biāo)注,那么義項(xiàng)的語(yǔ)法特征是無(wú)法獲得的。而制作大規(guī)模深加工語(yǔ)料庫(kù)的時(shí)間和人力成本都非常高昂,獲得難度比較大。所以,使用不同語(yǔ)料庫(kù)得到的結(jié)果往往是不同的。這也證明了第一點(diǎn)的觀(guān)點(diǎn)。

第三,該方法的結(jié)果需要在詞匯學(xué)上得到解釋。該方法是對(duì)義項(xiàng)可區(qū)分度的“間接估計(jì)”,本質(zhì)上是用機(jī)器學(xué)習(xí)算法模擬人在真實(shí)語(yǔ)境中辨析多義詞的行為。但算法與人在多義詞判斷的過(guò)程和方式上存在差異,所以通過(guò)詞義消歧得到的義項(xiàng)可區(qū)分度數(shù)值需要在詞匯學(xué)上得到解釋?zhuān)?jiǎn)單來(lái)說(shuō),就是要解決其在多大程度上可信的問(wèn)題。

三、 使用標(biāo)注者一致性估計(jì)多義詞義項(xiàng)的可區(qū)分度

根據(jù)上一節(jié)的論述,基于義類(lèi)體系的方法和詞義消歧的方法都不是對(duì)義項(xiàng)可區(qū)分度的直接度量,且在理論上有諸多缺點(diǎn)。本文提出使用標(biāo)注者一致性的方法來(lái)估計(jì)多義詞詞典義項(xiàng)的可區(qū)分度。肖航(2010)做了一些嘗試,利用標(biāo)注者一致性來(lái)說(shuō)明詞典對(duì)多義詞義項(xiàng)定義中存在的“重合”問(wèn)題,指出,意義“重合”多的義項(xiàng),標(biāo)注者一致性更差。這說(shuō)明,標(biāo)注者一致性反映了人對(duì)詞典釋義的使用情況。

假設(shè)語(yǔ)料庫(kù)中包含多義詞W的詞例數(shù)量為N,且W在詞典中義項(xiàng)數(shù)量為I,標(biāo)注者被要求對(duì)該多義詞的每個(gè)詞例標(biāo)注合適的義項(xiàng)i(顯然i屬于I)。那么,那些標(biāo)注者標(biāo)注了相同義項(xiàng)標(biāo)簽的詞例數(shù)量為A,標(biāo)注了不同義項(xiàng)標(biāo)簽的詞例數(shù)量為D(A與D之和為N)??梢杂肁除以N(A/N)獲得標(biāo)注者的簡(jiǎn)單一致性(simple agreement),其值越大,說(shuō)明標(biāo)注者一致性越高。不過(guò),Veronis(1998)、Artstein和Poesio(2008)指出,簡(jiǎn)單一致性(A/N)存在標(biāo)注者隨意標(biāo)注的問(wèn)題,即,不排除標(biāo)注結(jié)果是標(biāo)注者隨意標(biāo)注的情況。比如,標(biāo)注者對(duì)某個(gè)多義詞標(biāo)注了10條詞例,且義項(xiàng)標(biāo)記都是i,然后他/她對(duì)余下所有的詞例義項(xiàng)都標(biāo)注上i。為了消除簡(jiǎn)單一致性的這一缺陷,我們采用Cohens Kappa算法(Cohen1960)來(lái)計(jì)算標(biāo)注者一致性:

其中Ao是實(shí)際觀(guān)察到的一致性,Ae是任意標(biāo)注產(chǎn)生的一致性(也就是我們需要消除的那部分)。上式的大致意思是: 去除了由任意標(biāo)注產(chǎn)生的一致性,才是準(zhǔn)確的標(biāo)注者一致性。Kappa值越高的多義詞,其義項(xiàng)區(qū)分度越高。

標(biāo)注者一致性是對(duì)義項(xiàng)可區(qū)分度的直接度量,因?yàn)樗菍?duì)多義詞辨析活動(dòng)的直接觀(guān)察。相較之下,詞義消歧的結(jié)果是對(duì)可區(qū)分度的間接度量且需要語(yǔ)言學(xué)解釋。所以,Kappa值更加“可信”。

四、 義項(xiàng)可區(qū)分度結(jié)果分析

我們相信,多義詞義項(xiàng)的可區(qū)分度值可以為詞典編纂帶來(lái)有益的信息。如前述“包圍”的可區(qū)分度值提示了兩個(gè)義項(xiàng)的定義可能存在難以區(qū)分的問(wèn)題。這部分我們?cè)斒鋈绾瓮ㄟ^(guò)詞義標(biāo)注任務(wù)來(lái)獲取義項(xiàng)可區(qū)分度,分析可區(qū)分度低于一定閾值的多義詞,討論低可區(qū)分度多義詞詞典義項(xiàng)定義的問(wèn)題,以展示義項(xiàng)可區(qū)分度如何對(duì)詞典編纂產(chǎn)生積極作用。

(一) 數(shù)據(jù)

我們從已標(biāo)注了詞典義項(xiàng)的“中小學(xué)教材語(yǔ)料庫(kù)”中選取了419個(gè)包含兩個(gè)義項(xiàng)的多義詞,作為實(shí)驗(yàn)對(duì)象。在語(yǔ)料庫(kù)中抽取到35068條包含所有實(shí)驗(yàn)對(duì)象的句子。

(二) 標(biāo)注者一致性實(shí)驗(yàn)

標(biāo)注者一致性實(shí)驗(yàn)及結(jié)果分析在(柏曉鵬2020)[2]中有詳細(xì)描述。我們選取了12位中文系語(yǔ)言學(xué)背景的本科生和研究生作為標(biāo)注者,每條多義詞例句由三位標(biāo)注者標(biāo)注,要求標(biāo)注者每天最多標(biāo)注1000條例句或最長(zhǎng)連續(xù)工作60分鐘,一共使用10天完成全部標(biāo)注工作。這樣,每一條多義詞例句產(chǎn)生三個(gè)標(biāo)注結(jié)果,可以有三個(gè)一致性Kappa值,我們?nèi)∑骄底鳛榭蓞^(qū)分度數(shù)值: 平均Kappa值越高,則義項(xiàng)可區(qū)分度越大,反之義項(xiàng)可區(qū)分度越小。一般認(rèn)為(Veronis1998;Artstein & Poesio2008),一致性結(jié)果中0.6和0.8是兩個(gè)具有意義的值: 當(dāng)Kappa值低于0.6的時(shí)候,可以認(rèn)為一致性較差,在本文中表示義項(xiàng)可區(qū)分度較低;當(dāng)Kappa值大于等于0.8的時(shí)候,一致性較好,表示義項(xiàng)可區(qū)分度較高。

(三) 可區(qū)分度低的多義詞

在419個(gè)實(shí)驗(yàn)對(duì)象中,有229個(gè)多義詞的義項(xiàng)可區(qū)分度低于0.6(54.7%)。這意味著在我們的實(shí)驗(yàn)對(duì)象中,有超過(guò)一半的多義詞,其詞典義項(xiàng)無(wú)法被很好地區(qū)分。通過(guò)分析可區(qū)分度低于0.6的多義詞,我們發(fā)現(xiàn),義項(xiàng)間有多種關(guān)系導(dǎo)致可區(qū)分度低下。

1. 義項(xiàng)釋義存在重合關(guān)系。有的多義詞義項(xiàng)間存在一個(gè)義項(xiàng)可以被另一個(gè)義項(xiàng)包含的現(xiàn)象,如:

(3) 奔(0.315)

奔走1急走;跑: 奔走相告。

奔走2為一定目的而到處活動(dòng): 奔走衣食│四處奔走│奔走了幾天,事情仍然沒(méi)有結(jié)果。

(4) 失?。?.56)

失敗1在斗爭(zhēng)或競(jìng)賽中被對(duì)方打?。ǜ皠倮毕鄬?duì)): 非正義的戰(zhàn)爭(zhēng)注定是要失敗的。

失敗2工作沒(méi)有達(dá)到預(yù)定的目的(跟“成功”相對(duì)): 試驗(yàn)失敗│失敗是成功之母。

以上兩個(gè)多義詞,其義項(xiàng)內(nèi)涵有“包含”關(guān)系,也就是肖航(2010)指出的義項(xiàng)“重合”關(guān)系?!盀橐欢康亩教幓顒?dòng)”(奔走2)描述了人的活動(dòng),但可以包含“急走、跑”(奔走1)這樣的具體動(dòng)作行為。如:

(5) ……一面要上書(shū)塾,一面要幫家務(wù),天天奔走于當(dāng)鋪和藥鋪之間。

例(5)中的“奔走”做兩種理解都可以,奔走1的詞義內(nèi)容被奔走2完全包含。

而“在斗爭(zhēng)或競(jìng)賽中被對(duì)方打敗”(失敗1)也可視為“工作沒(méi)有達(dá)到預(yù)定的目的”(失敗2)的具體表現(xiàn)。

這種重合關(guān)系還體現(xiàn)在義項(xiàng)釋義內(nèi)容接近,有交疊,如:

(6) 學(xué)(0.594)

學(xué)1學(xué)習(xí): 學(xué)技術(shù)│勤工儉學(xué)│我跟著他學(xué)了許多知識(shí)。

學(xué)2模仿: 他學(xué)杜鵑叫,學(xué)得很像。

學(xué)1義為通過(guò)一種系統(tǒng)性的方式學(xué)習(xí)到一種有用技能,有“獲取”義。學(xué)2描述這個(gè)行為本身,而不關(guān)注學(xué)習(xí)的對(duì)象和對(duì)象本身的價(jià)值。但可以認(rèn)為在語(yǔ)義上,學(xué)2描述的是學(xué)1的一個(gè)階段,二者釋義內(nèi)容有交疊: 人們總是通過(guò)模仿開(kāi)始習(xí)得新的本領(lǐng)。如例(7):

(7) 一只小鷹跟著老鷹學(xué)飛行。

例(7)中的“學(xué)”應(yīng)選擇哪個(gè)義項(xiàng),與如何理解“小鷹”和“飛行”的關(guān)系有關(guān): 如果認(rèn)為“飛行”是一種技能,則應(yīng)選學(xué)1;如果認(rèn)為“小鷹學(xué)飛行”是一種來(lái)自于本能的行為,那選學(xué)2也不無(wú)道理。

2. 義項(xiàng)區(qū)別特征的實(shí)現(xiàn)問(wèn)題。詞典釋義中用以區(qū)分義項(xiàng)的語(yǔ)言學(xué)特征在語(yǔ)料中不實(shí)現(xiàn),使得義項(xiàng)難以區(qū)分,如:

(8) 貢獻(xiàn)(0.594)

貢獻(xiàn)1拿出物資、力量、經(jīng)驗(yàn)等獻(xiàn)給國(guó)家或公眾: 為祖國(guó)貢獻(xiàn)自己的一切。

貢獻(xiàn)2對(duì)國(guó)家或公眾所做的有益的事: 他們?yōu)閲?guó)家做出了新的貢獻(xiàn)。

“貢獻(xiàn)”的兩個(gè)義項(xiàng),一個(gè)是名詞義項(xiàng),一個(gè)是動(dòng)詞義項(xiàng),當(dāng)出現(xiàn)在賓語(yǔ)位置上時(shí)(此時(shí),詞性得不到區(qū)分),義項(xiàng)的區(qū)分就發(fā)生問(wèn)題了,如例(9):

(9) 本來(lái)是可以不斷再生,長(zhǎng)期給人類(lèi)做貢獻(xiàn)的。

例(9)中“貢獻(xiàn)”可以是貢獻(xiàn)2,也可以看作是貢獻(xiàn)1的動(dòng)名詞用法。

同樣的例子還有:

(10) 青年(0.591)

青年1人十五六歲到三十歲左右的階段: 青年人│青年時(shí)代。

青年2指上述年齡的人: 新青年│好青年。

“青年”義項(xiàng)的釋義是比較清晰的,二者的區(qū)分條件是: 青年1大部分時(shí)候出現(xiàn)在定語(yǔ)位置上,青年2大部分時(shí)候出現(xiàn)在中心語(yǔ)位置上。但我們觀(guān)察到,在“青年男女”“青年農(nóng)民”“青年畫(huà)家”“青年朋友”“青年突擊隊(duì)員”等例子中產(chǎn)生了不一致,我們認(rèn)為,這可能是因?yàn)榍嗄?也可以出現(xiàn)在定語(yǔ)位置上的緣故。如:

(11) 青年組織的隊(duì)伍走過(guò)主席臺(tái)……

例(11)中的“青年”即為青年2。此時(shí),區(qū)別兩個(gè)義項(xiàng)的重要特征沒(méi)有實(shí)現(xiàn)。

3. 搭配詞有重合。有些多義詞義項(xiàng)依靠與之搭配詞的詞義得以區(qū)分,當(dāng)搭配詞有重合的時(shí)候,義項(xiàng)區(qū)分發(fā)生困難。

(12) 命運(yùn)(0.333)

命運(yùn)11. 指生死、貧富和一切遭遇(迷信的人認(rèn)為是生來(lái)注定的): 悲慘的命運(yùn)│命運(yùn)不濟(jì)。

命運(yùn)2比喻事物發(fā)展變化的趨向及結(jié)局: 關(guān)心國(guó)家的前途和命運(yùn)。

根據(jù)釋義,命運(yùn)1是已經(jīng)發(fā)生的事件的總和,命運(yùn)2指稱(chēng)事物未來(lái)發(fā)展的可能性。而根據(jù)所舉的例子,命運(yùn)1指的是人的經(jīng)歷,命運(yùn)2指的是社會(huì)組織(國(guó)家、集體等)的發(fā)展?fàn)顟B(tài),“命運(yùn)”的兩個(gè)義項(xiàng)的差異主要通過(guò)定語(yǔ)位置上名詞短語(yǔ)的語(yǔ)義來(lái)確定。命運(yùn)2可以看作命運(yùn)1的隱喻結(jié)果,除了指稱(chēng)對(duì)象發(fā)生明顯變化外,兩個(gè)義項(xiàng)在其他方面相似度較高,而“命運(yùn)”在指稱(chēng)上的語(yǔ)義組合限制,即“生死、貧富和一切遭遇”或“發(fā)展變化趨勢(shì)”,并不能通過(guò)前后幾個(gè)詞的搭配,在一個(gè)句子范圍內(nèi)得以實(shí)現(xiàn),這使得兩個(gè)義項(xiàng)定語(yǔ)位置上的搭配詞有一定重合度,使得義項(xiàng)區(qū)分困難,如:

(13) 這是每一個(gè)人的命運(yùn): 如果他達(dá)到注定的某一級(jí)……

(14) 因?yàn)闅W洲的命運(yùn)全系在拿破侖這一個(gè)人的命運(yùn)。

例(13)中的“命運(yùn)”應(yīng)是命運(yùn)1,但句子的后半部分“如果他達(dá)到注定的某一級(jí)”,又符合命運(yùn)2的表述。例(14)中后一個(gè)“命運(yùn)”應(yīng)是命運(yùn)1,因?yàn)橹阜Q(chēng)“拿破侖”,但句子前半部分有“歐洲的命運(yùn)”,而這兩處“命運(yùn)”應(yīng)該是語(yǔ)義相同的。如此,導(dǎo)致“命運(yùn)”的可區(qū)分度很低。

(四) 義項(xiàng)可區(qū)分度對(duì)詞典編纂的啟示

上文的工作顯示,義項(xiàng)的可區(qū)分度提供了關(guān)于多義詞的指向性信息,即,那些義項(xiàng)可區(qū)分度低于一定值的多義詞義項(xiàng)需要進(jìn)一步檢視。通過(guò)上文第(三)部分中對(duì)一些義項(xiàng)可區(qū)分度小于0.6的詞的分析,我們發(fā)現(xiàn),造成多義詞義項(xiàng)可區(qū)分度低原因可能是詞典義項(xiàng)設(shè)置和釋義不佳造成的,如例(3)、例(4)、例(6);有些則與釋義無(wú)關(guān),而與義項(xiàng)在語(yǔ)言中的具體實(shí)現(xiàn)有關(guān),如例(8)、例(10)。所以,詞典在釋義方面可能需要注意義項(xiàng)在語(yǔ)義上的關(guān)系,并探討是否需要在釋義時(shí)考慮語(yǔ)法等表層實(shí)現(xiàn)的情況。

五、 結(jié)論

本文對(duì)“多義詞詞典義項(xiàng)可區(qū)分度”這一概念進(jìn)行了界定。我們認(rèn)為,義項(xiàng)可區(qū)分度是通過(guò)對(duì)多義詞辨析結(jié)果的評(píng)價(jià),以此來(lái)評(píng)價(jià)多義詞義項(xiàng)辨析難易程度的指標(biāo),其形式為有限范圍內(nèi)的數(shù)值。義項(xiàng)可區(qū)分度為詞典編纂提供了參考信息: 義項(xiàng)可區(qū)分度低于閾值的多義詞,編纂者可能需要對(duì)其定義進(jìn)行檢視。有利于詞典編纂者有目的性地對(duì)詞典進(jìn)行修訂。

我們討論了當(dāng)前計(jì)算義項(xiàng)可區(qū)分度的方法: 基于義類(lèi)體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。基于義類(lèi)體系的方法在理論上存在缺陷?;跈C(jī)器學(xué)習(xí)的詞義消歧方法是對(duì)義項(xiàng)可區(qū)分度的間接評(píng)價(jià),其結(jié)果的準(zhǔn)確性需要語(yǔ)言學(xué)解釋的支撐。

我們進(jìn)一步提出通過(guò)詞義標(biāo)注工作,計(jì)算標(biāo)注者一致性數(shù)據(jù)來(lái)表示義項(xiàng)可區(qū)分度。這個(gè)方法基于多義詞辨析活動(dòng)的直接觀(guān)察,是對(duì)義項(xiàng)辨識(shí)難度較為直接的測(cè)量,故具有比較好的可信度。同時(shí)需要指出,用標(biāo)注者一致性來(lái)估計(jì)義項(xiàng)可區(qū)分度的方法依然會(huì)受到標(biāo)注者的影響。主要是標(biāo)注者人數(shù)、知識(shí)背景以及具體標(biāo)注環(huán)境這幾個(gè)方面。

我們今后的工作將集中在兩個(gè)方面: 一是擴(kuò)大標(biāo)注者一致性實(shí)驗(yàn)的規(guī)模,對(duì)本文實(shí)驗(yàn)中可能存在的一些問(wèn)題進(jìn)行糾正;另一方面是嘗試用詞義消歧的方法來(lái)計(jì)算多義詞義項(xiàng)可區(qū)分度,使用標(biāo)注者一致性數(shù)據(jù)進(jìn)行驗(yàn)證,以期找到一個(gè)合適的自動(dòng)化工具。

附注

[1]本文詞典釋義來(lái)自《現(xiàn)代漢語(yǔ)詞典》第7版。

[2]柏曉鵬.利用標(biāo)注者一致性數(shù)據(jù)估計(jì)多義詞義項(xiàng)的區(qū)分度.世界漢語(yǔ)教學(xué)(待刊)。

參考文獻(xiàn)

1. 李安.多義詞義項(xiàng)的語(yǔ)義關(guān)系及其對(duì)詞義消歧的影響.語(yǔ)言文字應(yīng)用,2014(1).

2. 肖航.詞典多義詞義項(xiàng)關(guān)系與詞義區(qū)分.云南師范大學(xué)學(xué)報(bào),2010(1).

3. 吳云芳,俞士汶.信息處理用詞語(yǔ)義項(xiàng)區(qū)分的原則和方法.語(yǔ)言文字應(yīng)用,2006(2).

4. 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編.現(xiàn)代漢語(yǔ)詞典(第7版).北京: 商務(wù)印書(shū)館,2016.

5. Artstein R, Poesio M. Intercoder Agreement for Computational Linguistics. Computational Linguistics, 2008,34(4).

6. Jacob Cohen. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960,20(1).

7. Ide N, Veronis J. Word Sense Disambiguation: The State of the Art. Computational Linguistics, 1998,24(1).

8. Veronis J. A Study of Polysemy Judgements and Interannotator Agreement. Programme and Advanced Papers of the Senseval Workshop. Herstmonceux, 1998.

(華東師范大學(xué)中文系、華東師范大學(xué)語(yǔ)文教育研究中心上海200241)

(責(zé)任編輯郎晶晶)

猜你喜歡
多義詞區(qū)分度義項(xiàng)
多義詞
淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
淺觀(guān)一道題的“區(qū)分度”
淺議多義詞在語(yǔ)境中的隱喻認(rèn)知
單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
多義詞way的語(yǔ)義認(rèn)知分析及實(shí)證研究
兩用成語(yǔ)中的冷義項(xiàng)
多義詞研究的嶄新視角*——Е. B. Пaдучева詞義動(dòng)態(tài)模式系列研究之二
贵溪市| 高要市| 陆良县| 营山县| 广昌县| 民勤县| 祁东县| 微山县| 思南县| 井陉县| 望奎县| 石台县| 肥东县| 江陵县| 信宜市| 阳东县| 乐至县| 石棉县| 仁化县| 长垣县| 宜春市| 宁蒗| 桂阳县| 浦城县| 台中市| 麻栗坡县| 即墨市| 清水河县| 阿合奇县| 开封市| 麦盖提县| 淮安市| 上林县| 游戏| 黄浦区| 滕州市| 郓城县| 闸北区| 右玉县| 平遥县| 府谷县|