摘要多義詞詞典義項(xiàng)的可區(qū)分度是指,人們根據(jù)詞典提供的信息在語(yǔ)料中對(duì)多義詞義項(xiàng)進(jìn)行辨析的難度。文章探討如何度量多義詞可區(qū)分度。以往對(duì)這個(gè)問(wèn)題的研究主要使用兩種方法: 基于義類(lèi)體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。文章提出利用人工標(biāo)注詞典義項(xiàng),然后對(duì)標(biāo)注結(jié)果計(jì)算標(biāo)注者一致性(interannotators agreement)的方法,從而計(jì)算多義詞義項(xiàng)可區(qū)分度?;趯?duì)幾種方法的討論和對(duì)比,文章發(fā)現(xiàn),通過(guò)計(jì)算人工標(biāo)注結(jié)果一致性的方法較為有效、直觀(guān)和省力。文章認(rèn)為,“多義詞詞典義項(xiàng)可分區(qū)度”是利用人對(duì)多義詞辨析的結(jié)果,對(duì)詞典義項(xiàng)的評(píng)價(jià),并不必然反映詞典釋義的好壞,它應(yīng)該被視為一類(lèi)參考數(shù)據(jù),為詞典編纂提供指示。
關(guān)鍵詞多義詞義項(xiàng)可區(qū)分度標(biāo)注一致性詞義消歧
一、 多義詞詞典義項(xiàng)的可區(qū)分度
在使用詞典釋義進(jìn)行多義詞辨析的過(guò)程中,多義詞義項(xiàng)區(qū)別的難易程度是不同的,而這種難易程度不一定與詞典釋義有關(guān)。有的多義詞義項(xiàng)比較難區(qū)分。如“包圍”有兩個(gè)義項(xiàng)[1]:
(1) 包圍1四面圍?。?亭子被茂密的松林包圍著。
包圍2正面進(jìn)攻的同時(shí),向敵人的翼側(cè)和后方進(jìn)攻。
就詞典釋義來(lái)看,“包圍”的兩個(gè)義項(xiàng)不難區(qū)分。但在我們的實(shí)驗(yàn)中(將于下文第四節(jié)討論),“包圍”的詞典義項(xiàng)可區(qū)分度僅為0.38。
又如,“暴雨”有兩個(gè)義項(xiàng):
(2) 暴雨1大而急的雨。
暴雨2氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨。
從詞典釋義上來(lái)看,“氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨”應(yīng)該是一種“大而急的雨”,難以區(qū)分。在我們的實(shí)驗(yàn)中,“暴雨”的可區(qū)分度為0.86。
我們把這種區(qū)別多義詞詞典義項(xiàng)的難易程度稱(chēng)為“可區(qū)分度”。從詞義關(guān)系的角度看,多義詞義項(xiàng)可區(qū)分度體現(xiàn)了義項(xiàng)在語(yǔ)義上的“重合”程度(肖航2010),它是一種對(duì)詞義關(guān)系的描寫(xiě)。盡管各家詞典在多義詞義項(xiàng)分立的標(biāo)準(zhǔn)和釋義方法上多有不同,但是沒(méi)有一部詞典能夠做到所有多義詞都有等同的可區(qū)分度。這是因?yàn)?,詞典釋義是“語(yǔ)言輸入”,而可區(qū)分度是對(duì)多義詞辨析結(jié)果——“語(yǔ)言輸出”——的評(píng)價(jià)。從學(xué)習(xí)多義詞詞典釋義到使用它在具體上下文中辨析詞義的過(guò)程來(lái)看,從詞典釋義到義項(xiàng)可區(qū)分度過(guò)程如下:
1) 詞典對(duì)多義詞定義;
2) 用戶(hù)學(xué)習(xí)詞典釋義,掌握多義詞義項(xiàng)區(qū)別;
3) 在語(yǔ)料中進(jìn)行多義詞辨析;
4) 對(duì)辨析結(jié)果進(jìn)行評(píng)價(jià);
5) 得到義項(xiàng)可區(qū)分度。
根據(jù)上面的過(guò)程描述,可以發(fā)現(xiàn),一方面,義項(xiàng)可區(qū)分度不是對(duì)多義詞詞典釋義的直接評(píng)價(jià),它從義項(xiàng)辨析結(jié)果中獲得,反映詞典釋義對(duì)多義詞辨析的有效性,即,人們學(xué)習(xí)了詞典釋義后,可以使用它有效地區(qū)分多義詞義項(xiàng);另一方面,作為“輸出”的可區(qū)分度直接受到詞典釋義的影響,并反映詞典釋義可能存在的問(wèn)題,為詞典編纂提供參考性指示。義項(xiàng)的可區(qū)分度小,意味著人們對(duì)義項(xiàng)的區(qū)分有困難,詞典編纂者可以對(duì)該多義詞的釋義進(jìn)行檢視。在積累了一些多義詞義項(xiàng)可區(qū)分度數(shù)據(jù)后,詞典編纂者可進(jìn)一步對(duì)義項(xiàng)分立的原則和依據(jù)進(jìn)行探討。
我們認(rèn)為,義項(xiàng)可區(qū)分度的形式應(yīng)該是一個(gè)有限范圍內(nèi)的數(shù)值,所以無(wú)法通過(guò)理論探討獲得,必須在實(shí)證研究(empirical study)框架中,通過(guò)某種方法計(jì)算得到。
本文將討論計(jì)算多義詞詞典義項(xiàng)可區(qū)分度的方法?,F(xiàn)有的計(jì)算方法基本可以視為是對(duì)義項(xiàng)可區(qū)分度的簡(jiǎn)介描寫(xiě)。我們提出通過(guò)計(jì)算詞義標(biāo)注任務(wù)中的標(biāo)注者一致性來(lái)估計(jì)義項(xiàng)的可區(qū)分度。本文內(nèi)容安排如下: 第一節(jié),提出我們對(duì)義項(xiàng)可區(qū)分度的定義;第二節(jié),討論已有的計(jì)算義項(xiàng)可區(qū)分度的方法,指出這些方法的缺陷;第三節(jié),我們提出使用標(biāo)注一致性估計(jì)可區(qū)分度;第四節(jié),我們簡(jiǎn)單對(duì)比機(jī)器學(xué)習(xí)方法和標(biāo)注者一致性方法的相關(guān)性;最后是結(jié)論和討論。
二、 計(jì)算義項(xiàng)可區(qū)分度的方法
計(jì)算義項(xiàng)可區(qū)分度,是要將可區(qū)分度以數(shù)值形式量化地表示,使得“可區(qū)分度”這一概念被直觀(guān)地表示出來(lái)。詞典義項(xiàng)是書(shū)面語(yǔ)構(gòu)成的句子,無(wú)法被直接計(jì)算,所以首先需要將義項(xiàng)轉(zhuǎn)換為可計(jì)算的表示方式。表示方式有兩種,一種是將義項(xiàng)映射到一個(gè)詞義分類(lèi)體系中,然后通過(guò)計(jì)算義項(xiàng)在義類(lèi)體系中的距離,以此代表可區(qū)分度;另一種是在大規(guī)模語(yǔ)料庫(kù)中抽取義項(xiàng)的語(yǔ)言學(xué)特征,使用機(jī)器學(xué)習(xí)算法進(jìn)行詞義自動(dòng)消歧(word sense disambiguation,以下簡(jiǎn)稱(chēng)WSD),用WSD的結(jié)果表示義項(xiàng)可區(qū)分度。這兩種方法都需要比較大規(guī)模的語(yǔ)言資源,且各有利弊。
(一) 基于義類(lèi)體系的方法
詞的義類(lèi)體系以詞義的上下位關(guān)系為主線(xiàn),將詞義以義項(xiàng)為單位組織成樹(shù)狀結(jié)構(gòu)。義類(lèi)體系由根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn)和詞義集合組成。根節(jié)點(diǎn)是義類(lèi)體系的開(kāi)頭,衍生出若干下位節(jié)點(diǎn)(子節(jié)點(diǎn));中間節(jié)點(diǎn)位于根節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間,每個(gè)中間節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn)(父節(jié)點(diǎn)),并衍生出若干個(gè)下位節(jié)點(diǎn);葉子節(jié)點(diǎn)是處于最下方的節(jié)點(diǎn),每一個(gè)葉子節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn),且不再衍生出下位節(jié)點(diǎn);每個(gè)節(jié)點(diǎn)代表一個(gè)義類(lèi),每個(gè)義類(lèi)對(duì)應(yīng)一個(gè)詞義集合,一個(gè)詞義集合包含若干詞義?;诹x類(lèi)體系的方法首先將多義詞義項(xiàng)分配到義類(lèi)樹(shù)上(一個(gè)義項(xiàng)對(duì)應(yīng)義類(lèi)樹(shù)的一個(gè)節(jié)點(diǎn)),然后計(jì)算義項(xiàng)在義類(lèi)樹(shù)上的距離,即,從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)需要經(jīng)過(guò)多少步。距離越小,意味著義項(xiàng)在義類(lèi)樹(shù)上越接近,則越難區(qū)分——可區(qū)分度越低。最小的距離為0,這時(shí)義項(xiàng)對(duì)應(yīng)義類(lèi)樹(shù)上的同一個(gè)義類(lèi)節(jié)點(diǎn)。
該方法省時(shí)省力,不依賴(lài)詞義標(biāo)注語(yǔ)料庫(kù)和復(fù)雜的計(jì)算方法,可以快速實(shí)現(xiàn)義項(xiàng)可區(qū)分度計(jì)算。(李安2014)
然而,該方法的缺陷也很明顯。
第一,該方法假設(shè),在義類(lèi)樹(shù)上,節(jié)點(diǎn)到節(jié)點(diǎn)的距離是相等的,即,任意兩個(gè)存在上下位關(guān)系的義類(lèi)在語(yǔ)義上的差距是等同的(否則它就失去了通過(guò)計(jì)算義類(lèi)節(jié)點(diǎn)相隔路徑長(zhǎng)度得到義項(xiàng)可區(qū)分度的基礎(chǔ)),但實(shí)際上這個(gè)假設(shè)不成立。義類(lèi)體系賴(lài)以建立的詞義上下位關(guān)系只規(guī)定了詞義的語(yǔ)義關(guān)系,并未對(duì)義類(lèi)之間的這種語(yǔ)義關(guān)系的強(qiáng)弱做任何說(shuō)明,義類(lèi)體系也無(wú)法體現(xiàn)這一點(diǎn)。
第二,該方法依賴(lài)義類(lèi)體系,而義類(lèi)體系的建設(shè)存在隨機(jī)性和主觀(guān)性,且目前沒(méi)有評(píng)價(jià)義類(lèi)體系優(yōu)劣的有效方法。構(gòu)成義類(lèi)樹(shù)的基本詞義關(guān)系是上下位關(guān)系,現(xiàn)實(shí)的義類(lèi)體系則往往由多種詞義關(guān)系和詞義特征共同決定。比如,“同義詞詞林”至少包含了詞義的相似關(guān)系和相關(guān)關(guān)系;“現(xiàn)代漢語(yǔ)詞義分類(lèi)體系”則納入了詞義在句法上實(shí)現(xiàn)的特征。另外,現(xiàn)有理論認(rèn)為,義類(lèi)劃分應(yīng)該盡可能避免跨類(lèi),認(rèn)為分類(lèi)應(yīng)該是離散且互斥的,所以不同的學(xué)者對(duì)義類(lèi)體系中義類(lèi)的數(shù)量、定義以及具體詞義應(yīng)該納入哪個(gè)義類(lèi),其意見(jiàn)是不統(tǒng)一的。比如,“鍋”可以是“廚具類(lèi)”,也可以是“容器類(lèi)”。這樣一來(lái),義項(xiàng)在義類(lèi)樹(shù)上的距離會(huì)因?yàn)槭褂昧瞬煌牧x類(lèi)體系而不同。
第三,該方法要求先對(duì)多義詞義項(xiàng)進(jìn)行義類(lèi)標(biāo)注,即,將義項(xiàng)劃分到義類(lèi)樹(shù)的一個(gè)義類(lèi)上,這使得該方法在本質(zhì)上是對(duì)義項(xiàng)詞典釋義進(jìn)行比較,而非本文所定義的“義項(xiàng)可區(qū)分度”。
(二) 基于機(jī)器學(xué)習(xí)的詞義消歧方法
詞義消歧是在語(yǔ)料庫(kù)中對(duì)多義詞進(jìn)行義項(xiàng)自動(dòng)判別的工作。Ide和Veronis(1998)、吳云芳和俞士汶(2006)認(rèn)為,傳統(tǒng)詞典在多義詞定義方面缺乏一致性,義項(xiàng)間語(yǔ)義距離(稱(chēng)為“語(yǔ)義顆粒度”,semantic granuity)不等,使得對(duì)WSD結(jié)果難以準(zhǔn)確評(píng)價(jià)。不過(guò),這恰好可以為計(jì)算義項(xiàng)可區(qū)分度服務(wù)。既然WSD結(jié)果受詞典定義影響,可以認(rèn)為,語(yǔ)義距離大的義項(xiàng),其消歧結(jié)果可能會(huì)比較好,其可區(qū)分度就比較大,反之,可區(qū)分度比較小。
該方法首先需要在語(yǔ)料庫(kù)中標(biāo)注多義詞的詞典義項(xiàng),然后在語(yǔ)料庫(kù)中抽取多義詞義項(xiàng)的各種語(yǔ)言學(xué)特征,用這些特征構(gòu)成向量來(lái)表示義項(xiàng),通過(guò)計(jì)算義項(xiàng)向量的距離,來(lái)獲得可區(qū)分度數(shù)值。
詞義消歧的方法使用真實(shí)語(yǔ)料庫(kù),在消歧算法一致的前提下能夠公正地評(píng)價(jià)義項(xiàng)可區(qū)分度,其優(yōu)勢(shì)在于盡可能地?cái)[脫了主觀(guān)性因素,使得計(jì)算結(jié)果較為客觀(guān)。
當(dāng)然,該方法亦有其缺陷。
第一,該方法假設(shè),詞典對(duì)義項(xiàng)的定義會(huì)充分反映在語(yǔ)料庫(kù)中,所以從語(yǔ)料庫(kù)抽取特征表示義項(xiàng)。但是,并不是所有的詞義特征都會(huì)被顯性地實(shí)現(xiàn)在語(yǔ)言中,尤其是語(yǔ)用義、修辭義。
第二,詞義消歧依賴(lài)從語(yǔ)料庫(kù)中獲取的義項(xiàng)特征,而能夠獲取到什么樣的特征,取決于語(yǔ)料庫(kù)加工的深度和規(guī)模。如果語(yǔ)料庫(kù)中沒(méi)有語(yǔ)法標(biāo)注,那么義項(xiàng)的語(yǔ)法特征是無(wú)法獲得的。而制作大規(guī)模深加工語(yǔ)料庫(kù)的時(shí)間和人力成本都非常高昂,獲得難度比較大。所以,使用不同語(yǔ)料庫(kù)得到的結(jié)果往往是不同的。這也證明了第一點(diǎn)的觀(guān)點(diǎn)。
第三,該方法的結(jié)果需要在詞匯學(xué)上得到解釋。該方法是對(duì)義項(xiàng)可區(qū)分度的“間接估計(jì)”,本質(zhì)上是用機(jī)器學(xué)習(xí)算法模擬人在真實(shí)語(yǔ)境中辨析多義詞的行為。但算法與人在多義詞判斷的過(guò)程和方式上存在差異,所以通過(guò)詞義消歧得到的義項(xiàng)可區(qū)分度數(shù)值需要在詞匯學(xué)上得到解釋?zhuān)?jiǎn)單來(lái)說(shuō),就是要解決其在多大程度上可信的問(wèn)題。
三、 使用標(biāo)注者一致性估計(jì)多義詞義項(xiàng)的可區(qū)分度
根據(jù)上一節(jié)的論述,基于義類(lèi)體系的方法和詞義消歧的方法都不是對(duì)義項(xiàng)可區(qū)分度的直接度量,且在理論上有諸多缺點(diǎn)。本文提出使用標(biāo)注者一致性的方法來(lái)估計(jì)多義詞詞典義項(xiàng)的可區(qū)分度。肖航(2010)做了一些嘗試,利用標(biāo)注者一致性來(lái)說(shuō)明詞典對(duì)多義詞義項(xiàng)定義中存在的“重合”問(wèn)題,指出,意義“重合”多的義項(xiàng),標(biāo)注者一致性更差。這說(shuō)明,標(biāo)注者一致性反映了人對(duì)詞典釋義的使用情況。
假設(shè)語(yǔ)料庫(kù)中包含多義詞W的詞例數(shù)量為N,且W在詞典中義項(xiàng)數(shù)量為I,標(biāo)注者被要求對(duì)該多義詞的每個(gè)詞例標(biāo)注合適的義項(xiàng)i(顯然i屬于I)。那么,那些標(biāo)注者標(biāo)注了相同義項(xiàng)標(biāo)簽的詞例數(shù)量為A,標(biāo)注了不同義項(xiàng)標(biāo)簽的詞例數(shù)量為D(A與D之和為N)??梢杂肁除以N(A/N)獲得標(biāo)注者的簡(jiǎn)單一致性(simple agreement),其值越大,說(shuō)明標(biāo)注者一致性越高。不過(guò),Veronis(1998)、Artstein和Poesio(2008)指出,簡(jiǎn)單一致性(A/N)存在標(biāo)注者隨意標(biāo)注的問(wèn)題,即,不排除標(biāo)注結(jié)果是標(biāo)注者隨意標(biāo)注的情況。比如,標(biāo)注者對(duì)某個(gè)多義詞標(biāo)注了10條詞例,且義項(xiàng)標(biāo)記都是i,然后他/她對(duì)余下所有的詞例義項(xiàng)都標(biāo)注上i。為了消除簡(jiǎn)單一致性的這一缺陷,我們采用Cohens Kappa算法(Cohen1960)來(lái)計(jì)算標(biāo)注者一致性:
其中Ao是實(shí)際觀(guān)察到的一致性,Ae是任意標(biāo)注產(chǎn)生的一致性(也就是我們需要消除的那部分)。上式的大致意思是: 去除了由任意標(biāo)注產(chǎn)生的一致性,才是準(zhǔn)確的標(biāo)注者一致性。Kappa值越高的多義詞,其義項(xiàng)區(qū)分度越高。
標(biāo)注者一致性是對(duì)義項(xiàng)可區(qū)分度的直接度量,因?yàn)樗菍?duì)多義詞辨析活動(dòng)的直接觀(guān)察。相較之下,詞義消歧的結(jié)果是對(duì)可區(qū)分度的間接度量且需要語(yǔ)言學(xué)解釋。所以,Kappa值更加“可信”。
四、 義項(xiàng)可區(qū)分度結(jié)果分析
我們相信,多義詞義項(xiàng)的可區(qū)分度值可以為詞典編纂帶來(lái)有益的信息。如前述“包圍”的可區(qū)分度值提示了兩個(gè)義項(xiàng)的定義可能存在難以區(qū)分的問(wèn)題。這部分我們?cè)斒鋈绾瓮ㄟ^(guò)詞義標(biāo)注任務(wù)來(lái)獲取義項(xiàng)可區(qū)分度,分析可區(qū)分度低于一定閾值的多義詞,討論低可區(qū)分度多義詞詞典義項(xiàng)定義的問(wèn)題,以展示義項(xiàng)可區(qū)分度如何對(duì)詞典編纂產(chǎn)生積極作用。
(一) 數(shù)據(jù)
我們從已標(biāo)注了詞典義項(xiàng)的“中小學(xué)教材語(yǔ)料庫(kù)”中選取了419個(gè)包含兩個(gè)義項(xiàng)的多義詞,作為實(shí)驗(yàn)對(duì)象。在語(yǔ)料庫(kù)中抽取到35068條包含所有實(shí)驗(yàn)對(duì)象的句子。
(二) 標(biāo)注者一致性實(shí)驗(yàn)
標(biāo)注者一致性實(shí)驗(yàn)及結(jié)果分析在(柏曉鵬2020)[2]中有詳細(xì)描述。我們選取了12位中文系語(yǔ)言學(xué)背景的本科生和研究生作為標(biāo)注者,每條多義詞例句由三位標(biāo)注者標(biāo)注,要求標(biāo)注者每天最多標(biāo)注1000條例句或最長(zhǎng)連續(xù)工作60分鐘,一共使用10天完成全部標(biāo)注工作。這樣,每一條多義詞例句產(chǎn)生三個(gè)標(biāo)注結(jié)果,可以有三個(gè)一致性Kappa值,我們?nèi)∑骄底鳛榭蓞^(qū)分度數(shù)值: 平均Kappa值越高,則義項(xiàng)可區(qū)分度越大,反之義項(xiàng)可區(qū)分度越小。一般認(rèn)為(Veronis1998;Artstein & Poesio2008),一致性結(jié)果中0.6和0.8是兩個(gè)具有意義的值: 當(dāng)Kappa值低于0.6的時(shí)候,可以認(rèn)為一致性較差,在本文中表示義項(xiàng)可區(qū)分度較低;當(dāng)Kappa值大于等于0.8的時(shí)候,一致性較好,表示義項(xiàng)可區(qū)分度較高。
(三) 可區(qū)分度低的多義詞
在419個(gè)實(shí)驗(yàn)對(duì)象中,有229個(gè)多義詞的義項(xiàng)可區(qū)分度低于0.6(54.7%)。這意味著在我們的實(shí)驗(yàn)對(duì)象中,有超過(guò)一半的多義詞,其詞典義項(xiàng)無(wú)法被很好地區(qū)分。通過(guò)分析可區(qū)分度低于0.6的多義詞,我們發(fā)現(xiàn),義項(xiàng)間有多種關(guān)系導(dǎo)致可區(qū)分度低下。
1. 義項(xiàng)釋義存在重合關(guān)系。有的多義詞義項(xiàng)間存在一個(gè)義項(xiàng)可以被另一個(gè)義項(xiàng)包含的現(xiàn)象,如:
(3) 奔(0.315)
奔走1急走;跑: 奔走相告。
奔走2為一定目的而到處活動(dòng): 奔走衣食│四處奔走│奔走了幾天,事情仍然沒(méi)有結(jié)果。
(4) 失?。?.56)
失敗1在斗爭(zhēng)或競(jìng)賽中被對(duì)方打?。ǜ皠倮毕鄬?duì)): 非正義的戰(zhàn)爭(zhēng)注定是要失敗的。
失敗2工作沒(méi)有達(dá)到預(yù)定的目的(跟“成功”相對(duì)): 試驗(yàn)失敗│失敗是成功之母。
以上兩個(gè)多義詞,其義項(xiàng)內(nèi)涵有“包含”關(guān)系,也就是肖航(2010)指出的義項(xiàng)“重合”關(guān)系?!盀橐欢康亩教幓顒?dòng)”(奔走2)描述了人的活動(dòng),但可以包含“急走、跑”(奔走1)這樣的具體動(dòng)作行為。如:
(5) ……一面要上書(shū)塾,一面要幫家務(wù),天天奔走于當(dāng)鋪和藥鋪之間。
例(5)中的“奔走”做兩種理解都可以,奔走1的詞義內(nèi)容被奔走2完全包含。
而“在斗爭(zhēng)或競(jìng)賽中被對(duì)方打敗”(失敗1)也可視為“工作沒(méi)有達(dá)到預(yù)定的目的”(失敗2)的具體表現(xiàn)。
這種重合關(guān)系還體現(xiàn)在義項(xiàng)釋義內(nèi)容接近,有交疊,如:
(6) 學(xué)(0.594)
學(xué)1學(xué)習(xí): 學(xué)技術(shù)│勤工儉學(xué)│我跟著他學(xué)了許多知識(shí)。
學(xué)2模仿: 他學(xué)杜鵑叫,學(xué)得很像。
學(xué)1義為通過(guò)一種系統(tǒng)性的方式學(xué)習(xí)到一種有用技能,有“獲取”義。學(xué)2描述這個(gè)行為本身,而不關(guān)注學(xué)習(xí)的對(duì)象和對(duì)象本身的價(jià)值。但可以認(rèn)為在語(yǔ)義上,學(xué)2描述的是學(xué)1的一個(gè)階段,二者釋義內(nèi)容有交疊: 人們總是通過(guò)模仿開(kāi)始習(xí)得新的本領(lǐng)。如例(7):
(7) 一只小鷹跟著老鷹學(xué)飛行。
例(7)中的“學(xué)”應(yīng)選擇哪個(gè)義項(xiàng),與如何理解“小鷹”和“飛行”的關(guān)系有關(guān): 如果認(rèn)為“飛行”是一種技能,則應(yīng)選學(xué)1;如果認(rèn)為“小鷹學(xué)飛行”是一種來(lái)自于本能的行為,那選學(xué)2也不無(wú)道理。
2. 義項(xiàng)區(qū)別特征的實(shí)現(xiàn)問(wèn)題。詞典釋義中用以區(qū)分義項(xiàng)的語(yǔ)言學(xué)特征在語(yǔ)料中不實(shí)現(xiàn),使得義項(xiàng)難以區(qū)分,如:
(8) 貢獻(xiàn)(0.594)
貢獻(xiàn)1拿出物資、力量、經(jīng)驗(yàn)等獻(xiàn)給國(guó)家或公眾: 為祖國(guó)貢獻(xiàn)自己的一切。
貢獻(xiàn)2對(duì)國(guó)家或公眾所做的有益的事: 他們?yōu)閲?guó)家做出了新的貢獻(xiàn)。
“貢獻(xiàn)”的兩個(gè)義項(xiàng),一個(gè)是名詞義項(xiàng),一個(gè)是動(dòng)詞義項(xiàng),當(dāng)出現(xiàn)在賓語(yǔ)位置上時(shí)(此時(shí),詞性得不到區(qū)分),義項(xiàng)的區(qū)分就發(fā)生問(wèn)題了,如例(9):
(9) 本來(lái)是可以不斷再生,長(zhǎng)期給人類(lèi)做貢獻(xiàn)的。
例(9)中“貢獻(xiàn)”可以是貢獻(xiàn)2,也可以看作是貢獻(xiàn)1的動(dòng)名詞用法。
同樣的例子還有:
(10) 青年(0.591)
青年1人十五六歲到三十歲左右的階段: 青年人│青年時(shí)代。
青年2指上述年齡的人: 新青年│好青年。
“青年”義項(xiàng)的釋義是比較清晰的,二者的區(qū)分條件是: 青年1大部分時(shí)候出現(xiàn)在定語(yǔ)位置上,青年2大部分時(shí)候出現(xiàn)在中心語(yǔ)位置上。但我們觀(guān)察到,在“青年男女”“青年農(nóng)民”“青年畫(huà)家”“青年朋友”“青年突擊隊(duì)員”等例子中產(chǎn)生了不一致,我們認(rèn)為,這可能是因?yàn)榍嗄?也可以出現(xiàn)在定語(yǔ)位置上的緣故。如:
(11) 青年組織的隊(duì)伍走過(guò)主席臺(tái)……
例(11)中的“青年”即為青年2。此時(shí),區(qū)別兩個(gè)義項(xiàng)的重要特征沒(méi)有實(shí)現(xiàn)。
3. 搭配詞有重合。有些多義詞義項(xiàng)依靠與之搭配詞的詞義得以區(qū)分,當(dāng)搭配詞有重合的時(shí)候,義項(xiàng)區(qū)分發(fā)生困難。
(12) 命運(yùn)(0.333)
命運(yùn)11. 指生死、貧富和一切遭遇(迷信的人認(rèn)為是生來(lái)注定的): 悲慘的命運(yùn)│命運(yùn)不濟(jì)。
命運(yùn)2比喻事物發(fā)展變化的趨向及結(jié)局: 關(guān)心國(guó)家的前途和命運(yùn)。
根據(jù)釋義,命運(yùn)1是已經(jīng)發(fā)生的事件的總和,命運(yùn)2指稱(chēng)事物未來(lái)發(fā)展的可能性。而根據(jù)所舉的例子,命運(yùn)1指的是人的經(jīng)歷,命運(yùn)2指的是社會(huì)組織(國(guó)家、集體等)的發(fā)展?fàn)顟B(tài),“命運(yùn)”的兩個(gè)義項(xiàng)的差異主要通過(guò)定語(yǔ)位置上名詞短語(yǔ)的語(yǔ)義來(lái)確定。命運(yùn)2可以看作命運(yùn)1的隱喻結(jié)果,除了指稱(chēng)對(duì)象發(fā)生明顯變化外,兩個(gè)義項(xiàng)在其他方面相似度較高,而“命運(yùn)”在指稱(chēng)上的語(yǔ)義組合限制,即“生死、貧富和一切遭遇”或“發(fā)展變化趨勢(shì)”,并不能通過(guò)前后幾個(gè)詞的搭配,在一個(gè)句子范圍內(nèi)得以實(shí)現(xiàn),這使得兩個(gè)義項(xiàng)定語(yǔ)位置上的搭配詞有一定重合度,使得義項(xiàng)區(qū)分困難,如:
(13) 這是每一個(gè)人的命運(yùn): 如果他達(dá)到注定的某一級(jí)……
(14) 因?yàn)闅W洲的命運(yùn)全系在拿破侖這一個(gè)人的命運(yùn)。
例(13)中的“命運(yùn)”應(yīng)是命運(yùn)1,但句子的后半部分“如果他達(dá)到注定的某一級(jí)”,又符合命運(yùn)2的表述。例(14)中后一個(gè)“命運(yùn)”應(yīng)是命運(yùn)1,因?yàn)橹阜Q(chēng)“拿破侖”,但句子前半部分有“歐洲的命運(yùn)”,而這兩處“命運(yùn)”應(yīng)該是語(yǔ)義相同的。如此,導(dǎo)致“命運(yùn)”的可區(qū)分度很低。
(四) 義項(xiàng)可區(qū)分度對(duì)詞典編纂的啟示
上文的工作顯示,義項(xiàng)的可區(qū)分度提供了關(guān)于多義詞的指向性信息,即,那些義項(xiàng)可區(qū)分度低于一定值的多義詞義項(xiàng)需要進(jìn)一步檢視。通過(guò)上文第(三)部分中對(duì)一些義項(xiàng)可區(qū)分度小于0.6的詞的分析,我們發(fā)現(xiàn),造成多義詞義項(xiàng)可區(qū)分度低原因可能是詞典義項(xiàng)設(shè)置和釋義不佳造成的,如例(3)、例(4)、例(6);有些則與釋義無(wú)關(guān),而與義項(xiàng)在語(yǔ)言中的具體實(shí)現(xiàn)有關(guān),如例(8)、例(10)。所以,詞典在釋義方面可能需要注意義項(xiàng)在語(yǔ)義上的關(guān)系,并探討是否需要在釋義時(shí)考慮語(yǔ)法等表層實(shí)現(xiàn)的情況。
五、 結(jié)論
本文對(duì)“多義詞詞典義項(xiàng)可區(qū)分度”這一概念進(jìn)行了界定。我們認(rèn)為,義項(xiàng)可區(qū)分度是通過(guò)對(duì)多義詞辨析結(jié)果的評(píng)價(jià),以此來(lái)評(píng)價(jià)多義詞義項(xiàng)辨析難易程度的指標(biāo),其形式為有限范圍內(nèi)的數(shù)值。義項(xiàng)可區(qū)分度為詞典編纂提供了參考信息: 義項(xiàng)可區(qū)分度低于閾值的多義詞,編纂者可能需要對(duì)其定義進(jìn)行檢視。有利于詞典編纂者有目的性地對(duì)詞典進(jìn)行修訂。
我們討論了當(dāng)前計(jì)算義項(xiàng)可區(qū)分度的方法: 基于義類(lèi)體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。基于義類(lèi)體系的方法在理論上存在缺陷?;跈C(jī)器學(xué)習(xí)的詞義消歧方法是對(duì)義項(xiàng)可區(qū)分度的間接評(píng)價(jià),其結(jié)果的準(zhǔn)確性需要語(yǔ)言學(xué)解釋的支撐。
我們進(jìn)一步提出通過(guò)詞義標(biāo)注工作,計(jì)算標(biāo)注者一致性數(shù)據(jù)來(lái)表示義項(xiàng)可區(qū)分度。這個(gè)方法基于多義詞辨析活動(dòng)的直接觀(guān)察,是對(duì)義項(xiàng)辨識(shí)難度較為直接的測(cè)量,故具有比較好的可信度。同時(shí)需要指出,用標(biāo)注者一致性來(lái)估計(jì)義項(xiàng)可區(qū)分度的方法依然會(huì)受到標(biāo)注者的影響。主要是標(biāo)注者人數(shù)、知識(shí)背景以及具體標(biāo)注環(huán)境這幾個(gè)方面。
我們今后的工作將集中在兩個(gè)方面: 一是擴(kuò)大標(biāo)注者一致性實(shí)驗(yàn)的規(guī)模,對(duì)本文實(shí)驗(yàn)中可能存在的一些問(wèn)題進(jìn)行糾正;另一方面是嘗試用詞義消歧的方法來(lái)計(jì)算多義詞義項(xiàng)可區(qū)分度,使用標(biāo)注者一致性數(shù)據(jù)進(jìn)行驗(yàn)證,以期找到一個(gè)合適的自動(dòng)化工具。
附注
[1]本文詞典釋義來(lái)自《現(xiàn)代漢語(yǔ)詞典》第7版。
[2]柏曉鵬.利用標(biāo)注者一致性數(shù)據(jù)估計(jì)多義詞義項(xiàng)的區(qū)分度.世界漢語(yǔ)教學(xué)(待刊)。
參考文獻(xiàn)
1. 李安.多義詞義項(xiàng)的語(yǔ)義關(guān)系及其對(duì)詞義消歧的影響.語(yǔ)言文字應(yīng)用,2014(1).
2. 肖航.詞典多義詞義項(xiàng)關(guān)系與詞義區(qū)分.云南師范大學(xué)學(xué)報(bào),2010(1).
3. 吳云芳,俞士汶.信息處理用詞語(yǔ)義項(xiàng)區(qū)分的原則和方法.語(yǔ)言文字應(yīng)用,2006(2).
4. 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編.現(xiàn)代漢語(yǔ)詞典(第7版).北京: 商務(wù)印書(shū)館,2016.
5. Artstein R, Poesio M. Intercoder Agreement for Computational Linguistics. Computational Linguistics, 2008,34(4).
6. Jacob Cohen. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960,20(1).
7. Ide N, Veronis J. Word Sense Disambiguation: The State of the Art. Computational Linguistics, 1998,24(1).
8. Veronis J. A Study of Polysemy Judgements and Interannotator Agreement. Programme and Advanced Papers of the Senseval Workshop. Herstmonceux, 1998.
(華東師范大學(xué)中文系、華東師范大學(xué)語(yǔ)文教育研究中心上海200241)
(責(zé)任編輯郎晶晶)