国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于《同義詞詞林》深度的詞義相似度計(jì)算研究

2020-09-04 03:15孫玉泉
關(guān)鍵詞:義項(xiàng)結(jié)點(diǎn)詞義

楊 泉,孫玉泉

1.北京師范大學(xué) 漢語(yǔ)文化學(xué)院,北京 100875

2.北京航空航天大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100191

1 引言

詞語(yǔ)間的語(yǔ)義相似度(本文簡(jiǎn)稱(chēng)詞義相似度)計(jì)算是自然語(yǔ)言處理中文本數(shù)據(jù)處理的基礎(chǔ),隨著人工智能時(shí)代的到來(lái),詞義相似度計(jì)算越來(lái)越多地應(yīng)用到機(jī)器翻譯、人機(jī)問(wèn)答、情感計(jì)算、信息抽取、生物醫(yī)學(xué)等不同領(lǐng)域。

目前詞義相似度的計(jì)算方法基本上可以分為兩類(lèi):一類(lèi)是根據(jù)某種已有知識(shí)本體(Ontology)或分類(lèi)體系(Taxonomy)進(jìn)行計(jì)算;另一類(lèi)是在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上直接統(tǒng)計(jì)和計(jì)算[1]。基于語(yǔ)料庫(kù)的方法需要在大規(guī)模精確標(biāo)注語(yǔ)料的基礎(chǔ)上進(jìn)行,對(duì)語(yǔ)料的依賴(lài)性較大,可解釋性也較差。而基于知識(shí)本體的方法依據(jù)人類(lèi)的世界知識(shí),對(duì)詞語(yǔ)之間的語(yǔ)義相似程度進(jìn)行計(jì)算,具有較強(qiáng)的理論依據(jù)。

國(guó)外很多詞義相似度測(cè)量方法是使用WordNet 作為底層參考知識(shí)本體來(lái)實(shí)現(xiàn)和評(píng)估的[2]。例如Resnik等在WordNet 的“IS-A”分類(lèi)體系基礎(chǔ)上提出了一種基于共享信息內(nèi)容概念的詞義相似性計(jì)算方法。對(duì)同義詞表組內(nèi)的名詞詞義分配置信值,利用分類(lèi)相似性解決語(yǔ)義歧義問(wèn)題[3]。Taieb 等提出了一種基于WordNet 層次結(jié)構(gòu)深度分布的相關(guān)概念下位詞子圖量化法。該方法對(duì)WordNet 中兩個(gè)待比較詞的下位詞和深度參數(shù)比組成的子圖進(jìn)行量化,并利用與“IS-A”分類(lèi)體系相關(guān)的拓?fù)鋮?shù),計(jì)算兩個(gè)詞語(yǔ)的語(yǔ)義相似度[4]。WordNet 是目前世界上計(jì)算英語(yǔ)詞義相似度的主要知識(shí)本體依據(jù)。

國(guó)內(nèi)中文詞義相似度計(jì)算也有采用知網(wǎng)作為分類(lèi)詞典的方法,劉群、李素建等在知網(wǎng)的基礎(chǔ)上給出了判定詞義相似度的計(jì)算模型[1,5]。但是知網(wǎng)的構(gòu)造者董振東指出知網(wǎng)的結(jié)構(gòu)與WordNet 是有很大區(qū)別的,最大不同在于它不是一部義類(lèi)詞典,而是一個(gè)描述概念與概念之間關(guān)系以及概念的屬性與屬性之間關(guān)系的知識(shí)系統(tǒng)[6-7]?!锻x詞詞林》是梅家駒等人于1983 年編撰的可計(jì)算漢語(yǔ)詞庫(kù),經(jīng)哈爾濱工業(yè)大學(xué)研究人員擴(kuò)展成為《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》(本文簡(jiǎn)稱(chēng)《詞林》),其內(nèi)部結(jié)構(gòu)與WordNet 的分類(lèi)體系較為相似,因此近年來(lái)越來(lái)越多地被應(yīng)用于詞義相似度計(jì)算中。

田久樂(lè)等利用《詞林》的編碼及結(jié)構(gòu)特點(diǎn),結(jié)合詞語(yǔ)的相似性和相關(guān)性,實(shí)現(xiàn)了一種基于路徑和深度的詞語(yǔ)相似度計(jì)算方法,對(duì)于兩個(gè)詞語(yǔ)義項(xiàng)s1和s2,其相似度計(jì)算公式如下:

其中,init(s1,s2)是相似度初值函數(shù)是相似度初值調(diào)節(jié)參數(shù),n是分支層結(jié)點(diǎn)總數(shù),k是兩個(gè)義項(xiàng)在最近公共父結(jié)點(diǎn)中的分支距離[8-9]。

朱新華等根據(jù)詞語(yǔ)的分布情況,為《詞林》提出的詞語(yǔ)相似度計(jì)算公式如下:

其中,分支結(jié)點(diǎn)數(shù)n和分支間隔數(shù)k為調(diào)節(jié)參數(shù),dis(C1,C2)是詞語(yǔ)編碼C1和C2在樹(shù)狀結(jié)構(gòu)中的距離函數(shù)。該文為知網(wǎng)也提出了改進(jìn)的義原相似度計(jì)算,最后綜合考慮知網(wǎng)與《詞林》的動(dòng)態(tài)加權(quán)策略來(lái)計(jì)算最終的詞語(yǔ)語(yǔ)義相似度[10]。

陳宏朝等提出了一種基于路徑與深度的《詞林》詞語(yǔ)語(yǔ)義相似度計(jì)算方法。該方法通過(guò)兩個(gè)詞語(yǔ)義項(xiàng)之間的最短路徑及其最近公共父結(jié)點(diǎn)在層次樹(shù)中的深度計(jì)算兩個(gè)詞語(yǔ)義項(xiàng)的相似度。并提出在語(yǔ)義詞典中任意兩個(gè)義項(xiàng)s1和s2的相似度計(jì)算公式如下:Depth(LCP(s1,s2))表示兩個(gè)義項(xiàng)s1和s2最近公共父結(jié)點(diǎn)的深度距離,Path(s1,s2)表示兩個(gè)義項(xiàng)之間的最短路徑;α為深度調(diào)節(jié)參數(shù),β為路徑調(diào)節(jié)參數(shù)[9]。

王松松等提出了一種基于路徑與《詞林》編碼相結(jié)合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法,該方法使用局部敏感哈希算法將兩個(gè)詞語(yǔ)在《詞林》中的編碼轉(zhuǎn)換成兩個(gè)二進(jìn)制,再使用海明距離來(lái)計(jì)算兩個(gè)二進(jìn)制之間的距離,具體計(jì)算公式如下:

其中,Norm表示對(duì)海明距離計(jì)算結(jié)果進(jìn)行歸一化處理,PathHamming(w1,w2)表示詞語(yǔ)w1和w2之間的海明距離[11]。

綜上,研究者設(shè)計(jì)《詞林》詞義相似度計(jì)算模型時(shí)具有以下兩個(gè)特點(diǎn):(1)進(jìn)一步挖掘知識(shí)體系中的相關(guān)信息,并將這些信息作為計(jì)算詞義相似度的關(guān)鍵因素;(2)進(jìn)一步完善詞義相似度的計(jì)算模型,建立詞義相似度與關(guān)鍵因素之間更為合理的關(guān)系表達(dá)式。從而使得相似度計(jì)算結(jié)果更接近人工判定值,但相關(guān)算法和模型仍有需要完善的地方。

2 《同義詞詞林》組織架構(gòu)分析

經(jīng)哈工大擴(kuò)展后的《詞林》目前共收錄詞語(yǔ)77 456條,分為 12 個(gè)大類(lèi),95 個(gè)中類(lèi),1 428 個(gè)小類(lèi),小類(lèi)下方進(jìn)一步劃分為4 026 個(gè)詞群和17 817 個(gè)原子詞群兩級(jí)。每個(gè)原子詞群對(duì)應(yīng)一個(gè)義項(xiàng)編碼,也對(duì)應(yīng)著一組同義詞條目,其中只有一個(gè)義項(xiàng)的詞語(yǔ)有68 645 個(gè),兩個(gè)或兩個(gè)以上義項(xiàng)的詞語(yǔ)有8 811個(gè)。

《詞林》體系中將詞語(yǔ)分為五個(gè)層級(jí),第一層級(jí)是大類(lèi),用1 位大寫(xiě)英文字母表示;第二層級(jí)是中類(lèi),用1 位小寫(xiě)英文字母表示;第三層級(jí)是小類(lèi),用2 位十進(jìn)制整數(shù)表示;第四層級(jí)是詞群,用1位大寫(xiě)英文字母表示;第五層級(jí)是原子詞群,用2位十進(jìn)制整數(shù)表示。在這個(gè)五層級(jí)分類(lèi)體系中用7 位編碼確定后就可以唯一表示一組原子詞群。第8位編碼有三種情況:“=”表示原子詞群中的詞語(yǔ)屬于同義詞語(yǔ);“#”表示原子詞群中的詞語(yǔ)屬于相關(guān)詞語(yǔ);“@”表示原子詞群中只有一個(gè)詞語(yǔ),這個(gè)詞語(yǔ)在《詞林》中既沒(méi)有同義詞語(yǔ),也沒(méi)有相關(guān)詞語(yǔ)。表1詳細(xì)展示了《詞林》中的五層、8位義項(xiàng)編碼情況(參見(jiàn)《哈工大同義詞詞林?jǐn)U展版》網(wǎng)站:http://www.ltpcloud.com/download)。

表1 《詞林》義項(xiàng)編碼表

在《詞林》的編碼體系中,前面四層結(jié)點(diǎn)都代表抽象的類(lèi)別,只有第五層的葉子結(jié)點(diǎn)才是具體的詞語(yǔ),同一個(gè)詞語(yǔ)可能有多個(gè)不同的義項(xiàng),即同一詞語(yǔ)可能在不同的原子詞群中同時(shí)存在。其中第一層級(jí)的大類(lèi)代碼含義如表2所示。

表2 《詞林》大類(lèi)代碼含義表

表2 中A、B、C 類(lèi)多為名詞,D 類(lèi)多為數(shù)詞和量詞,E 類(lèi)多為形容詞,F(xiàn)、G、H、I、J 類(lèi)多為動(dòng)詞,K 類(lèi)多為虛詞,L 類(lèi)是難以被分到上述類(lèi)別中的一些詞語(yǔ)[12]。大類(lèi)和中類(lèi)的排序遵照從具體到抽象的原則,如E 大類(lèi)下面又分為五個(gè)中類(lèi),從“外形”到“境況”,如表3所示。

表3 《詞林》E大類(lèi)分支義項(xiàng)代碼含義表

下面將《詞林》體系做形式化表示:

(1)為將不同大類(lèi)的層級(jí)體系整合在一起,本文在《詞林》體系第一層級(jí)“大類(lèi)”上面再增加一個(gè)根結(jié)點(diǎn)R,這樣《詞林》體系中的詞語(yǔ)根據(jù)其編碼就構(gòu)成一個(gè)完整的六層結(jié)點(diǎn)、五層邊的樹(shù)形結(jié)構(gòu)圖。

(2)在《詞林》體系中,所有詞語(yǔ)都在第五層的葉子結(jié)點(diǎn)上,將詞語(yǔ)集合記為S={s1,s2,…,sn},對(duì)于任意兩個(gè)葉子結(jié)點(diǎn)上的詞語(yǔ)(s1,s2),其詞義相似度值表示為S(s1,s2)。

根據(jù)以上形式化表示方式,可以把《詞林》的義項(xiàng)編碼轉(zhuǎn)化為如圖1的樹(shù)形結(jié)構(gòu)圖。

(4)在圖1的樹(shù)形結(jié)構(gòu)中,深度是指某個(gè)結(jié)點(diǎn)(葉子結(jié)點(diǎn)或父結(jié)點(diǎn))到根結(jié)點(diǎn)的距離,用D表示;路徑是指兩個(gè)葉子結(jié)點(diǎn)分別到其最近父結(jié)點(diǎn)的邊的總和,用P表示。例如圖1 中,s1和s4的最近父結(jié)點(diǎn)是F31,那么s1到s4的路徑就是s1到F31的邊總數(shù)與s4到F31的邊總數(shù)之和。s1到F31的邊總數(shù)為2,s4到F31的邊總數(shù)為2,那么s1到s4的路徑P=4。結(jié)點(diǎn)F31的深度是其到根結(jié)點(diǎn)R的邊的總數(shù),因此F31的深度D=3。

圖1 《詞林》樹(shù)形結(jié)構(gòu)圖

通過(guò)上文對(duì)《詞林》的整體架構(gòu)的分析,可以得出以下結(jié)論:

(1)知識(shí)本體對(duì)于詞義相似度計(jì)算起決定性作用?;诹x項(xiàng)編碼的《詞林》樹(shù)形圖中,不同葉子結(jié)點(diǎn)間的路徑信息里面隱含著《詞林》中的詞義相似度信息,這些信息實(shí)際是作者在編著《同義詞詞林》時(shí)就已融入其中的世界知識(shí)。在計(jì)算詞義相似度時(shí)如果能精確解析蘊(yùn)含其中的豐富信息,并將其形式化后轉(zhuǎn)化為計(jì)算機(jī)可執(zhí)行算法,就可以計(jì)算出基于《詞林》的兩個(gè)詞語(yǔ)之間的詞義相似度數(shù)值。不同知識(shí)本體中蘊(yùn)含著不同的分類(lèi)體系和世界知識(shí),實(shí)際上是其構(gòu)建者對(duì)于世界知識(shí)和詞語(yǔ)體系認(rèn)識(shí)的不同。如果用不同的知識(shí)本體做基礎(chǔ)去計(jì)算詞語(yǔ)之間的詞義相似度,即使使用相同的算法也會(huì)得出不同的結(jié)論。因此知識(shí)本體首先是影響詞義相似度計(jì)算結(jié)果的決定性因素。

(2)父結(jié)點(diǎn)深度與路徑具有等價(jià)關(guān)系。在引入了根結(jié)點(diǎn)R的情況下,《詞林》有六層結(jié)點(diǎn),五層邊,所有的詞語(yǔ)都位于層級(jí)體系最下面的葉子結(jié)點(diǎn)上,因此它們與根結(jié)點(diǎn)R的距離(即葉子結(jié)點(diǎn)深度)都相同,數(shù)值為5。而對(duì)于父結(jié)點(diǎn)深度只有4種取值情況,D=1,2,3,4。顯然一個(gè)葉子結(jié)點(diǎn)的深度應(yīng)該是它到其任何父結(jié)點(diǎn)的距離與該父結(jié)點(diǎn)深度之和。對(duì)于任意兩個(gè)葉子結(jié)點(diǎn),它們到最近父結(jié)點(diǎn)的距離相等,因此兩個(gè)詞語(yǔ)間的路徑是它們到最近父結(jié)點(diǎn)距離的2倍。例如,s1和s4的父結(jié)點(diǎn)是F31,s1到s4的路徑P=4 ,F(xiàn)31的深度D為3,s1和s4到F31的邊數(shù)均為,因此父結(jié)點(diǎn)深度和路徑有如下關(guān)系:

該結(jié)論說(shuō)明路徑和父結(jié)點(diǎn)深度是兩個(gè)能夠相互表示的量,因此在計(jì)算相似度時(shí)兩者能夠互相替代,從而簡(jiǎn)化算法。

(3)在同一個(gè)知識(shí)本體中,最近父結(jié)點(diǎn)F的深度對(duì)于兩個(gè)詞語(yǔ)的詞義相似度起決定性作用。從《詞林》體系中可以直觀地看出來(lái),F(xiàn)在《詞林》體系中所處層級(jí)位置越高,D的取值越小,則s1與s2的相似度越低;相反F在《詞林》中所處層級(jí)位置越低,D的取值越大,其在《詞林》中所處層級(jí)位置越低,則s1和s2的相似度越高。因此D的取值與S成正比關(guān)系,而F的位置與S成反比關(guān)系。這從語(yǔ)言學(xué)角度也很容易理解,當(dāng)兩個(gè)詞語(yǔ)所處的分支層的父結(jié)點(diǎn)越低,說(shuō)明這兩個(gè)詞語(yǔ)所在的類(lèi)別距離越近,兩個(gè)詞語(yǔ)的語(yǔ)義相似程度就越高,相反當(dāng)兩個(gè)詞語(yǔ)所處的分支層的父結(jié)點(diǎn)越高,說(shuō)明這兩個(gè)詞語(yǔ)所在的類(lèi)別距離越遠(yuǎn),兩個(gè)詞語(yǔ)的語(yǔ)義相似程度就越低。詞義相似度計(jì)算問(wèn)題就是將已有知識(shí)體系中的信息進(jìn)行量化表達(dá)的過(guò)程,因此對(duì)知識(shí)體系中信息提取得越充分,使用得越合理,就能得到更好的計(jì)算結(jié)果。為此本文對(duì)《詞林》中與詞義相似度相關(guān)的信息進(jìn)行了詳細(xì)的統(tǒng)計(jì)和分析。

①分析葉子結(jié)點(diǎn)中詞語(yǔ)的分布情況。在《詞林》中每個(gè)葉子結(jié)點(diǎn)對(duì)應(yīng)一個(gè)義項(xiàng)編碼,且唯一代表一個(gè)原子詞群,根據(jù)義項(xiàng)編碼末位(即第8 位編碼)判斷,原子詞群中的詞語(yǔ)有三類(lèi)關(guān)系:同義、相關(guān)或獨(dú)立?!蔼?dú)立”的意思是該原子詞群內(nèi)部?jī)H包含一個(gè)詞語(yǔ),最大的原子詞群包含572個(gè)詞,是縣名的集合。原子詞群中不同詞語(yǔ)數(shù)量分布情況如圖2所示。

對(duì)照組患者圍手術(shù)期低血糖發(fā)生率為15.00%,觀察組為3.33%,兩組對(duì)比差異有統(tǒng)計(jì)學(xué)意義(P<0.05);對(duì)照組患者圍手術(shù)期傷口感染率為18.33%,觀察組為5.00%,兩組對(duì)比差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)表1。

圖2 不同詞語(yǔ)數(shù)量原子詞群分布圖

從圖2 中可以看出,原子詞群的分布符合冪率分布。包含詞語(yǔ)個(gè)數(shù)越少的原子詞群在《詞林》中所占的比例越高。例如僅包含一個(gè)詞語(yǔ)的原子詞群數(shù)量最多有4 377 個(gè),占比25.6%;包含兩個(gè)詞語(yǔ)的原子詞群有4 161個(gè),占比23.3%;而包含30個(gè)詞語(yǔ)的原子詞群只有15個(gè)。

在《詞林》的構(gòu)建過(guò)程中,將同一原子詞群中詞語(yǔ)的相似度定義為1,或者說(shuō)原子詞群是《詞林》中詞義相似度計(jì)算的最小單元。因此基于《詞林》的詞義相似度計(jì)算實(shí)際上是原子詞群之間的相似度計(jì)算。僅使用《詞林》的知識(shí)無(wú)法進(jìn)一步比較原子詞群內(nèi)部詞語(yǔ)間的相似度,特別是相關(guān)性詞語(yǔ)的相似度無(wú)法進(jìn)行進(jìn)一步判斷,需要借助更多知識(shí)。

②分析不同深度上結(jié)點(diǎn)的數(shù)量及其分支的分布情況。

從圖3中可以看出,第一層中各結(jié)點(diǎn)包含的分支數(shù)存在較大差異,其中包含分支數(shù)最多的是結(jié)點(diǎn)B 類(lèi)(物類(lèi)),共有4 568個(gè)分支(具體分支情況見(jiàn)圖4);包含分?jǐn)?shù)支最少的結(jié)點(diǎn)是L類(lèi)(敬語(yǔ)類(lèi)),僅有28個(gè)分支。

圖3 《詞林》第一層級(jí)各結(jié)點(diǎn)分支數(shù)量圖

圖4 B大類(lèi)各結(jié)點(diǎn)分支數(shù)量分布圖

進(jìn)一步分析第一層結(jié)點(diǎn)的分支情況,其中A結(jié)點(diǎn)包含從a到n共14個(gè)不同分支,分支中包含結(jié)點(diǎn)最多的有291 個(gè),最少的有19 個(gè)(具體分支情況見(jiàn)圖5)。結(jié)點(diǎn)A的子結(jié)點(diǎn)Ae包含18個(gè)分支(詳見(jiàn)圖6)。對(duì)這些結(jié)點(diǎn)中的每一個(gè)結(jié)點(diǎn)還可以繼續(xù)分析其分支數(shù)量,直到得到每一個(gè)結(jié)點(diǎn)所包含的原子詞群中詞語(yǔ)的數(shù)量。

圖5 A大類(lèi)各結(jié)點(diǎn)分支數(shù)量分布圖

圖6 結(jié)點(diǎn)Ae分支數(shù)量分布圖

3 基于父結(jié)點(diǎn)深度和父結(jié)點(diǎn)深度與其分支信息相結(jié)合的詞義相似度計(jì)算模型

在基于知識(shí)本體的詞語(yǔ)相似度算法中,使用路徑和深度計(jì)算詞語(yǔ)相似度是非常重要的一類(lèi)方法。如前所述在基于WordNet的英語(yǔ)詞語(yǔ)相似度計(jì)算方法中,研究者提出了各種簡(jiǎn)單或復(fù)雜的基于路徑和深度的計(jì)算方法,這些方法又可進(jìn)一步劃分為僅基于路徑的方法、基于路徑和深度的方法以及包含信息內(nèi)容的方法等[4]。因?yàn)椤对~林》也具有清晰的詞語(yǔ)路徑和深度信息,所以這些基于路徑和深度的方法都可以直接用于基于《詞林》的詞義相似度計(jì)算中。但由于WordNet 與《詞林》的組織架構(gòu)不同,在WordNet 中不同的詞可能具有不同深度,這種葉子結(jié)點(diǎn)深度不均勻,義項(xiàng)遍布所有結(jié)點(diǎn)的組織方式與《詞林》是截然不同的。

《詞林》中所有詞語(yǔ)都在葉子結(jié)點(diǎn)上,因此都具有相同深度,如果直接使用基于WordNet 的計(jì)算公式,就會(huì)出現(xiàn)得到的相似度只能取到幾個(gè)有限值的情況,無(wú)法體現(xiàn)不同詞對(duì)之間的差異。但在《詞林》體系中這種取值也具有一定的合理性,在《詞林》體系中,詞語(yǔ)按照類(lèi)別逐級(jí)細(xì)分,例如“人類(lèi)”的語(yǔ)義代碼為Aa01A02=,“兄弟”的語(yǔ)義代碼為Aa02A07=“,森林”的語(yǔ)義代碼為Bh01A03=。“人類(lèi)”與“兄弟”的語(yǔ)義類(lèi)別在同一個(gè)大類(lèi)A 中,而“人類(lèi)”與“森林”的語(yǔ)義類(lèi)別不同,分別在A 大類(lèi)和B 大類(lèi)中,因此前兩者的詞義相似度一定高于后兩者。如果用圖1的樹(shù)形結(jié)構(gòu)來(lái)描述,“人類(lèi)”與“兄弟”的最近父結(jié)點(diǎn)為處于第三層的a,其深度為2?!叭祟?lèi)”與“森林”的父結(jié)點(diǎn)為R,其深度為0。所以最近父結(jié)點(diǎn)深度不同的兩個(gè)詞對(duì)所對(duì)應(yīng)的詞義相似度必然不同。

前期文獻(xiàn)中的普遍結(jié)論是假設(shè)兩個(gè)詞語(yǔ)義項(xiàng)s1和s2的相似度S與它們最近父結(jié)點(diǎn)的深度D存在確定的函數(shù)關(guān)系,根據(jù)本文描述《詞林》結(jié)構(gòu)的樹(shù)形結(jié)構(gòu)圖,S與D成正比關(guān)系,即D越大時(shí)S的取值越大,反之越小,且S的取值應(yīng)介于[0,1]之間,為此本文給出如下簡(jiǎn)潔公式:

其中,λ1、λ2、λ3、λ4為調(diào)節(jié)參數(shù)。該式僅通過(guò)父結(jié)點(diǎn)深度D來(lái)計(jì)算兩個(gè)詞語(yǔ)的詞義相似度S的大小,且能很好地體現(xiàn)D與S的關(guān)系。

公式(3)使用了距離、路徑以及動(dòng)態(tài)參數(shù),當(dāng)動(dòng)態(tài)參數(shù)β取常數(shù)時(shí),本文所提出的公式(6)實(shí)際與公式(3)是等價(jià)的。因?yàn)樵诠剑?)中Depth和Path分別是加權(quán)后的深度和路徑,且每層只有一個(gè)權(quán)值,若將公式(5)代入公式(3)所得結(jié)果實(shí)質(zhì)上與公式(6)結(jié)果等價(jià)。因?yàn)樵凇对~林》中路徑的深度層次有限,所以詞對(duì)間相對(duì)位置的情況是有限的,因此使用公式(6)只能得到幾種有限詞義相似度取值。也就是說(shuō)公式(6)對(duì)應(yīng)函數(shù)的定義域?yàn)閧0,1,2,3,4},因此函數(shù)的值也是有限的,根據(jù)函數(shù)值與D成正比的關(guān)系,該函數(shù)是一個(gè)階梯函數(shù)。根據(jù)上面的分析,在《詞林》體系中不同階梯會(huì)對(duì)應(yīng)不同層級(jí)的詞語(yǔ),從語(yǔ)言學(xué)角度來(lái)看這樣的結(jié)果具有一定的合理性。為使得詞語(yǔ)語(yǔ)義相似性得到更好的描述,可以通過(guò)調(diào)整函數(shù)表達(dá)式或者加入更多語(yǔ)言學(xué)信息來(lái)進(jìn)一步計(jì)算出更合理的詞義相似度結(jié)果。公式(3)通過(guò)使用隨詞對(duì)變化而變化的動(dòng)態(tài)調(diào)節(jié)參數(shù)β來(lái)實(shí)現(xiàn)相似度值的變化,其目的是為了克服只有幾個(gè)有限值的不足,但是用這種做法所調(diào)節(jié)的幅度及目標(biāo)值卻都是不可控的,而且從語(yǔ)言學(xué)角度的可解釋性不強(qiáng)。上述深度是表示兩個(gè)義項(xiàng)分類(lèi)差異的結(jié)果,在調(diào)整基于父結(jié)點(diǎn)深度相似度階梯取值時(shí),最好不要改變其相似度階梯,因此應(yīng)在階梯取值基礎(chǔ)上進(jìn)行微調(diào)。根據(jù)這一思想,本文使用任意兩個(gè)義項(xiàng)s1和s2最近父結(jié)點(diǎn)的分支信息構(gòu)建微調(diào)項(xiàng),對(duì)公式(6)進(jìn)行微調(diào)后給出如下微調(diào)結(jié)果:

其中,D為最近父結(jié)點(diǎn)深度,N為其最近父結(jié)點(diǎn)所包含的分支總數(shù),K為兩個(gè)義項(xiàng)所在分支的間距。根據(jù)公式(6)中函數(shù)取值的特點(diǎn)及其對(duì)最大值和最小值擬合不足的問(wèn)題,通過(guò)設(shè)置調(diào)整參數(shù)(D-1)來(lái)改進(jìn)端點(diǎn)處的擬合情況,為避免微調(diào)項(xiàng)改變和否定父結(jié)點(diǎn)深度確定的相似度層級(jí)問(wèn)題,引入正弦函數(shù)進(jìn)行調(diào)節(jié)。

4 實(shí)驗(yàn)與分析

Rubenstein 等讓51 名被試對(duì)65 個(gè)詞對(duì)(簡(jiǎn)稱(chēng)為RG65)進(jìn)行“同義判斷”,這65個(gè)詞對(duì)的語(yǔ)義從“高度相似”到“語(yǔ)義無(wú)關(guān)”不等,被試需要根據(jù)對(duì)這些詞對(duì)的語(yǔ)義相似性判斷,在0.0~4.0 范圍內(nèi)給詞對(duì)打分[13]。后來(lái)Miller 等從 RG65 中提取了30 個(gè)詞對(duì)(簡(jiǎn)稱(chēng)為MC30),這30對(duì)樣本中有10對(duì)詞語(yǔ)的語(yǔ)義具有高相似性,有10對(duì)詞語(yǔ)的語(yǔ)義具有中相似性,還有10 對(duì)詞語(yǔ)的語(yǔ)義具有低相似性,然后從被試樣本中抽取38 份樣本作為MC30的人工語(yǔ)義相似性判斷結(jié)果[14]。本文也以此作為判斷標(biāo)準(zhǔn)。

本文將在《詞林》的基礎(chǔ)上,參考MC30人工判別結(jié)果,使用魚(yú)群算法建立描述詞義相似度的關(guān)系模型,以期突破根據(jù)先驗(yàn)經(jīng)驗(yàn)建立函數(shù)模型的局限性。人工魚(yú)群算法是李曉磊等人于2002年提出的一類(lèi)基于動(dòng)物行為的群體智能優(yōu)化算法。該算法是通過(guò)模擬魚(yú)類(lèi)的覓食、聚群追尾、隨機(jī)等行為在搜索域中進(jìn)行尋優(yōu),是群體智能思想的一個(gè)具體應(yīng)用[15]。由此本文對(duì)公式(6)和(7)中的系數(shù)分別表示為4維和5維向量Λ1,Λ2,這樣可以把待優(yōu)化的參數(shù)看作人工魚(yú)個(gè)體,通過(guò)構(gòu)建魚(yú)群分別尋找最優(yōu)參數(shù)。首先使用魚(yú)群算法對(duì)公式(6)中的系數(shù)進(jìn)行尋優(yōu),最后得到的系數(shù)分別為:λ1=0.981 1,λ2=0.497 7,λ3=0.124 4,λ4=4.461 2 。

再使用魚(yú)群算法對(duì)公式(7)中的系數(shù)進(jìn)行尋優(yōu),最后得到的系數(shù)分別為:

λ1=0.836 6,λ2=0.443 1,λ3=0.167 7

λ4=3.779 3,λ5=0.098 7

將第一組系數(shù)代入公式(6)得到基于父結(jié)點(diǎn)深度的詞義相似度計(jì)算方法,將第二組系數(shù)代入公式(7)得到基于父結(jié)點(diǎn)深度與其分支信息相結(jié)合的詞義相似度計(jì)算方法。使用這兩個(gè)方法分別對(duì)MC30 進(jìn)行詞義相似度計(jì)算,計(jì)算結(jié)果如表4所示。

表4 MC30詞對(duì)實(shí)驗(yàn)結(jié)果對(duì)比表

表4 中分別列出了公式(6)和公式(7)的相似度計(jì)算結(jié)果,以及文獻(xiàn)[9]的結(jié)果,從中可以看出,公式(6)雖然僅使用父結(jié)點(diǎn)深度信息,但仍能得到較好的計(jì)算結(jié)果,其結(jié)果與人工值間的皮爾遜系數(shù)為0.854,與文獻(xiàn)[9]的結(jié)果0.856 僅有微小差異,均優(yōu)于該文獻(xiàn)中列出的其他方法,這說(shuō)明在《詞林》的框架體系中,父結(jié)點(diǎn)深度對(duì)相似度起到?jīng)Q定性作用。此外還計(jì)算了根方誤差,該值是使用不同算法計(jì)算MC30 詞義相似度結(jié)果與人工值之差的平方和再開(kāi)根號(hào),顯然該值較文獻(xiàn)[9]相應(yīng)結(jié)果更小。公式(7)不僅使用了父結(jié)點(diǎn)深度信息,還將兩個(gè)詞最近父結(jié)點(diǎn)的分支信息結(jié)合了進(jìn)來(lái),因此計(jì)算結(jié)果得到了進(jìn)一步提升。具有最高的皮爾遜系數(shù)和最小的根方誤差。

顯然在各種方法的計(jì)算結(jié)果中均存在與人工值差別較大的義項(xiàng),例如“食物”和“水果”這一組詞對(duì),其人工判定值較高而《詞林》中計(jì)算的值都很低。在《詞林》中兩個(gè)詞語(yǔ)的編碼分別為Br03A01=和Bh07A01=,并且被分在“物品”和“植物”兩個(gè)不同的中類(lèi)里面,因此其相似度較低。這種差異實(shí)際上是《詞林》和人工判別方法所使用的知識(shí)體系之間存在的差異,而本文算法能較好地刻畫(huà)《詞林》體系中所蘊(yùn)含的詞義相似度信息。

此外造成這種結(jié)果的原因還可能來(lái)自于不同語(yǔ)言間的差異,因?yàn)槿斯づ卸ㄖ凳腔谟⒄Z(yǔ)詞匯進(jìn)行的,而上述算法都是翻譯為對(duì)應(yīng)的漢語(yǔ)詞匯后基于《詞林》進(jìn)行的。這種現(xiàn)象從索緒爾結(jié)構(gòu)主義語(yǔ)言學(xué)的基本觀點(diǎn)來(lái)看就很容易理解,語(yǔ)言是由能指和所指構(gòu)成:能指是指語(yǔ)言的音響和形象,即語(yǔ)言的讀音和書(shū)寫(xiě)形式;所指是指語(yǔ)言的概念和內(nèi)容。語(yǔ)言是一個(gè)符號(hào)系統(tǒng),具有任意性,這種任意性的關(guān)系又叫約定性,即符號(hào)的形式和意義的結(jié)合是由社會(huì)“約定俗成”的,而不是它們之間有什么必然、本質(zhì)的聯(lián)系。因此不同符號(hào)體系、不同語(yǔ)言系統(tǒng)中的所指對(duì)應(yīng)的能指可能不盡相同,而不同語(yǔ)言體系中能指所要表示的所指可能也會(huì)存在一定差異。因此不同語(yǔ)言體系的人在表達(dá)同一個(gè)所指時(shí),因?yàn)槟苤傅牟煌赡芫蜁?huì)存在一定的理解差異,這樣就造成了在不同語(yǔ)言體系中,所指相同的情況下,能指之間的詞義相似度判斷也會(huì)存在一定的差異。

5 結(jié)語(yǔ)

(1)本文指出在《詞林》中父結(jié)點(diǎn)深度和路徑是一對(duì)等價(jià)概念,基于父結(jié)點(diǎn)深度的詞語(yǔ)的詞義相似度計(jì)算方法利用簡(jiǎn)單的計(jì)算公式就能得到較為理想的計(jì)算結(jié)果。算法簡(jiǎn)潔便于其在相關(guān)工作中的使用,如短語(yǔ)結(jié)構(gòu)相似度或句子相似度的計(jì)算。算法簡(jiǎn)潔使得算法更能體現(xiàn)詞義相似度計(jì)算所需的核心知識(shí),在《詞林》體系中父結(jié)點(diǎn)深度是詞義相似度的決定性因素,而不是分支信息,分支信息對(duì)詞義相似度的計(jì)算只能起到微調(diào)作用。給分支信息賦予過(guò)高的權(quán)重從語(yǔ)言學(xué)角度來(lái)看也很難解釋。此外,使用核心知識(shí)可以避免過(guò)擬合現(xiàn)象的發(fā)生,使得算法具有更好的泛化能力和適應(yīng)性。

(2)在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)有些詞語(yǔ)的相似度與人工標(biāo)注值存在較大差異,除進(jìn)一步改善計(jì)算方法外,英漢兩種語(yǔ)言在語(yǔ)言符號(hào)的音義表達(dá)系統(tǒng)中存在差異這一現(xiàn)象是客觀存在的,因此英語(yǔ)詞語(yǔ)之間的詞義相似度與其在漢語(yǔ)中對(duì)應(yīng)的詞語(yǔ)之間的詞義相似度可能總會(huì)存在一定的差異。因此本文在相關(guān)系數(shù)達(dá)到實(shí)用性要求的條件下,主要關(guān)注提高算法易用性和分析算法所體現(xiàn)的語(yǔ)言學(xué)原理。

(3)不同知識(shí)本體建立者因?yàn)閷?duì)世界知識(shí)理解的不同,其構(gòu)建的知識(shí)本體也會(huì)存在較大差異,因此《詞林》和WordNet對(duì)詞語(yǔ)相似度的體現(xiàn)也必然存在差異,這對(duì)基于兩個(gè)知識(shí)本體分別判斷詞語(yǔ)之間的詞義相似度會(huì)有較大影響。

(4)由于《詞林》框架設(shè)計(jì)原因,目前基于《詞林》的詞義相似度算法都是針對(duì)不同原子詞群間的詞語(yǔ)進(jìn)行的,相同原子詞群內(nèi)部詞語(yǔ)間的相似度或相關(guān)度判別需要進(jìn)一步借助其他知識(shí)本體,如知網(wǎng)中的信息才能進(jìn)行,這是下一步需要研究和關(guān)注的內(nèi)容。

猜你喜歡
義項(xiàng)結(jié)點(diǎn)詞義
LEACH 算法應(yīng)用于礦井無(wú)線通信的路由算法研究
“誅”的詞義演變及其在古籍中的釋義
基于八數(shù)碼問(wèn)題的搜索算法的研究
西夏語(yǔ)“頭項(xiàng)”詞義考
詞義辨別小妙招——看圖辨詞
兩用成語(yǔ)中的冷義項(xiàng)
Enhanced Precision
《詩(shī)經(jīng)》詞義考辨二則
山阴县| 沙坪坝区| 浏阳市| 固安县| 敦化市| 清流县| 永年县| 丘北县| 准格尔旗| 辽宁省| 南雄市| 平遥县| 苍山县| 环江| 育儿| 锡林浩特市| 托里县| 静海县| 白沙| 景洪市| 阳江市| 高唐县| 吴江市| 军事| 定日县| 独山县| 韶山市| 通化市| 罗平县| 巩义市| 曲周县| 成武县| 沙雅县| 杭锦旗| 汝阳县| 成安县| 浦江县| 宿松县| 大安市| 新巴尔虎左旗| 蓬莱市|