康司辰,劉 揚(yáng)
(1.北京大學(xué) 中國(guó)語(yǔ)言文學(xué)系,北京 100871;2.北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京 100871;3.北京大學(xué) 計(jì)算語(yǔ)言教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
基于語(yǔ)義構(gòu)詞的漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算
康司辰1,3,劉 揚(yáng)2,3
(1.北京大學(xué) 中國(guó)語(yǔ)言文學(xué)系,北京 100871;2.北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京 100871;3.北京大學(xué) 計(jì)算語(yǔ)言教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算,在中文信息處理的多種應(yīng)用中扮演至關(guān)重要的角色?;跐h語(yǔ)字本位的思想,我們采用詞類、構(gòu)詞結(jié)構(gòu)、語(yǔ)素義等漢語(yǔ)語(yǔ)義構(gòu)詞知識(shí),以“語(yǔ)素概念”為基礎(chǔ),計(jì)算漢語(yǔ)詞語(yǔ)語(yǔ)義相似度。這種詞義知識(shí)表示簡(jiǎn)單、直觀、易于拓展,計(jì)算模型簡(jiǎn)潔、易懂,采用了盡可能少的特征和參數(shù)。實(shí)驗(yàn)表明,該文方法在典型“取樣詞對(duì)”上的表現(xiàn)突出,其數(shù)值更符合人類的感性認(rèn)知,且在全局?jǐn)?shù)據(jù)上也表現(xiàn)出了合理的分布規(guī)律。
詞語(yǔ)語(yǔ)義相似度計(jì)算;語(yǔ)義構(gòu)詞;詞義知識(shí)表示;語(yǔ)素概念
在自然語(yǔ)言處理領(lǐng)域中,詞語(yǔ)語(yǔ)義相似度計(jì)算長(zhǎng)久以來(lái)都具有很高的理論和應(yīng)用價(jià)值,對(duì)詞義消歧、查詢識(shí)別、機(jī)器翻譯等應(yīng)用起著尤為重要的作用。
在此前研究中,漢語(yǔ)詞語(yǔ)語(yǔ)義相似度的計(jì)算方法可歸為兩類,一類利用語(yǔ)言知識(shí)庫(kù)中的知識(shí);另一類利用語(yǔ)料中的上下文特征,并依據(jù)不同的算法計(jì)算相似度。第一類方法[1-9]采用的知識(shí)包括《同義詞詞林》、《知網(wǎng)》、知識(shí)圖、概念圖和百度百科等,其方法往往依賴于特定的詞義知識(shí)表示,可稱為基于知識(shí)的方法;第二類方法[10-14]對(duì)語(yǔ)料進(jìn)行上下文分析,提取詞向量做相似度計(jì)算,可稱為基于語(yǔ)料的方法。
目前,這兩類方法都存在問(wèn)題:基于知識(shí)的方法,大體以理性方法為主,偏重考察“取樣詞對(duì)”語(yǔ)義相似度的合理性,主要通過(guò)增加參數(shù)、調(diào)節(jié)公式中的系數(shù)等手段,力圖改善限定取樣數(shù)據(jù)的計(jì)算結(jié)果,這導(dǎo)致相似度計(jì)算的方法逐漸趨于繁瑣;基于語(yǔ)料的方法,大體以經(jīng)驗(yàn)方法為主,主要通過(guò)模型選取、特征優(yōu)化、降噪處理等手段,以獲得更理想的全局?jǐn)?shù)據(jù)計(jì)算結(jié)果,其優(yōu)點(diǎn)是詞語(yǔ)的覆蓋面廣,但在“取樣詞對(duì)”上的表現(xiàn)往往不佳。
基于以上分析,我們希望建立一套新的漢語(yǔ)詞義知識(shí)表示及詞語(yǔ)語(yǔ)義相似度計(jì)算方法,并滿足如下特征:在詞義知識(shí)表示方面,符合人類對(duì)漢語(yǔ)語(yǔ)言的一般認(rèn)知,其表達(dá)形式也更加直觀、有效;此外,建立在該知識(shí)表示上的語(yǔ)義相似度計(jì)算方法簡(jiǎn)潔、易懂,能夠在“取樣詞對(duì)”上表現(xiàn)優(yōu)異,同時(shí),在全局?jǐn)?shù)據(jù)上也表現(xiàn)出合理的分布規(guī)律。
眾所周知,漢語(yǔ)語(yǔ)言以字為自然單位,蘇寶榮[15]等多位語(yǔ)言學(xué)家闡述了漢語(yǔ)的構(gòu)詞結(jié)構(gòu)對(duì)詞義理解至關(guān)重要的觀點(diǎn),這表明從構(gòu)詞結(jié)構(gòu)出發(fā),進(jìn)而表達(dá)詞義的手段是可行的;此外,苑春法、黃昌寧[16]的研究也證實(shí)“只有很少一部分的語(yǔ)素在構(gòu)詞時(shí)意義發(fā)生了變化”,而絕大多數(shù)詞義可由語(yǔ)素義直接導(dǎo)出。結(jié)合以上觀點(diǎn),我們認(rèn)為,以漢語(yǔ)的語(yǔ)義構(gòu)詞(包含構(gòu)詞結(jié)構(gòu)、語(yǔ)素義等知識(shí))作詞義知識(shí)表示是有可靠的語(yǔ)言學(xué)依據(jù)的,對(duì)詞義研究和相關(guān)計(jì)算有可能產(chǎn)生重要價(jià)值和積極意義。這樣一來(lái),語(yǔ)義相似度計(jì)算也有了更為直觀的知識(shí)表示,而其算法有可能趨于簡(jiǎn)化并表現(xiàn)出好的特性。
凡是對(duì)詞的理解有意義的構(gòu)詞知識(shí),在中文信息處理應(yīng)用中都是有用的。因此,本文所講的構(gòu)詞知識(shí),涵蓋詞類、構(gòu)詞結(jié)構(gòu)、語(yǔ)素義等,是廣義的語(yǔ)義構(gòu)詞知識(shí)。我們以這些知識(shí)為基礎(chǔ),進(jìn)行漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算并做評(píng)估。
課題組研發(fā)多年并計(jì)劃推出的北京大學(xué)《漢語(yǔ)概念詞典》(以下簡(jiǎn)稱《概念詞典》,英文名稱TheChineseObject-OrientedLexicon,COOL)在生成詞庫(kù)理論(GLT理論)[17]、面向?qū)ο笏枷?OO思想)[18]、WordNet理論[19]等觀點(diǎn)指導(dǎo)下,以《現(xiàn)代漢語(yǔ)詞典(第5版)》(以下簡(jiǎn)稱《現(xiàn)漢》)刻畫的漢語(yǔ)的語(yǔ)素及語(yǔ)素義為依據(jù),采用“同義語(yǔ)素集”來(lái)表征“語(yǔ)素概念”并建立“語(yǔ)素概念體系”;在此基礎(chǔ)上,詳盡描述漢語(yǔ)詞的構(gòu)詞結(jié)構(gòu),并實(shí)現(xiàn)構(gòu)詞結(jié)構(gòu)下的構(gòu)詞成分(即語(yǔ)素)對(duì)“語(yǔ)素概念體系”中的“語(yǔ)素概念”的嚴(yán)格綁定,以此來(lái)誘導(dǎo)和表達(dá)漢語(yǔ)詞義,并提供多種應(yīng)用程序接口。
《概念詞典》中包含的這些語(yǔ)義構(gòu)詞知識(shí),構(gòu)成本文工作的一個(gè)數(shù)據(jù)基礎(chǔ)。
2.1 詞類知識(shí)
《概念詞典》為收錄的詞都標(biāo)注了詞類,其中,51 454個(gè)二字詞的情況如表1所示。
表1 《概念詞典》中二字詞詞類統(tǒng)計(jì)表
2.2 構(gòu)詞結(jié)構(gòu)知識(shí)
在語(yǔ)言學(xué)界有兩種主流的構(gòu)詞結(jié)構(gòu)體系,一種注重表達(dá)構(gòu)詞語(yǔ)素間的語(yǔ)義關(guān)系(如主體、客體等);而另一種體系注重表達(dá)構(gòu)詞語(yǔ)素間的語(yǔ)法關(guān)系(如主謂、述賓等)。相對(duì)而言,后一種構(gòu)詞體系更為精簡(jiǎn),與句法結(jié)構(gòu)有天然的相似性,相關(guān)研究更為成熟,有利于詞語(yǔ)相似度計(jì)算,本研究采用這種構(gòu)詞體系。實(shí)際上,由于后續(xù)要求構(gòu)詞成分對(duì)“語(yǔ)素概念體系”中的“語(yǔ)素概念”嚴(yán)格綁定,我們獲得的依然是廣義的語(yǔ)義構(gòu)詞知識(shí)。
我們參考楊梅[20]和北京大學(xué)中文系郭銳教授對(duì)構(gòu)詞結(jié)構(gòu)的研究成果,構(gòu)建了基于語(yǔ)法的構(gòu)詞體系,并為《概念詞典》中所有二字詞按義項(xiàng)區(qū)分標(biāo)注了構(gòu)詞結(jié)構(gòu),共計(jì)52 108個(gè)。為保證構(gòu)詞結(jié)構(gòu)知識(shí)的可靠性,請(qǐng)三位專家對(duì)同一詞項(xiàng)進(jìn)行標(biāo)注,兩人以上標(biāo)注結(jié)果相同的一致率為93.46%。標(biāo)注結(jié)果的具體情況見表2。
表2 《概念詞典》二字詞構(gòu)詞結(jié)構(gòu)統(tǒng)計(jì)表
需要說(shuō)明的是,該構(gòu)詞體系可以方便地拓展到多字詞的情形。以“化學(xué)反應(yīng)”為例,“化學(xué)反應(yīng)”為定中結(jié)構(gòu),構(gòu)詞成分分別為“化學(xué)”、“反應(yīng)”;“化學(xué)”為定中結(jié)構(gòu),構(gòu)詞成分分別為“化”、“學(xué)”;“反應(yīng)”為后附加結(jié)構(gòu),構(gòu)詞成分分別為“反”、“應(yīng)”。
2.3 語(yǔ)素義知識(shí)
語(yǔ)言學(xué)上的“語(yǔ)素”指的是“最小的音義結(jié)合體”,在本文中,為方便起見,漢語(yǔ)語(yǔ)素暫且限定為一個(gè)漢字。借鑒WordNet理論,課題組成員陸顧婧[21]在其碩士論文中用“語(yǔ)素特征”(現(xiàn)在稱其為“語(yǔ)素概念”)來(lái)稱謂漢語(yǔ)中可計(jì)算的最小意義單元,并采用“同義語(yǔ)素集”的形式來(lái)加以表示,該集合中的元素為具有相同或基本相同意義(即語(yǔ)素義)的那些語(yǔ)素,其中的每個(gè)語(yǔ)素都攜有獨(dú)特的“語(yǔ)素義編碼”。例如,語(yǔ)素“選”有多個(gè)語(yǔ)素義,其中的一個(gè)語(yǔ)素義的“語(yǔ)素義編碼”為“選1_04_01”,這表明:它是該單字在詞典中的第1次條目出現(xiàn)(即“選1”),該條目共有四個(gè)義項(xiàng)(即“選1_04”),當(dāng)前為第一個(gè)義項(xiàng)(即“選1_04_01”)。
目前,對(duì)《現(xiàn)漢》中全部語(yǔ)素所表達(dá)的20 175個(gè)語(yǔ)素義,我們按釋義計(jì)算相似度,形成初步的“同義語(yǔ)素集”,并經(jīng)反復(fù)的人工校對(duì)、核對(duì),獲得了5 113個(gè)“語(yǔ)素概念”。在這些“語(yǔ)素概念”之間,我們進(jìn)一步構(gòu)建了初步的上、下位語(yǔ)義關(guān)系,形成了一個(gè)樹狀結(jié)構(gòu)的“語(yǔ)素概念體系”。在后續(xù)的知識(shí)表示中,如果確定了特定語(yǔ)素的語(yǔ)素義,攜有了“語(yǔ)素義編碼”,就意味著該特定語(yǔ)素在語(yǔ)素概念體系中綁定了一個(gè)“語(yǔ)素概念”,并接受該體系的意義表達(dá)和約束。
以表達(dá)“選擇、挑選”意義的動(dòng)語(yǔ)素“語(yǔ)素概念”X為例,X={刷3_01_01,掄1_01_01,拔1_08_03,揀1_01_01,擇1_02_01,擇2_02_01,挑1_02_01,擢1_02_02,調(diào)4_02_02,選1_04_01,遴1_01_01,銓1_02_01},在“語(yǔ)素概念體系”中,其所處的“語(yǔ)素概念”位置如圖1所示。
圖1 樹狀結(jié)構(gòu)的“語(yǔ)素概念體系”示例
在標(biāo)注《概念詞典》中所有二字詞的構(gòu)詞結(jié)構(gòu)后,我們繼續(xù)為二字詞的前、后語(yǔ)素標(biāo)注其在《現(xiàn)漢》中的語(yǔ)素義,并按其語(yǔ)素義與對(duì)應(yīng)的“語(yǔ)素義編碼”掛鉤。于是,二字詞的前、后語(yǔ)素與它們?cè)凇罢Z(yǔ)素概念體系”中的“語(yǔ)素概念”就建立了嚴(yán)格的綁定關(guān)系。
這樣一來(lái),在構(gòu)詞結(jié)構(gòu)因素之下,進(jìn)一步地,每個(gè)語(yǔ)素義擁有更豐富的、便于交流和計(jì)算的意義形式。每個(gè)語(yǔ)素義攜有唯一的“語(yǔ)素義編碼”,每個(gè)“語(yǔ)素義編碼”對(duì)應(yīng)唯一的“語(yǔ)素概念”,每個(gè)“語(yǔ)素概念”在“語(yǔ)素概念體系”中擁有唯一確定的位置。這些位置表達(dá)了“語(yǔ)素概念”間的距離,而詞語(yǔ)概念(即詞義)之間的距離與此相關(guān),這為詞語(yǔ)語(yǔ)義相似度的計(jì)算帶來(lái)極大方便。
3.1 基本思路
從本質(zhì)上講,詞語(yǔ)語(yǔ)義相似度是詞語(yǔ)概念(即詞義)間的距離的描述。在本研究中,漢語(yǔ)詞表達(dá)的詞語(yǔ)概念由語(yǔ)義構(gòu)詞知識(shí)加以表示,包括詞類知識(shí)、構(gòu)詞結(jié)構(gòu)知識(shí)、語(yǔ)素義知識(shí)等三項(xiàng)內(nèi)容。其中,詞類知識(shí)(part of speech,簡(jiǎn)稱POS)代表了詞語(yǔ)概念跨詞類的懲罰代價(jià),構(gòu)詞結(jié)構(gòu)知識(shí)(word-formation pattern,簡(jiǎn)稱WFP)、語(yǔ)素義知識(shí)(morpheme know-ledge,簡(jiǎn)稱MK)則表達(dá)了語(yǔ)素義對(duì)詞語(yǔ)概念(即詞義)的貢獻(xiàn)情況。
因此,對(duì)于詞對(duì)A、B,有如下定義。
定義1:詞語(yǔ)概念距離D(A,B)定義為詞對(duì)A、B的三元關(guān)系:D(A,B)=R
定義2:詞語(yǔ)語(yǔ)義相似度sim(A,B)定義為詞語(yǔ)概念距離D(A,B)的函數(shù):sim(A,B)=f(D(A,B))。
3.1.1 詞類知識(shí)的利用
此前關(guān)于詞語(yǔ)語(yǔ)義相似度的研究,基于方便考慮,多數(shù)只考察相同詞類的情形,我們希望推廣到不同詞類上去,并認(rèn)為,在詞語(yǔ)概念的內(nèi)涵保持基本不變的情況下,不同詞類的詞語(yǔ)概念距離應(yīng)該大于相同詞類的詞語(yǔ)概念距離。
我們采用距離懲罰方式調(diào)整詞語(yǔ)概念距離,進(jìn)而調(diào)整詞語(yǔ)相似度計(jì)算結(jié)果。在本研究中,系數(shù)取值遵循的一般思路為:實(shí)詞與虛詞之間的懲罰系數(shù)相對(duì)較高,虛詞之間的懲罰系數(shù)大致相同;實(shí)詞之中,體詞和謂詞之間的懲罰系數(shù)相對(duì)較高,而體詞與體詞之間、謂詞與謂詞之間的懲罰系數(shù)相對(duì)較低。
在本文中,動(dòng)詞、名詞、形容詞等開放詞類之間的懲罰系數(shù)見表3。該取值采用經(jīng)驗(yàn)值,可依應(yīng)用需求靈活調(diào)整。其他詞類的情況不再贅述。
表3 開放詞類之間的懲罰系數(shù)
3.1.2 構(gòu)詞結(jié)構(gòu)知識(shí)的利用
漢語(yǔ)詞的構(gòu)詞結(jié)構(gòu)反映了在不同構(gòu)詞結(jié)構(gòu)下,各語(yǔ)素對(duì)于整體詞義的不同貢獻(xiàn)。例如,在聯(lián)合結(jié)構(gòu)中,各語(yǔ)素對(duì)整體詞義的貢獻(xiàn)基本相同,而在定中結(jié)構(gòu)中,中心語(yǔ)成分對(duì)整體詞義的貢獻(xiàn)更大一些。我們用貢獻(xiàn)系數(shù)衡量不同結(jié)構(gòu)下的各語(yǔ)素對(duì)于整體詞義的不同貢獻(xiàn),在本文中,其取值情況見表4。該取值采用經(jīng)驗(yàn)值,可依據(jù)應(yīng)用需求靈活調(diào)整。
表4 貢獻(xiàn)系數(shù)取值情況
該系數(shù)取值同樣可拓展至多字詞。例如,對(duì)于前面提及的多字詞“化學(xué)反應(yīng)”,利用迭代方法,即可求得該詞中各語(yǔ)素的貢獻(xiàn)系數(shù),分別為:“化”0.09(即0.3*0.3)、“學(xué)”0.21(即0.3*0.7)、“反”0.07(即0.7*0.1)、“應(yīng)”0.63(即0.7*0.9)。
3.1.3 語(yǔ)素義知識(shí)的利用
在樹狀結(jié)構(gòu)的“語(yǔ)素概念體系”中,考慮上位概念表達(dá)的語(yǔ)義顆粒度大于下位概念的因素,在計(jì)算時(shí),本文采取邊加權(quán)的方式計(jì)算路徑長(zhǎng)度。目前,“語(yǔ)素概念體系”的最大深度為十層,約定根節(jié)點(diǎn)下的邊為第一層,我們對(duì)層數(shù)為c的邊的權(quán)值w設(shè)定如下:w=1.0+(10-c)*0.1,各層的邊的權(quán)值如表5所示。該取值采用經(jīng)驗(yàn)值,可依應(yīng)用需求靈活調(diào)整。
表5 各層的邊的權(quán)值設(shè)定
此外,在語(yǔ)素義不能明確指定的情況下,語(yǔ)素存在多義的可能性,在《概念詞典》中有多個(gè)“語(yǔ)素概念”與之綁定,相應(yīng)的,在“語(yǔ)素概念體系”中有多個(gè)位置與之對(duì)應(yīng)。在計(jì)算語(yǔ)義相似度時(shí),按照慣例原則,我們?nèi)∧軌虼俪伞罢Z(yǔ)素概念”a、b之間保持最短距離的位置Pa、Pb。
3.2 語(yǔ)義相似度算法描述
形式上,設(shè)二字詞A=a1a2,二字詞B=b1b2,則詞對(duì)A、B的詞語(yǔ)語(yǔ)義相似度計(jì)算方法如下所述。
1.計(jì)算語(yǔ)素對(duì)ai、bj之間的語(yǔ)素概念距離d(ai,bj)
對(duì)于語(yǔ)素集合E={a1,a2,b1,b2}中的語(yǔ)素e,在《概念詞典》中取該語(yǔ)素的不同語(yǔ)素義對(duì)應(yīng)的所有“語(yǔ)素概念”,這些“語(yǔ)素概念”在“語(yǔ)素概念體系”中的全部位置構(gòu)成位置集合Pe={pe1,pe2,……,pemei∈E},其中,m是語(yǔ)素e在“語(yǔ)素概念體系”中對(duì)應(yīng)的“語(yǔ)素概念”個(gè)數(shù)。在該表示下,語(yǔ)素對(duì)ai、bj之間的語(yǔ)素概念距離d(ai,bj),即為語(yǔ)素ai的位置集合Pai和語(yǔ)素bj的位置集合Pbj之間構(gòu)成的多條路徑中的最短路徑的路徑長(zhǎng)度|V
簡(jiǎn)而言之,語(yǔ)素概念距離d(ai,bj)= |V
2.構(gòu)造詞對(duì)A、B之間的貢獻(xiàn)系數(shù)集合C={c11,c12,c21,c22}
記ma1、ma2為詞A在其構(gòu)詞結(jié)構(gòu)下的前、后語(yǔ)素貢獻(xiàn)系數(shù),mb1、mb2為詞B在其構(gòu)詞結(jié)構(gòu)下的前、后語(yǔ)素貢獻(xiàn)系數(shù),它們的取值見表4中的約定。在該表示下,c11=ma1*mb1,c12=ma1*mb2,c21=ma2*mb1,c22=ma2*mb2,這些取值下的c11、c12、c21、c22構(gòu)成集合C={c11,c12,c21,c22}。
3.計(jì)算詞對(duì)A、B之間的詞語(yǔ)概念距離D(A,B)
原則上,D(A,B)是d(ai,bj)、C、α等參數(shù)的函數(shù),即D(A,B)=f(d(ai,bj),C,α),其中,d(ai,bj)由步驟1得到,C由步驟2得到,α為詞類懲罰系數(shù),見表3中的約定。
在本文中,f(d(ai,bj),C,α)采用如式(1)所示的函數(shù)計(jì)算。
(1)
4.計(jì)算詞對(duì)A、B的語(yǔ)義相似度Sim(A,B)
考慮D(A,B)的分布特性,約定為式(2)。
(2)
其中,a用于調(diào)整函數(shù)的整體趨勢(shì),c用于調(diào)整函數(shù)的對(duì)稱中心,本文中取a=0.5,c=-15。
需要說(shuō)明的是:在本計(jì)算模型中,詞語(yǔ)概念距離轉(zhuǎn)化為語(yǔ)義相似度的公式采用logistic曲線。其原因在于,詞語(yǔ)概念距離在整體上基本滿足正態(tài)分布,考慮數(shù)據(jù)稠密程度,logistic曲線能使距離分布密集區(qū)的函數(shù)取值得到平滑。
此外,本計(jì)算模型具有一般性,可以方便地拓展至漢語(yǔ)多字詞的計(jì)算。對(duì)于多字語(yǔ)A、B,記語(yǔ)素集合E={a1,……,am,b1,……,bn},而貢獻(xiàn)系數(shù)集合C={c11,c12,……,c1n,……,cij,……,cmn}可由構(gòu)詞結(jié)構(gòu)貢獻(xiàn)系數(shù)迭代得到,再依照D(A,B)=f(d(ai,bj),C,α)計(jì)算Sim(A,B)=f(D(A,B))。
4.1 關(guān)于評(píng)價(jià)方法的討論
之前的研究與評(píng)價(jià)標(biāo)準(zhǔn),往往傾向于挑選一些同類詞的“取樣詞對(duì)”,我們認(rèn)為這不具有隨機(jī)性,也缺乏客觀性,相似度計(jì)算的需求可以存在于任意詞對(duì)之間,與是否屬于同類詞無(wú)關(guān)。
此外,對(duì)于漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算方法的評(píng)價(jià),實(shí)際上應(yīng)包含兩個(gè)方面,即語(yǔ)義相似度取值在局部數(shù)據(jù)上的表現(xiàn)優(yōu)劣,以及,語(yǔ)義相似度在全局?jǐn)?shù)據(jù)上的分布規(guī)律是否合理。只有這兩部分均表現(xiàn)優(yōu)越的方法,才能在實(shí)際應(yīng)用中獲得有效采用。對(duì)于特定方法,如果只滿足于“取樣詞對(duì)”上的相似度結(jié)果優(yōu)良,而不滿足全局?jǐn)?shù)據(jù)上的分布合理,可以認(rèn)為該方法存在對(duì)“取樣詞對(duì)”過(guò)擬合的傾向;反之,如果保持了全局?jǐn)?shù)據(jù)上的分布規(guī)律,而在“取樣詞對(duì)”上的計(jì)算結(jié)果欠佳,可以認(rèn)為該方法不具有典型性和精確性,同樣不足為取。
4.2 與基于知識(shí)的其他方法比較
基于《知網(wǎng)》計(jì)算漢語(yǔ)詞語(yǔ)語(yǔ)義相似度的研究很多,往往能達(dá)到局部最優(yōu),如劉杰[7]所言,這類方法使得取樣詞對(duì)的相似度更為合適,從而接近人類的主觀判斷。
對(duì)于該類方法,我們選取劉群、劉素建[10]最早基于《知網(wǎng)2000》的計(jì)算結(jié)果(方法1、方法2),以及最近劉杰[7]分別基于劉群、李素建方法的計(jì)算結(jié)果(方法3、方法4),劉杰另外給出了基于《知網(wǎng)2008》的李素建、劉群計(jì)算結(jié)果(方法5、方法6),方法7為本文方法的計(jì)算結(jié)果。這些計(jì)算結(jié)果的比較見表5,其中,表中Null代表未能獲得相關(guān)數(shù)據(jù)。
表5 “取樣詞對(duì)”相似度比較
不難發(fā)現(xiàn),在“男人”與其他詞的相似度計(jì)算中,無(wú)論哪種方法,都在“人類”和“非人類”之間的關(guān)系上表現(xiàn)良好,“男人”和“女人、父親、母親”的相似度高,而和“蘋果、責(zé)任、高興”的相似度低。但是,對(duì)于“非人類”的“蘋果、責(zé)任、高興”,由“生物”和“非生物”特征來(lái)看,“男人”和“蘋果”應(yīng)該更相似,在本文方法中,該特征得以體現(xiàn)。對(duì)于“旅行”和“旅程”,我們認(rèn)為體現(xiàn)得更多的是相關(guān)性,而不是相似性,所以在跨詞類的懲罰系數(shù)下,該相似度得以降低。本文方法對(duì)“美麗”和“動(dòng)人”的計(jì)算結(jié)果不佳,這是因?yàn)椤皠?dòng)人”在語(yǔ)義構(gòu)詞中發(fā)生了意義轉(zhuǎn)變,對(duì)于這種情況,本文方法目前不做進(jìn)一步的處理。但如苑春法、黃昌寧[16]所言,漢語(yǔ)中的這種情況極少,所占比例少于2%,我們?cè)跇?gòu)詞結(jié)構(gòu)標(biāo)注中采取了較嚴(yán)格的方案,發(fā)現(xiàn)這類詞占比為4%。此外,本文方法在“戰(zhàn)爭(zhēng)、打仗”、“十分、特別”、“靈敏、敏捷”等詞對(duì)上的表現(xiàn)突出,計(jì)算結(jié)果優(yōu)于其余方法。
此外,我們注意到,受《知網(wǎng)》數(shù)據(jù)限制,一些詞語(yǔ)的相似度無(wú)論如何調(diào)整算法,都是無(wú)法優(yōu)化的。例如,對(duì)于具有相同概念定義的詞語(yǔ),如“成敗、成效、得失、功利、功效、勝敗、勝負(fù)、輸贏、損益、盈虧”等詞語(yǔ)具有相同定義:“attribute|屬性,effect|效用,&event|事件”,則它們之間的相似度只能為1,但是其中“功效、勝負(fù)、盈虧”等詞語(yǔ)在感覺上是不應(yīng)該相似的。這是用《知網(wǎng)》進(jìn)行相似度計(jì)算需要解決的一個(gè)問(wèn)題,其他不再贅述。
4.3 與基于語(yǔ)料的方法比較
在基于語(yǔ)料的方法中,我們采用時(shí)間最近、效果較好的王石方法[11]進(jìn)行對(duì)比,該方法覆蓋所有詞語(yǔ),并且對(duì)較大的詞表進(jìn)行了評(píng)估。王石方法的相似度取值范圍是{-1}∪[0,1],對(duì)于“-1”取值情形,文獻(xiàn)未給解釋。王石對(duì)詞語(yǔ)相似度做了四次迭代計(jì)算,我們?nèi)⌒Ч詈玫牡诙蔚Y(jié)果。由于這類方法相似度取值普遍偏低,我們只能從相似度取值排序的角度來(lái)進(jìn)行分析。名詞詞對(duì)相似度比較的情況如表6。
表6 名詞詞對(duì)相似度比較
續(xù)表
在名詞詞對(duì)相似度取值排序上,王石方法相似度高的詞對(duì)從高到低為:“椅子、凳子”、“汽車、轎車”、“正午、中午”,本文方法相似度高的詞對(duì)從高到低為:“汽車、轎車”、“椅子、凳子”、“正午、中午”,結(jié)果基本一致,對(duì)于詞對(duì)“椅子、凳子”和“汽車、轎車”相似度高低的判斷,不同人有不同理解。王石方法相似度較低的詞對(duì)從低到高為:“珠寶、正午”、“男人、工作”、“電影、郵票”,本文方法相似度低的詞對(duì)從低到高為:“珠寶、正午”、“男人、工作”、“電話、電視”,結(jié)果基本一致。
表7 動(dòng)詞詞對(duì)相似度比較
續(xù)表
在動(dòng)詞詞對(duì)上,本文方法優(yōu)于王石方法(表7)。王石方法中的很多動(dòng)詞詞對(duì)缺乏有效的取值,本文方法不存在這類問(wèn)題。
表8 形容詞詞對(duì)相似度比較
在形容詞詞對(duì)上(表8),對(duì)于“聰明、機(jī)智”、“炎熱、干燥”、“初級(jí)、高級(jí)”、“陡峭、崎嶇”、“崎嶇、平坦”等詞對(duì),本文方法占優(yōu),其余詞對(duì)大致持平。
此外,百度CW算法[14]和王石算法有類似問(wèn)題,這里不再贅述。
實(shí)際上,基于語(yǔ)料的相似度計(jì)算方法,其相似度取值普遍偏低,在相似度數(shù)值的合理性方面,本文方法更優(yōu)。此外,基于語(yǔ)料方法的特征提取依賴上下文環(huán)境,而在上下文中出現(xiàn)的詞語(yǔ)體現(xiàn)的不一定是相似性,有可能是相關(guān)性,這會(huì)造成較大的干擾。
4.4 關(guān)于語(yǔ)義相似度分布的討論
語(yǔ)義相似度分布體現(xiàn)特定模型在全局?jǐn)?shù)據(jù)上的分布合理性。目前,《概念詞典》中有52 108個(gè)二字詞,它們之間詞對(duì)組合的數(shù)量達(dá)到了2.72*109??紤]計(jì)算代價(jià)問(wèn)題,我們對(duì)二字詞采取十分之一隨機(jī)抽樣,該取樣并不影響整體分布。本文方法對(duì)5 211*5 211個(gè)詞對(duì)的相似度計(jì)算結(jié)果滿足正態(tài)分布,即對(duì)于整體的漢語(yǔ)詞語(yǔ),可以表述為“特別相似”或“特別不相似”的情形相對(duì)較少。
百度CW算法基于詞向量計(jì)算語(yǔ)義相似度,利用百度公司NLPC小組提供的計(jì)算工具,我們也得到了該5 211*5 211個(gè)詞對(duì)的相似度計(jì)算結(jié)果,同樣滿足正態(tài)分布。
實(shí)驗(yàn)表明,上述兩組數(shù)據(jù)在置信度95%區(qū)間上進(jìn)行正態(tài)分布擬合,R方值達(dá)到0.9以上,具有很強(qiáng)的說(shuō)服力。這種情況也符合人類對(duì)于語(yǔ)言的一般認(rèn)知。
在漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算領(lǐng)域,因?yàn)橹R(shí)表示欠缺、數(shù)據(jù)匱乏等原因,完全采用語(yǔ)義構(gòu)詞知識(shí)的方法前人還未曾實(shí)踐過(guò)。
基于漢語(yǔ)字本位的思想,我們嘗試采用詞類、構(gòu)詞結(jié)構(gòu)、語(yǔ)素義等漢語(yǔ)語(yǔ)義構(gòu)詞知識(shí),以“語(yǔ)素概念”為基礎(chǔ),并結(jié)合其在“語(yǔ)素概念體系”上的意義表達(dá)和約束,借助這些密集的構(gòu)詞知識(shí)來(lái)計(jì)算語(yǔ)義相似度,該詞義知識(shí)表示具有簡(jiǎn)單、直觀、易于拓展等優(yōu)良特性。
建立在這種詞義知識(shí)表示上的相似度計(jì)算模型簡(jiǎn)潔、易懂,在算法中采用了盡可能少的特征和參數(shù),實(shí)驗(yàn)表明,其在典型“取樣詞對(duì)”上的表現(xiàn)突出,相似度數(shù)值更符合人類的直觀感覺,且在全局?jǐn)?shù)據(jù)上也表現(xiàn)出合理的分布規(guī)律。
當(dāng)然,本文方法還存在一些不盡人意的地方。例如,漢語(yǔ)單純?cè)~的語(yǔ)義不能由語(yǔ)系義直接導(dǎo)出,部分合成詞存在轉(zhuǎn)義、隱喻等現(xiàn)象,這些問(wèn)題目前尚沒有加以考慮和處理,雖然它們?cè)谒性~中占比不高;此外,詞語(yǔ)概念距離如何轉(zhuǎn)化為語(yǔ)義相似度,如何選取更合適的函數(shù)模型,技術(shù)細(xì)節(jié)也還有待探索和深入。
后續(xù)要開展的工作包括“語(yǔ)素概念體系”的修訂完善、多字詞構(gòu)詞結(jié)構(gòu)和語(yǔ)系義標(biāo)注、以及語(yǔ)義相似度算法的優(yōu)化等,以進(jìn)一步提高相似度計(jì)算的準(zhǔn)確率和覆蓋面,并將其用于實(shí)際的應(yīng)用系統(tǒng)。
最后,感謝北京大學(xué)中文系郭銳教授對(duì)漢語(yǔ)構(gòu)詞結(jié)構(gòu)工作的指導(dǎo),感謝百度公司NLPC團(tuán)隊(duì)對(duì)相似度計(jì)算研究的大力支持和KRR小組關(guān)于相似度應(yīng)用實(shí)用性問(wèn)題的啟發(fā)。
[1] 張亮,尹存燕,陳家駿.基于語(yǔ)義樹的中文詞語(yǔ)相似度計(jì)算與分析[J].中文信息學(xué)報(bào),2010,24(6):23-30.
[2] 李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,19(3):99-105.
[3] 江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,21(5):84-89.
[4] 張瑞霞,朱貴良,楊國(guó)增.基于知識(shí)圖的漢語(yǔ)詞匯語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2009,22(3):116-120.
[5] 王小林,王東,楊思春,等.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度算法[J].計(jì)算機(jī)工程,2014,12:177-181.
[6] 張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J].計(jì)算機(jī)工程,2015,02:151-156.
[7] 劉杰,郭宇,湯世平,等.基于《知網(wǎng)》2008的詞語(yǔ)相似度計(jì)算[J].小型微型計(jì)算機(jī)系統(tǒng),2015,08:1728-1733.
[8] 何夏燕.基于漢語(yǔ)概念圖的詞匯語(yǔ)義相似度計(jì)算[D].上海交通大學(xué),2010.
[9] 詹志建,梁麗娜,楊小平.基于百度百科的詞語(yǔ)相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,06:199-202.
[10] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義研討會(huì),臺(tái)北,2002.
[11] 王石,曹存根,裴亞軍,等.一種基于搭配的中文詞匯語(yǔ)義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2013,27(1):7-14.
[12] 蔡?hào)|風(fēng),白宇,于水,等.一種基于語(yǔ)境的詞語(yǔ)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2010,24(3):24-28.
[13] 關(guān)毅,王曉龍.基于語(yǔ)料的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[C].語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集,2003:7.
[14] Ronan Collobert,Jason Weston,Léon Bottou,et al.Natural Language Processing (Almost) from Scratch.[J]Journal of Machine Learning Research,2011,12(Aug):2493-2537.
[15] 蘇寶榮.漢語(yǔ)復(fù)合詞結(jié)構(gòu)義對(duì)構(gòu)詞語(yǔ)素意義的影響[J].語(yǔ)文研究,2013,01:1-4.
[16] 苑春法,黃昌寧.基于語(yǔ)素?cái)?shù)據(jù)庫(kù)的漢語(yǔ)語(yǔ)素及構(gòu)詞研究[J].語(yǔ)言文字應(yīng)用,1998,03:86-91.
[17] Pustejovsky J.The Generative Lexicon[M].Mass:MIT Press,1994.
[18] Grady Booch,Robert A Maksimchuk,Michael W Engle,et al.Object-Oriented Analysis and Design with Applications,3rd Edition[M].Addison-Wesley Professional,2007.
[19] Fellbaum C.WordNet:An Electronic Lexical Database[M].Mass:MIT Press,1998.
[20] 楊梅.現(xiàn)代漢語(yǔ)合成詞構(gòu)詞研究[D].南京師范大學(xué)博士學(xué)位論文,2006.
[21] 陸顧婧.漢語(yǔ)構(gòu)詞分析與詞義知識(shí)表示研究[D].北京大學(xué)碩士學(xué)位論文,2013.
Semantic Word-formation Based Chinese Word Similarity Computing
KANG Sichen1,3,LIU Yang2,3
(1.Department of Chinese Language and Literature,Peking University,Beijing 100871,China;2.Institute of Computational Linguistics,Peking University,Beijing 100871,China;3.Key Laboratory of Computational Linguistic(Ministry of Education),Peking University,Beijing 100871,China)
Chinese word similarity computing plays an important role in the Chinese information processing.Based on the notion of character-orientation,Chinese semantic word-formation knowledge,including word POS,word-formation pattern and morphemic concepts,is employed to compute Chinese word similarity.This lexical knowledge representation is simple,intuitive and easy to expand and the model is straight-forward,with characteristics and parameters adopted as less as possible.Experimental results show that the approach is promising for the typical sampling word pair.Also,the numerical values of similarity are more in line with human cognition and present a reasonable distribution of the global data.
Chinese word similarity computing; Chinese semantic word-formation; lexical knowledge representation; morphemic concepts
康司辰(1993—),本科生,主要研究領(lǐng)域?yàn)閼?yīng)用語(yǔ)言學(xué)、語(yǔ)言知識(shí)工程、中文信息處理。E-mail:1008_frank@sina.com劉揚(yáng)(1971—),博士,副教授,主要研究領(lǐng)域?yàn)檎Z(yǔ)言知識(shí)工程、中文信息處理。E-mail:liuyang@pku.edu.cn
1003-0077(2011)00-0094-08
2016-09-18 定稿日期:2016-10-19
國(guó)家社科基金(16BYY137);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃資助項(xiàng)目(2014CB340504);國(guó)家社科基金(12&ZD119)
TP391
A