張克亮,李芊芊
(戰(zhàn)略支援部隊信息工程大學(xué)洛陽校區(qū) 河南 洛陽 471003)
基于本體的語義相似度是指本體中兩個概念在語義上的相似程度.在語義相似度計算中,本體是一個通用的載體.本體是對特定領(lǐng)域知識的抽象化和形式化描述,通過為領(lǐng)域中的概念提供結(jié)構(gòu)化、無歧義的知識表示,來實現(xiàn)對概念及其相互關(guān)系的結(jié)構(gòu)化描述[1].在英文語義相似度的計算中,常常涉及到的通用本體是概念語義分類詞典WordNet,或者是知識百科Wikipedia等;在中文語義相似度的計算中,廣泛使用的本體知識資源是同義詞詞林[2]、知網(wǎng)[3]和HNC語義知識庫[4].其他一些領(lǐng)域本體也經(jīng)常使用,如記載雷達(dá)本體知識庫[5]、航空領(lǐng)域本體知識庫等[6].
基于本體語義相似度的相關(guān)研究在國內(nèi)起步于2004年,文獻(xiàn)[8]借鑒計算語言學(xué)中的語義距離思想,提出了RDFSchema構(gòu)詞所描述的本體概念相似度計算方法.自此以來,國內(nèi)相關(guān)研究主要包括5個方面:(1) 在對國外經(jīng)典模型進(jìn)行介紹的基礎(chǔ)上進(jìn)行理論比較和改進(jìn),如黃果、周竹榮等[9]對Leacock模型的改進(jìn);(2) 研究基于同義詞詞林或領(lǐng)域本體的中文詞語語義相似度研究,如田久樂、趙蔚[10]的基于同義詞詞林的研究方法;(3) 研究基于《知網(wǎng)》的中文詞語語義相似度研究,如夏天等[11]提出的基于知網(wǎng)、面向語義、可擴(kuò)展的相似度計算方法;(4) 對前人成果的總結(jié)、回顧和展望,如文獻(xiàn)[12-13]對相關(guān)研究的梳理和展望;(5) 基于語義相似度的相關(guān)應(yīng)用研究,如機(jī)器翻譯研究[14]、句子相似度計算研究[15]、航空領(lǐng)域知識查詢研究[6]、越南軍情本體知識庫問句分析處理研究[16]、基于領(lǐng)域本體的概念格語義匹配研究[17]等.目前國內(nèi)最新的研究成果是基于混合式的計算方法,如基于概念的實例、定義和結(jié)構(gòu)加權(quán)的相似度計算方法[18],基于信息內(nèi)容、距離、屬性的自適應(yīng)語義相似度計算方法[19].這些混合式計算方法領(lǐng)域本體選取各不相同,算法參數(shù)設(shè)定方法各異,雖然最新的語義相似度計算算法層出不窮,但是在基準(zhǔn)數(shù)據(jù)集的基礎(chǔ)上,現(xiàn)有相似度計算的模型提升空間有限.
基于本體的語義相似度評測主要包括內(nèi)部評測和外部評測,對于一種新的評測方式通常采用內(nèi)部評測.在英語中,有很多公開的基準(zhǔn)數(shù)據(jù)集為詞語相似度的度量服務(wù),如M&C數(shù)據(jù)集和R&G數(shù)據(jù)集.而在中文中,這樣的基準(zhǔn)數(shù)據(jù)集一度空缺,并嚴(yán)重成為限制中文詞語相似度計算發(fā)展的瓶頸.
基于本體的語義相似度計算分為基于距離的方法、基于信息量的方法、基于屬性的方法和混合式方法4種代表性方法.
基于距離的語義相似度計算方法的核心是通過量化概念詞,通過本體概念結(jié)構(gòu)樹中的路徑長度以計算其語義相似度.基本思想是:兩個概念詞在本體層次樹中的路徑長度越大,相似度越小.代表算法有Shortest Path方法[20]、Weighted Links方法[21]、Wu-Palmer方法[22]、Leacock和Chodorow方法[23]、Hirst-Stonge方法[24]、Yang和Powers方法等[25].
文獻(xiàn)[20]認(rèn)為概念詞對間的相似度與其在本體概念結(jié)構(gòu)樹中的距離有關(guān),前提假設(shè)為所有邊的距離同等重要.文獻(xiàn)[21]在文獻(xiàn)[20]的基礎(chǔ)上,考慮了邊的權(quán)重問題,如概念詞對的位置信息(如深度和密度等)和邊所表征的關(guān)聯(lián)強(qiáng)度等.該方法將路徑上各個邊的權(quán)值相加,而不是簡單統(tǒng)計概念詞對之間邊的數(shù)量.文獻(xiàn)[22]與文獻(xiàn)[20]和文獻(xiàn)[21]方法不同,不是通過計算概念詞對之間的路徑長度來計算概念詞對相似度,而是基于它們與其最近公共父節(jié)點(diǎn)概念詞的位置關(guān)系計算相似度.文獻(xiàn)[23]考慮了本體分類樹自身的深度對被比較概念詞相似度的影響.文獻(xiàn)[24]在考慮路徑因素的基礎(chǔ)上,增加了轉(zhuǎn)向因素,該方法認(rèn)為如果概念詞對的路徑越短,且遍歷過程中改變路徑方向的次數(shù)越少,那么概念詞對的語義相關(guān)度越高,該方法開辟了一個全新的視角,相似度在很大程度上取決于方向問題而不是概念關(guān)系,但實驗證明該方法的表現(xiàn)并不好.文獻(xiàn)[25]在文獻(xiàn)[24]方法的基礎(chǔ)上,充分利用了is-a、equivalence和part-of關(guān)系,設(shè)計了兩種衡量名詞詞對間相似度的搜索算法(BDLS搜索和UBFS搜索)和兩種衡量詞對間相關(guān)度的算法,此算法在Resnik數(shù)據(jù)集上獲得了0.921的關(guān)聯(lián)度,但是該算法有7個需要調(diào)節(jié)的參數(shù),增加了算法性能的不確定性.
基于距離的方法即度量概念詞之間的連接邊數(shù)量的最小值,當(dāng)這種方法應(yīng)用于大規(guī)模的本體時,會忽略掉多種其他的繼承關(guān)系.該方法沒有考慮其他影響語義相似度的因素,比如公共祖先節(jié)點(diǎn)的分布與數(shù)量等,因此只選取最短路徑的方法忽略了本體中的很多概念結(jié)構(gòu)知識.后人在此方法的基礎(chǔ)上增添了位置信息、權(quán)值、關(guān)系類型等因素,從而衍生出了諸多方法,但是這些方法更多地依賴于本體中語義連接的完整性和本體的覆蓋能力,適用于具有良好的語義覆蓋能力的本體,如WordNet.
基于信息量的相似度計算將概念信息量與本體知識相結(jié)合,基本思想為:概念對之間共享信息量越高,差異信息量越小,相似度越大.共享信息量由共享父節(jié)點(diǎn)的信息量表示,差異信息量由各概念與共享父節(jié)點(diǎn)的信息差量表示.在本體概念結(jié)構(gòu)樹中,每個概念子節(jié)點(diǎn)都是對其祖先節(jié)點(diǎn)概念的細(xì)化和具體化,因此可以通過被比較概念詞的公共父節(jié)點(diǎn)概念詞所包含的信息內(nèi)容衡量它們之間的相似度.
文獻(xiàn)[26]首次提出使用最近公共父節(jié)點(diǎn)的頻率值來表征概念詞對間的語義相似度.文獻(xiàn)[27]在文獻(xiàn)[26]方法的基礎(chǔ)上,提出用公共父節(jié)點(diǎn)的信息內(nèi)容計算概念詞對間的相似度.該方法與文獻(xiàn)[26]的算法不同之處在于,它不是基于最近公共父節(jié)點(diǎn)的信息內(nèi)容,而是基于公共父節(jié)點(diǎn)中信息量最大的信息內(nèi)容.該方法用概念出現(xiàn)概率的倒數(shù)來表征概念的信息量,概念的出現(xiàn)概率越大,該概念的信息量越少.上述兩種算法都只考慮了被比較概念詞a和b的共享信息內(nèi)容,文獻(xiàn)[28]在此基礎(chǔ)上考慮了a和b自身包含的信息內(nèi)容,并將相似度定義為描述概念的共性所需的信息量和兩個概念的信息量總和的比值.當(dāng)概念詞對屬于同一個本體時,文獻(xiàn)[28]比文獻(xiàn)[27]方法效果更好,但文獻(xiàn)[28]的缺點(diǎn)是強(qiáng)烈依賴于精確的標(biāo)注信息,當(dāng)兩個對象的標(biāo)注模糊時,該方法容易產(chǎn)生誤差.文獻(xiàn)[29]在信息量的基礎(chǔ)上,直接通過對語義距離的計算來表征概念詞對間的相似度,并進(jìn)一步考慮了本體有向無環(huán)圖的稠密程度、 節(jié)點(diǎn)深度和連接類型等因素來計算概念的語義相似度.
文獻(xiàn)[26-29]在計算信息量時,不僅利用了處理后的大型語料庫來計算概念出現(xiàn)頻率,還利用了WordNet等本體中的概念層次關(guān)系.這種方法的缺點(diǎn)有:(1) 處理大型語料庫耗時耗力,而且語料庫需要涵蓋本體中的概念集;(2) 方法效果在很大程度上取決于語料庫的類型和規(guī)模,通用語料庫和專用語料庫的選擇對信息量的計算有很大影響.
文獻(xiàn)[30]提出只利用本體概念結(jié)構(gòu)樹來計算信息量的方法,以排除語料庫的影響.該算法的前提是擁有一個概念架構(gòu)完全的本體,而且認(rèn)為架構(gòu)完全的本體可以很好地量化概念的信息量,并不需要語料庫的輔助支持,該假設(shè)的要求較高,且主觀性較強(qiáng),該方法計算復(fù)雜度低,避免了數(shù)據(jù)稀疏.Pirro[31]將Tversky的基于屬性的相似度度量的思想引入P&S相似度度量算法,并將其投射到信息量領(lǐng)域,同時借鑒文獻(xiàn)[30]計算信息量的方法,該方法效果比當(dāng)時最優(yōu)算法的效果好,糾正了文獻(xiàn)[27]方法中問題,如相同概念間的相似度值不為1的問題,而且該算法不需要調(diào)整參數(shù).文獻(xiàn)[32]對文獻(xiàn)[27]語義相似度計算方法進(jìn)行修改,不再依賴處理過的語料,而是從網(wǎng)絡(luò)等未處理的大規(guī)模語料中獲取信息量,目的是為了減少對語料的依賴,而且充分利用本體知識中的公共父節(jié)點(diǎn)來減弱詞匯共現(xiàn)中的歧義現(xiàn)象帶來的影響.文獻(xiàn)[33]提出一種新的信息量計算模型,采用上位詞、下位詞、相對深度和最大節(jié)點(diǎn)等因素,計算WordNet中單父節(jié)點(diǎn)或多父節(jié)點(diǎn)的節(jié)點(diǎn)信息量.該算法補(bǔ)充了多父節(jié)點(diǎn)信息量的計算方法,可以敏銳感知上位詞、下位詞、相對深度和最大節(jié)點(diǎn)等因素的不同引起的信息量差別,且能有效解決單父節(jié)點(diǎn)和多父節(jié)點(diǎn)相似度計算問題.
基于屬性的語義相似度計算模型的基本原理是衡量兩個概念對應(yīng)的屬性集的相似程度.概念屬性分為數(shù)據(jù)類型屬性和對象類型屬性.基于屬性的語義相似度方法試圖解決基于距離的方法所反映的問題,利用本體屬性的重疊程度衡量語義相似度,而不是利用路徑長度來衡量,由此可見,基于屬性的方法更適合解決跨本體的語義相似度問題,而基于距離的方法卻不能解決該問題.
文獻(xiàn)[34]從屬性的角度出發(fā)比較兩個概念的相似度,綜合考慮了兩個概念間相同的屬性和不同的屬性,并認(rèn)為相同的屬性可以增加概念間的相似度,而不同的屬性會減少概念間的相似度.該算法的關(guān)鍵在于屬性的選擇,算法的缺點(diǎn)在于沒有區(qū)分?jǐn)?shù)據(jù)類型屬性和對象屬性的不足,只單純考慮了屬性信息.文獻(xiàn)[35]針對跨本體語義相似度計算,提出了一種新的算法模型,綜合考慮了概念詞的位置信息和屬性信息,包括同義詞集、語義鄰節(jié)點(diǎn)和特征屬性項等.該算法可以計算單個本體中概念詞間的相似度,也可以用來計算多個本體中概念詞間的相似度,是跨本體語義相似度計算研究的思想源泉之一.文獻(xiàn)[36]提出一種基于特征的方法,該方法利用WordNet中的同義詞集合、概念釋詞和相鄰概念集來衡量相似度,認(rèn)為如果概念的同義詞集合、釋詞的相鄰概念集在詞法上相似,那么這兩個概念的相似度比較高.文獻(xiàn)[37]最早提出基于概念釋詞的方法,如果兩個概念的意義相近,那么這兩個概念的定義中往往有相同的單詞,因此該方法可以通過兩個概念在本體中的釋詞重疊程度獲得兩個概念的語義相似程度,還可以區(qū)分多義詞.但是概念的定義里涵蓋的單詞一般比較少,兩個概念的定義中重疊的單詞數(shù)也相應(yīng)較少.
為了解決上述問題,文獻(xiàn)[38]在文獻(xiàn)[37]的基礎(chǔ)上提出了一種基于概念釋詞重疊的改進(jìn)方法,用n2衡量n個相同釋詞的相似度值,還充分利用了上下位、部分-整體等關(guān)系相鄰的概念釋詞.文獻(xiàn)[39]通過構(gòu)建上下文向量來度量概念上下文的信息,從概念的釋詞提取上下文單詞作為上下文向量,并取兩個概念的上下文向量的余弦值來表達(dá)概念間的相似度.文獻(xiàn)[40]提出一種新的基于屬性的相似度計算方法,該方法只使用概念結(jié)構(gòu)知識作為屬性特征,而不使用本體中的其他信息.因為概念結(jié)構(gòu)知識占本體知識的80%左右,而本體中其他知識的描述較少,并且單屬性方法避免了權(quán)重調(diào)節(jié)問題.
綜上所述,基于屬性的方法普遍有兩個缺點(diǎn):(1) 相較于基于距離的方法,基于屬性的方法需要利用更多的語義知識來估量被比較概念對之間的相同屬性和不同屬性.但是只有WordNet等大型本體才包含豐富的語義知識,只有少數(shù)領(lǐng)域本體才包含這種語義知識[41].(2) 參數(shù)問題,該方法需要利用參數(shù)來調(diào)節(jié)不同屬性間的權(quán)重,而不同本體的參數(shù)選擇不同,這影響了該方法的通用性.
1.4.1混合式方法 混合式相似度計算方法綜合考慮上述幾種算法,用多種因素來綜合表示相似度,并為每個因素附以權(quán)重.盡管在具體任務(wù)上,混合式方法比基于距離的方法效果更好,但是混合式方法需要根據(jù)本體設(shè)定權(quán)重,權(quán)重調(diào)節(jié)的不確定性影響了這種方法的普適性.
前面介紹了前3種因素(距離、信息量和屬性)的作用,下面簡略介紹后3種因素:(1) 概念詞聯(lián)通路徑上各個邊的類型[42];(2) 概念詞在本體層次樹中所處區(qū)域的密度;(3) 概念詞在本體層次樹中所處的深度.
混合式方法的代表算法最早是Li等[43]提出的,該算法同時考慮了路徑長度、概念深度等要素.但是該參數(shù)的選擇缺乏理論基礎(chǔ),只是一次實驗的經(jīng)驗值,并不能應(yīng)用到其他的本體中.文獻(xiàn)[44]根據(jù)根節(jié)點(diǎn)定義概念結(jié)構(gòu)樹中的聚簇,提出了將最小路徑長度和概念深度結(jié)合起來的基于聚簇的方法.其中,利用兩個概念的共同特異度,闡釋了“低層級的概念對之間的相似度大于高層級概念對的相似度”的概念.文獻(xiàn)[45]提出OSS相似度計算方法,該方法將概念的A-priori分值與概念距離結(jié)合起來.該方法首先計算概念的A-priori分值,其次計算概念對的分值差,在此基礎(chǔ)上計算概念對之間的相似度值.文獻(xiàn)[46]提出基于圖模型的相似度計算方法,該方法是以樹為主體的本體結(jié)構(gòu)并混合了釋詞方法.文獻(xiàn)[47]融合基于圖的相似度計算方法和基于信息量的計算方法,綜合考慮概念在WordNet中的路徑長度、局部密度、概念信息量和概念深度等因素,提出一種新的OHIIC混合式語義相似度計算方法.
1.4.2混合式方法在知網(wǎng)中的應(yīng)用 在《同義詞詞林》和WordNet中,概念是描寫語義的最小單位,每一個概念都是這個層次體系中的一個節(jié)點(diǎn).在《知網(wǎng)》中,每一個概念是通過一組義原來表示,義原才是這個層次體系中的一個節(jié)點(diǎn),而且一個概念是通過專門的“知識描述語言”表達(dá)的義原的集合.這些特殊之處表明,不能全部套用基于WordNet的方法來解決基于《知網(wǎng)》的語義相似度計算問題.如何通過“義原”的相似度得到詞語/概念的相似度,成為基于知網(wǎng)計算中文詞語相似度的關(guān)鍵所在,而混合式方法為研究知網(wǎng)中的語義相似度問題提供了很好的角度.
文獻(xiàn)[48]最早提出基于《知網(wǎng)》的詞匯語義相似度的方法,該方法借鑒了“信息量”的思想,采用了“整體的相似度等于部分相似度加權(quán)平均”的思想,認(rèn)為兩個孤立詞語的語義相似度是所有概念之間相似度的最大值,將概念相似度分解為義原相似度的加權(quán)組合,義原相似度通過上下位關(guān)系得到語義距離并進(jìn)行轉(zhuǎn)換.文獻(xiàn)[49]綜合考慮“距離”和“信息量”兩個因素,將義原相似度計算分為兩大類:一種是在樹狀層次結(jié)構(gòu)下計算兩個節(jié)點(diǎn)之間的路徑長度;一種是基于兩個節(jié)點(diǎn)所含的共有信息大小.文獻(xiàn)[50]發(fā)現(xiàn)文獻(xiàn)[48]算法中存在著一些具有對同義或反義的詞語與同義、近義詞語一樣具有較高的相似度的問題,例如利用文獻(xiàn)[48]算法得到詞語“美麗”和“賊眉鼠眼”的語義相似度為0.814,這種結(jié)果不利于進(jìn)行詞語的極性識別分析.基于文本情感色彩分析的需要,該研究將詞語相似度的取值范圍規(guī)定為[-1,+1],這種方法改善了文獻(xiàn)[48]算法中出現(xiàn)的問題,并在詞語極性識別的實驗結(jié)果中有良好的表現(xiàn).
基于本體的語義相似度評測主要有兩種方式:(1) 內(nèi)部評價,即計算相似度計算值與領(lǐng)域?qū)<抑抵g的皮爾森相關(guān)系數(shù).因為語義相似度的計算就是利用形式化的表述和算法模擬人腦,衡量概念相似程度的過程,所以領(lǐng)域的專家就是衡量語義相似度的最高標(biāo)準(zhǔn)與權(quán)威;(2) 外部評價,即將相似度計算值應(yīng)用于命名實體識別、關(guān)系抽取等高層級的工作.顯然,外部評價比內(nèi)部評價更有效,但是也更復(fù)雜.
對于一種新設(shè)計的語義相似度算法而言,往往采用內(nèi)部評價的方式,步驟如下:(1) 選取概念詞對構(gòu)建基準(zhǔn)數(shù)據(jù)集;(2) 獲取不同概念詞對相似度的領(lǐng)域?qū)<医?jīng)驗值;(3) 采用新設(shè)計的相似度計算方法衡量概念詞對的相似度值;(4) 最后將新算法的相似度值與專家經(jīng)驗值對比.在這些步驟中,最重要的是基準(zhǔn)數(shù)據(jù)集的構(gòu)建.
在英語中,有很多公開的基準(zhǔn)數(shù)據(jù)集為詞語相似度的度量服務(wù).第一個數(shù)據(jù)集是由文獻(xiàn)[51]設(shè)計的,數(shù)據(jù)集包括65對名詞詞語和領(lǐng)域?qū)<医o出的每對詞語的相似度值.在RG數(shù)據(jù)集的基礎(chǔ)上,文獻(xiàn)[52]從65對詞匯中選取了30對作為數(shù)據(jù)集,研究語義相似度在每個單詞上下文中的作用.應(yīng)用最廣泛的是Finkelstein[53]的WordSim-353數(shù)據(jù)集,包含353對詞匯,這些測試集都按照從語義高度相關(guān)到語義不相關(guān)進(jìn)行分類.2012年,文獻(xiàn)[54]建立了一個新的數(shù)據(jù)集,不僅提供了詞語對,還提供了詞語的上下文.文獻(xiàn)[32]在文獻(xiàn)[51]和文獻(xiàn)[52]的基準(zhǔn)數(shù)據(jù)集上,對各種代表性方法的效果進(jìn)行比較和總結(jié).
Hill等[55]對上述這些數(shù)據(jù)集進(jìn)行綜合研究,認(rèn)為這些數(shù)據(jù)集存在共同的缺點(diǎn):(1) 沒有合理地處理語義關(guān)聯(lián)卻不相似的詞對(如歌手和麥克風(fēng));(2) 在標(biāo)注數(shù)據(jù)集詞對的相似度時,標(biāo)注任務(wù)的模糊可能影響人工標(biāo)注的一致性.Hill認(rèn)為在這些數(shù)據(jù)集的基礎(chǔ)上,現(xiàn)有計算相似度的模型已經(jīng)無法提升,但是通過人工評測發(fā)現(xiàn),這些模型在表現(xiàn)上依舊遠(yuǎn)低于人類,于是他建立了一個新的數(shù)據(jù)集Simlex-999來解決上述問題.
文獻(xiàn)[56]總結(jié)肯定了Hill的研究成果,Simlex-999是語義相似度計算評測的重要一步,但同其他傳統(tǒng)方法一樣,存在一些根本問題.他們首先提出了兩個術(shù)語,優(yōu)先關(guān)系(preferred-relation)(如上下位關(guān)系)和非優(yōu)先關(guān)系(unpreferred-relation)(如關(guān)聯(lián)關(guān)系),其中前者的相似度應(yīng)高于后者.他們認(rèn)為在構(gòu)建數(shù)據(jù)集時,研究人員為每對詞語的相似度打分的評級系統(tǒng)不夠科學(xué),用斯皮爾曼衡量系統(tǒng)擬合效果也不夠精確.于是提出改進(jìn)辦法:(1) 詞對的標(biāo)注任務(wù)不再是模糊的打分任務(wù),而是精確的排序任務(wù);(2) 每一類數(shù)據(jù)集只單純研究一種優(yōu)先關(guān)系;(3) 兩對比較排序的詞對中含有相同的單詞,例如(貓,寵物)和(貓,動物),而非(貓,寵物)和(冬天,季節(jié));(4) 增加可信度指標(biāo),即如果標(biāo)注者對于兩個詞對的排序爭議較大,則該排序在評估系統(tǒng)中的比重會相應(yīng)減小.實驗證明,按照上述原則構(gòu)建的數(shù)據(jù)集擁有較高的評分者信度,可以支持細(xì)粒度的模型效果分析.
在中文中,這樣的基準(zhǔn)數(shù)據(jù)集一度空缺,并嚴(yán)重成為限制中文詞語相似度計算發(fā)展的瓶頸.文獻(xiàn)[57]最早從事相關(guān)工作,挑選了39對中文詞語作為基準(zhǔn)數(shù)據(jù)集.文獻(xiàn)[58]在Semeval-2012任務(wù)中評測中文詞語相似度,將WordSim-353數(shù)據(jù)集翻譯為中文,并對其進(jìn)行人工相似度評判,但參加該測試的單位很少.Guo等[59]從HowNet中挑選401對多義詞構(gòu)建中文多義詞相似度數(shù)據(jù)集,但是該數(shù)據(jù)集主要研究多義詞,數(shù)據(jù)多樣性比較受限.目前,中文的基準(zhǔn)數(shù)據(jù)集較為權(quán)威的是NLPCC會議[60]提供一個關(guān)于中文詞語相似度的基準(zhǔn)數(shù)據(jù)集PKU-500,數(shù)據(jù)集包括500對詞語和每對詞語的相似度值.在NLPCC會議中采取內(nèi)部評價的方法,并提供基準(zhǔn)數(shù)據(jù)集作為評價標(biāo)準(zhǔn).NLPCC主要從領(lǐng)域、頻率、詞性、詞長、詞義、極性等角度在人民日報和微博中挑選獨(dú)立單詞,得到470對詞語,再加上從WordSim-353中翻譯得到的30對詞語,最后構(gòu)成了500對詞語的數(shù)據(jù)集.相似度的標(biāo)注沒有特定的標(biāo)準(zhǔn),主要依靠標(biāo)注者的語言直覺.為了避免小規(guī)模數(shù)據(jù)集的過擬問題,NLPCC從詞典中隨機(jī)生成了99 500個詞對,將它與500個從同義詞林中抽取的詞對組合在一起,形成規(guī)模為10萬的測試集.NLPCC使用斯皮爾曼等級相關(guān)系數(shù)評價利用算法,得到的相似度值與基準(zhǔn)數(shù)據(jù)集的相似度值統(tǒng)計相關(guān)性.
除此之外,還可以采用皮爾森相關(guān)系數(shù)與歐氏距離評價統(tǒng)計相關(guān)性.皮爾森相關(guān)系數(shù)是一種線性相關(guān)系數(shù),反映兩個變量的線性相關(guān)程度,相關(guān)系數(shù)越高,說明算法計算得到的相似度值與專家經(jīng)驗值的吻合度越高.此外,歐氏距離也往往用來衡量兩個變量的相似程度.
本文回顧了幾種代表性語義相似度計算方法的發(fā)展脈絡(luò),分析了它們的內(nèi)容方法,并比較了它們的優(yōu)缺點(diǎn)和實驗效果,最后總結(jié)了語義相似度的評測方法,基于當(dāng)前的研究成果,筆者認(rèn)為今后基于本體的語義相似度計算研究有幾個發(fā)展方向.
(1) 基于本體的語義相似度計算方法不依賴于語料庫,其計算結(jié)果與領(lǐng)域?qū)<医?jīng)驗值較為一致,在輕量數(shù)據(jù)集中表現(xiàn)穩(wěn)定,是一個較好的選擇.但是隨著大數(shù)據(jù)的興起,研究者應(yīng)將基于大規(guī)模語料庫的計算方法和基于本體的計算方法融合起來,根據(jù)數(shù)據(jù)集的規(guī)模選擇性使用上述兩種方法.同時可以借鑒關(guān)系抽取中的弱監(jiān)督學(xué)習(xí)方法,加強(qiáng)基于釋詞的研究,將本體中的概念與可靠的網(wǎng)絡(luò)知識庫(如Wikipedia、FreeBase等)中的詞條進(jìn)行匹配,充分挖掘知識庫中的語義信息.
(2) 隨著知識圖譜技術(shù)的快速發(fā)展,在NWD方法[61]的基礎(chǔ)上誕生了NSWD方法[62].Normalized google distance是NWD方法的典型代表,利用Google返回的網(wǎng)頁數(shù)量計算概念的共現(xiàn)比例,共現(xiàn)比例越大,則語義相似度越高.NSWD在NWD的基礎(chǔ)上利用知識圖譜(如FreeBase、DBpedia等)的節(jié)點(diǎn)屬性,利用圖結(jié)構(gòu)中的出度和入度比例表示相似度,屬性重合度越高的概念,其語義相似度越高.針對知識圖譜領(lǐng)域,Sematch框架[63]主要計算概念、詞語和實體之間的語義相似度,其計算方法主要依靠知識圖譜的結(jié)構(gòu)性知識,如節(jié)點(diǎn)深度、路徑長度、最近父節(jié)點(diǎn)和統(tǒng)計信息量等.當(dāng)前,基于知識圖譜的語義相似度研究初露鋒芒,它將傳統(tǒng)的本體方法嫁接到知識圖譜的成果,雖然目前該方法的準(zhǔn)確率仍低于效果最好的本體方法,但是依托知識圖譜的方法將是下一步研究的關(guān)鍵所在.
(3) 目前,絕大多數(shù)算法的效果評估通常將計算結(jié)果與領(lǐng)域?qū)<医?jīng)驗值進(jìn)行比較,但是由于知識背景和認(rèn)知經(jīng)驗不同,判斷結(jié)果主觀性很強(qiáng).針對該問題,從人工打分的角度考慮,應(yīng)將被比較概念詞對的相似度打分問題細(xì)化為相似度排序問題,并篩選評分者信度高的數(shù)據(jù)集;從數(shù)據(jù)集的構(gòu)建角度考慮,應(yīng)注重基準(zhǔn)數(shù)據(jù)集的分類構(gòu)建,針對不同的問題(如一詞多義、上下位概念語義計算等)構(gòu)建相應(yīng)的基準(zhǔn)數(shù)據(jù)集.
(4) 多數(shù)計算方法只考慮單一本體內(nèi)的語義相似度計算問題.但是計算單一本體內(nèi)的語義相似度,不能滿足應(yīng)用的需求,跨本體的語義相似度計算和本體的自擴(kuò)展將是發(fā)展方向.因此應(yīng)該加強(qiáng)跨本體的語義相似度的相關(guān)研究,為本體匹配技術(shù)提供堅實基礎(chǔ).針對該問題,應(yīng)注重基于屬性的語義相似度計算方法,充分考慮同義詞集、特征項、語義鄰節(jié)點(diǎn)間相似度、概念釋詞等屬性.
(5) 基于本體的語義相似度的應(yīng)用范圍越來越廣泛.在醫(yī)學(xué)領(lǐng)域,通常利用基于基因本體的語義相似度,度量基因的功能性相似度[64].在聚類算法[65]方面,利用語義相似度改進(jìn)針對文章的語義表示,從而提升聚類算法的性能.該研究可拓展到潛在語義挖掘[66],利用WordNet來衡量源概念和目標(biāo)概念的語義相似度,進(jìn)而處理中文的隱喻問題.在系統(tǒng)綜述[67]方面,也可以利用基于本體的語義關(guān)系發(fā)現(xiàn)文章之間的語義關(guān)系,達(dá)到識別相關(guān)文章的目的.