◆高慧星
語義網(wǎng)中基于相似度計(jì)算的本體映射研究
◆高慧星
(燕山大學(xué)里仁學(xué)院 河北 066000)
隨著本體的應(yīng)用越來越廣泛,本體異構(gòu)等問題也逐漸浮出水面。而語義網(wǎng)的基礎(chǔ)就來自本體,成為當(dāng)下自動(dòng)處理大量信息的重要途徑。本體的相似度計(jì)算也是語義映射等應(yīng)用的基礎(chǔ)。本文基于對本體的描述,進(jìn)行對相似度計(jì)算的研究,對現(xiàn)存問題進(jìn)行分析,對現(xiàn)有算法進(jìn)行改良,并通過實(shí)例進(jìn)行驗(yàn)證。
語義網(wǎng);相似度;本體映射
本體的相似度計(jì)算是很多領(lǐng)域應(yīng)用的基礎(chǔ),用來研究通過計(jì)算比較兩個(gè)詞語相似度的方法。我國在對語義相似度的計(jì)算方面起步較晚,方法研究還不夠成熟,但進(jìn)展飛速。很多專家學(xué)者在此方面的研究都有不小的突破,具有開創(chuàng)性的意義。針對我國當(dāng)下現(xiàn)狀,要對有關(guān)語義相似度的現(xiàn)存成果進(jìn)行探討分析,并指出未來發(fā)展方向。
語義網(wǎng)的核心是:通過萬維網(wǎng)能夠被計(jì)算機(jī)理解的語義,讓互聯(lián)網(wǎng)成為一個(gè)可以廣泛通用的信息交換媒介。照目前情況看,應(yīng)用萬維網(wǎng)的主要方式是搜索和聯(lián)系他人。但現(xiàn)在絕大部分網(wǎng)絡(luò)機(jī)器無法對其進(jìn)行解讀,只能人工進(jìn)行處理,而為了讓其更容易被機(jī)器處理,同時(shí)方便結(jié)合智能技術(shù)[1],基于此,在1998年,語義網(wǎng)概念被萬維網(wǎng)聯(lián)盟的蒂姆提出。在語義網(wǎng)構(gòu)成的體系中,本體負(fù)責(zé)進(jìn)行語義的溝通,用于描述概念和概念之間的關(guān)系,提供某特定領(lǐng)域達(dá)成的共識。萬維網(wǎng)數(shù)據(jù)極其分散,本體也是一樣,而且本體的構(gòu)建過程目前并沒有一個(gè)明確的標(biāo)準(zhǔn)進(jìn)行規(guī)范,不同的構(gòu)建者會用不同的方式建模,得到內(nèi)容和結(jié)構(gòu)都不相同的本體。在實(shí)際操作中,有些項(xiàng)目需要多個(gè)本體協(xié)同工作,這些具有差異性的本體,會為知識表達(dá)語義信息的共享帶來阻礙,這種現(xiàn)象被稱為本體異構(gòu)[1]。至于本體映射,指的是在一個(gè)領(lǐng)域內(nèi)發(fā)現(xiàn)不同的本體之間有著相似甚至相同的語義,從而建立映射關(guān)系。本體映射可以消除上述的本體異構(gòu)問題,促進(jìn)信息的交流共享。在本體映射過程中,概念相似度的計(jì)算可以反映出異構(gòu)的本體間的概念語義關(guān)系。由此,從語義網(wǎng)的角度來看,本體映射中概念相似度的計(jì)算對于其發(fā)展來說顯得尤為重要[2]。
(1)效果和效率不平衡。本體內(nèi)節(jié)點(diǎn)數(shù)過多會使效率下降,導(dǎo)致本體映射的效率和映射效果無法達(dá)到平衡。
(2)相似度計(jì)算不全面。當(dāng)前絕大多數(shù)映射只看本體某些方面的信息來進(jìn)行相似度計(jì)算,有一些隱含的語義信息被忽視,導(dǎo)致相似度計(jì)算的結(jié)果準(zhǔn)確性不高[3]。
(3)通用性不高。系統(tǒng)開發(fā)要針對特定領(lǐng)域的本體,對其他領(lǐng)域應(yīng)用并不適用,不具有通用性。
(4)標(biāo)準(zhǔn)不統(tǒng)一。對于映射結(jié)果的準(zhǔn)確性事實(shí)上很主觀,不同的專家會從不同方面進(jìn)行考量給出截然不同的評價(jià)。
(1)概念層異構(gòu):建模異構(gòu),采取UML或E-R圖的方式建模。
(2)語言層異構(gòu):指描述語言的語法和語言表達(dá)能力不同。
(3)詞匯異構(gòu):同一個(gè)詞匯會在不同的本體中體現(xiàn)不同的概念,不同的詞匯也可以體現(xiàn)同一個(gè)概念。
本體異構(gòu)妨礙了本體間的信息知識共享,在進(jìn)行概念相似度的計(jì)算時(shí),通過本體映射了解其間語義關(guān)系。本體映射的本質(zhì)就是,存在本體A和本體B,A的任何一種概念意圖在B中找到與其語義相同或相似的相對應(yīng)的概念。源本體到目標(biāo)本體的過程如下:
(1)特征提取。提取概念、屬性、實(shí)例等本體特征,在計(jì)算相似度時(shí)為其提供數(shù)據(jù)基礎(chǔ)。
(2)用戶交互。分為提取候選概念和補(bǔ)充映射結(jié)果兩部分。專家通過領(lǐng)域預(yù)定映射關(guān)系,錯(cuò)誤匹配因此得以修正并依此進(jìn)行重建。這種用戶交互過程影響了概念的映射從而間接影響本體的映射,提高了映射的精準(zhǔn)性[4]。
(3)相似度計(jì)算。相似度計(jì)算是本體映射過程中最核心的一部分。主要是以本體為基礎(chǔ),計(jì)算各種概念和特征的相似度。得到的概念相似度用0-1之間的一個(gè)數(shù)值表示。
(4)映射發(fā)現(xiàn)與解釋。依據(jù)相似度計(jì)算得到的概念相似度進(jìn)行選擇最優(yōu)的映射關(guān)系,并作出解釋說明。
(5)迭代。在沒有新的映射度出現(xiàn)之前,迭代計(jì)算相似度。
每個(gè)本體映射系統(tǒng)會有多個(gè)匹配器產(chǎn)生的不同匹配算法,根據(jù)本體信息的類別可以將本體映射匹配方法分為以下幾類:
(1)模式級匹配方法:模式信息指的是所有約束特征(實(shí)例數(shù)據(jù)除外),如:注釋、屬性、語義關(guān)系等。模式級匹配方法重點(diǎn)考慮的是本體的模式信息,忽視了實(shí)例數(shù)據(jù)[2]。
(2)實(shí)例級匹配方法:與模式級方法不同,實(shí)例級匹配方法只考慮本體的實(shí)例數(shù)據(jù)。此方法會運(yùn)用多方面技術(shù)提取實(shí)例信息,然后據(jù)此進(jìn)行相似度計(jì)算,如:概率論、神經(jīng)網(wǎng)絡(luò)等技術(shù)。
(3)元素級匹配方法:元素級匹配方法篩選出本體的概念和實(shí)例,使其保持獨(dú)立,無需考慮與其他因素產(chǎn)生的聯(lián)系。具體通過語言、約束、語義三種方法處理語義。
(4)結(jié)構(gòu)級匹配方法:進(jìn)行概念相似度的計(jì)算過程中,多多考慮與概念和實(shí)例有關(guān)的屬性關(guān)系,父概念、子概念等。
概念的描述通過語義表達(dá)式展現(xiàn),計(jì)算相似度時(shí)要堅(jiān)持,部分的相似是整體相似的前提。我們來假設(shè)分別有兩個(gè)整體A和B,則第一獨(dú)立義原即為A1、B1。
A=[A1,A2,...,An],B=[B1,B2,...,Bm]
此間的對應(yīng)關(guān)系為mxn種。而對于語義表達(dá)式可以分為四個(gè)部分:
(1)第一獨(dú)立原描述式Sim1(S1,S2)進(jìn)行計(jì)算。
(2)其他獨(dú)立原描述式Sim2(S1,S2)。其他獨(dú)立原有很多個(gè),首先把所有獨(dú)立原進(jìn)行任意的配對然后計(jì)算相似度[5]。得到最優(yōu)相似度最大的組成一組。剩下的將最大的組成一組,反復(fù)進(jìn)行至完成整個(gè)分組。
(3)關(guān)系義原描述式Sim3(S1,S2),將關(guān)系義原相同的組成一組計(jì)算相似度。
(4)符號義原描述式Sim4(S1,S2),和關(guān)系義原類似,將符號相同的組為一組計(jì)算相似度。
(1)同一個(gè)詞匯具有不同的詞義,相似度也隨之不同,具體選擇哪個(gè)語義有待考量。要把基于實(shí)例和基于名稱的策略相結(jié)合,再對最終的相似度結(jié)果進(jìn)行改良和優(yōu)化。
(2)如果待比較的候補(bǔ)詞匯是合成詞,將它分解成單詞序列這種方式達(dá)到的效果遠(yuǎn)遠(yuǎn)不夠。應(yīng)該完成對核心詞匯和非核心詞匯的提取,進(jìn)行計(jì)算公式修正。
(3)Sense使用過多或過少都會為計(jì)算過程帶來麻煩。應(yīng)該運(yùn)用字面概念和本體結(jié)構(gòu)提高效率,在整個(gè)過程中只考慮深度這一要素來進(jìn)行計(jì)算結(jié)果值。
本體概念如果有相同的實(shí)例時(shí)概念可能相似,此過程忽視了實(shí)例個(gè)數(shù)的差異。對此要進(jìn)行傳統(tǒng)方式的改進(jìn),引進(jìn)兩個(gè)關(guān)鍵因素,即豐富度和差異度來進(jìn)行語義相似度計(jì)算。
本體映射相似度計(jì)算分為概念名稱、概念屬性、概念實(shí)例和概念結(jié)構(gòu)四個(gè)部分。在實(shí)際應(yīng)用中,本體概念的數(shù)量、屬性、實(shí)例等的計(jì)算量非常大,編程時(shí)很費(fèi)空間。本體中概念間的相似度可以忽略不計(jì),盡量減少概念對的計(jì)算數(shù)量。針對此問題,我們一定要確定異構(gòu)本體中的兩個(gè)概念是否相似,語義越相似,越有可能建立映射關(guān)系。相應(yīng)的本體映射過程總體結(jié)構(gòu)大致為:對本體A和本體B進(jìn)行標(biāo)準(zhǔn)化及特征提取;進(jìn)行用戶交換過程;基于名稱的概念相似度計(jì)算;提取候選對;基于屬性的概念相似度、實(shí)例的概念相似度和結(jié)構(gòu)的概念相似度進(jìn)行計(jì)算;進(jìn)行相似度綜合;映射發(fā)現(xiàn)及輸出[6]。
(1)標(biāo)準(zhǔn)化及特征提?。罕倔w的應(yīng)用隨著語義網(wǎng)的不斷發(fā)展越來越普遍,如:信息的檢索和集成、分類系統(tǒng)等。由于本體的表達(dá)方式多樣,不同的專家會用不同的描述語言構(gòu)建本體,其中參與映射的兩個(gè)本體被轉(zhuǎn)換成同一種描述語言的過程就是標(biāo)準(zhǔn)化。特征提取用來提取本體的特征詞匯,如:本體概念和語義關(guān)系等。
(2)用戶交互過程:此過程可選,無需用戶參與,但結(jié)果質(zhì)量不高。用戶交互過程根據(jù)計(jì)算語義相似度選擇候選映射對。
(3)基于名稱的概念相似度計(jì)算:概念名稱的相似度有時(shí)決定了兩個(gè)概念的相似度。從語法和語義上來講,對于沒有被規(guī)定的概念計(jì)算機(jī)名稱相似度,我們采用基于編輯距離的算法進(jìn)行其語法相似度的計(jì)算。此處的編輯操作指:插入、改變和刪除一個(gè)字符。據(jù)此分析,兩個(gè)概念名稱之間的編輯距離是1時(shí)只需要插入一個(gè)下劃線,那么兩者之間的相似度即為九分之八。由此可見,即使有些語法相似度低也能表達(dá)一種語義,兩個(gè)概念名稱語法相似度高也不能代表其概念相似。所以只看語法相似度便以此來判斷概念名稱的相似性不夠嚴(yán)謹(jǐn),整個(gè)過程中忽略了語義信息這一重要要素。
(4)映射發(fā)現(xiàn):若想得到多種映射基數(shù)的映射關(guān)系,只需要選出相似度值高于閾值的映射對。除了最優(yōu)映射,其他映射關(guān)系都被認(rèn)為不正確,選擇出最優(yōu)映射就要?jiǎng)h除其他相關(guān)映射關(guān)系。
隨著時(shí)代發(fā)展和本體映射在各種領(lǐng)域的廣泛運(yùn)用,越來越可以體現(xiàn)概念相似度計(jì)算在研究進(jìn)程中的重要性。雖然我們已經(jīng)取得了一些成績,但是有大部分問題還仍待解決,需要專家學(xué)者們進(jìn)行進(jìn)一步的研究和探討,總結(jié)經(jīng)驗(yàn)教訓(xùn),及時(shí)進(jìn)行改善,考慮更復(fù)雜的映射情況等,爭取早日達(dá)到更高水準(zhǔn)。
[1]張弛,周艷玲,張貫虹. 基于加權(quán)語義網(wǎng)的文本相似度計(jì)算方法研究[J]. 赤峰學(xué)院學(xué)報(bào)(自然版),2019,35(5):19-23.
[2]張弛,張貫虹,周艷玲. 基于加權(quán)語義網(wǎng)的改進(jìn)文本相似度計(jì)算方法[J]. 邵陽學(xué)院學(xué)報(bào):自然科學(xué)版,2019,16(3):18-26.
[3]Waheed,Yousuf,Ramay. 自動(dòng)本體集成與語義網(wǎng)的語義注釋[D]. 北京科技大學(xué),2019.
[4]林龍成. 語義網(wǎng)中OWL本體概述及其構(gòu)建方法研究[J]. 電腦知識與技術(shù),2020,16(12):209-210.
[5]張芃. 基于關(guān)系數(shù)據(jù)庫的本體自動(dòng)化構(gòu)建技術(shù)研究[D]. 中國科學(xué)技術(shù)大學(xué),2019.
[6]王豐,王亞沙,趙俊峰,等. 一種基于迭代的關(guān)系模型到本體模型的模式匹配方法[J]. 軟件學(xué)報(bào),2019,30(5):312-323.
[7]蘭美輝,范全潤,高煒. 本體稀疏矩陣學(xué)習(xí)以及在相似度計(jì)算中的應(yīng)用[J]. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,301(1):124-129.