朱澤宇, 鐘 智, 陸建波*
(1.揚州大學(xué) 廣陵學(xué)院,揚州 225000)(2.廣西師范學(xué)院 計算機與信息工程學(xué)院, 南寧 530023)
語義Web作為人工智能的一個研究熱點已經(jīng)得到廣泛關(guān)注.本體對Web信息提供了完全形式化的語義描述,可以實現(xiàn)知識共享和重用,在一定程度上提高了計算機對信息進行訪問和搜索的能力.由于不同的用戶可以構(gòu)造不同的本體,導(dǎo)致了同一個領(lǐng)域中會產(chǎn)生許多不同的本體.由于異構(gòu)本體之間很難實現(xiàn)互操作,嚴重限制了語義Web的發(fā)展,而本體的集成、映射、合并可以有效解決這類問題[1-2].本體合并是最為常見的分布式語義融合方式之一,以期望形成一個更大的語義共享空間[3].在本體合并形成的語義空間里,不同的網(wǎng)頁信息可以用多個本體描述;在本體合并中通過聚集函數(shù)產(chǎn)生一個新的上層本體,以協(xié)調(diào)不同本體之間的差異.
本體是概念化的形式化規(guī)格說明,反應(yīng)了人類對客觀世界的認知,具有明顯的社會屬性[4].因此,從社會選擇理論的視角來看,本體合并可以轉(zhuǎn)化為研究個體偏好和集體選擇之間的關(guān)系,形成能達成共識的最優(yōu)的群體認知.投票理論和判定聚集等都是社會選擇中比較經(jīng)典的應(yīng)用,通過社會選擇函數(shù)生成一個代表整體偏好的最終決策,也為本體聚集提供了理論基礎(chǔ)[5].
本體映射通過制定一系列規(guī)則來建立本體之間的關(guān)聯(lián),它不會破壞源本體的結(jié)構(gòu).在本體映射的研究中,有學(xué)者分析了整個映射過程的方法,例如文獻[6]中提出了一種基于手動編碼規(guī)則的識別本體之間映射的方法,并證明了該方法的優(yōu)越性;文獻[7]中介紹了本體映射的基本框架,并且設(shè)計了一種通用的本體映射過程用以研究和比較不同的映射方法;文獻[8]中重點討論了如何利用實體類的相似度來進行本體映射,在語義Web的背景下,利用機器學(xué)習(xí),通過計算概念實體之間的相似度,建立本體間的映射關(guān)系.
本體合并是通過輸入兩個或多個源本體生成一個新的本體的過程,新本體可以提供反饋從而指導(dǎo)分布式本體的自我修正,它相對源本體來說結(jié)構(gòu)發(fā)生了改變.文獻[9]中提出了一種基于概念代數(shù)的本體合并方法,該方法可以用可視化的概念網(wǎng)形式表示本體并通過運算實現(xiàn)概念之間的合并,建立了概念代數(shù)與OWL(web ontology language)的對應(yīng)關(guān)系,為本體合并提供了一個新視角.
本體映射和合并都是實現(xiàn)異構(gòu)本體互操作的有效方法,其關(guān)鍵技術(shù)都依賴于本體相似度的計算.文獻[10]中提出了基于Jaccard相似度的計算關(guān)鍵字之間的相似性度量方法.實驗結(jié)果表明,該方法在測量單詞中每個字母相似度時具有很好的性能.文獻[11]中提出了一種基于Jaccard相似度和位置行為的協(xié)同過濾推薦算法,改善了傳統(tǒng)的推薦算法.文獻[12]中將社會選擇中的投票理論運用在本體合并領(lǐng)域中,將本體提供者看作是投票者,通過社會選擇函數(shù)選舉出群體本體作為最終決策.
社會選擇理論主要研究如何將個人偏好聚集為一個群體偏好,其中包含的大量的社會選擇函數(shù)用來聚集個體偏好.在語義Web、多智能體系統(tǒng)、本體合并等領(lǐng)域中將社會選擇理論和計算機科學(xué)相結(jié)合,既拓展了社會選擇的理論研究范圍,又為解決人工智能等領(lǐng)域的問題提供了新思路.文中采用社會選擇理論,實現(xiàn)了本體聚集.
社會選擇主要研究如何將個人偏好聚集為一個群體偏好.給定選項集合A,群體中n個個體可以根據(jù)個人意愿對A中的元素排序,并匯報自己的個人偏好Ri,最后通過一個社會選擇函數(shù)(R1,R2,…,Rn)=Rc選取A中的元素作為最終的群體決策.將本體合并視為社會選擇中的問題,用一個有限集合N={1,2,…,N}來表示Agent集合,集合A表示候選者Alternative集合,任意Agenti∈N都可以提供一個本體Oi?A,那么O={O1,O2,…,On}?ON構(gòu)成了一個完整的本體組合.
定義1本體聚集:收集所有的本體并通過本體聚集函數(shù)F:ON→2A從本體集合中選出唯一的本體作為最終決策.
基于社會選擇的本體聚集模型如圖1,本體聚集器讀取分布式本體的概念及關(guān)系要素,通過聚集規(guī)則給出本體要素之間的對應(yīng)關(guān)系,最終形成新的頂層本體,作為更高層次的語義共享空間.
圖1 基于社會選擇的本體聚集模型Fig.1 Model of ontology aggregation basedon social choice
社會選擇理論中常見的投票聚集規(guī)則及其性質(zhì)包括一致性、獨立性等,是在設(shè)計聚集函數(shù)時需要考慮的因素.通過證明,存在一種聚集函數(shù)同時滿足萬有域、匿名性、獨立性和單調(diào)性的性質(zhì).
定義4聯(lián)盟聚合規(guī)則:基于聯(lián)盟的聚合函數(shù)F(O)=O1∪O2∪…∪On是一種簡單的聚合方式,任意一個ontology都可能會成為群體決策,只要其中一個Agent接受它即可.
定義5基于距離規(guī)則:用d(O,Oi)表示兩個本體O和Oi之間的距離,一般采用海明距離將一個本體變換成本體所需要替換的元素個數(shù)進行計算.基于距離的聚集算法,定義本體聚集函數(shù)為F(O)=argminO∈ON∑i∈Nd(O,Oi).
性質(zhì)4匿名性:也稱平等原則F(O1,…,On)=F(On(1),…,On(n)),匿名性是指聚集函數(shù)對agent都是同等對待的,π:N→N表示任意置換.
用算法1計算兩個本體之間的相似度:① 本體規(guī)范化,將本體用同一種語言描述,若本體的表達形式不一致,則不利于相似度計算;② 相似度計算,從本體中分析出概念、結(jié)構(gòu)(關(guān)系)等特征,并計算相似度;③ 本體相似度修正,得出多個相似度值之后,根據(jù)這些相似度的重要程度進行加權(quán)計算,得到最終的本體相似度.
算法1:本體相似度算法輸入:O1,O2輸出:sim(O1,O2)步驟:(1) for i:1→n ∥本體樹狀圖有n層(2) if (Oi1∩Oi2=?)(3) end(4) else(5) for j:1→|Oi1∩Oi2|(6) simij(O1,O2);∥分別計算第i層中j個結(jié)點的相似度(7) end for(8) simi(O1,O2)=∑simij(O1,O2)|Oi1,Oi2|;∥計算第i層中本體結(jié)點相似度(9) end if(10) end for(11) sim(O1,O2)=∑i=ni=1n-kn simi(O1,O2);∥最終的本體相似度
算法2: 基于相似度的本體聚集算法輸入:Ontology1,Ontology2,…Ontologyn輸出:Ontology*步驟:(1) for i: 1→n(2) sim(O,Oi)=1n·∑O'∈Osim(O',Oi)(3) end for(4) if sim(O,Oi) 實驗的開發(fā)環(huán)境:① 開發(fā)語言Java;② 本體構(gòu)建工具Protégé,用于對本體進行語言、語法的統(tǒng)一描述;③ 集成開發(fā)環(huán)境Eclipse;④ 語義web應(yīng)用API Jena,用于對本體進行解析和識別.實驗運行在處理器為2.9 GHz Intel Core i5,內(nèi)存為8 GB的PC機上.實驗數(shù)據(jù)來源于OAEI2008[14]提供的Conference本體,本實驗采用其中的4個本體,具體數(shù)據(jù)信息如表1. 表1 實驗數(shù)據(jù)信息 本實驗中用到的本體簡記為O={O1,O2,O3,O4},這些實驗數(shù)據(jù)信息主要來源于3類資源,分別是真實的會議以及它的網(wǎng)頁信息、與會者的經(jīng)驗和用于會議組織的軟件工具. 首先根據(jù)算法1,計算本體之間的相似度,計算結(jié)果見表2.實驗中,令t為所有本體與本體組合相似度的平均值,用于進行模擬實驗.令q為1,再根據(jù)算法2求出最終合并后的本體,合并結(jié)果如圖2,合并后的決策本體的概念和屬性體系更簡潔. 表2 本體之間的相似度 因為sim(O,O3),sim(O,O4) 圖2 本體聚集生成的頂層本體Fig.2 Upper ontology generated by ontology aggregation (1) 在同一領(lǐng)域本體的基礎(chǔ)上,本體合并通過一系列規(guī)則合并,生成一個全新的本體,形成更高層次的共享語義空間.而社會選擇理論研究將個人偏好聚集為群體偏好,其中提供了大量的社會選擇函數(shù).因此,可以將本體合并視為社會選擇中的本體聚集問題. (2) 文中給出了基于社會選擇的本體聚集框架,并形式化定義了一組常見的聚集函數(shù),進而設(shè)計了基于相似度的本體聚集算法.通過證明,可得該算法滿足萬有域、匿名性、獨立性和單調(diào)性.以O(shè)AEI2008提供的會議本體作為實驗數(shù)據(jù),文中通過實驗證明了新算法的有效性. (3) 文中提出的新算法在進行相似度計算時,執(zhí)行速度會隨著源本體數(shù)量的增加而降低,如何減少執(zhí)行時間有待進一步研究;此外,由于本體概念中有很多復(fù)合詞,但這些詞無法從WordNet中找到,因此對本體間相似度計算造成的誤差也需要進一步研究.3 實驗結(jié)果分析
3.1 實驗環(huán)境及數(shù)據(jù)
3.2 實驗結(jié)果分析
4 結(jié)論