張野
(渤海大學(xué) 商學(xué)院,遼寧 錦州 121013)
本體在軟件工程、人工智能、信息檢索、Web Service[1]等領(lǐng)域中扮演著越來(lái)越重要的角色。在概念檢索或者語(yǔ)義查詢(xún)系統(tǒng)的實(shí)現(xiàn)過(guò)程中,領(lǐng)域本體中概念之間的相似度量化計(jì)算是檢索詞擴(kuò)展和檢索結(jié)果排序的核心問(wèn)題?,F(xiàn)關(guān)于本體內(nèi)語(yǔ)義相似度算法研究主要有基于DAML-S描述的匹配算法[2],基于概念語(yǔ)義距離的算法[3],基于屬性的相似度算法[4]以及基于信息理論的算法[5]。這些方法具有明確清晰的邏輯含義,可以直接利用特定于描述語(yǔ)言的通用推理服務(wù)來(lái)進(jìn)行匹配,實(shí)現(xiàn)較簡(jiǎn)單。但它們只是將本體內(nèi)的謂詞直接簡(jiǎn)單的作為一種二元關(guān)系來(lái)處理,因此會(huì)產(chǎn)生明顯的語(yǔ)義矛盾,忽略O(shè)WL本體的眾多其他語(yǔ)義元素。
本文通過(guò)提取OWL本體概念的層次和屬性特征,利用本體概念的并、交、差等運(yùn)算,可以得到連續(xù)變化、量化相似度的度量結(jié)果,通過(guò)對(duì)檢索性能指標(biāo)進(jìn)行動(dòng)態(tài)設(shè)定,可以有效地定制用戶(hù)的檢索。本文的實(shí)驗(yàn)結(jié)果對(duì)基于本體的分類(lèi)和聚類(lèi)方法也有參考意義。
本體作為一種知識(shí)表示模型,包含某個(gè)領(lǐng)域內(nèi)的專(zhuān)家或?qū)W者所共同認(rèn)可的詞匯,并將這些詞匯以一種有向無(wú)環(huán)圖的形式組織起來(lái),描述概念、屬性和關(guān)系[6]。本體可以有效地組織領(lǐng)域中的知識(shí),更好地共享和重用知識(shí)。W3C將本體描述語(yǔ)言O(shè)WL(Web Ontology Language)推薦為語(yǔ)義Web中本體描述語(yǔ)言的標(biāo)準(zhǔn)。OWL通過(guò)添加更多用于描述RDF(Resource Description Framework)聲明的語(yǔ)義結(jié)構(gòu)擴(kuò)展RDF。OWL允許聲明額外的約束,如基數(shù)、取值的限制,或可傳遞性等有關(guān)屬性的特征。
在現(xiàn)實(shí)世界中,人們一般通過(guò)比較事物之間的屬性來(lái)區(qū)別和聯(lián)系不同事物。如果兩個(gè)事物有很多相同的屬性,則說(shuō)明這兩者很相似,反之則相反。用A∩B表示概念A(yù)和概念B所具有的相同屬性,A∪B表示概念A(yù)和概念B的所有屬性,語(yǔ)義相似度的計(jì)算有如下模型:
相似性模型在人工智能領(lǐng)域影響很大[4]。該模型中,假設(shè)存在兩個(gè)概念A(yù)和B,那么相似度計(jì)算公式為:
在該模型中,根據(jù)比較兩個(gè)概念間相同的屬性以及不同的屬性來(lái)確定二者的相似度,這個(gè)算法能夠描述本體內(nèi)概念間的相似性,同時(shí)取決于共享特征和差異特征的量的特征。
本體內(nèi)概念間的相似度不僅取決于A、B之間的相同特征,還需要考慮它們之間的差異特征。這些特征包括概念的層次特征和其屬性特征。由此得到如下定義:
式中,A-B表示概念A(yù)擁有而概念B沒(méi)有的屬性集合;B-A表示概念B擁有而概念A(yù)沒(méi)有的屬性集合。α,β是調(diào)節(jié)參數(shù)。相似度算法步驟如下:1)相似度矩陣初始化。構(gòu)建一個(gè)本體內(nèi)實(shí)體間的相似度矩陣Aij,將所有顯式定義的不相交類(lèi)和等價(jià)類(lèi)的實(shí)體之間的概念元素,對(duì)應(yīng)矩陣中的相關(guān)元素賦值為 0和1;2)設(shè)定概念差異的參數(shù);3)計(jì)算特征向量的交、并集合的信息量。對(duì)于特征向量P=iFeatList和Q=jFeatList,定義特征向量 M=|P-Q|,則定義信息量函數(shù)為 countDiff(P,Q)=Σ(1-M);4)根據(jù)式(3)計(jì)算概念相似度;5)過(guò)濾掉相似度計(jì)算結(jié)果小于閾值的檢索結(jié)果,并按相似度大小排序。
本文采用的領(lǐng)域本體以W3C提供的酒本體為例,它較好的體現(xiàn)了OWL的描述能力,采用HP實(shí)驗(yàn)室提供的Jena API對(duì)酒本體進(jìn)行解析,并構(gòu)建領(lǐng)域本體檢索原型系統(tǒng),對(duì)酒本體進(jìn)行檢索。相似度的計(jì)算結(jié)果如圖1所示。
圖1 WineTaste與其他概念的相似度
圖1為使用本文的語(yǔ)義相似度算法對(duì)WineTaste類(lèi)與領(lǐng)域本體內(nèi)其他類(lèi)的相似度統(tǒng)計(jì)圖,圖中分別顯示了在α,β分別為0和1的條件下,WineTaste相似度取值情況。從圖1中可以看出,當(dāng)兩個(gè)概念完全匹配時(shí),相似度的計(jì)算結(jié)果等于1,說(shuō)明兩個(gè)概念之間不存在差異,為同一概念或等價(jià)概念,差異參數(shù)不會(huì)對(duì)相似度計(jì)算結(jié)果產(chǎn)生影響。而當(dāng)概念之間存在差異時(shí),隨著差異性比重的增加,對(duì)結(jié)果的要求越來(lái)越嚴(yán)格,概念的相似度越來(lái)越小,越來(lái)越多的相似度趨近于零。
相似度的計(jì)算結(jié)果,一方面依賴(lài)領(lǐng)域?qū)<叶x的概念層次關(guān)系,如果概念層次發(fā)生調(diào)整,則概念相似度會(huì)發(fā)生很大變化;另一方面計(jì)算相似度的目的在于得到其他概念和某個(gè)概念之間的匹配順序,以取得最佳匹配結(jié)果。領(lǐng)域?qū)<覍?duì)于一般概念的相似性,給出的概念匹配順序?yàn)椋焊拍畋旧?,父子?jié)點(diǎn),兄弟節(jié)點(diǎn),其他節(jié)點(diǎn)。由圖1可以看出,雖然參數(shù)不同,但是根據(jù)相似度得出的匹配順序是基本一致的。
檢索性能(Retrieval Effectiveness)指檢索模型檢索結(jié)果的有效程度,反映檢索模型的檢索能力。其中,查準(zhǔn)率(Precision)和查全率(Recall)是最重要和通用的評(píng)價(jià)指標(biāo),本文從這兩方面進(jìn)行考查。查準(zhǔn)率和查全率的公式如下:查準(zhǔn)率P=(檢索出的相關(guān)文檔數(shù)/檢索出文檔總數(shù))×100% ;查全率C=(檢索出的相關(guān)文檔數(shù)/文檔集中的文檔總數(shù))×100%。
在檢索系統(tǒng)中,查準(zhǔn)率比查全率更容易統(tǒng)計(jì),因?yàn)椴槿手挥性跀?shù)據(jù)量規(guī)模較小的情況下情況下才能統(tǒng)計(jì)出來(lái),而對(duì)于大規(guī)模海量數(shù)據(jù)往往難以統(tǒng)計(jì)。
語(yǔ)義檢索的結(jié)果按照相似度進(jìn)行排序,實(shí)驗(yàn)系統(tǒng)設(shè)定推薦結(jié)果閾值,設(shè)定語(yǔ)義相似度為50%,不顯示語(yǔ)義相似度低于50%的概念,以提高用戶(hù)的檢索效率。查準(zhǔn)率與查全率隨檢索參數(shù)變化而變化的情況如表1所示。
表1 檢索結(jié)果(%)
從表1可知,通過(guò)對(duì)參數(shù)α和β取不同的值,用戶(hù)作為服務(wù)請(qǐng)求方可以在同一個(gè)服務(wù)條件下返回不同的值,也就是說(shuō),可以通過(guò)調(diào)整差異參數(shù)的取值來(lái)得到不同的結(jié)果集。如果用戶(hù)傾向于得到更為準(zhǔn)確的查詢(xún)結(jié)果,可以增大參數(shù)α,降低參數(shù)β,但這樣有可能不會(huì)獲得任何查詢(xún)結(jié)果。如果用戶(hù)傾向于獲得更多的結(jié)果,則可以降低參數(shù)α,增大參數(shù)β,既可獲得更多的查詢(xún)結(jié)果,為下一步查詢(xún)提供參考。
概念之間的相似性量化表示是使機(jī)器理解概念,從而進(jìn)行智能推理和判斷的重要基礎(chǔ)。本文基于OWL屬性特征計(jì)算概念相似度,通過(guò)調(diào)節(jié)參數(shù)的取值,得到不同的柔性表達(dá)相似度,從而實(shí)現(xiàn)根據(jù)服務(wù)請(qǐng)求者的需求定制相似度結(jié)果集。限于試驗(yàn)的數(shù)據(jù)量,為得到更精確的統(tǒng)計(jì)數(shù)據(jù),不進(jìn)行大規(guī)模試驗(yàn)。下一步的工作要進(jìn)一步考慮概念屬性的權(quán)重問(wèn)題,根據(jù)權(quán)重動(dòng)態(tài)設(shè)定增強(qiáng)語(yǔ)義、差異參數(shù)和相似度閾值,以獲得更為柔性的相似度計(jì)算結(jié)果。
[1]Klein M,Bernstein A.Searching for services on the semantic Web using process ontologies[C].In Proceedings of the First Semantic Web Working Symposium(SWWS-1),2001.
[2]Paolucci M,Kawawura T.Semantic matching of Web services capabilities[C].In Proceedings of the International Semantic Web Conference,2002.
[3]LI Kuang, WU Jian,Deng Shuiguang,et al.Exploring semantic technologies in service matchmaking[C].In Proceedings of the Third European Conference on Web Services,2005.
[4]Tverskey A.Features of similarity[J].Psychological Review.1977,84(4):327.
[5]Lin D.An information-theoretic definition of similarity[C].In Proceedings of the International Conference on Machine Learning,1998.
[6]Gruber TR.Toward principals for the design of Ontologies used for knowledge sharing[J].International Journal of Human computer Studies,1995,43(5/6):907.