周 宇
ZHOU Yu
(河南教育學(xué)院 信息技術(shù)系,鄭州 450046)
基于領(lǐng)域本體的Web服務(wù)發(fā)現(xiàn)研究
Research on Web service discovery based on domain ontology
周 宇
ZHOU Yu
(河南教育學(xué)院 信息技術(shù)系,鄭州 450046)
隨著對(duì)Web服務(wù)復(fù)用、組合研究的不斷深入,Web服務(wù)發(fā)現(xiàn)已成為一個(gè)主要面向服務(wù)計(jì)算領(lǐng)域的研究熱點(diǎn)問(wèn)題,并以查準(zhǔn)率、查全率和查詢效率作為評(píng)價(jià)其效能的主要指標(biāo)。據(jù)此本文提出了一個(gè)領(lǐng)域本體的構(gòu)建方法來(lái)擴(kuò)展用戶查詢端查詢的語(yǔ)義精確性,可以提高服務(wù)構(gòu)件的查準(zhǔn)率和查全率。另外本文還實(shí)現(xiàn)了一個(gè)基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng),可以很好地達(dá)到對(duì)服務(wù)查詢效能方面的提高。
領(lǐng)域本體;服務(wù)發(fā)現(xiàn);查詢;搜索引擎
發(fā)現(xiàn)服務(wù)是面向服務(wù)Web軟件開(kāi)發(fā)中的一個(gè)關(guān)鍵技術(shù),近年來(lái)關(guān)于服務(wù)發(fā)現(xiàn)的研究都是考慮到當(dāng)前公共UDDI上注冊(cè)的Web服務(wù)缺少語(yǔ)義描述,于是都各自增加了對(duì)Web服務(wù)的語(yǔ)義描述,但這些方法在實(shí)際操作上仍然存在諸多困難[1]我們提出的方法與其它方法的不同及優(yōu)勢(shì)在于:
1)擴(kuò)展及求精客戶端查詢請(qǐng)求,提高查準(zhǔn)率和查全率;
2)對(duì)現(xiàn)有搜索引擎擴(kuò)展實(shí)現(xiàn)了一個(gè)原型服務(wù)搜索引擎。解決了其它方法實(shí)際操作比較困難的問(wèn)題。因?yàn)槟壳拔覀兊姆?wù)庫(kù)仍然是傳統(tǒng)意義上的www,而非語(yǔ)義Web,所以考慮如何在目前的www上提高服務(wù)的搜索效率是有意義的。
Web服務(wù)使用標(biāo)準(zhǔn)的、規(guī)范的XML進(jìn)行描述,該描述包括消息格式、傳輸協(xié)議和位置,能夠快速地開(kāi)發(fā)、發(fā)現(xiàn)、發(fā)布和動(dòng)態(tài)地綁定應(yīng)用服務(wù)[2]。Web服務(wù)發(fā)現(xiàn)是Web服務(wù)中的關(guān)鍵問(wèn)題之一,Web服務(wù)發(fā)現(xiàn)則是使服務(wù)使用者找到合適的功能,并使Web服務(wù)的自動(dòng)組合成為可能??梢圆捎眯畔z索中的某些評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)Web服務(wù)發(fā)現(xiàn)技術(shù)的性能,例如查準(zhǔn)率和查全率等[3]。
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。OWL-S[4]就是一種采用本體描述語(yǔ)言O(shè)WL定義的一套專門描述Web服務(wù)的本體。 OWLS作為一個(gè)本體,其頂層結(jié)構(gòu)分為服務(wù)概要、服務(wù)模型、服務(wù)綁定三個(gè)部分。
領(lǐng)域本體的目標(biāo)是捕獲相關(guān)的領(lǐng)域知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的概念,并給出這些概念和概念之間相互關(guān)系的明確定義,減少了由于概念理解的歧異所產(chǎn)生的錯(cuò)誤和失誤,方便了基于功能的服務(wù)發(fā)現(xiàn)和組合,同時(shí)還彌補(bǔ)了UDDI基于關(guān)鍵字的查找技術(shù)的不足[5]。
目前服務(wù)發(fā)現(xiàn)方法都是考慮到當(dāng)前公共UDDI上注冊(cè)的Web服務(wù)缺少語(yǔ)義描述,于是都各自增加了對(duì)Web服務(wù)的語(yǔ)義描述。本文提出的方法主要是通過(guò)建立領(lǐng)域本體來(lái)擴(kuò)展用戶查詢端查詢的語(yǔ)義精確性。我們建立了一個(gè)領(lǐng)域本體,服務(wù)查詢是基于領(lǐng)域本體的。領(lǐng)域本體為服務(wù)查詢提供專門領(lǐng)域知識(shí)。
我們用RDF (Resource Description Framework,資源描述框架)建立了一個(gè)計(jì)算機(jī)領(lǐng)域本體。RDF是一個(gè)表示www上資源信息的語(yǔ)言,用來(lái)處理元數(shù)據(jù)的XML應(yīng)用,能夠清楚地表示信息語(yǔ)義,并且是機(jī)器可理解的,提供推理支持。RDF 使用 Web 標(biāo)識(shí)符來(lái)標(biāo)識(shí)事物,并通過(guò)屬性和屬性值來(lái)描述資源。一個(gè)RDF文件包含多個(gè)資源描述,而一個(gè)資源描述是由多個(gè)語(yǔ)句構(gòu)成,一個(gè)語(yǔ)句是由資源、屬性類型、屬性值構(gòu)成的三元體,表示資源具有的一個(gè)屬性。RDF用于描述Web站點(diǎn)和頁(yè)面,由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù),搜索引擎可以理解元數(shù)據(jù)的精確含義,使得搜索變得更為智能和準(zhǔn)確,
在RDF中,如下的英文陳述:" http://www.example.org/index.htmlhasacreatorwhosevalueisJohnSmith",用RDF圖的描述如圖1所示。
圖1 用RDF圖描述的一個(gè)陳述
在RDF圖中利用節(jié)點(diǎn)和弧作為表達(dá)陳述的元素。一個(gè)陳述用RDF圖可以表示為:
一個(gè)表示主體的節(jié)點(diǎn)(http://www.example.org/index.html) :
一個(gè)表示客體的節(jié)點(diǎn)(John Smith ) ;
一個(gè)由主體節(jié)點(diǎn)指向客體節(jié)點(diǎn)的表示謂詞的弧 (http://www.example.org/terms/creator);
圖1用RDF/XML可以用來(lái)表示如下:
在服務(wù)發(fā)現(xiàn)的研究中,基于關(guān)鍵詞匹配的服務(wù)查詢具有以下缺陷:1)對(duì)所需查詢的目標(biāo)不能準(zhǔn)確描述;2)不能度量候選者和查詢目標(biāo)間的符合程度。這兩點(diǎn)直接影響到搜索的查準(zhǔn)率。而基于領(lǐng)域本體的服務(wù)查詢則可以避免上述缺陷。
基于領(lǐng)域本體的服務(wù)查詢主要步驟如下:1)轉(zhuǎn)換初始化查詢?yōu)镽DF查詢;2)查詢推理和查詢擴(kuò)展?;陬I(lǐng)域本體的服務(wù)查詢系統(tǒng)體系結(jié)構(gòu)如圖2所示。
圖2 基于領(lǐng)域本體的服務(wù)查詢系統(tǒng)結(jié)構(gòu)圖
用戶可以用自然語(yǔ)言設(shè)置服務(wù)構(gòu)件查詢。系統(tǒng)轉(zhuǎn)換這種查詢?yōu)镽DF圖,這個(gè)RDF圖將與表示為RDF圖的www資源進(jìn)行匹配。例如:查詢:"what are the components of Application system?",可以表示為圖3所示的RDF圖:
圖3 服務(wù)構(gòu)件查詢圖
利用以上構(gòu)造好的領(lǐng)域本體我們實(shí)現(xiàn)了一個(gè)的基于本體的服務(wù)搜索工具,能對(duì)用戶的初始查詢進(jìn)行擴(kuò)展,從而構(gòu)造一個(gè)更加完整和準(zhǔn)確的概念和知識(shí),并以修正后的查詢利用檢索引擎來(lái)匹配資源。該搜索引擎系統(tǒng),包括用戶數(shù)據(jù)庫(kù)服務(wù)器、用戶接口及登錄、資源描述、Web信息搜集器、檢索器、索引器和用戶分析器等功能部分。其結(jié)構(gòu)如圖4所示。
搜索引擎主要組成部分介紹:
1)Web信息采集器:信息采集器對(duì)整個(gè)搜索引擎的體系結(jié)構(gòu)有很大影響,是搜索引擎的一個(gè)重要組成部分?;诒倔w的Web信息采集的功能包括爬蟲管理、爬蟲算法、信息監(jiān)控、數(shù)據(jù)更新、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)壓縮和通信模塊。
移動(dòng)爬蟲運(yùn)行在遠(yuǎn)程Web服務(wù)器上,將集中在服務(wù)器端的處理在信息采集過(guò)程中,移動(dòng)爬蟲將在Internet中Web站點(diǎn)之間的移動(dòng),對(duì)Web站點(diǎn)進(jìn)行“本地采集”以及對(duì)采集的數(shù)據(jù)進(jìn)行處理,最后將壓縮的數(shù)據(jù)傳回服務(wù)器端處理;接著移動(dòng)爬蟲繼續(xù)遷移到其它Web站點(diǎn)進(jìn)行信息采集,其遷移路徑采用自適應(yīng)遷移策略控制,采用該策略可以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量和縮短工作時(shí)間;移動(dòng)爬蟲的并行度控制策略可以控制信息采集器中移動(dòng)爬蟲的個(gè)數(shù),這樣就不會(huì)過(guò)分加重遠(yuǎn)程Web站點(diǎn)的負(fù)載,增強(qiáng)系統(tǒng)的穩(wěn)定性。
圖4 基于領(lǐng)域本體的搜索引擎結(jié)構(gòu)示意圖
圖5 基于領(lǐng)域本體的網(wǎng)絡(luò)爬蟲工作流程圖
網(wǎng)絡(luò)爬蟲與本體技術(shù)的融合是搜索引擎的一種新的模式。 圖5描述了基于本體的網(wǎng)絡(luò)爬蟲工作流程圖。
2)索引器:索引器把下載的網(wǎng)頁(yè)進(jìn)行關(guān)鍵字提取,把這個(gè)文檔內(nèi)的全部單詞分別提取出來(lái)放在數(shù)組或者鏈表中,然后依次對(duì)每個(gè)單詞進(jìn)行索引,得到的索引庫(kù)為全文索引數(shù)據(jù)庫(kù)。充分利用分布式本體的計(jì)算優(yōu)勢(shì),將索引器的一部分功能如對(duì)文本解析建立文本索引、建立圖像內(nèi)容的特征索引等處理分布式到遠(yuǎn)程Web站點(diǎn)上處理,最后由移動(dòng)爬蟲將壓縮后的結(jié)果傳送到索引服務(wù)器端進(jìn)行匯總、分類處理,減輕了服務(wù)器端的負(fù)載。檢索器將這兩部分索引文件組織成特定的數(shù)據(jù)結(jié)構(gòu)供檢索器查詢檢索。當(dāng)Web頁(yè)面數(shù)據(jù)發(fā)生更新時(shí)索引數(shù)據(jù)也需要更新,網(wǎng)頁(yè)數(shù)據(jù)的更新可以觸發(fā)索引的更新,因?yàn)榫W(wǎng)頁(yè)數(shù)據(jù)的更新可以根據(jù)駐留在服務(wù)器端的模塊及時(shí)反饋到服務(wù)器端。
3)檢索器:檢索器模塊具有以下四項(xiàng)功能:匹配計(jì)算、相關(guān)反饋、結(jié)果排序和日志分析。
功能就是接受用戶提交的查詢請(qǐng)求,按照查詢條件在索引庫(kù)中搜索滿足條件的文件,并根據(jù)用戶定制的過(guò)濾條件和排序因素組織搜索結(jié)果集,返回給用戶接口。本文搜索引擎的檢索器就是利用索引數(shù)據(jù)庫(kù)提供的特征索引庫(kù)、圖片對(duì)應(yīng)網(wǎng)頁(yè)的全文索引庫(kù)、關(guān)鍵字索引庫(kù)以及超鏈接分析庫(kù)和查詢歷史庫(kù)等多個(gè)數(shù)據(jù)源,實(shí)現(xiàn)對(duì)用戶輸入關(guān)鍵字的準(zhǔn)確、快速的匹配。
4)用戶接口
用戶接口提供一系列查詢方式、選項(xiàng)以滿足用戶不同的查詢要求,將用戶的查詢請(qǐng)求提交給檢索器去匹配。檢索器將排序后的結(jié)果集返回給用戶。
用戶接口具備的主要功能為:待查文本的輸入、圖像特征提取、關(guān)鍵字和其他輸入的選擇、生成查詢描述、結(jié)果顯示、相關(guān)反饋方式查詢。在獲取了文本關(guān)鍵字或圖像的特征向量以及其他的一些輔助信息后,根據(jù)一定的規(guī)則和格式生成查詢描述,提交給檢索匹配模塊。從檢索器接收排序后的查詢結(jié)果后顯示在用戶界面中。
本文提出了一個(gè)領(lǐng)域本體的構(gòu)建方法,基于這個(gè)領(lǐng)域本體,表示了服務(wù)構(gòu)件的檢索過(guò)程,并且實(shí)現(xiàn)了一個(gè)基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng),優(yōu)點(diǎn)是求精和擴(kuò)展用戶的初始查詢,支持用戶的模糊查詢,查全率和查準(zhǔn)率都得到了提高。特別是隨著Internet變成可重用軟件資源庫(kù),搜索引擎支持構(gòu)件查詢是必須的。
[1] F.Baader,D.McGuinness,D.Nardi,and P.F.Patel-Schneider.Description Logic Handbook:Theory,Implemtation,and Applications.Cambridge University Press,2002.
[2] Gilmer Orth.The Web Services Framework:A Survey of WSDL,SOAP and UDDL Master's thesis,Vienna University of Technology,May,2002.
[3] Ankolekar A.,Burstein M.,Hobbs.J.R,et al.DAML-S:A Semantic Markup Language for Web Services.In:Proc.of International Semantic Web Conference (ISWC),pp.348-363,Sardinia,Italy,2002.
[4] OWL-S Coalition,OWL-S,available at http://www.daml.org/secviceslowl-s/,2005.
[5] DAML-S Coalition.OWL-S:Semantic Markup for Web Services.http://www.daml.org/services/owl-s/1.0/.in:ProceedingsoftheInternationalSemanticWebWorkingSymposium(SWWS)July30-Augustl,2001.
TP391
A
1009-0134(2010)12(上)-0217-03
10.3969/j.issn.1009-0134.2010.12(上).70
2010-08-21
周宇(1964 -),男,湖北人,講師,研究方向?yàn)橛?jì)算機(jī)技術(shù)及應(yīng)用。