崔金棟,張 宇,李欣欣
(1.東北電力大學(xué)經(jīng)濟(jì)管理學(xué)院,吉林 吉林 132012;2.大連熱電工程設(shè)計(jì)有限公司,遼寧 大連 116021)
網(wǎng)格信息檢索系統(tǒng)本質(zhì)上是一個(gè)大型的信息系統(tǒng),符合大型信息系統(tǒng)的一般規(guī)律[1]。大型信息系統(tǒng)通常十分復(fù)雜,很難直接對它進(jìn)行分析設(shè)計(jì),人們經(jīng)常借助模型來設(shè)計(jì)分析系統(tǒng)。模型是現(xiàn)實(shí)世界中的某些事物的一種抽象表示。抽象的含義是抽取事物的本質(zhì)特性,忽略事物的其他次要因素。因此,模型既反映事物的原型,又不等于該原型。模型是理解、分析、開發(fā)或改造事物原型的一種常用手段。
基于關(guān)鍵詞的匹配技術(shù)由于天生的缺陷,帶來包括返回信息過多或者誤檢等多種問題,這種返回信息過多或者誤檢在網(wǎng)格信息檢索中帶來的危害是巨大的。網(wǎng)格資源的繁多和異構(gòu)是其它檢索系統(tǒng)面臨的環(huán)境所不能比擬的。為了提高檢索的質(zhì)量和效率,就得加強(qiáng)語義性,這是情報(bào)界人士的共識。人們通過本體技術(shù)和語義網(wǎng)格平臺的結(jié)合,將給智能化信息檢索提供新的實(shí)現(xiàn)方法[2]。本文基于這一點(diǎn),利用本體技術(shù)構(gòu)建了語義網(wǎng)格環(huán)境下的信息檢索系統(tǒng)的模型,在一定程度上實(shí)現(xiàn)了用戶檢索要求與檢索內(nèi)容的高度匹配,進(jìn)而提高了查全率和查準(zhǔn)率。在模型構(gòu)建過程中,除了本體技術(shù)之外融入了網(wǎng)格服務(wù)技術(shù)[3]和網(wǎng)格分布檢索技術(shù)。
基于上述理論和技術(shù),本文構(gòu)建的網(wǎng)格信息檢索系統(tǒng)在設(shè)計(jì)上由網(wǎng)格用戶檢索模塊、網(wǎng)格信息本體構(gòu)建和存儲模塊、網(wǎng)格本體匹配模塊三個(gè)模塊構(gòu)建而成,如圖1所示。
圖1 基于本體的網(wǎng)格信息檢索
在網(wǎng)格用戶設(shè)計(jì)模塊的設(shè)計(jì)中,由于網(wǎng)格分布式檢索技術(shù)的融入,使其功能更加復(fù)雜。主要由以下四個(gè)部分組成。
網(wǎng)格用戶檢索界面是檢索系統(tǒng)與用戶人機(jī)交互的接口,是整個(gè)網(wǎng)格檢索系統(tǒng)給網(wǎng)格信息檢索用戶的第一印象,其設(shè)計(jì)是否美觀、是否實(shí)用都決定了系統(tǒng)友好性的好壞。
用戶把檢索任務(wù)提交后,如果任務(wù)量過大或者用戶要求時(shí)間短暫,網(wǎng)格系統(tǒng)自動把檢索任務(wù)分解,同時(shí)指派到其它的計(jì)算機(jī)上去執(zhí)行。其實(shí)現(xiàn)的關(guān)鍵就是如何在短時(shí)間內(nèi)選擇出其他協(xié)同的計(jì)算機(jī)來,這些用來協(xié)同的一起去完成那個(gè)檢索任務(wù)計(jì)算機(jī)稱為資源機(jī)。目前其分解模式包括了靜態(tài)和動態(tài)兩種。靜態(tài)模式是最簡單的,分配任務(wù)前決定好那些計(jì)算機(jī)協(xié)同一起去完成檢索任務(wù)。這種方式簡單,卻不怎么實(shí)用,原因就在于網(wǎng)格資源的動態(tài)性。比如確定了某個(gè)資源機(jī)參與檢索,但是其有可能在中途突然關(guān)機(jī)怎么辦。所以為了滿足網(wǎng)格資源動態(tài)性的需求一般都采取動態(tài)分配的方法。具體做法是建立資源調(diào)度模型,傳統(tǒng)的資源調(diào)度模型中利用把每個(gè)資源機(jī)看作一個(gè)節(jié)點(diǎn),讓用戶機(jī)周期性地從各個(gè)節(jié)點(diǎn)中收集參數(shù)[4],然后將這些參數(shù)作為計(jì)算公式的因子。結(jié)合每個(gè)節(jié)點(diǎn)當(dāng)前的權(quán)值,可以計(jì)算出新權(quán)值的大小。動態(tài)權(quán)值目的是要正確反映節(jié)點(diǎn)負(fù)載的狀況,以預(yù)測節(jié)點(diǎn)將來可能的負(fù)載變化。通過用戶機(jī)上負(fù)載公式的計(jì)算,可以在很短的周期可以更確切地反映各個(gè)節(jié)點(diǎn)的負(fù)載,用以選擇負(fù)載較少、比較空閑的資源機(jī),合理的調(diào)度資源。
要理解網(wǎng)格檢索用戶的真正需求,就必須了解其需求描述的本質(zhì)?,F(xiàn)在普遍的做法是利用語義解析技術(shù)來實(shí)現(xiàn)這一點(diǎn)。現(xiàn)有的語義解析模塊中模式識別技術(shù)使用詞匯預(yù)分析模型來描述概念,不依賴于任何語言。在本體匹配前抽取出相關(guān)的信息用來和網(wǎng)格本體用來匹配。
將網(wǎng)格信息系統(tǒng)檢索的結(jié)果經(jīng)過定制處理后,返回給用戶。經(jīng)過定制處理后的結(jié)果是用戶面前呈現(xiàn)的結(jié)果經(jīng)過了進(jìn)一步的過濾,同時(shí)還可以采取用戶參與的形式來進(jìn)一步提高用戶的滿意度。
要使用本體技術(shù),首先得建立網(wǎng)格本體,用網(wǎng)格本體去描述網(wǎng)格信息。目前在網(wǎng)格檢索領(lǐng)域普遍采用的領(lǐng)域?qū)<覙?gòu)建本體的做法。由于本體的構(gòu)建多是面向特定領(lǐng)域,如果沒有好的方法路線指導(dǎo),就難以在不同領(lǐng)域本體的構(gòu)建中保持一致,也不利于本體的規(guī)?;鸵?guī)范建設(shè)。這實(shí)際上是網(wǎng)格信息檢索中最重要的一部分?,F(xiàn)有的網(wǎng)格本體的構(gòu)建,是依據(jù)領(lǐng)域?qū)<覙?gòu)建網(wǎng)格本體庫。但是由于網(wǎng)格本體描述的網(wǎng)格本體具有分布性、異構(gòu)性、動態(tài)性、自治性等特點(diǎn),這種構(gòu)建方法就等于把領(lǐng)域?qū)<业囊庠笍?qiáng)加到網(wǎng)格資源上,而且這種方式的低效和主觀性無視了網(wǎng)格本身的特點(diǎn)。
另外一個(gè)問題就是網(wǎng)格本體的存儲?,F(xiàn)在普遍采用的做法是可以把收集來的信息以O(shè)WL語言的形式存放到網(wǎng)格本體庫中。OWL作為W3C推薦的目前最新的語義互聯(lián)網(wǎng)中的本體語言描述標(biāo)準(zhǔn),OWL的語法雖然以RDF/RDF(s)為基礎(chǔ),但其豐富的建模原語進(jìn)一步擴(kuò)充了其描述網(wǎng)格信息的表達(dá)能力[5]。OWL用來存儲網(wǎng)格本體,通過自身形式化的描述本體語義,不僅可以進(jìn)行簡單的檢索,而且可以根據(jù)語義進(jìn)行邏輯推理。網(wǎng)格領(lǐng)域本體現(xiàn)多用OWL存儲,但是網(wǎng)格服務(wù)本體卻常使用基于OWL語言基礎(chǔ)上添加網(wǎng)格服務(wù)屬性而來的OWL-S語言進(jìn)行描述。OWL-S語言具有良好的擴(kuò)展性、形式化的語義表達(dá)能力和語義互操作性等優(yōu)勢,可以解決網(wǎng)格服務(wù)本體匹配的問題。OWL語言和OWL-S語言的出現(xiàn),使網(wǎng)格信息被賦予明確的含義。實(shí)際上,在網(wǎng)格信息的組織中需要的就是使用本體描述語言對語義網(wǎng)格中的資源和服務(wù)映射而成的本體進(jìn)行描述,這些網(wǎng)格本體進(jìn)而形成網(wǎng)格信息的本體庫。
同種類型的知識匹配是最為容易和最不易產(chǎn)生歧義的。因此,如何將用戶檢索條件和資源描述文件都表示成可以被機(jī)器所理解的形式化知識表示下的統(tǒng)一架構(gòu)語義信息,本體技術(shù)的出現(xiàn)把用戶檢索條件與檢索系統(tǒng)資源描述文件都已本體的形式描述出來,利用本體間匹配可以解決信息檢索中語義匹配程度問題。檢索系統(tǒng)通過嚴(yán)格的邏輯推理和演算來評判兩者之間的匹配程度,將查詢條件轉(zhuǎn)化成的本體描述和資源描述文本轉(zhuǎn)化的本體之間的相似度計(jì)算出來以后,按照相似度值將候選資源排序,選擇排序靠前的結(jié)果提交給用戶作為選擇。
匹配的具體操作上,多采用網(wǎng)格本體匹配的算法來設(shè)計(jì)網(wǎng)格本體的檢索系統(tǒng),這些現(xiàn)有的網(wǎng)格檢索系統(tǒng)多使用PQL(the Process Query Language)作為網(wǎng)格資源查詢請求的具體實(shí)現(xiàn)語言,利用其發(fā)現(xiàn)網(wǎng)格檢索需求和網(wǎng)格本體描述之間的聯(lián)系。PQL查詢語言的研究已在國外較為成熟[6],由于PQL是類SQL的OWL查詢語言,因此,其自身豐富的操作符可以讓我們?nèi)菀椎貙?shí)現(xiàn)以往網(wǎng)格信息檢索系統(tǒng)中所需網(wǎng)格本體的查詢。利用PQL查詢語句的功能,基于本體的網(wǎng)格檢索系統(tǒng)能夠快速而有效的在網(wǎng)格知識庫映射而成的網(wǎng)格本體庫中查找出用戶所需要的本體。
三大模塊構(gòu)成了現(xiàn)有網(wǎng)格信息檢索的主要功能模型。本體技術(shù)的應(yīng)用,使構(gòu)建了具有語義網(wǎng)格環(huán)境下信息檢索模型成為可能,上述基于語義網(wǎng)格的信息檢索系統(tǒng)的總體設(shè)計(jì)框架解決了網(wǎng)格平臺上使用基于本體技術(shù)進(jìn)行信息檢索時(shí)需要解決的關(guān)鍵問題:如何構(gòu)建與檢索系統(tǒng)相關(guān)的本體,以及如何在檢索系統(tǒng)中擴(kuò)展用戶的檢索需求以理解用戶真正的檢索意圖,如何在語義網(wǎng)格平臺上把檢索需求定位到合適的數(shù)據(jù)源中執(zhí)行檢索服務(wù),從而在信息源數(shù)目多、信息量大、各局部信息源自治性很高、異構(gòu)性強(qiáng)且局部信息經(jīng)常動態(tài)變化的網(wǎng)格信息環(huán)境進(jìn)一步提高查準(zhǔn)率和查全率,使網(wǎng)格系統(tǒng)的用戶更好地體會到語義網(wǎng)格提供的高性能服務(wù)。
[1]Paolucci,Kawamura,Payne,Sycara.Semantic Matching of Web Services Capabilities[J].Lecture Notes in Computer Science,2002(8):333-347.
[2]孫崢,孫瑞志,王劍秦.網(wǎng)格環(huán)境下基于本體的信息檢索體系研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(23):5392-5394.
[3]Banino C,Beaumont O,Carter L,F(xiàn)errante J,Legrand A,Robert Y Scheduling strategies for master-slave tasking on heterogeneous processor platforms[C].OnParallel and Distributed Systems,2004(4):42 -48.
[4]崔金棟.一種基于多局域網(wǎng)的網(wǎng)格資源調(diào)度模型的研究[J].東北電力大學(xué)學(xué)報(bào),2006,26(4):18-21.
[5]尚明申.網(wǎng)格計(jì)算中的任務(wù)調(diào)度模型研究[J].計(jì)算機(jī)工程,2006,32(2):7-9.
[6]都志輝.網(wǎng)格與Web服務(wù)的融合與發(fā)展—WSRF和WS-Notification[J].計(jì)算機(jī)科學(xué),2008,32(2):76-79.