對語義網(wǎng)格及其在數(shù)字圖書館信息檢索中應(yīng)用的探討

2009-07-15 04:42谷琦

現(xiàn)代情報(bào) 2009年1期

谷　琦

〔摘要〕本文在對語義網(wǎng)及網(wǎng)格技術(shù)進(jìn)行簡要介紹、分析的基礎(chǔ)上，提出了語義網(wǎng)格環(huán)境下數(shù)字圖書館信息檢索模型，并詳細(xì)闡述用戶獲取信息的過程。在文章的結(jié)尾，還就相關(guān)研究的發(fā)展方向進(jìn)行展望。

〔關(guān)鍵詞〕語義網(wǎng)；網(wǎng)格技術(shù)；數(shù)字圖書館

〔中圖分類號〕G250.76 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)01-0068-05

Research on Semantic Grid and its Application in the Information Retrievial of Digital Library

Gu Qi

(Library，Henan University of Science and Technology，Luoyang 471003，China)

〔Abstract〕Based on the brief introduction and analysis of semantic web and grid technology，this paper put forward a digital library conceptual model under the semantic grid environment，at the same time，explored the acquisition process of information in detail.Finally，the development direction of correlated research work was also prospected.

〔Key words〕semantic web；grid technology；digital library

數(shù)字圖書館在快速發(fā)展的同時(shí)，其種種缺陷也逐漸暴露，如檢索服務(wù)器智能化程度低、返回大量無關(guān)結(jié)果，不同系統(tǒng)之間互操作困難、資源難于共享、形成一個(gè)個(gè)信息孤島等問題。這是因?yàn)椋蟛糠志W(wǎng)頁上的內(nèi)容設(shè)計(jì)是供人閱讀的，并不能使機(jī)器理解。利用HTML語言，計(jì)算機(jī)雖能熟練地解析網(wǎng)頁的版面，知道哪里是標(biāo)題，哪里有與其他頁面的鏈接，但卻無法理解網(wǎng)頁內(nèi)容，如無法區(qū)別人名和地名等，因?yàn)闆]有可靠的方法來處理其中的語義。于是出現(xiàn)了把語義網(wǎng)和網(wǎng)格技術(shù)應(yīng)用到數(shù)字圖書館建設(shè)的動(dòng)向。語義網(wǎng)在數(shù)字圖書館中的應(yīng)用，可對信息資源進(jìn)行語義標(biāo)注，提供基于語義的資源瀏覽與檢索。而在數(shù)字圖書館中應(yīng)用網(wǎng)格技術(shù)，則為整合分布、異構(gòu)、自治的數(shù)字資源，實(shí)現(xiàn)對資源的透明調(diào)用提供了可能。但從數(shù)字圖書館要求基于語義的資源整合來看，上述兩種技術(shù)各有其局限性^[1]。

網(wǎng)格雖為我們描繪了一幅誘人的藍(lán)圖，即遍布世界各地的資源都可“即插即用”。但現(xiàn)實(shí)情況與目標(biāo)存在較大差距，實(shí)現(xiàn)網(wǎng)格的目標(biāo)并不容易，網(wǎng)格還面臨著許多問題和挑戰(zhàn)。當(dāng)前網(wǎng)格缺乏機(jī)器可讀可理解的數(shù)據(jù)語義，缺乏人和機(jī)器很好地合作的支撐，機(jī)器難以處理異構(gòu)資源，難以聯(lián)合、再利用信息，難以靈活協(xié)作、高度易用和無縫自動(dòng)化，難以根據(jù)用戶的需求自動(dòng)地生產(chǎn)知識。而語義網(wǎng)雖然實(shí)現(xiàn)了計(jì)算機(jī)可理解的數(shù)據(jù)語義問題，但難以實(shí)現(xiàn)互聯(lián)網(wǎng)上各種資源(包括硬件和軟件資源) 的共享，難以滿足日益增長的計(jì)算需求^[2]。

數(shù)字圖書館需要一個(gè)新型的技術(shù)基礎(chǔ)，這個(gè)基礎(chǔ)應(yīng)充分支持虛擬資源體系在語義層面上的集成，充分支持語義描述，為實(shí)現(xiàn)虛擬資源體系的語義導(dǎo)航、語義查詢以及推理機(jī)提供可行性，于是語義網(wǎng)格的概念被提出。

1 語義網(wǎng)的基本概念

1.1 語義網(wǎng)的體系結(jié)構(gòu)

2001年，Tim Berners-Lee提出語義網(wǎng)的概念^[3]，其出發(fā)點(diǎn)是通過改變現(xiàn)有互聯(lián)網(wǎng)依靠文字信息來共享資源的模式，利用本體來描述語義信息，達(dá)到語義級的共享。語義網(wǎng)構(gòu)建于自定義標(biāo)記的XML和數(shù)據(jù)表示靈活的RDF之上。其層次結(jié)構(gòu)如圖1^[4]。

①Unicode和URI層，是整個(gè)語義Web的基礎(chǔ)。Unicode處理資源的編碼，保證所使用的是國際通用字符集。URI負(fù)責(zé)標(biāo)識語義網(wǎng)上所有的對象和資源，為精確的信息檢索提供基礎(chǔ)。

②XML+Name Space+ Xml Schema，XML層具有名稱空間(Name Space)和XML Schema，XML置標(biāo)語言將網(wǎng)上資源信息的結(jié)構(gòu)、內(nèi)容與表現(xiàn)形式相分離，可確保語義網(wǎng)的定義，并支持與其他基于XML的標(biāo)準(zhǔn)進(jìn)行無縫集成。XML讓每個(gè)人都能通過自己創(chuàng)建的標(biāo)簽，來對網(wǎng)頁或頁面的部分文字進(jìn)行注釋。腳本，或者說是程序，可以將這些標(biāo)簽運(yùn)用到復(fù)雜的應(yīng)用中。

③RDF+RDF Schema，該層用于描述Web上的資源及其類型，為網(wǎng)上資源描述提供了一種通用框架，也為實(shí)現(xiàn)數(shù)據(jù)集成提供了一個(gè)元數(shù)據(jù)解決方案。

RDF是W3C提出的一個(gè)基于XML的數(shù)據(jù)模型，采用獨(dú)特的“資源——屬性——值”的三元組結(jié)構(gòu)來描述互聯(lián)網(wǎng)資源特性及其關(guān)系。通過這個(gè)抽象的數(shù)據(jù)模型，RDF為定義和使用元數(shù)據(jù)建立了一個(gè)框架，元數(shù)據(jù)的元素可看成元數(shù)據(jù)所描述的資源的屬性，由此人們就可以利用RDF來解讀所引用的元數(shù)據(jù)。通過這種通用的框架，RDF可以描述Web上的各種資源，真正做到了以不變應(yīng)萬變。

由于對不同資源的描述需要采取不同的詞匯表，RDF并沒有定義描述資源所用的詞匯表，而是定義了一些規(guī)則，這些規(guī)則是各領(lǐng)域和應(yīng)用定義用于描述資源的詞匯表時(shí)必須遵循的。RDF也提供了描述資源時(shí)具有基礎(chǔ)性的詞匯表，這就是RDFS，RDF可以依據(jù)這些詞匯來描述資源^[5]。如果最底層的URI標(biāo)識了網(wǎng)上的對象，那么RDF和RDFS層則可對URI標(biāo)識的對象進(jìn)行陳述，支持有類型的資源與鏈接的類型。

④Ontology(即本體)，是語義網(wǎng)的核心層，用于揭示資源本身以及資源之間更為復(fù)雜和豐富的語義信息，避免“一詞多意”或“多詞一意”，使網(wǎng)上的信息具有計(jì)算機(jī)可理解的語義。本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識，提供對該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯，并從不同層次的形式化模式上，給出這些詞匯與詞匯間相互關(guān)系的明確定義。

⑤邏輯層，在上述4層的基礎(chǔ)上進(jìn)行邏輯推理操作。

⑥驗(yàn)證層，根據(jù)邏輯陳述進(jìn)行驗(yàn)證以得出結(jié)論。

⑦信任層，用于在用戶間建立信任關(guān)系。

其中，第②、③、④層是語義網(wǎng)的關(guān)鍵層，用于表示W(wǎng)eb信息的語義，也是現(xiàn)在語義Web研究的熱點(diǎn)所在。

1.2 語義網(wǎng)的形式化描述語言

語義網(wǎng)需要專門的描述語言對Web文檔中的術(shù)語含義進(jìn)行形式化描述，大量的研究工作者活躍在該領(lǐng)域，因此誕生了許多種本體描述語言，如RDF、DAML、OIL、OWL等，它們的演進(jìn)關(guān)系如圖2。

W3C提出的本體語言棧如3所示，OWL處于最上層，它是在總結(jié)幾種語言開發(fā)經(jīng)驗(yàn)的基礎(chǔ)上由W3C于2004年2月正式推出，是語義網(wǎng)發(fā)展過程中的一個(gè)重要里程碑，經(jīng)過廣泛的討論并已得到一致認(rèn)可。

在此語言棧中，XML是結(jié)構(gòu)化文檔的表層語法，它對文檔沒有任何語義約束，XML Schema是定義XML文檔的結(jié)構(gòu)約束的語言；RDF是描述對象以及它們之間關(guān)系的數(shù)據(jù)模型，并為數(shù)據(jù)模型提供了簡單的語義，這些數(shù)據(jù)模型能夠用XML進(jìn)行表達(dá)，RDF Schema是描述資源的屬性和類型的詞匯表，并提供對這些屬性和類型的普遍層次的語義。RDFS在RDF的基礎(chǔ)上提供了更多建模原語用于元數(shù)據(jù)定義，這些原語對進(jìn)一步構(gòu)造本體有一定作用。事實(shí)上，RDFS所構(gòu)造的元數(shù)據(jù)已經(jīng)是一種輕型的本體知識，不過RDFS的功能仍然很有限。為了構(gòu)造更加完備的本體信息以支持自動(dòng)推理，就需要更加完備的本體描述語言。OWL就是在這種需求下出現(xiàn)的，它在RDF和RDFS的基礎(chǔ)上通過增加更多建模原語來描述特性、類，以及它們之間的關(guān)系，并針對特性提供了更加豐富的類型定義和屬性描述^[6]。

總而言之，在語義網(wǎng)中，XML、RDF和本體將網(wǎng)絡(luò)的作用發(fā)揮到極至，網(wǎng)絡(luò)中的數(shù)據(jù)、軟件均是資源，它們將自動(dòng)被計(jì)算機(jī)理解，自動(dòng)化處理、集成、共享和重用，并由機(jī)器根據(jù)用戶需求確定連接方式，從而支持智能軟件代理Agent對WWW上異構(gòu)、分布信息的有效檢索和訪問，實(shí)現(xiàn)網(wǎng)上信息資源在語義層上的全方位互聯(lián)，并在此基礎(chǔ)上，實(shí)現(xiàn)更高層的基于知識的智能應(yīng)用。

2 網(wǎng)格技術(shù)概況

眾所周知，利用網(wǎng)關(guān)、網(wǎng)橋、路由器和光纖、電纜等基礎(chǔ)設(shè)施，傳統(tǒng)因特網(wǎng)實(shí)現(xiàn)了計(jì)算機(jī)硬件的連通；利用HTTP、URI等協(xié)議，因特網(wǎng)進(jìn)一步升級，實(shí)現(xiàn)了網(wǎng)頁的連通。而網(wǎng)格不僅可以連通計(jì)算機(jī)和網(wǎng)頁，還將各種信息資源，如數(shù)據(jù)庫、軟件以及各種信息獲取設(shè)備都連接成一個(gè)整體，整個(gè)網(wǎng)絡(luò)如同一臺巨大無比的計(jì)算機(jī)，向每個(gè)用戶提供包括計(jì)算能力、數(shù)據(jù)存儲能力以及各種應(yīng)用工具等一體化的透明服務(wù)。它強(qiáng)調(diào)的是全面地共享資源、全面地應(yīng)用服務(wù)。那么，究竟什么是網(wǎng)格呢?

簡單的講，網(wǎng)格就是利用互聯(lián)網(wǎng)把分散在不同地理位置上的多個(gè)資源全面連通，建立邏輯關(guān)系，并進(jìn)行統(tǒng)一管理、協(xié)調(diào)分配，組成一臺“虛擬的超級計(jì)算機(jī)”。這臺機(jī)器把每臺參與其中的計(jì)算機(jī)都作為自己的一個(gè)“節(jié)點(diǎn)”，成千上萬個(gè)這樣的“節(jié)點(diǎn)”并聯(lián)起來，就組成了“一張有超級計(jì)算能力的網(wǎng)格”。網(wǎng)格計(jì)算模式首先把要計(jì)算的數(shù)據(jù)分割，然后，不同節(jié)點(diǎn)的計(jì)算機(jī)依自己的處理能力下載一個(gè)或多個(gè)數(shù)據(jù)片斷。當(dāng)用戶不使用本節(jié)點(diǎn)的計(jì)算機(jī)時(shí)，其閑置的計(jì)算能力就會被調(diào)用。這樣，每一位將自己的計(jì)算機(jī)連接到網(wǎng)格上的用戶，都可隨時(shí)隨地調(diào)用其中的計(jì)算和信息資源，在獲得一體化信息服務(wù)的同時(shí)，最大程度地實(shí)現(xiàn)資源共享^[7]。

作為一種新興的技術(shù)，網(wǎng)格的優(yōu)勢不僅在于超強(qiáng)的數(shù)據(jù)處理能力，而且還在于利用網(wǎng)上的閑置處理能力來節(jié)約計(jì)算成本，實(shí)現(xiàn)資源的共享，消除資源孤島。網(wǎng)格的研究開發(fā)工作已受到許多國家的重視，然而遺憾的是，到目前為止，國際上還沒對其確切含義及外延達(dá)成共識，也沒有什么約定的標(biāo)準(zhǔn)。盡管如此，其關(guān)注的問題卻很明確，即如何有效安全地管理和共享連接到Internet上的各種資源，并提供相應(yīng)的服務(wù)^[8]。

3 語義網(wǎng)格及其在數(shù)字圖書館信息檢索中的應(yīng)用

語義網(wǎng)格是語義Web和網(wǎng)格相結(jié)合產(chǎn)生的新研究領(lǐng)域，最初的提出是為了加速e-Science的發(fā)展。e-Science最大的要求是知識共享，需要跨越不同機(jī)構(gòu)、國家和學(xué)科來進(jìn)行聯(lián)合的實(shí)驗(yàn)、使用遠(yuǎn)程昂貴的科學(xué)設(shè)備、交換信息和思想。網(wǎng)格本身致力于資源共享，但卻因信息格式異構(gòu)，語義的多重性以及關(guān)系的匱乏等問題無法滿足要求。要達(dá)到e-Science所設(shè)想的高度易用性和無縫自動(dòng)化，必須實(shí)現(xiàn)盡量多的機(jī)器可處理性和盡量少的人類介入，這卻和語義Web的目標(biāo)有一些相似，于是David De Roure等學(xué)者2001年在《Research Agenda for the Semantic Grid：A Future e-Science Infrastructure》中第一次提出了語義網(wǎng)格(Semantic Grid)概念，并把語義網(wǎng)格作為未來e-Science的基礎(chǔ)架構(gòu)^[9]。此后，OGSA的提出，給語義網(wǎng)格的發(fā)展注入了新的活力，使語義網(wǎng)技術(shù)應(yīng)用于網(wǎng)格變得更為簡單。語義網(wǎng)格研究小組(Global Grid Forum Semantic Grid Research Group，簡稱SEM-GRG)的成立，也為語義網(wǎng)格的發(fā)展提供大力支持，該研究組仿照語義網(wǎng)的定義，提出：語義網(wǎng)格是當(dāng)前網(wǎng)格的延伸，因?yàn)樾畔⒑头?wù)有了清晰明了的含義，人與計(jì)算機(jī)能夠更好地合作^[10]。在這個(gè)定義里，有清晰含義的是信息和服務(wù)，表明語義網(wǎng)格研究的語義的對象包括信息和服務(wù)。它把所有的資源，包括服務(wù)，都用一種機(jī)器可理解、可處理的方式來描述，實(shí)現(xiàn)語義的互操作性^[11]。其本質(zhì)就是通過更好的形式化描述網(wǎng)格上的信息來解決語義問題，以使計(jì)算機(jī)盡可能取代人在網(wǎng)格上進(jìn)行信息處理，通俗講就是讓傳統(tǒng)網(wǎng)格更智能化，從而讓其他的深層次應(yīng)用，如數(shù)字圖書館等智能化服務(wù)在網(wǎng)格上開展成為可能。

語義網(wǎng)格主要解決3個(gè)方面的問題^[12]：規(guī)范組織，即提出資源空間模型及規(guī)范化組織管理的理論、方法、技術(shù)和工具，使各種無序資源(信息、知識和服務(wù))規(guī)范化組織，從而使用戶能正確有效地操作各種資源，提高使用效率；語義互聯(lián)，即通過多層語義互聯(lián)和單一語義映像，使分布在全球的各種網(wǎng)絡(luò)資源在語義層上互聯(lián)，消除資源孤島；智能聚合，主要通過軟設(shè)備來解決資源間的互操作，使各種資源能根據(jù)用戶的需求有效、動(dòng)態(tài)、智能地聚合。

總而言之，網(wǎng)格是Web在計(jì)算能力上的提升，而語義網(wǎng)格是網(wǎng)格在語義能力上的擴(kuò)展；從另一個(gè)角度說，語義Web是在現(xiàn)有Web上增強(qiáng)了語義能力，而語義網(wǎng)格是語義Web對計(jì)算能力的擴(kuò)展。語義網(wǎng)格集成了語義Web的機(jī)器可閱讀能力和網(wǎng)格強(qiáng)大的計(jì)算能力，能更好的幫助數(shù)字圖書館為用戶提供優(yōu)質(zhì)信息檢索服務(wù)。

語義網(wǎng)格的研究在國內(nèi)外已陸續(xù)開展起來，特別是英國的e-Science計(jì)劃，已建立了100余個(gè)試驗(yàn)型項(xiàng)目，是語義網(wǎng)格的典型代表。美國、歐盟一些國家也相繼開展了語義網(wǎng)格項(xiàng)目研究工作，并取得了階段性進(jìn)展。我國也很重視這方面的研究工作，2004年9月科技部批準(zhǔn)了國家重點(diǎn)基礎(chǔ)研究計(jì)劃(簡稱973計(jì)劃)：“語義網(wǎng)格的基礎(chǔ)理論、模型與方法研究”。

3.1 基于語義網(wǎng)格的數(shù)字圖書館的結(jié)構(gòu)模型

基于Web的數(shù)字圖書館屬于技術(shù)主導(dǎo)型，凸顯各種關(guān)鍵技術(shù)；基于網(wǎng)格的數(shù)字圖書館屬于資源主導(dǎo)型，凸顯分布式異構(gòu)資源的整合；基于語義Web的數(shù)字圖書館屬于服務(wù)主導(dǎo)型，凸顯服務(wù)的集成與共享，并在一定程度上使服務(wù)增值^[13]；基于語義網(wǎng)格的數(shù)字圖書館則融合了語義Web功能與網(wǎng)格結(jié)構(gòu)體系，在實(shí)現(xiàn)資源集成的同時(shí)，也凸顯數(shù)據(jù)計(jì)算能力。語義網(wǎng)格技術(shù)的應(yīng)用可以為數(shù)字圖書館構(gòu)建一個(gè)良好的中間環(huán)境，一方面能形式化地描述知識，使機(jī)器理解語義，另一方面使知識實(shí)現(xiàn)負(fù)載平衡與松散耦合，進(jìn)而有效地與服務(wù)和用戶整合。

如圖4所示，基于語義網(wǎng)格的數(shù)字圖書館由4層組成，分別為分布式資源層，網(wǎng)格服務(wù)層、語義服務(wù)層和知識服務(wù)層。

分布式資源是數(shù)字圖書館的最底層，也是數(shù)字圖書館得以展開各種智能化服務(wù)的生命之源，涵蓋了數(shù)字圖書館中類型、內(nèi)容各異的館藏資源，這些資源通過網(wǎng)格服務(wù)層虛擬地整合在一起。

網(wǎng)格服務(wù)層負(fù)責(zé)資源的整合、管理、調(diào)度和計(jì)算，采用開放網(wǎng)格服務(wù)結(jié)構(gòu)(Open Grid Services Architecture，OGSA) 實(shí)現(xiàn)計(jì)算服務(wù)、數(shù)據(jù)服務(wù)、信息服務(wù)的共享，并為上層提供應(yīng)用接口，具體包含計(jì)算服務(wù)層(如資源發(fā)現(xiàn)與分配、資源監(jiān)控、用戶認(rèn)證、任務(wù)調(diào)度或合作調(diào)度、容錯(cuò)處理等)、數(shù)據(jù)服務(wù)層(如數(shù)據(jù)存儲管理、元數(shù)據(jù)管理、數(shù)據(jù)回復(fù)和傳遞管理等)和信息服務(wù)層(為用戶提供一個(gè)統(tǒng)一的服務(wù)接口，使各種異構(gòu)數(shù)據(jù)資源能夠相互訪問)。具體來說，其構(gòu)成如圖5。各種資源分布在資源層中，采集節(jié)點(diǎn)負(fù)責(zé)對描述資源內(nèi)容的元數(shù)據(jù)進(jìn)行采集，元數(shù)據(jù)收集和傳輸服務(wù)機(jī)制把所采集的全部元數(shù)據(jù)進(jìn)行整合，并按照一定的規(guī)則和機(jī)制，將這些元數(shù)據(jù)分別存儲在各個(gè)檢索服務(wù)器節(jié)點(diǎn)中，索引器負(fù)責(zé)對服務(wù)器上的元數(shù)據(jù)進(jìn)行索引管理，并定期對新增的元數(shù)據(jù)進(jìn)行索引更新。檢索節(jié)點(diǎn)為用戶檢索提供接口，將收到檢索請求分發(fā)到服務(wù)器節(jié)點(diǎn)，并執(zhí)行檢索，經(jīng)調(diào)度服務(wù)排序后，再將檢索結(jié)果返回。調(diào)度服務(wù)存儲有包含數(shù)據(jù)提供者列表的配置文件，依照此配置文件，系統(tǒng)向任務(wù)節(jié)點(diǎn)分配任務(wù)，任務(wù)完成后還要記錄節(jié)點(diǎn)和信息資源的參數(shù)，以便為新的任務(wù)分配提供參考^[14]。

語義服務(wù)層則是根據(jù)領(lǐng)域本體中的知識，從語義層面對這些虛擬的資源進(jìn)行整合。作為語義網(wǎng)格的核心層，該層使用本體和元數(shù)據(jù)描述信息，按照計(jì)算機(jī)理解的格式表示知識，可提供多種服務(wù)，如數(shù)據(jù)/計(jì)算服務(wù)，處理計(jì)算資源的分配、調(diào)度并選擇執(zhí)行的方式，可快速傳送網(wǎng)絡(luò)數(shù)據(jù)；信息服務(wù)，處理被描述、存儲、接收、共享及保留的信息；知識服務(wù)，處理知識獲得、使用、檢索、發(fā)布以及維護(hù)的方式。這里的知識是指應(yīng)用于實(shí)現(xiàn)目標(biāo)、解決問題或做出決定的信息^[15]。值得注意的是，本體作為一種能在語義上描述信息系統(tǒng)的概念模型，可以把各類元數(shù)據(jù)方案聯(lián)系成一個(gè)立體的知識網(wǎng)絡(luò)，并能使資源按照知識網(wǎng)絡(luò)中的不同屬性，或同一種屬性的不同編碼體系，呈現(xiàn)出規(guī)范有序的知識地圖。它還可以通過某些標(biāo)準(zhǔn)的開放的元數(shù)據(jù)接口，或提供某些可供格式轉(zhuǎn)換的映射表，向某些登記系統(tǒng)(如UDDI)進(jìn)行注冊，來達(dá)到更大范圍的互操作。

知識服務(wù)層則通過文本挖掘、數(shù)據(jù)挖掘等方法，實(shí)現(xiàn)知識服務(wù)，并通過接口與高級網(wǎng)格應(yīng)用互聯(lián)，為用戶提供各種服務(wù)。通過知識服務(wù)層，用戶的查詢請求可到達(dá)模型的本體部分，本體利用元數(shù)據(jù)和語義視圖組件對其進(jìn)行解析，形成具有語義的表達(dá)式后，再與語義空間內(nèi)的數(shù)字資源進(jìn)行匹配，然后依據(jù)系統(tǒng)所提供的計(jì)算資源、存儲資源等參數(shù)信息，將最終結(jié)果返回給用戶^[16]。

3.2 語義網(wǎng)格環(huán)境下用戶獲取信息的基本過程

在語義網(wǎng)格環(huán)境下，數(shù)字圖書館的各個(gè)節(jié)點(diǎn)上有類型、內(nèi)容各異的信息資源，其發(fā)布過程可簡單概括為以下幾步：

3.2.1 通過信息資源發(fā)現(xiàn)機(jī)制尋找到數(shù)字圖書館所需的信息資源

發(fā)現(xiàn)機(jī)制分主動(dòng)發(fā)現(xiàn)和被動(dòng)發(fā)現(xiàn)，主動(dòng)發(fā)現(xiàn)是基于用戶的需求進(jìn)行，被動(dòng)發(fā)現(xiàn)是基于系統(tǒng)默認(rèn)的規(guī)則進(jìn)行，即根據(jù)數(shù)據(jù)提供者所描述信息資源的屬性狀態(tài)值，選擇合適的資源。系統(tǒng)所管理的是可擴(kuò)展的有限多個(gè)數(shù)據(jù)庫和節(jié)點(diǎn)，除了特定的情況下需要工作人員的參與，其增加和擴(kuò)充一般是通過被動(dòng)發(fā)現(xiàn)信息資源機(jī)制完成的。

3.2.2 通過索引機(jī)制對所選信息進(jìn)行描述、索引和命名，然后將索引信息匯總到索引中心

在各節(jié)點(diǎn)中，構(gòu)成網(wǎng)格系統(tǒng)的計(jì)算機(jī)因在體系結(jié)構(gòu)，操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)及元數(shù)據(jù)模式等多個(gè)方面均存在異構(gòu)，所以，必須對新加入的信息資源重新命名，這樣，用戶在不知道資源所屬數(shù)據(jù)庫或節(jié)點(diǎn)的情況下，也可以下載使用信息。

3.2.3 通過信息資源發(fā)布機(jī)制把檢索結(jié)果呈現(xiàn)給用戶

檢索時(shí)，當(dāng)用戶發(fā)出檢索請求后，系統(tǒng)將根據(jù)用戶請求在索引中心內(nèi)查找匹配的索引，然后追根溯源，找到信息資源所在的網(wǎng)格節(jié)點(diǎn)。找到節(jié)點(diǎn)后，系統(tǒng)便根據(jù)節(jié)點(diǎn)和資源的狀態(tài)信息參數(shù)進(jìn)行信息資源預(yù)置(信息資源預(yù)置通常用來保證對多個(gè)信息資源的并發(fā)存取，其作用類似于一個(gè)記錄器，記錄所需信息目前的狀態(tài)，以確保被順利傳輸)。接著進(jìn)行狀態(tài)估計(jì)，即依據(jù)信息資源當(dāng)前狀態(tài)和傳送時(shí)間等參數(shù)為任務(wù)調(diào)度提供參考信息。最后通過任務(wù)調(diào)度環(huán)節(jié)，確定任務(wù)執(zhí)行的相關(guān)順序，以確保把檢索結(jié)果提交給用戶^[17]。

4 結(jié) 語

基于語義網(wǎng)格的數(shù)字圖書館平臺，以不同領(lǐng)域本體互操作組成的知識空間、分布式的網(wǎng)絡(luò)和計(jì)算環(huán)境作為技術(shù)支持和應(yīng)用基礎(chǔ)，可對海量的、多媒體的信息資源在語義層面上進(jìn)行組織、存儲和發(fā)布，可提供分布式數(shù)字資源松散耦合與集中管理，能解決數(shù)字圖書館中某些復(fù)雜的和計(jì)算密集型的服務(wù)，能提高機(jī)器的閱讀能力、實(shí)現(xiàn)人機(jī)之間良好溝通，能實(shí)現(xiàn)用戶基于語義的資源利用、推動(dòng)用戶之間的協(xié)作和數(shù)據(jù)共享，還可以針對不同需求的用戶群體提供主動(dòng)的、個(gè)性化的信息服務(wù)。因此，語義網(wǎng)格技術(shù)的應(yīng)用將是數(shù)字圖書館信息檢索的發(fā)展方向。隨著語義網(wǎng)格的概念和相關(guān)技術(shù)的日趨成熟，語義網(wǎng)格技術(shù)將更加全面的應(yīng)用于數(shù)字圖書館。

盡管如此，到目前為止，語義網(wǎng)、網(wǎng)格和Web服務(wù)都還不夠成熟，還處在不斷發(fā)展中。語義網(wǎng)格作為全新的概念，既要良好融合、兼容三者的最新技術(shù)，還要注意自身各方面的進(jìn)一步發(fā)展，前進(jìn)的道路將充滿挑戰(zhàn)。

今后主要的研究內(nèi)容包括：①語義網(wǎng)基礎(chǔ)理論的研究，如本體描述語言、本體自學(xué)習(xí)技術(shù)、本體互操作等。在語義網(wǎng)中，本體起著非常重要的作用。但目前許多本體仍處在非形式化階段，只提供了領(lǐng)域術(shù)語的自然語言描述。這種本體只能用于幫助人與人之間的交互和相互理解，不能被計(jì)算機(jī)所處理。此外，大多數(shù)領(lǐng)域本體都是由手工開發(fā)的，缺乏有效的本體管理工具和評價(jià)工具。所創(chuàng)建的領(lǐng)域本體是否完全反映出特定領(lǐng)域的概念、領(lǐng)域本體中各種概念是否一致、在本體重用時(shí)是否會產(chǎn)生沖突、不同本體之間如何互操作等等，都需要進(jìn)一步的研究。②網(wǎng)格基礎(chǔ)理論研究，如自動(dòng)化虛擬組織的創(chuàng)建和管理，需要發(fā)展怎樣的通用模型和機(jī)制以適合虛擬組織的運(yùn)作；如服務(wù)的協(xié)商和協(xié)議，研究適合網(wǎng)格系統(tǒng)的協(xié)議類型，可利用智能代理進(jìn)行協(xié)商，以互操作方式達(dá)成協(xié)議；如普適計(jì)算，怎么使一切能聯(lián)上互聯(lián)網(wǎng)的計(jì)算裝置都可無縫鏈接并透明地訪問網(wǎng)格；如內(nèi)容的處理和長期保存，網(wǎng)格系統(tǒng)如何處理各種各樣的媒體內(nèi)容，并使內(nèi)容能自動(dòng)化長期保存等等。③語義Web與網(wǎng)格的融合研究，如在OGSA 基礎(chǔ)上融合了語義網(wǎng)技術(shù)的語義網(wǎng)格體系結(jié)構(gòu)是否要變化，怎樣變化等等。

參考文獻(xiàn)

[1]畢強(qiáng)，牟冬梅.語義網(wǎng)格環(huán)境下數(shù)字圖書館知識組織理論、方法及其過程研究[J].圖書情報(bào)工作，2007，(8)：8.

[2]李明生.語義網(wǎng)格：語義網(wǎng)技術(shù)和網(wǎng)格的結(jié)合[J].情報(bào)雜志，2005，(10)：47.

[3]Tim Berners-Lee，James Hendler and Ora Lassila.The Semantic Web[J].Scientific American，2001，(5).

[4]李衛(wèi)華.語義Web及層次結(jié)構(gòu)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2002，(7)：31.

[5]朱超.關(guān)于元數(shù)據(jù)互操作的探討[J].情報(bào)理論與實(shí)踐，2005，(6)：645-646.

[6]李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究：[博士學(xué)位論文][D].北京：中國科學(xué)院文獻(xiàn)情報(bào)中心，2004：114-120.

[7]朱亞玲，畢強(qiáng).語義網(wǎng)格探微[J].情報(bào)理論與實(shí)踐，2006，(6)：743.

[8]李潔，丁穎.語義網(wǎng)、語義網(wǎng)格和語義網(wǎng)絡(luò)[J].計(jì)算機(jī)與現(xiàn)代化，2007，(7)：39.

[9]David De Roure，Nicholas R.Jennings，Nigel R.Shadbolt.Research Agenda for the Semantic Grid：A Future e-Science Infrastructure[EB].http：∥www.semanticgrid.org/html/semgrid.html，2004-12-08.

[10]Semantic Grid Community Portal[EB].http：∥www.semanticgrid.org，2004-12-08.

[11]李明生.語義網(wǎng)格：語義網(wǎng)技術(shù)和網(wǎng)格的結(jié)合[J].情報(bào)雜志，2005，(10)：47-48.

[12]諸葛海.語義網(wǎng)格的基礎(chǔ)理論、模型與方法研究進(jìn)展[J].中國基礎(chǔ)科學(xué)研究進(jìn)展，2007，(6)：27.

[13]畢強(qiáng)，牟冬梅.語義網(wǎng)格環(huán)境下數(shù)字圖書館知識組織理論、方法及其過程研究[J].圖書情報(bào)工作，2007，(8)：6.

[14]畢強(qiáng)，沈涌.數(shù)字圖書館網(wǎng)格信息資源組織模式研究[J].圖書情報(bào)工作，2007，(8)：11.

[15]朱亞玲，畢強(qiáng).語義網(wǎng)格探微[J].情報(bào)理論與實(shí)踐，2006，(6)：743-744.

[16]韓毅，黃微，崔春.語義網(wǎng)格環(huán)境下數(shù)字圖書館知識組織模型構(gòu)建研究[J].圖書情報(bào)工作，2007，(8)：16.

[17]畢強(qiáng)，沈涌.數(shù)字圖書館網(wǎng)格信息資源組織模式研究[J].圖書情報(bào)工作，2007，(8)：12.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

對語義網(wǎng)格及其在數(shù)字圖書館信息檢索中應(yīng)用的探討