姚金鳳 陳磊
摘要:論文之類的學(xué)術(shù)資源可以抽象為知識(shí)庫(kù),在對(duì)論文資源庫(kù)進(jìn)行特點(diǎn)分析后可以發(fā)現(xiàn),可以在傳統(tǒng)數(shù)據(jù)格式的基礎(chǔ)上容易地利用RDF描述關(guān)于網(wǎng)絡(luò)對(duì)象(論文資源)的簡(jiǎn)單陳述句,利用OWL語(yǔ)言創(chuàng)作論文資源本體,給出相應(yīng)的查詢和邏輯推理機(jī)制,最終部署出具有新一代網(wǎng)絡(luò)特征--語(yǔ)義Web的學(xué)術(shù)資源知識(shí)發(fā)現(xiàn)系統(tǒng),將極大地方便用戶的查詢和組織者的管理。
關(guān)鍵詞:語(yǔ)義Web;RDF;學(xué)術(shù)資源;本體
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)09-1985-03
An RDF-based Integration Model of Academic Resources
YAO Jin-feng1, CHEN Lei2
(1.School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China; 2.Department of Computer and Information Engineering, Huainan Normal University, Huainan 232038, China)
Abstract: Resources like papers or thesises can be abstraced as knowledge base. After analysed, we find it is appropriate to describe the Web objects of the academic resources using the Resource Description Frame(RDF) statements, and also, we can create the academic ontology with OWL. This paper proposes a mechamism of the semantic query and logical inference, deploys a academic resource knowledge discovery system which has the characters of the Semantic Web, and it will faciliate the user query and the management.
Key words: semantic web; RDF; academic resources; ontology
1概述
對(duì)于高校的教師和學(xué)生而言,論文之類的學(xué)術(shù)資源是一種從事學(xué)習(xí)和科研的重要知識(shí)資源,對(duì)它們的搜索與發(fā)現(xiàn)也是教師和學(xué)生的知識(shí)獲取的重要手段。為了幫助用戶的搜索,各高校和一些相關(guān)機(jī)構(gòu)都推出了一些論文查詢機(jī)制(如萬(wàn)方、維普等),極大地方便了相關(guān)人群的使用。
論文資源的組織本質(zhì)上屬于知識(shí)管理工程。知識(shí)管理所關(guān)注的是在一個(gè)組織中獲取、處理和維護(hù)知識(shí)。對(duì)于大型論文資源庫(kù)而言,有效地進(jìn)行知識(shí)管理,在機(jī)構(gòu)內(nèi)部實(shí)施先進(jìn)科學(xué)的知識(shí)組織與維護(hù)方式,對(duì)外則提供高效、高質(zhì)量的用戶查詢(咨詢)服務(wù)則是相關(guān)機(jī)構(gòu)創(chuàng)造新的價(jià)值和增強(qiáng)競(jìng)爭(zhēng)力的有效保證。目前大多數(shù)可用信息只具有弱結(jié)構(gòu)組織形式,從知識(shí)管理的角度來(lái)說(shuō),現(xiàn)有技術(shù)存在以下諸方面的局限[1]:
1)信息搜索。當(dāng)今的互聯(lián)網(wǎng)通常依靠基于關(guān)鍵詞的搜索引擎,這使得搜索的結(jié)構(gòu)總是“高匹配、低精度”,而且從搜索結(jié)果的形式來(lái)看,總是單一的網(wǎng)頁(yè),如果所需要的信息分布在不同的文檔中,則用戶必須給出多個(gè)查詢來(lái)收集相關(guān)的頁(yè)面,然后自己提取這些頁(yè)面中的相關(guān)信息并組織成一個(gè)整體。
2)信息抽取。需要人工瀏覽搜索的文檔,當(dāng)前的信息組織形式還不能滿足智能代理軟件(Intelligent Agent)的要求。
3)信息維護(hù)。比如術(shù)語(yǔ)的不相容性和無(wú)法移除過(guò)時(shí)的信息等。
4)信息挖掘。雖然可以用數(shù)據(jù)挖掘(Data Mining)等手段提取隱藏在信息數(shù)據(jù)庫(kù)中的新知識(shí),但對(duì)于分布式的、弱結(jié)構(gòu)化的文檔集合,這個(gè)任務(wù)仍然是困難的。
5)信息視圖。經(jīng)常需要限制某些用戶對(duì)某些信息的瀏覽權(quán)限?!耙晥D”意味著隱藏某些信息,在傳統(tǒng)數(shù)據(jù)庫(kù)中很容易做到這一點(diǎn),但對(duì)于論文資源服務(wù)網(wǎng)站來(lái)說(shuō)尚難以實(shí)現(xiàn)。
基于本體的論文資源語(yǔ)義網(wǎng)的研究的主要目的就是解決上述問(wèn)題,并借助于自動(dòng)推理機(jī)從給定的知識(shí)演繹出一些結(jié)論,從而使隱含的知識(shí)外顯出來(lái),并以期通過(guò)相應(yīng)的代理(Agent)收集和整理信息,為用戶提供備選方案。
2語(yǔ)義Web技術(shù)基礎(chǔ)
語(yǔ)義Web研究的重點(diǎn)就是如何把信息表示為計(jì)算機(jī)能夠理解和處理的形式,即帶有語(yǔ)義。它主要基于XML和RDF/RDFS[2],并在此之上構(gòu)建本體和邏輯推理規(guī)則,它完全基于語(yǔ)義的知識(shí)表示和推理,從而能夠?yàn)橛?jì)算機(jī)所理解和處理。
語(yǔ)義網(wǎng)的核心是本體。R.Studer給本體的定義是“一個(gè)本體是一個(gè)概念體系(Conceptualization)的顯式的形式化規(guī)范”[3]。一個(gè)典型的本體由有限個(gè)術(shù)語(yǔ)以及它們之間的關(guān)系組成。術(shù)語(yǔ)(Term)指給定論域中的重要概念(如對(duì)象和類)。例如,以論文資源為例,標(biāo)題、關(guān)鍵字、主題、作者等,都是術(shù)語(yǔ)。本體中概念之間的關(guān)系通常包括類的層次結(jié)構(gòu)。除了子類關(guān)系外,本體還可以包括以下信息:屬性、值約束、不相交描述和對(duì)象間邏輯關(guān)系的規(guī)定等。語(yǔ)義網(wǎng)通過(guò)網(wǎng)絡(luò)本體語(yǔ)言來(lái)定義本體,以本體清晰明確地表達(dá)各種詞匯集和網(wǎng)絡(luò)上的不同數(shù)據(jù)資源間的語(yǔ)義關(guān)系,從而在網(wǎng)絡(luò)上實(shí)現(xiàn)不同詞匯集和數(shù)據(jù)資源間的共享以及基于網(wǎng)絡(luò)的語(yǔ)義查詢和推理。因此,在Web中,本體提供了對(duì)給定領(lǐng)域的一種共識(shí),這種共識(shí)對(duì)于消除術(shù)語(yǔ)差別是必要的。本體尤其可以用于提高網(wǎng)絡(luò)搜索的精確度,這是因?yàn)樗阉饕婵梢跃_地根據(jù)本體中的概念查找相關(guān)頁(yè)面,而不是收集所有出現(xiàn)某些關(guān)鍵詞的頁(yè)面,這樣就保證了查詢的結(jié)果。另外,可以利用本體在網(wǎng)絡(luò)搜索中試探更一般或更特殊的查詢。如果一個(gè)查詢失敗了,沒(méi)有找到相關(guān)文檔,看見(jiàn)過(guò)引擎可以向用戶推薦更一般的查詢。甚至可以考慮讓搜索引擎主動(dòng)執(zhí)行這樣的查詢。
W3C推薦標(biāo)準(zhǔn)是RDF(Resource Description Framework)[2]。它實(shí)際上是一個(gè)數(shù)據(jù)模型(Data-Model)。它由一系列陳述(Statement)即“對(duì)象-屬性-值”三元組,由此,RDF的數(shù)據(jù)模型可以很方便地描述對(duì)象以及它們的關(guān)系。實(shí)際上,RDF只提供二元謂詞(屬性)。由于任何復(fù)雜的關(guān)系都可以分解為多個(gè)二元關(guān)系,因此RDF的數(shù)據(jù)模型可以作為其他任何復(fù)雜關(guān)系模型的基礎(chǔ)模型。通過(guò)RDF,可以將基于關(guān)鍵詞的檢索更容易地推進(jìn)到基于語(yǔ)義的檢索。
語(yǔ)義網(wǎng)的基本技術(shù)主要包括表示語(yǔ)言(本體開(kāi)發(fā))、查詢語(yǔ)言、轉(zhuǎn)換和推理技術(shù)以及相關(guān)工具等。其中本體的開(kāi)發(fā)是整個(gè)語(yǔ)義網(wǎng)的構(gòu)建基礎(chǔ),它包括以下一些階段:確定范圍、考慮復(fù)用、列舉術(shù)語(yǔ)、定義分類、定義屬性、定義側(cè)面、定義實(shí)例和檢查異常等。可以充分利用已有的本體或元數(shù)據(jù),如都柏林核心元數(shù)據(jù)(Dublin Core metadata terms)[4]是廣為使用的用于資源描述與發(fā)現(xiàn)的標(biāo)準(zhǔn),在利用RDF描述資源時(shí),可以使用其中的一些概念,都柏林核心元數(shù)據(jù)中典型的概念包括:Title、Creator、Subject等。
從現(xiàn)有知識(shí)源(如文本、詞典、遺留知識(shí)庫(kù)或本體、數(shù)據(jù)庫(kù)模式等)獲取領(lǐng)域知識(shí)、以(半)自動(dòng)方式構(gòu)造或改編本體――即所謂的本體學(xué)習(xí)(ontology learning),是開(kāi)發(fā)本體的有效途徑。由河海大學(xué)許卓明教授等提出的“從ER模式到OWL DL本體的語(yǔ)義保持的翻譯”較好的實(shí)現(xiàn)了這一問(wèn)題,從而使用戶可以方便地將ER模式翻譯成OWL DL本體[5]。
邏輯推理是語(yǔ)義網(wǎng)的重要內(nèi)容,根據(jù)RDF和RDF Schema建模原語(yǔ),它所使用的形式語(yǔ)言是謂詞邏輯(predicate logic),這通常被認(rèn)為是所有(基于符號(hào)的)知識(shí)表示的基礎(chǔ)。用邏輯描述RDF和RDFS的語(yǔ)義排除了二義性,并且是機(jī)器可讀的,同時(shí)也為借助邏輯推理機(jī)制支持RDF/RDFS的自動(dòng)推理提供了基礎(chǔ)。但是,對(duì)于RDF和RDFS而言,它們可以表示某些本體知識(shí),主要建模原主涉及以及類型層次組織起來(lái)的詞匯,包括子類關(guān)系和子屬關(guān)系、定義域和值域限定以及類實(shí)例,然而,還是有很多特性不支持,如屬性的局部轄域、類的不相交性、類的布爾組合、基數(shù)約束和屬性的特殊性質(zhì)等。為此,在OWL中增加了一些原語(yǔ)以提供更強(qiáng)的表達(dá)能力,從而確保OWL的一些子語(yǔ)言(如OWL DL)對(duì)應(yīng)于一個(gè)已經(jīng)得到充分研究的描述邏輯系統(tǒng)。
3基于RDF的學(xué)術(shù)資源整合模型研究
在對(duì)論文資源庫(kù)進(jìn)行特點(diǎn)分析后可以發(fā)現(xiàn),論文資源庫(kù)屬于知識(shí)庫(kù),傳統(tǒng)的論文資源基本上有著良好、統(tǒng)一的格式且有著較好的隱藏?cái)?shù)據(jù)開(kāi)發(fā)潛力,可以在傳統(tǒng)數(shù)據(jù)格式的基礎(chǔ)上容易地用XML根據(jù)用戶自定義的詞匯表編寫(xiě)結(jié)構(gòu)化網(wǎng)絡(luò)文檔,再利用RDF編寫(xiě)關(guān)于網(wǎng)絡(luò)對(duì)象(論文資源)的簡(jiǎn)單陳述句,利用OWL語(yǔ)言創(chuàng)作論文資源本體,給出相應(yīng)的查詢和邏輯推理機(jī)制,最終將開(kāi)發(fā)出具有新一代網(wǎng)絡(luò)特征的論文資源語(yǔ)義網(wǎng)絡(luò),極大地方便了用戶的查詢和組織者的管理。
主要任務(wù)包括:
1)本體的產(chǎn)生
語(yǔ)義網(wǎng)上存在著各種本體,包括領(lǐng)域本體和全局本體。為了在進(jìn)行信息檢索時(shí)有一個(gè)較為統(tǒng)一的模式,以便進(jìn)行語(yǔ)義推理和檢索,要求定義全局本體的概念??梢詮南聨讉€(gè)方面進(jìn)行定義。
①領(lǐng)域本體:領(lǐng)域本體又稱為全局總體,它是對(duì)領(lǐng)域知識(shí)的明確清晰的表達(dá),通常用本體語(yǔ)言來(lái)進(jìn)行表述。在一些特定的實(shí)際應(yīng)用中,領(lǐng)域本體及領(lǐng)域本體的合成是很有必要的。
②子領(lǐng)域本體:假定領(lǐng)域D能被分成n個(gè)子領(lǐng)域,那么領(lǐng)域D的領(lǐng)域本體也可以被分割成n個(gè)子領(lǐng)域本體。由于語(yǔ)義網(wǎng)上不同的領(lǐng)域本體通常用各種不同的本體語(yǔ)言來(lái)表述,在進(jìn)行語(yǔ)義網(wǎng)信息檢索的時(shí)候需要將這些用不同本體語(yǔ)言表述的領(lǐng)域本體轉(zhuǎn)換成統(tǒng)一的形式。轉(zhuǎn)換過(guò)程中不可避免地會(huì)出現(xiàn)一些信息的丟失,因此,在進(jìn)行轉(zhuǎn)換的同時(shí),對(duì)來(lái)自同一個(gè)領(lǐng)域的領(lǐng)域本體進(jìn)行一定的事例,得到新的領(lǐng)域本體。經(jīng)過(guò)轉(zhuǎn)換后的本體就變成了全局本體,也就是用統(tǒng)一的形式表達(dá)的各種領(lǐng)域知識(shí)集,它能夠用更為精確和統(tǒng)一的方式來(lái)表達(dá)世界的知識(shí)集。領(lǐng)域本體轉(zhuǎn)換成全局本體的過(guò)程可以通過(guò)本體轉(zhuǎn)換工具半自動(dòng)化地完成。
2)語(yǔ)義推理
推理是指從RDF文檔的顯式(explicit)知識(shí)出發(fā),得到文檔中沒(méi)有顯式描述的隱藏(implicit)的知識(shí)。在OWL-DL所依賴的描述邏輯中,推理主要分為概念之間的包含推理(subsumption relationship inferences)和實(shí)例與類之間的實(shí)例推理(instance relationship inferences),可以利用這兩種推理在論文資源文檔中發(fā)現(xiàn)傳統(tǒng)搜索搜索不到的隱含信息。在RDFS的推理中,需要在前向鏈、反向鏈以及混合方式之間進(jìn)行選擇。前向鏈將所有數(shù)據(jù)都交給推理引擎,產(chǎn)生新數(shù)據(jù)后加入到數(shù)據(jù)集中;而反向鏈采用邏輯編程技術(shù),當(dāng)數(shù)據(jù)模型接受查詢時(shí),將查詢翻譯成目標(biāo),引擎利用反向鏈規(guī)則通過(guò)匹配三元組進(jìn)行目標(biāo)歸結(jié)。而混合方式則根據(jù)實(shí)際情況進(jìn)行不同的推理選擇。
3)信息檢索
與傳統(tǒng)的基于SQL的檢索方式不同,用戶提交的檢索形式是語(yǔ)義檢索,它有兩個(gè)目的,一是將用戶從具體苛刻的檢索關(guān)鍵詞中解放出來(lái),用戶只需要了解一組與領(lǐng)域詞匯相關(guān)的本體詞條就可以構(gòu)建成查詢語(yǔ)句;第二是可以通過(guò)推理查詢查詢到更加完備的結(jié)果。SPARQL[6]查詢語(yǔ)言是W3C的推薦標(biāo)準(zhǔn),它以子圖匹配的方式在一組RDF數(shù)據(jù)集中進(jìn)行匹配查詢。
系統(tǒng)的框架如圖1所示。在圖1中,用戶向系統(tǒng)提交語(yǔ)義查詢,系統(tǒng)在已有的語(yǔ)義資源庫(kù)中進(jìn)行語(yǔ)義匹配,最終生成查詢結(jié)果。仍然可以對(duì)查詢結(jié)果進(jìn)行語(yǔ)義相關(guān)性排序,限于篇幅,該文不對(duì)此進(jìn)行研究。
學(xué)術(shù)資源庫(kù)主要通過(guò)對(duì)傳統(tǒng)的資源庫(kù)進(jìn)行語(yǔ)義轉(zhuǎn)化而得到,這種轉(zhuǎn)換可以是實(shí)例的轉(zhuǎn)化,也可以是建立在傳統(tǒng)資源庫(kù)上的虛擬RDF視圖[7]。
圖1系統(tǒng)結(jié)構(gòu)圖
4總結(jié)
該文提出一種基于語(yǔ)義Web相關(guān)技術(shù)的學(xué)術(shù)資源整合平臺(tái)模型,它以RDF、OWL本體形式組織學(xué)術(shù)資源,為用戶提供語(yǔ)義查詢的結(jié)構(gòu),通過(guò)OWL-DL的內(nèi)部推理機(jī)制,滿足用戶的推理查詢要求,是對(duì)傳統(tǒng)的查詢系統(tǒng)的一種極大的改進(jìn)。
參考文獻(xiàn):
[1] Antoniou G,Van Harmelen F.A Semantic Web Primer[M].2nd ed.London,Combridge,Massachusettes:The MIT Press,2008.
[2] Klyne G,Carroll J.Resource Description Framework (RDF): Concepts and Abstract Syntax [EB/OL].(2004).W3C Recommendation,http:// www.w3.org/TR/rdf-concepts/.
[3] Gruber T R.A Translation Approach to Portable Ontology Specification[J].Knowledge Acquisition,1993,5(2)
[4] Dublin Core Metadata Element Set, Version 1.1[EB/OL].(2010).http://dublincore.org/documents/dces/.
[5]許卓明,蘇文萍.關(guān)系數(shù)據(jù)庫(kù)模式信息的提取[J].河海大學(xué)學(xué)報(bào):自然科學(xué)版,2005(2).
[6] Prudhommeaux E,Seaborne A.SPARQL Query Language for RDF[EB/OL].(2008).W3C Recommendation,http://www.w3.org/TR/rdf-sparql-query/.
[7] Erling O.Declaring RDF Views of SQL Data[EB/OL].Position paper for the W3C RdfRDB Workshop.( 2007).http://www.w3.org/2007/03/ RdfRDB/papers/erling.html.