郭衛(wèi)兵,臧莉娟
(1.南京理工大學(xué)圖書館/信息化建設(shè)與管理處, 南京 210094;2.南京理工大學(xué)科學(xué)技術(shù)協(xié)會, 南京 210094; 3.南京大學(xué)信息管理學(xué)院,南京 210093)
機構(gòu)知識庫(Institutional Repository,簡稱IR)是開放存取理念下形成的新型學(xué)術(shù)出版與交流模式[1],主要用來長期保存和展示本機構(gòu)的數(shù)字化學(xué)術(shù)資源,以實現(xiàn)多個機構(gòu)間的學(xué)術(shù)交流與共享。隨著信息資源的爆炸式增長和信息化平臺的不斷應(yīng)用,國防科研機構(gòu)在收集并存儲著各類信息資源的同時,形成大量“信息孤島”,一方面信息系統(tǒng)互聯(lián)陷入瓶頸,另一方面信息資源浪費嚴(yán)重[2-3]。機構(gòu)知識庫在世界范圍內(nèi)的學(xué)術(shù)研究與實踐發(fā)展都非常迅速,但我國的研究起步稍晚,其開放獲取意識不強、缺乏規(guī)范、認(rèn)知不夠,也跟不上信息社會發(fā)展的步伐[4]。如何有效的進(jìn)行知識組織、合理的構(gòu)建知識庫、避免“信息孤島”和資源浪費、提供給用戶高質(zhì)量信息服務(wù)成為了國防科研機構(gòu)知識庫建設(shè)亟待解決的一個問題?;ヂ?lián)網(wǎng)之父Berners-Lee提出的關(guān)聯(lián)數(shù)據(jù)(linked of data),是實現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)(web of data)的關(guān)鍵技術(shù),給國防科研機構(gòu)知識庫的構(gòu)建和服務(wù)提供了一種新的解決思路。
關(guān)聯(lián)數(shù)據(jù)的基本原理是強調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系,采用RDF數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實體,來發(fā)布和部署實例數(shù)據(jù)以及其他各類數(shù)據(jù)到數(shù)據(jù)網(wǎng)絡(luò)上,用戶可以通過HTTP協(xié)議解釋這些數(shù)據(jù),并以易于人機理解的語境信息來獲取[5]。關(guān)聯(lián)數(shù)據(jù)遵循四項基本原則:1) 使用URI作為Web上資源的唯一標(biāo)識名稱;2) 任何用戶都可以使用HTTP URI定位并查找到這一資源;3) 當(dāng)某一URI被訪問時,以RDF標(biāo)準(zhǔn)形式返回有用的信息;4) 盡可能返回指向其他URI的相關(guān)鏈接,以便檢索到更多信息[6]。因此,在建設(shè)機構(gòu)知識庫時,可以利用關(guān)聯(lián)數(shù)據(jù)的基本原理和基本原則達(dá)到知識組織、機構(gòu)庫構(gòu)建、資源集成與共享等目的。
關(guān)聯(lián)數(shù)據(jù)支持結(jié)構(gòu)化數(shù)據(jù)的任意關(guān)聯(lián)?;诖髷?shù)據(jù)中客觀實體與抽象概念間所蘊藏的豐富關(guān)聯(lián)關(guān)系,關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)布的方式實現(xiàn)任意結(jié)構(gòu)化數(shù)據(jù)的獲取,同時依托語義網(wǎng)技術(shù)構(gòu)建數(shù)據(jù)資源關(guān)聯(lián)網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)資源語義層面關(guān)聯(lián)關(guān)系,建立數(shù)據(jù)資源發(fā)現(xiàn)機制。眾所周知,資源發(fā)現(xiàn)和數(shù)據(jù)互聯(lián)互通對機構(gòu)知識庫建設(shè)尤其重要,而關(guān)聯(lián)數(shù)據(jù)的資源發(fā)現(xiàn)機制則為國防科研機構(gòu)知識庫的資源發(fā)現(xiàn)和數(shù)據(jù)互聯(lián)互通提供了一種可行的方法。
關(guān)聯(lián)數(shù)據(jù)使用發(fā)布和鏈接具有語義關(guān)系的結(jié)構(gòu)化數(shù)據(jù)的方式使現(xiàn)有的分散異構(gòu)的Web數(shù)據(jù)資源實現(xiàn)語義關(guān)聯(lián),解決了現(xiàn)有Web網(wǎng)絡(luò)信息的粗粒度與語義性缺失的問題,從而促進(jìn)傳統(tǒng)Web網(wǎng)絡(luò)向共享數(shù)據(jù)網(wǎng)絡(luò)演進(jìn)[7]。從關(guān)聯(lián)數(shù)據(jù)的發(fā)展來看,越來越多的機構(gòu)和組織通過遵循關(guān)聯(lián)數(shù)據(jù)發(fā)布原則[8],以開放獲取模式發(fā)布數(shù)據(jù)以與其他數(shù)據(jù)源進(jìn)行語義關(guān)聯(lián)。就國防科研機構(gòu)知識庫而言,其蘊含著大量具有豐富空間屬性的科學(xué)概念和學(xué)術(shù)實體信息,傳統(tǒng)的Web構(gòu)建方式使得它們分散無序而無法作為一個整體發(fā)揮其最大價值;第二,國防科研機構(gòu)知識庫資源的服務(wù)與利用率較低,也由于某些因素不能在網(wǎng)絡(luò)公開,無法與網(wǎng)絡(luò)資源進(jìn)行關(guān)聯(lián)集成。關(guān)聯(lián)數(shù)據(jù)的發(fā)展目標(biāo)及其實踐證明了關(guān)聯(lián)數(shù)據(jù)能夠有效解決當(dāng)前國防科研機構(gòu)知識庫所面臨的問題。
綜上所述,關(guān)聯(lián)數(shù)據(jù)和機構(gòu)知識庫是相輔相成的,應(yīng)用關(guān)聯(lián)數(shù)據(jù)來構(gòu)建國防科研機構(gòu)知識庫并開展相關(guān)信息服務(wù)是一個有效選擇。
國防科研機構(gòu)知識庫中應(yīng)用關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)流程[9]如下:
1) 獲取數(shù)據(jù)網(wǎng)絡(luò)中的關(guān)聯(lián)數(shù)據(jù),將獲取到的關(guān)聯(lián)數(shù)據(jù)進(jìn)行映射解析、提取、合并等處理,形成RDF數(shù)據(jù)庫。之后機構(gòu)知識庫服務(wù)可以通過RDF API或者SPARQL等標(biāo)準(zhǔn)或接口訪問該RDF數(shù)據(jù)庫。
2) 將機構(gòu)知識庫中的實體和抽象概念關(guān)系發(fā)布成關(guān)聯(lián)數(shù)據(jù)格式,建立自身的語義關(guān)聯(lián)關(guān)系,并將數(shù)字對象間的語義關(guān)聯(lián)關(guān)系擴展至已有的關(guān)聯(lián)詞表,使其支持基于SPARQL模式的語義查詢和推理擴展。
3) 利用RDF對機構(gòu)知識庫中的數(shù)據(jù)進(jìn)行語義標(biāo)注并擴展到外部數(shù)據(jù)源。同時返回關(guān)于該數(shù)據(jù)的盡可能多的相關(guān)數(shù)據(jù)資源的統(tǒng)一視圖。
關(guān)聯(lián)數(shù)據(jù)在國防科研機構(gòu)知識庫中的應(yīng)用框架包含5個部分,分別是關(guān)聯(lián)數(shù)據(jù)訪問器、關(guān)聯(lián)數(shù)據(jù)整理器、關(guān)聯(lián)數(shù)據(jù)存儲器、關(guān)聯(lián)數(shù)據(jù)檢索器和關(guān)聯(lián)關(guān)系構(gòu)建器[10]。如圖1所示[10-11]:
圖1 國防科研機構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)應(yīng)用框架示意圖
1) 關(guān)聯(lián)數(shù)據(jù)訪問器。從數(shù)據(jù)網(wǎng)絡(luò)中獲取關(guān)聯(lián)數(shù)據(jù),可以通過RDF DUMP下載、SPARQL端點查詢兩種方式從LOD云圖中的數(shù)據(jù)源中直接獲取。
2) 關(guān)聯(lián)數(shù)據(jù)整理器。分析不同來源的數(shù)據(jù),進(jìn)行數(shù)據(jù)合并、提取、清洗、模式映射、解析等操作,將數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一的容器中,形成增值的數(shù)據(jù)結(jié)果。
3) 關(guān)聯(lián)數(shù)據(jù)存儲器。主要將整合后的關(guān)聯(lián)數(shù)據(jù)以RDF格式保存為RDF數(shù)據(jù),并對其進(jìn)行管理,有臨時性緩存整合后的結(jié)果和采用一個永久性的存儲設(shè)備保存兩種方式。
4) 關(guān)聯(lián)數(shù)據(jù)檢索器。主要提供如SPARQL端點查詢、RDF API等基于RDF數(shù)據(jù)的標(biāo)準(zhǔn)訪問和調(diào)用接口,以便將整合和集成后的關(guān)聯(lián)數(shù)據(jù)融合到國防科研機構(gòu)知識庫應(yīng)用的服務(wù)中。
5) 關(guān)聯(lián)關(guān)系構(gòu)建器。主要建立國防科研機構(gòu)知識庫自身數(shù)據(jù)之間,以及與其他數(shù)據(jù)源之間的關(guān)聯(lián)關(guān)系。通過關(guān)聯(lián)關(guān)系為機構(gòu)知識庫數(shù)據(jù)增值。
傳統(tǒng)的機構(gòu)知識庫不具備資源互操作性,其內(nèi)部數(shù)據(jù)之間、內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)之間缺乏一定的關(guān)聯(lián),給用戶對機構(gòu)知識庫的利用尤其是異構(gòu)庫之間的資源集成與共享帶來一定的不便。關(guān)聯(lián)數(shù)據(jù)能夠?qū)C構(gòu)知識庫中的信息資源轉(zhuǎn)化成語義數(shù)據(jù)并通過URI標(biāo)識,利用RDF關(guān)聯(lián),通過HTTP協(xié)議揭示并獲取,最終實現(xiàn)機構(gòu)知識庫信息資源的集成與共享[12]。依據(jù)關(guān)聯(lián)數(shù)據(jù)的基本原理和傳統(tǒng)機構(gòu)知識庫的構(gòu)建模式,并遵循上文所敘述的關(guān)聯(lián)數(shù)據(jù)在國防科研機構(gòu)知識庫中的應(yīng)用框架,筆者概括并總結(jié)出基于關(guān)聯(lián)數(shù)據(jù)的國防科研機構(gòu)知識庫構(gòu)建,如圖2。
圖2 基于關(guān)聯(lián)數(shù)據(jù)的國防科研機構(gòu)知識庫構(gòu)建框圖
圖3的構(gòu)建框架按照數(shù)據(jù)源從采集、處理到應(yīng)用的過程可以分為數(shù)據(jù)來源層、數(shù)據(jù)描述層、數(shù)據(jù)關(guān)聯(lián)層和數(shù)據(jù)應(yīng)用層等4個層次。數(shù)據(jù)來源層即各機構(gòu)知識庫的結(jié)構(gòu)化數(shù)據(jù)及文本型數(shù)據(jù);數(shù)據(jù)描述層即針對各機構(gòu)知識庫的信息資源用RDF來描述、按照“關(guān)聯(lián)數(shù)據(jù)四項基本原則”發(fā)布到網(wǎng)絡(luò)或內(nèi)網(wǎng)上;數(shù)據(jù)關(guān)聯(lián)層即通過不同來源的資源內(nèi)部可能存在特定的關(guān)聯(lián)關(guān)系將其建立鏈接,形成一個數(shù)據(jù)的網(wǎng)絡(luò);數(shù)據(jù)應(yīng)用層主要是建立關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上的Web應(yīng)用,包括數(shù)據(jù)瀏覽、統(tǒng)一檢索、Web接口等。
傳統(tǒng)的機構(gòu)知識庫構(gòu)建模式有自主模式和聯(lián)盟模式[13]兩種,自主模式是指獨立機構(gòu)以下屬部門為基本單位構(gòu)建屬于該機構(gòu)的機構(gòu)知識庫,該構(gòu)建模式構(gòu)建單位顆粒度小,不便多機構(gòu)間的數(shù)據(jù)共享。聯(lián)盟模式指多個機構(gòu)合作構(gòu)建機構(gòu)知識庫,通過分布采集數(shù)據(jù)提供統(tǒng)一的檢索入口或界面,或通過集中存儲數(shù)據(jù)來實現(xiàn)多機構(gòu)間的資源共享,但該模式構(gòu)建主體不明確,不利于機構(gòu)品牌的建立。基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫構(gòu)建模式將上述兩種構(gòu)建模式有效集合起來,既保證了本機構(gòu)的品牌建設(shè),又能夠很好的實現(xiàn)多個機構(gòu)之間的資源共享。
通過上述分析,關(guān)聯(lián)數(shù)據(jù)在國防科研機構(gòu)知識庫構(gòu)建方面的關(guān)鍵技術(shù)總結(jié)如下:
1) 利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將機構(gòu)知識庫中的數(shù)據(jù)發(fā)布成語義層面的關(guān)聯(lián)數(shù)據(jù)格式。由于傳統(tǒng)機構(gòu)知識庫無法對信息資源進(jìn)行有效的語義描述,信息資源當(dāng)中的實體與抽象概念也無法被外部資源開放獲取[14],因此要實現(xiàn)機構(gòu)知識庫的開放關(guān)聯(lián),就要將其數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式予以發(fā)布。關(guān)聯(lián)數(shù)據(jù)的發(fā)布涉及到數(shù)據(jù)URI命名、詞匯集創(chuàng)建、數(shù)據(jù)RDF描述、發(fā)布模式、發(fā)布工具等問題。
2) 利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對機構(gòu)知識庫進(jìn)行語義標(biāo)注。要實現(xiàn)機構(gòu)知識庫中關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)訪問,就需要對機構(gòu)知識庫中的數(shù)據(jù)進(jìn)行語義標(biāo)注,具體操作就是依據(jù)機構(gòu)知識庫中實體和抽象概念間的各類關(guān)聯(lián)關(guān)系,利用RDF在機構(gòu)知識庫內(nèi)部和外部創(chuàng)建各種類型的RDF語義鏈接,從而利用RDF鏈接機制擴展到外部數(shù)據(jù)源,進(jìn)而實現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)中各機構(gòu)知識庫數(shù)據(jù)的相互關(guān)聯(lián)。
3) 主要涉及到的語義網(wǎng)三大核心技術(shù):RDF、OWL和SAPRQL。RDF (Resource Description Framework)資源描述框架是描述網(wǎng)絡(luò)資源的 W3C 標(biāo)準(zhǔn),本質(zhì)上是一種數(shù)據(jù)模型,它專門用于表達(dá)關(guān)于Web資源的元數(shù)據(jù),比如網(wǎng)頁的標(biāo)題、作者、創(chuàng)建日期、詳細(xì)內(nèi)容等,Web上不同的被RDF描述的資源便可以建立起特定的語義關(guān)聯(lián)[15]。OWL(Ontology Language)是W3C開發(fā)的一種網(wǎng)絡(luò)本體語言,用于對本體進(jìn)行語義描述,其目的是為了更好地開發(fā)語義網(wǎng)[17],它強化了數(shù)據(jù)網(wǎng)絡(luò)中機構(gòu)知識庫數(shù)據(jù)之間的語義關(guān)聯(lián)性,更方便基于關(guān)聯(lián)數(shù)據(jù)的語義關(guān)聯(lián)。SPARQL(Simple Protocol and RDF Query Language)是為RDF開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議[16],用于查詢?nèi)魏我訰DF表示的信息資源,其目標(biāo)就是可以像SQL檢索關(guān)系數(shù)據(jù)庫一樣檢索語義Web,現(xiàn)在SPARQL語言可以對不同類型的RDF資源進(jìn)行集成檢索。
本文中系統(tǒng)設(shè)計的主要目標(biāo)是對國防科研機構(gòu)知識庫進(jìn)行語義擴展以期實現(xiàn)異構(gòu)庫間的資源集成與共享服務(wù)。系統(tǒng)結(jié)構(gòu)如圖3所示。
圖3 系統(tǒng)結(jié)構(gòu)圖
1) 實體關(guān)系的抽取和添加約束
國防科研機構(gòu)知識庫內(nèi)的數(shù)據(jù)來源于機構(gòu)內(nèi)的各個部門,每個部門又可以分為多個子部門和專題,就其內(nèi)容類型來說,又包括了專著、期刊論文、會議論文、學(xué)位論文、專利、演示報告、工作文檔等多種數(shù)據(jù)集,這些數(shù)據(jù)與作者、學(xué)科主題等核心實體有著直接聯(lián)系。如部門及其子部門的上下級關(guān)系、作者與部門的從屬關(guān)系、作者與學(xué)科主題的歸屬關(guān)系、作者間的合作關(guān)系等,可為這些實體及關(guān)系添加約束。在底層數(shù)據(jù)庫設(shè)計時,可將該隱形約束轉(zhuǎn)化為外鍵關(guān)聯(lián)條件。
2) 關(guān)聯(lián)數(shù)據(jù)詞匯集的創(chuàng)建
國防科研機構(gòu)知識庫內(nèi)的數(shù)據(jù)包括了各類實體和抽象概念,以及它們之間的顯性或隱性關(guān)聯(lián)關(guān)系。使用RDF+OWL對這些要素予以描述是關(guān)聯(lián)數(shù)據(jù)構(gòu)建的一個重要環(huán)節(jié),即使用計算機可以理解的語言來描述資源的相關(guān)陳述。關(guān)聯(lián)數(shù)據(jù)構(gòu)建的四項基本原則之一就是盡可能的復(fù)用已有的關(guān)聯(lián)詞表或模型,數(shù)字圖書館領(lǐng)域常用以對象描述的DC、SKOS、FOAF、ISWC、VCARD等元數(shù)據(jù)標(biāo)準(zhǔn)均已實現(xiàn)了全面的關(guān)聯(lián)數(shù)據(jù)化,可用作復(fù)用關(guān)聯(lián)詞表。機構(gòu)知識庫的關(guān)聯(lián)數(shù)據(jù)源需根據(jù)已有的類和屬性來選擇,可用的關(guān)聯(lián)數(shù)據(jù)源有DB Ontology、DBLP Bibliography等。D2R能夠建立關(guān)聯(lián)詞表和關(guān)聯(lián)數(shù)據(jù)源之間的詞匯映射關(guān)系,構(gòu)建符合機構(gòu)知識庫的語義映射模式,形成詞表映射和語義擴展方案。在程序中完成對實體數(shù)據(jù)的RDF語義標(biāo)注和關(guān)聯(lián)后,關(guān)聯(lián)數(shù)據(jù)詞匯集創(chuàng)建完成,此時該數(shù)據(jù)集可關(guān)聯(lián)至外部數(shù)據(jù)源。從其他學(xué)者的經(jīng)驗來看,機構(gòu)知識庫各實體和抽象概念等數(shù)據(jù)對象應(yīng)使用以“http://”+“本機構(gòu)知識庫的域名”開頭的URI進(jìn)行命名,這樣可以保證該URI標(biāo)識能夠被任何遵循HTTP協(xié)議的應(yīng)用程序所解析。
3) 關(guān)聯(lián)數(shù)據(jù)集的發(fā)布
國防科研機構(gòu)知識庫需根據(jù)數(shù)據(jù)特點與機構(gòu)知識庫應(yīng)用需求的特點,進(jìn)行抽取實體、映射RDF等操作,實現(xiàn)機構(gòu)知識庫中各實體與抽象概念的語義描述與之間的關(guān)聯(lián),這樣國防科研機構(gòu)知識庫的信息資源就成為具有語義揭示功能的網(wǎng)絡(luò)化數(shù)據(jù)集。在此基礎(chǔ)上,選擇合理的靜態(tài)RDF文件,利用關(guān)聯(lián)數(shù)據(jù)存儲器,在線生成RDF數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)發(fā)布模式,再利用描述RDF數(shù)據(jù)集的VOID詞表、D2R Server等關(guān)聯(lián)數(shù)據(jù)發(fā)布工具,將RDF關(guān)聯(lián)數(shù)據(jù)集發(fā)布到LOD云或內(nèi)部共享網(wǎng)絡(luò)中,這是實現(xiàn)國防科研機構(gòu)知識庫數(shù)據(jù)關(guān)聯(lián)發(fā)現(xiàn)和開放共享的關(guān)鍵一步。
4) 構(gòu)建共享數(shù)據(jù)網(wǎng)絡(luò)
構(gòu)建關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)首先必須選擇已經(jīng)在LOD網(wǎng)絡(luò)中發(fā)布的合適的機構(gòu)知識庫開放關(guān)聯(lián)數(shù)據(jù)集并與其構(gòu)建鏈接關(guān)系,從而保證國防科研機構(gòu)知識庫本身數(shù)據(jù)能夠與其他機構(gòu)知識庫已發(fā)布的關(guān)聯(lián)數(shù)據(jù)實現(xiàn)關(guān)聯(lián)與共享。根據(jù)國防科研機構(gòu)知識庫中各實體和抽象概念數(shù)據(jù)及其之間的各種關(guān)聯(lián)關(guān)系,利用RDF三元組構(gòu)建和維護(hù)不同機構(gòu)知識庫數(shù)據(jù)集之間的RDF鏈接,進(jìn)而利用這樣的RDF語義鏈接創(chuàng)建多源異構(gòu)機構(gòu)知識庫的復(fù)雜數(shù)據(jù)網(wǎng)絡(luò)以實現(xiàn)各機構(gòu)知識庫數(shù)據(jù)的開放共享、語義關(guān)聯(lián)和重用。RDF構(gòu)建就是機構(gòu)知識庫數(shù)據(jù)集內(nèi)部與外部創(chuàng)建各種類型的語義鏈接,RDF維護(hù)就是對已經(jīng)構(gòu)建的RDF鏈接進(jìn)行修改和刪除操作,保證數(shù)據(jù)的準(zhǔn)確性,構(gòu)建和維護(hù)RDF鏈接可以是人工或自動來進(jìn)行。
關(guān)聯(lián)數(shù)據(jù)實現(xiàn)了Web上存儲資源、通信資源、軟件資源、知識資源等資源的鏈接和連通[18],其在國防科研機構(gòu)知識庫上的應(yīng)用為用戶提供了新的服務(wù)模式。主要表現(xiàn)如下。
1) 資源檢索和發(fā)現(xiàn)
傳統(tǒng)的機構(gòu)知識庫在資源檢索方面存在一些不足,如不同形式的作者、不同機構(gòu)或部門的檢全率不高、檢索結(jié)果無法進(jìn)行語義擴展等。基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國防科研機構(gòu)知識庫采用規(guī)范文檔和詞表提供擴展檢索服務(wù),如同義詞擴展檢索、上下位詞擴展檢索、語義擴展檢索等,有效地解決了上述不足。
傳統(tǒng)的機構(gòu)知識庫在信息的創(chuàng)建、管理、傳遞和共享方面也存在明顯不足,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國防科研機構(gòu)知識庫則提供了資源的發(fā)現(xiàn)和導(dǎo)航服務(wù)。關(guān)聯(lián)數(shù)據(jù)豐富了機構(gòu)知識庫現(xiàn)有元數(shù)據(jù),并擴展到外部關(guān)聯(lián)數(shù)據(jù)源,提供了外部相關(guān)資源的關(guān)聯(lián)訪問,加強了國防科研機構(gòu)知識庫與其他相關(guān)資源的鏈接。
2) 資源集成與共享
傳統(tǒng)的機構(gòu)知識庫跨機構(gòu)合作和共享數(shù)據(jù)能力弱,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的機構(gòu)知識庫以LOD中機構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)集為基礎(chǔ),利用RDF鏈接構(gòu)建了機構(gòu)知識庫共享數(shù)據(jù)網(wǎng)絡(luò),提供了更強的跨機構(gòu)合作和資源共享能力,也為第三方提供了便利的底層數(shù)據(jù)存取方式。 即只要某機構(gòu)知識庫創(chuàng)建了關(guān)聯(lián)數(shù)據(jù)集并發(fā)布至LOD中,便可共享LOD中其他機構(gòu)知識庫的關(guān)聯(lián)數(shù)據(jù),同時第三方也可方便地存取該關(guān)聯(lián)數(shù)據(jù)。
3) 知識處理和挖掘
關(guān)聯(lián)數(shù)據(jù)與生俱來的關(guān)聯(lián)特性使得關(guān)聯(lián)數(shù)據(jù)自出現(xiàn)起就與知識組織、知識處理等方面有著密不可分的關(guān)系。關(guān)聯(lián)數(shù)據(jù)為機構(gòu)知識庫中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了語義標(biāo)注,也使基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國防科研機構(gòu)知識庫變得適合進(jìn)行數(shù)據(jù)挖掘。
1) 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用有助于解決國防科研機構(gòu)知識庫的“信息孤島”和資源浪費問題。發(fā)布于LOD云中的機構(gòu)知識庫可以與其他資源建立關(guān)聯(lián),成為數(shù)據(jù)網(wǎng)絡(luò)的一份子。
2) 本文依據(jù)關(guān)聯(lián)數(shù)據(jù)的四項基本原則構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國防科研機構(gòu)知識庫的應(yīng)用框架和基本框架,能夠利用關(guān)聯(lián)數(shù)據(jù)的資源發(fā)現(xiàn)機制,通過機構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)詞匯集的創(chuàng)建、關(guān)聯(lián)數(shù)據(jù)集的發(fā)布和數(shù)據(jù)網(wǎng)絡(luò)的構(gòu)建等系列操作,實現(xiàn)國防科研機構(gòu)知識庫數(shù)據(jù)資源的資源集成與開放共享。
3) 期望通過本文的研究對我國國防科研機構(gòu)知識庫的建設(shè)和服務(wù)提供參考與借鑒。本文所設(shè)計的應(yīng)用框架和系統(tǒng)結(jié)構(gòu)可能還存在需要完善的地方,另外對于服務(wù)模式尤其是知識挖掘部分也未進(jìn)行詳細(xì)的探討。這兩個方面都將是后續(xù)研究的重點。