周晨
摘 要 當(dāng)前數(shù)字圖書館聯(lián)合目錄知識庫發(fā)展面臨新挑戰(zhàn),實現(xiàn)數(shù)字圖書館書目數(shù)據(jù)關(guān)聯(lián)化具有現(xiàn)實意義,論文研究了基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館聯(lián)合目錄知識庫的構(gòu)建,指出了數(shù)字圖書館聯(lián)合目錄知識庫的運(yùn)維條件。
關(guān)鍵詞 關(guān)聯(lián)數(shù)據(jù) 數(shù)字圖書館 聯(lián)合目錄 知識庫
分類號 G250.74
DOI 10.16810/j.cnki.1672-514X.2018.07.013
Abstract Nowadays the development of union catalog knowledge base in digital libraries is facing new challenges, which endows realizing the book-data association with practical significance. In this paper, the construction of knowledge base based on associated data is studied, and its operation and maintenance conditions are stated.
Keywords Associated data. Digital library. Union catalog. Knowledge base.
我國圖書館聯(lián)合目錄知識庫建設(shè)已經(jīng)有多年的歷史,是不同圖書館之間協(xié)調(diào)藏書、拓展讀者范圍的有效方式[1]。隨著數(shù)字化資源的增多與學(xué)術(shù)交流環(huán)境的變化,數(shù)字圖書館開始著手建設(shè)虛擬聯(lián)合目錄,用于處理龐大繁雜的數(shù)字化資源,但收效并不顯著。采用何種技術(shù)處理異構(gòu)分布的數(shù)據(jù)資源,加快館藏資源聯(lián)合編目速度,促進(jìn)數(shù)字圖書館優(yōu)化聯(lián)合目錄管理模式,成為圖書館界需要考慮的問題。
2006年,關(guān)聯(lián)數(shù)據(jù)(Linked Data) 技術(shù)的提出,解決了語義網(wǎng)環(huán)境下數(shù)據(jù)資源的格式規(guī)范問題,對于數(shù)據(jù)鏈接、發(fā)布與傳播的有序性,整合開放信息資源、促進(jìn)數(shù)據(jù)語義關(guān)聯(lián)方面具有顯著優(yōu)勢。在數(shù)據(jù)庫中通過發(fā)現(xiàn)不同數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),實現(xiàn)不同信息資源的關(guān)聯(lián)化,形成機(jī)器可以識別的語言,進(jìn)而構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的信息網(wǎng)絡(luò)。關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字圖書館聯(lián)合目錄知識庫建設(shè),將從根本上解決數(shù)據(jù)不兼容問題,從館藏書目關(guān)聯(lián)化、內(nèi)容組織等方面,進(jìn)一步優(yōu)化數(shù)字圖書館知識服務(wù)環(huán)境。
1 我國數(shù)字圖書館聯(lián)合目錄知識庫發(fā)展面臨的挑戰(zhàn)
1.1 聯(lián)合目錄的概念
聯(lián)合目錄是不同圖書館共同建立的館藏目錄,旨在集中揭示區(qū)域圖書館文獻(xiàn)收藏情況,保障共知、共建和共享。其隨著圖書館自動化建設(shè)進(jìn)程,以及信息技術(shù)的進(jìn)步而不斷變化。紙質(zhì)圖書聯(lián)合目錄是最早的編目形式,但是由于紙質(zhì)圖書聯(lián)合目錄的編制時間較長,需要協(xié)調(diào)多個機(jī)構(gòu)之間的關(guān)系,存在信息滯后性,很難客觀反映不同成員館的藏書變化情況,因此僅用于手工編目階段。計算機(jī)技術(shù)的進(jìn)步,為圖書館的聯(lián)機(jī)編目提供了便利[2]。1967年,美國某高校圖書館建立了最大的聯(lián)機(jī)書目系統(tǒng),創(chuàng)建了對應(yīng)的WLN網(wǎng)絡(luò),此后,發(fā)達(dá)國家紛紛構(gòu)建聯(lián)機(jī)編目體系,促進(jìn)了跨地域、跨國家聯(lián)合目錄的發(fā)展。
1.2 聯(lián)合目錄知識庫
多個圖書館采用統(tǒng)一的聯(lián)合目錄,構(gòu)建對應(yīng)的館藏文獻(xiàn)存儲與檢索系統(tǒng),實現(xiàn)聯(lián)合目錄數(shù)據(jù)的在線下載、編著與加工等,這就是聯(lián)合目錄知識庫。其屬于區(qū)域文獻(xiàn)資源流通中心,由多個圖書館共同維護(hù),真正實現(xiàn)了資源共知和共享。聯(lián)合目錄知識庫大多采取自由聯(lián)合管理模式,即成員館以自由、自愿的原則,達(dá)成資源共建的共識,自愿以某一圖書館為中心,在此基礎(chǔ)上增加全新的文獻(xiàn)聯(lián)合目錄,不斷填充知識庫信息。目前,我國建成的經(jīng)典聯(lián)合目錄知識庫,當(dāng)屬科技部的“九五”攻關(guān)項目成果“中科院國家科學(xué)數(shù)字圖書館(CSDL)”[3]。這一數(shù)字圖書館項目以中國科學(xué)院情報中心為主體,由多家圖書館共同參與建設(shè)的期刊聯(lián)合目錄數(shù)據(jù)庫,建設(shè)主體涵蓋了中科院系統(tǒng)圖書館、公共圖書館、高校圖書館、重要情報機(jī)構(gòu)等多種類型,屬于數(shù)字圖書館聯(lián)合服務(wù)體系。
1.3 聯(lián)合目錄知識庫發(fā)展現(xiàn)狀
隨著我國圖書館書目由手工編制變?yōu)闄C(jī)讀形式,聯(lián)合目錄也發(fā)生了很大的變化。聯(lián)合目錄知識庫是不同圖書館之間文獻(xiàn)流通的基礎(chǔ),對于聯(lián)合目錄的管理分為兩種模式,即集中式聯(lián)合目錄與虛擬聯(lián)合目錄。前者是通過構(gòu)建統(tǒng)一的數(shù)據(jù)庫,實現(xiàn)對館藏書目數(shù)據(jù)的統(tǒng)一管理;后者是通過對館藏書目進(jìn)行虛擬整合,設(shè)計統(tǒng)一的在線檢索界面,方便用戶檢索時隨時查詢不同圖書館的信息。傳統(tǒng)的集中式聯(lián)合目錄管理方式,其數(shù)據(jù)存儲具有統(tǒng)一的格式,用戶檢索效率高,但無法反映成員館的信息流通情況,對于館藏規(guī)模也有一定的限制。采用虛擬聯(lián)合目錄方式,只需成員館各自構(gòu)建數(shù)據(jù)庫,無需進(jìn)行集中管理,僅在用戶檢索時集中調(diào)配數(shù)據(jù)[4]。然而這種方式的弊端在于,用戶檢索請求響應(yīng)效率低,各館信息格式難以統(tǒng)一,檢索結(jié)果的整合與排序難度大,有必要引入更加高效的數(shù)據(jù)處理技術(shù),保障虛擬聯(lián)合目錄的應(yīng)用效果。
2 數(shù)字圖書館書目數(shù)據(jù)關(guān)聯(lián)化及現(xiàn)實意義
語義網(wǎng)技術(shù)的進(jìn)步為數(shù)據(jù)資源快速識別、定位與挖掘提供了便利,若將以語義網(wǎng)為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)引入聯(lián)合目錄中,可為書目數(shù)據(jù)整合提供統(tǒng)一的數(shù)據(jù)模型,并優(yōu)化聯(lián)合目錄管理方式,這將成為數(shù)字圖書館未來發(fā)展的重點,也將促使數(shù)字圖書館真正成為知識服務(wù)樞紐。
2.1 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用
關(guān)聯(lián)數(shù)據(jù)自提出至今,一直受到圖書館界的廣泛關(guān)注。很多圖書館積極引入關(guān)聯(lián)數(shù)據(jù),并在館藏資源關(guān)聯(lián)化方面進(jìn)行了有益探索[5]。數(shù)字圖書館作為數(shù)據(jù)組織傳播中心,其存儲的大量規(guī)范數(shù)據(jù)資源,與聯(lián)合目錄相關(guān)的主題詞、MARC數(shù)據(jù)等,都為發(fā)布關(guān)聯(lián)數(shù)據(jù)奠定了基礎(chǔ)。實現(xiàn)館藏數(shù)據(jù)與互聯(lián)網(wǎng)資源的融合,不僅需要將數(shù)字圖書館有價值的信息轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)發(fā)布至網(wǎng)絡(luò)中,也需要館藏資源與其它機(jī)構(gòu)資源的語義關(guān)聯(lián),只有促進(jìn)異構(gòu)資源的融合與互操作,才能為數(shù)據(jù)資源發(fā)現(xiàn)提供便利,為用戶提供更多有用的知識。早在2008年,瑞典國家圖書館就引入關(guān)聯(lián)數(shù)據(jù),實現(xiàn)了聯(lián)合目錄的關(guān)聯(lián)化,成為全球第一個將聯(lián)合目錄發(fā)布為關(guān)聯(lián)數(shù)據(jù)的圖書館。瑞典國家圖書館應(yīng)用了本體和元數(shù)據(jù)規(guī)范詞表,結(jié)合圖情學(xué)領(lǐng)域?qū)I(yè)詞匯,將書目變?yōu)榻Y(jié)構(gòu)化的關(guān)聯(lián)數(shù)據(jù)格式,為其它圖書館關(guān)聯(lián)數(shù)據(jù)的應(yīng)用提供了借鑒。
2.2 圖書館書目數(shù)據(jù)關(guān)聯(lián)化
圖書館書目數(shù)據(jù)的關(guān)聯(lián)化,就是將館藏書目轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)格式,促進(jìn)書目數(shù)據(jù)與網(wǎng)絡(luò)資源的整合,使之成為互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)模式。數(shù)字圖書館對書目數(shù)據(jù)的關(guān)聯(lián)化操作,需要借助URI記錄書目名稱,然后利用URI鏈接獲取更多關(guān)聯(lián)對象,方便用戶通過互聯(lián)網(wǎng)定位書目信息,發(fā)現(xiàn)更多與館藏書目相關(guān)的內(nèi)容。具體而言,就是通過整合館藏書目資源,根據(jù)不同的主題、編著方式、名稱規(guī)范等,賦予對應(yīng)的唯一URI標(biāo)識,以建立與URI對應(yīng)的鏈接,方便用戶根據(jù)不同的主題、名稱等,迅速定位所需的數(shù)據(jù)資源,并且根據(jù)URI鏈接進(jìn)行拓展檢索,獲得更多相關(guān)信息。數(shù)字圖書館需要解決的核心問題,就是如何對聯(lián)合目錄進(jìn)行分解,使之成為獨立的書目數(shù)據(jù),即最小的書目信息記錄單元[6]。這個步驟的實施目的在于保障URI標(biāo)識的唯一性,通過URI實現(xiàn)信息鏈接,以發(fā)現(xiàn)更多有意義的內(nèi)容。
2.3 書目數(shù)據(jù)關(guān)聯(lián)化的現(xiàn)實意義
數(shù)字圖書館書目數(shù)據(jù)關(guān)聯(lián)化,不僅是實現(xiàn)數(shù)據(jù)開放共享的方式,讓書目數(shù)據(jù)能夠借助語義網(wǎng)廣泛傳播。經(jīng)過關(guān)聯(lián)化的館藏書目信息,不僅向本館用戶開放,也面向其它信息機(jī)構(gòu),任何用戶利用互聯(lián)網(wǎng)檢索或URI鏈接,都可以查到相關(guān)書目信息。書目數(shù)據(jù)關(guān)聯(lián)化的意義,在于為用戶提供知識發(fā)現(xiàn)服務(wù),實現(xiàn)檢索拓展,建立更有價值的鏈接,通過詳細(xì)描述書目信息,促進(jìn)相關(guān)內(nèi)容的高度集成。關(guān)聯(lián)數(shù)據(jù)實現(xiàn)了異構(gòu)信息整合,讓用戶在檢索書目時可以了解出版社、作者等相關(guān)內(nèi)容,或者獲取國外圖書館的相關(guān)鏈接,促進(jìn)多層次知識內(nèi)容集成。數(shù)字圖書館建立關(guān)聯(lián)書目數(shù)據(jù),不僅是豐富館藏的有效方式,也是吸引讀者的必要手段。例如,瑞典國家圖書館的數(shù)據(jù)關(guān)聯(lián)化,主要目標(biāo)就是通過與移動運(yùn)營商合作,借助XML等數(shù)據(jù)關(guān)聯(lián)格式,方便用戶利用互聯(lián)網(wǎng)檢索館藏書目,吸引更多用戶利用館藏資源。
3 基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館聯(lián)合目錄知識庫的構(gòu)建
基于關(guān)聯(lián)數(shù)據(jù)的聯(lián)合目錄知識庫,涉及到多種資源的整合加工,并非單個機(jī)構(gòu)可以完成的。數(shù)字圖書館首先需要與合作機(jī)構(gòu)協(xié)商,建立專門的知識庫責(zé)任小組,選擇專門人員從事知識庫研究工作,探索系統(tǒng)平臺搭建方法。同時對各成員館的開放書目數(shù)據(jù)進(jìn)行統(tǒng)一收集整理,鼓勵用戶將已有資源上傳至知識庫中,不斷豐富聯(lián)合知識庫資源,真正實現(xiàn)聯(lián)合目錄的開放共享。
3.1 知識庫系統(tǒng)框架
數(shù)字圖書館首先需要建立與聯(lián)合目錄知識庫相關(guān)的軟件平臺,根據(jù)各成員館的實際需求,分析現(xiàn)有開源軟件平臺的性能,結(jié)合自身人力與財力情況,選擇合適的開源軟件作為系統(tǒng)架構(gòu)搭建工具。在軟件平臺搭建階段,需要做好用戶調(diào)研工作,根據(jù)調(diào)研結(jié)果,制定合理的平臺建設(shè)方案,并在實際操作中適時調(diào)整不同模塊的功能。數(shù)字圖書館通過與第三方軟件服務(wù)商合作,可以增加軟件平臺功能,或者借助本地化工具構(gòu)建適宜的知識庫平臺。系統(tǒng)平臺要求具備文獻(xiàn)集成功能,可以利用Note Express軟件進(jìn)行數(shù)據(jù)批量管理,將知識庫與個人數(shù)據(jù)管理結(jié)合起來,提升書目資源傳輸效率。整個軟件平臺的搭建可分為應(yīng)用層、邏輯層與存儲層三部分,每一層對應(yīng)不同的功能組件,不同層級之間由專用接口相連,實現(xiàn)信息傳輸與資源調(diào)用。其中存儲層可實現(xiàn)元數(shù)據(jù)的存儲管理與數(shù)據(jù)庫的互操作,邏輯層負(fù)責(zé)業(yè)務(wù)數(shù)據(jù)的傳輸、調(diào)配與文件管理,應(yīng)用層可實現(xiàn)對各類資源與功能組件的統(tǒng)一管理,實現(xiàn)系統(tǒng)與外界的關(guān)聯(lián)。平臺基本邏輯框架如圖1所示。
3.2 數(shù)據(jù)加工處理
數(shù)字圖書館知識庫建設(shè)依據(jù)我國圖書館分類法規(guī),全部采用機(jī)讀目錄格式。在書目數(shù)據(jù)加工整合過程中,首先做好數(shù)據(jù)篩選抽查工作,分析各成員館的數(shù)據(jù)質(zhì)量,確定不同圖書館的數(shù)據(jù)接收順序。其次,分析不同數(shù)據(jù)源存在的差異,做好數(shù)據(jù)清洗與預(yù)處理工作,實現(xiàn)異構(gòu)數(shù)據(jù)有序整合。對書目數(shù)據(jù)的加工處理,需要根據(jù)系統(tǒng)設(shè)置做好關(guān)鍵字段對比工作,并在數(shù)據(jù)導(dǎo)入時進(jìn)行詳細(xì)登記與標(biāo)注,以避免相同數(shù)據(jù)被重復(fù)錄入而降低工作效率。系統(tǒng)核查功能模塊設(shè)置的基本字段包括出版來源、ISBN等,系統(tǒng)通過綜合分析三個以上字段,判斷書目數(shù)據(jù)是否具有唯一性,進(jìn)而做好相同數(shù)據(jù)的過濾工作。若經(jīng)過核查發(fā)現(xiàn)ISBN等字段相同,就需要查詢書目數(shù)據(jù)的出版著錄日期,以分析是否為相同數(shù)據(jù),進(jìn)而實現(xiàn)數(shù)據(jù)去重。由于大規(guī)模數(shù)據(jù)回溯與去重工程量大,很可能出現(xiàn)問題字段,需要做好數(shù)據(jù)修補(bǔ)、維護(hù)工作,以保障數(shù)據(jù)加工質(zhì)量。
3.3 業(yè)務(wù)規(guī)則設(shè)計
業(yè)務(wù)規(guī)則設(shè)計是避免聯(lián)合目錄知識庫建設(shè)質(zhì)量問題的基礎(chǔ),是降低返工率的保障。知識庫中相同文獻(xiàn)僅保留一條標(biāo)記,避免數(shù)據(jù)量過多使得文獻(xiàn)標(biāo)識分散。根據(jù)書目數(shù)據(jù)匹配原則,數(shù)字圖書館可以根據(jù)書目質(zhì)量評估,確定被保留書目的優(yōu)先級[7]。制定書目數(shù)據(jù)共享規(guī)則,是保障聯(lián)合目錄共建、共享的基礎(chǔ)。原則上,數(shù)字圖書館的所有書目數(shù)據(jù)均應(yīng)該開放共享,本著不重復(fù)、互利互惠的原則,聯(lián)合目錄知識庫中的所有資源,不僅服務(wù)于所有成員館,也應(yīng)該提供給其它信息機(jī)構(gòu),以促進(jìn)我國聯(lián)合編目體系的發(fā)展。但是目前很多圖書館由于人員編制、館藏結(jié)構(gòu)的限制,無法一步到位地實現(xiàn)全開放式服務(wù),這種情況下可以采用分布實施的方法,設(shè)計統(tǒng)一的圖書館書目檢索規(guī)則,方便用戶獲取不同來源的信息;同時應(yīng)在書目數(shù)據(jù)聯(lián)合共建基礎(chǔ)上,提供更高層次的知識服務(wù),提高館藏資源流通率。
4 數(shù)字圖書館聯(lián)合目錄知識庫的運(yùn)維條件研究
數(shù)字圖書館聯(lián)合目錄是反映多個文獻(xiàn)機(jī)構(gòu)館藏圖書的目錄,多由不同的機(jī)構(gòu)遵循統(tǒng)一的著錄規(guī)范編制而成。而聯(lián)合目錄知識庫的構(gòu)建,有助于集中揭示多個文獻(xiàn)機(jī)構(gòu)的藏書情況,方便文獻(xiàn)檢索、館際互借與數(shù)據(jù)整合。為保障聯(lián)合目錄知識庫的有序運(yùn)作,數(shù)字圖書館需要強(qiáng)化區(qū)域合作,實現(xiàn)聯(lián)合目錄集中式管理,并做好安全維護(hù)工作。
4.1 聯(lián)合目錄集中式管理
數(shù)字圖書館聯(lián)合目錄的集中式管理,就是將成員館已有的聯(lián)合目錄數(shù)據(jù)集,存儲在特定語義倉儲中,實現(xiàn)統(tǒng)一調(diào)配與管理,如圖2所示。該語義倉儲設(shè)置了不同成員館的訪問權(quán)限,用于存放包含URI標(biāo)識的規(guī)范數(shù)據(jù),以及包括實例、成員館信息的三元組等,各成員館也可以建立本地數(shù)據(jù)庫,實現(xiàn)與中心倉儲的實時信息交換。中心倉儲與成員館的數(shù)據(jù)同步,可以采用增量同步、批量同步兩種方式。前者結(jié)合了聯(lián)機(jī)編目與語義聯(lián)合編目,當(dāng)成員館獲得新資源后,首先對本體數(shù)據(jù)庫進(jìn)行檢索,了解其中是否存在對應(yīng)的信息;若沒有則向中心倉儲發(fā)送檢索請求;若中心倉儲已有該資源,則由成員館直接存儲,若無則上傳至中心倉儲。為避免各成員館數(shù)據(jù)更新的滯后性,可以在中心倉儲與本地數(shù)據(jù)庫間建立同步機(jī)制,若中心倉儲發(fā)生數(shù)據(jù)變動,則向各成員館發(fā)布通知,避免書目數(shù)據(jù)重復(fù)建設(shè)。