付 博
(國家開放大學 學習資源部(數(shù)字圖書館),北京 100039)
在網(wǎng)絡與信息技術(shù)發(fā)展過程中,數(shù)字圖書館不但沿襲了傳統(tǒng)圖書館的功能,還提供集成高效的一站式數(shù)字資源訪問服務。數(shù)字圖書館的建設一方面加速了信息與知識的集成與整合,另一方面也利用數(shù)據(jù)挖掘與可視化等技術(shù),為讀者提供科學有效的基于數(shù)字資源的精細化服務。
開放大學是一所沒有圍墻的新型大學,面向社會所有成員,打造基于網(wǎng)絡自主學習、遠程學習支持服務與面授輔導相結(jié)合的新型學習模式。開放大學數(shù)字圖書館已建設具有開放大學特色、專業(yè)特色和區(qū)域特色相結(jié)合的文獻資源體系,為開放大學師生提供“時時、處處、人人”的數(shù)字資源服務。隨著開放大學數(shù)字圖書館的發(fā)展,數(shù)字資源體量激增,在為開放大學師生提供服務的同時,也面臨數(shù)字資源組織粒度過于粗放、無法提供專業(yè)個性化服務的挑戰(zhàn)。近年的研究中,大多集中在數(shù)字圖書館的概念、功能、技術(shù)特征、服務模式等相關(guān)問題,對其數(shù)據(jù)架構(gòu)的探討涉及甚少。本文旨在從OAIS參考模型出發(fā),構(gòu)筑開放大學數(shù)字圖書館數(shù)據(jù)架構(gòu),以保證數(shù)字資源組織粒度的精細和科學,能夠為讀者提供深層次服務。
開放大學數(shù)字圖書館面向開放大學辦學體系,覆蓋地域廣,輻射人群廣,系統(tǒng)和平臺建設應遵循開放式的架構(gòu),功能模塊可以根據(jù)實際情況進行組合,數(shù)據(jù)在每個功能模塊之間能夠無縫銜接,同時也可以接入和整合不同來源的文獻信息服務系統(tǒng)。在以開放大學自有學科和專業(yè)為主線進行數(shù)字文獻資源的分類、揭示和呈現(xiàn)的基礎上,根據(jù)開放大學讀者群體復雜多樣的現(xiàn)實情況,通過語音輸入、二維碼掃描、智能檢索、自動化識別等技術(shù)手段,以及語音引導、網(wǎng)絡機器人引導等服務手段,輔助讀者順利獲取所需數(shù)字資源。
數(shù)據(jù)時代,數(shù)據(jù)是最有價值的資產(chǎn)。隨著富媒體、移動閱讀及智能終端的普及,數(shù)字圖書館所擁有和處理的數(shù)據(jù)呈現(xiàn)多樣性、多結(jié)構(gòu)和海量遞增的趨勢。在信息浪潮中,數(shù)字圖書館已從過去的資源集中型服務,逐步轉(zhuǎn)變?yōu)橐詳?shù)字資源服務保障為核心的個性化專業(yè)化服務。因此,數(shù)據(jù)的價值關(guān)系到數(shù)字圖書館的服務創(chuàng)新能力和資源保障能力。隨著讀者需求的不斷增長與變化,數(shù)字圖書館面臨著業(yè)務種類增多、數(shù)據(jù)存儲成本激增、服務質(zhì)量需要保證等挑戰(zhàn),同時,為了滿足用戶需求,需要將碎片化的信息進行重組和整合,實現(xiàn)從“資源進來”到“服務出去”的角色轉(zhuǎn)變,這對于數(shù)據(jù)可控性有效性的要求也隨之增加。
目前數(shù)字圖書館以數(shù)據(jù)庫為單位進行粗放式的數(shù)字文獻管理,無法提供更加精準專業(yè)的資源服務,因此,需要將海量的數(shù)字資源重新進行組織,縮小管理單元,基于元數(shù)據(jù)的采集和管理,對已有數(shù)據(jù)庫中的電子圖書、期刊、學位論文、會議論文等文獻進行重新整合,將分布在各數(shù)據(jù)庫中零散的數(shù)字資源整合成統(tǒng)一有序的數(shù)字資源集合,并以此為基礎對數(shù)字圖書館的所有文獻進行重組和集成。
在建設過程中,既要全面記錄數(shù)字圖書館所有的文檔、數(shù)據(jù)、圖片、音視頻等多種媒體格式的數(shù)字資源外,還要強化包括商業(yè)數(shù)據(jù)庫、自建特色資源、OA資源以及讀者大數(shù)據(jù)在內(nèi)的多種資源,結(jié)合讀者需求,為不同層次的讀者提供基于元數(shù)據(jù)的數(shù)字資源服務。
OAIS參考模型,即Reference Model for an Open Archive Information System是由太空數(shù)據(jù)系統(tǒng)咨詢委員會(CCSDS)與美國國家航空和航天局(NASA)聯(lián)合制定的一項標準。由于該模型致力于數(shù)字資源的長期保存,因此采用率很高,使用領(lǐng)域包括政府部門及數(shù)字圖書館等等[1]。OAIS定義了生產(chǎn)者、消費者與管理者三類角色,這三類角色分別與OAIS進行交互,提供、管理或獲取相應的信息。
OAIS的功能模型提供了其六大功能實體,他們共同完成OAIS的采集、管理與服務功能。
下圖是OAIS的功能模型。
圖1 OAIS功能模型
他們分別是:
1.攝取功能(Ingest):提交信息包(SIP ,Submission Information Package)由攝取功能從信息提交者處獲取,具有完整性檢查功能。同時該功能還負責將與信息包相對應的元數(shù)據(jù)交給數(shù)據(jù)管理功能模塊,將信息包中的數(shù)字信息轉(zhuǎn)換成長期保存的存檔信息包(AIP,Archival Information Package),傳遞給資源存儲功能模塊進行保存。
2.資源存儲功能(Archival Storage):對AIP的存儲、檢索和維護提供服務,是OAIS長期保存的核心。在對AIP進行存儲時,也會接收并響應從獲取功能提出的檢索請求,同時也履行日常校驗職責與災備功能。
3.數(shù)據(jù)管理功能(Data Management):數(shù)據(jù)管理功能負責關(guān)于數(shù)字信息單元的元數(shù)據(jù)管理,以及關(guān)于數(shù)字資源來源、技術(shù)、系統(tǒng)等的元數(shù)據(jù),并提供對這些元數(shù)據(jù)的檢索與管理。包括數(shù)據(jù)庫更新、檢索請求執(zhí)行、生成相應的報告等。
4.獲取功能(Access):直接服務用戶,向用戶提供檢索界面及檢索機制,將AIP轉(zhuǎn)換為適合用戶使用的分發(fā)信息包(DIP,Dissemination Information Package),同時進行安全及訪問權(quán)限控制等。
5.系統(tǒng)管理功能(Administration):負責全局管理,為整個系統(tǒng)運行提供支持與保證,包括資源審核、軟硬件配置的維護、日志記錄等等。通過相關(guān)的政策和規(guī)范,監(jiān)測和控制整個系統(tǒng)與各個功能的運行,保證系統(tǒng)能夠長期為用戶所用。
6.保存規(guī)劃功能(Preservation Planning):屬于全局管理的一部分,主要功能為:檢測OAIS環(huán)境、制定保存策略、評估保存數(shù)據(jù)、開發(fā)保存環(huán)境、檢測技術(shù)環(huán)境等,主要是為了保證用戶在任何情況下都能長期獲取數(shù)字資源。
OAIS的信息包(Information Package)的概念,被用來具體說明數(shù)字信息的流動與轉(zhuǎn)換。信息包將保存描述信息和內(nèi)容信息打包并封裝標識。下圖是OAIS中的信息模型。
圖2 OAIS信息模型
OAIS將在不同功能模塊中流轉(zhuǎn)的信息單元區(qū)分為提交信息包(SIP)、存檔信息包(AIP)和分發(fā)信息包(DIP)。其中:
1.提交信息包(SIP)是OAIS從信息生產(chǎn)者處接收并最后納入系統(tǒng),是整個數(shù)字資源處理的源頭。SIP中在轉(zhuǎn)化成AIP時,并不是一一對應的。
2.在OAIS中,一個或多個SIP會因為長期保存的需要被轉(zhuǎn)換成AIP。AIP有一系列完整的保存描述信息和內(nèi)容信息。
3.分發(fā)信息包(DIP)是OAIS傳遞給用戶的信息形式。一個DIP也可能包括多個AIP,描述信息也會根據(jù)特定的需要而附上。打包信息(PI)使消費者可以明確地辨別出所要的信息。
關(guān)于OAIS參考模型的研究,在國際和國內(nèi)都有廣泛的開展。在我國,目前的研究主要集中在數(shù)字檔案館的構(gòu)建和中文元數(shù)據(jù)的方案與標準中。
在數(shù)字檔案館的構(gòu)建研究中,孫毛毛[2]對數(shù)字檔案對象各個業(yè)務環(huán)節(jié)進行分析,探索了開放性數(shù)字檔案管理系統(tǒng)的基本架構(gòu),并對設計與實現(xiàn)問題進行了研究。王楊帆、韓家新[3]指出數(shù)字檔案館建設成功的關(guān)鍵是系統(tǒng)的結(jié)構(gòu)設計,并認為系統(tǒng)應由檔案數(shù)據(jù)建設系統(tǒng)、系統(tǒng)管理平臺、檔案信息發(fā)布系統(tǒng)、工作流系統(tǒng)、檔案數(shù)據(jù)存儲系統(tǒng)和元數(shù)據(jù)倉儲系統(tǒng)組成。楊飛[4]認為OAIS的價值實現(xiàn)路徑是:目標——促進完善檔案信息化和提升檔案管理水平,基礎——館藏數(shù)字化空間虛擬化,手段——資源網(wǎng)絡化傳輸,保障——安全管理,目的——信息資源共享化,服務對象及需求擴大化,方便用戶利用。肖秋會[5]論證和評價OAIS的功能模型和信息模型在數(shù)字檔案資源庫建設中的適用性問題,并對我國的數(shù)字檔案館建設及功能評估提出幾點啟示。在實踐中,深圳市檔案館、珠海市城建檔案館、青島市電子文件中心的數(shù)字檔案館建設都是基于OAIS模型,設計出根據(jù)本館特點,具體情況具體分析,量身定制出適合自己的系統(tǒng)模塊。[9]
中文元數(shù)據(jù)方案與標準制定中,由中國國家圖書館牽頭,“中文元數(shù)據(jù)標準”課題組擬定了《中文元數(shù)據(jù)方案》討論稿。此方案的設計大都參考了OAIS模型,形成了元數(shù)據(jù)框架。用戶可以對中文數(shù)宇信息進行訪問[6]。我國較早建立的基于OAIS的元數(shù)據(jù)標準是由國家檔案局科研所、深圳市檔案局、深圳世紀科怡公司三家合作研制的《電子文件元數(shù)據(jù)標準》,其元數(shù)據(jù)的制定框架遵循了OAIS中的信息模型,采用了當中的術(shù)語及概念。[7]國外的理論研究中也提出了很多元數(shù)據(jù)構(gòu)建方案,如來自美國匹茲堡大學的David Bearman等人提出了利用歷史層、內(nèi)容層、背景層、結(jié)構(gòu)層、條件層、指示層六層機構(gòu)模型,還有學者分出了管理型、維護型、技術(shù)型、描述型、使用型元數(shù)據(jù)及其他元數(shù)據(jù)六個層次等。[8]
數(shù)字資源的采集與整合是資源集成以及順利提供服務的關(guān)鍵性步驟,數(shù)據(jù)架構(gòu)作為數(shù)字圖書館對可用資源開展數(shù)字化建設、提供網(wǎng)絡化服務的基礎與核心,應根據(jù)數(shù)字圖書館對讀者需求的響應及自身服務創(chuàng)新的要求,對總體數(shù)據(jù)進行規(guī)劃整理。數(shù)據(jù)架構(gòu)是包括數(shù)字資源、數(shù)據(jù)內(nèi)容、組織機制、應用服務和保障體系等內(nèi)容的系統(tǒng)性設計,筆者設計的基于OAIS的開放大學數(shù)字圖書館數(shù)據(jù)架構(gòu)如圖3所示??傮w框架包括四層,分別是來源層、內(nèi)容層、組織層和服務層,輔以數(shù)據(jù)存儲制度、描述制度和質(zhì)量制度,構(gòu)成了數(shù)字圖書館數(shù)據(jù)架構(gòu)的全部內(nèi)容。
圖3 基于OAIS的開放大學數(shù)字圖書館數(shù)據(jù)架構(gòu)
數(shù)字資源是開放大學數(shù)字圖書館開展服務的基礎和保障,數(shù)字圖書館應積極整合已有及可用資源,包括已采購的文獻數(shù)據(jù)庫、文檔、教學視頻等,對其進行采集、清洗、標引和重新組織。與此同時,共享國家圖書館、CALIS、CADAL等文獻信息資源共享工程等社會資源,還應包括OA資源及互聯(lián)網(wǎng)資源,通過采集面向特定學科領(lǐng)域或主題的OA期刊、開放機構(gòu)倉儲和自于行業(yè)或機構(gòu)門戶網(wǎng)站、社區(qū)論壇等的熱點新聞或熱門資訊,為提供學科熱點、專題報告等專業(yè)化資源服務做基礎。
OAIS參考模型中的信息包模型,有效的在數(shù)據(jù)管理過程中分離了數(shù)據(jù)本身及其元數(shù)據(jù),使數(shù)字資源對軟硬件的依賴度降低,同時也保證了對其長期的可獲取性。在數(shù)據(jù)架構(gòu)的內(nèi)容層,參考了OAIS的信息包模型的優(yōu)點,設置了RSIP(Resource SIP),RAIP(Resource AIP)和 RDIP(Resource DIP)模型,通過信息包在各個功能模塊之間流轉(zhuǎn)數(shù)據(jù),能夠有效降低各功能模塊的藕合度,保證核心數(shù)據(jù)的安全流轉(zhuǎn),有利于增強數(shù)字資源的長期安全存取系數(shù)與數(shù)據(jù)長久的有效性,使數(shù)據(jù)的分布與流轉(zhuǎn)傳遞關(guān)系更適合于高效的數(shù)字資源組織與管理,使數(shù)據(jù)能夠在不同模塊中得到更好的流轉(zhuǎn)與更深層的利用。
1.數(shù)字資源采集
數(shù)字資源的采集是數(shù)據(jù)來源與整個數(shù)字資源庫連接的窗口。在進行資源采集時,數(shù)字資源提交包中的數(shù)字資源與元數(shù)據(jù)信息在采集后分離,數(shù)據(jù)本身被保存下來,同時對其元數(shù)據(jù)進行采集及補充,傳遞給數(shù)據(jù)庫再進行存儲。
2.數(shù)字資源數(shù)據(jù)管理
數(shù)字資源的數(shù)據(jù)管理通過元數(shù)據(jù)來實現(xiàn)。數(shù)據(jù)管理提供資源的可溯行與完整性維護,用來描述信息標識和描述數(shù)字資源。在資源采集進來之后,可以對數(shù)字資源進行元數(shù)據(jù)補充與編輯,同時,數(shù)據(jù)管理對用戶的定制資源需求進行創(chuàng)建、維護和訪問,進行有效性維護,還包括查詢操作、生成報表、數(shù)字資源數(shù)據(jù)庫更新等操作。采集系統(tǒng)更新存儲在數(shù)字資源保存包中的描述信息,比如使用者信息、資源狀態(tài)等。
3.數(shù)字資源存儲
數(shù)字資源的存儲接收對數(shù)字資源的存儲請求,將數(shù)字資源保存包放到相應的數(shù)據(jù)庫中,并制定相應的安全措施與保存規(guī)劃等。同時也接收外界的使用請求,對接收包中的數(shù)字資源本身進行的存儲,需要響應外界使用請求時,根據(jù)與數(shù)字資源相關(guān)聯(lián)的元數(shù)據(jù)確定其存儲位置,將存儲的數(shù)據(jù)發(fā)送至使用模塊。
4.數(shù)字資源的利用
數(shù)字資源的利用主要以生成利用信息包的形式進行。根據(jù)使用請求,檢索數(shù)字資源的元數(shù)據(jù),當生成檢索結(jié)果時,將數(shù)據(jù)與元數(shù)據(jù)封裝成數(shù)字資源利用包。同時,還可以根據(jù)用戶的需求進行一些相應的具體數(shù)據(jù)處理,比如訪問統(tǒng)計、數(shù)據(jù)格式轉(zhuǎn)換和輸出可視化等,最后發(fā)送給用戶。
數(shù)字圖書館通過對可利用數(shù)字資源進行精細管理,可以實現(xiàn)對所有資源的準確描述、揭示和定位。在此基礎上,通過建設一站式檢索平臺,并可支持統(tǒng)一認證、統(tǒng)一檢索等功能,保障資源的可發(fā)現(xiàn)性和可獲取性。同時,可以梳理數(shù)字圖書館可利用數(shù)字化資源的存量及更新情況,繪制數(shù)據(jù)地圖,并可以在此基礎上進行知識信息導航、基于分析和基于內(nèi)容的知識圖譜等建設。還可以根據(jù)專業(yè)需要,定期推出相應學科或?qū)I(yè)的專題知識庫、學術(shù)圈動態(tài)等,也可以根據(jù)平臺積累的讀者大數(shù)據(jù),描繪用戶畫像,利用數(shù)據(jù)統(tǒng)計、知識挖掘等技術(shù)對數(shù)據(jù)進行系統(tǒng)深入的理解和分析,為用戶自動推送所需信息,以提供更為專業(yè)化和個性化的服務。
數(shù)據(jù)時代,數(shù)據(jù)架構(gòu)的科學性和可共享性,是關(guān)系到數(shù)字圖書館文獻資源保障、服務模式創(chuàng)新的重要因素。構(gòu)建科學的數(shù)據(jù)架構(gòu),對大密度、海量的數(shù)字資源進行采集、清洗、整合,使數(shù)字資源的結(jié)構(gòu)合理,價值密度上升,管理性增強,易用性增高。數(shù)字圖書館應在及時獲取讀者需求的基礎上,借助合理科學的數(shù)據(jù)架構(gòu),利用信息技術(shù),提高自身對數(shù)據(jù)的集成整合能力和預測分析能力,滿足讀者的個性化需求。