吳振新,付鴻鵠
(中國科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
數(shù)字信息資源分布式協(xié)作保存網(wǎng)絡(luò)構(gòu)建研究
吳振新,付鴻鵠
(中國科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
本文基于對國家保存體系中分布式協(xié)作保存網(wǎng)絡(luò)的需求分析,明確保存網(wǎng)絡(luò)建設(shè)應(yīng)遵循中心注冊管理、獨(dú)立節(jié)點(diǎn)管理、多種類型節(jié)點(diǎn)分類、松耦合、異構(gòu)、網(wǎng)絡(luò)架構(gòu)靈活、可擴(kuò)展、參與機(jī)構(gòu)角色可轉(zhuǎn)換和擴(kuò)展的設(shè)計(jì)思路。介紹國家協(xié)作保存網(wǎng)絡(luò)整體框架及節(jié)點(diǎn)功能,并對協(xié)作保存網(wǎng)絡(luò)建設(shè)和運(yùn)行的關(guān)鍵問題包括基于注冊的管理機(jī)制、主動(dòng)推送的數(shù)據(jù)提交模式、不同類型節(jié)點(diǎn)間的協(xié)作模式、唯一持久標(biāo)識及系統(tǒng)的擴(kuò)展性進(jìn)行分析。
長期保存;數(shù)字信息資源;協(xié)作保存;保存網(wǎng)絡(luò)
隨著社會(huì)數(shù)字化的不斷發(fā)展,數(shù)字內(nèi)容復(fù)雜的類型及飛速擴(kuò)展的體量,使保存機(jī)構(gòu)面臨更艱巨的保存任務(wù)與更為復(fù)雜的保存環(huán)境。依靠任何單一機(jī)構(gòu)進(jìn)行長期保存本身就是一種風(fēng)險(xiǎn),而數(shù)字資源長期保存作為一種風(fēng)險(xiǎn)防范機(jī)制,需要通過合作保存,分?jǐn)傌?zé)任和風(fēng)險(xiǎn),從而提高長期保存本身的可信賴性。構(gòu)建數(shù)字資源協(xié)作保存網(wǎng)絡(luò),協(xié)調(diào)和調(diào)度足夠的社會(huì)資源,共同分擔(dān)保存風(fēng)險(xiǎn)和責(zé)任,合作進(jìn)行保存活動(dòng),避免資源重復(fù)保存及遺漏,已經(jīng)成為各國保存機(jī)構(gòu)的必然選擇。數(shù)字資源長期保存已經(jīng)是一個(gè)關(guān)系國家信息安全的戰(zhàn)略問題。
對我國而言,通過建立國家數(shù)字科技文獻(xiàn)資源長期保存體系,從國家層面整體實(shí)施長期保存戰(zhàn)略,能有效解決個(gè)體機(jī)構(gòu)實(shí)施長期保存普遍面臨的經(jīng)費(fèi)、技術(shù)等難題,有利于全面形成可持續(xù)和可靠的長期保存服務(wù)體系,確保長期保存服務(wù)的共建共享。因此,構(gòu)建高效可行的分布式協(xié)作保存網(wǎng)絡(luò),協(xié)調(diào)各機(jī)構(gòu)的參與,合作開展數(shù)字資源保存,成為正在啟動(dòng)的國家數(shù)字資源長期保存體系示范系統(tǒng)建設(shè)項(xiàng)目最為緊迫的一項(xiàng)任務(wù)。
中國科學(xué)院文獻(xiàn)情報(bào)中心在多年開展保存實(shí)踐的基礎(chǔ)上,結(jié)合國家保存體系示范系統(tǒng)的建設(shè)需要,深入開展協(xié)作保存網(wǎng)絡(luò)的研究[1-2],初步構(gòu)建分布式協(xié)作保存網(wǎng)絡(luò),本文詳細(xì)介紹該協(xié)作保存網(wǎng)絡(luò)的設(shè)計(jì)思路以及關(guān)鍵問題的解決方案。
“國家主導(dǎo),聯(lián)合參與,責(zé)任分擔(dān),協(xié)同保障”是國家保存體系的基本原則,國家保存體系需要吸納全國相關(guān)領(lǐng)域機(jī)構(gòu)積極參與,既要兼顧各方利益和責(zé)任,又要實(shí)現(xiàn)共建共享,因此,在進(jìn)行分布式協(xié)作保存網(wǎng)絡(luò)框架設(shè)計(jì)中,需要充分考慮六方面的需求。
(1)能夠充分利用現(xiàn)有的工具和成果。中國科學(xué)院文獻(xiàn)情報(bào)中心經(jīng)過多年保存實(shí)踐,已形成一個(gè)遵循OAIS標(biāo)準(zhǔn),具有攝入、保存管理、公共服務(wù)和合作服務(wù)功能的可靠保存平臺,并已穩(wěn)定運(yùn)行多年。在保存網(wǎng)絡(luò)設(shè)計(jì)中,要考慮在該平臺的基礎(chǔ)上,以多個(gè)示范保存機(jī)構(gòu)為結(jié)點(diǎn),通過注冊管理機(jī)制,實(shí)現(xiàn)分布式協(xié)作保存,構(gòu)建分布式保存示范網(wǎng)絡(luò),為進(jìn)一步發(fā)展多機(jī)構(gòu)參與的分布式合作保存體系奠定基礎(chǔ)。
(2)考慮參與機(jī)構(gòu)所具有的不同職責(zé)、角色、能力。國家保存體系是由國家主導(dǎo)且長期穩(wěn)定支持,兼具體采購和使用資源圖書館共同參與的一個(gè)面向全國的公共服務(wù)體系,需要在國家的統(tǒng)籌規(guī)劃下,參與機(jī)構(gòu)分工合作完成。除NSTL本身作為核心管理機(jī)構(gòu)外,還要從參與國家保存體系的機(jī)構(gòu)中,遴選一批符合條件的機(jī)構(gòu)作為合規(guī)保存機(jī)構(gòu),分工合作負(fù)責(zé)數(shù)字科技文獻(xiàn)資源長期保存。因此,要考慮多種角色定位,使參與機(jī)構(gòu)能根據(jù)自身特點(diǎn),在國家保存體系中發(fā)揮不同的作用。
(3)具備一定包容性,支持個(gè)性化保存實(shí)現(xiàn)。能夠允許各機(jī)構(gòu)根據(jù)自身的特殊需求,靈活配置工作流程和數(shù)據(jù)存儲(chǔ)管理策略,以滿足在協(xié)作保存協(xié)議規(guī)定下的個(gè)性化保存實(shí)現(xiàn)。
(4)具有靈活、可擴(kuò)展的體系結(jié)構(gòu)。對新技術(shù)具有良好的適應(yīng)能力和擴(kuò)展能力,能夠方便地集成其他軟件和功能模塊;具備彈性存儲(chǔ)能力,能夠滿足協(xié)作保存網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大產(chǎn)生的存儲(chǔ)空間持續(xù)增長的需求;能夠快速部署新的存儲(chǔ)系統(tǒng),具備靈活擴(kuò)展保存服務(wù)的能力。
(5)支持保存體系能夠循序漸進(jìn)地發(fā)展和擴(kuò)展。允許成員機(jī)構(gòu)方便地加入或者撤銷,并能夠支持靈活的角色轉(zhuǎn)換。當(dāng)保存機(jī)構(gòu)不再具備合規(guī)保存機(jī)構(gòu)資質(zhì)時(shí),能夠方便地進(jìn)行保存服務(wù)轉(zhuǎn)移。
(6)具備協(xié)同工作的能力。允許多個(gè)機(jī)構(gòu)跨地域、多層面的協(xié)作,能夠?qū)嵤┤蝿?wù)分擔(dān)計(jì)劃;能夠解決多個(gè)機(jī)構(gòu)間數(shù)據(jù)同步問題;能夠從整體上配置存儲(chǔ)空間,計(jì)算資源。
基于上述需求,結(jié)合前期對分布式長期保存網(wǎng)絡(luò)的調(diào)研和分析,本文對如何構(gòu)建國家保存體系分布式協(xié)作保存網(wǎng)絡(luò)提出設(shè)計(jì)思路。
(1)中心注冊管理機(jī)制。保存網(wǎng)絡(luò)由多個(gè)節(jié)點(diǎn)組成,其中包括一個(gè)中心管理節(jié)點(diǎn)執(zhí)行日常的管理和監(jiān)控,多個(gè)保存節(jié)點(diǎn)獨(dú)立運(yùn)行,可以具備不同的保存功能,也可以互為備份和補(bǔ)充。
(2)獨(dú)立節(jié)點(diǎn)管理機(jī)制。獨(dú)立節(jié)點(diǎn)管理即節(jié)點(diǎn)自治。除中心節(jié)點(diǎn)外的其他保存節(jié)點(diǎn),是獨(dú)立運(yùn)行的一套保存系統(tǒng),獨(dú)立執(zhí)行保存功能,獨(dú)立運(yùn)維保存系統(tǒng),包括本地PID分配、本地權(quán)限管理機(jī)制。
(3)多種類型節(jié)點(diǎn)分類。令保存網(wǎng)絡(luò)的節(jié)點(diǎn)具備不同功能,以完成不同的分工,執(zhí)行不同的任務(wù),除中心管理節(jié)點(diǎn)外,保存節(jié)點(diǎn)亦因所具備的功能不同而加以區(qū)分,以保證參與機(jī)構(gòu)能以不同角色參與保存網(wǎng)絡(luò)的建設(shè)與運(yùn)營。
(4)松耦合。各節(jié)點(diǎn)主動(dòng)向中心節(jié)點(diǎn)推送信息,各節(jié)點(diǎn)關(guān)閉、停止、撤銷,不影響整個(gè)保存網(wǎng)絡(luò)的正常運(yùn)行。
(5)異構(gòu)。允許參與保存的機(jī)構(gòu)采用任何保存系統(tǒng),只要遵循相關(guān)標(biāo)準(zhǔn),向中心節(jié)點(diǎn)推送相關(guān)信息,即可成為保存網(wǎng)絡(luò)的節(jié)點(diǎn)。這種設(shè)計(jì)使保存體系的參與機(jī)構(gòu)能夠采用不同的系統(tǒng),保存不同類型的數(shù)字對象,同時(shí)使保存網(wǎng)絡(luò)易于擴(kuò)展。
(6)分布式協(xié)作保存網(wǎng)絡(luò)需架構(gòu)靈活支持?jǐn)U展。要求分布式協(xié)作保存網(wǎng)絡(luò)不僅能夠隨著規(guī)模的擴(kuò)大不斷增加節(jié)點(diǎn),也能夠根據(jù)參與合作保存的機(jī)構(gòu)不斷增加節(jié)點(diǎn)。
(7)參與機(jī)構(gòu)的角色可靈活轉(zhuǎn)換和擴(kuò)展。每個(gè)保存機(jī)構(gòu)獨(dú)立維護(hù)運(yùn)營自身網(wǎng)絡(luò)節(jié)點(diǎn),但無法確保每個(gè)機(jī)構(gòu)都能對保存系統(tǒng)提供長期有效的支持。從長遠(yuǎn)發(fā)展的角度考慮,保存網(wǎng)絡(luò)應(yīng)支持每個(gè)機(jī)構(gòu)在保存網(wǎng)絡(luò)中的角色和功能的轉(zhuǎn)換、擴(kuò)展,這就要求保存節(jié)點(diǎn)的軟件系統(tǒng)的功能可方便擴(kuò)展和轉(zhuǎn)換。
國家協(xié)作保存網(wǎng)絡(luò)是一個(gè)分布式協(xié)作保存網(wǎng)絡(luò),主要由兩層結(jié)構(gòu)組成:保存管理層和保存執(zhí)行層。保存管理層通常是一個(gè)中心節(jié)點(diǎn),接收來自其他節(jié)點(diǎn)的信息;保存執(zhí)行層的每個(gè)節(jié)點(diǎn)分別負(fù)責(zé)不同資源的保存管理(見圖1)。
3.1中心管理節(jié)點(diǎn)
保存網(wǎng)絡(luò)中心管理節(jié)點(diǎn)能實(shí)現(xiàn)對所有保存節(jié)點(diǎn)的統(tǒng)一管理,通過提供注冊功能,對各保存節(jié)點(diǎn)的相關(guān)管理信息進(jìn)行存儲(chǔ),同時(shí)借助推送功能,獲得各保存節(jié)點(diǎn)的存檔信息。管理節(jié)點(diǎn)通過接收的保存節(jié)點(diǎn)數(shù)據(jù),對整個(gè)保存網(wǎng)絡(luò)進(jìn)行監(jiān)督和管理。
中心管理節(jié)點(diǎn)的主要功能包括保存協(xié)議信息管理、各節(jié)點(diǎn)信息管理、公共服務(wù)管理、命名空間管理、存檔數(shù)據(jù)管理、各種報(bào)告管理、保存規(guī)劃管理、備份管理、硬件管理、人員權(quán)限管理等。
3.2保存(執(zhí)行)節(jié)點(diǎn)及功能分類
保存(執(zhí)行)節(jié)點(diǎn)根據(jù)部署平臺功能的不同,可執(zhí)行不同的保存任務(wù)。目前可以劃分為四種類型。
(1)F型(Full functions),提供具備完整保存功能的節(jié)點(diǎn)。部署包括DPS服務(wù)器、Fedora服務(wù)器在內(nèi)的一套完整系統(tǒng),執(zhí)行全部數(shù)據(jù)的保存任務(wù),包括資源攝入、存儲(chǔ)、管理、備份、公共服務(wù)等,是一個(gè)獨(dú)立執(zhí)行完整保存功能的節(jié)點(diǎn)。
(2)P型(Preservation),提供資源攝入與保存管理功能的節(jié)點(diǎn)。部署接收與攝入平臺以及保存管理平臺,包括DPS服務(wù)器、Fedora服務(wù)器,執(zhí)行全部的數(shù)據(jù)保存任務(wù),包括資源的攝入、存儲(chǔ)、管理等,不能提供公共訪問服務(wù)。
(3)B型節(jié)點(diǎn)(Backup),提供備份功能的節(jié)點(diǎn)(僅提供備份的功能)。
(4)A型(Access),提供公共訪問服務(wù)的節(jié)點(diǎn)。A型節(jié)點(diǎn)利用其存檔的資源為終端用戶提供對存檔資源的訪問服務(wù),通常與其他保存節(jié)點(diǎn)分隔開,以保證保存網(wǎng)絡(luò)的安全性。存檔節(jié)點(diǎn)通過推送功能向訪問服務(wù)節(jié)點(diǎn)單方向推送數(shù)據(jù)。
從整體考慮,保存網(wǎng)絡(luò)中心管理節(jié)點(diǎn)也可作為保存網(wǎng)絡(luò)的一種獨(dú)特類型,即M型(Management),不執(zhí)行具體的保存功能,只提供對其他執(zhí)行保存節(jié)點(diǎn)的管理和監(jiān)督功能。
3.3保存系統(tǒng)及軟件平臺功能
協(xié)作保存網(wǎng)絡(luò)各節(jié)點(diǎn)采用的長期保存系統(tǒng),是以中國科學(xué)院文獻(xiàn)情報(bào)中心長期保存系統(tǒng)為基礎(chǔ),經(jīng)過模塊化改造,目前已形成包括接收與攝入管理平臺、保存管理平臺、公共服務(wù)平臺和合作保存服務(wù)平臺四個(gè)主要功能組成的可靠保存系統(tǒng)(見圖2)。
圖1 國家協(xié)作保存體系整體架構(gòu)示意圖
圖2 保存節(jié)點(diǎn)系統(tǒng)各組成平臺功能示意圖
(1)接收與攝入管理平臺。對已登記的數(shù)據(jù)源定時(shí)進(jìn)行數(shù)據(jù)提交包的檢測和下載,并對已下載的數(shù)據(jù)包進(jìn)行可用性檢查、病毒及惡意代碼檢測。檢測通過的數(shù)據(jù)認(rèn)為是可以接收的數(shù)據(jù),在系統(tǒng)中進(jìn)行登記,同時(shí)自動(dòng)通知系統(tǒng)預(yù)定義的資源攝入處理人員和備份管理人員進(jìn)行備份處理和攝入處理。攝入處理人員按照批次進(jìn)行接收并定制攝入任務(wù),由任務(wù)在后臺完成數(shù)據(jù)包清點(diǎn),進(jìn)行數(shù)據(jù)包完整性檢驗(yàn),檢查數(shù)據(jù)包內(nèi)數(shù)據(jù)格式以及內(nèi)容是否完備,抽取描述元數(shù)據(jù)、保存元數(shù)據(jù)、技術(shù)元數(shù)據(jù)等,生成符合國家保存體系要求的標(biāo)準(zhǔn)SIP,最后將數(shù)字對象存入底層的Fedora倉儲(chǔ)系統(tǒng),同時(shí)更新外部Mysql管理數(shù)據(jù)庫和Solr索引。
(2)保存管理平臺。保存管理平臺提供對存檔數(shù)據(jù)的長期管理和運(yùn)維,確保數(shù)字對象長期可用。審計(jì)功能是按照保存協(xié)議定期檢查存檔數(shù)據(jù)的完整性,如可提供數(shù)據(jù)集、期刊、文章的完整性檢查。數(shù)據(jù)不變性的檢查校驗(yàn),負(fù)責(zé)檢查數(shù)據(jù)內(nèi)容是否未經(jīng)任何改變;變化追蹤功能,可查看數(shù)據(jù)內(nèi)容本身變化的歷史情況;格式監(jiān)測功能,可以定期監(jiān)測數(shù)據(jù)格式是否過時(shí);統(tǒng)計(jì)報(bào)告功能,可以提供存檔信息統(tǒng)計(jì)概要,實(shí)現(xiàn)對存檔處理過程的追蹤和檢查,以及生成各種報(bào)告;遷移功能,指支持?jǐn)?shù)字對象在保存系統(tǒng)的遷移以及媒體遷移。
(3)公共服務(wù)平臺。公共服務(wù)平臺執(zhí)行保存系統(tǒng)的分發(fā)功能,采用黑色存檔(Dark Archive)模式,即正常情況下不對外提供服務(wù),只有在觸發(fā)事件的激發(fā)下(如因網(wǎng)絡(luò)中斷、戰(zhàn)爭、公司倒閉等因素、無法獲取某一數(shù)據(jù)庫的正常檢索服務(wù)時(shí))才能夠提供公共服務(wù)。公共服務(wù)平臺用于對保存協(xié)議規(guī)定范圍的用戶提供存檔范圍的數(shù)據(jù)訪問服務(wù),包括檢索、瀏覽、全文下載等功能。
(4)合作保存服務(wù)平臺。合作保存服務(wù)平臺執(zhí)行保存系統(tǒng)的另一部分分發(fā)功能,用于對參與合作保存的機(jī)構(gòu)(出版商、存檔機(jī)構(gòu))提供檢查和審計(jì)服務(wù),機(jī)構(gòu)用戶可以通過該系統(tǒng)了解保存系統(tǒng)內(nèi)數(shù)據(jù)的存檔情況、獲取存檔統(tǒng)計(jì)報(bào)告、對存檔數(shù)據(jù)進(jìn)行審計(jì)。
目前這四個(gè)平臺可以聯(lián)合部署,也可以獨(dú)立部署。如F型保存節(jié)點(diǎn)需要部署運(yùn)行包括這四個(gè)平臺的完整保存系統(tǒng),即可實(shí)現(xiàn)存檔數(shù)據(jù)的接收、檢查、攝入、審計(jì)等相關(guān)功能,并可通過公共服務(wù)系統(tǒng)對合同范圍的用戶提供訪問服務(wù);而A型保存節(jié)點(diǎn)只需要部署運(yùn)行公共服務(wù)平臺,僅提供公共訪問服務(wù)。協(xié)作保存網(wǎng)絡(luò)各節(jié)點(diǎn)通過部署和運(yùn)行具備不同功能的保存平臺軟件實(shí)現(xiàn)不同的功能,同時(shí)達(dá)到協(xié)作的目的。
4.1基于注冊的管理機(jī)制
基于上述體系架構(gòu),協(xié)作保存網(wǎng)絡(luò)采用松耦合機(jī)制,通過信息注冊方式實(shí)現(xiàn)對協(xié)作網(wǎng)絡(luò)的監(jiān)督和管理,即各節(jié)點(diǎn)的相關(guān)信息統(tǒng)一匯聚到管理節(jié)點(diǎn),管理節(jié)點(diǎn)可及時(shí)掌握各節(jié)點(diǎn)的情況。
各節(jié)點(diǎn)需要注冊的數(shù)據(jù)包括以下10種。(1)保存協(xié)議信息注冊管理:如期刊清單;(2)節(jié)點(diǎn)注冊管理:節(jié)點(diǎn)、機(jī)構(gòu)、存檔資源的基本信息;(3)公共服務(wù)注冊管理:各存檔資源應(yīng)該由哪些機(jī)構(gòu)的哪些節(jié)點(diǎn)提供服務(wù)以及具體部署情況;(4)命名空間注冊管理:各存檔節(jié)點(diǎn)PID登記和分配;(5)存檔數(shù)據(jù)管理:匯集各存檔節(jié)點(diǎn)的數(shù)據(jù)存檔情況,通過各節(jié)點(diǎn)實(shí)時(shí)提交的方式實(shí)現(xiàn);(6)審計(jì)與報(bào)告管理:各存檔節(jié)點(diǎn)定期推送審計(jì)報(bào)告、統(tǒng)計(jì)報(bào)告;(7)保存規(guī)劃管理:匯集各存檔節(jié)點(diǎn)為各資源制定的保存規(guī)劃;(8)備份管理:各資源備份實(shí)施情況的注冊管理;(9)硬件管理:匯集各節(jié)點(diǎn)參與保存工作的硬件設(shè)備信息;(10)人員管理:各節(jié)點(diǎn)參與保存工作的人員權(quán)限管理。
4.2主動(dòng)推送的數(shù)據(jù)提交模式
相關(guān)數(shù)據(jù)采用各節(jié)點(diǎn)向管理節(jié)點(diǎn)主動(dòng)推送的模式,共三種實(shí)現(xiàn)方式。(1)增加功能模塊,直接嵌入攝入工作流,每次存檔數(shù)據(jù)攝入完畢都自動(dòng)推送數(shù)據(jù)。這種方式更適用于存檔數(shù)據(jù)信息,可以實(shí)時(shí)提交存檔情況,其缺點(diǎn)是每種數(shù)據(jù)的存檔和更新都需要重新調(diào)整程序。(2)定制自動(dòng)調(diào)度任務(wù),定期(如每月底)進(jìn)行1次推送/推薦。缺點(diǎn)是不能實(shí)時(shí)推送,適用于審計(jì)報(bào)告、統(tǒng)計(jì)報(bào)告等提交。(3)手工啟動(dòng)推送數(shù)據(jù)服務(wù)。適用于保存管理平臺和公共服務(wù)平臺間的數(shù)據(jù)交換,當(dāng)觸發(fā)事件發(fā)生時(shí),向公共服務(wù)平臺傳輸用于公共服務(wù)的數(shù)據(jù)。
4.3不同類型節(jié)點(diǎn)間的協(xié)作模式
基于注冊機(jī)制的協(xié)作保存網(wǎng)絡(luò)擁有可擴(kuò)展的、靈活的架構(gòu)。每個(gè)參與協(xié)作保存的機(jī)構(gòu)可作為一個(gè)獨(dú)立的節(jié)點(diǎn),或每個(gè)機(jī)構(gòu)可有幾個(gè)節(jié)點(diǎn)。協(xié)作保存網(wǎng)絡(luò)中多個(gè)異地異構(gòu)節(jié)點(diǎn)間可進(jìn)行多個(gè)層面的協(xié)作:(1)中心管理節(jié)點(diǎn)對各保存節(jié)點(diǎn)進(jìn)行監(jiān)督管理;(2)F型保存節(jié)點(diǎn)的公共服務(wù)平臺和備份功能,也可為其他多個(gè)保存節(jié)點(diǎn)提供服務(wù);(3)訪問服務(wù)節(jié)點(diǎn)可為其他保存節(jié)點(diǎn)提供公共服務(wù);(4)備份服務(wù)節(jié)點(diǎn)可為各類型節(jié)點(diǎn)提供備份服務(wù);(5)保存節(jié)點(diǎn)間可以作為鏡像備份(系統(tǒng)級備份)。
通過對這些異地異構(gòu)提供不同功能的節(jié)點(diǎn)組配,既可以構(gòu)成只支持多重備份的簡單協(xié)作保存網(wǎng)絡(luò),也可以構(gòu)成支持多個(gè)層面協(xié)作的復(fù)雜協(xié)作保存網(wǎng)絡(luò)。
4.4唯一持久標(biāo)識
協(xié)作保存網(wǎng)絡(luò)制定了命名空間(namespace)管理要求和唯一持久標(biāo)識符(Persistent Identifier,PID)定義規(guī)范。由管理節(jié)點(diǎn)進(jìn)行命名空間管理和統(tǒng)一分配,每個(gè)保存結(jié)點(diǎn)定義唯一的命名空間,在結(jié)點(diǎn)注冊時(shí)進(jìn)行分配和驗(yàn)證。每個(gè)節(jié)點(diǎn)根據(jù)所分配的命名空間進(jìn)行本地PID分配和管理,確保每個(gè)數(shù)字對象的PID全局唯一。
4.5擴(kuò)展性問題
協(xié)作保存網(wǎng)絡(luò)需能隨規(guī)模的擴(kuò)大而不斷增加節(jié)點(diǎn),也能夠支持參與機(jī)構(gòu)的角色可靈活轉(zhuǎn)換和擴(kuò)展。
目前協(xié)作保存網(wǎng)絡(luò)可從多個(gè)層面進(jìn)行擴(kuò)展。首先,協(xié)作保存網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)沒有上限,可以隨需要部署保存系統(tǒng)并在中心節(jié)點(diǎn)注冊,即可新增一個(gè)節(jié)點(diǎn)。其次,已存在的節(jié)點(diǎn)可以根據(jù)自身需要增加底層Fedora倉儲(chǔ)系統(tǒng)的部署數(shù)量,擴(kuò)大存儲(chǔ)規(guī)模;保存節(jié)點(diǎn)還可以增加部署不同的平臺,即可增加相應(yīng)功能來完成更多任務(wù)。最后,協(xié)作保存網(wǎng)絡(luò)允許參與保存的機(jī)構(gòu)采用任何保存系統(tǒng),只要遵循協(xié)作保存網(wǎng)絡(luò)的規(guī)范,能夠向中心節(jié)點(diǎn)推送相關(guān)信息,即可作為節(jié)點(diǎn)加入,協(xié)作保存網(wǎng)絡(luò)也可為其提供公共服務(wù)和備份服務(wù)。這種異構(gòu)兼容使保存體系中的參與機(jī)構(gòu)能夠采用不同的系統(tǒng)保存不同類型的數(shù)字對象,也使保存網(wǎng)絡(luò)易于擴(kuò)展。
目前協(xié)作保存網(wǎng)絡(luò)的中心管理節(jié)點(diǎn)正在試運(yùn)行,已經(jīng)建成的中國科學(xué)院文獻(xiàn)情報(bào)中心和中國科學(xué)技術(shù)信息研究所保存節(jié)點(diǎn)以及正在建設(shè)的北京大學(xué)圖書館保存節(jié)點(diǎn),采用相對簡化的部署,3個(gè)節(jié)點(diǎn)采用統(tǒng)一的架構(gòu)和平臺系統(tǒng),獨(dú)立部署和運(yùn)行完整的保存系統(tǒng)(見圖3)。
圖3 協(xié)作保存網(wǎng)絡(luò)當(dāng)前部署示意圖
中國科學(xué)院文獻(xiàn)情報(bào)中心節(jié)點(diǎn)已保存7家出版社(Springer,Wiley,IOPP,NPG,BMC,RSC,VIP)共13種外文資源,近3 000種外文期刊、1.4萬種中文期刊、4 000萬篇論文、7.5萬種電子圖書、3.4萬種實(shí)驗(yàn)室指南;中國科學(xué)技術(shù)信息研究所節(jié)點(diǎn)已對43家出版機(jī)構(gòu)的655種現(xiàn)刊期刊進(jìn)行保存處理。
數(shù)字資源長期保存是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及眾多利益方與復(fù)雜的技術(shù)管理,并需要長期經(jīng)濟(jì)支持。作為國家科技文獻(xiàn)保障體系的組成部分,國家保存體系將站在國家的利益高度和全局的協(xié)調(diào)角度,帶領(lǐng)全國圖書館爭取和保持?jǐn)?shù)字文獻(xiàn)資源的本土保存權(quán),統(tǒng)籌規(guī)劃保存目標(biāo)資源和合規(guī)保存機(jī)構(gòu),支持和組織協(xié)助合規(guī)保存機(jī)構(gòu)進(jìn)行長期保存談判,組織安排對合規(guī)保存機(jī)構(gòu)長期保存機(jī)制及其保存效果的公共認(rèn)證和審計(jì),監(jiān)督和審計(jì)必要情況下的公共服務(wù),統(tǒng)籌協(xié)調(diào)必要的備份和繼承保存。
按照發(fā)展規(guī)劃,截至2016年年底,國家保存體系將完成保存網(wǎng)絡(luò)的初步建設(shè),完成3家國家級長期保存中心建設(shè),保存一定規(guī)模的權(quán)威國際數(shù)字科技文獻(xiàn)資源,并建立比較完善的長期保存運(yùn)行、管理和服務(wù)規(guī)范。2017—2020年,將持續(xù)進(jìn)行保存體系完善和擴(kuò)展,選擇一批具有較大規(guī)模的數(shù)字文獻(xiàn)資源采購和使用量,具有可靠的經(jīng)濟(jì)、技術(shù)和管理?xiàng)l件的公共事業(yè)單位作為合規(guī)保存機(jī)構(gòu),按照分工,接受委托,承擔(dān)相應(yīng)的保存任務(wù)。同時(shí)保存資源規(guī)模也將持續(xù)擴(kuò)展,保存多數(shù)重要國際科技期刊及其他重要資源,形成鞏固的國家數(shù)字科技文獻(xiàn)長期保存體系。
國家保存體系致力于在我國本土進(jìn)行數(shù)字資源保存,這項(xiàng)工作面臨來自多方面、巨大的困難,需要更多機(jī)構(gòu)的參與和支持,更需要有條件、有資質(zhì)的機(jī)構(gòu)投身國家保存體系,共同承擔(dān)國家數(shù)字資源長期保存的重任。
[1] 高建秀,吳振新.數(shù)字資源協(xié)作保存網(wǎng)絡(luò)研究[J].圖書館學(xué)研究,2010(23):26-31,25.
[2] 付鴻鵠,吳振新.分布式數(shù)字資源保存系統(tǒng)與技術(shù)架構(gòu)研究[J].國家圖書館學(xué)刊,2015(2):82-88.
付鴻鵠,女,1976年生,館員。
Construction a Distributed Collaborative Network for Digital Information Resource
WU ZhenXin, FU HongHu
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China)
In this article, based on previous research and requirements analysis, the author clarified the developing principles of national collaborative preservation network, such as central registry, independent node management, multi-typed nodes, loosely coupled, heterogeneous, flexible network architecture, etc. Then, the author described the overall framework of the collaborative network and functions of each type node. It also provided the key issues solutions including the registration-based management mechanism, data exchange model, cooperative mode between different types of nodes, persistent identifier and system scalability.
Long-Term Preservation; Digital Information Resource; Collaborative Preservation; Preservation Network
G250
10.3772/j.issn.1673-2286.2016.9.007
吳振新,女,1968年生,研究館員,碩士生導(dǎo)師,研究方向:數(shù)字資源的采集、組織管理、長期保存及再利用,E-mail:wuzx@mail.las.ac.cn。
2016-08-17)