董曉莉+龍偉
[摘要]本文在分析大數(shù)據(jù)環(huán)境下圖書(shū)館采用合作保存必要性的基礎(chǔ)上,探討了國(guó)際主流的數(shù)字資源保存合作模式,進(jìn)而提出目前我國(guó)圖書(shū)館應(yīng)采用的數(shù)字保存合作模式和資源存儲(chǔ)方式,最后設(shè)計(jì)了圖書(shū)館基于OAIS的數(shù)字資源長(zhǎng)期保存協(xié)作保存平臺(tái)模型,并對(duì)該模型構(gòu)成、運(yùn)行模式以及主要功能進(jìn)行了深入的描述和分析。相信本研究將對(duì)合作模式下圖書(shū)館數(shù)字資源長(zhǎng)期保存系統(tǒng)的建設(shè)起到拋磚引玉的作用。
[關(guān)鍵詞]圖書(shū)館;長(zhǎng)期保存;數(shù)字資源;合作模式
大數(shù)據(jù)時(shí)代的到來(lái),整個(gè)社會(huì)不可避免地被卷入數(shù)字洪流之中,如何保存人類社會(huì)的數(shù)字文明,圖書(shū)館的保存工作面臨著越來(lái)越多的挑戰(zhàn)和考驗(yàn)。一方面要面對(duì)數(shù)字保存對(duì)象的不斷多元化和泛在化,另一方面要解決用戶與日俱增的數(shù)字資源長(zhǎng)期保存需求和資源共享需求。在這種情況下,國(guó)際上很多數(shù)字文化遺產(chǎn)收藏機(jī)構(gòu)都開(kāi)始積極采取合作的方式開(kāi)展數(shù)字資源長(zhǎng)期保存的研究與實(shí)踐,國(guó)際上也相繼出現(xiàn)多個(gè)跨地域、跨機(jī)構(gòu)的數(shù)字保存聯(lián)盟,如英國(guó)的數(shù)字保存聯(lián)盟(digital preservation coalition,簡(jiǎn)稱DPC)以及協(xié)同化的國(guó)際合作項(xiàng)目,如歐洲的NEDLIB項(xiàng)目。目前,各國(guó)學(xué)者對(duì)采用合作方式開(kāi)展數(shù)字資源長(zhǎng)期保存的發(fā)展方向已有普遍共識(shí)。我國(guó)雖然諸如國(guó)家圖書(shū)館等個(gè)別機(jī)構(gòu)近年已著手采用獨(dú)立保存方式對(duì)機(jī)構(gòu)內(nèi)所藏?cái)?shù)字資源實(shí)施保存,但是尚未形成成熟的合作保存體系,未建立一套統(tǒng)一的支持機(jī)構(gòu)間協(xié)作的合作保存網(wǎng)絡(luò),極易導(dǎo)致對(duì)重要資源內(nèi)容保存的遺漏;且資源的利用率不高,無(wú)法滿足大數(shù)據(jù)時(shí)代對(duì)圖書(shū)館數(shù)字資源收集、保存、維護(hù)、處理和利用的需求;特別是會(huì)由于重復(fù)存儲(chǔ)導(dǎo)致大量人力資源和物理資源的浪費(fèi)。因此,選擇合理的數(shù)字資源長(zhǎng)期合作保存模式,選用靈活且適應(yīng)性強(qiáng)的數(shù)字保存合作策略,建設(shè)相對(duì)全面的數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái)是目前大數(shù)據(jù)環(huán)境下國(guó)內(nèi)圖書(shū)館等文化資源保護(hù)機(jī)構(gòu)亟需考慮和解決的問(wèn)題。
1大數(shù)據(jù)環(huán)境下圖書(shū)館采用合作保存的必要性
大數(shù)據(jù)環(huán)境下,數(shù)字內(nèi)容的體量飛速發(fā)展,用戶需求呈現(xiàn)出多元化的態(tài)勢(shì)。面對(duì)用戶不斷泛化的資源保存需求,圖書(shū)館對(duì)保存對(duì)象的定義也更加寬泛,數(shù)字對(duì)象的類型變得更加復(fù)雜,資源類型逐步由單一的圖像、文本類型向包括音視頻、網(wǎng)絡(luò)資源等在內(nèi)的結(jié)構(gòu)化與非結(jié)構(gòu)化多元類型拓展。同時(shí),用戶發(fā)現(xiàn)、利用、反饋圖書(shū)館資源的信息,即圖書(shū)館用戶“大數(shù)據(jù)”也將作為一種重要的資源被納入到圖書(shū)館的保存對(duì)象范圍之中,保存對(duì)象的類型和結(jié)構(gòu)將變得更加復(fù)雜多樣,數(shù)字資源長(zhǎng)期保存正經(jīng)歷著越來(lái)越嚴(yán)峻的挑戰(zhàn)。
同時(shí),隨著社會(huì)數(shù)字化的不斷發(fā)展,社會(huì)經(jīng)濟(jì)和文化的發(fā)展對(duì)數(shù)字資源的依賴性更強(qiáng),各國(guó)保存機(jī)構(gòu)對(duì)數(shù)字資源長(zhǎng)期保存可信賴性提出了更高的要求。面對(duì)更加艱巨的保存任務(wù)和更為復(fù)雜的保存環(huán)境,僅依賴于單一機(jī)構(gòu)已無(wú)法完成數(shù)字保存任務(wù),采用合作方式開(kāi)展數(shù)字保存不但可以避免單一機(jī)構(gòu)實(shí)施保存所造成的單點(diǎn)故障,規(guī)避出現(xiàn)數(shù)字孤島的風(fēng)險(xiǎn),而且有利于集結(jié)多種類型的數(shù)字資源,實(shí)現(xiàn)不同內(nèi)容、不同類型資源的有機(jī)關(guān)聯(lián),進(jìn)而提高大規(guī)模數(shù)字資源保存的可增值性,改變?cè)斜4鏅C(jī)構(gòu)基于本地、私有、封閉的保存模式,打破機(jī)構(gòu)問(wèn)資源保存與共享的諸多壁壘,實(shí)現(xiàn)資源保存與服務(wù)的有機(jī)結(jié)合。在此情況下,圖書(shū)館間合作構(gòu)建數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái)形成數(shù)字資源協(xié)作保存網(wǎng)絡(luò)已成為圖書(shū)館等文化遺產(chǎn)保存機(jī)構(gòu)的必然選擇。
2大數(shù)據(jù)環(huán)境下圖書(shū)館數(shù)字資源合作保存模式分析
近年,在大數(shù)據(jù)環(huán)境下歐美等發(fā)達(dá)國(guó)家的圖書(shū)館、博物館、檔案館等數(shù)字文化遺產(chǎn)機(jī)構(gòu)紛紛探索多種合作模式,以期提升其在公共文化機(jī)構(gòu)中的地位,改善其現(xiàn)有的數(shù)字保存和服務(wù)現(xiàn)狀,更好地滿足越來(lái)越多的多樣化用戶需求。目前國(guó)際上主流合作模式主要包括集中分散、對(duì)等分散、高度整合等模式。其中,集中分散式即由一個(gè)機(jī)構(gòu)主導(dǎo),由其制定相關(guān)政策、方針、管理機(jī)制,并實(shí)施技術(shù)指導(dǎo),協(xié)助其他機(jī)構(gòu)解決長(zhǎng)期保存中的實(shí)際問(wèn)題,其他機(jī)構(gòu)作為合作參與方,承擔(dān)一定的保存責(zé)任并具有相應(yīng)的權(quán)利,如美國(guó)的NDIIPP項(xiàng)目、澳大利亞的PANDORA項(xiàng)目、美國(guó)阿拉巴馬州的ADPNet(the Alabama DigitalPreservation Network)等項(xiàng)目都屬于集中分散式的合作保存模式。對(duì)等分散式指參與數(shù)字資源長(zhǎng)期保存合作的成員機(jī)構(gòu)在合作中所處的地位平等,且具有同等的責(zé)任和義務(wù),主要通過(guò)協(xié)商來(lái)完成相應(yīng)的保存任務(wù),如歐洲的NEDLIB合作項(xiàng)目。高度整合模式,是近兩年新興的一種合作模式,其一般由國(guó)家主導(dǎo),通過(guò)實(shí)施法令和制定政策,完成機(jī)構(gòu)間運(yùn)行機(jī)制和內(nèi)部結(jié)構(gòu)的重組,如挪威、新加坡、加拿大等國(guó)對(duì)圖書(shū)館、檔案館、博物館等機(jī)構(gòu)開(kāi)展的機(jī)構(gòu)整合。
由于我國(guó)目前的數(shù)字資源長(zhǎng)期保存政策和策略尚不完善,且機(jī)構(gòu)問(wèn)在數(shù)字資源長(zhǎng)期保存領(lǐng)域的研究與實(shí)踐工作缺乏有效的溝通和協(xié)調(diào),跨機(jī)構(gòu)、行業(yè)、區(qū)域的合作關(guān)系松散,缺乏統(tǒng)一規(guī)范的合作模式和制度,特別是各圖書(shū)館長(zhǎng)期保存的技術(shù)能力參差不齊,因此在現(xiàn)有狀態(tài)下,圖書(shū)館長(zhǎng)期保存合作模式可以考慮采用集中分散的模式,即由某一權(quán)威機(jī)構(gòu)作為合作保存的中心機(jī)構(gòu),由其主導(dǎo)并協(xié)調(diào)指導(dǎo)其他機(jī)構(gòu)共同完成保存任務(wù),該合作模式下的資源存儲(chǔ)方式可以考慮采用集中管理——分布存儲(chǔ)——集中整合的構(gòu)建模式。在該合作模式和存儲(chǔ)方式下,中心機(jī)構(gòu)負(fù)責(zé)完成保存政策、運(yùn)行機(jī)制、合作機(jī)制、保存策略等方面的全局性指導(dǎo),并通過(guò)共享基礎(chǔ)設(shè)施、功能設(shè)計(jì)標(biāo)準(zhǔn)框架等方式完成機(jī)構(gòu)問(wèn)的共享與協(xié)作;在統(tǒng)一的資源采集政策下,各分支機(jī)構(gòu)獨(dú)立完成資源的收集、加工、審核、管理和存儲(chǔ);利用分布式的保存策略和多副本安全策略,保證種類各異的資源分布式存儲(chǔ)于地理位置分散的各合作保存機(jī)構(gòu)內(nèi)部;通過(guò)規(guī)范的數(shù)據(jù)集中整合流程,保證資源保存形式的一致性,便于更新以及為用戶集中揭示資源,實(shí)現(xiàn)保存資源的全方位揭示。該模式通過(guò)機(jī)構(gòu)間的合作保存,有效規(guī)避了單機(jī)構(gòu)保存所造成風(fēng)險(xiǎn);通過(guò)共享基礎(chǔ)設(shè)施,降低開(kāi)發(fā)成本;通過(guò)共享功能設(shè)計(jì)標(biāo)準(zhǔn)框架,有效降低管理成本;通過(guò)資源的多副本保存可以有效提高資源的安全性和完整性,降低昂貴的備份成本,如圖1所示。
圖書(shū)館數(shù)字資源的合作保存是以最終實(shí)現(xiàn)保存資源的長(zhǎng)期存儲(chǔ)、管理和長(zhǎng)效利用為導(dǎo)向,采用該合作模式,可以有效實(shí)現(xiàn)對(duì)聯(lián)盟內(nèi)保存資源的統(tǒng)一存儲(chǔ)、集中監(jiān)控和動(dòng)態(tài)管理,從而保障數(shù)字信息資源的真實(shí)性和永久可獲得性;可以集結(jié)多種類型的資源,通過(guò)保存平臺(tái)實(shí)現(xiàn)對(duì)資源的有效關(guān)聯(lián)、整合、管理和利用,從而滿足大數(shù)據(jù)環(huán)境下,對(duì)更加龐大的異構(gòu)資源實(shí)現(xiàn)有效組織整合;通過(guò)將資源集中保存于數(shù)字保存合作平臺(tái)中,可以有效打破原有資源保存和共享的諸多壁壘,消除資源保存機(jī)構(gòu)的存儲(chǔ)孤島現(xiàn)象;通過(guò)跨系統(tǒng)、跨地域的合作保存,可以有效避免資源的重復(fù)存儲(chǔ),解決目前普遍存在的基于本地的、私有的、封閉的保存模式,有利于合作機(jī)構(gòu)在指導(dǎo)機(jī)構(gòu)的統(tǒng)一管理下,完成對(duì)保存的資源統(tǒng)一處理和整合,保證對(duì)保存資源的持續(xù)性、系統(tǒng)性的維護(hù)和開(kāi)發(fā)利用,為最終實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)、體現(xiàn)數(shù)字資源長(zhǎng)期保存意義提供重要保障。
3基于OAIS的數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái)模型分析
基于以上合作模式,圖書(shū)館數(shù)字資源的合作保存可以通過(guò)建立基于OAIS的數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái)而實(shí)現(xiàn),該協(xié)作平臺(tái)可由跨地域或跨機(jī)構(gòu)的多個(gè)機(jī)構(gòu)或長(zhǎng)期保存系統(tǒng)耦合形成,共同創(chuàng)造一個(gè)協(xié)同保存的工作環(huán)境,以實(shí)現(xiàn)機(jī)構(gòu)或系統(tǒng)問(wèn)的協(xié)同工作,完成對(duì)跨地域資源的統(tǒng)一協(xié)調(diào)、調(diào)度和管理,其不但可以有效節(jié)約資金、人力等物理資源,而且可以促進(jìn)溝通和交流,確保大數(shù)據(jù)環(huán)境下我國(guó)數(shù)字文化遺產(chǎn)得到長(zhǎng)期存儲(chǔ)和有效保護(hù),方便獲取利用。
3.1大數(shù)據(jù)環(huán)境下圖書(shū)館合作保存對(duì)象需求
大數(shù)據(jù)背景下,數(shù)字資源總量呈指數(shù)級(jí)增長(zhǎng),資源構(gòu)成變得更為復(fù)雜,從資源結(jié)構(gòu)看,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)與數(shù)據(jù)之間彼此交叉,彼此融合;從資源來(lái)源看,涉及同類型不同來(lái)源的資源、不同類型不同來(lái)源資源以及相同類型相同來(lái)源的資源,且資源的異構(gòu)性、碎片化、多維性等特點(diǎn)越來(lái)越突顯。同時(shí),數(shù)據(jù)的保存環(huán)境變化加快,數(shù)據(jù)生命周期縮短、格式更新頻率加快,人類對(duì)數(shù)字資源長(zhǎng)期保存的要求不斷提高,而保存環(huán)境卻日益惡化,因此大數(shù)據(jù)環(huán)境下,圖書(shū)館的數(shù)字保存對(duì)象應(yīng)達(dá)到以下要求:
真實(shí)性:數(shù)字對(duì)象文件應(yīng)可以通過(guò)評(píng)估身份信息和操作記錄的完整性進(jìn)行驗(yàn)證,其驗(yàn)證過(guò)程應(yīng)貫穿于系統(tǒng)的整個(gè)工作流程。在任何時(shí)候都能夠確定數(shù)據(jù)的內(nèi)容完整無(wú)缺、身份來(lái)源可靠、且未被非法更改,同時(shí)保證數(shù)據(jù)的創(chuàng)建時(shí)間、創(chuàng)建人員、創(chuàng)建模式等內(nèi)容明確,數(shù)字對(duì)象所參與的行為或事件有明確標(biāo)示,數(shù)字對(duì)象與其相關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系表達(dá)明確且相關(guān)附件信息完善。
位階完整性:數(shù)字對(duì)象的位級(jí)存儲(chǔ)可以確保提交的數(shù)據(jù)不發(fā)生任何變化,即每一位(bit)可保持原狀,持續(xù)維持原始位流的完整性和可讀性。
安全性:保證數(shù)字對(duì)象未被未經(jīng)授權(quán)的用戶訪問(wèn)或更改。
可用性:保證數(shù)字對(duì)象的封裝、遷移、備份、交換、訪問(wèn)、傳輸都是容易的,不會(huì)隨著保存環(huán)境的變化而產(chǎn)生改變。
要達(dá)到以上對(duì)數(shù)字保存對(duì)象的要求,協(xié)作平臺(tái)不但需要配置一系列的審計(jì)、校驗(yàn)、身份認(rèn)證、信息跟蹤、格式監(jiān)測(cè)、統(tǒng)計(jì)報(bào)告、遷移等保存功能和策略,還應(yīng)支持靈活嵌入一系列的軟件和工具以完成對(duì)數(shù)字對(duì)象的持續(xù)存儲(chǔ)和管理,如為保證數(shù)字對(duì)象的真實(shí)性,在資源的攝入階段需要持續(xù)監(jiān)控整個(gè)攝入過(guò)程中數(shù)據(jù)內(nèi)容、結(jié)構(gòu)及其狀態(tài),因此需要嵌入AutoTODD等類別的攝取軟件;為保證平臺(tái)數(shù)據(jù)對(duì)象歸檔和保存階段所保存數(shù)據(jù)對(duì)象的完整性和正確性,平臺(tái)需要配備ACE(Audit Control Environment)等完整、系統(tǒng)的校驗(yàn)機(jī)制(如奇偶校驗(yàn)、指紋驗(yàn)證等);為保證信息包的有效傳輸需要配備BaTIt等包處理工具,以實(shí)現(xiàn)對(duì)信息包的創(chuàng)建、操縱和校驗(yàn)。同時(shí)還需要配備合理的數(shù)據(jù)處理軟件,通過(guò)獲取數(shù)字指紋、文件格式轉(zhuǎn)換、元數(shù)據(jù)抽取等功能完成對(duì)數(shù)字對(duì)象的完整傳輸,確保數(shù)字對(duì)象按原有的層次結(jié)構(gòu)復(fù)制和上載等,如Archive This!、WebIndexing Portal、E-PubsPortal等。此外,該平臺(tái)還應(yīng)支持靈活配置用于查詢定位的軟件如Lucene,用于病毒查驗(yàn)的軟件等工具軟件。
同時(shí),為滿足以上數(shù)據(jù)對(duì)象的保存需求,在進(jìn)行系統(tǒng)模型設(shè)計(jì)時(shí),不但要考慮整個(gè)平臺(tái)的靈活擴(kuò)展能力,以能夠應(yīng)對(duì)不斷增加的資源類型和飛速增長(zhǎng)的資源保存需求;同時(shí)要充分考慮到協(xié)作平臺(tái)對(duì)不同類型資源對(duì)象的處理能力和節(jié)點(diǎn)問(wèn)的協(xié)同工作能力,使其在中心節(jié)點(diǎn)的統(tǒng)籌規(guī)劃下,充分利用每個(gè)分支機(jī)構(gòu)的資源處理能力,依據(jù)數(shù)據(jù)資源的內(nèi)容、結(jié)構(gòu)特征、質(zhì)量保證標(biāo)準(zhǔn)定制合理的保存工作策略和工作機(jī)制,有效保障資源的安全性、有效性,提高平臺(tái)資源的服務(wù)能力。
3.2系統(tǒng)平臺(tái)模型設(shè)計(jì)
OAIS模型作為數(shù)字資源長(zhǎng)期保存領(lǐng)域的標(biāo)準(zhǔn),其提供了對(duì)數(shù)字資源長(zhǎng)期保存系統(tǒng)的外部環(huán)境、功能模塊以及保存對(duì)象模型的定義。針對(duì)基于OAIS模型的分布式長(zhǎng)期保存系統(tǒng)框架的討論最早始于2010年,由MetaArchiveCooperative,、Chronopolis和the Library of Congress共同發(fā)起討論。近兩年,隨著歐美等國(guó)家合作保存項(xiàng)目的發(fā)展,分布式長(zhǎng)期保存體系框架逐漸受到各保存機(jī)構(gòu)的重視,其中比較有代表性項(xiàng)目包括Archivematica,Chronopolis,Data-PASS,the Danish Bit Repository,DuraCloud,InternetArchive,LOCKSS,MetaArchive Cooperative,and UC3 Merritt等。上述各項(xiàng)目的系統(tǒng)的實(shí)現(xiàn)方式各不相同,如LOCKSS分布式保存項(xiàng)目,其資源被重復(fù)保存在多個(gè)站點(diǎn)中,網(wǎng)絡(luò)中所有服務(wù)器在權(quán)利和職責(zé)方面都是對(duì)等;而Chronopolis項(xiàng)目采用了混合的協(xié)作模式,三個(gè)節(jié)點(diǎn)協(xié)同提供網(wǎng)格服務(wù),同時(shí)又有不同的分工,三個(gè)節(jié)點(diǎn)問(wèn)通過(guò)GridFTP進(jìn)行網(wǎng)格中大規(guī)模的并行數(shù)據(jù)復(fù)制,每份資源都存在3個(gè)獨(dú)立管理的副本??梢钥闯?,上述每個(gè)項(xiàng)目都根據(jù)項(xiàng)目的實(shí)際保存需求和機(jī)構(gòu)特點(diǎn)設(shè)計(jì)了不同的實(shí)現(xiàn)方式,且各有特色、各不相同。因此,圖書(shū)館基于OAIS的數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái)模型的設(shè)計(jì)應(yīng)緊密結(jié)合集中分散的合作模式,充分利用現(xiàn)有的工具和成果,綜合考慮合作機(jī)構(gòu)所具有的不同職責(zé)、角色和能力,根據(jù)大數(shù)據(jù)環(huán)境下圖書(shū)館合作保存對(duì)象需求,以O(shè)AIS標(biāo)準(zhǔn)為基礎(chǔ),構(gòu)建一個(gè)具備協(xié)同工作能力、支持靈活、擴(kuò)展的協(xié)作、互聯(lián)、分布式的數(shù)字資源長(zhǎng)期保存體系架構(gòu),如圖2所示。
該模型是一個(gè)包括協(xié)作、互聯(lián)、分布式的數(shù)字保存模型,模型由一個(gè)中心機(jī)構(gòu)和若干分支機(jī)構(gòu)共同組成基于OAIS的數(shù)字資源長(zhǎng)期保存協(xié)作平臺(tái),每個(gè)機(jī)構(gòu)都是協(xié)作平臺(tái)中的一個(gè)節(jié)點(diǎn),各個(gè)節(jié)點(diǎn)都根據(jù)預(yù)先制定的分工協(xié)作策略進(jìn)行協(xié)同工作,各節(jié)點(diǎn)均有分工,且彼此協(xié)作。模型中的中心節(jié)點(diǎn)和各個(gè)分支節(jié)點(diǎn)都遵循OAIS參考模型,且在中心節(jié)點(diǎn)的集中指導(dǎo)下獨(dú)立組織開(kāi)發(fā)、維護(hù)并確保數(shù)據(jù)的完整性和有效性,其主要包括攝入模塊、保存計(jì)劃模塊、數(shù)據(jù)管理模塊、歸檔存儲(chǔ)模塊以及資源利用模塊。平臺(tái)中的每個(gè)節(jié)點(diǎn)均可根據(jù)本機(jī)構(gòu)所具有的不同職責(zé)、角色和能力進(jìn)行自治,獨(dú)立執(zhí)行保存功能,維護(hù)保存系統(tǒng),并提供服務(wù)。每個(gè)分支機(jī)構(gòu)的節(jié)點(diǎn)對(duì)等,各分支節(jié)點(diǎn)的關(guān)閉、停止、增加,并不影響整個(gè)平臺(tái)的正常運(yùn)行,平臺(tái)可以隨著資源規(guī)模的擴(kuò)大不斷增加分支節(jié)點(diǎn),有效保證了平臺(tái)的靈活性。采用該種模式不但可以有效簡(jiǎn)化平臺(tái)管理和開(kāi)發(fā)的復(fù)雜性,增強(qiáng)協(xié)作平臺(tái)的可擴(kuò)展性,而且可以允許各分支機(jī)構(gòu)根據(jù)自身需求,靈活配置存儲(chǔ)策略和工作流程,增強(qiáng)了整個(gè)平臺(tái)的包容性,有利于充分利用現(xiàn)有工作和研究成果。
該模型采用松耦合的工作模式,模型的中心節(jié)點(diǎn)負(fù)責(zé)對(duì)整個(gè)平臺(tái)的日常管理和監(jiān)控,各分支節(jié)點(diǎn)采用獨(dú)立運(yùn)行的管理機(jī)制,由于每個(gè)分支機(jī)構(gòu)具有很高的自治性,因此每個(gè)機(jī)構(gòu)可以在遵循一定的標(biāo)準(zhǔn)、政策的前提下,采用不同的系統(tǒng)、嵌入不同的保存工具,保存不同類型的數(shù)字對(duì)象,有效保證大數(shù)據(jù)環(huán)境下保存平臺(tái)的擴(kuò)展能力。在分布式架構(gòu)下,中心節(jié)點(diǎn)通過(guò)執(zhí)行日常管理和檢測(cè),協(xié)調(diào)各分支節(jié)點(diǎn)獨(dú)立運(yùn)行,使該平臺(tái)可支持不同的保存功能,達(dá)到不同的保存目標(biāo)。平臺(tái)通過(guò)采用基于分布式的保存策略和多副本安全策略,將多個(gè)副本分布式地保存在地理位置分散的多個(gè)分支節(jié)點(diǎn)的歸檔存儲(chǔ)中,可以使得各分支節(jié)點(diǎn)資源互為備份和補(bǔ)充,共同完成資源保存,保證保存資源的多地多副本,最大限度的保障資源的安全性,避免因惡意攻擊、本地資源丟失等因素造成的資源受損。
中心節(jié)點(diǎn)負(fù)責(zé)平臺(tái)的統(tǒng)籌規(guī)劃和全局監(jiān)管,通過(guò)相應(yīng)的節(jié)點(diǎn)注冊(cè)機(jī)制完成對(duì)各分支節(jié)點(diǎn)信息的管理,利用資源提交機(jī)制接收各分支節(jié)點(diǎn)的數(shù)據(jù)和資源,其主要功能模塊包括系統(tǒng)管理(如各節(jié)點(diǎn)信息管理、備份管理、人員權(quán)限管理、各種報(bào)告管理等等)、長(zhǎng)期保存(如保存規(guī)劃、環(huán)境監(jiān)測(cè)、策略評(píng)估等)、倉(cāng)儲(chǔ)管理(如數(shù)據(jù)庫(kù)管理、唯一標(biāo)識(shí)符管理等)、歸檔存儲(chǔ)(如存儲(chǔ)系統(tǒng)管理、介質(zhì)管理、存儲(chǔ)機(jī)制管理等)、資源攝取(如分支節(jié)點(diǎn)資源的接收、審核、AIP生成等)、資源利用(如DIP生成、資源呈現(xiàn)等)。中心節(jié)點(diǎn)的主要任務(wù)包括:①每個(gè)分支節(jié)點(diǎn)通過(guò)各自節(jié)點(diǎn)的資源利用模塊向中心節(jié)點(diǎn)提供信息,中心節(jié)點(diǎn)通過(guò)其攝入模塊完成資源的收集,并通過(guò)倉(cāng)儲(chǔ)管理和歸檔存儲(chǔ)完成對(duì)平臺(tái)內(nèi)資源的組織和管理,平臺(tái)內(nèi)資源索引的整合與請(qǐng)求分發(fā)由倉(cāng)儲(chǔ)管理模塊負(fù)責(zé)。②中心節(jié)點(diǎn)負(fù)責(zé)對(duì)所有分支節(jié)點(diǎn)內(nèi)容信息和保存管理信息的收集、組織,并完成對(duì)已解決版權(quán)資源的融合分析和統(tǒng)一揭示,保證在低成本的條件下實(shí)現(xiàn)數(shù)據(jù)的高效存儲(chǔ)和訪問(wèn)。③各分支節(jié)點(diǎn)問(wèn)可以在中心節(jié)點(diǎn)的管理下,完成對(duì)保存資源的遷移和備份,中心節(jié)點(diǎn)負(fù)責(zé)協(xié)作平臺(tái)內(nèi)資源備份遷移實(shí)施情況的統(tǒng)計(jì)。④中心機(jī)構(gòu)負(fù)責(zé)對(duì)分支機(jī)構(gòu)進(jìn)行檢查和審計(jì),管理協(xié)作平臺(tái)內(nèi)部各節(jié)點(diǎn)的名稱、機(jī)構(gòu)性質(zhì)、保存資源的基本情況等信息。⑤中心節(jié)點(diǎn)負(fù)責(zé)完成對(duì)協(xié)作平臺(tái)內(nèi)保存資源的統(tǒng)計(jì)管理,匯集各分支節(jié)點(diǎn)的數(shù)據(jù)保存情況,各分支結(jié)構(gòu)可以通過(guò)向中心節(jié)點(diǎn)提交請(qǐng)求,系統(tǒng)了解協(xié)作保存平臺(tái)內(nèi)資源的保存情況。⑥中心節(jié)點(diǎn)負(fù)責(zé)提供協(xié)作平臺(tái)的保存規(guī)劃管理,在匯集各分支節(jié)點(diǎn)制定的保存規(guī)劃的基礎(chǔ)上,制定協(xié)作平臺(tái)的全局保存規(guī)劃和策略,以指導(dǎo)各分支機(jī)構(gòu)制定相應(yīng)的保存實(shí)施策略。⑦中心節(jié)點(diǎn)負(fù)責(zé)提供服務(wù)注冊(cè)機(jī)制,以靈活嵌入一系列的保存軟件和工具,完成對(duì)數(shù)字對(duì)象的持續(xù)存儲(chǔ)和管理,保證協(xié)作平臺(tái)內(nèi)部資源的安全性、完整性,各分支機(jī)構(gòu)可以通過(guò)服務(wù)調(diào)用或服務(wù)嵌入的方式,完成對(duì)所需軟件和工具的使用,保證機(jī)構(gòu)內(nèi)資源的有效性。
各分支節(jié)點(diǎn)可以通過(guò)向中心節(jié)點(diǎn)注冊(cè),自主加入整個(gè)協(xié)作平臺(tái)中,其具備完整的保存功能,執(zhí)行機(jī)構(gòu)內(nèi)的資源攝入、存儲(chǔ)、管理、備份、利用等保存功能,是一個(gè)獨(dú)立的保存功能節(jié)點(diǎn)。各分支節(jié)點(diǎn)主要完成對(duì)保存對(duì)象的管理,并對(duì)數(shù)據(jù)安全提供保障。分支節(jié)點(diǎn)的主要任務(wù)包括:①負(fù)責(zé)對(duì)機(jī)構(gòu)內(nèi)保存資源對(duì)象內(nèi)容數(shù)據(jù)和元數(shù)據(jù)的監(jiān)控和管理,可通過(guò)嵌入相應(yīng)的校驗(yàn)工具實(shí)現(xiàn)對(duì)保存?zhèn)}儲(chǔ)中數(shù)字對(duì)象進(jìn)行完整性校驗(yàn)。②負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源的安全性和可靠性,配備一定的安全保障機(jī)制,如數(shù)據(jù)存儲(chǔ)狀態(tài)的審計(jì)、數(shù)據(jù)狀態(tài)的跟蹤機(jī)制、存儲(chǔ)介質(zhì)的安全保障機(jī)制等。③負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源的不變性檢查,定期檢查數(shù)據(jù)內(nèi)容是否未經(jīng)任何改變。④負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源信息的統(tǒng)計(jì),完成對(duì)保存資源處理過(guò)程的追蹤和檢查,并生成報(bào)告。⑤提供資源對(duì)象遷移功能,即在中心節(jié)點(diǎn)的統(tǒng)一調(diào)配下,支持將對(duì)象從一個(gè)分支節(jié)點(diǎn)遷移到另一個(gè)分支節(jié)點(diǎn),或從一種媒介遷移到另一種媒介資源。⑥負(fù)責(zé)資源原始資源的攝入和清洗,即各分支節(jié)點(diǎn)的資源攝入模塊要面向資源提交者提供對(duì)原始提交信息的管理,如數(shù)據(jù)完整性檢查、數(shù)據(jù)內(nèi)容和元數(shù)據(jù)格式檢測(cè)、元數(shù)據(jù)抽取、格式轉(zhuǎn)換、病毒檢測(cè)、剔除噪聲數(shù)據(jù)、數(shù)據(jù)提取、有用數(shù)據(jù)提取,以及圖書(shū)館相關(guān)資源整合等功能。⑦各分支節(jié)點(diǎn)的輸出模塊主要完成向中心節(jié)點(diǎn)推送資源的功能,可以根據(jù)中心節(jié)點(diǎn)的攝入策略,進(jìn)行資源的主動(dòng)推送,推送模式可采用實(shí)時(shí)、定時(shí)、觸發(fā)性推送以及手工推送等方式。
各分支節(jié)點(diǎn)可與中心節(jié)點(diǎn)協(xié)商,共同制定符合各分支節(jié)點(diǎn)自身技術(shù)能力和資源規(guī)模的資源復(fù)制策略和保存規(guī)劃,在最大限度保證資源安全性,確保數(shù)字對(duì)象長(zhǎng)期可用的同時(shí),有效平衡各分支機(jī)構(gòu)節(jié)點(diǎn)的獨(dú)立性,保障資源在協(xié)作平臺(tái)中的共享與協(xié)調(diào)。協(xié)作保存平臺(tái)中各節(jié)點(diǎn)都設(shè)置獨(dú)立的技術(shù)檢測(cè)機(jī)制作為其長(zhǎng)期保存計(jì)劃的一部分,如攝入文件的格式、文件的完整性、存儲(chǔ)媒介的安全性等。各分支節(jié)點(diǎn)的保存計(jì)劃側(cè)重于對(duì)本中心內(nèi)部保存文件的日常檢測(cè),而保存中心節(jié)點(diǎn)的保存規(guī)劃除包括對(duì)中心節(jié)點(diǎn)內(nèi)部文件的技術(shù)檢測(cè)外,還要指導(dǎo)平臺(tái)中各節(jié)點(diǎn)完成對(duì)其內(nèi)部存儲(chǔ)媒介的檢測(cè)。由于各分支節(jié)點(diǎn)所依賴的存儲(chǔ)單元不同,因此中心節(jié)點(diǎn)的保存計(jì)劃應(yīng)不但涵蓋其自身的內(nèi)部保存計(jì)劃還應(yīng)當(dāng)包括各分支節(jié)點(diǎn)的保存計(jì)劃,以指導(dǎo)各分支機(jī)構(gòu)用自己的技術(shù)檢測(cè)功能對(duì)他們使用的存儲(chǔ)媒介進(jìn)行檢測(cè)。
該模型的設(shè)計(jì)參考了Chronopolis項(xiàng)目區(qū)分主控節(jié)點(diǎn)和分支節(jié)點(diǎn)的分工協(xié)作模式,參考了LOCKSS項(xiàng)目的基于策略的存檔復(fù)制模式,使得整個(gè)模型既具有一定的獨(dú)立性又具有資源共享和易于擴(kuò)展的特點(diǎn)。模型設(shè)計(jì)的基本原則包括采用分布式架構(gòu),具有良好的可擴(kuò)展性、靈活性和安全性,數(shù)字資源的副本和原始版本可以分布在不同的地理位置,可以由多個(gè)機(jī)構(gòu)共同構(gòu)成,且由不同的管理員完成對(duì)系統(tǒng)平臺(tái)的分層管理和監(jiān)控,內(nèi)容可以進(jìn)行實(shí)況查詢,并定期檢查資源內(nèi)容的完整性及其他問(wèn)題,通過(guò)這些原則的設(shè)定,可以保證大量副本分布在不同的地理位置上,最大程度地保障資源可以在大多數(shù)可預(yù)知的環(huán)境中保存下來(lái)。此外,由于該模型遵循節(jié)點(diǎn)自治原則,可以減少系統(tǒng)的維護(hù)和開(kāi)發(fā)量,保證在不影響已運(yùn)行節(jié)點(diǎn)的情況下,實(shí)現(xiàn)多個(gè)分支節(jié)點(diǎn)的統(tǒng)一管理,實(shí)現(xiàn)保存協(xié)作平臺(tái)的可靈活擴(kuò)展。
4結(jié)語(yǔ)
大數(shù)據(jù)環(huán)境下,僅依靠單一機(jī)構(gòu)完成對(duì)形態(tài)各異資源的保存與保護(hù),已難以滿足圖書(shū)館數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)質(zhì)量、價(jià)值密度、可用性和可控性的需求。因此,面對(duì)更加艱巨的保存任務(wù)和更為復(fù)雜的保存環(huán)境,采用合作方式開(kāi)展數(shù)字保存,打破機(jī)構(gòu)問(wèn)資源保存與共享的諸多壁壘,實(shí)現(xiàn)資源保存與服務(wù)的有機(jī)結(jié)合,已成為目前眾多文化遺產(chǎn)機(jī)構(gòu)的必然選擇。圖書(shū)館采用集中分散的合作保存模式,依托集中管理——分布存儲(chǔ)——集中整合的資源存儲(chǔ)方式,構(gòu)建數(shù)字資源協(xié)作保存平臺(tái),有利于協(xié)調(diào)和調(diào)度社會(huì)資源,共同分擔(dān)保存風(fēng)險(xiǎn)和責(zé)任;有利于充分利用現(xiàn)有研究和實(shí)踐成果,發(fā)揮各保存機(jī)構(gòu)的數(shù)據(jù)保存優(yōu)勢(shì);有利于實(shí)現(xiàn)對(duì)數(shù)字資源長(zhǎng)期保存的統(tǒng)籌規(guī)劃、分工協(xié)作、分級(jí)管理的一體化運(yùn)行;有利于實(shí)現(xiàn)對(duì)資源對(duì)象實(shí)施不同層級(jí)的保存管理,保障數(shù)字對(duì)象的安全性、易控性和可用性;有利于圖書(shū)館長(zhǎng)期保存角色的轉(zhuǎn)變,即從數(shù)據(jù)的被動(dòng)存儲(chǔ)與保存,轉(zhuǎn)換到對(duì)資源的積極存儲(chǔ)、共享和利用;有利于節(jié)約資金、存儲(chǔ)資源以及人力資源;有利于實(shí)現(xiàn)對(duì)資源長(zhǎng)期存儲(chǔ)、管理和應(yīng)用機(jī)制的不斷完善和優(yōu)化;有利于依據(jù)數(shù)據(jù)的類型、結(jié)構(gòu)特點(diǎn)、使用方向和存儲(chǔ)方式,通過(guò)在不同存儲(chǔ)節(jié)點(diǎn)問(wèn)合理規(guī)劃存儲(chǔ)策略,實(shí)現(xiàn)資源的選擇性管理和存儲(chǔ),保證數(shù)據(jù)在物理特性上安全、正確、完整、可控和可用;有利于保存資源在不同機(jī)構(gòu)的服務(wù)與應(yīng)用中的共享,避免數(shù)據(jù)內(nèi)容誤存和誤用。