袁曉明+谷玉榮+王飛
摘 要 倉儲(chǔ)式長(zhǎng)期保存系統(tǒng)DAITSS適用于建立已有數(shù)字資源環(huán)境的長(zhǎng)期保存。論文基于對(duì)DAITSS數(shù)字資源長(zhǎng)期保存系統(tǒng)的存儲(chǔ)特性的研究,介紹了DAITSS保存系統(tǒng)的七個(gè)耦合服務(wù)模塊,并探討了其主要服務(wù)模塊核心工作界面的功能、存儲(chǔ)流程和存儲(chǔ)資源的管理方式等,結(jié)合該系統(tǒng)的存儲(chǔ)特點(diǎn)分析了DAITSS長(zhǎng)期保存系統(tǒng)應(yīng)用于蘇州大學(xué)本地資源保存的可靠性和有效性。
關(guān)鍵詞 DAITSS 數(shù)字資源長(zhǎng)期保存 核心服務(wù) 存儲(chǔ)管理
分類號(hào) G250.7
Preliminary Study on the DAITSS Core Interface and Data Storage
Yuan Xiaoming, Gu Yurong, Wang Fei
Abstract Repository preservation system DAITSS is used for archiving organizations in existing digital resources environment. Based on the research of the DAITSS digital resources preservation, this paper introduces the seven service modules of DATSS, discusses the interface of the core service, the storage processes and the management methods of digital resources. Combined with the system storage features, it analyzes the reliability and validity of applying DAITSS in Suzhou University.
Keywords DAITSS. Digital Resources Long-term Preservation. Core services. Storage management.
目前,國(guó)內(nèi)外已經(jīng)開發(fā)出多種基于開放檔案信息系統(tǒng)(OAIS)模型的數(shù)字資源長(zhǎng)期保存系統(tǒng),其中,DAITSS系統(tǒng)以其倉儲(chǔ)式存儲(chǔ)體系、規(guī)范化格式遷移及松耦合的模塊化結(jié)構(gòu)受到了越來越多的關(guān)注。本文擬對(duì)DAITSS的模塊進(jìn)行解析,并利用示例數(shù)據(jù)包對(duì)其核心內(nèi)容——核心界面和存儲(chǔ)管理兩個(gè)模塊進(jìn)行具體分析,就該系統(tǒng)的權(quán)限、數(shù)據(jù)管理和實(shí)際應(yīng)用進(jìn)行初步探討。
1 DAITSS系統(tǒng)模塊概述
1.1 DAITSS簡(jiǎn)介
DAITSS(Dark Archive In The Sunshine State)是由佛羅里達(dá)圖書館自動(dòng)化中心研究開發(fā),并為佛羅里達(dá)州的11所公立大學(xué)圖書館提供數(shù)字資源庫長(zhǎng)期保存服務(wù)的一種開源長(zhǎng)期保存系統(tǒng)。DAITSS作為一種機(jī)構(gòu)倉儲(chǔ)式后臺(tái)保存系統(tǒng),不提供用戶直接訪問接口,也被稱為“黑色檔案保存系統(tǒng)”。其區(qū)別于其他保存系統(tǒng)的最顯著特點(diǎn)是:允許其成員機(jī)構(gòu)通過授權(quán)的分發(fā)請(qǐng)求獲取資源,但不提供獲取其他用戶保存的數(shù)字資源;不支持?jǐn)?shù)字資源數(shù)據(jù)的采集,旨在對(duì)已有數(shù)字資源環(huán)境實(shí)現(xiàn)長(zhǎng)期保存。
DAITSS系統(tǒng)通過將提交信息包(SIP)轉(zhuǎn)化成一個(gè)可長(zhǎng)期保存的檔案信息包(AIP)實(shí)現(xiàn)數(shù)字資源的長(zhǎng)期保存,不僅為數(shù)字資源提供了數(shù)據(jù)保存、管理和獲取的倉儲(chǔ)功能,更實(shí)現(xiàn)了數(shù)字資源格式規(guī)范化和格式遷移的積極保存策略[1]。其對(duì)存儲(chǔ)機(jī)構(gòu)所保存的資源規(guī)范化為開放的、基于XML格式的數(shù)據(jù),并以最新的版本(如提交的word2003版本更新為word2010版)或后繼格式的版本存儲(chǔ)。目前,DAITSS系統(tǒng)可以識(shí)別超過600個(gè)文件格式并完全支持(即可以分析、描述并根據(jù)需要轉(zhuǎn)換)其中的十幾種常用格式,可實(shí)現(xiàn)文字、圖片、音頻及視頻等格式數(shù)據(jù)的保存及規(guī)范。弗羅里達(dá)數(shù)字檔案館自2006年投入使用DAITSS長(zhǎng)期保存系統(tǒng)以來,至2011年6月已攝取了29萬個(gè)數(shù)據(jù)包,包括了3910萬個(gè)文件,單一副本的存儲(chǔ)量達(dá)87TB[2]。2010年起開發(fā)團(tuán)隊(duì)實(shí)現(xiàn)了將DAITSS v.1.x升級(jí)為DAITSS v.2版本,設(shè)計(jì)模塊化和功能上的升級(jí)更方便了用戶的使用配置和服務(wù)定制。
1.2 DAITSS服務(wù)模塊
DAITSS v.2采用面向服務(wù)的架構(gòu),對(duì)單一的系統(tǒng)采用模塊相互耦合作用進(jìn)行數(shù)據(jù)包的處理。DAITSS系統(tǒng)的數(shù)據(jù)處理模塊包括DAITSS核心界面(DAITSS Core)、病毒檢測(cè)服務(wù)(Virus check)、描述服務(wù)(description)、行動(dòng)規(guī)劃服務(wù)(Action plan)、格式轉(zhuǎn)換服務(wù)(Transformation)、XML解析服務(wù)(XML resolution)和存儲(chǔ)管理(Storage)等七個(gè)模塊,其具體結(jié)構(gòu)及在數(shù)據(jù)保存處理中所起作用如圖1所示。
圖1 DAITSS v.2模塊體系及存檔流程[3]
DAITSS保存系統(tǒng)的存檔流程為:將需要存儲(chǔ)的文檔及其Mets文件以信息的形式提交至系統(tǒng)界面,信息包進(jìn)入DAITSS的存檔工作區(qū)之后,保存系統(tǒng)通過調(diào)用數(shù)據(jù)處理模塊檢測(cè)提交信息包是否有效,結(jié)構(gòu)是否完整,并在存檔過程發(fā)送數(shù)據(jù)包,直至數(shù)據(jù)包以AIP的形式存儲(chǔ)于系統(tǒng)數(shù)據(jù)庫中。在數(shù)據(jù)包存檔過程中,DAITSS Core和存儲(chǔ)服務(wù)是數(shù)據(jù)資源的提交、存儲(chǔ)的主要服務(wù)模塊,并提供了管理和獲取資源的對(duì)話界面,其余五個(gè)模塊則為數(shù)據(jù)包在提交存儲(chǔ)過程中后臺(tái)調(diào)用程序。
(1)DAITSS Core是執(zhí)行不同功能腳本和程序集合的面對(duì)用戶的Web頁面,其實(shí)現(xiàn)保存機(jī)構(gòu)的數(shù)字資源提交、請(qǐng)求及管理操作功能,也是管理員對(duì)提交的數(shù)據(jù)包存儲(chǔ)和管理的界面。
(2)病毒檢測(cè)服務(wù)對(duì)提交至工作區(qū)的每個(gè)數(shù)據(jù)包文件進(jìn)行病毒檢測(cè)。若發(fā)現(xiàn)病毒,整個(gè)數(shù)據(jù)包將會(huì)復(fù)制到保存區(qū)等待管理員的處理;沒有病毒的數(shù)據(jù)包則釋放到下一步處理進(jìn)程。endprint
(3)描述服務(wù)對(duì)給定的文件進(jìn)行格式識(shí)別、驗(yàn)證和表征。描述服務(wù)使用DROID進(jìn)行文件格式和版本的初步識(shí)別[4],通過JHOVE工具進(jìn)一步進(jìn)行驗(yàn)證和表征,并將JHOVE返回的技術(shù)元數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)格式的元數(shù)據(jù)。JHOVE的處理結(jié)果被解析映射至PREMIS文件中,PREMIS文件包含文件的識(shí)別和表征信息及描述服務(wù)的驗(yàn)證信息,該P(yáng)REMIS文件被釋放到下一個(gè)處理模塊用于指導(dǎo)下一步進(jìn)程。
(4)行動(dòng)計(jì)劃服務(wù)接收由描述服務(wù)的PREMIS文件,并從中提取格式信息,根據(jù)格式信息實(shí)行相應(yīng)的行動(dòng)計(jì)劃。對(duì)于行動(dòng)計(jì)劃中需要格式轉(zhuǎn)換的數(shù)據(jù)包,行動(dòng)計(jì)劃服務(wù)會(huì)反饋一個(gè)轉(zhuǎn)換標(biāo)識(shí)符至轉(zhuǎn)換服務(wù)模塊進(jìn)行格式轉(zhuǎn)換。
(5)轉(zhuǎn)換服務(wù)基于行動(dòng)計(jì)劃提供的轉(zhuǎn)換標(biāo)識(shí)符對(duì)給定的文件進(jìn)行格式轉(zhuǎn)換。轉(zhuǎn)換標(biāo)識(shí)符用來尋找轉(zhuǎn)換指令從而執(zhí)行格式轉(zhuǎn)換。
(6)XML解析服務(wù)對(duì)保存內(nèi)容為XML格式的文件進(jìn)行處理。XML解析服務(wù)下載XML內(nèi)容文件中提到的任何XML模式,并創(chuàng)建一個(gè)壓縮文件包保存于AIP中[5]。
(7)存儲(chǔ)服務(wù)是管理員對(duì)存儲(chǔ)數(shù)據(jù)包AIP進(jìn)行管理、查詢并對(duì)存儲(chǔ)實(shí)體服務(wù)器實(shí)現(xiàn)分類和監(jiān)控的頁面服務(wù)。
2 DAITSS Core及其功能
DAITSS保存系統(tǒng)的成員機(jī)構(gòu)通過Core界面提交信息包后,系統(tǒng)對(duì)數(shù)據(jù)包進(jìn)行存檔處理并最終將攝取報(bào)告反饋給用戶的Core界面上,詳見圖2。
圖2 數(shù)據(jù)包提交存檔流程
在數(shù)據(jù)的存儲(chǔ)過程中保存用戶可在Core界面實(shí)時(shí)跟蹤處理進(jìn)程,管理員通過Core界面的不同標(biāo)簽頁面監(jiān)控和調(diào)整存儲(chǔ)進(jìn)程。通過Core界面可實(shí)現(xiàn)如下功能:
2.1 用戶的設(shè)置和權(quán)限
DAITSS核心管理界面包括了賬戶、項(xiàng)目及用戶的創(chuàng)建和管理。在進(jìn)行數(shù)字資源存儲(chǔ)之前,管理員用戶需要對(duì)其保存機(jī)構(gòu)或成員創(chuàng)建相應(yīng)的賬戶、項(xiàng)目代碼和加盟用戶賬號(hào),并對(duì)同一保存機(jī)構(gòu)的項(xiàng)目代碼、賬戶與用戶名進(jìn)行有效關(guān)聯(lián)后,保存機(jī)構(gòu)方可通過自己的用戶名登陸進(jìn)行數(shù)據(jù)資源的保存。DAITSS用戶包括管理員用戶和加盟用戶兩種用戶類型,管理員用戶擁有對(duì)存儲(chǔ)資源的所有權(quán)限,包括系統(tǒng)用戶管理和數(shù)據(jù)資源存儲(chǔ)管理;加盟用戶僅具有提交存儲(chǔ)數(shù)據(jù)包和查看其賬戶數(shù)據(jù)包的權(quán)限,在DAITSS核心界面可查看“dashboard”和“packages”標(biāo)簽中的有關(guān)內(nèi)容。
2.2 數(shù)據(jù)包的提交及存檔
DAITSS保存用戶通過“packages”頁面進(jìn)行數(shù)據(jù)資源的提交。其提交的數(shù)據(jù)資源必須是一個(gè)包含有效數(shù)據(jù)資源及其描述mets文件的“tar”或“zip”格式的提交信息包(SIP),其描述性文件為XML格式文件,并包含了保存機(jī)構(gòu)的賬戶、項(xiàng)目代碼和所保存資源的基本信息要素。SIP數(shù)據(jù)包進(jìn)入DAITSS的存檔工作后,系統(tǒng)后臺(tái)會(huì)驗(yàn)證其是否有效、結(jié)構(gòu)是否完整,如果提交信息包有效,系統(tǒng)將其解析為一個(gè)工作區(qū)信息包(WIP)進(jìn)行病毒檢測(cè)、“per file”處理,并生成數(shù)據(jù)資源處理信息的mets文件,最終處理后的數(shù)據(jù)資源與處理信息的mets文件形成存儲(chǔ)信息數(shù)據(jù)包(AIP)保存至數(shù)據(jù)庫中,在DAITSS核心界面將攝取報(bào)告反饋給用戶;對(duì)于無效的提交信息包,DAITSS系統(tǒng)會(huì)拒絕攝取,并返回拒絕報(bào)告。保存機(jī)構(gòu)作為加盟用戶可通過“packages”頁面查詢所提交數(shù)據(jù)包的信息、活動(dòng)狀態(tài)和保存時(shí)間,檢索可存儲(chǔ)數(shù)據(jù)包存儲(chǔ)流程中的攝取報(bào)告或無效數(shù)據(jù)包的拒絕報(bào)告。
2.3 數(shù)據(jù)包處理的監(jiān)測(cè)
DAITSS系統(tǒng)管理員用戶通過監(jiān)測(cè)工作區(qū)對(duì)SIP存檔過程的處理進(jìn)程進(jìn)行監(jiān)控。系統(tǒng)處理數(shù)據(jù)包時(shí),WIP的地址被傳遞到攝取處理程序,工作區(qū)通過一系列Web服務(wù)和每個(gè)服務(wù)提供的WIP數(shù)據(jù)包更新信息控制其進(jìn)展。工作區(qū)列表中可查看待處理數(shù)據(jù)包“idle jobs”及正在處理的WIP的數(shù)據(jù)信息,管理員用戶可根據(jù)資源保存的具體情況選擇停止或啟動(dòng)WIP數(shù)據(jù)包處理進(jìn)程,靈活調(diào)整數(shù)據(jù)包處理的順序。在數(shù)據(jù)包的處理過程中,會(huì)因?yàn)榇鎯?chǔ)數(shù)據(jù)內(nèi)容本身的格式錯(cuò)誤或者系統(tǒng)網(wǎng)絡(luò)不穩(wěn)定等問題導(dǎo)致數(shù)據(jù)包存儲(chǔ)無法進(jìn)行下去,工作區(qū)會(huì)顯示數(shù)據(jù)包“error”狀態(tài),管理員可以停止其進(jìn)程,待問題解決后,脈沖后臺(tái)或管理員將其重新設(shè)為待處理“idle”狀態(tài);對(duì)于工作區(qū)中暫時(shí)不需要處理的數(shù)據(jù)包或已完成的數(shù)據(jù)包,管理員用戶可通過“stash”功能選擇性地將其移至留置區(qū)域,待下次需要處理時(shí)手動(dòng)釋放到工作區(qū)進(jìn)行處理。
2.4 分發(fā)和撤銷請(qǐng)求
DAITSS長(zhǎng)期保存系統(tǒng)不提供在線檢索功能,保存機(jī)構(gòu)用戶可通過Core界面提交分發(fā)申請(qǐng)獲取其保存的資源。DAITSS訪問入口接受用戶的請(qǐng)求后,系統(tǒng)會(huì)驗(yàn)證識(shí)別分發(fā)請(qǐng)求用戶是否具有權(quán)限;對(duì)于具有權(quán)限的分發(fā)請(qǐng)求,系統(tǒng)的分發(fā)功能產(chǎn)生響應(yīng),從存儲(chǔ)系統(tǒng)中提取數(shù)據(jù)并創(chuàng)建分發(fā)數(shù)據(jù)包(DIP),DIP包含原始的SIP和數(shù)據(jù)資源遷移或規(guī)范化的格式版本。一旦系統(tǒng)完成數(shù)據(jù)包的分發(fā),用戶在其Core界面的“packages”頁面上可直接下載DIP,同時(shí)系統(tǒng)界面會(huì)顯示一系列分發(fā)完成事件。
對(duì)于用戶不需要繼續(xù)保存的資源,用戶需要提交撤銷請(qǐng)求來刪除AIP數(shù)據(jù)包。撤銷請(qǐng)求受理后,系統(tǒng)會(huì)移除完整的AIP,并清除與數(shù)字資源相關(guān)的所有元數(shù)據(jù),但保留數(shù)據(jù)包基本事實(shí)和撤銷申請(qǐng)的信息。
2.5 數(shù)據(jù)包的批處理
批處理應(yīng)用于同一保存機(jī)構(gòu)或同一保存項(xiàng)目下資源的集中管理,不僅可實(shí)現(xiàn)一組數(shù)據(jù)包列表的創(chuàng)建、修改和刪除功能,而且可以用來分發(fā)或撤銷一組AIPs。存儲(chǔ)前對(duì)每個(gè)項(xiàng)目批次設(shè)定數(shù)據(jù)包數(shù)量,將一批次的SIP數(shù)據(jù)包指向同一存儲(chǔ)項(xiàng)目,通過“batches”標(biāo)簽查看某批次處理的數(shù)據(jù)包及其存儲(chǔ)詳情。創(chuàng)建一個(gè)批處理,管理員可以更為輕松地跟蹤一個(gè)邏輯組數(shù)據(jù)包的處理狀態(tài)和進(jìn)展。
3 DAITSS存儲(chǔ)管理
DAITSS系統(tǒng)采用混合存儲(chǔ)管理的模式,即全部元數(shù)據(jù)存放在MySQL關(guān)系數(shù)據(jù)庫中,同時(shí)將全部元數(shù)據(jù)與數(shù)據(jù)內(nèi)容對(duì)象一同保存在文件系統(tǒng)中,利用文件系統(tǒng)與關(guān)系數(shù)據(jù)庫管理系統(tǒng)來協(xié)同存儲(chǔ)和管理元數(shù)據(jù)及數(shù)字對(duì)象[6]。通過Storagemster和Silo圖形界面實(shí)現(xiàn)對(duì)保存資源副本AIP的管理。endprint
存儲(chǔ)服務(wù)是負(fù)責(zé)選擇筒倉和將數(shù)據(jù)寫入相應(yīng)筒倉的長(zhǎng)期存儲(chǔ)機(jī)制,其通過多層次的存儲(chǔ)管理,實(shí)現(xiàn)了對(duì)保存數(shù)字資源的有效分類和監(jiān)控,并可實(shí)現(xiàn)對(duì)同一資源進(jìn)行不同保存介質(zhì)的多副本保存,規(guī)避了保存風(fēng)險(xiǎn)。DAITSS存儲(chǔ)服務(wù)包括了一個(gè)或多個(gè)筒倉池(silo pool),每個(gè)筒倉池又由一個(gè)多個(gè)單獨(dú)的筒倉(silo)組成,其結(jié)構(gòu)如圖3。單個(gè)筒倉存儲(chǔ)介質(zhì)可為磁盤或磁帶,在存儲(chǔ)過程中可配合使用。弗羅里達(dá)數(shù)字檔案館DAITSS保存系統(tǒng)的存儲(chǔ)方案是在不同的兩個(gè)區(qū)域設(shè)定了兩個(gè)筒倉池,采用了IBM的Tivoli Storage Manager備份軟件,將數(shù)據(jù)備份到磁帶中,實(shí)現(xiàn)了三份AIP數(shù)據(jù)包的異地備份。
圖3 存儲(chǔ)服務(wù)的構(gòu)架[7]
DAITSS通過存儲(chǔ)管理界面調(diào)用和執(zhí)行倉儲(chǔ)管理程序,實(shí)現(xiàn)對(duì)其下屬筒倉池的管理和權(quán)限設(shè)定;同時(shí),通過存儲(chǔ)管理還可查看已存儲(chǔ)數(shù)據(jù)包,創(chuàng)建新的存儲(chǔ)筒倉和對(duì)每個(gè)筒倉池中各筒倉的數(shù)據(jù)進(jìn)行監(jiān)測(cè)等。此外,DAITSS存儲(chǔ)服務(wù)為保障存儲(chǔ)數(shù)據(jù)的準(zhǔn)確性,會(huì)定期對(duì)每個(gè)筒倉的AIP數(shù)據(jù)包進(jìn)行穩(wěn)定性檢測(cè),通過對(duì)存儲(chǔ)筒倉的數(shù)據(jù)包計(jì)算和校驗(yàn)判斷其是否被修改,每個(gè)AIP最近一次的穩(wěn)定性檢查信息會(huì)被記錄下來,通過存儲(chǔ)管理界面可查看每個(gè)存儲(chǔ)筒倉可利用空間信息和穩(wěn)定性檢測(cè)運(yùn)行的狀態(tài),并提供筒倉內(nèi)所有存儲(chǔ)數(shù)據(jù)包的內(nèi)容、數(shù)據(jù)包的存儲(chǔ)時(shí)間、存儲(chǔ)位置及其穩(wěn)定性檢查的xml文件。
4 DAITSS系統(tǒng)數(shù)據(jù)存檔示例
目前,國(guó)內(nèi)清華大學(xué)、中科院圖書館等研究機(jī)構(gòu)均采用Fedora倉儲(chǔ)系統(tǒng)建立本地長(zhǎng)期保存體系,尚未見采用DAITSS實(shí)現(xiàn)長(zhǎng)期保存的實(shí)踐案例。DAITSS作為數(shù)字圖書館的機(jī)構(gòu)倉儲(chǔ)的后臺(tái)系統(tǒng),注重于長(zhǎng)期保存功能的特性適用于各圖書館或科研機(jī)構(gòu)構(gòu)建一個(gè)基于已有資源環(huán)境的保存系統(tǒng),避免了與其他具有元數(shù)據(jù)采集功能的系統(tǒng)在功能上的重復(fù)[4]。其倉儲(chǔ)式保存機(jī)制與蘇州大學(xué)圖書館嘗試建立的本??蒲泄ぷ髡叩目蒲袛?shù)據(jù)和文獻(xiàn)資源的長(zhǎng)期保存體系相吻合,本研究中利用DAITSS系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)包的存檔,其存儲(chǔ)及管理流程示例如下:
首先創(chuàng)建蘇州大學(xué)存儲(chǔ)賬戶、項(xiàng)目代碼及用戶,三者相互關(guān)聯(lián),利用DAITSS系統(tǒng)的元數(shù)據(jù)編輯器創(chuàng)建需要保存PDF的元數(shù)據(jù),以PDF文件與元數(shù)據(jù)創(chuàng)建名為SUD001.zip提交數(shù)據(jù)包,通過“packages”頁面提交后,系統(tǒng)分配給該提交數(shù)據(jù)包知識(shí)實(shí)體ID(IEID)為EZAPURJQN_78QPHO,并顯示其提交數(shù)據(jù)包名稱、賬戶、項(xiàng)目、提交數(shù)據(jù)包空間、提交時(shí)間和系統(tǒng)最新進(jìn)程等。查看提交數(shù)據(jù)包的IEID,則顯示數(shù)據(jù)包攝取過程中攝取開始、攝取結(jié)束和反饋攝取報(bào)告的時(shí)間,同時(shí)可見已存檔AIP的詳細(xì)信息。
數(shù)據(jù)包成功存儲(chǔ)后,用戶通過提交分發(fā)或撤銷請(qǐng)求獲取或刪除存儲(chǔ)資源。如選擇IEID為EZAPURJQN_78QPHO 的數(shù)據(jù)包,在“requests”對(duì)話框提交分發(fā)或撤銷請(qǐng)求,待管理員對(duì)用戶請(qǐng)求授權(quán)后系統(tǒng)會(huì)進(jìn)行相應(yīng)的處理,在requests標(biāo)簽界面即顯示對(duì)EZAPURJQN_78QPHO的分發(fā)撤銷事件,事件列表會(huì)詳細(xì)顯示申請(qǐng)用戶、申請(qǐng)時(shí)間、授權(quán)驗(yàn)證等信息。DAITSS用戶獲取資源的方式保證了科研工作者數(shù)據(jù)的保密性和可長(zhǎng)期使用性的要求。
管理員對(duì)于用戶存儲(chǔ)的數(shù)據(jù)包可通過存儲(chǔ)服務(wù)的web界面(http://storagemaster.shades.local)進(jìn)行查看、管理和設(shè)定。對(duì)于上述示例中所提交數(shù)據(jù)包SUD001.zip,通過檢索其IEID(EZAPURJQN_78QPHO),存儲(chǔ)主頁面會(huì)顯示其存儲(chǔ)位置、存儲(chǔ)時(shí)間和最近一次的穩(wěn)定性檢測(cè)狀態(tài)和時(shí)間,便于管理員對(duì)存儲(chǔ)數(shù)據(jù)的分類和監(jiān)測(cè)。
5 結(jié)語
DAITSS作為倉儲(chǔ)式保存系統(tǒng),其基于規(guī)范、遷移和本地化的保存策略使其對(duì)于已有資源本地化的長(zhǎng)期保存具有可靠性和穩(wěn)定性。同時(shí),DAITSS v2重建了格式化處理過程和結(jié)構(gòu),使系統(tǒng)更易于安裝和操作,主要表現(xiàn)在四個(gè)方面:①采用模塊化的結(jié)構(gòu)和程序調(diào)用方式,使數(shù)據(jù)存檔更易于管理操作;②允許添加新的服務(wù)和架構(gòu),更易于支撐新的格式;③可實(shí)現(xiàn)與第三方系統(tǒng)的集成和互操作,增加了可擴(kuò)展性和使用率;④DAITSS系統(tǒng)即將開發(fā)以“peek”的方式獲取資源,降低了系統(tǒng)數(shù)據(jù)處理量,方便了用戶的資源獲取。
通過對(duì)DAITSS數(shù)字資源長(zhǎng)期保存中存儲(chǔ)和管理功能的研究驗(yàn)證,倉儲(chǔ)式的DAITSS系統(tǒng)適用于本館已有數(shù)字資源的長(zhǎng)期保存,前期的初步嘗試與探索研究為DAITSS最終應(yīng)用于服務(wù)器存儲(chǔ)提供了可靠的理論依據(jù)。在后續(xù)工作中,將對(duì)存儲(chǔ)介質(zhì)、元數(shù)據(jù)的規(guī)范和DAITSS存儲(chǔ)深層次模塊進(jìn)一步探索研究,深入探討DAITSS的系統(tǒng)體系及備份策略[8],使DAITSS長(zhǎng)期保存系統(tǒng)提供更穩(wěn)定可靠的保存服務(wù)。endprint
存儲(chǔ)服務(wù)是負(fù)責(zé)選擇筒倉和將數(shù)據(jù)寫入相應(yīng)筒倉的長(zhǎng)期存儲(chǔ)機(jī)制,其通過多層次的存儲(chǔ)管理,實(shí)現(xiàn)了對(duì)保存數(shù)字資源的有效分類和監(jiān)控,并可實(shí)現(xiàn)對(duì)同一資源進(jìn)行不同保存介質(zhì)的多副本保存,規(guī)避了保存風(fēng)險(xiǎn)。DAITSS存儲(chǔ)服務(wù)包括了一個(gè)或多個(gè)筒倉池(silo pool),每個(gè)筒倉池又由一個(gè)多個(gè)單獨(dú)的筒倉(silo)組成,其結(jié)構(gòu)如圖3。單個(gè)筒倉存儲(chǔ)介質(zhì)可為磁盤或磁帶,在存儲(chǔ)過程中可配合使用。弗羅里達(dá)數(shù)字檔案館DAITSS保存系統(tǒng)的存儲(chǔ)方案是在不同的兩個(gè)區(qū)域設(shè)定了兩個(gè)筒倉池,采用了IBM的Tivoli Storage Manager備份軟件,將數(shù)據(jù)備份到磁帶中,實(shí)現(xiàn)了三份AIP數(shù)據(jù)包的異地備份。
圖3 存儲(chǔ)服務(wù)的構(gòu)架[7]
DAITSS通過存儲(chǔ)管理界面調(diào)用和執(zhí)行倉儲(chǔ)管理程序,實(shí)現(xiàn)對(duì)其下屬筒倉池的管理和權(quán)限設(shè)定;同時(shí),通過存儲(chǔ)管理還可查看已存儲(chǔ)數(shù)據(jù)包,創(chuàng)建新的存儲(chǔ)筒倉和對(duì)每個(gè)筒倉池中各筒倉的數(shù)據(jù)進(jìn)行監(jiān)測(cè)等。此外,DAITSS存儲(chǔ)服務(wù)為保障存儲(chǔ)數(shù)據(jù)的準(zhǔn)確性,會(huì)定期對(duì)每個(gè)筒倉的AIP數(shù)據(jù)包進(jìn)行穩(wěn)定性檢測(cè),通過對(duì)存儲(chǔ)筒倉的數(shù)據(jù)包計(jì)算和校驗(yàn)判斷其是否被修改,每個(gè)AIP最近一次的穩(wěn)定性檢查信息會(huì)被記錄下來,通過存儲(chǔ)管理界面可查看每個(gè)存儲(chǔ)筒倉可利用空間信息和穩(wěn)定性檢測(cè)運(yùn)行的狀態(tài),并提供筒倉內(nèi)所有存儲(chǔ)數(shù)據(jù)包的內(nèi)容、數(shù)據(jù)包的存儲(chǔ)時(shí)間、存儲(chǔ)位置及其穩(wěn)定性檢查的xml文件。
4 DAITSS系統(tǒng)數(shù)據(jù)存檔示例
目前,國(guó)內(nèi)清華大學(xué)、中科院圖書館等研究機(jī)構(gòu)均采用Fedora倉儲(chǔ)系統(tǒng)建立本地長(zhǎng)期保存體系,尚未見采用DAITSS實(shí)現(xiàn)長(zhǎng)期保存的實(shí)踐案例。DAITSS作為數(shù)字圖書館的機(jī)構(gòu)倉儲(chǔ)的后臺(tái)系統(tǒng),注重于長(zhǎng)期保存功能的特性適用于各圖書館或科研機(jī)構(gòu)構(gòu)建一個(gè)基于已有資源環(huán)境的保存系統(tǒng),避免了與其他具有元數(shù)據(jù)采集功能的系統(tǒng)在功能上的重復(fù)[4]。其倉儲(chǔ)式保存機(jī)制與蘇州大學(xué)圖書館嘗試建立的本??蒲泄ぷ髡叩目蒲袛?shù)據(jù)和文獻(xiàn)資源的長(zhǎng)期保存體系相吻合,本研究中利用DAITSS系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)包的存檔,其存儲(chǔ)及管理流程示例如下:
首先創(chuàng)建蘇州大學(xué)存儲(chǔ)賬戶、項(xiàng)目代碼及用戶,三者相互關(guān)聯(lián),利用DAITSS系統(tǒng)的元數(shù)據(jù)編輯器創(chuàng)建需要保存PDF的元數(shù)據(jù),以PDF文件與元數(shù)據(jù)創(chuàng)建名為SUD001.zip提交數(shù)據(jù)包,通過“packages”頁面提交后,系統(tǒng)分配給該提交數(shù)據(jù)包知識(shí)實(shí)體ID(IEID)為EZAPURJQN_78QPHO,并顯示其提交數(shù)據(jù)包名稱、賬戶、項(xiàng)目、提交數(shù)據(jù)包空間、提交時(shí)間和系統(tǒng)最新進(jìn)程等。查看提交數(shù)據(jù)包的IEID,則顯示數(shù)據(jù)包攝取過程中攝取開始、攝取結(jié)束和反饋攝取報(bào)告的時(shí)間,同時(shí)可見已存檔AIP的詳細(xì)信息。
數(shù)據(jù)包成功存儲(chǔ)后,用戶通過提交分發(fā)或撤銷請(qǐng)求獲取或刪除存儲(chǔ)資源。如選擇IEID為EZAPURJQN_78QPHO 的數(shù)據(jù)包,在“requests”對(duì)話框提交分發(fā)或撤銷請(qǐng)求,待管理員對(duì)用戶請(qǐng)求授權(quán)后系統(tǒng)會(huì)進(jìn)行相應(yīng)的處理,在requests標(biāo)簽界面即顯示對(duì)EZAPURJQN_78QPHO的分發(fā)撤銷事件,事件列表會(huì)詳細(xì)顯示申請(qǐng)用戶、申請(qǐng)時(shí)間、授權(quán)驗(yàn)證等信息。DAITSS用戶獲取資源的方式保證了科研工作者數(shù)據(jù)的保密性和可長(zhǎng)期使用性的要求。
管理員對(duì)于用戶存儲(chǔ)的數(shù)據(jù)包可通過存儲(chǔ)服務(wù)的web界面(http://storagemaster.shades.local)進(jìn)行查看、管理和設(shè)定。對(duì)于上述示例中所提交數(shù)據(jù)包SUD001.zip,通過檢索其IEID(EZAPURJQN_78QPHO),存儲(chǔ)主頁面會(huì)顯示其存儲(chǔ)位置、存儲(chǔ)時(shí)間和最近一次的穩(wěn)定性檢測(cè)狀態(tài)和時(shí)間,便于管理員對(duì)存儲(chǔ)數(shù)據(jù)的分類和監(jiān)測(cè)。
5 結(jié)語
DAITSS作為倉儲(chǔ)式保存系統(tǒng),其基于規(guī)范、遷移和本地化的保存策略使其對(duì)于已有資源本地化的長(zhǎng)期保存具有可靠性和穩(wěn)定性。同時(shí),DAITSS v2重建了格式化處理過程和結(jié)構(gòu),使系統(tǒng)更易于安裝和操作,主要表現(xiàn)在四個(gè)方面:①采用模塊化的結(jié)構(gòu)和程序調(diào)用方式,使數(shù)據(jù)存檔更易于管理操作;②允許添加新的服務(wù)和架構(gòu),更易于支撐新的格式;③可實(shí)現(xiàn)與第三方系統(tǒng)的集成和互操作,增加了可擴(kuò)展性和使用率;④DAITSS系統(tǒng)即將開發(fā)以“peek”的方式獲取資源,降低了系統(tǒng)數(shù)據(jù)處理量,方便了用戶的資源獲取。
通過對(duì)DAITSS數(shù)字資源長(zhǎng)期保存中存儲(chǔ)和管理功能的研究驗(yàn)證,倉儲(chǔ)式的DAITSS系統(tǒng)適用于本館已有數(shù)字資源的長(zhǎng)期保存,前期的初步嘗試與探索研究為DAITSS最終應(yīng)用于服務(wù)器存儲(chǔ)提供了可靠的理論依據(jù)。在后續(xù)工作中,將對(duì)存儲(chǔ)介質(zhì)、元數(shù)據(jù)的規(guī)范和DAITSS存儲(chǔ)深層次模塊進(jìn)一步探索研究,深入探討DAITSS的系統(tǒng)體系及備份策略[8],使DAITSS長(zhǎng)期保存系統(tǒng)提供更穩(wěn)定可靠的保存服務(wù)。endprint
存儲(chǔ)服務(wù)是負(fù)責(zé)選擇筒倉和將數(shù)據(jù)寫入相應(yīng)筒倉的長(zhǎng)期存儲(chǔ)機(jī)制,其通過多層次的存儲(chǔ)管理,實(shí)現(xiàn)了對(duì)保存數(shù)字資源的有效分類和監(jiān)控,并可實(shí)現(xiàn)對(duì)同一資源進(jìn)行不同保存介質(zhì)的多副本保存,規(guī)避了保存風(fēng)險(xiǎn)。DAITSS存儲(chǔ)服務(wù)包括了一個(gè)或多個(gè)筒倉池(silo pool),每個(gè)筒倉池又由一個(gè)多個(gè)單獨(dú)的筒倉(silo)組成,其結(jié)構(gòu)如圖3。單個(gè)筒倉存儲(chǔ)介質(zhì)可為磁盤或磁帶,在存儲(chǔ)過程中可配合使用。弗羅里達(dá)數(shù)字檔案館DAITSS保存系統(tǒng)的存儲(chǔ)方案是在不同的兩個(gè)區(qū)域設(shè)定了兩個(gè)筒倉池,采用了IBM的Tivoli Storage Manager備份軟件,將數(shù)據(jù)備份到磁帶中,實(shí)現(xiàn)了三份AIP數(shù)據(jù)包的異地備份。
圖3 存儲(chǔ)服務(wù)的構(gòu)架[7]
DAITSS通過存儲(chǔ)管理界面調(diào)用和執(zhí)行倉儲(chǔ)管理程序,實(shí)現(xiàn)對(duì)其下屬筒倉池的管理和權(quán)限設(shè)定;同時(shí),通過存儲(chǔ)管理還可查看已存儲(chǔ)數(shù)據(jù)包,創(chuàng)建新的存儲(chǔ)筒倉和對(duì)每個(gè)筒倉池中各筒倉的數(shù)據(jù)進(jìn)行監(jiān)測(cè)等。此外,DAITSS存儲(chǔ)服務(wù)為保障存儲(chǔ)數(shù)據(jù)的準(zhǔn)確性,會(huì)定期對(duì)每個(gè)筒倉的AIP數(shù)據(jù)包進(jìn)行穩(wěn)定性檢測(cè),通過對(duì)存儲(chǔ)筒倉的數(shù)據(jù)包計(jì)算和校驗(yàn)判斷其是否被修改,每個(gè)AIP最近一次的穩(wěn)定性檢查信息會(huì)被記錄下來,通過存儲(chǔ)管理界面可查看每個(gè)存儲(chǔ)筒倉可利用空間信息和穩(wěn)定性檢測(cè)運(yùn)行的狀態(tài),并提供筒倉內(nèi)所有存儲(chǔ)數(shù)據(jù)包的內(nèi)容、數(shù)據(jù)包的存儲(chǔ)時(shí)間、存儲(chǔ)位置及其穩(wěn)定性檢查的xml文件。
4 DAITSS系統(tǒng)數(shù)據(jù)存檔示例
目前,國(guó)內(nèi)清華大學(xué)、中科院圖書館等研究機(jī)構(gòu)均采用Fedora倉儲(chǔ)系統(tǒng)建立本地長(zhǎng)期保存體系,尚未見采用DAITSS實(shí)現(xiàn)長(zhǎng)期保存的實(shí)踐案例。DAITSS作為數(shù)字圖書館的機(jī)構(gòu)倉儲(chǔ)的后臺(tái)系統(tǒng),注重于長(zhǎng)期保存功能的特性適用于各圖書館或科研機(jī)構(gòu)構(gòu)建一個(gè)基于已有資源環(huán)境的保存系統(tǒng),避免了與其他具有元數(shù)據(jù)采集功能的系統(tǒng)在功能上的重復(fù)[4]。其倉儲(chǔ)式保存機(jī)制與蘇州大學(xué)圖書館嘗試建立的本??蒲泄ぷ髡叩目蒲袛?shù)據(jù)和文獻(xiàn)資源的長(zhǎng)期保存體系相吻合,本研究中利用DAITSS系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)包的存檔,其存儲(chǔ)及管理流程示例如下:
首先創(chuàng)建蘇州大學(xué)存儲(chǔ)賬戶、項(xiàng)目代碼及用戶,三者相互關(guān)聯(lián),利用DAITSS系統(tǒng)的元數(shù)據(jù)編輯器創(chuàng)建需要保存PDF的元數(shù)據(jù),以PDF文件與元數(shù)據(jù)創(chuàng)建名為SUD001.zip提交數(shù)據(jù)包,通過“packages”頁面提交后,系統(tǒng)分配給該提交數(shù)據(jù)包知識(shí)實(shí)體ID(IEID)為EZAPURJQN_78QPHO,并顯示其提交數(shù)據(jù)包名稱、賬戶、項(xiàng)目、提交數(shù)據(jù)包空間、提交時(shí)間和系統(tǒng)最新進(jìn)程等。查看提交數(shù)據(jù)包的IEID,則顯示數(shù)據(jù)包攝取過程中攝取開始、攝取結(jié)束和反饋攝取報(bào)告的時(shí)間,同時(shí)可見已存檔AIP的詳細(xì)信息。
數(shù)據(jù)包成功存儲(chǔ)后,用戶通過提交分發(fā)或撤銷請(qǐng)求獲取或刪除存儲(chǔ)資源。如選擇IEID為EZAPURJQN_78QPHO 的數(shù)據(jù)包,在“requests”對(duì)話框提交分發(fā)或撤銷請(qǐng)求,待管理員對(duì)用戶請(qǐng)求授權(quán)后系統(tǒng)會(huì)進(jìn)行相應(yīng)的處理,在requests標(biāo)簽界面即顯示對(duì)EZAPURJQN_78QPHO的分發(fā)撤銷事件,事件列表會(huì)詳細(xì)顯示申請(qǐng)用戶、申請(qǐng)時(shí)間、授權(quán)驗(yàn)證等信息。DAITSS用戶獲取資源的方式保證了科研工作者數(shù)據(jù)的保密性和可長(zhǎng)期使用性的要求。
管理員對(duì)于用戶存儲(chǔ)的數(shù)據(jù)包可通過存儲(chǔ)服務(wù)的web界面(http://storagemaster.shades.local)進(jìn)行查看、管理和設(shè)定。對(duì)于上述示例中所提交數(shù)據(jù)包SUD001.zip,通過檢索其IEID(EZAPURJQN_78QPHO),存儲(chǔ)主頁面會(huì)顯示其存儲(chǔ)位置、存儲(chǔ)時(shí)間和最近一次的穩(wěn)定性檢測(cè)狀態(tài)和時(shí)間,便于管理員對(duì)存儲(chǔ)數(shù)據(jù)的分類和監(jiān)測(cè)。
5 結(jié)語
DAITSS作為倉儲(chǔ)式保存系統(tǒng),其基于規(guī)范、遷移和本地化的保存策略使其對(duì)于已有資源本地化的長(zhǎng)期保存具有可靠性和穩(wěn)定性。同時(shí),DAITSS v2重建了格式化處理過程和結(jié)構(gòu),使系統(tǒng)更易于安裝和操作,主要表現(xiàn)在四個(gè)方面:①采用模塊化的結(jié)構(gòu)和程序調(diào)用方式,使數(shù)據(jù)存檔更易于管理操作;②允許添加新的服務(wù)和架構(gòu),更易于支撐新的格式;③可實(shí)現(xiàn)與第三方系統(tǒng)的集成和互操作,增加了可擴(kuò)展性和使用率;④DAITSS系統(tǒng)即將開發(fā)以“peek”的方式獲取資源,降低了系統(tǒng)數(shù)據(jù)處理量,方便了用戶的資源獲取。
通過對(duì)DAITSS數(shù)字資源長(zhǎng)期保存中存儲(chǔ)和管理功能的研究驗(yàn)證,倉儲(chǔ)式的DAITSS系統(tǒng)適用于本館已有數(shù)字資源的長(zhǎng)期保存,前期的初步嘗試與探索研究為DAITSS最終應(yīng)用于服務(wù)器存儲(chǔ)提供了可靠的理論依據(jù)。在后續(xù)工作中,將對(duì)存儲(chǔ)介質(zhì)、元數(shù)據(jù)的規(guī)范和DAITSS存儲(chǔ)深層次模塊進(jìn)一步探索研究,深入探討DAITSS的系統(tǒng)體系及備份策略[8],使DAITSS長(zhǎng)期保存系統(tǒng)提供更穩(wěn)定可靠的保存服務(wù)。endprint