蔡 舜(天津科技大學(xué)圖書館)
?
解析《數(shù)字資源保存管理手冊》的保存策略
蔡舜(天津科技大學(xué)圖書館)
摘要:《數(shù)字資源保存管理手冊》是由英國的數(shù)字保存聯(lián)盟編寫的一部被廣泛引用參考的數(shù)字資源保存與讀取的重要指南之一。手冊的第三大部分對于數(shù)字資源的保存策略進(jìn)行了詳細(xì)的介紹。從媒體的維護(hù)和內(nèi)容保存兩個方面說明了保存策略的操作指南,介紹了媒體的災(zāi)難恢復(fù)計(jì)劃、存儲環(huán)境、審核與安全和主要保存策略、次要保存策略。
關(guān)鍵詞:數(shù)字資源保存;媒體;策略;遷移;仿真
《數(shù)字資源保存管理手冊》是由英國數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC)于2001年開始編寫有關(guān)數(shù)字資料保存管理的指導(dǎo)手冊,[1]這項(xiàng)工作一直延續(xù)至2008年。截至2008年底,DPC的研究者們緊跟數(shù)字保存領(lǐng)域的發(fā)展,已經(jīng)先后對手冊進(jìn)行了數(shù)十次的修訂,通過不斷更新﹑豐富和完善,己經(jīng)成為世界上數(shù)字資源長期保存與長效利用項(xiàng)目的重要參考指南之一,受到各界好評并被廣泛引用?!稊?shù)字資源保存管理手冊》主要從數(shù)字保存(數(shù)字保存會涉及的問題和方面)﹑機(jī)構(gòu)戰(zhàn)略(機(jī)構(gòu)開展數(shù)字保存的宏觀管理)﹑機(jī)構(gòu)活動(具體介紹了資源保存機(jī)構(gòu)開展資源保存戰(zhàn)略)﹑媒體和格式(數(shù)字保存過程中的載體和文件格式的選擇)四個主題方面制定了操作指南。介于篇幅的關(guān)系,本文主要介紹“機(jī)構(gòu)活動”中的關(guān)于存儲維護(hù)和保存策略手冊。
2.1媒體的災(zāi)難恢復(fù)計(jì)劃
災(zāi)難恢復(fù)計(jì)劃是指自然或人為災(zāi)害后,重新啟用信息系統(tǒng)的數(shù)據(jù)﹑硬件及軟件設(shè)備,恢復(fù)正常商業(yè)運(yùn)作過程的計(jì)劃。[2]手冊認(rèn)為,盡管災(zāi)難恢復(fù)計(jì)劃在大多數(shù)情況下是沒有得到執(zhí)行的(如同大多數(shù)消防設(shè)施并沒有真正啟用),但是災(zāi)難發(fā)生后恢復(fù)的效果往往取決于災(zāi)難前制定的規(guī)劃。
(1)災(zāi)難恢復(fù)計(jì)劃要求。要求包括在災(zāi)難前建立數(shù)字資源復(fù)本,復(fù)本包括在線和離線兩種,且在線與離線復(fù)本不能保存在同一個地方,以免出現(xiàn)因人為或自然災(zāi)難導(dǎo)致的“一損俱損”的情況;保證存儲數(shù)據(jù)的媒體執(zhí)行通用產(chǎn)業(yè)標(biāo)準(zhǔn);對于災(zāi)難恢復(fù)計(jì)劃的具體流程,需要建立常規(guī)機(jī)制,保證所有相關(guān)人員都能得到關(guān)于災(zāi)難恢復(fù)程序的系統(tǒng)訓(xùn)練。
(2)災(zāi)難恢復(fù)計(jì)劃案例。手冊援引了英國埃塞克斯大學(xué)的數(shù)據(jù)存檔(Data Achive)災(zāi)難處理策略,[3]而這個處理策略對于大多數(shù)的機(jī)構(gòu)而言都具有一定的借鑒意義。數(shù)字存檔系統(tǒng)是采用層級存檔系統(tǒng),數(shù)據(jù)集的每一個文件至少有四個復(fù)本。主要復(fù)本,這些復(fù)本由層級存儲管理系統(tǒng)(HSM)文件系統(tǒng)的主要領(lǐng)域控制;隱藏復(fù)本,至少生成一個隱藏復(fù)本,當(dāng)文件更新時它們被隱藏在主要系統(tǒng)的一個獨(dú)立的區(qū)域內(nèi);CD-ROM復(fù)本,每個數(shù)據(jù)集早期都會創(chuàng)作一個CD-ROM復(fù)本,作為早期保存程序的一部分,CD-ROM復(fù)本允許工作人員存取一個可選的本地資源,當(dāng)主要系統(tǒng)故障的時候并作為一個備選的長期存儲媒體;離線或者近線復(fù)本:創(chuàng)建一個離線或近線復(fù)本,當(dāng)埃塞克斯出現(xiàn)大的災(zāi)難時使用。表1為埃塞克斯大學(xué)不同復(fù)本的數(shù)據(jù)集出現(xiàn)損壞時對應(yīng)采取的災(zāi)難恢復(fù)計(jì)劃。
表1 埃塞克斯大學(xué)的災(zāi)難恢復(fù)計(jì)劃
2.2媒體的存儲環(huán)境
手冊提出適宜的環(huán)境條件將提高數(shù)字存儲媒體的壽命并能有效防止數(shù)字資源或它的文檔受到意外的損壞,同時手冊還指出溫度和濕度大幅度的變動對數(shù)字資源的損害要遠(yuǎn)大于溫度和相對溫度稍高于理想狀態(tài)所帶來的損害。手冊提出了對媒體存儲環(huán)境的具體要求,通常情況下,媒體的存儲溫度一般要遠(yuǎn)低于正常室溫,如果將其轉(zhuǎn)移到常溫下操作,需嚴(yán)格按照有關(guān)程序使其適應(yīng)環(huán)境;對于存儲環(huán)境應(yīng)當(dāng)建立嚴(yán)密的監(jiān)測程序,及時掌握環(huán)境的溫度﹑濕度等相關(guān)環(huán)境信息;由于存儲媒體對于環(huán)境中的灰塵﹑顆粒非常敏感,一粒微小的塵土都有可能導(dǎo)致快速轉(zhuǎn)動的磁頭毀壞,所以在存儲區(qū)域內(nèi)嚴(yán)禁飲食,同時盡可能保持環(huán)境干凈;由于存儲媒體有些材料對光敏感,容易引起載體的質(zhì)變,所以存儲媒體應(yīng)盡量避免陽光直射,可在媒體的外部加裝附加的保護(hù);對于媒體危害最大的莫過于毀滅性的水﹑火﹑磁場等自然災(zāi)害,媒體的存儲環(huán)境應(yīng)該遠(yuǎn)離水﹑火﹑磁場等危險。
2.3媒體的審核與安全
為保證數(shù)字資源在未來的可讀性和完整性,在資源的更新或者遷移過程中不被有意或無意的更改,手冊建議在資源完成操作任務(wù)后對其進(jìn)行審核。為確保遵守法律法規(guī)的要求和內(nèi)部的安全,手冊建議實(shí)施一定的安全措施。具體的審核與安全措施:由于媒體狀態(tài)的好壞也許光憑表面的現(xiàn)象無法完全判斷,需要通過有關(guān)的指數(shù)分析才能準(zhǔn)確得出答案,手冊推薦由相關(guān)的操作人員設(shè)置好參數(shù),自動周期性的檢查媒體的可讀性和通過校驗(yàn)碼周期性的檢查數(shù)據(jù)文件的完整性。為應(yīng)對自動審核程序失效,管理層還應(yīng)建立隨機(jī)檢查程序。對于媒體的存儲區(qū)域采取嚴(yán)格的安全措施,設(shè)置獨(dú)立的﹑鎖定的區(qū)域,對于沒有合理授權(quán)的訪問,能準(zhǔn)確辨識且完全拒絕。媒體的存儲可能會涉及不同部門的眾多管理人員,為確保存儲設(shè)備的安全,相關(guān)的管理人員應(yīng)當(dāng)簽定專門的職工責(zé)任書。
表2 數(shù)字存儲媒體推薦環(huán)境條件[4]
《數(shù)字資源保存管理手冊》把數(shù)字資源的長期保存策略分為主要保存策略和次要保存策略。主要保存等略,通常是指那些對數(shù)字資源的中長期保存擔(dān)負(fù)義務(wù)的機(jī)構(gòu)如圖書館﹑檔案館等所采用的保存策略。次要保存策略,一般是指可能會被長期保存機(jī)構(gòu)臨時或中短期采用的﹑以及對數(shù)字材料暫時有利益關(guān)系的機(jī)構(gòu)或個人(如作者﹑出版社等)臨時采用的保存策略。在時間順序上,次要保存策略可能會優(yōu)先于主要保存策略應(yīng)用,甚至某些次要保存策略的應(yīng)用可能會在一定時間內(nèi)延緩主要保存策略的應(yīng)用或者起到大大加強(qiáng)主要保存策略的效果的作用。
3.1主要保存策略
目前,主要保存策略應(yīng)用最為廣泛的還是遷移和仿真。遷移是指隨技術(shù)變化定期地轉(zhuǎn)換數(shù)字資源的一種處理過程,它使數(shù)字資源從一個硬件﹑軟件的配制向另一個硬件﹑軟件配制轉(zhuǎn)換,或是從舊的計(jì)算機(jī)技術(shù)向新一代的計(jì)算機(jī)技術(shù)轉(zhuǎn)換,這一套定期的整體行為能使數(shù)字資源適應(yīng)技術(shù)更新不斷地被轉(zhuǎn)移,使數(shù)字資源在將來也可以被存取。[4]就目前的實(shí)踐情況來看,數(shù)字遷移主要有三種類型:物理遷移(存儲介質(zhì)遷移)﹑邏輯遷移(數(shù)字資源文件格式遷移)和按需遷移(遷移用戶需要訪問的資源)。[5]仿真,則是另一種為應(yīng)對硬件和軟件技術(shù)過時而采用新的技術(shù)模仿舊的系統(tǒng)在未來的計(jì)算機(jī)系統(tǒng)上使用的方式。所謂仿真就是制作一個仿真器,模仿數(shù)字信息生成時的軟﹑硬件環(huán)境,使數(shù)字信息能夠以原始狀態(tài)得以重現(xiàn)。[6]仿真器的構(gòu)建最重要的一點(diǎn)是需要有關(guān)數(shù)字文件運(yùn)行必須的軟﹑硬件環(huán)境的詳細(xì)說明,以保證在未來未知平臺上模擬出原始運(yùn)行環(huán)境。仿真和遷移對維護(hù)數(shù)字信息的長期存取都有著不可忽略的作用。仿真有助于保護(hù)﹑辨認(rèn)那些極大依賴專門硬件與軟件而又無法在新﹑舊技術(shù)平臺間進(jìn)行遷移的數(shù)字對象等,如超文本﹑多媒體等復(fù)雜文件。遷移則適用于相對來說較為簡單的數(shù)字對象,如線形文本文件等。作為維護(hù)數(shù)字信息長期存取最常使用的兩種方法,仿真與遷移各有其適用范圍,沒有一種方法是完美無缺,能夠適用于各種類型的數(shù)字信息的。因此,在我們選擇維護(hù)數(shù)字信息長期存取策略的時候,不能簡單地套用某一種保存模式,而應(yīng)該在時間﹑成本允許的范圍內(nèi),綜合考慮數(shù)字信息保存的目的﹑數(shù)字對象本身的特點(diǎn)以及不同技術(shù)策略的優(yōu)缺點(diǎn)?!稊?shù)字資源保存管理手冊》詳細(xì)的列舉了遷移和仿真兩種策略的優(yōu)勢﹑劣勢﹑相關(guān)的操作要求(見表3)。
表3 主要保存策略[3]
3.2次要保存策略
次要保存戰(zhàn)略最大的特點(diǎn)莫過于其應(yīng)用時限要短于主要保存策略,同時其相對于主要保存策略可能成本相對較低,對主要保存策略有很好的補(bǔ)充和輔助。
(1)技術(shù)保存。技術(shù)保存是一種通過保留讀取數(shù)字資源的硬件和軟件的方式來克服技術(shù)過時的問題。需要注意的是,這種策略當(dāng)前要求保存硬件和軟件創(chuàng)建的所有材料和關(guān)于文件格式說明書。如果具備這些條件,技術(shù)保存戰(zhàn)略長期可為仿真和遷移戰(zhàn)略提供有價值的輔助支持。技術(shù)保存要求保存硬件和軟件材料的最原始狀態(tài),這對于復(fù)雜的數(shù)字資源的中短期保存具有很好的實(shí)踐價值,但是作為長期的保存策略有點(diǎn)不太現(xiàn)實(shí),因?yàn)殡S著時間的推移,技術(shù)保存的讀取會變得越來越難,訪問會變得越來越有問題。
(2)堅(jiān)持標(biāo)準(zhǔn)。堅(jiān)持標(biāo)準(zhǔn)是使用相對開放﹑被廣泛支持或認(rèn)可的標(biāo)準(zhǔn)和文件格式,因?yàn)樗鼈兛赡芫哂懈蟮拈L期穩(wěn)定性。在創(chuàng)建和存檔數(shù)字資源的時候不拘泥于專門的硬件﹑軟件,技術(shù)過時情況也許會推遲出現(xiàn)。堅(jiān)持標(biāo)準(zhǔn)能減少長期保存的成本,簡化遷移等保存策略,在實(shí)施遷移策略時有可能實(shí)現(xiàn)規(guī)模效應(yīng)。但是是否采取標(biāo)準(zhǔn),取決于資源初始創(chuàng)作的意愿,保存機(jī)構(gòu)無法實(shí)際干涉,而且穩(wěn)定的標(biāo)準(zhǔn)本身也面臨升級,不可避免地向新的版本轉(zhuǎn)化。
(3)向下兼容。向下兼容是指最新的軟件能夠讀取前期用舊版本軟件保存的數(shù)字資源。向下兼容策略可以延緩軟件過期的時間,但是并不是所有的供應(yīng)商都支持向下兼容,這種策略只能用于中短期保存,軟件的兼容與否,取決于供應(yīng)商及市場,而且任何一種軟件,也不可能指望其能無限期的持續(xù)兼容下去。
(4)轉(zhuǎn)化為穩(wěn)定的模擬格式。將有一定價值的數(shù)字資源轉(zhuǎn)化為穩(wěn)定的模擬載體如永久的紙張﹑縮微膠片以及通過電子顯微鏡的可讀鎳盤。這種策略僅對某種小類別的數(shù)字材料比較合適,不推薦作為實(shí)用的中期策略。轉(zhuǎn)化為模擬格式是基于縮微膠片和紙張是永久可用的,似乎可以實(shí)現(xiàn)一勞永逸,但是使用這種策略不啻于一種倒退,原始數(shù)字材料的功能喪失怠盡,數(shù)字技術(shù)的優(yōu)勢如使用的便利﹑空間的高利用率都得不到體現(xiàn)。轉(zhuǎn)化為穩(wěn)定的模擬格式僅適合不再利用或者不要求數(shù)字技術(shù)全部功能的特殊類別的數(shù)字資源。
(5)數(shù)字考古。數(shù)字考古是指從原始的字節(jié)流中恢復(fù)數(shù)字資源的原貌,并保證數(shù)字資源的可讀性和可用性。[7]它本身算不上是完全意義上的保存策略,只是當(dāng)有價值的資源不可讀取且沒有相應(yīng)的保存策略的時候采取的一種措施。目前,有越來越多的專業(yè)科技公司提供數(shù)字考古的服務(wù),從技術(shù)上可以實(shí)現(xiàn)恢復(fù)由于媒體過時而損壞的信息。但是這種技術(shù)往往成本過高且風(fēng)險大,保存機(jī)構(gòu)很少采用。
(6)封裝。在對數(shù)字資源進(jìn)行包裝過程中,將該數(shù)字資源所需的運(yùn)行環(huán)境(包括硬件和軟件),如動態(tài)鏈接庫等一起打包,從而實(shí)現(xiàn)在其他環(huán)境下運(yùn)行該程序包。封裝技術(shù)能確保所有必要的信息都保持一個整體,使后期的使用者能準(zhǔn)確的知道哪些因素是讀取需要的。然而通過復(fù)制會產(chǎn)生大量文件,使得封裝包變得很大,而且封裝軟件也會出現(xiàn)技術(shù)過時的情況。
(7)永久標(biāo)識符。當(dāng)數(shù)字對象的位置改變,對其進(jìn)行定位的一種方式,如統(tǒng)一資源名稱(URN’s)﹑數(shù)字對象標(biāo)識(DOI’s);永久統(tǒng)一資源定位(PURLs)等。采用這種方式可以實(shí)現(xiàn)當(dāng)資源位置改變時對資源進(jìn)行存取,但是沒有一個被所有系統(tǒng)接受的永久標(biāo)識符方式方法,更為關(guān)鍵的是,標(biāo)識符的有效,取決于一個持續(xù)更新﹑永遠(yuǎn)得到有效維護(hù)的標(biāo)識符系統(tǒng)。
4.1論述詳細(xì),具有較強(qiáng)的可操作性
《數(shù)字資源保存管理手冊》主要關(guān)注管理策略應(yīng)用過程中可能會遇到的一系列問題。相對于其他數(shù)字資源保存指南,《數(shù)字資源保存管理手冊》對各種情況的闡述更為細(xì)致具體,這對于完全沒有數(shù)字資源長期保存與長效利用的概念及經(jīng)驗(yàn)的人和組織,會有很大幫助。手冊對每一種保存策略都進(jìn)行優(yōu)勢和劣勢的比較,讓實(shí)際操作者都更能直觀的操作和借鑒。對于媒體的保存環(huán)境,指南也給出了范圍明確的溫濕度。
4.2闡述技術(shù)的同時,強(qiáng)調(diào)操作人員的素質(zhì)
數(shù)字資源的長期保存過程涉及高科技技術(shù)的同時,更需要日常的認(rèn)真嚴(yán)格的維護(hù)。手冊中多次提到對操作人員的職責(zé)要求和進(jìn)行操作流程的培訓(xùn),對于操作人員,不僅要求其具備較高的技術(shù)水平,同時還要求具有高度的責(zé)任心,認(rèn)真仔細(xì)的工作態(tài)度。對于過程要求較嚴(yán)格的程序,工作人員稍有不慎就有可能造成前期的努力毀于一旦。
4.3強(qiáng)調(diào)多種保存策略的配合
從主要保存策略可以看出,數(shù)字資源長期保存策略往往不局限于采用一種策略,而是多種策略的配合才能實(shí)現(xiàn)某一資源長期保存。不光長期的主要保存策略如此,臨時性的次要保存策略也是與其它的次要保存策略一起執(zhí)行。兩種或兩種以上的保存策略互相配合往往能起到互為補(bǔ)充的效果。
4.4保存策略有限,沒有及時更新
從上文可知,手冊論述的保存策略有很多種。但是,隨著技術(shù)的變遷﹑平臺的更迭,新的保存技術(shù)會不斷涌現(xiàn),手冊不可能囊括所有的保存策略。如更新(每隔幾年就將信息轉(zhuǎn)移到新的存儲介質(zhì)上,防止存儲介質(zhì)的不可用,保證數(shù)據(jù)內(nèi)容的存在性)﹑虛擬(通過軟件模擬的具有完整硬件系統(tǒng)功能的﹑運(yùn)行在一個完全隔離環(huán)境中的完整計(jì)算機(jī)系統(tǒng))一種利用率較高的數(shù)字資源保存策略﹑再現(xiàn)(re-enactment)(通過技術(shù)的運(yùn)用實(shí)現(xiàn)一定層次的過程再現(xiàn))[8]等,在手冊中都沒有被提及,無遺是件憾事。因此對于廣大參考人員而言,這個手冊也不是萬能,需要操作者根據(jù)具體情況進(jìn)行取舍。
[參考文獻(xiàn)]
[1]數(shù)字保存領(lǐng)域相關(guān)標(biāo)準(zhǔn)指南[EB/OL].[2014-08-01].http://www.nlc.gov.cn/newtsgj/gtqk/tyck/2009nzml/103/szbc/201012/t20101201_23396.htm.
[2]災(zāi)難恢復(fù)[EB/OL].[2014-08-01].http://baike.baidu.com/view/1871239.htm?fr=aladdin.
[3]Preservation Managementof Digital Materials:The Handbook[EB/OL].[2014-08-01].http://www.dpconline.org/graphics/handbook/.
[4]洪娜.?dāng)?shù)字遷移的技術(shù)可行性分析[J].現(xiàn)代情報(bào),2007(9):37-39.
[5]董曉莉.圖書館數(shù)字資源長期保存遷移技術(shù)分析[J].圖書館雜志,2012(7):63-69.
[6]肖英.仿真——數(shù)字信息長期存取理論與實(shí)踐[J].檔案管理,2002(3):19-20.
[7]孟廣均,等.國外圖書館學(xué)情報(bào)學(xué)最新理論與實(shí)踐研究[M].北京:科學(xué)出版社,2009:268.
[8]Preserving Virtual Worlds Final Report[EB/OL].[2014-08-18].https://www.ideals.illinois.edu/handle/2142/170 97.
Analysis on the Preservation Strategy in Digital Preservation Handbook
Cai Shun
Abstract:Digital Preservation Handbook, compiled by British DPC (Digital Preservation Coalition), is an important and highly referred handbook for preservation and reading of digital materials. The third part of the handbook introduces the preservation strategy in details and illustrates corresponding operation guidance from the aspects of media maintenance and contents preservation. Meanwhile, it introduces media disaster recovery planning, environmental conditions, audit and security,primary strategy and secondary strategy.
Keywords:Preservation of Digital Materials; Media; Strategy; Migration; Emulation
[收稿日期]2015-03-21[責(zé)任編輯]王崗
[作者簡介]蔡舜(1979-),女,副研究館員,研究方向:數(shù)字資源保存。
中圖分類號:G251.3;G250.73
文獻(xiàn)標(biāo)志碼:A
文章編號:1005-8214(2016)01-0091-04