史雅莉 趙童
摘要:隨著檔案管理從數(shù)字化逐步邁向數(shù)據(jù)化,保存元數(shù)據(jù)這一元素在數(shù)字檔案資源長期保存過程的作用日益凸顯。本研究嘗試對檔案館的長期保存元數(shù)據(jù)方案進行系統(tǒng)研究,為相關(guān)機構(gòu)的元數(shù)據(jù)管理提供決策參考。并采用案例分析法,從保存元數(shù)據(jù)的內(nèi)容框架,保存元數(shù)據(jù)的創(chuàng)建與維護,保存元數(shù)據(jù)的編碼及方案的推廣應(yīng)用等方面對英國國家檔案館數(shù)字檔案資源的保存元數(shù)據(jù)方案進行剖析。
關(guān)鍵詞:保存元數(shù)據(jù) 數(shù)字檔案資源 長期保存英國國家檔案館
保存元數(shù)據(jù)對數(shù)字檔案資源的長期保存至關(guān)重要,學界和業(yè)界關(guān)于保存元數(shù)據(jù)的研究和探索也一直在持續(xù)。為支持數(shù)字檔案資源的長期保存,早在1995年5月,國際空間數(shù)據(jù)系統(tǒng)咨詢委員會(Consultative Committee for Space Data Systems,CCSDS)就制定了開放檔案信息系統(tǒng)(Reference Model for an Open Archival Information System,OAIS)參考模型,該模型于2003年最終作為ISO標準(IS014721: 2003)頒發(fā),提供了數(shù)字檔案資源長期保存和利用的基本概念、術(shù)語、元數(shù)據(jù)框架和功能模型。繼而,美國國家檔案館、澳大利亞、英國國家檔案館相繼開展了實踐探索。2013年1月,美國國家信息標準委員會(National In? formation Standards Organization,NISO)以“保存元數(shù)據(jù):數(shù)字對象的最佳朋友”為主題召開網(wǎng)絡(luò)研討會,以PREMIS的研究與實踐為基礎(chǔ),探討數(shù)字信息資源保存元數(shù)據(jù)的發(fā)展問題[1];英國科學數(shù)據(jù)管理中心( Digital Curation Center,DCC)在其科學數(shù)據(jù)管理參考手冊中專設(shè)一章,對科學數(shù)據(jù)管理中的保存元數(shù)據(jù)相關(guān)問題進行了闡述[2]。2016年美國圖書館協(xié)會(American Library Association,ALA)在奧蘭多舉辦年會,會上專門探討了圖書館、檔案館等機構(gòu)保存元數(shù)據(jù)方案的實施方法并舉行了ALCTS PARS保存元數(shù)據(jù)興趣小組會議報告[3]。2018年以來,隨著政府對數(shù)字檔案資源的長期保存問題的日益重視,保存元數(shù)據(jù)作為數(shù)字檔案資源得以長期保存的關(guān)鍵因素也受到業(yè)界的普遍關(guān)注。
筆者對國內(nèi)外相關(guān)文獻進行調(diào)研和梳理,發(fā)現(xiàn)關(guān)于數(shù)字檔案資源長期保存主題的研究由來已久,但對數(shù)字檔案資源長期保存元數(shù)據(jù)(Preservation Metadata)的關(guān)注度仍較低,研究成果所涉及的問題相對比較零散。通過總結(jié)分析,筆者將數(shù)字檔案資源長期保存元數(shù)據(jù)研究歸納為以下幾個方面:(1)關(guān)于數(shù)字檔案資源長期保存元數(shù)據(jù)技術(shù)的研究。張曉娟等梳理了數(shù)字信息資源長期保存元數(shù)據(jù)技術(shù)的研究進展,指出未來研究將聚焦在保存元數(shù)據(jù)自動化生成和封裝保存,基于本體的語義互操作和多種語義技術(shù)融合方面[4]。(2)關(guān)于數(shù)字檔案資源長期保存元數(shù)據(jù)內(nèi)容框架的研究。周麗霞等探討了數(shù)字檔案資源長期保存涉及的元數(shù)據(jù)內(nèi)容,具體包括檔案信息內(nèi)容元數(shù)據(jù)、檔案作品與對象元數(shù)據(jù)、資源集合元數(shù)據(jù)、管理與服務(wù)機制元數(shù)據(jù)、管理過程與系統(tǒng)元數(shù)據(jù)及檔案元數(shù)據(jù)六個層次[5]。其還提出了基于OAIS信息模型的數(shù)字檔案館元數(shù)據(jù)體系[6]。(3)關(guān)于數(shù)字檔案資源長期保存元數(shù)據(jù)標準的研究。張曉娟等從管理的角度出發(fā),圍繞保存元數(shù)據(jù)的概念、PREMIS保存元數(shù)據(jù)標準框架和保存元數(shù)據(jù)質(zhì)量評估,對包括數(shù)字檔案資源在內(nèi)的數(shù)字信息資源的長期保存元數(shù)據(jù)研究動態(tài)進行梳理與總結(jié)[7]。程妍妍等對目前國際數(shù)字檔案館應(yīng)用的三類元數(shù)據(jù)標準(文件管理元數(shù)據(jù)標準、著錄元數(shù)據(jù)標準、長久保存元數(shù)據(jù)標準)及其項目進行調(diào)研,認為以文件元數(shù)據(jù)為主體的標準體系初步形成,元數(shù)據(jù)標準模型的兼容性不斷增強[8]。孫毛毛探討了國際標準OAIS元數(shù)據(jù)參照模型在數(shù)字檔案管理系統(tǒng)中的設(shè)計與實現(xiàn)問題[9]。(4)關(guān)于數(shù)字檔案資源長期保存元數(shù)據(jù)策略的研究。吳申燕提出基于數(shù)字檔案資源長期保存的元數(shù)據(jù)建設(shè)策略:元數(shù)據(jù)標準規(guī)范化,增強元數(shù)據(jù)對數(shù)字檔案對象的識別能力和捕獲能力,重視元數(shù)據(jù)的捕獲能力,重視對元數(shù)據(jù)的管理等[10]。Tomas等以CREDO為例,針對數(shù)字檔案資源長期存檔過程中保存元數(shù)據(jù)的維護做了系統(tǒng)研究[11]。程妍妍針對數(shù)字檔案資源長期保存元數(shù)據(jù)遷移問題進行了探討,提出應(yīng)重點對內(nèi)容、背景、結(jié)構(gòu)和系統(tǒng)元數(shù)據(jù)進行遷移并在遷移計劃中納入元數(shù)據(jù)遷移方案,遷移流程中采取元數(shù)
據(jù)質(zhì)量控制等實施策略[12]。
如前所述,當前英美澳等國在數(shù)字檔案資源長期保存元數(shù)據(jù)實踐方面發(fā)展較成熟,其保存元數(shù)據(jù)方案已取得較好的應(yīng)用成效。而國內(nèi)在數(shù)字檔案資源長期保存元數(shù)據(jù)等研究及實踐尚處于起步階段,針對案例的深入分析更加少見,筆者以英國國家檔案館的數(shù)字檔案資源長期保存元數(shù)據(jù)方案為例展開討論,通過實例分析為國內(nèi)相關(guān)領(lǐng)域的研究和實踐提供參考。
(一)保存元數(shù)據(jù)的內(nèi)容框架
元數(shù)據(jù)內(nèi)容是保存元數(shù)據(jù)方案的核心,英國國家檔案館強調(diào)對數(shù)字檔案資源內(nèi)容特征和表征特征(存儲格式、知識產(chǎn)權(quán)、軟硬件環(huán)境等)的全面揭示與長期保存。其開發(fā)了數(shù)字文件格式登記系統(tǒng)PRONOM,用于數(shù)字檔案資源保存元數(shù)據(jù)的創(chuàng)建與維護,該系統(tǒng)通過數(shù)據(jù)建模的方式模擬數(shù)字對象本體及其運行環(huán)境(見圖1)。
根據(jù)PRONOM數(shù)據(jù)模型,其長期保存元數(shù)據(jù)框架主要由內(nèi)容描述元數(shù)據(jù)、格式屬性元數(shù)據(jù)、權(quán)限認證元數(shù)據(jù)、技術(shù)環(huán)境元數(shù)據(jù)等構(gòu)成(見表1)。
英國國家檔案館作為數(shù)字檔案資源長期保存實踐領(lǐng)域的成功踐行者,為確保以PRONOM系統(tǒng)為技術(shù)支撐的保存元數(shù)據(jù)方案的貫徹落實,促進數(shù)字檔案資源的長期保存,其面向用戶制定并發(fā)布了數(shù)字保存手冊(Digital Preservation Handbook,DPH)[16]。該數(shù)字保存手冊的內(nèi)容涵蓋以下八個方面:(1)簡介,包括如何使用本手冊、開發(fā)和致謝等;(2)數(shù)字保存簡報,包括數(shù)字保存的重要性、數(shù)字檔案資源保存的常見問題;(3)入門;(4)機構(gòu)策略,包括機構(gòu)政策和戰(zhàn)略、協(xié)作、宣傳、采購和第三方服務(wù)、審核和認證、法律合規(guī)性、風險和變更管理、員工培訓和發(fā)展、標準和最佳實踐、業(yè)務(wù)案例、收益、成本和影響等;(5)組織活動,包括創(chuàng)建數(shù)字資料、收購和評估、決策樹、保留和審查、存儲、傳統(tǒng)媒體、保存計劃、保存行動、訪問、元數(shù)據(jù)和文檔等;(6)技術(shù)解決方案和工具,包括工具、Fixity和校驗、文件格式和標準、信息安全、云服務(wù)、數(shù)字取證、持久標識符等;(7)內(nèi)容特定保存,包括電子期刊、移動圖片和聲音、網(wǎng)絡(luò)存檔等;(8)詞匯表,提供了整本手冊、DPC技術(shù)觀察報告和網(wǎng)站中使用的工作定義和首字母縮略詞、以最大程度地發(fā)揮使用手冊或指南的使用價值[17]。
除DHP外,英國國家檔案館還出臺了專門的DROID:User Guide,幫助用戶安裝和使用DROID,更好地存儲和管理數(shù)字檔案文件。DROID用戶使用指南從技術(shù)操作層面了解如何在數(shù)字文件中安裝和運行DROID;解釋運行結(jié)果,避免常見性失誤,如文件擴展名不匹配結(jié)果的處理,默認缺省值的導出等;了解使用DROID分析文件的一些潛在驅(qū)動因素[18]。
(一)基本特征
通過上述分析,筆者認為英國國家檔案館數(shù)字檔案資源長期保存元數(shù)據(jù)方案存在以下四方面特征:(1)數(shù)字對象信息特征的全方位揭示。保存元數(shù)據(jù)是對數(shù)字對象中具有保存價值的元素的取值結(jié)果。隨著計算機技術(shù)的發(fā)展,檔案資源的數(shù)字化形式日益豐富,存儲類型逐漸多元化,與之相應(yīng)的保存元數(shù)據(jù)的取值過程也更加復雜。英國國家檔案館從技術(shù)角度入手,注重對數(shù)字檔案資源本身極其存儲環(huán)境的全面分析,力求保存元數(shù)據(jù)元素信息的完整性。(2)保存元數(shù)據(jù)創(chuàng)建與維護技術(shù)的探索與突破。為實現(xiàn)數(shù)字檔案資源的長期保存,英國國家檔案館數(shù)字保存部專門開發(fā)了檔案資源的數(shù)字格式登記與監(jiān)護系統(tǒng)PRONOM,并開發(fā)了DROID等一系列配套技術(shù)工具,為英國國家檔案館數(shù)字檔案資源元數(shù)據(jù)的創(chuàng)建與維護提供了有力的技術(shù)支撐。(3)保存元數(shù)據(jù)編碼的結(jié)構(gòu)化、語義化表達。英國國家檔案館在保存元數(shù)據(jù)編碼方面采用了通用且易于擴展的XML Scheme元數(shù)據(jù)編碼和傳輸標準,強調(diào)對數(shù)字對象內(nèi)部結(jié)構(gòu)關(guān)系的語義化表達。(4)保存元數(shù)據(jù)方案的持續(xù)宣貫落實。英國國家檔案館注重保存元數(shù)據(jù)方案的長效運營,制定了專門的數(shù)字保存手冊DPH及DROID用戶使用指南等,向廣大用戶普及數(shù)字檔案資源長期保存的重要性,保存元數(shù)據(jù)創(chuàng)建的基礎(chǔ)知識,PRONOM的功能和作用等。除此之外,還針對用戶提供相關(guān)問題的實時咨詢服務(wù)。相關(guān)政策規(guī)則的制定保障了元數(shù)據(jù)長期保存的穩(wěn)定性和連貫性,也反映了英國國家檔案館保存元數(shù)據(jù)活動的成熟度。
(二)啟示
1.注重數(shù)字檔案資源保存信息特征的細粒度揭示。保存元數(shù)據(jù)的完整性是確立保存元數(shù)據(jù)框架體系的基礎(chǔ),也是制定保存元數(shù)據(jù)方案的關(guān)鍵步驟。要實現(xiàn)數(shù)字檔案資源的長期保存,在保存元數(shù)據(jù)取值的過程中,不僅要關(guān)注數(shù)字檔案資源內(nèi)容本身,還需對其所處的技術(shù)環(huán)境、格式類型等進行全面把握。這就要求數(shù)字檔案資源保存元數(shù)據(jù)框架體系在內(nèi)容模塊設(shè)計上更加系統(tǒng)化,并且在元素提取上更加精確,以提高保存元數(shù)據(jù)的信息揭示程度。從保存元數(shù)據(jù)框架的內(nèi)容構(gòu)成來看,檔案管理機構(gòu)及相關(guān)部門可從以下幾方面考慮:描述性長期保存元數(shù)據(jù)體現(xiàn)了數(shù)字檔案資源的內(nèi)容價值,是數(shù)字檔案資源長期保存元數(shù)據(jù)的核心組成部分,也是保存元數(shù)據(jù)方案的必備模塊。格式屬性長期保存元數(shù)據(jù)也成了數(shù)字檔案資源長期保存元數(shù)據(jù)方案的重要組成部分。技術(shù)長期保存元數(shù)據(jù)對于數(shù)字檔案資源長期保存的影響日益明顯,英國國家檔案館尤其強調(diào)對數(shù)字檔案資源所處技術(shù)環(huán)境的把握,并從中提取相關(guān)長期保存元數(shù)據(jù)元素,技術(shù)長期保存元數(shù)據(jù)將逐漸成為數(shù)字檔案資源長期保存元數(shù)據(jù)方案不可忽視的部分。除上述內(nèi)容外,各檔案機構(gòu)還可根據(jù)自身需求將權(quán)限認證、數(shù)字化過程等元素納入保存元數(shù)據(jù)內(nèi)容框架中。
2.加強保存元數(shù)據(jù)監(jiān)護平臺的本土化研發(fā)與應(yīng)用。保存元數(shù)據(jù)方案的有效運行離不開技術(shù)平臺的支持。由已有研究成果可知,當前保存元數(shù)據(jù)技術(shù)在快速發(fā)展的同時,不同國家和地區(qū)呈現(xiàn)出較明顯的差異性,先進技術(shù)的研發(fā)及應(yīng)用依然集中在英美澳等少數(shù)發(fā)達國家。通過英國國家檔案館案例可知,數(shù)字檔案資源保存元數(shù)據(jù)技術(shù)的開發(fā)有別于一般數(shù)字資源保存元數(shù)據(jù)技術(shù),這是由檔案資源本身的特點所決定的。不同機構(gòu)的數(shù)字檔案資源存儲情況通常具有較大的差異性。因此,在數(shù)字檔案資源長期保存元數(shù)據(jù)技術(shù)發(fā)展方面:(1)客觀分析機構(gòu)資源分布情況,根據(jù)資源結(jié)構(gòu)及特點進行系統(tǒng)功能設(shè)計。(2)充分調(diào)研用戶需求,讓用戶參與到系統(tǒng)建設(shè)和平臺搭建過程中,注重平臺的長效運營。(3)注重引進國外先進技術(shù)及管理理念,對符合需求且發(fā)展成熟的開源技術(shù)工具的引進或二次開發(fā)可大大降低系統(tǒng)開發(fā)成本,在平臺運營上可借鑒英國國家檔案館理念,開發(fā)與應(yīng)用相結(jié)合,開發(fā)以應(yīng)用為目的,同時注重接收用戶反饋,不斷完善系統(tǒng)功能。
3.推進數(shù)字檔案資源保存元數(shù)據(jù)編碼功能的完善。數(shù)字檔案資源保存元數(shù)據(jù)編碼功能完善的重點是要解決異構(gòu)信息系統(tǒng)之間在交換格式、標記格式、編碼規(guī)則、元素語義內(nèi)容等方面的互操作問題。目前,保存元數(shù)據(jù)基本采用XML/RDF語言作為標記語言,采用METS/SOAP格式作為交換格式,這兩方面的互操作相對容易實現(xiàn)。但元數(shù)據(jù)語義內(nèi)容的轉(zhuǎn)化通常會涉及自然語言處理、語義關(guān)聯(lián)及深度語義挖掘等問題,這對于檔案學科領(lǐng)域的研究者和實踐單位而言都相對比較困難。因而,在我國數(shù)字檔案資源長期保存元數(shù)據(jù)方案的制定過程中,應(yīng)積極推進保存元數(shù)據(jù)編碼功能的完善,尤其應(yīng)在保存元數(shù)據(jù)元素結(jié)構(gòu)、語義互操作及編碼規(guī)則等方面加大投入力度。同時,還應(yīng)圍繞技術(shù)開發(fā)等問題積極開展跨部門協(xié)同研究,實現(xiàn)元數(shù)據(jù)編碼技術(shù)的融合應(yīng)用,合理調(diào)配資源,降低研發(fā)成本。
4.夯實數(shù)字檔案資源保存元數(shù)據(jù)方案的宣貫工作。宣貫落實是將數(shù)字檔案資源長期保存元數(shù)據(jù)方案投入實踐、發(fā)揮效益的重要保障。宣貫落實的關(guān)鍵在于規(guī)范化、常規(guī)化地開展數(shù)字檔案資源長期保存元數(shù)據(jù)管理的宣傳教育工作。目前,很多機構(gòu)在開展數(shù)字檔案資源長期保存元數(shù)據(jù)管理工作的過程中存在重設(shè)計、輕運營的問題,管理方案或系統(tǒng)平臺開發(fā)設(shè)計完成之后往往會因為后續(xù)的用戶宣傳培訓工作未做到位而使整個方案的實施大打折扣。英國國家檔案館在這方面為很多領(lǐng)域機構(gòu)提供了寶貴的實踐經(jīng)驗,例如,我國數(shù)字檔案資源長期保存元數(shù)據(jù)方案實施過程中可從用戶需求出發(fā),注重用戶技能培訓,制定詳細的工具使用手冊和系統(tǒng)宣傳資料。同時向用戶開放數(shù)字檔案資源長期保存元數(shù)據(jù)的創(chuàng)建和維護步驟,以提高用戶體驗。還應(yīng)根據(jù)我國數(shù)字檔案資源發(fā)展的實際情況,制定自上而下的政策規(guī)范,保障長期保存元數(shù)據(jù)宣貫工作的順利推進。
總之,本研究從數(shù)字檔案資源長期保存的實際需求出發(fā),針對案例和國情做分析,強調(diào)國外數(shù)字檔案資源保存元數(shù)據(jù)管理實踐經(jīng)驗的本土化,確立具有中國特色的數(shù)字檔案資源長期保存元數(shù)據(jù)方案體制。對國外成功實踐案例英國國家檔案館數(shù)字檔案資源長期保存元數(shù)據(jù)方案進行了全面而深入的分析。經(jīng)研究發(fā)現(xiàn),英國國家檔案館作為英國國家層面的檔案管理機構(gòu),對數(shù)字檔案資源的長期保存問題給予了高度關(guān)注。英國國家檔案館設(shè)有專門的數(shù)字保存部門,在數(shù)字檔案資源長期保存元數(shù)據(jù)內(nèi)容設(shè)計、系統(tǒng)開發(fā)、元數(shù)據(jù)編碼及方案的推廣實施方面都取得了一定的成效,積累了豐富的實踐經(jīng)驗。目前,國內(nèi)學界有關(guān)數(shù)字檔案資源長期保存元數(shù)據(jù)的研究尚處于起步階段且研究成果比較零散,研究內(nèi)容呈點狀分布未形成理論體系。在業(yè)界,對數(shù)字檔案資源長期保存元數(shù)據(jù)方案的關(guān)注大多停留在宣傳設(shè)計層面,系統(tǒng)應(yīng)用實踐發(fā)展尚不成熟。因此,未來我國數(shù)字檔案資源長期保存元數(shù)據(jù)方案的制定及推行一方面有賴于政府、學界和業(yè)界的支持,另一方面也可將英國國家檔案館等國外成功實踐案例作為參考依據(jù),節(jié)約建設(shè)成本。
*本文系教育部人文社會科學青年基金項目“我國科學數(shù)據(jù)引用標準化的實現(xiàn)路徑研究”(項目編號:20YJC870007)研究成果之一。
注釋及參考文獻:
[1]NISOWebinar: MetadataforPreservation: ADigi? talObjectsBestFriend[EB/OL].2019- 08- 18].http://www. niso.org/news/events/2013/webinars/preservation/.
[2]Caplan P. Preservation Metadata[EB/OL].[2019-08- 23]. http: / /www. dcc. ac. uk/resources/curationref- erence- manual / completed- chapters / preserva? tion-metadata.
[3]KrewerD , Mullins J . Current Approaches to Im? plementing Preservation Metadata. A Report of the ALCTS PARS Preservation Metadata Interest Group Meeting. American Library Association Annual Confer? ence, Orlando, June 2016[J].Technical Services Quarterly, 2017, 34(2):194-198.
[4]張曉娟,唐長樂.數(shù)字信息資源長期保存元數(shù)據(jù)技術(shù)研究進展[J].情報科學, 2018,36(8):3-9.
[5]周麗霞,朱德紅.數(shù)字檔案館數(shù)字資源長期保存涉及的元數(shù)據(jù)內(nèi)容[J].黑龍江檔案, 2013(3):17.
[6]周麗霞,朱德紅.基于OAIS信息模型的數(shù)字檔案館元數(shù)據(jù)體系設(shè)計[J].檔案學研究, 2013(1):61-65.
[7]張曉娟,唐長樂.管理視角下數(shù)字信息資源長期保存元數(shù)據(jù)研究進展[J].圖書情報知識,2019(3):43-52.
[8]程妍妍,陳洋.國際數(shù)字檔案館元數(shù)據(jù)標準及其項目研究[J].檔案管理, 2014(6):38-40.
[9]孫毛毛.基于OAIS元數(shù)據(jù)模型的數(shù)字檔案管理系統(tǒng)研究[J].蘭臺世界, 2012(35):29-30.
[10]吳申艷.基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究[J].檔案管理, 2017(6):42-44.
[11]TraczykT ,GrzegorzP oszajski. Metadata in CRE? DO long -term archive [M] // Digital Preservation: Put? ting It to Work. Springer International Publishing, 2017.
[12]程妍妍.數(shù)字檔案館元數(shù)據(jù)遷移研究[J].檔案管理, 2016(4):17-19.
[13]張寧,楊敬敬.國外典型數(shù)字格式登記系統(tǒng)比較研究——以PRONOM、GDFR與UDFR為例[J].北京檔案, 2015(9):17-20.
[14][18]DROID: user guide [EB/OL].[2019-7-4]. http: //www.nationalarchives.gov.uk/documents/infor? mation-management/droid-user-guide.pdf.
[15]Digitisation at The National Archives [EB/OL].[2019-7-3]. http://nationalarchives.gov.uk/documents/ information-management/digitisation-at-the-nationalarchives.pdf.
[16]Digital Preservation Handbook [EB/OL].[2019-6-28].https://www.dpconline.org/handbook/contents.
[17]Glossary[EB/OL]. [2019 - 7 - 4].https://www. dpconline.org/handbook/glossary.
作者單位:湖北大學歷史文化學院