吳振新,李文燕,蔣世銀(.中國科學(xué)院文獻(xiàn)情報中心;.中新金橋數(shù)字科技(北京)有限公司)
隨著大數(shù)據(jù)時代的來臨,海量數(shù)字信息的出現(xiàn)使得辨別數(shù)字信息的真實(shí)性成為一個難題,相關(guān)研究領(lǐng)域開始探索把起源信息作為有效的解決方法。
在數(shù)字保存領(lǐng)域的OAIS標(biāo)準(zhǔn)中,[1]把數(shù)字對象的起源信息(Provenance,又稱溯源信息)定義為數(shù)字對象的變化歷史。通過管理起源信息,可以全面了解數(shù)字對象從被存入長期保存系統(tǒng)之后所發(fā)生的改變以及保存數(shù)字對象變化前后的關(guān)聯(lián),為數(shù)字對象的真實(shí)性提供重要證據(jù)。起源信息管理包括捕獲、組織、存儲和應(yīng)用,在捕獲起源信息后,需要有效的方法組織存儲起源信息,并保持起源信息與數(shù)字對象以及其他元數(shù)據(jù)之間的關(guān)系,常用的方法是封裝。
吳振新等在中國科學(xué)院文獻(xiàn)情報中心的數(shù)字資源長期保存系統(tǒng)(Digital Preservation System,DPS)研發(fā)過程中,對起源技術(shù)在長期保存中的應(yīng)用進(jìn)行了全面研究,[2]初步構(gòu)建了一個起源管理框架。[3]在開發(fā)實(shí)現(xiàn)起源管理框架過程中,對國際主流起源封裝技術(shù)和方案進(jìn)行了深入分析和對比,希望為其他研究人員提供參考。
2.1.1廣泛應(yīng)用的METS封裝標(biāo)準(zhǔn)
METS[4]是美國數(shù)字圖書館聯(lián)盟(Digital Library Federation,DLF)開發(fā)的一套元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn),用來封裝數(shù)字對象及其相關(guān)的描述性元數(shù)據(jù)、管理性元數(shù)據(jù)和結(jié)構(gòu)性元數(shù)據(jù)信息。METS應(yīng)用十分廣泛,如 DAITSS (Dark Archive In The Sunshine State)[5]、SCAPE、UK 期刊保存[6]、TNA (TheNationalArchives)、英國國家歸檔中心[7]等項(xiàng)目均使用了METS封裝格式。其中DAITSS是由佛羅里達(dá)圖書館自動化中心開發(fā)的用于數(shù)字資源長期保存的開源倉儲軟件,其三種信息包SIP、AIP和DIP均采用METS格式,全面兼容保存元數(shù)據(jù)標(biāo)準(zhǔn)PREMIS,[8]支持圖像、文本、音視頻、數(shù)據(jù)等多種類型數(shù)字對象的長期保存。下面以DATISS為例,研究分析其如何使用METS封裝起源。
METS文檔由7個部分組成,DAITSS系統(tǒng)將起源信息封裝在管理元數(shù)據(jù)(amdSec)部分的元素里,并且其三種信息包SIP、AIP和DIP中分別封裝了不同的起源信息(見圖1)。
圖1 基于METS格式的DAITSS存檔包起源信息組織
在存檔信息包AIP中,每一個AIP的METS文件都封裝了三個管理元數(shù)據(jù),分別包括不同層次的起源信息。
(1)第一個管理元數(shù)據(jù)包含一對,記錄的起源信息為協(xié)議信息(賬戶或項(xiàng)目)。
(2)第二個管理元數(shù)據(jù)是面向信息包級別的管理元數(shù)據(jù),包括兩對。第一對用于記錄信息包級別的PREMIS事件信息,包括提交事件、攝入事件、分發(fā)事件、更新事件和撤銷事件。第二對用于記錄信息包級別的代理(賬號)和與包級別事件相關(guān)的軟件代理信息。
(3)第三個管理元數(shù)據(jù)是面向文檔級別的管理元數(shù)據(jù),結(jié)構(gòu)與第二個管理元數(shù)據(jù)一致,包括兩對。第一對用于記錄文檔級別的PREMIS事件信息,即DAITSS Service針對文件的事件,包括病毒檢查、描述、XML解析服務(wù)、規(guī)范化、遷移等。第二對用于記錄文檔級別的PREMIS代理信息。軟件代理包括格式描述服務(wù)、病毒檢查服務(wù)、XML解析服務(wù)、轉(zhuǎn)換服務(wù)。
在提交信息包SIP中,METS文件只包含第一個管理元數(shù)據(jù),保存有效的DAITSS賬號代碼和有效的DAITSS項(xiàng)目代碼,并建立兩者的關(guān)聯(lián)。
在分發(fā)數(shù)據(jù)包DIP中,METS文件只包含第三個管理元數(shù)據(jù)的內(nèi)容,記錄文件不同版本之間的聯(lián)系(即起源),標(biāo)識出原始提交版本。如果原始版本發(fā)生變化,則提供給用戶最新的版本。
DAITSS通過記錄起源,一方面在信息包分發(fā)時,通過信息包之間的關(guān)系,找到當(dāng)前可用版本的文件分發(fā)給用戶,并附以起源來說明數(shù)字對象在倉儲中系統(tǒng)中如何從最初的版本遷移到當(dāng)前版本;另一方面在將信息包從倉儲中刪除時,保留下信息包從攝入到刪除的過程,為信息包的全程追蹤管理提供依據(jù)。
從上述不難看出,DAITSS的起源信息管理遵循PREMIS保存元數(shù)據(jù)標(biāo)準(zhǔn),比較全面地記錄了起源信息,既涵蓋了事件又建立了關(guān)聯(lián),同時利用METS格式構(gòu)建了清晰、易于管理的起源信息組織結(jié)構(gòu),并在其三種信息包中分別存儲相關(guān)的起源信息。
2.1.2嚴(yán)格遵守OAIS的XFDU
XFDU[9]是由美國空間數(shù)字系統(tǒng)咨詢委員會(The ConsultativeCommittee forSpaceDataSystems,CCSDS) 開發(fā)的推薦標(biāo)準(zhǔn),用于打包封裝數(shù)據(jù)和元數(shù)據(jù)。
XFDU是一個物理容器,包含一個XML格式的Manifest文檔以及該文檔調(diào)用的多個文件,可以是ZIP或TAR等文件格式。Manifest包含了packageHeader、dataObjectSection、metadataSection、informationPackage Map和behaviorSectioon五部分。XFDU嚴(yán)格遵守OAIS對信息對象的定義,起源被記錄在標(biāo)簽中,通過屬性“classification=“PROVENANCE”category=“PDI””來加以聲明。
CASPAR (Cultural,Artistic and Scientific knowledge forPreservation,Accessand Retrieval)[10]是歐盟第六框架聯(lián)合資助的綜合型長期保存項(xiàng)目,它構(gòu)建了一個基于OAIS框架的文化、藝術(shù)和科學(xué)知識數(shù)據(jù)的保存架構(gòu),目的在于驗(yàn)證OAIS參考模型對于多種數(shù)據(jù)集保存的有效性。CASPAR項(xiàng)目使用XFDU封裝起源,[11]Manifest包含了容器內(nèi)容數(shù)據(jù)有價值的信息以及引用的外部容器的信息,使用xml schema定義。Manifest文檔在整個XFDU包里主要起鏈接作用(見圖2),它由5個部分組成。其中packageHeader記錄了對信息包的基本描述、版本信息、位置信息等內(nèi)容;dataObject-Section用來關(guān)聯(lián)內(nèi)容數(shù)據(jù)對象;metadataSection用來記錄呈現(xiàn)信息和保存描述信息(Preservation Description Information,PDI);informationPackageMap 記錄內(nèi)容單元信息,用于關(guān)聯(lián)dataObjectSection和metadata-Section。informationPackageMap對應(yīng)了OAIS中的內(nèi)容數(shù)據(jù)對象的概念,是數(shù)字對象和其呈現(xiàn)信息的組合;behaviorSectioon則含有任意數(shù)目的行為對象,負(fù)責(zé)將行為與XFDU對象內(nèi)容產(chǎn)生關(guān)聯(lián)。
圖2 XFDU結(jié)構(gòu)組成[11]
XFDU的對象和元數(shù)據(jù)通過兩種方式來記錄,一種是外部鏈接,一種是記錄在Manifest文件中。每個對象都分配有自己的XML標(biāo)識符,關(guān)聯(lián)任意兩個對象,每個對象都有預(yù)設(shè)分類或者用戶指定的分類模式。
編碼示例如下。
2.1.3面向倉儲交換的RXP封裝格式
RXP[12]即倉儲電子交換包,是在博物館和圖書館服務(wù)研究所(Institute Of Museum And Library Services)資助下由 TIPR(Towards Interoperable Preservation Repositories)設(shè)計(jì)的專門用于倉儲交換的信息包封裝格式。RXP具有靈活可擴(kuò)展的特點(diǎn),其簡化結(jié)構(gòu)包括5個必備的XML文檔和一個存放分發(fā)對象的文件夾,采用METS和PREMIS兩種元數(shù)據(jù)規(guī)范進(jìn)行編碼(見圖 3)。
由圖3可知,rxp.xml記錄RXP包的發(fā)送者(Sender)、版權(quán)、呈現(xiàn)信息的METS文檔;rxp-digiprov.xml包含RXP包的數(shù)字起源信息的PREMIS文檔;rxp-rep-1.xml包含發(fā)送者DIP呈現(xiàn)信息的METS文檔;rxp-rep-1-digiprov.xml包含rxp-rep-1.xml中呈現(xiàn)信息的數(shù)字起源信息的PREMIS文檔;files/包含發(fā)送者DIP文件的目錄。
圖3 RXP結(jié)構(gòu)示意圖
除了以上文件,RXP還可以根據(jù)信息包的文件和目錄進(jìn)行擴(kuò)展,可選擇加入:rxp.xml.sig是OpenPGP格式的單獨(dú)數(shù)字簽名,使用發(fā)送方秘鑰和rxp.xml創(chuàng)建;rxp-rep-n.xml在rxp-rep-1.xml之后的METS文檔(n>1),對于每個 rxp-rep-n.xml必選同時包含一個rxp-rep-n-digiprov.xml文件;rxp-rep-n-digiprov.xml包含描述相關(guān)rxp-rep-n.xml文件起源的PREMIS文檔;rxp-rights.xml用來描述RXP包版權(quán)信息的PREMIS文檔;rxp-dmd.xml用來記錄RXP描述元數(shù)據(jù)的XML文檔,元數(shù)據(jù)模式應(yīng)使用SLA在發(fā)送方和接收方之間定義。
起源記錄在文件rxp-digiprov.xml和rxp-rights.xml中,前者記錄了信息包的起源事件,后者記錄了呈現(xiàn)信息的起源。在rxp-digiprov.xml和rxp-rep-1-digiprov.xml中均采用了PREMIS中的 event、object和 agent實(shí)體及其屬性來記錄起源。
這種封裝方案的好處在于包的靈活可擴(kuò)展性,能夠用簡單的方法來處理由多文檔組成的復(fù)雜數(shù)字對象,然而由于起源信息包括每個包的事件記錄以及多個DIP包的呈現(xiàn)信息的起源(即記載了格式變化)且分別保存在不同的文檔中,即使其完全遵循PRIMIS標(biāo)準(zhǔn),仍然增加了管理和使用起源的難度。總體來看,包的組成還是相對比較復(fù)雜,不適合頻繁變化的起源記錄和管理。
2.1.4靈活可擴(kuò)展的倉儲內(nèi)容模型FOXML
Fedora倉儲系統(tǒng)[13]由康奈爾大學(xué)設(shè)計(jì)開發(fā),是對數(shù)字內(nèi)容進(jìn)行存儲、管理及獲取的開源保存?zhèn)}儲系統(tǒng),F(xiàn)OXML是Fedora倉儲的數(shù)字對象描述模型和封裝格式(見圖4)。
圖4 FOXML結(jié)構(gòu)示意圖
FOXML有4個系統(tǒng)保留的數(shù)據(jù)流,分別為DC、AUDIT、RELS-EXT、RELS-INT,其余是可根據(jù)自身需要進(jìn)行擴(kuò)展的數(shù)據(jù)流DataStream。其中,AUDIT、RELS-EXT、RELS-INT都與起源相關(guān)。
(1)AUDIT數(shù)據(jù)流。記錄了倉儲對FOXML的修改,包括修改過程中涉及到的人、時間、修改內(nèi)容和原因,由系統(tǒng)自動產(chǎn)生,不允許用戶更改。AUDIT的局限在于它僅記錄倉儲底層的API-M對FOXML的操作,如果不是通過API-M對FOXML進(jìn)行操作,就必須考慮其他的方法來補(bǔ)充該功能的不足。示例如下。
dit:action> componentID> nsibility> date> bel and added an alternate identifier. justification>/> (2)RELS-EXT和RELS-INT數(shù)據(jù)流。RELS-EXT記錄該數(shù)字對象與倉儲系統(tǒng)中其他對象的關(guān)系,RELS-INT記錄數(shù)字對象本身各組成部分之間的關(guān)系,這些關(guān)系在Fodora提供的關(guān)系文檔中定義,也可由用戶自行進(jìn)行擴(kuò)展。 (3)VERSIONABLE屬性??梢酝ㄟ^數(shù)據(jù)流的VERSIONABLE屬性來管理每個數(shù)據(jù)流的不同版本,通過“true”和“false”設(shè)置決定是否管理該數(shù)據(jù)流的版本,如下為DC數(shù)據(jù)流的版本設(shè)置。 (4)基于DataStream的擴(kuò)展機(jī)制??偟膩砜?,對于對象關(guān)系的管理和對象衍生歷史的追溯,F(xiàn)OXML能夠提供相對完整的解決方案。因此基于FOXML格式來設(shè)計(jì)起源封裝方案時,應(yīng)考慮要充分利用上述功能,在系統(tǒng)事件記錄方面提出有效的補(bǔ)充方案。FOXML的一大優(yōu)勢就在于其數(shù)據(jù)流DataStream的良好可擴(kuò)展性,可以通過增加一個專門用于起源管理的數(shù)據(jù)流來記錄API-M之外的系統(tǒng)事件,如定義一個名為DsProv的DataStream,示例如下。 起源信息可以如上例直接嵌入該數(shù)據(jù)流,也可以采用數(shù)據(jù)引用的方式,指向FOXML之外的存儲器,包括文件或者數(shù)據(jù)庫。 指向遠(yuǎn)程文檔。 指向本地文件。 FOXML作為一個與Fedora倉儲緊密綁定的封裝格式,在倉儲功能支持下,其本身提供了比其他格式更為全面的起源管理功能,同時由于其靈活的可擴(kuò)展性,又為起源使用信息管理提供了多種擴(kuò)展手段。但FOXML本身自帶的起源管理只能記錄倉儲底層的API-M對FOXML的操作,具有一定的局限性,同時系統(tǒng)提供的起源內(nèi)容存放比較分散,管理和使用都相對比較復(fù)雜。 上述這四種封裝格式在封裝方式、封裝方法、元數(shù)據(jù)支持、工具支持、易用性和可擴(kuò)展性等方面各有特點(diǎn)(見下表)。 METS應(yīng)用較廣泛且擴(kuò)展靈活,將所有信息存在同一標(biāo)簽中,比較集中便于管理。METS沒有定義任何元數(shù)據(jù)集,各應(yīng)用環(huán)境可以根據(jù)自己的需要選擇元數(shù)據(jù)集進(jìn)行描述。但其可擴(kuò)展性強(qiáng),適用于不同實(shí)施環(huán)境和不同類型數(shù)字對象,能夠提供更豐富的元數(shù)據(jù)予以交換,因此其使用范圍更廣,對其支持工具較多,便于開發(fā)和使用,發(fā)展前景更好。 XFDU提供了一組完全遵照OAIS信息模型預(yù)定義的元數(shù)據(jù)分類,和METS一樣,起源信息被記錄在同一標(biāo)簽中,便于管理。目前XFDU主要被用在European SpaceAgency(ESA)中的SAFE項(xiàng)目和歐盟CASPAR項(xiàng)目中,而且SAFE提供了支持XFDU生成和測試的工具,對其應(yīng)用有一定的促進(jìn)作用,同時XFDU更易被擴(kuò)展支持更復(fù)雜的長期保存概念,在CASPAR項(xiàng)目中已經(jīng)證明了這一點(diǎn)。[11] FOXML是一種靈活可擴(kuò)展的起源記錄格式,其本身提供了可記錄起源的數(shù)據(jù)流以及相應(yīng)成熟的起源管理功能,非常適用于使用Fedora倉儲管理工具且對起源記錄無特別要求的保存系統(tǒng)。由于FOXML保留數(shù)據(jù)流僅限于記錄倉儲底層API-M對FOXML的操作,因此如果對于起源記錄有更多需求則需要自定義新的數(shù)據(jù)流來記錄起源??傮w看起源內(nèi)容存放相比前幾種更分散,管理和使用都相對比較復(fù)雜。 RXP采用了PREMIS中的event、object和agent實(shí)體及其屬性來記錄起源,但包的組成相對比較復(fù)雜,管理和使用有一定難度??傮w說來更適合主要面向倉儲之間信息包交換的起源記錄,尤其是不同格式的倉儲之間的信息包交換。 這四種起源封裝格式——METS、XFDU、RXP和FOXML,無論從格式本身的封裝方式、封裝方法、元數(shù)據(jù)、工具支持和易用性等方面來分析,還是從各項(xiàng)目對不同格式的應(yīng)用來看,每種封裝格式在實(shí)際應(yīng)用中都具有各自的特點(diǎn)及不足,實(shí)踐中應(yīng)結(jié)合應(yīng)用場景選擇合適的封裝格式來制定封裝策略以達(dá)到最佳起源管理效果??偟膩碚f,XFDU對于復(fù)雜對象的良好支持使其未來應(yīng)有不錯的應(yīng)用前景,RXP使用的復(fù)雜度會影響其在保存領(lǐng)域的應(yīng)用,F(xiàn)OXML的應(yīng)用則受Fedora倉儲整體系統(tǒng)發(fā)展限制,METS作為一種普遍應(yīng)用的標(biāo)準(zhǔn),對大多數(shù)保存項(xiàng)目的起源數(shù)據(jù)封裝是一個比較好的選擇。 從長期發(fā)展和起源數(shù)據(jù)應(yīng)用的角度看,筆者最為看重對外部引用機(jī)制的支持,起源數(shù)據(jù)具有累積性、關(guān)聯(lián)性、可逆性以及更新頻繁的特點(diǎn),它的存儲、管理以及使用與保存元數(shù)據(jù)中其他內(nèi)容有很大不同,需要更為有效的解決方案,而外部引用機(jī)制支持對起源數(shù)據(jù)的個性化管理,有很大的靈活性和可擴(kuò)展性,也便于在元數(shù)據(jù)基礎(chǔ)上開發(fā)和提供特色的起源服務(wù)和工具。 起源信息作為OAIS模型中五種保存描述信息之一,負(fù)責(zé)記錄數(shù)字對象創(chuàng)建、變更等相關(guān)的事件信息,是重要的保存元數(shù)據(jù)內(nèi)容。合適的封裝技術(shù)的選擇和封裝方案的制定,有利于保存系統(tǒng)有效保存和管理起源信息,確保在長期的存儲管理過程中為數(shù)字對象的真實(shí)性提供充足證據(jù)。 通過CNKI進(jìn)行的文獻(xiàn)調(diào)研發(fā)現(xiàn),國內(nèi)目前缺少對于保存實(shí)踐中起源元數(shù)據(jù)封裝技術(shù)的研究。我國在元數(shù)據(jù)封裝、電子文件封裝方面較多采用METS;個別政務(wù)案例使用了XFDU;在機(jī)構(gòu)知識庫領(lǐng)域有一些項(xiàng)目采用了FOXML作為數(shù)字對象封裝技術(shù),包括筆者所在機(jī)構(gòu)的DPS系統(tǒng);RXP目前還沒有相關(guān)的研究應(yīng)用出現(xiàn)。 國家圖書館在國家數(shù)字圖書館工程標(biāo)準(zhǔn)規(guī)范項(xiàng)目中制定了一套數(shù)字資源長期保存規(guī)范,其中包括長期保存信息包封裝標(biāo)準(zhǔn)規(guī)范,[16]采用了METS作為保存元數(shù)據(jù)的封裝規(guī)范,其中起源元數(shù)據(jù)部分利用了PREMIS的相關(guān)內(nèi)容,沒有更多的擴(kuò)展和應(yīng)用,是一個相對簡單的方案。對于處在起步階段的我國保存實(shí)踐來說,該套標(biāo)準(zhǔn)對開展保存活動提供了很好的基礎(chǔ)。從國際相關(guān)研究發(fā)展來看,隨著數(shù)字對象的復(fù)雜化以及保存實(shí)踐的深入,對起源信息會產(chǎn)生越來越多的需求,通常會需要對起源信息進(jìn)行專門存儲管理,那么在現(xiàn)有封裝標(biāo)準(zhǔn)的基礎(chǔ)上,可以利用METS的外部引用機(jī)制,對起源元數(shù)據(jù)實(shí)施專門的管理方案。 [參考文獻(xiàn)] [1] Referencemodel foran open archivalinformation system(OAIS)[S].Washington DC: CCSDSSecretariat,2012. [2]吳振新,李文燕.起源技術(shù)在長期保存中的應(yīng)用與研究 [J].圖書情報工作,2015,59(8):118-125. [3]吳振新,等.構(gòu)建以事件為核心的長期保存系統(tǒng)起源管理框架[J].圖書情報工作,2016,60(6):91-96. [4] METSprofiles[EB/OL].[2017-05-11].http://www.loc.gov/standards/mets/mets-profiles.html. [5] DAITSSwebsite[EB/OL].[2017-05-11].http://daitss.fcla.edu/content/welcome-daitss-website-0. [6] Dappert A,Enders M.Using METS,PREMISand MODS for archiving eJournals[J].D-Lib Magazine,2008,14(9/10):1082-9873. [7] Assessmentof UKDA and TNA compliancewith OAIS and METS standards[EB/OL].[2017-05-11].http://www.webarchive.org.uk/wayback/archive/201406 15012529/http://www.jisc.ac.uk/media/documents/programmes/preservation/oaismets.pdf. [8] PREMISdatadictionary forpreservationmetadata,version 2[EB/OL].[2017-05-11].http://www.loc.gov/standards/premis/v2/index.html. [9] Standard DR,Book R.XML formatted dataunit(XFDU) structureandconstruction rules[EB/OL].[2015-03-05].http://public.ccsds.org/pubs/661×0b1.pdf. [10] FactorM,etal.Authenticity and provenance in long term digital preservation:Modeling and implementation in preservation aware storage[C]//Workshop on theTheoryand PracticeofProvenance,San Francisco,California,2009. [11] DunckleyM,etal.Using XFDU for CASPAR information packaging [J].OCLC Systems&Services:International digital library perspectives, 2010, 26(2):80-93. [12] RepositoryeXchangepackage(RXP) spec[EB/OL].[2017-05-11].http://wiki.fcla.edu:8000/tipr. [13] Home Fedora Repository [EB/OL].[2017-05-11].http://fedora-commons.org/. [14] METStools&utilities[EB/OL].[2017-05-11].http://www.loc.gov/standards/mets/mets-tools.html. [15] SAFEI/O library[EB/OL].[2017-05-11].http://earth.esa.int/SAFE/old/API.html. [16]國家圖書館數(shù)字資源長期保存規(guī)范[EB/OL].[2017-05-11].http://www.nlc.gov.cn/newstgc/gjszts ggc/bzgf/201101/t20110109_31991.htm.2.2 主要起源信息封裝技術(shù)評述
3 結(jié)語
——基于《中華人民共和國公共文化服務(wù)保障法》扶助老少邊窮地區(qū)公共文化服務(wù)條款的解讀
——以上海市徐匯區(qū)為例