張寧楊敬敬
摘要:國外關(guān)于數(shù)字格式登記系統(tǒng)的研究發(fā)展較快,最為我們所熟知的項目為英國的PRONOM項目、哈佛大學(xué)領(lǐng)導(dǎo)的GDFR項目和加州數(shù)字圖書館領(lǐng)導(dǎo)開展的UDFR項目。本文采用文獻(xiàn)研究的方法,分別對上述三個典型的格式登記系統(tǒng)的聯(lián)系與區(qū)別進(jìn)行全面的對比分析,重點從三者的產(chǎn)生背景、參與機構(gòu)與項目進(jìn)程,數(shù)據(jù)模型,主要功能與流程進(jìn)行詳細(xì)深入的比較。
關(guān)鍵詞:數(shù)字格式登記系統(tǒng)PRONOMGDFR UDFR
Abstract: Studies on the digital format abroad registry develops rapidly, such as Britains PRO? NOM,GDFR led by Harvard University and UDFR launched by California Digital Library.This paper us? es the method of literature research to comprehen? sively compare and analyze the relations and differ? ences of these three typical digital registry sys? tems. It makes detailed and profound comparisons focused on three projectsorigional background,par? ticipating organizations, research progress, data model, main functions and procedures,which gives us a comprehensive and in-depth understanding of three projects.
Keywords: Digital format registry;PRONOM;GDFR;UDFR
數(shù)字對象的長期保存是信息時代面臨的一個世界性難題。一般意義上的數(shù)字文件長期保存方法包括更新、仿真、遷移和封裝等,而數(shù)字文件格式登記系統(tǒng)則開創(chuàng)了一個全新的視角,成為目前較有代表性的一種。PRONOM項目、GDFR項目與UDFR項目,在一定程度上代表了國外目前的發(fā)展水平及世界未來的發(fā)展方向。本文通過對國外三個較為典型的格式登記系統(tǒng)進(jìn)行對比分析,以期為我國建立數(shù)字格式登記系統(tǒng)提供思考與借鑒。
一、數(shù)字格式登記系統(tǒng)概述
數(shù)字格式登記系統(tǒng)全稱為數(shù)字文件格式登記系統(tǒng)(digital file format registry),是指能對數(shù)字文件格式的屬性進(jìn)行描述、識別、記錄和保存,支持信息系統(tǒng)通過公開發(fā)行和規(guī)范的機制去發(fā)現(xiàn)所需要的文件格式信息,進(jìn)而識別、轉(zhuǎn)換、展示和保存相應(yīng)文件的系統(tǒng)。對該定義進(jìn)行梳理后,筆者認(rèn)為可以將其理解為:它是基于數(shù)字文件格式的應(yīng)用環(huán)境和生命周期來建立描述模型,進(jìn)而建立詳細(xì)的屬性信息,實現(xiàn)對格式的全面、精準(zhǔn)的描述。簡言之,一個文件的格式即代表了它產(chǎn)生和運用的各種條件,只有條件具備它才能夠存在,這些條件即構(gòu)成了應(yīng)用環(huán)境。而生命周期即任何事物都存在從產(chǎn)生到消亡的周期規(guī)律,格式也不例外,且在技術(shù)日新月異的信息時代,格式更替變換的速度加快,對于每一種格式,它自身經(jīng)歷了從產(chǎn)生到廣泛接受和運用及最后又被其他格式取代的過程,因此,要想實現(xiàn)數(shù)字文件的長期保存,必須掌握每種格式的生命周期性運動信息,才能保證格式所附帶的信息內(nèi)容的識別和讀取,從而實現(xiàn)數(shù)字文件的長期保存。由此可見,數(shù)字格式登記系統(tǒng)為數(shù)字文件提供了一個全面、全程的管理框架,能夠使數(shù)字文件在保存技術(shù)和環(huán)境的不斷變化中實現(xiàn)識別、解析、遷移、轉(zhuǎn)換和保存。
二、PRONOM、GDFR與UDFR的聯(lián)系
PRONOM項目作為數(shù)字格式登記系統(tǒng),是由英國國家檔案館牽頭負(fù)責(zé)并將其委托給專業(yè)公司進(jìn)行開發(fā)而得,作為英國國家檔案館內(nèi)部資源使用。PRONOM作為數(shù)字格式登記系統(tǒng)的首次嘗試,為數(shù)字文件長期保存開辟了新的方向,也為后來者提供了改進(jìn)的空間,促使了GDFR和UDFR等更加完善的格式登記系統(tǒng)的誕生。
GDFR項目旨在通過建立一個網(wǎng)絡(luò)協(xié)議框架,實現(xiàn)不同注冊表、不同格式登記系統(tǒng)之間的溝通,進(jìn)而建立一個跨系統(tǒng)的互操作平臺。這一平臺擴(kuò)展了PRONOM的適用范圍,增強了MIME MTR的準(zhǔn)確度,促進(jìn)了數(shù)字格式登記系統(tǒng)的進(jìn)一步發(fā)展。
UDFR項目的實施可謂是“1+1≥2”的實踐,其目的是解決PRONOM項目與GDFR項目各自為政的狀況。它不僅融合了二者的格式信息和功能模塊信息,更提供了語義網(wǎng)的開源、持續(xù)獲取的平臺。
三、PRONOM、GDFR與UDFR的區(qū)別
(一)啟動背景、參與機構(gòu)與項目進(jìn)程不同
PRONOM項目始于2002年,英國國家檔案數(shù)字存儲部為了獲取有關(guān)電子文件本質(zhì)屬性的可信技術(shù)信息,于2000年開發(fā)了一個信息系統(tǒng),這個系統(tǒng)就是PRONOM的雛形。該項目由英國國家檔案館下屬的數(shù)字存儲部負(fù)責(zé)實施,具體的技術(shù)研發(fā)事項委托Tes? sella公司進(jìn)行。其開發(fā)呈明顯的連續(xù)性,自2002年開始后每年或每隔一年就有更完善的版本產(chǎn)生,至今已更新至PRONOM8.0。由于該項目服務(wù)于英國國家檔案館的一個內(nèi)部機構(gòu),因此限制了其功能和適用范圍。
GDFR項目始于2006年止于2008年,沒有產(chǎn)生有價值的軟件產(chǎn)品或存儲數(shù)據(jù)庫。其創(chuàng)建始于數(shù)字圖書館領(lǐng)域需要一個持續(xù)的、全球的數(shù)字格式登記系統(tǒng),而MIME MTR對格式的細(xì)節(jié)屬性描述得不夠深入。在這種情況下,2003年國際圖書館協(xié)會聯(lián)合會大會上提出了全球化數(shù)字格式登記系統(tǒng)的愿景,商討定義一個通用的網(wǎng)絡(luò)協(xié)議,即通過將多個獨立的注冊格式系統(tǒng)進(jìn)行相互溝通,同步其格式表征信息,從而達(dá)到共通、互操作的效果。會議隨后成立了由美國哈佛大學(xué)牽頭,紐約大學(xué)、賓州大學(xué)、聯(lián)機計算機圖書館中心和英國公共檔案館等組成的臨時工作組商討建立GDFR。
UDFR項目始于2009年4月,其實施一方面是建立在為期十年的、有眾多機構(gòu)參與的國際注冊格式的工作實踐上,另一方面是由于PRONOM與GDFR的各自為政所暴露的缺陷:PRONOM實施范圍較窄,GDFR存在溝通不便、技術(shù)性較差的問題。UDFR項目是在美國國會圖書館國家數(shù)字信息基礎(chǔ)設(shè)施保護(hù)計劃項目的資助下開展的一個項目,由美國加州數(shù)字圖書館的加州大學(xué)策展中心領(lǐng)導(dǎo)開展。它的具體設(shè)計與實施由臨時理事會負(fù)責(zé)管理,2010年正式開始設(shè)計實施至2012年項目結(jié)束,整個項目共兩期。一期為2010年1月至12月,二期為2011年1月至2012年7月,近兩年該項目仍處于二期方案的實施完善階段,主要以開會討論為主,每年會產(chǎn)生相應(yīng)的會議記錄之類的文件。該項目存在項目管理方面的問題,加之其隸屬于一個項目的子項目,也存在資金持續(xù)性問題。
(二)數(shù)據(jù)模型不同
PRONOM4的數(shù)據(jù)模型較為典型,該模型分為三個等級層次,分別是核心實體、技術(shù)組件實體及兩實體的聯(lián)系。如圖1所示,最外圍為核心實體,有四個組成部分:行為體、文檔、簽名、知識產(chǎn)權(quán)(IPR)。然后是第二個層級即技術(shù)組件實體,包括文件格式、軟件元件、存儲媒體和硬件元件四部分。第三個層級即各個技術(shù)組件都有具體的組成部分,如文件格式是由字符編碼、壓縮類型、內(nèi)部簽名和類別等七部分組成。兩個實體之間的關(guān)系會根據(jù)實體類型的不同而進(jìn)行相應(yīng)的定義,即一個完整意義上的格式包含了它的壓縮類型、內(nèi)外部簽名、所屬類別和家族及其對應(yīng)的字符編碼信息,這構(gòu)成了一個數(shù)字文件的內(nèi)部描述信息,然后進(jìn)入其應(yīng)用信息的描述,即包含存儲媒體和運行的軟、硬件環(huán)境等,最終構(gòu)成一個獨特的數(shù)字文件格式。
從圖2可以看出,GDFR5.0的數(shù)據(jù)模型在具備了PRONOM模型的基本模塊的基礎(chǔ)上新增了一些元素。最大的特點是抽象實體里的依賴性,即包括軟、硬件依賴和介質(zhì)依賴三個方面,這是據(jù)應(yīng)用環(huán)境的一種依賴建立的關(guān)聯(lián),以實現(xiàn)不同注冊格式的關(guān)聯(lián)性,這是互操作實現(xiàn)的關(guān)鍵。比較可以發(fā)現(xiàn)PRONOM4的模型較為基礎(chǔ),GDFR5.0則新增了代理、語法和評估等幾個方面的元件,而這正成就了GDFR項目全球范圍互操作的目標(biāo)。
UDFR數(shù)據(jù)模型由PRONOM和GDFR的數(shù)據(jù)模型組合而成,它是在二者的基礎(chǔ)上加上支持UDFR共享所需要附加的元件組合而成。UDFR模型最大的不同是抽象系列概念的提出,在對數(shù)字文件的格式進(jìn)行基本的描述登記之后,通過抽象功能將抽象格式經(jīng)過技術(shù)處理進(jìn)行抽象輸出,這些抽象輸出進(jìn)入系統(tǒng),在受控詞匯的作用下實現(xiàn)各種格式之間的互聯(lián)互通,這些都為語義網(wǎng)的運用提供基礎(chǔ),實現(xiàn)數(shù)字文件的長期保存。
(三)主要功能和流程不同
PRONOM的主要功能即將數(shù)字對象存入系統(tǒng)對其進(jìn)行監(jiān)測與保護(hù)。其流程主要有四步:首先,一個數(shù)字對象進(jìn)入登記系統(tǒng),通過DROID對其進(jìn)行格式識別。其次,對識別后的格式信息進(jìn)行屬性抽取,包括表征特征和內(nèi)容特征,系統(tǒng)會賦予其一個唯一的標(biāo)示符。再次,制訂保存計劃,包括風(fēng)險測評、技術(shù)檢測、影響因子評估、遷移路徑生成幾個模塊。最后,實施遷移。遷移時會產(chǎn)生相應(yīng)的記錄文檔存入系統(tǒng)以證明本次遷移,同時進(jìn)行再次識別、確認(rèn)與屬性抽取,并與遷移之前的進(jìn)行比較,以保證遷移前后的一致性。
GDFR的功能則是通過開發(fā)開放的網(wǎng)絡(luò)協(xié)議,實現(xiàn)不同注冊格式之間的轉(zhuǎn)換,通過與通用數(shù)據(jù)模型和通信協(xié)議合作,同步登記其持有格式表示的信息。其流程是:首先,將文件格式定義成一種固定的、以位序列編碼的信息模型,每個格式的基本屬性包括:標(biāo)示符、創(chuàng)建者、簽名、狀態(tài)和注釋等12個。并按照內(nèi)容和物理媒介的分類體系對格式進(jìn)行分類,它提供與格式定義文件的鏈接,描述格式定義文件的獲取方式。其次,實現(xiàn)不同操作平臺之間的互操作,從而在世界范圍內(nèi)讀取和保存數(shù)字文件,提供管理服務(wù)、檢索服務(wù)、驗證服務(wù)和中介服務(wù)四種服務(wù)。
UDFR融合了PRONOM與GDFR這兩個格式登記系統(tǒng)的功能,并結(jié)合語義網(wǎng)最終實現(xiàn)在一個開源的、語義的和社區(qū)支持的平臺上運行。其流程是:首先,規(guī)范和公開可用的文檔。支持格式的導(dǎo)出和任何格式的輸入功能,在UDFR的中央登記處,既可以提供相應(yīng)的服務(wù)和工具的導(dǎo)出,支持英國國家檔案館開發(fā)的數(shù)字對象識別編碼DROID5的使用,又可以接受記錄批量導(dǎo)入到注冊表中。其次,進(jìn)行設(shè)計、開發(fā)與測試工作。設(shè)計包括Web用戶界面和所涉及的所有內(nèi)容,記錄和證明信息的來源和審查結(jié)構(gòu)的水平,以保證數(shù)字對象的質(zhì)量。格式信息進(jìn)入系統(tǒng)之后,將會被賦予一個獨特的UDFR標(biāo)示符。隨著格式信息的變化,UDFR繼承了PRONOM能夠同時記錄版本信息變化的功能,不同的是它記錄這種變化的詳細(xì)程度提升,能夠精確到對具體個體的修改。
參考文獻(xiàn):
[1]梁娜,張曉琳.數(shù)字文件格式登記系統(tǒng)[J].圖書情報工作,2005(11):80-82.
[2]PRONOM 4 INFORMATION MODEL.[EB/ OL].[2005-01-04].
http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/pronom_4_info_model.pdf.
[3]The PRONOM Service:A technical registry to support long-term preservation.[EB/OL].[2004-07-29].
http://www.nationalarchives.gov.uk/aboutapps/pro? nom/pdf/pronom servise.pdf.
[4]黃玉明.電子文件格式困局破解之道[J].中國檔案,2010(7):56-58.
[5]A Proposal for a Global Digital Format Registry.[EB/OL].[2005-09-29].
http://hul.harvard.edu/gdfr/documents-historical. html.
[6]UDFR project proposal.[EB/OL].[2009-11-07].
http://udfr.org/project/UDFR- project- proposal. pdf.
[7]Stephen Abrams and Andrea Goethals.Global Dig? ital Format Registry (GDFR) Data Model v.5.0.14.[EB/ OL].[2008-05-22].
http://library.harvard.edu/preservation/digital- pres? ervation_gdfr.html.
[8]Automatic Format Identification Using PRO? NOM and DROID.[EB/OL]. [2006-03-07].
http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/automatic_format_identification.pdf.
[9]Stephen L. Abrams.Proposal for a format registry for digital preservation.[EB/OL].[2005- 05- 25].http:// hul.harvard.edu/gdfr/GDFR-proposal.doc.
[10]UDFR.Unified Digital Format Registry(UDFR) proposal and road map.[EB/OL].[2014-04-16].
http://www.udfr.org/.
作者單位:中國人民大學(xué)信息資源管理學(xué)院