程妍妍+陳洋
摘 要:從完善我國(guó)數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)體系,提高其標(biāo)準(zhǔn)化水平出發(fā),對(duì)目前國(guó)際數(shù)字檔案館應(yīng)用的三類元數(shù)據(jù)標(biāo)準(zhǔn)及其項(xiàng)目進(jìn)行調(diào)研,包括文件管理元數(shù)據(jù)標(biāo)準(zhǔn)、著錄元數(shù)據(jù)標(biāo)準(zhǔn)和長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn),并深入分析國(guó)際數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展現(xiàn)狀和未來趨勢(shì),以為我國(guó)數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)制定及項(xiàng)目研究提供參考和有益啟示。
關(guān)鍵詞:數(shù)字檔案館;元數(shù)據(jù);標(biāo)準(zhǔn)
元數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)字檔案館運(yùn)行的重要支撐,其為數(shù)字檔案館的長(zhǎng)久保存、憑證性維護(hù)和檢索利用等工作提供可供依據(jù)的規(guī)則和指南。本文通過調(diào)研和分析國(guó)際數(shù)字檔案館主要元數(shù)據(jù)標(biāo)準(zhǔn)類型和項(xiàng)目,為我國(guó)積極研究國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn)的采標(biāo)或制定,彌補(bǔ)我國(guó)現(xiàn)有標(biāo)準(zhǔn)體系的不足,提供有益參考和借鑒。
1 數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)的概念和功能
元數(shù)據(jù),即“Metadata”,指“長(zhǎng)久的、在領(lǐng)域內(nèi)或領(lǐng)域間支持文件的形成、注冊(cè)、分類、利用、長(zhǎng)久保存和處置的結(jié)構(gòu)或半結(jié)構(gòu)的信息”。[ ]而元數(shù)據(jù)標(biāo)準(zhǔn)指“說明元數(shù)據(jù)元素之間關(guān)系的邏輯方案,通常建立元數(shù)據(jù)的語(yǔ)義(使用和管理規(guī)則)、語(yǔ)法和值的完備性等”[ ]。元數(shù)據(jù)標(biāo)準(zhǔn)核心功能是推動(dòng)數(shù)字檔案館系統(tǒng)間元數(shù)據(jù)的互操作。元數(shù)據(jù)互操作指“元數(shù)據(jù)可以在不同機(jī)構(gòu)和不同類型的信息系統(tǒng)之間順利地移動(dòng)和交換”[ ]。在互操作過程中,必須首先明確采用何種方式、語(yǔ)言(例如XML),如何解釋元數(shù)據(jù)等一系列問題,系統(tǒng)之間才能順利地理解交換的元數(shù)據(jù)。元數(shù)據(jù)標(biāo)準(zhǔn)就是對(duì)這些問題進(jìn)行說明和規(guī)定的規(guī)范性文檔,內(nèi)容包括元數(shù)據(jù)值的定義方式和語(yǔ)義、值列表、分類詞表、控制詞匯等,以確保交換元數(shù)據(jù)的質(zhì)量和一致性理解。
2 國(guó)際數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)的主要類型及項(xiàng)目
數(shù)字檔案館應(yīng)用的元數(shù)據(jù)分為三類,包括:①檔案機(jī)構(gòu)移交的電子文件管理元數(shù)據(jù);②數(shù)字檔案館對(duì)接收檔案著錄形成的著錄元數(shù)據(jù);③數(shù)字檔案館在保管電子檔案過程中形成的長(zhǎng)久保存元數(shù)據(jù)。
2.1 文件管理元數(shù)據(jù)標(biāo)準(zhǔn)及項(xiàng)目。文件管理元數(shù)據(jù)標(biāo)準(zhǔn)的研究具有代表性的是美國(guó)電子文件專家戴維·比爾曼(David Bearman)主持的“電子文件保管證據(jù)性功能需求”[ ],該項(xiàng)目目標(biāo)是明確確保電子文件憑證性所必需的元數(shù)據(jù)。該項(xiàng)目貢獻(xiàn)包括:①提出元數(shù)據(jù)的權(quán)威來源:提出從國(guó)家法規(guī)標(biāo)準(zhǔn)等文獻(xiàn)中總結(jié)出電子文件的憑證性需求,繼而從具體需求推導(dǎo)出相應(yīng)元數(shù)據(jù)的方法[ ];②建立元數(shù)據(jù)標(biāo)準(zhǔn)模型:提出元數(shù)據(jù)業(yè)務(wù)交流模型(Business Acceptable Communications)(以下簡(jiǎn)稱“BAC”),可用于指導(dǎo)元數(shù)據(jù)標(biāo)準(zhǔn)制定。在澳大利亞,莫納時(shí)大學(xué)學(xué)者蘇·麥克米希(Sue McKemmish)開展了元數(shù)據(jù)研究和訓(xùn)練項(xiàng)目(Research and Training Project),該項(xiàng)目在文件連續(xù)體理論基礎(chǔ)上提出“法規(guī)三元組”模型,將元數(shù)據(jù)劃分為四大實(shí)體:業(yè)務(wù)、責(zé)任者、文件、法規(guī)標(biāo)準(zhǔn),并分別研究了這四大實(shí)體應(yīng)具備的基本元數(shù)據(jù)元素。這種創(chuàng)新性的元數(shù)據(jù)模型超越了對(duì)文件本身的描述,也描述文件的職責(zé)、政策、人員、業(yè)務(wù)活動(dòng)等,促使人們對(duì)電子文件管理元數(shù)據(jù)的認(rèn)識(shí)上升到一個(gè)新的層次。該模型也被寫入國(guó)際標(biāo)準(zhǔn)化組織ISO 23081元數(shù)據(jù)系列標(biāo)準(zhǔn)。
2.2 著錄元數(shù)據(jù)標(biāo)準(zhǔn)及項(xiàng)目。著錄形成的條目其實(shí)就是元數(shù)據(jù),國(guó)際著錄元數(shù)據(jù)標(biāo)準(zhǔn)以國(guó)際檔案理事會(huì)(ICA)頒布的標(biāo)準(zhǔn)為代表,主要包括:
(1)國(guó)際通用檔案著錄規(guī)則(以下簡(jiǎn)稱“ISAD”(G))。該標(biāo)準(zhǔn)主要用于數(shù)字檔案館電子檔案元數(shù)據(jù)著錄,包括二十六個(gè)元數(shù)據(jù)元素,七大著錄項(xiàng)(標(biāo)識(shí)、背景、內(nèi)容和結(jié)構(gòu)、利用和使用條件、相關(guān)材料、注釋和著錄控制)。
(2)檔案責(zé)任者規(guī)范記錄標(biāo)準(zhǔn)(簡(jiǎn)稱“ISAAR”(CPF))。該標(biāo)準(zhǔn)主要是針對(duì)檔案相關(guān)的責(zé)任者背景信息進(jìn)行著錄,包含四大著錄項(xiàng)(標(biāo)識(shí)、說明、關(guān)系和控制)。該標(biāo)準(zhǔn)不僅提出著錄責(zé)任者元數(shù)據(jù)信息在信息交換時(shí),作為檢索點(diǎn)上的重要意義,也提出了單獨(dú)捕獲和維護(hù)檔案背景信息元數(shù)據(jù),并且保持和檔案自身著錄元數(shù)據(jù)信息鏈接的重要性。
(3)檔案職能著錄規(guī)則(簡(jiǎn)稱“ISDF”)。該標(biāo)準(zhǔn)主要是對(duì)機(jī)構(gòu)業(yè)務(wù)職能進(jìn)行著錄的元數(shù)據(jù)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)對(duì)職能的定義是由法律、法規(guī)、政策授權(quán)的,確保組織機(jī)構(gòu)可靠性的責(zé)任、職責(zé)或任務(wù)[ ]。該標(biāo)準(zhǔn)提供四大著錄項(xiàng),二十三個(gè)元數(shù)據(jù)元素對(duì)職能信息進(jìn)行著錄,包括職能類型、名稱、分類、職能日期、詳細(xì)說明、相關(guān)職能等,既可以著錄機(jī)構(gòu)的高層次社會(huì)職責(zé),也能夠記錄某一次業(yè)務(wù)活動(dòng)。
2.3 長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn)及項(xiàng)目。長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn)最具代表性的是國(guó)際聯(lián)機(jī)計(jì)算機(jī)圖書館中心(OCLC)2003年發(fā)起的長(zhǎng)久保存元數(shù)據(jù)實(shí)施戰(zhàn)略項(xiàng)目,發(fā)布了《PREMIS長(zhǎng)久保存元數(shù)據(jù)數(shù)據(jù)字典》[ ]標(biāo)準(zhǔn),已成為國(guó)際長(zhǎng)久保存領(lǐng)域事實(shí)上的標(biāo)準(zhǔn),全世界已經(jīng)有48家機(jī)構(gòu)正式注冊(cè)為PREMIS標(biāo)準(zhǔn)的用戶[ ],其中包括美國(guó)電子文件檔案館、瑞士國(guó)家檔案館、蘇格蘭國(guó)家檔案館、新西蘭檔案館等多家機(jī)構(gòu)。PREMIS標(biāo)準(zhǔn)將長(zhǎng)久保存元數(shù)據(jù)抽象為五個(gè)實(shí)體:知識(shí)實(shí)體(Intellectual),對(duì)象(Objects)、權(quán)限(Rights)、主體(Agents)和事件(Events),并對(duì)后四個(gè)實(shí)體的元數(shù)據(jù)進(jìn)行了詳細(xì)說明。
3 國(guó)際數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)的現(xiàn)狀分析及未來趨勢(shì)
3.1 以文件元數(shù)據(jù)為主體的標(biāo)準(zhǔn)體系初步形成。 從目前國(guó)際對(duì)這三種元數(shù)據(jù)標(biāo)準(zhǔn)的研究來看,文件元數(shù)據(jù)標(biāo)準(zhǔn)是主體,因?yàn)槲募獢?shù)據(jù)標(biāo)準(zhǔn)中蘊(yùn)含著豐富的文件軟硬件形成環(huán)境、業(yè)務(wù)職能背景、責(zé)任者等信息,因此,立檔機(jī)構(gòu)如果遵照科學(xué)的文件元數(shù)據(jù)標(biāo)準(zhǔn),移交完善的文件元數(shù)據(jù),那么,數(shù)字檔案館只需在文件元數(shù)據(jù)基礎(chǔ)上,補(bǔ)充部分的后端著錄元數(shù)據(jù),以及長(zhǎng)久保存過程(轉(zhuǎn)化、遷移、利用)中形成的元數(shù)據(jù)即可。而且從這三類標(biāo)準(zhǔn)來看,標(biāo)準(zhǔn)之間存在元素重疊的現(xiàn)象,因此,元數(shù)據(jù)完全可以由立檔機(jī)構(gòu)一次生成,數(shù)字檔案館重復(fù)使用。強(qiáng)調(diào)文件元數(shù)據(jù)標(biāo)準(zhǔn)在標(biāo)準(zhǔn)體系中的重要作用在于:①確保電子檔案的憑證性,文件的形成環(huán)境,即所謂的前端,是確保電子檔案憑證性的關(guān)鍵點(diǎn),文件元數(shù)據(jù)標(biāo)準(zhǔn)可以控制前端的憑證性;②促使數(shù)字檔案館工作重心發(fā)生改變:數(shù)字檔案館工作重心可以轉(zhuǎn)變?yōu)樵谝呀?jīng)生成的文件元數(shù)據(jù)基礎(chǔ)上,對(duì)其進(jìn)行驗(yàn)證和補(bǔ)充后續(xù)元數(shù)據(jù),而不必像以前那樣從頭開始著錄,避免浪費(fèi)人力物力,而可以把精力放在更有價(jià)值的工作上。
3.2 元數(shù)據(jù)標(biāo)準(zhǔn)模型的兼容性不斷增強(qiáng)。早期,文件、著錄和長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn)的研究是并行和相對(duì)獨(dú)立發(fā)展的,隨著領(lǐng)域之間合作的增強(qiáng),現(xiàn)代元數(shù)據(jù)標(biāo)準(zhǔn)越來越有統(tǒng)一的趨勢(shì),最明顯的特征就是元數(shù)據(jù)標(biāo)準(zhǔn)模型的設(shè)計(jì)思想越來越接近。以文件和長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn)的模型為例進(jìn)行比較說明,如表1所示。
如表1所示,文件管理元數(shù)據(jù)標(biāo)準(zhǔn)模型以ISO 23081標(biāo)準(zhǔn)[9]“法規(guī)三元組”模型為代表,長(zhǎng)久保存元數(shù)據(jù)標(biāo)準(zhǔn)模型以PREMIS模型為代表,兩者比較發(fā)現(xiàn):兩個(gè)模型都采用了實(shí)體關(guān)系法描述元數(shù)據(jù),實(shí)體即“任何存在的,或過去存在的,或可能存在的具體或抽象的事物,包括這些事物之間的聯(lián)系”[10],元數(shù)據(jù)標(biāo)準(zhǔn)采用實(shí)體來抽象和提煉元數(shù)據(jù)描述的對(duì)象,例如ISO 23081模型將文件元數(shù)據(jù)描述對(duì)象簡(jiǎn)單抽象為四個(gè)實(shí)體,即:文件、主體、業(yè)務(wù)和法規(guī)標(biāo)準(zhǔn)實(shí)體,其中每一個(gè)實(shí)體都應(yīng)配備相應(yīng)的元數(shù)據(jù),例如文件實(shí)體應(yīng)配備文件題名、形成時(shí)間、主題等元數(shù)據(jù)。同樣,PREMIS模型也對(duì)長(zhǎng)久保存元數(shù)據(jù)描述對(duì)象抽象為知識(shí)、對(duì)象等五個(gè)實(shí)體。從這兩個(gè)模型的實(shí)體分類來看,存在一定的對(duì)應(yīng)關(guān)系,例如兩個(gè)模型都提出應(yīng)具備主體(Agents)、業(yè)務(wù)(Business)兩個(gè)實(shí)體,雖然實(shí)體的語(yǔ)義略有區(qū)別,但是其基本思想是一致的,都強(qiáng)調(diào)主體(人員或系統(tǒng))、業(yè)務(wù)事件元數(shù)據(jù)在文件管理和長(zhǎng)久保存活動(dòng)中的必要性。而其他實(shí)體,例如文件、法規(guī)標(biāo)準(zhǔn)、權(quán)限實(shí)體等也都可以找到類似的對(duì)應(yīng)實(shí)體。
這種模型實(shí)體之間的對(duì)應(yīng)關(guān)系,體現(xiàn)了元數(shù)據(jù)標(biāo)準(zhǔn)之間對(duì)于元數(shù)據(jù)分類、功能的一致理解,這也促使標(biāo)準(zhǔn)的兼容性增強(qiáng),元數(shù)據(jù)元素映射、交換等一系列工作簡(jiǎn)化。并且從目前文件管理元數(shù)據(jù)和著錄元數(shù)據(jù)標(biāo)準(zhǔn)的模型關(guān)系來看,兩者之間的發(fā)展更是緊密,早期文件元數(shù)據(jù)標(biāo)準(zhǔn)BAC模型和著錄元數(shù)據(jù)標(biāo)準(zhǔn)ISAD(G)的多級(jí)著錄模型相差較遠(yuǎn),但當(dāng)ISO 23081模型出現(xiàn)后,現(xiàn)在兩種標(biāo)準(zhǔn)采用的模型基本一致,這種一致性會(huì)減少多樣化,簡(jiǎn)化數(shù)字檔案館標(biāo)準(zhǔn)應(yīng)用和管理,正如著名學(xué)者Cunningham指出的,“我們需要的是一套互相關(guān)聯(lián)的文件管理和檔案著錄元數(shù)據(jù)標(biāo)準(zhǔn)”[11]。
3.3 元數(shù)據(jù)標(biāo)準(zhǔn)的未來走向和研究趨勢(shì)。數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)未來主要有兩個(gè)熱點(diǎn)方向,包括:
(1)專業(yè)化元數(shù)據(jù)標(biāo)準(zhǔn)研究。目前元數(shù)據(jù)標(biāo)準(zhǔn)多應(yīng)用于政府機(jī)構(gòu)文書類型的電子檔案,應(yīng)當(dāng)研究和評(píng)估這些研究成果是否能夠適用于那些非文書類型的電子檔案,例如圖像檔案、電子郵件等,雖然國(guó)際電子文件真實(shí)性項(xiàng)目InterPARES2[12]曾經(jīng)研究過藝術(shù)領(lǐng)域電子檔案的長(zhǎng)久保存元數(shù)據(jù)問題,但未取得一定的標(biāo)準(zhǔn)化成果,該領(lǐng)域仍需要更多挖掘。
(2)面向用戶利用的元數(shù)據(jù)標(biāo)準(zhǔn)。數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)中一個(gè)重要的研究領(lǐng)域就是制定能夠反映用戶利用需求的利用元數(shù)據(jù)標(biāo)準(zhǔn)。目前,在數(shù)字檔案館的所有元數(shù)據(jù)標(biāo)準(zhǔn)研究中,唯獨(dú)缺少利用元數(shù)據(jù)標(biāo)準(zhǔn)。利用元數(shù)據(jù)就是指能夠反映不同領(lǐng)域用戶的利用需求,用于檢索和查詢檔案的元數(shù)據(jù)。數(shù)字檔案館保管檔案會(huì)被不同領(lǐng)域用戶所利用,不同領(lǐng)域的用戶可能需要各種不同的元數(shù)據(jù)信息來理解和利用檔案材料。開放檔案信息系統(tǒng)模型項(xiàng)目(OAIS)曾提出定義元數(shù)據(jù)來理解和利用檔案,但是需要哪些元數(shù)據(jù),并未明晰。國(guó)際多倫多大學(xué)、密西根大學(xué)合作研究項(xiàng)目AX-SNet(Archival Excellence in Information Seeking Studies Network)[13]致力于明確檔案用戶利用需求,但未出現(xiàn)有影響力的成果。利用元數(shù)據(jù)標(biāo)準(zhǔn)開發(fā)的難點(diǎn)在于對(duì)數(shù)字檔案館不同用戶群利用方式的理解,包括檔案的目標(biāo)利用者是誰(shuí)、其利用檔案的偏好、需要哪些類型的信息來正確、深入地理解電子檔案等。但是基本可以明確的是,利用元數(shù)據(jù)將基于文件和著錄元數(shù)據(jù)基礎(chǔ)之上構(gòu)建。
參考文獻(xiàn):
[1][2]ISO 23081-2,信息和文獻(xiàn)——元數(shù)據(jù)管理——第2部分:概念和實(shí)施問題[S].
[3]Jorien Weterings MA.Changing theory into practice: playing the metadata Game.[2014-06-30].http://ica2012.ica.org/files/pdf/Full%20papers%20upload/ica12Final00184.pdf/.
[4]Kimberly J.Barata.Functional requirements for evidence in recordkeeping: further developments at the university of Pittsburgh.[2014-07-02].http://www.asist.org/Bulletin/Jun-97/barata.html/.
[5]Wendy Duff. Evaluating metadata on a metalevel.[2014-07-03].http://link.springer.com/article/10.1007%2FBF02437692#page-2/.
[6]ICA.ISDF International Standard for Describing Functions[S].
[7][8]PREMIS Editorial Committee.PREMIS Data Dictionary for Preservation Metadata[S].
[9][10]ISO 23081,信息和文獻(xiàn)——元數(shù)據(jù)管理[S].
[11][12] Marlene Van Ballegooie.Instalment on “Archival Metadata”.[2014-07-05].http://www.dcc.ac.uk/sites/default/files/documents/resource/curation-manual/chapters/archival-metadata/archival-metadata.pdf.
[13]Helen R.Tibbo.AX-SNet Research Agenda.[2014-07-18].http://files.archivists.org/conference/2008/researchforum/TibboYakelDuff-AbstractBio-2008.pdf/.
(作者單位:南京政治學(xué)院上海校區(qū)軍事信息管理系 來稿日期:2014-07-27)