摘要:檔案是重要的社會(huì)信息資源,傳統(tǒng)檔案館作為社會(huì)信息資源系統(tǒng)的一個(gè)重要組成部分,正面臨著數(shù)字化時(shí)代的挑戰(zhàn)。本文從館藏檔案數(shù)字化的內(nèi)容、流程、策略、要求等方面,分析了數(shù)字檔案館如何接替?zhèn)鹘y(tǒng)檔案館的過(guò)程。
主題詞:數(shù)字檔案館 傳統(tǒng)檔案館 檔案數(shù)字化
數(shù)字檔案館的信息資源建設(shè)包括原始館藏的數(shù)字化和網(wǎng)絡(luò)信息數(shù)據(jù)庫(kù)。原始館藏的數(shù)字化是將館藏檔案轉(zhuǎn)化成計(jì)算機(jī)可以識(shí)別和處理的數(shù)字化信息,經(jīng)過(guò)整理和組織,存儲(chǔ)在存儲(chǔ)設(shè)備里。網(wǎng)絡(luò)信息數(shù)據(jù)庫(kù)是指實(shí)現(xiàn)數(shù)字化后的信息資源分布在網(wǎng)絡(luò)服務(wù)器中,通過(guò)網(wǎng)絡(luò)互聯(lián)提供資源共享。數(shù)字檔案館是管理檔案信息的"信息中心",檔案的實(shí)體保管模式應(yīng)該向檔案信息化管理模式過(guò)渡。而數(shù)字檔案館的檔案信息資源建設(shè)的首要任務(wù)就是如何將傳統(tǒng)檔案館的原始館藏?cái)?shù)字化,亦即數(shù)字檔案館如何接替?zhèn)鹘y(tǒng)檔案館的原始館藏,這是由傳統(tǒng)檔案館向數(shù)字檔案館轉(zhuǎn)型過(guò)程中的一個(gè)關(guān)鍵性問(wèn)題。要解決這一問(wèn)題,涉及一系列工作內(nèi)容、技術(shù)與理論問(wèn)題,諸如數(shù)字化采集設(shè)備的選擇,數(shù)字文件格式的選擇,文件存儲(chǔ)系統(tǒng)的建立等。下面從以下四方面分析數(shù)字檔案館如何接替?zhèn)鹘y(tǒng)檔案館的過(guò)程。
一、館藏檔案數(shù)字化的工作內(nèi)容
館藏檔案數(shù)字化工作內(nèi)容從流程上分主要包括兩項(xiàng):一是將傳統(tǒng)載體檔案目錄進(jìn)行數(shù)字化,二是將檔案內(nèi)容進(jìn)行數(shù)字化。
1.檔案目錄數(shù)字化的主要工作是對(duì)載體檔案進(jìn)行編目,并將目錄信息錄入到計(jì)算機(jī)中,建立檔案目錄數(shù)據(jù)庫(kù),利用管理信息系統(tǒng)實(shí)現(xiàn)檔案目錄數(shù)據(jù)的計(jì)算機(jī)管理和目錄信息的資源共享。
2.檔案內(nèi)容數(shù)字化的主要工作是館藏的紙質(zhì)、照片、錄音、錄像、縮微等檔案,通過(guò)掃描、加工、處理(包括去污處理、圖像處理、OCR等),轉(zhuǎn)變?yōu)槲谋?、圖像、圖形、流媒體等數(shù)字格式的信息,存儲(chǔ)在網(wǎng)絡(luò)服務(wù)器中,利用計(jì)算機(jī)及信息系統(tǒng)提供查詢、檢索和瀏覽。
館藏檔案數(shù)字化工作內(nèi)容從形式上主要可分為四種:紙質(zhì)檔案、音頻檔案、視頻檔案和縮微膠片等。
二、檔案數(shù)字化的業(yè)務(wù)流程
一般來(lái)說(shuō),檔案數(shù)字化業(yè)務(wù)流程可以分為以下幾個(gè)過(guò)程:數(shù)字化預(yù)處理、數(shù)字化加工/轉(zhuǎn)換、信息處理、信息存儲(chǔ)、信息發(fā)布與信息利用等幾個(gè)核心過(guò)程[1]。由于要數(shù)字化的檔案形式不同,有紙質(zhì)、音頻、視頻、縮微四種,因此在實(shí)際數(shù)字化時(shí)具體工作流程會(huì)不同。有關(guān)詳細(xì)的、具體化的流程可參見(jiàn)相應(yīng)的國(guó)家標(biāo)準(zhǔn),如《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》、《視、音頻檔案數(shù)字化技術(shù)規(guī)范》(征求意見(jiàn)稿)等。
1.數(shù)字化預(yù)處理
預(yù)處理是數(shù)字化加工的第一個(gè)環(huán)節(jié),主要工作是將實(shí)物檔案,如紙質(zhì)檔案、錄音錄像等按照數(shù)字化加工的輕重緩急原則,進(jìn)行篩選,然后,再按照下一步數(shù)字化處理工作的具體要求做拆卷、分類、整理、模數(shù)轉(zhuǎn)換等處理工作。
2.數(shù)字化加工與轉(zhuǎn)換
是將傳統(tǒng)載體的檔案轉(zhuǎn)換為以數(shù)字形式表示的檔案信息資源,主要工作有:掃描、數(shù)碼拍照、錄音錄像檔案的數(shù)字化轉(zhuǎn)換等。這一階段需要重點(diǎn)加強(qiáng)對(duì)破損程度比較嚴(yán)重的、紙質(zhì)又很薄的、很難直接進(jìn)行掃描或者無(wú)法采取掃描方式進(jìn)行數(shù)字化的歷史檔案的處理。主要采取的措施:一是根據(jù)實(shí)際情況做一些特殊的保護(hù)處理,或者變換方式如采用數(shù)碼相機(jī)拍照然后再加載到計(jì)算機(jī)系統(tǒng)中,但絕不可以損壞原件;二是在掃描加工時(shí)應(yīng)考慮一次掃描、多次使用、全信息捕獲的基本原則,盡量在掃描前充分考慮檔案的利用目的,避免多次重復(fù)掃描加工。因?yàn)槊看螔呙杓庸げ粌H花費(fèi)人力、物力和財(cái)力,而且對(duì)檔案原件也有損害。這個(gè)階段工作過(guò)程中采取合適的掃描分辨率與模數(shù)轉(zhuǎn)換等的技術(shù)參數(shù)是非常關(guān)鍵的。本階段必須在大量的實(shí)踐經(jīng)驗(yàn)基礎(chǔ)上,選擇科學(xué)的、合理的數(shù)字化加工與轉(zhuǎn)換的技術(shù)與指標(biāo)開(kāi)展工作,側(cè)重點(diǎn)在于技術(shù)方案的選擇與確定。
3.信息處理
本環(huán)節(jié)的工作是將數(shù)字化后的圖像文件、多媒體信息等與檔案的著錄信息進(jìn)行關(guān)聯(lián)的重要過(guò)程。該過(guò)程要將圖像與多媒體文件對(duì)照原始檔案而進(jìn)行核對(duì)、壓縮及OCR圖文識(shí)別。無(wú)論是紙質(zhì)檔案數(shù)字化后進(jìn)行圖文處理,如圖像壓縮、OCR識(shí)別等,還是錄音、錄像檔案通過(guò)模擬到數(shù)字的轉(zhuǎn)化后,都可能造成一定程度的數(shù)據(jù)丟失或信息失真,因此本階段要重點(diǎn)考慮檔案數(shù)字化后能夠被存儲(chǔ)、保存和提供利用,考慮如何將失真度降到最低。
4.信息存儲(chǔ)
信息處理過(guò)程將生成關(guān)系型數(shù)據(jù)庫(kù)文件、大量的電子圖像和多媒體文件,這些數(shù)據(jù)需要存儲(chǔ)在網(wǎng)絡(luò)環(huán)境中并提供利用,而不僅僅是存儲(chǔ)在光盤上保存在庫(kù)房作檔案?jìng)浞?。因此,?yīng)首先根據(jù)數(shù)字化存儲(chǔ)容量及網(wǎng)絡(luò)化提供利用的要求,選擇網(wǎng)絡(luò)存儲(chǔ)設(shè)備、考慮數(shù)據(jù)庫(kù)與電子文件的存儲(chǔ)和被訪問(wèn)的方式。有關(guān)存儲(chǔ)格式和標(biāo)準(zhǔn)已有相應(yīng)的規(guī)定,如紙質(zhì)文件數(shù)字化后存儲(chǔ)格式已有標(biāo)準(zhǔn)。
5.信息利用
該階段是將數(shù)字檔案信息發(fā)布在網(wǎng)上,并提供不同網(wǎng)絡(luò)范圍內(nèi)的不同數(shù)據(jù)內(nèi)容的檔案利用。利用面向兩種對(duì)象--公眾網(wǎng)用戶和政務(wù)網(wǎng)用戶。信息存儲(chǔ)與交流利用所采取的格式是不同的。我們國(guó)家對(duì)存儲(chǔ)格式有規(guī)定,但對(duì)利用格式?jīng)]有規(guī)定。在質(zhì)量可接受情況下,為實(shí)現(xiàn)快速方便利用可對(duì)格式進(jìn)行轉(zhuǎn)化,如采用占用空間較小的流媒體格式等。
三、檔案數(shù)字化策略
檔案信息資源要開(kāi)發(fā)利用,就要對(duì)檔案進(jìn)行數(shù)字化處理,對(duì)檔案信息資源進(jìn)行組織,這一定要講究策略,走有選擇地?cái)?shù)字化和共建共享模式兩條路。
1.有選擇地對(duì)館藏檔案數(shù)字化
館藏檔案浩瀚無(wú)窮,該如何選擇數(shù)字化策略呢?傅榮校教授已在《中國(guó)檔案》2003年第3期《館藏檔案數(shù)字化策略》一文就指出館藏檔案數(shù)字化策略的選擇從理論上講主要可分為以下五種方式:
A、將全部原始館藏檔案數(shù)宇化。這種全部數(shù)字化策略從理論上來(lái)說(shuō)是理想的方式,但從保密和經(jīng)濟(jì)的角度考慮是不切實(shí)際的。
B、選擇能代表館藏特色的檔案進(jìn)行數(shù)字化。這種方式可以使數(shù)字檔案館形成自己的特色,有效避免了檔案信息資源的重復(fù)建設(shè)。endprint
C、將有高價(jià)值的檔案信息數(shù)字化。高價(jià)值要看"檔案信息是否存在潛在的長(zhǎng)遠(yuǎn)使用價(jià)值,是否存在證據(jù)價(jià)值和情報(bào)價(jià)值,或是否具有歷史價(jià)值或文物價(jià)值"[2]。這就要對(duì)檔案根據(jù)檔案保管期限表在數(shù)字化之前先進(jìn)行鑒定,對(duì)一些保管期限劃分不合理的,要進(jìn)行個(gè)別調(diào)整。
D、對(duì)使用頻率高的檔案數(shù)字化。事實(shí)上,館藏檔案有很大部分是無(wú)人問(wèn)津的,這樣做可以節(jié)省成本提高效益。如我們高校檔案,在近200項(xiàng)歸檔范圍中,頻繁使用的也就是職稱、學(xué)籍、畢業(yè)生及一些政策法規(guī)等幾項(xiàng)。所以在數(shù)字化時(shí)重點(diǎn)選擇這幾項(xiàng)就差不多了。當(dāng)然這種方法也有缺點(diǎn),需要通過(guò)加強(qiáng)館際合作和上面第二、三種方法來(lái)解決。
E、用戶需要時(shí)才數(shù)字化。這種方式可以將用戶不需要的檔案信息排除在數(shù)字化范圍之外。但用戶的需要有時(shí)存在很大的偶然性,切不要把極少情況下才會(huì)用到的檔案進(jìn)行數(shù)字化。
以上五種選擇傳統(tǒng)檔案館原始館藏進(jìn)行數(shù)字化的方式,各有特點(diǎn),有些從館藏檔案信息的價(jià)值出發(fā)(如第二種方式),有些從利用者需要出發(fā)(如第四種、第五種方式)?;谝陨戏治觯覀儾浑y發(fā)現(xiàn),無(wú)論哪種方式,如果單獨(dú)采用都存在一些不可避免的缺陷。筆者建議將第二種、第三種、第四種和第五種方式有機(jī)結(jié)合起來(lái)使用,優(yōu)勢(shì)互補(bǔ),以提高數(shù)字檔案館檔案信息資源建設(shè)的質(zhì)量。
2.共建共享模式
信息資源組織、數(shù)字化是一項(xiàng)龐大的工作,光靠一個(gè)檔案部門的力量是不夠的,應(yīng)該由不同的機(jī)構(gòu)來(lái)共同展開(kāi)。原先單位存檔把實(shí)物檔案移交給檔案部門就行了,以后這樣是行不通的。在歸檔之前,有關(guān)單位要先把檔案數(shù)字化,建立全文數(shù)據(jù)庫(kù),這也正好符合我們數(shù)字化走的目錄數(shù)據(jù)庫(kù)建設(shè)→全文數(shù)據(jù)庫(kù)建設(shè)→多媒體數(shù)據(jù)庫(kù)建設(shè)這種形式。
很多省市已經(jīng)在實(shí)施共建共享模式。上海市檔案局早在2005年《關(guān)于加強(qiáng)上海檔案信息資源開(kāi)發(fā)利用工作的實(shí)施意見(jiàn)》里就提出了數(shù)字化要走共建共享之路的策略,指出"要依托統(tǒng)一的電子政務(wù)網(wǎng)絡(luò)平臺(tái)和信息安全基礎(chǔ)設(shè)施,整合包括館(室)藏檔案信息、政府公開(kāi)信息、企業(yè)和個(gè)人的各類檔案信息資源,建立條塊結(jié)合的目錄中心和分布式目錄數(shù)據(jù)庫(kù)。在此基礎(chǔ)上,建立以檔案全文、多媒體數(shù)據(jù)庫(kù)為核心的檔案信息中心。制定資源共享合作機(jī)制,推動(dòng)需求迫切、效益明顯的跨部門、跨地區(qū)檔案信息資源的共建共享,避免重復(fù)建設(shè)"[ 3]。
四、檔案數(shù)字化的工作要求
檔案數(shù)字化是一項(xiàng)技術(shù)性較強(qiáng)的工作,涉及多類先進(jìn)設(shè)備的使用、多種技術(shù)的綜合應(yīng)用、多項(xiàng)指標(biāo)的選擇,在組織、規(guī)劃、實(shí)現(xiàn)等方面對(duì)檔案工作者的業(yè)務(wù)水平有較高的要求。盡管數(shù)字化工作分紙質(zhì)、音頻、視頻、縮微膠片檔案等四種,但它們?cè)跀?shù)字化時(shí)有著一些共性的要求,這些要求可歸結(jié)為一般原則性要求和技術(shù)性要求。
1.原則性要求
A、要科學(xué)規(guī)劃與組織。拋開(kāi)資金問(wèn)題,館藏檔案數(shù)字化其實(shí)是一項(xiàng)耗時(shí)耗力耗人的工作。為確保數(shù)字化工作有條不紊地開(kāi)展,除需要對(duì)人員進(jìn)行合理的分工、組織和協(xié)調(diào)外,還需要對(duì)即將被數(shù)字化的檔案進(jìn)行有序的調(diào)控和出入庫(kù)的檢查與登記。
B、要準(zhǔn)確定位數(shù)字化對(duì)象。任何一個(gè)檔案館的館藏量都是豐富的,要想對(duì)其進(jìn)行全部數(shù)字化是不現(xiàn)實(shí)的。這就要講究策略問(wèn)題,在符合國(guó)家檔案開(kāi)放規(guī)定以及有關(guān)規(guī)定情況下,要有選擇地進(jìn)行數(shù)字化。至于如何選擇的問(wèn)題在上文里已做了分析。《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》對(duì)紙質(zhì)檔案數(shù)字化對(duì)象的確定有詳細(xì)的要求。
C、要有安全保障措施,加強(qiáng)過(guò)程管理。檔案部門缺少數(shù)字化設(shè)備和專業(yè)人員是很普遍的問(wèn)題,所以在實(shí)際數(shù)字化時(shí)會(huì)出現(xiàn)委托外協(xié)加工或外包給電腦公司或商務(wù)公司代加工。這就要制定安全的保障措施,防止檔案被丟失、泄密、篡改、復(fù)制或漏訂錯(cuò)訂等。在檔案出入庫(kù)的各個(gè)環(huán)節(jié),要建立起嚴(yán)格的登記制度。
2.技術(shù)性要求
A、避免重復(fù)數(shù)字化。紙質(zhì)檔案掃描、圖像處理、音頻視頻檔案采集捕獲等過(guò)程,多少都會(huì)損壞檔案原件,丟失部分信息,因此在數(shù)字化時(shí)要盡可能做到一次加工,全息捕獲,避免重復(fù)數(shù)字化。
B、技術(shù)指標(biāo)和格式選擇要合理。檔案數(shù)字化的技術(shù)性主要體現(xiàn)在技術(shù)指標(biāo)格式的選擇上。檔案數(shù)字化要本著存、用分離原則。從替代母本保存角度講,對(duì)數(shù)字文件內(nèi)容上的原真性要求高,因此不能過(guò)多的考慮存儲(chǔ)容量問(wèn)題,盡量不選擇有損壓縮格式,分辨率、采樣頻率、格式等技術(shù)參數(shù)的設(shè)置在滿足國(guó)家標(biāo)準(zhǔn)或規(guī)范基礎(chǔ)上,結(jié)合本單位實(shí)際情況可從高從優(yōu)設(shè)置;從檔案的網(wǎng)絡(luò)化利用角度來(lái)講,要求信息存取達(dá)到高效、快捷,而文件大小是決定網(wǎng)絡(luò)訪問(wèn)速度的關(guān)鍵,只有圖像壓縮較高時(shí),文件才能達(dá)到盡可能的小,但同時(shí)信息的失真度也比較大,要權(quán)衡決定。技術(shù)指標(biāo)和格式的選擇是一項(xiàng)非常關(guān)鍵的工作,既要考慮信息的保真性,又要考慮網(wǎng)絡(luò)利用的效率,更要保護(hù)檔案原件不受損失,這往往是矛盾的,必須根據(jù)業(yè)務(wù)需要做出正確、合理和可行的選擇。
C、設(shè)備和軟件要配套。專門的掃描設(shè)備或視、音頻采集卡有相應(yīng)配套的軟件。雖然很多軟件是兼容的,適用于不同的掃描儀或采集卡,但只有使用相應(yīng)配套的軟件才能使設(shè)備達(dá)到最佳性能,并取得最理想數(shù)字化成果。
總之,數(shù)字檔案館與傳統(tǒng)檔案館相比,有著豐富的數(shù)字化資源、海量的存儲(chǔ)、便捷的檢索、快速的傳輸、高度的開(kāi)放、信息的共享等優(yōu)點(diǎn)。而檔案信息數(shù)字化是一項(xiàng)龐大而又復(fù)雜的系統(tǒng)工程,建設(shè)過(guò)程中存在著許多困難,但檔案信息數(shù)字化始終是檔案管理的發(fā)展方向,這是數(shù)字時(shí)代的大勢(shì)所趨。我們應(yīng)當(dāng)清醒地認(rèn)識(shí)到檔案信息數(shù)字化的建設(shè)和發(fā)展是分階段的。因此,檔案信息數(shù)字化的建設(shè)應(yīng)根據(jù)需要和可能的原則,區(qū)別輕重,分清步驟,依據(jù)條件,量力而行。循序漸進(jìn),不斷總結(jié)經(jīng)驗(yàn)教訓(xùn),逐漸走向完善。
參考文獻(xiàn):
[1]引自薛四新 彭榮 陳永生著:《檔案信息化應(yīng)用系統(tǒng)建設(shè)》,機(jī)械工業(yè)出版社,2006年1月出版
[2]引自傅榮校:《館藏檔案數(shù)字化策略》,《中國(guó)檔案》2003年第3期
[3]引自《關(guān)于加強(qiáng)上海檔案信息資源開(kāi)發(fā)利用工作的實(shí)施意見(jiàn)》(滬檔發(fā)[2005]201號(hào))
作者簡(jiǎn)介:
許文霞 女(1960.03--)浙江臺(tái)州人,副研究館員,碩士學(xué)位,研究方向:檔案管理。endprint