軒紅
電子檔案是由傳統(tǒng)檔案數(shù)字化的結果,同時也可以是辦公自動化后產(chǎn)生的電子文件,都是計算機產(chǎn)生的文字、聲音、圖片、視頻等信息的集合,其管理和使用都需要借助專門的設備。電子檔案的出現(xiàn),改變了傳統(tǒng)檔案事業(yè)的工作方式和管理模式。對電子檔案的使用和管理,都需要了解其特征。
1? 電子檔案的特征
電子檔案不同于傳統(tǒng)的紙質檔案和實物檔案,它有自己的獨特特征:(1)電子檔案的不穩(wěn)定性,其主要是存儲在磁介質上,主要有磁盤、光盤、磁帶等。這種介質容易受到震動、磁信號的影響,載體結構稍微變化,就有可能造成數(shù)據(jù)的丟失和破壞,這對電子檔案保存的環(huán)境有嚴格的要求。(2)電子檔案的非直讀性,電子檔案的閱讀需要借助一定的設備來進行,需要相關的軟硬件設備來進行閱讀,這就要求檔案館在保存電子檔案的同時還要保存其專門的閱讀設備。(3)電子檔案的易更改性,電子檔案的更改過程不容易被察覺,更改后不會留下任何痕跡,電子檔案在傳遞或更換其他載體時,容易被更改。電子檔案的增加、刪除、修改都非常方便,給檔案的真實性鑒定和保密性帶來一定的困難。(4)電子檔案對設備和技術的依賴性,檔案信息的加工、組織都需要借助一定的設備和軟件,還需要統(tǒng)一標準,標準不健全、不統(tǒng)一,容易出現(xiàn)在其他設備和環(huán)境下不能讀取、不兼容的情況,檔案資源不容易進行載體互換。
2? 電子檔案管理的難點
2.1? 檔案數(shù)據(jù)的不兼容性。數(shù)字檔案產(chǎn)生的途徑很多,有辦公檔案、數(shù)據(jù)檔案、照片、文本、視頻、聲音等各種形式的檔案資源,并且產(chǎn)生這些檔案的管理系統(tǒng)和應用程序也不一樣。這樣產(chǎn)生的各種各樣的非結構化數(shù)據(jù)在兼容性上就不好把握。不同類型的檔案需要不同的軟件才能打開,即使同一種文件在軟件升級后也有可能不兼容或者丟失數(shù)據(jù)。這種不兼容性給數(shù)字檔案的保存和使用帶來很大的困難。
2.2? 檔案信息冗余。由于不是完整的數(shù)據(jù)庫文件,各種各樣的數(shù)字檔案資源容易出現(xiàn)重復,數(shù)字文件的易復制性決定了其文檔備份較多,并且因工作需要可能會不定期地修改,這樣就會造成備份的不統(tǒng)一,尤其是手工備份文檔,更容易造成數(shù)據(jù)的冗余,不利于數(shù)據(jù)的長期維護,容易造成數(shù)據(jù)不統(tǒng)一。
2.3? 數(shù)字檔案信息之間的聯(lián)系弱。很多數(shù)字檔案是相對孤立的,缺少相對的聯(lián)系,導致系統(tǒng)沒有辦法識別兩份電子檔案的聯(lián)系和區(qū)別。在保證電子檔案安全的同時,強化檔案關聯(lián)共享。這種數(shù)字檔案的獨立性容易產(chǎn)生大量的數(shù)據(jù)孤島,如果文件的擴展名被修改或者丟失,該文件所關聯(lián)的程序則會失效,這種情況給電子檔案歸檔帶來不少的麻煩。
3? 電子檔案管理技術研究
電子檔案的管理技術主要分為原生電子檔案歸檔技術和數(shù)字化檔案歸檔技術兩種。
3.1? 原生電子檔案歸檔技術。原生電子檔案主要是指在生活和工作中,直接產(chǎn)生的電子文件,又具有一定的保存價值,形成原生電子檔案。原生電子檔案歸檔技術主要有:在線數(shù)據(jù)收割技術、網(wǎng)絡數(shù)字資源鏡像、白色檔案轉換技術、fedora檔案存貯系統(tǒng)等。
(1)在線數(shù)據(jù)收割技術:利用開源的原理,采用自動收割技術下載整個網(wǎng)絡空間,對其進行抽取和標引,并組織成檢索庫供用戶使用。奧地利國家圖書館和維也納科技大學聯(lián)合開發(fā)和使用該項技術,目前已經(jīng)應用到奧地利數(shù)字圖書館和網(wǎng)絡學習空間。(2)網(wǎng)絡數(shù)字資源鏡像技術:這種技術主要運用主題和事件的方式對網(wǎng)絡資源進行選擇,并形成檔案資源的元數(shù)據(jù),包括對多媒體和超文本的采集、標引、存貯并使用,最后運用人工編目的方式,為每份檔案創(chuàng)建一條目錄。美國國會圖書館開展的MINERVA項目采用的就是這種方式。(3)白色檔案轉換技術:這種技術主要為了盡量提高檔案的利用效率,并且又不破壞數(shù)字檔案的結構而采用的方法,即對原生的電子檔案逐步地仿真和轉化,由黑色檔案(原始檔案)經(jīng)過保密加工和災難恢復等工作,轉換成灰色檔案,最后再經(jīng)過訪問的限定和遷移變成白色檔案,供用戶使用,既保證了檔案的安全,也提高了檔案的利用效率。(4) fedora檔案存貯系統(tǒng):這是一套基于linux操作系統(tǒng)的管理軟件。其允許數(shù)據(jù)的錄入、刪除和修改,通過這個系統(tǒng)可以實現(xiàn)原生數(shù)字檔案館藏資源建設,主要由弗吉尼亞大學、赫爾大學、斯坦福大學、耶魯大學和英國赫爾歷史中心共同參與完成,可以通過系統(tǒng)實現(xiàn)電子檔案的評價和初審,可以實現(xiàn)檔案的病毒檢測、自動生成檔案清單和信息包,并形成相關的檔案訪問權限。同時fedora還有數(shù)字對象存儲庫,并配有數(shù)字檔案的采集和標引系統(tǒng),主要由英國惠康圖書館開發(fā),包含對不同標準的元數(shù)據(jù)重新創(chuàng)建、整理和組織,并開發(fā)了元數(shù)據(jù)自動提取和實施方案。
3.2? 數(shù)字化檔案歸檔技術。數(shù)字化檔案主要是指將紙質檔案數(shù)字化后形成的檔案,這種檔案的優(yōu)點是使用的過程中不會對檔案本體造成損壞,并且方便多人同時使用。主要有頁面自動分析技術、檔案數(shù)字化技術、多媒體數(shù)字檔案技術、3D激光掃描技術。
(1)頁面自動分析技術,即在數(shù)字化的過程中,自動對檔案的信息資源進行采集和標引,該技術首先對圖像進行預處理,然后提取圖片的信息,包括圖片的線、背景線、特殊符號、標題和文本等,最后進行文字的識別和重建。希臘國家信息與電子通信研究中心正在研究使用這種技術。(2)檔案數(shù)字化技術,主要包括紙質檔案的初始轉換,數(shù)據(jù)的管理和訪問,采用文章逐條、逐頁的數(shù)據(jù)加載方式,自動創(chuàng)建頁面級,手動創(chuàng)建文章即元數(shù)據(jù)的方式,采用SGML DTD(標記通用語言——文件形態(tài)定義)來反映,英國的曼徹斯特大學學者正在開發(fā)這種模式的歸檔技術。(3)多媒體數(shù)字檔案技術,這種技術主要研究了音頻檔案信號轉換的波段分析和恢復、信號提取、副本保存等關鍵技術,采用半自動的方式從視頻和音頻中提取元數(shù)據(jù)以供檢索使用。通過檢索相似性和曲線對比來對數(shù)字資源進行識別,這樣減少了數(shù)字化抽取過程中的信息丟失,意大利的帕多瓦大學在對這項技術進行深入研究,歐洲的很多國家都是使用這種技術。(4)3D激光掃描技術,這樣技術對實物檔案數(shù)字化有很大的意義,主要是通過三維掃描和模擬,將其存儲和開放使用,目前研究這項技術的主要有斯坦福大學、加州大學和中國科技大學,已經(jīng)取得了初步的成果。
4? 結語
隨著數(shù)字化進程的加快,數(shù)字檔案產(chǎn)生的速度越來越快,研究數(shù)字檔案的歸檔技術,已經(jīng)迫在眉睫了,文中介紹了不少的數(shù)字檔案方面的新技術,這些是數(shù)字檔案的保存、提取、收錄、檢索等技術,國內外關于數(shù)字檔案滿足用戶的檔案信息需求方面需要進一步加深,要以讀者服務為宗旨進行開發(fā)。
(作者單位:河南牧業(yè)經(jīng)濟學院? 來稿日期:2015-08-20)