尹哲
本文就北京數(shù)字檔案館(電子文件中心)的檔案數(shù)字資源建設(shè)的規(guī)劃思路、總體架構(gòu)、數(shù)據(jù)庫邏輯劃分、數(shù)據(jù)存儲模式設(shè)計(jì)、應(yīng)用系統(tǒng)與數(shù)據(jù)庫間的關(guān)系和數(shù)據(jù)遷移工作六部分內(nèi)容進(jìn)行了詳細(xì)的介紹。
一、規(guī)劃思路
檔案數(shù)字資源是北京數(shù)字檔案館(電子文件中心)建設(shè)的重要組成部分,在建設(shè)過程中必須做好檔案數(shù)字資源的規(guī)劃工作。首先,明確檔案事業(yè)發(fā)展戰(zhàn)略與檔案業(yè)務(wù)管理對于數(shù)字資源支撐的需求;其次,確定各業(yè)務(wù)形態(tài)以及應(yīng)用系統(tǒng)中已有的數(shù)字資源;最后,通過綜合分析兩方面需求,提出未來數(shù)字資源的架構(gòu)目標(biāo)以及分步實(shí)現(xiàn)的路徑。具體內(nèi)容包含:
(一)檔案事業(yè)發(fā)展戰(zhàn)略與檔案業(yè)務(wù)管理對于數(shù)據(jù)支撐的需求,總結(jié)檔案事業(yè)發(fā)展業(yè)務(wù)模型,包括:業(yè)務(wù)域劃分、主題分析、用戶視圖、業(yè)務(wù)流程、數(shù)據(jù)流程、業(yè)務(wù)實(shí)體、數(shù)據(jù)元素、分析指標(biāo)集等。
(二)梳理檔案業(yè)務(wù)管理中各業(yè)務(wù)系統(tǒng)的架構(gòu),理清數(shù)據(jù)流向,特別是市檔案局(館)與區(qū)檔案局(館)、檔案館與檔案立檔單位之間的數(shù)據(jù)流轉(zhuǎn)關(guān)系,建立全市檔案數(shù)據(jù)資源分布框架。
(三)總結(jié)描繪檔案業(yè)務(wù)管理數(shù)字資源主題域和關(guān)鍵實(shí)體,分析數(shù)據(jù)價值鏈的各個環(huán)節(jié)的處理和運(yùn)用方式。
二、總體架構(gòu)
北京數(shù)字檔案館數(shù)據(jù)資源總體架構(gòu)如圖1所示,分為三個區(qū)域:政務(wù)外網(wǎng)數(shù)據(jù)區(qū)、互聯(lián)網(wǎng)數(shù)據(jù)區(qū)和市、區(qū)檔案館局域網(wǎng)數(shù)據(jù)區(qū)。其中政務(wù)外網(wǎng)數(shù)據(jù)區(qū)和互聯(lián)網(wǎng)數(shù)據(jù)區(qū)采取邏輯隔離方式,市、區(qū)檔案館局域網(wǎng)數(shù)據(jù)區(qū)與政務(wù)外網(wǎng)、互聯(lián)網(wǎng)數(shù)據(jù)區(qū)采取物理隔離方式。
北京數(shù)字檔案館(電子文件中心)項(xiàng)目數(shù)據(jù)庫建設(shè)要求統(tǒng)一存儲、分級管理,即各個單位數(shù)據(jù)統(tǒng)一存儲在北京數(shù)字檔案館(電子文件中心)的大集中數(shù)據(jù)庫中,在業(yè)務(wù)操作上各單位獨(dú)立管理本單位的數(shù)據(jù)。
三、數(shù)據(jù)庫邏輯劃分
數(shù)據(jù)是數(shù)字檔案館的基礎(chǔ),以檔案數(shù)字資源為基礎(chǔ)的業(yè)務(wù)數(shù)據(jù)經(jīng)過采集、傳輸、處理、標(biāo)準(zhǔn)化和規(guī)范化后,裝載到因特網(wǎng)、政務(wù)外網(wǎng)和市檔案館專網(wǎng)等各網(wǎng)絡(luò)的數(shù)字檔案館業(yè)務(wù)應(yīng)用系統(tǒng)的數(shù)據(jù)庫中。
為了科學(xué)的管理和維護(hù)數(shù)據(jù),滿足全市檔案管理業(yè)務(wù)的需要,在數(shù)據(jù)需求分析的基礎(chǔ)上,根據(jù)數(shù)據(jù)關(guān)聯(lián)程度及數(shù)據(jù)庫存儲等特征,系統(tǒng)數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類。結(jié)構(gòu)化數(shù)據(jù)以行數(shù)據(jù)為主,存儲在數(shù)據(jù)庫里用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖形、圖像、聲音影像等。
(一)結(jié)構(gòu)化數(shù)據(jù)
根據(jù)數(shù)據(jù)的關(guān)聯(lián)關(guān)系和業(yè)務(wù)邏輯關(guān)系,結(jié)構(gòu)化數(shù)據(jù)可分為:
1.基礎(chǔ)信息庫:包括檔案管理常用的基礎(chǔ)性數(shù)據(jù),如機(jī)構(gòu)、用戶、權(quán)限、基礎(chǔ)編碼、檔案移交單位、數(shù)字化加工外協(xié)單位及員工等。
2.目錄信息庫:檔案數(shù)字資源的目錄信息,包括檔案目錄和資料目錄,其中檔案目錄包括全宗目錄、案卷級目錄、文件級目錄、專題目錄、專門檔案目錄等,資料目錄包括書刊、報(bào)紙、地圖等。目錄信息庫還包括對目錄信息的注冊、審核、管理、發(fā)布及目錄之間關(guān)系等業(yè)務(wù)信息,為檔案的目錄管理提供數(shù)據(jù)支撐。
3.元數(shù)據(jù)庫:存儲檔案的元數(shù)據(jù)信息,從檔案類型分為文書類、照片類、錄音類和錄像類等元數(shù)據(jù)。
4.業(yè)務(wù)過程庫:是數(shù)字檔案館平臺業(yè)務(wù)操作過程中的相關(guān)數(shù)據(jù)。包括電子文件中心業(yè)務(wù)管理、檔案的接收、整編、利用、數(shù)字化、音視頻檔案整編處理、征集、縮微、自定的計(jì)劃、下達(dá)的任務(wù)等相關(guān)業(yè)務(wù)過程數(shù)據(jù)。
5.業(yè)務(wù)輔助信息庫:包括檔案長期存儲的鑒定專家?guī)?、征集線索庫、庫房基本信息、庫房倉位信息、庫房規(guī)劃信息、存儲載體目錄、存儲備份策略、存儲載體索引、檢索工具、知識庫等。
6.運(yùn)維日志庫:包括用戶操作日志信息、運(yùn)維過程記錄、安全審計(jì)信息、系統(tǒng)故障信息及實(shí)時監(jiān)控信息等。
7.共享資源庫:主要存儲檔案共享資源的注冊、審核、管理、發(fā)布、控制等業(yè)務(wù)信息,以及各類共享資源的具體及描述信息,如政策法規(guī)、技術(shù)規(guī)范、共享文件、檔案信息網(wǎng)的發(fā)布信息及網(wǎng)頁內(nèi)容信息記錄等。
8.統(tǒng)計(jì)信息庫:包含自定義及定制的統(tǒng)計(jì)報(bào)表模板、統(tǒng)計(jì)結(jié)果、統(tǒng)計(jì)臨時數(shù)據(jù)資源等相關(guān)數(shù)據(jù)信息。
9.電子檔案身份證數(shù)據(jù)庫:電子檔案身份證就是證明一份電子檔案身份的真憑實(shí)據(jù),它是一種能夠保證電子檔案唯一性、真實(shí)性和真實(shí)性的身份證件,也是電子檔案作為司法證明的重要依據(jù),就像一個人擁有身份證一樣。電子檔案的身份證由電子檔案身份證編號、檔案移交單位名稱、電子檔案全文數(shù)字摘要、電子檔案其他核心元數(shù)據(jù)、檔案移交單位數(shù)字簽名等構(gòu)成。
(二)非結(jié)構(gòu)化數(shù)據(jù)
檔案數(shù)字資源庫:由市和區(qū)檔案局(館)館藏檔案數(shù)字資源,市和各區(qū)屬檔案室室藏檔案數(shù)字資源組成,主要包括檔案數(shù)字副本和電子檔案。其中,檔案數(shù)字副本包括紙質(zhì)、照片、錄音、錄像、縮微膠片、實(shí)物、地圖等數(shù)字副本;電子檔案包括文本類、圖形類、圖像類、聲音類、影像類等。
四、數(shù)據(jù)存儲模式設(shè)計(jì)
從數(shù)據(jù)結(jié)構(gòu)形式上劃分,結(jié)構(gòu)化的數(shù)據(jù)(除XML文檔之外)均采用關(guān)系型數(shù)據(jù)庫進(jìn)行存儲。非結(jié)構(gòu)化的電子文件采用文件方式進(jìn)行存儲。
(一)結(jié)構(gòu)化數(shù)據(jù)存儲模式
結(jié)構(gòu)化數(shù)據(jù)存儲方式可分為具有邏輯關(guān)系的數(shù)據(jù)庫表存儲和XML存儲兩種方式。本方案針對應(yīng)用系統(tǒng)訪問采用數(shù)據(jù)庫表存儲,針對長期保持的結(jié)構(gòu)化數(shù)據(jù)采用XML方式存儲。
1.數(shù)據(jù)庫表存儲
在數(shù)據(jù)庫中建立檔案數(shù)字資源信息物理庫表,存儲檔案數(shù)字資源的基礎(chǔ)信息、目錄數(shù)據(jù)、元數(shù)據(jù)、業(yè)務(wù)過程數(shù)據(jù)、業(yè)務(wù)輔助信息庫、運(yùn)維日志信息、共享資源、統(tǒng)計(jì)信息等。通過結(jié)構(gòu)化的管理,方便快速檢索定位。
2.XML存儲
數(shù)字檔案館涉及電子文件長期保管,根據(jù)元數(shù)據(jù)封裝規(guī)范,將檔案信息存儲到XML文檔中,并將此文檔和電子原件打成壓縮包進(jìn)行長期保管。并且不同的檔案館建設(shè)中有相同元數(shù)據(jù)結(jié)構(gòu),可以將元數(shù)據(jù)結(jié)構(gòu)保存在XML,以便其他檔案館利用。XML存儲包括兩個方式:endprint
(1)文件形式存儲方式
原始XML文檔或經(jīng)過系統(tǒng)轉(zhuǎn)換后符合標(biāo)準(zhǔn)的XML文檔,以文件形式存儲。針對讀寫直接操作,節(jié)省多余開銷,能夠?qū)ξ募Y(jié)構(gòu)做專門的優(yōu)化,獲得更高的讀寫性效果,適用于元數(shù)據(jù)封裝存儲和瀏覽。
(2)平面表存儲
原始XML文檔或經(jīng)過系統(tǒng)轉(zhuǎn)換后符合標(biāo)準(zhǔn)的XML文檔,經(jīng)過XML解析器解析分解后,以約定的格式將XML文檔中的內(nèi)容存儲在數(shù)據(jù)庫的表或字段中,適合于元數(shù)據(jù)結(jié)構(gòu)維護(hù)和存儲。
(二)非結(jié)構(gòu)化數(shù)據(jù)存儲
檔案數(shù)字化副本包括紙質(zhì)、照片、錄音、錄像、縮微膠片、實(shí)物、地圖等數(shù)字副本。北京市檔案館館藏紙質(zhì)文書和傳統(tǒng)照片檔案數(shù)字化副本的數(shù)據(jù)存儲結(jié)構(gòu)按照“全宗--目錄--案卷”的結(jié)構(gòu)存儲,錄音和錄像檔案數(shù)字化副本數(shù)據(jù)存儲結(jié)構(gòu)保留原始“檔號”命名的存儲結(jié)構(gòu)。其他類型數(shù)字化副本存儲類型待定。
五、應(yīng)用系統(tǒng)與數(shù)據(jù)庫間的關(guān)系
應(yīng)用系統(tǒng)的運(yùn)行需要數(shù)據(jù)庫中各種數(shù)據(jù)的支持,隨著系統(tǒng)的運(yùn)行還會不斷地產(chǎn)生新的數(shù)據(jù)。本項(xiàng)目中應(yīng)用系統(tǒng)與主要信息資源數(shù)據(jù)庫之間的關(guān)系見圖2:
六、數(shù)據(jù)遷移工作
數(shù)字資源的核心是數(shù)據(jù),要根據(jù)舊系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)提供新舊系統(tǒng)的轉(zhuǎn)換方案,保證數(shù)據(jù)在遷移過程中的完整性、準(zhǔn)確性、一致性。
在數(shù)據(jù)遷移工作啟動前,先依照相關(guān)標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)清理工作,為保障數(shù)據(jù)安全,建議將計(jì)劃遷移的數(shù)據(jù)做一次完整備份,避免因意外情況導(dǎo)致數(shù)據(jù)出現(xiàn)不可逆的損失。
(一)數(shù)據(jù)遷移的原則
對于原有的數(shù)據(jù)庫的數(shù)據(jù),對照新的數(shù)據(jù)結(jié)構(gòu),檢查每個字段是否都滿足要求,包括非空要求、唯一性要求、小數(shù)位數(shù)要求、字節(jié)長度要求、取值范圍要求、代碼格式要求等。此時,可以發(fā)現(xiàn)一些數(shù)據(jù)格式不一致等問題,根據(jù)經(jīng)驗(yàn)對這些問題提供一些參考解決方案。
(二)數(shù)據(jù)遷移采取的步驟
在實(shí)施遷移計(jì)劃的時候,建議按如下步驟進(jìn)行:
截止一個時間段,把此時間段前的所有數(shù)據(jù)進(jìn)行整理,然后遷移到新系統(tǒng)的數(shù)據(jù)庫中;第一部分?jǐn)?shù)據(jù)遷移完成后,新舊系統(tǒng)肯定存在并行的階段,要制訂出舊系統(tǒng)運(yùn)行的最終結(jié)束日期;舊系統(tǒng)到結(jié)束日期后,把系統(tǒng)并行運(yùn)行這段時間新產(chǎn)生的數(shù)據(jù),按原來的規(guī)則進(jìn)行遷移。
截止到2017年7月,共有1400余萬條檔案機(jī)讀目錄數(shù)據(jù)和7000余萬個檔案數(shù)字化副本數(shù)據(jù)遷移至北京數(shù)字檔案館(電子文件中心)數(shù)字資源庫。
七、結(jié)語
隨著檔案數(shù)字化工作的推進(jìn)、電子文件的大量增長,以及用戶信息利用需求的日趨多樣化,如何科學(xué)有效地進(jìn)行數(shù)字檔案資源建設(shè)已成為檔案事業(yè)發(fā)展的重點(diǎn)問題。建設(shè)數(shù)字檔案館需要合理規(guī)劃國家檔案資源的流向,加強(qiáng)數(shù)據(jù)資源整合,實(shí)現(xiàn)數(shù)據(jù)資源共享。在系統(tǒng)建設(shè)過程中針對數(shù)據(jù)管理合理設(shè)計(jì),兼顧歷史數(shù)據(jù)需求;在數(shù)據(jù)資源整理和遷移過程中應(yīng)重點(diǎn)保證數(shù)據(jù)資源的真實(shí)性、完整性、可用性和安全性。數(shù)字檔案資源建設(shè)除了對檔案數(shù)字資源本身的重視外,強(qiáng)化數(shù)字檔案館應(yīng)用系統(tǒng)建設(shè),構(gòu)建良好的檔案信息平臺,提供便捷準(zhǔn)確的利用是其最終目的。endprint