戴秀文
(內(nèi)江師范學(xué)院 檔案館,四川 內(nèi)江 641100)
隨著檔案資源總量的增加,近年來,各個(gè)檔案館借助信息技術(shù)開展了一系列檔案信息化工作。其中,電子文件管理是檔案信息化進(jìn)程中的核心工作。目前,檔案信息化建設(shè)正逐漸由檔案數(shù)字化邁向檔案數(shù)據(jù)化。檔案數(shù)據(jù)化強(qiáng)調(diào)對檔案全文資源進(jìn)行存儲(chǔ)、管理、利用,與檔案數(shù)字化僅改變檔案存儲(chǔ)載體有著很大的不同。在這樣的背景下,如何建設(shè)電子文件管理體系是一個(gè)亟待探討的問題。
隨著檔案數(shù)字化建設(shè)的開展,電子文件應(yīng)運(yùn)而生:將傳統(tǒng)檔案文件錄入計(jì)算機(jī)儲(chǔ)存,即形成了電子文件。然而這樣的操作方式僅僅是將信息從傳統(tǒng)存儲(chǔ)載體轉(zhuǎn)移到了計(jì)算機(jī),雖然具有易于保管等優(yōu)點(diǎn),但并沒有改變文件管理方式,更不可能利用更先進(jìn)的信息技術(shù),例如數(shù)據(jù)挖掘技術(shù)等,對文件信息進(jìn)行深入的分析利用。近年來的檔案數(shù)字化建設(shè)的主要工作之一就是將傳統(tǒng)檔案錄入至計(jì)算機(jī)儲(chǔ)存,經(jīng)過多年建設(shè),目前已較為成熟。隨著大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)量的增大,以及對檔案服務(wù)利用需求的增加,各個(gè)檔案館開始向檔案數(shù)據(jù)化轉(zhuǎn)型。檔案數(shù)據(jù)化是將數(shù)字檔案資源轉(zhuǎn)換為可供分析和處理的檔案數(shù)據(jù)資源的過程。因此,為了適應(yīng)檔案數(shù)據(jù)化建設(shè),電子文件管理體系也應(yīng)當(dāng)與數(shù)據(jù)化工作對接。
檔案數(shù)字化工作一般同時(shí)歸檔紙質(zhì)和電子兩套檔案。隨著檔案數(shù)據(jù)化建設(shè)中對電子文件的深度開發(fā)利用,各檔案部門開始嘗試實(shí)施電子文件單軌制管理。單軌制管理方式僅以電子方式對文件進(jìn)行歸檔、管理與利用,電子文件與紙質(zhì)文件擁有同等的法律效力。目前,一些部門已經(jīng)實(shí)施了檔案單軌制管理機(jī)制,例如上海自貿(mào)區(qū)就推行了相關(guān)政策,國家自然科學(xué)基金委員會(huì)開展無紙化試點(diǎn),推進(jìn)核心業(yè)務(wù)單軌制。檔案單軌制管理機(jī)制對電子文件的管理、利用提出了更高的要求,僅僅采用數(shù)字化儲(chǔ)存的方式不足以支撐單軌制中對文件分析、利用的需求。
檔案數(shù)據(jù)化的重點(diǎn)之一是對檔案內(nèi)容資源的深度挖掘與利用,因此電子文件知識(shí)服務(wù)也是目前工作的重點(diǎn)之一。相比于傳統(tǒng)檔案的開發(fā)利用,電子文件知識(shí)服務(wù)的重點(diǎn)是除了要為用戶提供文件等一般特征信息之外,能夠使用戶直接檢索內(nèi)容,還要使用戶能夠從多維度了解案卷之間、全宗之間的關(guān)系。目前,電子文件的組織方式基本還處于數(shù)字化階段的實(shí)現(xiàn)方式:通過關(guān)鍵詞和目錄的索引對文件進(jìn)行檢索和匹配,查詢的結(jié)果是包含這些字段一整份電子文件,并不能深入到電子文件的全文內(nèi)容,更不能提供眾多電子文件之間的關(guān)系,尚需用戶自己去組織推理從而形成知識(shí)。
目前的電子文件管理工作主要存在兩點(diǎn)問題,一是管理效率需要提升,二是需要對文件內(nèi)容進(jìn)行深度開發(fā)以更好地為用戶提供服務(wù)。這兩點(diǎn)問題的解決依賴于電子文件數(shù)據(jù)化。本質(zhì)上這兩點(diǎn)問題是由電子文件數(shù)據(jù)化程度不足導(dǎo)致的。具體而言,現(xiàn)有的電子文件基本是基于檔案數(shù)字化構(gòu)建的,對各類文件的保管方式進(jìn)行了電子化處理,文件的載體就會(huì)發(fā)生改變。而數(shù)據(jù)化的電子文件是將數(shù)字化形態(tài)的文件進(jìn)一步轉(zhuǎn)換為可識(shí)別的文本與可分析的數(shù)據(jù),從而開展全文檢索、文本挖掘、數(shù)據(jù)分析等工作。對全文的檢索相比關(guān)鍵詞檢索從根本上提高了檢索速度,從而提高管理效率。而文本挖掘、數(shù)據(jù)分析等工作使文件可以轉(zhuǎn)化為知識(shí),從而為用戶提供更好的服務(wù)。數(shù)字化的文件是數(shù)據(jù)化的基礎(chǔ),但是數(shù)據(jù)化在對文件全文信息的識(shí)別和處理上的能力是數(shù)字化不能勝任的。綜上所述,雖然現(xiàn)有電子文件為開展后續(xù)工作,諸如知識(shí)服務(wù)等奠定了基礎(chǔ),但其數(shù)據(jù)化程度不足,故亟待加強(qiáng)數(shù)據(jù)化建設(shè)以實(shí)現(xiàn)更高效的管理和更好的服務(wù)。
保證文件的安全,文件的準(zhǔn)確性、完整性是開展一切工作的前提。電子文件將文件從物理空間的模擬態(tài)轉(zhuǎn)變?yōu)橛?、1 表示的數(shù)字格式,因此電子文件的安全問題從物理空間內(nèi)的實(shí)體安全擴(kuò)展到了網(wǎng)絡(luò)空間的信息安全。長期以來,各檔案部門制定了一系列嚴(yán)格的規(guī)章制度以保證實(shí)體文件的安全性。在檔案數(shù)字化建設(shè)過程中,各檔案部門一般都建立了基本的信息安全防護(hù)體系,例如加密、部署防火墻等。然而,對于數(shù)據(jù)化背景下的電子文件信息安全防護(hù)體系而言,還需要根據(jù)數(shù)據(jù)化的特點(diǎn)加強(qiáng)信息安全措施,例如數(shù)據(jù)安全、云安全、遠(yuǎn)程訪問控制等,這部分安全措施的建設(shè)目前還比較薄弱。由于目前各檔案部門仍在探索和建設(shè)檔案數(shù)據(jù)化、電子文件等信息化管理體系,因此各部門的重點(diǎn)基本上放在檔案數(shù)據(jù)化和電子文件本身的建設(shè)上是無可厚非的。但在建設(shè)檔案數(shù)據(jù)化過程中,應(yīng)當(dāng)同時(shí)建設(shè)信息安全防護(hù)體系。事實(shí)上,信息安全防護(hù)建設(shè)是基礎(chǔ)性的長期工作,通過構(gòu)建不斷更新的、全面的安全防護(hù)體系,才能保證檔案信息系統(tǒng)的安全穩(wěn)定運(yùn)行。
建設(shè)檔案數(shù)據(jù)化背景下的電子文件管理體系采用了很多新的信息技術(shù),因此需要制定相關(guān)制度和規(guī)范。具體而言,應(yīng)根據(jù)數(shù)據(jù)化建設(shè)的工作流程逐一分析并制定相應(yīng)制度,例如,制定紙質(zhì)檔案文件錄入計(jì)算機(jī)的規(guī)范;制定文件全文數(shù)據(jù)庫建設(shè)規(guī)范等。目前,這些相關(guān)制度建設(shè)還很不完善,例如,現(xiàn)行關(guān)于數(shù)據(jù)轉(zhuǎn)換的標(biāo)準(zhǔn)中,僅有國家檔案局頒布的《檔案關(guān)系型數(shù)據(jù)庫轉(zhuǎn)換為XML 文件的技術(shù)規(guī)范》。
建設(shè)電子文件管理體系是一項(xiàng)系統(tǒng)的、規(guī)模較大的工作。在檔案數(shù)據(jù)化的背景下,主要側(cè)重于數(shù)據(jù)化,具體的電子文件管理體系建設(shè)措施如下。
元數(shù)據(jù)是指從信息中提取的用于說明其特征、內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)。例如,對于一篇論文,“題目”是其元數(shù)據(jù)項(xiàng)目,“檔案數(shù)據(jù)化背景下的電子文件管理體系探討”是其對應(yīng)的元數(shù)據(jù)內(nèi)容。元數(shù)據(jù)為文件資源提供了檢索點(diǎn),標(biāo)準(zhǔn)化的元數(shù)據(jù)對數(shù)據(jù)之間的關(guān)系進(jìn)行了結(jié)構(gòu)化的詳盡描述,可用于數(shù)據(jù)傳輸、分析。因此,元數(shù)據(jù)對于檔案數(shù)據(jù)化背景下的電子文件相當(dāng)重要,加強(qiáng)元數(shù)據(jù)的管理是建設(shè)檔案數(shù)據(jù)化的一種方式。對于元數(shù)據(jù)項(xiàng)目,需要根據(jù)需求提前進(jìn)行設(shè)計(jì),在設(shè)計(jì)時(shí)要盡可能全面地包含電子文件整個(gè)管理過程中的各類信息,并體現(xiàn)各個(gè)項(xiàng)目之間的關(guān)聯(lián)性。文件錄入后,這些元數(shù)據(jù)項(xiàng)目不可更改,以保證電子文件的真實(shí)性。對于元數(shù)據(jù)內(nèi)容,保留一定的開放性。例如,將元數(shù)據(jù)內(nèi)容與數(shù)據(jù)分析系統(tǒng)對接,并設(shè)置為只讀,從而在保證數(shù)據(jù)完整性的情況下,為文件深度分析利用提供基礎(chǔ)數(shù)據(jù)。
常規(guī)的信息安全措施,例如防火墻、入侵檢測系統(tǒng)等能夠一定程度上保證內(nèi)網(wǎng)的安全性。但在大數(shù)據(jù)背景下,隨著數(shù)據(jù)化工作的開展,各檔案館數(shù)據(jù)量的增大,電子文件往往不再只保存于檔案館內(nèi)部,而是在多部門之間傳輸、共享,甚至存儲(chǔ)于云端。數(shù)據(jù)在檔案館內(nèi)網(wǎng)和外網(wǎng)之間反復(fù)流通,存在信息安全隱患,而常規(guī)的信息安全措施對此防護(hù)效果不好。因此,電子文件的信息安全重點(diǎn)主要是數(shù)據(jù)安全,以及云安全和遠(yuǎn)程訪問控制。數(shù)據(jù)安全主要針對儲(chǔ)存電子文件的數(shù)據(jù)庫,需及時(shí)掃描發(fā)現(xiàn)數(shù)據(jù)庫中存在的漏洞,記錄數(shù)據(jù)庫的各項(xiàng)操作日志以及對部分?jǐn)?shù)據(jù)進(jìn)行加密等。對于云安全,重點(diǎn)是選取具有良好資質(zhì)的云服務(wù)商,并在云中配置相應(yīng)的安全防護(hù)措施。對于遠(yuǎn)程訪問控制,重點(diǎn)是管理檔案館以外的部門或用戶的訪問權(quán)限,要求每個(gè)用戶配置強(qiáng)度較高的密碼,記錄每個(gè)用戶的操作日志并及時(shí)審核。
分類是文件管理過程中最重要的環(huán)節(jié)之一,是庫房管理、檢索利用等工作開展的前提。在數(shù)據(jù)化背景下,電子文件的數(shù)量和類型都越來越多,如何安全有序管理成為分類面臨的一大挑戰(zhàn)。目前的分類制度是人為主觀設(shè)置主題,容易出現(xiàn)同一部門在不同領(lǐng)域中形成的檔案被割裂在不同門類。此外,從整個(gè)部門層面看,缺少對文件資源管理的整體視角,包括文件數(shù)量、內(nèi)容、關(guān)聯(lián)關(guān)系等,文件分散在各種互有壁壘無法共享的系統(tǒng)之中。一種改進(jìn)思路是采取智能的文件分類方式,即關(guān)注“文件為何記錄、怎樣記錄”,而不是按照部門職能對文件進(jìn)行分類,從而打破壁壘達(dá)到共享目的。具體而言,在整體層面梳理各部門職能,以職能劃分形成文件分類的大類條目。之后再自上而下進(jìn)行梳理,進(jìn)而形成分級(jí)樹狀分類規(guī)范。在改進(jìn)文件分類方式過程中,首先設(shè)計(jì)一套頂層的文件分類屬性,以3.1 節(jié)中闡述的元數(shù)據(jù)方式對這些屬性進(jìn)行結(jié)構(gòu)化管理。這些屬性應(yīng)當(dāng)覆蓋文件管理的全流程。例如,保管期限、利用范圍等都是常見的屬性。此外,要將各環(huán)節(jié)細(xì)化為單個(gè)基本管理單元,對每個(gè)管理單元制定相關(guān)的管理制度,從而做到精細(xì)化管理。