韓峰/黑龍江省檔案館
隨著“大數(shù)據(jù)”時(shí)代的到來(lái),檔案館的職能開(kāi)始向著兩個(gè)不同的方向演化,即檔案存儲(chǔ)職能和社會(huì)服務(wù)職能,“零庫(kù)存”檔案館的概念因此被提出[1],并將二者落實(shí)所需的物理空間用“檔案存儲(chǔ)中心”和“檔案館”分別加以定義。檔案館行使檔案的查詢(xún)接待、展覽參觀及休閑服務(wù)職能;檔案存儲(chǔ)中心負(fù)責(zé)檔案的存儲(chǔ)和管理,是檔案保存的場(chǎng)所。隨著近年來(lái)檔案數(shù)字化建設(shè)及檔案館智能化管理的不斷發(fā)展,數(shù)字檔案的管理與紙質(zhì)檔案的保存出現(xiàn)了任務(wù)分離。數(shù)字檔案管理技術(shù)在與大數(shù)據(jù)的發(fā)展與融合中增添了許多新的內(nèi)容和標(biāo)準(zhǔn),而紙質(zhì)檔案的存儲(chǔ)則著力于對(duì)歷史檔案的保護(hù)、修復(fù)及庫(kù)房智能化管理等內(nèi)容,二者需要承擔(dān)的責(zé)任有著天壤之別。筆者試圖將二者分開(kāi),著眼于建立檔案數(shù)字信息中心。
在“零庫(kù)存”檔案館的概念下,檔案數(shù)字信息中心指數(shù)字檔案存儲(chǔ)與管理的物理場(chǎng)所,負(fù)責(zé)檔案數(shù)字信息的收集、生成、管理、維護(hù)和分享利用。檔案數(shù)字信息的來(lái)源途徑廣泛,包括紙質(zhì)檔案數(shù)字化后生成的圖像文件、著錄文件及相應(yīng)的數(shù)據(jù)庫(kù);電子文件檔案及其數(shù)據(jù)化操作后生成的數(shù)據(jù)庫(kù);從大數(shù)據(jù)中采集的檔案數(shù)字信息;直接以數(shù)據(jù)流方式接收的數(shù)字檔案等。這些信息資源通過(guò)數(shù)據(jù)化、編碼操作等手段形成具有一定結(jié)構(gòu)的數(shù)字信息,作為館藏檔案數(shù)字信息的基礎(chǔ)。
檔案數(shù)字信息中心的建立,首次將檔案數(shù)字信息的管理工作放在核心位置,使檔案數(shù)字信息的存儲(chǔ)和管理脫離了既往檔案館原有的工作模式,推動(dòng)檔案工作與大數(shù)據(jù)的有機(jī)融合。
檔案數(shù)字信息中心建立以后,其直接任務(wù)即是對(duì)大量數(shù)字信息進(jìn)行管理,并提供查詢(xún)利用。
2.1.1 紙質(zhì)檔案圖像文件的數(shù)據(jù)化處理。檔案數(shù)字信息中心建立之初,檔案信息資源絕大多數(shù)來(lái)自館藏紙質(zhì)檔案的掃描圖像文件,這些以圖片形式保存的文件需要編碼操作之后設(shè)置相應(yīng)的結(jié)構(gòu),以加入數(shù)據(jù)庫(kù)中來(lái)。為便于后期數(shù)據(jù)庫(kù)的查詢(xún)利用等操作,應(yīng)先將圖片檔案進(jìn)行著錄,再將著錄文檔與圖像相鏈接,生成打包文件并進(jìn)行編碼操作,形成數(shù)據(jù)信息,并與其它數(shù)據(jù)信息進(jìn)行關(guān)聯(lián),進(jìn)而提供利用。
2.1.2 檔案數(shù)字信息的存儲(chǔ)。隨著檔案中電子數(shù)據(jù)比例的提升,以及電子文件單套制歸檔政策的實(shí)施,檔案數(shù)字信息的存儲(chǔ)地位被提升,并提出了新的要求。首先,檔案數(shù)字信息的存儲(chǔ)需要安全性保障。涉密數(shù)字信息被盜用以及存儲(chǔ)系統(tǒng)被攻擊等情況的發(fā)生具有較大可能,需要專(zhuān)業(yè)人員隨時(shí)對(duì)存儲(chǔ)系統(tǒng)進(jìn)行監(jiān)管、維護(hù)和升級(jí)。其次,檔案數(shù)字信息的存儲(chǔ)需要較強(qiáng)的穩(wěn)定性。檔案數(shù)字信息系統(tǒng)發(fā)生故障或被人為侵入后很容易造成數(shù)字信息的不穩(wěn)定,導(dǎo)致部分信息不能提取或信息內(nèi)容被篡改等問(wèn)題,這就需要設(shè)計(jì)師在系統(tǒng)設(shè)計(jì)時(shí)注意加載自查程序和報(bào)警設(shè)置。再次,檔案數(shù)字信息的存儲(chǔ)具有可用性。檔案數(shù)字信息被存儲(chǔ)起來(lái)的目的是提供查詢(xún)利用,這就需要經(jīng)常性地進(jìn)行系統(tǒng)自查和利用服務(wù)回訪,不時(shí)檢驗(yàn)檔案數(shù)字信息存儲(chǔ)系統(tǒng)的可用性,并不斷進(jìn)行更新和升級(jí)。
2.1.3 共享式接收與生成檔案數(shù)字信息。融入大數(shù)據(jù)技術(shù)以后,檔案資源建設(shè)進(jìn)一步向智能化方向邁進(jìn),檔案數(shù)字信息的增加應(yīng)更多地依賴(lài)共享式接收與生成,這就要求檔案智能化接收系統(tǒng)的更新迭代。這一系統(tǒng)的建立可以讓檔案執(zhí)法部門(mén)從源頭上對(duì)立檔與接收工作進(jìn)行有效監(jiān)督,并進(jìn)一步減少人為控制因素,避免徇私舞弊,以保障此項(xiàng)工作按照有關(guān)標(biāo)準(zhǔn)與規(guī)范有序進(jìn)行。與此同時(shí),這一系統(tǒng)投入應(yīng)用以后,也使得檔案部門(mén)能夠參加檔案的生成過(guò)程,理解某份檔案形成的初衷,提高利用價(jià)值。
2.1.4 從定點(diǎn)服務(wù)到共享利用。首先,檔案數(shù)字信息中心的另一重要職責(zé)是為檔案館建立數(shù)據(jù)的查詢(xún)利用端口,讓利用者通過(guò)檔案館的查詢(xún)端口進(jìn)入檔案數(shù)字信息數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),筆者稱(chēng)之為“定點(diǎn)服務(wù)”。其次,檔案數(shù)字信息中心的建立就是要整合不同層級(jí)、不同區(qū)域的數(shù)字信息,實(shí)現(xiàn)資源的融合與共享。在筆者的架設(shè)中,檔案數(shù)字信息中心應(yīng)以省份為單位,組建唯一的數(shù)字信息中心,避免疊床架屋浪費(fèi)資源,也避免層級(jí)劃分給查詢(xún)利用造成阻礙。再次,與大數(shù)據(jù)技術(shù)的融合使得檔案數(shù)字信息擁有大數(shù)據(jù)的部分特性,檔案價(jià)值的體現(xiàn)不再以稀缺性、獨(dú)有性為依據(jù),而是要通過(guò)共享來(lái)挖掘檔案資源更多的潛在價(jià)值[2],讓檔案價(jià)值在流動(dòng)中得以實(shí)現(xiàn),筆者稱(chēng)之為“共享利用”。這就需要查詢(xún)系統(tǒng)在設(shè)置的過(guò)程中充分考慮為檔案館提供服務(wù)的現(xiàn)實(shí)需求,也要考慮社會(huì)大眾在其他端口進(jìn)行查詢(xún)時(shí)的需求滿(mǎn)足和安全設(shè)置之間的協(xié)調(diào),更要考慮涉密檔案及控制檔案面對(duì)有特殊需求的組織及個(gè)人時(shí),需以何種方式進(jìn)行網(wǎng)上簽證和監(jiān)管。
檔案數(shù)據(jù)是指“數(shù)據(jù)化的檔案信息及具備檔案性質(zhì)的數(shù)據(jù)記錄”[3],其中包括承載檔案信息的數(shù)據(jù),也包括在檔案業(yè)務(wù)工作中產(chǎn)生的累積性數(shù)據(jù)[4]。對(duì)這些數(shù)據(jù)的整理、編碼和日常維護(hù)是檔案數(shù)字信息中心的重要任務(wù)。
2.2.1 提高數(shù)據(jù)的價(jià)值密度。通過(guò)各種渠道形成的數(shù)據(jù)被存儲(chǔ)于檔案數(shù)字信息數(shù)據(jù)庫(kù)中,這些數(shù)據(jù)具有多重關(guān)聯(lián),計(jì)算機(jī)將這些關(guān)聯(lián)內(nèi)容進(jìn)行存儲(chǔ),以保證數(shù)據(jù)信息的完整性,有些信息價(jià)值密度低[5],白白占有存儲(chǔ)資源。從這個(gè)角度講,檔案數(shù)字信息中心并不等同于大數(shù)據(jù)中心,不應(yīng)原封不動(dòng)地保存所有數(shù)據(jù),而應(yīng)隨時(shí)隨地對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行篩查、鑒定、刪減,以提高存儲(chǔ)數(shù)據(jù)的價(jià)值密度。
2.2.2 對(duì)數(shù)據(jù)進(jìn)行多維整合。除了由紙質(zhì)檔案轉(zhuǎn)化而來(lái)的數(shù)字信息,以及按立檔要求收集來(lái)的電子文件信息以外,數(shù)字信息庫(kù)中存儲(chǔ)的大部分?jǐn)?shù)據(jù)具有多維化特征。單從信息的內(nèi)容來(lái)看,即是五花八門(mén),魚(yú)龍混雜,各種內(nèi)容的信息共存于同一數(shù)據(jù)庫(kù)之中,需要通過(guò)整合與分類(lèi)加入不同的目錄樹(shù)中,以便于查詢(xún)利用。從數(shù)據(jù)類(lèi)型來(lái)看,這些信息更是種類(lèi)繁多,不僅有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),且后者占據(jù)著更大的存儲(chǔ)空間。這種多維結(jié)構(gòu)的數(shù)字信息需要進(jìn)行后期編碼整合,通過(guò)統(tǒng)一的結(jié)構(gòu)化操作納入到數(shù)據(jù)庫(kù)中來(lái)。
2.2.3 實(shí)現(xiàn)“讓數(shù)據(jù)說(shuō)話(huà)”的數(shù)據(jù)治理模式?!皵?shù)據(jù)不僅僅是檔案內(nèi)容的一種呈現(xiàn)方式,更是對(duì)其本身進(jìn)行合理管制的一種手段,即通過(guò)數(shù)據(jù)的自動(dòng)運(yùn)行設(shè)置內(nèi)隱處理模式”[6],讓數(shù)據(jù)說(shuō)話(huà)。這種數(shù)據(jù)治理模式也是檔案數(shù)據(jù)管理的智能化手段,包括檔案數(shù)字信息的智能分類(lèi)、智能鑒定、智能組卷、智能編目及智能簽證等智能化功能[7]。利用文本分類(lèi)和深度學(xué)習(xí)技術(shù)可以對(duì)檔案數(shù)字信息進(jìn)行智能化分類(lèi)與歸檔,通過(guò)模塊操作,讓數(shù)據(jù)在運(yùn)行中自動(dòng)匹配分類(lèi)號(hào);利用信息抽取和智能匹配技術(shù)實(shí)現(xiàn)對(duì)大量檔案的智能化批量處理和精確鑒定[8];通過(guò)深度學(xué)習(xí),命名實(shí)體識(shí)別等技術(shù),讓數(shù)據(jù)在運(yùn)行中自動(dòng)編寫(xiě)頁(yè)碼、生成檔號(hào);通過(guò)將智能簽證功能嵌入檔案流轉(zhuǎn)過(guò)程中,運(yùn)用模式識(shí)別、信息抽取和特征匹配等技術(shù)進(jìn)行簽字提取、圖樣比對(duì)等操作[9]。
檔案數(shù)字信息中心以數(shù)據(jù)處理、信息的管理與維護(hù),以及網(wǎng)絡(luò)運(yùn)行服務(wù)等為工作內(nèi)容,將互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)融合到檔案數(shù)字信息的管理中來(lái),其機(jī)構(gòu)設(shè)置應(yīng)與之相匹配。
檔案數(shù)字信息來(lái)源途徑廣泛,用“采集”加以概括更能體現(xiàn)此項(xiàng)工作特征。此外,隨著無(wú)紙化辦公和電子文件單套制改革的實(shí)現(xiàn),檔案部門(mén)對(duì)檔案的接收征集工作將發(fā)生很大變化。成立專(zhuān)門(mén)的檔案數(shù)字信息采集部,內(nèi)部根據(jù)信息的類(lèi)型和途徑設(shè)置相應(yīng)的科室,如紙質(zhì)檔案圖像接收科、大數(shù)據(jù)信息監(jiān)察采集科、部門(mén)檔案接收科等,有利于優(yōu)化管理機(jī)制,以適應(yīng)新的工作內(nèi)容。
從大數(shù)據(jù)信息中采集到的檔案數(shù)字信息,事先沒(méi)有立檔單位進(jìn)行分類(lèi)歸檔,需要在加入數(shù)據(jù)庫(kù)前進(jìn)行專(zhuān)門(mén)的分類(lèi)歸檔處理,以適應(yīng)管理及提供利用的需要。成立專(zhuān)門(mén)的檔案信息分類(lèi)歸檔部,在數(shù)字信息采集完成后迅速對(duì)其進(jìn)行整理和歸類(lèi),并利用數(shù)據(jù)智能化處理手段,自動(dòng)形成目錄,以保障檔案數(shù)字信息的可用性。
檔案數(shù)字信息在初步整理與歸類(lèi)后,還需要專(zhuān)業(yè)人員深入信息內(nèi)部,對(duì)其進(jìn)行解讀,添加注釋和備注文件,并將這些信息編碼到相應(yīng)的數(shù)據(jù)庫(kù)文件中,以實(shí)現(xiàn)數(shù)字?jǐn)⑹履J絒10],在利用者查詢(xún)利用時(shí)自動(dòng)呈現(xiàn)。這一工作需要受過(guò)專(zhuān)業(yè)訓(xùn)練的工作人員來(lái)完成,對(duì)于歷史檔案尤其如此。因此,成立檔案數(shù)字信息編碼解析部有利于保證工作質(zhì)量。
通常情況下,檔案數(shù)字信息的鑒定需要專(zhuān)門(mén)的檔案業(yè)務(wù)專(zhuān)家來(lái)完成。但當(dāng)面對(duì)大量需要處理的鑒定內(nèi)容時(shí),檔案業(yè)務(wù)專(zhuān)家能夠即時(shí)處理的工作量極為有限,開(kāi)發(fā)數(shù)據(jù)智能處理手段尤為重要,讓業(yè)務(wù)專(zhuān)家的工作與數(shù)據(jù)智能處理系統(tǒng)有機(jī)結(jié)合,確保數(shù)據(jù)智能系統(tǒng)能夠處理常規(guī)情境下的鑒定任務(wù),并自動(dòng)簽證,與此同時(shí),通過(guò)即時(shí)的“困難情境”提醒,讓時(shí)間和精力有限的業(yè)務(wù)專(zhuān)家來(lái)處理系統(tǒng)難以駕馭的鑒定內(nèi)容,以節(jié)省人力和操作成本。這就需要成立專(zhuān)門(mén)的檔案數(shù)字信息鑒定與簽證部,集中精力研究與處理檔案鑒定過(guò)程中出現(xiàn)的各種難題。
直接以檔案數(shù)字信息形式接收的內(nèi)容中包含有一定數(shù)量的外文及少數(shù)民族文字?jǐn)?shù)字信息,隨著中外交流的增加及中心業(yè)務(wù)的不斷展開(kāi),這部分信息還會(huì)大量增加,設(shè)立專(zhuān)門(mén)的外文及少數(shù)民族文字檔案數(shù)字信息研發(fā)部有利于此項(xiàng)工作的順利進(jìn)行。此外,在將非漢語(yǔ)紙質(zhì)檔案的掃描及著錄信息與數(shù)據(jù)庫(kù)進(jìn)行掛接時(shí),也需要專(zhuān)業(yè)人員進(jìn)行相關(guān)操作。
檔案數(shù)字信息的存儲(chǔ)一直以來(lái)面對(duì)著各種技術(shù)難題。首先,對(duì)歷史遺留下來(lái)的各種存儲(chǔ)設(shè)備中保留下來(lái)的此類(lèi)信息的讀取和復(fù)制,以及如何解決這部分信息與數(shù)據(jù)庫(kù)的相容性等問(wèn)題是最核心的問(wèn)題。其次,檔案數(shù)字信息普遍存在著保存質(zhì)量的問(wèn)題,對(duì)信息讀取的失真,以及對(duì)這些信息的復(fù)原和改良成為難題。再次,對(duì)于從大數(shù)據(jù)中采集來(lái)的檔案數(shù)字信息的存儲(chǔ)和維護(hù)目前還處于嘗試階段,各種問(wèn)題接踵而至,需要對(duì)其進(jìn)行專(zhuān)門(mén)研究。成立檔案數(shù)字信息存儲(chǔ)技術(shù)部,作為這一任務(wù)的專(zhuān)職承擔(dān)部門(mén),將發(fā)揮重要作用。
檔案數(shù)字信息中心的建立,將打破傳統(tǒng)檔案館各自為政、囤貨居奇的現(xiàn)狀,分享與共贏將成為未來(lái)檔案部門(mén)生存和發(fā)展的重要使命。此外,隨著社會(huì)生活的不斷變化,人們大部分需求將逐步在網(wǎng)上實(shí)現(xiàn)選擇與調(diào)配,查檔利用也不例外。如何讓用戶(hù)足不出戶(hù)即可進(jìn)行查檔利用,并逐漸打破區(qū)域壁壘,使利用者獲得更多調(diào)用權(quán)限,成為檔案數(shù)字信息中心需要面對(duì)的重要課題,為此,需要在保障信息安全的前提下,開(kāi)拓更為廣闊的信息利用渠道,讓更多的組織和個(gè)人受益,讓檔案工作真正為民眾服務(wù)。這就需要成立檔案數(shù)字信息網(wǎng)絡(luò)運(yùn)營(yíng)部,集中處理數(shù)字信息在網(wǎng)絡(luò)運(yùn)營(yíng)過(guò)程中產(chǎn)生的信息安全問(wèn)題、信息利用監(jiān)管問(wèn)題、路徑選擇問(wèn)題、區(qū)域共享問(wèn)題、客戶(hù)端認(rèn)證問(wèn)題等。
檔案數(shù)字信息中心根據(jù)其任務(wù)的獨(dú)特性,對(duì)信息內(nèi)容的各項(xiàng)管理與操作大部分需要工作人員具有較高的專(zhuān)業(yè)水平。
招錄大批具有計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)相關(guān)專(zhuān)業(yè)背景的人才是檔案數(shù)字信息中心的基礎(chǔ)。改變以往的招錄方向,為新興科技人才的錄用敞開(kāi)大門(mén),以推動(dòng)檔案數(shù)字信息工作的良性發(fā)展。此外,計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)更新迭代頻繁,需要對(duì)這些招聘上崗的人員及時(shí)進(jìn)行知識(shí)技術(shù)的更新,適時(shí)培訓(xùn)和充電是保持專(zhuān)業(yè)能力的不二法門(mén),這就需要檔案數(shù)字信息中心能夠與相關(guān)科研院所建立長(zhǎng)期合作關(guān)系,為計(jì)算機(jī)專(zhuān)業(yè)人才的定期培訓(xùn)提供支撐。
檔案數(shù)字信息中心的工作內(nèi)容包含著大量面向史料整理開(kāi)發(fā)方面的業(yè)務(wù)工作,延攬歷史學(xué)專(zhuān)業(yè)人才將有利于相關(guān)工作的順利推進(jìn)。隨著業(yè)務(wù)的不斷深入,這一領(lǐng)域更加需要擁有研究視野的人才,提高學(xué)歷要求,選錄歷史專(zhuān)業(yè)具有研究生以上學(xué)歷的考生將成為更佳選擇。與此同時(shí),加強(qiáng)與其他專(zhuān)業(yè)部門(mén)的交流與合作,提高科研實(shí)力,尋求機(jī)構(gòu)與人才的雙贏。
選聘外文及少數(shù)民族語(yǔ)言文字類(lèi)專(zhuān)業(yè)考生應(yīng)擴(kuò)大專(zhuān)業(yè)選聘范圍,增設(shè)更多小語(yǔ)種外文專(zhuān)業(yè)及國(guó)內(nèi)少數(shù)民族語(yǔ)言文字類(lèi)研發(fā)崗位,引進(jìn)古文字、死文字等研究領(lǐng)域的研究人才,加大有關(guān)人才的延攬力度。人才上崗后,增加在崗在職培訓(xùn)機(jī)會(huì),并為這些人才提供更多出國(guó)深造及語(yǔ)言文字研究實(shí)踐的機(jī)會(huì)。
首先,為增強(qiáng)工作人員的業(yè)務(wù)能力,需要在一定時(shí)段內(nèi)對(duì)人員定期進(jìn)行業(yè)務(wù)考評(píng),根據(jù)考評(píng)結(jié)果評(píng)定級(jí)別,確定績(jī)效獎(jiǎng)勵(lì)方式。其次,建立健全人才流動(dòng)機(jī)制??稍谛袠I(yè)機(jī)構(gòu)內(nèi)部率先實(shí)行,不同省域的檔案數(shù)字信息中心可以建立聯(lián)動(dòng)機(jī)制,讓人員的內(nèi)部調(diào)動(dòng)成為可能。與此同時(shí),也要建立機(jī)構(gòu)外部的流動(dòng)機(jī)制,允許相關(guān)人才到高校、研究院所及相關(guān)企業(yè)進(jìn)行就職。