楊艷麗
一個時期以來,館藏紙質(zhì)檔案數(shù)字化成了各級檔案館信息化的中心工作。但也有同志樂觀地將檔案數(shù)字化與“大數(shù)據(jù)”等同起來,似乎只要實現(xiàn)了館藏檔案數(shù)字化,檔案工作就進(jìn)入了“大數(shù)據(jù)”時代。這是一個誤區(qū),需要澄清。館藏檔案數(shù)字化后的館藏電子檔案也是“大數(shù)據(jù)”中的重要組成部分。但紙質(zhì)檔案數(shù)字化遠(yuǎn)不等于“大數(shù)據(jù)”。理由有三:
第一,從大數(shù)據(jù)的類型來看。數(shù)據(jù)類型繁多是大數(shù)據(jù)的基本特征之一。它“包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等”,“有圖像、聲音、視頻、社交網(wǎng)絡(luò)、博客甚至應(yīng)用的使用習(xí)慣等”;紙質(zhì)檔案數(shù)字化后的圖像型電子檔案只是大數(shù)據(jù)中多種數(shù)據(jù)類型中的一種類型。而且是相對容易控制的那一部分。真正大量的、復(fù)雜的、不易控制的是新增檔案的電子件。以政府財政系統(tǒng)為例,一個市級財政管理部門使用的系統(tǒng)就達(dá)20多個,這些系統(tǒng)有的是國家財政管理部門統(tǒng)一配發(fā)使用的,有的是省級財政管理部門統(tǒng)一配發(fā)使用的,有些是單位自行開發(fā)的,還有的是從市場上購買的商品化軟件。這些系統(tǒng)出自不同的開發(fā)單位,使用不同的開發(fā)和運行平臺,后臺數(shù)據(jù)庫及數(shù)據(jù)結(jié)構(gòu)也不相同,產(chǎn)生的電子文件格式各種各樣,這使得歸檔后的電子檔案格式也各式各樣。加上各種數(shù)據(jù)庫中產(chǎn)生的動態(tài)數(shù)據(jù),僅數(shù)據(jù)類型就是十分繁雜的。一個單位尚且如此,一個行政區(qū)域內(nèi)眾多單位所產(chǎn)生的電子檔案數(shù)據(jù)格式就更加繁雜。這樣多的檔案數(shù)據(jù)格式,與全部系統(tǒng)中的數(shù)據(jù)格式來比,還算是簡單的。紙質(zhì)檔案數(shù)字化后的圖像型電子檔案只是電子檔案一種類型,只算是“大數(shù)據(jù)”的九牛一毛。
第二,從大數(shù)據(jù)的數(shù)量上看?!褒嫶蟮臄?shù)據(jù)量,能達(dá)到PB甚至EB級別”是大數(shù)據(jù)的另一基本特征。依全部檔案的類型劃分,我們現(xiàn)在處理的紙質(zhì)檔案多數(shù)是所謂的文書檔案,而更多的含有表格、圖紙、賬冊、錄音、錄像、影像的科技檔案、財會檔案、人事檔案、基建檔案、錄音檔案、錄像檔案、影像檔案等各種類型的專業(yè)檔案還沒有進(jìn)入我們數(shù)字化的視線。這種相對狹隘檔案觀,僅僅從數(shù)量上看,不僅算不上“大數(shù)據(jù)”,就連“大檔案”都算不上。要實現(xiàn)融入“大數(shù)據(jù)”的環(huán)境,首先要取消文書檔案的稱謂,從“大檔案”的角度來看待、對待檔案數(shù)字化。就目前情況看,一個使用多個業(yè)務(wù)系統(tǒng)的單位,一年產(chǎn)生的數(shù)據(jù)量少則幾個G,多則幾十G上百G,甚至幾個T。如果將這些數(shù)據(jù)全部作為檔案歸檔管理,將是一個非常龐大的數(shù)量。依此類推,一個單位尚且如此,一個行政區(qū)域內(nèi)眾多單位所產(chǎn)生的電子檔案將是一個令我們檔案管理者從來沒有面對過的巨大數(shù)量級。如果不能有效地管控這一巨大數(shù)量級的電子檔案,那就不能算做是“大數(shù)據(jù)”??陀^地說,即便是實現(xiàn)了對這一巨大數(shù)量級的電子檔案的有效管控,也只是“大數(shù)據(jù)”中的滄海一粟。對這些原生電子文件信息,“要按照‘增量電子化的思路,積極進(jìn)行原生電子文件的歸檔接收工作?,F(xiàn)在,絕大多數(shù)新形成的文件都有電子版,及時把電子文件歸檔接收并納入檔案部門管理、納入檔案信息資源體系,不僅關(guān)系當(dāng)前,而且涉及長遠(yuǎn),必須高度重視,立即抓起,抓得越早越好”。
第三,從“大數(shù)據(jù)”的處理方式上來看,“大數(shù)據(jù)”的核心是對龐大數(shù)據(jù)進(jìn)行檢索與運算?!皺n案大數(shù)據(jù)”的關(guān)鍵信息需通過一定的技術(shù)方法進(jìn)行提取,并針對提取出的有效信息根據(jù)一定的規(guī)律進(jìn)行挖掘。要實現(xiàn)這一點,智能化的檢索分析軟件與經(jīng)過統(tǒng)一標(biāo)引的基礎(chǔ)數(shù)據(jù)至關(guān)重要。智能化的檢索分析軟件,我們可以通過購買解決(暫不考慮我們是否有能力選擇購買到性價比高的檢索分析軟件),而經(jīng)過統(tǒng)一標(biāo)引的基礎(chǔ)數(shù)據(jù)只能由檔案館工作人員自行完成。問題是許多基層檔案工作者包括領(lǐng)導(dǎo)者并不清楚這一點,以為只要將紙質(zhì)檔案一掃描,圖像文件就可通過計算機(jī)和網(wǎng)絡(luò)檢索到了;檔案中任何內(nèi)容都可隨意檢索和查找到。殊不知,如果沒有智能化的檢索分析軟件和對紙質(zhì)檔案掃描件的細(xì)致標(biāo)引或全文識別,所有通過掃描產(chǎn)生的電子檔案只是些沒有用處的電子圖像文件。問題是沒有多少基層檔案館知道并在下大氣力做紙質(zhì)檔案掃描后形成的電子檔案的標(biāo)引或全文識別工作。未經(jīng)處理的紙質(zhì)檔案掃描件,不僅不是“大數(shù)據(jù)”,甚至都算不上有用的數(shù)據(jù)。掃描得越多,浪費就越大。
綜上所述,紙質(zhì)檔案數(shù)字化是檔案數(shù)字化組成部分,但不是檔案數(shù)字化全部。紙質(zhì)檔案數(shù)字化與“大數(shù)據(jù)”密切相關(guān),但完全不能等同于“大數(shù)據(jù)”。在“大數(shù)據(jù)”環(huán)境下,我們不僅要做好紙質(zhì)檔案數(shù)字化——存量數(shù)字化,也要做好原生電子文件接收管理——增量電子化,還要將各業(yè)務(wù)部門通過業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)為檔案數(shù)據(jù),這樣才能在數(shù)量上向“大數(shù)據(jù)”靠攏。要適應(yīng)“大數(shù)據(jù)”環(huán)境的要求,并有所作為,我們還有許多的工作需要做,還有許多的東西需要學(xué)習(xí),千萬不可只滿足于館藏檔案的數(shù)字化。
(作者單位:開封市隴海醫(yī)院 來稿日期:2014-04-08)