国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺議紙質(zhì)檔案數(shù)字化與“大數(shù)據(jù)”

2014-07-08 05:03:56楊艷麗
檔案管理 2014年4期
關(guān)鍵詞:標(biāo)引館藏紙質(zhì)

楊艷麗

一個時期以來,館藏紙質(zhì)檔案數(shù)字化成了各級檔案館信息化的中心工作。但也有同志樂觀地將檔案數(shù)字化與“大數(shù)據(jù)”等同起來,似乎只要實現(xiàn)了館藏檔案數(shù)字化,檔案工作就進(jìn)入了“大數(shù)據(jù)”時代。這是一個誤區(qū),需要澄清。館藏檔案數(shù)字化后的館藏電子檔案也是“大數(shù)據(jù)”中的重要組成部分。但紙質(zhì)檔案數(shù)字化遠(yuǎn)不等于“大數(shù)據(jù)”。理由有三:

第一,從大數(shù)據(jù)的類型來看。數(shù)據(jù)類型繁多是大數(shù)據(jù)的基本特征之一。它“包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等”,“有圖像、聲音、視頻、社交網(wǎng)絡(luò)、博客甚至應(yīng)用的使用習(xí)慣等”;紙質(zhì)檔案數(shù)字化后的圖像型電子檔案只是大數(shù)據(jù)中多種數(shù)據(jù)類型中的一種類型。而且是相對容易控制的那一部分。真正大量的、復(fù)雜的、不易控制的是新增檔案的電子件。以政府財政系統(tǒng)為例,一個市級財政管理部門使用的系統(tǒng)就達(dá)20多個,這些系統(tǒng)有的是國家財政管理部門統(tǒng)一配發(fā)使用的,有的是省級財政管理部門統(tǒng)一配發(fā)使用的,有些是單位自行開發(fā)的,還有的是從市場上購買的商品化軟件。這些系統(tǒng)出自不同的開發(fā)單位,使用不同的開發(fā)和運行平臺,后臺數(shù)據(jù)庫及數(shù)據(jù)結(jié)構(gòu)也不相同,產(chǎn)生的電子文件格式各種各樣,這使得歸檔后的電子檔案格式也各式各樣。加上各種數(shù)據(jù)庫中產(chǎn)生的動態(tài)數(shù)據(jù),僅數(shù)據(jù)類型就是十分繁雜的。一個單位尚且如此,一個行政區(qū)域內(nèi)眾多單位所產(chǎn)生的電子檔案數(shù)據(jù)格式就更加繁雜。這樣多的檔案數(shù)據(jù)格式,與全部系統(tǒng)中的數(shù)據(jù)格式來比,還算是簡單的。紙質(zhì)檔案數(shù)字化后的圖像型電子檔案只是電子檔案一種類型,只算是“大數(shù)據(jù)”的九牛一毛。

第二,從大數(shù)據(jù)的數(shù)量上看?!褒嫶蟮臄?shù)據(jù)量,能達(dá)到PB甚至EB級別”是大數(shù)據(jù)的另一基本特征。依全部檔案的類型劃分,我們現(xiàn)在處理的紙質(zhì)檔案多數(shù)是所謂的文書檔案,而更多的含有表格、圖紙、賬冊、錄音、錄像、影像的科技檔案、財會檔案、人事檔案、基建檔案、錄音檔案、錄像檔案、影像檔案等各種類型的專業(yè)檔案還沒有進(jìn)入我們數(shù)字化的視線。這種相對狹隘檔案觀,僅僅從數(shù)量上看,不僅算不上“大數(shù)據(jù)”,就連“大檔案”都算不上。要實現(xiàn)融入“大數(shù)據(jù)”的環(huán)境,首先要取消文書檔案的稱謂,從“大檔案”的角度來看待、對待檔案數(shù)字化。就目前情況看,一個使用多個業(yè)務(wù)系統(tǒng)的單位,一年產(chǎn)生的數(shù)據(jù)量少則幾個G,多則幾十G上百G,甚至幾個T。如果將這些數(shù)據(jù)全部作為檔案歸檔管理,將是一個非常龐大的數(shù)量。依此類推,一個單位尚且如此,一個行政區(qū)域內(nèi)眾多單位所產(chǎn)生的電子檔案將是一個令我們檔案管理者從來沒有面對過的巨大數(shù)量級。如果不能有效地管控這一巨大數(shù)量級的電子檔案,那就不能算做是“大數(shù)據(jù)”??陀^地說,即便是實現(xiàn)了對這一巨大數(shù)量級的電子檔案的有效管控,也只是“大數(shù)據(jù)”中的滄海一粟。對這些原生電子文件信息,“要按照‘增量電子化的思路,積極進(jìn)行原生電子文件的歸檔接收工作?,F(xiàn)在,絕大多數(shù)新形成的文件都有電子版,及時把電子文件歸檔接收并納入檔案部門管理、納入檔案信息資源體系,不僅關(guān)系當(dāng)前,而且涉及長遠(yuǎn),必須高度重視,立即抓起,抓得越早越好”。

第三,從“大數(shù)據(jù)”的處理方式上來看,“大數(shù)據(jù)”的核心是對龐大數(shù)據(jù)進(jìn)行檢索與運算?!皺n案大數(shù)據(jù)”的關(guān)鍵信息需通過一定的技術(shù)方法進(jìn)行提取,并針對提取出的有效信息根據(jù)一定的規(guī)律進(jìn)行挖掘。要實現(xiàn)這一點,智能化的檢索分析軟件與經(jīng)過統(tǒng)一標(biāo)引的基礎(chǔ)數(shù)據(jù)至關(guān)重要。智能化的檢索分析軟件,我們可以通過購買解決(暫不考慮我們是否有能力選擇購買到性價比高的檢索分析軟件),而經(jīng)過統(tǒng)一標(biāo)引的基礎(chǔ)數(shù)據(jù)只能由檔案館工作人員自行完成。問題是許多基層檔案工作者包括領(lǐng)導(dǎo)者并不清楚這一點,以為只要將紙質(zhì)檔案一掃描,圖像文件就可通過計算機(jī)和網(wǎng)絡(luò)檢索到了;檔案中任何內(nèi)容都可隨意檢索和查找到。殊不知,如果沒有智能化的檢索分析軟件和對紙質(zhì)檔案掃描件的細(xì)致標(biāo)引或全文識別,所有通過掃描產(chǎn)生的電子檔案只是些沒有用處的電子圖像文件。問題是沒有多少基層檔案館知道并在下大氣力做紙質(zhì)檔案掃描后形成的電子檔案的標(biāo)引或全文識別工作。未經(jīng)處理的紙質(zhì)檔案掃描件,不僅不是“大數(shù)據(jù)”,甚至都算不上有用的數(shù)據(jù)。掃描得越多,浪費就越大。

綜上所述,紙質(zhì)檔案數(shù)字化是檔案數(shù)字化組成部分,但不是檔案數(shù)字化全部。紙質(zhì)檔案數(shù)字化與“大數(shù)據(jù)”密切相關(guān),但完全不能等同于“大數(shù)據(jù)”。在“大數(shù)據(jù)”環(huán)境下,我們不僅要做好紙質(zhì)檔案數(shù)字化——存量數(shù)字化,也要做好原生電子文件接收管理——增量電子化,還要將各業(yè)務(wù)部門通過業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)為檔案數(shù)據(jù),這樣才能在數(shù)量上向“大數(shù)據(jù)”靠攏。要適應(yīng)“大數(shù)據(jù)”環(huán)境的要求,并有所作為,我們還有許多的工作需要做,還有許多的東西需要學(xué)習(xí),千萬不可只滿足于館藏檔案的數(shù)字化。

(作者單位:開封市隴海醫(yī)院 來稿日期:2014-04-08)

猜你喜歡
標(biāo)引館藏紙質(zhì)
館藏
博物館的生存之道:館藏能否變賣?
檔案主題標(biāo)引與分類標(biāo)引的比較分析
知還印館藏印選——古印篇
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
紙質(zhì)書與《北京是個好地方》
紙質(zhì)讀物的困境與出路
獨立書店浪漫的紙質(zhì)生活
Coco薇(2016年1期)2016-01-11 03:00:59
介紹兩件館藏青銅器
文物春秋(2014年2期)2014-12-24 21:23:05
南华县| 刚察县| 乐陵市| 长丰县| 龙门县| 虞城县| 宽城| 翁源县| 淮滨县| 屯门区| 资兴市| 衡水市| 丰原市| 平定县| 黔江区| 定襄县| 旌德县| 读书| 平陆县| 沈阳市| 封丘县| 新余市| 武汉市| 阿克陶县| 房山区| 雷山县| 甘洛县| 炎陵县| 渝北区| 海丰县| 嫩江县| 中西区| 平阴县| 且末县| 即墨市| 遵义县| 延安市| 汾阳市| 伽师县| 谢通门县| 右玉县|