摘 ?要:在大數(shù)據(jù)時代來臨及“數(shù)字中國”的背景下,檔案管理工作受到了新的挑戰(zhàn),如何能夠順應時代,讓傳統(tǒng)檔案管理工作與大數(shù)據(jù)、云計算等互聯(lián)網(wǎng)技術(shù)相結(jié)合,從而實現(xiàn)大數(shù)據(jù)在檔案管理工作中的應用變得更為迫切。就此,本文對“數(shù)字中國”背景下的檔案大數(shù)據(jù)進行了討論。
關鍵詞:數(shù)字中國;電子檔案;大數(shù)據(jù)
中圖分類號:G270.7 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)18-0081-03
Abstract:With the advent of the era of big data and the background of “digital China”,archives management is facing new challenges. How to adapt to the era and integrate traditional archives management with internet technologies such as big data and cloud computing,so as to realize big data of archives management becomes more urgent. In this regard,this paper discusses the big data of archives under the background of “digital China”.
Keywords:digital China;electronic archives;big data
0 ?引 ?言
麥肯錫公司(McKinsey & Company)作為全球知名的咨詢公司,最早提出了大數(shù)據(jù)時代的到來,并認為數(shù)據(jù)已經(jīng)滲透到全球各行各業(yè)的業(yè)務職能領域,成為重要的生產(chǎn)因素[1]。2012年召開黨的十八大以后,“數(shù)字中國”被提上新高度,作為新時代國家信息化發(fā)展的新戰(zhàn)略,其覆蓋面涉及經(jīng)濟、政治等多個領域,包括了大數(shù)據(jù)在內(nèi)的多個內(nèi)容。為促進“數(shù)字中國”的建設,國家互聯(lián)網(wǎng)信息辦公室、國家發(fā)展和改革委員會等部門主辦的“數(shù)字中國建設峰會”已舉辦了第二屆,為“數(shù)字中國”建設提供了良好的技術(shù)交流平臺。由此可見,大數(shù)據(jù)在國家戰(zhàn)略中的地位越來越高?!皵?shù)字中國”這一背景也對檔案管理工作提出了新要求,如何能夠讓檔案管理工作順應時代潮流、建設整合數(shù)字資源、提高數(shù)字檔案建設水平、加強數(shù)字檔案管理水平及挖掘數(shù)字檔案潛在資源被提上議程。為此,本文將對“數(shù)字中國”背景下的檔案大數(shù)據(jù)進行討論。
1 ?檔案大數(shù)據(jù)的概念及數(shù)據(jù)來源
1.1 ?檔案大數(shù)據(jù)的概念
維克托·邁爾-舍恩伯格及肯尼斯·庫克耶在2008年首先提出了“大數(shù)據(jù)(big data、mega data)”一詞。一般認為,大數(shù)據(jù)指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!吨腥A人民共和國檔案法》對檔案的概念下了定義,是指過去和現(xiàn)在的國家機構(gòu)、社會組織以及個人從事政治、軍事、經(jīng)濟、科學、技術(shù)、文化、宗教等活動直接形成的對國家和社會有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。
2012年后,大數(shù)據(jù)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術(shù)發(fā)展與創(chuàng)新,檔案大數(shù)據(jù)這一概念也就應運而生。所謂的檔案大數(shù)據(jù),一般認為是一個數(shù)據(jù)集,是在檔案業(yè)務活動開展中形成和采集的,具有價值屬性、難以在短時間內(nèi)分析處理等特點,并與檔案及檔案活動密切相關。
1.2 ?檔案大數(shù)據(jù)的來源
根據(jù)檔案大數(shù)據(jù)的概念,其是在檔案業(yè)務活動開展中形成和產(chǎn)生的,這也就確定了其數(shù)據(jù)的來源主要有以下幾個方面[2]。
(1)檔案自身。檔案自身數(shù)據(jù)主要是指檔案管理部門所收集的各種文字、圖表、聲像等多種形式的記錄,諸如檔案管理系統(tǒng)產(chǎn)生的數(shù)據(jù)、載體材料及規(guī)格等數(shù)據(jù),同時也包括根據(jù)檔案內(nèi)容進行分類等所形成的目錄、摘要及查詢指南等。這部分數(shù)據(jù)是檔案大數(shù)據(jù)中最主要的組成部分,也最具檔案特色。
(2)在檔案部門開展檔案業(yè)務活動中形成的。這部分數(shù)據(jù)主要有兩個源頭,一個是檔案部門自身產(chǎn)生的,另外一個是檔案部門通過其他途徑收集而來的,諸如檔案部門自身的檔案結(jié)構(gòu)數(shù)據(jù)、部門概括及相關的檔案管理政策、法律和檔案管理行業(yè)數(shù)據(jù)等。
(3)檔案用戶后續(xù)產(chǎn)生的數(shù)據(jù)。諸如檔案用戶的個人情況更新、查詢檔案記錄、個人需求偏好等用戶個人相關數(shù)據(jù)的再次產(chǎn)生。
上述三個部分是檔案大數(shù)據(jù)的主要來源,也就是說檔案大數(shù)據(jù)的來源除此之外還有其他來源,但這些數(shù)據(jù)的產(chǎn)生并不代表其就會被納入檔案大數(shù)據(jù)范疇,只有經(jīng)過篩選、整理后,具有價值的內(nèi)容才會被納入檔案大數(shù)據(jù)。
2 ?檔案大數(shù)據(jù)的特點
2.1 ?大數(shù)據(jù)
學術(shù)界一般認為大數(shù)據(jù)應該具有“4V+1O”的特點[3]:
(1)數(shù)據(jù)量大(Volume),即數(shù)據(jù)在采集、存儲及計算過程中的量非常大,一般都至少以P(1000T)作為起始計量單位。
(2)類型繁多(Variety),即數(shù)據(jù)的種類及其來源繁多。包括可以使用關系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的結(jié)構(gòu)化數(shù)據(jù);不符合關系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層的半結(jié)構(gòu)化數(shù)據(jù);及文檔、圖片、視頻/音頻等非結(jié)構(gòu)化數(shù)據(jù)。
(3)價值密度低(Value),即數(shù)據(jù)的價值密度不高。隨著網(wǎng)絡技術(shù)的不斷進步,信息無處不在,但其中不乏許多無價值信息,造成信息價值密度低的問題。在這種情況下,如何通過邏輯算法等方式挖掘有價值的數(shù)據(jù)信息,是當前大數(shù)據(jù)時代最為迫切的問題。
(4)速度快時效高(Velocity),即數(shù)據(jù)增長和處理的速度快,同時也有著較高的時效性,這也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
(5)數(shù)據(jù)是在線的(Online),即數(shù)據(jù)永不掉線,可以隨時被調(diào)取和使用,這一特點被認為是區(qū)別于傳統(tǒng)數(shù)據(jù)最顯著的特征。互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,為數(shù)據(jù)永不掉線提供了可能,并且更加充分地發(fā)揮了數(shù)據(jù)的價值。
2.2 ?檔案大數(shù)據(jù)
檔案大數(shù)據(jù)是在大數(shù)據(jù)基礎上發(fā)展而來,因此,它既具有大數(shù)據(jù)的一些特征,也有著自己的特性[4、5]。
(1)數(shù)據(jù)量大。數(shù)十年的傳統(tǒng)檔案累計,形成了較大的待數(shù)字化存量,且伴隨著互聯(lián)網(wǎng)發(fā)展,業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù)量也在劇增。2017年國家檔案局局長李明華就曾在全國檔案局長館長會議上提及,我國館藏檔案在“十一五”末已達3.92億余卷(件),形成了海量的檔案數(shù)據(jù)。
(2)數(shù)據(jù)類型復雜。檔案大數(shù)據(jù)也同樣包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),且伴隨著各行各業(yè)業(yè)務工作同互聯(lián)網(wǎng)的交叉,越來越多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生并占據(jù)了主流位置。
(3)價值密度高。相對于其他大數(shù)據(jù),由于檔案大數(shù)據(jù)普遍具有較高完整性、真實性和準確性,即便數(shù)據(jù)大規(guī)模發(fā)展后,價值密度也不會降低太多,這也是檔案大數(shù)據(jù)特別之處。
(4)動態(tài)性和穩(wěn)定性。檔案數(shù)據(jù)需要通過動態(tài)生成并且收集,其后進行分析、整理、存儲及調(diào)用,這樣就賦予了檔案大數(shù)據(jù)動態(tài)性。而檔案的證據(jù)及憑證功能,則要求數(shù)據(jù)具有一定穩(wěn)定性,在經(jīng)過處理,轉(zhuǎn)換成有效檔案數(shù)據(jù)后,就應當鎖定為不可更改數(shù)據(jù),因此具有數(shù)據(jù)的穩(wěn)定性。
(5)技術(shù)依賴性強。各行各業(yè)在電腦技術(shù)發(fā)展和普及前,使用的都是傳統(tǒng)檔案,這樣就造成檔案的存量數(shù)據(jù)很大。為實現(xiàn)存量檔案的大數(shù)據(jù)化,就要求具有強大的信息技術(shù),以最快的速度存儲、甄別和調(diào)用存量檔案數(shù)據(jù)。
(6)處理速度快。傳統(tǒng)的檔案管理,需要利用紙質(zhì)材料,造成人工查閱、調(diào)取速度緩慢。大數(shù)據(jù)技術(shù)則要求數(shù)據(jù)的生成、分析、整理、存儲和調(diào)取等各個環(huán)節(jié)都要在較短時間內(nèi)完成,發(fā)展檔案大數(shù)據(jù)化,也是為了實現(xiàn)這一目標。
3 ?實行檔案大數(shù)據(jù)的必要性
3.1 ?大數(shù)據(jù)時代發(fā)展的需要
正如哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術(shù)界、商界還是政府,所有領域都將開始這種進程?!泵绹?012年發(fā)布《大數(shù)據(jù)的研究和發(fā)展計劃》,將大數(shù)據(jù)處理上升到國家安全層次;日本也于2013年發(fā)布“創(chuàng)建最尖端IT國家宣言”,提出通過將大數(shù)據(jù)提升為國家戰(zhàn)略,以此提高日本競爭力;我國也于2014年首次將大數(shù)據(jù)寫入政府工作報告,并于2015年發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》[6]。我國檔案管理工作正在經(jīng)歷著從紙質(zhì)到電子、手工到智能化、分散管理到信息共享的轉(zhuǎn)變,檔案管理部門只有緊隨時代發(fā)展潮流,推動檔案大數(shù)據(jù)發(fā)展,才能確保我國檔案管理事業(yè)不會落后。
3.2 ?“數(shù)字中國”建設的需要
在國家提出“互聯(lián)網(wǎng)+”“寬帶中國”等戰(zhàn)略并深度參與國際數(shù)字經(jīng)濟合作后,“數(shù)字中國”于2017年黨的十九大報告中首次被提出,進一步提升了國家信息化戰(zhàn)略?!皵?shù)字中國”的核心是數(shù)據(jù),是數(shù)據(jù)與各行各業(yè)的深度融合,這就要求信息資源具有數(shù)據(jù)化、智能性和共享性等特點。
以我國絕大多數(shù)檔案館為例,雖都已在推進檔案電子化,但還是有相當部分的檔案為紙質(zhì)檔案,且電子化檔案存在格式不一、分散保存及數(shù)據(jù)庫建設標準不一等問題,很難形成聯(lián)動、檔案數(shù)據(jù)共享,容易造成信息孤島現(xiàn)象。對于推進檔案電子化,也僅僅是將紙質(zhì)檔案的圖片化保存,缺乏數(shù)據(jù)化處理。檔案管理部門作為服務經(jīng)濟社會發(fā)展的重要部門之一,只有實行檔案大數(shù)據(jù)化,促進檔案資源的整合和共享,深度挖掘大數(shù)據(jù)的經(jīng)濟價值,創(chuàng)造數(shù)字經(jīng)濟,服務民生,才能更好地服務“數(shù)字中國”建設。
3.3 ?檔案管理部門自身發(fā)展的需要
(1)避免檔案脹庫的需要。如果沒有實現(xiàn)檔案數(shù)據(jù)化,各行各業(yè)的檔案管理都會不可避免地產(chǎn)生一個問題,那就是檔案數(shù)量急劇增加,最后造成檔案脹庫現(xiàn)象。傳統(tǒng)的檔案脹庫指的是因紙質(zhì)檔案庫房容量有限而檔案數(shù)量劇增造成存放地不足的現(xiàn)象。新時代的脹庫現(xiàn)象,可認為是各行各業(yè)檔案管理部門雖然進行檔案數(shù)字化,將紙質(zhì)檔案圖片化,卻只是實現(xiàn)單純意義上的檔案數(shù)字化,且未能構(gòu)建全國性的檔案信息化數(shù)據(jù),形成信息孤島,數(shù)據(jù)存在重疊,雖然相對于傳統(tǒng)的紙質(zhì)檔案可以減緩脹庫現(xiàn)象,但是最終也會不可避免地發(fā)生脹庫。只有在數(shù)字化的基礎上進一步數(shù)據(jù)化,在大數(shù)據(jù)基礎上對檔案進行有效的獲取、存儲、加工和利用,才能進一步緩解脹庫現(xiàn)象[7]。
(2)促進檔案管理部門工作轉(zhuǎn)型的需要。隨著互聯(lián)網(wǎng)發(fā)展,尤其是移動互聯(lián)網(wǎng)的發(fā)展,給傳統(tǒng)的檔案工作帶來了巨大挑戰(zhàn)。人民日益增長的信息需求、各行各業(yè)通過檔案大數(shù)據(jù)挖掘信息價值的需求以及提供個性化服務的需求在不斷提升,對檔案信息的服務質(zhì)量、服務效率和服務廣度都提出了更高的要求。這樣也就要求檔案管理部門必須從大數(shù)據(jù)管理和云計算技術(shù)角度構(gòu)建管理架構(gòu),建章立制,將管理的檔案資料進行整合,加強檔案信息資源建設,解決檔案數(shù)據(jù)孤島問題。
4 ?結(jié) ?論
總之,通過變革和創(chuàng)新實現(xiàn)檔案大數(shù)據(jù)才是檔案管理部門在“大數(shù)據(jù)”時代的生存之道。檔案管理部門如何在大數(shù)據(jù)快速發(fā)展中抓住契機,如何利用新技術(shù)和創(chuàng)新服務管理模式,給檔案管理部門帶來挑戰(zhàn)和機遇,是當前檔案管理部門需要面對和解決的問題。還應注意的是,檔案管理部門在發(fā)展檔案大數(shù)據(jù)時,應當根據(jù)檔案大數(shù)據(jù)的特點和自身工作職能,在傳統(tǒng)工作的基礎上,尋找適合自身發(fā)展的大數(shù)據(jù)道路。
參考文獻:
[1] 陳慧.大數(shù)據(jù)時代檔案信息安全價值實現(xiàn)策略研究 [J].檔案天地,2018(6):35-37.
[2] 康蠡,金慧.檔案大數(shù)據(jù)定義與內(nèi)涵解析 [J].檔案管理,2017(1):24-26.
[3] 王平,安亞翔.大數(shù)據(jù)時代的檔案信息平臺建設 [J].檔案與建設,2015(10):8-13.
[4] 陶水龍.大數(shù)據(jù)時代下數(shù)字檔案館面臨的機遇與挑戰(zhàn) [J].中國檔案,2013(10):66-68.
[5] 魯?shù)挛?試述檔案大數(shù)據(jù)的定義、特征及核心內(nèi)容 [J].檔案,2014(4):13-15.
[6] 向立文,李培杰.檔案部門實施檔案大數(shù)據(jù)戰(zhàn)略的必要性與可行性研究 [J].浙江檔案 2018(10):10-12.
[7] 李明娟.從“數(shù)字化”走向“數(shù)據(jù)化”——大數(shù)據(jù)下檔案管理工作發(fā)展道路 [J].辦公室業(yè)務,2016(12):171+145.
作者簡介:林蔚(1978-),女,漢族,福建寧德人,小學高級教師,本科,研究方向:檔案信息化、檔案資源開發(fā)與利用。