文/鐘奕思
2010 年,全球數(shù)據(jù)量跨入了ZB時(shí)代,根據(jù)國(guó)際數(shù)據(jù)資訊(IDC)公司監(jiān)測(cè),全球數(shù)據(jù)量大約每?jī)赡攴环?,預(yù)計(jì)到2020 年,全球?qū)碛?5ZB的數(shù)據(jù)量,信息數(shù)據(jù)以驚人的速度爆炸式地增長(zhǎng)。同時(shí),信息數(shù)據(jù)已經(jīng)滲透到社會(huì)生活的方方面面,深刻影響著我們的生活工作乃至國(guó)家經(jīng)濟(jì)、社會(huì)發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來。
大數(shù)據(jù)是以目前的工具和信息處理能力無法有效采集、管理、處理和分析的信息或數(shù)據(jù)集合。一般認(rèn)為,大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)和交互數(shù)據(jù)。大數(shù)據(jù)是數(shù)字化信息時(shí)代的產(chǎn)物。伴隨著信息數(shù)據(jù)爆炸性增長(zhǎng)、數(shù)據(jù)類型增加、信息流動(dòng)速度增快,人們面臨著信息數(shù)據(jù)處理難度增大的狀況。
大數(shù)據(jù)的特點(diǎn)可用“4V”來描述:(1)Volume(體量),數(shù)據(jù)量龐大是大數(shù)據(jù)最明顯的特征,數(shù)據(jù)規(guī)模往往達(dá)到PB 級(jí)。(2)Variety(多樣化),大數(shù)據(jù)包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及交互數(shù)據(jù),而且以非結(jié)構(gòu)化數(shù)據(jù)為主;不同類型數(shù)據(jù)在數(shù)據(jù)來源、編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個(gè)方面存在差異。(3)Velocity(速度),大數(shù)據(jù)快速動(dòng)態(tài)變化,形成流式數(shù)據(jù),要求實(shí)時(shí)處理,快速反應(yīng)。(4)Vitality(密度),大數(shù)據(jù)規(guī)模龐大、增長(zhǎng)速度快,但信息價(jià)值密度反而降低,隱藏在海量數(shù)據(jù)中的有用信息并沒有隨著數(shù)據(jù)量的增長(zhǎng)相應(yīng)增長(zhǎng),反而使我們獲取有用信息的難度加大。
在大數(shù)據(jù)時(shí)代背景下,檔案部門、檔案管理工作也受到“大數(shù)據(jù)”洪潮的影響,出現(xiàn)了新變化。檔案部門面臨著大數(shù)據(jù)帶來的挑戰(zhàn)。
(一)檔案部門大數(shù)據(jù)的來源。檔案部門保管的數(shù)據(jù)信息主要來源于兩方面:一是檔案館(室)收集的檔案資源,包括檔案館(室)接收的電子文件、數(shù)碼照片、音頻、視頻,以及紙質(zhì)檔案、傳統(tǒng)載體聲像檔案數(shù)字化轉(zhuǎn)換形成的數(shù)字資源等。二是檔案部門管理檔案、開展業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù),包括檔案管理系統(tǒng)數(shù)據(jù)庫(kù)文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對(duì)接形成的交換數(shù)據(jù),智能庫(kù)房傳感器收集到的庫(kù)房監(jiān)控?cái)?shù)據(jù),檔案網(wǎng)站、官方微博數(shù)據(jù)等。在大數(shù)據(jù)時(shí)代,各種機(jī)構(gòu)在業(yè)務(wù)活動(dòng)中產(chǎn)生的數(shù)據(jù)和信息大量增長(zhǎng),導(dǎo)致最終作為檔案保存下來的文件及信息數(shù)據(jù)相應(yīng)增多;檔案館(室)收集的檔案資源增加,進(jìn)而導(dǎo)致檔案部門在管理活動(dòng)中產(chǎn)生的信息數(shù)據(jù)也隨之增加。檔案部門保管的檔案資源和檔案管理信息數(shù)據(jù)增長(zhǎng)迅速、數(shù)量巨大,這些構(gòu)成了檔案部門的大數(shù)據(jù)。
(二)檔案部門大數(shù)據(jù)的特征。
1.信息數(shù)據(jù)量劇增。各機(jī)構(gòu)在業(yè)務(wù)活動(dòng)中產(chǎn)生的信息數(shù)據(jù)急劇增長(zhǎng),導(dǎo)致檔案部門收集保管的檔案資源快速增加。據(jù)統(tǒng)計(jì),2008年,全國(guó)各級(jí)國(guó)家檔案館共保存檔案1.93億卷,較上年增加1769萬(wàn)卷,增幅達(dá)10%,而到2011 年,各級(jí)國(guó)家檔案館館藏已達(dá)3.3億卷,到2020 年,各級(jí)國(guó)家檔案館館藏將達(dá)到6 億多卷。檔案數(shù)字資源和信息化檔案數(shù)據(jù)增長(zhǎng)更是迅速。在“十一五”期間,某特大型企業(yè)檔案館在信息化規(guī)劃項(xiàng)目中統(tǒng)一推廣實(shí)施檔案管理系統(tǒng),目前已建成的檔案目錄中心覆蓋集團(tuán)各單位,保存數(shù)據(jù)量高達(dá)400余萬(wàn)卷案卷、4000 余萬(wàn)件檔案,館藏存儲(chǔ)量已由GB 向TB 級(jí)和PB級(jí)轉(zhuǎn)變。隨著檔案信息化的開展、數(shù)字檔案館(室)的建設(shè)以及檔案信息資源整合,各地各級(jí)檔案館(室)保存的檔案目錄信息和全文數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng),存儲(chǔ)數(shù)據(jù)量達(dá)到海量規(guī)模,形成一個(gè)巨大的檔案資源庫(kù)。
2.信息數(shù)據(jù)類型多樣化。一方面,就檔案部門管理的檔案資源而言:傳統(tǒng)的檔案管理,管理對(duì)象以紙質(zhì)檔案為主,檔案部門對(duì)檔案信息的管理也是對(duì)檔案實(shí)體的管理。而在現(xiàn)今大數(shù)據(jù)時(shí)代,檔案部門管理的檔案類型多樣化,不但有傳統(tǒng)的紙質(zhì)檔案,還有大量的數(shù)字資源。檔案部門保管的信息數(shù)據(jù)范圍不僅包括數(shù)字資源本身的信息內(nèi)容,還包括其結(jié)構(gòu)、背景信息、元數(shù)據(jù)。檔案部門保管的檔案信息數(shù)據(jù)范圍擴(kuò)大了。另一方面,從檔案部門日常管理、提供服務(wù)產(chǎn)生的信息數(shù)據(jù)而言:隨著檔案信息化的開展,檔案部門日常管理活動(dòng)形成大量的信息數(shù)據(jù),如檔案管理系統(tǒng)數(shù)據(jù)庫(kù)文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對(duì)接形成的交換數(shù)據(jù),智能庫(kù)房傳感器收集到的庫(kù)房監(jiān)控?cái)?shù)據(jù)等;檔案部門通過網(wǎng)站建設(shè)、官方微博等渠道開展網(wǎng)絡(luò)服務(wù),與利用者進(jìn)行交互交流,從中搜集到的利用者信息(如利用者的地理位置、搜索歷史、搜索時(shí)間、瀏覽記錄等數(shù)據(jù))也越來越多。檔案部門管理的信息數(shù)據(jù)來源拓寬,類型多樣化。而且,檔案部門管理的信息數(shù)據(jù)結(jié)構(gòu)也在逐漸發(fā)生變化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型增多。網(wǎng)頁(yè)、音頻、圖像和視頻等數(shù)字資源在檔案館(室)藏中的比重逐漸增加,成為未來館藏的重要來源。大量增加的利用者信息數(shù)據(jù)也將在利用服務(wù)中發(fā)揮重要作用。
3.信息數(shù)據(jù)流動(dòng)速度快。以紙質(zhì)檔案為主的傳統(tǒng)檔案管理中,信息數(shù)據(jù)的流動(dòng)往往與紙質(zhì)檔案實(shí)體的傳遞同步,信息數(shù)據(jù)的流動(dòng)基本依附于實(shí)體,因此信息數(shù)據(jù)的流動(dòng)速度受到限制。而在大數(shù)據(jù)時(shí)代,檔案信息數(shù)據(jù)的傳播、傳遞并不依附于載體,尤其對(duì)于數(shù)字化的檔案資源,借助計(jì)算機(jī)網(wǎng)絡(luò)傳播,信息數(shù)據(jù)流動(dòng)速度大大加快,甚至可以實(shí)現(xiàn)網(wǎng)絡(luò)上的實(shí)時(shí)交互。
4.信息價(jià)值密度降低,有用信息獲取難度增大。隨著檔案信息數(shù)據(jù)急劇增長(zhǎng)、類型多樣化,隱藏在海量數(shù)據(jù)中的有用信息卻沒有隨著數(shù)據(jù)量的增長(zhǎng)而相應(yīng)增長(zhǎng),反而使我們獲取有用信息的難度加大。我們感受最為明顯的是,隨著檔案管理系統(tǒng)數(shù)據(jù)量的增大,在進(jìn)行檔案查詢時(shí),需要的信息容易埋沒在大量的不需要的數(shù)據(jù)中,增加了查詢的時(shí)間,降低檢索性能。單一檔案館(室)內(nèi)保存的檔案信息數(shù)據(jù)格式、編碼方式、應(yīng)用特征等形式多樣化,各館(室)之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù),使得“信息孤島”問題突出,檔案信息數(shù)據(jù)共享、異構(gòu)數(shù)據(jù)信息整合面臨困難。檔案部門與利用者網(wǎng)絡(luò)交互產(chǎn)生的大量數(shù)據(jù),以非結(jié)構(gòu)化、半結(jié)構(gòu)化的形式存在,如何從中提取出有用的信息、提升檔案服務(wù)質(zhì)量,也是我們面臨的難題。
檔案部門收集管理的檔案資源以及管理檔案、開展業(yè)務(wù)活動(dòng)過程中產(chǎn)生的龐大數(shù)據(jù)信息,構(gòu)成了檔案部門大數(shù)據(jù)的來源。這些數(shù)據(jù)信息增長(zhǎng)迅速、類型多樣化、流動(dòng)速度加快、價(jià)值密度降低的特點(diǎn)和變化,給檔案部門在檔案保管、鑒定、利用等環(huán)節(jié)帶來了新的挑戰(zhàn)。
(一)大數(shù)據(jù)帶來的檔案保管壓力。與檔案信息數(shù)據(jù)急劇增長(zhǎng)伴隨而來的是檔案保管的壓力。目前,不僅傳統(tǒng)檔案管理會(huì)出現(xiàn)“脹庫(kù)”,即由于庫(kù)房容量有限導(dǎo)致新增加的檔案無法正常存儲(chǔ)到庫(kù)房中,而且數(shù)字資源的保存也面臨著類似的問題,常常會(huì)碰到無法向數(shù)據(jù)庫(kù)中增加新的檔案數(shù)據(jù)的情況。近年來,在各級(jí)檔案工作評(píng)估檢查中,由于檔案庫(kù)房緊張導(dǎo)致檔案未能集中統(tǒng)一管理、整理質(zhì)量不夠規(guī)范的問題已時(shí)有出現(xiàn)。隨著電子文件的廣泛應(yīng)用、數(shù)字檔案館(室)建設(shè)的逐步推進(jìn),各級(jí)各類檔案館(室)保管的數(shù)字資源急劇增長(zhǎng),存儲(chǔ)數(shù)據(jù)量達(dá)到海量規(guī)模,對(duì)檔案信息數(shù)據(jù)存儲(chǔ)設(shè)備的存儲(chǔ)空間、運(yùn)算速度提出了更高的要求。伴隨著檔案管理大數(shù)據(jù)時(shí)代的到來,檔案信息數(shù)據(jù)存儲(chǔ)空間的問題日益嚴(yán)峻。
(二)大數(shù)據(jù)帶來的鑒定難題。在大數(shù)據(jù)時(shí)代,檔案信息數(shù)據(jù)總量大,而且增長(zhǎng)速度快,尤其是電子文件以指數(shù)級(jí)的驚人速度增長(zhǎng)。雖然我們知道這些浩瀚的信息數(shù)據(jù)中蘊(yùn)藏著巨大的“金礦”,但我們想要從中“淘金”比以往針對(duì)紙質(zhì)文件的傳統(tǒng)檔案鑒定更為困難。一方面,各機(jī)構(gòu)業(yè)務(wù)活動(dòng)形成的信息數(shù)據(jù)增加,在歸檔保存時(shí),檔案人員需要鑒定判斷的文件量隨之增大。面對(duì)著巨量的電子文件,檔案人員逐一閱讀每一份電子文件的原文恐怕實(shí)在是無能為力。而另一方面,大數(shù)據(jù)時(shí)代檔案信息數(shù)據(jù)存儲(chǔ)空間緊張,合理準(zhǔn)確判斷文件的去留顯得更為重要。只有把好鑒定這一關(guān),將有保存價(jià)值的文件留存下來、不具備保存價(jià)值的文件剔除掉,才能保障有限的儲(chǔ)存空間用于保存真正具有價(jià)值的信息數(shù)據(jù),最大限度地發(fā)揮檔案信息數(shù)據(jù)存儲(chǔ)空間的作用。因此,怎樣讓有限的存儲(chǔ)空間得到更為有效的利用,也對(duì)檔案人員的鑒定提出了更高的要求。合理、準(zhǔn)確、快速地鑒定檔案文件、信息數(shù)據(jù)的存毀,成為檔案部門和檔案人員在大數(shù)據(jù)時(shí)代面臨的嚴(yán)峻挑戰(zhàn)。
(三)大數(shù)據(jù)帶來的信息有效利用挑戰(zhàn)。檔案作為一種原始信息記錄,是國(guó)家、社會(huì)、機(jī)構(gòu)歷史的重要見證,在大數(shù)據(jù)時(shí)代,其價(jià)值與作用更加凸顯。信息的價(jià)值在于利用,面對(duì)海量的檔案信息數(shù)據(jù),只有通過開發(fā)和利用,才能使檔案信息的價(jià)值得以體現(xiàn)和發(fā)揮。但數(shù)據(jù)爆炸式增長(zhǎng)和數(shù)據(jù)類型多樣化,給檔案利用開發(fā)帶來檢索難題和開發(fā)困境。
隨著機(jī)構(gòu)保存檔案數(shù)據(jù)量的增長(zhǎng),在進(jìn)行檔案查詢時(shí),需要的信息容易被淹沒在大量不需要的數(shù)據(jù)中。運(yùn)用過去傳統(tǒng)的檔案檢索手段,依靠手工著錄、卡片檢索已經(jīng)難以實(shí)現(xiàn)海量信息檢索的要求;即使借助于現(xiàn)代化的檔案管理系統(tǒng),面對(duì)海量數(shù)據(jù)時(shí),檢索性能常常急劇下降,容易出現(xiàn)查詢時(shí)間長(zhǎng)、響應(yīng)速度慢的情況,甚至無法響應(yīng)。因此,如何在大量的檔案中快速而準(zhǔn)確地找到所需的信息,是大數(shù)據(jù)時(shí)代檔案利用中需要解決的首要問題。
更進(jìn)一步講,目前知識(shí)管理已經(jīng)成為檔案管理發(fā)展的趨勢(shì)和方向,檔案利用者的利用需求已不僅限于數(shù)據(jù)或文件的利用,更希望能夠獲得數(shù)據(jù)背后的信息以及信息蘊(yùn)藏的知識(shí)。因此,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)、信息轉(zhuǎn)變?yōu)樘峁┲R(shí)。然而,知識(shí)不是自然生成的,也不會(huì)簡(jiǎn)單地存在于信息集合中,需要經(jīng)過抽取和挖掘才能展示出來。在傳統(tǒng)紙質(zhì)檔案時(shí)代,檔案數(shù)量不多,依靠人工抽取、挖掘知識(shí)還可實(shí)行,但在大數(shù)據(jù)時(shí)代海量檔案存在、非結(jié)構(gòu)化數(shù)據(jù)、異構(gòu)數(shù)據(jù)盛行的狀況下,則會(huì)變得心有余而力不足。
隨著檔案網(wǎng)絡(luò)服務(wù)、數(shù)字檔案館、社交網(wǎng)絡(luò)等興起,檔案部門收集到的利用者個(gè)人信息、檢索歷史、瀏覽記錄等數(shù)據(jù)將越來越多。通過對(duì)這些數(shù)據(jù)的分析,檔案部門可以更好地了解利用者偏好,推測(cè)其利用需求,這對(duì)于檔案部門以利用者需求為導(dǎo)向、提高服務(wù)質(zhì)量具有重要意義。但這些數(shù)據(jù)信息大多以非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)形式存在。相對(duì)于結(jié)構(gòu)化數(shù)據(jù),非機(jī)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的開發(fā)挖掘難度更大。要對(duì)利用者數(shù)據(jù)進(jìn)行分析挖掘,檔案部門需要足夠的技術(shù)支持。而且,對(duì)于這些數(shù)據(jù)的應(yīng)用,還會(huì)涉及到利用者的隱私問題,例如個(gè)人數(shù)據(jù)能夠保存多久,保存后被用于何種用途,怎樣保證個(gè)人數(shù)據(jù)不會(huì)泄露等,這些都是檔案部門需要考慮和注意的問題。
因此,如何合理利用大數(shù)據(jù),分析推測(cè)利用者需求,在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識(shí),整合異構(gòu)信息,共享館際間資源,有針對(duì)性地為利用者提供深層次的信息和知識(shí),是大數(shù)據(jù)時(shí)代檔案利用服務(wù)工作需要努力解決的問題。
檔案管理迎來了大數(shù)據(jù)時(shí)代。檔案部門保管和保存的信息數(shù)據(jù)數(shù)量劇增、類型多樣化、流動(dòng)速度加快、有用信息提取難度增大,這些給檔案工作帶來挑戰(zhàn)。檔案部門必須增強(qiáng)信息意識(shí),重視蘊(yùn)藏在海量檔案信息數(shù)據(jù)中的“寶藏”,積極采取有效策略,做好基礎(chǔ)平臺(tái)建設(shè),重視技術(shù)研發(fā)與應(yīng)用,提高檔案信息數(shù)據(jù)有效保存、快速鑒定、合理開發(fā)的能力,應(yīng)對(duì)大數(shù)據(jù)給檔案部門帶來的挑戰(zhàn),讓檔案資源和檔案工作在大數(shù)據(jù)時(shí)代實(shí)現(xiàn)價(jià)值,煥發(fā)活力。