李高峰 胡國強(qiáng)
(1.西北農(nóng)林科技大學(xué)檔案館 陜西楊凌 712100;2.西北農(nóng)林科技大學(xué)網(wǎng)絡(luò)與教育技術(shù)中心 陜西楊凌 712100)
大數(shù)據(jù)作為數(shù)據(jù)驅(qū)動新技術(shù),廣泛應(yīng)用于檔案歸檔、查閱及檔案信息開發(fā)利用等檔案管理工作中,同時(shí)檔案數(shù)據(jù)的大量涌現(xiàn)也給檔案管理帶來了極大的挑戰(zhàn)。眾多學(xué)者就大數(shù)據(jù)在檔案館的業(yè)務(wù)應(yīng)用、服務(wù)模式、信息安全和管理創(chuàng)新展開了研究。陶水龍首先分析了大數(shù)據(jù)背景下數(shù)字檔案館的建設(shè),最后論述了大數(shù)據(jù)技術(shù)在數(shù)字檔案云平臺上應(yīng)用[1];楊智勇和史曉杰描述了數(shù)字檔案館的大數(shù)據(jù)特征,然后探討了微服務(wù)的基本范疇和實(shí)現(xiàn)途徑[2];宋美霞論述了大數(shù)據(jù)背景下數(shù)字檔案館存在的問題,并探討了大數(shù)據(jù)數(shù)字檔案館發(fā)展前景[3];周楓和楊智勇從檔案館業(yè)務(wù)及用戶兩個(gè)維度,對基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模型進(jìn)行了需求分析,最終設(shè)計(jì)了一種基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)體系架構(gòu)[4];秦巧云等論述了大數(shù)據(jù)環(huán)境下數(shù)字檔案館信息威脅,認(rèn)為可從法律制度、道德規(guī)范、安全設(shè)施、技術(shù)防護(hù)四個(gè)角度建立數(shù)字檔案館信息安全防范體系[5];李富成和黃丹若通過研究大數(shù)據(jù)對數(shù)字檔案館信息服務(wù)的影響,從不同角度研究了大數(shù)據(jù)數(shù)字檔案館[6]。分析以上研究,大數(shù)據(jù)時(shí)代檔案管理工作取得了一定的成效,但也存在諸多問題?;诖?,文章引入了區(qū)塊鏈(Blockchain)來解決大數(shù)據(jù)環(huán)境下檔案管理面臨的問題,有助于提升檔案管理水平,提升檔案服務(wù)質(zhì)量。
“大數(shù)據(jù)”(Big data)已廣為人知,美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油”, 這主要基于兩點(diǎn)共識[7]:一是大數(shù)據(jù)應(yīng)用案例越來越多,應(yīng)用領(lǐng)域越來越廣泛;二是大數(shù)據(jù)中隱藏著巨大的機(jī)會和價(jià)值,將給許多領(lǐng)域帶來變革性的發(fā)展。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有海量性(Volume),支持PB級甚至ZB級文件的處理、數(shù)據(jù)類型多(Variety),支持日志文件、音視頻文件、圖片文件等、時(shí)效性(Velocity),處理效率高、價(jià)值稀疏性(Value),價(jià)值大但價(jià)值密度低、準(zhǔn)確(Veracity)和復(fù)雜性(Complexity)等特征?;诖髷?shù)據(jù)的應(yīng)用系統(tǒng)可高效存儲大量結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),可處理瞬間爆發(fā)的大量數(shù)據(jù)以及對現(xiàn)有的數(shù)據(jù)進(jìn)行有效分析。典型的大數(shù)據(jù)系統(tǒng)可分解為數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)分析4個(gè)連續(xù)的階段,可提供數(shù)據(jù)生命周期的不同階段數(shù)據(jù)處理功能的復(fù)雜系統(tǒng)。從數(shù)字檔案館角度來看,大數(shù)據(jù)技術(shù)可理解為利用現(xiàn)有的檔案數(shù)據(jù)轉(zhuǎn)化為知識、幫助檔案館做出決策的工具,主要目標(biāo)是借助于科學(xué)的分析手段和挖掘算法從大量、雜亂、繁復(fù)的數(shù)據(jù)中,整理和分析數(shù)據(jù)[8],以提高數(shù)字檔案利用率,提高數(shù)字檔案館決策能力、決策效率、決策準(zhǔn)確性。
區(qū)塊鏈(Blockchain)是源自于比特幣(bitcoin)數(shù)據(jù)層、網(wǎng)絡(luò)層、共識層的底層技術(shù)。區(qū)塊鏈?zhǔn)腔诨ヂ?lián)網(wǎng)的分布式賬本技術(shù),同時(shí)也是一個(gè)去中心化的數(shù)據(jù)庫,不依賴中心機(jī)構(gòu)的管理,不存在中心服務(wù)器,每個(gè)運(yùn)行區(qū)塊鏈軟件的計(jì)算設(shè)備都可以當(dāng)作區(qū)塊鏈網(wǎng)絡(luò)的一個(gè)對等節(jié)點(diǎn),節(jié)點(diǎn)之間無需考慮信任問題,改區(qū)塊鏈網(wǎng)絡(luò)中的任意節(jié)點(diǎn)通過密碼學(xué)算法加密數(shù)據(jù)并記錄到一個(gè)數(shù)據(jù)區(qū)塊,同時(shí)生成該數(shù)據(jù)區(qū)塊的指紋(哈希)用于鏈接下個(gè)數(shù)據(jù)塊和校驗(yàn),并通過集體驗(yàn)證和維護(hù)的方式來建立一個(gè)可靠數(shù)據(jù)庫[9]。區(qū)塊鏈依靠密碼學(xué),使得區(qū)塊鏈網(wǎng)絡(luò)中的任意兩個(gè)節(jié)點(diǎn)可以直接交易,解決了中介信用問題,其核心技術(shù)有分布式賬本技術(shù)、非對稱加密算法以及智能合約。區(qū)塊鏈特殊的工作原理賦予了其四大特征,即去中心化(Decentralized)、共識機(jī)制、可追溯性、高度信任。這些特征能夠有效解決實(shí)際交易中的用戶隱私安全、中介信用、交易成本高等問題。
大數(shù)據(jù)時(shí)代,隨著信息技術(shù)的不斷深入發(fā)展,檔案管理也更倚重基于各類信息技術(shù)衍生的管理平臺。為解決檔案管理現(xiàn)實(shí)中遇到的各類問題,尤其是電子檔案數(shù)據(jù)存儲、流轉(zhuǎn)、利用、安全等方面短板,投入了大量資金來建設(shè)管理平臺,現(xiàn)有管理平臺在一定程度提升了檔案管理水平,但隨著檔案數(shù)據(jù)自身發(fā)展和積累,也存在如下問題:
現(xiàn)階段,隨著信息系統(tǒng)在檔案館的廣泛使用,檔案館館藏信息資源增長迅速,信息量越來越大。以北京市檔案館為例,經(jīng)數(shù)字掃描形式轉(zhuǎn)換的紙質(zhì)檔案(含圖紙、地圖)、照片檔案、音像檔案(含電影、幻燈片)和用數(shù)碼相機(jī)拍照形成的實(shí)物圖片文件將要超過10PB,面對如此大的數(shù)據(jù),存儲和查詢成為了問題,更談不上利用。此外,由于多媒體涌現(xiàn)和檔案單軌趨勢,更多的檔案數(shù)據(jù)以電子格式存在,以后檔案數(shù)據(jù)的格式、類型將更加繁多。這和早期數(shù)字檔案館數(shù)據(jù)單一,以結(jié)構(gòu)化數(shù)據(jù)為主產(chǎn)生明顯區(qū)別。隨著檔案數(shù)字化深入和數(shù)字檔案的進(jìn)一步發(fā)展,檔案館產(chǎn)生了大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的檔案數(shù)據(jù),且這些半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)所占比例越來越大。這些格式、類型復(fù)雜多樣的數(shù)據(jù)對數(shù)據(jù)的存儲方式和處理能力提出了更高的要求。
檔案資源的最終價(jià)值體現(xiàn)在查閱利用,現(xiàn)階段檔案資源整體利用率不高,難以挖掘出檔案最大的價(jià)值。從檔案資源應(yīng)用的角度出發(fā),檔案館資源數(shù)據(jù)量大且格式、類型復(fù)雜多樣,這是導(dǎo)致檔案數(shù)據(jù)難以有效利用的直接原因。從技術(shù)角度出發(fā),影響檔案館館藏資源利用的主要問題,就是如何不失真、不泄密地進(jìn)行檔案信息傳遞。館藏資源只有有效傳遞,才能提高其利用率。利用率提高了,才能更好地體現(xiàn)檔案資源自身價(jià)值。如果不在檔案館館藏資源流通利用上下功夫,而是沿用過去傳統(tǒng)檔案的管理方式,則無法有效挖掘檔案資源的全部價(jià)值,喪失了檔案資源的生命意義。
隨著檔案信息化進(jìn)程的加快,許多檔案館建設(shè)了各自的管理平臺。這些管理平臺存放的數(shù)據(jù)無法流通、共享,形成了一個(gè)個(gè)檔案信息孤島,不利于檔案數(shù)據(jù)的共享和檔案管理工作的開展,難以滿足用戶多樣化需求。所謂的檔案“信息孤島”廣義上指檔案部門與其他部門無法互通信息和交流而形成的孤島,狹義上指檔案館內(nèi)部各個(gè)信息系統(tǒng)之間沒有關(guān)聯(lián),比如,檔案館內(nèi)部著錄、檢索、利用等環(huán)節(jié)數(shù)據(jù)不流通,信息工作不銜接。分析檔案信息孤島產(chǎn)生的條件,本文認(rèn)為是各個(gè)檔案信息系統(tǒng)之間沒有信息交流和有效整合,缺乏滿足新的信息共享需求能力所致。分析檔案信息孤島產(chǎn)生的原因,本文認(rèn)為跟傳統(tǒng)“重藏輕用”的思想和“檔案都是秘密”的認(rèn)識分不開,并缺乏保障共享數(shù)據(jù)安全的有效技術(shù)手段。
檔案信息安全對檔案館來說至關(guān)重要。在信息化環(huán)境下,電子檔案信息資源的開發(fā)和利用過程中產(chǎn)生的數(shù)據(jù)可能會面臨被泄露、丟失和篡改的風(fēng)險(xiǎn),這些數(shù)據(jù)包括數(shù)字檔案數(shù)據(jù)、知識產(chǎn)權(quán)、個(gè)人信息等數(shù)據(jù);紙質(zhì)檔案數(shù)字化過程中存在檔案保密安全、失真、失竊等風(fēng)險(xiǎn)。數(shù)字檔案信息安全風(fēng)險(xiǎn)的主要表現(xiàn)有三個(gè)方面:信息失真、信息泄密、信息缺失。信息失真即數(shù)字檔案數(shù)據(jù)在傳輸和遷移的過程中被人篡改或數(shù)字檔案信息無法識別;信息泄密即因數(shù)字檔案館計(jì)算機(jī)和網(wǎng)絡(luò)受到病毒或木馬攻擊,導(dǎo)致數(shù)字檔案數(shù)據(jù)泄露或破壞;信息缺失主要因存儲介質(zhì)發(fā)生故障而起,目前大多數(shù)字檔案館的電子檔案數(shù)據(jù)都存儲在磁盤上,一旦磁盤出現(xiàn)損壞,就會發(fā)生數(shù)字檔案信息缺失的情況。
區(qū)塊鏈技術(shù)能以其獨(dú)有的優(yōu)勢保證數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)透明性,當(dāng)然也可以改善大數(shù)據(jù)背景下檔案管理工作存在的問題。由于檔案管理更倚重?cái)?shù)據(jù)安全、數(shù)據(jù)質(zhì)量、和數(shù)據(jù)流轉(zhuǎn),在大數(shù)據(jù)背景下區(qū)塊鏈技術(shù)應(yīng)用于檔案管理的前景更加廣泛切合。下文重點(diǎn)論述了大數(shù)據(jù)背景下區(qū)塊鏈技術(shù)在檔案館的應(yīng)用(以下討論都是基于大數(shù)據(jù)背景下,區(qū)塊鏈技術(shù)在檔案管理上的應(yīng)用)。
要解決檔案數(shù)據(jù)規(guī)模急劇增長以及數(shù)據(jù)格式、類型的復(fù)雜多樣的問題,就必須借助于大數(shù)據(jù)應(yīng)用系統(tǒng)?,F(xiàn)有的大數(shù)據(jù)應(yīng)用系統(tǒng)以分布式的方式存儲數(shù)據(jù),完美解決了數(shù)據(jù)分布問題、分布式系統(tǒng)中的容錯(cuò)問題,處理大數(shù)據(jù)時(shí)的冗余問題。成熟的大數(shù)據(jù)應(yīng)用系統(tǒng)有基于存儲的分布式文件系統(tǒng)GFS(Google file system)、Hadoop,以及李浩源等研發(fā)的基于分布式內(nèi)存的文件系統(tǒng)Tachyon。分布式文件系統(tǒng)利用RCFiIe、Parquet等存儲格式優(yōu)化存儲,節(jié)約了存儲空間。以Hadoop平臺為例,首先,數(shù)字檔案館通過ETL(數(shù)據(jù)倉庫技術(shù))方法對分散、異構(gòu)的檔案信息資源進(jìn)行抽取、清洗,然后利用MapReduce編程模型對清洗后的數(shù)據(jù)進(jìn)行深層次挖掘分析,最后利用Hadoop或NoSQL等大數(shù)據(jù)集成技術(shù)將處理后的數(shù)據(jù)存在到各自的數(shù)據(jù)倉庫。大數(shù)據(jù)應(yīng)用系統(tǒng)可存儲、分析、挖掘不同類型的檔案數(shù)據(jù),分析前需要在數(shù)據(jù)的海洋中甄別出那些真正有價(jià)值并且真實(shí)的東西。眾所周知,做數(shù)據(jù)挖掘和數(shù)據(jù)分析時(shí),大量時(shí)間成本或精力成本花費(fèi)在了有效數(shù)據(jù)的收集和數(shù)據(jù)清洗上。區(qū)塊鏈技術(shù)為用戶解決了大數(shù)據(jù)分析中的數(shù)據(jù)質(zhì)量、數(shù)據(jù)存儲和管理的問題,減少了收集和清洗數(shù)據(jù)的時(shí)間,降低了數(shù)據(jù)分析和挖掘成本。
運(yùn)用大數(shù)據(jù)系統(tǒng)可管理海量檔案數(shù)據(jù),用戶只需簡單的操作就可以對海量的檔案數(shù)據(jù)進(jìn)行查詢和分析,建立數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系模式,提升了整個(gè)檔案數(shù)據(jù)的價(jià)值[10]。運(yùn)用大數(shù)據(jù)技術(shù)可以對數(shù)據(jù)檔案館的資源數(shù)據(jù)進(jìn)行深度挖掘,找出資源數(shù)據(jù)的內(nèi)在聯(lián)系,可提高數(shù)字檔案資源的利用率,提升數(shù)字檔案資源價(jià)值。大數(shù)據(jù)技術(shù)進(jìn)行挖掘時(shí)對服務(wù)器等硬件要求很高,容易造成MDB(message driven bean)損壞,在吞吐量非常大的環(huán)境下還很容易發(fā)生數(shù)據(jù)丟失。針對數(shù)據(jù)挖掘中可能出現(xiàn)的數(shù)據(jù)安全問題,可采用區(qū)塊鏈技術(shù)解決。區(qū)塊鏈的數(shù)據(jù)大多都采取了云存儲技術(shù),這種技術(shù)在不需要經(jīng)過數(shù)據(jù)中心的情況下自動處理結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),解決了MDB損壞的問題。同時(shí)現(xiàn)有的區(qū)塊鏈協(xié)議可以使用全新的共識模型在幾秒內(nèi)完成極為龐大的信息之間的互相傳送與交換,并且利用可伸縮的數(shù)據(jù)模型來降低運(yùn)行負(fù)荷。同時(shí)區(qū)塊鏈自身的特性決定了一個(gè)節(jié)點(diǎn)數(shù)據(jù)的丟失并不會影響整個(gè)數(shù)據(jù)的完整性,因?yàn)檫€有其他節(jié)點(diǎn)可用來恢復(fù)。這種技術(shù)解決了吞吐量非常大的環(huán)境下的數(shù)據(jù)丟失問題,保障了數(shù)據(jù)傳輸安全,保證了檔案館館藏資源數(shù)據(jù)挖掘的準(zhǔn)確性,解決了檔案最為關(guān)鍵的安全問題。
為了消除檔案信息孤島,制度上可制定統(tǒng)一、可行的行業(yè)規(guī)范,加強(qiáng)館際合作;技術(shù)上可建立檔案大數(shù)據(jù)共享平臺,對現(xiàn)有的檔案信息系統(tǒng)進(jìn)行整合,實(shí)行檔案信息資源共建,切實(shí)奉行檔案數(shù)據(jù)共享。提到檔案數(shù)據(jù)共享,很多學(xué)者認(rèn)為這很有必要,的確能消除檔案信息孤島,有利于檔案大數(shù)據(jù)分析和挖掘。但現(xiàn)實(shí)中,很多數(shù)字檔案館對于檔案數(shù)據(jù)共享總是顧慮重重,擔(dān)心泄露個(gè)人隱私,擔(dān)心泄露國家機(jī)密。基于此,大家一直在尋找共享數(shù)據(jù)安全解決方案。本文發(fā)現(xiàn)區(qū)塊鏈技術(shù)憑借不可篡改、可追溯等特性,通過“加戳”和“加密”兩種方式解決了數(shù)據(jù)共享中的關(guān)鍵問題。所謂的“加戳”是在數(shù)據(jù)流通過程中對其打上烙印,可以實(shí)現(xiàn)對是否使用、使用過幾次的登記,這樣就可以讓檔案數(shù)據(jù)資產(chǎn)化,保障原作者的利益?!凹用堋眲t通過多種加密技術(shù)保障檔案數(shù)據(jù)不被泄露。兩種技術(shù)的結(jié)合可以有效保障檔案數(shù)據(jù)共享的安全性。
眾所周知,傳統(tǒng)的檔案保存依賴于紙質(zhì)材料,所需成本較高,管理人員工作量大。國家檔案局印發(fā)《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》強(qiáng)化了檔案電子化管理的,要求加快檔案管理信息化進(jìn)程。檔案管理目前趨于單軌制雛形,更倚重電子數(shù)據(jù)管理和電子數(shù)據(jù)流通?;诖髷?shù)據(jù)的檔案管理系統(tǒng)依靠分布式數(shù)據(jù)庫和并行處理算法,不僅可以有效管理海量檔案數(shù)據(jù),而且能快速處理海量檔案數(shù)據(jù),提升了檔案管理效率,降低了檔案管理成本。針對數(shù)字檔案管理中出現(xiàn)的信息安全,可利用區(qū)塊鏈技術(shù)解決。數(shù)字檔案管理的核心目標(biāo)就是保障其安全,而區(qū)塊鏈技術(shù)的安全、便捷特性就是保障流通數(shù)據(jù)安全。本文認(rèn)為,區(qū)塊鏈技術(shù)的開放性、去中心化、公開透明、雙方匿名、不可篡改、可追溯的特點(diǎn)在提升數(shù)字檔案管理便捷性的同時(shí),也提高了數(shù)字檔案的安全性,保障了數(shù)字檔案的真實(shí)性,解決了操作數(shù)據(jù)、原數(shù)據(jù)與數(shù)字檔案本身的信息數(shù)據(jù)相分離的問題,維護(hù)了數(shù)字檔案的完整性。
針對大數(shù)據(jù)背景下檔案管理工作存在的問題,本文引入?yún)^(qū)塊鏈技術(shù)進(jìn)行解決,且區(qū)塊鏈技術(shù)應(yīng)用于檔案管理工作是可行的。大數(shù)據(jù)背景下區(qū)塊鏈技術(shù)可以打破數(shù)據(jù)孤島現(xiàn)象,提升大數(shù)據(jù)流通的安全性,保護(hù)數(shù)據(jù)安全?;谝陨嫌^點(diǎn),文章認(rèn)為大數(shù)據(jù)背景下區(qū)塊鏈技術(shù)能解決目前檔案館存在的數(shù)據(jù)存儲和數(shù)據(jù)管理問題,有助于檔案數(shù)據(jù)的共享和流通,有助于保護(hù)檔案數(shù)據(jù)的安全,提升檔案管理工作水平。