李恩樂 張照余/蘇州大學(xué)社會學(xué)院
2016年《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》明確提出單套制后,對電子文件單套制歸檔的研究集中展開,取得了理論和實踐上的成果。2021年《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》提出檔案工作實現(xiàn)數(shù)字轉(zhuǎn)型的目標,在“主要任務(wù)”中要求檔案文件“存量數(shù)字化”“增量電子化”[1]。由于電子文件自身存在易復(fù)制、易更改,擦寫不留痕等特性,電子檔案在長期保存過程中難以保證真實性、完整性、安全性與可用性,證據(jù)價值難以維護,因此海量電子檔案及其元數(shù)據(jù)的安全如何保障成為亟待解決的問題[2]。
保護電子檔案與元數(shù)據(jù)的安全,確保其完整可用,并能夠在長期保存中維護其證據(jù)效力,是數(shù)據(jù)保全的目標。區(qū)塊鏈技術(shù)是比特幣的底層技術(shù),其去中心化、去信任化以及信息可回溯的分布式數(shù)據(jù)庫系統(tǒng)特征使其逐漸被應(yīng)用于金融、醫(yī)療、文娛、教育等各個領(lǐng)域,區(qū)塊鏈上數(shù)據(jù)不可篡改的安全特性符合數(shù)據(jù)保全中維護元數(shù)據(jù)安全可用的需求。IPFS(InterPlanetary File System)是一種基于區(qū)塊鏈技術(shù)的超媒體協(xié)議,同時也是一個點對點的分布式文件系統(tǒng),具有內(nèi)容尋址、版本控制、去中心化等特點,適用于數(shù)字資源的分布式安全存儲[3]。通過整合區(qū)塊鏈技術(shù)構(gòu)建電子檔案數(shù)據(jù)保全模式具有可行性和適用性。
電子檔案單套制推行以來,上海、青島等地區(qū)相繼開展了單套制試點工作,但時至今日,全國范圍內(nèi)的單套制管理實踐仍然有限,單套制管理過程中的電子檔案的數(shù)據(jù)安全問題始終存在[4]。電子檔案數(shù)據(jù)保全針對電子檔案長期保存與利用過程中的安全問題,旨在固化其數(shù)據(jù),保障數(shù)據(jù)完整可用,維護電子檔案的證據(jù)效力。
電子檔案管理方面,由于單套制背景下的電子檔案不存在對應(yīng)的紙質(zhì)檔案,一旦電子文件丟失或產(chǎn)生損壞,將難以找回或進行修復(fù)。而作為管理對象的電子檔案,其本質(zhì)為存儲介質(zhì)中按一定形式組織的數(shù)字比特,相比于紙質(zhì)檔案更易在長期保存中產(chǎn)生損壞或直接丟失。現(xiàn)有的電子檔案安全保護措施難以有效規(guī)避這一風(fēng)險,因此無法提供單套制管理施行所需要的安全環(huán)境。以常用的數(shù)字備份策略為例:首先,備份與本體數(shù)據(jù)存在著一定時間范圍內(nèi)同時損壞的可能性;其次,備份或本體數(shù)據(jù)產(chǎn)生的損壞無法被實時檢測與報告,管理人員難以及時發(fā)現(xiàn),采取的措施一般是滯后的;最后,增加備份次數(shù)以及異地備份等措施將降低數(shù)據(jù)面臨的損壞風(fēng)險,但在海量電子檔案的體量下,這會產(chǎn)生巨大的成本[5]。因此,實行電子檔案數(shù)據(jù)保全可以作為補充措施優(yōu)化單套制背景下的電子檔案管理。
國家政策方面,近年發(fā)布的有關(guān)檔案信息化建設(shè)的政策大多都關(guān)注了電子檔案的安全問題,強調(diào)在檔案管理數(shù)字化轉(zhuǎn)型過程中保障電子檔案安全的重要意義。如《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中以“堅守安全底線”作為工作原則之一,要求“壓實安全責任,確保檔案安全”,并提出了強化檔案安全保護和提升電子檔案安全管理能力的主要任務(wù);國家檔案局于2010年發(fā)布的《數(shù)字檔案館建設(shè)指南》要求建設(shè)電子檔案的安全保障體系,并指出措施之一為采用一定的技術(shù)方法,建設(shè)必要的軟硬件設(shè)施。
此外,保護電子檔案主要在于維護其證據(jù)效力,這正是數(shù)據(jù)保全的主旨所在。在法律層面,目前國家尚未出臺專門的電子證據(jù)法,但電子文件在現(xiàn)有法律中擁有等同于證據(jù)的地位[6],電子檔案的證據(jù)效力維護不僅需要遵循傳統(tǒng)證據(jù)的認定規(guī)則,還要充分考慮電子數(shù)據(jù)的不同特性。
電子檔案數(shù)據(jù)保全的相關(guān)理論與實踐發(fā)展尚處于探索階段,因此,在已落地項目的實踐基礎(chǔ)上總結(jié)經(jīng)驗,從而豐富和拓展理論相當重要。目前國內(nèi)已從理論探索階段走到實際應(yīng)用階段,且完成度和知名度較高的數(shù)據(jù)保全的實踐案例主要有重慶郵電大學(xué)電子保全認證中心(以下簡稱重郵保全中心)和蘇州大學(xué)蘇航檔案數(shù)據(jù)保全中心(以下簡稱蘇航保全中心)等。
重郵保全中心集成了數(shù)據(jù)摘要、電子簽名、時間戳和地理戳等信息技術(shù),開發(fā)出具有電子數(shù)據(jù)收集、分析和取證的電子數(shù)據(jù)保全系統(tǒng)。該系統(tǒng)能夠?qū)﹄娮訑?shù)據(jù)進行認證,從而保證其司法證據(jù)效力。重郵保全中心作為具有公信力的第三方機構(gòu),保障了電子政務(wù)和醫(yī)療等領(lǐng)域的電子數(shù)據(jù)證據(jù)效力,為檔案數(shù)據(jù)保全的研究和發(fā)展提供了參考。
蘇航保全中心于2018年成立,并首次提出了“檔案數(shù)據(jù)保全”的理念。其檔案數(shù)據(jù)保全系統(tǒng)采用了三角模型對比法,以計算電子檔案數(shù)據(jù)的哈希摘要并加蓋可信時間戳的方式來固化數(shù)據(jù),通過多套備份加監(jiān)測程序?qū)崿F(xiàn)檔案數(shù)據(jù)的保全。2022年國家檔案局發(fā)布的《電子檔案證據(jù)效力維護規(guī)范(征求意見稿)》給出了“電子檔案數(shù)據(jù)保全系統(tǒng)”的定義,要求其具備“檔案存證”“數(shù)據(jù)監(jiān)測”“錯誤修復(fù)”“過程追溯”等功能。根據(jù)這些要求,相關(guān)的檔案數(shù)據(jù)保全系統(tǒng)還在不斷完善中。
電子檔案數(shù)據(jù)保全的實現(xiàn)缺乏權(quán)威的標準指導(dǎo)。國家檔案局于2020年3月發(fā)布的《檔案信息化標準體系建設(shè)指南》總結(jié)了檔案信息化各階段的標準制定情況,其中“信息保障”體系的“資源安全”相關(guān)標準均尚未制定,“系統(tǒng)安全”與“網(wǎng)絡(luò)安全”相關(guān)標準還不夠完善。學(xué)術(shù)界針對“電子檔案數(shù)據(jù)保全”的相關(guān)研究數(shù)量較少,尚未形成成熟的體系,電子檔案數(shù)據(jù)保全的實行還在探索階段。
電子檔案數(shù)據(jù)保全的探索缺少技術(shù)支持。一方面,電子檔案數(shù)據(jù)保全的探索基于數(shù)字檔案管理系統(tǒng)展開,需要深入了解檔案數(shù)字化管理的流程;另一方面,海量電子檔案數(shù)據(jù)的保全的實行需要區(qū)塊鏈等新興計算機技術(shù)的引入[7]。檔案行業(yè)正處于信息化變革的過程之中,在電子檔案數(shù)據(jù)保全的探索過程中需要更多的信息技術(shù)支持。
電子檔案數(shù)據(jù)保全需要更多實踐的檢驗。目前,電子檔案數(shù)據(jù)保全在業(yè)界內(nèi)主要處于理論論證階段,尚未進行廣泛的實踐驗證,成功經(jīng)驗的參考不足[8],業(yè)內(nèi)的認可程度不夠高。此外,單套制管理模式的推行情況以及信息化管理水平也是影響電子檔案數(shù)據(jù)保全探索與實行的重要影響因素。
根據(jù)電子檔案數(shù)據(jù)保全的現(xiàn)狀以及一定范圍內(nèi)的實踐經(jīng)驗參考,本文提出基于區(qū)塊鏈技術(shù)構(gòu)建一套電子檔案數(shù)據(jù)保全的模式,以及在電子檔案體量加速增長的現(xiàn)狀下,該模式未來的發(fā)展目標。
國家檔案局于2010年發(fā)布的《數(shù)字檔案館建設(shè)指南》及2014年發(fā)布的《數(shù)字檔案館系統(tǒng)測試辦法》為我國數(shù)字檔案館建設(shè)提供了理論指導(dǎo)與評測方法,在形勢與政策的大力推動下,至2020年底,經(jīng)省級及以上檔案主管部門認證的數(shù)字檔案館數(shù)量達到323個[9],檔案館建設(shè)了大量電子檔案管理系統(tǒng)進行電子檔案的接收、管理和利用。
電子檔案數(shù)據(jù)保全系統(tǒng)的構(gòu)建應(yīng)以具體檔案機構(gòu)的電子檔案管理系統(tǒng)為基礎(chǔ),在電子檔案管理和利用的過程前后維護其數(shù)據(jù)安全,保障利用過程中的電子檔案的“四性”。當檔案館自行實行保全措施時,對于所保全的數(shù)據(jù)源處理方式有兩種,其一為保全一份副本,而管理系統(tǒng)利用另一份副本,當出現(xiàn)數(shù)據(jù)損壞時從保全副本中恢復(fù);其二為接管管理系統(tǒng)的數(shù)據(jù)源進行保全,并提供可擴展的數(shù)據(jù)推送接口,與管理系統(tǒng)進行對接,為其提供安全的數(shù)據(jù)以供利用,同時避免管理系統(tǒng)的相關(guān)程序影響保全數(shù)據(jù)。后者從保全效率與成本方面綜合考慮,宜成為保全模式的首選之策。而借助第三方機構(gòu)提供的服務(wù)進行數(shù)據(jù)保全時,也應(yīng)立足于電子檔案管理系統(tǒng)的業(yè)務(wù)需求,充分考慮數(shù)據(jù)交接的方式以及交接前后的結(jié)構(gòu)。
區(qū)塊鏈是近年來學(xué)術(shù)界和工業(yè)界的熱點研究話題,借由區(qū)塊鏈進行數(shù)據(jù)的存證與公證是維護數(shù)據(jù)公信力的重要手段之一[10]。SF/T 0076—2020明確了電子數(shù)據(jù)的存證的技術(shù)要求,自建公證平臺或使用第三方公證機構(gòu)所提供的服務(wù)平臺應(yīng)符合其第五章所作規(guī)定。
電子檔案數(shù)據(jù)保全需要以公證平臺區(qū)塊鏈存證作為根本保障,在存證系統(tǒng)中,將電子文件的哈希校驗值作為其數(shù)據(jù)真實完整的憑證,協(xié)同對應(yīng)的文件索引信息,存入?yún)^(qū)塊鏈中,從而固化電子檔案的校驗憑證,完成電子檔案的存證步驟。必要時可以通過可信時間戳和數(shù)字簽名技術(shù)對哈希校驗值的本地存儲文件進行認證,強化校驗憑證的證明效力。檔案利用時需要使用平臺的公證服務(wù),獲得可信的校驗憑證,并對利用中檔案的校驗值進行驗證,從而保障電子檔案的證據(jù)效力[11]。
哈希值校驗技術(shù)是電子數(shù)據(jù)防篡改的有效手段之一,電子檔案的哈希校驗值是通過一定的哈希散列算法計算文件的二進制數(shù)據(jù)后得來,任何微小的篡改都將使電子檔案的哈希校驗值產(chǎn)生巨大的改變[12]。目前常用的哈希算法有MD5、SHA-1、SHA-2等,國家密碼管理局發(fā)布的系列加密算法中,SM3密碼雜湊算法基于SHA-256改進,能夠更加安全地實現(xiàn)電子檔案哈希校驗,減小哈希碰撞概率,適用于電子檔案數(shù)據(jù)保全中的哈希校驗步驟。
電子檔案數(shù)據(jù)在首次計算哈希校驗值并借助區(qū)塊鏈存證固化后,其篡改、損壞與否便有了判斷根據(jù),因此,數(shù)據(jù)保全需要建立電子檔案數(shù)據(jù)體的實時監(jiān)測模塊,對主從備份均以周期性的系統(tǒng)自動計算來獲取實時哈希校驗值,并與對應(yīng)的初始校驗值進行比對,從而判斷電子檔案是否處于原始狀態(tài)。對于非一致的校驗結(jié)果,程序?qū)陌踩膫浞莞北局蝎@取對應(yīng)數(shù)據(jù)覆蓋出現(xiàn)損壞的數(shù)據(jù),并再次進行驗證,直至其校驗通過,確定其恢復(fù)原始狀態(tài)。以數(shù)據(jù)監(jiān)測為手段,能夠及時發(fā)現(xiàn)并處理發(fā)生篡改或損壞的數(shù)據(jù),規(guī)避電子數(shù)據(jù)徹底丟失的風(fēng)險,保障電子檔案數(shù)據(jù)的安全。
從目前的檔案信息化建設(shè)進度來看,紙質(zhì)檔案仍占據(jù)主要地位,并會在很長一段時間內(nèi)與電子檔案共存[13],且檔案機構(gòu)獨立管理庫存,電子檔案數(shù)據(jù)共享不充分,機構(gòu)個體的電子檔案數(shù)據(jù)量尚能進行單機的存儲和管理。但隨著單套制不斷推行以及檔案工作數(shù)字化進程的加快,電子檔案數(shù)據(jù)的定向積累性將使其體量將不斷增加[14],超過單機承載能力,因此電子檔案數(shù)據(jù)保全也應(yīng)以分布式存儲管理的保全作為發(fā)展目標。
大數(shù)據(jù)時代的分布式存儲和計算技術(shù)已經(jīng)有了一定發(fā)展,其中,基于區(qū)塊鏈技術(shù)的IPFS適合海量檔案數(shù)據(jù)的存儲。通過搭建IPFS服務(wù)集群,將電子檔案分片存儲于集群之中,能夠解決單機存儲空間不足以及性能壓力問題。其版本控制系統(tǒng)能夠提供更佳的文件恢復(fù)功能,結(jié)合模式原本的哈希校驗值存證與數(shù)據(jù)實時監(jiān)測功能,將更加高效地保障電子檔案的安全。此外,IPFS因其去中心化存儲的特點,在數(shù)據(jù)共享方面有天然的優(yōu)勢,能夠為解決電子檔案的安全共享問題提供一定的思路。然而,擁有更加優(yōu)秀的業(yè)務(wù)性能的同時,分布式存儲與保全系統(tǒng)將會帶來更高的建設(shè)與維護成本。
綜上所述,實行電子檔案單套制是時代發(fā)展的必然,在此過程中,電子檔案的數(shù)據(jù)安全問題需要得到解決?;趨^(qū)塊鏈技術(shù)為電子檔案數(shù)據(jù)的哈希校驗值提供的存證與公證服務(wù)固化了其真實、完整與可用性憑證,這使得保全系統(tǒng)具備了對電子檔案進行實時監(jiān)測與異常修復(fù)的條件,保障電子檔案管理系統(tǒng)的檔案存儲與利用過程中的檔案數(shù)據(jù)安全。而在電子檔案的數(shù)據(jù)體量不斷增加的現(xiàn)狀下,基于區(qū)塊鏈構(gòu)建IPFS以實現(xiàn)電子檔案的分布式保全成為未來的應(yīng)對之策。該電子檔案數(shù)據(jù)保全模式是基于檔案行業(yè)信息化建設(shè)現(xiàn)狀所提出的、初步實現(xiàn)的檔案數(shù)據(jù)保全的探索。隨著信息技術(shù)的發(fā)展以及檔案信息化建設(shè)的推進,電子檔案的安全保障可能由二進制數(shù)據(jù)的保全化作對檔案內(nèi)容的保全,以適應(yīng)檔案信息化建設(shè)更深層次的需求。