王子鵬/江蘇開(kāi)放大學(xué)
2019年10月,習(xí)近平總書(shū)記在中央政治局第十八次集體學(xué)習(xí)時(shí)強(qiáng)調(diào),要把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新重要突破口,加快推動(dòng)區(qū)塊鏈技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展[1]。在我國(guó)大力發(fā)展區(qū)塊鏈技術(shù)創(chuàng)新應(yīng)用的大背景下,“區(qū)塊鏈+”必然給檔案工作帶來(lái)機(jī)遇和挑戰(zhàn)。一方面,檔案的根本屬性是原始記錄性,檔案工作的內(nèi)容與方式必然會(huì)根據(jù)社會(huì)的變革作出相應(yīng)調(diào)整;另一方面,區(qū)塊鏈可以實(shí)現(xiàn)數(shù)據(jù)記錄永不被刪除、不可篡改,這一特性與信息時(shí)代電子文件管理的要求高度契合。近年來(lái),區(qū)塊鏈成為檔案學(xué)研究的熱門(mén)前沿話題,同時(shí)還涌現(xiàn)出相應(yīng)的實(shí)踐探索項(xiàng)目,這些項(xiàng)目為我們理解區(qū)塊鏈提供了較好的途徑。正如劉越男教授所言,“當(dāng)我們對(duì)區(qū)塊鏈下的文件檔案管理沒(méi)有太多思路的時(shí)候,收集、跟蹤并挖掘這些案例,分析不同方案中文件構(gòu)成及其管理要點(diǎn),是我們獲取理論和方法的重要源頭”[2]。基于這個(gè)思路,本文采用多案例研究方法,試圖厘清區(qū)塊鏈和電子文件管理的邏輯契合點(diǎn),探究區(qū)塊鏈在電子文件管理方面的應(yīng)用前景。
在檔案領(lǐng)域結(jié)合區(qū)塊鏈方面,國(guó)外的相關(guān)研究起步較早,且在實(shí)踐探索上取得了一定成果。薩里大學(xué)聯(lián)合英國(guó)國(guó)家檔案館等機(jī)構(gòu)聯(lián)合開(kāi)展ARCHANGEL項(xiàng)目研究,旨在探索通過(guò)區(qū)塊鏈技術(shù)確保公共數(shù)字檔案記錄的完整性[3];InterPARES Trust 歐洲團(tuán)隊(duì)基于“帶時(shí)間戳、電子印章的數(shù)字簽名可信保存模型項(xiàng)目”[4],開(kāi)發(fā)出TrustChain模型,嘗試采用區(qū)塊鏈加密數(shù)字簽名的方法長(zhǎng)期保持電子文件的可信度[5];劉越男從數(shù)字檔案長(zhǎng)期保存視角介紹了上述兩個(gè)項(xiàng)目相關(guān)情況[6],楊茜茜著重分析了英國(guó)ARCHANGEL項(xiàng)目的啟示[7]。我國(guó)檔案學(xué)界關(guān)于區(qū)塊鏈的研究緊跟世界發(fā)達(dá)國(guó)家步伐,正從純粹的理論探討轉(zhuǎn)向應(yīng)用性研究。張倩提出構(gòu)建高校學(xué)生檔案區(qū)塊鏈征信管理平臺(tái)[8]和藝術(shù)檔案管理系統(tǒng)[9];聶云霞分析了基于區(qū)塊鏈的政務(wù)檔案信息共享策略[10];王平借鑒OAIS模型構(gòu)建基于區(qū)塊鏈的電子文件可信保護(hù)框架[11];馬仁杰設(shè)想基于聯(lián)盟區(qū)塊鏈搭建長(zhǎng)三角檔案信息資源共享模式[12]等。從現(xiàn)有的項(xiàng)目或論文中,筆者遴選了RecordKeeper項(xiàng)目、TrustChain模型、可信保護(hù)框架模型、ARCHANGEL項(xiàng)目作為研究對(duì)象。選取原則有三點(diǎn):一是案例針對(duì)性強(qiáng),側(cè)重解決檔案管理中突出的問(wèn)題;二是案例均提出了明確的技術(shù)框架,具有很強(qiáng)的實(shí)踐性;三是案例技術(shù)路線各異,有利于橫向比較分析。
該項(xiàng)目的中文名稱為“記錄保存和數(shù)據(jù)安全解決方案”,是一個(gè)沒(méi)有檔案機(jī)構(gòu)參與、以電子文件管理為主題的區(qū)塊鏈商業(yè)項(xiàng)目。項(xiàng)目擬為組織和個(gè)人提供結(jié)構(gòu)化的、易于訪問(wèn)的、安全可靠的電子文件可信保存服務(wù)。其技術(shù)邏輯為,當(dāng)用戶上傳一份電子文件時(shí),RecordKeeper將文件本身存儲(chǔ)于中心數(shù)據(jù)庫(kù),同時(shí)對(duì)文件簡(jiǎn)要記錄和元數(shù)據(jù)進(jìn)行加密形成哈希值,并將哈希值推送至區(qū)塊鏈分布式賬本。一旦電子文件發(fā)生變更,區(qū)塊鏈上記錄的哈希值將隨之改變。用戶也可以通過(guò)客戶端的哈希校驗(yàn)功能,來(lái)檢驗(yàn)電子文件是否被篡改。關(guān)于共識(shí)機(jī)制,本項(xiàng)目采用工作量證明(Proof of Work,PoW)方式進(jìn)行數(shù)據(jù)驗(yàn)證和記賬工作,各網(wǎng)絡(luò)節(jié)點(diǎn)需要“挖礦”來(lái)爭(zhēng)奪記賬權(quán)。RecordKeeper的目標(biāo)為盈利,其網(wǎng)絡(luò)共識(shí)節(jié)點(diǎn)亦是自利的,最大化自身收益是各節(jié)點(diǎn)參與數(shù)據(jù)驗(yàn)證和記賬的根本目標(biāo)。所以,項(xiàng)目通過(guò)發(fā)行虛擬貨幣的方式實(shí)現(xiàn)自身盈利和節(jié)點(diǎn)激勵(lì)。作為用戶,需要購(gòu)買(mǎi)虛擬貨幣才能享受電子文件可信保存服務(wù)。
RecordKeeper項(xiàng)目值得被關(guān)注的原因在于:一是項(xiàng)目屬于純商業(yè)性質(zhì),預(yù)示著未來(lái)可能存在非傳統(tǒng)檔案機(jī)構(gòu)從事電子文件管理服務(wù);二是項(xiàng)目毫無(wú)檔案專業(yè)背景,只關(guān)注電子文件的真實(shí)性,其技術(shù)框架極為簡(jiǎn)潔;三是為檔案機(jī)構(gòu)提供了一種可能性,即面向全社會(huì)開(kāi)展有償?shù)碾娮游募尚殴芾矸?wù)。但從檔案學(xué)視角分析,該項(xiàng)目存在嚴(yán)重問(wèn)題。RecordKeeper聲稱可以解決電子文件安全可信管理的所有問(wèn)題,這恰好反映了項(xiàng)目人員對(duì)檔案學(xué)的了解尚淺;項(xiàng)目目前對(duì)電子文件全生命周期管理沒(méi)有概念,亦不關(guān)注電子文件的完整性、可用性、可靠性和長(zhǎng)久保存問(wèn)題,只關(guān)注電子文件的真實(shí)保存,保存期限取決于該項(xiàng)目在市場(chǎng)競(jìng)爭(zhēng)中的生存周期。
2019年12月18日,筆者已無(wú)法訪問(wèn)該項(xiàng)目的官方網(wǎng)站。如果網(wǎng)站無(wú)法正常訪問(wèn)就意味著該項(xiàng)目的失敗,那么RecordKeeper商業(yè)項(xiàng)目存活周期不足2年。
數(shù)字簽名是歐洲檔案領(lǐng)域用來(lái)確保電子文件真實(shí)性、權(quán)威性、完整性的有效手段,而其長(zhǎng)期可信保存一直是電子文件管理的重難點(diǎn)。原因在于,手寫(xiě)簽名與數(shù)字簽名存在明顯差異,前者在不同紙質(zhì)文檔上表現(xiàn)出一致性,而后者作為二進(jìn)制字符串在不同電子文件上必須相異。如果將相同字符串用于多個(gè)文檔,那么任何收到電子文件的人都可以簡(jiǎn)單地復(fù)制該字符串并將其附加到另一個(gè)文檔,偽造數(shù)字簽名。所以,數(shù)字簽名通常是加密的、非開(kāi)源代碼的數(shù)字格式,隨著軟硬件環(huán)境的變化會(huì)出現(xiàn)簽名失敗、驗(yàn)證失效等問(wèn)題。區(qū)塊鏈技術(shù)的出現(xiàn),為解決數(shù)字簽名可信保存問(wèn)題提供了可靠的技術(shù)路徑。InterPARES Trust“帶時(shí)間戳、電子印章的數(shù)字簽名可信保存模型項(xiàng)目”在上述背景下應(yīng)運(yùn)而生,該項(xiàng)目由克羅地亞薩格勒布大學(xué)Hrvoje Stan?i?教授領(lǐng)銜的研究團(tuán)隊(duì)完成,TrustChain模型為該項(xiàng)目主要研究成果。該模型采用聯(lián)盟鏈的方式,擬由檔案機(jī)構(gòu)及相關(guān)權(quán)威組織承擔(dān)區(qū)塊鏈分布式賬本的節(jié)點(diǎn)功能。這種方式工作效率校高,亦無(wú)需發(fā)行虛擬貨幣。TrustChain模型技術(shù)邏輯為:第一步,當(dāng)一份含數(shù)字簽名的電子文件接收入館時(shí),首先向數(shù)字簽名頒發(fā)機(jī)構(gòu)查詢數(shù)字簽名真?zhèn)?;第二步,在?shù)字簽名為真的情況下計(jì)算數(shù)字簽名和文檔的哈希值,并形成由哈希值、文檔鏈接、時(shí)間戳、元數(shù)據(jù)等組成的TrustChain記錄值;第三步,所有或部分節(jié)點(diǎn)對(duì)TrustChain記錄值進(jìn)行投票,在通過(guò)的情況下將其登記入?yún)^(qū)塊鏈賬本永久保存。
TrustChain模型存在明顯的邏輯冗余:數(shù)字簽名確保電子文件為真,區(qū)塊鏈再證明數(shù)字簽名為真。歐盟認(rèn)可數(shù)字簽名的法律效力,所以TrustChain模型無(wú)法繞過(guò)數(shù)字簽名這一環(huán)節(jié)。如果歐盟修法認(rèn)可區(qū)塊鏈的法律效力,則區(qū)塊鏈可以繞開(kāi)數(shù)字簽名獨(dú)立承擔(dān)責(zé)任;反之,直接改進(jìn)數(shù)字簽名技術(shù)(而非疊加兩個(gè)技術(shù))將更為簡(jiǎn)潔。區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等技術(shù)的融合體,數(shù)字簽名亦可借鑒區(qū)塊鏈技術(shù)框架、吸收融合先進(jìn)技術(shù)進(jìn)行自我革命,解決現(xiàn)存問(wèn)題。否則一味用新技術(shù)去保障舊技術(shù),這種“貪吃蛇”的模式將導(dǎo)致檔案管理模式愈加繁瑣。
武漢大學(xué)王平等提出國(guó)內(nèi)目前比較完整的“區(qū)塊鏈+電子文件管理”解決方案,本文簡(jiǎn)稱為“可信保護(hù)框架模型”。該框架模型以O(shè)AIS(Open Archival Information System,開(kāi)放檔案信息系統(tǒng))為基礎(chǔ),將數(shù)據(jù)區(qū)塊劃分為提交信息區(qū)塊(Submission Information Block,SIB)、檔案信息區(qū)塊(Archival Information Block,AIB)、分發(fā)信息區(qū)塊(Dissemination Information Block,DIB)三個(gè)部分,分別對(duì)應(yīng)電子文件管理的移交和接收、存儲(chǔ)和管理、利用與銷(xiāo)毀三個(gè)階段,遵循全程管理原則加強(qiáng)電子文件可信性的安全保護(hù)。該框架模型較好的融合了OAIS和區(qū)塊鏈技術(shù),針對(duì)可信電子文件信息區(qū)塊封裝、分布式賬本存儲(chǔ)和信息區(qū)塊提取三個(gè)核心技術(shù)環(huán)節(jié)均提出了具體的技術(shù)方案。
可信保護(hù)框架模型結(jié)合OAIS改造區(qū)塊鏈技術(shù),理論創(chuàng)新性強(qiáng)。與其他案例相比,不僅關(guān)注電子文件管理和利用階段的真實(shí)性管理問(wèn)題,而且嘗試解決電子文件全生命周期可信安全保護(hù)問(wèn)題;并非簡(jiǎn)單套用區(qū)塊鏈技術(shù),而是基于OAIS對(duì)區(qū)塊鏈進(jìn)行細(xì)致的改造,定義了區(qū)塊體、區(qū)塊頭等技術(shù)細(xì)節(jié),研究了區(qū)塊封裝、存儲(chǔ)和提取三個(gè)關(guān)鍵技術(shù)節(jié)點(diǎn)。不過(guò),該模型目前停留在理論階段,尚未研發(fā)出系統(tǒng)原型,對(duì)諸如共識(shí)機(jī)制等區(qū)塊鏈實(shí)踐的核心問(wèn)題亦未提及??紤]到OAIS僅是參考模型和基本概念框架,而非電子文件管理強(qiáng)制標(biāo)準(zhǔn),真實(shí)的電子文件管理實(shí)踐并非嚴(yán)格遵循OAIS模型,所以可信保護(hù)框架模型的普適性還有待進(jìn)一步檢驗(yàn)。
ARCHANGEL項(xiàng)目由薩里大學(xué)聯(lián)合英國(guó)國(guó)家檔案館等機(jī)構(gòu)聯(lián)合開(kāi)展(2017年6月—2019年6月),目的為探索如何利用區(qū)塊鏈技術(shù)確保公共數(shù)字檔案記錄的完整性,以及保證存檔內(nèi)容長(zhǎng)期穩(wěn)定、以不被篡改的形式展現(xiàn),提高檔案管理員和公眾對(duì)數(shù)字檔案的信任。英國(guó)國(guó)家檔案館既是建設(shè)方也是最終用戶,其從檔案專業(yè)視角評(píng)估項(xiàng)目的可行性、可持續(xù)性以及公眾的認(rèn)可度。
ARCHANGEL提供聯(lián)盟鏈和公有鏈兩種共識(shí)模式,方便檔案機(jī)構(gòu)根據(jù)實(shí)際情況靈活選擇。該項(xiàng)目的工作模式是,當(dāng)檔案館接收一份電子文件時(shí),首先采用文件格式識(shí)別工具確定電子文件的格式(例如PDF、Word等),然后通過(guò)與格式匹配的哈希算法從文檔中提取哈希值等內(nèi)容證據(jù)。完成操作后,將電子文件存入檔案館中心數(shù)據(jù)庫(kù),將哈希值、全局唯一標(biāo)識(shí)符(GUID)、哈希計(jì)算過(guò)程唯一標(biāo)識(shí)符等內(nèi)容證據(jù)一起存儲(chǔ)在區(qū)塊鏈分布式賬本。一旦電子文件解密完成,公眾便可以利用區(qū)塊鏈驗(yàn)證電子文件的真?zhèn)渭巴暾?。?xiàng)目組在以太坊公共測(cè)試網(wǎng)上實(shí)施了ARCHANGEL原型,清晰呈現(xiàn)了上述過(guò)程。在實(shí)施過(guò)程中,通過(guò)英國(guó)國(guó)家檔案館開(kāi)發(fā)的DROID(數(shù)字記錄對(duì)象識(shí)別)應(yīng)用程序來(lái)識(shí)別電子文件格式,采用經(jīng)典的SHA-256哈希算法計(jì)算哈希值。用戶界面主要呈現(xiàn)“上傳(Upload)”“搜索(Search)”兩項(xiàng)功能,前者用來(lái)上傳電子文件副本,運(yùn)算出哈希值;后者搜索存儲(chǔ)在檔案館的電子文件哈希值,與前者運(yùn)算出來(lái)的哈希值進(jìn)行比對(duì),如果兩者一致即證明電子文件未被篡改。
ARCHANGEL項(xiàng)目從設(shè)計(jì)理念到原型實(shí)現(xiàn),都抓住了區(qū)塊鏈和電子文件管理的契合點(diǎn),是目前最貼近檔案實(shí)踐的區(qū)塊鏈項(xiàng)目。下一步,項(xiàng)目組打算研發(fā)特定算法以匹配特殊格式電子文件,比如擬采用深度神經(jīng)網(wǎng)絡(luò)(DNN)從視覺(jué)內(nèi)容中提取穩(wěn)健的視覺(jué)特征,該視覺(jué)內(nèi)容對(duì)于該文檔的外觀屬性(例如照明、老化)是不變的。對(duì)于這項(xiàng)計(jì)劃,筆者持保留態(tài)度。第一,對(duì)于文檔來(lái)說(shuō),現(xiàn)有加密完全可以解決電子文件保真需求,深度神經(jīng)網(wǎng)絡(luò)(DNN)更適合博物館而非檔案館;第二,檔案機(jī)構(gòu)自行研究加密算法,用來(lái)驗(yàn)證自身保存的電子文件,相當(dāng)于既當(dāng)裁判員又做運(yùn)動(dòng)員,缺乏公信力。
確保電子文件“四性”的要求與目前信息技術(shù)手段有限的矛盾,導(dǎo)致了電子文件管理流程繁復(fù),這個(gè)問(wèn)題一直被檔案從業(yè)者詬病,實(shí)際上也成為推進(jìn)電子文件單套制、單軌制的主要瓶頸因素。區(qū)塊鏈可以確保電子文件的真實(shí)性,而真實(shí)性又同時(shí)影響完整性。原有流程中確保電子文件真實(shí)性的技術(shù)手段,可以被區(qū)塊鏈以某種形式替代。以元數(shù)據(jù)而例,區(qū)塊鏈的引入可以減少元數(shù)據(jù)的種類、簡(jiǎn)化元數(shù)據(jù)封裝標(biāo)準(zhǔn),大大降低電子文件管理負(fù)擔(dān)。再如,引用區(qū)塊鏈可以減少電子文件對(duì)版式文件的依賴。以ARCHANGEL項(xiàng)目為例,該項(xiàng)目對(duì)不同格式電子文件進(jìn)行類型識(shí)別,然后根據(jù)對(duì)應(yīng)算法進(jìn)行加密,即任何格式的電子文件都可以利用區(qū)塊鏈來(lái)保障其真實(shí)性。
在紙媒時(shí)代,檔案具有載體和信息統(tǒng)一的特質(zhì),即物理結(jié)構(gòu)和邏輯結(jié)構(gòu)一致,檔案解密和開(kāi)放時(shí)被質(zhì)疑的壓力不大。而在數(shù)字時(shí)代,電子文件載體和信息可分離的特性容易導(dǎo)致公眾質(zhì)疑。區(qū)塊鏈的技術(shù)特點(diǎn)可以長(zhǎng)期有效保障電子文件的真實(shí)性,有助于檔案解密與開(kāi)放,ARCHANGEL項(xiàng)目即是最好的注解。比如,英國(guó)國(guó)家檔案館接收7/7恐怖襲擊或Chilcot調(diào)查等電子文件,保密期限可能長(zhǎng)達(dá)一個(gè)世紀(jì)。待解密開(kāi)放之日,公眾能夠利用ARCHANGEL驗(yàn)證這些電子文件的真實(shí)性和來(lái)源。同時(shí),區(qū)塊鏈的智能合約功能,可以實(shí)現(xiàn)在電子檔案保密期滿后自動(dòng)強(qiáng)制開(kāi)放。檔案解密和開(kāi)放的難點(diǎn)在于,檔案館員需要對(duì)大量的到期檔案進(jìn)行二次鑒定并承擔(dān)相應(yīng)責(zé)任,以至于檔案機(jī)構(gòu)傾向于遺忘、回避檔案解密和開(kāi)放問(wèn)題。如果在定密之時(shí)即利用技術(shù)手段明確檔案開(kāi)放日期,且無(wú)需二次鑒定,則檔案解密與開(kāi)放的矛盾將迎刃而解。當(dāng)然,智能合約強(qiáng)行開(kāi)放檔案的風(fēng)險(xiǎn)需要得到恰當(dāng)評(píng)估。
目前,關(guān)于“區(qū)塊鏈+電子文件管理”的研究主要基于檔案館視角,忽略了區(qū)塊鏈對(duì)電子文件生命周期上游生態(tài)產(chǎn)生深刻影響的可能性。比如,奧地利數(shù)據(jù)市場(chǎng)為了自身的可持續(xù)發(fā)展,委托奧地利理工學(xué)院開(kāi)展“區(qū)塊鏈和奧地利數(shù)據(jù)市場(chǎng)項(xiàng)目”,旨在通過(guò)區(qū)塊鏈管理奧地利數(shù)據(jù)市場(chǎng)中的電子文件,確保數(shù)字記錄的真實(shí)性、完整性和可靠性[17]。如果該項(xiàng)目付諸實(shí)踐,奧地利數(shù)據(jù)市場(chǎng)中的電子文件本身即是在區(qū)塊鏈系統(tǒng)中產(chǎn)生和管理。因?yàn)閰^(qū)塊鏈系統(tǒng)本身具有檔案館屬性,所以檔案是否進(jìn)一步歸檔有待實(shí)踐檢驗(yàn)。在此種情況下,檔案機(jī)構(gòu)的最優(yōu)選擇是,作為網(wǎng)絡(luò)共識(shí)節(jié)點(diǎn)接入該區(qū)塊鏈系統(tǒng),并利用側(cè)鏈技術(shù)接收其電子文件。
檔案機(jī)構(gòu)收集管理特定范圍的電子文件,無(wú)法滿足全社會(huì)每個(gè)機(jī)構(gòu)、每個(gè)個(gè)人的訴求。而利用區(qū)塊鏈技術(shù)提供確保電子文件真實(shí)性、權(quán)威性的服務(wù),將成為互聯(lián)網(wǎng)創(chuàng)業(yè)的重要方向之一。而一旦法律認(rèn)可區(qū)塊鏈的憑證價(jià)值,未來(lái)各類型電子文件服務(wù)機(jī)構(gòu)將應(yīng)運(yùn)而生。類似于圖書(shū)館領(lǐng)域,一方面公立圖書(shū)館仍然存在,成為社會(huì)不可缺少的公共服務(wù)機(jī)構(gòu);另一方面數(shù)字圖書(shū)館、網(wǎng)絡(luò)搜索引擎(谷歌、百度)也成為人們生活不可缺少的一部分。