黃 帥 唐筠杰/上海大學(xué)圖書情報(bào)檔案系
隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,作為承載社會(huì)信息的重要載體,檔案的內(nèi)涵與外延均正發(fā)生巨大變化,檔案界提出從數(shù)據(jù)角度對(duì)檔案進(jìn)行管理。于英香從時(shí)間軸、空間軸、狀態(tài)軸三個(gè)維度對(duì)檔案數(shù)據(jù)的特征進(jìn)行表述,認(rèn)為檔案數(shù)據(jù)的價(jià)值已上升至多元,并基于“價(jià)值重構(gòu)”的思想提出一種針對(duì)檔案數(shù)據(jù)管理的新模式[1]。金波與晏秦從數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)共享、數(shù)據(jù)管理空間以及數(shù)據(jù)管理環(huán)境四個(gè)方面對(duì)數(shù)據(jù)管理的特點(diǎn)進(jìn)行描述,認(rèn)為其不僅是一種先進(jìn)的管理技術(shù),更是一種全新的思維理念[2]。不斷革新的技術(shù)給檔案管理領(lǐng)域帶來了諸多挑戰(zhàn),檔案工作者必須從數(shù)據(jù)管理角度對(duì)新技術(shù)環(huán)境下的檔案數(shù)據(jù)及檔案數(shù)據(jù)管理進(jìn)行探索。
2019年2月,國(guó)家檔案局公布《基于非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲(chǔ)規(guī)范(征求意見稿)》,指出“檔案數(shù)據(jù)包括電子檔案的內(nèi)容數(shù)據(jù)、傳統(tǒng)載體檔案數(shù)字化副本的內(nèi)容數(shù)據(jù)以及兩者的元數(shù)據(jù)(含目錄數(shù)據(jù))”[3]。雖然檔案數(shù)據(jù)作為數(shù)據(jù)的種概念,可以繼承數(shù)據(jù)的特征,但檔案數(shù)據(jù)與一般數(shù)據(jù)還是存在較大差異。具體來說,數(shù)據(jù)可服務(wù)于多種目的之下,但其本身并不具有目的性,一旦失去了這些目的,數(shù)據(jù)就沒有了任何價(jià)值;而檔案數(shù)據(jù)在生成之初便被賦予了明確的目的性,檔案數(shù)據(jù)的原始記錄性是在其生成時(shí)就存在的,根本目的就是為了長(zhǎng)期保存以備查考。
電子文件誕生以來,檔案界對(duì)新技術(shù)環(huán)境下的檔案管理形式與方法展開了廣泛討論。納入新來源觀、連續(xù)體論、元數(shù)據(jù)控制等理論后,電子文件管理形成了一套較為完善的體系。而檔案數(shù)據(jù)管理作為電子文件管理的新階段,其理論架構(gòu)的構(gòu)建還在研究探討之中。周楓和楊智勇運(yùn)用5W1H分析法對(duì)檔案數(shù)據(jù)管理進(jìn)行研究,剖析了檔案數(shù)據(jù)管理中需要研究的方向及可使用的方法手段[4]。陳雪燕和于英香在分析了檔案數(shù)據(jù)管理與傳統(tǒng)檔案管理的融通和沖突后,闡明了向檔案數(shù)據(jù)管理范式轉(zhuǎn)型的要點(diǎn)[5]。
通過以上研究可以看出,檔案數(shù)據(jù)管理的研究還處于起步階段,其研究范圍與內(nèi)容都還不夠深入。當(dāng)前新技術(shù)的出現(xiàn)為檔案數(shù)據(jù)管理帶來了新的機(jī)遇與挑戰(zhàn),機(jī)遇體現(xiàn)在數(shù)據(jù)研究的熱潮使得檔案數(shù)據(jù)管理開始受到重視,挑戰(zhàn)體現(xiàn)在需要搞清楚較之于傳統(tǒng)檔案管理,檔案數(shù)據(jù)管理的創(chuàng)新點(diǎn)是什么。
數(shù)據(jù)管理這一概念最初興起于計(jì)算機(jī)學(xué)科。金波與晏秦在總結(jié)了不同視角下對(duì)數(shù)據(jù)管理的定義后,將其歸納為“運(yùn)用云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、智慧工程等現(xiàn)代技術(shù)對(duì)數(shù)據(jù)資源進(jìn)行有效的收集、處理、存儲(chǔ)、挖掘和利用,保障數(shù)據(jù)長(zhǎng)期可用,實(shí)現(xiàn)數(shù)據(jù)價(jià)值,提高組織運(yùn)行效率和核心競(jìng)爭(zhēng)力”[6]。由此可見,數(shù)據(jù)管理用以支撐人們對(duì)數(shù)據(jù)進(jìn)行復(fù)雜而多樣的智能處理需求,是數(shù)據(jù)使用的基石。
數(shù)據(jù)管理使得檔案界人士對(duì)檔案管理模式的認(rèn)知發(fā)生了根本性變化,即開始認(rèn)同數(shù)據(jù)的價(jià)值,并探索“全數(shù)據(jù)”檔案管理模式,推動(dòng)檔案管理范式逐漸轉(zhuǎn)型為檔案數(shù)據(jù)管理范式[7]。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為一種核心力量,其價(jià)值已不再局限于傳統(tǒng)的D-I-K-W(數(shù)據(jù)—信息—知識(shí)—智慧)金字塔模型,技術(shù)直接賦予了數(shù)據(jù)話語權(quán)。如何組織、挖掘和利用檔案數(shù)據(jù),成為當(dāng)前檔案管理的重點(diǎn)所在。因此要構(gòu)建全新的檔案數(shù)據(jù)管理理念,充分發(fā)揮出檔案數(shù)據(jù)的作用。
將數(shù)據(jù)管理引入檔案管理知識(shí)體系后,由于不同學(xué)科體系對(duì)事物及問題揭示的深度與廣度不同,檔案的形態(tài)、價(jià)值及其實(shí)現(xiàn)途徑將面臨沖擊,引發(fā)檔案知識(shí)體系重構(gòu)。首先,檔案存在形式將發(fā)生變化。傳統(tǒng)檔案的原始記錄性規(guī)定了檔案的基礎(chǔ)存在形式,在新技術(shù)環(huán)境下,檔案數(shù)據(jù)也應(yīng)滿足這一形式。換言之,滿足系統(tǒng)性要求的原始記錄形式的數(shù)據(jù),即可作為檔案數(shù)據(jù)。其次,檔案管理原則將發(fā)生變革。在萬變不離其“宗”的傳統(tǒng)檔案管理體系下,以事由原則為基礎(chǔ)的主題檢索與利用將成為可能,而利用索引技術(shù)甚至可能出現(xiàn)全宗不再是“剛需”的狀態(tài)。最后,檔案價(jià)值鑒定規(guī)則將發(fā)生變化。檔案數(shù)據(jù)難以獨(dú)立地發(fā)揮作用,需要與多種數(shù)據(jù)一同被處理,只有保證數(shù)據(jù)與數(shù)據(jù)之間的完整聯(lián)系才能體現(xiàn)檔案數(shù)據(jù)的全部?jī)r(jià)值。
傳統(tǒng)檔案的應(yīng)用場(chǎng)景多為本組織內(nèi)部,如政府部門、企業(yè)等內(nèi)部使用,而數(shù)據(jù)管理改變了檔案數(shù)據(jù)的主要應(yīng)用場(chǎng)景。首先,檔案數(shù)據(jù)不再受空間限制,組織外人員使用檔案數(shù)據(jù)的幾率會(huì)極大增加,檔案數(shù)據(jù)應(yīng)用群體從組織內(nèi)人員轉(zhuǎn)向社會(huì)大眾。其次,由于檔案數(shù)據(jù)來源廣泛,任何數(shù)據(jù)都有成為檔案數(shù)據(jù)的可能,檔案數(shù)據(jù)不再處于供給不足的狀態(tài)。因此如何從海量檔案數(shù)據(jù)中發(fā)掘出有價(jià)值的檔案數(shù)據(jù),并使其發(fā)揮出最大價(jià)值將成為新的關(guān)注點(diǎn),檔案數(shù)據(jù)的應(yīng)用方式從收集保管轉(zhuǎn)向價(jià)值挖掘。最后,使用者對(duì)檔案資源的需求已不再局限于公文、文獻(xiàn)、記錄類資源,開始拓展至圖像、音頻、視頻等多媒體數(shù)據(jù),檔案數(shù)據(jù)應(yīng)用范圍從文獻(xiàn)資源轉(zhuǎn)向數(shù)據(jù)資源。
以符合新技術(shù)環(huán)境的要求對(duì)檔案數(shù)據(jù)進(jìn)行存儲(chǔ),是新技術(shù)環(huán)境下檔案數(shù)據(jù)管理最為基礎(chǔ)的一步。檔案數(shù)據(jù)的存儲(chǔ)為后期檔案數(shù)據(jù)的利用奠定了基礎(chǔ),高質(zhì)量的檔案數(shù)據(jù)存儲(chǔ)環(huán)境才能真正發(fā)揮數(shù)據(jù)的價(jià)值,因此存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫必須具有高適應(yīng)性、高擴(kuò)展性。針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫在檔案數(shù)據(jù)存儲(chǔ)中的局限,利用分布式非關(guān)系型NoSQL數(shù)據(jù)庫的抗單點(diǎn)故障能力和動(dòng)態(tài)伸縮性特點(diǎn),在保證高效讀寫和靈活管理多結(jié)構(gòu)檔案數(shù)據(jù)的同時(shí),使檔案存儲(chǔ)具有良好的適應(yīng)性、可靠性和擴(kuò)展性[8]。傳統(tǒng)關(guān)系型數(shù)據(jù)庫模型一般存在檢索速度慢、結(jié)果質(zhì)量低、橫向擴(kuò)展差等問題,而NoSQL數(shù)據(jù)庫能實(shí)現(xiàn)檔案數(shù)據(jù)庫整體功能的負(fù)載均衡與故障轉(zhuǎn)移,提高檔案數(shù)據(jù)存儲(chǔ)的質(zhì)量,滿足高速度高質(zhì)量的檢索要求,實(shí)現(xiàn)檔案數(shù)據(jù)由“資源”向“資產(chǎn)”轉(zhuǎn)變。
對(duì)檔案數(shù)據(jù)進(jìn)行挖掘利用可使用Web數(shù)據(jù)挖掘技術(shù),根據(jù)不同用戶的行為特征提供個(gè)性化檔案數(shù)據(jù)服務(wù),使檔案數(shù)據(jù)與用戶需求雙向控制達(dá)到最優(yōu)化。Web數(shù)據(jù)挖掘技術(shù)可從Web文檔及活動(dòng)中抽取出潛在的信息,挖掘多種類型的數(shù)據(jù)。該技術(shù)主要利用在線服務(wù)用戶需求模型功能,即對(duì)用戶在線的檔案數(shù)據(jù)使用行為進(jìn)行挖掘,獲取用戶在網(wǎng)絡(luò)交互過程中的二手?jǐn)?shù)據(jù)。再對(duì)用戶行為進(jìn)行跟蹤,進(jìn)而分析出不同用戶的興趣,動(dòng)態(tài)地提供定制化檔案數(shù)據(jù)利用服務(wù)。利用Web數(shù)據(jù)挖掘技術(shù)識(shí)別檔案數(shù)據(jù)用戶的真實(shí)需求,使得檔案數(shù)據(jù)服務(wù)更加生動(dòng),推動(dòng)以用戶為中心的個(gè)性化檔案數(shù)據(jù)服務(wù)。
檔案數(shù)據(jù)具有高度易變性,因此在儲(chǔ)存、傳輸與處理等過程中極易被篡改,且受到攻擊后一般難以恢復(fù)。檔案數(shù)據(jù)所強(qiáng)調(diào)的真實(shí)性主要依賴于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)的信任,當(dāng)數(shù)據(jù)存儲(chǔ)系統(tǒng)不再可信時(shí),該系統(tǒng)中的所有檔案數(shù)據(jù)都可能不再真實(shí),會(huì)導(dǎo)致比數(shù)據(jù)丟失更加嚴(yán)重的后果。使用區(qū)塊鏈技術(shù)可消除潛在風(fēng)險(xiǎn),保障檔案數(shù)據(jù)安全。首先,區(qū)塊鏈技術(shù)具有高度防篡改性[9],能夠保證檔案數(shù)據(jù)真實(shí)可靠。其次,區(qū)塊鏈沒有集中的硬件或者管理組織,能實(shí)現(xiàn)檔案數(shù)據(jù)的多主體治理。最后,采用公有鏈與聯(lián)盟鏈相結(jié)合的安全防護(hù)機(jī)制,推動(dòng)檔案數(shù)據(jù)鏈?zhǔn)奖Wo(hù)思維的建立,以極大地提高檔案數(shù)據(jù)的保密性。此外,將區(qū)塊鏈技術(shù)運(yùn)用于檔案數(shù)據(jù)保護(hù)模式中,還能防范由于內(nèi)部成員共謀引發(fā)的安全事故。
一是檔案數(shù)據(jù)的經(jīng)濟(jì)價(jià)值問題。以往檔案學(xué)研究并不過多關(guān)注檔案的“經(jīng)濟(jì)效益”[10],而且實(shí)踐工作更強(qiáng)調(diào)社會(huì)效益。而對(duì)檔案數(shù)據(jù)進(jìn)行研究時(shí),應(yīng)注重研究其產(chǎn)生的經(jīng)濟(jì)價(jià)值。目前檔案數(shù)據(jù)潛在的經(jīng)濟(jì)價(jià)值已逐漸展現(xiàn),關(guān)注檔案數(shù)據(jù)的經(jīng)濟(jì)效益,能夠更好地實(shí)現(xiàn)檔案數(shù)據(jù)的社會(huì)價(jià)值。二是檔案數(shù)據(jù)的產(chǎn)權(quán)歸屬問題。以社交媒體檔案數(shù)據(jù)為例,人們通過社交媒體發(fā)布個(gè)人數(shù)據(jù)時(shí),與自身隱私相關(guān)的基礎(chǔ)檔案數(shù)據(jù)便成為了公共資源,其他用戶一旦采集這些數(shù)據(jù)并加以分析利用,那么這些再生數(shù)據(jù)的相關(guān)權(quán)利可能屬于研究者,可能屬于形成者,也可能屬于數(shù)據(jù)提供者。所以需要對(duì)檔案數(shù)據(jù)的產(chǎn)權(quán)及相關(guān)權(quán)責(zé)進(jìn)行更加深刻和具體的討論,結(jié)合具體情況進(jìn)行分析。
一方面,支持閱讀各模式下的通用數(shù)據(jù)解讀規(guī)則還沒有建成。DDI(the Data Documentation Initiative)作為一套國(guó)際元數(shù)據(jù)管理標(biāo)準(zhǔn),雖被廣泛用于國(guó)外社會(huì)科學(xué)數(shù)據(jù)歸檔活動(dòng)中,但沒有對(duì)變量名稱、編碼說明進(jìn)行標(biāo)準(zhǔn)化規(guī)定,利用者在描述檔案數(shù)據(jù)時(shí)可能會(huì)出現(xiàn)偏差。克莉絲汀·伯格曼教授(Christine L. Borgman)就以“年齡”字段為例,提出由于不同記錄者的記錄習(xí)慣不同,年齡字段既可以解釋為歲數(shù),也可以解釋為出生年份,如“年齡”字段中的“59”既可表示“59歲”,也可表示“出生年份為1959年”。缺少了對(duì)檔案數(shù)據(jù)變量名以及編碼的說明性描述,檔案數(shù)據(jù)的價(jià)值會(huì)大打折扣[11],有時(shí)甚至?xí)o法使用。
另一方面,檔案數(shù)據(jù)形式眾多,沒有統(tǒng)一的數(shù)據(jù)挖掘解碼標(biāo)準(zhǔn)使得研究者需要采用多種解碼方式對(duì)數(shù)據(jù)進(jìn)行分析。由于各機(jī)構(gòu)都有一套獨(dú)立的數(shù)據(jù)庫管理體系,不同機(jī)構(gòu)對(duì)其內(nèi)部的檔案數(shù)據(jù)描述語言不盡相同,利用時(shí)需要使用多種解碼方式對(duì)檔案數(shù)據(jù)進(jìn)行分析,工作效率不高。此外,由于研究的要求不盡相同,多數(shù)情形下需要將非結(jié)構(gòu)化數(shù)據(jù)重組為結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)不是很適用于理論論證性研究,因此研究者在利用大數(shù)據(jù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究后,都要再次使用一套算法,將非結(jié)構(gòu)化數(shù)據(jù)整合成結(jié)構(gòu)化數(shù)據(jù),為進(jìn)一步的研究所用[12]。因此,重構(gòu)檔案數(shù)據(jù)管理的內(nèi)部規(guī)則是必要之舉。