文 / 王曉春
檔案大數(shù)據(jù)研究的批判性考察
文 / 王曉春
檔案大數(shù)據(jù)與流行的“大數(shù)據(jù)”概念之間存在著不容忽視的差別。忽視或無視這些差別不僅會引起人們對檔案大數(shù)據(jù)相關(guān)特性的誤解,而且會使相應(yīng)的研究陷入誤區(qū)。鑒此,文章提出從檔案大數(shù)據(jù)的學(xué)術(shù)規(guī)范建設(shè)、電子檔案法規(guī)的完善以及檔案數(shù)據(jù)化的技術(shù)提升等方面來消弭這些誤解和誤區(qū)。
檔案數(shù)據(jù);概念誤解;研究誤區(qū)
時(shí)下,與“互聯(lián)網(wǎng)+”一樣,“大數(shù)據(jù)”也成為了隨處可見的時(shí)代流行語。檔案行業(yè)也提出了“檔案大數(shù)據(jù)”的概念及其發(fā)展方向?!皺n案大數(shù)據(jù)”這一概念由兩個(gè)關(guān)鍵性子概念——“檔案”與“大數(shù)據(jù)”組成。所謂“大數(shù)據(jù)”是指在數(shù)據(jù)樣本足夠大,即在數(shù)據(jù)量規(guī)?;c數(shù)據(jù)類型多樣化的情況下開展的數(shù)據(jù)采集、處理與價(jià)值提取的技術(shù)架構(gòu)與技術(shù)過程。[1]學(xué)界通常認(rèn)為,“大數(shù)據(jù)”表現(xiàn)出“4V+1O”的特征,即“Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)種類繁富)、Velocity(數(shù)據(jù)處理速度快捷)、Veracity(數(shù)據(jù)真實(shí)可靠)”[2]與Online(數(shù)據(jù)永久在線)。但是,不少學(xué)者提出異議,認(rèn)為“大數(shù)據(jù)”特征是“11V”和“3S”等。可見,對于“大數(shù)據(jù)”的界定,學(xué)界認(rèn)識并不統(tǒng)一。同樣,對于“檔案”的定義,學(xué)界也莫衷一是。根據(jù)《中華人民共和國檔案法》的規(guī)定,檔案的特征基本上可以由三個(gè)要素來描述,即“歷史活動(dòng)”、“存在價(jià)值”與“可用于記錄的載體”。隨著時(shí)代的發(fā)展,這三個(gè)要素也都發(fā)生了一定程度的變化。許多在傳統(tǒng)社會中被視為“不存在價(jià)值”的活動(dòng)在當(dāng)今社會卻是“有價(jià)值的”,如個(gè)人的消費(fèi)活動(dòng)。對于“載體”而言,其外延的變化更為顯著,已經(jīng)由傳統(tǒng)的紙質(zhì)載體轉(zhuǎn)向電子化的文本,如電子文件、照片、錄像、錄音等。綜而觀之,由“檔案”與“大數(shù)據(jù)”所組合的“檔案大數(shù)據(jù)”旨在重點(diǎn)研究檔案數(shù)據(jù)樣本足夠大的情況下,如何更有效更合理地分析和管理檔案數(shù)據(jù)以及如何更為全面地利用關(guān)聯(lián)復(fù)雜化樣態(tài)下的檔案數(shù)據(jù)。參照這一目標(biāo),我們將會發(fā)現(xiàn)目前關(guān)于檔案大數(shù)據(jù)的研究是建立在一定誤解的基礎(chǔ)上,同時(shí)也陷入到一些誤區(qū)之中。
在“信息化”與“網(wǎng)絡(luò)化”這類口號的裹挾下,檔案的大數(shù)據(jù)化變成了檔案信息化即傳統(tǒng)檔案文本電子化、數(shù)字化的代名詞,從而窄化了檔案大數(shù)據(jù)化的研究內(nèi)容,偏離了檔案大數(shù)據(jù)的本質(zhì)內(nèi)容。導(dǎo)致這種現(xiàn)象的原因是忽視或誤解檔案數(shù)據(jù)與現(xiàn)下流行的“大數(shù)據(jù)”特性之間的差別。這些差別通常表現(xiàn)為以下三個(gè)方面。
第一,數(shù)據(jù)屬性的差別。現(xiàn)今流行的“大數(shù)據(jù)”要求數(shù)據(jù)的實(shí)時(shí)性和動(dòng)態(tài)性,從而決定了“數(shù)據(jù)采集、處理都要求具有很強(qiáng)的時(shí)效性”[3]。另外,大數(shù)據(jù)概念中的“大”并不是簡單意義上的“多”,而是指基于即時(shí)自動(dòng)生成的數(shù)量之巨。同時(shí),其數(shù)據(jù)的產(chǎn)生不受到外部的干預(yù)和控制,而是由設(shè)備和機(jī)器“自動(dòng)地生成關(guān)于周圍環(huán)境的數(shù)據(jù)”[4]。然而,不少研究恰恰從數(shù)量“多”的角度來理解檔案大數(shù)據(jù),認(rèn)為只要檔案數(shù)字資源量巨大,就可以稱之為檔案大數(shù)據(jù)。其實(shí),這種檔案大數(shù)據(jù)具有明顯的滯后性、靜止性、固定性。純粹的數(shù)據(jù)量巨大,與“大數(shù)據(jù)”所要求的實(shí)時(shí)性、動(dòng)態(tài)性與時(shí)效性相去甚遠(yuǎn)。
第二,數(shù)據(jù)功能的區(qū)別?,F(xiàn)今流行的“大數(shù)據(jù)”的核心功能是在數(shù)據(jù)挖掘的基礎(chǔ)上用于商業(yè)決策和預(yù)測。就目前的大數(shù)據(jù)運(yùn)用領(lǐng)域而言,它主要集中在互聯(lián)網(wǎng)、零售、金融等行業(yè),其目標(biāo)則“以服務(wù)自身企業(yè)數(shù)據(jù)挖掘需求為出發(fā)點(diǎn)”[5]。一些互聯(lián)網(wǎng)企業(yè)如Google公司利用網(wǎng)民在線的行為數(shù)據(jù)——搜索記錄來預(yù)測冬季流感的傳播[6]。從企業(yè)的運(yùn)用行為來看,大數(shù)據(jù)的預(yù)測體現(xiàn)出兩個(gè)特點(diǎn):一是實(shí)時(shí)由機(jī)器監(jiān)控和自動(dòng)生成的基礎(chǔ)數(shù)據(jù)量巨大;二是大大提高了基于微觀行為干預(yù)的個(gè)性化服務(wù)能力。然而這些功能在檔案數(shù)字資源中難以體現(xiàn)出來。就目前而言,檔案數(shù)據(jù)僅以提供證據(jù)、為公眾解惑作為核心功能,與現(xiàn)今流行的“大數(shù)據(jù)”功能有區(qū)別。雖然現(xiàn)今已有人提出“知識管理與挖掘”的概念,但它所針對的仍然是歷史性的數(shù)據(jù)庫,而不是“大數(shù)據(jù)”所要求的實(shí)時(shí)數(shù)據(jù)。換言之,知識管理與挖掘的檔案數(shù)據(jù)是人為干預(yù)和篩選之后的數(shù)據(jù)集,已經(jīng)背離了大數(shù)據(jù)的“全數(shù)據(jù)”特征,不適合作為實(shí)時(shí)決策與預(yù)測的基礎(chǔ)數(shù)據(jù)[7]。
第三,數(shù)據(jù)管理存在技術(shù)差異。目前,我國檔案大數(shù)據(jù)的主要工作是對數(shù)字化的文件和文本的歸檔、管理與存儲,傳統(tǒng)檔案的數(shù)據(jù)化以及電子檔案備份中心及數(shù)字化檔案庫等方面的建設(shè)。這些工作的技術(shù)要求較低,均可以用招標(biāo)和外包的方式來完成。更關(guān)鍵的問題在于,檔案大數(shù)據(jù)所處理的數(shù)字資源絕大部分都是“非在線的冷數(shù)據(jù)”,與現(xiàn)今流行的“大數(shù)據(jù)”所要求的實(shí)時(shí)運(yùn)算的“熱數(shù)據(jù)”存在著較大差別。這就使檔案大數(shù)據(jù)的研究總是集中在檔案數(shù)據(jù)資源的總量擴(kuò)張,卻回避和忽視了大數(shù)據(jù)更關(guān)鍵的針對性技術(shù)特征。在技術(shù)利用方面,“非關(guān)系型數(shù)據(jù)庫(NoSQL)”是現(xiàn)今流行的大數(shù)據(jù)技術(shù),而檔案大數(shù)據(jù)化過程中卻可以根據(jù)自身特性來選擇“關(guān)系型數(shù)據(jù)庫(SQL)”,畢竟檔案數(shù)據(jù)多屬結(jié)構(gòu)化數(shù)據(jù),而SQL在處理結(jié)構(gòu)化數(shù)據(jù)方面存在明顯的效率優(yōu)勢。
綜上所述,對檔案大數(shù)據(jù)的概念及核心意涵的誤解呈現(xiàn)出表層化、隨意化及寬泛化特征。誠然,隨著時(shí)代的發(fā)展、技術(shù)的進(jìn)步以及運(yùn)用的擴(kuò)張,“大數(shù)據(jù)”概念也正在悄然變化,呈現(xiàn)出泛化的趨勢。然而,這并不意味著“大數(shù)據(jù)”的核心特征可以隨著前綴限定詞的變化而任意改變,成為“萬金油”,任人涂抹。
基于上述的誤解,目前我國學(xué)界對檔案大數(shù)據(jù)研究也隨之出現(xiàn)了一些誤區(qū)。
首先,“數(shù)字化”通常被理解為將模擬數(shù)據(jù)轉(zhuǎn)換成二進(jìn)制代碼的技術(shù)概念,并由美國學(xué)者Nicholas Negroponte引申為一種虛擬的、數(shù)字化的生存方式。因此,檔案數(shù)字化就是通過技術(shù)手段將紙質(zhì)檔案、音像檔案等非數(shù)字化檔案轉(zhuǎn)換成數(shù)字形式的檔案。一般來說,數(shù)字化轉(zhuǎn)換涉及到兩類工作:一是檔案目錄數(shù)字化;二是檔案全內(nèi)容數(shù)字化。但與“數(shù)字化”不同,“數(shù)據(jù)化”是一個(gè)全新的概念,就像維克托·邁爾-舍恩伯格“一切皆可量化”口號所標(biāo)示的那樣——它要將任何事件、現(xiàn)象轉(zhuǎn)化為可分析的量化形式的數(shù)據(jù)化概念。相較而言,數(shù)字化只是基于圖像掃描技術(shù)實(shí)現(xiàn)非數(shù)字化內(nèi)容的儲存、調(diào)讀與利用,而數(shù)據(jù)化則需更進(jìn)一步,將圖像形式的數(shù)字內(nèi)容實(shí)現(xiàn)識別、分類、著錄、標(biāo)引與檢索等功能。
其次,就目前我國檔案館數(shù)字化(數(shù)據(jù)化)的工作現(xiàn)狀來看,基于掃描的數(shù)字化工作較多,而數(shù)據(jù)化工作較少。即使有些檔案館已經(jīng)建立了目錄數(shù)據(jù)庫,也只能實(shí)現(xiàn)簡單的目錄檢索,而無法實(shí)現(xiàn)檔案全內(nèi)容的數(shù)據(jù)化功能,如在全文范圍內(nèi)或局部范圍內(nèi)的關(guān)鍵詞和主題詞的精確或模糊檢索和利用。由此可見,目前我國檔案大數(shù)據(jù)的研究以及實(shí)踐均在很大程度受制于“數(shù)字化”的舊思維,未能及時(shí)更新到“數(shù)據(jù)化”的新思路中。當(dāng)然,導(dǎo)致這種狀況的原因與我國檔案信息化堅(jiān)持以檔案數(shù)字化的考評機(jī)制有關(guān),從而使得我國大部分檔案館盲目地追求檔案數(shù)字化的數(shù)量,而忽視數(shù)字檔案數(shù)據(jù)化的高階工作,形成了以檔案數(shù)字化代替檔案數(shù)據(jù)化的現(xiàn)狀 。
在數(shù)字化之前,檔案管理基本上依靠人力來完成,其流程大致可以分為檔案信息的產(chǎn)生、信息的收集、信息的鑒定、信息的整理、信息的管存、信息的利用與檔案信息的銷毀等,其圖示如下:
圖1 傳統(tǒng)檔案管理流程圖
這套檔案管理流程的特點(diǎn)是全過程的純?nèi)斯げ僮?,表現(xiàn)出耗時(shí)長、時(shí)跨大、時(shí)效差等缺陷。無疑,這套管理流程源于紙質(zhì)化檔案管理時(shí)代,包括音像檔案和電子檔案的管理。但是,我們考察目前對于“在線”歸檔電子文件的研究后,不難發(fā)現(xiàn),其所遵循的檔案管理流程與此套管理流程幾乎一致,僅僅是在輔助層面上利用了計(jì)算機(jī)、網(wǎng)絡(luò)與數(shù)據(jù)庫等技術(shù)。這些研究其實(shí)在很大程度上無法充分體現(xiàn)出大數(shù)據(jù)技術(shù)所帶來的時(shí)效性。
就目前網(wǎng)絡(luò)化、信息化的發(fā)展趨勢而言,數(shù)字檔案將“趨向于以數(shù)據(jù)流的方式產(chǎn)生、處理和歸檔”[8]。以醫(yī)療檔案為例,在數(shù)字檔案產(chǎn)生之前,傳統(tǒng)的病歷和醫(yī)案都需要在治療活動(dòng)結(jié)束之后,經(jīng)過相關(guān)人員收集、審定、制作等活動(dòng)之后,才能得到完整的醫(yī)療檔案。在大數(shù)據(jù)背景下,“最為明顯的改變就是從傳統(tǒng)的紙質(zhì)檔案管理模式轉(zhuǎn)化為現(xiàn)今的電子檔案管理模式”[9]。也就是說,自從醫(yī)院全面數(shù)據(jù)化之后,就醫(yī)過程中所有活動(dòng)的信息均在醫(yī)療管理信息系統(tǒng)中即時(shí)生成和存儲,包括掛號信息、處方、藥品、化驗(yàn)報(bào)告、檢查報(bào)告、手術(shù)等信息,并且可以根據(jù)權(quán)限來調(diào)用,為不同階段的論斷、治療等活動(dòng)提供詳細(xì)的參考信息。這一套數(shù)據(jù)管理流程有別于傳統(tǒng)的檔案管理流程,表現(xiàn)出明顯的觸發(fā)性和即時(shí)性。因此,針對這種特性,檔案大數(shù)據(jù)的處理需要注意以下幾點(diǎn):①數(shù)據(jù)產(chǎn)生與收集的動(dòng)態(tài)性;②數(shù)據(jù)分析和鑒別的實(shí)時(shí)性;③數(shù)據(jù)儲存的實(shí)時(shí)性和更新的動(dòng)態(tài)性;④在規(guī)則庫和知識庫中數(shù)據(jù)挖掘的自動(dòng)性;⑤補(bǔ)充數(shù)據(jù)挖掘成果的即時(shí)性。在此規(guī)則下,我們可以簡單地勾畫出檔案大數(shù)據(jù)管理流程圖如下:
圖2 檔案大數(shù)據(jù)管理流程圖
無論是概念的誤解,還是陷入誤區(qū)的研究,都不是單一原因所造成的,而是由多因素復(fù)合而成。為了有效地改善現(xiàn)狀,我們需要對檔案大數(shù)據(jù)開展多方向、系統(tǒng)化的深入研究。筆者認(rèn)為,今后檔案大數(shù)據(jù)的研究可以從以下方面深化。
首先,為檔案大數(shù)據(jù)概念系統(tǒng)建立起相對穩(wěn)定的學(xué)術(shù)規(guī)范。簡言之,在大數(shù)據(jù)時(shí)代背景下,檔案學(xué)要如何重新審視自己的概念系統(tǒng)和研究范疇,如檔案是什么?在大數(shù)據(jù)背景下的檔案又是什么?如果數(shù)據(jù)流可以稱為檔案,那么它又具備什么樣的檔案特征?傳統(tǒng)檔案學(xué)中的文件生命周期理論在檔案大數(shù)據(jù)概念中是否還有意義?云存儲和云計(jì)算中的數(shù)據(jù)檔案是否存在邊界,其效能如何界定?……這些問題都預(yù)示著檔案大數(shù)據(jù)概念系統(tǒng)需要產(chǎn)生相應(yīng)的新的學(xué)術(shù)規(guī)范。
其次,完善電子檔案的法規(guī)體系?,F(xiàn)有的法規(guī)體系均以實(shí)體檔案為對象,未能考慮到電子檔案。與傳統(tǒng)檔案不同,電子檔案有其特殊性。在檔案不斷數(shù)據(jù)化的趨勢下,充分考慮電子檔案特殊性的相關(guān)法規(guī)必須得到相應(yīng)的完善。
再次,電子檔案數(shù)據(jù)化過程相關(guān)技術(shù)的完善。檔案數(shù)據(jù)化過程將涉及到相關(guān)的技術(shù)要素。在數(shù)據(jù)收集和鑒別階段,傳統(tǒng)檔案的數(shù)據(jù)化涉及到文字信息的識別速度和精度的問題,以及版面分析和內(nèi)容理解的問題。這些問題的解決和完善都有賴于傳感器的研發(fā)、人工智能、模式識別、工作流管理、知識庫建設(shè)等方面的技術(shù)提升。另外,電子檔案信息的防偽問題和多系統(tǒng)之間的檔案數(shù)據(jù)冗余問題也亟待解決。
[1]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報(bào)的機(jī)遇、挑戰(zhàn)及對策研究[J].情報(bào)雜志,2013(1).
[2]王鐵牛.大數(shù)據(jù)檔案學(xué)國內(nèi)研究現(xiàn)狀及研究方向分析[J].山西檔案,2015(3).
[3]厲劍,張紹雄,劉俊杰,等.大數(shù)據(jù)引發(fā)信息時(shí)代新變革[J].大眾科學(xué),2013(12).
[4]Bill Franks.駕馭大數(shù)據(jù)[M].黃海,車皓陽,王悅,譯.北京:人民郵電出版社,2003.
[5]張濤.大數(shù)據(jù)帶來的變革及應(yīng)對策略[J].高科技與產(chǎn)業(yè)化,2013(5).
[6]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:3.
[7]于英香.檔案大數(shù)據(jù)研究的熱的冷思考[J].檔案學(xué)通迅,2015(2).
[8]葉大鳳,黃思棉,劉龍君.當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考[J].北京檔案,2015(7).
[9]浦曉雯,夏開建,張軍朝.基于大數(shù)據(jù)驅(qū)動(dòng)的醫(yī)院檔案管理數(shù)據(jù)分析方法與應(yīng)用決策[J].山西檔案,2016(5).
G270.7
A
1005-9652(2017)04-0072-03
(責(zé)任編輯:虞志堅(jiān))
王曉春(1971-),女,山東濰坊人,濰坊學(xué)院檔案館館員,研究方向:檔案管理。