李明娟
【摘要】“大數(shù)據(jù)”背景下,我們應(yīng)以檔案著錄工作為基礎(chǔ),從檔案全文數(shù)據(jù)庫(kù)的建設(shè)尋找切入點(diǎn)和突破口,從而實(shí)現(xiàn)全國(guó)全網(wǎng)絡(luò)的檔案大數(shù)據(jù)平臺(tái)的構(gòu)建。
【關(guān)鍵詞】檔案大數(shù)據(jù);數(shù)據(jù)化;檔案管理工作
一、世界性的“大數(shù)據(jù)”之戰(zhàn)
(一)“大數(shù)據(jù)”的爆發(fā)。圖靈獎(jiǎng)得主、關(guān)系數(shù)據(jù)庫(kù)的鼻祖詹姆斯·尼古拉·格雷,曾在2007年留下了演講稿《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》。他科學(xué)地總結(jié)并預(yù)測(cè)了人類(lèi)科學(xué)發(fā)展的四個(gè)“范式”,描繪了自己關(guān)于第四范式的愿景:數(shù)據(jù)量的急速增長(zhǎng),計(jì)算機(jī)將不僅能進(jìn)行動(dòng)態(tài)模擬,還能進(jìn)行分析總結(jié),得出理論,即數(shù)據(jù)密集型科學(xué)。如今以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)的發(fā)展受到了全世界的追捧,海量信息的匯集,動(dòng)態(tài)性數(shù)據(jù)的匯總使人們?nèi)轿坏卣莆樟怂芯款I(lǐng)域的概況及發(fā)展趨勢(shì)。各個(gè)行業(yè)也在爭(zhēng)相涉足“大數(shù)據(jù)”的研究領(lǐng)域中,信息資源發(fā)生了爆炸性的膨脹。
(二)檔案脹庫(kù)。隨著電子文件的理念被逐步推廣,人們也越來(lái)越重視檔案的管理工作,但沒(méi)有統(tǒng)一規(guī)范的制度,也沒(méi)有構(gòu)建全國(guó)性檔案信息化數(shù)據(jù),使得檔案數(shù)據(jù)形成脹庫(kù)現(xiàn)象。和傳統(tǒng)的因檔案庫(kù)房容量所限而造成的檔案庫(kù)房的脹庫(kù)現(xiàn)象相似,“檔案數(shù)據(jù)庫(kù)脹庫(kù)有著許多不同的表現(xiàn)形式,總體來(lái)說(shuō)就是無(wú)法增加新的檔案數(shù)據(jù),或者無(wú)法進(jìn)行有效的查詢(xún)檢索和統(tǒng)計(jì)分析”。出現(xiàn)這種現(xiàn)象的原因可以概括為技術(shù)性因素。20世紀(jì)80、90年代的計(jì)算機(jī)記錄采用二維數(shù)據(jù)表格的形式,例如每個(gè)漢字由兩個(gè)字節(jié)的長(zhǎng)度表示。在當(dāng)時(shí)的技術(shù)環(huán)境下,不能預(yù)測(cè)及生產(chǎn)出符合更大數(shù)據(jù)記錄內(nèi)存的軟件和硬件。這樣的條件下,檔案用戶(hù)直接參與利用的信息數(shù)據(jù)庫(kù)和檔案工作人員后臺(tái)管理的檔案信息儲(chǔ)存數(shù)據(jù)庫(kù)都會(huì)產(chǎn)生檔案脹庫(kù)現(xiàn)象。
(三)檔案大數(shù)據(jù)?!按髷?shù)據(jù)”顧名思義指不采用傳統(tǒng)的隨機(jī)抽樣調(diào)查分析的方法抽取數(shù)據(jù),而是將所有的數(shù)據(jù)聚集匯合。通常我們將大數(shù)據(jù)的特點(diǎn)歸納為4V:Volume(數(shù)據(jù)量巨大)、Variety(數(shù)據(jù)類(lèi)型繁多)、Velocity(處理速度快)、Value (價(jià)值密度低)。即數(shù)據(jù)量巨大,數(shù)據(jù)類(lèi)型繁多,處理速度快,價(jià)值密度低。
2012年在瑞士舉行的達(dá)沃斯論壇發(fā)布了《大數(shù)據(jù),大影響》的報(bào)告。這次的報(bào)告將數(shù)據(jù)歸為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,探討了在新的數(shù)據(jù)生產(chǎn)方式下如何更好地利用龐大的數(shù)據(jù)產(chǎn)生良好的社會(huì)效益。2012年,奧巴馬政府集合美國(guó)國(guó)防部、能源部、國(guó)家科學(xué)基金等六個(gè)聯(lián)邦部門(mén)和機(jī)構(gòu),公布了旨在提高和改進(jìn)人們從海量信息獲取有效信息能力的“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”。此次大數(shù)據(jù)計(jì)劃特別提到了美國(guó)國(guó)家檔案與文件署(NARA),將檔案部門(mén)的大數(shù)據(jù)上升到戰(zhàn)略層面。對(duì)比我國(guó)國(guó)家檔案局,尚未提出相關(guān)的具體政策或規(guī)劃,所以我們作為檔案人,有義務(wù)在檔案大數(shù)據(jù)的相關(guān)問(wèn)題上做出思考。
二、從“數(shù)字化”走向“數(shù)據(jù)化”
(一)“數(shù)字化”和“數(shù)據(jù)化”。大數(shù)據(jù)的背景下,各地區(qū)各機(jī)構(gòu)的檔案館(室)的檔案數(shù)量將急劇增加。所以“大數(shù)據(jù)”的提出對(duì)檔案信息化工作面臨新的機(jī)遇與挑戰(zhàn),促使檔案信息化建設(shè)面臨著轉(zhuǎn)型與創(chuàng)新。我們應(yīng)注意的是,檔案大數(shù)據(jù)不是我們以前強(qiáng)調(diào)的單純意義上的檔案數(shù)字化,我們應(yīng)該把檔案管理的思路從“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)化。
所謂的“數(shù)字化”指得是將信息轉(zhuǎn)變?yōu)?和1所表示的二進(jìn)制數(shù)據(jù)并予以?xún)?chǔ)存。檔案的數(shù)字化既包括檔案目錄的數(shù)字化和檔案全文的數(shù)字化,它是直接區(qū)分于傳統(tǒng)紙質(zhì)形式記錄的檔案形式。事實(shí)上檔案的大數(shù)據(jù)是以數(shù)據(jù)為基準(zhǔn)的研究模式而不是簡(jiǎn)單地錄入檔案目錄和掃描全文,這樣的數(shù)字化只是“死”的檔案信息,并不能作為大數(shù)據(jù)環(huán)境下的檔案研究標(biāo)準(zhǔn)。
我們必須將“死”的檔案掃描全文和檔案目錄變?yōu)椤盎睢钡臋n案大數(shù)據(jù),這就需要對(duì)檔案進(jìn)行“數(shù)據(jù)化”,進(jìn)行檔案全文的著錄工作,對(duì)文本和圖像中的數(shù)字內(nèi)容進(jìn)行識(shí)別、分類(lèi)、著錄和標(biāo)引的“數(shù)據(jù)化”工作,從而便于人們利用檢索詞檢索出合適的檔案信息。
(二)檔案“數(shù)據(jù)化”的實(shí)現(xiàn)。具體有以下幾個(gè)方面:
1.檔案著錄。20世紀(jì)80年代,傳統(tǒng)的著錄形式逐漸向現(xiàn)代著錄的方式轉(zhuǎn)變,代表性的美國(guó)、英國(guó)以及加拿大等國(guó)率先采用了計(jì)算機(jī)著錄的方式對(duì)檔案信息進(jìn)行著錄。檔案“數(shù)據(jù)化”的實(shí)現(xiàn)必須依靠檔案著錄,“檔案著錄是基礎(chǔ)性的至關(guān)重要的工作環(huán)節(jié),檔案著錄質(zhì)量的好壞將直接關(guān)系到檔案信息的交換、互聯(lián)互通、實(shí)現(xiàn)信息資源共享和社會(huì)利用”,這樣就為檔案“數(shù)據(jù)化”的實(shí)現(xiàn)打好了基礎(chǔ)。我國(guó)目前采用的檔案著錄規(guī)則是《DA/T18-1999檔案著錄規(guī)則》,該標(biāo)準(zhǔn)距今已經(jīng)有十幾年的歷史,雖然此后也發(fā)布了一些檔案著錄的相關(guān)細(xì)節(jié)規(guī)則,但是相比較國(guó)際檔案理事會(huì)1999年公布的第二版國(guó)際檔案著錄標(biāo)準(zhǔn)ISAD(G)還是存在一些不足之處。我國(guó)檔案著錄規(guī)則在操作上容易出現(xiàn)錯(cuò)誤,例如規(guī)則中規(guī)定,檔案主題標(biāo)引可用主題詞也可以用關(guān)鍵詞。其次,我國(guó)檔案著錄規(guī)則的適用范圍較小,國(guó)際檔案著錄標(biāo)準(zhǔn)要求對(duì)檔案的內(nèi)容特征、背景、系統(tǒng)來(lái)源等一一進(jìn)行著錄。最后,我國(guó)的檔案著錄規(guī)則不包含全宗和類(lèi)別為對(duì)象的著錄,而ISAD(G)規(guī)定的“較為理想的著錄,應(yīng)由全宗級(jí)、案卷組合級(jí)、案卷級(jí)、文件組合級(jí)、文件級(jí)和分析級(jí)六個(gè)層次構(gòu)成”。對(duì)比發(fā)現(xiàn),我國(guó)要想實(shí)現(xiàn)檔案“數(shù)據(jù)化”,必須參照有關(guān)國(guó)際的檔案著錄規(guī)則規(guī)范對(duì)我國(guó)的檔案著錄規(guī)則進(jìn)行修改,才能有效開(kāi)展檔案著錄工作。
2.檔案全文數(shù)據(jù)庫(kù)。全文數(shù)據(jù)庫(kù)指得是集檢索與文獻(xiàn)全文提供于一體的網(wǎng)絡(luò)性數(shù)據(jù)資源集合體。建立全文數(shù)據(jù)庫(kù)既避免了人工查閱文獻(xiàn)書(shū)目的繁瑣,又簡(jiǎn)便了閱讀文獻(xiàn)的方式,便于為讀者提供直接在線全文閱讀的服務(wù)。檔案全文數(shù)據(jù)庫(kù)需要從包括軟件硬件在內(nèi)的各個(gè)方面入手來(lái)建立,大體上可以分為三個(gè)方面。第一,檔案數(shù)據(jù)庫(kù)的建設(shè)。(下轉(zhuǎn)第145頁(yè))(上接第171頁(yè))檔案信息數(shù)據(jù)庫(kù)最終要滿(mǎn)足不同層次、不同方面的利用者的利用需求,所以這些檔案數(shù)據(jù)庫(kù)的數(shù)據(jù)內(nèi)容、網(wǎng)羅覆蓋范圍是衡量能否滿(mǎn)足利用者需求的決定性因素。其中數(shù)據(jù)庫(kù)的數(shù)量和質(zhì)量都要滿(mǎn)足“大”的要求。數(shù)據(jù)庫(kù)應(yīng)包括政治、經(jīng)濟(jì)、軍事、文化教育等各方面內(nèi)容、各個(gè)時(shí)期的檔案,同時(shí)這些檔案也應(yīng)保證真實(shí)完整、有條理有順序。第二,檔案檢索系統(tǒng)的建設(shè)。檔案檢索系統(tǒng)是用戶(hù)查找利用檔案的關(guān)鍵。檔案檢索系統(tǒng)的界面設(shè)計(jì)應(yīng)簡(jiǎn)潔且內(nèi)容覆蓋全面,檢索應(yīng)有關(guān)鍵詞檢索、目錄檢索、主題檢索等多種入口,以滿(mǎn)足不同利用者的需求。第三,檔案服務(wù)功能建設(shè)。我國(guó)的大多數(shù)檔案檢索系統(tǒng)在這點(diǎn)上做得不夠全面,也沒(méi)有真正樹(shù)立起網(wǎng)上服務(wù)的理念。這里的服務(wù)功能建設(shè)指得是包括引導(dǎo)利用和互動(dòng)交流的服務(wù)功能建設(shè),不僅要提供網(wǎng)站自動(dòng)的介紹服務(wù)功能,還應(yīng)該提供人工在線交流服務(wù),引導(dǎo)和幫助利用者在線獲取檔案信息。
3.檔案大數(shù)據(jù)平臺(tái)模型構(gòu)建。檔案大數(shù)據(jù)是檔案部門(mén)對(duì)龐大的檔案信息進(jìn)行有效管理的一種解決方法,檔案“數(shù)據(jù)化”最終的理想目標(biāo)是對(duì)其進(jìn)行檔案大數(shù)據(jù)平臺(tái)模型的構(gòu)建?!霸诖髷?shù)據(jù)時(shí)代,個(gè)人、企業(yè)和機(jī)構(gòu)都會(huì)面臨大數(shù)據(jù)的問(wèn)題。一般的大數(shù)據(jù)平臺(tái)構(gòu)建大致分為基礎(chǔ)層、管理層、分析層和應(yīng)用層,這里我們應(yīng)用到檔案管理工作中,必須要考慮到檔案管理工作的收集、整理、鑒定等八項(xiàng)工作在實(shí)際檔案大數(shù)據(jù)平臺(tái)模型構(gòu)建中的對(duì)接問(wèn)題,建立適合檔案部門(mén)的大數(shù)據(jù)平臺(tái)。
基礎(chǔ)層為檔案大數(shù)據(jù)平臺(tái)的運(yùn)行提供基礎(chǔ)支撐的作用,提供包括存儲(chǔ)服務(wù)器、計(jì)算服務(wù)器等高性能硬件資源,數(shù)據(jù)庫(kù)、模型庫(kù)等全方位的的數(shù)據(jù)資源,以及平臺(tái)和服務(wù)資源等軟件資源。傳統(tǒng)的檔案管理工作的八項(xiàng)環(huán)節(jié)應(yīng)當(dāng)嵌入檔案大數(shù)據(jù)平臺(tái)的構(gòu)建中,形成管理層。在這個(gè)層面上的構(gòu)建應(yīng)該作為一個(gè)單獨(dú)的管理設(shè)計(jì)嵌入檔案大數(shù)據(jù)的平臺(tái)上,所以這也要求今后的檔案管理工作具有統(tǒng)一的檔案收集、整理、鑒定的數(shù)據(jù)化的規(guī)則。分析層是掌握檔案智能數(shù)據(jù)的中心以及檔案數(shù)據(jù)的高速網(wǎng)絡(luò)心臟層。它以互聯(lián)網(wǎng)的服務(wù)體系為基礎(chǔ),在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、挖掘等分析。應(yīng)用層是針對(duì)檔案利用者的層面,檔案大數(shù)據(jù)平臺(tái)的構(gòu)建最終目的是為了檔案利用者獲取檔案信息。設(shè)計(jì)時(shí)應(yīng)涵蓋檔案館藏的所有種類(lèi)和內(nèi)容的大規(guī)模的檔案數(shù)據(jù),不僅應(yīng)設(shè)計(jì)簡(jiǎn)單檢索和高級(jí)檢索的檔案全文檢索服務(wù),還應(yīng)該設(shè)計(jì)檔案咨詢(xún)等實(shí)時(shí)在線交流服務(wù)。
(三)檔案大數(shù)據(jù)的應(yīng)用。檔案“數(shù)據(jù)化”的實(shí)現(xiàn)為我們檔案部門(mén)發(fā)揮效應(yīng)帶來(lái)了巨大的便利。放眼國(guó)外,已經(jīng)有許多國(guó)家的檔案部門(mén)開(kāi)展了檔案大數(shù)據(jù)的應(yīng)用工作。2003年4月,美國(guó)國(guó)家檔案館(NARA)的“獲取檔案數(shù)據(jù)庫(kù)”(Access to Archival Databases,簡(jiǎn)稱(chēng)AAD)在ERA項(xiàng)目的開(kāi)發(fā)下正式運(yùn)行。該檔案全文數(shù)據(jù)庫(kù)可以在線獲取原生電子文件,方便了廣大居民實(shí)時(shí)在線獲取檔案信息,掌握檔案證據(jù)。到2005年,利用者已經(jīng)達(dá)到了大約130萬(wàn)人,并通過(guò)AAD進(jìn)行了約160萬(wàn)次成功的查詢(xún)。居民們可以通過(guò)關(guān)鍵詞檢索、主題檢索、目錄檢索等多種檢索形式獲取所需檔案,也可以通過(guò)“AAD工具”欄、“幫助(help)”功能等了解如何查找獲取檔案數(shù)據(jù)?!懊绹?guó)AAD建設(shè)給我國(guó)檔案館在線檔案全文數(shù)據(jù)庫(kù)建設(shè)的一個(gè)重要啟示便是在線檔案全文數(shù)據(jù)庫(kù)建設(shè)應(yīng)始終貫徹‘以用戶(hù)為中心的理念”,只有在這一理念的指導(dǎo)下才能對(duì)檔案信息進(jìn)行有效的數(shù)據(jù)化開(kāi)發(fā)。
近年來(lái),隨著世界經(jīng)濟(jì)和文化交流日益頻繁,大數(shù)據(jù)不僅在國(guó)際上更是在我國(guó)的許多領(lǐng)域都有了收獲頗豐的應(yīng)用實(shí)例。我國(guó)醫(yī)療界的“3521工程”就是一個(gè)典型例子?!?521工程”是醫(yī)療檔案大數(shù)據(jù)工程,旨在建設(shè)國(guó)家級(jí)、省級(jí)和地市級(jí)三級(jí)衛(wèi)生信息平臺(tái)。該平臺(tái)建設(shè)有健康檔案和電子病歷兩個(gè)基礎(chǔ)數(shù)據(jù)庫(kù)和一個(gè)專(zhuān)用網(wǎng)絡(luò),融合了我國(guó)絕大部分三甲醫(yī)院和二甲醫(yī)院的數(shù)據(jù)庫(kù)信息和影像文件的數(shù)字化信息。這一醫(yī)療檔案大數(shù)據(jù)的應(yīng)用可以通過(guò)對(duì)龐大醫(yī)療數(shù)據(jù)的統(tǒng)計(jì)分析,分析預(yù)測(cè)慢性病、流行病的發(fā)展趨勢(shì)并自動(dòng)報(bào)警,為我國(guó)醫(yī)療事業(yè)的發(fā)展提供了有力的數(shù)據(jù)支持。
【參考文獻(xiàn)】
[1]王學(xué)平.淺議我國(guó)檔案數(shù)字化建設(shè)實(shí)踐與發(fā)展策略[J].檔案學(xué)通訊,2011(6):54—57.
[2]張健.檔案數(shù)據(jù)庫(kù)“脹庫(kù)”問(wèn)題研究[J].檔案學(xué)通訊,2012(4):49—51.
[3]徐俊敏.我國(guó)檔案數(shù)字化中檔案著錄問(wèn)題探析[J].蘭臺(tái)世界,2014(5):1,4.
[4]應(yīng)海燕、樂(lè)淑芳.《檔案著錄規(guī)則》適用性初探[J].蘭臺(tái)世界,2006(17):20-21.
[5]連志英.“以用戶(hù)為中心”的在線檔案全文數(shù)據(jù)庫(kù)建設(shè)初探——以美國(guó)國(guó)家檔案館AAD為例[J].浙江檔案,2012(4):11-13.