文/何永明
淺談大數(shù)據(jù)背景下高校檔案信息資源的開發(fā)與利用
文/何永明
大數(shù)據(jù)時代,信息量空前繁榮,給高校檔案工作帶來了新的機遇。傳統(tǒng)高校檔案服務(wù)效率低下、檔案信息資源分散、深層次開發(fā)不足、共享化程度低,這迫使高校檔案管理必須適應(yīng)大數(shù)據(jù)時代的發(fā)展,充分重視檔案信息資源的開發(fā)與利用。隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)已經(jīng)滲透到各個行業(yè),逐漸成為重要的生產(chǎn)因素,其分析和應(yīng)用已受到了各個領(lǐng)域的關(guān)注。高校檔案信息資源包含了高校教學(xué)、科研等方方面面的信息資源。通過大數(shù)據(jù)技術(shù),可以對這些檔案信息進行充分和全面的整合,將結(jié)構(gòu)化和非結(jié)構(gòu)化的檔案信息轉(zhuǎn)化為完整的、客觀反映真實需求的檔案數(shù)據(jù),這些數(shù)據(jù)將對高校的建設(shè)和發(fā)展具有重要的指導(dǎo)意義。
1.大數(shù)據(jù)的提出?!按髷?shù)據(jù)”是伴隨著互聯(lián)網(wǎng)的不斷發(fā)展,于2011年5月由全球著名咨詢公司麥肯錫(MckinseyandCompany)提出的一個新興概念,它指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素”。“大數(shù)據(jù)”不完全等同于“大規(guī)模數(shù)據(jù)”?!按髷?shù)據(jù)”雖然以海量的數(shù)據(jù)為基礎(chǔ),但是其價值遠(yuǎn)遠(yuǎn)高于“大規(guī)模數(shù)據(jù)”?!按髷?shù)據(jù)”通過數(shù)據(jù)分析技術(shù)、海量存儲技術(shù)等數(shù)據(jù)處理技術(shù)對數(shù)據(jù)對象進行動態(tài)處理,從中快速獲得有價值的信息并進行集成,使其成為具有參考價值的高增長率信息資產(chǎn),成為決策制定和戰(zhàn)略布局的重要參考依據(jù)。
2.大數(shù)據(jù)的特點。大數(shù)據(jù)具有以下幾個特點:(1)海量。大數(shù)據(jù)擁有海量的數(shù)據(jù)規(guī)模,龐大的數(shù)據(jù)信息。海量數(shù)據(jù)的存儲和分析是大數(shù)據(jù)的核心內(nèi)容,使大數(shù)據(jù)穩(wěn)定而高效,高質(zhì)而廉價。(2)多樣。大數(shù)據(jù)的多樣性體現(xiàn)在數(shù)據(jù)形式的多樣性,它將互聯(lián)網(wǎng)思維與數(shù)據(jù)存儲相結(jié)合,容納了包括網(wǎng)頁、電子存址、音頻等在內(nèi)的多種數(shù)據(jù)資源采集的方式,大大豐富了數(shù)據(jù)形式。(3)價值。大數(shù)據(jù)之所以重要,重點不在于數(shù)據(jù)量的龐大,而在于通過海量數(shù)據(jù)的挖掘與分析,在碎片化的信息中快速找到的具有參考價值的信息資源。(4)高速。大數(shù)據(jù)的處理遵循“1秒定律”,數(shù)據(jù)處理工作要求在一秒內(nèi)完成,處理速度高效,大大提高了工作效率。
1.傳統(tǒng)的檔案服務(wù)效率低下。傳統(tǒng)紙質(zhì)檔案的歸檔需要經(jīng)過整理、編目、裝訂等一系列步驟,從檔案移交到查詢需要一定的時間,具有相對滯后性,時間成本高,給查詢利用帶來了一定的不便。此外,高校檔案利用服務(wù)多以手工半自動化檢索為主,在利用過程中需要通過查詢、復(fù)印、歸架等繁瑣程序,服務(wù)效率低下。同時,傳統(tǒng)檔案主要以紙質(zhì)檔案為主,圖片、視頻、實物檔案等檔案資源較少,種類有限,信息傳播范圍小、利用率低。檔案信息數(shù)據(jù)存儲方便,利用便捷,查詢簡單,形式多樣,在一定程度上能夠彌補傳統(tǒng)檔案管理的不足。
2.高校檔案信息資源分散,信息孤島現(xiàn)象嚴(yán)重。高校職能管理部門眾多,涉及的教學(xué)、科研、財會、設(shè)備等工作專業(yè)性較強,在數(shù)據(jù)處理方面都有各自獨立的信息系統(tǒng),教學(xué)有教學(xué)管理系統(tǒng)、科研有科研管理系統(tǒng),各系統(tǒng)的信息錄入規(guī)格不一,信息內(nèi)容不同,形成了眾多的信息孤島。檔案管理部門在檔案信息化建設(shè)的過程中,側(cè)重于對紙質(zhì)檔案的電子化,忽視了對各職能部門信息的收集、保管與利用,造成了信息資源的嚴(yán)重浪費。在大數(shù)據(jù)背景下,檔案管理部門如何做到全面收集各信息孤島上的信息,實現(xiàn)信息數(shù)據(jù)的全面無縫對接,將信息納入統(tǒng)一管理并充分挖掘利用,已成為檔案管理部門急需解決的重要問題。
3.高校檔案信息資源深層次開發(fā)不足。目前,大多數(shù)高校檔案信息資源的開發(fā)僅僅局限于檔案資源的分門別類整理保管以及檔案目錄的電子化,對于檔案資源內(nèi)部所包含的更深層次的具有價值的信息和知識未能充分挖掘并進一步利用。同時,高校檔案編研工作未受到足夠重視。高校檔案包括教學(xué)、科研、行政、黨群、基建等多門類檔案,包含了涉及高校建設(shè)發(fā)展的重要信息資源。檔案信息資源深層次開發(fā)不足,編研成果少,編研材料檔次低,難以充分發(fā)揮檔案信息資源的內(nèi)在價值。
4.高校檔案信息資源的共享化程度低。高校檔案綜合記載了高校科研、教學(xué)等方方面面的資源,這些資源的編研、開放、發(fā)布與利用對于促進高校的發(fā)展具有舉足輕重的作用。目前,高校檔案信息資源的集成化管理和共享化利用水平較低。一方面,信息資源的集成化的關(guān)鍵技術(shù)如數(shù)據(jù)倉庫技術(shù),書庫挖掘技術(shù),海量、非結(jié)構(gòu)化數(shù)據(jù)存儲等技術(shù)的應(yīng)用水平低,造成檔案信息資源集成性差,檔案數(shù)據(jù)不系統(tǒng)、不完整、不能夠共享,限制了檔案資源的深層次挖掘與廣泛利用。另一方面,高校檔案信息缺少集成共享、統(tǒng)一管理的標(biāo)準(zhǔn)信息儲存結(jié)構(gòu),各職能部門所形成的信息數(shù)據(jù)結(jié)構(gòu)都是根據(jù)本部門的需要制定的,不具有普適性。各職能部門缺乏信息資源信息化的規(guī)范格式,致使檔案數(shù)據(jù)難以形成一個統(tǒng)一的資源庫體系,制約著高校檔案信息資源的共享。
1.擴大高校檔案信息數(shù)據(jù)總量,有效整合檔案信息資源。一方面要加強實體檔案的歸檔工作,對于有存檔價值的檔案要做到收集全面、及時,要加強與歸檔部門之間的聯(lián)系,進一步明確歸檔范圍。對于收集到的實體檔案資源可通過數(shù)字電子影像技術(shù)將其轉(zhuǎn)換為數(shù)字代碼信息,充分利用大數(shù)據(jù)技術(shù)對其進行壓縮、存儲、整合,并制定相應(yīng)的索引目錄,實現(xiàn)實體檔案的電子化。另一方面,改變管理觀念,創(chuàng)新檔案工作方式,實現(xiàn)與高校各職能部門系統(tǒng)數(shù)據(jù)的有效對接,積極整合高校各職能部門的信息數(shù)據(jù),不斷擴大檔案信息數(shù)據(jù)總量。因為,只有在充足的檔案信息數(shù)據(jù)基礎(chǔ)上,才能挖掘和分析出更多有價值的信息資源。
2.建立高校檔案基礎(chǔ)數(shù)據(jù)庫,提高檔案信息的共享化。建立檔案基礎(chǔ)數(shù)據(jù)庫是高校檔案信息資源開發(fā)和利用的基礎(chǔ)條件,是實現(xiàn)高校檔案信息資源集成共享,統(tǒng)一管理的有效途徑,是提高檔案信息終端檢索利用成效的必要條件。檔案基礎(chǔ)數(shù)據(jù)的建立,首先要建立符合高校各職能部門發(fā)展需求的檔案信息元數(shù)據(jù)統(tǒng)一格式規(guī)范,建立起檔案目錄數(shù)據(jù)庫、檔案內(nèi)容數(shù)據(jù)庫等高質(zhì)量的具有價值的檔案目錄中心。其次,加強不同載體、不同地理位置檔案資源的數(shù)字化,促進高校檔案信息資源的開發(fā),在此基礎(chǔ)上針對高校師生群眾對檔案資源的利用需求,開放部分檢索功能滿足公眾查檔需求,建立高效的查準(zhǔn)、查全服務(wù)機制,提高檔案信息的共享化。
3.提高高校檔案數(shù)據(jù)的深層次挖掘與利用。具體措施包括:(1)加強與高校各部門檔案信息利用者之間的溝通,深入了解檔案信息利用者的利用需求,開展不同層次、具有針對性的專題檔案信息數(shù)據(jù)庫建設(shè)。(2)加強檔案檢索系統(tǒng)的開發(fā),編制多樣化的檔案信息搜索查詢工具,提高搜索工具的精準(zhǔn)性、全面性和高效性。(3)充分利用大數(shù)據(jù)的信息挖掘技術(shù),加強檔案信息資源的編研工作,深入挖掘檔案信息的深層次內(nèi)容,加強編研成果的出版發(fā)行及交流,為高校各部門政策的制定和工作的開展提供可靠的信息支持。
4.建立用戶需求導(dǎo)向模式,提高檔案服務(wù)的“交互性”。首先,通過大數(shù)據(jù)對高校各職能部門、師生群眾、校友等不同群體的需求進行有效分析,建立用戶需求為導(dǎo)向的服務(wù)模式。通過數(shù)據(jù)挖掘技術(shù),對高校各職能部門、師生群眾等檔案用戶使用檔案的特征、時間段、個性化需求等進行有效分析,對碎片化的信息進行有效的邏輯整合,進而使檔案信息與用戶需要達到有效銜接,提高檔案利用的有效性。其次,創(chuàng)新檔案服務(wù)模式,建立“交互性”檔案服務(wù)平臺。檔案數(shù)字化的一個目的便是為用戶提供便捷地、高效地檔案搜索服務(wù)。大數(shù)據(jù)時代的到來,可充分利用大數(shù)據(jù)的WEB挖掘、方差分析、判別挖掘、仿真計算等技術(shù),更好地分析用戶需要和用戶意見,建立與用戶之間的交互關(guān)系,讓用戶參與到高校檔案的建設(shè)和發(fā)展中來,從而使高校檔案服務(wù)更加完善。
總之,大數(shù)據(jù)的海量性為高校檔案信息資源的開發(fā)與利用提供了信息平臺,多樣性為其提供了技術(shù)支撐,價值性為其提供了識別基礎(chǔ),高速性為其提供了速度保障,有助于高校檔案管理突破服務(wù)效率低下、信息資源分散、深層次開發(fā)不足、共享不足等瓶頸,不斷提高校檔案信息資源的開發(fā)與利用,充分發(fā)揮檔案信息資源在推動高校教學(xué)、科研等方面發(fā)展中的作用,提高檔案信息資源的價值。
(作者單位:廣東科學(xué)技術(shù)職業(yè)學(xué)院)