錢 毅
檔案作為一種重要的信息資源,為人們提供鑒往知來?獲取歷史經(jīng)驗(yàn)教訓(xùn)的重要信息功能?但是由于檔案信息資源具有時空分散性?數(shù)量龐大?記錄形式多樣等特點(diǎn),使得檔案信息的利用一直處于較低層次?如何真正盤活檔案信息,從大量歷史數(shù)據(jù)中獲得有價值的信息為現(xiàn)實(shí)服務(wù),傳統(tǒng)的數(shù)據(jù)處理技術(shù)并沒有給出令人滿意的答案?采用數(shù)據(jù)倉庫技術(shù),可以實(shí)現(xiàn)有效的海量數(shù)據(jù)管理,提供數(shù)據(jù)管道實(shí)現(xiàn)多種數(shù)據(jù)源的綜合,并提供聯(lián)機(jī)分析和數(shù)據(jù)挖掘等手段對檔案信息進(jìn)行活化,為決策者提供參考服務(wù),這將是日后包括檔案信息在內(nèi)的信息資源管理手段的努力方向?
數(shù)據(jù)倉庫技術(shù)簡介
數(shù)據(jù)倉庫的標(biāo)準(zhǔn)定義是支持管理決策過程的?面向主題的?集成的?隨時間變化的?信息相對穩(wěn)定的數(shù)據(jù)集合?主題是數(shù)據(jù)倉庫用來組織數(shù)據(jù)的維度,像對檔案信息用戶的分析就可以從用戶年齡?職業(yè)?查詢內(nèi)容?使用偏好等主題進(jìn)行組織?集成是指這些數(shù)據(jù)是經(jīng)過清理加工?并按照某種預(yù)定的規(guī)則進(jìn)行整理的具有一致性的數(shù)據(jù)?“隨時間變化”的特征主要用于進(jìn)行時間趨勢分析,因此需要擁有大量的歷史數(shù)據(jù)?所謂“相對穩(wěn)定性”是指數(shù)據(jù)倉庫一旦裝入數(shù)據(jù),一般情況下就不能更改,但可以加入新數(shù)據(jù)?由此可見,相比傳統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)倉庫是一個復(fù)雜的數(shù)據(jù)存儲體系,它從外部系統(tǒng)數(shù)據(jù)源中提取數(shù)據(jù)到數(shù)據(jù)倉庫中,通過集成管理器對多種數(shù)據(jù)源(有可能是異構(gòu)的)進(jìn)行抽取?整理和轉(zhuǎn)換,得到基礎(chǔ)數(shù)據(jù)庫,并與各種外部分析工具相結(jié)合對數(shù)據(jù)進(jìn)行分析整理,根據(jù)需要輸出綜合信息?數(shù)據(jù)倉庫在信息抽取?決策支持?知識管理等領(lǐng)域都具有廣泛的應(yīng)用?
檔案數(shù)據(jù)倉庫的建設(shè)
(一)數(shù)據(jù)倉庫是檔案信息服務(wù)方式的發(fā)展方向
目前,絕大多數(shù)檔案館都擁有自己的信息管理系統(tǒng),建立了規(guī)模不等的檔案數(shù)據(jù)庫?有不少數(shù)據(jù)庫的容量已經(jīng)達(dá)到相當(dāng)規(guī)模,且還在不斷進(jìn)行紙質(zhì)檔案文件的電子著錄和數(shù)字化工作,如何對這些數(shù)據(jù)進(jìn)行科學(xué)有效的分析并從中提取有價值的信息,變被動服務(wù)為主動服務(wù),是檔案信息服務(wù)在新的技術(shù)條件下面臨的重大挑戰(zhàn)?
隨著信息化的不斷深入,機(jī)構(gòu)內(nèi)部可能存在運(yùn)行于不同平臺上的不同結(jié)構(gòu)標(biāo)準(zhǔn)的數(shù)據(jù)集合,當(dāng)要跨越一定的時間長度來查詢歷史信息時,或者需要匯總多個系統(tǒng)的文件信息時,數(shù)據(jù)處理和查詢的難度便增大不少?而且隨著歷史數(shù)據(jù)的積累,這種情況便越發(fā)突出?數(shù)據(jù)倉庫為解決這些問題提供了技術(shù)保證,它能夠處理大量的數(shù)據(jù)資源,通過它的集成管理器能夠?qū)l(fā)展過程中離散的數(shù)據(jù)有效集中,此舉不但能夠提高業(yè)務(wù)效率,保證機(jī)構(gòu)歷史的完整性,而且能夠集中處理歷史數(shù)據(jù),獲得對某一問題歷史的完整認(rèn)識?
(二)檔案信息數(shù)據(jù)倉庫建立流程
檔案信息數(shù)據(jù)倉庫的建立過程是一個系統(tǒng)工程,需要參與各方協(xié)同工作,其中包括倉庫系統(tǒng)選型?模型設(shè)計?數(shù)據(jù)轉(zhuǎn)換等技術(shù)工作,需要協(xié)調(diào)溝通檔案數(shù)據(jù)源的提供方,需要熟悉檔案業(yè)務(wù)流程和應(yīng)用需求的領(lǐng)域?qū)<?此處僅就檔案數(shù)據(jù)倉庫建立的核心環(huán)節(jié)進(jìn)行討論,參與各方的角色和功能從略?
1?檔案應(yīng)用需求分析
如果檔案利用者難以由現(xiàn)有的系統(tǒng)獲得所需信息,或者決策者的要求比較復(fù)雜,需要對大量數(shù)據(jù)進(jìn)行綜合處理才能獲得,那就有必要采用數(shù)據(jù)倉庫技術(shù)來輔助決策?比如對于檔案用戶的分析,決策者需要知道用戶的利用偏好,包括利用時間?查閱檔案的類別與用戶年齡層次的關(guān)系?利用效果等信息,這些結(jié)論都需要參考大量數(shù)據(jù),包括歷年的用戶記錄和調(diào)查報表?惟有如此,才能反映正確的用戶信息,為調(diào)整檔案開放時間?確定檔案編研產(chǎn)品等決策提供信息保證?
2?檔案數(shù)據(jù)采集
經(jīng)過多年的檔案信息化進(jìn)程,在檔案領(lǐng)域中普遍存在著多種檔案信息源,包括關(guān)系數(shù)據(jù)庫?文件系統(tǒng)和INTERNET數(shù)據(jù)形式,這些檔案數(shù)據(jù)源在數(shù)據(jù)結(jié)構(gòu)上有不同的構(gòu)造?可以通過數(shù)據(jù)采集技術(shù)將其匯總,經(jīng)過數(shù)據(jù)清理轉(zhuǎn)換后集成到統(tǒng)一的檔案數(shù)據(jù)倉庫中,共同構(gòu)成原始信息來源?
雖然本環(huán)節(jié)具有一定的技術(shù)含量,但真正實(shí)現(xiàn)的難點(diǎn)在于破除檔案信息孤島的藩籬,溝通各數(shù)據(jù)單位,實(shí)現(xiàn)檔案數(shù)據(jù)共享,同時需要由良好的檔案質(zhì)量保證體系來維護(hù)數(shù)據(jù)質(zhì)量?
3?檔案數(shù)據(jù)轉(zhuǎn)換
采集之后就需要將現(xiàn)有的檔案數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉庫中,這有可能是一項龐大的工作,取決于檔案數(shù)據(jù)源的質(zhì)量和規(guī)范程度?仍以檔案用戶分析為例,用戶籍貫的記錄方式就有可能五花八門,有些用中文表示,有的用代號或者拼音來表示,這時數(shù)據(jù)轉(zhuǎn)換工作就要根據(jù)用戶需求將它們轉(zhuǎn)換為相同的格式?這種情況在建立文件中心和地區(qū)性檔案目錄中心時就表現(xiàn)出來了,而且普遍存在于文件和檔案信息源中,這對檔案數(shù)據(jù)源的整合是一個很大的障礙?
在進(jìn)行檔案數(shù)據(jù)源特別是檔案數(shù)據(jù)庫建設(shè)的同時,應(yīng)建立健全檔案數(shù)據(jù)質(zhì)量控制體系?該體系主要從微觀的角度,以具體的可操作的形式提供對數(shù)據(jù)庫進(jìn)行全面質(zhì)量管理的方案,包括制定數(shù)據(jù)質(zhì)量考核指標(biāo)?校對制度?備份制度等,定期檢查,責(zé)任到人,盡量將質(zhì)量管理的要求嵌入軟件功能之中,以期最大限度地保障檔案數(shù)據(jù)的質(zhì)量?
對于檔案數(shù)據(jù)的邏輯結(jié)構(gòu),則應(yīng)當(dāng)加強(qiáng)依賴于著錄標(biāo)準(zhǔn)的元數(shù)據(jù)庫的建設(shè)?由于我國的《檔案著錄規(guī)則》在著錄項目設(shè)置上并沒有提供完全適用于計算機(jī)管理的結(jié)構(gòu),各檔案數(shù)據(jù)庫在建設(shè)時都根據(jù)自己的理解自行增刪著錄項目,自由選擇字段類型?字段長度,這樣的數(shù)據(jù)庫進(jìn)行互聯(lián)互通的難度就可想而知了?因此筆者建議以著錄標(biāo)準(zhǔn)為基礎(chǔ),建立一定范圍內(nèi)的元數(shù)據(jù)標(biāo)準(zhǔn),并以此構(gòu)成元數(shù)據(jù)字典?該字典提供數(shù)據(jù)項目的結(jié)構(gòu)化信息,包括數(shù)據(jù)字段的名稱?數(shù)據(jù)類型?長度?默認(rèn)格式等規(guī)范,并說明字段之間的聯(lián)系?需要指出的是,這樣一個具有內(nèi)在聯(lián)系的有機(jī)的元數(shù)據(jù)字典,實(shí)質(zhì)上是為檔案數(shù)據(jù)庫提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基礎(chǔ)上提供轉(zhuǎn)換功能即可?在目前階段,元數(shù)據(jù)字典的建設(shè)以二次文獻(xiàn)信息項目為主,同時加強(qiáng)檔案全文和電子文件元數(shù)據(jù)規(guī)范研究,為檔案數(shù)據(jù)倉庫的整合和檔案管理系統(tǒng)的深入設(shè)計提供規(guī)范標(biāo)準(zhǔn)?
數(shù)據(jù)倉庫分析技術(shù)在檔案信息管理中的應(yīng)用
數(shù)據(jù)倉庫只是存放和管理歷史性數(shù)據(jù)的特殊數(shù)據(jù)結(jié)構(gòu),如果希望利用檔案數(shù)據(jù)倉庫服務(wù)于決策支持,獲取高價值的信息,還需要諸如聯(lián)機(jī)分析處理技術(shù)和數(shù)據(jù)挖掘等分析工具?
(一)運(yùn)用聯(lián)機(jī)分析處理技術(shù)(OLAP)分析檔案數(shù)據(jù)倉庫
聯(lián)機(jī)分析處理技術(shù)是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析,通過對數(shù)據(jù)進(jìn)行多層次?多階段的分析處理,獲得高度歸納的分析結(jié)果?OLAP是一種自上而下的分析工具,在用戶提出問題之后,可以從宏觀至微觀的各個角度來查看分析數(shù)據(jù),以比較直觀的方式呈現(xiàn)給用戶?通過OLAP服務(wù)器可以將數(shù)據(jù)倉庫模擬成多維數(shù)據(jù)庫,采用EXCEL等前端分析工具獲得信息?例如利用數(shù)據(jù)倉庫分析檔案利用情況,決策者可以獲得某類檔案在2005年的利用次數(shù)數(shù)據(jù),就時間維度而言,他可以再深入到該年各季度?各月份的利用次數(shù),還可從用戶類別維度獲知哪些類別的用戶查閱檔案的次數(shù)較多?
(二)運(yùn)用數(shù)據(jù)挖掘分析檔案數(shù)據(jù)倉庫
在傳統(tǒng)數(shù)據(jù)庫應(yīng)用中,人們通過查詢獲取數(shù)據(jù),數(shù)據(jù)經(jīng)過人的理解或解釋,成為有用的信息?數(shù)據(jù)庫管理系統(tǒng)(DBMS)提供的查詢手段一般只限于一些基本的數(shù)據(jù)庫操作,因此通過DBMS只能對數(shù)據(jù)進(jìn)行粗加工,獲得一些初級的綜合信息,但對于蘊(yùn)藏在大量原始數(shù)據(jù)中的規(guī)則?規(guī)律?信息模式等高層次信息,僅僅通過查詢是難以獲得的,需要在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行分析?推理,我們形象地稱之為“數(shù)據(jù)挖掘”?主要的挖掘方法包括以下幾類:
聯(lián)系分析?在數(shù)據(jù)挖掘中通過關(guān)聯(lián)算法,尋找數(shù)據(jù)屬性之間的相關(guān)性?比如挖掘檔案用戶類型與查詢檔案類別之間是否存在相關(guān)性,如果存在高相關(guān)性,就可以為不同類別的用戶提供具有針對性的服務(wù)?
聚類分析?這是一種對具有共同趨勢和模式的數(shù)據(jù)進(jìn)行分組的方法,依據(jù)類內(nèi)相似性最大、類間相似性最小的原則對數(shù)據(jù)集合進(jìn)行分組。檔案信息服務(wù)提供者可以根據(jù)信息用戶群中是否存在某種相似性,進(jìn)而劃分不同的用戶群體,掌握其各自的特點(diǎn),更好地提供服務(wù)產(chǎn)品。比如我們一般是按照職業(yè)、年齡等屬性來劃分檔案客戶的,但通過聚類分析也許會發(fā)現(xiàn),查詢目的屬性可以更有效地區(qū)分用戶行為,為公查詢和為私查詢的用戶在查詢時間、查詢檔案類型等方面表現(xiàn)差異很大,因此可根據(jù)該屬性將用戶分類以便采取不同的服務(wù)措施。
總之,隨著檔案信息化的不斷深入,如何存儲管理呈爆炸性增長的數(shù)據(jù),提供深層次的信息服務(wù)成為檔案信息管理進(jìn)一步發(fā)展的巨大障礙。采用數(shù)據(jù)倉庫技術(shù)是檔案信息管理領(lǐng)域中一個全新的課題,利用該技術(shù)來整合數(shù)據(jù)、管理數(shù)據(jù),并使用其各種分析工具來分析、挖掘檔案信息,是檔案信息服務(wù)方式的發(fā)展方向。
參考文獻(xiàn):
1、萬里云:《數(shù)據(jù)倉庫技術(shù)以及在證券業(yè)應(yīng)用展望》,《現(xiàn)代圖書情報技術(shù)》2002年第4期。
2、錢毅:《政務(wù)數(shù)據(jù)庫系統(tǒng)》,中國人民大學(xué)出版社 2004年出版。
3、浙江省檔案數(shù)據(jù)庫建設(shè)調(diào)查組:《檔案信息化建設(shè)數(shù)據(jù)質(zhì)量是關(guān)鍵 》,《檔案學(xué)研究 》2002年第3期。
4、(美)W·H·Inmon著, 王志海等譯:《數(shù)據(jù)倉庫》,機(jī)械工業(yè)出版社。
作者單位:中國人民大學(xué)信息資源管理學(xué)院