張宏武
(渭南師范學(xué)院圖書館,陜西渭南714000)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在高校圖書館中的應(yīng)用研究
張宏武
(渭南師范學(xué)院圖書館,陜西渭南714000)
網(wǎng)絡(luò)技術(shù)、信息技術(shù)以及通訊技術(shù)的飛速發(fā)展,使得高校圖書館數(shù)字化建設(shè)進(jìn)程越來(lái)越快.各類自動(dòng)化管理系統(tǒng)的應(yīng)用、各種數(shù)字資源的購(gòu)買,從而積累了大量的業(yè)務(wù)數(shù)據(jù),圖書館各級(jí)工作人員都想從這些雜亂無(wú)章的數(shù)據(jù)中獲取有價(jià)值的信息,而現(xiàn)有的圖書管理信息系統(tǒng)只能進(jìn)行簡(jiǎn)單的查詢和分析,如何找出這些業(yè)務(wù)數(shù)據(jù)中潛在的規(guī)律非常困難,數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理以及數(shù)據(jù)挖掘技術(shù)的開發(fā)應(yīng)用,為我們解決上述困難提供了強(qiáng)有利的技術(shù)支持.
高校圖書館;數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)技術(shù)、信息技術(shù)以及通訊技術(shù)的飛速發(fā)展,高校圖書館數(shù)字化建設(shè)已經(jīng)成為圖書館建設(shè)的重點(diǎn),各類自動(dòng)化管理系統(tǒng)的開發(fā)和應(yīng)用,必然積累了大量的數(shù)據(jù),圖書館各級(jí)工作人員都想從所積累的數(shù)據(jù)中獲取有價(jià)值的信息,領(lǐng)導(dǎo)層則希望利用現(xiàn)有數(shù)據(jù)指導(dǎo)圖書館決策.因此就需要?jiǎng)?chuàng)建一種體系化的數(shù)據(jù)存儲(chǔ)環(huán)境,將分析決策所需的大量數(shù)據(jù)從傳統(tǒng)的操作環(huán)境中分離出來(lái),使分散、不一致的操作數(shù)據(jù)轉(zhuǎn)換成集成、統(tǒng)一的信息.[1]高校圖書館內(nèi)各個(gè)部門、各級(jí)工作人員都能在這個(gè)環(huán)境下,運(yùn)用其中的相關(guān)數(shù)據(jù)和信息,發(fā)現(xiàn)新的分析、想法和問(wèn)題,從而發(fā)展相應(yīng)的決策系統(tǒng),使得圖書館的服務(wù)質(zhì)量更為優(yōu)質(zhì).要實(shí)現(xiàn)這個(gè)目的,必須獲得大量的歷史業(yè)務(wù)數(shù)據(jù)和匯總數(shù)據(jù).現(xiàn)有的管理信息系統(tǒng)只能進(jìn)行簡(jiǎn)單的查詢和分析,難以實(shí)現(xiàn)多層次分析和深層次挖掘,找出潛在的規(guī)律非常困難,而數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理以及數(shù)據(jù)挖掘技術(shù)的開發(fā)應(yīng)用,為我們解決上述困難提供了強(qiáng)有利的技術(shù)支持.
20世界80年代中期,美國(guó)信息工程專家William Inmon博士首次表述了數(shù)據(jù)倉(cāng)庫(kù)的概念.他在《建立數(shù)據(jù)倉(cāng)庫(kù)》一書中這樣定義數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用于支持管理決策.[2]雖然數(shù)據(jù)倉(cāng)庫(kù)的定義至今沒有被標(biāo)準(zhǔn)化,但William H.Inmon所提出的定義已被人們普遍接受.數(shù)據(jù)倉(cāng)庫(kù)因此具有以下特點(diǎn):
(1)面向主題:主題從根本講是一個(gè)抽象概念,它是把數(shù)據(jù)在較高層次上綜合、歸類后進(jìn)行分析利用的抽象.主題的抽取是按照分析的要求來(lái)確定的.數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前必須要經(jīng)過(guò)加工與集成,將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變.
(2)集成性:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是把原來(lái)分散的各個(gè)子系統(tǒng)中的數(shù)據(jù),經(jīng)過(guò)抽取、清理、轉(zhuǎn)換后加載到數(shù)據(jù)倉(cāng)庫(kù)中的.應(yīng)該說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是對(duì)源數(shù)據(jù)的增值和統(tǒng)一.
(3)時(shí)變性:數(shù)據(jù)倉(cāng)庫(kù)隨著時(shí)間的變化要不斷增加新的內(nèi)容,同時(shí)也要隨著時(shí)間變化刪除長(zhǎng)期不被使用的陳舊內(nèi)容.
(4)相對(duì)穩(wěn)定性:數(shù)據(jù)倉(cāng)庫(kù)雖然隨時(shí)間變化但它是相當(dāng)穩(wěn)定的.這種穩(wěn)定性指的是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供決策人員決策之用,決策人員主要是進(jìn)行數(shù)據(jù)查詢,一般不修改數(shù)據(jù).某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后,一般情況下會(huì)被長(zhǎng)期保留,經(jīng)過(guò)一定的時(shí)間,當(dāng)前數(shù)據(jù)就被按一定的方法轉(zhuǎn)換成歷史數(shù)據(jù).由系統(tǒng)管理員或者系統(tǒng)自動(dòng)將時(shí)間長(zhǎng)且查詢率低的數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)脫離到廉價(jià)慢速的設(shè)備上,并從數(shù)據(jù)倉(cāng)庫(kù)中刪除分析處理不再有用的數(shù)據(jù).
聯(lián)機(jī)分析處理(OLAP)概念是E.F.Codd于1993年提出的.[3]OLAP是分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的,能夠真正為用戶所理解的并真實(shí)反映企業(yè)維持性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù).[4]對(duì)于OLAP來(lái)說(shuō),“維”是它的核心和關(guān)鍵屬性.系統(tǒng)必須提供對(duì)數(shù)據(jù)分析的多維分析和視圖,包括對(duì)層次維和多重層次維的完全支持.因此,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是OLAP的靈魂.
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有模糊的、噪聲的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程.[5]
數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式,即通過(guò)關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式和偏差分析等挖掘出數(shù)據(jù)中潛在的模式,預(yù)測(cè)其發(fā)展的行為,從而幫助決策者調(diào)整方案,輔助做出正確的決策.
知名公司,諸如IBM、Sybase、Microsoft和Oracle等都相繼推出了自己的數(shù)據(jù)倉(cāng)庫(kù)解決方案.本文采用的是Microsoft的數(shù)據(jù)倉(cāng)庫(kù)解決方案.Microsoft公司于2000年4月,發(fā)布了一套完全的數(shù)據(jù)庫(kù)和數(shù)據(jù)分析解決方案,即SQL Server 2000 Beta 2版本,該版本用戶可以快速創(chuàng)建下一代的可擴(kuò)展電子商務(wù)和數(shù)據(jù)倉(cāng)庫(kù)解決方案.[6]Micorsoft把OLAP功能集成到了SQL Server數(shù)據(jù)庫(kù)中,提供可擴(kuò)充的基于COM的OLAP接口.SQL Server還支持第三方數(shù)據(jù)展現(xiàn)工具.它的主要技術(shù)包括:
(1)數(shù)據(jù)傳輸服務(wù)DTS(Data Transformation Services)是用于完成各種異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)轉(zhuǎn)換,使用DST可視化工具就可以創(chuàng)建適合自身的數(shù)據(jù)移動(dòng)解決方案.它通過(guò)提供一組工具,使用戶實(shí)現(xiàn)SQLServer2000數(shù)據(jù)庫(kù)中數(shù)據(jù)和其它數(shù)據(jù)源之間進(jìn)行導(dǎo)入和導(dǎo)出.DTS可以和各種類型的數(shù)據(jù)庫(kù)交換數(shù)據(jù),包括 Paradox、Microsoft Excel和 Access、dBase、FoXPro 和文本文件.
(2)Microsoft知識(shí)庫(kù)(Microsoft Repository)由兩大部分組成,一個(gè)是被稱作開放信息模型的ActiveX接口集合,開發(fā)人員可以用它來(lái)定義數(shù)據(jù)模型;第二個(gè)是一個(gè)知識(shí)庫(kù)引擎,用來(lái)存放描述對(duì)象的設(shè)計(jì)、開發(fā)和部署環(huán)境的數(shù)據(jù)模型.該知識(shí)庫(kù)引擎運(yùn)行在Microsoft SQL Server或Microsoft Jet數(shù)據(jù)庫(kù)上,用來(lái)存放由它描述的模型和對(duì)象.
(3)PivorTableServices除了提供客戶端OLAP數(shù)據(jù)訪問(wèn)功能外,還允許在本地客戶機(jī)上存儲(chǔ)數(shù)據(jù),開發(fā)人員可以通過(guò)這一服務(wù)用VB等語(yǔ)言開發(fā)用戶前端數(shù)據(jù)展現(xiàn)程序.
(4)MMC(Microsoft Management Console)是微軟管理控制臺(tái),顧名思義,它是一個(gè)專門用于管理的控制臺(tái).其設(shè)計(jì)主要用于為Windows管理員提供一個(gè)統(tǒng)一的、規(guī)范的管理接口和操作平臺(tái).
了解了數(shù)據(jù)庫(kù)的相關(guān)技術(shù)、選擇了相應(yīng)的數(shù)據(jù)庫(kù)倉(cāng)庫(kù)解決方案,現(xiàn)在開始進(jìn)行具體的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建.經(jīng)過(guò)對(duì)高校圖書館的業(yè)務(wù)需求的分析,確定了其管理系統(tǒng)中的決策主題分別有:讀者需求分析、館藏結(jié)構(gòu)分析、圖書流通分析、圖書借閱分析、圖書采購(gòu)決策.限于篇幅,這里只介紹讀者需求分析的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).
概念模型也稱信息模型,它是按用戶的觀點(diǎn)來(lái)對(duì)數(shù)據(jù)和信息建模.概念模型實(shí)際上是現(xiàn)實(shí)世界到機(jī)器世界的一個(gè)中間層次.同時(shí)也是數(shù)據(jù)庫(kù)設(shè)計(jì)人員和用戶之間進(jìn)行交流的語(yǔ)言.這里采用信息包圖作為概念模型的設(shè)計(jì)工具,信息包圖由事實(shí)、維度、粒度組成,它采用二維表格的形式反映用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行多維分析處理的需求.如圖1所示.
邏輯模型是著重用邏輯的過(guò)程或主要的業(yè)務(wù)來(lái)描述對(duì)象系統(tǒng),描述系統(tǒng)要“做什么”,或者說(shuō)具有哪些功能.本設(shè)計(jì)采用星型模型創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型,星型結(jié)構(gòu)圖中間是一個(gè)事實(shí)表,其周圍是一組維表.每個(gè)維表都有主鍵,與事實(shí)表上的外鍵相關(guān)連.如圖2所示.
物理設(shè)計(jì)的任務(wù)就是把邏輯模型轉(zhuǎn)變?yōu)閷?shí)際的數(shù)據(jù)庫(kù)存儲(chǔ).一般情況下,物理設(shè)計(jì)須與邏輯設(shè)計(jì)相一致,對(duì)應(yīng)與邏輯模型給出讀者需求分析數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì).如表1所示,數(shù)據(jù)庫(kù)表的命名規(guī)則為:事實(shí)表讀者需求表的命名以字母C開頭(cube的首字母),而其它維表的命名以字母D開頭(dimension的首字母).分別有讀者需求表CDZXQ、借閱時(shí)間維表DJYSJ、書目維表DSHM讀者維表DDUZ、借閱地點(diǎn)維表DJYDD.
ETL是數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過(guò)程,它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié).本設(shè)計(jì)使用Microsoft SQL Server 2000數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)作為ETL工具,DTS從源數(shù)據(jù)中獲取需要的數(shù)據(jù)并清理、轉(zhuǎn)換后集成到數(shù)據(jù)倉(cāng)庫(kù)中.首先,在數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器上創(chuàng)建數(shù)據(jù)轉(zhuǎn)換服務(wù)包sjzh_dw;其次,在sjzh_dw中創(chuàng)建兩個(gè)數(shù)據(jù)源,并使這兩個(gè)數(shù)據(jù)源分別連上原數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù);再次,在這兩個(gè)數(shù)據(jù)源上為讀者需求分析事實(shí)表和上述的幾個(gè)維度表建立對(duì)應(yīng)的轉(zhuǎn)換任務(wù);然后,為每個(gè)轉(zhuǎn)換任務(wù)設(shè)置數(shù)據(jù)源、目的地和轉(zhuǎn)換的對(duì)應(yīng)關(guān)系;最后,將包含所有轉(zhuǎn)換任務(wù)的轉(zhuǎn)換包保存.執(zhí)行包就可以完成實(shí)際的數(shù)據(jù)轉(zhuǎn)移,轉(zhuǎn)換任務(wù)完成后為各個(gè)表設(shè)置主鍵和表間關(guān)系.
高校圖書館數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)完成以后,其主要功能在圖書館自動(dòng)化管理系統(tǒng)的以下方面得到很好地發(fā)揮和應(yīng)用.
(1)讀者需求分析.對(duì)歷史業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘,根據(jù)對(duì)不同類型讀者對(duì)圖書館各類資源的需求情況的分析,追蹤高校讀者對(duì)不同服務(wù)產(chǎn)生的不同效果,可以預(yù)測(cè)未來(lái)一定的時(shí)間內(nèi)各層次讀者對(duì)館藏圖書的需求量.讀者需求的分析還包括對(duì)讀者借閱量、借閱傾向、讀者需求與館藏結(jié)構(gòu)的符合程度等項(xiàng)目的分析.
表1 多維需求分析的物理模型
(2)館藏結(jié)構(gòu)分析.分析不同年度各類圖書的入藏情況,發(fā)現(xiàn)各種館藏的有效性.進(jìn)行館藏結(jié)構(gòu)分析的目的是通過(guò)剔除陳舊的、無(wú)人問(wèn)津的圖書,補(bǔ)充新品種、供不應(yīng)求圖書的復(fù)本量的辦法.不斷調(diào)整均衡館藏的策略,使每本圖書都能得到充分利用,從而平衡館藏、優(yōu)化結(jié)構(gòu),最終形成最佳的藏書結(jié)構(gòu).館藏結(jié)構(gòu)分析還包括圖書分布情況分析、圖書使用價(jià)值分析和館藏文獻(xiàn)比例分析等.
(3)圖書流通分析.分析館藏的二十二大類圖書的流通情況,選定一定的時(shí)間區(qū)段,分析出圖書流通的高峰期和低谷期.根據(jù)對(duì)圖書平均流通率、圖書月流通率、圖書拒借率、圖書呆滯率等歷史數(shù)據(jù)的統(tǒng)計(jì)分析,有效地幫助圖書館管理層發(fā)現(xiàn)圖書流通工作規(guī)律,指導(dǎo)決策層制定相應(yīng)的工作方法,從而為讀者提供更優(yōu)質(zhì)的服務(wù).
(4)圖書借閱分析.發(fā)現(xiàn)并分析出讀者對(duì)不同種類圖書的借閱規(guī)律、借閱傾向,從而為制定藏書補(bǔ)充計(jì)劃提供了科學(xué)依據(jù),也為提高服務(wù)質(zhì)量提供了基本依據(jù).圖書借閱分析包括流通率統(tǒng)計(jì)分析、借閱頻率統(tǒng)計(jì)分析、拒借率統(tǒng)計(jì)、工作量統(tǒng)計(jì)分析等.
(5)圖書采購(gòu)決策.高校圖書館每年都購(gòu)入一定量的圖書,運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、OLAP和數(shù)據(jù)挖掘等技術(shù)對(duì)歷史采購(gòu)數(shù)據(jù)、流通數(shù)據(jù)、讀者數(shù)據(jù)和讀者需求的挖掘和分析,幫助圖書館采購(gòu)人員確定采購(gòu)方向和重點(diǎn),使得圖書館信息資源體系更為科學(xué)與合理,從而為高校學(xué)科建設(shè)提供強(qiáng)有力的保障.
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)自問(wèn)世以來(lái),在很多行業(yè)已經(jīng)廣泛的應(yīng)用,近幾年圖書館領(lǐng)域也已開始對(duì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用著手研究,高校圖書館數(shù)據(jù)倉(cāng)庫(kù)支持對(duì)圖書館歷史業(yè)務(wù)數(shù)據(jù)的分析、挖掘,能實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)的集成,作為信息技術(shù)構(gòu)建的新焦點(diǎn),相信它將對(duì)圖書館信息化的發(fā)展起到強(qiáng)大的推動(dòng)作用.
[1]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002.5.
[2][德]M.巴斯蒂安.數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)[M].武森,高學(xué)東,譯.北京:冶金工業(yè)出版社,2003.
[3]于在洋,何偉,劉啟賢.OLAP技術(shù)及其在民族決策支持系統(tǒng)中的應(yīng)用[J].中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,17(3):63-66.
[4]張曉明,劉萍,王鵬.基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘及聯(lián)機(jī)分析技術(shù)[J].網(wǎng)絡(luò)與信息技術(shù),2008,27(9):58-59.
[5]周曉梅,王潛平,蘇琳.基于XML的 Web數(shù)據(jù)挖掘模型的設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(2):272-277.
[6]雷德蒙·華盛頓.微軟公司發(fā)布SQL Server 2000 Beta2版[EB/OL].(2000-04-26)[2010-12-20].微軟新聞,http://www.microsoft.com/china/press/2000/04/0426.mspx.
Research on the Application for Data Warehouse of University Library
ZHANG Hong-wu
(Library,Weinan Teachers University,Weinan,714000,China)
Network technology,information technology and the rapid development of communication technology make the digital technology in university library develop faster and faster.The application of various types of automated management systems and the purchase of various types of digital resources have accumulated a large amount of business data,the library staff at all levels want the data from these chaotic to obtain valuable information,while the existing library management information system can only perform simple queries and analysis of business data,to identify the potential of these laws is very difficult.Development application of data warehousing,online analytical processing and data mining technology provides a strong advantage of technical support to solve the above problems.
university library;data warehouse;data mining
G250.76
A
1009—5128(2011)12—0080—05
2011—05—09
陜西省教育廳專項(xiàng)科研計(jì)劃資助項(xiàng)目(08JK285)
張宏武(1964—),男,陜西渭南臨渭區(qū)人,渭南師范學(xué)院圖書館副研究館員.研究方向:數(shù)字圖書館.
[責(zé)任編輯 曹 靜]