李玉蘭
(五邑大學(xué) 廣東 江門 529020)
高校是培養(yǎng)社會所需高素質(zhì)人才的基地,而高校圖書館是人類文化傳承和創(chuàng)新的基礎(chǔ)性設(shè)施,在中國先進文化建設(shè)方面具有重要作用。但近年來高校因連續(xù)擴招,學(xué)校規(guī)??焖贁U大,在校人數(shù)眾多帶來對館藏圖書需求很大變化,不僅數(shù)量需求增加,而且圖書種類也向多樣化發(fā)展,圖書館的價值不再僅僅以其所擁有的館藏圖書檔案的數(shù)量來衡量,而是以它為用戶提供各種形式的信息的能力和質(zhì)量來衡量,在高校連續(xù)擴招形式下,如何利用目前有限的人力、經(jīng)費資源,為在校師生提供高質(zhì)量的服務(wù),是目前高校圖書工作者需要認(rèn)真研究和解決的一個重要課題。
網(wǎng)絡(luò)技術(shù)的發(fā)展為傳統(tǒng)的圖書管理帶來新的技術(shù)手段,國內(nèi)大多數(shù)高校的圖書館都采用圖書管理信息系統(tǒng),實現(xiàn)了圖書館業(yè)務(wù)的計算機管理和網(wǎng)絡(luò)化查詢服務(wù)。在長年的使用過程中,計算機系統(tǒng)積累了龐大的數(shù)據(jù)資料,以往,這些數(shù)據(jù)資料僅僅作為記錄憑證供查詢使用,發(fā)揮的功能非常有限。而隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)[1]與計算機強大的處理能力有效的結(jié)合,使我們一窺海量數(shù)據(jù)背后的秘密成為了可能,也為檔案管理者提高管理水平提供了新的機會。引入數(shù)據(jù)挖掘技術(shù),圖書館管理信息系統(tǒng)中海量的數(shù)據(jù)就不僅僅用于事務(wù)查詢,最主要的是發(fā)現(xiàn)數(shù)據(jù)背后隱藏的潛在需求,從而為圖書館的圖書歸類、圖書采購、圖書分配、及圖書擺放提供更加科學(xué)的依據(jù)。[2]
數(shù)據(jù)挖掘(Dat a M i ni ng)是一種新的信息處理技術(shù),其主要特點是對單位、企業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識。隨著信息化的普及和數(shù)據(jù)庫的廣泛應(yīng)用,很多大型企業(yè)事業(yè)單位積累了數(shù)百億字節(jié)的數(shù)據(jù),分析利用如此海量的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的用武之地。數(shù)據(jù)挖掘和數(shù)據(jù)分析最大的區(qū)別在于,數(shù)據(jù)統(tǒng)計分析是通過一定量的數(shù)據(jù)來驗證事先的假設(shè),而數(shù)據(jù)挖掘則是從大量的規(guī)則的數(shù)據(jù)當(dāng)中通過科學(xué)的方法來發(fā)現(xiàn)其中的關(guān)聯(lián),從而得出某種“出人意料”的結(jié)論。在經(jīng)濟管理領(lǐng)域,數(shù)據(jù)挖掘技術(shù)在爭取與保留客戶、交叉銷售、趨勢分析與市場預(yù)測、欺詐檢測與風(fēng)險防范等方面的成功應(yīng)用令人鼓舞。自20世紀(jì)90年代后期,圖書館開始高度關(guān)注并研究數(shù)據(jù)挖掘技術(shù),并致力于將其引入到圖書館的現(xiàn)代化建設(shè)中,有不少圖書館學(xué)專家提出了面向圖書館的數(shù)據(jù)挖掘技術(shù)應(yīng)用理論與方法[3]。
數(shù)據(jù)挖掘的主要任務(wù)包括:
1.分類。分類分析就是通過分析樣本數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述,或建立分類模型,或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其他記錄進行分類。分類模型也可用于預(yù)測,根據(jù)已經(jīng)分好類的資料來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類的或是新的數(shù)據(jù)做預(yù)測。
2.聚類。聚類是把一組個體按照相似性歸納成若干類別。聚類將沒有分類的記錄,在不知道應(yīng)分成幾類的情況下,按照數(shù)據(jù)內(nèi)在的差異性大小,合理地劃分成幾類,并確定每個記錄所屬類別。聚類的原則是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。
3.關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),關(guān)聯(lián)規(guī)則挖掘的一個典型例子就是購物分析,通過發(fā)現(xiàn)顧客放入購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣,從而為零售商制定營銷策略提供支持。
4.預(yù)測。預(yù)測是根據(jù)對象屬性之過去觀察值來預(yù)測該屬性未來之值。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶。
數(shù)據(jù)挖掘的常用方法包括:
1.人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維、是在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點,通過簡化、歸納、提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò)。利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)可以表達輸人與輸出的關(guān)聯(lián)知識。它完成輸入空間與輸出空間的映射關(guān)系,是通過網(wǎng)絡(luò)結(jié)構(gòu)不斷學(xué)習(xí)、調(diào)整,最后以網(wǎng)絡(luò)的特定結(jié)構(gòu)來表達的,沒有顯式函數(shù)表達。
2.決策樹:決策樹是一種典型的分類算法,可以得到類似在什么條件下會得到什么結(jié)果的規(guī)則。比如,建立顧客決策樹模型,進行市場細分,找出最有可能對促銷宣傳感興趣的客戶群。
3.遺傳算法:遺傳算法是基于達爾文的進化論中基因重組、突變和自然選擇等概念。這些算法作用于對某一特定問題的一組可能的解法。它們試圖通過組合或“繁殖”現(xiàn)存的最好的解法來產(chǎn)生更好的解法。利用“適者生存”的概念使較差的解法被拋棄,從而導(dǎo)致解法的集合,即繁殖的結(jié)果得到改善。
4.近鄰算法:近鄰算法是將數(shù)據(jù)集合中每一個記錄進行分類的方法,是最容易使用和理解的技術(shù)之一。近鄰算法是以人們思維方式相似的方式作用—檢測最近的匹配樣本。相互之間“接近”的對象也會有相似的預(yù)測值。這樣,如果你知道了其中一個對象的預(yù)測值,也就可以用它來預(yù)測它最近的鄰居對象。
5.規(guī)則推導(dǎo):規(guī)則歸納就是通過統(tǒng)計方法歸納、提取有價值的IF-TH EN規(guī)則。神經(jīng)網(wǎng)絡(luò)經(jīng)常為人所指責(zé)的一點是它只能給出學(xué)習(xí)模型的一個黑盒表示,而基于規(guī)則的數(shù)據(jù)挖掘技術(shù)則可以給出模型的生成規(guī)則描述。這些規(guī)則是通過使用某些統(tǒng)計方法對數(shù)據(jù)集合進行分段而生成的。通常包括有導(dǎo)師算法和無導(dǎo)師算法。
圖書館用戶是指利用圖書館信息資源及信息服務(wù)的一切個體或群體。圖書館用戶資源是圖書館在長期的信息服務(wù)過程中逐步形成的,是圖書館服務(wù)能力在社會關(guān)系體系中的呈現(xiàn)。通過數(shù)據(jù)挖掘技術(shù),對用戶數(shù)據(jù)進行分析,真實反映用戶的行為特征和屬性。通過對用戶信息的統(tǒng)計和分析,明確用戶信息需求和服務(wù)需求,劃分用戶群,針對用戶個性化需求,制定出圖書館相應(yīng)的信息資源建設(shè)和服務(wù)策略,實現(xiàn)與用戶服務(wù)活動相關(guān)的所有信息的集成。通過對用戶行為特征的整理和分析,能廣泛地從用戶信息中發(fā)現(xiàn)能夠反映其信息與服務(wù)需求特質(zhì)的模式或模型并進行相關(guān)用戶的規(guī)?;诸惻c聚類,并據(jù)此進行各種推理和分析,為圖書館決策和服務(wù)行為提供客觀依據(jù)。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用,拓寬了圖書館信息服務(wù)的范圍,增加了信息服務(wù)的項目,使圖書館的信息服務(wù)變得更加主動,大大提高服務(wù)質(zhì)量。利用傳統(tǒng)的檢索方式在越來越大的信息數(shù)據(jù)庫進行定題情報服務(wù)難度也越來越大,對于無序的或者排序不規(guī)范的電子信息還要在不同的操作平臺進行切換。利用數(shù)據(jù)挖掘技術(shù)可以整合各種類型的數(shù)據(jù),將紙質(zhì)的圖書和不同操作平臺的電子版的信息,通過四種規(guī)則為讀者提供一個統(tǒng)一的數(shù)據(jù)平臺,會大大提高讀者檢索的命中率。
圖書訂購是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現(xiàn)代化圖書館資源建設(shè)的開始。圖書館每年的圖書采購費用是有限的,各門學(xué)科之間如何分配、各種文獻載體形式如何均衡才能使這些經(jīng)費最好地發(fā)揮效益,這是一件令人頭疼的事。隨著出版物的數(shù)量日益增多,載體日益豐富,高校圖書館信息結(jié)構(gòu)、讀者需求與資金利用的平衡問題越來越不易把握,也令采購工作的決策變得更加復(fù)雜。數(shù)據(jù)挖掘技術(shù)可以對流通數(shù)據(jù)庫和采訪數(shù)據(jù)庫中的歷史記錄數(shù)據(jù)進行關(guān)聯(lián)性分析和序列分析,可以輕松地統(tǒng)計出圖書文獻的頻繁借閱集合,科學(xué)分析各類文獻的利用率,為采購文獻提供科學(xué)合理的各種分析報告及預(yù)測信息,從而指導(dǎo)采訪人員對文獻種類進行科學(xué)地篩選[4],合理地確定各種文獻所需的復(fù)本量,及時補充短缺的文獻,剔除過時的文獻,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學(xué)性和合理性。
運用時間序列挖掘方法,可以從流通數(shù)據(jù)庫中挖掘出流通量的周期性規(guī)律,分析讀者借出圖書流通的高峰期和低谷期,借此可以科學(xué)安排流通部門的全年和每天的工作,在人力資源、圖書資源有限的情況下,為讀者提供更多更優(yōu)質(zhì)的服務(wù),為流通部門日常工作的安排提供科學(xué)的參考數(shù)據(jù)。例如,對于全年的高峰期.可以集中精力致力于讀者的流通服務(wù);在低谷期,除了日常借閱流通服務(wù)外,可以安排一些圖書整理、讀者培訓(xùn)和業(yè)務(wù)學(xué)習(xí)之類的工作,而不像過去那樣盲目地浪費時間和資源。
數(shù)據(jù)挖掘作為方興未艾的信息技術(shù)之一,由于其在數(shù)據(jù)組織、分析和知識發(fā)現(xiàn)及信息深層挖掘等方面體現(xiàn)出的強大優(yōu)勢,在圖書館領(lǐng)域的應(yīng)用前景極為廣闊。隨著硬件環(huán)境、挖掘算法的改進、應(yīng)用的普及和經(jīng)驗的積累,數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用必將取得長足的發(fā)展與進步。
[1]安淑芝,《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》,北京:清華大學(xué)出版社,2005.
[2]張金艷,王煌,《數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用展望》,載《桂林航天工業(yè)高等專科學(xué)校學(xué)報》,2005年第2期.
[3]魏育輝,潘潔,《圖書流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析》,載《現(xiàn)代情報》,2005年第11期.
[4]張存祿等,《數(shù)據(jù)挖掘在圖書采購中的應(yīng)用》,載《情報科學(xué)》,2004年第5期.