高校圖書管理中的數(shù)據(jù)挖掘技術(shù)

2011-08-15 00:46李玉蘭

黑龍江史志 2011年13期

李玉蘭

（五邑大學(xué) 廣東江門 529020）

1引言

高校是培養(yǎng)社會所需高素質(zhì)人才的基地,而高校圖書館是人類文化傳承和創(chuàng)新的基礎(chǔ)性設(shè)施，在中國先進文化建設(shè)方面具有重要作用。但近年來高校因連續(xù)擴招，學(xué)校規(guī)?？焖贁U大，在校人數(shù)眾多帶來對館藏圖書需求很大變化，不僅數(shù)量需求增加，而且圖書種類也向多樣化發(fā)展，圖書館的價值不再僅僅以其所擁有的館藏圖書檔案的數(shù)量來衡量，而是以它為用戶提供各種形式的信息的能力和質(zhì)量來衡量，在高校連續(xù)擴招形式下，如何利用目前有限的人力、經(jīng)費資源，為在校師生提供高質(zhì)量的服務(wù)，是目前高校圖書工作者需要認(rèn)真研究和解決的一個重要課題。

網(wǎng)絡(luò)技術(shù)的發(fā)展為傳統(tǒng)的圖書管理帶來新的技術(shù)手段，國內(nèi)大多數(shù)高校的圖書館都采用圖書管理信息系統(tǒng)，實現(xiàn)了圖書館業(yè)務(wù)的計算機管理和網(wǎng)絡(luò)化查詢服務(wù)。在長年的使用過程中，計算機系統(tǒng)積累了龐大的數(shù)據(jù)資料，以往，這些數(shù)據(jù)資料僅僅作為記錄憑證供查詢使用，發(fā)揮的功能非常有限。而隨著信息技術(shù)的發(fā)展，數(shù)據(jù)挖掘技術(shù)[1]與計算機強大的處理能力有效的結(jié)合，使我們一窺海量數(shù)據(jù)背后的秘密成為了可能，也為檔案管理者提高管理水平提供了新的機會。引入數(shù)據(jù)挖掘技術(shù)，圖書館管理信息系統(tǒng)中海量的數(shù)據(jù)就不僅僅用于事務(wù)查詢，最主要的是發(fā)現(xiàn)數(shù)據(jù)背后隱藏的潛在需求，從而為圖書館的圖書歸類、圖書采購、圖書分配、及圖書擺放提供更加科學(xué)的依據(jù)。[2]

2數(shù)據(jù)挖掘的內(nèi)涵及其技術(shù)、方法

2.1數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘(Dat a M i ni ng)是一種新的信息處理技術(shù)，其主要特點是對單位、企業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理，以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學(xué)科，它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢，提升到從數(shù)據(jù)中挖掘知識。隨著信息化的普及和數(shù)據(jù)庫的廣泛應(yīng)用，很多大型企業(yè)事業(yè)單位積累了數(shù)百億字節(jié)的數(shù)據(jù)，分析利用如此海量的數(shù)據(jù)，是數(shù)據(jù)挖掘技術(shù)的用武之地。數(shù)據(jù)挖掘和數(shù)據(jù)分析最大的區(qū)別在于，數(shù)據(jù)統(tǒng)計分析是通過一定量的數(shù)據(jù)來驗證事先的假設(shè)，而數(shù)據(jù)挖掘則是從大量的規(guī)則的數(shù)據(jù)當(dāng)中通過科學(xué)的方法來發(fā)現(xiàn)其中的關(guān)聯(lián)，從而得出某種“出人意料”的結(jié)論。在經(jīng)濟管理領(lǐng)域，數(shù)據(jù)挖掘技術(shù)在爭取與保留客戶、交叉銷售、趨勢分析與市場預(yù)測、欺詐檢測與風(fēng)險防范等方面的成功應(yīng)用令人鼓舞。自20世紀(jì)90年代后期，圖書館開始高度關(guān)注并研究數(shù)據(jù)挖掘技術(shù)，并致力于將其引入到圖書館的現(xiàn)代化建設(shè)中，有不少圖書館學(xué)專家提出了面向圖書館的數(shù)據(jù)挖掘技術(shù)應(yīng)用理論與方法[3]。

2.2數(shù)據(jù)挖掘的主要任務(wù)及方法

數(shù)據(jù)挖掘的主要任務(wù)包括：

1.分類。分類分析就是通過分析樣本數(shù)據(jù)庫中的數(shù)據(jù)，為每個類別做出準(zhǔn)確的描述，或建立分類模型，或挖掘出分類規(guī)則，然后用這個分類規(guī)則對其他記錄進行分類。分類模型也可用于預(yù)測，根據(jù)已經(jīng)分好類的資料來研究它們的特征，然后再根據(jù)這些特征對其他未經(jīng)分類的或是新的數(shù)據(jù)做預(yù)測。

2.聚類。聚類是把一組個體按照相似性歸納成若干類別。聚類將沒有分類的記錄，在不知道應(yīng)分成幾類的情況下，按照數(shù)據(jù)內(nèi)在的差異性大小，合理地劃分成幾類，并確定每個記錄所屬類別。聚類的原則是使得屬于同一類別的個體之間的距離盡可能的小，而不同類別上的個體間的距離盡可能的大。

3.關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)，關(guān)聯(lián)規(guī)則挖掘的一個典型例子就是購物分析，通過發(fā)現(xiàn)顧客放入購物籃中不同商品之間的聯(lián)系，分析顧客的購買習(xí)慣，從而為零售商制定營銷策略提供支持。

4.預(yù)測。預(yù)測是根據(jù)對象屬性之過去觀察值來預(yù)測該屬性未來之值。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息，一個典型的例子是市場預(yù)測問題，數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶。

數(shù)據(jù)挖掘的常用方法包括：

1.人工神經(jīng)網(wǎng)絡(luò)：人工神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維、是在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上，根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點，通過簡化、歸納、提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò)。利用其非線性映射的思想和并行處理的方法，用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)可以表達輸人與輸出的關(guān)聯(lián)知識。它完成輸入空間與輸出空間的映射關(guān)系，是通過網(wǎng)絡(luò)結(jié)構(gòu)不斷學(xué)習(xí)、調(diào)整，最后以網(wǎng)絡(luò)的特定結(jié)構(gòu)來表達的，沒有顯式函數(shù)表達。

2.決策樹：決策樹是一種典型的分類算法，可以得到類似在什么條件下會得到什么結(jié)果的規(guī)則。比如，建立顧客決策樹模型，進行市場細分，找出最有可能對促銷宣傳感興趣的客戶群。

3.遺傳算法：遺傳算法是基于達爾文的進化論中基因重組、突變和自然選擇等概念。這些算法作用于對某一特定問題的一組可能的解法。它們試圖通過組合或“繁殖”現(xiàn)存的最好的解法來產(chǎn)生更好的解法。利用“適者生存”的概念使較差的解法被拋棄，從而導(dǎo)致解法的集合，即繁殖的結(jié)果得到改善。

4.近鄰算法：近鄰算法是將數(shù)據(jù)集合中每一個記錄進行分類的方法，是最容易使用和理解的技術(shù)之一。近鄰算法是以人們思維方式相似的方式作用—檢測最近的匹配樣本。相互之間“接近”的對象也會有相似的預(yù)測值。這樣，如果你知道了其中一個對象的預(yù)測值，也就可以用它來預(yù)測它最近的鄰居對象。

5.規(guī)則推導(dǎo)：規(guī)則歸納就是通過統(tǒng)計方法歸納、提取有價值的IF－TH EN規(guī)則。神經(jīng)網(wǎng)絡(luò)經(jīng)常為人所指責(zé)的一點是它只能給出學(xué)習(xí)模型的一個黑盒表示，而基于規(guī)則的數(shù)據(jù)挖掘技術(shù)則可以給出模型的生成規(guī)則描述。這些規(guī)則是通過使用某些統(tǒng)計方法對數(shù)據(jù)集合進行分段而生成的。通常包括有導(dǎo)師算法和無導(dǎo)師算法。

3數(shù)據(jù)挖掘在圖書館管理中的應(yīng)用領(lǐng)域

3.1用戶資源管理

圖書館用戶是指利用圖書館信息資源及信息服務(wù)的一切個體或群體。圖書館用戶資源是圖書館在長期的信息服務(wù)過程中逐步形成的，是圖書館服務(wù)能力在社會關(guān)系體系中的呈現(xiàn)。通過數(shù)據(jù)挖掘技術(shù)，對用戶數(shù)據(jù)進行分析，真實反映用戶的行為特征和屬性。通過對用戶信息的統(tǒng)計和分析，明確用戶信息需求和服務(wù)需求，劃分用戶群，針對用戶個性化需求，制定出圖書館相應(yīng)的信息資源建設(shè)和服務(wù)策略，實現(xiàn)與用戶服務(wù)活動相關(guān)的所有信息的集成。通過對用戶行為特征的整理和分析，能廣泛地從用戶信息中發(fā)現(xiàn)能夠反映其信息與服務(wù)需求特質(zhì)的模式或模型并進行相關(guān)用戶的規(guī)?；诸惻c聚類，并據(jù)此進行各種推理和分析，為圖書館決策和服務(wù)行為提供客觀依據(jù)。

3.2讀者信息服務(wù)

數(shù)據(jù)挖掘技術(shù)的應(yīng)用，拓寬了圖書館信息服務(wù)的范圍，增加了信息服務(wù)的項目，使圖書館的信息服務(wù)變得更加主動，大大提高服務(wù)質(zhì)量。利用傳統(tǒng)的檢索方式在越來越大的信息數(shù)據(jù)庫進行定題情報服務(wù)難度也越來越大，對于無序的或者排序不規(guī)范的電子信息還要在不同的操作平臺進行切換。利用數(shù)據(jù)挖掘技術(shù)可以整合各種類型的數(shù)據(jù)，將紙質(zhì)的圖書和不同操作平臺的電子版的信息，通過四種規(guī)則為讀者提供一個統(tǒng)一的數(shù)據(jù)平臺，會大大提高讀者檢索的命中率。

3.3圖書采購管理

圖書訂購是圖書館采訪部門的主要工作，它是圖書館工作鏈的開端，也是現(xiàn)代化圖書館資源建設(shè)的開始。圖書館每年的圖書采購費用是有限的，各門學(xué)科之間如何分配、各種文獻載體形式如何均衡才能使這些經(jīng)費最好地發(fā)揮效益，這是一件令人頭疼的事。隨著出版物的數(shù)量日益增多，載體日益豐富，高校圖書館信息結(jié)構(gòu)、讀者需求與資金利用的平衡問題越來越不易把握，也令采購工作的決策變得更加復(fù)雜。數(shù)據(jù)挖掘技術(shù)可以對流通數(shù)據(jù)庫和采訪數(shù)據(jù)庫中的歷史記錄數(shù)據(jù)進行關(guān)聯(lián)性分析和序列分析，可以輕松地統(tǒng)計出圖書文獻的頻繁借閱集合，科學(xué)分析各類文獻的利用率，為采購文獻提供科學(xué)合理的各種分析報告及預(yù)測信息，從而指導(dǎo)采訪人員對文獻種類進行科學(xué)地篩選[4]，合理地確定各種文獻所需的復(fù)本量，及時補充短缺的文獻，剔除過時的文獻，幫助采購人員確定采購重點，保障圖書館信息資源體系的科學(xué)性和合理性。

3.4借閱流量周期分析

運用時間序列挖掘方法，可以從流通數(shù)據(jù)庫中挖掘出流通量的周期性規(guī)律，分析讀者借出圖書流通的高峰期和低谷期，借此可以科學(xué)安排流通部門的全年和每天的工作，在人力資源、圖書資源有限的情況下，為讀者提供更多更優(yōu)質(zhì)的服務(wù)，為流通部門日常工作的安排提供科學(xué)的參考數(shù)據(jù)。例如，對于全年的高峰期.可以集中精力致力于讀者的流通服務(wù)；在低谷期，除了日常借閱流通服務(wù)外，可以安排一些圖書整理、讀者培訓(xùn)和業(yè)務(wù)學(xué)習(xí)之類的工作，而不像過去那樣盲目地浪費時間和資源。

4結(jié)語

數(shù)據(jù)挖掘作為方興未艾的信息技術(shù)之一，由于其在數(shù)據(jù)組織、分析和知識發(fā)現(xiàn)及信息深層挖掘等方面體現(xiàn)出的強大優(yōu)勢，在圖書館領(lǐng)域的應(yīng)用前景極為廣闊。隨著硬件環(huán)境、挖掘算法的改進、應(yīng)用的普及和經(jīng)驗的積累，數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用必將取得長足的發(fā)展與進步。

[1]安淑芝，《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》，北京:清華大學(xué)出版社，2005.

[2]張金艷，王煌，《數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用展望》，載《桂林航天工業(yè)高等專科學(xué)校學(xué)報》，2005年第2期.

[3]魏育輝，潘潔，《圖書流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析》，載《現(xiàn)代情報》，2005年第11期.

[4]張存祿等，《數(shù)據(jù)挖掘在圖書采購中的應(yīng)用》，載《情報科學(xué)》，2004年第5期.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡