張 煒 洪 霞
〔摘 要〕本文介紹了數(shù)據(jù)挖掘技術(shù)、挖掘過程和數(shù)據(jù)挖掘體系結(jié)構(gòu),針對我館信息管理系統(tǒng)中書目、讀者和借閱信息、OPAC檢索記錄以及WEB問卷調(diào)查數(shù)據(jù),分析如何應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者利用及需求的規(guī)律和模式,并探討了讀者利用挖掘在圖書館服務(wù)和管理上的應(yīng)用。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;讀者需求;圖書館決策;個性化服務(wù)
〔中圖分類號〕G250.7 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)07-0047-04
Data Mining for Library Decision-making and
Application Analysis Based on Reader UsingZhang Wei1 Hong Xia2
(1.Library,Yangzhou University,Yangzhou 225009,China;
2.Laboratory and Equipment Manage Department,Yangzhou University,Yangzhou 225009,China)
〔Abstract〕This article introduced the technology,process and architecture of data mining,according to the booklist,the reader and the borrowing information in library information management system,OPAC searching records as well as the WEB questionnaire data,analyzed how to apply the data mining technology to discover the rule and pattern of reader using and demand,and discussed the reader using excavation in the library service and management application.
〔Key words〕data mining;reader demand;library decision-making;individuation service
圖書館作為學(xué)校信息資源的匯集中心,是以滿足學(xué)校全體師生員工的教學(xué)、科研和學(xué)習(xí)的需求為目標。館藏資源的實用性,只有通過讀者的利用才能得到檢驗,同時利用也是讀者對資源實際需求的體現(xiàn),只有多渠道深層次地挖掘不同讀者群的興趣、借閱習(xí)慣、借閱傾向和借閱需求,分析并發(fā)現(xiàn)文獻結(jié)構(gòu)與讀者知識結(jié)構(gòu)的關(guān)系,才能預(yù)測出讀者未來的借閱行為,從而為決策管理提供數(shù)據(jù)支撐,并快捷、智能化地為讀者提供個性化主動服務(wù)。因此,面對“被數(shù)據(jù)淹沒,卻饑餓于知識”的數(shù)字化時代的挑戰(zhàn),如何充分利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)有價值的隱性信息為圖書館管理服務(wù),已成為目前圖書館領(lǐng)域一項非常有意義的研究內(nèi)容。
本文針對我館信息管理系統(tǒng)中書目、讀者和借閱信息及OPAC檢索記錄、WEB問卷調(diào)查中的能反映不同讀者群對不同資源的需求、閱讀習(xí)慣、閱讀傾向等大量的寶貴數(shù)據(jù),探討如何應(yīng)用數(shù)據(jù)挖掘技術(shù),找出隱藏在其中的讀者需求規(guī)律和模式,為圖書館的決策提供數(shù)據(jù)支撐和參考,以便將其應(yīng)用到對讀者的主動推薦服務(wù)上,從而更好地提供智能化的個性服務(wù)。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘根據(jù)其主要研究對象的數(shù)據(jù)結(jié)構(gòu)形式的不同,一般分為數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘3種類別。其中面向數(shù)值數(shù)據(jù)的挖掘,通常稱數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(Data Mining)就是指從大量的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)中提取有用的信息和知識的過程[1]。
1.1 數(shù)據(jù)挖掘技術(shù)
目前數(shù)據(jù)挖掘技術(shù)很多,同一個挖掘方法存在多個不同的挖掘算法。從挖掘功能上主要有分類分析、聚類模式分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、時間序列分析等方法。
1.1.1 分類分析
分類分析是根據(jù)數(shù)據(jù)對象尋找相應(yīng)的分類規(guī)則,再根據(jù)規(guī)則對數(shù)據(jù)對象進行歸納分類,找出各類的特征屬性。
1.1.2 聚類分析
聚類分析是根據(jù)數(shù)據(jù)對象間的相似性條件的滿足與否進行數(shù)據(jù)的劃分。把物理或抽象對象的集合組成由類似的對象組成的多個類或簇的過程。由聚類生成的簇是一組數(shù)據(jù)對象的集合,同一簇中的對象盡可能相似[2]。使得組間的差別盡可能大,組內(nèi)的差別盡可能小,按照給定的聚類參數(shù)(如距離等)進行分解、合并??蓱?yīng)用到讀者群體的聚類、圖書文獻的聚類、讀者集群特性和借閱傾向分析等工作環(huán)節(jié)。其與分類分析不同的是,數(shù)據(jù)類劃分的數(shù)量與類型均是未知的。
1.1.3 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析是通過尋找數(shù)據(jù)對象間的關(guān)聯(lián)模式,發(fā)現(xiàn)一些有價值的信息。如發(fā)現(xiàn)有很多讀者借閱了A文獻同時也會借閱B文獻,則向借閱A文獻的讀者推薦B文獻。一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度等參數(shù),使得所挖掘的規(guī)則更符合需求。此規(guī)則挖掘須注意目標明確,選取恰當?shù)淖钚≈С侄群妥钚】尚哦取?/p>
1.1.4 序列模式分析
序列模式分析是在數(shù)據(jù)庫中尋找基于一段時間區(qū)域的關(guān)聯(lián)分析。它與關(guān)聯(lián)分析區(qū)別在于序列模式表述的是基于時間的關(guān)系,分析數(shù)據(jù)之間的前因后果關(guān)系,而不是對象間的關(guān)系,側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi),讀者借閱了A文獻,接著借閱B文獻,而后借閱C文獻,即序列A→B→C出現(xiàn)的高頻序列”之類的知識,通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。在進行分析時須注意選取合適的最小置信度和最小支持度。
1.1.5 時間序列分析
時間序列分析是根據(jù)數(shù)據(jù)隨時間變化的趨勢進行預(yù)測,一般采用在連續(xù)的時間流中截取一個時間窗口,并將其中的數(shù)據(jù)作為一個數(shù)據(jù)單元,再讓此時間窗口在時間流上滑動,以獲得建立模型所需要的集合[3]。時間序列的數(shù)據(jù)庫內(nèi)某個字段的值是實時變化的。
1.2 數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘不僅僅是利用數(shù)據(jù)挖掘算法對數(shù)據(jù)進行挖掘的過程。還應(yīng)包括挖掘目標的確定、前期的數(shù)據(jù)準備、數(shù)據(jù)挖掘和對挖掘結(jié)果的解釋與應(yīng)用。
1.2.1 確定挖掘目標和數(shù)據(jù)選擇
根據(jù)問題和提供服務(wù)的要求,明確挖掘目標是數(shù)據(jù)挖掘的第一步。然后搜索所有與挖掘目標有關(guān)的內(nèi)、外部數(shù)據(jù)。本文主要針對我館信息管理系統(tǒng)中的書目信息、讀者信息和借閱信息及OPAC檢索記錄、WEB問卷調(diào)查數(shù)據(jù)。它們的關(guān)系如圖1所示:
其中opac檢索信息主要反映讀者需求。內(nèi)容主要包括讀者標識、檢索字段、檢索時間。由于很多情況下是匿名登錄,可以利用IP地址代替讀者標識,對于檢索字段如是規(guī)范的檢索式需要記錄多個檢索詞和檢索符號、檢索項,如是語句或短語還需進行分詞;Web問卷調(diào)查主要來自“圖書館館藏資源利用讀者評價平臺”,通過此平臺可以了解不同讀者(不同層次、不同院系讀者、不同年齡段)對藏書的利用狀態(tài)評價,分析不同讀者群對藏書的需求傾向、對知識獲取的范圍和閱讀的規(guī)律性等。
1.2.2 數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)預(yù)處理是對收集到的數(shù)據(jù)源進行加工處理和組織重構(gòu),以上的原始數(shù)據(jù)存在同構(gòu)和異構(gòu)的情況,因此需要從各種數(shù)據(jù)源中去選擇所需要的數(shù)據(jù)構(gòu)成目標數(shù)據(jù),收集、整理、重構(gòu)web問卷調(diào)查等異構(gòu)數(shù)據(jù),使之轉(zhuǎn)化為標準的結(jié)構(gòu)化數(shù)據(jù)。并對目標數(shù)據(jù)進行統(tǒng)一的存儲,消除其中的不一致性。如:一些空值數(shù)據(jù)、不完整不一致的數(shù)據(jù)、冗余數(shù)據(jù)和缺失的數(shù)據(jù),對它們進行去除噪聲、刪除無效數(shù)據(jù)、填補缺失項等操作。
數(shù)據(jù)轉(zhuǎn)換主要是為了使數(shù)據(jù)能夠適應(yīng)算法計算的要求而進行的操作。包括離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項之間的計算組合等,對于高維數(shù)據(jù)集需要采用維變換或數(shù)據(jù)約簡來減少數(shù)據(jù)屬性值的有效數(shù)量。例如為了能實現(xiàn)聚類的分析,須對細而且數(shù)值分散的圖書索書號進行數(shù)據(jù)處理,可分別取大類和第二級分類;對每天的流通記錄數(shù)據(jù)可按照年、季、月、星期、小時的不同時間屬性進行劃分。
1.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段將根據(jù)挖掘目標和特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘,用知識庫中的領(lǐng)域知識指導(dǎo)搜索,尋找特定的感興趣的模式或數(shù)據(jù)集,并對挖掘得到的知識模式進行分析與評估,將模型評估與數(shù)據(jù)挖掘集成在一起,以便將搜索限制在有價值的模式上。這是一個反復(fù)迭代進行的過程,需要對挖掘結(jié)果進行不斷的實踐應(yīng)用、測試、和比對,直至讀者滿意。
1.2.4 挖掘結(jié)果的解釋和應(yīng)用
挖掘結(jié)果往往不是可視化的,是難以理解的。因此需要對結(jié)果進行合理的解釋,將發(fā)現(xiàn)的知識以便于用戶理解和觀察的可視化方式反映給用戶,并提供個性化的主動推薦服務(wù)。
1.3 數(shù)據(jù)挖掘結(jié)構(gòu)模型
數(shù)據(jù)挖掘體系結(jié)構(gòu)主要包含三層,即:數(shù)據(jù)層、應(yīng)用邏輯層和表達層,其中第一層是數(shù)據(jù)層,主要通過ODBC或其它數(shù)據(jù)庫接口提取圖書館相關(guān)的各類數(shù)據(jù)。第二層是應(yīng)用邏輯層,主要完成數(shù)據(jù)挖掘、應(yīng)用服務(wù)等處理功能。第三層是表達層,主要負責(zé)用戶與數(shù)據(jù)挖掘系統(tǒng)間的交互。結(jié)構(gòu)模型如圖2所示。
2 讀者利用及需求挖掘在圖書館服務(wù)管理中的應(yīng)用
圖書館每天都會產(chǎn)生大量的數(shù)據(jù), 這些數(shù)據(jù)背后蘊藏了豐富的、未知的、有用的知識,對圖書館決策、管理及應(yīng)用是非常有價值的。而目前圖書館自動化系統(tǒng)一般只用來做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計,無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法預(yù)測讀者的信息需求,更缺乏對大量的統(tǒng)計數(shù)據(jù)中隱含的關(guān)聯(lián)的歸納、分析與揭示,使圖書館對讀者信息需求和文獻利用的捕獲停留在比較淺顯的層面,這就需要我們通過挖掘讀者信息需求、文獻利用的分類的聚合、讀者分類、需求聚類等數(shù)據(jù),尋找各學(xué)科及不同學(xué)科層次之間的一些相互關(guān)聯(lián)的知識,以輔助圖書館的決策,優(yōu)化圖書館的館藏布局;通過挖掘讀者年齡、性別、學(xué)歷、學(xué)科背景、職業(yè)等屬性來發(fā)現(xiàn)不同的讀者群對不同類別文獻的借閱模式和興趣規(guī)則,據(jù)此可以更好地提供個性化信息服務(wù)。
2.1 圖書館管理決策方面的應(yīng)用
2.1.1 分析讀者的利用與需求,提升圖書館服務(wù)與管理
(1)通過對讀者借閱次數(shù)和圖書借閱頻率數(shù)據(jù)的挖掘,每月出一個圖書借閱排行榜和讀者借閱次數(shù)排行榜。對排在前十位的圖書重點介紹和推介。對排在前十位的讀者,可剖析其所借閱書籍類別,提高讀者導(dǎo)讀的效果,從而提高圖書利用率,引導(dǎo)讀者閱讀趨向,以保持他們的借閱忠誠度。
(2)由于讀者最大借閱冊數(shù)和借閱周期一般是根據(jù)讀者的身份特征設(shè)定的,這就會使得不同借閱需求讀者的資源分配不均,可通過聚類分析方法(如采用k-means算法)對讀者在某個時間段的借閱次數(shù)進行聚類計算,將聚類結(jié)果存儲在讀者聚類結(jié)果表中,一方面可以了解讀者對圖書館服務(wù)的使用程度,另一方面也可以根據(jù)讀者的使用情況劃分讀者群,針對不同的讀者群采取不同的服務(wù)措施,可按照讀者的聚類結(jié)果定期調(diào)整讀者的最大借閱次數(shù)和借閱周期,以滿足不同讀者群的需求,充分利用館藏資源,為他們提供主動的推薦服務(wù)。
(3)通過時間序列分析挖掘出借閱流通量的周期性規(guī)律,特別是年、季、月、星期、小時等不同時間特性的不同讀者群的借閱量規(guī)律,找出讀者在各種不同的時期里,使用圖書館的狀況,了解讀者需求,從而進一步分析讀者借閱書籍的高峰期和低谷期,籍此可以在人力、財力資源有限的情況下,為流通部門日常工作的安排提供科學(xué)合理的參考數(shù)據(jù),為讀者提供更多更優(yōu)質(zhì)的服務(wù)。在此基礎(chǔ)上還可加入文獻類別的分析,利用聚類分析,來探討時間與文獻間的關(guān)系,從而了解到讀者借閱的喜好,并可在熱門時段作強力圖書推薦或在借閱冷清時段作積極的推銷。
2.1.2 獲取文獻利用狀況,優(yōu)化館藏布局
(1)通過對流通記錄、opac檢索請求及館藏書目庫進行分析與挖掘,按文獻類別統(tǒng)計文獻拒借集、頻繁借閱集、文獻利用率,并對讀者借閱的文獻進行關(guān)聯(lián)、聚類分析,挖掘出讀者對文獻的借閱興趣、借閱需求,了解文獻的受歡迎程度,提高文獻的利用率,綜合本館的資源和現(xiàn)有需求量調(diào)整采購策略,從而有針對性地補充、豐富、優(yōu)化館藏資源,對館藏文獻的調(diào)整和資金的合理分配具有實際意義。
(2)通過對文獻被借閱次數(shù)(總借閱統(tǒng)計次數(shù)和當前年被借閱情況)的聚類分析,挖掘出館藏文獻的利用情況,可對借閱頻率較高且連續(xù)續(xù)借的書目,以量化方式反饋給采訪部門以加大采訪力度。
(3)通過對讀者的聚類分析,找出不同讀者群間不同的借閱行為,分析其可能存在的閱讀傾向,并以概率的形式體現(xiàn),同時可挖掘出每個讀者群間普遍出現(xiàn)的文獻類別,分析其所代表的意義,把此作為圖書采購的參考依據(jù),以供相關(guān)部門決策。
2.2 獲取讀者需求信息,提供個性化服務(wù)
(1)讀者需求信息挖掘是一種主動獲取不同讀者群興趣模式的方法。通過分類、聚類分析方法,根據(jù)不同讀者的特征及借閱記錄,對讀者群體按照年齡、學(xué)歷、學(xué)科背景、職業(yè)等屬性進行分類,把讀者進行群體細分,挖掘出不同讀者群體間借閱興趣的相似性和相異性,找出各類特性的讀者群對圖書的興趣需求模式,建立模式之后,該類別其他讀者借閱或關(guān)注過的文獻或者同類別新到的文獻,可按照此模式主動推薦給有該特性的讀者,實現(xiàn)主動的信息推薦服務(wù)。
(2)同時對文獻資源進行關(guān)聯(lián)規(guī)則分析,尋找讀者借閱圖書的潛在規(guī)律,挖掘出相互之間有密切關(guān)系的文獻,并找出讀者個人特征與文獻之間的關(guān)聯(lián)性,進一步了解讀者的借閱興趣及需求,當讀者使用其中一個資源時,可將其他相關(guān)資源推薦給讀者;當有新的文獻進館,可根據(jù)該文獻的類別,將其推薦給相應(yīng)類別的讀者,自動實現(xiàn)根據(jù)讀者借閱情況,主動為其提供相關(guān)文獻的功能,從而能夠在個性化服務(wù)方面得以實際的應(yīng)用。在挖掘文獻間的關(guān)聯(lián)性時,由于讀者的閱讀興趣往往與他的專業(yè)相關(guān),不僅要尋找那些借閱頻率較高的圖書間的關(guān)聯(lián)性(不進行分類的挖掘),還應(yīng)該對圖書進行分類(可根據(jù)中圖法)的關(guān)聯(lián)規(guī)則挖掘,找到同類圖書之間的關(guān)聯(lián)性。
(3)讀者借閱館藏可能會先借入門的再借深入的,通過序列模式可挖掘不同讀者群體借閱館藏文獻的時間順序特性,當某一讀者群借閱某類文獻時,主動向該類讀者群推薦具有時間順序特性的相關(guān)類別的后續(xù)文獻。
3 結(jié) 語
隨著信息時代數(shù)字化、網(wǎng)絡(luò)化的飛速發(fā)展和應(yīng)用,如何從數(shù)據(jù)的汪洋大海中及時發(fā)現(xiàn)有用的知識,已成為數(shù)字化時代圖書館信息管理服務(wù)向智能化和服務(wù)多元化方向發(fā)展所必須面對的問題。因此,變被動服務(wù)為主動服務(wù),主動通過聚類、分類、關(guān)聯(lián)規(guī)則及序列模式等挖掘技術(shù)尋找不同讀者群對不同類別書籍的借閱興趣規(guī)則、借閱習(xí)慣、需求和傾向等,研究各學(xué)科專業(yè)的館藏資源利用、老化程度、經(jīng)費投入情況,發(fā)現(xiàn)各學(xué)科領(lǐng)域間、不同讀者群潛在需求的知識關(guān)聯(lián),無疑對圖書館管理與服務(wù)向知識服務(wù)的層面發(fā)展起到很好的指導(dǎo)作用,它不僅是形成最大限度滿足讀者需求的文獻保障體系的重要依據(jù),也是圖書館開展以讀者需求為導(dǎo)向的各項智能化個性服務(wù)工作的基礎(chǔ)。
參考文獻
[1]司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2005,(10):15-18.
[2]羅可,蔡碧野,吳一帆,等.數(shù)據(jù)挖掘中聚類的研究[J].計算機工程與應(yīng)用,2003,(20):182-184,218.
[3]劉文科.數(shù)據(jù)挖掘在高校圖書館讀者管理中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟,2007,16(8):67-68.
[4]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J].圖書館論壇,2004,24(3):86-88.