呂 遠(yuǎn),呂丹丹
(1.南京工業(yè)大學(xué)信息服務(wù)部,江蘇南京211800;2.南京工業(yè)大學(xué)教學(xué)事務(wù)部,江蘇南京211800)
基于數(shù)據(jù)挖掘技術(shù)的高校圖書館用戶行為模式應(yīng)用研究*
——以南京工業(yè)大學(xué)為例
呂 遠(yuǎn)1,呂丹丹2
(1.南京工業(yè)大學(xué)信息服務(wù)部,江蘇南京211800;2.南京工業(yè)大學(xué)教學(xué)事務(wù)部,江蘇南京211800)
數(shù)據(jù)挖掘技術(shù)在眾多行業(yè)領(lǐng)域已得到廣泛應(yīng)用,圖書館行業(yè)也在積極探索利用大數(shù)據(jù)分析加強(qiáng)和提高自身業(yè)務(wù)和服務(wù)水平?;跀?shù)據(jù)挖掘算法和大數(shù)據(jù)分析,詳細(xì)分析了大學(xué)生在校期間在圖書館的借閱行為模式,并得到了一系列模型結(jié)果。這些結(jié)果可為圖書館為師生提供有針對性的個性化服務(wù)提供相應(yīng)的決策支持,加快圖書館服務(wù)方式由被動服務(wù)向以用戶需求驅(qū)動的主動服務(wù)方式的轉(zhuǎn)變。
數(shù)據(jù)挖掘;圖書館;數(shù)據(jù)清洗;關(guān)聯(lián)分析;分類分析
“大數(shù)據(jù)”的概念最早由全球最有影響力的咨詢公司麥肯錫提出,經(jīng)過幾十年的發(fā)展,大數(shù)據(jù)理論體系已相當(dāng)完備,現(xiàn)已成功廣泛應(yīng)用于商業(yè)領(lǐng)域當(dāng)中。
由于知識傳播與利用形式不斷變化,各種新技術(shù)機(jī)制在知識創(chuàng)造、組織、傳播和應(yīng)用中扮演著越來越重要的角色[1],使得傳統(tǒng)的知識服務(wù)體系難以滿足新形勢下的各種新需求。當(dāng)下的知識服務(wù)不局限于圖書館自身的基礎(chǔ)服務(wù)體系,更包括結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)的深度分析、競爭力分析、創(chuàng)新力分析、預(yù)測性分析等高附加值服務(wù),為服務(wù)用戶提供有價值的決策支持和智慧服務(wù)。
筆者基于大數(shù)據(jù)技術(shù)充分挖掘?qū)W生在校期間在圖書館的借閱行為模式,得到了一系列結(jié)論模型。這些結(jié)果可以為圖書館提供更加量化的數(shù)據(jù)支撐和決策支持,實(shí)現(xiàn)圖書館知識服務(wù)模式和管理方式的轉(zhuǎn)變。
1.1 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse)一詞首先由IBM公司研究員Barry Devlin和Paul Murphy于1988年提出,目的為解決企業(yè)的集成問題。1992年,目前公認(rèn)的數(shù)據(jù)倉庫之父Bill Inmon對數(shù)據(jù)倉庫做了如下定義:數(shù)據(jù)倉庫就是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制訂過程[2]。自此,整個社會真正拉開了數(shù)據(jù)倉庫得以大規(guī)模應(yīng)用的序幕。數(shù)據(jù)倉庫的構(gòu)架如圖1所示。
圖1 數(shù)據(jù)倉庫構(gòu)架圖
1.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘技術(shù)可以分為預(yù)言(Predication)和描述(Description)兩大類。具體包括關(guān)聯(lián)分析、序列模式、分類、聚集、異常檢測等技術(shù),它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。下面簡單介紹本文中用到的數(shù)據(jù)挖掘技術(shù):
(1)關(guān)聯(lián)分析。關(guān)聯(lián)分析作為一種無監(jiān)督機(jī)器學(xué)習(xí)方法(Unsupervised Learning),是數(shù)據(jù)挖掘中最常用的方法之一。它的核心在于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而揭示出一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析的嚴(yán)格定義如下[3]:
令為一個文字符組成的集合,每個文字符號代表一個項(xiàng)目,由一個或一個以上的項(xiàng)目組成的集合稱為項(xiàng)目集。令數(shù)據(jù)庫D是由一群交易T所組成的集合,每個T為一個項(xiàng)目集,代表交易記錄,TI,每個交易記錄有一個唯一的編碼,稱為TID。如果Xl且XT,則定義T包含X。以圖書館的應(yīng)用來看,每一本書就是一個交易項(xiàng)目,一個讀者在一段時間內(nèi)來圖書館借閱館藏圖書的集合就是一筆交易。
關(guān)聯(lián)規(guī)則挖掘最終希望找出數(shù)據(jù)庫D中所有支持度和置信度大于最小支持度和最小置信度的規(guī)則,其中最小支持度與最小置信度的閾值可由使用者設(shè)定。
(2)分類分析。分類分析是一種有監(jiān)督機(jī)器學(xué)習(xí)方法(Supervised Learning)。它通過對已知類別訓(xùn)練集的分析,為每個類別建立分類分析模型,然后用這個分類分析模型對數(shù)據(jù)庫中的其他記錄進(jìn)行分類,以此預(yù)測新數(shù)據(jù)的類別,描述重要數(shù)據(jù)類的特征或預(yù)測未來的數(shù)據(jù)趨勢。
分類分析的輸入集是一組記錄集合和幾種類別的標(biāo)記。每一條記錄包含若干條屬性(attribute),組成一個特征向量。訓(xùn)練集的每條記錄還有一個特定的類標(biāo)簽(類標(biāo)簽)與之對應(yīng)。該類標(biāo)簽是系統(tǒng)的輸入,通常是以往的一些經(jīng)驗(yàn)數(shù)據(jù)。一個具體樣本的形式可為樣本向量在這里Vi表示字段值,C表示類別。常用的分類算法有決策樹算法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)算法、遺傳算法等。
2.1 確立數(shù)據(jù)挖掘的主題和目標(biāo)
本文以南京工業(yè)大學(xué)2012級本科生為研究對象,分兩個維度分別對讀者在圖書館的借閱行為進(jìn)行數(shù)據(jù)挖掘:分析四年期間(2012~2016年)讀者在圖書館的使用情況;運(yùn)用關(guān)聯(lián)分析算法和分類算法對讀者的行為模式進(jìn)行進(jìn)一步挖掘。
2.2 建立數(shù)據(jù)倉庫
南京工業(yè)大學(xué)圖書館的匯文管理系統(tǒng)是基于Oracle(以下簡稱SQL)數(shù)據(jù)庫系統(tǒng),其中有很多數(shù)據(jù)表。本研究需要從其歷史借閱記錄表、圖書MARC表、讀者基本信息表、讀者證件表中利用SQL語句導(dǎo)出需要的屬性列,并且經(jīng)過進(jìn)一步的清洗、合并、整理、格式轉(zhuǎn)換,以備使用。
原始讀者表中有846 845條數(shù)據(jù),MARC表中604 896條數(shù)據(jù),證件表中140 093條數(shù)據(jù),借閱表中有625 473條數(shù)據(jù)。借助于VBA程序和SQL語句,進(jìn)行以下數(shù)據(jù)清洗操作:將研究對象限定為2012年至2016年在校本科生;將借閱時間限定在2012年9月1日之后;為便于以時間特性為指標(biāo)進(jìn)行數(shù)據(jù)挖掘,將借閱時間拆分為年、月、日、分、周5個屬性列;由于原始數(shù)據(jù)中學(xué)院屬性列的值非常不統(tǒng)一,有的是專業(yè)名,有的是班級名,因此需對學(xué)院屬性列進(jìn)行重新填充值;為便于以圖書類別為指標(biāo)進(jìn)行數(shù)據(jù)挖掘,將索書號拆分為大類(索書號首位)和小類(索書號前兩位)兩個部分;為后續(xù)關(guān)聯(lián)分析方便,將讀者7天之內(nèi)的借閱行為視為一次“購物籃”行為,即認(rèn)為讀者在這7天之內(nèi)的借閱行為具有連續(xù)性,并且在借閱記錄表中增加最常用索書號小類屬性列(共183個圖書小類,選取出現(xiàn)頻率大于100以上的小類,共76個);對臟數(shù)據(jù)做進(jìn)一步清洗整理,包括空值、空格、重復(fù)記錄、特殊字符等。
之后,將數(shù)據(jù)導(dǎo)出至Navicat和Spss中,得到下面三類數(shù)據(jù):館藏圖書表bookinfo(共計(jì)520 131條數(shù)據(jù));借閱記錄表lendhist(共計(jì)165 287條數(shù)據(jù));讀者基本信息表readerinfo(共計(jì)6 318條數(shù)據(jù))。
2.3 數(shù)據(jù)挖掘并分析結(jié)果
基于之前建立的數(shù)據(jù)倉庫,利用Spss和Clementine軟件[4-5],分別從兩個維度對圖書館讀者的行為習(xí)慣進(jìn)行挖掘,并找出相關(guān)數(shù)據(jù)之間的聯(lián)系。
2.3.1 圖書館使用情況數(shù)據(jù)分析
根據(jù)讀者的特性,分別以性別、學(xué)院、年級為指標(biāo),借助于直方圖或餅狀圖進(jìn)行大方向的分析,了解讀者行為上的大致趨勢,并且可以根據(jù)需要加上圖書大類和小類的指標(biāo),對不同專業(yè)讀者、學(xué)院的借閱喜好做進(jìn)一步的分析。
數(shù)據(jù)顯示,男生更偏向借閱的前三類圖書依次為T、O、I,女生則更偏向借閱I、T、O。根據(jù)中圖法,T代表工業(yè)技術(shù)類圖書、O代表數(shù)理科學(xué)和化學(xué)類、I代表文學(xué)類。這說明女生更偏向借閱一些文藝類圖書,而男生則對理工科圖書更感興趣,圖書館在采購相關(guān)圖書的時候可以在這幾大類圖書上適當(dāng)傾斜。
各年借閱量數(shù)據(jù)顯示,2013年圖書借閱量最大,而這一年正好是大一下學(xué)期到大二上學(xué)期這一段時間,2016年最少,也就是大四下學(xué)期這段時間。針對大一上學(xué)期、大二下學(xué)期和大三的同學(xué),圖書館可多組織一些推廣活動,采取積極有效的措施吸引他們前來借閱,增加這一類用戶群的使用黏度。
分別以月、周、小時為時間指標(biāo)進(jìn)行分析,可以看出,讀者在3月和9月借閱量最大,這跟剛剛開學(xué)有關(guān)。另外,臨近考試周期間借閱量也有較大增長。一周之內(nèi),前三天的借閱量最大,占到一周總借閱量的幾乎一半的比例。而在一天的時間段里,20點(diǎn)、17點(diǎn)、16點(diǎn)這三個時間段借閱量最大。圖書館可以根據(jù)這些數(shù)據(jù),合理調(diào)配人員,優(yōu)化資源配置,降低人力成本。
各個學(xué)院由于專業(yè)不同,對各個圖書大類的需求存在很大差別,如建筑學(xué)院對T類圖書需求最大,外語學(xué)院對H類圖書需求最大,法學(xué)院對D類圖書需求最大。另外學(xué)生從大一到大四,對O類圖書的需求逐漸減少,而對T類圖書的需求則逐漸增多。從月份和圖書大類關(guān)系可以看出T類圖書三月份需求最大,而八月份所有圖書的需求量都是最小的。圖書館可以根據(jù)這些挖掘出的信息對不同學(xué)院不同專業(yè)的學(xué)生和老師提供個性化服務(wù),提高學(xué)生自主學(xué)習(xí)的學(xué)習(xí)效率。
2.3.2 讀者行為模式分析
基于之前建立的數(shù)據(jù)倉庫,運(yùn)用分類算法和關(guān)聯(lián)分析算法,挖掘數(shù)據(jù)中隱藏的信息,這些信息有些是明顯的,但更多則是很容易被決策者忽略的現(xiàn)象,這些現(xiàn)象可為決策者提供重要的參考依據(jù)。筆者利用的分析工具是Spss Modeler(Clementine)。
(1)分類分析。決策樹算法是分類分析算法中的一種,數(shù)據(jù)流如圖2所示。筆者將利用該算法對性別、大類和月份之間的關(guān)系進(jìn)行挖掘。將借閱歷史記錄導(dǎo)入Spss Modeler中之后,在建模選項(xiàng)卡下選擇C5.0(即C&R Tree)模型建模,[Fields]中輸入[Target]為[大類],[Inputs]為[月份]、[性別],執(zhí)行后如圖3所示(Viewer顯示):
圖2 決策樹算法數(shù)據(jù)流圖示
圖3 決策樹圖示
可以看出男生在圖書館更傾向于借閱T類圖書,而女生的借閱行為在不同月份有明顯差別,在暑假剛開學(xué)的一個月和學(xué)年的下學(xué)期期間更傾向于借閱I類圖書,其他時間段則更可能借閱T類圖書。這可能與剛開學(xué)期間沒有考試壓力,學(xué)生有時間借閱課外書以擴(kuò)充知識面有關(guān)。
(2)關(guān)聯(lián)分析。關(guān)聯(lián)分析數(shù)據(jù)流如4圖示。筆者利用Apriori關(guān)聯(lián)分析算法對讀者借閱的圖書小類進(jìn)行分析,找出與讀者借閱圖書關(guān)聯(lián)最緊密的圖書小類。通過這樣的挖掘,可以實(shí)現(xiàn)圖書的自動化推薦,也可以找出讀者對圖書類別喜好的傾向。
圖4 關(guān)聯(lián)分析數(shù)據(jù)流圖示
首先從Spss導(dǎo)入借閱圖書歷史數(shù)據(jù),然后在Spss Modeler中建立相關(guān)模型。在Type節(jié)點(diǎn)中設(shè)置角色時,可不必設(shè)置目標(biāo)字段,只需在“Apriori建?!惫?jié)點(diǎn)設(shè)置“后項(xiàng)”即可。另外需在過濾節(jié)點(diǎn)中將與關(guān)聯(lián)分析關(guān)系不大的字段過濾掉,如id、 cert_id、dept、location等字段。為在建模節(jié)點(diǎn)中設(shè)置后項(xiàng)字段時更具針對性,有必要再添加一個網(wǎng)絡(luò)節(jié)點(diǎn),提前直觀地了解一下不同圖書小類之間關(guān)聯(lián)程度。
執(zhí)行網(wǎng)絡(luò)節(jié)點(diǎn),得到結(jié)果如圖5所示:
圖5 關(guān)聯(lián)分析執(zhí)行結(jié)果之Web網(wǎng)狀圖示
在圖5中,線的粗細(xì)和顏色的深淺代表聯(lián)系的強(qiáng)弱,可以明顯地看到I2與I5、I2與B8、I2與H3有著非常強(qiáng)的關(guān)聯(lián)。
在建模選項(xiàng)卡下選擇“Apriori模型”節(jié)點(diǎn),添加到數(shù)據(jù)流中。
設(shè)置該模型的最低條件支持度為5%,最小規(guī)則置信度為10%,執(zhí)行結(jié)果如圖6所示:
圖6 關(guān)聯(lián)分析執(zhí)行結(jié)果圖示1
設(shè)置該模型的最低條件支持度為5%,最小規(guī)則置信度為17%,執(zhí)行結(jié)果如圖7所示:
圖7 關(guān)聯(lián)分析執(zhí)行結(jié)果圖示2
設(shè)置該模型的最低條件支持度為5%,最小規(guī)則置信度為25%,執(zhí)行結(jié)果如圖8所示:
圖8 關(guān)聯(lián)分析執(zhí)行結(jié)果圖示3
根據(jù)中圖法,I2代表中國文學(xué)類,H3代表常用外國語類,I5代表各國文學(xué),B8代表思維科學(xué)、邏輯學(xué)和美學(xué)。由上面執(zhí)行結(jié)果可以看出,在借閱了I2類別圖書的情況下,會有26.525%的讀者借閱I5類圖書,18.56%的讀者借閱B8類圖書,16.836%的讀者借閱H3類圖書。這幾個類別的圖書都偏向于文科類圖書。同樣的過程,還可以分析其他類別圖書的關(guān)聯(lián)性,例如TP類別等。
2.4 應(yīng)用知識
以上數(shù)據(jù)挖掘的結(jié)論可以作為圖書館開展服務(wù)的一個依據(jù),在借書率較高的時間段,按需分配較多的人力資源,以緩解高峰借閱時間的人力不足,在借書率較低的時間段,可以適當(dāng)減少值班人員,節(jié)約人力成本。
另外,在圖書館館藏布局方面,可將關(guān)聯(lián)度比較高的圖書大類排在一起,提升用戶體驗(yàn)度,增加圖書的流通效率。
圖書館還可以依據(jù)以上分析結(jié)果,對不同專業(yè)、不同年級和不同學(xué)院的學(xué)生提供個性化服務(wù),為他們推薦最相關(guān)的圖書;并且針對借閱量較低的年級和學(xué)院,可適當(dāng)多開展一些推廣服務(wù),一方面增加圖書館的服務(wù)品質(zhì),同時可以增加用戶對圖書館的使用黏度。
對讀者在圖書館的行為模式進(jìn)行數(shù)據(jù)挖掘的過程中,還有一些需要改進(jìn)和注意的地方:
(1)本課題基于讀者的借閱歷史記錄、讀者個人信息、MARC信息建立的數(shù)據(jù)倉庫,實(shí)際上還有一部分用戶對圖書館的使用僅僅是查詢文獻(xiàn)信息,可能并沒有真正借閱書籍。因此為更精確地獲取讀者行為模式,還應(yīng)加入讀者在圖書館各個閱覽室(包括電子和期刊閱覽室)的登記信息、OPAC系統(tǒng)的查詢?nèi)罩居涗浀取?/p>
(2)由于高校學(xué)生對互聯(lián)網(wǎng)依賴度較高,圖書館主頁是大部分用戶對圖書館資源使用的第一入口,因此可通過對圖書館主頁服務(wù)器的日志和各個欄目下的點(diǎn)擊量進(jìn)行數(shù)據(jù)分析,獲取用戶對圖書館電子資源的使用情況。
(3)本課題數(shù)據(jù)倉庫建立的過程較為曲折,很大程度上是由于匯文管理系統(tǒng)的限制和圖書館新生信息錄入時操作不規(guī)范造成,包括從匯文導(dǎo)出海量數(shù)據(jù)時出現(xiàn)的各種bug、新生基本信息中學(xué)院信息的缺失等,這些問題需要人工處理,工作量較大,同時也帶來了一定的數(shù)據(jù)誤差。
毫無疑問,數(shù)據(jù)挖掘技術(shù)在未來的時間必然是圖書情報領(lǐng)域應(yīng)用的主流技術(shù)之一,為圖書館知識服務(wù)方式的轉(zhuǎn)變提供了新的思路,更是向數(shù)字化云圖書館轉(zhuǎn)變的一個強(qiáng)力助推器。盡管其也存在著一些亟待解決的問題,但隨著市場和信息技術(shù)的發(fā)展進(jìn)步,這些爭議和難題都將得到清晰的解決方案。大數(shù)據(jù)技術(shù)在圖書情報界的應(yīng)用發(fā)展還需要業(yè)界人員的共同努力。
[1]張曉林.研究圖書館2020:嵌入式協(xié)作化知識實(shí)驗(yàn)室[J].中國圖書館學(xué)報,2012(1):11-20.
[2]INMON W H.Building the Data Warehouse,3rd Edition[M]. Indianapolis:John Wiley&Sons,Inc,2002.
[3]AGRAWAL R,IMIELINSKI T,SWAMI A.Mining association rules between sets of items in large databases[J].Acm Sigmod Record,1993(2):207-216.
[4]蕭文龍.實(shí)戰(zhàn)SPSS統(tǒng)計(jì)學(xué)[M].北京:中國水利水電出版社,2015.
[5]王國平,郭偉宸,汪若君.IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M].北京:清華大學(xué)出版社,2014.
(編發(fā):王域鋮)
Research and Application of University Library User’s Behavior Model Based on the Data Mining Techniques:A Case Study of Nanjing Tech University Library
LV Yuan1,LV Dan-dan2
(1.Dept.of Information Service,Nanjing Tech University,Nanjing 211800,China; 2.Dept.of Teaching Affairs,Nanjing Tech University,Nanjing 211800,China)
Data mining techniques are widely used in many industry areas and the library industry also actively explores the application of big data analyses to strengthen its own business.Based on the data mining techniques,this paper analyzes the behavior model of undergraduate students during the four years in the library and makes a series of results.These conclusions can offer corresponding knowledge and decision supporting for library to provide personalized service to teachers and students,and accelerate the transformation from passive service mode to user needs driven active service mode.
data mining;library;data cleaning;relational analysis;classification analysis
G250
G250
2095-5197(2016)06-0108-05
呂遠(yuǎn)(1988-),男,助理館員,碩士,研究方向:web開發(fā)、大數(shù)據(jù)技術(shù);呂丹丹(1985-),女,助理研究員,碩士,研究方向:教育信息化、數(shù)據(jù)庫。
2016-10-21
*本文系南京工業(yè)大學(xué)圖書館研究基金項(xiàng)目(項(xiàng)目編號:NJTECHLIB201508)、南京工業(yè)大學(xué)宣傳部黨建與思想政治教育課題項(xiàng)目(項(xiàng)目編號:SZ20160316)成果。