張晴 李琦 程彭洲
摘要:大數(shù)據(jù)時代,深入挖掘圖書館海量圖書信息和借閱信息等數(shù)據(jù)資源,是實現(xiàn)圖書館高質(zhì)量個性化服務(wù)的核心。本文分析圖書管理系統(tǒng)中現(xiàn)存的問題,提出基于數(shù)據(jù)挖掘技術(shù)的移動端圖書管理系統(tǒng)的設(shè)計和解決方案,選擇關(guān)聯(lián)規(guī)則算法實現(xiàn)圖書推薦,聚類算法實現(xiàn)書友推薦,分類算法實現(xiàn)新書上架預(yù)測,從而提升用戶的體驗,提高圖書資源的使用率。
Abstract: In the era of big data, digging deep into the data resources such as massive library information and lending information is the core of the library's high quality and personalized services. This paper analyzes the existing problems in the library management system, proposes the design and solution of mobile library management system based on data mining technology, and chooses association rules algorithm to implement the recommendation of books. Using book clustering algorithm to achieve book recommendation, classification algorithm to achieve new book prediction. This will enhance the user's experience and increase the use of library resources.
關(guān)鍵詞: 數(shù)據(jù)挖掘;移動圖書管理;個性化服務(wù)
Key words: data mining;mobile library management;personalized service
中圖分類號:G250.7 文獻標識碼:A 文章編號:1006-4311(2018)26-0044-03
0 引言
隨著互聯(lián)網(wǎng)迅速覆蓋,移動用戶持續(xù)增加,各類信息呈爆炸型積聚,大數(shù)據(jù)時代來臨。圖書管理系統(tǒng)作為服務(wù)大眾的平臺,其數(shù)據(jù)規(guī)模龐大、可分析性高,傳統(tǒng)的數(shù)據(jù)處理方式和PC設(shè)備已無法滿足需求,深層次的數(shù)據(jù)挖掘?qū)橛脩籼峁└鼉?yōu)質(zhì)的服務(wù)。
從圖書館大量的信息資源中準確高效地獲取圖書信息,提升用戶的體驗,已成為學者的熱門研究。劉軍軍研究了移動圖書館服務(wù)平臺框架結(jié)構(gòu),提出了建立一個集成資源整合、服務(wù)和用戶的一站式學習支持環(huán)境的移動圖書館服務(wù)平臺[1]。楊利軍等發(fā)現(xiàn)了圖書館個性化服務(wù)中大數(shù)據(jù)可視化分析的重要意義,研究設(shè)計了一種具有較完善可視化分析功能的系統(tǒng)框架,從而保障讀者的個性化閱讀[2]。Yi等著重討論了將數(shù)據(jù)挖掘算法中的關(guān)聯(lián)規(guī)則算法和聚類算法應(yīng)用于高校圖書館大數(shù)據(jù)個性化推送服務(wù) [3]。常雅紅通過實例分析說明了大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘的數(shù)字化圖書館服務(wù)新模式,提出了包括智能化推送服務(wù)、移動服務(wù)等在內(nèi)的四項內(nèi)容[4]。熊太純等為更好地滿足讀者的個性化需求,提出整合圖書館的館藏信息,充分利用Web2.0、云計算等網(wǎng)絡(luò)信息技術(shù),改進圖書館的個性化互動服務(wù)方式[5]。李艷等借助宏觀上對高校圖書館大數(shù)據(jù)挖掘與決策分析體系的研究及設(shè)計,證明基于“大數(shù)據(jù)+微服務(wù)”模式的重要價值[6]。
本文分析圖書管理系統(tǒng)中現(xiàn)存的問題,基于關(guān)聯(lián)規(guī)則、聚類、分類等數(shù)據(jù)挖掘算法提出相應(yīng)的對策,構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的移動圖書管理系統(tǒng),實現(xiàn)圖書推薦、書友推薦、新書上架預(yù)測等個性化服務(wù),從而提高圖書資源的使用率和用戶的滿意度。
1 現(xiàn)存問題和對策分析
目前,大多數(shù)圖書管理系統(tǒng)實現(xiàn)在PC端,使用受到時空的限制,且往往只實現(xiàn)了基礎(chǔ)層面的圖書信息整合、用戶基礎(chǔ)借閱、管理員基礎(chǔ)信息操作等功能,能滿足有明確借閱目標的讀者的需求,而絕大多數(shù)讀者容易迷失在海量的圖書資源中,盡管目前多數(shù)系統(tǒng)支持熱門書籍的推薦,但用戶轉(zhuǎn)化率也不一定理想,讀者需要的是個性化的推薦。對于圖書管理員而言,如何優(yōu)化選擇圖書資源,提高圖書資源的利用率也很難提供幫助。針對以上問題,提出相應(yīng)對策:
1.1 移動端的圖書管理系統(tǒng)的設(shè)計
移動互聯(lián)網(wǎng)和智能手機的飛速發(fā)展使得用手機訪問互聯(lián)網(wǎng)資源成為主要的上網(wǎng)方式,手機上網(wǎng)有著它特有的優(yōu)勢。一方面,手機上網(wǎng)不受地域限制,基于智能手機的圖書借閱管理系統(tǒng)使得讀者能更方便地接觸到圖書信息資源;另一方面,手機上網(wǎng)更符合大眾的日常生活習慣,各年齡段均能夠熟練使用智能手機,通過手機端快捷地訪問圖書信息資源。
1.2 選擇Apriori算法實現(xiàn)圖書推薦
圖書推薦功能的實現(xiàn),可以滿足讀者對興趣書籍的免查詢?yōu)g覽。當讀者進入圖書借閱系統(tǒng),系統(tǒng)會在醒目位置為讀者進行相關(guān)書籍推薦,大大減少讀者尋找及查詢書目的時間,提高圖書借閱效率。將所有讀者的借閱記錄作為源數(shù)據(jù),采用關(guān)聯(lián)規(guī)則分析的Apriori算法,發(fā)現(xiàn)在同一次借閱事件中,出現(xiàn)不同圖書的相關(guān)性,推薦同時借閱的圖書。采用序列模式挖掘的類Apriori算法,發(fā)現(xiàn)圖書借閱在時序上的規(guī)律,根據(jù)讀者已借閱的圖書,歸還以后,推薦后續(xù)借閱的圖書。
1.3 選擇聚類算法實現(xiàn)書友推薦
大數(shù)據(jù)時代下社交網(wǎng)絡(luò)普及,互聯(lián)網(wǎng)用戶樂于在虛擬網(wǎng)絡(luò)、移動端社交平臺中結(jié)識朋友,書友推薦使讀者更易找到相同興趣者,解決現(xiàn)存系統(tǒng)缺乏人性化交流的問題,增加用戶交流度,側(cè)面提高讀書效率和興趣。書友推薦是未知類別及類別數(shù)的對象劃分,將相同興趣讀者聚簇,本質(zhì)上是將讀者進行模糊聚類,形成具有最高隸屬度的簇。在為讀者進行書友推薦時,識別讀者所屬類別進而進行同類推薦即可,推送順序則按照與讀者的距離值依次遞減排序。
1.4 選擇分類算法實現(xiàn)新書上架預(yù)測
管理運營者更多考慮到的是圖書館藏利用率問題,書籍信息海量多樣,甚至魚龍混雜,需要通過引進預(yù)計受歡迎的新書、淘汰借閱率和興趣度低的舊書優(yōu)化圖書館藏結(jié)構(gòu)。采用分類分析法中的樸素貝葉斯分類器,利用借閱數(shù)據(jù)作為訓(xùn)練樣本集,通過貝葉斯定理,提供從先驗概率計算后驗概率,從而獲得圖書分類器,預(yù)測新圖書所屬類別,即新書是否受歡迎,從而能大大減少傳統(tǒng)圖書館人工管理帶來的主觀偏差[7]。
2 系統(tǒng)的設(shè)計
基于圖書管理系統(tǒng)現(xiàn)存問題和對策的分析,構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的移動圖書管理系統(tǒng)模型,如圖1所示,模型中主要模塊分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘和前端應(yīng)用。通過收集讀者手機借閱數(shù)據(jù)、管理員手機的管理數(shù)據(jù)等,存儲到數(shù)據(jù)倉庫當中,進行數(shù)據(jù)的預(yù)處理,分為用戶管理主題、圖書管理主題、借閱主題等,接著應(yīng)用數(shù)據(jù)挖掘相關(guān)算法,如關(guān)聯(lián)規(guī)則、聚類、分類等,分析用戶的借閱行為,最后結(jié)果體現(xiàn)在前端應(yīng)用層,實現(xiàn)圖書個性化推薦、新書上架預(yù)測等個性化服務(wù)。
3 系統(tǒng)的實現(xiàn)
基于Android平臺實現(xiàn)了移動端的圖書信息管理系統(tǒng),取名泰科圖書,圖書信息來源于本校圖書館館藏圖書,在本校試運行三個月,積累一定的圖書借閱數(shù)據(jù),能夠利用數(shù)據(jù)挖掘算法實現(xiàn)個性化服務(wù)功能。
3.1 圖書推薦功能
在借閱模塊,通過“其他讀者還讀過”實現(xiàn)一次借閱多本圖書的推薦,如圖2所示。該功能的實現(xiàn),將輸入的借閱主題數(shù)據(jù)作為事務(wù)數(shù)據(jù)集,讀者所借閱的書目信息即為項集,由管理員設(shè)定最小支持度閾值和最小置信度閾值,利用Apriori算法,產(chǎn)生頻繁項集,輸出結(jié)果表述為滿足條件的圖書項集。通過“猜你喜歡”實現(xiàn)歸還已借圖書后相關(guān)圖書的推薦,如圖3所示。該功能的實現(xiàn),首先將借閱數(shù)據(jù)按時序轉(zhuǎn)換為序列借閱數(shù)據(jù)集,利用類Apriori算法,產(chǎn)生序列模式,輸出結(jié)果表述為滿足設(shè)定最小支持度閾值的圖書項集。
3.2 書友推薦
在為讀者進行書友推薦時,識別讀者所屬類別進而進行同類推薦即可,推送順序則按照與讀者的距離值依次遞減排序,如圖4所示。該功能的實現(xiàn)首先將讀者類型大致分為文學藝術(shù)愛好者、政法經(jīng)濟愛好者、自然社科愛好者等6類,以“6”作為聚簇數(shù);選取借閱主題數(shù)據(jù),從讀者目標中選取符合數(shù)量的初始簇中心,設(shè)置讀者各類書目借閱數(shù)量為距離參考值,計算每個目標對象與簇中心的歐幾里得距離、根據(jù)距離劃分不同的簇;算法迭代執(zhí)行,直到結(jié)果收斂,輸出即為6類讀者類型的聚類劃分。
3.3 新書上架預(yù)測
管理員端實現(xiàn)了新書上架的預(yù)測功能,每當要上架新書,管理員可以在“新書上架預(yù)測”頁面輸入書名,并在下拉列表中分別選擇圖書細節(jié)信息,點擊“判斷推薦”按鈕系統(tǒng)將自動給出分類判斷,如圖5所示。該功能的實現(xiàn),首先選擇圖書的類別、國家、出版社等屬性作為屬性數(shù)據(jù)集,選擇借閱主題數(shù)據(jù)倉庫作為訓(xùn)練集;接著,通過訓(xùn)練集中每類樣本所占的比例估計每項屬性的先驗概率值;然后,當有測試樣本需要分類時,由樸素貝葉斯分類器得到樣本在不同屬性下的后驗概率;最后,選取后驗概率最大值對應(yīng)的類別(四種:不適合上架、謹慎上架、可以上架、推薦上架)即可。
4 結(jié)語
大數(shù)據(jù)時代,充分考慮讀者群體和圖書管理者的綜合個性化需求,對數(shù)據(jù)資源進行深入挖掘,完善數(shù)字化圖書館建設(shè),實現(xiàn)個性化服務(wù),不僅能提高讀者的借閱效率,更提升了讀者互動活躍度、間接提升讀者的閱讀積極性、擴大了讀者的閱讀面,同時也為圖書管理工作提供了極大的便捷,提高了圖書資源的使用率。
參考文獻:
[1]劉軍軍.移動圖書館服務(wù)平臺框架結(jié)構(gòu)研究[J].農(nóng)業(yè)圖書情報學刊,2018,30(4):52-55.
[2]楊利軍,高軍.圖書館個性化服務(wù)中的大數(shù)據(jù)可視化分析與應(yīng)用研究[J].現(xiàn)代情報,2015,35(7):68-72.
[3] Yi C,Xia Y,Zhang Zy.Study on the Personal Push Service of University Library Based on Big Data Mining[J].Advanced Materials Research,2014(1).
[4]常雅紅.基于大數(shù)據(jù)挖掘的數(shù)字化圖書館服務(wù)新模式研究[J].圖書情報導(dǎo)刊,2016(7):11-15.
[5]熊太純等.CALIS貯存圖書館個性化服務(wù)研究[J].圖書館工作與研究,2014(12):94-97.
[6]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務(wù)研究[J].圖書情報知識,2016(2):60-68.
[7]廖宇峰.數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用研究[J].四川圖書館學報,2017(216):33-36.