尚玉梅
摘要:為了提高圖書館管理系統(tǒng)在使用過程中的個性化和智能推薦需求,通過分析大數(shù)據(jù)挖掘?qū)嵤┓桨福x擇合適的數(shù)據(jù)挖掘工具,對圖書信息進行預(yù)處理,并結(jié)合支持向量機和神經(jīng)網(wǎng)絡(luò)算法建立了個性化圖書信息推薦服務(wù)方案,然后進行系統(tǒng)功能需求分析和系統(tǒng)整體架構(gòu)分析,最后進行了實例展示和分析。研究發(fā)現(xiàn):采用改進的SVM算法來實現(xiàn)圖書館的個性化數(shù)據(jù)挖掘,支持向量機算法在使用過程中具有監(jiān)督的、可擴展和非線性的高效特性,能夠?qū)崿F(xiàn)非線性的多核心數(shù)據(jù)聚類效果,從而提高數(shù)據(jù)挖掘的學(xué)習(xí)能力;利用BP神經(jīng)網(wǎng)絡(luò)對處理后的數(shù)據(jù)樣本進行適應(yīng)性訓(xùn)練,用戶在使用過程中給予一定的正向反饋,該決策分析體系根據(jù)反饋結(jié)果進行不斷的自主學(xué)習(xí)并更新和優(yōu)化樣品數(shù)據(jù),實現(xiàn)了一個閉合的良性循環(huán);通過對設(shè)計的個性化圖書館推薦服務(wù)系統(tǒng)使用體驗調(diào)查發(fā)現(xiàn):選A的讀者占比為58%,選B的讀者占35%,說明在使用過程中對于該個性化推薦系統(tǒng)滿意度超過了90%,能夠為讀者用戶提供一定的借閱便利。
關(guān)鍵詞:圖書館;大數(shù)據(jù)挖掘;決策分析;個性化
中圖分類號:TP315
文獻標(biāo)志碼:A
ResearchonConstructionofEfficientLibraryBigDataMiningand
DecisionAnalysisSystemBasedonPersonalizedService
SHANGYumei
(
Library,ShanxiVocationalandTechnicalCollege,Xian710038,China
)
Abstract:Inordertoimprovetheuseoflibrarymanagementsystemintheprocessofpersonalizedandintelligentrecommendedrequirements,thisarticle,throughtheanalysisoflargedataminingplan,selectstheappropriatedataminingtoolstopreprocessthebooksinformation,andcombinessupportvectormachineandneuralnetworkalgorithmtoestablishpersonalizedbookinformationrecommendationserviceplan.Thenthesystemfunctiondemandanalysisandoverallsystemarchitectureanalysisarecompleted.Finallytheinstanceanalysisiscarriedoutanddisplayed.ItisfoundthattheimprovedSVMalgorithmcanbeusedtorealizepersonalizeddatamininginthelibrary,andtheSVMalgorithmhasthecharacteristicsofsupervised,extensibleandnonlinearefficiencyintheprocessofuse,andcanachievethenonlinearmulticoredataclusteringeffect,soastoimprovethelearningabilityofdatamining.Thedecisionanalysissystemcancontinuouslyindependentlylearn,updateandoptimizethesampledataaccordingtothefeedbackresults.Thusitachievesaclosedvirtuouscircle.Throughtheinvestigationontheuserexperienceofthedesignedpersonalizedlibraryrecommendationservicesystem,itisfoundthattheproportionofreaderswhochooseAis58%,andthatofreaderswhochooseBis35%,indicatingthatthesatisfactionofthepersonalizedrecommendationsystemexceeds90%,whichcanprovidecertainborrowingconvenienceforreadersandusers.
Keywords:library;bigdatamining;decisionanalysis;personalization
0引言
移動互聯(lián)網(wǎng)和人工智能的發(fā)展對于信息的甄別效率有的新的要求,現(xiàn)代社會迫切需要在海量信息沖擊下如何在短時間內(nèi)獲取自己感興趣或者想要的信息[1]。近年來,智慧校園概念的提出便是智能化推薦和個性化定制需求的一個實踐方向。校園活動過程中,圖書館是學(xué)生和教師在工作和生活中必不可少的一個場景,傳統(tǒng)的圖書館管理系統(tǒng)由于信息交互機制較為傳統(tǒng),學(xué)生在海量圖書信息中很難尋找自己感興趣的書籍,因此如何實現(xiàn)在高校圖書館的個性化推薦服務(wù),精確獲取讀者的閱讀行為、構(gòu)建興趣點數(shù)據(jù)庫,并以此分析潛在用戶的閱讀需求是具有現(xiàn)實意義的[23]。研究發(fā)現(xiàn),關(guān)于個性化服務(wù)的圖書館管理系統(tǒng)在國外的研究相對較早,并且具備了一定理論和應(yīng)用研究基礎(chǔ),例如美國華盛頓大學(xué)的gateway系統(tǒng)[4],康奈爾大學(xué)的library系統(tǒng)[5],這些系統(tǒng)通常包含資源推送、定制推薦、學(xué)科導(dǎo)覽和文獻傳遞等模板,這些定制化的圖書館管理系統(tǒng)極大了提高了師生的學(xué)習(xí)效率并在美國高校得到迅速推廣。
然而,不少研究者指出康奈爾大學(xué)的Library系統(tǒng)還是存在一定缺陷[68]。例如缺乏主動推薦服務(wù),服務(wù)內(nèi)容較為單一,深度較淺,并且信息資源和服務(wù)項目的協(xié)同集成效用較低,主動檢索功能缺乏等。針對這一問題,本文提出基于大數(shù)據(jù)挖掘和決策分析系統(tǒng),用于構(gòu)件一個更加智能的個性化高效圖書館管理系統(tǒng)。
1大數(shù)據(jù)挖掘?qū)嵤┓桨?/p>
1.1數(shù)據(jù)挖掘工具選擇
數(shù)據(jù)挖掘是一種典型的面向應(yīng)用的數(shù)據(jù)處理和分析技術(shù),是較為新穎的數(shù)據(jù)處理方式。目前國際上已經(jīng)開發(fā)出較多大型數(shù)據(jù)處理技術(shù),從用戶使用角度看,數(shù)據(jù)挖掘技術(shù)可以快速為用戶提供有用的數(shù)據(jù)信息,現(xiàn)階段開發(fā)出的數(shù)據(jù)挖掘工具較多,例如IBM公司的DB2,SAS公司的SASETS,SPSS公司的SPSSModeler以及Oracle公司的神經(jīng)網(wǎng)絡(luò)等[9]。本文的研究中選取SPSSModer工具進行應(yīng)用開發(fā),該工具是較為先進的數(shù)據(jù)挖局技術(shù),能夠把用戶從繁雜的編程作業(yè)中解放出來。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括三部分:空白數(shù)據(jù)預(yù)處理、重復(fù)數(shù)據(jù)預(yù)處理和關(guān)鍵字預(yù)處理[1015]。首先,選取圖書館一年內(nèi)的圖書借閱和查詢數(shù)據(jù),進行編碼和歸類,將這些原始數(shù)據(jù)導(dǎo)出為excel。然后,由于數(shù)據(jù)挖掘過程中預(yù)處理的數(shù)據(jù)會有一些空白數(shù)據(jù),對于數(shù)據(jù)挖掘的準(zhǔn)確性造成影響,因此本文將無法充填的空白數(shù)據(jù)進行刪除來確保數(shù)據(jù)的準(zhǔn)確性,或者對空白數(shù)據(jù)進行逐條的補充書籍信息用于補全;對于重復(fù)借出的數(shù)據(jù)同樣保留一條信息和借出次數(shù),用于提高數(shù)據(jù)挖掘的效率和清晰度,防止數(shù)據(jù)挖掘過程的重復(fù)識別;最后選取不同類型關(guān)鍵字段進行數(shù)據(jù)挖掘,其中讀者用戶的關(guān)鍵挖掘字段,如表1所示。
1.3數(shù)據(jù)挖掘?qū)崿F(xiàn)
采用改進的SVM算法來實現(xiàn)圖書館的個性化數(shù)據(jù)挖掘過程,建立面向多維度的圖書館個性化模型,然后轉(zhuǎn)化為附帶懲罰因子的無限制經(jīng)驗最小化模型,用于改進支持向量機的算法[1617]。支持向量機算法在使用過程中具有監(jiān)督的、可擴展和非線性的高效特性,能夠?qū)崿F(xiàn)非線性的多核心數(shù)據(jù)聚類效果,從而提高數(shù)據(jù)挖掘的學(xué)習(xí)能力。通過分析圖書館數(shù)據(jù)挖掘的特征,本文設(shè)計高效圖書館的懲罰因子為無限制經(jīng)驗損失最小化原則,其實現(xiàn)函數(shù)如式(1)。
f(x,y)=min
[SX(]λ2[SX)]ω2+[SX(]1m[SX)]
[DD(][DD)]l(ω,(x,y))
(1)
式中,f(x,y)代表數(shù)據(jù)挖掘結(jié)果;λ表示迭代周期;ω代表空間唯獨函數(shù),x和y分別為數(shù)據(jù)挖掘字段。
通過公式(1)映射處理,將多維度下的附帶懲罰因子所帶來的損失降低,從而簡化為一個單一約束條件下的極值問題,然后進一步利用向量機函數(shù)將問題平滑問不受約束的優(yōu)化機制,從而得到本文所需要的訓(xùn)練樣本。
2決策分析體系構(gòu)建
為了更進一步獲取用戶真正感興趣的圖書信息,本文引入基于模糊綜合評價法的決策分析體制機制,其具體實施流程,如圖1所示。
實施過程中,首先利用BP神經(jīng)網(wǎng)絡(luò)對處理后的數(shù)據(jù)樣本進行適應(yīng)性訓(xùn)練,深層次結(jié)構(gòu)上形成用戶隱形的興趣輸入層和模糊規(guī)程訓(xùn)練層,然后進行模糊推理獲取模糊值,模糊值經(jīng)過模糊化結(jié)構(gòu)辨識后輸出實際值推送給用戶隱形決策分析機制中,用戶在使用過程中給予一定的正向反饋,該決策分析體系根據(jù)反饋結(jié)果進行不斷的自主學(xué)習(xí)并更新和優(yōu)化樣品數(shù)據(jù),從而獲取了不斷優(yōu)化和更加個性化的圖書推薦服務(wù)。這一決策分析評價體系通過接口輸送至支持向量機的算法中,實現(xiàn)了一個閉合的良性循環(huán)。
3個性化推薦服務(wù)系統(tǒng)設(shè)計
3.1個性化數(shù)據(jù)挖掘功能需求
通過分析和研究目前高校圖書館在圖書信息使用過程中的問題,認(rèn)為需要完善一下功能需求:
(1)讀者群體聚類分析,由于高校人數(shù)龐雜,專業(yè)分工明確,對圖書館的讀者進行聚類分析是非常有必要并且可行的。通過對讀者的專業(yè)、興趣愛好等進行聚類,可以將其分成若干讀者大群,便于進行針對性的數(shù)據(jù)挖掘和個性化推薦。
(2)關(guān)聯(lián)分析,每一個讀者大群代表著一類具有相同興趣愛好或者專業(yè)背景的用戶群體,利用支持向量機的算法進行關(guān)聯(lián)分析,當(dāng)群體中讀者對某一本圖書的借閱量較多時,推薦該圖書給群體內(nèi)的讀者具有很高的準(zhǔn)確度。
(3)中圖分類號分析,我國建立了完善的圖書分類編號,引入中圖分類號進行圖書分類,極大提高了圖書的檢索效率,便于尋找同一類型圖書的關(guān)聯(lián)關(guān)系,同時還方便了圖書的整理和排架工作。
3.2系統(tǒng)整體架構(gòu)設(shè)計
系統(tǒng)采用B/S開發(fā)環(huán)境,能夠最大限度的降低用戶成本,作為實現(xiàn)統(tǒng)一客戶端的服務(wù)器管理模式[1820]。基于Web瀏覽器,本文根據(jù)實際圖書管理需要,開發(fā)出功能完善三層架構(gòu)模式,其基礎(chǔ)的體系架構(gòu)圖,如圖2所示。
用戶界面層:讀者通過賬戶密碼登錄系統(tǒng)后,一方面能夠更新個人基本資料,還能夠通過界面查詢圖書信息,包括歷史閱讀信息、歷史借閱信息等。同時,在使用系統(tǒng)過程中讀者能夠看到相關(guān)的圖書關(guān)聯(lián)推薦,獲取感興趣的圖書資料。
數(shù)據(jù)處理層:管理員通過后臺進行分析,將讀者的借閱進行進行數(shù)據(jù)挖掘和關(guān)聯(lián)分析,分別存入不同的讀者大群,當(dāng)不同群的讀者登錄后就會根據(jù)其所在的身份進行個性化推薦,從而滿足讀者的借閱和搜尋需求,系統(tǒng)中的讀者關(guān)聯(lián)挖掘一般1一個月進行一次。
數(shù)據(jù)庫層:是系統(tǒng)最底層結(jié)構(gòu),本文采用MySQL數(shù)據(jù)庫,由微軟公司研發(fā),該數(shù)據(jù)庫在可靠性、穩(wěn)定性和安全性方面占據(jù)主要優(yōu)勢,同時能夠提供外部各類數(shù)據(jù)接口并存儲系統(tǒng)類的圖書數(shù)據(jù)。MySQL數(shù)據(jù)庫中的DataMinning屬于一類商務(wù)數(shù)據(jù)智能挖掘技術(shù),能夠從當(dāng)前的圖書數(shù)據(jù)中獲取個性化推薦和展示。
3.3數(shù)據(jù)庫設(shè)計
(1)數(shù)據(jù)庫的實體描述
圖書館管理系統(tǒng)的數(shù)據(jù)庫設(shè)計中,首先分析數(shù)據(jù)字典中的數(shù)據(jù)存儲進行分析,確定數(shù)據(jù)庫表,然后分析各數(shù)據(jù)存儲之間的關(guān)聯(lián)關(guān)系,便于建立圖書管理系統(tǒng)數(shù)據(jù)庫,通常采用E-R圖進行數(shù)據(jù)結(jié)構(gòu)分析。圖書館管理系統(tǒng)的E-R圖,如圖3所示。
(2)數(shù)據(jù)庫表設(shè)計
本文所采用的數(shù)據(jù)庫為MySQL,其作用是存放圖書管理所需要的基本信息,包括管理員信息表、讀者信息表和書籍信息表等等,由于該系統(tǒng)是基于學(xué)校圖書館原有系統(tǒng)開發(fā)而成,因此基礎(chǔ)數(shù)據(jù)將定期從圖書館系統(tǒng)更新到推薦系統(tǒng)中。下面對其中比較主要的表結(jié)構(gòu)列舉如下。該信息表用于存放圖書館管理員的基本信息,包括ID、工號,姓名,性別,電話,住址。在已創(chuàng)建的數(shù)據(jù)庫library中,創(chuàng)建wardon表,添加字段,如表2所示。
該信息表用于存放讀者的基本信息,包括學(xué)號,姓名,性別,電話,專業(yè),生效時間,失效時間。在已創(chuàng)建的數(shù)據(jù)庫library中,創(chuàng)建reader表,添加字段如表3所示。
該信息表用于存儲圖書信息,包括書號,書名,作者,出版社,出版時間,存放位置,簡介,在館狀態(tài),是否被預(yù)約借閱。在已創(chuàng)建的數(shù)據(jù)庫library中,創(chuàng)建book表,添加字段如表4所示。
3.4實例展示與分析
為評價個性化推薦系統(tǒng)的實用效果,設(shè)定現(xiàn)在改系統(tǒng)內(nèi)借閱過圖書的讀者,利用系統(tǒng)的大數(shù)據(jù)挖掘算法查看推薦結(jié)果。從圖3中可以看到,當(dāng)用戶輸入自己想要的書籍名稱后,首先在搜索框內(nèi)便會展現(xiàn)該類圖書的歷史搜索結(jié)果。那么根據(jù)算法其推薦的圖書為《一千零一夜波斯王子與中國公
主》、《一千零一夜天國之夢》和《一千零一夜阿拉丁神燈》等,
系統(tǒng)推薦的圖書與該讀者借閱圖書相似度較高,如圖4所示。
為驗證該圖圖書個性化推薦系統(tǒng)的用戶群體滿意度,本文在某高校圖書館使用該系統(tǒng)后的1年后對該系統(tǒng)運行過程中,針對圖書推薦體驗進行了滿意度問卷調(diào)查,問卷調(diào)查主要有以下四個選項:
C:系統(tǒng)推薦的圖書大部分不符合我的閱讀興趣,我很少借閱;
D:系統(tǒng)推薦的圖書不知道為什么都不是我感興趣的。
發(fā)送調(diào)查問卷150人,回收問卷132人,回收率88%,調(diào)查結(jié)果見圖4.調(diào)查發(fā)現(xiàn)選A的讀者占比為58%,選B的讀者占35%,說明在使用過程中對于該個性化推薦系統(tǒng)滿意度超過了90%,能夠為讀者用戶提供一定的借閱便利,如圖5所示。
4總結(jié)
為解決傳統(tǒng)高效圖書館管理系統(tǒng)在查閱文獻和圖書信
息效率低下,缺乏智能化推薦功能的現(xiàn)象,本文通過分析現(xiàn)有的大數(shù)據(jù)挖掘工具并融入決策分析體系,建立了圖書館個性化推薦服務(wù)系統(tǒng)設(shè)計平臺,并進行了實例展示和分析,得出以下結(jié)論:
(1)采用改進的SVM算法來實現(xiàn)圖書館的個性化數(shù)據(jù)挖掘,支持向量機算法在使用過程中具有監(jiān)督的、可擴展和非線性的高效特性,能夠?qū)崿F(xiàn)非線性的多核心數(shù)據(jù)聚類效果,從而提高數(shù)據(jù)挖掘的學(xué)習(xí)能力。
(2)利用BP神經(jīng)網(wǎng)絡(luò)對處理后的數(shù)據(jù)樣本進行適應(yīng)性訓(xùn)練,用戶在使用過程中給予一定的正向反饋,該決策分析體系根據(jù)反饋結(jié)果進行不斷的自主學(xué)習(xí)并更新和優(yōu)化樣品數(shù)據(jù),這一決策分析評價體系通過接口輸送至支持向量機的算法中,實現(xiàn)了一個閉合的良性循環(huán)。
(3)通過對設(shè)計的個性化圖書館推薦服務(wù)系統(tǒng)使用體驗調(diào)查發(fā)現(xiàn):選A的讀者占比為58%,選B的讀者占35%,說明在使用過程中對于該個性化推薦系統(tǒng)滿意度超過了90%,能夠為讀者用戶提供一定的借閱便利。
參考文獻
[1]
趙興華.數(shù)據(jù)挖掘在高校圖書館個性化推薦服務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2020,16(4):56.
[2]蒲曄芬.基于動態(tài)更新的圖書館移動用戶行為模型研究[J].微型電腦應(yīng)用,2020,36(1):102103.
[3]潘峻.基于雙向LSTM的圖書分類系統(tǒng)的設(shè)計與實現(xiàn)[J].信息技術(shù),2020,44(1):6770.
[4]賀海俠.基于VRML的虛擬交互圖書館信息管理系統(tǒng)研究[J].信息技術(shù),2019,43(12):131134.
[5]吳文臣.數(shù)據(jù)挖掘技術(shù)在圖書館推薦系統(tǒng)中的應(yīng)用研究[J].電腦知識與技術(shù),2019,15(33):241242.
[6]喬雅,吳琳.基于協(xié)同過濾推薦算法的圖書館智慧服務(wù)模式研究[J].微型電腦應(yīng)用,2019,35(11):150153.
[7]張永強.基于文本相似度比較的高校圖書館個性化圖書推薦研究與實現(xiàn)[J].青海師范大學(xué)學(xué)報(自然科學(xué)版),2019,35(3):8591.
[8]陳豪.個性化推薦方法在高校圖書館書目推薦中的應(yīng)用研究[D].貴陽:貴州財經(jīng)大學(xué),2019.
[9]李賀,侯力鐵,祝琳琳.移動圖書館情景感知信息推薦服務(wù)用戶接受行為研究[J].圖書情報工作,2019,63(12):94104.
[10]王振.基于R指數(shù)的高校圖書館核心圖書推薦模型研究[D].濟南:山東大學(xué),2019.
[11]李志.基于深度學(xué)習(xí)的學(xué)術(shù)論文推薦研究[D].南京:南京航空航天大學(xué),2019.
[12]崔金環(huán),解海.微信的移動圖書館APP自動服務(wù)系統(tǒng)設(shè)計研究[J].自動化與儀器儀表,2020(2):132134.
[13]王晉月.圖書館電子移動設(shè)備借閱信息自適應(yīng)提取方法[J].自動化與儀器儀表,2019(12):8790.
[14]時冬梅,張藝婕.圖書館書目數(shù)據(jù)自動采集模型構(gòu)建[J].自動化與儀器儀表,2019(8):9194.
[15]彭珍.我國公共圖書館智慧服務(wù)研究[D].長沙:湘潭大學(xué),2019.
[16]張艷霞.大數(shù)據(jù)時代高職院校圖書館的服務(wù)功能研究[D].石家莊:河北師范大學(xué),2019.
[17]喬蕊.以理工科為主的高校圖書館圖書個性化推薦方法研究[D].北京:北京工業(yè)大學(xué),2019.
[18]廖云璐.公共數(shù)字文化工程服務(wù)質(zhì)量評價與對策研究[D].南昌:南昌大學(xué),2019.
[19]周秋霞,楊春杰.基于物聯(lián)網(wǎng)技術(shù)的智慧圖書館監(jiān)控管理系統(tǒng)設(shè)計[J].自動化與儀器儀表,2018(11):8588.
[20]劉淑娟.網(wǎng)絡(luò)環(huán)境下圖書館學(xué)術(shù)信息資源數(shù)據(jù)庫的建設(shè)[J].自動化與儀器儀表,2018(6):3536.
(收稿日期:2020.03.27)