趙翀 王麗達
摘 ?要: 針對當(dāng)前圖書館云檢索系統(tǒng)未能較多關(guān)注用戶需求,檢索效率低的問題,以數(shù)據(jù)挖掘技術(shù)為核心,以分布式開源框架Hadoop為支撐,提出一種基于數(shù)據(jù)挖掘技術(shù)的智能圖書館云檢索系統(tǒng)。首先集成Hive,HDFS,MapReduce,Hadoop組件對智能圖書館云檢索系統(tǒng)的硬件部分進行設(shè)計。Hive主要用于圖書館書籍資源關(guān)鍵詞的存儲與分析;MapReduce主要用于圖書館書籍資源實際統(tǒng)計分析計算;HDFS主要用于相關(guān)操作數(shù)據(jù)的存儲;而Hadoop主要用于存儲設(shè)備的相關(guān)管理。然后在系統(tǒng)架構(gòu)下,確定了系統(tǒng)的實現(xiàn)流程以及圖書館資源在分布式環(huán)境下的檢索機制。通過多組實驗數(shù)據(jù)測試系統(tǒng)性能,并與其他同類檢索系統(tǒng)相比較,所設(shè)計系統(tǒng)檢索效率有明顯提升,且隨著數(shù)據(jù)量的增加,提升效率會更加明顯。
關(guān)鍵詞: 智能圖書館; 云檢索系統(tǒng); 數(shù)據(jù)挖掘技術(shù); 系統(tǒng)設(shè)計; 數(shù)據(jù)檢索; 性能測試
中圖分類號: TN911.23?34; TP391 ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)02?0060?04
Design of intelligent library cloud retrieval system based on data mining technology
ZHAO Chong, WANG Lida
Abstract: As for the little focus on user requirements and low retrieval efficiency in the current library cloud retrieval system, an intelligent library cloud retrieval system based on data mining technology is proposed, which takes the data mining technology as the core and the distributed open source framework Hadoop as the support. During the system design, Hive HDFS, MapReduce and Hadoop, components are integrated to design the hardware part of the intelligent library cloud retrieval system. Hive is mainly used for the storage and analysis of the keywords in the library book resources, MapReduce is mainly applied to the actual statistical analysis and calculation of the library book resources, HDFS is mainly used for the storage of the related operational data, and Hadoop is mainly used for the related management of the storage devices. In the system architecture, the implementation process of the system and the retrieval mechanism of the library resources in a distributed environment are determined. The performances of the system were tested with multi?group experimental data and compared with those of other similar retrieval systems. The retrieval efficiency of the designed system has been significantly improved, and can be lifted more obviously with the increase of data volume.
Keywords: intelligent library; cloud retrieval system; data mining technology; system design; data retrieval; performance test
0 ?引 ?言
從大型企業(yè)檢索系統(tǒng)到數(shù)字圖書館,隨著數(shù)據(jù)量的急速上漲,相關(guān)數(shù)據(jù)服務(wù)商不斷研究更完善的技術(shù)手段,但仍然難以滿足讀者對圖書館檢索數(shù)據(jù)的多樣性需求[1]。對于海量的圖書館資源,如何快速從中獲取所需信息,已經(jīng)是國內(nèi)專家學(xué)者當(dāng)前的研究重點[2]。
劉愛琴等人提出基于SOM神經(jīng)網(wǎng)絡(luò)的圖書館檢索系統(tǒng)[3]。首先對圖書館用戶網(wǎng)絡(luò)訪問行為進行分析與統(tǒng)計,根據(jù)分析結(jié)果對用戶閱覽行為數(shù)據(jù)以及相關(guān)文獻數(shù)據(jù)庫等關(guān)聯(lián)資源進行過濾匯總;然后構(gòu)建可用性更強的資源數(shù)據(jù)集,并使用語義檢索技術(shù)創(chuàng)建圖書館檢索系統(tǒng)。該系統(tǒng)對于大規(guī)模數(shù)據(jù)集,檢索耗時較長。李廣麗等人使用深度學(xué)習(xí)理論創(chuàng)建了圖書館信息檢索系統(tǒng)[4]。該系統(tǒng)能夠有效滿足讀者知識需求,有效提高圖書館資源服務(wù)質(zhì)量,但在時間復(fù)雜性方面還有待提升。黃容等人提出基于數(shù)值知識元的數(shù)字圖書館元檢索系統(tǒng)[5]。通過對數(shù)值知識元進行有效分析,提出圖書館資源識別、獲取、檢索方法,并建立一個面向圖書館資源檢索的系統(tǒng)。這種模式下的圖書館資源查詢時間過長。
本文采用數(shù)據(jù)挖掘技術(shù)設(shè)計了一種基于數(shù)據(jù)挖掘的智能圖書館云檢索系統(tǒng),為及時、有效地獲取面向?qū)I(yè)內(nèi)容的書籍資源提供了一種有效方式。
1 ?智能圖書館云檢索系統(tǒng)
1.1 ?智能圖書館云檢索系統(tǒng)架構(gòu)
在構(gòu)建智能圖書館云檢索系統(tǒng)過程中,需要創(chuàng)建一個適用于智能圖書館信息云檢索的分布式檢索架構(gòu)。依據(jù)圖書館資源檢索需求,使用開源云計算平臺Hadoop,建立基于HDFS,MapReduce,Hive相融合的智能圖書館云檢索框架。智能圖書館云檢索系統(tǒng)可劃分為四個部分,分別為訪問層、應(yīng)用接口層、基礎(chǔ)管理層以及資源存儲層,具體結(jié)構(gòu)如圖1所示。
1) 訪問層。圖書館用戶根據(jù)相關(guān)應(yīng)用接口登錄智能圖書館云檢索系統(tǒng),用戶通過該系統(tǒng)享受圖書信息檢索服務(wù),圖書館服務(wù)端向檢索系統(tǒng)實時更新新入庫的書籍信息[6]。
2) 應(yīng)用接口層。應(yīng)用接口層作為智能圖書館云檢索系統(tǒng)最主要的應(yīng)用組件,可根據(jù)實際業(yè)務(wù)類型提供圖書館資源檢索平臺和各種網(wǎng)絡(luò)服務(wù)。
3) 基礎(chǔ)管理層。基礎(chǔ)管理層是智能圖書館云檢索系統(tǒng)云存儲最關(guān)鍵組件,數(shù)據(jù)基礎(chǔ)管理層通過HDFS,MapReduce,Hive等技術(shù)實現(xiàn)系統(tǒng)相關(guān)設(shè)備之間的聯(lián)合工作,對系統(tǒng)外部提供統(tǒng)一檢索服務(wù)[7]。
4) 存儲層。存儲層是智能圖書館云檢索系統(tǒng)最基礎(chǔ)的組件。存儲設(shè)備均由系統(tǒng)統(tǒng)一管理,使用開源云計算平臺Hadoop來實現(xiàn)云存儲設(shè)備的虛擬化管理,以及存儲設(shè)備的故障狀態(tài)診斷等。
1.2 ?系統(tǒng)具體組件分析
Hive主要用于圖書館書籍資源關(guān)鍵詞的存儲與分析;MapReduce主要用于圖書館書籍資源實際統(tǒng)計分析計算;HDFS主要用于相關(guān)操作數(shù)據(jù)的存儲;而開源云計算平臺Hadoop主要用于存儲設(shè)備相關(guān)管理,具體示意圖如圖2所示。
本文所設(shè)計的智能圖書館云檢索系統(tǒng)中HDFS架構(gòu)如圖3所示。
1) HDFS架構(gòu)中的管理者即控制節(jié)點,可用于管理圖書館書籍文件的命名空間、集中分配和存儲模塊的拷貝等。控制節(jié)點將圖書館書籍文件的元數(shù)據(jù)存儲至內(nèi)存中,書籍文件的元數(shù)據(jù)含有書籍文件信息以及文件信息在數(shù)據(jù)節(jié)點的信息等。
2) 數(shù)據(jù)節(jié)點是圖書館資源存儲的基本構(gòu)成部分,能夠?qū)Y源按照塊狀形式存儲于本地,存儲書籍資源的元數(shù)據(jù),按照給定周期將全部存在的圖書館資源塊信息傳送給控制節(jié)點。
3) 客戶主要負責(zé)獲取HDFS中的書籍文件。
智能圖書館云檢索系統(tǒng)中的MapReduce架構(gòu)如圖4所示。MapReduce架構(gòu)中的作業(yè)節(jié)點專注于調(diào)度作業(yè)的運行。任務(wù)節(jié)點根據(jù)具體任務(wù)的執(zhí)行,調(diào)度作業(yè)被劃分為多個切片,任務(wù)節(jié)點主要負責(zé)對切片數(shù)據(jù)進行映射和相關(guān)運算??蛻粝騇apReduce上交圖書館信息檢索查詢的計算作業(yè)[8]。HDFS可提供圖書館信息存儲功能,主要用于向全部作業(yè)節(jié)點提供所需資源。
智能圖書館云檢索系統(tǒng)中的Hive架構(gòu)具體功能描述如下:
1) Hive架構(gòu)中解析器主要負責(zé)信息分析查詢,對于不同的圖書館資源查詢塊進行語義分析,并通過從存儲節(jié)點中獲取分區(qū)的元數(shù)據(jù)構(gòu)成執(zhí)行計劃。
2) 圖書館信息元數(shù)據(jù)存儲節(jié)點存儲層中全部表與分區(qū)的信息,能夠獲取云檢索系統(tǒng)中HDFS中的數(shù)據(jù)。
3) 執(zhí)行器負責(zé)執(zhí)行計劃,執(zhí)行引擎負責(zé)在相關(guān)系統(tǒng)組件上執(zhí)行上述計劃。
4) 處理節(jié)點是接受信息查詢的組件。
2 ?系統(tǒng)架構(gòu)下圖書館資源數(shù)據(jù)檢索算法
2.1 ?圖書館資源數(shù)據(jù)存儲模型及特征量提取
為了實現(xiàn)智能圖書館目標數(shù)據(jù)的優(yōu)化檢索,需要分析智能圖書館數(shù)據(jù)庫存儲結(jié)構(gòu)模型。使用非線性時間序列分析方法構(gòu)建智能圖書館資源數(shù)據(jù)信息流模型,提取圖書館綜合資源的頻繁項集特征,以提取的頻繁項集特征作為目標函數(shù),建立智能圖書館資源時間序列單變量時間序列[xn]。將資源樣本長度設(shè)定為[N],[X]和[Y]為智能圖書館資源聚類特征屬性類別,使用存儲節(jié)點和存儲層空間區(qū)域分段方法進行圖書館資源數(shù)據(jù)的集成分配。當(dāng)資源云檢索的區(qū)域劃分閾值[ε]滿足[2-λt<ε],[λ>0]時,智能圖書館資源數(shù)據(jù)信息流模型為:
[xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn] (1)
式中,[h[z(t0+nΔt)]]用于描述圖書館資源數(shù)據(jù)時間序列的近似性特征量。
為智能圖書館資源信息云檢索提供數(shù)據(jù)輸入基礎(chǔ)[9],在上述進行智能圖書館資源信息存儲結(jié)構(gòu)分析以及非線性時間序列重構(gòu)的基礎(chǔ)上,進行頻繁項集特征提取。輸入觀測向量[Y(i)]和關(guān)聯(lián)規(guī)則矩陣[X(i)],[N(i)]用于描述關(guān)聯(lián)維數(shù),[L×m]表示圖書館資源分類中頻繁項集干擾的階數(shù)。當(dāng)滿足[L>m]時,矩陣[X(i)]可被劃分為[pi]個大小等同的資源塊,依據(jù)圖書館資源信息聚類特征空間中的嵌入維數(shù),獲取一個[Nij×m]維子矩陣,[Xij]用于描述聚類中心向量[10],此時圖書館資源信息的頻繁項為[p(i)=N(i)L],相反則有[p(i)=N(i)L]。
依據(jù)圖書館資源信息在存儲層中分布的均勻性特征可獲得:
[minβY(i)-X(i)β=minβY(i+1)-X(i+1)β] (2)
在系統(tǒng)存儲層存儲節(jié)點位置進行擾動約束處理,實現(xiàn)對圖書館資源信息的頻繁項特征提?。?/p>
[y1y2?yn=1x11…x1,m-11x21…x2,m-1????1xn1…xn,m-1 β0 β1?βm-1+e1e2?en] ?(3)
式中,提取的圖書館資源信息的頻繁項特征能夠準確描述目標數(shù)據(jù)特征信息。
2.2 ?圖書館資源數(shù)據(jù)模糊K均值聚類
對提取的頻繁項特征利用模糊K均值聚類方法進行分類,獲取模糊K均值聚類后輸出信息的特征矢量為:[Y(i+1)=U′Ti1Yi1 ? ??U′Tip(i)Yip(i)] (4)
對參數(shù)運算得到的圖書館資源,采用最小二乘擬合算法進行并行挖掘,如下:
[β?=V1(k)Σ-11(k)UT1(k)Y(k)] (5)
式中,[V1(k)],[Σ-11(k),UT1(k)]分別表示圖書館資源[Xk]特征、干擾項和收斂值。經(jīng)過式(5),即可完成圖書館資源云檢索。
2.3 ?數(shù)據(jù)檢索輸出
使用特征分解算法對存儲層中存儲節(jié)點進行決策樹分叉設(shè)計,具體描述如下:
1) 假設(shè)滿足[N(i)mod L 2) 對[p(i)=N(i)/L]進行特征分解; 3) [p(i)=N(i)L+1]分解圖書館資源信息時間序列[X(i)]與[Y(i)]進行自適應(yīng)加權(quán); 4) [Yij=Y(i)[L(j-1)+1:Lj]]對關(guān)聯(lián)特征進行譜分析; 5) [Xij=UijΣijVTij]滿足收斂條件; 6) 輸出最優(yōu)檢索結(jié)果。 3 ?實驗結(jié)果與分析 仿真實驗數(shù)據(jù)使用隨機生成的多組數(shù)據(jù),測試環(huán)境為:Windows Server 2012 R2 Intel[?] XeonTM CPU E5?2650@2.30 GHz 2.30 GHz with 32.0 GB of RAM,Matlab 2014a編程實現(xiàn)。 為了驗證智能圖書館云檢索系統(tǒng)的高效性,將其與文獻[4]、文獻[5]檢索系統(tǒng)進行多組對比實驗,多組實驗數(shù)據(jù)量為GB數(shù)量級,時間單位為ms,為了準確表示系統(tǒng)檢索結(jié)果,對時間按照10為底取對數(shù),如圖5所示。 分析圖5可知,使用本文提出的基于數(shù)據(jù)挖掘的智能圖書館云檢索系統(tǒng)數(shù)據(jù)檢索效率較高,使用文獻[4]系統(tǒng)、文獻[5]系統(tǒng)直接對圖書館資源進行查詢時,隨著數(shù)據(jù)量的增加檢索時間也會隨之增加,整體呈現(xiàn)出線性變化趨勢。表1給出的是對500 GB圖書館數(shù)據(jù)下檢索的時間匯總結(jié)果。 分析表1可知,隨著圖書館檢索范圍的增大,相應(yīng)的數(shù)據(jù)檢索時間也會逐漸增加,主要原因在于當(dāng)圖書館資源檢索空間增加時,滿足查詢條件的圖書館資源數(shù)據(jù)塊也會增加。 當(dāng)智能圖書館云檢索系統(tǒng)節(jié)點數(shù)量減少時,對大小為500 GB的圖書館資源進行檢索的時間統(tǒng)計結(jié)果如表2所示。 分析表2可知,當(dāng)智能圖書館云檢索系統(tǒng)節(jié)點數(shù)量減少時,對應(yīng)的檢索時間會增加。由此可推斷,當(dāng)智能圖書館云檢索系統(tǒng)節(jié)點數(shù)量持續(xù)增加時,由于MapReduce計算節(jié)點數(shù)量增加,因此數(shù)據(jù)檢索效率有顯著提高,檢索時間大幅度縮短。 4 ?結(jié) ?語 對海量大數(shù)據(jù)的快速查詢已成為當(dāng)前智能圖書館資源管理方法研究的熱點,本文基于海量圖書館資源特點提出了數(shù)據(jù)挖掘算法,并將其應(yīng)用于分布式開源框架Hadoop中,通過對多組數(shù)據(jù)的實驗結(jié)果分析驗證了系統(tǒng)的有效性。 參考文獻 [1] 陳春陽.基于圖書館微信平臺的館配云平臺圖書數(shù)據(jù)推送研究[J].出版發(fā)行研究,2018(5):44. [2] 鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統(tǒng)設(shè)計與實現(xiàn)[J].情報理論與實踐,2017,40(4):128?132. [3] 劉愛琴,李永清.基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個性化推薦服務(wù)系統(tǒng)構(gòu)建[J].圖書館論壇,2018,38(4):95?102. [4] 李廣麗,朱濤,劉斌,等.面向大數(shù)據(jù)的數(shù)字圖書館多媒體信息檢索系統(tǒng)優(yōu)化研究[J].情報科學(xué),2019,37(2):115?119. [5] 黃容,何楊煜琪,王忠義,等.數(shù)字圖書館數(shù)值知識元檢索系統(tǒng)設(shè)計[J].圖書情報工作,2018,62(14):125?132. [6] 徐延華.云計算技術(shù)環(huán)境下數(shù)字圖書館資源的整合[J].山西檔案,2018(4):102?104. [7] 容海萍.圖書館數(shù)字資源跨媒體語義關(guān)聯(lián)檢索的實現(xiàn)模型及保障措施[J].圖書館工作與研究,2018(7):60?64. [8] 徐彤陽,任浩然,張國標,等.數(shù)字圖書館圖像資源檢索框架的構(gòu)建與實現(xiàn):基于非下采樣的Contourlet變換[J].現(xiàn)代情報,2017,37(6):55?60. [9] 王茜,張黎.基于云平臺的智慧圖書館系統(tǒng)的設(shè)計與實現(xiàn)[J].圖書館,2019(2):50?54. [10] 李巖,張博文,陳松路,等.基于重排序融合的社會圖書檢索系統(tǒng)[J].計算機應(yīng)用研究,2017,34(3):781?784. 作者簡介:趙 ?翀(1981—),女,河北寧晉縣人,碩士,館員,研究方向為電子圖書檔案、圖書館網(wǎng)絡(luò)及數(shù)字化建設(shè)。 王麗達(1974—),女,黑龍江哈爾濱人,副研究館員,研究方向為電子圖書檔案、圖書館網(wǎng)絡(luò)及數(shù)字化建設(shè)。