圖書情報數(shù)據(jù)挖掘處理平臺設(shè)計

2019-05-09 06:46高登文

現(xiàn)代電子技術(shù) 2019年8期

高登文

（寧夏師范學(xué)院，寧夏固原 756000）

0 引言

圖書情報學(xué)科每年都會有成千上萬的論文發(fā)表刊登，圖書情報工作人員則需要掌握比較詳細(xì)的、準(zhǔn)確的所有圖書情報學(xué)科的數(shù)據(jù)，如涉及的專業(yè)范疇、內(nèi)部構(gòu)架和發(fā)展趨勢等[1]。面對如此大量的論文，想要獲取全面的信息，單純地依賴于個人的閱讀時間是不可取的[2]。近年來，根據(jù)共詞分析和網(wǎng)絡(luò)分析，提出一種新的解析方法，即定量分析。目前我國圖書情報領(lǐng)域的服務(wù)主要還停留在基于數(shù)量規(guī)模的信息服務(wù)層面上。毫無疑問，借助先進(jìn)的理念與技術(shù)，升華傳統(tǒng)圖書情報領(lǐng)域數(shù)據(jù)挖掘方法，轉(zhuǎn)變傳統(tǒng)挖掘模式，重構(gòu)挖掘體系，提高挖掘精度，以更好的方法對所需圖書情報數(shù)據(jù)進(jìn)行挖掘。利用讀者在數(shù)字圖書館的各種行為為基礎(chǔ)，通過收集讀者的瀏覽、定制、檢索、下載等記錄來進(jìn)行研究，從而建立圖書情報數(shù)據(jù)庫；同時根據(jù)圖書情報數(shù)據(jù)的開發(fā)，以數(shù)據(jù)庫的形式將圖書檢索信息進(jìn)行存儲[3]。該平臺采用元搜索技術(shù)對圖書館各種圖書情報數(shù)據(jù)庫、網(wǎng)絡(luò)資源等進(jìn)行搜索，再通過信息關(guān)注機(jī)制，對滿足需求的數(shù)據(jù)進(jìn)行選擇。并用設(shè)定的方式方法將圖書情報數(shù)據(jù)進(jìn)行傳輸，建立反饋機(jī)制，允許相關(guān)人員進(jìn)行人工選擇和評價；然后將讀者所需信息儲存在數(shù)據(jù)庫中，供數(shù)據(jù)挖掘所用。

1 圖書情報數(shù)據(jù)挖掘處理平臺設(shè)計

圖書情報數(shù)據(jù)挖掘處理平臺主要由7大模塊組成，分別是數(shù)據(jù)解析模塊、數(shù)據(jù)采集模塊、接口模塊、圖書情報數(shù)據(jù)過濾模塊、圖書情報搜索引擎、圖書情報數(shù)據(jù)推送模塊和數(shù)據(jù)挖掘模塊。數(shù)據(jù)解析模塊重點(diǎn)是對通過需求規(guī)約工具得到的圖書情報數(shù)據(jù)挖掘?qū)ο筮M(jìn)行描述和挖掘策略相關(guān)文件[4]。數(shù)據(jù)采集模塊與預(yù)處理模塊主要是依據(jù)有關(guān)挖掘需求來對圖書情報數(shù)據(jù)進(jìn)行采集，并把采集到的圖書情報數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛱幚淼哪Ｊ?。圖書情報數(shù)據(jù)挖掘模塊主要采用相關(guān)挖掘算法，排除掉不同算法間的差異，讓挖掘算法在敏捷狀態(tài)下進(jìn)行挖掘工作[5]。整體平臺可通過附加任務(wù)調(diào)度監(jiān)控模塊對挖掘任務(wù)的執(zhí)行階段進(jìn)行仔細(xì)劃分，保證在進(jìn)行圖書情報數(shù)據(jù)挖掘時可以及時得到反饋。涉及到的數(shù)據(jù)庫為圖書相關(guān)情報資源，根據(jù)以上分析確定平臺結(jié)構(gòu)如圖1所示。

1.1 數(shù)據(jù)挖掘模塊

數(shù)據(jù)挖掘模塊主要功能是依據(jù)所選擇的挖掘算法以及相關(guān)的技術(shù)參數(shù)，調(diào)用算法完成數(shù)據(jù)挖掘任務(wù)。因為整個挖掘算法的處理過程[6]都是通過數(shù)據(jù)集群運(yùn)算完成的，期間不需要進(jìn)行過多的操作和關(guān)注。因此，在本模塊中，引入K-means算法，挖掘圖書情報數(shù)據(jù)，并對挖掘結(jié)果直觀有效的進(jìn)行應(yīng)用。

圖2 數(shù)據(jù)挖掘模塊Fig.2 Data mining module

1.2 數(shù)據(jù)存儲模塊

為了解決海量數(shù)據(jù)存儲、檢索和在線閱讀的容量和性能問題，在有限的條件下建立高效存儲平臺是圖書情報挖掘平臺建設(shè)的重點(diǎn)。本平臺采用分級存儲的方式設(shè)計圖書情報數(shù)據(jù)存儲模塊。第一級面向交互頻繁，但I(xiàn)/O流量相對較小、隨機(jī)存取負(fù)擔(dān)較重的元數(shù)據(jù)庫，采用服務(wù)器內(nèi)置的SAS高速磁盤陣列平臺存儲和管理[7]；第二級面向I/O流量較大、傳輸數(shù)據(jù)塊較大，但訪問頻次較少的對象數(shù)據(jù)，采用的是基于ISCSI的IP-SAN網(wǎng)絡(luò)接入的SATA磁盤陣列實現(xiàn)。

存儲區(qū)域網(wǎng)絡(luò)作為存儲架構(gòu)，其連接方式是采用高傳輸速率的光通道進(jìn)行連接。在SAN中的任意節(jié)點(diǎn)之間提供多個備選圖書情報數(shù)據(jù)轉(zhuǎn)換[8]，把數(shù)據(jù)保存在單獨(dú)的存儲活動范圍內(nèi)。由于采用的是獨(dú)立網(wǎng)絡(luò)，SAN可以更好地將存儲設(shè)備和服務(wù)器之間頻繁的數(shù)據(jù)傳送與網(wǎng)絡(luò)信息服務(wù)的信息包分割開來。不使用與IP網(wǎng)絡(luò)沖突的網(wǎng)絡(luò)資源[9]，從而有效地消除網(wǎng)絡(luò)瓶頸，并且能夠盡量對數(shù)據(jù)共享、數(shù)據(jù)的優(yōu)化管理和平臺的無縫擴(kuò)充進(jìn)行支持。

在進(jìn)行圖書情報數(shù)據(jù)存儲時，將獲取的數(shù)據(jù)存儲在平臺上。該平臺的存儲層是一個由4個計算節(jié)點(diǎn)組成的集群，其利用了HDFS數(shù)據(jù)存儲體系結(jié)構(gòu)，將預(yù)處理后的數(shù)據(jù)或平臺分析的數(shù)據(jù)以文本形式讀入平臺中[10]。平臺為數(shù)據(jù)存儲提供了強(qiáng)大的保護(hù)措施，平均每個情報數(shù)據(jù)都進(jìn)行三次備份，能夠很好地防止遇到突發(fā)事件而出現(xiàn)丟失圖書情報數(shù)據(jù)，并且圖書情報數(shù)據(jù)有附加性能，在平臺發(fā)生意外故障時，能夠保證后續(xù)圖書情報數(shù)據(jù)存儲無誤。

1.3 數(shù)據(jù)解析模塊

數(shù)據(jù)解析模塊是此平臺第二主要的功能模塊，它包括用戶聚類模塊和用戶行為分析模塊兩大類。本平臺利用用戶興趣對用戶進(jìn)行分類匯總。當(dāng)用戶頻繁訪問圖書情報數(shù)據(jù)的某個頁面或在某個頁面上停留較長時間時，表明用戶對此類圖書情報數(shù)據(jù)興趣度很高[11]。在本文中，會使用這種興趣度來對圖書情報數(shù)據(jù)進(jìn)行聚類解析。在同一時間，利用序列化模式挖掘算法和圖書情報數(shù)據(jù)經(jīng)常被訪問的途徑，針對該途徑獲取的圖書情報數(shù)據(jù)進(jìn)行解析工作。

2 軟件設(shè)計

從功能的簡易運(yùn)行和設(shè)計的開拓性能角度出發(fā)，采用的挖掘算法延伸性應(yīng)用具備兩個特性:

1）挖掘算法的一些性能是比較卓越的，應(yīng)用上更是靈便突出，但是靈便的后果就是操作相當(dāng)麻煩。所以本文必須整理出多個演變算法，才能給外界夠提供出簡便的對恰接口，使操作的運(yùn)用既能活靈活現(xiàn)又盡可能的簡單便捷。

2）改良可插播式應(yīng)用的挖掘算法，既能在原始算法上增加新的運(yùn)算公式也能在已有公式的基礎(chǔ)上進(jìn)行算法改動或者撤銷，還不會對原始模塊產(chǎn)生相對明顯的影響。這種算法不僅落實了對最初算法的改進(jìn)，還跟進(jìn)了應(yīng)用改進(jìn)算法。具體的圖書情報數(shù)據(jù)挖掘流程如圖3所示。

圖3 數(shù)據(jù)挖掘流程圖Fig.3 Flow chart of data mining

在進(jìn)行圖書情報數(shù)據(jù)挖掘時，用戶可以依據(jù)需求，對挖掘策略模板文件事先進(jìn)行挖掘算法的設(shè)置，來確定某些參數(shù)的值和在未來的時間里需要設(shè)置的參數(shù)。在這類文件中，為了完成特定的策略文件，需要為平臺中的屬性指定所需要的算法，確定哪些已經(jīng)有明確值的挖掘參數(shù)，哪些參數(shù)是用戶對此策略模板的解釋說明，指導(dǎo)用戶定義策略文件。

3 實驗結(jié)果分析

3.1 測試環(huán)境

功能測試工具為Microsoft Visual Studio 2015 for software tester；性能測試工具為Loadrunner 10；測試管理工具為Mercury Quslity center 9.0。

3.2 平臺運(yùn)行環(huán)境

服務(wù)器，HP ML-370 G5；操作平臺，Windows 2013 Server，TRS DB Server V6；CPU，Inter Pentium Ⅲ 1 GHz以上；內(nèi)存，4 GB以上；硬盤，1 TB；網(wǎng)絡(luò)，支持TCP/IP協(xié)議；數(shù)據(jù)庫，SQL Server，MySQL。

3.3 實驗結(jié)果分析

為了驗證本文平臺在數(shù)據(jù)挖掘方面的性能，將文獻(xiàn)[5]平臺作為對比，進(jìn)行量化測試。測試將負(fù)載均衡離差值作為衡量指標(biāo)。

負(fù)載均衡離差值是負(fù)載均衡性的體現(xiàn)，計算公式為:

式中:n用于描述圖書情報數(shù)據(jù)總量；ηv用于描述數(shù)據(jù)量為v時數(shù)據(jù)挖掘的負(fù)載；ηavg用于描述數(shù)據(jù)挖掘時的平均負(fù)載。

依據(jù)上式描述，將采用本文平臺及文獻(xiàn)[5]平臺做比較，進(jìn)行數(shù)據(jù)挖掘負(fù)載均衡離差值對比，結(jié)果見圖4。

圖4 不同平臺挖掘負(fù)載均衡離差結(jié)果對比Fig.4 Comparison for load balance deviation results mined by different platforms

分析圖4可知，在數(shù)據(jù)挖掘量和響應(yīng)速度一定時，采用本文平臺進(jìn)行數(shù)據(jù)挖掘，其負(fù)載均衡離差值較為穩(wěn)定，只有一處出現(xiàn)忽然增加的現(xiàn)象，均衡性較好的同時，穩(wěn)定性較高，具有一定的優(yōu)勢；反之，采用文獻(xiàn)[5]平臺時，多處出現(xiàn)負(fù)載均衡離差值突然增高的現(xiàn)象，雖然均衡性較好，但穩(wěn)定性較差，影響因素增多，需要進(jìn)一步進(jìn)行處理。

4 結(jié)論

針對傳統(tǒng)平臺一直存在數(shù)據(jù)挖掘中負(fù)載均衡差的問題，提出并設(shè)計了基于K-means算法的圖書情報數(shù)據(jù)挖掘處理平臺，并通過硬件及軟件兩部分進(jìn)行分析，以負(fù)載均衡離差值為對比指標(biāo)進(jìn)行實驗分析。結(jié)果表明，改進(jìn)平臺負(fù)載均衡較好，具有一定的優(yōu)勢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡