高登文
(寧夏師范學(xué)院,寧夏 固原 756000)
圖書情報學(xué)科每年都會有成千上萬的論文發(fā)表刊登,圖書情報工作人員則需要掌握比較詳細(xì)的、準(zhǔn)確的所有圖書情報學(xué)科的數(shù)據(jù),如涉及的專業(yè)范疇、內(nèi)部構(gòu)架和發(fā)展趨勢等[1]。面對如此大量的論文,想要獲取全面的信息,單純地依賴于個人的閱讀時間是不可取的[2]。近年來,根據(jù)共詞分析和網(wǎng)絡(luò)分析,提出一種新的解析方法,即定量分析。目前我國圖書情報領(lǐng)域的服務(wù)主要還停留在基于數(shù)量規(guī)模的信息服務(wù)層面上。毫無疑問,借助先進(jìn)的理念與技術(shù),升華傳統(tǒng)圖書情報領(lǐng)域數(shù)據(jù)挖掘方法,轉(zhuǎn)變傳統(tǒng)挖掘模式,重構(gòu)挖掘體系,提高挖掘精度,以更好的方法對所需圖書情報數(shù)據(jù)進(jìn)行挖掘。利用讀者在數(shù)字圖書館的各種行為為基礎(chǔ),通過收集讀者的瀏覽、定制、檢索、下載等記錄來進(jìn)行研究,從而建立圖書情報數(shù)據(jù)庫;同時根據(jù)圖書情報數(shù)據(jù)的開發(fā),以數(shù)據(jù)庫的形式將圖書檢索信息進(jìn)行存儲[3]。該平臺采用元搜索技術(shù)對圖書館各種圖書情報數(shù)據(jù)庫、網(wǎng)絡(luò)資源等進(jìn)行搜索,再通過信息關(guān)注機(jī)制,對滿足需求的數(shù)據(jù)進(jìn)行選擇。并用設(shè)定的方式方法將圖書情報數(shù)據(jù)進(jìn)行傳輸,建立反饋機(jī)制,允許相關(guān)人員進(jìn)行人工選擇和評價;然后將讀者所需信息儲存在數(shù)據(jù)庫中,供數(shù)據(jù)挖掘所用。
圖書情報數(shù)據(jù)挖掘處理平臺主要由7大模塊組成,分別是數(shù)據(jù)解析模塊、數(shù)據(jù)采集模塊、接口模塊、圖書情報數(shù)據(jù)過濾模塊、圖書情報搜索引擎、圖書情報數(shù)據(jù)推送模塊和數(shù)據(jù)挖掘模塊。數(shù)據(jù)解析模塊重點(diǎn)是對通過需求規(guī)約工具得到的圖書情報數(shù)據(jù)挖掘?qū)ο筮M(jìn)行描述和挖掘策略相關(guān)文件[4]。數(shù)據(jù)采集模塊與預(yù)處理模塊主要是依據(jù)有關(guān)挖掘需求來對圖書情報數(shù)據(jù)進(jìn)行采集,并把采集到的圖書情報數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛱幚淼哪J?。圖書情報數(shù)據(jù)挖掘模塊主要采用相關(guān)挖掘算法,排除掉不同算法間的差異,讓挖掘算法在敏捷狀態(tài)下進(jìn)行挖掘工作[5]。整體平臺可通過附加任務(wù)調(diào)度監(jiān)控模塊對挖掘任務(wù)的執(zhí)行階段進(jìn)行仔細(xì)劃分,保證在進(jìn)行圖書情報數(shù)據(jù)挖掘時可以及時得到反饋。涉及到的數(shù)據(jù)庫為圖書相關(guān)情報資源,根據(jù)以上分析確定平臺結(jié)構(gòu)如圖1所示。
數(shù)據(jù)挖掘模塊主要功能是依據(jù)所選擇的挖掘算法以及相關(guān)的技術(shù)參數(shù),調(diào)用算法完成數(shù)據(jù)挖掘任務(wù)。因為整個挖掘算法的處理過程[6]都是通過數(shù)據(jù)集群運(yùn)算完成的,期間不需要進(jìn)行過多的操作和關(guān)注。因此,在本模塊中,引入K-means算法,挖掘圖書情報數(shù)據(jù),并對挖掘結(jié)果直觀有效的進(jìn)行應(yīng)用。
圖2 數(shù)據(jù)挖掘模塊Fig.2 Data mining module
為了解決海量數(shù)據(jù)存儲、檢索和在線閱讀的容量和性能問題,在有限的條件下建立高效存儲平臺是圖書情報挖掘平臺建設(shè)的重點(diǎn)。本平臺采用分級存儲的方式設(shè)計圖書情報數(shù)據(jù)存儲模塊。第一級面向交互頻繁,但I(xiàn)/O流量相對較小、隨機(jī)存取負(fù)擔(dān)較重的元數(shù)據(jù)庫,采用服務(wù)器內(nèi)置的SAS高速磁盤陣列平臺存儲和管理[7];第二級面向I/O流量較大、傳輸數(shù)據(jù)塊較大,但訪問頻次較少的對象數(shù)據(jù),采用的是基于ISCSI的IP-SAN網(wǎng)絡(luò)接入的SATA磁盤陣列實現(xiàn)。
存儲區(qū)域網(wǎng)絡(luò)作為存儲架構(gòu),其連接方式是采用高傳輸速率的光通道進(jìn)行連接。在SAN中的任意節(jié)點(diǎn)之間提供多個備選圖書情報數(shù)據(jù)轉(zhuǎn)換[8],把數(shù)據(jù)保存在單獨(dú)的存儲活動范圍內(nèi)。由于采用的是獨(dú)立網(wǎng)絡(luò),SAN可以更好地將存儲設(shè)備和服務(wù)器之間頻繁的數(shù)據(jù)傳送與網(wǎng)絡(luò)信息服務(wù)的信息包分割開來。不使用與IP網(wǎng)絡(luò)沖突的網(wǎng)絡(luò)資源[9],從而有效地消除網(wǎng)絡(luò)瓶頸,并且能夠盡量對數(shù)據(jù)共享、數(shù)據(jù)的優(yōu)化管理和平臺的無縫擴(kuò)充進(jìn)行支持。
在進(jìn)行圖書情報數(shù)據(jù)存儲時,將獲取的數(shù)據(jù)存儲在平臺上。該平臺的存儲層是一個由4個計算節(jié)點(diǎn)組成的集群,其利用了HDFS數(shù)據(jù)存儲體系結(jié)構(gòu),將預(yù)處理后的數(shù)據(jù)或平臺分析的數(shù)據(jù)以文本形式讀入平臺中[10]。平臺為數(shù)據(jù)存儲提供了強(qiáng)大的保護(hù)措施,平均每個情報數(shù)據(jù)都進(jìn)行三次備份,能夠很好地防止遇到突發(fā)事件而出現(xiàn)丟失圖書情報數(shù)據(jù),并且圖書情報數(shù)據(jù)有附加性能,在平臺發(fā)生意外故障時,能夠保證后續(xù)圖書情報數(shù)據(jù)存儲無誤。
數(shù)據(jù)解析模塊是此平臺第二主要的功能模塊,它包括用戶聚類模塊和用戶行為分析模塊兩大類。本平臺利用用戶興趣對用戶進(jìn)行分類匯總。當(dāng)用戶頻繁訪問圖書情報數(shù)據(jù)的某個頁面或在某個頁面上停留較長時間時,表明用戶對此類圖書情報數(shù)據(jù)興趣度很高[11]。在本文中,會使用這種興趣度來對圖書情報數(shù)據(jù)進(jìn)行聚類解析。在同一時間,利用序列化模式挖掘算法和圖書情報數(shù)據(jù)經(jīng)常被訪問的途徑,針對該途徑獲取的圖書情報數(shù)據(jù)進(jìn)行解析工作。
從功能的簡易運(yùn)行和設(shè)計的開拓性能角度出發(fā),采用的挖掘算法延伸性應(yīng)用具備兩個特性:
1)挖掘算法的一些性能是比較卓越的,應(yīng)用上更是靈便突出,但是靈便的后果就是操作相當(dāng)麻煩。所以本文必須整理出多個演變算法,才能給外界夠提供出簡便的對恰接口,使操作的運(yùn)用既能活靈活現(xiàn)又盡可能的簡單便捷。
2)改良可插播式應(yīng)用的挖掘算法,既能在原始算法上增加新的運(yùn)算公式也能在已有公式的基礎(chǔ)上進(jìn)行算法改動或者撤銷,還不會對原始模塊產(chǎn)生相對明顯的影響。這種算法不僅落實了對最初算法的改進(jìn),還跟進(jìn)了應(yīng)用改進(jìn)算法。具體的圖書情報數(shù)據(jù)挖掘流程如圖3所示。
圖3 數(shù)據(jù)挖掘流程圖Fig.3 Flow chart of data mining
在進(jìn)行圖書情報數(shù)據(jù)挖掘時,用戶可以依據(jù)需求,對挖掘策略模板文件事先進(jìn)行挖掘算法的設(shè)置,來確定某些參數(shù)的值和在未來的時間里需要設(shè)置的參數(shù)。在這類文件中,為了完成特定的策略文件,需要為平臺中的屬性指定所需要的算法,確定哪些已經(jīng)有明確值的挖掘參數(shù),哪些參數(shù)是用戶對此策略模板的解釋說明,指導(dǎo)用戶定義策略文件。
功能測試工具為Microsoft Visual Studio 2015 for software tester;性能測試工具為Loadrunner 10;測試管理工具為Mercury Quslity center 9.0。
服務(wù)器,HP ML-370 G5;操作平臺,Windows 2013 Server,TRS DB Server V6;CPU,Inter Pentium Ⅲ 1 GHz以上;內(nèi)存,4 GB以上;硬盤,1 TB;網(wǎng)絡(luò),支持TCP/IP協(xié)議;數(shù)據(jù)庫,SQL Server,MySQL。
為了驗證本文平臺在數(shù)據(jù)挖掘方面的性能,將文獻(xiàn)[5]平臺作為對比,進(jìn)行量化測試。測試將負(fù)載均衡離差值作為衡量指標(biāo)。
負(fù)載均衡離差值是負(fù)載均衡性的體現(xiàn),計算公式為:
式中:n用于描述圖書情報數(shù)據(jù)總量;ηv用于描述數(shù)據(jù)量為v時數(shù)據(jù)挖掘的負(fù)載;ηavg用于描述數(shù)據(jù)挖掘時的平均負(fù)載。
依據(jù)上式描述,將采用本文平臺及文獻(xiàn)[5]平臺做比較,進(jìn)行數(shù)據(jù)挖掘負(fù)載均衡離差值對比,結(jié)果見圖4。
圖4 不同平臺挖掘負(fù)載均衡離差結(jié)果對比Fig.4 Comparison for load balance deviation results mined by different platforms
分析圖4可知,在數(shù)據(jù)挖掘量和響應(yīng)速度一定時,采用本文平臺進(jìn)行數(shù)據(jù)挖掘,其負(fù)載均衡離差值較為穩(wěn)定,只有一處出現(xiàn)忽然增加的現(xiàn)象,均衡性較好的同時,穩(wěn)定性較高,具有一定的優(yōu)勢;反之,采用文獻(xiàn)[5]平臺時,多處出現(xiàn)負(fù)載均衡離差值突然增高的現(xiàn)象,雖然均衡性較好,但穩(wěn)定性較差,影響因素增多,需要進(jìn)一步進(jìn)行處理。
針對傳統(tǒng)平臺一直存在數(shù)據(jù)挖掘中負(fù)載均衡差的問題,提出并設(shè)計了基于K-means算法的圖書情報數(shù)據(jù)挖掘處理平臺,并通過硬件及軟件兩部分進(jìn)行分析,以負(fù)載均衡離差值為對比指標(biāo)進(jìn)行實驗分析。結(jié)果表明,改進(jìn)平臺負(fù)載均衡較好,具有一定的優(yōu)勢。