谷參
摘 要: 針對目前普遍采用的基于單式中心服務的信息檢索搜索時間長、不準確等缺點,結(jié)合數(shù)據(jù)挖掘、數(shù)據(jù)庫管理等技術(shù),在B/S模式和C/S模式的基礎上開發(fā)基于P2P平臺的分布式結(jié)構(gòu)數(shù)字圖書館信息檢索系統(tǒng),完善和優(yōu)化了圖書館信息檢索的功能,實現(xiàn)了高效、實用、方便、快捷的圖書館信息服務,為用戶提供了更好的圖書館服務體驗。
關(guān)鍵詞: 分布式結(jié)構(gòu); 數(shù)字圖書館; B/S模式; C/S模式; P2P; 信息檢索服務
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2017)01?0083?03
Abstract: Since the commonly?used information retrieval system based on simplex center service has the shortages of long time and low accuracy for information retrieval search, in combination the technologies of data mining and database management, the distributed digital library information retrieval system based on P2P platform was developed on the basis of B/S mode and C/S mode. The system improved and optimized the library information retrieval function, realized the efficient, practical, convenient and quick library information service, and provides a better library service experience for users.
Keywords: distributed structure; digital library; B/S mode; C/S mode; P2P; information retrieval service
0 引 言
在當今信息技術(shù)快速發(fā)展的環(huán)境下,圖書館已經(jīng)由傳統(tǒng)的人工紙質(zhì)化狀態(tài)進入數(shù)字信息時代,傳統(tǒng)的信息檢索系統(tǒng)已經(jīng)不能滿足人們對圖書館的服務要求,對信息的搜索效率已經(jīng)成為衡量數(shù)字化圖書館先進與否的關(guān)鍵因素。信息檢索中最早出現(xiàn)的是集中搜索模式[1],它由一個服務中心集中收集處理信息并將信息反饋給各個子搜索中心。這種單一的搜索系統(tǒng)容易出現(xiàn)交通阻塞、信息滯后繼而出現(xiàn)系統(tǒng)崩盤等隱患,穩(wěn)定性和安全性極低[1]。分布式搜索模式的出現(xiàn)克服了以上缺點,圖書館的信息檢索系統(tǒng)利用分布式信息搜索模式實現(xiàn)了圖書信息檢索的高效智能化。
2004年,第一個基于P2P架構(gòu)的數(shù)字圖書館系統(tǒng)在英國的蘭開斯特大學由Walkerdine等人設置完成[1];2004年Haase等聯(lián)合開發(fā)了Bibster系統(tǒng);2005年美國麻省理工學院的Jcremy等設計并開發(fā)了一種基于DHT的分布式合作數(shù)字圖書館系統(tǒng)OverCite[1];Hao Ding在數(shù)字圖書館環(huán)境中基于P2P結(jié)構(gòu)創(chuàng)建了數(shù)據(jù)搜索模型算法[2];德國馬克斯·普朗克信息學研究所的Matthias Bender等人首次將信息檢索技術(shù)與P2P技術(shù)結(jié)合實現(xiàn)了對數(shù)字圖書館信息的檢索功能,以上對數(shù)字圖書館搜索系統(tǒng)的設置都有一定的進步與改善,但也存在著擴展性差、搜索擁堵、運行維護成本高等缺點。通過對歷史背景的研究及現(xiàn)狀的評估,本文提出基于P2P技術(shù)的分布式圖書館信息檢索系統(tǒng),此系統(tǒng)避免了傳統(tǒng)的單一搜索模式的弊端,在服務器端與客戶端分別設置B/S模式和C/S模式[3],形成了分布式檢索形式,在此基礎上,將P2P技術(shù)加入分布式搜索模式中進行算法優(yōu)化與改進,使圖書館信息檢索能力大大提高,對圖書館信息智能化的發(fā)展具有重大意義。
1 P2P搜索技術(shù)
1.1 P2P搜索算法
計算機對等(Peer?to?Peer,P2P)[1]技術(shù)是當今信息網(wǎng)絡的一種熱門研究技術(shù),主要對網(wǎng)絡信息資源進行研究。P2P搜索算法可分為結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索[4],如圖1所示。結(jié)構(gòu)化算法是指點對點的網(wǎng)絡搜索,網(wǎng)絡結(jié)構(gòu)中的每個點都有確定的ID,因此在進行搜索任務時要將關(guān)鍵信息從頭到尾逐一查詢,造成搜索重復冗余、網(wǎng)絡結(jié)構(gòu)龐大刻板;非結(jié)構(gòu)化的網(wǎng)絡布局中每個網(wǎng)點分布隨機在需要時及時加入結(jié)構(gòu),網(wǎng)點的位置和數(shù)目隨著搜索任務的變化而變化,在進行搜索時,指針有策略地對網(wǎng)點進行搜索,同時及時更改搜索路線即算法,因此,非結(jié)構(gòu)化的P2P搜索模式相對靈活簡單,但是容易出現(xiàn)搜索不完全、陷入死循環(huán)等[5]。
1.2 P2P搜索模式
P2P搜索模式分為中央索引模式[1]和分布式索引模式。中央索引模式如圖2所示,在進行信息檢索時子端信息只能傳輸?shù)街醒刖W(wǎng)點,再由中央網(wǎng)點進行下一級信息傳遞,這樣的傳輸模式共享性差,資源利用率低;分布式索引模式如圖3所示,其中沒有中央服務器,每個網(wǎng)點具有相同的功能與職責,他們之間可以自由進行信息傳輸(只要線路存在),當某個網(wǎng)點進行搜索時會向周邊網(wǎng)點傳遞信息,周邊網(wǎng)點會將此信息向外擴張,直到完成信息的整個檢索[6]。分布式索引避開了集中索引模式的許多弊端,使整個系統(tǒng)靈活快捷,但是這種模式占用太多內(nèi)存,容易出現(xiàn)擁堵狀況,因此可以將集中式與分布式結(jié)合實現(xiàn)混合P2P搜索模式。
2 基于P2P的數(shù)字圖書館分布式搜索系統(tǒng)分析
如今,人們處于多元化社會,出現(xiàn)了諸多一詞多義、模糊詞語、一語多關(guān)的現(xiàn)象,傳統(tǒng)基于集中式的搜索模式已經(jīng)不能滿足人們搜索目標的要求,因此引入P2P分布式搜索模式系統(tǒng)[7],在原有基礎上,進一步將語義進行肢解與關(guān)聯(lián),達到準確快速搜索的目的。
2.1 分布式搜索系統(tǒng)結(jié)構(gòu)模型及關(guān)系
基于P2P的數(shù)字圖書館分布式搜索系統(tǒng)結(jié)構(gòu)模型分為分層搜索節(jié)點模式和數(shù)據(jù)資源模式,此結(jié)構(gòu)模式首先對信息進行查詢服務,對用戶輸入信息進行判斷,如果信息符合驗證將進行查詢解析,同時相對應的數(shù)據(jù)資源將對信息進行注冊驗證查詢[8],然后在數(shù)據(jù)資源庫中進行搜索,最后將搜索結(jié)果進行傳輸,呈現(xiàn)在用戶查詢結(jié)果頁面,結(jié)構(gòu)模型示意圖如圖4所示,服務器之間的關(guān)系如圖5所示。
2.2 文件共享與分布式搜索流程
文件共享[1]是指根據(jù)用戶提供的信息,在網(wǎng)路節(jié)點之間進行信息交流與傳遞,對文件進行詳細解剖,根據(jù)文件的具體內(nèi)容與特征分配不同的網(wǎng)點進行處理與承接反饋[9];文件搜索與文件共享類似,首先由用戶輸入信息發(fā)出搜索請求,請求的指令傳輸?shù)骄W(wǎng)絡拓撲結(jié)構(gòu)中,由具體網(wǎng)點進行接收,然后判斷處理搜索內(nèi)容,對內(nèi)容進行解析,進入下一環(huán)節(jié)。圖6,圖7分別為信息共享流程圖和分布式搜索流程圖。
3 B/S模式和C/S模式和數(shù)據(jù)庫分析
服務器的B/S模式可以完成對查詢信息的訪問,主要是完成瀏覽器與服務器之間的連接;C/S模式可以完成對輸入信息的訪問,主要是完成客戶端與服務器的連接。B/S模式和C/S模式的采用可以合理分工信息流傳處理過程,使要查詢的檢索信息按照預定的通道傳輸,不會出現(xiàn)差錯與混亂[10],采用B/S模式,可以將要查詢的信息通過服務器完成,只需要將用戶輸入的信息加載到瀏覽器的系統(tǒng)中就能實現(xiàn)搜索功能,大大減輕了服務器的負荷;采用C/S模式可以將服務器要完成的任務交于客戶端進行,減輕了服務器的擁堵狀況,使整個道路暢通。系統(tǒng)總體模型圖如圖8所示。
來自客戶端和服務端的數(shù)據(jù)需要經(jīng)過數(shù)據(jù)庫進行收集整合,數(shù)據(jù)庫一方面從服務器端獲取數(shù)據(jù),一方面從客戶端獲取客戶錄入的數(shù)據(jù),將雙方數(shù)據(jù)進行資格認證,將查詢內(nèi)容準確無誤地傳輸給用戶[11],數(shù)據(jù)流程圖如圖9所示。
4 結(jié) 論
基于集中搜索模式的圖書館搜索系統(tǒng)已經(jīng)不能適應當今時代的需求,分布式搜索模式能夠有效地解決集中式系統(tǒng)搜索效率低、內(nèi)存占用大、系統(tǒng)易崩潰等缺點,為圖書館搜索服務提供更好的技術(shù)支持。本文提出的基于分布式的搜索系統(tǒng)加入了P2P技術(shù),解決的問題主要體現(xiàn)在:
(1) 本文在圖書館數(shù)據(jù)庫管理系統(tǒng)中加入B/S模式和C/S模式,使得信息查詢和結(jié)果反饋流程規(guī)范簡化,減輕了服務器與客戶端的負荷,使得信息在客戶端輸入時不會產(chǎn)生信息阻塞,這樣輸入的信息不會對后續(xù)搜索產(chǎn)生影響,在服務器端將要搜索的信息直接傳遞給瀏覽器,不僅使服務器的負荷減輕還使得信息搜索更加廣泛,搜索的結(jié)果更加多樣化,結(jié)果更加準確。
(2) 本文在分布式的搜索系統(tǒng)中加入了P2P技術(shù),詳細分析了P2P的搜索結(jié)構(gòu)模式和搜索流程,P2P使得分布式搜索模式更加有效,降低了分布式搜索模式的搜索風險,通過對關(guān)鍵詞和特征詞的具體剖析,提高了搜索的準確率,適應了當代詞義的變化,給用戶提供更多的選擇。
(3) 采用混合P2P模式,成功地避免了單一搜索模式的諸多弊端,改善了搜索查詢機制性能,使得搜索模式具有更大的擴展性,搜索更加全面高效。在加入P2P的搜索模式中,搜索語言更加多元化,算法得到了改進,與數(shù)據(jù)挖掘等技術(shù)可以有效結(jié)合。能夠形成更強大的搜搜引擎。
參考文獻
[1] 馬率廣.基于P2P的數(shù)字圖書館分布式搜索引擎研究[D].秦皇島:燕山大學,2007.
[2] 王哲.數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務中的應用研究[D].重慶:重慶大學,2012.
[3] 譚鑫鑫.分布式圖書館信息檢索與引導服務系統(tǒng)[D].長沙:湖南大學,2012.
[4] 秦健.基于信息可視化與數(shù)據(jù)挖掘的高校圖書館推薦系統(tǒng)的設計與實現(xiàn)[D].北京:北京交通大學,2014.
[5] 趙捧未,馬亭,竇永香.基于P2P和Web Service的數(shù)字圖書館資源共享框架研究[J].信息資源管理學報,2011(2):55?58.
[6] 張麗君.圖書館信息資源知識管理模式構(gòu)建[J].圖書與情報,2010(6):134?136.
[7] 蔡學森.基于B/S的學生成績管理系統(tǒng)[D].長春:吉林大學,2008.
[8] 沈濟南,梁芳.基于C/S與B/S混合模式的學生成績管理系統(tǒng)設計與實現(xiàn)[J].牡丹江師范學院學報(自然科學版),2006(4):18?19.
[9] 張瑤,陳維斌,傅順開.基于大數(shù)據(jù)的高校圖書館推薦系統(tǒng)仿真研究[J].計算機工程與設計,2013(7):2533?2541.
[10] 張路路.基于數(shù)據(jù)挖掘的高校圖書館藏推薦系統(tǒng)模型研究[D].淄博:山東理工大學,2012.
[11] 王斌.數(shù)據(jù)挖掘在高校圖書館服務中的應用研究[D].西安:西安理工大學,2010.