楊 單
(中南民族大學(xué) 管理學(xué)院,武漢430074)
當(dāng)前,校園網(wǎng)內(nèi)部信息的數(shù)量在高速增長(zhǎng),如何讓校園師生們更快速、更準(zhǔn)確地獲取校內(nèi)信息,單純依靠傳統(tǒng)Internet上的大型搜索引擎有時(shí)候不一定特別奏效,因?yàn)橥ㄓ盟阉饕娓鶕?jù)自身的策略不可能覆蓋某一學(xué)校的局域網(wǎng)內(nèi)所有的網(wǎng)頁(yè),存在信息覆蓋率不高的問(wèn)題,同時(shí)由于網(wǎng)頁(yè)的重要性問(wèn)題,信息的更新會(huì)比較慢.例如Google在網(wǎng)頁(yè)抓取策略方面使用的就是基于鏈接評(píng)價(jià)的搜索引擎[1],它獨(dú)創(chuàng)的“鏈接評(píng)價(jià)體系”認(rèn)為一個(gè)網(wǎng)頁(yè)的重要性取決于它被其它網(wǎng)頁(yè)鏈接的數(shù)量,特別是一些已經(jīng)被認(rèn)定是“重要”的網(wǎng)頁(yè)的鏈接數(shù)量,這樣對(duì)于局域網(wǎng)內(nèi)相關(guān)信息搜索的準(zhǔn)確率就不會(huì)很高,而校園網(wǎng)上用戶對(duì)于校園內(nèi)部信息的查準(zhǔn)率的要求要高于查全率.基于此種需求,本系統(tǒng)的主要目的是探索實(shí)現(xiàn)針對(duì)校內(nèi)信息的搜索引擎,著眼于學(xué)校內(nèi)部信息的收集與處理,使相關(guān)用戶更快捷地找到所關(guān)注的信息.
Apache Lucene 是一個(gè)開(kāi)放源程序的、用 Java 寫的全文檢索引擎工具包,利用它可以輕易地為 Java 軟件加入全文搜索功能,用戶可以基于它開(kāi)發(fā)出各種全文搜索的應(yīng)用.作為一種全文檢索引擎的架構(gòu),Lucene提供了完整的查詢引擎、索引引擎及部分文本分析引擎[2].
Lucene關(guān)注文本的索引和搜索,并為數(shù)據(jù)訪問(wèn)和管理提供簡(jiǎn)單的函數(shù)調(diào)用接口,可以方便地嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引、檢索功能[3].Lucene 作為一個(gè)優(yōu)秀的全文搜索引擎的架構(gòu),其系統(tǒng)結(jié)構(gòu)運(yùn)用了大量面向?qū)ο蟮木幊趟枷耄x了一個(gè)與平臺(tái)無(wú)關(guān)的索引文件格式,通過(guò)抽象將系統(tǒng)的核心組成部分設(shè)計(jì)為抽象類,并將與具體平臺(tái)相關(guān)的部分也封裝為類,經(jīng)過(guò)層層面向?qū)ο缶幊痰奶幚?,最終達(dá)成一個(gè)低耦合、高效率、容易二次開(kāi)發(fā)的搜索引擎系統(tǒng)[4].作為一個(gè)開(kāi)放源代碼項(xiàng)目,Lucene 以其優(yōu)異的索引結(jié)構(gòu)、良好的系統(tǒng)架構(gòu)獲得了越來(lái)越多的應(yīng)用.
按照相關(guān)功能,系統(tǒng)分為兩大部分:網(wǎng)頁(yè)資源采集與索引、檢索與展示.網(wǎng)頁(yè)資源采集和索引部分包括了網(wǎng)頁(yè)資源采集、資源處理與索引兩大模塊,檢索與展示部分包括數(shù)據(jù)檢索、網(wǎng)頁(yè)快照、關(guān)鍵字過(guò)濾三大模塊,如圖1所示.
圖1 系統(tǒng)模塊設(shè)計(jì)圖
本系統(tǒng)結(jié)構(gòu)由3個(gè)部分組成:數(shù)據(jù)庫(kù)服務(wù)器,搜索引擎核心服務(wù)器,Tomcat Web服務(wù)器,各部分既分工明確又相互合作.數(shù)據(jù)庫(kù)服務(wù)器記錄資源抓取情況、索引情況,它與搜索引擎核心服務(wù)器協(xié)作完成資源的下載更新與索引,同時(shí)通過(guò)記錄網(wǎng)頁(yè)的抓取歷史,使網(wǎng)絡(luò)爬蟲具備了自動(dòng)學(xué)習(xí)的功能,即根據(jù)網(wǎng)頁(yè)的更新頻率來(lái)調(diào)整自身的抓取頻率.Tomcat服務(wù)器比較獨(dú)立,與其他部分沒(méi)有交互,但是它的數(shù)據(jù)來(lái)源于前面索引好的索引文件,同時(shí)其網(wǎng)頁(yè)快照功能實(shí)現(xiàn)也是以網(wǎng)絡(luò)爬蟲抓取的原始網(wǎng)頁(yè)文件為基礎(chǔ)的.
整個(gè)系統(tǒng)運(yùn)行的數(shù)據(jù)流程如圖2所示:第一階段網(wǎng)絡(luò)爬蟲從數(shù)據(jù)庫(kù)中獲取需要抓取的網(wǎng)頁(yè)信息,進(jìn)行網(wǎng)頁(yè)的下載,下載后需要將下載時(shí)間、文件存放路徑等信息記錄到數(shù)據(jù)庫(kù)中,同時(shí)將下載的文件存放在硬盤上;第二階段是Lucene建立索引階段,先從數(shù)據(jù)庫(kù)中取得需要建立索引的任務(wù),然后進(jìn)行處理,并將索引結(jié)構(gòu)寫入到索引文件中;第三階段是檢索階段,系統(tǒng)檢索建立好的索引文件,并且將查詢到的結(jié)果返回給用戶.
圖2 系統(tǒng)數(shù)據(jù)流程圖
網(wǎng)頁(yè)資源采集模塊主要負(fù)責(zé)從網(wǎng)絡(luò)上抓取相關(guān)網(wǎng)頁(yè)信息,即通常所說(shuō)的網(wǎng)絡(luò)爬蟲Spider.網(wǎng)絡(luò)爬蟲采用多線程,多個(gè)線程(SpiderWorker)同時(shí)下載網(wǎng)頁(yè)資源.而下載的網(wǎng)頁(yè)和需要下載的網(wǎng)頁(yè)的相關(guān)信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,并且網(wǎng)頁(yè)需要更新.基于以上考慮,Spider的功能實(shí)現(xiàn)主要從以下幾個(gè)方面進(jìn)行.
(1) 多線程的控制.在有多個(gè)任務(wù)時(shí),多個(gè)工作者線程(SpiderWorker)在取得爬行任務(wù)后,往任務(wù)隊(duì)列中添加新發(fā)現(xiàn)的任務(wù).在沒(méi)有任務(wù)時(shí),多個(gè)線程只剩下一個(gè),監(jiān)視是否有任務(wù)需要執(zhí)行,如果有任務(wù)且不止一個(gè),它就會(huì)喚醒另一個(gè)睡眠的線程,而其他線程在沒(méi)有任務(wù)時(shí)就會(huì)進(jìn)入睡眠狀態(tài).基于以上考慮,所有的工作者線程都由某個(gè)線程(Spider)掌管,通過(guò)該線程(Spider)可以控制網(wǎng)絡(luò)爬蟲的運(yùn)行或停止;
(2) 由于工作者線程不能下載相同的網(wǎng)頁(yè)(已經(jīng)下載過(guò)的),所以必須將已經(jīng)下載過(guò)的網(wǎng)頁(yè)的相關(guān)信息(地址、下載時(shí)間等)進(jìn)行保存,鑒于要處理的網(wǎng)頁(yè)較多,所以采用數(shù)據(jù)庫(kù)對(duì)網(wǎng)頁(yè)的相關(guān)信息進(jìn)行存儲(chǔ).所以此部分主要涉及對(duì)數(shù)據(jù)庫(kù)的相關(guān)操作;
(3) 工作者線程的工作主要是從網(wǎng)頁(yè)上下載網(wǎng)頁(yè),并對(duì)網(wǎng)頁(yè)進(jìn)行解析,所以該部分主要工作是利用socket取得網(wǎng)頁(yè)文件,并對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,將網(wǎng)頁(yè)中找到的網(wǎng)頁(yè)地址的相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫(kù)中;
(4) 由于當(dāng)工作者線程在解析一個(gè)網(wǎng)頁(yè)時(shí),在這個(gè)網(wǎng)頁(yè)中可能發(fā)現(xiàn)多個(gè)網(wǎng)頁(yè)地址(本站點(diǎn)或其他站點(diǎn)的),所以在設(shè)計(jì)時(shí)可以根據(jù)實(shí)際需要確定是否將在本站點(diǎn)發(fā)現(xiàn)的外部站點(diǎn)鏈接加入到工作者隊(duì)列中,如果添加還可對(duì)其深度進(jìn)行控制.如只抓取在本站點(diǎn)發(fā)現(xiàn)的該外部鏈接,該外部鏈接上發(fā)現(xiàn)的鏈接不予處理,即其抓取外部鏈接的深度為1.
網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理流程圖如圖3所示.
圖3 網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理流程圖
Lucene建立索引采用的也是多線程的實(shí)現(xiàn)方式,基本上實(shí)現(xiàn)方式與WEB采集、FTP采集類似,目前主要可以對(duì)文本類文件(txt、html、shtml、xml)、word文檔、excel文檔、pdf文檔、數(shù)據(jù)庫(kù)中的記錄等建立索引[5].
純文本類文件處理:對(duì)于文本類文件的處理沒(méi)有使用Lucene內(nèi)置的類,而是直接使用java.io.BufferedReader和java.io.FileReader,通過(guò)它們讀取文件,并且將空格去掉.
Word文檔處理:使用 org.textmining.text.extraction.WordExtractor進(jìn)行處理,它是apache下解析word文件的一個(gè)類.
Excel文檔處理:使用jxl包里面的 jxl.Cell、jxl.Sheet、jxl.Workbook三個(gè)類進(jìn)行信息的抽??;jxl是一個(gè)開(kāi)源的操作Excel的Java包.
PDF文檔的處理:使用PDFBox包里面的org.pdfbox.pdmodel.PDDocument、org.pdfbox.util.PDFTextStripper兩個(gè)類,PDFBox是Java實(shí)現(xiàn)的PDF文檔協(xié)作類庫(kù),提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能,也包含了一些命令行實(shí)用工具.主要特性包括:從PDF提取文本,合并PDF文檔,PDF 文檔加密與解密,與Lucene搜索引擎的集成,填充PDF/XFDF表單數(shù)據(jù),打印PDF文檔等.
Lucene建立索引階段,先從數(shù)據(jù)庫(kù)中取得需要建立索引的任務(wù),然后進(jìn)行處理,并將索引結(jié)構(gòu)寫入到索引文件中.
用戶輸入關(guān)鍵字后,系統(tǒng)會(huì)對(duì)關(guān)鍵字進(jìn)行分析,判斷關(guān)鍵字是否為敏感詞匯,如果為敏感詞直接返回,并提示用戶系統(tǒng)對(duì)該關(guān)鍵字進(jìn)行過(guò)濾;如果不是敏感詞,則系統(tǒng)檢索已經(jīng)建立好的索引文件,并對(duì)檢索結(jié)果進(jìn)行分頁(yè)處理,最后將合適的結(jié)果返回給用戶.
該處提到的判斷關(guān)鍵字是否為敏感詞匯的方法是采取建立敏感詞庫(kù)的方式,不斷將某些詞匯添加到該詞庫(kù),在具體的檢索時(shí),將用戶輸入的關(guān)鍵字進(jìn)行分詞,在敏感詞庫(kù)中進(jìn)行檢索,如果關(guān)鍵字存在敏感詞匯,將直接返回,不再進(jìn)行檢索.
在本系統(tǒng)中,需要利用數(shù)據(jù)庫(kù)記錄網(wǎng)絡(luò)資源采集的相關(guān)信息,資源采集包括Web網(wǎng)頁(yè)采集、FTP采集、數(shù)據(jù)庫(kù)采集,具體涉及到以下幾個(gè)表.
(1) 表DownLoaderWorkload.
該表存儲(chǔ)是FTP文檔采集的文件信息,F(xiàn)TP文檔采集時(shí)有兩種線程:一種是文件發(fā)現(xiàn)線程(FileFinder),另一種是文件下載線程(DownLoader),F(xiàn)ileFinder將發(fā)現(xiàn)的文件信息存儲(chǔ)在DownLoaderWorkload表中,而DownLoader從DownLoaderWorkload表取得需要下載的文件的信息進(jìn)行下載.
(2) 表SpiderWorkload.
該表用于記錄Web網(wǎng)頁(yè)采集信息,與DownLoaderWorkload表功能類似.
(3) 表IndexSource.
該表用于記錄從數(shù)據(jù)庫(kù)中采集的信息.
(4) 視圖IndexResource.
該視圖用于將不同來(lái)源的數(shù)據(jù)以相同的結(jié)構(gòu)呈現(xiàn)給Lucene索引.
網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)包括3個(gè)層次:網(wǎng)頁(yè)訪問(wèn)與抓取層、多線程控制及網(wǎng)頁(yè)解析提取鏈接層、數(shù)據(jù)庫(kù)交互層.網(wǎng)頁(yè)訪問(wèn)與抓取層使用多線程并行處理,在數(shù)據(jù)庫(kù)交互層進(jìn)行同步控制,防止各線程互鎖資源造成死鎖.3個(gè)部分分別對(duì)應(yīng)4個(gè)主要類HTTPSocket、SpiderWorker、Spider、SpiderSQLWorkload.
(1) 網(wǎng)頁(yè)訪問(wèn)與抓取層實(shí)現(xiàn).
整個(gè)網(wǎng)絡(luò)爬蟲是由Spider控制的,SpiderWorker類的功能是訪問(wèn)網(wǎng)頁(yè)并下載網(wǎng)頁(yè),它是個(gè)多線程類,采用extend方式實(shí)現(xiàn).HTTPSocket完成了網(wǎng)頁(yè)訪問(wèn)與抓取的全部工作.
該網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)參考了Jeff Heaton的爬蟲模型[6],對(duì)其進(jìn)行了適度地改進(jìn)以滿足自身的需求,主要的改進(jìn)體現(xiàn)在以下方面.
(a) 在數(shù)據(jù)庫(kù)中增加了網(wǎng)頁(yè)抓取記錄,同時(shí)使爬蟲增加了對(duì)更新后的網(wǎng)頁(yè)重新抓取的功能;
(b) 在網(wǎng)絡(luò)爬蟲的多線程控制方面:原網(wǎng)絡(luò)爬蟲在所有的任務(wù)完成后,所有的線程全部停止退出,修改后,沒(méi)有任務(wù)時(shí)只留下一個(gè)線程監(jiān)視是否有新的任務(wù),其他線程進(jìn)入睡眠狀態(tài),當(dāng)有新的任務(wù)時(shí),活躍的一個(gè)線程負(fù)責(zé)喚醒其他睡眠的線程繼續(xù)作業(yè).該改進(jìn)主要是為了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取的自動(dòng)化.
(2) 多線程控制及網(wǎng)頁(yè)解析提取鏈接層實(shí)現(xiàn).
(a) 多線程控制. 該系統(tǒng)的多線程的控制是用wait()與notify()實(shí)現(xiàn)的,整個(gè)網(wǎng)絡(luò)爬蟲線程的數(shù)量是由參數(shù)文件控制的,例如啟動(dòng)了100個(gè)線程同時(shí)采集網(wǎng)頁(yè),當(dāng)資源隊(duì)列中的網(wǎng)頁(yè)采集完成后,其余的99個(gè)線程進(jìn)入睡眠狀態(tài),保留一個(gè)線程處于活躍狀態(tài),它的主要作用是查詢資源隊(duì)列需要采集的任務(wù),當(dāng)任務(wù)數(shù)大于1時(shí),它會(huì)按照任務(wù)量喚醒一定數(shù)量的線程繼續(xù)工作.圖4是該部分功能實(shí)現(xiàn)的流程圖.
(b) 網(wǎng)頁(yè)解析提取鏈接層. 網(wǎng)頁(yè)解析工作是由SpiderWorker承擔(dān)的,而且網(wǎng)頁(yè)的更新也是由其判斷HTTP頭信息來(lái)判斷網(wǎng)頁(yè)是否更新過(guò).根據(jù)HTTP頭信息里面的Last-Modified屬性確定網(wǎng)頁(yè)的最新更新時(shí)間,將這個(gè)時(shí)間和數(shù)據(jù)庫(kù)中上次抓取的時(shí)間進(jìn)行比較,如果更新時(shí)間晚于上次抓取時(shí)間,即再次抓取.processWorkload()方法實(shí)現(xiàn)了大部分功能,包括解析網(wǎng)頁(yè)、提取鏈接、保存網(wǎng)頁(yè)等.
圖4 多線程控制流程圖
(3) 數(shù)據(jù)庫(kù)交互層實(shí)現(xiàn).
數(shù)據(jù)庫(kù)交互層實(shí)現(xiàn)主要類為SpiderSQLWorkload,它的assignWorkload()、addWorkload(String url)等方法完成了與數(shù)據(jù)庫(kù)交互的大部分工作,assignWorkload方法的作用是為網(wǎng)絡(luò)爬蟲分配爬行任務(wù),addWorkload方法的作用是將網(wǎng)絡(luò)爬蟲解析網(wǎng)頁(yè)發(fā)現(xiàn)的鏈接加入到資源隊(duì)列中,該鏈接是經(jīng)過(guò)去重等一系列處理的,保證其在資源隊(duì)列中的唯一性.
Lucene是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包,它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎[7].
本系統(tǒng)使用Lucene Smartcn進(jìn)行中文分詞,并且支持多種資源的索引,如doc、xls、pdf、html、shtml、htm、xml、txt等類型的資源,針對(duì)每種資源其索引方法都不相同,針對(duì)此問(wèn)題,系統(tǒng)充分利用了JAVA語(yǔ)言多態(tài)的特性進(jìn)行處理,即所有的資源類型都統(tǒng)一實(shí)現(xiàn)IndexResource接口的buildIndex()方法,但是每種資源的實(shí)現(xiàn)方法各異.如ExcelResource、PDFResource、TextResource、WordResource都實(shí)現(xiàn)了IndexResource,但是它們buildIndex方法的實(shí)現(xiàn)是不同的,這樣使得異構(gòu)的資源最后都被索引成相同結(jié)構(gòu)的結(jié)構(gòu)性索引文件,如圖5所示.
圖5 Lucene索引工作流程圖
本系統(tǒng)針對(duì)校園網(wǎng)的特點(diǎn)改進(jìn)了傳統(tǒng)搜索引擎,以適應(yīng)局域網(wǎng)對(duì)于數(shù)據(jù)查詢準(zhǔn)確性的要求,同時(shí)在某些方面進(jìn)行了增強(qiáng),如網(wǎng)頁(yè)的更新方面和使網(wǎng)絡(luò)爬蟲具備了智能學(xué)習(xí)的功能,可以根據(jù)網(wǎng)頁(yè)的更新頻率,智能調(diào)整自身抓取頻率.
傳統(tǒng)的搜索引擎有兩個(gè)重要參數(shù):查全率和查準(zhǔn)率[8].一般情況下,查全率很難比較,在衡量搜索引擎的性能時(shí)很少采用,而且本系統(tǒng)重點(diǎn)解決的是校園網(wǎng)信息搜索的查詢準(zhǔn)確率問(wèn)題,所以本系統(tǒng)測(cè)試重點(diǎn)在于測(cè)試查準(zhǔn)率.
以中南民族大學(xué)校園網(wǎng)作為測(cè)試對(duì)象,參照相關(guān)測(cè)評(píng)標(biāo)準(zhǔn),對(duì)查詢進(jìn)行分類考慮,對(duì)于主題頁(yè)面的查詢,根據(jù)前10個(gè)結(jié)果中出現(xiàn)的相關(guān)頁(yè)面數(shù)目來(lái)判斷系統(tǒng)的性能,通常采用前10個(gè)結(jié)果的平均精確率(P@10)來(lái)評(píng)判;對(duì)于待定網(wǎng)頁(yè)的查詢,則以第一個(gè)相關(guān)頁(yè)面出現(xiàn)位置的倒數(shù)平均值(MRR)為評(píng)判標(biāo)準(zhǔn).根據(jù)P@10、MRR等參數(shù)對(duì)系統(tǒng)性能進(jìn)行了測(cè)試和分析,結(jié)果見(jiàn)表1.
表1 系統(tǒng)性能測(cè)試數(shù)據(jù)統(tǒng)計(jì)結(jié)果比較
根據(jù)測(cè)試結(jié)果綜合分析來(lái)看,本系統(tǒng)能在校園網(wǎng)內(nèi)較好地執(zhí)行搜索任務(wù),系統(tǒng)的功能和性能都比較令人滿意.但隨著索引量的增加,系統(tǒng)的響應(yīng)時(shí)間也會(huì)有所增長(zhǎng).而隨著關(guān)鍵詞的增加以及查詢邏輯的復(fù)雜化,查詢的準(zhǔn)確率會(huì)有所下降.
針對(duì)校園信息的特點(diǎn),利用Lucene開(kāi)源全文檢索引擎工具包,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)適合于校園等局域網(wǎng)使用的小型搜索引擎,并對(duì)相關(guān)性能進(jìn)行了優(yōu)化,達(dá)到了較好的效果.該Lucene應(yīng)用也可推廣到許多其他的應(yīng)用實(shí)例的設(shè)計(jì)與實(shí)現(xiàn).當(dāng)然系統(tǒng)還存在一些不足:如網(wǎng)絡(luò)資源抓取的速度和效率、中文分詞的準(zhǔn)確率等,都需要做進(jìn)一步的研究.
[1] 李曉明,閆宏飛,王繼民. 搜索引擎——原理、技術(shù)與系統(tǒng)[M]. 2版.北京:科學(xué)出版社,2012.
[2] 郎小偉,王申康.基于Lucene的全文檢索系統(tǒng)的研究與開(kāi)發(fā)[J].計(jì)算機(jī)工程,2006,32(4):94-99.
[3] 梁 弼,王光瓊,鄧小清.基于Lucene的全文檢索系統(tǒng)模型的研究及應(yīng)用[J].微型機(jī)與應(yīng)用,2011,30(1):44-46.
[4] 趙 珂,逯 鵬,李永強(qiáng).基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2011,37(16): 39-41.
[5] 鄭榕增,林世平.基于 Lucene的中文倒排索引技術(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(3):80-83.
[6] Heaton J.網(wǎng)絡(luò)機(jī)器人Java編程指南[M]. 童兆豐,李 純,劉潤(rùn)杰,譯.北京:電子工業(yè)出版社,2002.
[7] 張 俊,李魯群,周 熔.基于Lucene的搜索引擎的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(6): 230-232.
[8] Hawking D,Craswell N,Bailey P,et al.Measuring search engine quality[J].Information Retrieval,2001,4(1):33-59.