基于Lucene的校園信息搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

2013-12-22 12:21楊單

中南民族大學(xué)學(xué)報(bào)（自然科學(xué)版） 2013年4期

楊單

(中南民族大學(xué) 管理學(xué)院，武漢430074)

當(dāng)前，校園網(wǎng)內(nèi)部信息的數(shù)量在高速增長(zhǎng)，如何讓校園師生們更快速、更準(zhǔn)確地獲取校內(nèi)信息，單純依靠傳統(tǒng)Internet上的大型搜索引擎有時(shí)候不一定特別奏效，因?yàn)橥ㄓ盟阉饕娓鶕?jù)自身的策略不可能覆蓋某一學(xué)校的局域網(wǎng)內(nèi)所有的網(wǎng)頁(yè)，存在信息覆蓋率不高的問(wèn)題，同時(shí)由于網(wǎng)頁(yè)的重要性問(wèn)題，信息的更新會(huì)比較慢.例如Google在網(wǎng)頁(yè)抓取策略方面使用的就是基于鏈接評(píng)價(jià)的搜索引擎[1]，它獨(dú)創(chuàng)的“鏈接評(píng)價(jià)體系”認(rèn)為一個(gè)網(wǎng)頁(yè)的重要性取決于它被其它網(wǎng)頁(yè)鏈接的數(shù)量，特別是一些已經(jīng)被認(rèn)定是“重要”的網(wǎng)頁(yè)的鏈接數(shù)量，這樣對(duì)于局域網(wǎng)內(nèi)相關(guān)信息搜索的準(zhǔn)確率就不會(huì)很高，而校園網(wǎng)上用戶對(duì)于校園內(nèi)部信息的查準(zhǔn)率的要求要高于查全率.基于此種需求，本系統(tǒng)的主要目的是探索實(shí)現(xiàn)針對(duì)校內(nèi)信息的搜索引擎,著眼于學(xué)校內(nèi)部信息的收集與處理，使相關(guān)用戶更快捷地找到所關(guān)注的信息.

1 Lucene技術(shù)的特點(diǎn)

Apache Lucene 是一個(gè)開(kāi)放源程序的、用 Java 寫的全文檢索引擎工具包，利用它可以輕易地為 Java 軟件加入全文搜索功能，用戶可以基于它開(kāi)發(fā)出各種全文搜索的應(yīng)用.作為一種全文檢索引擎的架構(gòu)，Lucene提供了完整的查詢引擎、索引引擎及部分文本分析引擎[2].

Lucene關(guān)注文本的索引和搜索，并為數(shù)據(jù)訪問(wèn)和管理提供簡(jiǎn)單的函數(shù)調(diào)用接口，可以方便地嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引、檢索功能[3].Lucene 作為一個(gè)優(yōu)秀的全文搜索引擎的架構(gòu)，其系統(tǒng)結(jié)構(gòu)運(yùn)用了大量面向?qū)ο蟮木幊趟枷耄x了一個(gè)與平臺(tái)無(wú)關(guān)的索引文件格式，通過(guò)抽象將系統(tǒng)的核心組成部分設(shè)計(jì)為抽象類，并將與具體平臺(tái)相關(guān)的部分也封裝為類，經(jīng)過(guò)層層面向?qū)ο缶幊痰奶幚?，最終達(dá)成一個(gè)低耦合、高效率、容易二次開(kāi)發(fā)的搜索引擎系統(tǒng)[4].作為一個(gè)開(kāi)放源代碼項(xiàng)目，Lucene 以其優(yōu)異的索引結(jié)構(gòu)、良好的系統(tǒng)架構(gòu)獲得了越來(lái)越多的應(yīng)用.

2 系統(tǒng)總體設(shè)計(jì)

按照相關(guān)功能，系統(tǒng)分為兩大部分：網(wǎng)頁(yè)資源采集與索引、檢索與展示.網(wǎng)頁(yè)資源采集和索引部分包括了網(wǎng)頁(yè)資源采集、資源處理與索引兩大模塊，檢索與展示部分包括數(shù)據(jù)檢索、網(wǎng)頁(yè)快照、關(guān)鍵字過(guò)濾三大模塊，如圖1所示.

圖1 系統(tǒng)模塊設(shè)計(jì)圖

本系統(tǒng)結(jié)構(gòu)由3個(gè)部分組成：數(shù)據(jù)庫(kù)服務(wù)器，搜索引擎核心服務(wù)器，Tomcat Web服務(wù)器，各部分既分工明確又相互合作.數(shù)據(jù)庫(kù)服務(wù)器記錄資源抓取情況、索引情況，它與搜索引擎核心服務(wù)器協(xié)作完成資源的下載更新與索引，同時(shí)通過(guò)記錄網(wǎng)頁(yè)的抓取歷史，使網(wǎng)絡(luò)爬蟲具備了自動(dòng)學(xué)習(xí)的功能，即根據(jù)網(wǎng)頁(yè)的更新頻率來(lái)調(diào)整自身的抓取頻率.Tomcat服務(wù)器比較獨(dú)立，與其他部分沒(méi)有交互，但是它的數(shù)據(jù)來(lái)源于前面索引好的索引文件，同時(shí)其網(wǎng)頁(yè)快照功能實(shí)現(xiàn)也是以網(wǎng)絡(luò)爬蟲抓取的原始網(wǎng)頁(yè)文件為基礎(chǔ)的.

整個(gè)系統(tǒng)運(yùn)行的數(shù)據(jù)流程如圖2所示：第一階段網(wǎng)絡(luò)爬蟲從數(shù)據(jù)庫(kù)中獲取需要抓取的網(wǎng)頁(yè)信息，進(jìn)行網(wǎng)頁(yè)的下載，下載后需要將下載時(shí)間、文件存放路徑等信息記錄到數(shù)據(jù)庫(kù)中，同時(shí)將下載的文件存放在硬盤上；第二階段是Lucene建立索引階段，先從數(shù)據(jù)庫(kù)中取得需要建立索引的任務(wù)，然后進(jìn)行處理，并將索引結(jié)構(gòu)寫入到索引文件中；第三階段是檢索階段，系統(tǒng)檢索建立好的索引文件，并且將查詢到的結(jié)果返回給用戶.

圖2 系統(tǒng)數(shù)據(jù)流程圖

3 系統(tǒng)詳細(xì)設(shè)計(jì)

3.1 網(wǎng)頁(yè)資源采集模塊

網(wǎng)頁(yè)資源采集模塊主要負(fù)責(zé)從網(wǎng)絡(luò)上抓取相關(guān)網(wǎng)頁(yè)信息，即通常所說(shuō)的網(wǎng)絡(luò)爬蟲Spider.網(wǎng)絡(luò)爬蟲采用多線程，多個(gè)線程(SpiderWorker)同時(shí)下載網(wǎng)頁(yè)資源.而下載的網(wǎng)頁(yè)和需要下載的網(wǎng)頁(yè)的相關(guān)信息存儲(chǔ)在數(shù)據(jù)庫(kù)中，并且網(wǎng)頁(yè)需要更新.基于以上考慮，Spider的功能實(shí)現(xiàn)主要從以下幾個(gè)方面進(jìn)行.

(1) 多線程的控制.在有多個(gè)任務(wù)時(shí)，多個(gè)工作者線程(SpiderWorker)在取得爬行任務(wù)后，往任務(wù)隊(duì)列中添加新發(fā)現(xiàn)的任務(wù).在沒(méi)有任務(wù)時(shí)，多個(gè)線程只剩下一個(gè)，監(jiān)視是否有任務(wù)需要執(zhí)行，如果有任務(wù)且不止一個(gè)，它就會(huì)喚醒另一個(gè)睡眠的線程，而其他線程在沒(méi)有任務(wù)時(shí)就會(huì)進(jìn)入睡眠狀態(tài).基于以上考慮，所有的工作者線程都由某個(gè)線程(Spider)掌管，通過(guò)該線程(Spider)可以控制網(wǎng)絡(luò)爬蟲的運(yùn)行或停止；

(2) 由于工作者線程不能下載相同的網(wǎng)頁(yè)(已經(jīng)下載過(guò)的)，所以必須將已經(jīng)下載過(guò)的網(wǎng)頁(yè)的相關(guān)信息(地址、下載時(shí)間等)進(jìn)行保存，鑒于要處理的網(wǎng)頁(yè)較多，所以采用數(shù)據(jù)庫(kù)對(duì)網(wǎng)頁(yè)的相關(guān)信息進(jìn)行存儲(chǔ).所以此部分主要涉及對(duì)數(shù)據(jù)庫(kù)的相關(guān)操作；

(3) 工作者線程的工作主要是從網(wǎng)頁(yè)上下載網(wǎng)頁(yè)，并對(duì)網(wǎng)頁(yè)進(jìn)行解析，所以該部分主要工作是利用socket取得網(wǎng)頁(yè)文件，并對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析，將網(wǎng)頁(yè)中找到的網(wǎng)頁(yè)地址的相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫(kù)中；

(4) 由于當(dāng)工作者線程在解析一個(gè)網(wǎng)頁(yè)時(shí)，在這個(gè)網(wǎng)頁(yè)中可能發(fā)現(xiàn)多個(gè)網(wǎng)頁(yè)地址(本站點(diǎn)或其他站點(diǎn)的)，所以在設(shè)計(jì)時(shí)可以根據(jù)實(shí)際需要確定是否將在本站點(diǎn)發(fā)現(xiàn)的外部站點(diǎn)鏈接加入到工作者隊(duì)列中，如果添加還可對(duì)其深度進(jìn)行控制.如只抓取在本站點(diǎn)發(fā)現(xiàn)的該外部鏈接，該外部鏈接上發(fā)現(xiàn)的鏈接不予處理，即其抓取外部鏈接的深度為1.

網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理流程圖如圖3所示.

圖3 網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理流程圖

3.2 資源處理與索引模塊

Lucene建立索引采用的也是多線程的實(shí)現(xiàn)方式，基本上實(shí)現(xiàn)方式與WEB采集、FTP采集類似，目前主要可以對(duì)文本類文件(txt、html、shtml、xml)、word文檔、excel文檔、pdf文檔、數(shù)據(jù)庫(kù)中的記錄等建立索引[5].

純文本類文件處理：對(duì)于文本類文件的處理沒(méi)有使用Lucene內(nèi)置的類，而是直接使用java.io.BufferedReader和java.io.FileReader，通過(guò)它們讀取文件，并且將空格去掉.

Word文檔處理：使用 org.textmining.text.extraction.WordExtractor進(jìn)行處理，它是apache下解析word文件的一個(gè)類.

Excel文檔處理：使用jxl包里面的 jxl.Cell、jxl.Sheet、jxl.Workbook三個(gè)類進(jìn)行信息的抽??；jxl是一個(gè)開(kāi)源的操作Excel的Java包.

PDF文檔的處理：使用PDFBox包里面的org.pdfbox.pdmodel.PDDocument、org.pdfbox.util.PDFTextStripper兩個(gè)類，PDFBox是Java實(shí)現(xiàn)的PDF文檔協(xié)作類庫(kù)，提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能，也包含了一些命令行實(shí)用工具.主要特性包括：從PDF提取文本，合并PDF文檔，PDF 文檔加密與解密，與Lucene搜索引擎的集成，填充PDF/XFDF表單數(shù)據(jù)，打印PDF文檔等.

Lucene建立索引階段，先從數(shù)據(jù)庫(kù)中取得需要建立索引的任務(wù)，然后進(jìn)行處理，并將索引結(jié)構(gòu)寫入到索引文件中.

3.3 檢索模塊

用戶輸入關(guān)鍵字后，系統(tǒng)會(huì)對(duì)關(guān)鍵字進(jìn)行分析，判斷關(guān)鍵字是否為敏感詞匯，如果為敏感詞直接返回，并提示用戶系統(tǒng)對(duì)該關(guān)鍵字進(jìn)行過(guò)濾；如果不是敏感詞，則系統(tǒng)檢索已經(jīng)建立好的索引文件，并對(duì)檢索結(jié)果進(jìn)行分頁(yè)處理，最后將合適的結(jié)果返回給用戶.

該處提到的判斷關(guān)鍵字是否為敏感詞匯的方法是采取建立敏感詞庫(kù)的方式，不斷將某些詞匯添加到該詞庫(kù)，在具體的檢索時(shí)，將用戶輸入的關(guān)鍵字進(jìn)行分詞，在敏感詞庫(kù)中進(jìn)行檢索，如果關(guān)鍵字存在敏感詞匯，將直接返回，不再進(jìn)行檢索.

3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)

在本系統(tǒng)中，需要利用數(shù)據(jù)庫(kù)記錄網(wǎng)絡(luò)資源采集的相關(guān)信息，資源采集包括Web網(wǎng)頁(yè)采集、FTP采集、數(shù)據(jù)庫(kù)采集，具體涉及到以下幾個(gè)表.

(1) 表DownLoaderWorkload.

該表存儲(chǔ)是FTP文檔采集的文件信息，F(xiàn)TP文檔采集時(shí)有兩種線程：一種是文件發(fā)現(xiàn)線程(FileFinder)，另一種是文件下載線程(DownLoader)，F(xiàn)ileFinder將發(fā)現(xiàn)的文件信息存儲(chǔ)在DownLoaderWorkload表中，而DownLoader從DownLoaderWorkload表取得需要下載的文件的信息進(jìn)行下載.

(2) 表SpiderWorkload.

該表用于記錄Web網(wǎng)頁(yè)采集信息，與DownLoaderWorkload表功能類似.

(3) 表IndexSource.

該表用于記錄從數(shù)據(jù)庫(kù)中采集的信息.

(4) 視圖IndexResource.

該視圖用于將不同來(lái)源的數(shù)據(jù)以相同的結(jié)構(gòu)呈現(xiàn)給Lucene索引.

4 系統(tǒng)實(shí)現(xiàn)

4.1 網(wǎng)絡(luò)爬蟲的相關(guān)實(shí)現(xiàn)

網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)包括3個(gè)層次：網(wǎng)頁(yè)訪問(wèn)與抓取層、多線程控制及網(wǎng)頁(yè)解析提取鏈接層、數(shù)據(jù)庫(kù)交互層.網(wǎng)頁(yè)訪問(wèn)與抓取層使用多線程并行處理，在數(shù)據(jù)庫(kù)交互層進(jìn)行同步控制，防止各線程互鎖資源造成死鎖.3個(gè)部分分別對(duì)應(yīng)4個(gè)主要類HTTPSocket、SpiderWorker、Spider、SpiderSQLWorkload.

(1) 網(wǎng)頁(yè)訪問(wèn)與抓取層實(shí)現(xiàn).

整個(gè)網(wǎng)絡(luò)爬蟲是由Spider控制的，SpiderWorker類的功能是訪問(wèn)網(wǎng)頁(yè)并下載網(wǎng)頁(yè)，它是個(gè)多線程類，采用extend方式實(shí)現(xiàn).HTTPSocket完成了網(wǎng)頁(yè)訪問(wèn)與抓取的全部工作.

該網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)參考了Jeff Heaton的爬蟲模型[6]，對(duì)其進(jìn)行了適度地改進(jìn)以滿足自身的需求，主要的改進(jìn)體現(xiàn)在以下方面.

(a) 在數(shù)據(jù)庫(kù)中增加了網(wǎng)頁(yè)抓取記錄，同時(shí)使爬蟲增加了對(duì)更新后的網(wǎng)頁(yè)重新抓取的功能；

(b) 在網(wǎng)絡(luò)爬蟲的多線程控制方面：原網(wǎng)絡(luò)爬蟲在所有的任務(wù)完成后，所有的線程全部停止退出，修改后，沒(méi)有任務(wù)時(shí)只留下一個(gè)線程監(jiān)視是否有新的任務(wù)，其他線程進(jìn)入睡眠狀態(tài)，當(dāng)有新的任務(wù)時(shí)，活躍的一個(gè)線程負(fù)責(zé)喚醒其他睡眠的線程繼續(xù)作業(yè).該改進(jìn)主要是為了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取的自動(dòng)化.

(2) 多線程控制及網(wǎng)頁(yè)解析提取鏈接層實(shí)現(xiàn).

(a) 多線程控制. 該系統(tǒng)的多線程的控制是用wait()與notify()實(shí)現(xiàn)的，整個(gè)網(wǎng)絡(luò)爬蟲線程的數(shù)量是由參數(shù)文件控制的，例如啟動(dòng)了100個(gè)線程同時(shí)采集網(wǎng)頁(yè)，當(dāng)資源隊(duì)列中的網(wǎng)頁(yè)采集完成后，其余的99個(gè)線程進(jìn)入睡眠狀態(tài)，保留一個(gè)線程處于活躍狀態(tài)，它的主要作用是查詢資源隊(duì)列需要采集的任務(wù)，當(dāng)任務(wù)數(shù)大于1時(shí)，它會(huì)按照任務(wù)量喚醒一定數(shù)量的線程繼續(xù)工作.圖4是該部分功能實(shí)現(xiàn)的流程圖.

(b) 網(wǎng)頁(yè)解析提取鏈接層. 網(wǎng)頁(yè)解析工作是由SpiderWorker承擔(dān)的，而且網(wǎng)頁(yè)的更新也是由其判斷HTTP頭信息來(lái)判斷網(wǎng)頁(yè)是否更新過(guò).根據(jù)HTTP頭信息里面的Last-Modified屬性確定網(wǎng)頁(yè)的最新更新時(shí)間，將這個(gè)時(shí)間和數(shù)據(jù)庫(kù)中上次抓取的時(shí)間進(jìn)行比較，如果更新時(shí)間晚于上次抓取時(shí)間，即再次抓取.processWorkload()方法實(shí)現(xiàn)了大部分功能，包括解析網(wǎng)頁(yè)、提取鏈接、保存網(wǎng)頁(yè)等.

圖4 多線程控制流程圖

(3) 數(shù)據(jù)庫(kù)交互層實(shí)現(xiàn).

數(shù)據(jù)庫(kù)交互層實(shí)現(xiàn)主要類為SpiderSQLWorkload，它的assignWorkload()、addWorkload(String url)等方法完成了與數(shù)據(jù)庫(kù)交互的大部分工作，assignWorkload方法的作用是為網(wǎng)絡(luò)爬蟲分配爬行任務(wù)，addWorkload方法的作用是將網(wǎng)絡(luò)爬蟲解析網(wǎng)頁(yè)發(fā)現(xiàn)的鏈接加入到資源隊(duì)列中，該鏈接是經(jīng)過(guò)去重等一系列處理的，保證其在資源隊(duì)列中的唯一性.

4.2 Lucene索引相關(guān)實(shí)現(xiàn)

Lucene是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包，它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎[7].

本系統(tǒng)使用Lucene Smartcn進(jìn)行中文分詞，并且支持多種資源的索引，如doc、xls、pdf、html、shtml、htm、xml、txt等類型的資源，針對(duì)每種資源其索引方法都不相同，針對(duì)此問(wèn)題，系統(tǒng)充分利用了JAVA語(yǔ)言多態(tài)的特性進(jìn)行處理，即所有的資源類型都統(tǒng)一實(shí)現(xiàn)IndexResource接口的buildIndex()方法，但是每種資源的實(shí)現(xiàn)方法各異.如ExcelResource、PDFResource、TextResource、WordResource都實(shí)現(xiàn)了IndexResource，但是它們buildIndex方法的實(shí)現(xiàn)是不同的，這樣使得異構(gòu)的資源最后都被索引成相同結(jié)構(gòu)的結(jié)構(gòu)性索引文件，如圖5所示.

圖5 Lucene索引工作流程圖

5 系統(tǒng)測(cè)試

本系統(tǒng)針對(duì)校園網(wǎng)的特點(diǎn)改進(jìn)了傳統(tǒng)搜索引擎，以適應(yīng)局域網(wǎng)對(duì)于數(shù)據(jù)查詢準(zhǔn)確性的要求，同時(shí)在某些方面進(jìn)行了增強(qiáng)，如網(wǎng)頁(yè)的更新方面和使網(wǎng)絡(luò)爬蟲具備了智能學(xué)習(xí)的功能，可以根據(jù)網(wǎng)頁(yè)的更新頻率，智能調(diào)整自身抓取頻率.

傳統(tǒng)的搜索引擎有兩個(gè)重要參數(shù)：查全率和查準(zhǔn)率[8].一般情況下，查全率很難比較，在衡量搜索引擎的性能時(shí)很少采用，而且本系統(tǒng)重點(diǎn)解決的是校園網(wǎng)信息搜索的查詢準(zhǔn)確率問(wèn)題，所以本系統(tǒng)測(cè)試重點(diǎn)在于測(cè)試查準(zhǔn)率.

以中南民族大學(xué)校園網(wǎng)作為測(cè)試對(duì)象，參照相關(guān)測(cè)評(píng)標(biāo)準(zhǔn)，對(duì)查詢進(jìn)行分類考慮，對(duì)于主題頁(yè)面的查詢，根據(jù)前10個(gè)結(jié)果中出現(xiàn)的相關(guān)頁(yè)面數(shù)目來(lái)判斷系統(tǒng)的性能，通常采用前10個(gè)結(jié)果的平均精確率(P@10)來(lái)評(píng)判；對(duì)于待定網(wǎng)頁(yè)的查詢，則以第一個(gè)相關(guān)頁(yè)面出現(xiàn)位置的倒數(shù)平均值(MRR)為評(píng)判標(biāo)準(zhǔn).根據(jù)P@10、MRR等參數(shù)對(duì)系統(tǒng)性能進(jìn)行了測(cè)試和分析，結(jié)果見(jiàn)表1.

表1 系統(tǒng)性能測(cè)試數(shù)據(jù)統(tǒng)計(jì)結(jié)果比較

根據(jù)測(cè)試結(jié)果綜合分析來(lái)看，本系統(tǒng)能在校園網(wǎng)內(nèi)較好地執(zhí)行搜索任務(wù)，系統(tǒng)的功能和性能都比較令人滿意.但隨著索引量的增加，系統(tǒng)的響應(yīng)時(shí)間也會(huì)有所增長(zhǎng).而隨著關(guān)鍵詞的增加以及查詢邏輯的復(fù)雜化，查詢的準(zhǔn)確率會(huì)有所下降.

6 結(jié)語(yǔ)

針對(duì)校園信息的特點(diǎn)，利用Lucene開(kāi)源全文檢索引擎工具包，設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)適合于校園等局域網(wǎng)使用的小型搜索引擎，并對(duì)相關(guān)性能進(jìn)行了優(yōu)化，達(dá)到了較好的效果.該Lucene應(yīng)用也可推廣到許多其他的應(yīng)用實(shí)例的設(shè)計(jì)與實(shí)現(xiàn).當(dāng)然系統(tǒng)還存在一些不足：如網(wǎng)絡(luò)資源抓取的速度和效率、中文分詞的準(zhǔn)確率等，都需要做進(jìn)一步的研究.

[1] 李曉明,閆宏飛,王繼民. 搜索引擎——原理、技術(shù)與系統(tǒng)[M]. 2版.北京:科學(xué)出版社，2012.

[2] 郎小偉,王申康.基于Lucene的全文檢索系統(tǒng)的研究與開(kāi)發(fā)[J].計(jì)算機(jī)工程,2006,32(4):94-99.

[3] 梁弼,王光瓊,鄧小清.基于Lucene的全文檢索系統(tǒng)模型的研究及應(yīng)用[J].微型機(jī)與應(yīng)用，2011，30(1):44-46.

[4] 趙珂,逯鵬,李永強(qiáng).基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2011,37(16): 39-41.

[5] 鄭榕增,林世平.基于 Lucene的中文倒排索引技術(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(3):80-83.

[6] Heaton J.網(wǎng)絡(luò)機(jī)器人Java編程指南[M]. 童兆豐,李純,劉潤(rùn)杰，譯.北京：電子工業(yè)出版社，2002.

[7] 張俊,李魯群,周熔.基于Lucene的搜索引擎的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展，2013,23(6): 230-232.

[8] Hawking D,Craswell N,Bailey P,et al.Measuring search engine quality[J].Information Retrieval，2001，4(1):33-59.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡