国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)知識(shí)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2014-09-18 16:36:59李永可李悅陳燕紅朱靜
電腦知識(shí)與技術(shù) 2014年23期
關(guān)鍵詞:信息檢索

李永可 李悅 陳燕紅 朱靜

摘要:通過對(duì)農(nóng)業(yè)信息分類技術(shù)的研究,依據(jù)農(nóng)業(yè)信息分類標(biāo)準(zhǔn),設(shè)計(jì)農(nóng)業(yè)信息知識(shí)庫;在農(nóng)業(yè)信息知識(shí)庫基礎(chǔ)上,對(duì)倒排索引技術(shù)進(jìn)行研究,利用lucene構(gòu)建倒排索引,開發(fā)設(shè)計(jì)農(nóng)業(yè)科技知識(shí)檢索系統(tǒng),為坐席人員提供信息檢索支持。坐席人員通過該檢索系統(tǒng),解答農(nóng)牧民生產(chǎn)過程中遇到的實(shí)際問題,充分發(fā)揮農(nóng)業(yè)科技知識(shí)對(duì)農(nóng)牧民生產(chǎn)的指導(dǎo)作用。

關(guān)鍵詞:農(nóng)業(yè)知識(shí)庫;信息檢索;倒排索引;lucene

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)23-5449-04

農(nóng)業(yè)科技已成為指導(dǎo)農(nóng)牧民科學(xué)種植、科學(xué)養(yǎng)殖致富增收的重要手段,農(nóng)業(yè)科技咨詢服務(wù)是解決農(nóng)牧民生產(chǎn)過程中遇到問題的重要途徑,也是農(nóng)業(yè)科技知識(shí)服務(wù)農(nóng)業(yè)生產(chǎn)的重要方法。該文通過對(duì)農(nóng)業(yè)知識(shí)分類技術(shù)的研究,設(shè)計(jì)農(nóng)業(yè)知識(shí)庫,在農(nóng)業(yè)知識(shí)庫的基礎(chǔ)上,利用開源項(xiàng)目lucene構(gòu)建倒排索引,開發(fā)設(shè)計(jì)農(nóng)業(yè)科技知識(shí)檢索系統(tǒng),為坐席人員提供信息檢索服務(wù),幫助坐席人員更準(zhǔn)確更詳細(xì)地解答農(nóng)牧民咨詢問題。

1 系統(tǒng)分析

該系統(tǒng)主要包括知識(shí)庫、人工錄入模塊、檢索模塊三大模塊組成,知識(shí)庫主要用來存儲(chǔ)農(nóng)業(yè)科技知識(shí);人工錄入模塊主要完成人工知識(shí)的錄入及倒排索引的創(chuàng)建;檢索模塊主要完成倒排索引的搜索和檢索結(jié)果的展示,系統(tǒng)總體結(jié)構(gòu)。

錄入人員通過瀏覽器訪問知識(shí)錄入模塊,在知識(shí)錄入模塊中錄入人員不但要錄入知識(shí)標(biāo)題和正文內(nèi)容而且要選擇知識(shí)所屬的類別,知識(shí)成功錄入知識(shí)庫后,倒排索引模塊將對(duì)該條知識(shí)分詞并建立倒排索引,以達(dá)到知識(shí)錄入后即可進(jìn)行知識(shí)實(shí)時(shí)查詢的目的,坐席人員通過瀏覽器輸入查詢內(nèi)容,服務(wù)器將對(duì)倒排索引進(jìn)行查詢并對(duì)查詢結(jié)果進(jìn)行相關(guān)性排序,將與結(jié)果最相關(guān)的結(jié)果返回給坐席人員,坐席人員點(diǎn)擊瀏覽器返回結(jié)果的超鏈接,瀏覽器向數(shù)據(jù)庫服務(wù)器發(fā)送請(qǐng)求,即可取得該條知識(shí)的詳細(xì)信息。采用先檢索倒排索引后檢索數(shù)據(jù)庫的數(shù)據(jù)檢索模式,不但能大大提高檢索效率,而且使數(shù)據(jù)庫支持了自然語言檢索,大大提高檢索精確度和召回率。

2 系統(tǒng)設(shè)計(jì)

2.1 農(nóng)業(yè)知識(shí)庫設(shè)計(jì)

Code1為一級(jí)碼表,code1為一級(jí)類別編碼,name為類別名稱;Code2為二級(jí)碼表,code2為二級(jí)類別編碼,code1為二級(jí)類別對(duì)應(yīng)一級(jí)父類編碼;Code3為三級(jí)碼表,code3為三級(jí)類別編碼,code2為三級(jí)類別對(duì)應(yīng)二級(jí)父類編碼;Code4為四級(jí)碼表,code4為四級(jí)編碼,code3為四級(jí)類別對(duì)應(yīng)三級(jí)父類編碼。四張碼表通過主外鍵關(guān)聯(lián)實(shí)現(xiàn)四級(jí)類別的聯(lián)動(dòng)。

2.2 知識(shí)錄入模塊

知識(shí)錄入模塊主要完成農(nóng)業(yè)科技知識(shí)錄入工作,知識(shí)獲取主要包括三種途徑,一是將已掌握的大量農(nóng)業(yè)科技知識(shí)資料錄入知識(shí)庫,二是通過網(wǎng)絡(luò)爬蟲從網(wǎng)上獲取相關(guān)農(nóng)業(yè)網(wǎng)頁,若從知識(shí)庫中查詢不到所需要的結(jié)果,將從網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁中進(jìn)行查詢,三是坐席人員查詢不到的知識(shí)將自動(dòng)記錄進(jìn)入數(shù)據(jù)庫,將組織專業(yè)人員對(duì)這些問題進(jìn)行解答,然后入庫,這樣可以不斷的豐富知識(shí)庫。

2.3 倒排索引創(chuàng)建

倒排索引是本系統(tǒng)的關(guān)鍵,在知識(shí)成功錄入知識(shí)庫后就需對(duì)該條知識(shí)分詞并建立倒排索引,以實(shí)現(xiàn)知識(shí)錄入完成后能實(shí)時(shí)進(jìn)行檢索的效果。Lucene是由Apache軟件基金會(huì)提供和支持的一套用于全文檢索的開源程式庫,Lucene為開發(fā)者提供了一個(gè)簡單卻功能強(qiáng)大的應(yīng)用程序接口,開發(fā)者可以利用這些接口做全文索引和檢索。在Java開發(fā)環(huán)境里L(fēng)ucene是一個(gè)成熟的免費(fèi)開源工具。就其本身而言,Lucene是當(dāng)前以及最近幾年最受歡迎的免費(fèi)Java信息檢索程序庫。該文通過對(duì)開源項(xiàng)目Lucene的研究,利用lucene3.5構(gòu)建倒排索引并進(jìn)行信息檢索,通過對(duì)庖丁解牛、IKAnalyzer、ictclas等中文分詞器的比較,最終采用IKAnalyzer2012_u6作為本系統(tǒng)的分詞器,該分詞器不但具有160萬/秒的高性能分詞能力,而且能方便的添加自定義詞典和停用詞典,同時(shí)還具備智能分詞和最細(xì)粒度分詞兩種可選擇模式,方便研發(fā)人員定制開發(fā)。

倒排索引主要包括四個(gè)域,分別為標(biāo)題、正文、表名和記錄id,標(biāo)題和正文內(nèi)容是倒排索引需要檢索的域,因此在建立倒排索引時(shí)需對(duì)這兩個(gè)域進(jìn)行分詞并存儲(chǔ),當(dāng)坐席人員點(diǎn)擊檢索返回結(jié)果超鏈接進(jìn)行科技知識(shí)詳細(xì)信息瀏覽時(shí)需從數(shù)據(jù)庫讀取對(duì)應(yīng)記錄,因此倒排索引需保存記錄所在的表名及該記錄在表中的編號(hào),表名及編號(hào)需進(jìn)行存儲(chǔ)但不需要進(jìn)行分詞。倒排索引創(chuàng)建完成后保存在本地磁盤。

2.4 倒排索引檢索

倒排索引創(chuàng)建完成后,即可對(duì)倒排索引進(jìn)行檢索,前端檢索界面使用jsp開發(fā),后臺(tái)業(yè)務(wù)邏輯開發(fā)采用java,當(dāng)坐席人員輸入查詢語句后,前端檢索頁面將查詢語句發(fā)送至后臺(tái)業(yè)務(wù)邏輯處理單元,查詢語句經(jīng)分詞器處理,查詢語句成為一個(gè)個(gè)單獨(dú)的詞元,分詞結(jié)果將在倒排索引的標(biāo)題和正文內(nèi)容兩個(gè)域中進(jìn)行查詢,無論標(biāo)題或者正文內(nèi)容那個(gè)域包含查詢關(guān)鍵詞,該條記錄都應(yīng)該作為檢索返回結(jié)果,因此,該文采用lucene3.5的多域查詢接口MultiFieldQueryParser()進(jìn)行檢索詞處理,域之間采用邏輯或關(guān)系,檢索結(jié)果如圖4所示。

tf(t in d)為詞頻,表示查詢?cè)~中每個(gè) Term在對(duì)應(yīng)的結(jié)果文檔中(d)中出現(xiàn)的次數(shù)。查詢?cè)~出現(xiàn)的次數(shù)越多,表示出現(xiàn)頻率越高,文檔的檢索得分就越高。為了避免獲得更大的相關(guān)性函數(shù),實(shí)際中,使用次數(shù)的平方跟作為文檔頻率 tf的值,避免數(shù)值過度放大。

idf(t)為倒文檔頻,表示當(dāng)term(t)在某篇文檔中出現(xiàn)的頻率越高,而在其它文檔中出現(xiàn)的頻率越低,term(t)對(duì)這篇文檔越重要,計(jì)算公式如下。

[idf(t)=1.0+log(numDocs/(docFreq+1))]

t.getBoost(),獲得詞的權(quán)重,可以在查詢中設(shè)定某個(gè)詞更加重要。

d.getBoost(),獲得文檔的權(quán)重,在索引階段寫入nrm文件,表明某些文檔比其他文檔更重要。

f.getBoost(),獲得域的權(quán)重,在索引階段寫入nrm文件,表明某些域比其他的域更重要。

norm(t, d),標(biāo)準(zhǔn)化因子,它包括三個(gè)參數(shù):

Document boost:此值越大,說明此文檔越重要。

Field boost:此域越大,說明此域越重要。

lengthNorm(field) = (1.0 / Math.sqrt(numTerms)):一個(gè)域中包含的Term總數(shù)越多,也即文檔越長,此值越小,文檔越短,此值越大。

[norm(t,d)=d.getBoost()×lengthNorm(field)×fieldfindf.getBoost()]

2.5 性能測(cè)試

該系統(tǒng)為典型的垂直搜索引擎,查準(zhǔn)率、召回率、精確度是衡量搜索引擎性能的重要指標(biāo),為了對(duì)本系統(tǒng)檢索性能進(jìn)行衡量,該文對(duì)檢索系統(tǒng)的查準(zhǔn)率、召回率、精確度進(jìn)行了測(cè)試,通過測(cè)試三項(xiàng)衡量指標(biāo)均能達(dá)到97%以上,檢索時(shí)間在毫秒級(jí),檢索效率較高。

3 結(jié)束語

系統(tǒng)正在進(jìn)行測(cè)試階段,知識(shí)庫數(shù)據(jù)相對(duì)較少,倒排索引文件也相對(duì)較小,因此,檢索速度較快,隨著數(shù)據(jù)量的不斷增加,檢索效率會(huì)降低,因此要考慮采用分布式系統(tǒng)來解決數(shù)據(jù)量增加帶來的效率問題,該問題將作為下一階段研究方向。

參考文獻(xiàn):

[1] 胡毅,劉波,方逵.農(nóng)業(yè)知識(shí)庫知識(shí)檢索系統(tǒng)研究與實(shí)現(xiàn)[J].農(nóng)機(jī)化研究.2013(6):13-18.

[2] 李永可,張?zhí)t,馮向萍.中文農(nóng)業(yè)網(wǎng)站多元線性回歸識(shí)別研究[J].新疆農(nóng)業(yè)大學(xué)學(xué)報(bào).2011,34(5):442-446.

[3] 駱浩文,曾志康,黃樑.基于網(wǎng)絡(luò)的農(nóng)業(yè)科技信息分類編碼標(biāo)準(zhǔn)體系研究與應(yīng)用[J].2007,19(3):150-154.

[4] 王斌.信息檢索導(dǎo)論[M].北京:人民郵電出版社,2010.

[5] 馬文峰,杜小勇.知識(shí)檢索研究[J].情報(bào)理論與實(shí)踐.2006,29(2):157-158.

[6] 王玉娟.農(nóng)業(yè)知識(shí)文本庫檢索系統(tǒng)關(guān)鍵技術(shù)研究[D].長沙:湖南農(nóng)業(yè)大學(xué),2012.

[7] 羅武.農(nóng)業(yè)知識(shí)庫知識(shí)錄入系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].長沙:湖南農(nóng)業(yè)大學(xué),2011.

[8] 王春花.基于nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D].西安:西北農(nóng)林科技大學(xué),2010.

[9] 王玉娟,方逵.農(nóng)業(yè)知識(shí)庫檢索系統(tǒng)探索[J].寧夏農(nóng)林科技,2012(4).

猜你喜歡
信息檢索
基于信息檢索課的大學(xué)生信息檢索行為調(diào)查研究
高職院校圖書館開設(shè)信息檢索課的必要性探討
基于MOOC理念的“翻轉(zhuǎn)課堂”教學(xué)改革探索——以海南大學(xué)《文獻(xiàn)信息檢索與利用》課程為例
網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展
山西青年(2018年5期)2018-01-25 16:53:40
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
高校圖書館信息檢索課程教學(xué)改革
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
灌阳县| 荆州市| 读书| 股票| 德钦县| 溆浦县| 望城县| 夏河县| 东乡县| 阿瓦提县| 龙门县| 丹凤县| 商南县| 临漳县| 洪泽县| 聊城市| 中方县| 海丰县| 兖州市| 西青区| 三明市| 长垣县| 肇东市| 阿坝| 兖州市| 嘉义市| 丁青县| 县级市| 舞阳县| 镇巴县| 新蔡县| 蛟河市| 鲜城| 龙井市| 灵台县| 民县| 绥宁县| 察隅县| 洪雅县| 天峨县| 蒲江县|