国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

石油信息垂直搜索引擎技術(shù)

2014-03-08 23:12:48景瑞林勝利石油管理局信息中心
油氣田地面工程 2014年3期
關(guān)鍵詞:搜索引擎網(wǎng)頁檢索

景瑞林 勝利石油管理局信息中心

1 系統(tǒng)架構(gòu)

石油信息垂直搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成,將這四個部分又分為三層:信息提取層、信息處理層以及用戶、管理決策層。

(1)信息提取層。通過應(yīng)用網(wǎng)絡(luò)蜘蛛算法實(shí)現(xiàn)從互聯(lián)網(wǎng)上搜索到有關(guān)專業(yè)信息的網(wǎng)頁。

(2)信息處理層。實(shí)現(xiàn)了對網(wǎng)頁信息的處理,它對網(wǎng)頁進(jìn)行結(jié)構(gòu)分析,將網(wǎng)址、網(wǎng)頁信息放到URL數(shù)據(jù)庫中,并對網(wǎng)頁中的文本信息進(jìn)行詞法分析,建立與之對應(yīng)的索引表,同時將從網(wǎng)頁中提取的信息結(jié)構(gòu)化并存入數(shù)據(jù)庫。

(3)用戶、管理決策層。實(shí)現(xiàn)了兩方面的內(nèi)容,一方面實(shí)現(xiàn)了用戶對信息的搜索,系統(tǒng)將根據(jù)用戶輸入的關(guān)鍵字,對其進(jìn)行語義分析,通過檢索模塊檢索出用戶需要的信息,并通過網(wǎng)頁返回給用戶。另一方面,為企業(yè)決策層提供有價值的潛在信息,對數(shù)據(jù)庫中的信息建立數(shù)據(jù)模型,然后在數(shù)據(jù)模型上進(jìn)行OLAP分析,從而分析出有效信息。

2 系統(tǒng)功能

2.1 網(wǎng)頁搜索功能

(1)實(shí)現(xiàn)對http、https、ftp等網(wǎng)頁文件的Internet搜索,可以對網(wǎng)頁中的不同文件格式的內(nèi)容進(jìn)行處理,包括常見的html、pdf、doc、jsp、asp、php等文件格式。

(2)能夠?qū)⑺阉鞯降木W(wǎng)站或網(wǎng)頁的URL自動索引插入到關(guān)系數(shù)據(jù)庫中,從而為索引查詢提供連接地址。

(3)網(wǎng)站鏡像,最大深度索取,基于網(wǎng)站深度的文件統(tǒng)計(jì)并建立純文本數(shù)據(jù)庫。建立原始網(wǎng)頁文件存儲系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和專業(yè)知識數(shù)據(jù)庫。

(4)對文件的信息抽取處理是基于語義識別技術(shù),從而可以更好地對抽取的文件信息進(jìn)行分類。

(5)文件的信息抽取能夠識別出網(wǎng)頁的編碼格式以及語言的區(qū)別,支持對多國語言的搜索技術(shù)。

(6)索引服務(wù)器對Web前臺提供服務(wù),對于Web服務(wù)器,索引請求返回的是本地緩存網(wǎng)頁和數(shù)據(jù)庫中對應(yīng)的公網(wǎng)URL。

(7)由多臺服務(wù)器組成的網(wǎng)頁索引存儲單元網(wǎng)格,集中處理網(wǎng)頁文件存儲單元的文件。對于網(wǎng)頁文件中的中文進(jìn)行分詞及信息解析索引;對于網(wǎng)頁文件中的英文則進(jìn)行索引,索引的結(jié)果通過Web服務(wù)器給客戶提供搜索服務(wù)并提供不同語言的不同接口。

(8)搜索結(jié)果支持按照相關(guān)度、點(diǎn)擊率和更新時間排序。

2.2 圖片搜索功能

圖片搜索功能可對石油行業(yè)的圖片進(jìn)行抓取、處理并建立索引,通過檢索功能供用戶對圖片進(jìn)行檢索。

2.3 新聞搜索功能

新聞搜索采用基于標(biāo)簽的網(wǎng)頁分析方法,這種方法對網(wǎng)頁內(nèi)容的提取非常準(zhǔn)確,能給用戶提供更高的檢索精度,幫助用戶找到最需要的新聞。新聞搜索實(shí)時采集指定網(wǎng)站上的新聞,增量保存到本地供用戶進(jìn)行查詢。用戶既可以根據(jù)標(biāo)題搜索新聞又可以根據(jù)內(nèi)容搜索新聞,對于得到的搜索結(jié)果,用戶可以根據(jù)自己的意愿進(jìn)行排序。

3 應(yīng)用效果

通過對垂直搜索引擎相關(guān)技術(shù)的研究及算法的改進(jìn),使搜索引擎在信息準(zhǔn)確率、內(nèi)容相關(guān)性、更新及時率三個方面有了很大的提高?;谑椭R庫行業(yè)詞匯進(jìn)行語義信息檢索,使檢索信息更準(zhǔn)確,質(zhì)量更高,解決了領(lǐng)域詞匯“一詞多義、一義多詞、歧義詞”等問題。石油搜索引擎面向石油行業(yè)定向搜索,比通用搜索可提前抓取到更多的石油信息,搜索的內(nèi)容也比較全面。

油田網(wǎng)搜索有以下效果:①解決了油田網(wǎng)無搜索引擎及搜索不便的問題,可以按網(wǎng)頁、新聞、論壇、圖片4類進(jìn)行搜索;②提供了歷史網(wǎng)頁保存,可隨時以快照形式提供信息;③按照信息發(fā)布單位和IP精確檢索;④對油田網(wǎng)檢索的信息進(jìn)行安全管理和敏感詞的監(jiān)控。

系統(tǒng)研發(fā)成功后在勝利油田得到全面應(yīng)用,半年內(nèi)油田網(wǎng)搜索引擎已獲得網(wǎng)頁URL地址約95萬個,抓取網(wǎng)頁92萬個,處理網(wǎng)頁58萬個,有效網(wǎng)頁38萬個,建立索引網(wǎng)頁38萬個;圖片搜索提取出圖片地址11.6萬個,處理獲得有效圖片7.6萬張,建立索引圖片7.6萬張;油田網(wǎng)新聞搜索抓取獲得有效新聞1.9萬條,信息分別來自75個不同站點(diǎn)。通過提供搜索接口,系統(tǒng)在勝利信息網(wǎng)“勝利導(dǎo)航”和生產(chǎn)經(jīng)營中進(jìn)行了移植。用戶訪問量穩(wěn)步上升,從最初每天30~50次訪問,增加到1個月后每天1000~1500次訪問。現(xiàn)在的訪問量已經(jīng)穩(wěn)定在每天3200次左右,說明了實(shí)際的需求和系統(tǒng)的實(shí)用性。系統(tǒng)推廣使用價值體現(xiàn)在:①研究并開發(fā)的知識庫可以應(yīng)用于石油應(yīng)用領(lǐng)域的智能系統(tǒng)、數(shù)據(jù)挖掘、信息處理等;②垂直搜索技術(shù)在油田內(nèi)各種資料查詢、信息檢索、敏感信息監(jiān)控等都能發(fā)揮重要作用,特別是全文檢索技術(shù),對于文本信息的不確定性模糊查詢能發(fā)揮較大的作用;③項(xiàng)目研究中的大量統(tǒng)計(jì)資料和數(shù)據(jù),如詞頻、熱詞、專業(yè)詞匯相關(guān)性、網(wǎng)頁量等,對于開展油田的信息管理和分析具有一定的指導(dǎo)作用。

猜你喜歡
搜索引擎網(wǎng)頁檢索
2019年第4-6期便捷檢索目錄
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
10個必知的網(wǎng)頁設(shè)計(jì)術(shù)語
廣告主與搜索引擎的雙向博弈分析
國際標(biāo)準(zhǔn)檢索
融水| 盐源县| 安西县| 垣曲县| 抚宁县| 仁寿县| 安新县| 报价| 博罗县| 巴里| 平南县| 尚义县| 鄂托克前旗| 南投市| 永年县| 大宁县| 武邑县| 湘潭市| 清镇市| 台东市| 洛川县| 沅陵县| 武宁县| 龙泉市| 皮山县| 海伦市| 宝坻区| 波密县| 宜丰县| 若羌县| 遂平县| 大化| 金门县| 荥经县| 天津市| 德庆县| 呼伦贝尔市| 昭觉县| 弥勒县| 丹阳市| 海安县|