景瑞林 勝利石油管理局信息中心
石油信息垂直搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成,將這四個部分又分為三層:信息提取層、信息處理層以及用戶、管理決策層。
(1)信息提取層。通過應(yīng)用網(wǎng)絡(luò)蜘蛛算法實(shí)現(xiàn)從互聯(lián)網(wǎng)上搜索到有關(guān)專業(yè)信息的網(wǎng)頁。
(2)信息處理層。實(shí)現(xiàn)了對網(wǎng)頁信息的處理,它對網(wǎng)頁進(jìn)行結(jié)構(gòu)分析,將網(wǎng)址、網(wǎng)頁信息放到URL數(shù)據(jù)庫中,并對網(wǎng)頁中的文本信息進(jìn)行詞法分析,建立與之對應(yīng)的索引表,同時將從網(wǎng)頁中提取的信息結(jié)構(gòu)化并存入數(shù)據(jù)庫。
(3)用戶、管理決策層。實(shí)現(xiàn)了兩方面的內(nèi)容,一方面實(shí)現(xiàn)了用戶對信息的搜索,系統(tǒng)將根據(jù)用戶輸入的關(guān)鍵字,對其進(jìn)行語義分析,通過檢索模塊檢索出用戶需要的信息,并通過網(wǎng)頁返回給用戶。另一方面,為企業(yè)決策層提供有價值的潛在信息,對數(shù)據(jù)庫中的信息建立數(shù)據(jù)模型,然后在數(shù)據(jù)模型上進(jìn)行OLAP分析,從而分析出有效信息。
(1)實(shí)現(xiàn)對http、https、ftp等網(wǎng)頁文件的Internet搜索,可以對網(wǎng)頁中的不同文件格式的內(nèi)容進(jìn)行處理,包括常見的html、pdf、doc、jsp、asp、php等文件格式。
(2)能夠?qū)⑺阉鞯降木W(wǎng)站或網(wǎng)頁的URL自動索引插入到關(guān)系數(shù)據(jù)庫中,從而為索引查詢提供連接地址。
(3)網(wǎng)站鏡像,最大深度索取,基于網(wǎng)站深度的文件統(tǒng)計(jì)并建立純文本數(shù)據(jù)庫。建立原始網(wǎng)頁文件存儲系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和專業(yè)知識數(shù)據(jù)庫。
(4)對文件的信息抽取處理是基于語義識別技術(shù),從而可以更好地對抽取的文件信息進(jìn)行分類。
(5)文件的信息抽取能夠識別出網(wǎng)頁的編碼格式以及語言的區(qū)別,支持對多國語言的搜索技術(shù)。
(6)索引服務(wù)器對Web前臺提供服務(wù),對于Web服務(wù)器,索引請求返回的是本地緩存網(wǎng)頁和數(shù)據(jù)庫中對應(yīng)的公網(wǎng)URL。
(7)由多臺服務(wù)器組成的網(wǎng)頁索引存儲單元網(wǎng)格,集中處理網(wǎng)頁文件存儲單元的文件。對于網(wǎng)頁文件中的中文進(jìn)行分詞及信息解析索引;對于網(wǎng)頁文件中的英文則進(jìn)行索引,索引的結(jié)果通過Web服務(wù)器給客戶提供搜索服務(wù)并提供不同語言的不同接口。
(8)搜索結(jié)果支持按照相關(guān)度、點(diǎn)擊率和更新時間排序。
圖片搜索功能可對石油行業(yè)的圖片進(jìn)行抓取、處理并建立索引,通過檢索功能供用戶對圖片進(jìn)行檢索。
新聞搜索采用基于標(biāo)簽的網(wǎng)頁分析方法,這種方法對網(wǎng)頁內(nèi)容的提取非常準(zhǔn)確,能給用戶提供更高的檢索精度,幫助用戶找到最需要的新聞。新聞搜索實(shí)時采集指定網(wǎng)站上的新聞,增量保存到本地供用戶進(jìn)行查詢。用戶既可以根據(jù)標(biāo)題搜索新聞又可以根據(jù)內(nèi)容搜索新聞,對于得到的搜索結(jié)果,用戶可以根據(jù)自己的意愿進(jìn)行排序。
通過對垂直搜索引擎相關(guān)技術(shù)的研究及算法的改進(jìn),使搜索引擎在信息準(zhǔn)確率、內(nèi)容相關(guān)性、更新及時率三個方面有了很大的提高?;谑椭R庫行業(yè)詞匯進(jìn)行語義信息檢索,使檢索信息更準(zhǔn)確,質(zhì)量更高,解決了領(lǐng)域詞匯“一詞多義、一義多詞、歧義詞”等問題。石油搜索引擎面向石油行業(yè)定向搜索,比通用搜索可提前抓取到更多的石油信息,搜索的內(nèi)容也比較全面。
油田網(wǎng)搜索有以下效果:①解決了油田網(wǎng)無搜索引擎及搜索不便的問題,可以按網(wǎng)頁、新聞、論壇、圖片4類進(jìn)行搜索;②提供了歷史網(wǎng)頁保存,可隨時以快照形式提供信息;③按照信息發(fā)布單位和IP精確檢索;④對油田網(wǎng)檢索的信息進(jìn)行安全管理和敏感詞的監(jiān)控。
系統(tǒng)研發(fā)成功后在勝利油田得到全面應(yīng)用,半年內(nèi)油田網(wǎng)搜索引擎已獲得網(wǎng)頁URL地址約95萬個,抓取網(wǎng)頁92萬個,處理網(wǎng)頁58萬個,有效網(wǎng)頁38萬個,建立索引網(wǎng)頁38萬個;圖片搜索提取出圖片地址11.6萬個,處理獲得有效圖片7.6萬張,建立索引圖片7.6萬張;油田網(wǎng)新聞搜索抓取獲得有效新聞1.9萬條,信息分別來自75個不同站點(diǎn)。通過提供搜索接口,系統(tǒng)在勝利信息網(wǎng)“勝利導(dǎo)航”和生產(chǎn)經(jīng)營中進(jìn)行了移植。用戶訪問量穩(wěn)步上升,從最初每天30~50次訪問,增加到1個月后每天1000~1500次訪問。現(xiàn)在的訪問量已經(jīng)穩(wěn)定在每天3200次左右,說明了實(shí)際的需求和系統(tǒng)的實(shí)用性。系統(tǒng)推廣使用價值體現(xiàn)在:①研究并開發(fā)的知識庫可以應(yīng)用于石油應(yīng)用領(lǐng)域的智能系統(tǒng)、數(shù)據(jù)挖掘、信息處理等;②垂直搜索技術(shù)在油田內(nèi)各種資料查詢、信息檢索、敏感信息監(jiān)控等都能發(fā)揮重要作用,特別是全文檢索技術(shù),對于文本信息的不確定性模糊查詢能發(fā)揮較大的作用;③項(xiàng)目研究中的大量統(tǒng)計(jì)資料和數(shù)據(jù),如詞頻、熱詞、專業(yè)詞匯相關(guān)性、網(wǎng)頁量等,對于開展油田的信息管理和分析具有一定的指導(dǎo)作用。