国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Java的垂直搜索引擎的設(shè)計(jì)方式構(gòu)建

2015-06-05 10:01:53王軍
信息化建設(shè) 2015年3期

王軍

摘要:在互聯(lián)網(wǎng)時(shí)代,隨著信息量的不斷膨脹,搜索引擎在計(jì)算機(jī)技術(shù)不斷發(fā)展的局勢(shì)下,受到了更多的挑戰(zhàn)。本文就搜索引擎的發(fā)展歷程及結(jié)構(gòu)原理進(jìn)行了介紹,重點(diǎn)提出如何利用Java語(yǔ)言對(duì)垂直搜索引擎進(jìn)行設(shè)計(jì)方案的構(gòu)建。

關(guān)鍵詞:Java;垂直搜索引擎;方案構(gòu)建

伴隨著21世紀(jì)互聯(lián)網(wǎng)技術(shù)的熾熱化的發(fā)展進(jìn)程人們對(duì)互聯(lián)網(wǎng)應(yīng)用范圍的擴(kuò)展也提出了新的要求,現(xiàn)有引擎雖然信息面廣,但更像大染缸,信息雜糅,只有快速的找到關(guān)鍵詞才能比較迅速的找到自己想要的信息大概范圍,經(jīng)過(guò)瀏覽確定最終目標(biāo),人們更需要一種專(zhuān)業(yè)化的引擎,于是我們想到了垂直搜索引擎。

一、搜索引擎的發(fā)展歷程

20世紀(jì)90年代,WWW還沒(méi)有出現(xiàn),文件傳輸已經(jīng)比較普遍,但查詢(xún)不便,所以lan Emtage想到了以一種通過(guò)文件名查詢(xún)文件的方法,即搜索引擎的雛形,它以腳本程序?yàn)榛A(chǔ),供使用者查找文件。在lan Emtage的啟發(fā)下,美國(guó)的System Computing Services大學(xué)開(kāi)發(fā)了具有搜索網(wǎng)頁(yè)功能的Veronica,網(wǎng)頁(yè)的搜索開(kāi)始發(fā)展。

縱觀搜索引擎的發(fā)展歷程,可分為四個(gè)階段。1994年的IR基本實(shí)現(xiàn)了在Web網(wǎng)頁(yè)上的檢索,由于可供用的網(wǎng)站也少且費(fèi)時(shí),很快被第二代搜索引擎代替,第二代搜索引擎主要表現(xiàn)為數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)蜘蛛的分布式兩種。第三代已進(jìn)入人工智能時(shí)代,搜索引擎空前繁榮,加入了地域搜索和主題搜索、超鏈接以及用戶(hù)記錄,自動(dòng)分類(lèi)技術(shù)已有滲透。第四代搜索引擎即垂直搜索引擎,其專(zhuān)業(yè)化程度相較于之前有了很大的提高,出現(xiàn)了專(zhuān)門(mén)針對(duì)某一行業(yè)的主題信息的搜索。

二、垂直搜索引擎

垂直搜索引擎的出現(xiàn)改變了原來(lái)搜索引擎查詢(xún)深度不足、信息量太、查詢(xún)精度低的問(wèn)題,對(duì)某一行業(yè)、某一人群的不同需求來(lái)對(duì)信息進(jìn)行篩選然后提供給他們搜索更加有序具體,縮小了搜索范圍但提高了精度,節(jié)約了用戶(hù)的時(shí)間。比如對(duì)于經(jīng)常瀏覽雜志頁(yè)面的用戶(hù),他可能會(huì)有訂閱雜志的意愿,那就需要對(duì)相關(guān)雜志有更詳細(xì)的介紹,包括里面的排版特點(diǎn)、主要內(nèi)容等。尤其對(duì)于電子行業(yè)的用戶(hù)來(lái)說(shuō),其需求更加明確所以就需要更加詳細(xì)的信息予以支持,針對(duì)這種非常具體需求而出現(xiàn)的搜索引擎就是垂直搜索。

作為一種更詳細(xì)具體的搜索引擎,其專(zhuān)業(yè)化服務(wù)質(zhì)量的審核標(biāo)準(zhǔn)主要決定于web結(jié)構(gòu)信息抽取的技術(shù)的高低,由于垂直搜索引擎屬于新興技術(shù),仍然處于探索階段,這是不可否認(rèn)的。已經(jīng)存在的垂直搜索引擎主要有:旅游類(lèi)的去哪兒網(wǎng)、征程網(wǎng)等,招聘類(lèi)的智聯(lián),娛樂(lè)類(lèi)的搜狐、樂(lè)視等。

垂直搜索引擎相比于通用的搜索引擎具有很多的優(yōu)勢(shì):行業(yè)色彩更濃,專(zhuān)注于某一主題的服務(wù),所以提供的信息更加詳細(xì)具體而有針對(duì)性;引擎的開(kāi)發(fā)在于為專(zhuān)門(mén)的用戶(hù)提供專(zhuān)門(mén)的服務(wù),因?yàn)閷?zhuān)注,所以高效;以元數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)為搜索基礎(chǔ),關(guān)鍵詞的提取相對(duì)要容易一些。

當(dāng)然,缺陷也是不能忽略的,比如種子站點(diǎn)的掌控難,只有經(jīng)過(guò)準(zhǔn)去的判斷才能夠找到目的網(wǎng)站;技術(shù)難度比較高;信息的提供專(zhuān)業(yè)但是單一。

三、基于Java的垂直搜索引擎的設(shè)計(jì)

手機(jī)作為與人們生活息息相關(guān)的電子產(chǎn)品,在人們的引擎搜索中往往被格外關(guān)注,本文以手機(jī)為對(duì)象,探討基于Java的垂直搜索引擎的設(shè)計(jì)。

1、引擎設(shè)計(jì)前的需求分析

經(jīng)過(guò)對(duì)各大手機(jī)門(mén)戶(hù)網(wǎng)站進(jìn)行瀏覽分析后,需要建立一個(gè)具有垂直搜索引擎功能的模擬系統(tǒng),供用戶(hù)搜索,具體來(lái)講,需要涉及到一下方面。

一是手機(jī)相關(guān)信息的搜索與顯示,這是一個(gè)直至搜索引擎最基本的功能,通過(guò)操作界面的指令的發(fā)送,后臺(tái)開(kāi)始操作,找到相關(guān)的信息后通過(guò)界面顯示的形式反饋給用戶(hù),點(diǎn)擊進(jìn)入后就可以看到需要的信息,不會(huì)出現(xiàn)與搜索內(nèi)容無(wú)關(guān)的消息。

二是信息自動(dòng)采集功能。通過(guò)垂直搜索引擎找到與搜索信息有相似特點(diǎn)的信息,并加以保存分析提取整理存入數(shù)據(jù)庫(kù)。

2、設(shè)計(jì)思路

本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 環(huán)境,其良好的開(kāi)發(fā)性有助于Java語(yǔ)言的開(kāi)發(fā)性能的發(fā)揮,在構(gòu)建web時(shí)需要使用PluginV3插件,用到的已開(kāi)發(fā)程序包和檢索工具包包括Heritrix1.12.1和Lucene2.0。

3、網(wǎng)頁(yè)信息的抓取

首先需要獲得更多的手機(jī)相關(guān)信息,利用蜘蛛程序爬行網(wǎng)頁(yè)對(duì)各大網(wǎng)站的信息進(jìn)行收集分析和整理,選擇獲取信息的網(wǎng)站的前提是瀏覽量大,信息完備,以便于搜索涵蓋幾乎所有手機(jī)的信息。

此外還要對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)以及URL特點(diǎn)進(jìn)行分析,目的在于對(duì)蜘蛛獲得信息進(jìn)行進(jìn)一步的過(guò)濾,將與產(chǎn)品無(wú)關(guān)的資料去掉。

4、網(wǎng)頁(yè)機(jī)構(gòu)化的抽取

在網(wǎng)頁(yè)被抓取后并不能直接使用,而是需要經(jīng)過(guò)進(jìn)一步的篩選將有用信息保存下來(lái),一般為了方便數(shù)據(jù)的入庫(kù)都會(huì)將其以文本形式保存,這一步的信息處理是建立引擎的關(guān)鍵,工作相對(duì)繁瑣一些。

5、建立索引

待前邊的準(zhǔn)備工作都完成后,即開(kāi)始引擎搜索的建立,主要是通過(guò)代碼的編寫(xiě)將獲得的信息導(dǎo)入到每款手機(jī)特定的文件中,然后放入數(shù)據(jù)庫(kù)等待用戶(hù)搜索。

結(jié)束語(yǔ)

在互聯(lián)網(wǎng)時(shí)代,信息量的日與劇增促使人們對(duì)信息的搜索提出了更專(zhuān)業(yè)化的要求,作為搜索引擎的輔助型工具,垂直搜索引擎的確在互聯(lián)網(wǎng)中法糊了不可替代的作用,我們也將加大對(duì)其研究的力度,努力讓其在每一個(gè)領(lǐng)域都能夠提供服務(wù),本文的研究將為這一偉大設(shè)想提供參考。

參考文獻(xiàn)

[1]潘春華,常敏,武港山.面向Web的信息收集工具的設(shè)計(jì)與開(kāi)發(fā)[J].計(jì)算機(jī)應(yīng)用研究,2012(16).

[2]張娜,張化祥.基于超鏈接和內(nèi)容相關(guān)度的檢索算法[J].計(jì)算機(jī)應(yīng)用,2012(26).

巴青县| 霍林郭勒市| 海兴县| 荆门市| 河津市| 克拉玛依市| 台东县| 万盛区| 龙岩市| 西丰县| 菏泽市| 炎陵县| 子长县| 南康市| 湘潭县| 嵩明县| 清原| 琼中| 安达市| 浮梁县| 望奎县| 武邑县| 永新县| 广丰县| 卓资县| 玛多县| 独山县| 临沂市| 瓦房店市| 广灵县| 福贡县| 辉县市| 丘北县| 开封市| 阜城县| 甘南县| 安徽省| 临澧县| 邻水| 航空| 固阳县|