国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

搜索引擎技術研究與發(fā)展

2011-06-14 02:29
科技傳播 2011年10期
關鍵詞:爬蟲搜索引擎網(wǎng)頁

燕 苗

石家莊計算機職業(yè)學院,河北 石家莊 050061

隨著科技與時代的發(fā)展,Internet目前的用戶已經(jīng)遍及全球,有超過幾億人在使用Internet,并且它的用戶數(shù)還在以等比級數(shù)上升。根據(jù)中國互聯(lián)網(wǎng)絡信息中心(CNNIC)最新發(fā)布的《第22次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》。截至2008年6月底,我國網(wǎng)民數(shù)量達到2.53億,網(wǎng)民規(guī)模量位居世界第一位,比去年同期增長了9100萬人,同比增長了56.2%。中國網(wǎng)民中接入寬帶比例為84.7%,寬帶網(wǎng)民數(shù)已達到2.14億人。

人們要在海量的網(wǎng)頁中找到自己感興趣的內容變得非常困難,據(jù)統(tǒng)計即使經(jīng)常上網(wǎng)的用戶能夠記住的網(wǎng)站名稱一般不超過十個。因此,人們越來越依賴于搜索引擎來查找各種信息。如何能夠更有效、更準確地找到自己感興趣的內容,關系到用戶能否充分利用這個巨大的信息資源,這已經(jīng)成為網(wǎng)絡信息獲取的熱點問題。搜索引擎的出現(xiàn)在很大問題上解決了廣大用戶的這一問題。

1 搜索引擎技術的分類搜索

引擎的核心是文檔索引與檢索模型的建立,按照文本信息檢索模型搜索引擎可分為:全文搜索引擎和目錄搜索引擎。

1.1 全文搜索引擎

是真正的搜索引擎,全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。全文搜索引擎是計算機索引程序通過從互聯(lián)網(wǎng)上提取每個網(wǎng)站的信息,掃描文章中的每一個詞,對每一個詞建立一個索引建立索引數(shù)據(jù)庫,當用戶查詢時通過檢索查詢與之匹配的相關記錄,并將查找的結果反饋給用戶的檢索方式,因此他們是真正的搜索引擎。最常用的全文搜索引擎有百度、谷歌(Google)等。

1.2 目錄搜索引擎

顧名思義就是將網(wǎng)站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找,目錄搜索引擎雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按一定的分類規(guī)則或分類體系,對網(wǎng)站進行分類而已。對比全文搜索引擎來說,它們結構清晰、錯誤較少,比較符合人們的閱讀習慣的優(yōu)點,缺點是需要人工介入、維護量大、信息量少、信息更新不及時,不能適應Web資源的規(guī)模發(fā)展,另外如果查找的信息沒有對應的分類項,則無法進行搜索。目錄搜索引擎的代表是國內搜狐、新浪、網(wǎng)易等;還有非常著名的Yahoo。

此外,搜索引擎按主要技術來分類,又分以下幾類:

1)目錄式搜索引擎

目錄式搜索引擎(Yahoo等)以人工方式搜集信息,由編輯員查看信息之后,以某種分類形式形成信息摘要,并將信息置于事先確定的分類框架中,按時間先后或這些方法的組合,組織WWW信息資源。

2)基于網(wǎng)絡爬蟲的搜索引擎

基于網(wǎng)絡爬蟲的搜索引擎(Google,Altavista,WebCrawler,Lycos等)又稱索引式搜索引擎,是一種最常見的搜索引擎。網(wǎng)絡爬蟲是一種功能很強的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。

爬蟲首先會從若干初始的已知的URLs開始,獲得網(wǎng)頁的url,依次在Web上抓取這些網(wǎng)頁并不斷從當前頁面抽取新的url,獲取這些網(wǎng)頁中的其他鏈接并將鏈接加入待爬URLs隊列中,直到滿足系統(tǒng)的一定停止條件,然后,索引器將相應信息存入本地索引數(shù)據(jù)庫中。

3)元搜索引擎元搜索引擎

這類搜索引擎沒有自己的數(shù)據(jù),將現(xiàn)有的多個搜索引擎作為一個整體,為用戶提供一個統(tǒng)一的查詢界面,并將用戶的查詢請求同時向多個搜索引擎遞交,最后元搜索引擎再把從各個搜索引擎返回的結果收集起來,重復排除、重新排序等處理后,作為自己的結果返回給用戶將返回的結果進行,這類搜索引擎兼集多個搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度,它的優(yōu)秀代表是萬緯搜索引擎[6]、vivisino[7]等

4)分布式搜索引擎

分布式搜索引擎按區(qū)域、主題、IP地址或其它標準創(chuàng)建分布式索引服務器,索引服務器之間相互可以交換中間信息,且查詢可以被重新定向。信息搜索機器人負責本區(qū)域內的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫。

2 搜索引擎的發(fā)展方向

網(wǎng)上的信息浩如煙海,網(wǎng)絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網(wǎng)絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結果垃圾太多。這樣以來,垂直搜索引擎(Vertical Seareh Engine)以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。垂直搜索引擎,是針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。是搜索引擎的細分和延伸,也是對網(wǎng)頁庫中的某類專門的信息進行一次整合,其特點就是“專、精、深”,且具有行業(yè)色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務,致力于某一特定領域內信息的全面和內容的深入,可以簡單的說成是搜索引擎領域的行業(yè)化分工。

目前,國內外的搜索引擎的發(fā)展趨勢是通用型搜索引擎向特色垂直搜索引擎轉變。下面介紹一些較具有代表性的系統(tǒng)。

2.1 職脈網(wǎng)

職脈網(wǎng)是2006年初成立的網(wǎng)絡招聘網(wǎng)站,是一家由知名風險投資機構投資的人力資源招聘服務公司,它融合了web2.0的概念,通過人才相互之間的推薦達到更有效的找到合適的人才。

2.2 www.foloda.com

房老大是一個專業(yè)的,提供純粹的房源信息的搜索平臺。該搜索引擎涉及二手房、租房、新房、別墅、寫字樓、商鋪以及廠房等七種不同的房源,涵蓋100多個城市。

3 結論

搜索技術是一個比較復雜,難度比較大的科目,其中涉及到網(wǎng)頁的搜索算法,倒排索引技術,中文分詞技術,以及網(wǎng)頁的排序算法等諸多問題。本文簡單介紹了搜索引擎的分類,及通用搜索引擎的體系結構,在最后簡單介紹了垂直搜索引擎的主要特點隨著網(wǎng)絡的發(fā)展,用戶需求的不斷增加,搜索引擎也將步入一個高速增長的時期。

[1]中國互聯(lián)網(wǎng)絡信息中心.第22次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告,2008,7:4-9.

[2]梁斌.走進搜索引擎.北京:電子工業(yè)出版社,2007.

猜你喜歡
爬蟲搜索引擎網(wǎng)頁
利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
基于CSS的網(wǎng)頁導航欄的設計
利用爬蟲技術的Geo-Gnutel la VANET流量采集
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
網(wǎng)頁制作在英語教學中的應用
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)