搜索引擎發(fā)展的初步探討

2009-07-10 09:03周雅翠

現(xiàn)代情報(bào) 2009年5期

周雅翠

〔摘要〕隨著科學(xué)研究的深入發(fā)展，人們對文獻(xiàn)需求越來越廣泛，對搜索引擎理論的研究正在朝著多元化、專業(yè)化方向發(fā)展。特別是新型文獻(xiàn)載體的出現(xiàn)，開闊了搜索引擎理論研究的新視野。本文從搜索引擎的組成，搜索引擎的分類，如何識別搜索引擎的優(yōu)劣，搜索引擎的未來發(fā)展動向等方面對搜索引擎技術(shù)做介紹。

〔關(guān)鍵詞〕搜索引擎；發(fā)展；分類

〔中圖分類號〕ＴＰ３９３.４〔文獻(xiàn)標(biāo)識碼〕Ａ〔文章編號〕１００８－０８２１（２００９）０５－００２０－０３

Discussion on the Development of Search EngineZhou Yacui

（School of Computer Science and Engineering，Jilin Agricultural and Civil Engineering Institute，Changchun 130000，China）

〔Ａｂｓｔｒａｃｔ〕With the development of scientific research,people have more requirements for literature,the study on search engine is more diversity and professional.The emergence of new literature carrier explored the new field for search engine study.This paper discussed the combination,classification and the development trend of search engine,expounded on how to recognize the good from the bad.

〔Ｋｅｙｗｏｒｄｓ〕search engine;development;classification

１搜索引擎的組成

一個搜索引擎是由搜索器、索引器、檢索器和用戶接口4個部分組成。

１.１搜索器

搜索器的功能是在互聯(lián)網(wǎng)中發(fā)現(xiàn)和搜集信息。它常常是一個計(jì)算機(jī)程序，需要晝夜不停地運(yùn)行。它的任務(wù)就是收集各種信息，同時因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快，所以還要定期更新已經(jīng)搜集過的舊信息。目前有兩種搜集信息的策略：從一個起始URL集合開始，順著這些URL中的超級鏈接（Hyperlink），以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL，但常常是一些非常流行、包含很多鏈接的站點(diǎn)（如www.sina.com.cn）。將Web空間按照域名、IP地址或國家域名劃分，每個搜索器負(fù)責(zé)一個子空間的遍歷搜索。搜索器搜集的信息文件類型有許多種，包括HTML、XML、FTP文件、Word文檔以及大量的視頻及音頻信息。搜索器的實(shí)現(xiàn)常常采用分布式、并行計(jì)算等技術(shù)，以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾億個網(wǎng)頁。

１.２索引器

索引器的功能是分析搜索器所搜索到的信息，從中抽取出索引項(xiàng)，用于建立表示文檔以及生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種：客觀項(xiàng)與文檔的語意內(nèi)容無關(guān)，如作者名、URL、更新時間、編碼、長度、鏈接流行度（Link Popularity）等等；內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)（或稱短語索引項(xiàng)）2種。單索引項(xiàng)對于英文來講是英語單詞，比較容易提取，因?yàn)閱卧~之間有天然的分隔符（空格）；對于中文等連續(xù)書寫的語言，必須進(jìn)行詞語的切分。在搜索引擎中，一般要給單索引項(xiàng)賦與一個權(quán)值，以表示該索引項(xiàng)對文檔的區(qū)分度，同時用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。索引表一般使用某種形式的倒排表（Inversion List），即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置，以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系（Proximity）。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時，必須實(shí)現(xiàn)即時索引（Instant Indexing），否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能（如大規(guī)模峰值查詢時的響應(yīng)速度）有很大的影響。一個搜索引擎的時效性在很大程度上取決于索引的質(zhì)量。

１.３檢索器

檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢索出文檔，進(jìn)行文檔與查詢的相關(guān)度評價(jià)，對將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型4種。

１.４用戶接口

用戶接口的作用是輸入用戶查詢內(nèi)容、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。是為方便用戶使用計(jì)算機(jī)資源所建立的用戶和計(jì)算機(jī)之間的聯(lián)系。通常指軟件接口，即在人機(jī)聯(lián)系的硬設(shè)備接口基礎(chǔ)上開發(fā)的軟件。如建立和清除連接、發(fā)送和接收數(shù)據(jù)、發(fā)送中斷信息、控制出錯、生成狀態(tài)報(bào)告表等。

２搜索引擎的分類

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：

２.１目錄式搜索引擎

以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?，所以信息?zhǔn)確、導(dǎo)航質(zhì)量高，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是：MSN.com、Yahoo.com等，而國內(nèi)最有名的目錄式搜索引擎是hao123.com。

２.２機(jī)器人搜索引擎

由一個稱為蜘蛛（Spider）的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時、毋需人工干預(yù)，缺點(diǎn)是返回信息過多，有很多無關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：Google；國內(nèi)代表為：百度等。

２.３元搜索引擎

這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時向多個搜索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全，缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。

３如何判斷搜索引擎的優(yōu)劣

判定一個檢索系統(tǒng)的優(yōu)劣，主要從質(zhì)量、費(fèi)用和時間三方面來衡量。因此，對計(jì)算機(jī)網(wǎng)絡(luò)信息檢索的效果評價(jià)，也應(yīng)該從這3個方面進(jìn)行。質(zhì)量標(biāo)準(zhǔn)主要通過查全率與查準(zhǔn)率進(jìn)行評價(jià)。費(fèi)用標(biāo)準(zhǔn)即檢索費(fèi)用是指用戶為檢索課題所投入的運(yùn)行費(fèi)用。時間標(biāo)準(zhǔn)是指花費(fèi)時間，包括檢索準(zhǔn)備時間、檢索過程時間、獲取文獻(xiàn)時間等。查全率和查準(zhǔn)率是判定檢索效果的主要標(biāo)準(zhǔn)，而后兩者相對來說要次要些。

查全率是指系統(tǒng)在進(jìn)行某一檢索時，檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率，它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。

查全率＝［檢出相關(guān)文獻(xiàn)量／文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量］100%。

查準(zhǔn)率是指系統(tǒng)在進(jìn)行某一檢索時，檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率，它反映每次從該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的。

查準(zhǔn)率＝［檢出相關(guān)文獻(xiàn)量／檢出文獻(xiàn)總量］100%。

查全率與查準(zhǔn)率是評價(jià)檢索效果的兩項(xiàng)重要指標(biāo)，查全率和查準(zhǔn)率與文獻(xiàn)的存儲與信息檢索兩個方面是直接相關(guān)的，也就是說，與系統(tǒng)的收錄范圍、索引語言、標(biāo)引工作和檢索工作等有著非常密切的關(guān)系。

３.１影響查全率的因素

影響查全率的因素從文獻(xiàn)存儲來看，主要有：文獻(xiàn)庫收錄文獻(xiàn)不全；索引詞匯缺乏控制和專指性；詞表結(jié)構(gòu)不完整；詞間關(guān)系模糊或不正確；標(biāo)引不詳；標(biāo)引前后不一致；標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)?shù)?。此外，從情?bào)檢索角度來看，主要有：檢索策略過于簡單；選詞和進(jìn)行邏輯組配不當(dāng)；檢索途徑和方法太少；檢索人員業(yè)務(wù)不熟練和缺乏耐心；檢索系統(tǒng)不具備截詞功能和反饋功能，檢索時不能全面地描述檢索要求等。

３.２影響查準(zhǔn)率的因素

影響查準(zhǔn)率的因素主要有：索引詞不能準(zhǔn)確描述文獻(xiàn)主題和檢索要求；組配規(guī)則不嚴(yán)密；選詞及詞間關(guān)系不正確；標(biāo)引過于詳盡；組配錯誤；檢索時所用檢索詞（或檢索式）專指度不夠，檢索面寬于檢索要求；檢索系統(tǒng)不具備邏輯“非”功能和反饋功能；檢索式中允許容納的詞數(shù)量有限；截詞部位不當(dāng)，檢索式中使用邏輯“或”不當(dāng)?shù)鹊取?/p>

實(shí)際上，影響檢索效果的因素是非常復(fù)雜的。根據(jù)相關(guān)專家所做的檢索統(tǒng)計(jì)實(shí)驗(yàn)表明，查全率與查準(zhǔn)率是呈互逆關(guān)系的。要想做到查全，勢必會要對檢索范圍和限制逐步放寬，則結(jié)果是會把很多不相關(guān)的文獻(xiàn)也帶進(jìn)來，影響了查準(zhǔn)率。企圖使查全率和查準(zhǔn)率都同時提高，不是很容易的。強(qiáng)調(diào)一方面，忽視另一方面，也是不妥當(dāng)?shù)?。?yīng)當(dāng)根據(jù)具體課題的要求，合理調(diào)節(jié)查全率和查準(zhǔn)率，保證檢索效果。

４搜索引擎的未來發(fā)展趨勢

搜索引擎經(jīng)過幾年的發(fā)展和摸索，越來越貼近人們的需求，搜索引擎的技術(shù)也得到了很大的發(fā)展。搜索引擎的最新技術(shù)發(fā)展包括以下幾個方面：

４.１提高搜索引擎對用戶檢索提問的理解

為了提高搜索引擎對用戶檢索提問的理解，就必須有一個好的檢索提問語言，為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn)，現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句，比如“how can kill virus of computer?”。搜索引擎在對提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后，或直接給出提問的答案，或引導(dǎo)用戶從幾個可選擇的問題中進(jìn)行再選擇。自然語言的優(yōu)勢在于，一是使網(wǎng)絡(luò)交流更加人性化，二是使查詢變得更加方便、直接、有效。就以上面的例子來講，如果用關(guān)鍵詞查詢，多半人會用“virus”這個詞來檢索，結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息，而用“how can kill virus of computer?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。

４.２對檢索結(jié)果進(jìn)行處理

４.２.１基于鏈接評價(jià)的搜索引擎

基于鏈接評價(jià)的搜索引擎的優(yōu)秀代表是Goggle，它獨(dú)創(chuàng)的“鏈接評價(jià)體系”是基于這樣一種認(rèn)識，一個網(wǎng)頁的重要性取決于它被其它網(wǎng)頁鏈接的數(shù)量，特別是一些已經(jīng)被認(rèn)定是“重要”的網(wǎng)頁的鏈接數(shù)量。這種評價(jià)體制與《科技引文索引》的思路非常相似，但是由于互聯(lián)網(wǎng)是在一個商業(yè)化的環(huán)境中發(fā)展起來的，一個網(wǎng)站的被鏈接數(shù)量還與它的商業(yè)推廣有著密切的聯(lián)系，因此這種評價(jià)體制在某種程度上缺乏客觀性。

４.２.２基于訪問大眾性的搜索引擎

基于訪問大眾性的搜索引擎的代表是direct hit，它的基本理念是多數(shù)人選擇訪問的網(wǎng)站就是最重要的網(wǎng)站。根據(jù)以前成千上萬的網(wǎng)絡(luò)用戶在檢索結(jié)果中實(shí)際所挑選并訪問的網(wǎng)站和他們在這些網(wǎng)站上花費(fèi)的時間來統(tǒng)計(jì)確定有關(guān)網(wǎng)站的重要性排名，并以此來確定哪些網(wǎng)站最符合用戶的檢索要求。因此具有典型的趨眾性特點(diǎn)。這種評價(jià)體制與基于鏈接評價(jià)的搜索引擎有著同樣的缺點(diǎn)。

４.２.３去掉檢索結(jié)果中附加的多余信息

有調(diào)查指出，過多的附加信息加重了用戶的信息負(fù)擔(dān)，為了去掉這些過多的附加信息，可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。

參考文獻(xiàn)

［１］賈福新，鄭紅軍.現(xiàn)代信息檢索［Ｍ］.北京：機(jī)械工業(yè)出版社,2005．

［２］徐寶文.搜索引擎與信息獲取技術(shù)［Ｍ］.北京：清華大學(xué)出版社，2003．

［３］王通.搜索引擎排名秘笈［Ｍ］.北京：企業(yè)管理出版社，2004．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

搜索引擎發(fā)展的初步探討