国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對(duì)互聯(lián)網(wǎng)搜索引擎的初步認(rèn)識(shí)

2009-07-02 08:36:00陳春陽
新媒體研究 2009年10期
關(guān)鍵詞:搜索引擎全文網(wǎng)頁

陳春陽

中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0520039-01

有人說,會(huì)搜索才叫會(huì)上網(wǎng),搜索引擎在我們?nèi)粘I钪械牡匚灰咽桥e足輕重?;ヂ?lián)網(wǎng)是一個(gè)紛繁浩帙無邊無際的海洋,怎樣才能從這無窮的寶藏中去偽存真,找到自己所想要找的東西,那這就得仰仗搜索引擎了。下面是筆記在多年的工作、學(xué)習(xí)過程中形成的對(duì)搜索引擎一些初步認(rèn)識(shí),不妥之處還望指正。

一、搜索引擎基本工作原理

搜索引擎按其工作方式主要可分為兩種,一種是全文搜索引擎,另一種是目錄索引類搜索引擎。

(一)全文搜索引擎。全文搜索引擎是名副其實(shí)的搜索引擎,是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。

從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序,俗稱“蜘蛛”程序或“機(jī)器人”程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如百度、谷歌等;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如騰訊。

(二)QQ的搜索引擎。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間,搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)定期向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。

當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次、鏈接質(zhì)量等計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。

(三)目錄索引。與全文搜索引擎相比,目錄索引有許多不同之處。

首先,全文搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。

其次,全文搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。此外,在登錄全文搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄。

最后,全文搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。

目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。

目前,全文搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如谷歌就借用Open Directory目錄提供分類查詢。而像雅虎這些老牌目錄索引則通過與谷歌等搜索引擎合作擴(kuò)大搜索范圍。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國(guó)內(nèi)搜狐、新浪、網(wǎng)

易等;而另外一些則默認(rèn)的是網(wǎng)頁搜索,如雅虎。

二、搜索引擎的常用使用技巧

如果會(huì)搜索才叫會(huì)上網(wǎng),那么只會(huì)搜索也只是停留在上網(wǎng)的初級(jí)階段,要快速、準(zhǔn)確地找到自己想要的信息,還需要掌握一定的技巧。

1.使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用有:AND(和)、OR(或)、NOT(否,有些是ANDNOT)及NEAR(兩個(gè)單詞的靠近程度),恰當(dāng)應(yīng)用它們可以使結(jié)果非常精確。

2.使用雙引號(hào)進(jìn)行精確查找。如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來,實(shí)現(xiàn)精確搜索,這樣得到的結(jié)果最少、最精確。例如在搜索引擎的查詢框中輸入"searchengine",這會(huì)比輸入searchengine得到更少、更好的結(jié)果。如果按上述方法查不到任何結(jié)果,可以去掉雙引號(hào)試試。

3.使用加減號(hào)限定查找。很多搜索引擎都支持在搜索詞前冠以加號(hào)(+)限定搜索結(jié)果中必須包含的詞匯,用減號(hào)(-)限定搜索結(jié)果不能包含的詞匯。

4.有針對(duì)性地選擇搜索引擎。用不同的搜索引擎進(jìn)行查詢得到的結(jié)果常常有很大的差異,這是因?yàn)樗鼈兊脑O(shè)計(jì)目的和發(fā)展走向存在著許多的不同,比如:Dejanews是專用于USENET的搜索引擎,而Liszt則是針對(duì)郵遞列表、IRC等的搜索引擎。

5.根據(jù)要求選擇查詢方法。如果需要快速找到一些相關(guān)性比較大的信息,可以使用目錄式搜索引擎的查找功能,如使用雅虎。如果想得到某一方面比較系統(tǒng)的資源信息,可以使用目錄一級(jí)一級(jí)地進(jìn)行查找。

6.使用多元搜索引擎。多元搜索引擎是一種只需輸入一次關(guān)鍵詞就可以對(duì)多個(gè)搜索引擎進(jìn)行查詢的搜索代理網(wǎng)站,如全能搜索(http://s.k369.com/)就可以同時(shí)對(duì)多個(gè)搜索引擎進(jìn)行查詢。

7.使用更特定的詞匯。比如,不用“服裝”,而用“西服”;不用“flower”而用“rose”。但要盡可能刪去一些同義詞或近義詞。

上面所述技巧只是一些常用、通用的技巧,每個(gè)搜索引擎都有各自的特點(diǎn),也有各自的搜索技巧。掌握它們,就需要我們?cè)谌粘5膽?yīng)用中不斷的積累和總結(jié)。

三、搜索引擎技術(shù)發(fā)展趨勢(shì)

1.個(gè)性化。搜索引擎?zhèn)€性化的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。這種搜索行為分析技術(shù)是一種正在發(fā)展中的很有前途的搜索引擎人機(jī)界面技術(shù)。

通過搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種:“群體行為分析”(比如“熱門關(guān)鍵詞”就是這種分析的運(yùn)用結(jié)果)和“個(gè)性化搜索”。后者通過積累用戶的搜索個(gè)性化數(shù)據(jù),將使用戶的搜索更加精確。

2.智能化。傳統(tǒng)的搜索引擎使用方法是被動(dòng)搜索,將來也可利用智能代理技術(shù)進(jìn)行主動(dòng)信息檢索。研究智能檢索系統(tǒng)已為形勢(shì)所迫而成為眾所關(guān)注的焦點(diǎn)。其中通過對(duì)用戶的查詢計(jì)劃、意圖、興趣方向進(jìn)行推理、預(yù)測(cè)并為用戶提供有效的答案是這種系統(tǒng)的支柱技術(shù)。它使用自動(dòng)獲得的知識(shí)進(jìn)行信息搜集過濾,并自動(dòng)地將用戶感興趣的信息通過電子郵件或其它方式,提交給用戶。

自然語言搜索能力也是智能化的一個(gè)體現(xiàn),是目前相對(duì)易于開發(fā)的技術(shù),這會(huì)給搜索引擎增加競(jìng)爭(zhēng)的砝碼。

另外,由于漢語里同義詞很多的特性(比如電腦和計(jì)算機(jī)就是一個(gè)同義詞),網(wǎng)頁檢索時(shí)要注意這個(gè)問題。因此,建立一個(gè)同義詞詞庫并應(yīng)用在關(guān)鍵字搜索中很必要。這也是搜索引擎智能化的一點(diǎn)小小的體現(xiàn)吧。

猜你喜歡
搜索引擎全文網(wǎng)頁
全文中文摘要
全文中文摘要
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
青年再造
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
廣告主與搜索引擎的雙向博弈分析
多伦县| 肇源县| 梁河县| 临泉县| 吉林市| 綦江县| 赣榆县| 连山| 洛南县| 芜湖市| 剑阁县| 屯门区| 集贤县| 大丰市| 潮安县| 西丰县| 新建县| 泰宁县| 韶关市| 平乐县| 宜良县| 邵东县| 荔波县| 汝南县| 肇东市| 宜兰县| 赤水市| 鹤壁市| 五寨县| 巴青县| 阿城市| 沧源| 荥经县| 龙江县| 福海县| 泗水县| 嘉义县| 全椒县| 辉县市| 东阳市| 抚顺县|