陳 維 阮海紅
〔摘 要〕首先對網(wǎng)絡(luò)環(huán)境下信息檢索的現(xiàn)狀進行分析,主要介紹網(wǎng)絡(luò)信息檢索的代表工具—搜索引擎的工作原理、缺陷及發(fā)展方向,引出數(shù)據(jù)挖掘技術(shù),并進一步對WEB數(shù)據(jù)挖掘技術(shù)作了概要的介紹,闡明WEB數(shù)據(jù)挖掘技術(shù)是網(wǎng)絡(luò)信息檢索智能化的重要發(fā)展方向之一。最后,提出一個結(jié)合數(shù)據(jù)挖掘技術(shù)的新的搜索引擎結(jié)構(gòu)模型。
〔關(guān)鍵詞〕信息檢索;搜索引擎;WEB數(shù)據(jù)挖掘
〔中圖分類號〕G250.73 〔文獻標(biāo)識碼〕B 〔文章編號〕1008-0821(2009)05-0144-03
Information Retrieval and Data Mining in the Network EnvironmentChen Wei Ruan Haihong
(Library,Zhejiang University of Media and Communications,Hangzhou 310018,China)
〔Abstract〕Based on the analysis of information retrieval in the network environment,this paper introduced the working principle,defects and development of search engine which was a kind of typical tools of information retrieval.Then,data mining and its applications in the web were introduced.It was illuminated that web data mining technology was an important development of intelligentized information retrieval.A new search engine structure model which was combined with data mining was presented in the end.
〔Keywords〕information retrieval;search engine;WEB data mining
隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)上信息量以驚人的速度增長。網(wǎng)絡(luò)信息資源具有數(shù)量巨大,增長迅速,形式多樣,分布廣泛,結(jié)構(gòu)復(fù)雜等特點。人們面對的問題不再是缺乏有用信息,而是如何高效地找到自己所需要的信息。但目前的現(xiàn)狀是“數(shù)據(jù)豐富,但信息貧乏”,人們迫切需要能夠從網(wǎng)絡(luò)上快速、有效地發(fā)現(xiàn)資源和知識的工具。
網(wǎng)絡(luò)搜索引擎的出現(xiàn)部分地解決了資源發(fā)現(xiàn)問題,但是它檢索效率低,往往會返回給用戶成千上萬個檢索到的網(wǎng)頁,存在大量的隱性信息,其中很大一部分與用戶的檢索要求無關(guān),用戶不能快速、準(zhǔn)確地得到所需的有價值的信息,無法滿足用戶個性化的需求。此外,搜索引擎的目的在于發(fā)現(xiàn)網(wǎng)絡(luò)上的資源,就網(wǎng)絡(luò)上的知識發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索層次更高的、能包含網(wǎng)絡(luò)數(shù)據(jù)庫在內(nèi)的新的數(shù)據(jù)挖掘技術(shù),以更有效的手段對各種大量數(shù)據(jù)進行挖掘并發(fā)揮其潛能[1]。
數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來的。但是,數(shù)據(jù)庫領(lǐng)域采用的數(shù)據(jù)挖掘技術(shù)所涉及的多是結(jié)構(gòu)化數(shù)據(jù),為了處理WEB上的異質(zhì)、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),WEB數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘研究的一個重要分支。盡管WEB數(shù)據(jù)挖掘是比網(wǎng)絡(luò)信息檢索更高層次的技術(shù),但它并不是用來取代網(wǎng)絡(luò)信息檢索技術(shù)的,二者是相輔相成的[2]。
1 網(wǎng)絡(luò)信息檢索
信息檢索(information retrieval)作為一門學(xué)科,其歷史可追溯到20世紀(jì)中期。在此之前,信息存儲和傳播主要以紙質(zhì)介質(zhì)為載體,信息檢索活動也圍繞著文獻的獲取和控制展開。20世紀(jì)50年代,計算機技術(shù)開始得到實際應(yīng)用,“情報檢索”也開始與IT技術(shù)緊密結(jié)合,從而產(chǎn)生了現(xiàn)代意義的“信息檢索”[3]。
信息檢索主要是研究如何獲取WWW上的信息資源,又稱為Web信息檢索[4],它有以下幾個特點[5]:大數(shù)據(jù)量、分布式、多用戶、非專業(yè)。網(wǎng)絡(luò)信息資源檢索的上述特點,造成了網(wǎng)上信息獲取的障礙。從20世紀(jì)60年代以來,信息檢索領(lǐng)域在索引模型、文檔內(nèi)容表示、匹配策略等方面取得了許多研究成果。這些成果被成功地應(yīng)用在WEB上,產(chǎn)生了搜索引擎,著名的有Google,Yahoo!,Altavista等。
1.1 搜索引擎的工作原理
常見的Web信息檢索系統(tǒng)的具體實例是搜索引擎。搜索引擎(Search Engine)[6]指對www站點資源和其他網(wǎng)絡(luò)資源進行標(biāo)引和檢索的一類檢索系統(tǒng)機制。其基本功能通常包含三部分:(1)下載Web文檔和有關(guān)的信息資源到本地進行預(yù)處理;(2)對文檔內(nèi)容建立索引;(3)搜索引擎按照用戶提出的檢索請求,通過建立的索引檢索出匹配的文檔及其相關(guān)的鏈接返回給用戶。
搜索引擎通常有6個相對獨立的基本組成部分:Robot、臨時文檔數(shù)據(jù)庫、索引器、索引數(shù)據(jù)庫、檢索器和用戶接口。Robot(又叫做Crawler、Spider、Worm等)是一個能利用HTTP協(xié)議獲取Web頁面并沿著HTML文檔中的超鏈在Internet上自動漫游的程序,對Internet進行系統(tǒng)、全面的遍歷,將分布在不同Web服務(wù)器上的信息資源收集下載到本地存儲在臨時文檔數(shù)據(jù)庫中;索引器對下載的文檔進行預(yù)處理,依據(jù)所使用的檢索模型對文檔進行形式化表示,建立索引后存儲在索引數(shù)據(jù)庫中以提高系統(tǒng)的檢索效率;用戶接口依據(jù)所使用的Web信息檢索模型對用戶提交的查詢進行分析,并由檢索器在索引庫中查找匹配文檔,計算各個文檔與查詢的相關(guān)度;最后,將相關(guān)的文檔按照相關(guān)度遞減的順序排列作為檢索結(jié)果返回給用戶。其結(jié)構(gòu)如圖1所示[7]。
1.2 搜索引擎的缺陷
1.2.1 邏輯運算符
現(xiàn)有的搜索引擎提供的提問函數(shù)是相當(dāng)有限的,大多數(shù)的搜索引擎只提供關(guān)鍵詞間最基本的布爾連接。例如Yahoo只提供AND和OR運算,并且一旦選用了一個邏輯運算符,它必須應(yīng)用于所有的關(guān)鍵詞。OpenTextIndex允許用戶用不同的布爾運算符,但僅運行4個運算符且必須按出現(xiàn)次序運算。像SQL語言那樣復(fù)雜的查詢語言在現(xiàn)有的搜索引擎中還不能應(yīng)用。
1.2.2 僅使用關(guān)鍵詞提問
現(xiàn)有的搜索引擎僅允許用一組關(guān)鍵詞及邏輯運算符組成提問。但關(guān)鍵詞檢索不能完全滿足用戶的要求,而且它是一種盲目的匹配。而自然語言理解又是非常困難的任務(wù),現(xiàn)在仍在研究之中。
1.2.3 簡單的結(jié)果表示方法
大多數(shù)的搜索引擎都只返回一張長長的檢索結(jié)果表,一般有好幾頁。該表中可能包含成千上萬個指向Web站點的鏈接指針。用戶可能只選擇一小部分,而放棄其余部分。因為用戶不可能有這么好的耐心。結(jié)果是他們可能丟失了很多有用的信息。
1.2.4 單個引擎的限制
由于現(xiàn)在Web上的信息量變得越來越大,單個搜索引擎不可能包括整個網(wǎng)絡(luò)的軌跡。索引機器人的能力,索引數(shù)據(jù)庫的大小,系統(tǒng)維護開銷等,都限制了一個搜索引擎的能力,因此,用戶必須嘗試用所有搜索引擎去找出他所要的信息。最壞的是每個引擎互相覆蓋,用戶會重復(fù)發(fā)現(xiàn)一條信息?,F(xiàn)在已出現(xiàn)了一些解決方法,如元搜索引擎和分布式搜索引擎。
1.2.5 不能利用檢索歷史信息
用戶的每次檢索都是從頭開始的檢索,不能從原有的查詢結(jié)果中作進一步的提煉。
1.3 網(wǎng)絡(luò)信息檢索的發(fā)展方向
通過上面的分析可以看出,當(dāng)前搜索引擎所使用的技術(shù)都難以解決“找信息難”的問題。造成這種困難的實質(zhì)在于搜索引擎缺乏知識處理能力和理解能力,對要檢索的信息僅僅采用機械的關(guān)鍵詞匹配來實現(xiàn),對所檢索到的結(jié)果只經(jīng)過簡單的處理就直接送給用戶,由用戶自己逐個瀏覽取舍。
如何使WEB信息檢索的智能化程度更高,更能滿足用戶的需求,一個很有發(fā)展?jié)摿Φ姆椒ň褪牵簩EB數(shù)據(jù)挖掘技術(shù)引入到WEB信息檢索領(lǐng)域中來。下面,將概括介紹一下WEB數(shù)據(jù)挖掘技術(shù),以及WEB數(shù)據(jù)挖掘和WEB信息檢索的關(guān)系。
2 WEB數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是指從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識,它是一門涉及面很廣的交叉學(xué)科。WEB挖掘[8]從數(shù)據(jù)挖掘發(fā)展而來,但是,WEB挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處。WEB挖掘是指從大量、異質(zhì)、分布的WEB文檔的集合中抽取感興趣的、有用的模式和隱含信息。
一般地,WEB挖掘可分為三類[9]:WEB內(nèi)容挖掘(WEB Content Mining)、WEB結(jié)構(gòu)挖掘(WEB Structure Mining)和WEB使用記錄的挖掘(WEB Usage Mining)。
2.1 WEB內(nèi)容挖掘
WEB內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識的過程。由于WEB文檔絕大部分內(nèi)容是以文本形式存在,所以WEB內(nèi)容挖掘主要針對的是WEB文檔的文本部分。文本挖掘主要包括直接對WEB頁面文檔內(nèi)容以及搜索引擎的查詢結(jié)果進行文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本數(shù)據(jù)挖掘以外,還有針對多媒體數(shù)據(jù)等的挖掘。
2.2 WEB結(jié)構(gòu)挖掘
WEB結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。
2.3 WEB使用記錄的挖掘
WEB使用記錄挖掘的主要目標(biāo)則是從WEB的訪問記錄中抽取感興趣的模式。WWW中的每個服務(wù)器都保留了訪問日志(WEB Access Log),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。
WEB數(shù)據(jù)挖掘和WEB信息檢索是2種不同的技術(shù),WEB數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個分支,屬于知識發(fā)現(xiàn)的范圍,而WEB信息檢索是以檢索信息為目的的,屬于信息查詢的范圍,從這個角度上來看,WEB數(shù)據(jù)挖掘技術(shù)的層次要比WEB信息檢索高。但是因為WEB內(nèi)容和結(jié)構(gòu)特有的復(fù)雜性,使得WEB數(shù)據(jù)挖掘和WEB信息檢索之間的界限并不像數(shù)據(jù)庫領(lǐng)域中的數(shù)據(jù)挖掘和數(shù)據(jù)查詢之間的界限那樣直觀分明。我們可以通過對數(shù)據(jù)挖掘若干技術(shù)的研究,來解決WEB信息檢索中搜索引擎的模型,WEB上文本信息的預(yù)處理(即:文本分類),WEB上的知識發(fā)現(xiàn)及對WEB上已經(jīng)獲得知識的維護等問題,所以說WEB數(shù)據(jù)挖掘技術(shù)是WEB信息檢索智能化的重要發(fā)展方向。
3 一個新的搜索引擎結(jié)構(gòu)模型
按照搜索引擎的結(jié)構(gòu)模型不同,目前搜索引擎系統(tǒng)可以分為兩大類:兩層結(jié)構(gòu)(客戶/服務(wù)器)、三層結(jié)構(gòu)(客戶/中間層/服務(wù)器),如圖2、3所示。但是,由于這些模型的缺陷,它們所構(gòu)造的搜索引擎并不能滿足用戶需求。
這里我們建立一個新的模型,如圖4所示,其結(jié)構(gòu)是三層,但是它的工作方式界于兩層和三層之間,所以這里稱該模型為混合模型。它的工作方式是首先在客戶端根據(jù)用戶在用戶界面輸入的查詢信息,由Agent判斷個性化知識庫中是否含有相關(guān)知識,如有則構(gòu)成查詢語句后提交給服務(wù)器端,如果無則與中間層的Agent相聯(lián)系,由Agent通過通用知識庫來獲得相關(guān)知識并加入個性化知識庫,然后構(gòu)成查詢語句后提交給服務(wù)器端,由服務(wù)器查詢并將結(jié)果返回給客戶端的Agent,由它處理后給用戶界面,并根據(jù)用戶的使用來更新個性化知識庫,這個過程隨著用戶查詢不斷進行,逐漸完善用戶的個性化知識庫。
實現(xiàn)此模型關(guān)鍵是依靠WEB挖掘中的一些技術(shù)。
3.1 數(shù)據(jù)分類技術(shù)
將WWW上的資源進行分類,一方面利于資源管理,同時在查詢時可以縮小范圍,進行快速查詢;另一方面有利于構(gòu)建知識庫,避免了多義詞問題。例如:“美洲豹”在動物類中,我們知道它一定是一個動物的種類;如果在汽車類中,可以知道它是一個汽車品牌;在足球比賽中,可以知道,它一定是一個球隊名字。因此在一個詞在類中,好比它有了上下文,因此在很大程度上解決了多義詞的問題。針對WWW上的數(shù)據(jù)特點,可以采用適應(yīng)非在線和在線不同情況的分類算法。
3.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)大量數(shù)據(jù)中項目集合之間的關(guān)聯(lián)或相關(guān)關(guān)系。它應(yīng)用到WWW上,可以有助于發(fā)現(xiàn)用戶的行為,從而有利于方便建立用戶的知識庫。
模型中對發(fā)現(xiàn)關(guān)聯(lián)規(guī)則加上時間這個因素,可以發(fā)現(xiàn)周期性關(guān)聯(lián)規(guī)則。同時由于數(shù)據(jù)挖掘目的是從大量的數(shù)據(jù)中找到數(shù)據(jù)之間的關(guān)系,但矛盾的是在數(shù)據(jù)挖掘的結(jié)果中卻會產(chǎn)生許多規(guī)律,從而產(chǎn)生另一個新的知識管理問題。為了處理該問題,可以對已發(fā)現(xiàn)的規(guī)則進行修剪和分組,以更好地對已發(fā)現(xiàn)的規(guī)律進行的理解,同時可以保證知識庫數(shù)據(jù)中正確和少冗余。
3.3 知識庫維護
對于知識庫中的數(shù)據(jù)維護技術(shù)已經(jīng)有很多,這里可以采用序列模式的維護。利用樣品抽樣的方法來評估序列模式改變的程度,并根據(jù)改變的程度決定何時對整個數(shù)據(jù)庫進行操作來更新序列模式,從而較好地解決了序列模式維護的問題。
這里同時必須注意到,要想使搜索引擎更好的工作,必須得利用數(shù)據(jù)挖掘的一些技術(shù)挖掘得知識,而要想充分發(fā)揮數(shù)據(jù)挖掘得作用,還需要更多更好得有關(guān)數(shù)據(jù),這一定依賴于WWW網(wǎng)站的應(yīng)用服務(wù)器的設(shè)計。它能更好的收集數(shù)據(jù)提供給數(shù)據(jù)挖掘用,同時數(shù)據(jù)挖掘不僅提供知識給我們建立知識庫,同時也可以幫助組織網(wǎng)站的內(nèi)容以更好發(fā)
揮網(wǎng)站的功能。
4 結(jié)束語
隨著網(wǎng)絡(luò)的不斷發(fā)展,以及WEB信息的激增,如何快速、高效、準(zhǔn)確地檢索網(wǎng)絡(luò)信息變得越來越重要,WEB信息檢索的發(fā)展越來越需要借助各種技術(shù)來進一步推動。作為數(shù)據(jù)挖掘一個重要研究分支的WEB數(shù)據(jù)挖掘,由于它具有比WEB信息檢索更高的技術(shù)層次,同時又與WEB信息檢索的關(guān)系非常密切,對WEB信息檢索有很大借鑒作用,所以可以通過應(yīng)用WEB數(shù)據(jù)挖掘技術(shù)的研究成果到WEB信息檢索領(lǐng)域中,提高WEB信息檢索的智能處理能力,使得WEB信息檢索發(fā)展到一個新的水平。
參考文獻
[1]劉俊熙,吳英.信息檢索和網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的比較分析[J].圖書館學(xué)刊,2005,(6):111-113.
[2]苑兆忠,姜華.Web挖掘技術(shù)在信息檢索中的應(yīng)用研究[J].聊城大學(xué)學(xué)報:自然科學(xué)版,2006,19(1):74-77.
[3]章俊玲.基于多Agent的智能信息檢索技術(shù)研究[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報,2007,6(1):39-41.
[4]Pokorny,J.Web searching and information retrieval[J].Computing in Science & Engineer-Ing,2004,6(4):43-48.
[5]封鋒.網(wǎng)絡(luò)信息檢索現(xiàn)狀研究綜述[J].科技文獻信息管理,2007,(1):16-18.
[6]張輝,趙需要.因特網(wǎng)信息檢索模式及其優(yōu)化設(shè)想[J].情報科學(xué),2007,25(1):77-81.
[7]徐敏.基于數(shù)據(jù)挖掘的Web信息檢索研究[D].南京:南京航空航天大學(xué),2006.
[8]韓家煒,孟小峰.Web挖掘研究[J].計算機研究與發(fā)展,2001,38(4):405-414.
[9]劉振巖,王萬森,陳立.WEB信息檢索與WEB數(shù)據(jù)挖掘[J].微機發(fā)展,2003,13(7):66-68.