黃振江,李勇
(菏澤醫(yī)學(xué)??茖W(xué)校,山東菏澤 27400)
網(wǎng)絡(luò)信息檢索的現(xiàn)狀及發(fā)展趨勢
黃振江,李勇
(菏澤醫(yī)學(xué)??茖W(xué)校,山東菏澤 27400)
信息檢索;網(wǎng)絡(luò)技術(shù);發(fā)展趨勢
信息時代的到來對社會發(fā)展、文明進(jìn)步和人類日常生活產(chǎn)生了重大而深遠(yuǎn)的影響。同時隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,信息檢索工作已經(jīng)由傳統(tǒng)的手工文獻(xiàn)檢索發(fā)展到智能檢索。認(rèn)清網(wǎng)絡(luò)信息檢索的現(xiàn)狀和發(fā)展趨勢,掌握先進(jìn)的網(wǎng)絡(luò)信息檢索技術(shù),從浩如煙海的信息中找到所需的信息,已成為當(dāng)前重要而迫切的研究課題。
網(wǎng)絡(luò)信息檢索是由網(wǎng)絡(luò)站點、網(wǎng)頁瀏覽器和搜索引擎以及網(wǎng)絡(luò)支撐組成的檢索系統(tǒng),其中的核心部分,不是眾多站點,而是網(wǎng)絡(luò)瀏覽器和具有收集、檢索功能的搜索引擎。眾多站點、網(wǎng)頁上的信息是網(wǎng)絡(luò)信息的基本組成部分[1]。在網(wǎng)絡(luò)發(fā)展初期,瀏覽器和簡單的搜索引擎即可幫助人們檢索所需的文獻(xiàn)信息。瀏覽器瀏覽雖然方法簡易、直接,但隨機(jī)性強(qiáng),耗時費用較高,因此,更科學(xué)的方法是借助搜索引擎。搜索引擎是網(wǎng)絡(luò)信息的檢索工具,它可以幫助用戶快速搜索所需信息及其相關(guān)資料。
從歷史上看,信息檢索經(jīng)歷了手工檢索、計算機(jī)檢索到網(wǎng)絡(luò)化、智能化檢索等多個發(fā)展階段。如今網(wǎng)絡(luò)信息檢索技術(shù)得到長足發(fā)展。隨之,有如下檢索技術(shù)在日常生活中被廣泛應(yīng)用。
2.1 全文檢索把文獻(xiàn)中出現(xiàn)的每一個詞(或字)都作為檢索入口的、基于全文標(biāo)引的檢索過程和技術(shù)。在全文檢索系統(tǒng)中,文獻(xiàn)中任何有檢索意義的詞或字串都可被檢索出來。
全文檢索主要分為兩類:基于關(guān)鍵詞匹配的精確檢索和根據(jù)內(nèi)容的概念檢索。在實現(xiàn)技術(shù)上,全文檢索采用的算法主要有:1)全文掃描。2)倒排文件。3)位圖文件[2]。為了提高全文檢索的結(jié)果質(zhì)量,采用相關(guān)排序與相關(guān)反饋等技術(shù)。全文檢索的擴(kuò)展包括能利用文字來檢索多媒體信息,結(jié)合超文本技術(shù)及通過交互式的瀏覽和導(dǎo)航來改善檢索的效果。中文全文檢索可分為按字全文檢索與按詞全文檢索。按詞全文檢索具有檢索速度快、查準(zhǔn)率高等優(yōu)點。同時,如果要利用較為高級的檢索技術(shù)如相關(guān)排序,則按詞建庫和檢索具有較大的優(yōu)越性。
2.2 中文信息檢索將作為主要信息來源的中文文獻(xiàn)資料按一定的方式進(jìn)行組織、儲存、管理,并根據(jù)用戶的要求查找到所需信息的方法、技術(shù)和過程。中文信息檢索的主要內(nèi)容有:1)信息檢索建模。即采用何種方法表示文檔和檢索要求并計算它們之間的相關(guān)性。2)文獻(xiàn)處理。主要指自動標(biāo)引、自動分類和自動文摘。3)基礎(chǔ)資源建設(shè)。包括停用詞表和主題詞表的構(gòu)造。4)實現(xiàn)技術(shù)。包括倒排文件結(jié)構(gòu)、位圖文件、散列索引、B樹索引等快速檢索技術(shù)。5)檢索效果評價體系。其中查全率(檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中的相關(guān)文獻(xiàn)總量之比率)和查準(zhǔn)率(檢出的相關(guān)文獻(xiàn)量與檢出的文獻(xiàn)總量之比率)是最重要的兩個評價指標(biāo)。6)漢語自動分析技術(shù)及其與中文信息檢索技術(shù)的結(jié)合。
2.3 知識檢索全文檢索解決了一般非結(jié)構(gòu)化文字信息內(nèi)容的查詢問題,有效解決了關(guān)系數(shù)據(jù)庫管理系統(tǒng)不能很好查詢非結(jié)構(gòu)化信息的問題,但是全文檢索的效果需要進(jìn)一步提高,其適應(yīng)不同應(yīng)用的能力還需要改進(jìn)。網(wǎng)絡(luò)檢索技術(shù)的發(fā)展核心是發(fā)展知識檢索,因此知識檢索的發(fā)展應(yīng)該能夠有效解決如下一些關(guān)鍵問題。
2.3.1 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合檢索在電子商務(wù)應(yīng)用中,通常都需要系統(tǒng)能夠高效地解決結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合檢索問題,如在一個人才數(shù)據(jù)庫查詢中,除了可以對人才的一些特征進(jìn)行查詢外,更重要的是對其簡歷中的內(nèi)容進(jìn)行查詢,盡管有些產(chǎn)品具有混合檢索功能,但核心數(shù)據(jù)模型上都沒有很好地解決這個問題,需要進(jìn)一步發(fā)展。
2.3.2 智能檢索技術(shù)智能檢索技術(shù)就是采用人工智能進(jìn)行信息檢索的技術(shù)。它可以模擬人腦的思維方式,分析用戶以自然語言表達(dá)的檢索請求,自動形成檢索策略進(jìn)行智能、快速、高效的信息檢索。智能檢索技術(shù)主要體現(xiàn)在語義理解、知識管理和知識檢索三個方面。它利用語義分析模塊自動智能分詞,進(jìn)行用戶請求和知識庫“數(shù)據(jù)”的語義理解,最終把知識庫中匹配的信息篩選、整序后提供給用戶。
2.3.3 多媒體檢索技術(shù)多媒體信息是文本、圖像、聲頻和視頻的混合體,多媒體信息檢索技術(shù)是信息檢索研究的熱點。多媒體信息檢索技術(shù)的關(guān)鍵是圖像、聲頻和視頻檢索技術(shù)。信息特征是聯(lián)系信息標(biāo)引與信息檢索的唯一橋梁,圖像、聲頻與視頻信息的檢索也是以其自身的形式與內(nèi)容特征描述為基礎(chǔ)?;趦?nèi)容的多媒體信息檢索技術(shù)的基理:a)計算機(jī)自動抽取多媒體信息特征,編制多媒體信息特征倒排檔索引數(shù)據(jù)庫。b)從用戶接口獲得多媒體信息檢索標(biāo)識,諸如輸入草圖、輪廓圖、音頻、鏡頭或從檢索庫中調(diào)用的相似多媒體信息。c)計算機(jī)“理解”用戶多媒體信息查詢請求標(biāo)識(查詢樣本)并與索引數(shù)據(jù)庫中的對象進(jìn)行相似匹配[3]。d)排序與輸出多媒體信息檢索結(jié)果。
時至今日,信息檢索的對象已從相對封閉、穩(wěn)定一致、由獨立數(shù)據(jù)庫集中管理的信息內(nèi)容擴(kuò)展到開放、動態(tài)、更新快、分布廣泛、管理松散的Web內(nèi)容;信息檢索的用戶也由原來的情報專業(yè)人員擴(kuò)展到包括商務(wù)人員、管理人員、教師學(xué)生、各專業(yè)人士等在內(nèi)的普通大眾,他們對信息檢索從結(jié)果到方式提出了更高、更多樣化的要求。因此,適應(yīng)智能化、可視化以及個性化的需要是目前信息檢索技術(shù)發(fā)展的新趨勢。
3.1 網(wǎng)絡(luò)檢索智能化近年來,因特網(wǎng)上不斷涌現(xiàn)的人工智能產(chǎn)品,如智能搜索引擎、智能瀏覽器、智能代理等,它們將提高網(wǎng)絡(luò)信息檢索的智能化程度,促進(jìn)智能信息檢索的發(fā)展。隨著網(wǎng)絡(luò)用戶對檢索的精度、檢索效率要求的不斷提高,網(wǎng)絡(luò)檢索軟件開發(fā)更重視開發(fā)檢索工具在檢索功能及檢索服務(wù)上的智能化程度。
3.2 網(wǎng)絡(luò)檢索可視化由于網(wǎng)絡(luò)信息量爆炸帶來的檢索效率低的問題越來越突出,而信息檢索的可視化優(yōu)勢又日趨顯現(xiàn),人們越來越多地認(rèn)識到設(shè)計和創(chuàng)建各種信息可視化工具來表示檢索結(jié)果,是改善目前網(wǎng)絡(luò)信息檢索的一種有效途徑。在可視化信息檢索的研究上,已出現(xiàn)了許多研究成果。最新的一項信息檢索可視化研究成果,是一種用于網(wǎng)絡(luò)知識發(fā)現(xiàn)的信息可視化和檢索集成工具----WIDAS。
WIDAS(www Information Discovery Assistant System)的原理及功能:WIDAS是為實現(xiàn)信息可視化和檢索功能的集成,提高用戶在信息發(fā)現(xiàn)中的準(zhǔn)確性和效率而開發(fā)的一個網(wǎng)絡(luò)信息檢索的可視化工具[4]。其主要設(shè)計思想基于Lampling等人提出的雙曲線樹。網(wǎng)址的鏈接結(jié)構(gòu)通過3D雙曲線樹來表示,樹內(nèi)的一個節(jié)點(對應(yīng)一個網(wǎng)頁)的高度表示用戶對該網(wǎng)頁的“興趣”[5]。在這里興趣是通過一個網(wǎng)頁和一個用戶提供的查詢(嵌套的關(guān)鍵詞)之間的匹配功能來計算的。這個方法可以用來過濾不感興趣的網(wǎng)頁,減少鏈接結(jié)構(gòu)的規(guī)模。
3.3 網(wǎng)絡(luò)檢索個性化Internet信息資源已經(jīng)發(fā)展成巨大的全球化信息空間,目前的眾多搜索引擎由于其自身的局限性,再加上Web信息的大容量、異構(gòu)性、分布性和動態(tài)性,所提供信息的準(zhǔn)確度和關(guān)聯(lián)度未能達(dá)到所期待的目標(biāo)。新崛起的Agent技術(shù)正把被動的搜索引擎變?yōu)榉e極的“個人助手”,它提供了一種完全不同的Web信息檢索模式,能滿足用戶個性化檢索需求,并能幫助用戶監(jiān)視、跟蹤所需信息,減少用戶的查詢負(fù)擔(dān)。因此,基于智能Agent的個性化信息檢索系統(tǒng)成為信息管理、計算機(jī)科學(xué)、人工智能等領(lǐng)域研究的熱點。
智能Agent(Intelligent)是人工智能技術(shù)、分布式計算技術(shù)及神經(jīng)網(wǎng)絡(luò)技術(shù)等多門技術(shù)相結(jié)合的產(chǎn)物[6]。Agent是一個能在特定環(huán)境中連續(xù)和自主地運行的軟件Agent實體,它還可包含更低層次的Agent。為提高信息服務(wù)的個性化特征,Agent必須收集用戶信息、維護(hù)用戶興趣模型和分析用戶特征,
由網(wǎng)絡(luò)信息檢索現(xiàn)有技術(shù)對比可以看出,網(wǎng)絡(luò)信息檢索的智能化、可視化和個性化是其發(fā)展的必然趨勢,也會對互聯(lián)網(wǎng)的發(fā)展、網(wǎng)絡(luò)信息資源建設(shè)和利用起到一個推動作用。
[1]宛文紅.數(shù)字圖書館多媒體信息檢索技術(shù)[J].圖書館工作與研究,2004(1):36-37.
[2]褚亞萍.搜索引擎的現(xiàn)狀及分析[J].計算機(jī)與現(xiàn)代化,2001(5)11-12.
[3]柳群英.網(wǎng)絡(luò)環(huán)境下的信息檢索技術(shù)[J].現(xiàn)代情報,2003(9):16-17.
[4]王玉波.多媒體信息檢索技術(shù)略論[J].情報科學(xué),1999(2)76-77.
[5]向桂林.復(fù)合型Web信息檢索系統(tǒng)[J].情報學(xué)報,2003(5)28-29.
[6]王啟云.如何利用搜索引擎檢索網(wǎng)絡(luò)信息[J].現(xiàn)代圖書情報技術(shù),2001(4)22-23.
G202
A
1008-4118(2011)02-0095-02
2011-03-09
10.3969/j.issn.1008-4118.2011.02.51