文 / 李曉艷 陳曉媛
網(wǎng)絡(luò)檔案信息檢索是檔案信息化建設(shè)中的重要環(huán)節(jié)。良好的網(wǎng)絡(luò)信息檢索技術(shù)是檔案信息檢索效率和質(zhì)量的重要保障。自1990年代計(jì)算機(jī)網(wǎng)絡(luò)逐漸普及以來(lái),網(wǎng)絡(luò)檔案信息檢索的檢索效率和檢索質(zhì)量都有了明顯提升。新媒體的日益發(fā)展以及大數(shù)據(jù)技術(shù)的不斷進(jìn)步,極大地豐富了檔案信息系統(tǒng)的數(shù)據(jù)資源,同時(shí)也給網(wǎng)絡(luò)檔案信息檢索帶來(lái)一定的挑戰(zhàn)。
網(wǎng)絡(luò)檔案信息檢索是在傳統(tǒng)檔案信息檢索的基礎(chǔ)上,引入互聯(lián)網(wǎng)信息技術(shù),實(shí)現(xiàn)信息檢索方式、檢索理念以及技術(shù)支持的轉(zhuǎn)變。網(wǎng)絡(luò)檔案信息檢索與傳統(tǒng)檔案信息檢索相比,利用計(jì)算機(jī)的快速處理能力,在檢索方式和檢索效率上,均有顯著提升。
信息檢索技術(shù)最早出現(xiàn)在文摘索引和圖書(shū)館參考資訊工作中。1970年代,手工檢索仍是檔案信息檢索的主要形式,這一時(shí)期檢索的主要對(duì)象是文獻(xiàn)和各類(lèi)工作性書(shū)籍。計(jì)算機(jī)問(wèn)世后,由于初期的使用成本和使用效率都不太理想,計(jì)算機(jī)技術(shù)并未在信息檢索中獲得廣泛的應(yīng)用。直到1990年代,計(jì)算機(jī)網(wǎng)絡(luò)廣泛普及,計(jì)算機(jī)技術(shù)的使用成本明顯降低,不少檔案機(jī)構(gòu)引入計(jì)算機(jī)技術(shù),由此進(jìn)入了網(wǎng)絡(luò)檔案信息檢索時(shí)代[1]。
在互聯(lián)網(wǎng)技術(shù)影響下,我國(guó)檔案信息檢索真正實(shí)現(xiàn)了網(wǎng)絡(luò)技術(shù)的創(chuàng)新,檔案信息資源平臺(tái)也由此呈現(xiàn)出全新的面貌。網(wǎng)絡(luò)圖書(shū)館作為提供網(wǎng)絡(luò)檔案信息檢索的主要平臺(tái)之一,在網(wǎng)絡(luò)檔案信息檢索的發(fā)展中發(fā)揮了重要作用。比較著名的網(wǎng)絡(luò)圖書(shū)館有中國(guó)國(guó)家圖書(shū)館、南京大學(xué)圖書(shū)館等[2]。目前,越來(lái)越多的檔案資料開(kāi)始以電子檔案形式保存,網(wǎng)絡(luò)檔案庫(kù)存資源日益豐富,也給網(wǎng)絡(luò)檔案信息檢索帶來(lái)更為廣闊的發(fā)展前景。
網(wǎng)絡(luò)檔案信息檢索主要采取語(yǔ)義檢索,通過(guò)輸入檢索關(guān)鍵詞,在資源系統(tǒng)中檢索出與關(guān)鍵詞相匹配的檔案資料。檢索技術(shù)和檔案資源庫(kù)建設(shè)的不足使得檔案信息檢索中經(jīng)常出現(xiàn)無(wú)效檢索。大數(shù)據(jù)技術(shù)的發(fā)展,使各個(gè)檔案信息檢索平臺(tái)的檔案資料得到了很大的豐富,檔案形式也更加多元化。圖片、影像以及音頻等多媒體形式為載體的檔案信息,逐漸被納入到檔案信息資源體系中,給當(dāng)前網(wǎng)絡(luò)檔案信息檢索提供了更加優(yōu)質(zhì)的檢索內(nèi)容與服務(wù)形式。
信息查全率是反映檢索質(zhì)量的重要指標(biāo)。信息查全率越高表明網(wǎng)絡(luò)檔案信息檢索成功率越高[3]。當(dāng)前信息檢索系統(tǒng)所使用的布爾邏輯檢索常用孤立的詞匯作為檢索入口,對(duì)標(biāo)題、詞匯的識(shí)別產(chǎn)生遺漏,容易出現(xiàn)信息檢索不出的現(xiàn)象,給網(wǎng)絡(luò)檔案信息檢索的發(fā)展帶來(lái)了很大的阻礙。
信息查全率存在技術(shù)障礙,會(huì)降低網(wǎng)絡(luò)檔案檢索的效率,還可能因?yàn)闄z索詞匯的相關(guān)性不高導(dǎo)致信息檢索出錯(cuò)。在進(jìn)行網(wǎng)絡(luò)檔案信息檢索時(shí),用比較熱門(mén)的檢索詞匯檢索,得到的檢索內(nèi)容會(huì)比較全面;用冷僻、偏門(mén)的孤立詞匯進(jìn)行檢索,由于詞匯間相關(guān)性不高,很難檢索出有效的檔案信息。
網(wǎng)絡(luò)檔案資料系統(tǒng)為檔案信息檢索提供了重要的數(shù)據(jù)支撐,但其中的信息查全率技術(shù)障礙問(wèn)題很容易導(dǎo)致檢索內(nèi)容產(chǎn)生遺漏。一般網(wǎng)絡(luò)檔案資料系統(tǒng)越大,信息檢索遺漏的可能性越大,信息查全率也越低。信息查全率技術(shù)的不成熟,影響了檔案信息檢索的質(zhì)量,成為我國(guó)檔案信息檢索平臺(tái)發(fā)展受限的主要原因之一。
網(wǎng)絡(luò)檔案信息檢索的出現(xiàn),使人們獲取檔案信息資源更加便捷。人們?cè)跈z索檔案信息時(shí)常用關(guān)鍵詞檢索法,通過(guò)輸入檔案信息的關(guān)鍵詞,檢索出符合要求的檔案資源。關(guān)鍵詞檢索可以滿(mǎn)足用戶(hù)對(duì)于文字檔案信息的檢索需求。由于檢索內(nèi)容技術(shù)的局限,在檢索內(nèi)容中加入圖片、音頻以及影像等仍存在障礙,用戶(hù)的檢索需求難以獲得良好的滿(mǎn)足。
通過(guò)圖片、音頻以及影像等檢索內(nèi)容進(jìn)行檔案信息檢索,可以提高檔案檢索的精準(zhǔn)度,提升檢索效率。在當(dāng)前網(wǎng)絡(luò)檔案信息檢索系統(tǒng)中,對(duì)圖片、音頻以及影像等檔案信息資源進(jìn)行檢索,需要先開(kāi)展文字詞匯轉(zhuǎn)化,再利用關(guān)鍵詞進(jìn)行檔案信息檢索,這直接影響了檔案信息檢索的效率和質(zhì)量。部分網(wǎng)絡(luò)檔案信息檢索平臺(tái)已經(jīng)開(kāi)放了圖片檢索功能,但由于技術(shù)上的不足,導(dǎo)致信息查全率及查準(zhǔn)率出現(xiàn)明顯的偏差,嚴(yán)重影響網(wǎng)絡(luò)檔案信息檢索的發(fā)展。
進(jìn)行網(wǎng)絡(luò)檔案信息檢索時(shí),從輸入關(guān)鍵字到獲取檢索內(nèi)容,存在一定的時(shí)間間隔,這被稱(chēng)為響應(yīng)時(shí)間。響應(yīng)時(shí)間的長(zhǎng)短與信息檢索技術(shù)有關(guān),還受到檢索設(shè)備的影響。在信息檢索技術(shù)不成熟的階段,響應(yīng)時(shí)間比較長(zhǎng)。隨著網(wǎng)絡(luò)設(shè)備的發(fā)展,信息集成處理能力的增強(qiáng),目前已實(shí)現(xiàn)將檢索響應(yīng)時(shí)間控制在1秒左右,但是仍然存在很大不足。
檔案信息資源越多,數(shù)據(jù)庫(kù)越龐大,信息檢索的響應(yīng)時(shí)間也會(huì)越長(zhǎng)。網(wǎng)絡(luò)檔案信息系統(tǒng)資源量日益增加,使得在信息檢索時(shí)需要對(duì)大量的同類(lèi)型信息進(jìn)行集成處理,影響了檢索響應(yīng)時(shí)間。此外,響應(yīng)時(shí)間還受到硬件設(shè)備的影響。硬件設(shè)備對(duì)高強(qiáng)度、高數(shù)量的數(shù)據(jù)信息承載能力存在不足,會(huì)延長(zhǎng)響應(yīng)時(shí)間。由于信息集成處理能力不足以及網(wǎng)絡(luò)硬件設(shè)備落后,延長(zhǎng)了系統(tǒng)響應(yīng)時(shí)間,甚至導(dǎo)致系統(tǒng)崩潰。響應(yīng)時(shí)間的長(zhǎng)短既影響了網(wǎng)絡(luò)檔案信息檢索的質(zhì)量,也制約著網(wǎng)絡(luò)檔案信息檢索的整體發(fā)展。
創(chuàng)新網(wǎng)絡(luò)檔案信息檢索首先要在搜索引擎上入手。目前,檔案信息搜索引擎具備一定判斷識(shí)別關(guān)鍵詞的能力,但在檔案信息內(nèi)容篩選和使用者需求判斷上,缺乏智能性,因此對(duì)檢索效果和質(zhì)量造成一定影響[4]。
智能搜索引擎具備一定的思維能力。它可以對(duì)用戶(hù)的使用意圖進(jìn)行判斷。在檢索過(guò)程中,通過(guò)對(duì)用戶(hù)的檢索關(guān)鍵詞、檢索圖片等進(jìn)行精確分析,實(shí)現(xiàn)檢索內(nèi)容向檢索需求的轉(zhuǎn)變,使檔案信息檢索的效果和質(zhì)量得到提升。2009年,美國(guó)推出阿爾法搜索引擎,實(shí)現(xiàn)搜索語(yǔ)義的智能判讀,成為網(wǎng)絡(luò)檔案信息搜索引擎智能化發(fā)展中的重大技術(shù)突破。
智能化搜索引擎的智能性不僅體現(xiàn)在語(yǔ)義搜索上,還體現(xiàn)在搜索內(nèi)容、搜索需求以及個(gè)性化搜索等方面。搜索引擎智能化對(duì)數(shù)據(jù)庫(kù)、信息檢索系統(tǒng)、數(shù)據(jù)挖掘以及自然語(yǔ)言處理提出了更高的技術(shù)要求,以達(dá)成通過(guò)簡(jiǎn)單的檢索操作獲得高質(zhì)量信息資源的目標(biāo)。關(guān)于智能化搜索引擎,技術(shù)人員已經(jīng)取得了不少研究成果,如微軟的“群體搜索”、谷歌實(shí)驗(yàn)室的“羅盤(pán)搜索”和“整合搜索”等。這些智能化搜索引擎技術(shù)的出現(xiàn),促進(jìn)了網(wǎng)絡(luò)檔案信息檢索的發(fā)展和進(jìn)步。
基于內(nèi)容特征的多媒體檢索技術(shù)與傳統(tǒng)檔案信息檢索相比,更加注重與多媒體技術(shù)的結(jié)合。多媒體技術(shù)的應(yīng)用使得在檢索內(nèi)容中加入圖片、語(yǔ)音、音頻以及影像片段等成為可能,增加了網(wǎng)絡(luò)檔案信息檢索內(nèi)容的多樣性,有利于人們對(duì)各種檔案信息資源進(jìn)行多種檢索形式的嘗試[5]。
過(guò)去,由于檢索內(nèi)容技術(shù)的限制,利用關(guān)鍵詞進(jìn)行信息檢索占了絕大多數(shù)。在此背景下,只能滿(mǎn)足用戶(hù)對(duì)文字檔案信息的檢索需求,對(duì)于影像、音頻等高級(jí)檔案信息的檢索需求,難以獲得滿(mǎn)足。目前,不少網(wǎng)絡(luò)檔案信息檢索平臺(tái)開(kāi)放了語(yǔ)音和圖片檢索功能,但由于語(yǔ)音識(shí)別和圖片識(shí)別技術(shù)的不成熟,并沒(méi)有取得很好的檢索效果?;趦?nèi)容特征的多媒體檢索技術(shù)可以對(duì)各種檔案信息進(jìn)行同源檢索。比起傳統(tǒng)檔案信息檢索,它在檢索效率、檢索速度和檢索質(zhì)量上都有明顯的提升。
基于內(nèi)容特征的多媒體檢索技術(shù),需要在現(xiàn)有技術(shù)基礎(chǔ)上,增強(qiáng)語(yǔ)音識(shí)別能力,提高對(duì)圖像、音頻和影像等檔案信息的處理識(shí)別能力。多媒體檢索內(nèi)容在容量大小上比關(guān)鍵詞檢索內(nèi)容要大很多。在進(jìn)行多媒體內(nèi)容檢索時(shí),不僅需要加強(qiáng)多媒體檔案信息數(shù)據(jù)庫(kù)的建設(shè),還需要提高多媒體檢索內(nèi)容的處理速度,減少響應(yīng)時(shí)間,促進(jìn)多媒體內(nèi)容檢索的質(zhì)量和效果提升。
網(wǎng)絡(luò)檔案信息檢索實(shí)質(zhì)是在龐大的檔案信息資源系統(tǒng)中,利用用戶(hù)給定的限制條件(關(guān)鍵詞等),來(lái)篩選出符合檢索需要的內(nèi)容。整個(gè)檢索過(guò)程包含對(duì)大量數(shù)據(jù)的處理。因此,信息處理能力的高低直接影響到檔案信息檢索的效率和質(zhì)量。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,信息在容量和數(shù)量上都有明顯的提升。檔案信息資源系統(tǒng)中,檔案信息的數(shù)量日益增多,檔案容量越來(lái)越大,給檔案信息檢索帶來(lái)了很大的壓力。信息處理能力不足,會(huì)增長(zhǎng)檔案信息檢索的系統(tǒng)響應(yīng)時(shí)間,如果在同一時(shí)間需要處理的信息內(nèi)容過(guò)多,甚至可能導(dǎo)致系統(tǒng)崩潰。
信息集成處理能力的大小主要體現(xiàn)在同一時(shí)間內(nèi)不同信息的處理上。同一時(shí)間內(nèi)信息處理的數(shù)量越多,檢索的速度越快,用戶(hù)等待的時(shí)間也會(huì)越短。信息集成處理能力的運(yùn)用主要是為了減少信息檢索的響應(yīng)時(shí)間,為用戶(hù)提供更高質(zhì)量的檢索服務(wù)體驗(yàn)。大數(shù)據(jù)時(shí)代下,檔案信息化程度不斷擴(kuò)大,網(wǎng)絡(luò)信息數(shù)據(jù)數(shù)量日益增多。在執(zhí)行信息檢索指令時(shí),系統(tǒng)需要處理更多數(shù)量的信息數(shù)據(jù),這給網(wǎng)絡(luò)檔案信息檢索帶來(lái)了不少挑戰(zhàn)。信息集成處理技術(shù)在網(wǎng)絡(luò)檔案信息檢索中的應(yīng)用,加快了信息處理的速度,提高了信息檢索的效率和質(zhì)量。
從過(guò)去以KB為計(jì)算單位,逐步發(fā)展到以MB、G甚至TB為計(jì)算單位,信息處理能力得到了很大的提高。信息處理集成化、系統(tǒng)化作為未來(lái)發(fā)展的重要趨勢(shì),可以很好地解決過(guò)去信息處理不足的問(wèn)題。信息集成處理能力的提升,最終也將促進(jìn)網(wǎng)絡(luò)檔案信息檢索效率和質(zhì)量的提升。