国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

檔案信息智能檢索技術(shù)的創(chuàng)新應(yīng)用研究

2018-01-15 23:13張倩
北京檔案 2018年12期
關(guān)鍵詞:全文檢索信息檢索搜索引擎

摘要:本文通過(guò)考察檔案信息檢索技術(shù)的應(yīng)用性狀,對(duì)引入智能檢索技術(shù)在檔案信息檢索建設(shè)中的創(chuàng)新應(yīng)用作了可行性研究,并分析了三種可改善檔案信息檢索系統(tǒng)用戶體驗(yàn)的方法,有助于實(shí)現(xiàn)高效的檔案信息檢索。

關(guān)鍵詞:信息檢索檔案信息智能檢索

面對(duì)大數(shù)據(jù)的挑戰(zhàn),探究檔案信息智能檢索技術(shù)的應(yīng)用方法,既是檔案管理理論創(chuàng)新的內(nèi)在要求,也是檔案管理實(shí)踐創(chuàng)新的迫切需要。本文從剖析現(xiàn)階段智能檢索技術(shù)在檔案信息檢索系統(tǒng)建設(shè)中的應(yīng)用性狀入手,提出運(yùn)用智能檢索技術(shù)需要采取的創(chuàng)新措施。

一、檔案信息智能檢索技術(shù)的基本概念

檔案信息檢索技術(shù)源于人們對(duì)文獻(xiàn)的文摘索引與咨詢工作需要,這一領(lǐng)域相關(guān)的理論研究和技術(shù)應(yīng)用,大致分為手工檢索、計(jì)算機(jī)檢索、網(wǎng)絡(luò)檢索和智能檢索四個(gè)階段。

所謂“檔案信息智能檢索技術(shù)”,是指由抽詞檢索與全文檢索發(fā)展而來(lái),能夠融合檔案學(xué)、圖書(shū)館學(xué)、情報(bào)學(xué)、計(jì)算機(jī)科學(xué)等相關(guān)領(lǐng)域的先進(jìn)理念,應(yīng)用計(jì)算機(jī)和網(wǎng)絡(luò)等先進(jìn)的技術(shù)與方法,通過(guò)實(shí)施語(yǔ)義理解、邏輯推理與學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)與關(guān)聯(lián)等諸多環(huán)節(jié),對(duì)檔案信息進(jìn)行智能化地存儲(chǔ)、處理、獲取與利用,實(shí)現(xiàn)在更高層次上模擬、應(yīng)用人類的認(rèn)知功能和智能活動(dòng),滿足用戶對(duì)檔案信息的各種個(gè)性化需求,為廣泛的應(yīng)用領(lǐng)域提供高效率、高質(zhì)量的檔案信息知識(shí)檢索服務(wù)。

二、檔案信息智能檢索技術(shù)的類型與特性

目前,檔案信息智能檢索技術(shù)的應(yīng)用類型主要有四種:檔案布爾邏輯檢索技術(shù)、檔案全文檢索技術(shù)、檔案多媒體內(nèi)容檢索技術(shù)和檔案搜索引擎檢索技術(shù)。實(shí)踐證明,這四種技術(shù)雖具有不同的特性優(yōu)勢(shì),但各自的應(yīng)用效果都尚處于不斷探索和完善之中。

(一)檔案布爾邏輯檢索技術(shù)的應(yīng)用特性

查詢文本類檔案信息,應(yīng)用比較普及的檢索技術(shù)是布爾邏輯檢索,其屬于定性檢索技術(shù),主要采用布爾邏輯表達(dá)式來(lái)表述用戶的需求。布爾邏輯檢索技術(shù)比較符合人們的思維習(xí)慣,且能表達(dá)復(fù)雜的檢索需求。其不足之處是,需使用不同的布爾邏輯運(yùn)算符把多個(gè)檢索詞連接起來(lái),才能表達(dá)檢索要求。為彌補(bǔ)布爾模型的缺陷,研究人員現(xiàn)已研發(fā)出一些新的信息檢索模型,如向量空間模型(簡(jiǎn)稱VSM)檢索、擴(kuò)展布爾模型檢索、概率模型檢索、超文本檢索、分布式檢索、P2P檢索、網(wǎng)格信息檢索等。

(二)檔案全文檢索技術(shù)的應(yīng)用特性

檔案全文檢索技術(shù),是從最初的字符串匹配、簡(jiǎn)單的布爾邏輯檢索技術(shù),逐步演進(jìn)為可對(duì)文獻(xiàn)中任何字、詞、句進(jìn)行綜合匹配的檢索技術(shù)。由于檔案信息資源主要以數(shù)據(jù)形式存儲(chǔ)在管理系統(tǒng)的“信息庫(kù)”(“資源庫(kù)”)內(nèi),這種傳統(tǒng)的高度專業(yè)化、規(guī)范化、結(jié)構(gòu)化的信息組織與檢索方式,已不能滿足網(wǎng)絡(luò)環(huán)境下的檔案信息檢索需求。檔案全文檢索技術(shù)由此應(yīng)運(yùn)而生,并成為檔案信息檢索的主流應(yīng)用模式。

所謂“檔案全文檢索技術(shù)”,是指對(duì)檔案信息的全文處理采用“一次掃描技術(shù)”即計(jì)算機(jī)索引程序順序掃描檔案全文,對(duì)每一個(gè)(字)詞建立一個(gè)索引,指明該(字)詞在文章中出現(xiàn)的次數(shù)和位置,用戶查詢時(shí)可根據(jù)自己的需要,采用布爾邏輯檢索等方法查找原文獻(xiàn)中任意字、句、段、節(jié)、章等細(xì)小單元的信息,還可進(jìn)行各種統(tǒng)計(jì)和內(nèi)容分析。自從沈陽(yáng)市檔案館于1991年最早開(kāi)始光盤(pán)原文存儲(chǔ)與檢索的應(yīng)用研究以來(lái)[1],檔案全文檢索在我國(guó)已由實(shí)驗(yàn)向?qū)嵱没l(fā)展。目前,這項(xiàng)技術(shù)已與人工智能進(jìn)行緊密結(jié)合,尤其在內(nèi)容的分析理解、組織表達(dá)、知識(shí)學(xué)習(xí)和推理機(jī)制等方面,正在力求新的突破和發(fā)展。

(三)檔案多媒體內(nèi)容檢索技術(shù)的應(yīng)用特性

基于內(nèi)容的多媒體檢索技術(shù)(Content-Based Retrieval,CBR),是指利用模式識(shí)別、語(yǔ)音識(shí)別、圖像理解等技術(shù)領(lǐng)域可能提供的方法和工具,直接對(duì)音頻、圖形、圖像、視頻等檔案信息進(jìn)行內(nèi)容分析,從中提取其聽(tīng)覺(jué)、視覺(jué)等特征(如顏色、形狀、紋理、節(jié)奏、旋律、鏡頭等),并對(duì)這些特征加以組織形成索引,用戶將其作為檢索的依據(jù),以期實(shí)現(xiàn)對(duì)這類形象化檔案信息的查詢與定位。

目前,已面世的多媒體檔案檢索系統(tǒng),如清華大學(xué)檔案館技術(shù)部研制的“THDA-MIS多媒體檔案及辦公管理信息系統(tǒng)”等[2],雖已嶄露頭角,但效果不甚理想,研究人員仍在進(jìn)行實(shí)驗(yàn)探索。

(四)檔案搜索引擎檢索技術(shù)的應(yīng)用特性

隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,搜索引擎在保留全文檢索技術(shù)優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)行了脫胎換骨的革新,并得到廣泛的應(yīng)用。但需要指出的是,搜索引擎的功能特性已不完全等同于全文檢索功能。它運(yùn)用特定的計(jì)算機(jī)程序,不僅能夠搜集互聯(lián)網(wǎng)上的海量檔案信息數(shù)據(jù),而且在對(duì)檔案信息數(shù)據(jù)進(jìn)行組織和處理后,可為用戶提供便捷、高效的檢索服務(wù)。目前,根據(jù)搜索引擎對(duì)網(wǎng)絡(luò)信息進(jìn)行處理的不同機(jī)制,我們將其分為以下三種類型:

一是基于Robot的檔案信息搜索引擎。該搜索引擎一般由蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫(kù)和檢索程序四部分組成,是利用一種蜘蛛程序(Spider),也稱“機(jī)器人”(Robot),自動(dòng)對(duì)檔案Web站點(diǎn)上的網(wǎng)頁(yè)進(jìn)行訪問(wèn),并提供收集、索引等智能檢索服務(wù)。

二是主題目錄數(shù)據(jù)庫(kù)。它根據(jù)檔案Web站點(diǎn)的內(nèi)容和性質(zhì),將信息集合到一個(gè)預(yù)先設(shè)定的類別中,并把站點(diǎn)的URL和描述歸入這個(gè)類別,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索引擎只在這些描述中進(jìn)行檢索,以提高用戶所需信息的命中率。鑒于主題目錄的用戶界面多為等級(jí)結(jié)構(gòu),因而首頁(yè)設(shè)置了最基本的幾個(gè)大類的入口,可方便用戶對(duì)感興趣的主題逐級(jí)瀏覽。

三是Meta檔案信息元搜索引擎。它是一個(gè)可在統(tǒng)一查詢界面同時(shí)或分時(shí)跨庫(kù)查詢多個(gè)檔案管理機(jī)構(gòu)搜索引擎的WWW站點(diǎn)。其本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),但能對(duì)同一個(gè)檢索詞同時(shí)調(diào)用、控制并優(yōu)化其他多個(gè)獨(dú)立搜索引擎進(jìn)行檢索,經(jīng)合并、去重、排序、整理后,既能以統(tǒng)一的格式在同一界面集中顯示多個(gè)搜索引擎返回的結(jié)果,也可分別輸出單一搜索引擎的檢索結(jié)果。

三、檔案信息智能檢索技術(shù)的創(chuàng)新措施

(一)檔案信息檢索結(jié)果的優(yōu)化聚類

提升檔案信息檢索結(jié)果的自動(dòng)聚類能力,是推進(jìn)檔案信息檢索技術(shù)提檔升級(jí)的迫切需要。目前,可改善檔案信息檢索系統(tǒng)用戶查詢結(jié)果頁(yè)面之間關(guān)聯(lián)度差的具體方法有三種。

一是提供檢索詞推薦和查詢修正功能。首先,我們要了解、研究“同義詞環(huán)”(Synonyms Rings,又稱同義詞表)[3]等概念,并根據(jù)“可替換性”(Substitut? ability)讓系統(tǒng)分析同義關(guān)系。其次,我們要利用同義詞自動(dòng)識(shí)別技術(shù)(如字面相似度方法、特征模式匹配方法、PageRank鏈接分析方法等)將自然語(yǔ)言轉(zhuǎn)換為受控詞匯,幫助用戶構(gòu)造檢索表達(dá)式(包含提供相關(guān)詞推薦功能)。最后,我們要利用服務(wù)日志分析功能,分析辨別不同用戶提交的查詢式,從中找出與用戶提交的檢索詞詞形相似、使用頻率較高的一組檢索詞,以利于用戶進(jìn)行查詢修正。

二是優(yōu)化檢索結(jié)果的輸出形式。首先,我們要應(yīng)用超鏈接技術(shù),為用戶提供與檢索具有相同或相近特征的一系列被查詢對(duì)象,讓用戶通過(guò)參考別人的檢索結(jié)果來(lái)獲得一些啟示。其次,我們要顯示每份檔案的著錄級(jí)別情況。再次,我們要將相關(guān)被查詢對(duì)象排布在檢索結(jié)果頁(yè)的下方,并采用“索引快照”(Snapshot)的模式,將“命中詞”標(biāo)明不同的顏色,突出顯示用戶的“查詢串”,以便用戶隨時(shí)選擇是否閱讀檔案原文。最后,我們要運(yùn)用“超媒體鏈接”模式,對(duì)檢索結(jié)果做全方位的“整合檢索”[4],以提升檔案信息資源的智能集成水平。

三是優(yōu)化用戶詞典模塊。首先,我們要通過(guò)完善和提升檔案信息數(shù)據(jù)挖掘功能,加強(qiáng)對(duì)用戶在檢索中使用的檢索詞或檢索詞串等相關(guān)歷史記錄的聚類分析,不斷創(chuàng)新和優(yōu)化具有高可塑性的檢索詞鏈接機(jī)制。如通過(guò)整合優(yōu)化與檔案信息檢索詞相似(近義)的信息,部署被集成信息的顯示順序。其次,我們要通過(guò)“知識(shí)鏈接紐帶”聚集顯示關(guān)聯(lián)頁(yè)面,為用戶瀏覽感興趣的信息提供方便。最后,我們要通過(guò)切割分析用戶檢索語(yǔ)句中的關(guān)鍵詞與語(yǔ)法,來(lái)抽取其語(yǔ)義信息,并將此信息存入用戶詞典模塊,以擴(kuò)充檔案信息詞匯數(shù)據(jù)庫(kù)的內(nèi)容,實(shí)現(xiàn)不斷優(yōu)化查詢語(yǔ)句精準(zhǔn)度之目的。

(二)高級(jí)檢索技巧的組配應(yīng)用

目前,在智能信息檢索技術(shù)尚未達(dá)到理想狀態(tài)的情況下,實(shí)現(xiàn)高效的檔案信息檢索除了要靠知識(shí)的合理分類和組織之外,還應(yīng)充分掌握多種高級(jí)檢索技巧??少Y借鑒的技術(shù)措施有以下六種。

一是使用最簡(jiǎn)單的表述方式。已有經(jīng)驗(yàn)證明,在多數(shù)檢索過(guò)程中,通常并不需要采用不同尋常的語(yǔ)法或高級(jí)操作,所謂簡(jiǎn)單就是“精準(zhǔn)”,即關(guān)鍵詞不宜過(guò)多、過(guò)長(zhǎng)。若詞匯過(guò)長(zhǎng),反而會(huì)大大增加分詞過(guò)程中的時(shí)間消耗。

二是合理構(gòu)造關(guān)鍵詞。我們要在分析用戶使用習(xí)慣性檢索詞語(yǔ)的基礎(chǔ)上,不斷規(guī)范和簡(jiǎn)化關(guān)鍵詞構(gòu)造方法,并通過(guò)強(qiáng)化系統(tǒng)的糾錯(cuò)功能,幫助用戶避免使用多義詞、錯(cuò)別字,尤其要主動(dòng)提示用戶盡量使用截詞和大小寫(xiě)字母,以及專指性強(qiáng)的語(yǔ)詞或短語(yǔ)。

三是巧構(gòu)檢索表達(dá)式。運(yùn)用邏輯運(yùn)算符、位置運(yùn)算符、限定符、通配符以及相關(guān)高級(jí)檢索語(yǔ)法來(lái)巧構(gòu)檢索提問(wèn)式,是提高檢索效果的有效途徑。如果用戶對(duì)查詢語(yǔ)法不熟悉,可根據(jù)系統(tǒng)高級(jí)檢索界面的提示來(lái)進(jìn)行各種檢索查詢操作。

四是選擇描述性詞語(yǔ)。我們要幫助用戶在查詢時(shí)注意選擇更具描述性、更為具體的語(yǔ)義表達(dá)。此外,在精選檢索詞時(shí),我們要提示用戶注意不使用過(guò)于通用的詞匯,并向用戶推薦一個(gè)特殊的檢索關(guān)鍵詞。

五是精確詞組檢索。所謂“詞組檢索”(Phrase Search),是指輸入兩個(gè)單詞以上的詞組,提交搜索引擎檢索并反饋結(jié)果,這也叫“短語(yǔ)檢索”。一般情況下,要使用詞組檢索,我們可用雙引號(hào)將兩個(gè)或更多字詞括起來(lái)進(jìn)行精確匹配;如果要求檢索結(jié)果中必須包含特定查詢?cè)~,可在其前面冠以“+”;如果要求不含特定查詢?cè)~,只需在相關(guān)字詞前添加一個(gè)“-”,并在減號(hào)前添加一個(gè)空格即可,實(shí)現(xiàn)精準(zhǔn)檢索。

六是利用“進(jìn)階法”精煉檢索或使用同義詞、近義詞擴(kuò)大檢索范圍。例如,用戶利用某些檢索工具提供的“Refine”或“二次檢索”鍵,可在前一次檢索產(chǎn)生的檢索結(jié)果基礎(chǔ)上進(jìn)一步檢索,使檢索范圍縮小;使用同義詞和近義詞或某些搜索引擎所具備的自動(dòng)擴(kuò)檢功能進(jìn)行相關(guān)檢索,可擴(kuò)大檢索范圍。

*本文為2018年度江蘇省檔案科技項(xiàng)目“區(qū)塊鏈技術(shù)對(duì)高校檔案信息管理方式創(chuàng)新的可行性探究”(項(xiàng)目編號(hào):2018-12)研究成果之一。

參考文獻(xiàn):

[1]馬緒超.計(jì)算機(jī)管理檔案的成就、問(wèn)題與對(duì)策[J].湖南檔案,1996(2):13.

[2]張旭旭.多媒體檔案管理系統(tǒng)的開(kāi)發(fā)及應(yīng)用[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1996(1):93.

[3]馬張華,侯漢清,薛春香.文獻(xiàn)分類法主題法導(dǎo)論[M].北京:國(guó)家圖書(shū)館出版社,2009:348.

[4]張倩.依托智能搜索引擎構(gòu)建檔案信息檢索系統(tǒng)的策略研究[J].檔案與建設(shè),2011(6):33.

作者單位:南京藝術(shù)學(xué)院

猜你喜歡
全文檢索信息檢索搜索引擎
Oracle數(shù)據(jù)庫(kù)全文檢索性能研究
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
廣告主與搜索引擎的雙向博弈分析
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
公共圖書(shū)館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書(shū)館為例
阿克| 田林县| 神池县| 麻栗坡县| 绥阳县| 阿勒泰市| 邢台市| 安平县| 眉山市| 临邑县| 柯坪县| 静乐县| 青岛市| 清苑县| 泉州市| 黄平县| 通渭县| 中阳县| 鄂托克旗| 余干县| 江永县| 巢湖市| 旌德县| 吉林省| 龙江县| 石景山区| 伊宁县| 太康县| 襄垣县| 凉山| 郁南县| 汾西县| 荣昌县| 敦化市| 洛扎县| 绥化市| 沅陵县| 岐山县| 广宗县| 和林格尔县| 重庆市|