国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語(yǔ)言理解的智能化多媒體信息檢索系統(tǒng)研究*

2011-05-17 09:09:10師東生
關(guān)鍵詞:信息檢索知識(shí)庫(kù)參考文獻(xiàn)

師東生

(內(nèi)蒙古科技大學(xué)信息工程學(xué)院,內(nèi)蒙古 呼和浩特 014010)

信息檢索 IR(Information Retrieval)是指把用戶所需信息按一定的方式組織起來(lái)的過(guò)程和技術(shù)[1]。傳統(tǒng)的方式是用戶通過(guò)輸入關(guān)鍵字,從大量的文本庫(kù)中檢索出滿足需求的文本,來(lái)判別文本是否相關(guān)并對(duì)相關(guān)文本進(jìn)行排序的數(shù)學(xué)模型。然而隨著網(wǎng)絡(luò)的發(fā)展,信息資源不再以單一的純文本傳遞為主,越來(lái)越多的信息資源以其他多媒體形式存儲(chǔ),如圖像、視頻、音頻等,針對(duì)多媒體信息的檢索近年來(lái)逐漸成為多媒體信息檢索領(lǐng)域的研究熱點(diǎn)[2]。參考文獻(xiàn)[3]提出了基于本體信息檢索系統(tǒng)的框架,該系統(tǒng)能夠提取和利用網(wǎng)絡(luò)上的語(yǔ)義信息,根據(jù)用戶的檢索條件進(jìn)行推理,進(jìn)而得出較為準(zhǔn)確的結(jié)果;參考文獻(xiàn)[4]提出了基于方法聚類的Web服務(wù)檢索技術(shù),該技術(shù)充分利用Web服務(wù)的描述信息生成基于方法層的Web服務(wù)建模方法,通過(guò)服務(wù)類聚算法產(chǎn)生基于方法層的服務(wù)檢索模型及其相關(guān)算法;參考文獻(xiàn)[5]提出了基于Web的智能信息采集處理系統(tǒng),采用高效的URL去重和基于模版的下載機(jī)制,提高了采集Web資源的性能,并應(yīng)用自然語(yǔ)言處理技術(shù),對(duì)采集信息做智能分類和摘要,在發(fā)布上突出個(gè)性化的信息服務(wù);參考文獻(xiàn)[6][7]闡述了多媒體信息檢索技術(shù)的發(fā)展現(xiàn)狀。然而其研究仍存在以下不足:(1)搜索方式單一,信息相關(guān)性差;(2)不能準(zhǔn)確地把握用戶需求,容易產(chǎn)生搜索歧義;(3)搜索技術(shù)不具備智能化,搜索效率不高。為了解決上述問(wèn)題,提出了基于自然語(yǔ)言理解的智能化多媒體信息檢索系統(tǒng)IMIRSTNLU(Intelligent Multimedia Information Retrieval System based on The Natural Language Understanding)。

1 IMIRSTNLU模型概述

在該模型中,對(duì)多媒體信息的檢索效果由詞語(yǔ)分析和搜索服務(wù)共同決定,只有對(duì)多媒體信息詞語(yǔ)分析準(zhǔn)確,搜索服務(wù)才能夠快速查找到與多媒體信息資源庫(kù)中最貼近的資源,從而提供最貼近用戶需求的多媒體信息。

該系統(tǒng)首先基于多媒體信息的資源分類,即通過(guò)對(duì)多媒體信息資源的自然理解,結(jié)合語(yǔ)言學(xué)和語(yǔ)義學(xué)學(xué)科知識(shí)、專家知識(shí)及信息資源管理模式等,對(duì)多媒體信息資源在語(yǔ)義和知識(shí)層面上進(jìn)行挖掘,訓(xùn)練成文本、視頻、圖像和音頻四種常見格式的知識(shí)庫(kù)[8]。

檢索服務(wù)開始時(shí),首先對(duì)用戶輸入的詞語(yǔ)進(jìn)行詞語(yǔ)分析,挖掘出與用戶輸入詞語(yǔ)相關(guān)度高的輔助語(yǔ)義,并提供給用戶以確定最終檢索語(yǔ)句。開始檢索時(shí),針對(duì)詞語(yǔ)分析確定的語(yǔ)義條件,對(duì)知識(shí)庫(kù)中的知識(shí)元采取相似度匹配方法,對(duì)多媒體信息的所有知識(shí)庫(kù)啟動(dòng)二級(jí)搜索模式,即精確搜索和模糊搜索相結(jié)合。精確搜索某一模式知識(shí)庫(kù)時(shí),對(duì)另一模式知識(shí)庫(kù)進(jìn)行模糊搜索,若查找無(wú)結(jié)果,模糊搜索快速啟動(dòng)成為精確搜索,同時(shí)產(chǎn)生模糊搜索對(duì)未搜索知識(shí)庫(kù)進(jìn)行搜索。該方法針對(duì)用戶輸入詞語(yǔ)進(jìn)行詞語(yǔ)分析,有效地提高了檢索的準(zhǔn)確率;對(duì)知識(shí)庫(kù)的二級(jí)模式搜索,有效地提高了檢索的效率。

檢索結(jié)束后,對(duì)檢索結(jié)果進(jìn)行綜合處理,去除無(wú)效鏈接、空鏈接及冗余數(shù)據(jù)等,依據(jù)與用戶檢索詞語(yǔ)關(guān)聯(lián)度的高低排列知識(shí)庫(kù)中的資源記錄,用戶也可設(shè)定排列模式,如時(shí)間等。同時(shí)對(duì)檢索情況的處理結(jié)果,如某一知識(shí)元按照用戶檢索習(xí)慣,應(yīng)分類于哪一類知識(shí)庫(kù),更新多媒體信息資源的知識(shí)庫(kù)。與此同時(shí),保存用戶的檢索記錄于用戶資源列表,以便于下次檢索生成更為確切的輔助語(yǔ)義。

2 IMIRSTNLU定義

2.1 基礎(chǔ)定義

定義1 相似度匹配

數(shù)據(jù)以矩陣的形式存儲(chǔ)于數(shù)據(jù)庫(kù)表中,數(shù)據(jù)之間存在矩陣的相關(guān)性以及存儲(chǔ)距離,因此根據(jù)不同形式的數(shù)據(jù),其存儲(chǔ)距離的大小不同,可以判定其相似度的大小。設(shè)數(shù)據(jù)信息E與X和Y的相似度為P,則:

其中PE的相似度為式(1)和式(2)的最小值,且 PE∈P[0,tA],t為知識(shí)庫(kù)閥值。

定義2 貼近度

若PE的相似度值超過(guò)閥值tA,選擇與之最貼近的閥值知識(shí)庫(kù)進(jìn)行相似度匹配。假設(shè) PE>tA,且 PE<tB<tC<tD,則對(duì)知識(shí)庫(kù)B進(jìn)行搜索。

定義3詞語(yǔ)分析

對(duì)詞語(yǔ)經(jīng)過(guò)解釋處理,形成便于用戶理解、有利于搜索的查詢條件。設(shè)詞語(yǔ)分析為M,則它包括M同義詞分析、M近義詞分析、M語(yǔ)義分析和 M歧義分析4個(gè)步驟。 設(shè)數(shù)據(jù)信息E,對(duì)其進(jìn)行詞語(yǔ)分析,首先會(huì)派生數(shù)據(jù)信息E關(guān)鍵詞語(yǔ)相類同的多種信息,其中篩選與數(shù)據(jù)信息E的關(guān)鍵詞描述意思相同的數(shù)據(jù)信息E同義,然后對(duì)其進(jìn)行近義詞分析,擴(kuò)大數(shù)據(jù)信息 E的查詢范圍,生成數(shù)據(jù)信息E近義,然后對(duì)數(shù)據(jù)信息E同義和E近義進(jìn)行語(yǔ)義分析,篩選與搜索詞語(yǔ)相貼近的數(shù)據(jù)信息E語(yǔ)義,最后經(jīng)過(guò)歧義分析,形成搜索查詢條件。

定義4輔助語(yǔ)義

在詞語(yǔ)分析的基礎(chǔ)上,根據(jù)用戶使用習(xí)慣、個(gè)人興趣愛好、搜索歷史等條件對(duì)用戶搜索查詢條件給予一定的參考,幫助其提交合適、完善和更加準(zhǔn)確的搜索查詢條件。

3 模型介紹

該系統(tǒng)由以下幾部分組成:(1)人機(jī)交互層。當(dāng)用戶輸入檢索詞語(yǔ)后,系統(tǒng)提供相應(yīng)的輔助語(yǔ)義提交給用戶參考,用戶確定滿足實(shí)際需求的最終檢索條件。信息檢索結(jié)束后,搜索內(nèi)容輸出,顯示給用戶。(2)詞語(yǔ)分析層。當(dāng)用戶輸入搜索詞語(yǔ)時(shí),系統(tǒng)首先進(jìn)行詞語(yǔ)分析,對(duì)輸入詞語(yǔ)進(jìn)行數(shù)據(jù)挖掘,分析與之相關(guān)聯(lián)的數(shù)據(jù)信息,進(jìn)行同義詞分析、近義詞分析、語(yǔ)義分析、歧義分析等,然后將挖掘的與之相關(guān)聯(lián)的輔助語(yǔ)義推薦給用戶,以供用戶參考。(3)信息檢索層。用戶確定檢索詞語(yǔ)后,根據(jù)數(shù)據(jù)相似度匹配原則,啟動(dòng)精確搜索和模糊搜索相結(jié)合的模式,對(duì)多媒體信息資源知識(shí)庫(kù)中滿足檢索條件的知識(shí)庫(kù)記錄進(jìn)行查找。當(dāng)相似度值確定后,屬于某一知識(shí)庫(kù),即對(duì)該知識(shí)庫(kù)啟動(dòng)精確搜索,同時(shí)啟動(dòng)模糊搜索對(duì)其余知識(shí)庫(kù)進(jìn)行搜索。如果搜索為空,則返回該搜索沒(méi)有答案。否則輸出該知識(shí)庫(kù)中的信息記錄。(4)搜索處理層。對(duì)搜索結(jié)果進(jìn)行綜合處理,去除無(wú)效鏈接,重復(fù)鏈接等,對(duì)信息的關(guān)鍵程度進(jìn)行排序,保存搜索記錄于知識(shí)庫(kù),并對(duì)知識(shí)庫(kù)進(jìn)行更新[9],同時(shí)把用戶的搜索習(xí)慣添加進(jìn)用戶習(xí)慣資源列表,以供下次搜索參考。通過(guò)不斷收集用戶搜索習(xí)慣和搜索結(jié)果,更新用戶習(xí)慣資源列表和知識(shí)庫(kù),實(shí)現(xiàn)了用戶個(gè)性化搜索。通過(guò)對(duì)搜索詞語(yǔ)的自然理解解釋,對(duì)知識(shí)庫(kù)的動(dòng)態(tài)更新、對(duì)搜索的二級(jí)模式設(shè)置、對(duì)輔助語(yǔ)義的記錄等,實(shí)現(xiàn)了智能化,為以后快速定位搜索,創(chuàng)造了條件。具體框架圖如圖1所示。

4 算法分析

IMIRSTNLU模型采用自然語(yǔ)言理解技術(shù),結(jié)合數(shù)據(jù)挖掘方法,對(duì)用戶搜索的數(shù)據(jù)信息進(jìn)行檢索。

知識(shí)庫(kù)訓(xùn)練分類算法:

//輔助語(yǔ)義添加到用戶習(xí)慣資源列表隊(duì)列;算法流程圖如圖2所示。

5 性能分析

由于目前針對(duì)多媒體信息檢索研究還沒(méi)有公認(rèn)的數(shù)據(jù)集,所以本實(shí)驗(yàn)設(shè)計(jì)的數(shù)據(jù)庫(kù)為文本、音頻、視頻和圖像各10 000份所組成的實(shí)驗(yàn)數(shù)據(jù)庫(kù)。實(shí)驗(yàn)平臺(tái)為服務(wù)器一臺(tái) IBM3650,基本配置為 2×4 core 2 GB CPU;8 GB內(nèi)存;500 GB硬盤;操作系統(tǒng)為WIN2003 SERVER標(biāo)準(zhǔn)版;編程環(huán)境為VC++2005。由于事先設(shè)定了各知識(shí)庫(kù)的文件數(shù)量,所以知識(shí)庫(kù)的組成已經(jīng)得知,如表1所示。

表1 IMIRSTNLU系統(tǒng)知識(shí)庫(kù)組成

對(duì)實(shí)驗(yàn)結(jié)果的評(píng)測(cè),采取信息檢索中常用的三個(gè)指標(biāo):檢全率 Recall、檢準(zhǔn)率 Precision和 F1-measure值,其定義如下:

其中I為檢索到的滿足檢索方法的檢索數(shù),R為檢索結(jié)果數(shù),W為可供選擇的檢索數(shù)。實(shí)驗(yàn)時(shí)分別輸入針對(duì)4種知識(shí)庫(kù)檢索的檢索條件,經(jīng)由IMIRSTNLU系統(tǒng)對(duì)其進(jìn)行搜索,經(jīng)過(guò)式(3)、式(4)和式(5)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理計(jì)算,結(jié)果如表2所示。

同時(shí)該實(shí)驗(yàn)對(duì)多媒體信息檢索的效果與參考文獻(xiàn)[10]的檢索效果進(jìn)行了對(duì)比,具體如圖3所示。其中星號(hào)表示該實(shí)驗(yàn)的F1-measure值,圓圈表示參考文獻(xiàn)[10]的F1-measure,通過(guò)對(duì)比可知,該系統(tǒng)的檢準(zhǔn)率與參考文獻(xiàn)[10]相比有明顯的提高,能夠基本實(shí)現(xiàn)智能化理解用戶檢索需求,同時(shí)由綜合評(píng)價(jià)F1-measure值可以看到,該系統(tǒng)的檢索服務(wù)是高效和準(zhǔn)確的。

表2 IMIRSTNLU系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)分析

本文經(jīng)過(guò)對(duì)自然語(yǔ)言和數(shù)據(jù)挖掘技術(shù)的理解,提出了一種智能化多媒體信息檢索系統(tǒng),通過(guò)對(duì)用戶輸入詞語(yǔ)進(jìn)行詞語(yǔ)分析,生成輔助語(yǔ)義幫助用戶參考搜索查詢條件,啟動(dòng)二級(jí)模式搜索,對(duì)知識(shí)庫(kù)實(shí)現(xiàn)全面和準(zhǔn)確的搜索,同時(shí)對(duì)搜索結(jié)果進(jìn)行綜合處理,對(duì)知識(shí)庫(kù)實(shí)現(xiàn)不斷更新,對(duì)用戶使用習(xí)慣進(jìn)行存儲(chǔ)記憶,有效地解決了檢索語(yǔ)義模糊不清,查找范圍不全和準(zhǔn)確率不高的問(wèn)題。

[1]Liu Ying,Tang Yonglin,Zeng Yuan.A study on improving information retrieval effectiveness for scientific and technical novelty retrieval[C].Proceedings of International Forum on Technological Innovation and Competitive Technical Intelligence’2008,2008:338-347.

[2]JAIN P.Intelligent information retrieval[C].SETIT 2005 3rd International Conference:Sciences of Electronic,Technologies of Information and Telecommunications,2005,3:27-31.

[3]KANNAN R.Topic map:an ontology framework for information Retrieval[C].Proc.of National Conference on Advances in Knowledge Management 2010:195-198.

[4]Peng Dunlu,Zhou Aoying.Web service retrieval technology based on the method of clustering[J].Computer Applications,2007,27(10):2365-2368.

[5]Zhang Fan,Li Linna,Yang Bingru.The intelligent information collection and processing system design and implementation based on the Web[J].Computer Engineering,2007,33(18):265-267.

[6]GOYAL P,BEHERA L,MCGINNITY T M.Application of bayesian framework in natural language understanding[J].IETE Tech Rev,2008,25(5):251-269.

[7]TANENHAUS M K,SARAH B S.Language processing in the natural world[J].Phil’s Trans R Soc Lund B Boil Sic.2008,363(1493):1105-1122.

[8]LEE C,LEE G, JANG M.Dependency structure language model for information retrieval[C].ETRI,2006,28(3):337-346.

[9]CAO G,NIE J,BAI J.Integrating word relationships into language models[C].Proc.28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Brazil.2005:298-305.

[10]Liu Wei,Chen Junjie.A framework for intelligent metasearch Engine Based on Agent[J].Computer Engineering end Application,2005,3:137-211.

猜你喜歡
信息檢索知識(shí)庫(kù)參考文獻(xiàn)
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
Study on the physiological function and application of γ—aminobutyric acid and its receptors
東方教育(2016年4期)2016-12-14 13:52:48
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
The Review of the Studies of Trilingual Education in inghai
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
班戈县| 普陀区| 金塔县| 临江市| 陵川县| 萨嘎县| 尼玛县| 莆田市| 南华县| 上高县| 堆龙德庆县| 麻城市| 伊宁县| 杭州市| 安陆市| 惠东县| 环江| 吉木乃县| 鸡西市| 敦化市| 太湖县| 乌拉特中旗| 定安县| 浦东新区| 太原市| 柏乡县| 定日县| 华容县| 青阳县| 方正县| 兴海县| 琼海市| 绥滨县| 波密县| 青田县| 临夏市| 安国市| 新郑市| 上思县| 彰化市| 天全县|