国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

跨語言查詢擴展技術(shù)研究進(jìn)展

2018-01-17 09:23:22蘭慧紅
電子技術(shù)與軟件工程 2017年23期
關(guān)鍵詞:本體

摘 要 跨語言查詢擴展是改善和提高跨語言信息檢索系統(tǒng)檢索性能的核心技術(shù)之一。本文以跨語言查詢擴展技術(shù)的發(fā)展為主線,將目前的研究方法主要分為三類:基于相關(guān)反饋的跨語言查詢擴展、基于潛在語義的跨語言查詢擴展和基于本體的跨語言查詢擴展。對這三類跨語言查詢擴展技術(shù)的研究進(jìn)展進(jìn)行了詳細(xì)的介紹和闡述,并對它們的優(yōu)缺點進(jìn)行分析,最后對其發(fā)展前景進(jìn)行展望。

【關(guān)鍵詞】跨語言信息檢索 查詢擴展 相關(guān)反饋 潛在語義分析 本體

隨著互聯(lián)網(wǎng)的迅速發(fā)展和用戶需求的提高,單一語種檢索的局限性越來越明顯,人們已不再滿足于在單一語種中進(jìn)行檢索,而是迫切希望能檢索到更多其它語種的相關(guān)信息。由于用戶所掌握語言的有限性和網(wǎng)絡(luò)語言的多樣化導(dǎo)致當(dāng)前用戶從互聯(lián)網(wǎng)自由獲取多種語言信息的困難。為了消除語言障礙,將網(wǎng)絡(luò)信息資源提供給不同的用戶,跨語言信息檢索應(yīng)運而生,并已成為突破信息存取語言障礙的關(guān)鍵。

跨語言信息檢索(Cross-Language Information Retrieval, CLIR)是指用戶以一種語言檢索出另一種或多種語言信息的方法??缯Z言信息檢索涉及至少兩種以上語言,其關(guān)鍵問題是如何實現(xiàn)源語言與目標(biāo)語言之間翻譯匹配的問題。目前跨語言信息檢索方法主要有查詢翻譯、文檔翻譯、中間語言翻譯和基于同源匹配等四種方法??梢姡g可以說是跨語言信息檢索技術(shù)的核心問題,然而,翻譯的歧義性和多義性問題常常導(dǎo)致跨語言信息檢索性能低下。

跨語言查詢擴展(Cross-Language Query Expansion) 是解決跨語言信息檢索中查詢翻譯歧義和多義性問題的核心技術(shù)之一,它通過對用戶的初始查詢進(jìn)行擴展和重構(gòu),把與原查詢相關(guān)的詞或者與原查詢語義相關(guān)的詞添加到原查詢,構(gòu)建更明確清晰的新查詢,然后再次檢索,以彌補原查詢信息的不足,提高跨語言檢索性能??缯Z言查詢擴展按其發(fā)生的先后,可以分為翻譯前查詢擴展、翻譯后查詢擴展和結(jié)合翻譯前翻譯后查詢擴展三種。與單語言查詢擴展類似,跨語言查詢擴展詞的來源主要有三種:一是來自于初檢結(jié)果相關(guān)文檔;二是基于語料庫的方法;三是利用聚類技術(shù)或文本挖掘技術(shù)從文檔集中獲取查詢擴展詞。目前跨語言查詢擴展研究主要集中在基于相關(guān)反饋、基于潛在語義和基于本體的方法。本文主要對這三類跨語言查詢擴展技術(shù)的研究進(jìn)展進(jìn)行詳細(xì)的介紹和闡述,以期對感興趣的同行有一定的參考作用。

1 基于相關(guān)反饋的跨語言查詢擴展

相關(guān)反饋是一種查詢重構(gòu)技術(shù),其在跨語言信息檢索過程中利用跨語言初檢結(jié)果的前列文檔作為擴展詞的來源,實現(xiàn)跨語言查詢擴展,然后再進(jìn)行二次檢索。相關(guān)反饋技術(shù)按照用戶是否參與可分為用戶相關(guān)反饋(也稱為交互式相關(guān)反饋)和偽相關(guān)反饋(也稱為自動相關(guān)反饋)。

1.1 用戶相關(guān)反饋

基于用戶相關(guān)反饋的跨語言查詢擴展融入了用戶的參與,用戶不僅能夠?qū)Τ鯔z結(jié)果文檔進(jìn)行相關(guān)性判斷,而且還可以控制和修改查詢。其基本思想是:由用戶對初檢結(jié)果的文檔進(jìn)行相關(guān)性判斷,系統(tǒng)根據(jù)這些判定重新構(gòu)建更接近用戶需求的查詢,然后再次檢索文檔。

國內(nèi)外學(xué)者對基于用戶相關(guān)反饋的跨語言查詢擴展都作了一些研究,Orengo等[1]基于用戶相關(guān)反饋進(jìn)行了英語-葡萄牙語跨語言查詢擴展實驗,由27位葡萄牙語志愿者對檢索結(jié)果列表的前10篇文檔進(jìn)行相關(guān)性判斷,然后再進(jìn)行跨語言查詢擴展,研究成果表明該方法有效的提高跨語言檢索性能。吳丹[2]將用戶相關(guān)反饋應(yīng)用于跨語言信息檢索全過程,由54位志愿者分別采用三種方法對檢索主題進(jìn)行跨語言信息檢索并對檢索結(jié)果進(jìn)行相關(guān)性判斷與反饋,根據(jù)反饋結(jié)果進(jìn)行查詢擴展,實驗結(jié)果表明用戶的參與有助于提高查詢準(zhǔn)確率,能夠獲得較好的檢索效果。但該方法的主要缺陷是需要大量的用戶參與,給用戶帶來很大的負(fù)擔(dān),成本較高。

1.2 偽相關(guān)反饋

基于偽相關(guān)反饋的跨語言查詢擴展方法不需要用戶參與,完全自動進(jìn)行,是一種相對簡單實用的自動優(yōu)化策略,被大量應(yīng)用于相關(guān)反饋實驗中。其基本思想是:通過假定檢索結(jié)果列表的前n篇文檔為相關(guān)文檔并將其作為擴展詞來源進(jìn)行查詢擴展,再進(jìn)行二次檢索。

其典型算法是微軟亞洲研究院提出的兩步偽相關(guān)反饋法[3]。該方法首先使用源語言查詢式進(jìn)行檢索,然后從檢索結(jié)果的前n篇文檔中選出出現(xiàn)頻率最高的m個詞作為查詢擴展詞,再用雙語詞典將源語言查詢詞翻譯為目標(biāo)語言查詢詞進(jìn)行二次檢索,實驗結(jié)果表明該方法能夠較好的提高跨語言檢索性能。但其主要缺點是過分依賴于前n篇文檔的精確度,當(dāng)檢索到的前n篇文檔與查詢式無關(guān)時,會連帶造成擴展偏差。

Paul McNamee[4]以及吳丹等[5]在文獻(xiàn)[3]基礎(chǔ)上對基于偽相關(guān)反饋的跨語言查詢擴展進(jìn)行了深入研究,并對翻譯前查詢擴展、翻譯后查詢擴展以及兩者不同的組合進(jìn)行了一系列的實驗。吳丹[6]還通過偽相關(guān)反饋實驗比較4種跨語言信息檢索查詢翻譯優(yōu)化技術(shù),取得較好的研究成果。

為了解決翻譯歧義性問題,Abdelghani Bellaachia[7]等結(jié)合WordNet和偽相關(guān)反饋的方法進(jìn)行英語-阿拉伯語跨語言查詢擴展研究,通過偽相關(guān)反饋獲得候選擴展詞后,利用WordNet對候選擴展詞進(jìn)行共現(xiàn)檢查,以達(dá)到消歧的目的。

近年來,基于主題模型的跨語言偽相關(guān)反饋查詢擴展方法也受到了研究者的青睞。王序文等[8-11]先后進(jìn)行了基于潛在狄利克雷分配主題模型、基于雙語主題模型以及基于弱相關(guān)主題對齊的跨語言偽相關(guān)反饋查詢擴展進(jìn)行研究,利用主題層進(jìn)行相關(guān)反饋,減少無關(guān)主題的干擾,提高跨語言檢索性能。文獻(xiàn)[12-13]利用主題模型對相關(guān)文檔的主題進(jìn)行劃分,并將其用于偽相關(guān)反饋查詢擴展詞的選取,提高跨語言檢索準(zhǔn)確率。

2 基于潛在語義的跨語言查詢擴展

為了解決1.2節(jié)中的缺陷,一些學(xué)者提出了基于潛在語義的跨語言查詢擴展方法。其基本思想是:利用潛在語義分析技術(shù)建立不同語言之間的對應(yīng)關(guān)系,然后從擴展雙語文本集合中找出與原查詢相關(guān)的目標(biāo)語言特征詞作為查詢擴展詞,實現(xiàn)跨語言查詢擴展。endprint

潛在語義分析法是由S.T.Dumais[14]等人提出的,它假設(shè)文本集中詞與詞、詞與文本、文本與文本之間存在著某種潛在語義結(jié)構(gòu),通過統(tǒng)計計算的方法對文本集進(jìn)行分析,提取出這種潛在的語義信息,從而達(dá)到消除詞之間的相關(guān)性,簡化文本向量的目的。他們將潛在語義索引(Latent Semantic Indexing,LSI)模型應(yīng)用于法語-英語跨語言信息檢索中,利用奇異值分解技術(shù)對雙語檢索詞-文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,構(gòu)造出法-英雙語潛在語義空間,實現(xiàn)無需翻譯的跨語言查詢擴展,實驗結(jié)果表明該方法能夠獲得較好的檢索結(jié)果。

國內(nèi)學(xué)者對基于潛在語義的跨語言查詢擴展也進(jìn)行了一系列的研究。閉劍婷等[15]結(jié)合文本聚類和潛在語義分析的方法進(jìn)行了中英跨語言查詢擴展研究,利用k-means聚類提高擴展文本集合的精度,并用潛在語義分析實現(xiàn)無需翻譯的跨語言查詢擴展,提高查詢準(zhǔn)確率。魏露等[16]對文獻(xiàn)[15]進(jìn)行改進(jìn),采用奇異值分解和非負(fù)矩陣分解相結(jié)合的方法建立雙語空間,實現(xiàn)查詢擴展優(yōu)化,改善跨語言檢索性能。寧健等[17]利用改進(jìn)的潛在語義分析方法實現(xiàn)生物醫(yī)學(xué)雙語摘要跨語言信息檢索,實驗結(jié)果表明該方法能夠提高跨語言檢索的準(zhǔn)確率。羅遠(yuǎn)勝等[18]通過雙語平行語料庫構(gòu)造每種語言的潛在語義空間,提取不同語言之間的語義對信息,改善和提高跨語言檢索性能。郭文等[19]把語義詞典和馬爾可夫隨機域的潛在語義擴展相結(jié)合,將查詢詞的近義詞、同義詞、上位詞和潛在語義相關(guān)詞作為查詢擴展詞進(jìn)行查詢擴展,較好地解決跨語言信息檢索翻譯歧義性問題,改善檢索性能。

基于潛在語義的跨語言查詢擴展的缺點是:實驗所需的雙語訓(xùn)練文檔較難獲得,奇異值分解技術(shù)的計算所花費的時間較長。

3 基于本體的跨語言查詢擴展

本體是對概念及概念之間關(guān)系規(guī)范化、明確化、形式化、可共享的一種描述,其目標(biāo)是捕獲相關(guān)領(lǐng)域知識中詞與詞之間相互關(guān)系的明確定義?;诒倔w的跨語言查詢擴展的基本思想是:通過對本體概念的描述,將源語言與目標(biāo)語言在該概念下進(jìn)行統(tǒng)一,并根據(jù)含義建立雙語映射。當(dāng)用戶輸入源語言查詢詞時,系統(tǒng)根據(jù)本體的概念內(nèi)涵及概念關(guān)系找出對應(yīng)的目標(biāo)語言查詢詞,實現(xiàn)跨語言查詢擴展。

王進(jìn)等[20]利用本體在知識表示和語義描述方面的優(yōu)勢,提出了一種基于本體的跨語言信息檢索模型,解決查詢在從源語言到目標(biāo)語言轉(zhuǎn)換過程中出現(xiàn)的語義損失和曲解等問題,改善跨語言檢索性能。吳芳等[21]提出了一種基于雙語本體的跨語言查詢擴展,利用旅游領(lǐng)域本體實現(xiàn)基于概念的智能查詢擴展,取得了較好的效果。

該方法的缺陷是:對語義信息的利用完全依賴于本體庫,因此本體庫的語義完整性將很大程度上決定了跨語言信息檢索性能。

4 結(jié)束語

本文以跨語言查詢擴展技術(shù)的發(fā)展為主線,將目前的研究方法主要分為三類,對這三類研究方法進(jìn)行了詳細(xì)的介紹和闡述,并對它們的優(yōu)缺點進(jìn)行分析。由于跨語言查詢擴展受到語詞匹配、翻譯資源類型、翻譯資源質(zhì)量及語種等問題的影響,跨語言查詢擴展技術(shù)的研究將是一個長期的、值得探討的研究課題。用戶是信息需求的主體,如何通過用戶行為更好地提取用戶的查詢語義從而進(jìn)行跨語言查詢擴展將是未來的一個研究方向。

參考文獻(xiàn)

[1]Orengo V M,Huyck C.Relevance feedback and cross-language information retrieval[J].Information Processing and Management,2006,42(05):1203-1217.

[2]吳丹.交互式跨語言信息檢索中用戶行為研究[J].中國圖書館學(xué)報,2012,38(199):78-90.

[3]Gao J F,et a1.TREC-9 CLIR Experiments at MSRCN[C]// Proceedings of the 9th Text Retrieval Evaluation Conference,2001:343-353.

[4]McNamee P,Mayfield J.Comparing cross-language query expansion techniques by degrading translation resources[C].Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002:159-166.

[5]吳丹,何大慶,王惠臨.基于偽相關(guān)反饋的跨語言查詢擴展[J].情報學(xué)報,2010,29(02):232-239.

[6]吳丹,何大慶,王惠臨.一種基于相關(guān)反饋的跨語言信息檢索查詢翻譯優(yōu)化技術(shù)研究[J].情報學(xué)報,2012,31(04):398-406.

[7]Abdelghani Bellaachia and Ghita AmorTijani.Enhanced Query Expansion in English-Arabic CLIR[C]//Proc of the 19th IEEE International Conference on Database and Expert Systems Application,IEEE Computer Society Washington,DC,USA,2008.

[8]Wang X W,Zhang Q,Wang X J,et a1. LDA Based PSEUDO Relevance Feedback for Cross Language Information Retrieval[C].Proceedings of the 2nd International Conference on Cloud Computing and Intelligence Systems.IEEE,2012.endprint

[9]Wang X W,Wang X J,Zhang Q,et al.A Web-Based CLIR System with Cross-Lingual Topical Pseudo Relevance Feedback[C].Proceedings of the 4th International Conference on Conference and Labs of the Evaluation Forum (CLEF) Initiative,ValenciaSpain.2013.

[10]王序文,王小捷,孫月萍.雙語主題跨語言偽相關(guān)反饋[J].北京郵電大學(xué)學(xué)報,2013,36(04):81-84.

[11]Wang X W,Zhang Q,Wang X J,et al.Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment[C].Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation Shanghai,China.2015:529-534.

[12]張博,張斌,高克寧.一種用于查詢擴展詞選取的主題模型[J].東北大學(xué)學(xué)報(自然科學(xué)版),2013,34(03):348-350.

[13]高璐.基于主題模型的藏漢跨語言信息檢索查詢擴展研究[D].北京:中央民族大學(xué),2017.

[14]Dumais S T,Letsche T A,Littman M L,et al.Automatic cross-language retrieval using latent semantic indexing[J].Aaai Symposium on Cross language Text & Speech Retrieval,1997:51-62.

[15]閉劍婷,蘇一丹.基于潛在語義分析的跨語言查詢擴展方法[J].計算機工程,2009,35(10):49-53.

[16]魏露,李書琴,李偉男等.跨語言查詢擴展優(yōu)化[J].計算機工程與設(shè)計,2014,35(08):2785-2788,2803.

[17]寧健,林鴻飛.基于改進(jìn)潛在語義分析的跨語言檢索[J].中文信息學(xué)報,2010,24(03):105-111.

[18]羅遠(yuǎn)勝,王明文,勒中堅等.跨語言信息檢索中的雙語主題相關(guān)模型[J].小型微型計算機系統(tǒng),2013,34(12):2758-2763.

[19]郭文,陳毅東,趙欣.跨語言信息檢索中的查詢擴展[J].心智與計算,2009,3(0l):1-8.

[20]王進(jìn),陳恩紅,張振亞等.基于本體的跨語言信息檢索模型[J].中文信息學(xué)報,2004,18(03):1-8,60.

[21]吳芳,丁玲,張杰等.跨語言信息檢索中基于本體的查詢擴展模型研究[J].計算機教育,2009(17):122-124.

作者簡介

蘭慧紅(1985-),女,廣西壯族自治區(qū)河池市人。碩士學(xué)位?,F(xiàn)為廣西教育學(xué)院教師,講師。主要研究方向為數(shù)據(jù)挖掘和信息檢索。

作者單位

廣西教育學(xué)院 廣西壯族自治區(qū)南寧市 530023endprint

猜你喜歡
本體
Abstracts and Key Words
灰鑄鐵缸體本體抗拉強度提升的研究
眼睛是“本體”
哈哈畫報(2021年10期)2021-02-28 06:38:49
對姜夔自度曲音樂本體的現(xiàn)代解讀
領(lǐng)域本體的查詢擴展和檢索研究
山東冶金(2019年3期)2019-07-10 00:54:02
本體在產(chǎn)品設(shè)計知識管理中的應(yīng)用研究
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
一種基于本體的語義檢索設(shè)計與實現(xiàn)
媒介生存:關(guān)于新聞史研究本體的思考
專題
圖書與情報(2013年1期)2013-11-16 22:24:00
贺兰县| 高台县| 长子县| 郸城县| 石台县| 农安县| 咸阳市| 广水市| 柳河县| 黎平县| 密山市| 灵宝市| 黄陵县| 旌德县| 惠州市| 长武县| 玛曲县| 澎湖县| 都昌县| 亳州市| 静乐县| 义乌市| 麦盖提县| 四子王旗| 微山县| 莲花县| 顺义区| 北流市| 抚顺县| 开阳县| 乌拉特后旗| 九台市| 化州市| 平乡县| 韶山市| 吴堡县| 洛阳市| 三亚市| 宁南县| 普格县| 建始县|