司 莉,潘秋玉(. 武漢大學(xué)信息資源研究中心,武漢 43007;. 武漢大學(xué)信息管理學(xué)院,武漢 43007)
基于多語(yǔ)本體的語(yǔ)義查詢擴(kuò)展研究*
司莉1,潘秋玉2
(1. 武漢大學(xué)信息資源研究中心,武漢 430072;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072)
查詢擴(kuò)展是改善信息檢索結(jié)果的有效方法。針對(duì)用戶獲取多語(yǔ)言信息的需求以及當(dāng)前跨語(yǔ)言信息檢索存在的翻譯歧異性問(wèn)題,提出一種基于多語(yǔ)本體的語(yǔ)義查詢擴(kuò)展方法,介紹其基本原理、查詢擴(kuò)展模型及實(shí)現(xiàn)過(guò)程,使跨語(yǔ)言信息檢索從字符匹配變成語(yǔ)義層面的匹配,實(shí)現(xiàn)跨語(yǔ)言信息檢索中的查詢擴(kuò)展,以提高多語(yǔ)言信息檢索的查全率和查準(zhǔn)率。
查詢擴(kuò)展;多語(yǔ)本體;跨語(yǔ)言信息檢索
查詢擴(kuò)展作為提高信息檢索性能的關(guān)鍵技術(shù),自20世紀(jì)60年代提出以來(lái)就逐漸受到關(guān)注。尤其是近年來(lái),在計(jì)算機(jī)技術(shù)、云計(jì)算、物聯(lián)網(wǎng)、用戶創(chuàng)造內(nèi)容等多重因素的推動(dòng)下,Internet已成為一個(gè)海量且仍在迅猛增長(zhǎng)的信息庫(kù),與此同時(shí),網(wǎng)絡(luò)信息語(yǔ)種的多樣化和網(wǎng)絡(luò)用戶分布的國(guó)際化日益顯著,實(shí)現(xiàn)多語(yǔ)言信息組織與檢索,使用戶方便獲取多語(yǔ)言信息,成為信息檢索系統(tǒng)發(fā)展的趨勢(shì)之一。然而,不同語(yǔ)言概念之間的準(zhǔn)確對(duì)應(yīng)始終是制約多語(yǔ)言信息檢索的瓶頸。由于本體表達(dá)概念語(yǔ)義和推理的能力較強(qiáng),可消除自然語(yǔ)言理解中的歧義,并能根據(jù)相關(guān)概念進(jìn)行推理,在多語(yǔ)言信息檢索中實(shí)現(xiàn)基于本體的語(yǔ)義查詢擴(kuò)展,將有效提高多語(yǔ)言信息檢索的查全率和查準(zhǔn)率,從而促進(jìn)全球知識(shí)交流與共享。
傳統(tǒng)信息檢索系統(tǒng)利用簡(jiǎn)單的詞匹配法則,即計(jì)算文檔特征值與檢索詞之間的相似度,往往只能檢索到包含查詢?cè)~的那些資源。而用戶輸入的89.9%的檢索查詢只包含一個(gè)詞,平均查詢?cè)~為1.73個(gè)[1],這樣,與用戶查詢請(qǐng)求相關(guān)但未包括檢索詞的那部分資源便無(wú)法被命中??梢姡瑢?shí)現(xiàn)用以提高查全率的查詢擴(kuò)展是極為必要的。查詢擴(kuò)展的基本思想是對(duì)用戶輸入的初始查詢?cè)~進(jìn)行修正和擴(kuò)充,構(gòu)建更明確清晰的查詢表達(dá)式,以改善信息檢索的查全率和查準(zhǔn)率。擴(kuò)充的查詢?cè)~有兩大類:一是查詢?cè)~的同義或近義詞,二是加入全新的詞匯。
目前,查詢擴(kuò)展的常用方法有3種:①基于用戶相關(guān)反饋的查詢擴(kuò)展;②基于全局分析的查詢擴(kuò)展;③基于局部分析的查詢擴(kuò)展。其中,第一種要求用戶對(duì)查詢結(jié)果進(jìn)行相關(guān)性判斷,系統(tǒng)對(duì)用戶判斷后的相關(guān)文檔進(jìn)行計(jì)算,選取一些詞擴(kuò)展查詢式進(jìn)行二次檢索,如此反復(fù)直至用戶滿意,該方法可以很好地滿足用戶需求,但對(duì)用戶要求較高、負(fù)擔(dān)較重;第二種是系統(tǒng)自動(dòng)對(duì)全部文檔中的詞或詞組進(jìn)行相關(guān)分析,將與查詢?cè)~關(guān)聯(lián)度較高的詞作為初始查詢?cè)~的擴(kuò)展詞來(lái)生成新的查詢式,其缺點(diǎn)是當(dāng)文檔數(shù)量較多時(shí),計(jì)算量會(huì)比較大;第三種不需要用戶參與,系統(tǒng)自動(dòng)將查詢結(jié)果中的前K篇文檔作為相關(guān)文檔,計(jì)算后選取擴(kuò)展詞進(jìn)行重新檢索,但容易發(fā)生“查詢漂移”現(xiàn)象,即擴(kuò)展后的查詢主題偏離了用戶原來(lái)的查詢意圖。
3.1 多語(yǔ)本體的特征
本體是對(duì)概念及概念之間關(guān)系規(guī)范化、形式化、可共享、明確化的描述,是一種表達(dá)、共享、重用知識(shí)的方法[2]。多語(yǔ)本體是本體在不同語(yǔ)種中的具體表現(xiàn)形式[3]。多語(yǔ)本體不同于多語(yǔ)種詞典,因?yàn)樗粌H包含大量規(guī)范的多語(yǔ)種概念,還具有豐富的概念關(guān)系和強(qiáng)大的推理能力。除了具備本體的一般特征,多語(yǔ)本體還有一個(gè)重要特征,即多語(yǔ)言同義詞規(guī)范。多語(yǔ)本體庫(kù)中的概念雖在各語(yǔ)言中的表達(dá)方式不同,但它們的內(nèi)涵是相互對(duì)應(yīng)且一致的。詞匯只是概念的一種表達(dá)方式,概念是獨(dú)立于語(yǔ)言的,所以一個(gè)概念的內(nèi)涵甚至可以不用語(yǔ)言表示,而使用數(shù)字或者符號(hào)等來(lái)代替。
目前已建立了多語(yǔ)本體WordNet以及以WordNet為標(biāo)準(zhǔn)建立的多語(yǔ)本體系列,如歐洲的EuroWordNet、中國(guó)的HowNet、俄國(guó)的RussianWordNet等。其中,EuroWordNet包含英語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、德語(yǔ)、法語(yǔ)、捷克語(yǔ)、愛(ài)沙尼亞語(yǔ)等八個(gè)部分,它們之間通過(guò)中間語(yǔ)言索引將一種語(yǔ)言中的概念與其他語(yǔ)言中相似的概念聯(lián)系起來(lái)[4];HowNet是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),描述了上下位關(guān)系、同義關(guān)系、反義關(guān)系、部件-整體關(guān)系等16種詞間關(guān)系[5]。多語(yǔ)本體的構(gòu)建為多語(yǔ)言語(yǔ)義檢索提供支持,是多語(yǔ)言信息檢索研究中重要的語(yǔ)言資源和工具。
3.2 基于多語(yǔ)本體的查詢擴(kuò)展
3.2.1 基本原理
傳統(tǒng)的跨語(yǔ)言信息檢索最常用的方法是提問(wèn)式翻譯,即將用戶輸入的提問(wèn)式翻譯為系統(tǒng)支持的其他每種語(yǔ)言,然后進(jìn)行單語(yǔ)言檢索[6]。這種方法的缺點(diǎn)是提問(wèn)式往往沒(méi)有語(yǔ)境支持,這種簡(jiǎn)單的關(guān)鍵詞翻譯難以避免翻譯過(guò)程中的歧義性問(wèn)題。由于多語(yǔ)本體具有豐富的概念關(guān)系和強(qiáng)大的推理能力,使得基于多語(yǔ)本體的查詢擴(kuò)展能夠?qū)⑻釂?wèn)式與文檔的對(duì)照和匹配提升到語(yǔ)義層面,從而有效地完成消歧工作。
在多語(yǔ)本體中,不同語(yǔ)種的概念術(shù)語(yǔ)通過(guò)映射進(jìn)行了關(guān)聯(lián),當(dāng)用戶輸入一種語(yǔ)言的查詢語(yǔ)句時(shí),系統(tǒng)在源語(yǔ)言本體庫(kù)中檢索相應(yīng)的查詢結(jié)果,并自動(dòng)映射到其他語(yǔ)種,搜索與目標(biāo)語(yǔ)言概念相同或相近的結(jié)果反饋給用戶。多語(yǔ)本體在多語(yǔ)言信息檢索的作用主要體現(xiàn)在兩個(gè)方面:一是在轉(zhuǎn)換查詢語(yǔ)言時(shí),對(duì)提問(wèn)式進(jìn)行分詞和概念提取,并與多語(yǔ)本體庫(kù)中的內(nèi)涵進(jìn)行對(duì)比,根據(jù)不同對(duì)應(yīng)情況作不同處理;二是在多語(yǔ)言信息檢索時(shí),對(duì)檢索對(duì)象進(jìn)行語(yǔ)義層面的處理,計(jì)算潛在文檔與查詢提問(wèn)式之間的語(yǔ)義相關(guān)性,并按從高到低的順序排列,將查詢結(jié)果返還給用戶。
3.2.2 基于多語(yǔ)本體的查詢擴(kuò)展模型
定義用戶的初始查詢?yōu)镼,對(duì)Q進(jìn)行分詞、提取概念等預(yù)處理后可表示為Q={q1,q2,q3,…,qn},然后判斷Q={q1,q2,q3,…,qn}的查詢模式類型,按照不同的算法借助多語(yǔ)本體庫(kù)進(jìn)行語(yǔ)義擴(kuò)展,得到候選查詢擴(kuò)展詞集Qe={qn+1,qn+2,qn+3,…,qn+n},計(jì)算初始查詢?cè)~qi與Qe中的每個(gè)候選擴(kuò)展詞qn+i之間的相似度sim(qi,qn+i)。為了避免查詢擴(kuò)展詞過(guò)多而影響查詢擴(kuò)展的精度和檢索結(jié)果的查準(zhǔn)率,引入閾值λ(通過(guò)實(shí)驗(yàn)得到)來(lái)對(duì)擴(kuò)展詞進(jìn)行一定的控制。比較每個(gè)sim(qi,qn+i)值與給定閾值λ的大小,并保留Qe中sim(qi,qn+i)>λ的擴(kuò)展詞qn+i,作為最終的查詢擴(kuò)展詞集。根據(jù)以上描述,基于多語(yǔ)本體的查詢擴(kuò)展模型如圖1所示。
圖1 基于多語(yǔ)本體的查詢擴(kuò)展模型
(1)查詢預(yù)處理
即接收用戶輸入的查詢?cè)~,并進(jìn)行分詞、切詞、句法語(yǔ)義關(guān)聯(lián)分析、提取概念、去除停用詞及多余符號(hào)等預(yù)處理,得到有檢索意義的關(guān)鍵詞集合Q= {q1,q2,q3,…,qn}。在預(yù)處理查詢之前,應(yīng)當(dāng)在一定程度上了解用戶的查詢行為。如在查詢?cè)~方面,用戶輸入查詢?cè)~時(shí)雖各有偏好,但大致可歸納為三類:①單個(gè)關(guān)鍵詞查詢;②多個(gè)關(guān)鍵詞查詢;③自然語(yǔ)言查詢,可分別以“杜鵑花”“湖濱杜鵑花”“武漢大學(xué)湖濱有杜鵑花嗎?”為例。了解用戶的查詢行為,有助于對(duì)用戶輸入的初始查詢?cè)~進(jìn)行有效處理。
(2)語(yǔ)義查詢擴(kuò)展
對(duì)用戶查詢預(yù)處理后,判斷Q={q1,q2,q3,…,qn}的查詢模式類型。用戶的查詢模式主要分為3種類型:一是T1,2,…n模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}不是多語(yǔ)本體中的概念或者實(shí)例;二是O1,2,…n模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}是多語(yǔ)本體中的概念或者實(shí)例;三是T1,2,…n+O1,2,…n模式,也稱混合模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}既有多語(yǔ)本體中的概念或者實(shí)例,也包含不在本體庫(kù)中的詞匯[7]。根據(jù)用戶不同的查詢模式,借助多語(yǔ)本體運(yùn)用不同方法完成語(yǔ)義擴(kuò)展。
①T1,2,…n模式的語(yǔ)義查詢擴(kuò)展
查詢關(guān)鍵詞不在多語(yǔ)本體中,使用詞典翻譯關(guān)鍵詞ti,采用基于關(guān)鍵詞匹配的方法檢索,獲取每一個(gè)ti的相關(guān)文檔,并統(tǒng)計(jì)這些文檔中出現(xiàn)的ti和本體概念及其各自出現(xiàn)的頻次,選擇前n個(gè)本體概念作為擴(kuò)展概念,并完成對(duì)普通關(guān)鍵詞的擴(kuò)展。其基本思想是每個(gè)關(guān)鍵詞常常會(huì)出現(xiàn)在某個(gè)相應(yīng)的語(yǔ)境中,在該語(yǔ)境中同時(shí)出現(xiàn)的詞往往與查詢關(guān)鍵詞有著密切的關(guān)聯(lián),同理,在該語(yǔ)境中出現(xiàn)的本體概念也與查詢關(guān)鍵詞有某種聯(lián)系[8]。通過(guò)這樣的方式把用戶輸入的普通關(guān)鍵詞語(yǔ)義化,這些本體概念作為關(guān)鍵詞的擴(kuò)展詞也有著相當(dāng)?shù)恼Z(yǔ)義價(jià)值。
②O1,2,…n模式的語(yǔ)義查詢擴(kuò)展
直接將查詢?cè)~與多語(yǔ)本體庫(kù)中概念的內(nèi)涵進(jìn)行映射,找出合適的本體概念以及相關(guān)的術(shù)語(yǔ)、關(guān)系、實(shí)例等。由于在多語(yǔ)本體中,不同語(yǔ)種的概念術(shù)語(yǔ)通過(guò)映射進(jìn)行了關(guān)聯(lián),當(dāng)用戶輸入一種語(yǔ)言的查詢語(yǔ)句時(shí),系統(tǒng)在源語(yǔ)言本體庫(kù)中檢索對(duì)應(yīng)結(jié)果,系統(tǒng)可以自動(dòng)映射到其他語(yǔ)種,搜索與目標(biāo)語(yǔ)言概念相同或相近的結(jié)果反饋給用戶。例如,若以中文、英文和日文建立珞珈山植物多語(yǔ)本體庫(kù),用戶輸入中文關(guān)鍵詞“映山紅”,系統(tǒng)首先調(diào)用中文庫(kù),與本體中的術(shù)語(yǔ)進(jìn)行匹配,把“杜鵑”“山石榴”“唐杜娟”等同義詞匯選出來(lái),再把與這些詞匯相關(guān)的上級(jí)概念、同類概念、地理分布等關(guān)系找出來(lái);利用多語(yǔ)本體的映射關(guān)系找出英文、日文中對(duì)應(yīng)的術(shù)語(yǔ)及其相關(guān)概念,如“rhododendron”“ツツジ”等,系統(tǒng)以"映山紅"及其中文、英文、日文三種語(yǔ)言的擴(kuò)展詞進(jìn)行檢索,從而實(shí)現(xiàn)語(yǔ)義查詢擴(kuò)展和多語(yǔ)言信息檢索。
③T1,2,…n+O1,2,…n模式的語(yǔ)義查詢擴(kuò)展
此模式是上述兩種模式混合的情況。在用戶的查詢中既有多語(yǔ)本體中的概念,也有多語(yǔ)本體不能直接處理的普通關(guān)鍵詞。這種模式有兩種情況,第一種是T1,2,…,n中的信息與O1,2,…,n中的屬性的取值相關(guān),第二種是T1,2,…,n中的信息與O1,2,…,n中的屬性的取值并不相關(guān)[8]。仍以珞珈山植物多語(yǔ)本體庫(kù)為例,如在“湖濱有杜鵑花嗎?”查詢中,“杜鵑花”是多語(yǔ)本體庫(kù)中的概念,“湖濱”是杜鵑花地理分布范圍的值,可在多語(yǔ)本體庫(kù)中找出這一關(guān)系,返還給用戶相關(guān)文檔;而在“rhododendron DuFu”查詢中,“rhododendron”是多語(yǔ)本體庫(kù)中的概念,“DuFu”則不在本體庫(kù)中,運(yùn)用多語(yǔ)本體庫(kù)擴(kuò)展出“rhododendron”的相關(guān)詞“杜鵑”“山石榴”“唐杜娟”“ツツジ”等(O1,2,…n模式),使用詞典找到“DuFu”的對(duì)應(yīng)翻譯詞“杜甫”(T1,2,…n模式),再使用“杜甫”與“rhododendron”及其擴(kuò)展詞匹配檢索,返回用戶需求的信息。
(3)語(yǔ)義相似度計(jì)算
語(yǔ)義相似度是指兩個(gè)詞語(yǔ)在語(yǔ)義層次上的相似程度,即它們?cè)谏舷挛恼Z(yǔ)境中能夠在不改變句法的前提下相互交換的程度[9],其取值在[0,1]之間,兩個(gè)完全相同的詞語(yǔ)語(yǔ)義相似度為1,如“映山紅”和“杜鵑”;兩個(gè)不能互相代替的詞語(yǔ)語(yǔ)義相似度為0,如“映山紅”和“杜甫”等。
當(dāng)要準(zhǔn)確計(jì)算出兩個(gè)概念間的相似度時(shí),首先必須清楚影響語(yǔ)義相似度的因素,主要有:①語(yǔ)義距離Dis(X,Y),即兩個(gè)概念X、Y在層次網(wǎng)中的距離,一般用兩個(gè)概念各自對(duì)應(yīng)的節(jié)點(diǎn)在層次樹中的最短路徑來(lái)衡量。語(yǔ)義距離越小,兩個(gè)概念間的語(yǔ)義相似度越大,Sim(X,Y)值越接近于1,相反,語(yǔ)義距離越大,概念間的語(yǔ)義相似度越小,Sim(X,Y)值越接近于0,兩者呈反比關(guān)系;②概念節(jié)點(diǎn)的深度Depth(X),即概念X在本體中與根節(jié)點(diǎn)的最短長(zhǎng)度,Depth(X)=Lenth(root,X),這里有兩種情境,一是在本體中處于同一層次的概念間的相似度大于不同層次的概念間的相似度,二是當(dāng)語(yǔ)義距離相同時(shí),在本體層次樹中距離根節(jié)點(diǎn)遠(yuǎn)的概念節(jié)點(diǎn)間的相似度大于離根節(jié)點(diǎn)近的概念節(jié)點(diǎn)間的相似度;③概念節(jié)點(diǎn)的寬度Width(X),即概念X在本體中同一層次概念子節(jié)點(diǎn)的數(shù)量,子節(jié)點(diǎn)數(shù)越多,說(shuō)明細(xì)化程度越大,分類越具體,概念間的語(yǔ)義相似度也越大,反之則越小;④語(yǔ)義重合度Match(X,Y),即本體內(nèi)部?jī)筛拍罱Y(jié)點(diǎn)X、Y之間包含相同的上位概念在總節(jié)點(diǎn)中所占的比例,其基本思想是兩個(gè)概念擁有共同父節(jié)點(diǎn)的數(shù)量越多,表明兩者關(guān)聯(lián)度越高,相似度越大。
(4)閾值控制
即引入閾值λ對(duì)擴(kuò)展詞的數(shù)量進(jìn)行一定的控制,以保證查詢擴(kuò)展的精度。閾值λ的值需要通過(guò)實(shí)驗(yàn)獲取。利用語(yǔ)義相似度計(jì)算公式計(jì)算初始查詢?cè)~qi與每個(gè)候選擴(kuò)展詞qn+i之間的相似度sim(qi,qn+i),刪除相似程度低于閾值λ的候選擴(kuò)展詞,同時(shí)保留概念間語(yǔ)義相似度值大于閾值λ的詞匯,形成最終的查詢擴(kuò)展詞集。這樣不僅對(duì)用戶輸入的查詢?cè)~進(jìn)行了語(yǔ)義層面的操作,而且通過(guò)限制搜索范圍避免了查準(zhǔn)率降低的問(wèn)題,從而使查詢擴(kuò)展更符合用戶需求,保證檢索結(jié)果的全面性和精確性。
3.2.3 基于多語(yǔ)本體的查詢擴(kuò)展實(shí)現(xiàn)過(guò)程
綜上,具體的基于多語(yǔ)本體的查詢擴(kuò)展實(shí)現(xiàn)過(guò)程如下:
(1)利用多語(yǔ)詞典等相關(guān)資源和本體構(gòu)建工具建立一個(gè)多語(yǔ)言領(lǐng)域本體庫(kù);
(2)用戶輸入查詢式,系統(tǒng)對(duì)查詢式進(jìn)行分詞、去除停用詞、提取概念等處理,把用戶查詢式表示為Q= {q1,q2,q3,…,qn};
(3)根據(jù)Q={q1,q2,q3,…,qn}所屬的查詢模式類型及其各自的查詢擴(kuò)展算法,借助多語(yǔ)本體庫(kù)進(jìn)行語(yǔ)義擴(kuò)展,將查詢?cè)~與源語(yǔ)言本體庫(kù)中概念的內(nèi)涵進(jìn)行映射,找出合適的本體概念以及相關(guān)的術(shù)語(yǔ),并自動(dòng)映射到其他語(yǔ)種,查找其他語(yǔ)言中相對(duì)應(yīng)的概念,得到包含各語(yǔ)種的查詢擴(kuò)展詞集Qe={qn+1,qn+2,qn+3,…,qn+n};
(4)利用語(yǔ)義相似度公式計(jì)算出初始查詢?cè)~qi與每個(gè)候選擴(kuò)展詞qn+i之間的相似度sim(qi,qn+i),并與閾值λ比較,把sim(qi,qn+i)>λ的詞匯加入到擴(kuò)展詞集中;
(5)將最終查詢式Q∪Qe提交給搜索引擎實(shí)施檢索。
筆者在傳統(tǒng)跨語(yǔ)言信息檢索的基礎(chǔ)上提出一種基于多語(yǔ)本體的查詢擴(kuò)展方法,描述了多語(yǔ)本體在跨語(yǔ)言信息檢索中的應(yīng)用原理,建立并詳細(xì)介紹了基于多語(yǔ)本體的查詢擴(kuò)展模型,使跨語(yǔ)言信息檢索由關(guān)鍵詞匹配進(jìn)化為語(yǔ)義匹配,能夠在一定程度上改善信息檢索性能,實(shí)現(xiàn)多語(yǔ)言信息檢索的語(yǔ)義擴(kuò)展,有效提高獲取全球知識(shí)的效率。將該方法運(yùn)用于跨語(yǔ)言信息檢索的前提是要建立一個(gè)優(yōu)秀的多語(yǔ)本體庫(kù),并設(shè)計(jì)合適的算法,本文尚未使用實(shí)際的系統(tǒng)進(jìn)行實(shí)驗(yàn)以驗(yàn)證該方法的有效性,有待我們?cè)谙乱徊降难芯抗ぷ髦羞M(jìn)行實(shí)現(xiàn)。
[1] 胡保祥.基于查詢?nèi)罩镜牟樵償U(kuò)展研究[D].北京:北京郵電大學(xué),2013.
[2] 司莉.信息組織原理與方法[M].武漢:武漢大學(xué)出版社,2011:269.
[3] 吳丹,王惠臨.本體在跨語(yǔ)言信息檢索中的應(yīng)用機(jī)制研究[J].圖書情報(bào)工作,2006,50(9):10-13.
[4] Vossen P J. EuroWordNet: Building a multilingual database with wordnets for several European languages. [EB/OL]. [2015-11-20]. http://www.illc.uva.nl/EuroWordNet/.
[5] 董振東.《知網(wǎng)》中文版[EB/OL]. [2015-11-20]. http://www.keenage. com/html/c_index.html.
[6] 吳丹.本體驅(qū)動(dòng)的跨語(yǔ)言信息檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006(5):22-26,85.
[7] 王進(jìn),陳恩紅,張振亞,等.基于本體的跨語(yǔ)言信息檢索模型[J].中文信息學(xué)報(bào),2004(3):1-8,60.
[8] 高敏.基于本體的語(yǔ)義查詢擴(kuò)展研究[D].濟(jì)南:山東科技大學(xué),2008.
[9] 譚睿哲.基于本體和用戶日志的查詢擴(kuò)展研究[D].長(zhǎng)沙:湖南大學(xué),2013.
潘秋玉,女,1991年生,武漢大學(xué)信息管理學(xué)院碩士研究生,研究方向:信息組織。
Semantic Query Expansion Based on Multilingual Ontology
SI Li1, PAN QiuYu2
(1. The Center for the Study of Information Resources, Wuhan University, Wuhan 430072, China;2. School of Information Management, Wuhan University, Wuhan 430072, China)
Query expansion is an effective method to enhance information retrieval performance. Aiming at the requirements of acquiring multilingual information and solving the problems of semantic disambiguation of cross language information retrieval (CLIR), the article proposed a new semantic query expansion method based on multilingual ontology, and introduced its fundamentals, model and realization process, to turn character-matching into semantic matching for CLIR, implementing query expansion in CLIR, which may optimize system's recall and precision.
Query Expansion; Multilingual Ontology; Cross Language Information Retrieval (CLIR)
TP391
10.3772/j.issn.1673-2286.2016.2.006
* 本研究得到教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目“基于內(nèi)容的多語(yǔ)言信息組織與檢索研究”(編號(hào):14JJD870001)資助。
司莉,女,1965年生,武漢大學(xué)信息資源研究中心研究員,武漢大學(xué)信息管理學(xué)院教授、博導(dǎo)、圖書館學(xué)系主任,研究方向:信息組織、知識(shí)組織、圖書館營(yíng)銷與服務(wù)等,E-mail:lsiwhu@163.com。
2016-01-15)