国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合句子級(jí)別檢索的信息檢索模型

2016-05-04 03:11:28左家莉王明文吳水秀萬劍怡
中文信息學(xué)報(bào) 2016年2期
關(guān)鍵詞:信息檢索度量級(jí)別

左家莉,王明文,吳水秀,萬劍怡

(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)

結(jié)合句子級(jí)別檢索的信息檢索模型

左家莉,王明文,吳水秀,萬劍怡

(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)

查詢?cè)~之間的距離較為接近的文檔,相關(guān)的可能性更大,將這種距離信息用于信息檢索模型的構(gòu)造可有效提高檢索的性能。然而直接估計(jì)查詢?cè)~在文檔中的距離需要大量的訓(xùn)練文本,且計(jì)算復(fù)雜度高。該文提出了一種結(jié)合句子級(jí)別檢索的信息檢索模型,將文檔分為若干個(gè)窗口,通過計(jì)算句子和查詢的相關(guān)度考察查詢?cè)~在給定窗口中的共現(xiàn)性,該方法可增大那些查詢?cè)~彼此靠近的文檔的相關(guān)度,從而使得檢索模型可返回更為相關(guān)的文檔。標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明所提出的模型可以取得較好的性能。

信息檢索模型;句子級(jí)別檢索,句子相關(guān)度

1 引言

隨著因特網(wǎng)的快速發(fā)展和全球化進(jìn)程的加快,互聯(lián)網(wǎng)信息資源呈爆炸式的增長。信息檢索也因此成為應(yīng)對(duì)海量信息挑戰(zhàn)的關(guān)鍵技術(shù),為人們有效利用網(wǎng)絡(luò)信息起著至關(guān)重要的作用,在最近幾十年里得到了眾多關(guān)注和長足的發(fā)展。信息檢索模型作為信息檢索領(lǐng)域的核心問題,直接決定信息檢索的性能,也是研究者們關(guān)注的焦點(diǎn)。近年來,很多經(jīng)典的信息檢索模型,諸如布爾模型[1]、向量空間模型[2-5]、經(jīng)典概率模型[6-10]、統(tǒng)計(jì)語言模型[11-13]等,已有成熟的研究和應(yīng)用。盡管如此,若想要提高用戶滿意度,仍需改進(jìn)檢索模型,以獲得更好的檢索結(jié)果。

本質(zhì)而言,信息檢索的目標(biāo)在于盡可能將相關(guān)文檔返回給用戶,并使得相關(guān)度大的文檔排序靠前?,F(xiàn)有的模型大多基于索引項(xiàng)詞頻tf與逆文檔頻率idf[13-14],并結(jié)合文檔長度等信息[14],通過計(jì)算文檔和查詢之間的匹配程度,獲得計(jì)算文檔和查詢之間的相關(guān)度,并按照相關(guān)度大小對(duì)文檔進(jìn)行排序。在實(shí)際的應(yīng)用中,常常會(huì)出現(xiàn)類似這樣的狀況:一些文檔由于包含相同數(shù)量的查詢?cè)~,且文檔長度接近,檢索模型計(jì)算文檔的相關(guān)度大小相同,然而這些文檔真實(shí)的相似度往往差別很大。原因在于,為描述信息需求,用戶會(huì)使用多個(gè)查詢?cè)~構(gòu)造查詢,由于大多數(shù)詞往往含有多個(gè)語義,某個(gè)查詢?cè)~在文檔中的語義和其在查詢中的語義可能并不一致,而傳統(tǒng)的檢索模型會(huì)因?yàn)槲臋n包含了查詢?cè)~而將其判為相關(guān),這使得一些不相關(guān)文檔被判為相關(guān)返回給用戶,降低了檢索的精度。若要直接分析詞的語義,將語義信息加入至檢索模型,會(huì)增加檢索模型的復(fù)雜度,且語義信息并不易于處理,反而有可能影響檢索的性能。

正如一些研究者所言:相關(guān)文檔是那些包含所有查詢項(xiàng),且查詢項(xiàng)彼此緊密相連的文檔[14]。也即,查詢?cè)~出現(xiàn)更為緊密的文檔,換而言之,查詢?cè)~之間距離更為接近的文檔,其與查詢相關(guān)的可能性更大。實(shí)際上,基于語言學(xué)的角度,我們知道詞語會(huì)因?yàn)楸舜酥g的特殊相連而影響其各自的語義,若兩個(gè)或多個(gè)查詢?cè)~在某篇文檔中出現(xiàn)較為緊密,則這些查詢?cè)~在文檔中的語義也應(yīng)較為相關(guān),并且,與其在查詢中的語義一致的可能性會(huì)加大,那么文檔與查詢相關(guān)的可能性也就更大。因而,查詢?cè)~在文檔中的位置信息有助于檢索模型獲得更為準(zhǔn)確的相關(guān)性判斷。

已有一些研究將查詢?cè)~之間的位置關(guān)系應(yīng)用到統(tǒng)計(jì)語言模型中,其主要的處理方法是在建模時(shí)估計(jì)查詢?cè)~之間的位置關(guān)系。上述檢索模型由于考慮了查詢?cè)~在文檔中的位置關(guān)系,檢索的性能得到了提升[15-16]。然而,其需要估計(jì)的參數(shù)太多,往往需要大量的訓(xùn)練文檔集,且計(jì)算復(fù)雜度高。

本文提出了一種結(jié)合句子級(jí)別檢索的信息檢索模型,該模型不直接估計(jì)查詢?cè)~之間的位置關(guān)系。而是采用另一種方式,將文檔分為若干個(gè)窗口,考察查詢?cè)~在給定窗口中的共現(xiàn)性,來加權(quán)文檔與查詢的相關(guān)度。本文將窗口的大小設(shè)定為句子,計(jì)算每個(gè)句子和查詢的相關(guān)度,并將其加入至檢索模型中,文檔中查詢?cè)~彼此靠近,則其句子和查詢非常相關(guān),模型可使得該文檔的相關(guān)度更大。這種方式計(jì)算簡單且易于實(shí)現(xiàn)。

論文按以下幾個(gè)部分展開,第二部分介紹論文的主要思想;第三部分是句子的相關(guān)度計(jì)算方法;第四部分介紹本文提出的結(jié)合句子級(jí)別檢索的信息檢索模型;第五部分是實(shí)驗(yàn)和結(jié)果分析;第六部分進(jìn)行總結(jié)和展望。

2 相關(guān)研究

信息檢索模型的目的是根據(jù)用戶的查詢從文檔集合中檢索出相關(guān)文檔返回給用戶。檢索模型需計(jì)算查詢和文檔的相關(guān)度,盡可能返回相關(guān)文檔。為提高檢索性能,文獻(xiàn)[15]中提出了位置語言模型,將查詢?cè)~之間位置信息加入至語言模型中。其具體思路是估計(jì)文檔D中的位置i出現(xiàn)詞w的概率p(w|D,i)。最為簡單的p(w|D,i)估計(jì)方法是使用頻率方法:將詞w在位置i出現(xiàn)的次數(shù)記為c(w,i)除以位置i上所有詞w出現(xiàn)的總次數(shù)。

最為關(guān)鍵是獲得c(w,i),若c(w,i)僅取0和1用于表示詞w在位置i出現(xiàn)與否,則過于簡單和粗糙,為獲得更好的檢索結(jié)果,文獻(xiàn)[15]修正了對(duì)c(w,i)的計(jì)算,具體的計(jì)算基于:(1)若詞w文檔D中位置j也出現(xiàn),則詞w在位置i的出現(xiàn)次數(shù)要小于1; (2)文檔D中與位置i最為越近的位置j,其對(duì)位置i的“貢獻(xiàn)次數(shù)”應(yīng)該越大,權(quán)重函數(shù)k(i,j)被用來度量位置j對(duì)于位置i的貢獻(xiàn),若位置j與位置i越接近,k(i,j)取值就越大。由于k(i,j)的計(jì)算是基于詞與詞的位置關(guān)系計(jì)算,未考慮詞與詞之間的語義關(guān)系?;诖?,文獻(xiàn)[16]提出了一種結(jié)合語義的位置語言模型,利用互信息來度量詞與詞的語義關(guān)系。上述模型由于考慮了詞之間的位置關(guān)系,取得了較好的結(jié)果,但是均需要大量的訓(xùn)練文檔,計(jì)算復(fù)雜度較高。

3 句子相關(guān)度模型

3.1 本文思想

給定某個(gè)查詢,相關(guān)文檔中查詢?cè)~應(yīng)靠近彼此,也即這些查詢?cè)~在相關(guān)文檔中應(yīng)集中出現(xiàn),若將文檔分為若干個(gè)窗口,則查詢?cè)~應(yīng)在這些特定窗口中同時(shí)出現(xiàn)?;谏鲜鏊枷?,考察查詢?cè)~之間的位置關(guān)系,可轉(zhuǎn)化為考察查詢?cè)~在給定窗口中的共現(xiàn)性。若某篇文檔中存在多個(gè)查詢?cè)~在給定窗口中同時(shí)出現(xiàn),則查詢?cè)~在該文檔中的位置彼此靠近,其為相關(guān)文檔的可能性就會(huì)增大。

由于句子可表達(dá)完整的意思,同一個(gè)句子中出現(xiàn)的詞存在著較強(qiáng)的語義關(guān)系。前期工作中,我們發(fā)現(xiàn)查詢?cè)~在句子中的共現(xiàn)性可有助于提高檢索的性能[17,18],因而本文選取句子作為窗口,構(gòu)造結(jié)合句子級(jí)別檢索的檢索模型。首先構(gòu)建句子相關(guān)度模型計(jì)算句子與查詢之間的相關(guān)度,以度量查詢?cè)~在文檔中的共現(xiàn)度。進(jìn)一步結(jié)合傳統(tǒng)的文檔相關(guān)度模型,構(gòu)建基于句子的文檔相關(guān)度模型。

3.2 句子相關(guān)度模型

首先需要構(gòu)造句子相關(guān)度模型Score(Q,S),以度量查詢?cè)~在句子中的共現(xiàn)度。句子中包含查詢?cè)~,則句子與查詢相關(guān),句子中包含的查詢?cè)~的數(shù)量越多,該文檔與查詢的相關(guān)性就越大。我們通過式(1)來計(jì)算句子與查詢的相關(guān)度:

(1)

其中:

(2)

3.3 基于句子的文檔相關(guān)度模型

獲得句子相關(guān)度Score(Q,S)之后,就可構(gòu)造基于句子的文檔相關(guān)度模型Scoresen(Q,D),本文構(gòu)造了以下三種模型。

3.3.1 模型1

(3)

模型1將文檔中每個(gè)句子的Score(Q,S)進(jìn)行累加獲得Scoresen(Q,D),可加強(qiáng)那些包含多個(gè)查詢?cè)~的文檔的相關(guān)度。

3.3.2 模型2

Scoresen(Q,D)=

(4)

Scoresen(Q,D)=

(5)

模型1可能會(huì)使得某些長文檔獲得較高的相關(guān)度,為消除文檔長度的影響,本文構(gòu)造了模型2,分別將文檔的句子個(gè)數(shù)和相關(guān)句子的個(gè)數(shù)作為長度因子加入至模型中。

3.3.3 模型3

(6)

模型3取一篇文檔中的最大Score(Q,S)作為Scoresen(Q,D),即我們希望在相關(guān)文檔中,查詢?cè)~盡可能集中出現(xiàn)在某些句子中。

上述模型中,模型2將文檔的句子個(gè)數(shù)作為長度因子,可以避免一些長文檔獲得較高的相關(guān)度;而將相關(guān)句子的個(gè)數(shù)作為長度因子,會(huì)使得查詢?cè)~集中出現(xiàn)的文檔的相關(guān)度更大。而模型3只在文檔中存在某個(gè)句子包含了多個(gè)查詢?cè)~的情況下,才會(huì)使得該文檔具有較大的Scoresen(Q,D)值。

4 結(jié)合句子級(jí)別檢索的信息檢索模型

考慮到傳統(tǒng)的文檔級(jí)別的檢索模型已取得了較好的性能,且僅使用Scoresen(Q,D)度量文檔的相關(guān)度不一定能確保相關(guān)文檔被檢出,因而本文構(gòu)造的基于句子級(jí)別檢索的信息檢索模型,是在傳統(tǒng)的檢索模型的基礎(chǔ)上,加入了句子相關(guān)度Scoresen(Q,D)。

本文的文檔相關(guān)度模型Score(Q,D)將包含兩部分:經(jīng)典的文檔級(jí)別的相關(guān)度Scoredoc(Q,D)和句子級(jí)別的文檔相關(guān)度Scoresen(Q,D)。

(7)

式(7)中λ1+λ2=1。公式表明,若在某篇文檔中,查詢?cè)~在句子中的共現(xiàn)度較大,則模型會(huì)給予這些文檔更大的相關(guān)度。實(shí)驗(yàn)部分我們將考察Scoresen(Q,D)和Scoredoc(Q,D)對(duì)檢索結(jié)果的影響。

5 實(shí)驗(yàn)

5.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文在標(biāo)準(zhǔn)數(shù)據(jù)集Med、Cran和Cisi上進(jìn)行實(shí)驗(yàn)。其中,Med為醫(yī)學(xué)數(shù)據(jù)集,包含1 033篇文檔、8 567個(gè)詞和30個(gè)查詢,Cran為航空數(shù)據(jù)集,包含1 398篇文檔、4 873個(gè)詞和223個(gè)查詢,Cisi為圖書館科學(xué)數(shù)據(jù)集,包含1 460篇文檔,5 254個(gè)索引項(xiàng)和76個(gè)查詢。我們對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理,提取每篇文檔中的和<BODY>部分的內(nèi)容;對(duì)<TITLE>和<BODY>中的內(nèi)容過濾非法字符(包括標(biāo)點(diǎn)符號(hào)和阿拉伯?dāng)?shù)字等),只保留我們需要的英文單詞,然后將英文字母全部轉(zhuǎn)換成小寫形式;根據(jù)標(biāo)準(zhǔn)的英文停用詞表,對(duì)所得文本去停用詞并采用PorterStemmer算法進(jìn)行詞干化處理。采用的評(píng)價(jià)指標(biāo)分別是MAP和P@N(N=10,20)。</p><p>5.2 基準(zhǔn)模型</p><p>基準(zhǔn)模型選取BM25和統(tǒng)計(jì)語言模型(Dirichlet分布,參數(shù)取1000)為特征函數(shù)[19],并和前期研究中提出的基于Markov網(wǎng)絡(luò)表示的信息檢索模型(MNR模型)進(jìn)行比較[17,18]。</p><p>5.3 實(shí)驗(yàn)結(jié)果及分析</p><p>表1~表3中給出了詳細(xì)的實(shí)驗(yàn)結(jié)果。本文所提出的模型表示為SRIR,基于模型1、模型2和模型3的檢索模型分別表示為SRIR1、SRIR2和SRIR3,由于模型2有兩種計(jì)算方法,故分別用SRIR2-1和SRIR2-2表示,最優(yōu)結(jié)果加粗顯示。</p><p><img src="https://cimg.fx361.com/images/2023/0213/d33bf610203315ae8ba71a9e3af70e21b9a2192f.webp"/></p><p>表1 各模型實(shí)驗(yàn)結(jié)果對(duì)比(數(shù)據(jù)集為Med)</p><p><img src="https://cimg.fx361.com/images/2023/0213/d6d2396c7817bbfdb82c52618834681c746c18ad.webp"/></p><p>表2 各模型實(shí)驗(yàn)結(jié)果對(duì)比(數(shù)據(jù)集為Cran)</p><p><img src="https://cimg.fx361.com/images/2023/0213/683dab2f381c247a676d79dfd53fb099c168a727.webp"/></p><p>表3 各模型實(shí)驗(yàn)結(jié)果對(duì)比(數(shù)據(jù)集為Cisi)</p><p>表1~表3的結(jié)果表明本文所提出的模型相較于基準(zhǔn)模型和MNR模型平均有10%~20%的性能提升,這說明模型是非常有效的。SRIR1模型在Cisi和Cran兩個(gè)數(shù)據(jù)集上取得了最好的結(jié)果,而SRIR3模型在Med數(shù)據(jù)集上最優(yōu)。SRIR2的兩種不同計(jì)算方法并未表現(xiàn)出較大的差異,這兩種方法雖不及SRIR1和SRIR3,但仍然要優(yōu)于基準(zhǔn)模型,并在大部分情況下要好于MNR模型。模型2兩個(gè)方法的結(jié)果無明顯差異且與MNR模型結(jié)果接近,表明SRIR2并未如我們預(yù)期那樣為相關(guān)文檔加權(quán)。</p><p>在最終的檢索公式(7)中,λ1的值代表Scoredoc(Q,D)和Scoresen(Q,D)的信息量在最終的檢索結(jié)果中分別所占的比重,為進(jìn)一步考察λ1的選取對(duì)檢索結(jié)果的影響,我們?cè)贛ed數(shù)據(jù)集上對(duì)SIR1和SRIR3,在Cran和Cisi對(duì)SRIR1模型上進(jìn)行了實(shí)驗(yàn),比較了不同的參數(shù)取值對(duì)最終檢索結(jié)果的影響,結(jié)果顯示在圖1中。</p><p>結(jié)果顯示,SRIR1和SRIR3最優(yōu)結(jié)果的λ1取值均大于0.5,且隨著λ1的值減小,λ2增大,檢索的性能有所提升,一旦λ2的值增大到某個(gè)值,檢索的性能又會(huì)有所下降。在Med和Cran數(shù)據(jù)集上,SRIR3在λ1取0時(shí),也即僅使用模型3所得到的檢索結(jié)果要優(yōu)于LM模型。式(6)顯示,這種方式實(shí)際上僅使用文檔中與查詢最為相關(guān)的句子的相關(guān)度來度量一個(gè)文檔的相關(guān)度,這表明在大多數(shù)的相關(guān)文檔中,查詢?cè)~往往會(huì)集中出現(xiàn),因而模型3可較好地度量文檔的相關(guān)度。然而整體最優(yōu)的結(jié)果大多是SRIR1,也即,單獨(dú)使用模型1的結(jié)果雖然不如模型3,但是模型1若加入基于文檔級(jí)別的模型,就可更好地度量文檔的相關(guān)度,表明所有的查詢?cè)~可能并不全集中在一個(gè)句子中,一個(gè)文檔是否和查詢相關(guān),不僅文檔中需存在于查詢相關(guān)的單個(gè)部分如句子,文檔整體也必須與查詢相關(guān)。</p><p><img src="https://cimg.fx361.com/images/2023/0213/2aff506abc3602d6a45d1b86819c79573033c131.webp"/></p><p>圖1 參數(shù)λ1取值對(duì)檢索結(jié)果的影響左上(a)和右上(b)分別為Med數(shù)據(jù)集上的SRIR1和SRIR3模型結(jié)果,左下(c) 右下(d)分別為Cran和Cisi數(shù)據(jù)集上的SRIR1模型結(jié)果</p><p>SRIR2的檢索結(jié)果雖優(yōu)于基準(zhǔn)模型,但并不比MNR模型表現(xiàn)出更好的性能,這是由于MNR模型考慮了索引項(xiàng)之間的相關(guān)性信息,SRIR2模型中也加入了句子的個(gè)數(shù)作為長度因子,效果和MNR模型接近,因而兩個(gè)模型沒有明顯的性能差異?;诖耍覀兛梢赃@樣設(shè)想:相關(guān)文檔可能存在一些區(qū)別于不相關(guān)文檔的性質(zhì),在構(gòu)造檢索模型時(shí)可以考慮這些性質(zhì),使得檢索模型能給予相關(guān)文檔更大的相關(guān)度,從而獲得良好的檢索性能。模型1、模型2和模型3給出了不同的句子相關(guān)度的度量方法,每一種模型顯然都只能較好地度量某一類相關(guān)文檔,那么,是否組合這三個(gè)模型能使得檢索模型更好地區(qū)分相關(guān)文檔,在以后的研究中也可以進(jìn)一步探討。</p><p>圖1(a)和1(b)顯示,在考察SRIRI1和SRIR3中參數(shù)λ1的選取對(duì)最終檢索結(jié)果的影響時(shí),我們選擇了不同的標(biāo)度,這是由于SRIR3中的Scoresen(Q,D)要小于SRIR1所加入的Scoresen(Q,D),若要使得Scoredoc(Q,D)能在SRIR3模型的檢索結(jié)果中獲得更大的權(quán)重,SRIR3模型中最優(yōu)的λ1取值要略大一些。因此,為了能更好地表明λ1對(duì)檢索結(jié)果的影響,我們采取了兩種標(biāo)度進(jìn)行實(shí)驗(yàn)。</p><h2>6 總結(jié)與展望</h2><p>已有研究表明將查詢?cè)~在文檔中的位置關(guān)系應(yīng)用于檢索模型中,可有效提升信息檢索的性能。然而這需要估計(jì)大量的參數(shù),因而需要較多的訓(xùn)練文檔集,且計(jì)算復(fù)雜度高?;诖?,本文提出了一種結(jié)合句子級(jí)別檢索的信息檢索模型,該模型不直接估計(jì)查詢?cè)~之間的位置關(guān)系,而是通過計(jì)算句子與查詢之間的相似度來度量查詢?cè)~在文檔中的共現(xiàn)程度,替代查詢?cè)~在文檔中的位置關(guān)系,上述信息通過構(gòu)造基于句子的文檔相關(guān)度加入檢索模型中,實(shí)驗(yàn)結(jié)果表明所提出的模型具有較好的性能。</p><p>未來,我們將在更大規(guī)模的數(shù)據(jù)集上對(duì)所提出的模型進(jìn)行實(shí)驗(yàn),考慮到文中所提出的句子相關(guān)度模型從不同側(cè)面考察了查詢?cè)~在文檔中的共現(xiàn)度,我們還可結(jié)合幾個(gè)模型構(gòu)造檢索模型,并進(jìn)一步展開查詢擴(kuò)展的研究。</p><p>[1]ChristopherD.Manning,PrabhakarRaghavan,HinrichSchutze.IntroductiontoInformationretrieval[M].Cambridge:CambridgeUniversityPress, 2009.</p><p>[2]GerardSalton.AutomaticInformationOrganizationandRetrieval[M].NewYork:McGraw-Hill, 1968.</p><p>[3]GeradSalton,AnitaWong,Chung-ShuYang.AVectorSpaceModelforAutomaticIndexing[J].CommunicationsoftheACM, 1975, 18(11):613-620.</p><p>[4]GeradSalton,Chung-ShuYang,ClementTYu.ATheoryofTermImportanceinAutomaticTextAnalysis[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26(1):33-44.</p><p>[5]GerardSalton.TheSmartRetrievalSystem-ExperimentsinAutomaticDocumentProcessing[M].NewJersey:Prentice-Hall, 1971.</p><p>[6]StephenPHarter.AProbabilisticApproachtoAutomaticKeywordIndexing(partI&II)[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26:197-206, 280-289.</p><p>[7]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge,UK, 1981: 35-56.</p><p>[8]NorbertFuhr.ProbabilisticModelsinInformationRetrieval[J].TheComputerJournal, 1992, 35(3):243-255.</p><p>[9]MEMaron,JLKuhns.OnRelevance,ProbabilisticIndexingandInformationRetrieval[J].JournaloftheACM, 1960, 7:216-244.</p><p>[10]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge, 1981: 35-56.</p><p>[11]JayMPonte,WBCroft.ALanguageModelingApproachtoInformationRetrieval[C]//Proceedingsofthe21stAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’98), 1998: 275-281.</p><p>[12]ChengXiangZhai.StatisticalLanguageModelsforInformationRetrieval(SynthesisLecturesSeriesonHumanLanguageTechnologies)[M].SanRafael:Morgan&ClaypoolPublishers, 2008.</p><p>[13]ChengxiangZhai.StatisticalLanguageModelsforInformationRetrieval:ACriticalReview[J].FoundationsandTrendsinInformationRetrieval, 2008,2: 137-215.</p><p>[14] 黃萱菁, 張奇, 邱錫鵬. 現(xiàn)代信息檢索(第二版)[M]. 機(jī)械工業(yè)出版社, 2012.</p><p>[15]YHLv,CXZhai.PositionalRelevanceModelforPseudo-RelevanceFeedback[C]//Proceedingsofthe33rdInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval.Geneva, 2010: 579-586.</p><p>[16] 余偉, 王明文, 萬劍怡,等. 結(jié)合語義的位置語言模型[J]. 北大學(xué)報(bào), 2013, 2: 203-212.</p><p>[17]MIwayama,AFujii,NKando,etal.AnEmpiricalStudyonRetrievalModelsforDifferentDocumentGenres:PatentsandNewspaperAriticles.IntheProceedingsofthe26thACMSpecialInterestGrouponInformationRetrieval(SIGIR03), 2003: 21-25.</p><p>[17]JialiZuo,MingwenWang.AQueryReformulationModelUsingMarkovGraphicMethod[C]//ProceedingsoftheIALP2011.</p><p>[18]JialiZuo,MingwenWang,HaoYe.MarkovGraphicMethodforInformationRetrieval[C]//ProceedingsoftheLNAI, 2011: 487-494.</p><p>Information Retrieval Model Combining Sentence Level Retrieval</p><p>ZUO Jiali, WANG Mingwen, WU Shuixiu, WAN Jianyi</p><p>(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)</p><p>Models exploiting the position and proximity information of query terms in the documents improve the retrieval performance withit’s a high computation complexity. The paper presents an approximation method by compute the relevant degree of the sentence to query, resulting an information retrieval model combining sentence level retrieval. Experiment results show our model can get better performance than baseline models.</p><p>information retrieval model; sentence level retrieval; sentence relevant</p><p><img src="https://cimg.fx361.com/images/2023/0213/2dd95a0a39e8a550be110fefdf506bcc1d7199c0.webp"/></p><p>左家莉(1982—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)樾畔z索、文本挖掘。E?mail:august813cn@hotmail.com王明文(1964—),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。E?mail:mwwang@jxnu.edu.cn吳水秀(1975—),碩士,副教授,主要研究領(lǐng)域?yàn)樾畔z索、分布式數(shù)據(jù)庫。E?mail:18970829895@189.cn</p><p>1003-0077(2016)02-0107-06</p><p>2013-08-15 定稿日期: 2014-01-09</p><p>國家自然科學(xué)基金(61462043,61462045,61562042);江西省自然科學(xué)基金(20151BAB217014)</p><p>TP391</p><p>A</p></p> <!-- <div id="syggg00" class="article_pdf"><a >查看pdf文檔請(qǐng)下載app</a></div>--><div id="syggg00" class="article_love"> <div id="syggg00" class="title">猜你喜歡</div> <div id="syggg00" class="article_love_keyword"><span><a href="/tags/b/0/3b5f9af517dfde91/1.html" target="_blank">信息檢索</a></span><span><a href="/tags/4/c/bacfbe10930079e4/1.html" target="_blank">度量</a></span><span><a href="/tags/e/8/c4f8ac783d9502fd/1.html" target="_blank">級(jí)別</a></span></div> <div id="syggg00" class="article_love_news"><dd><a class="txt_title" href="/page/2024/0515/23872170.shtml" target="_blank" title="有趣的度量">有趣的度量</a><div id="syggg00" class="rsorc"><a href="/bk/sxxlt34nj/20242.html" class="ly" title="數(shù)學(xué)小靈通·3-4年級(jí)(2024年2期)">數(shù)學(xué)小靈通·3-4年級(jí)(2024年2期)</a><span id="syggg00" class="txt">2024-05-15 02:02:44</span></div></dd><dd><a class="txt_title" href="/page/2022/0216/17940734.shtml" target="_blank" title="模糊度量空間的強(qiáng)嵌入">模糊度量空間的強(qiáng)嵌入</a><div id="syggg00" class="rsorc"><a href="/bk/sxnkajzwb/20224.html" class="ly" title="數(shù)學(xué)年刊A輯(中文版)(2022年4期)">數(shù)學(xué)年刊A輯(中文版)(2022年4期)</a><span id="syggg00" class="txt">2022-02-16 08:18:02</span></div></dd><dd><a class="txt_title" href="/page/2021/1102/19581851.shtml" target="_blank" title="痘痘分級(jí)別,輕重不一樣">痘痘分級(jí)別,輕重不一樣</a><div id="syggg00" class="rsorc"><a href="/bk/jczyy/20218.html" class="ly" title="基層中醫(yī)藥(2021年8期)">基層中醫(yī)藥(2021年8期)</a><span id="syggg00" class="txt">2021-11-02 06:25:02</span></div></dd><dd><a class="txt_title" href="/page/2019/1008/17483695.shtml" target="_blank" title="迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量">迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量</a><div id="syggg00" class="rsorc"><a href="/bk/sxnkajzwb/20193.html" class="ly" title="數(shù)學(xué)年刊A輯(中文版)(2019年3期)">數(shù)學(xué)年刊A輯(中文版)(2019年3期)</a><span id="syggg00" class="txt">2019-10-08 07:34:38</span></div></dd><dd><a class="txt_title" href="/page/2018/0629/13824776.shtml" target="_blank" title="邁向UHD HDR的“水晶” 十萬元級(jí)別的SIM2 CRYSTAL4 UHD">邁向UHD HDR的“水晶” 十萬元級(jí)別的SIM2 CRYSTAL4 UHD</a><div id="syggg00" class="rsorc"><a href="/bk/jtyyjs/20185.html" class="ly" title="家庭影院技術(shù)(2018年5期)">家庭影院技術(shù)(2018年5期)</a><span id="syggg00" class="txt">2018-06-29 07:42:10</span></div></dd><dd><a class="txt_title" href="/page/2018/0509/13623460.shtml" target="_blank" title="新年導(dǎo)購手冊(cè)之兩萬元以下級(jí)別好物推薦">新年導(dǎo)購手冊(cè)之兩萬元以下級(jí)別好物推薦</a><div id="syggg00" class="rsorc"><a href="/bk/jtyyjs/20183.html" class="ly" title="家庭影院技術(shù)(2018年3期)">家庭影院技術(shù)(2018年3期)</a><span id="syggg00" class="txt">2018-05-09 07:06:12</span></div></dd><dd><a class="txt_title" href="/page/2017/0615/15922067.shtml" target="_blank" title="你是什么級(jí)別的">你是什么級(jí)別的</a><div id="syggg00" class="rsorc"><a href="/bk/zxs/201713.html" class="ly" title="中學(xué)生(2017年13期)">中學(xué)生(2017年13期)</a><span id="syggg00" class="txt">2017-06-15 12:57:48</span></div></dd><dd><a class="txt_title" href="/page/2016/0719/18226393.shtml" target="_blank" title="醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用">醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用</a><div id="syggg00" class="rsorc"><a href="/bk/xwcb/201618.html" class="ly" title="新聞傳播(2016年18期)">新聞傳播(2016年18期)</a><span id="syggg00" class="txt">2016-07-19 10:12:06</span></div></dd><dd><a class="txt_title" href="/page/2016/0228/13848442.shtml" target="_blank" title="基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究">基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究</a><div id="syggg00" class="rsorc"><a href="/bk/xdjsj/201611.html" class="ly" title="現(xiàn)代計(jì)算機(jī)(2016年11期)">現(xiàn)代計(jì)算機(jī)(2016年11期)</a><span id="syggg00" class="txt">2016-02-28 18:35:15</span></div></dd><dd><a class="txt_title" href="/page/2016/0213/17102610.shtml" target="_blank" title="地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別">地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別</a><div id="syggg00" class="rsorc"><a href="/bk/zgxsqkwz/20161.html" class="ly" title="中國學(xué)術(shù)期刊文摘(2016年1期)">中國學(xué)術(shù)期刊文摘(2016年1期)</a><span id="syggg00" class="txt">2016-02-13 14:05:23</span></div></dd></div> </div><div id="syggg00" class="other_pel mt80"> <p class="fl"><a href="/bk/zwxxxb/20162.html" target="_blank"><img src="https://cimg.fx361.com/images/2023/0210/c397f88b2f9addee1649f8fcb52ba89ae4fb9ba2.webp" alt=""></a><span id="syggg00" class="p1"><a href="/bk/zwxxxb/" target="_blank">中文信息學(xué)報(bào)</a></span><span id="syggg00" class="p2"><a href="/bk/zwxxxb/20162.html" target="_blank">2016年2期</a></span></p> <dl class="fl"><dt>中文信息學(xué)報(bào)的其它文章</dt><dd><a href="/page/2016/0504/17029023.shtml" title="一種支持混合語言的并行查詢糾錯(cuò)方法">一種支持混合語言的并行查詢糾錯(cuò)方法</a></dd><dd><a href="/page/2016/0504/17028367.shtml" title="利用社交網(wǎng)絡(luò)的影響力骨架探索信息傳播">利用社交網(wǎng)絡(luò)的影響力骨架探索信息傳播</a></dd><dd><a href="/page/2016/0504/17029855.shtml" title="文本聚類的重構(gòu)策略研究">文本聚類的重構(gòu)策略研究</a></dd><dd><a href="/page/2016/0504/17029797.shtml" title="FPC: 大規(guī)模網(wǎng)頁的快速增量聚類">FPC: 大規(guī)模網(wǎng)頁的快速增量聚類</a></dd><dd><a href="/page/2016/0504/17029742.shtml" title="基于領(lǐng)域知識(shí)抽樣的深網(wǎng)資源采集方法">基于領(lǐng)域知識(shí)抽樣的深網(wǎng)資源采集方法</a></dd><dd><a href="/page/2016/0504/17029655.shtml" title="基于遷移學(xué)習(xí)的蛋白質(zhì)交互關(guān)系抽取">基于遷移學(xué)習(xí)的蛋白質(zhì)交互關(guān)系抽取</a></dd></dl> </div></div> </div> </div> <div id="syggg00" class="sidebarR"> <!-- tab選項(xiàng)卡 --> <div id="syggg00" class="tab01 mb20"><div id="syggg00" class="tabArrow"></div><div id="syggg00" class="tabItem"><div id="syggg00" class="tabTit"><a href="#">雜志排行</a></div> <div id="syggg00" class="tabCont"><ol><li><p class="row01"><span id="syggg00" class="topNum">1</span><a href="/bk/sdjy/202410.html" class="row01a">《師道·教研》</a><span id="syggg00" class="row01_fr"><a href="/bk/sdjy/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">2</span><a href="/bk/swyzhsby/202411.html" class="row01a">《思維與智慧·上半月》</a><span id="syggg00" class="row01_fr"><a href="/bk/swyzhsby/202411.html">2024年11期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">3</span><a href="/bk/xdgyjjhxxh/20242.html" class="row01a">《現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化》</a><span id="syggg00" class="row01_fr"><a href="/bk/xdgyjjhxxh/20242.html">2024年2期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">4</span><a href="/bk/wxxsyb/202410.html" class="row01a">《微型小說月報(bào)》</a><span id="syggg00" class="row01_fr"><a href="/bk/wxxsyb/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">5</span><a href="/bk/gywsw/20241.html" class="row01a">《工業(yè)微生物》</a><span id="syggg00" class="row01_fr"><a href="/bk/gywsw/20241.html">2024年1期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">6</span><a href="/bk/xl/20249.html" class="row01a">《雪蓮》</a><span id="syggg00" class="row01_fr"><a href="/bk/xl/20249.html">2024年9期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">7</span><a href="/bk/sjbl/202421.html" class="row01a">《世界博覽》</a><span id="syggg00" class="row01_fr"><a href="/bk/sjbl/202421.html">2024年21期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">8</span><a href="/bk/zxqyglykj/20246.html" class="row01a">《中小企業(yè)管理與科技》</a><span id="syggg00" class="row01_fr"><a href="/bk/zxqyglykj/20246.html">2024年6期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">9</span><a href="/bk/xdsp/20244.html" class="row01a">《現(xiàn)代食品》</a><span id="syggg00" class="row01_fr"><a href="/bk/xdsp/20244.html">2024年4期</a></span></p></li><li><p class="row01"><span id="syggg00" class="topNum">10</span><a href="/bk/wszyjy/202410.html" class="row01a">《衛(wèi)生職業(yè)教育》</a><span id="syggg00" class="row01_fr"><a href="/bk/wszyjy/202410.html">2024年10期</a></span></p></li></ol> </div></div> </div> </div> <div id="syggg00" class="clr"></div> </div> </div> <!--div class="advertisement"> </div--> <div id="syggg00" class="footer"> <p><a href="/aboutus/index.html">關(guān)于參考網(wǎng)</a></p> </div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/sticky-kit/1.1.3/sticky-kit.min.js"></script> <script type="text/javascript"> document.write('<script src="https://js.fx361.com/index.js"><\/script>'); </script> <footer> <div class="friendship-link"> <p>感谢您访问我们的网站,您可能还对以下资源感兴趣:</p> <div style="position:fixed;left:-9000px;top:-9000px;"></div> <div id="pl_css_ganrao" style="display: none;"></div> <a href="http://m.zgkjsz.com/" title="国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡">国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡</a> <div class="friend-links"> </div> </div> </footer> <a href="http://www.mold-service.com" target="_blank">泾川县</a>| <a href="http://m.0578ly.com" target="_blank">呼和浩特市</a>| <a href="http://m.shhuizi.com" target="_blank">尉犁县</a>| <a href="http://jscjxy.com" target="_blank">望谟县</a>| <a href="http://m.jkjh.net" target="_blank">闽清县</a>| <a href="http://www.hqjiari.com" target="_blank">北川</a>| <a href="http://m.zzhonghai.com" target="_blank">双峰县</a>| <a href="http://www.enterlawyer.com" target="_blank">衢州市</a>| <a href="http://l-sz.com" target="_blank">商水县</a>| <a href="http://m.soft-zy.com" target="_blank">安塞县</a>| <a href="http://www.mosache.com" target="_blank">邢台市</a>| <a href="http://www.hjcargo.net" target="_blank">扶余县</a>| <a href="http://m.juwangbao.com" target="_blank">遂平县</a>| <a href="http://m.wxbjhb.com" target="_blank">新田县</a>| <a href="http://m.xyjlt.com" target="_blank">南澳县</a>| <a href="http://www.liqunhg.com" target="_blank">海丰县</a>| <a href="http://www.cuihx.com" target="_blank">齐河县</a>| <a href="http://www.gasitor.net" target="_blank">嘉鱼县</a>| <a href="http://ly-games.com" target="_blank">安阳县</a>| <a href="http://longhaishihua.com" target="_blank">太康县</a>| <a href="http://ytg365.com" target="_blank">固镇县</a>| <a href="http://starrylai.com" target="_blank">襄汾县</a>| <a href="http://hotoauto.net" target="_blank">家居</a>| <a href="http://zirange.net" target="_blank">雷波县</a>| <a href="http://m.0351edu.com" target="_blank">九江县</a>| <a href="http://m.bjhxyd.com" target="_blank">怀来县</a>| <a href="http://m.henanyuji.com" target="_blank">左贡县</a>| <a href="http://www.ttsmkj.com" target="_blank">抚州市</a>| <a href="http://www.hnxihu.com" target="_blank">焉耆</a>| <a href="http://www.make188.com" target="_blank">玉林市</a>| <a href="http://www.hbchijie.com" target="_blank">始兴县</a>| <a href="http://m.yzsscdq.net" target="_blank">松原市</a>| <a href="http://m.norwardstone.com" target="_blank">咸阳市</a>| <a href="http://m.gysqxx.net" target="_blank">阿拉善盟</a>| <a href="http://m.qingdaoxinli.com" target="_blank">东乡族自治县</a>| <a href="http://m.ilhuo.com" target="_blank">曲阜市</a>| <a href="http://dzguanghe.com" target="_blank">临夏市</a>| <a href="http://mlzscq.com" target="_blank">吴堡县</a>| <a href="http://www.gcdehb.com" target="_blank">亚东县</a>| <a href="http://m.jdzzstc.com" target="_blank">石阡县</a>| <a href="http://m.tushutuijian.com" target="_blank">麻江县</a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body><div id="cocso" class="pl_css_ganrao" style="display: none;"><kbd id="cocso"></kbd><blockquote id="cocso"></blockquote><abbr id="cocso"></abbr><dd id="cocso"></dd><optgroup id="cocso"></optgroup><dl id="cocso"></dl><pre id="cocso"><blockquote id="cocso"><dl id="cocso"></dl></blockquote></pre><option id="cocso"></option><object id="cocso"></object><button id="cocso"></button><rt id="cocso"></rt><cite id="cocso"><nav id="cocso"><kbd id="cocso"></kbd></nav></cite><tr id="cocso"></tr><noscript id="cocso"></noscript><xmp id="cocso"></xmp><tr id="cocso"></tr><s id="cocso"><noscript id="cocso"><option id="cocso"></option></noscript></s><tfoot id="cocso"></tfoot><sup id="cocso"></sup><fieldset id="cocso"><optgroup id="cocso"><tr id="cocso"></tr></optgroup></fieldset><del id="cocso"><tr id="cocso"><s id="cocso"></s></tr></del><blockquote id="cocso"></blockquote><noframes id="cocso"><ul id="cocso"><tbody id="cocso"></tbody></ul></noframes><dl id="cocso"></dl><bdo id="cocso"></bdo><noscript id="cocso"></noscript><tbody id="cocso"><pre id="cocso"><blockquote id="cocso"></blockquote></pre></tbody><ul id="cocso"></ul><dd id="cocso"><cite id="cocso"><abbr id="cocso"></abbr></cite></dd><center id="cocso"><dd id="cocso"><cite id="cocso"></cite></dd></center><fieldset id="cocso"></fieldset><noscript id="cocso"></noscript><rt id="cocso"></rt><pre id="cocso"></pre><rt id="cocso"></rt><kbd id="cocso"></kbd><dd id="cocso"><th id="cocso"><nav id="cocso"></nav></th></dd><tbody id="cocso"></tbody><menu id="cocso"></menu><kbd id="cocso"></kbd><bdo id="cocso"></bdo><pre id="cocso"></pre><small id="cocso"></small><ul id="cocso"></ul><tr id="cocso"></tr><tr id="cocso"><pre id="cocso"><center id="cocso"></center></pre></tr><th id="cocso"></th><center id="cocso"><fieldset id="cocso"><optgroup id="cocso"></optgroup></fieldset></center><optgroup id="cocso"></optgroup><option id="cocso"></option></div> </html>