李衛(wèi)疆 王勝 余正濤
摘 要:為解決信息檢索應(yīng)用實(shí)踐中存在用戶表達(dá)查詢請求不夠準(zhǔn)確、文檔與查詢詞不匹配以及查詢優(yōu)化等影響檢索性能的問題,提出一種基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展方法。利用深度學(xué)習(xí)算法為各個(gè)原查詢詞構(gòu)建概念樹,并使用WordNet將這些概念樹向上溯源,建立完整的概念語義空間。以共現(xiàn)信息為特征參數(shù)對擴(kuò)展源進(jìn)行篩選,同時(shí)引入平均互信息及觀察窗口得到相關(guān)度算法,通過共現(xiàn)信息衡量單詞之間的關(guān)聯(lián)度。在TREC數(shù)據(jù)集上的實(shí)驗(yàn)表明:與傳統(tǒng)偽相關(guān)反饋算法的擴(kuò)展質(zhì)量相比,該擴(kuò)展算法有所改進(jìn)。
關(guān)鍵詞:查詢擴(kuò)展;深度學(xué)習(xí);語義空間;平均互信息;相關(guān)度算法
DOI:10.11907/rjdk.172669
中圖分類號:TP301
Abstract:A method of query expansion based on conceptual semantic space with deep learning is proposed to solve the problems which impact query function, such as users' inaccurate query, mismatch between user query and representation of index document and query optimization. We construct conceptual tree for every query word with deep learning and trace the tree upwards in WordNet dictionary to establish complete semantic space. Co-occurrence information is employed as a parameter to filter extended source ; average mutual information and observation window are introduced to get relevance algorithm so that correlation degree between every two words is measured by co-occurrence information. The test on TREC data set shows that compared with traditional pseudo-correlation feedback algorithm, the proposed algorithm has better performance.
Key Words:query expansion; deep learning; semantic space; average mutual information; relevance algorithm
0 引言
隨著因特網(wǎng)的飛速發(fā)展,社會信息化規(guī)模日益壯大,人們對信息獲取的要求更加嚴(yán)格,快速即時(shí)處理海量信息、提高信息檢索的準(zhǔn)確率刻不容緩?;ヂ?lián)網(wǎng)用戶習(xí)慣于通過檢索關(guān)鍵詞查詢信息,因此當(dāng)前主流的商用搜索引擎為給用戶提供一個(gè)簡便的查詢平臺,仍然采用基于關(guān)鍵詞查找方式,但由于用戶表達(dá)查詢請求不夠精確,會返回大量與查詢意愿無關(guān)的結(jié)果[1],因此引入查詢擴(kuò)展概念。
查詢擴(kuò)展是指利用統(tǒng)計(jì)學(xué)、語言學(xué)等方法,找出與原查詢詞的相關(guān)擴(kuò)展詞并加入原查詢組成新的查詢,使其更清楚地表達(dá)用戶的查詢意愿,以改善信息檢索性能。對原查詢進(jìn)行擴(kuò)展可以彌補(bǔ)用戶查詢信息不足的缺陷,解決信息檢索領(lǐng)域“詞不匹配”問題。
如何確定擴(kuò)展詞是查詢擴(kuò)展的關(guān)鍵。由于不同系統(tǒng)實(shí)現(xiàn)方法不同,對其進(jìn)行查詢擴(kuò)展就需要采取不同的方法,通常包含以下幾種:通過人工進(jìn)行的查詢擴(kuò)展,通過系統(tǒng)進(jìn)行輔助的半自動查詢擴(kuò)展和全自動查詢擴(kuò)展。而按照擴(kuò)展詞來源不同,擴(kuò)展方法又分為基于全局分析的、基于局部分析的、基于關(guān)聯(lián)規(guī)則的以及基于用戶查詢?nèi)罩镜牟樵兎椒ā?/p>
1 研究現(xiàn)狀
1960年,Marson和Kuhns[2]根據(jù)詞與詞的相關(guān)性提出概率模型擴(kuò)展用戶查詢,這是最早的概率模型。1965年,Salton教授和學(xué)生創(chuàng)立了向量空間模型并開發(fā)基于向量空間模型的SMART信息檢索系統(tǒng)。同年Rocchio[3]運(yùn)用向量空間查詢擴(kuò)展和詞語重新加權(quán)思想,在Salton的SMART系統(tǒng)中引入了一種相關(guān)反饋算法。1968年,Rocchio和Salton提出了查詢擴(kuò)展方法。1977年,Attar和Fraenkel[4]提出了采用聚類擴(kuò)展查詢的基本概念和觀點(diǎn)。
1981年,Wu和Salton[5]使用相關(guān)反饋從文檔提取概念術(shù)語詞,然后使用概率公式對概念術(shù)語重新加權(quán),再用這些概念術(shù)語進(jìn)行擴(kuò)展查詢。1983年,Croft[6]將內(nèi)文檔頻率引入概率公式,并引入了參數(shù)C和K。
1993年,Qiu和Frei[7]提出使用全局相似性敘詞表進(jìn)行查詢擴(kuò)展并取得了很好的結(jié)果。但是如果用戶輸入的檢索詞有多重含義,該方法會擴(kuò)展一些與用戶查詢意愿不相關(guān)的查詢擴(kuò)展詞,從而造成查詢漂移。因此,Jing與Croft[8]提出了PhraseFinder,它要求所選的擴(kuò)展詞必須與所有查詢詞共現(xiàn)。與僅僅用單個(gè)查詢詞共現(xiàn)相比,多個(gè)查詢詞共現(xiàn)在消除歧義方面更有效。
Agrawal等[9]在1993年首先提出關(guān)聯(lián)規(guī)則概念,一些學(xué)者對此展開了大量研究并提出一些基于關(guān)聯(lián)規(guī)則的查詢擴(kuò)展方法。該方法利用數(shù)據(jù)挖掘技術(shù)挖掘詞之間的關(guān)聯(lián)規(guī)則,擴(kuò)展詞需要從關(guān)聯(lián)規(guī)則的結(jié)論中篩選。該方法解決了局部分析的不穩(wěn)定性,但是擴(kuò)展詞的質(zhì)量依賴于使用的挖掘技術(shù),且關(guān)聯(lián)規(guī)則的形成比較困難。
2003年,崔航提出基于用戶日志的查詢擴(kuò)展,考慮在用戶查詢?nèi)罩旧蠈ふ覕U(kuò)展來源。在用戶查詢記錄的基礎(chǔ)上建立用戶空間,文檔集上建立文檔空間,根據(jù)用戶日志將兩個(gè)空間中的詞按某個(gè)查詢所點(diǎn)擊的文章以條件概率的方式連接起來,當(dāng)新的查詢到來時(shí)選擇相應(yīng)的條件概率最大的文檔用詞加入查詢中[10]。
2003年,Kelly和Teevan[11]為了減少用戶的直接參與,提出通過分析用戶查詢?nèi)罩就茰y用戶查詢意向的一種隱含相關(guān)反饋模型。2007年,S Jung[12]等提出將用戶點(diǎn)擊的網(wǎng)頁作為隱含的相關(guān)反饋,實(shí)驗(yàn)表明該方法對準(zhǔn)確率和召回率都有提高。
深度學(xué)習(xí)是近年的研究熱點(diǎn),被廣泛用來處理各種自然語言處理方向的問題。深度學(xué)習(xí)工具Word2vec是Google將詞表征為實(shí)數(shù)值向量的高效工具[13],其利用深度學(xué)習(xí)思想,通過訓(xùn)練把文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,通過詞之間的距離(比如cosine相似度、歐氏距離等)判斷語義相似度。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)[14-15]方法是最近比較熱門的研究。CNN對句子進(jìn)行掃描,抽取特征、選擇特征,最后組合成句子的語義表示。首先從左到右用一個(gè)滑動窗口對句子進(jìn)行掃描,每個(gè)滑動窗口內(nèi)有多個(gè)單詞,每個(gè)單詞由一個(gè)向量表示。在滑動窗口內(nèi),通過卷積操作抽取特征,這樣在各個(gè)位置上得到一系列特征,之后再通過最大池化操作對特征進(jìn)行選擇。重復(fù)以上操作多次,得到多個(gè)向量表示,進(jìn)而尋找語義關(guān)系。
2 查詢擴(kuò)展
語義概念查詢擴(kuò)展技術(shù)將用戶查詢擴(kuò)展上升到語義概念層次,從根本上貼近用戶查詢意圖,取得了很好的效果。語義概念查詢擴(kuò)展的關(guān)鍵是概念語義空間的構(gòu)建和查詢語義的提取。概念語義空間建立后,就能利用各種方法對原查詢進(jìn)行擴(kuò)展。
本文擬通過概念語義空間對查詢詞進(jìn)行語義擴(kuò)展,解決語義匹配問題。首先利用深度學(xué)習(xí)對文檔進(jìn)行訓(xùn)練,找出與初始查詢詞語義相關(guān)的初始擴(kuò)展詞,再利用WordNet詞典將初始查詢詞與擴(kuò)展詞構(gòu)建概念語義空間,從中提取與原查詢語義相關(guān)的概念。初次查詢得到反饋的前N篇文檔,運(yùn)用觀察窗口模型對其進(jìn)行處理。通過一定閾值與規(guī)則篩選出擴(kuò)展概念,使其更接近用戶查詢意圖,從而提高查準(zhǔn)率。
2.1 概念語義空間構(gòu)建
本文采用深度學(xué)習(xí)工具Word2vec的Skip-gram模型擴(kuò)展初始查詢詞。對整個(gè)文檔集利用Word2vec進(jìn)行訓(xùn)練,用一個(gè)簡單的模型訓(xùn)練出一個(gè)連續(xù)的詞向量?;谠~向量表達(dá)訓(xùn)練一個(gè)簡化連續(xù)的N-gram神經(jīng)網(wǎng)絡(luò)模型即Skip-gram。Skip-gram模型本質(zhì)是計(jì)算輸入詞的input vector與目標(biāo)詞的output vector之間的余弦相似度,并進(jìn)行softmax歸一化。由于余弦相似度大小代表了詞語之間關(guān)系的遠(yuǎn)近,這樣便可根據(jù)余弦相似度找出查詢詞的擴(kuò)展詞。計(jì)算公式如下:
模型如圖1所示,其中q為查詢詞,wi為任意詞。
例:用戶的查詢向量為Q(q1,q2,…,qn),為使用深度學(xué)習(xí)工具對其進(jìn)行語義擴(kuò)展,定義Q中每個(gè)查詢詞qi(0
2.2 初始權(quán)重計(jì)算
確定概念樹規(guī)模以后,為了計(jì)算擴(kuò)展節(jié)點(diǎn)的初始權(quán)重,需要分析概念樹CT中各個(gè)節(jié)點(diǎn)與原查詢節(jié)點(diǎn)之間相關(guān)度。定義原查詢節(jié)點(diǎn)qi的子節(jié)點(diǎn)wi權(quán)重為K-b,其中b為該節(jié)點(diǎn)與其對應(yīng)的原查詢節(jié)點(diǎn)距離,即相對于原查詢節(jié)點(diǎn)層數(shù),原查詢節(jié)點(diǎn)qi的父節(jié)點(diǎn)F權(quán)重為K-2b(b的意義同上)。公共祖先節(jié)點(diǎn)和原查詢節(jié)點(diǎn)的其它父節(jié)點(diǎn)權(quán)重等于其相連的各個(gè)原查詢節(jié)點(diǎn)的權(quán)重之和。該權(quán)值體現(xiàn)公共祖先節(jié)點(diǎn)、原查詢節(jié)點(diǎn)的其它父節(jié)點(diǎn)和與之相連的所有子節(jié)點(diǎn)的關(guān)聯(lián)程度(K=2,n=4,L=1,M=2),如圖2所示。
2.3 擴(kuò)展詞篩選
初始化集合Qe,并引入變量λ,然后遍歷概念樹CT中的每一個(gè)節(jié)點(diǎn)Ti,得到每個(gè)節(jié)點(diǎn)的權(quán)重,將權(quán)重weight_(Ti)>λ的節(jié)點(diǎn)加入集合Qe中,這樣便得到查詢擴(kuò)展詞集合Qe。與此同時(shí),隨著變量λ值的調(diào)整,擴(kuò)展詞集的數(shù)量也隨之改變。
為了使擴(kuò)展詞更真實(shí)貼近用戶查詢意圖,將原查詢詞與篩選的查詢擴(kuò)展詞集Qe進(jìn)行初次檢索,將前N篇最相關(guān)的文檔作為偽反饋的文檔集。
窗口概念多用于基于統(tǒng)計(jì)方法的自然語言處理系統(tǒng)[16]。如果在大規(guī)模語料中兩個(gè)詞頻繁共同出現(xiàn)在同一個(gè)文本窗口中,則認(rèn)為這兩個(gè)詞在語義上是有關(guān)聯(lián)的,并且它們的語義關(guān)聯(lián)程度與共現(xiàn)的頻率呈正相關(guān)。因此,對初始查詢詞與偽相關(guān)文檔集中各詞共現(xiàn)信息進(jìn)行計(jì)算分析,尋找并確定最終的查詢擴(kuò)展詞集。本文將窗口大小定為一篇文檔范圍。
詞與詞的相關(guān)性以詞之間的相似度為基礎(chǔ)。Rosenfeld[17]提出用平均互信息(Average Mutual Information,AMI)評估詞之間的相似度:
c(x)是詞x出現(xiàn)在文檔集中的次數(shù),c(x,y)是詞x和y共現(xiàn)在文檔集同一句子中的次數(shù),利用適當(dāng)?shù)挠?xùn)練集訓(xùn)練,同時(shí)統(tǒng)計(jì)c(x)和c(x,y)數(shù)值,再利用公式(2)進(jìn)行計(jì)算,便可生成詞與詞之間的平均互信息資源。事實(shí)上,即使在同一個(gè)窗口單元中,詞之間的相關(guān)性也不一定相同。通過大量觀察、分析發(fā)現(xiàn),詞與詞之間的相關(guān)程度會隨著詞間距離的增大呈指數(shù)遞減。為此,在公式(2)中引入一個(gè)變量因子eDis(x,y)表達(dá)這種特性,故將詞x和詞y的相似度定義為:
df(xC)表示語料集C出現(xiàn)詞x的文檔個(gè)數(shù),N為語料集C的總文檔數(shù)。加入idf(xC)是為了作為一個(gè)控制因子,防止有些詞重要性不大但在語料出現(xiàn)的頻率卻很高,這樣也會獲得很高的相關(guān)度值。末尾加1作為控制,讓其最小,不會出現(xiàn)0值。
為了篩選擴(kuò)展詞,最后引入相關(guān)度顯著性閾值ε用來篩選相關(guān)度值高(即具有顯著性)的擴(kuò)展詞,ε為0~1的值。當(dāng)Chd(w,Q)>ε時(shí),詞語w就會選為最終查詢擴(kuò)展詞,當(dāng)Chd(w,Q)<ε時(shí),將w剔除。
在基于統(tǒng)計(jì)的自然語言處理系統(tǒng)中,相關(guān)度顯性閾值經(jīng)過多次實(shí)驗(yàn)設(shè)定為[0.7,0.8]時(shí)效果最好,為了使擴(kuò)展范圍盡可能優(yōu)化,可以動態(tài)調(diào)整該閾值達(dá)到人工調(diào)節(jié)擴(kuò)展詞的規(guī)模。
查詢擴(kuò)展詞篩選算法步驟:
輸入:查詢文檔集D 初始查詢詞集Q 初始擴(kuò)展詞集Qe 相關(guān)反饋文檔集S
輸出:最終查詢擴(kuò)展集TQe
利用深度學(xué)習(xí)工具Word2vec訓(xùn)練文檔集,找出與初始查詢詞集Q語義相關(guān)度高的候選擴(kuò)展詞,構(gòu)建概念樹
計(jì)算各節(jié)點(diǎn)的權(quán)值weight,引入閾值λ,將weight>λ的節(jié)點(diǎn)加入初始擴(kuò)展詞集Qe
引入相關(guān)度顯著性閾值ε,根據(jù)當(dāng)前基于統(tǒng)計(jì)的自然語言處理系統(tǒng)中多次經(jīng)驗(yàn)論證,其初始值通常設(shè)定在0.7~0.8之間。將相關(guān)度Chd(w,Q丨S)>ε的詞加入最終查詢擴(kuò)展詞集TQe中,多次調(diào)節(jié)閾值大小進(jìn)行對比實(shí)驗(yàn)。
3 實(shí)驗(yàn)與分析
本文在TREC2&3的Associated Press數(shù)據(jù)集(AP880212-AP901231)上對提出的查詢擴(kuò)展方法進(jìn)行實(shí)驗(yàn),表1列出了測試集合。
實(shí)驗(yàn)采用Google開源深度學(xué)習(xí)工具Word2Vec訓(xùn)練文檔集后,引入候選擴(kuò)展詞,結(jié)果見表2。再利用WordNet提供的接口實(shí)現(xiàn)概念語義空間構(gòu)造。
將得到的擴(kuò)展詞與原查詢詞一起在檢索系統(tǒng)初檢,得到最相關(guān)的N篇偽相關(guān)反饋文檔。根據(jù)觀察窗口大小編程實(shí)現(xiàn)計(jì)算詞相關(guān)度值模型,再對相關(guān)度顯性閾值進(jìn)行動態(tài)調(diào)整,尋找最優(yōu)值。
獲取最終查詢擴(kuò)展詞集后,在AP數(shù)據(jù)集進(jìn)行檢索。將傳統(tǒng)非擴(kuò)展方法檢索結(jié)果和加入偽相關(guān)反饋的TF·IDF查詢擴(kuò)展檢索結(jié)果同本文提出的擴(kuò)展方法檢索結(jié)果進(jìn)行比較。
查全率(Recall)、查準(zhǔn)率(Precision)和F-measure一直以來都是檢索性能的主要評價(jià)指標(biāo),本實(shí)驗(yàn)還引入Pr@n作為輔助評價(jià)指標(biāo)。
Recall=檢索出的相關(guān)文檔數(shù)文檔庫中的全部相關(guān)文檔數(shù)(9)
Precision=檢索出的相關(guān)文檔數(shù)檢索出的文檔總數(shù)(10)
F-measure=2×Recall×PrecsionRecall+Precision(11)
Pr@n=檢索結(jié)果的前n篇中相關(guān)文檔數(shù)n(12)
初始擴(kuò)展詞數(shù)值的大小也是影響查詢性能的重要因素,確定利用Word2Vec訓(xùn)練后每個(gè)查詢詞引入擴(kuò)展詞的個(gè)數(shù)多少達(dá)到最好效果。為了使概念樹的規(guī)模不至于過大影響實(shí)驗(yàn),令L=1,通過控制M即最大子節(jié)點(diǎn)數(shù)目大小,分別引入1、3、5、7個(gè)擴(kuò)展詞,在數(shù)據(jù)集上依次進(jìn)行查詢,然后分別計(jì)算檢索結(jié)果的平均查準(zhǔn)率,實(shí)驗(yàn)結(jié)果見表3。
通過對表3的數(shù)據(jù)分析可知,當(dāng)利用Word2vec引入擴(kuò)展詞個(gè)數(shù)是5個(gè)左右時(shí),可以獲得較高的查準(zhǔn)率。當(dāng)擴(kuò)展詞個(gè)數(shù)太少或太多時(shí),平均查準(zhǔn)率都會出現(xiàn)一定程度下降。這是因?yàn)閿U(kuò)展詞太少,不能理解和滿足用戶查詢,而擴(kuò)展詞過多則會造成查詢漂移,影響查全率和查準(zhǔn)率。
然后再對非擴(kuò)展查詢方法、TF·IDF偽相關(guān)反饋方法和基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展方法進(jìn)行測試比較,實(shí)驗(yàn)結(jié)果見表4。
從實(shí)驗(yàn)結(jié)果看,本文提出的查詢擴(kuò)展方法相對于不加擴(kuò)展的 TF·IDF 算法以及加入偽相關(guān)反饋的TF·IDF算法,無論是查準(zhǔn)率還是召回率都有一定提高。這是由于經(jīng)過深度學(xué)習(xí)后,將各個(gè)詞語義關(guān)系用詞向量進(jìn)行量化,根據(jù)向量之間余弦相似度(余弦距離),可以更加準(zhǔn)確地尋找到與原查詢詞相關(guān)度匹配高的擴(kuò)展詞。再經(jīng)過各種閾值控制篩選,在語義上使其更加貼近用戶查詢意圖,從而反饋給用戶準(zhǔn)確的查詢信息,使查詢性能得到優(yōu)化。
為了更直觀地檢測非擴(kuò)展查詢方法、TF·IDF偽相關(guān)反饋方法和基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展方法的查詢性能,繪制3種方法的11點(diǎn)平均準(zhǔn)確率比較圖,如圖3所示。從圖中可以明顯看出,基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展方法比擴(kuò)展查詢方法、TF·IDF偽相關(guān)反饋方法更具優(yōu)勢。
為了驗(yàn)證該方法的普適性,在TREC的San Jose Mercury News (SJ1991)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并將結(jié)果與AP數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果繪圖比較,如圖4所示。
通過分析圖4可知,本文所提方法在SJ數(shù)據(jù)集上同樣擁有較高的檢索性能。
4 結(jié)語
本文從概念語義層次上提出一種基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展技術(shù)。首先使用深度學(xué)習(xí)和WordNet語義網(wǎng)絡(luò)構(gòu)建用戶查詢概念樹,篩選初始擴(kuò)展詞并初檢,利用平均互信息對偽反饋文檔進(jìn)行窗口觀測,計(jì)算詞對共現(xiàn)權(quán)重,得出最終擴(kuò)展詞集。通過實(shí)驗(yàn)比較了傳統(tǒng)非擴(kuò)展檢索方法、偽相關(guān)反饋的TF·IDF查詢擴(kuò)展方法和基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展方法的召回率、準(zhǔn)確率、F-measure指數(shù)和 Pr@10,得出基于深度學(xué)習(xí)的概念語義空間查詢擴(kuò)展系統(tǒng)在檢索性能上高于另兩個(gè)系統(tǒng)。
參考文獻(xiàn):
[1] 文坤梅,盧正鼎,孫小林,等.語義搜索研究綜述[J].計(jì)算機(jī)科學(xué),2008(5):1-4.
[2] MARON M E, KUHNS J L. On relevance, probabilistic indexing and information retrieval[J]. Journal of the ACM,1960,7(3):216-244.
[3] ROCCHIO J J. Document retrieval systems-optimization and evaluation[M]. Cambridge: Harvard University Press,1966.
[4] ATTAR R, FRAENKEL A S. Local feedback in full-text retrieval systems[J]. Journal of the Association for Computing Machinery.1977,24(3):397-417.
[5] WU H, SALTON G. The estimation of term relevance weights using relevance feedback[J]. Journal of Documentation.1981,37(4):194-214.
[6] CROFT W B.What do people want from information retrieval[J].D-lib Magazine,1995(1):129-131.
[7] QIU Y, FREI H P. Concept based query expansion[EB/OL]. https://en.wikipedia.org/wiki/Query_expansion.
[8] JING Y, CROFT W B. An association thesaurus for information retrieval[J]. RIAO,1994(6):146-160.
[9] 王旭陽,尉醒醒.基于本體和局部共現(xiàn)的查詢擴(kuò)展方法[J].計(jì)算機(jī)科學(xué),2017,44(1):214-218.
[10] 李衛(wèi)疆,王鋒.基于概念樹剪枝的LCA查詢擴(kuò)展[J].計(jì)算機(jī)科學(xué),2015,42(s1):479-483.
[11] KELLY D, TEEVAN J. Implicit feedback for inferring user preference: a bibliography[C]. ACM SIGIR Forum, 2003. ACM,2003:18-28.
[12] JUNG S Y, HERLOCKER J L, WEBSTER J. Click data as implicit relevance feedback in web search, information processing and management[J].Pergamon Press, Inc 2007,43(3):791-807.
[13] 陳元娟,嚴(yán)建峰,劉曉升,等.基于時(shí)空數(shù)據(jù)的用戶社交聯(lián)系強(qiáng)度研究[J].計(jì)算機(jī)科學(xué),2016,43(1):251-254
[14] HU B, LU Z, LI H, et al. Convolutional neural network architectures for matching natural language sentences[J]. International Conference on Neural Information Processing Systems,2015(3):2042-2050.
[15] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[J]. EprintArxiv,2014(1):62-65.
[16] 嚴(yán)華云,劉其平,肖良軍.信息檢索中的相關(guān)反饋技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2009(1):11-14.
[17] ROSENFLED R. A maximum entropy approach to adaptive statistical language modelling[D]. Pittsburgh:Carnegie Mellon University,1994.
(責(zé)任編輯:杜能鋼)