国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向個性化站點的用戶檢索意圖建模方法

2018-03-19 02:44張瑞芳郭克華
計算機工程與應(yīng)用 2018年6期
關(guān)鍵詞:查準(zhǔn)率意圖排序

張瑞芳,郭克華,2

1.中南大學(xué)信息科學(xué)與工程學(xué)院,長沙410083

2.南京理工大學(xué)高維信息智能感知與系統(tǒng)教育部重點實驗室,南京210094

面向個性化站點的用戶檢索意圖建模方法

張瑞芳1,郭克華1,2

1.中南大學(xué)信息科學(xué)與工程學(xué)院,長沙410083

2.南京理工大學(xué)高維信息智能感知與系統(tǒng)教育部重點實驗室,南京210094

CNKI網(wǎng)絡(luò)出版:2017-03-16,http://kns.cnki.net/kcms/detail/11.2127.TP.20170316.1528.032.html

1 引言

近年來,個性化Web站點,如高校網(wǎng)站、政府網(wǎng)站、中小型企業(yè)網(wǎng)站等,在互聯(lián)網(wǎng)上發(fā)揮著越來越重要的作用。與大型Web網(wǎng)站相比,個性化站點的關(guān)注點一般以內(nèi)容為主,在網(wǎng)站建設(shè)與維護中常忽略搜索算法的優(yōu)化。用戶在瀏覽這些站點時,可能耗費更多時間和精力來得到符合自己檢索意圖的結(jié)果。因此,如何為個性化站點提供一種檢索優(yōu)化方法,使其能為用戶提供更加優(yōu)質(zhì)的檢索服務(wù),成為個性化站點檢索研究的一個重要問題。

目前,商用搜索引擎公司如谷歌等始終致力于搜索引擎算法的優(yōu)化[1],來預(yù)測用戶搜索意圖,保證用戶搜索結(jié)果的質(zhì)量,取得了一定的成果。文獻[2]將用戶查詢意圖分為導(dǎo)航類、信息類和事務(wù)類三種。文獻[3]通過分析用戶搜索上下文猜測其檢索意圖。文獻[4-5]將查詢結(jié)果分類后讓用戶粗略選擇,并以此為依據(jù)對結(jié)果再提取。文獻[6]提出,Web日志中可能隱含用戶檢索意圖,因此,可以通過分析Web日志得到用戶歷史模型。文獻[7]通過分析瀏覽器的公共查詢?nèi)罩竞陀脩魝€人查詢活動來理解用戶意圖。

但是,由于商業(yè)原因,以上這些方法未廣泛應(yīng)用于個性化站點的優(yōu)化。針對此問題,研究者提出了很多對個性化站點的優(yōu)化方法。文獻[8]提出一種針對小型機構(gòu)的網(wǎng)站服務(wù)器模型,采用了Top-k關(guān)鍵詞有機搜索、相似關(guān)鍵詞搜索和圖像搜索的優(yōu)化技術(shù)。文獻[9]通過挖掘用戶訪問日志,建立反饋相似度模型,利用該模型訓(xùn)練用戶訪問日志,指導(dǎo)搜索結(jié)果排序。文獻[10]針對新聞網(wǎng)站,從用戶的瀏覽日志中提取上下文相關(guān)特征,然后訓(xùn)練一個Logistic回歸模型來預(yù)測用戶的查詢內(nèi)容。但是,現(xiàn)有這些優(yōu)化方法中有的是基于站點的建設(shè)初期對網(wǎng)站設(shè)計方案的研究,而不是對已投入運行的個性化站點的優(yōu)化;有的則需要訓(xùn)練數(shù)據(jù)模型,存在冷啟動及日志增量不易處理等問題。目前,對于個性化站點搜索策略優(yōu)化問題的研究仍處于起步階段。個性化站點的文本檢索通常僅以用戶提交的關(guān)鍵詞為查詢依據(jù),較少考慮用戶檢索意圖。

關(guān)鍵詞提取[11]和文本排序是個性化站點搜索優(yōu)化的兩大重要問題。目前,有很多方法可以有效提取

關(guān)鍵詞:(1)基于統(tǒng)計的方法,該方法通過統(tǒng)計詞語的頻率判定其權(quán)重,典型代表為交叉信息熵算法(TFIDF)[12]。文獻[13]基于基尼指數(shù)原理提出一種改進的TFIDF特征選擇算法,文獻[14]提出一種基于信息增益與信息熵的TFIDF改進算法。(2)基于語義的方法[15-16],該方法用詞語的語義特征提取關(guān)鍵詞。文獻[17]提出基于詞匯鏈的關(guān)鍵詞提取方法?;谡Z義的方法從語義的角度考慮詞語權(quán)重,但它難以很好地解決同義詞冗余等問題。(3)基于機器學(xué)習(xí)的方法[18],如貝葉斯分類器[19]和基于SVM的方法[20]。該方法屬于機器學(xué)習(xí)范疇,需要大量訓(xùn)練數(shù)據(jù)。(4)基于文檔網(wǎng)絡(luò)的方法,它將一篇文檔映射成詞語網(wǎng)絡(luò)。代表性算法有TextRank[21]和復(fù)雜網(wǎng)絡(luò)算法[22]。但是,TextRank算法忽略了詞語本身的重要性,復(fù)雜網(wǎng)絡(luò)算法僅考慮單一文檔。

文本排序旨在使查詢結(jié)果順序更加合理且符合用戶意圖。引入文本表示模型,并計算文本間相似度,可以對文本進行排序。常見的文本表示模型有:(1)布爾檢索模型[23]:以布爾邏輯為基礎(chǔ),對詞語進行嚴(yán)格匹配。但由于邏輯表達(dá)式過于嚴(yán)格,容易導(dǎo)致漏檢;且沒有計算詞語權(quán)重,從而返回了大量無序文本。(2)概率模型[24]:該模型考慮了詞語與文本間的內(nèi)在聯(lián)系,但忽略了詞語在文檔中的頻率。(3)向量空間模型[25]應(yīng)用簡單的數(shù)學(xué)方法將文本內(nèi)容量化成空間向量。

考慮個性化站點網(wǎng)頁結(jié)構(gòu)簡單的特點,本文通過充分分析用戶與服務(wù)器交互過程中的訪問行為,從中挖掘出用戶意圖模型。該模型采用結(jié)合交叉信息熵和詞語特征信息的關(guān)鍵詞提取方法以及結(jié)合余弦相似度和加權(quán)海明距離的文本排序方法。它首先從用戶瀏覽的網(wǎng)頁中提取出關(guān)鍵詞集并建立意圖模型,然后將新關(guān)鍵詞集作為查詢條件重新檢索,最后對檢索結(jié)果重新排序,從而為用戶提供更加符合用戶檢索意圖的結(jié)果。該方法不要求用戶進行額外的反饋操作,在用戶正常檢索時可以實現(xiàn)用戶意圖的即時建模過程。

2 基本框架

個性化站點的檢索模式通常為將用戶輸入的查詢條件與數(shù)據(jù)庫中的數(shù)據(jù)進行匹配,得到查詢結(jié)果列表。而一般情況下,用戶只輸入簡短的詞語作為查詢條件,這樣就導(dǎo)致在該模式下的檢索結(jié)果濫而不準(zhǔn),用戶則需要耗費更多的時間和精力于通過查看鏈接的詳細(xì)信息來查找目標(biāo)結(jié)果。

因此,利用本文提出的檢索模式,以現(xiàn)有個性化站點為應(yīng)用對象,為其提供關(guān)鍵詞提取和文本排序兩個功能,能夠使個性化站點為用戶推薦更加符合檢索意圖的結(jié)果。具體流程如圖1所示。

圖1 基于用戶意圖檢索系統(tǒng)流程圖

個性化站點網(wǎng)頁訪問路徑命名規(guī)則普遍單一化,同一站點中同類型內(nèi)容網(wǎng)頁采用相同的訪問路徑構(gòu)造方法。因此,可據(jù)此對用戶訪問的網(wǎng)頁進行過濾,當(dāng)用戶瀏覽信息類網(wǎng)頁(非導(dǎo)航類網(wǎng)頁)時,系統(tǒng)可利用過濾器獲取該網(wǎng)頁訪問路徑并通過爬蟲得到用戶想要訪問的網(wǎng)頁信息。基于關(guān)鍵詞提取和文本排序的用戶意圖檢索方法以該交互文本為前提,對該文本中的信息進行分析,此文本在一定程度上包含了用戶希望獲得的信息。

將從用戶與個性化站點服務(wù)器交互中提取的文本信息記為T,對T進行分析。用結(jié)合交叉信息熵和詞語特征信息算法對T進行關(guān)鍵詞提取,得到關(guān)鍵詞集K={(ki,w(ki))|1≤i≤M},其中,M表示集合K中元素個數(shù),ki表示K中第i個關(guān)鍵詞,w(ki)表示ki的權(quán)重值。構(gòu)造用戶意圖模型U=[w1,w2,…,wM],其中,U是由K中M個關(guān)鍵詞的權(quán)重值降序排列形成的矩陣向量。

由于K中包含了用戶檢索意圖,因此,以K作為檢索條件在搜索引擎中進行二次檢索,從而得到檢索結(jié)果集Ts={ti|1≤i≤H},其中,ti表示Ts中第i個文本信息,H表示Ts中文本個數(shù)。為Ts中的文本建立向量空間模型Ti=[w1,w2,…,wM]。通過計算Ti與U之間的向量空間距離Sim(U,Ti)對Ts排序,從而將更加符合用戶意圖的結(jié)果顯示在靠前部分,提升用戶體驗。

3 實現(xiàn)方案

3.1 關(guān)鍵詞提取算法

關(guān)鍵詞提取部分采用結(jié)合交叉信息熵和詞語特征信息的方法計算關(guān)鍵詞權(quán)重,已有前人對該方法進行過類似研究,但未曾應(yīng)用于此場景。

用戶所瀏覽網(wǎng)頁可以反映其興趣方向,因此,利用該網(wǎng)頁中的文本信息可以建立用戶意圖模型。關(guān)鍵詞提取過程如圖2所示。

文獻[26]中的NLPIR分詞系統(tǒng)在分詞方面能夠取得較好效果,但它在提取關(guān)鍵詞時采用的是交叉信息熵算法,較少考慮詞語特征信息,因此,本文同時考慮詞語特征信息和交叉信息熵來決定關(guān)鍵詞權(quán)重。

對于詞的特征信息,可以考慮以下方面:(1)詞頻權(quán)重;(2)詞性因子權(quán)重;(3)詞位置權(quán)重;(4)詞跨度權(quán)重。具體定義如下:

(1)詞頻權(quán)重(F)

其中,freq(ki)表示詞語ki在T中的頻率。

(2)詞性因子權(quán)重(P)

其中,p(ki)表示詞語ki的詞性,noun表示名詞,verb表示動詞,others表示其他詞性。

(3)詞位置權(quán)重(L)

表示若詞語ki位于標(biāo)題位置,則將L(ki)賦值為0.5。

(4)詞跨度權(quán)重(S)

其中,last(ki)、first(ki)分別表示詞語ki最后一次和第一次出現(xiàn)在T中的位置,N表示T分詞后詞語的總數(shù)。

已知利用網(wǎng)絡(luò)爬蟲技術(shù)抓取文本信息T,需要從T中提取關(guān)鍵詞集K,并建立用戶意圖模型U。具體過程如下:

步驟1利用NLPIR分詞系統(tǒng)從文本T中提取初始關(guān)鍵詞集K1={(k1i,w1(k1i))|1≤i≤R},其中,w1的值等于詞語k1i的交叉信息熵值TFIDF(ki)。并保留由NLPIR系統(tǒng)分析計算得到的關(guān)鍵詞的p(ki)、freq(ki)和TFIDF(ki)。

步驟2計算K1={(k1i,w1(k1i))|1≤i≤R}中各關(guān)鍵詞的綜合權(quán)重值w(ki),得到K2={(ki,w(ki))|1≤i≤R}。k2i的綜合權(quán)重值計算公式如下:

其中,a、b、c、d、e分別為各特征權(quán)重的比例系數(shù),用來調(diào)節(jié)不同特征權(quán)重對于綜合權(quán)重的重要程度,此公式中,設(shè)置各比例系數(shù)為:a=1.5,b=1.1,c=0.8,d=1.0,e=0.8。TFIDF(ki)已由步驟1計算得到。

步驟3父串子串過濾。為消除同一關(guān)鍵詞重復(fù)提取和父串子串共現(xiàn)問題,采用如下算法:

算法1父串子串過濾

輸入:由步驟2計算所得K2={(k2i,w(k2i))|1≤i≤R}。

輸出:過濾后的關(guān)鍵詞集K={(ki,w(ki))|1≤i≤M}。

圖2 關(guān)鍵詞提取過程

步驟4按降序?qū)螷中關(guān)鍵詞的w值排序,得到向量U=[w1,w2,…,wM],即為用戶意圖模型。

3.2 結(jié)果集排序算法

本模型中,把利用關(guān)鍵詞提取算法提取出的K中的Q(1≤Q≤M)個元素作為重新檢索的條件在該搜索引擎中重新檢索,得到Ts={ti|1≤i≤H},采用上述方法計算每個文本的特征向量Ti=[wt1,wt2,…,wtM]。然后采用余弦相似性與加權(quán)海明距離相結(jié)合的方法計算Ts中每個文本與U的相似度大小Sim(U,Ti)。Ti與U的余弦相似度計算公式如下:

U中的特征值按降序排列,而余弦相似性方法未考慮不同關(guān)鍵詞的重要性差異,為此,本文采用加權(quán)海明距離算法來彌補該不足點。加權(quán)海明距離指按照關(guān)鍵詞作用不同,在海明距離基礎(chǔ)上添加合適的權(quán)值,然后對不同關(guān)鍵詞的權(quán)值進行求和計算。不同位置關(guān)鍵詞的距離權(quán)值定義為:

本文中計算兩個文本空間向量的加權(quán)海明距離算法如下:

算法2加權(quán)海明距離

輸入:用戶意圖模型U=[w1,w2,…,wM],文本Ti的特征向量Ti=[wt1,wt2,…,wtM]。

輸出:用戶意圖模型與文本Ti的加權(quán)海明距離dis(U,Ti)。

利用以下公式計算U與Ti的最終相似度值Sim(U,Ti):

其中,p1、p2為比例系數(shù),并取p1=p2=1.0。

將集合Ts中的所有文本按Sim(U,Ti)降序排列并返回給用戶,從而實現(xiàn)基于用戶意圖檢索的建模過程。

3.3 系統(tǒng)模塊化

由于不同個性化站點采用不同的開發(fā)技術(shù),且擁有各自的系統(tǒng)框架,如果將本文中基于用戶檢索意圖建模方法分別在不同個性化站點實現(xiàn),可能會導(dǎo)致大量的代碼修改或增加。因此,本文提出將該方法進行模塊化處理,網(wǎng)站開發(fā)者只需進行少量配置和代碼增加就可以實現(xiàn)個性化站點搜索性能的優(yōu)化。模塊結(jié)構(gòu)圖如圖3所示。

圖3 模塊包圖

利用該模塊對個性化站點進行優(yōu)化的步驟如下:

步驟1將mainpackage包和nlpir包放入工程中。

步驟2在工程中添加過濾器并在web.xml中配置。

步驟3新建一個web頁面用于顯示推薦結(jié)果。

該模塊的時間成本包括三個因素:(1)對每個文本進行關(guān)鍵詞提取,并構(gòu)造特征向量Ti,時間復(fù)雜度為O(H)。(2)計算Ti(1≤i≤H)與U之間的相似度Sim(U,Ti),時間復(fù)雜度為O(H)。(3)根據(jù)Sim(U,Ti)對Ts排序,采用快速排序算法,時間復(fù)雜度為O(HlgH)~O(H2)。

4 性能測試與評價

4.1 實驗設(shè)置

為驗證本文中基于用戶意圖檢索模型的有效性,實驗選取若干個性化站點測試效果,并以典型站點(http://news.csu.edu.cn/)為例說明。實驗抓取了典型站點中32 236條數(shù)據(jù)作為測試數(shù)據(jù)集,該站點主要提供校內(nèi)新聞,抓取的測試數(shù)據(jù)中,包含學(xué)校要聞、綜合新聞、領(lǐng)導(dǎo)論壇等20余個專題,每個專題爬取約1 000個對應(yīng)的網(wǎng)頁,網(wǎng)頁內(nèi)容主要包括新聞的標(biāo)題、內(nèi)容及發(fā)布時間等信息。

系統(tǒng)開發(fā)和運行環(huán)境如下:(1)PC(Personal Computer)版本為微軟系列(CPU為Intel?CoreTMi5-3470,3.20 GHz,內(nèi)存為8.00 GB,操作系統(tǒng)為Windows 10)。(2)服務(wù)器配置:使用Oracle 11g數(shù)據(jù)庫和Tomcat 7.0 Web服務(wù)器。(3)實驗過程使用Java語言實現(xiàn),開發(fā)環(huán)境為MyEclipse 10.7。

4.2 實驗結(jié)果與分析

實驗1結(jié)合交叉信息熵和詞語特征信息計算綜合權(quán)重時交叉信息熵比例系數(shù)e的設(shè)定對檢索結(jié)果的影響。

在對用戶所瀏覽網(wǎng)頁的文本內(nèi)容進行分析時,依據(jù)詞語的綜合權(quán)重值大小從中提取關(guān)鍵詞,而公式(5)中系數(shù)e的設(shè)定直接影響提取結(jié)果(系數(shù)a、b、c、d均已確定)。本實驗分別統(tǒng)計公式(5)中系數(shù)e設(shè)置為0.5~1.5時檢索結(jié)果中Top40提取精度,得到圖4所示的統(tǒng)計結(jié)果。比較對象如下:

方法1采用本文所描述的算法,結(jié)合交叉信息熵和詞語特征信息計算關(guān)鍵詞權(quán)重。

方法2只根據(jù)交叉信息熵算法提取關(guān)鍵詞。

圖4 交叉信息熵系數(shù)e不同時的查準(zhǔn)率

由圖4可知,當(dāng)系數(shù)e設(shè)置較小時,平均查準(zhǔn)率較低,當(dāng)e值達(dá)到0.8時,平均查準(zhǔn)率達(dá)到最優(yōu)狀態(tài),而隨著e值增大,平均查準(zhǔn)率逐漸降低并趨于一定值。這是由于當(dāng)系數(shù)e值較小時,交叉信息熵對綜合權(quán)重值影響小,詞語的特征信息作為綜合權(quán)重值計算的主導(dǎo),當(dāng)系數(shù)e較大時,則與上述情況相反。而當(dāng)兩者對綜合權(quán)重值的貢獻達(dá)到最佳狀態(tài)時,能夠得到最高平均查準(zhǔn)率。同時,從圖4可以得出,本文結(jié)合詞語特征信息和交叉信息熵計算關(guān)鍵詞綜合權(quán)重的方法優(yōu)于文獻[26]中的交叉信息熵算法,并有效地提高了原網(wǎng)站的查準(zhǔn)率。

實驗2算法1(父串子串過濾算法)對檢索結(jié)果的影響。

為了測試本文中過濾算法的有效性,以不同的查詢詞作為檢索條件,統(tǒng)計檢索結(jié)果Top40的提取精度。此時,將系數(shù)e設(shè)置為0.8。比較使用和不使用父串子串過濾規(guī)則時的檢索查準(zhǔn)率。比較對象如下:

方法1使用本文提出的父串子串過濾規(guī)則。

方法2不使用父串子串過濾規(guī)則。

從圖5可知,在多數(shù)檢索情況下,使用父串子串過濾規(guī)則時的查準(zhǔn)率更高。這是因為當(dāng)檢索關(guān)鍵詞數(shù)量一定時,若存在的父串、子串的詞語組合過多,會嚴(yán)重影響檢索結(jié)果的查全率,進而影響查準(zhǔn)率。因此,采用一種有效的父串子串過濾規(guī)則來適當(dāng)減少該類組合占用的關(guān)鍵詞資源,對提高檢索結(jié)果的查準(zhǔn)率有一定影響。

實驗3采用算法2(加權(quán)海明距離算法)對檢索結(jié)果的影響。

對查詢結(jié)果排序的目的是將符合用戶檢索意圖的結(jié)果排在前面。本實驗通過采用不同向量空間距離計算方法對文本排序結(jié)果的對比,驗證本文所采用的文本排序算法的有效性。比較對象如下:

方法1利用本文提出的結(jié)合余弦相似度與加權(quán)海明距離算法對文本排序。

方法2利用余弦相似度方法對文本排序。

方法3利用歐式距離算法對文本排序。

方法4利用海明距離算法對文本排序。

方法5利用加權(quán)海明距離對文本排序。

方法6利用Jaccard距離算法對文本排序。

由圖6可知,在檢索結(jié)果的Top40中,通過方法1和方法5計算得到的符合用戶意圖的結(jié)果最多,這是因為這兩種方法比傳統(tǒng)計算空間向量相似度方法(方法2、方法3和方法6)考慮了更多可能影響計算結(jié)果的因素,從而使相似度計算更加精確。通過方法1計算得到的檢索結(jié)果排序中,符合用戶意圖的結(jié)果排名比方法5更加靠前,原因是僅僅通過計算兩個文本向量空間夾角來衡量它們的相似度還不夠,在該方法基礎(chǔ)上,進一步考慮兩個文本相同關(guān)鍵詞的個數(shù)及其權(quán)重,從而獲得更好的效果。

圖5 選擇性使用父串子串過濾規(guī)則時的查準(zhǔn)率

圖6 不同文本排序方法對檢索結(jié)果的影響

實驗4從K中選取查詢關(guān)鍵詞個數(shù)Q的確定對檢索結(jié)果的影響。

本實驗對從K中所選取查詢關(guān)鍵詞個數(shù)Q進行設(shè)置,統(tǒng)計檢索關(guān)鍵詞個數(shù)不同時系統(tǒng)的平均查準(zhǔn)率。為了測試關(guān)鍵詞個數(shù)對檢索結(jié)果的影響,以1為步長,將N分別從4取至14,統(tǒng)計Top40中滿足用戶檢索意圖結(jié)果的個數(shù)。

由圖7可知,查詢關(guān)鍵詞個數(shù)Q對檢索精度存在影響。關(guān)鍵詞個數(shù)較少時,檢索的平均查準(zhǔn)率較低,這是因為關(guān)鍵詞個數(shù)少,不足以全面涵蓋用戶的檢索意圖,導(dǎo)致漏查。關(guān)鍵詞個數(shù)增多,對于某一搜索引擎而言,將會達(dá)到一個最優(yōu)值,使檢索的平均查準(zhǔn)率最高。而若關(guān)鍵詞個數(shù)繼續(xù)增加,則發(fā)現(xiàn)平均查準(zhǔn)率將會下降且最后趨于穩(wěn)定值,原因是過多的關(guān)鍵詞中除了能夠代表用戶意圖的信息外,還會包含噪聲干擾,導(dǎo)致查準(zhǔn)率下降,但是即使存在這些噪聲干擾,系統(tǒng)仍能夠通過文本相似度計算將更加符合用戶意圖的結(jié)果排在前面。

圖7 關(guān)鍵詞個數(shù)對檢索結(jié)果的影響

實驗5不同數(shù)據(jù)集下參數(shù)的設(shè)置與相關(guān)策略的不同對檢索結(jié)果的影響。

在上述4個實驗中,參數(shù)的設(shè)置與相關(guān)策略的采用與否都是針對前述數(shù)據(jù)信息集進行決策的,將該數(shù)據(jù)信息集記為數(shù)據(jù)集1。為研究文中參數(shù)的設(shè)置對不同搜索引擎檢索精度的影響,本文另采集某一個性化站點中13 211條數(shù)據(jù)作為數(shù)據(jù)集2進行實驗1至實驗4。分別統(tǒng)計交叉信息熵系數(shù)e、查詢關(guān)鍵詞個數(shù)Q變化時以及采用不同向量空間距離計算方法和父串子串過濾算法時,檢索結(jié)果中Top40的平均檢索精度,得到如表1和表2所示的結(jié)果。

由表1和表2可知,對于不同的數(shù)據(jù)集,最佳檢索精度的參數(shù)設(shè)置并不完全相同。由表1可以看到,交叉信息熵系數(shù)e設(shè)置為0.8左右、采用父串子串過濾策略對于數(shù)據(jù)集1和數(shù)據(jù)集2均可獲得較高平均查準(zhǔn)率,而針對參數(shù)Q設(shè)置問題,要想得到最優(yōu)查準(zhǔn)率,數(shù)據(jù)集1中應(yīng)設(shè)置為6,而數(shù)據(jù)集2中應(yīng)設(shè)置為7,這是因為不同搜索引擎的檢索策略不同,對用戶輸入的關(guān)鍵詞處理方式也不同。由表2可以得出,利用方法1進行文本排序?qū)τ跀?shù)據(jù)集1和數(shù)據(jù)集2均可得到最佳結(jié)果。

5 結(jié)束語

本文主要針對中小型搜索引擎檢索效果差的情況,提出了一種基于關(guān)鍵詞提取和文本排序的用戶意圖檢索模型。該模型可實現(xiàn)一種輕量級、模塊化、適用于結(jié)構(gòu)簡單的網(wǎng)站(如高校、新聞類網(wǎng)站)的結(jié)果推薦模塊。實驗表明,該方法能夠有效提高搜索引擎的檢索查準(zhǔn)率,具有一定可行性。

但本文中的實驗是在較單一檢索條件下進行的,在檢索策略上與真實網(wǎng)站存在一定差異,所得實驗結(jié)果與在真實情況下運行的結(jié)果可能存在差距;其次,如果兩個不同的用戶在該方法實現(xiàn)的場景下進行完全相同的操作,他們將得到相同的推薦結(jié)果,未考慮不同用戶的個體差異而可能導(dǎo)致不同檢索意圖的推測;此外,本文考慮到該模型的應(yīng)用場景,在提取關(guān)鍵詞和文本排序方面采用的是使用較為廣泛且復(fù)雜度較小的算法,為進一步提高結(jié)果的準(zhǔn)確率,有必要在后續(xù)研究中進行改進。

表1 不同參數(shù)設(shè)置對不同數(shù)據(jù)集檢索查準(zhǔn)率的影響

表2 不同向量空間距離計算方法對不同數(shù)據(jù)集檢索精度的影響

[1] Gudivada V N,Rao D,Paris J.Understanding searchengineoptimization[J].Computer,2015,48(10):43-52.

[2] BroderA.A taxonomy of Web search[J].ACM SIGIR Forum,2002,36(2):3-10.

[3]Yu Jie,Liu Fangfang.Mining user context based on interactive computing for personalized Web search[C]//2010 2nd International Conference on Computer Engineering and Technology,2010:209-214.

[4] Tang Xiaoou,Liu Ke,Cui Jingyu,et al.IntentSearch:Capturing user intention for one-click Internet image search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1342-1353.

[5] Guo Kehua,Zhang Ruifang,Zhou Zhurong,et al.Combined Retrieval:A convenient and precise approach for Internet image retrieval[J].Information Sciences,2016,358(9):151-163.

[6] Ravi B,Rajender N.Automatic recommendation of Web pages for online users using Web usage mining[C]//2012 International Conference on Computing Sciences,2012:371-374.

[7] Shang Yue,Ding Wanying,Liu Mengwen,et al.Scalable user Intent mining using a multimodal restricted boltzmann machine[C]//2015 International Conference on Computing,Networking and Communications,2015:618-624.

[8] Chung P,Chung S,Hui C.A web server design using search engine optimization techniques for web intelligence for small organizations[C]//IEEE Long Island Systems,Applications and Technology Conference,2012:1-6.

[9] 潘明遠(yuǎn),方金云,章立生.基于用戶反饋的POI搜索引擎優(yōu)化研究[J].計算機工程與應(yīng)用,2010,46(32):112-115.

[10] 張驍逸,蘇宇,晏小輝.基于用戶瀏覽日志的上下文相關(guān)新聞推薦[J].計算機工程與應(yīng)用,2016,52(22):99-104.

[11] Wang Zhijuan,F(xiàn)eng Yinghui.F2N-Rank:Domain keywords extraction algorithm[J].Metallurgical and Mining Industry,2015,7(9):225-230.

[12] Wang Jingyu,Zhao Weiyan.Research on parallelizing the TFIDF algorithm based on Hadoop[J].Computer Engineering and Science,2014,36(6):1018-1022.

[13] Yang Chengcheng,He Xingshi.A text feature selection algorithm based on improved TFIDF[C]//2008 Chinese Conference on Pattern Recognition(CCPR’08),2008:1-2.

[14] Li Xueming,Li Hairui,Xue Liang,et al.TFIDF algorithm based on information gain and information entropy[J].Computer Engineering,2012,38(8):37-40.

[15] 姜芳,李國和,岳翔,等.基于語義的文檔關(guān)鍵詞提取方法[J].計算機應(yīng)用研究,2015,32(1):142-145.

[16] Guo Kehua,Pan Wei,Lu Mingming,et al.An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval[J].Journal of Systems and Software,2015,102(4):207-216.

[17] 劉端陽,王良芳.基于語義詞典和詞匯鏈的關(guān)鍵詞提取算法[J].浙江工業(yè)大學(xué)學(xué)報,2013,41(5):545-551.

[18] Sarkar K,Nasipuri M,Ghose S.Machine learning based keyphrase extraction:Comparing decision trees,Na?ve Bayes,and artificial neural networks[J].Journal of Information Processing Systems,2012,8(4):693-712.

[19] Rabia I,Sharifullah K,Ali M Q,et al.Refining Kea++automatic keyphrase assignment[J].Journal of Information Science,2014,40(4):446-459.

[20] Xu Ruifeng,Gui Lin,Xu Jun,et al.Cross lingual opinionholderextractionbasedonmulti-kernelSVMs and transfer learning[J].World Wide Web,2015,18(2):299-316.

[21] Li Peng,Wang Bin,Shi Zhiwei,et al.Tag-TextRank:A webpage keyword extraction method based on tags[J].Journal of Computer Research and Development,2012,49(11):2344-2351.

[22] Nan Jiangxia,Xiao Bo,Lin Zhiqing,et al.Keywords extraction from Chinese document based on complex network theory[C]//2014 7th International Symposium on Computational Intelligence and Design,2015,2:383-386.

[23] Arash H L,F(xiàn)ereshteh M,Vahid G.A boolean model in information retrieval for search engines[C]//2009 International Conference on Information Management and Engineering(ICIME’09),2009:385-389.

[24] Takafumi N.Semantic context-dependent weighting for vector space model[C]//2014 IEEE International Conference on Semantic Computing(ICSC),2014:262-266.

[25] 胡堰,彭啟民,胡曉惠,等.一種基于隱語義概率模型的個性化Web服務(wù)推薦方法[J].計算機研究與發(fā)展,2014,51(8):1781-1793.

[26] 張華平.NLPIR/ICTCLAS2014分詞系統(tǒng)開發(fā)文檔[EB/OL].(2014).http://ICTCLAS.nlpir.org.

ZHANG Ruifang,GUO Kehua.Novel retrieval intention modeling method for personalized website.Computer Engineering andApplications,2018,54(6):37-43.

ZHANG Ruifang1,GUO Kehua1,2

1.School of Information Science&Engineering,Central South University,Changsha 410083,China
2.Key Laboratory of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education,Nanjing University of Science and Technology,Nanjing 210094,China

Personalized website rarely considers user’s search intention in retrieval process.To recommend more satisfactory results without any user feedback in personalized website retrieval,this paper proposes a keyword extraction method combining the cross entropy with word feature information,and a text ranking method assembling the cosine similarity with weighted Hamming distance.Firstly,web page text content is obtained from the requested personalized website by filtering the web page address.Secondly,based on the obtained text content,keywords which can reflect user’s retrieval intention are extracted.Thirdly,user’s intention vector model is constructed and a re-retrieval process is performed by calling the main search engine.Finally,the similarity between the user’s intention model and the re-retrieved records is computed,and the results sorted by the similarity values are returned to user.Experimental results show that the proposed method can reflect the user’s query intention and provide a notably convenient user experience.

personalized website;user intention;query recommendation;information retrieval

針對個性化站點較少考慮用戶檢索意圖的問題,提出結(jié)合交叉信息熵和詞語特征信息的關(guān)鍵詞提取方法以及結(jié)合余弦相似度和加權(quán)海明距離的文本排序方法,旨在不需要用戶任何反饋的條件下,為用戶推薦更滿意的檢索結(jié)果。通過過濾用戶請求個性化站點時的訪問地址,獲取用戶瀏覽的網(wǎng)頁文本內(nèi)容,從中提取能夠表示用戶檢索意圖的關(guān)鍵詞集進行重新檢索后對檢索結(jié)果排序,最后將排序后的結(jié)果作為推薦模塊返回給用戶。實驗表明,利用該方法獲得的查詢推薦結(jié)果能夠更加符合用戶檢索意圖,提供更好的用戶體驗。

個性化站點;用戶意圖;查詢推薦;信息檢索

2016-11-07

2017-01-03

1002-8331(2018)06-0037-07

A

TP391

10.3778/j.issn.1002-8331.1611-0108

國家自然科學(xué)基金(No.61672535);高維信息智能感知與系統(tǒng)教育部重點實驗室創(chuàng)新基金(No.JYB201502);湖南省普通高校青年教師培養(yǎng)計劃;中南大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項(No.2016zzts351);中南大學(xué)創(chuàng)新驅(qū)動計劃(No.2015CXS010);中南大學(xué)升華育英計劃專項。

張瑞芳(1992—),女,碩士生,主要研究方向為多媒體檢索;郭克華(1980—),通訊作者,男,副教授,主要研究方向為多媒體檢索、普適計算。

猜你喜歡
查準(zhǔn)率意圖排序
原始意圖、對抗主義和非解釋主義
陸游詩寫意圖(國畫)
作者簡介
制定法解釋與立法意圖的反事實檢驗
恐怖排序
節(jié)日排序
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
燕山秋意圖
江津市| 宁城县| 沈丘县| 宜州市| 托里县| 普安县| 屏南县| 白朗县| 平南县| 勃利县| 昭觉县| 正定县| 朝阳县| 乐平市| 泰安市| 泸西县| 永宁县| 临潭县| 阿克陶县| 金坛市| 三门峡市| 双柏县| 且末县| 江津市| 安吉县| 久治县| 青阳县| 台中市| 兴国县| 乌兰浩特市| 满洲里市| 哈巴河县| 湘潭县| 三穗县| 阿拉善右旗| 山阴县| 南澳县| 奇台县| 丰宁| 抚宁县| 清原|