国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶興趣模型的Nutch個(gè)性化搜索引擎研究

2015-10-21 18:12:24蔣翀費(fèi)洪曉張嘯
計(jì)算機(jī)時(shí)代 2015年9期
關(guān)鍵詞:搜索引擎個(gè)性化

蔣翀 費(fèi)洪曉 張嘯

摘 要: 針對(duì)目前主流搜索引擎?zhèn)€性化程度低的問(wèn)題,通過(guò)分析用戶的瀏覽行為和瀏覽內(nèi)容來(lái)獲取用戶的興趣類(lèi)別以及關(guān)鍵詞,用一組帶權(quán)重的關(guān)鍵詞組成的向量集來(lái)表示用戶興趣模型,利用更新算法對(duì)模型進(jìn)行更新與優(yōu)化。將用戶興趣模型與開(kāi)源搜索引擎Nutch相結(jié)合,加入中文分詞組件IKAnalyzer,實(shí)現(xiàn)了個(gè)性化搜索引擎。進(jìn)行了傳統(tǒng)搜索和個(gè)性化搜索對(duì)比實(shí)驗(yàn),結(jié)果證明,Nutch個(gè)性化搜索引擎結(jié)果更符合用戶興趣。

關(guān)鍵詞: 用戶興趣模型; 個(gè)性化; 搜索引擎; Nutch

中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)09-26-03

Research of personalized search engine based on user profile

Jiang Chong1, Fei Hongxiao2, Zhang Xiao2

(1. Modern Education Technology Center, HunanWoman's Vocational University, Changsha, Hunan 410004, China;

2. School of Software, Central South University of China)

Abstract: In order to improve the degree of personalization for popular search engine, the user's interest categories and keywords were got by analyzing user's browsing behavior and content. User profile was represented by a vector set which consisted of a set of weighted keywords and updated by correlated algorithm. By embedding in user profile and IKAnalyzer, Nutch became a personalized search engine. Comparative experiments were carried out with the traditional search and the personalized search. The results show that, the personalized search engine got more relevant result with user interest than traditional research engine and was proved to be effective.

Key words: user profile; personalized; search engine; Nutch

0 引言

飛速發(fā)展的互聯(lián)網(wǎng)在帶給人們海量信息的同時(shí),也產(chǎn)生了難以讓用戶快速準(zhǔn)確獲取有效信息的問(wèn)題[1]。目前,占市場(chǎng)主導(dǎo)地位的搜索引擎查詢結(jié)果僅僅跟用戶輸入的關(guān)鍵詞有關(guān),并未考慮在相同關(guān)鍵字中所隱藏的用戶個(gè)性化需求。這一類(lèi)的搜索引擎以自動(dòng)抓取信息和自動(dòng)排序查找為主要特征[2]。目前,主流的搜索引擎均未實(shí)現(xiàn)面向客戶需求和興趣的個(gè)性化搜索。在這種情況下,個(gè)性化搜索引擎的研究和發(fā)展逐漸興起。在這一代的搜索引擎中,公認(rèn)的應(yīng)該具備的特征是個(gè)性化和智能[3]。

為了根據(jù)用戶需求和興趣產(chǎn)生搜索結(jié)果,搜索引擎需要以用戶興趣模型的構(gòu)建為基礎(chǔ)。本文中采用隱式反饋的方式,通過(guò)分析用戶的瀏覽行為和瀏覽內(nèi)容,獲取用戶的興趣類(lèi)別和關(guān)鍵詞,用一組帶權(quán)重的關(guān)鍵詞組成的向量集表示用戶興趣,利用更新算法對(duì)模型進(jìn)行優(yōu)化,使用戶模型的構(gòu)建能在指導(dǎo)的條件下進(jìn)行,實(shí)現(xiàn)智能化的搜索。在個(gè)性化搜索引擎的實(shí)現(xiàn)部分,以Lucene為基礎(chǔ),使用Nutch實(shí)現(xiàn)了個(gè)性化搜索引擎,以此為實(shí)驗(yàn)平臺(tái),驗(yàn)證了用戶興趣模型的有效性。

1 用戶興趣模型的建立和應(yīng)用

通常來(lái)說(shuō),個(gè)性化搜索引擎的結(jié)果取決于用戶興趣模型的表示,所以,用戶興趣模型的構(gòu)建在個(gè)性化搜索引擎研究和實(shí)現(xiàn)中十分關(guān)鍵[4]。

本文在傳統(tǒng)向量空間的基礎(chǔ)上,使用一種改進(jìn)的多層次向量空間模型表示用戶興趣。由于用戶興趣的多樣性,對(duì)用戶的興趣進(jìn)行類(lèi)別劃分,可有效減少不同類(lèi)別之間的相互干擾,提高檢索的準(zhǔn)確度。具體來(lái)說(shuō),就是“用戶→興趣類(lèi)別→興趣詞條”的層狀樹(shù)型結(jié)構(gòu),如圖1所示。

[用戶][興趣類(lèi)別1][KW11][……][KW1n] [……][興趣類(lèi)別m] [KWm1][……][KWmn]

圖1 多層次向量空間的用戶興趣模型

在圖1中,第一層是用戶,第二層是興趣的類(lèi)別,第三層由用戶興趣的詞條組成。假設(shè)有m個(gè)領(lǐng)域是用戶感興趣的,那么興趣模型(Interest Profile)也可以用以下向量來(lái)表示:

IPro={(C1,H1,Q1,T1),(C2,H2,Q2,T2),…,(Cm,Hm,Qm,Tm)}

其中,(Ck,Hk,Qk,Tk)是用戶的第k類(lèi)興趣的節(jié)點(diǎn),Ck表示興趣類(lèi)別的名稱(chēng);Hk表示類(lèi)別的權(quán)重,是對(duì)Ck類(lèi)的所有樣本的興趣程度的乘積。Qk表示的是樣本的數(shù)量,Tk表示的是興趣詞條的列表。

如果Ck 類(lèi)有n個(gè)興趣的詞條,那么Tk可以表示為:

Tk={(KWk1,WTk1),……(KWkn,WTkn)}

其中,(KWkn,WTkn)是第n個(gè)詞條,KWkn是關(guān)鍵詞,WTkn是它的權(quán)重。

用戶興趣模型構(gòu)建之初,需要主動(dòng)輸入一些興趣類(lèi)別,這部分主要是用戶的穩(wěn)定興趣。在使用過(guò)程中,搜索引擎需要具備隱式獲取用戶興趣的能力,自動(dòng)處理用戶興趣模型的更新。根據(jù)人類(lèi)的行為和心理特征,將用戶興趣分為實(shí)時(shí)興趣和穩(wěn)定興趣,分別指代用戶短期內(nèi)和長(zhǎng)期不變的興趣傾向。

用戶實(shí)時(shí)興趣主要從用戶短期內(nèi)所訪問(wèn)的頁(yè)面獲取。假設(shè)用戶在一天內(nèi)訪問(wèn)了w個(gè)頁(yè)面,那么可以使用m維的向量Ptd來(lái)描述這一天的興趣:

ptd=(,,…… ,)

其中,每一項(xiàng)可表示為:

=

用戶的穩(wěn)定興趣可以通過(guò)用戶n天內(nèi)的訪問(wèn)歷史來(lái)獲取,在本文中,將n的值作為天數(shù)窗口尺度,定義了Sj為用戶在前j天瀏覽的頁(yè)面數(shù),其中s0表示的是用戶當(dāng)天瀏覽的頁(yè)面數(shù)。在此基礎(chǔ)上,通過(guò)設(shè)置窗口的尺度n來(lái)構(gòu)造用戶的穩(wěn)定興趣模型,在這里將n定義為60。與構(gòu)造Ptd相類(lèi)似,用一個(gè)m維的向量來(lái)表示用戶的穩(wěn)定興趣,具體表示如下:

psd=(,,…… ,)

根據(jù)以上分析,公式中每一項(xiàng)可表示為:

=

其中,是衰減因子,表示穩(wěn)定興趣的遺忘速率,正如人的大腦會(huì)遺忘事情一樣,用戶穩(wěn)定興趣中的元素權(quán)值也會(huì)隨著時(shí)間的流逝而有所下降,所以說(shuō)用戶模型中的衰減因子的應(yīng)用保證了模型的時(shí)間可靠性。在此遺忘因子中,hl是生命周期參數(shù),根據(jù)經(jīng)驗(yàn),人所接受的新知識(shí)一般都在一周后便開(kāi)始遺忘,所以將hl的值設(shè)置為7;din表示關(guān)鍵詞t(k)第一次出現(xiàn)的日期,d表示當(dāng)前日期,d-din表示的就是關(guān)鍵詞tk在模型中存儲(chǔ)的天數(shù),也就是用戶對(duì)其感興趣的天數(shù)。最后,由于用戶每天訪問(wèn)的頁(yè)面數(shù)量不等,通過(guò)每天訪問(wèn)的頁(yè)面總數(shù)Sn對(duì)其規(guī)范化。

隨著用戶訪問(wèn)網(wǎng)絡(luò)時(shí)間的累積,所訪問(wèn)頁(yè)面數(shù)量的持續(xù)增加,用戶穩(wěn)定興趣模型會(huì)自動(dòng)進(jìn)行更新。結(jié)合用戶實(shí)時(shí)興趣,可構(gòu)成用戶的興趣模型,表示如下:

P= a×ptd+c×b×psd

其中,a+b=1,c是一個(gè)常量,定義如下:

其中,dur表示用戶花費(fèi)在每個(gè)關(guān)鍵詞上的平均時(shí)間,通過(guò)初步實(shí)驗(yàn)分析研究,本文確定閾值Th=0.317。

Web頁(yè)面與用戶興趣模型一樣,都可以用向量空間表示,所以也就能運(yùn)用向量的相似度計(jì)算來(lái)對(duì)它們進(jìn)行統(tǒng)一處理。假設(shè)頁(yè)面ri是使用搜索引擎查詢到的第i個(gè)頁(yè)面,用戶興趣模型P與ri的向量形式的相似度計(jì)算方法公式表示如下:

利用這個(gè)公式可計(jì)算出搜索引擎查詢到的頁(yè)面ri 與用戶興趣模型P之間的相似度。也就是說(shuō),搜索引擎得到一般搜索結(jié)果后,可以按照相似度大小對(duì)檢索結(jié)果進(jìn)行降序排列并顯示,從而達(dá)到個(gè)性化搜索的目的。

2 基于Nutch的個(gè)性化搜索引擎實(shí)現(xiàn)

與一般的搜索引擎類(lèi)似,Nutch最主要的兩大功能是爬取跟查詢。Nutch中爬蟲(chóng)的主要職責(zé)是從網(wǎng)絡(luò)上爬取web頁(yè)面并且建立數(shù)據(jù)結(jié)構(gòu)良好的索引。查詢則是根據(jù)用戶的查詢關(guān)鍵詞返回符合要求的網(wǎng)頁(yè)[5]。由于Nutch的中文分詞采用默認(rèn)的單字切分,這會(huì)直接影響到檢索結(jié)果的排序和檢索的效率,以及準(zhǔn)確度,所以本文在Nutch中加入了IKAnalyzer中文分詞組件。

個(gè)性化搜索引擎的關(guān)鍵就是高質(zhì)量、高精度的用戶興趣模型應(yīng)用到普通的搜索引擎中去[6]。引擎匹配模塊就是基于此原理來(lái)發(fā)揮作用的,計(jì)算用戶搜索到的網(wǎng)頁(yè)文本跟用戶的興趣的相關(guān)度,并且進(jìn)行排序。本文編寫(xiě)了Java代碼實(shí)現(xiàn)了用戶興趣模型中用戶興趣的提取。具體來(lái)說(shuō),首先構(gòu)建一個(gè)對(duì)象,實(shí)現(xiàn)映射,打開(kāi)建立好的索引文件,新建爬蟲(chóng)對(duì)象,得到最基本的用戶興趣類(lèi)別;然后根據(jù)用戶的輸入關(guān)鍵詞,得到匹配結(jié)果鏈表,返回與查詢關(guān)鍵詞相匹配的興趣類(lèi)別;接著對(duì)得到的興趣類(lèi)別賦予權(quán)值,得到興趣類(lèi)別的關(guān)鍵詞鏈表,并輸出;最后,返回提取的用戶興趣。

個(gè)性化搜索引擎的接口界面是提供給用戶檢索并且返回查詢結(jié)果的地方,也是直接給用戶提供服務(wù)的地方,所以簡(jiǎn)潔、方便是最基本的要求。最后實(shí)現(xiàn)的個(gè)性化搜索引擎界面采用Nutch系統(tǒng)自帶的頁(yè)面,如圖2所示。

圖2 個(gè)性化搜索引擎界面

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中需要先根據(jù)用戶興趣模型得到用戶興趣類(lèi)別。通過(guò)索引得到的文本文檔存放在/nutch-1.2/vipcrawl下,vipcrawl是通過(guò)nutch自帶的爬蟲(chóng)爬取同一目錄下的vipurls.txt得到的。vipurls.txt中存放了一百個(gè)左右網(wǎng)頁(yè)比較多的網(wǎng)站的鏈接,爬取深度為2,得到的頁(yè)面具有代表性。分析了用戶的瀏覽行為和內(nèi)容之后,對(duì)網(wǎng)頁(yè)進(jìn)行文本分類(lèi)的結(jié)果如表1。

表1 對(duì)網(wǎng)頁(yè)進(jìn)行文本分類(lèi)的結(jié)果

[主題類(lèi)別\&文檔總數(shù)T\&查準(zhǔn)數(shù)N1\&查錯(cuò)數(shù)N2\&查準(zhǔn)率P\&足球\&300\&245\&55\&0.817\&IT\&800\&756\&44\&0.945\&手機(jī)\&200\&175\&25\&0.875\&旅游\&600\&564\&36\&0.940\&]

表1中,P=N1/T。完成了對(duì)文本的分類(lèi)之后,所分成的主題類(lèi)別就是用戶的興趣類(lèi)別所在。由于網(wǎng)頁(yè)的興趣度已經(jīng)計(jì)算出來(lái)了,所以可以根據(jù)公式得到用戶每個(gè)興趣類(lèi)別的權(quán)重,計(jì)算出的結(jié)果如表2。

表2 用戶興趣類(lèi)別及權(quán)重

[用戶興趣的類(lèi)別\&權(quán)重\&足球\&0.32\&IT\&0.26\&手機(jī)\&0.17\&旅游\&0.09\&]

由此可以得到具體用戶的興趣模型,模型的形象化表示如圖3所示。

[用戶][足球(0.32)][英超

10.85][德甲

5.65][西甲

3.26] [IT(0.26)][手機(jī)(0.17)] [蘋(píng)果

12.36][三星

8.36][小米

6.32]

圖3 用戶興趣模型的圖形表示

圖3中,在每個(gè)興趣類(lèi)別下,有若干個(gè)興趣詞條,是用“關(guān)鍵詞(其權(quán)重)”來(lái)表示的。從圖3模型中可以看出,用戶最感興趣的三個(gè)領(lǐng)域分別是“足球”、“IT”、“手機(jī)”。其中在“足球”這個(gè)類(lèi)別中,描述用戶興趣的關(guān)鍵詞分別是“英超”、“德甲”、“西甲”,關(guān)鍵詞“英超”所占的比例又是最大的。

在實(shí)驗(yàn)中,輸入的關(guān)鍵詞與預(yù)期的與用戶興趣相關(guān)的內(nèi)容如表3。

表3 預(yù)期的用戶興趣相關(guān)的搜索結(jié)果

[關(guān)鍵詞\&預(yù)期的與用戶興趣相關(guān)的內(nèi)容\&安德森\&與英超球員安德森相關(guān)的內(nèi)容\&蘋(píng)果\&與蘋(píng)果產(chǎn)品和公司相關(guān)的內(nèi)容\&小米\&與小米公司和產(chǎn)品相關(guān)的內(nèi)容\&小跳蚤\&與巴薩球星梅西(綽號(hào)小跳蚤)相關(guān)的內(nèi)容\&]

分別根據(jù)以上四個(gè)關(guān)鍵詞進(jìn)行個(gè)性化搜索和百度搜索,根據(jù)表3,統(tǒng)計(jì)每個(gè)關(guān)鍵詞每次搜索結(jié)果的前30個(gè)頁(yè)面是否與用戶興趣相關(guān),得到的搜索結(jié)果對(duì)比如圖4所示。

圖4 百度搜索與Nutch個(gè)性化搜索結(jié)果對(duì)比

從圖4結(jié)果對(duì)比可以看出,基于用戶興趣模型的Nutch個(gè)性化搜索引擎獲得了更多的符合用戶興趣的搜索結(jié)果。在百度搜索的前30個(gè)結(jié)果中,符合用戶興趣的分別占到了10%,30%,96.7%和10%;在Nutch個(gè)性化搜索的前30個(gè)結(jié)果中,符合用戶興趣的分別占到了60%,60%,100%和100%。通過(guò)實(shí)驗(yàn)證明,個(gè)性化搜索引擎能夠在一定程度上提供更符合用戶興趣的搜索結(jié)果。

4 小結(jié)

本文以用戶興趣模型的構(gòu)建作為切入點(diǎn)和研究重點(diǎn),建立了分層的向量空間模型表示用戶興趣,構(gòu)建了Nutch個(gè)性化搜索引擎,實(shí)現(xiàn)了引擎匹配模塊與搜索接口模塊。在實(shí)驗(yàn)中,使用百度搜索引擎和Nutch個(gè)性化搜索引擎,針對(duì)相同的關(guān)鍵字分別進(jìn)行頁(yè)面搜索,根據(jù)預(yù)期的用戶興趣相關(guān)內(nèi)容,對(duì)搜索結(jié)果進(jìn)行分析和比較。實(shí)驗(yàn)結(jié)果證明,構(gòu)建的用戶興趣模型可以在一定程度上達(dá)到個(gè)性化搜索的目的,驗(yàn)證了用戶興趣模型的有效性。但是,在研究過(guò)程中,還存在著一些需要改進(jìn)和完善的方面。這主要包括:用戶興趣模型中信息的隱式獲取需要更高效的方式;搜索結(jié)果的個(gè)性化程度還需要進(jìn)一步提高;用戶興趣更新的有效性需要更長(zhǎng)期和頻繁的實(shí)驗(yàn)來(lái)證明。所以,在下一步的工作中,將針對(duì)所發(fā)現(xiàn)的問(wèn)題,對(duì)個(gè)性化搜索引擎的核心——用戶興趣模型進(jìn)行優(yōu)化,設(shè)計(jì)和進(jìn)行更長(zhǎng)期、更高頻次的實(shí)驗(yàn),對(duì)用戶興趣更新的有效性進(jìn)行驗(yàn)證,進(jìn)一步提升搜索引擎的個(gè)性化程度。

參考文獻(xiàn):

[1] 費(fèi)洪曉,莫天池,秦啟飛等.社交網(wǎng)絡(luò)相關(guān)機(jī)制應(yīng)用于搜索引擎的研究綜述[J].計(jì)算技術(shù)與自動(dòng)化,2014.33(1):1-9

[2] Lu D, Li Q. Personalized search on Flickr based on searcher's preference prediction[C]//Proceedings of the 20th international conference companion on World wide web. ACM,2011:81-82

[3] 袁柳,張龍波.個(gè)性化搜索中的用戶特征模型研究[J].計(jì)算機(jī)工程與應(yīng)用,2011.47(15):19-24

[4] 李清華,康海燕,苑曉姣等.個(gè)性化搜索中用戶興趣模型匿名化研究[J].西安交通大學(xué)學(xué)報(bào),2013.47(4):131-136

[5] 丁兆貴,金敏.基于Lucene的個(gè)性化搜索引擎研究與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011.21(2).

[6] Kim H N, Rawashdeh M, Alghamdi A, et al. Folksonomy-basedpersonalized search and ranking in social media services[J]. Information Systems,2012.37(1):61-76

猜你喜歡
搜索引擎個(gè)性化
堅(jiān)持個(gè)性化的寫(xiě)作
文苑(2020年4期)2020-05-30 12:35:12
新聞的個(gè)性化寫(xiě)作
新聞傳播(2018年12期)2018-09-19 06:27:10
上汽大通:C2B個(gè)性化定制未來(lái)
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
滿足群眾的個(gè)性化需求
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
廣告主與搜索引擎的雙向博弈分析
《寒風(fēng)吹徹》的個(gè)性化解讀
知識(shí)漫畫(huà)
老河口市| 客服| 长武县| 乐陵市| 大邑县| 株洲县| 南平市| 突泉县| 刚察县| 合水县| 宜昌市| 邳州市| 双桥区| 嫩江县| 临夏县| 阿鲁科尔沁旗| 石楼县| 长海县| 麻江县| 津南区| 中西区| 睢宁县| 霸州市| 涞源县| 宣威市| 鄢陵县| 鹤壁市| 土默特左旗| 樟树市| 绥中县| 泸水县| 沂水县| 文化| 余干县| 贺兰县| 广汉市| 大兴区| 达拉特旗| 将乐县| 岑溪市| 登封市|