国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾推薦算法

2015-08-06 13:15:58曹向前王平蔣凱聶世群田偉莉
軟件導(dǎo)刊 2015年7期
關(guān)鍵詞:相似度貝葉斯網(wǎng)絡(luò)數(shù)據(jù)挖掘

曹向前 王平 蔣凱 聶世群 田偉莉

摘 要:網(wǎng)絡(luò)技術(shù)的快速發(fā)展產(chǎn)生了海量用戶數(shù)據(jù),為在海量數(shù)據(jù)中尋找與用戶需求相符的數(shù)據(jù),提出一種能快速得到較準(zhǔn)確推薦結(jié)果的基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾推薦算法。實驗結(jié)果表明,與傳統(tǒng)協(xié)同過濾推薦算法相比,該算法準(zhǔn)確度更高。

關(guān)鍵詞:貝葉斯網(wǎng)絡(luò);數(shù)據(jù)挖掘;相似度;協(xié)同過濾算法

DOIDOI:10.11907/rjdk.151098

中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2015)007-0064-02

0 引言

協(xié)同過濾推薦是根據(jù)基本用戶的觀點產(chǎn)生對目標(biāo)用戶的推薦列表。然而,隨著數(shù)據(jù)量的增加,傳統(tǒng)協(xié)同過濾算法的可擴展性問題逐漸凸現(xiàn),根據(jù)貝葉斯網(wǎng)絡(luò)的特點,當(dāng)數(shù)據(jù)不斷增加時,構(gòu)建一個動態(tài)的貝葉斯網(wǎng)絡(luò)不但能很好地解決這一問題,還能提高算法的準(zhǔn)確性。

1 傳統(tǒng)協(xié)同過濾算法

協(xié)同過濾算法通常分為3步[1-2]:①構(gòu)建用戶檔案;②尋找最近鄰,在用戶檔案中尋找與目標(biāo)用戶相似度最高的若干用戶;③產(chǎn)生推薦。

1.1 建立用戶檔案(profile)

收集用戶的評分、評價行為等,并進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換和錄入,最終形成用戶對各種項目的評價表,如表1 所示。

1.2 尋找最近居

計算用戶與數(shù)據(jù)庫內(nèi)各用戶的相似度,尋找最近鄰居集??刹捎靡韵路椒ǎ?/p>

(1)相關(guān)相似性。設(shè)用戶i和a共同評分過的項目集合為Ii,Ia,則用戶i和用戶a之間的相似性sim(i,a)通過Peason 相關(guān)系數(shù)度量:

sim(i,a)=∑j∈Ii∩Ia(Ri,j-Ri-)(Ra,j-Ra-)∑j∈Ii∩Ia(Ri,j-Ri-)2∑j∈Ii∩Ia(Ra,j-Ra-)2(1)

(2)余弦相似性。用戶評分看作n 維項目空間上的向量,用戶間的相似性通過向量間的余弦夾角度量。設(shè)用戶i和用戶a在n維項目空間上的評分分別為向量i,a,則用戶i和用戶a直接的相似度sim(i,a) 為:

sim(i,a)=cos(i,a)=i-×a-ia(2)

(3)修正的余弦相似性。余弦相似性度量方法中沒有考慮不同用戶的評分尺度問題,修正的余弦相似性度量方法通過減去用戶對項目的平均評分改善了該缺陷。設(shè)用戶i和a共同評分過的項目集合N,則用戶i和用戶a之間的相似性sim(i,a) 為[3]:

sim(i,a)=∑j∈N(Ri,j-Ri-)(Ra,j-Ra-)∑j∈N(Ri,j-Ri-)∑j∈N(Ra,j-Ra-)(3)

1.3 預(yù)測

采用加權(quán)平均值方法,通過最近鄰居集的評價產(chǎn)生推薦,推薦算法如下[4-5]:

pa,y=∑u∈NN,y∈Nsim(a,u)Ru,y∑u∈NN,y∈Nsim(a,u)(4)

pa,y=∑u∈NN,y∈Nsim(a,u)(Ru,y-Ru-)∑u∈NN,y∈Nsim(a,u)+Ra-(5)

Pa,y代表目標(biāo)用戶對項目 y 的預(yù)測值; Ru,y代表目標(biāo)客戶a最近鄰居集內(nèi)的用戶u 對項目y 的評價。目標(biāo)用戶a 的最近鄰居集用NN(nearest neighbor)表示,因此,u∈NN。

2 基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾算法

在特征屬性有條件獨立或基本獨立的條件成立時,傳統(tǒng)協(xié)同過濾算法的準(zhǔn)確率是最高的,但現(xiàn)實中各特征屬性間往往條件并不獨立,而是具有較強的相關(guān)性,這樣就限制了其能力。所以必須考慮到各對象特征屬性之間的關(guān)系,如能先根據(jù)對象的特征屬性作出準(zhǔn)確分類,再進(jìn)行協(xié)同過濾,準(zhǔn)確率就會有很大的提高,同時效率也會有很大的提高。

2.1 貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò)是描述數(shù)據(jù)變量之間依賴關(guān)系的圖形模式,是為處理人工智能研究中的不確定性問題而發(fā)展起來的。貝葉斯網(wǎng)表達(dá)了各節(jié)點間的條件獨立關(guān)系,可以直觀地從貝葉斯網(wǎng)當(dāng)中得出屬性間的條件獨立以及依賴關(guān)系。此外,可以認(rèn)為貝葉斯網(wǎng)用另一種形式表示出事件的聯(lián)合概率分布,根據(jù)貝葉斯網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)以及條件概率表,可以快速得到每個基本事件的概率。

通過貝葉斯網(wǎng)絡(luò),可以通過非獨立對象的特征屬性構(gòu)建相應(yīng)的貝葉斯網(wǎng)絡(luò)拓?fù)潢P(guān)系圖,再創(chuàng)建貝葉斯訓(xùn)練數(shù)據(jù)集,據(jù)此可將用戶正確分類,再進(jìn)行協(xié)同過濾推薦。

2.2 運用貝葉斯網(wǎng)絡(luò)分類

確定隨機變量間的拓?fù)潢P(guān)系,形成DAG(無回路有向圖)。舉例:構(gòu)建一個個人習(xí)性圖(見圖1)。為簡單起見,用少量的特征屬性以及較粗的劃分。

圖1 個人習(xí)性圖

人的習(xí)性大體上分為勤快與懶散兩類,而判斷是否勤奮的標(biāo)準(zhǔn)有任務(wù)完成時間和難易程度,但做事的難易程度又受到任務(wù)完成時間的影響,比如一般喜歡有任務(wù)先做的人喜歡先難后易,而一個人是否勤奮也影響一個人是否做事喜歡先難后易。這樣,幾個條件都是相對非獨立的,所以采用貝葉斯公式來求取幾個條件對結(jié)果的概率。多變量非獨立聯(lián)合條件概率分布公式如下:

P(x1,x2,…,xn)=P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,x2,…,xn)(6)

在貝葉斯網(wǎng)絡(luò)中,由于存在性質(zhì):每一個節(jié)點在其直接前驅(qū)節(jié)點的值制定后,這個節(jié)點條件獨立于其所有非直接前驅(qū)前輩節(jié)點。任意隨機變量組合的聯(lián)合條件概率分布被化簡成:

P(x1,x2,…,xn)=∏ni=1P(xi|Parents(xi))(7)

其中,Parents表示xi的直接前驅(qū)節(jié)點的聯(lián)合,概率值可以從相應(yīng)條件概率表中查到。下一步獲取訓(xùn)練集,訓(xùn)練集可以從網(wǎng)絡(luò)得到,也可以通過調(diào)查的形式建立,對于第一次使用時,可以先通過調(diào)查的形式建立一個初期訓(xùn)練集,預(yù)防冷啟動的問題,隨著數(shù)據(jù)量的增加,可以根據(jù)現(xiàn)有數(shù)據(jù),不斷更新現(xiàn)有訓(xùn)練集,從而得到更高的準(zhǔn)確性。利用采用來自網(wǎng)絡(luò)的數(shù)據(jù),

有如下訓(xùn)練集:

(Q=1)=0.68

(Q=0)=0.32

(Y|Q=1)=0.47

(N|Q=1)=0.53

(Y|Q=0)=0.39

(N|Q=0)=0.61

如果現(xiàn)在有一位用戶平時做事先難后易占69%,則他是一個勤快人的概率為:P(Q|N,X)

3 性能評測

本文采用movilens.umn.edu提供的公開數(shù)據(jù)集驗證此算法。大多數(shù)此類算法都會采用該數(shù)據(jù)集。本數(shù)據(jù)集包含943個用戶的10 000 條1~5 的評價數(shù)據(jù)組成。實驗結(jié)果如表2所示。

可以看出,大多數(shù)情況下本算法比傳統(tǒng)協(xié)同過濾算法準(zhǔn)確度要高。主要原因是在進(jìn)行協(xié)同過濾之前,就已經(jīng)使用貝葉斯網(wǎng)絡(luò)對用戶進(jìn)行了相似性分類,然后在此基礎(chǔ)上進(jìn)行協(xié)同過濾運算。

4 結(jié)語

本文介紹了傳統(tǒng)協(xié)同過濾推薦算法,針對現(xiàn)實中用戶各個特征屬性間往往并非條件獨立的問題,提出了基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾算法,目的是用細(xì)分用戶集的方式來提高最終的推薦精度。

參考文獻(xiàn):

[1] 郭艷紅,鄧貴仕.協(xié)同過濾系統(tǒng)項目冷啟動的混合推薦算法[J].計算機工程,2008(23):11-13.

[2] 曾匯艷,麥永浩.基于內(nèi)容預(yù)測和項目評分的協(xié)同過濾推薦[J].計算機應(yīng)用,2004,24(1):111-113.

[3] 彭德巍,胡斌.一種基于用戶特征和時間的協(xié)同過濾算法[J].武漢理工大學(xué)學(xué)報, 2009(2):26-28.

[4] 秦國,杜小勇.基于用戶層次信息的協(xié)同過濾推薦算法[J].計算機科學(xué),2004,31(10):138-140.

[5] 李濤,王建東.一種基于用戶聚類的協(xié)同過濾推薦算法[J].軟件學(xué)報,2007(7):1178-1183.

(責(zé)任編輯:陳福時)

猜你喜歡
相似度貝葉斯網(wǎng)絡(luò)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
改進(jìn)的協(xié)同過濾推薦算法
模糊Petri網(wǎng)在油田開發(fā)設(shè)計領(lǐng)域的應(yīng)用研究
無人機數(shù)據(jù)鏈測試與評估研究
科技資訊(2016年25期)2016-12-27 16:22:32
基于貝葉斯網(wǎng)絡(luò)的流域內(nèi)水文事件豐枯遭遇研究
基于興趣預(yù)測和熱點分析的聯(lián)合推薦算法研究 
相似度算法在源程序比較中的應(yīng)用
影響母線負(fù)荷預(yù)測的因素及改進(jìn)措施
科技視界(2016年10期)2016-04-26 11:40:14
基于貝葉斯網(wǎng)絡(luò)的城市居民出行方式研究
英德市| 嘉定区| 中西区| 深泽县| 治多县| 邵武市| 博白县| 酒泉市| 搜索| 尚义县| 新余市| 莒南县| 福泉市| 久治县| 宁夏| 修文县| 敦化市| 利辛县| 南平市| 大田县| 彰武县| 富蕴县| 莱州市| 清河县| 清远市| 垣曲县| 水城县| 龙泉市| 榆中县| 乌拉特后旗| 乐东| 苍南县| 遵义市| 手游| 勃利县| 灵山县| 银川市| 加查县| 邻水| 益阳市| 蓬莱市|