国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種融合項(xiàng)目信息與信任機(jī)制的協(xié)同過濾算法

2022-09-09 15:43:58尹天賀牛存良張養(yǎng)碩
關(guān)鍵詞:信任度相似性信任

尹天賀,牛存良,張養(yǎng)碩

(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300130)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,“信息過載”已經(jīng)成為傳統(tǒng)搜索技術(shù)不能勝任的難題,如何高效快速地在海量數(shù)據(jù)中挖掘出有價(jià)值的信息成為當(dāng)今學(xué)術(shù)界研究的熱點(diǎn)。為了解決這一問題,推薦系統(tǒng)應(yīng)運(yùn)而生,協(xié)同過濾算法是推薦系統(tǒng)中應(yīng)用最廣泛并且最成功的核心技術(shù)。然而,協(xié)同過濾算法面臨著嚴(yán)重的數(shù)據(jù)稀疏與冷啟動(dòng)問題[1-2],這很大程度上影響了推薦系統(tǒng)的效率。一般而言,傳統(tǒng)的協(xié)同過濾算法往往基于用戶單一的歷史行為進(jìn)行分析,受用戶動(dòng)機(jī)和數(shù)據(jù)稀疏性干擾較強(qiáng)[3],基于社會(huì)學(xué)中的同質(zhì)理論[4]和社交影響理論[5],將社交信任機(jī)制融入到推薦系統(tǒng)成為了研究熱點(diǎn)。Massa等[6]提出一種融入用戶顯性信任關(guān)系的推薦算法,雖然在一定程度上提高了推薦質(zhì)量,但是信任關(guān)系需要用戶自己維護(hù);Yang等[7]提出了基于用戶信任與被信任機(jī)制的社交模型,該模型考慮了用戶間信任的方向,將用戶特征映射到信任和被信任2個(gè)低維的特征空間;余永紅等[8]結(jié)合了用戶的社會(huì)地位和項(xiàng)目種類信息,挖掘了不同領(lǐng)域中用戶間的信任關(guān)系;吳賓等[9]考慮了用戶之間的影響傳播以及用戶的雙重影響,將其融入矩陣分解模型,得到了較好的推薦精度;Tang等[10]利用了社交網(wǎng)絡(luò)的局部與全局信息進(jìn)行推薦,通過融合不同視角的社會(huì)關(guān)系提升了推薦效率。

雖然大量研究者已經(jīng)考慮了用戶的社會(huì)關(guān)系,將用戶信任機(jī)制融入到推薦算法中,但忽略了2 個(gè)問題:1)在不同的領(lǐng)域中,用戶的信任對象是不同的,社會(huì)地位也有一定差異,通過全局信息計(jì)算出的信任度并不能很好地體現(xiàn)用戶在不同領(lǐng)域的信任與被信任程度;2)相同用戶在面對不同項(xiàng)目時(shí),其偏好程度是不同的,傳統(tǒng)方法計(jì)算出的用戶相似度在面對不同待推薦項(xiàng)目時(shí)是不變的,并沒有考慮項(xiàng)目信息。為了解決上述問題,本文利用項(xiàng)目種類信息,充分分析用戶在不同領(lǐng)域的社會(huì)地位及其信任對象,構(gòu)建特定領(lǐng)域的用戶信任網(wǎng)絡(luò),然后將項(xiàng)目相似性與用戶相似度相融合,利用自適應(yīng)模型計(jì)算用戶間綜合相似性,挖掘出更加精確的用戶近鄰信息。

1 推薦問題描述及協(xié)同過濾算法

1.1 推薦問題的形式化描述

假設(shè)推薦系統(tǒng)中含有M個(gè)用戶和N個(gè)項(xiàng)目,分別構(gòu)成用戶集U={u1,…,um} 和項(xiàng)目集I={i1,…,in},其中,為用戶-項(xiàng)目評分矩陣[11],在評分矩陣中,rui表示用戶u對產(chǎn)品i的評分,通常情況下評分?jǐn)?shù)據(jù)為整數(shù),并且rui∈{0,1,2,3,4,5},評分越高代表用戶對當(dāng)前項(xiàng)目越滿意,Iu(Iu∈I)為用戶u評過分的項(xiàng)目集,Uj(Uj∈U)為對項(xiàng)目j評過分的用戶集。在CF-PIC中,將項(xiàng)目按照類別進(jìn)行分類,原始用戶-評分項(xiàng)目矩陣R根據(jù)數(shù)據(jù)集中的項(xiàng)目標(biāo)注字段(categoryid)分為,其中k為評分?jǐn)?shù)據(jù)集中項(xiàng)目類別的數(shù)量。

1.2 協(xié)同過濾算法的基本流程

協(xié)同過濾算法利用用戶歷史行為信息挖掘出目標(biāo)用戶的最近鄰集合,根據(jù)該集合中近鄰用戶對某一項(xiàng)目的評價(jià)信息向目標(biāo)用戶進(jìn)行推薦,其一般流程包含:構(gòu)建評分矩陣、獲取用戶相似度、形成近鄰、產(chǎn)生推薦[12],其中,如何更加客觀準(zhǔn)確地獲取用戶相似度是當(dāng)前研究工作的重點(diǎn)。

1.2.1 用戶相似度的計(jì)算

在協(xié)同過濾算法中,描述用戶間相似性的指標(biāo)主要有2種:余弦相似度和Pearson相關(guān)系數(shù),由于Pear?son相關(guān)系數(shù)擁有更好的中心化特性,其相較于余弦相似度擁有更加精確的衡量效果[13]。本文對Pearson 相關(guān)系數(shù)進(jìn)行改進(jìn),提出融合項(xiàng)目信息的用戶相似度,經(jīng)典的Pearson相關(guān)系數(shù)定義為

式中:Iuv表示用戶u與用戶v共同評分項(xiàng)目集;rui為用戶u對項(xiàng)目i的評分;分別表示用戶u和用戶v的評分均值。

1.2.2 評分預(yù)測

協(xié)同過濾算法認(rèn)為,如果某些用戶在一類項(xiàng)目上擁有較為相似的評分,則認(rèn)為他們在系統(tǒng)內(nèi)的其他項(xiàng)目上也具有較高的相似度;根據(jù)式(1)計(jì)算出系統(tǒng)內(nèi)用戶間相似度,構(gòu)成目標(biāo)用戶u的最近鄰集Su,利用Su中的用戶評分信息預(yù)測用戶u對目標(biāo)項(xiàng)目i的評分:

2 本文CF-PIC 算法

近年來,大量研究者已經(jīng)將用戶信任機(jī)制融入到推薦算法中。相較于傳統(tǒng)的協(xié)同過濾算法,考慮了用戶社會(huì)關(guān)系的推薦算法得到了大量應(yīng)用。但是,已有的研究工作認(rèn)為在各個(gè)領(lǐng)域內(nèi)用戶的地位是相同的,并且,用戶相似度的計(jì)算方式也比較簡單,并沒有充分考慮相同用戶在面對不同項(xiàng)目時(shí)的偏好差異,這在很大程度上降低了推薦算法的效率。雖然鄭潔等[14]考慮了項(xiàng)目間的差異對于用戶的影響,但其研究局限于全局信息,在細(xì)分領(lǐng)域內(nèi)并未研究。因此,本文充分考慮了領(lǐng)域間信任差異和項(xiàng)目間用戶相似性差異的影響,提出一種融合項(xiàng)目信息與信任機(jī)制的協(xié)同過濾算法(CF-PIC)。

首先,CF-PIC算法將系統(tǒng)內(nèi)項(xiàng)目按照各自所屬領(lǐng)域進(jìn)行劃分,對不同領(lǐng)域的數(shù)據(jù)進(jìn)行獨(dú)立分析,挖掘用戶在各個(gè)領(lǐng)域的社會(huì)地位及推薦準(zhǔn)確性,利用調(diào)和平均比重動(dòng)態(tài)確定用戶在特定領(lǐng)域的綜合信任網(wǎng)絡(luò);然后,根據(jù)用戶歷史評分信息度量項(xiàng)目間相似度,并將其融入到用戶相似度的計(jì)算中,以更加精確的區(qū)分相同用戶組面對不同項(xiàng)目時(shí)的相似度差異,系統(tǒng)獲得更加準(zhǔn)確的用戶近鄰信息;最后,對目標(biāo)用戶進(jìn)行TOP-N推薦。

2.1 信任模型

本文充分考慮用戶的局部信任與全局信任信息,更全面挖掘出用戶間的綜合信任度,其中局部信任度體現(xiàn)了用戶間的偏好與評分水平差別。此外,研究表明用戶更傾向于“專家”的意見[15],全局信任度則體現(xiàn)了用戶在某個(gè)領(lǐng)域內(nèi)的聲譽(yù),將局部和全局信任度進(jìn)行加權(quán)調(diào)和,使該算法能夠更加精確地度量用戶間的信任關(guān)系。

2.1.1 局部信任度

在之前的研究中,大部分用戶信任網(wǎng)絡(luò)的建立是基于用戶間共同評分或共同好友進(jìn)行的,這在數(shù)據(jù)稀疏時(shí),算法性能極度下降。陸坤等[12]認(rèn)為用戶相互推薦的準(zhǔn)確性在很大程度上能夠反映用戶間的偏好差異,但其用于判定的閾值是固定的,并不能客觀表示不同用戶對于正確推薦的定義差異,本文的局部信任度對此進(jìn)行改進(jìn),將用戶間做出的正確推薦定義為正向推薦,并且將不同用戶對于某一項(xiàng)目的相似性融入到正向推薦的判斷中。本文的局部信任度定義如下:

2.1.2 全局信任度

一般情況下,推薦系統(tǒng)中用戶的評分?jǐn)?shù)量越多,則其影響力越大,并且隨著評分經(jīng)驗(yàn)的不斷積累,其評分質(zhì)量也會(huì)越來越高,更易獲得他人信任。因此,用戶的個(gè)人活躍度定義如下:

在推薦系統(tǒng)中,用戶評分項(xiàng)目數(shù)所占類目內(nèi)總項(xiàng)目數(shù)的比重越大,或平均偏差越小,則認(rèn)為用戶評分越準(zhǔn)確,信譽(yù)度越高。用戶的全局信任度定義如下:

2.1.3 綜合信任度

綜合以上分析,同時(shí)考慮用戶的局部信任度和全局信任度,可以更加客觀準(zhǔn)確地描述用戶間的信賴程度。因此,用戶綜合信任度定義如下:

式中:α∈[0,1] 為調(diào)和因子,由于不同用戶對局部和全局信任度的依賴程度不同,固定的調(diào)和因子不能很好地滿足系統(tǒng)內(nèi)所有用戶的偏好需求,因此,本文采用自適應(yīng)模型更新α,通過實(shí)際條件的變化動(dòng)態(tài)調(diào)整全局信任度和局部信任度的比重,進(jìn)一步加強(qiáng)系統(tǒng)適應(yīng)性,α值的表達(dá)式如下:

2.2 融入項(xiàng)目信息的用戶相似度

研究表明,一組用戶在面對不同項(xiàng)目時(shí),其相似度是不同的。但是,在已有的信任推薦網(wǎng)絡(luò)中,用戶相似度的計(jì)算方式并沒有充分結(jié)合目標(biāo)項(xiàng)目信息,對所有待推薦項(xiàng)目進(jìn)行評分預(yù)測時(shí),目標(biāo)用戶及其鄰居用戶的相似度是恒定不變的。例如,式(2)中用戶間的相似度在面對不同目標(biāo)項(xiàng)目時(shí)都是sim(u,v),這種方式極大地降低了推薦系統(tǒng)的效率。因此本研究將項(xiàng)目相似性融入用戶相似性度量中。其中,項(xiàng)目相似性定義如下:

式中:Uij為對項(xiàng)目i和j同時(shí)評分的用戶集合;則表示項(xiàng)目i和項(xiàng)目j所獲得的所有評分均值,在計(jì)算用戶相似度時(shí)充分考慮不同項(xiàng)目對其值的影響,將項(xiàng)目間的相似度SI(i,j)融入到式(1)所示的皮爾遜相關(guān)系數(shù)中,生成融入項(xiàng)目信息的用戶相似度,其定義如下:

式中:ck為項(xiàng)目i所屬種類,用戶共同評分的種類為ck的項(xiàng)目集合為利用目標(biāo)項(xiàng)目的相似度計(jì)算用戶u和用戶v在項(xiàng)目i上所具有的相似度simi(u,v)。一般情況下,一對用戶對于目標(biāo)項(xiàng)目的偏好差異越小,其用戶間相似程度越高,因此,在進(jìn)行評分預(yù)測時(shí)可以獲得較高的權(quán)重。

2.3 綜合相似性

本文給出的用戶綜合相似性,同時(shí)考慮了融入項(xiàng)目相似權(quán)重的用戶相似度和用戶綜合信任度,這兩方面在系統(tǒng)綜合相似性中所占的比重由調(diào)和平均比重動(dòng)態(tài)決定。最終得出的用戶u和用戶v在項(xiàng)目i上的綜合相似性定義如下:

2.4 評分預(yù)測

將本文得出的綜合相似性替換傳統(tǒng)協(xié)同過濾算法中的用戶相似性,根據(jù)公式(13)對目標(biāo)項(xiàng)目進(jìn)行融入多維項(xiàng)目信息與用戶信任的評分預(yù)測,進(jìn)而進(jìn)行TOP-N推薦。

3 實(shí)驗(yàn)與分析

為了驗(yàn)證融入項(xiàng)目信息與信任機(jī)制的協(xié)同過濾算法性能,本文在真實(shí)的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并與經(jīng)典的協(xié)同過濾算法和融入單一要素的推薦算法進(jìn)行多維對比分析。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)利用真實(shí)的Epinions 數(shù)據(jù)集驗(yàn)證CF-PIC算法的性能。Epinions 是國外專業(yè)的產(chǎn)品評論與社交網(wǎng)站,該網(wǎng)站提供了豐富的產(chǎn)品評分與評價(jià)信息,并在某一產(chǎn)品的全部評分中整理并挑選出信譽(yù)度最高的評論。Epinions 中用戶對產(chǎn)品的評分表示三元組為:(uid,pid,categoryid),其中categoryid 表示被評分項(xiàng)目的類別[16],即為本文上述中的catk值,例如,其產(chǎn)品按照類別分為電影類、數(shù)碼產(chǎn)品類和書籍類等。

本文使用的Epinions 數(shù)據(jù)集包含922 267 條評分、22 188 名用戶和296 399 個(gè)產(chǎn)品,其中共有27 個(gè)產(chǎn)品類別,用戶涉及到的產(chǎn)品類別數(shù)量的分布情況如圖1所示,由于用戶評分記錄遵循長尾分布,可以觀察到80%的用戶所涉及到的產(chǎn)品類別少于10類,這表明了單個(gè)用戶感興趣的項(xiàng)目類別是非常有限的,證明了本文引入項(xiàng)目類別信息計(jì)算用戶信任度與相似度的必要性,本文選取“Movie”,“Books”,“Education”3個(gè)類別的數(shù)據(jù)驗(yàn)證本文所提出的CF-PIC算法。

圖1 用戶涉及產(chǎn)品類別數(shù)量的分布Fig.1 Distribution of the number of users involved in product categories

3.2 評價(jià)指標(biāo)

實(shí)驗(yàn)使用當(dāng)前被廣泛使用的平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)衡量各類算法的精度,MAE定義如下:

式中:N為樣本個(gè)數(shù);MAE 表示符合條件的所有單一預(yù)測評分與全體評分算術(shù)平均值的偏差絕對值[17],MAE值越小,表明該算法擁有更好的推薦性能。RMSE則表示單一預(yù)測評分與真實(shí)評分偏差的平方與樣本個(gè)數(shù)N比值的平方根,反映了預(yù)測評分與實(shí)際評分之間的差異,RMSE定義如下:

此外,實(shí)驗(yàn)對各類算法的召回率和覆蓋率進(jìn)行分析,在工程領(lǐng)域中,召回率和覆蓋率是衡量推薦算法經(jīng)濟(jì)性的重要指標(biāo),召回率表示用戶喜歡的項(xiàng)目被系統(tǒng)推薦的概率,覆蓋率表示系統(tǒng)所推薦項(xiàng)目占全部項(xiàng)目的比例,其大小反映了算法解決長尾問題的能力。

3.3 實(shí)驗(yàn)結(jié)果及分析

根據(jù)經(jīng)驗(yàn),分別在3個(gè)類目的項(xiàng)目中隨機(jī)選取80%的數(shù)據(jù)作為實(shí)驗(yàn)訓(xùn)練集,20%的數(shù)據(jù)作為實(shí)驗(yàn)測試集,并且采用五折交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn),每組實(shí)驗(yàn)獨(dú)立選取數(shù)據(jù)集和訓(xùn)練集并運(yùn)行5次,獲取其平均值作為該實(shí)驗(yàn)的最終結(jié)果。

為了對比各類算法的性能,將本文提出的融入項(xiàng)目信息與信任機(jī)制的CF-PIC算法與經(jīng)典的協(xié)同過濾算法CF、融入單一要素的基于用戶信任的推薦算法CF-T、基于興趣的推薦算法CF-I進(jìn)行對比,依次對目標(biāo)用戶選取不同的最近鄰個(gè)數(shù)K,得到各類算法在不同K值時(shí)的推薦誤差MAE與RMSE值,其對比分析結(jié)果分別如圖2和圖3所示。

圖2 不同算法的MAE 值比較Fig.2 MAE value comparison of different algorithms

圖3 不同算法的RMSE 值比較Fig.3 RMAE value comparison of different algorithms

由圖2、圖3可知,當(dāng)選取的用戶近鄰數(shù)K逐漸增大時(shí),各個(gè)算法的MAE和RMSE值都呈先降后升的趨勢,這是由于過少的近鄰會(huì)使推薦系統(tǒng)所獲得的信息過于稀少,而過多的近鄰則會(huì)對推薦系統(tǒng)造成干擾,影響目標(biāo)用戶的信息表示。本實(shí)驗(yàn)中,在目標(biāo)用戶鄰居數(shù)為30左右時(shí),各類算法的MAE與RMSE值達(dá)到最優(yōu)。如圖2所示,本文提出的融合項(xiàng)目信息與信任機(jī)制的協(xié)同過濾算法CF-PIC的MAE值最小達(dá)到了0.69,相較于傳統(tǒng)的協(xié)同過濾算法CF、融入信任的協(xié)同過濾算法CF-T和融入興趣的協(xié)同過濾算法CF-I分別提升了11.54%、4.2%和10.37%,如圖3 所示,本文CF-PIC 算法的RMSE 值最小達(dá)到了0.91,相較于CF、CF-T和CF-I算法分別提升了7.14%、4.21%和9.01%。

同樣采取五折交叉驗(yàn)證方法,取目標(biāo)用戶鄰居數(shù)為30,進(jìn)一步對比各類算法的召回率與覆蓋率,如表1所示,本文提出的CF-PIC算法的召回率相較于CF-I、CF-T和CF分別提升了1.4%、1.2%和2.5%,證明了本研究通過在用戶相似度中融入項(xiàng)目信息可以獲得較好的用戶反饋;同樣,CF-PIC 的覆蓋率也分別提升了1.2%、0.9%和1.9%,證明了本研究在深入挖掘用戶間信任關(guān)系的同時(shí),并沒有發(fā)生嚴(yán)重的擬合現(xiàn)象,反而由于充分考慮了項(xiàng)目的分類信息,使得覆蓋率得到了一定提高。由此可見,綜合考慮多維項(xiàng)目信息的情況下,將改進(jìn)的用戶信任評測模型融入到協(xié)同過濾算法,可以顯著提高推薦系統(tǒng)的性能,證明了本研究的價(jià)值。

表1 不同算法的召回率和覆蓋率對比Tab.1 Comparison of recall rate and coverage rate of different algorithms

4 結(jié)語

為了更好地解決協(xié)同過濾算法中用戶偏好表示區(qū)分度過低和用戶信任領(lǐng)域模糊問題,本文結(jié)合項(xiàng)目的評分信息和類別信息,綜合考慮不同項(xiàng)目領(lǐng)域中用戶社會(huì)地位及推薦準(zhǔn)確性的差異,利用調(diào)和平均比重將用戶的全局信任度與局部信任度相融合,動(dòng)態(tài)的構(gòu)建了用戶在特定領(lǐng)域的信任網(wǎng)絡(luò);并且進(jìn)一步將項(xiàng)目相似度融入到傳統(tǒng)的用戶相似度計(jì)算函數(shù)中,挖掘出不同項(xiàng)目間用戶相似度的差異。通過科學(xué)的實(shí)驗(yàn)驗(yàn)證,相較于傳統(tǒng)的協(xié)同過濾算法和融入各類單一信息的推薦算法,本文中提出的CF-PIC算法較為明顯地提高了系統(tǒng)的推薦準(zhǔn)確度,使系統(tǒng)效率得到大幅提高。在今后的研究中,將重點(diǎn)挖掘時(shí)間信息和注意力機(jī)制對推薦系統(tǒng)的影響。

猜你喜歡
信任度相似性信任
一類上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫的相似性
表示信任
全球民調(diào):中國民眾對政府信任度最高
嚶嚶嚶,人與人的信任在哪里……
桃之夭夭B(2017年2期)2017-02-24 17:32:43
從生到死有多遠(yuǎn)
低滲透黏土中氯離子彌散作用離心模擬相似性
基于信任度評估的移動(dòng)自組織網(wǎng)絡(luò)路由協(xié)議
信任
2014,如何獲得信任
玛纳斯县| 珠海市| 三门峡市| 庐江县| 温州市| 临潭县| 阿坝县| 兖州市| 娄烦县| 连平县| 札达县| 漾濞| 敖汉旗| 信丰县| 新源县| 阜城县| 淮南市| 上栗县| 永川市| 北碚区| 安岳县| 永平县| 宁强县| 株洲县| 古田县| 永吉县| 霍山县| 正蓝旗| 博湖县| 惠水县| 商水县| 静乐县| 定安县| 抚顺县| 水富县| 厦门市| 监利县| 香港| 承德市| 郧西县| 赤壁市|