李明明 馬萍萍 代紹慶
摘 要:傳統(tǒng)的協(xié)同過濾推薦算法產(chǎn)生的數(shù)據(jù)稀疏性和冷啟動問題存在潛在安全危機,不利于個性化推薦質量的提高。文章引入基于用戶興趣度和滿意度的信任機制,改進傳統(tǒng)用戶信任度,通過信任度權重因子∞。優(yōu)化用戶綜合信任度,以提升預測評分質量。仿真實驗分別從算法的推薦準確率和推薦覆蓋率展開分析,實驗結果表明,當∞:。取值在0.5時,推薦準確率和覆蓋率較RTCR算法、Trustlmpact MF算法、A&I-Based;算法明顯占優(yōu)。
關鍵詞:用戶信任度;個性化;協(xié)同過濾;用戶相似度;推薦算法
隨著線上社交網(wǎng)絡的流行,社交網(wǎng)絡平臺不僅實現(xiàn)了用戶隨時隨地獲取、推送網(wǎng)絡信息資源,也給用戶在網(wǎng)絡信息服務、共享和評論方面提供了支撐。移動資源、信息的過度開發(fā),增加了終端用戶在移動信息過載、失真等方面的問題[2]。如何將用戶感興趣且真實有效的信息從海量信息中挖掘出來,以實現(xiàn)用戶個性化推薦,是下一代在線社交的個性化服務急需解決的技術難題。
傳統(tǒng)的基于用戶協(xié)同式過濾推薦作為社交網(wǎng)絡的個性化服務關鍵之一,如表l所示,主要以用戶相似性、用戶項目評分方式展開對目標用戶的預測評分,但是這一推薦方法仍然在數(shù)據(jù)稀疏性、用戶潛在攻擊上存在不足。以用戶相似性為向導,以緩解用戶數(shù)量劇增導致的協(xié)同過濾算法的數(shù)據(jù)稀疏性和安全攻擊為目標,是協(xié)同過濾推薦研究的重點。
基于用戶的協(xié)同過濾的服務推薦算法,在社交網(wǎng)絡中被廣泛應用于過濾推薦。以用戶相似性為起點,旨在有效降低協(xié)同推薦產(chǎn)生的數(shù)據(jù)稀疏性[5-6]。通過個性化的推薦技術,研究用戶行為,分析用戶的興趣,建立用戶的遞歸測評分矩陣[3];構造用戶行為相區(qū)劃分的凝集性;通過提升時間確定性、對目標用戶的貢獻度,并將用戶對項目屬性的偏好度作為評分推薦值,改進用戶行為相似性。為了更高效地處理社交網(wǎng)絡中的海量數(shù)據(jù),以保證社交網(wǎng)絡的可擴展性,以詞頻一逆文件頻率(Term Frequency Inverse DocumentFrequency, TF-IDF)算法為基礎,借助Hadoop云平臺,提高用戶特征的準確率,提升社交網(wǎng)絡的可擴展性。
個性化協(xié)同過濾的服務推薦中存在的潛在安全攻擊:惡意用戶借助一般用戶相似性(用戶屬性、特征、相關度等外在相似性)進行服務推薦,導致目標用戶獲取到錯誤或者有害網(wǎng)絡信息資源。Polom等率先將信任關系應用于服務推薦,其個性化協(xié)同過濾推薦的方法是分析目標用戶對項目的信任關系,以清除惡意用戶。為了計算用戶間的直接、間接信任距離,設計了一種基于用戶單步距離的信任關系[7]。榮輝桂等為了實現(xiàn)用戶信任度的有效提升,將用戶推薦滿意度作為推薦數(shù)據(jù)評價指標,提出了基于A&I-Based;的協(xié)同過濾推薦算法。為了更好地獲取目標用戶的信任,將用戶信任與評分結合,通過用戶評分的信任上下閾值計算用戶的信任關系。針對評分的非確定性,將評分作為一種矩陣并展開矩陣因子分解,將信任用戶進行分組以分析評分對用戶信任的間接關系,提出基于Trustlmpact MF算法。
在已有的研究基礎上,引入用戶信任機制。針對用戶信任關系中存在的目標用戶與推薦用戶對產(chǎn)品的共同興趣以及推薦用戶對產(chǎn)品的購買滿意評價等,設計一種基于用戶對商品興趣和推薦滿意度的用戶信任一評分(Interest SatisfiedTrust MF, Int-Trust MF)個性化協(xié)同推薦方法,并給出算法的相應數(shù)學模型,分別采用信任推薦數(shù)據(jù)集Epinions展開仿真實驗。
1 國內(nèi)外研究現(xiàn)狀
協(xié)同過濾推薦的核心是用戶相似度度,文獻[1]將用戶屬性相似度引入傳統(tǒng)的電子商務服務推薦。文獻[9]改進了傳統(tǒng)的協(xié)同過濾推薦方式,構造用戶屬性相似度和用戶推薦滿意度函數(shù),側面體現(xiàn)了用戶之間的信任關系,但側重點在于根據(jù)用戶的屬性相似性展開預測評價。文獻[4]為了改進微博用戶的數(shù)據(jù)稀疏性,將用戶的評分差值信息熵作為行為相似度加以推薦,以增強推薦力度和社區(qū)劃分。文獻[12]結合了用戶特征、時間興趣度、項目屬性,作為新項目的用戶相似性推薦基礎。文獻[13]聯(lián)合用戶的多個屬性和對項目的興趣,以用戶屬性權重為用戶相似性,提出了AICF算法(Attributes andInterests Collabora tive Filtering).
基于個性化的推薦是當前協(xié)同過濾技術中流行的推薦系統(tǒng)之一。文獻[3]通過研究個性化推薦中的用戶行為并分析用戶的興趣度,改進用戶相似性的度量方法以提升在推薦準確率方面的占優(yōu)。文獻[15]基于k一近鄰均值加權推薦的非準確性,采用啟發(fā)式聚類分析,引入改進的最大最小距離聚類算法,潛在性分析用戶己評分、未評分項目,這一算法一定程度提升了推薦準確率。文獻[16]針對當前離散型評分的不合理性展開了用戶推薦的模糊聚類分析,將梯形模糊評分模型應用于用戶相似度計算,算法在數(shù)據(jù)稀疏性方面較傳統(tǒng)算法明顯占優(yōu)。
大量研究結果表明,傳統(tǒng)的個性化協(xié)同過濾推薦在有效防御用戶的惡意欺騙行為和推薦過程模糊度方面存在不足[17],容易導致用戶的推薦盲目性。因此,結合信任機制和個性化推薦,旨在有效緩解惡意欺騙和推薦模糊性問題的發(fā)生‘印。文獻[2]將信任度作為用戶相似度加權值,通過定義用戶的直接信任度、間接信任度來計算用戶相似性,并且將這一跳范圍內(nèi)的信任度作為信任距離展開相似度計算,一定程度上提升了推薦的準確性,降低了訓練時間。為了提升推薦準確性,文獻[19]則將無線移動網(wǎng)絡中的用戶位置移動偏好作為用戶信任度量,文獻[20]側重用戶的偏好特性,提出了以增強用戶信任度為基礎的協(xié)同過濾推薦算法,在基于鄰居的方法基礎上改進了信任度的加權因子。文獻[21]將用戶的認知習慣等納入成熟的信任機制中,以改進協(xié)同過濾推薦。
綜合而言,僅通過用戶外部相似性、評分結果、單純的用戶信任關系展開服務推薦,難以有效滿足推薦的準確率的提升、推薦系統(tǒng)的冷啟動和數(shù)據(jù)稀疏性有效降低、惡意用戶安全威脅等。聯(lián)合用戶特征信任度、傳統(tǒng)用戶相似性,以提升對目標用戶的推薦準確率和質量,是個性化協(xié)同過濾推薦的研究關鍵。
2 基于用戶信任度的個性化協(xié)同過濾推薦算法
以傳統(tǒng)的用戶相似性作為推薦基礎,難以實現(xiàn)社交網(wǎng)絡中推薦質量的穩(wěn)定提高。結合用戶信任機制的協(xié)同過濾推薦算法,旨在提升推薦質量和緩解數(shù)據(jù)稀疏性,緩解惡意用戶安全威脅。
文獻[22]指出信任度分為直接信任和推薦信任,直接信任即實體直接的接觸行為和歷史記錄,在實際應用中也指用102戶相似性;推薦信任指通過第三方間接推薦形成的間接式信任度。因此,個性化的協(xié)同過濾推薦方法首先需要解決用戶的相似性和推薦信任度。
2.1用戶相似性
在實際的社交網(wǎng)絡中,推薦給用戶商品的前提是用戶感興趣,如果用戶在一定時間內(nèi)重復搜索商品關鍵詞,則目標用戶對商品的需要量即可作為向目標用戶推薦的基礎。對于一般用戶而言,如果目標用戶與一般用戶呈現(xiàn)了搜索目標商品相似性,則推薦效果可以從用戶集中相似性最高的用戶評分展開。
然而,如果目標用戶早己將用戶集中與其相似性最高的用戶納入黑名單或者直觀上認為不信任(這種不信任可能是用戶集中該用戶曾發(fā)布過虛假信息、不安全信息或被舉報過等),則用戶之間的相似性無法輔助協(xié)同過濾推薦,對于這一類問題,增加目標用戶與用戶集中用戶的信任機制,一定程度上提升推薦質量和推薦準確率。
定義用戶節(jié)點集K其中v,表示第i個用戶。所有目標用戶存放于協(xié)同服務池S中,S=(v1,v2,…,VN),i=l,2,3-N。對目標用戶的推薦商品集為目標用戶已經(jīng)瀏覽或搜索過的C=(Cl,c2,…,Ck),k=l,2,…,Ko結合傳統(tǒng)用戶相似性概念,將用戶v,向目標用戶vi推薦商品C時用戶之間的屬性相似度定義為:
其中,Ri.k表示目標用戶v,選購目標商品G的相似度數(shù)矩陣,Sim,也指用戶直接信任度。
2.2基于用戶興趣與滿意度的信任機制
在推薦系統(tǒng)中,用戶之間的信任關系在推薦中占有決策性作用,用戶的推薦信任度以來推薦用戶對商品的滿意度和對推薦者在該商品上的共同興趣作為目標用戶的推薦信任度。其中,目標用戶對于推薦者的信任源于兩者之間存在對該商品共同的興趣;目標用戶對該商品的滿意度則依靠于推薦用戶對該商品購買后的評價值。
建立目標用戶與推薦用戶在相同產(chǎn)品上的共同興趣度和推薦用戶對產(chǎn)品的滿意度作為推薦的信任度:
其中,Ink表示用戶V,已經(jīng)購買了該產(chǎn)品且目標用戶V,已經(jīng)搜索或瀏覽過商品G,其計算公式為表示目標用戶有瀏覽或搜索商品額的次數(shù),目標用戶對推薦的商品瀏覽次數(shù)越多,說明越有推薦價值和意義。同時,表示推薦用戶v,的屬性相似比。推薦用戶對商品G的滿意度Sa為其對商品購買后的評價,一般有3種:不滿意、較滿意、滿意,其值空間為:
式(3)為用戶v,購買商品Ck的當前評價與平均評價對比結果,評判其產(chǎn)品滿意度。其中如果較當前的評價值較平均評價高,其滿意度最好,值為2。
因此,目標用戶v,是否信任推薦用戶v,的推薦,前提條件為推薦用戶已經(jīng)購買了產(chǎn)品G,并且目標用戶有瀏覽過商品G,商品瀏覽次數(shù)越多,說明目標用戶v『推薦用戶v,的信任度越高。
2.3推薦過程
綜合考慮用戶的推薦信任度和屬性相似性,對用戶的推薦信任度和用戶屬性相似性作數(shù)據(jù)優(yōu)化處理。文獻[23]指出用戶綜合信任度需將直接信任度和間接信任度進行加權平均。為了有效緩解數(shù)據(jù)稀疏性,給定目標用戶v:對用戶v,的信任權重因子∞。以平衡用戶之間的信任關系,得到用戶綜合信任度函數(shù)如下所示:
根據(jù)用戶綜合信任度計算公式,篩選用戶推薦集,選擇鄰居集合中推薦數(shù)量最高的Ⅳ_個用戶為當前目標用戶集合,利用Top-N方法建立用戶推薦服務過程。根據(jù)推薦用戶的推薦結果,給定v,目標用戶v對商品G的與測評分為:
3.1評價指標
目前個性化協(xié)同推薦的流行評價指標主要為:準確率和覆蓋率。傳統(tǒng)的推薦質量度量以平均絕對偏差(MeanAbsolute Error,MAE)、覆蓋率(Coverage)為主。其中,用戶集合V中的P表示預測評分結果,,。表示實際評分結果,Ⅳ為推薦系統(tǒng)中用戶的總數(shù)量,T為給用戶推薦過的用戶數(shù)量。
文獻[10-11]認為傳統(tǒng)的MAE評分數(shù)據(jù)的分數(shù)存在數(shù)據(jù)不平衡性,難以較好地反應冷啟動用戶的推薦效果。優(yōu)化平均絕對用戶誤差作協(xié)同過濾推薦準確率公式為: 用戶評分覆蓋率結果為
3.2實驗結果評價
為了能有效與已有經(jīng)典的推薦方法作深入對比,實驗以Paolo Massa等提供的Epinions數(shù)據(jù)集為基礎,用戶數(shù)量為:480 189,商品數(shù)量為:17 770,用戶的預測評分范圍選擇(1-10分)。
實驗(l)為分析用戶信任度權重因子對用戶推薦的準確率和覆蓋率的影響。其中,用戶的推薦率和覆蓋率根據(jù)式(6)、(7)公式計算而來(見圖1-2)。
實驗(l)仿真結果表明:
(l)在 值不同的情況下,推薦用戶數(shù)量的增加引起平均絕對偏差變大,網(wǎng)絡中推薦的準確率呈現(xiàn)下降趨勢。當∞。值從0.2上升到0.5時,準確率逐漸上升,絕對偏差也隨即發(fā)生變化。當(oi.j值從0.5上升到0.8時,準確率呈現(xiàn)下降趨勢。當∞。為0.5時,其絕對偏差值對推薦用戶數(shù)量的變化影響最小。
(2)在 值不同的情況下,推薦用戶數(shù)量的增加致使用戶的評分覆蓋率呈現(xiàn)逐漸下降趨勢。當∞:。從0.2上升到0.5時,評分覆蓋率逐漸增加,數(shù)據(jù)的稀疏性明顯得到改善。但是當∞。值上升到0.8時,評分覆蓋率呈現(xiàn)了下滑趨勢。當∞,。值為0.5時,其評分覆蓋率對社交網(wǎng)絡中用戶數(shù)量的增加影響程度也是最小。
綜合而言,當用戶信任度權重因子∞;。在0.5時,算法可以實現(xiàn)多用戶個性化推薦,同時對用戶的推薦質量和推薦覆蓋率影響最?。ㄒ妶D3-4)。
實驗(2)為多算法對比驗證實驗。從RTCR算法、Trustlmpact MF算法、A&I-Based;算法、Int-Tru st算法中展開仿真分析。
實驗(2)仿真結果表明:
(1)所有算法在∞,,=0.5時得到的推薦準確率存在不一致。其中,RTCR算法、Trustlmpact MF算法的推薦率呈現(xiàn)先增加后下降繼而增加的趨勢,即用戶數(shù)量分別在40和80時出現(xiàn)推薦轉折;算法在用戶數(shù)量為60時出現(xiàn)推薦轉折;Int-Trust算法在用戶數(shù)量分別為50、70時出現(xiàn)微小推薦轉折。推薦準確率發(fā)生轉折說明用戶數(shù)量在發(fā)生變化時對推薦的準確率有影響,但是影響程度較傳統(tǒng)的用戶相似度(式(1》有明顯優(yōu)化。而受影響程度從小到大的關系為:Int-Trust,A&一based, Trustlmpact MF, RTCR。
(2)在∞0=0.5時用戶推薦覆蓋率均呈現(xiàn)穩(wěn)定下降趨勢,即用戶數(shù)量越多,推薦用戶的評分占比越小,覆蓋率下降越明顯(式(7》。其中覆蓋率從大到小依次為:Int-Trust, A&_ based, RTCR, Trustlmpact MF。
(3)在∞,=0.5時,通過仿真結果結算發(fā)現(xiàn):Int-Trust推薦方法較A&_ based,Trustlmpact MF,RTCR等同類型的基于用戶信任機制的協(xié)同過濾推薦算法在推薦準確率和推薦覆蓋率方面均明顯占優(yōu)。
4結語
基于傳統(tǒng)用戶相似性建模方法,建立以用戶興趣一推薦滿意度為主要參考度量的用戶信任機制,旨在提升用戶相似性的平衡性,緩解數(shù)據(jù)稀疏性和冷啟動帶來的用戶推薦質量下降問題,緩解惡意用戶安全威脅。仿真實驗發(fā)現(xiàn),當用戶信任度權重因子∞,,在0.5時得到的推薦準確率和覆蓋率效果較其他數(shù)值可靠性更高,對比最新的推薦算法,在準確率和覆蓋率方面,Int-Trust算法明顯占優(yōu)。由于現(xiàn)有數(shù)據(jù)集平臺的局限性,下一步研究將深入探索實際社交網(wǎng)絡中的數(shù)據(jù)挖掘和個性化協(xié)同推薦工作。
[參考文獻]
[1]朱琳.可基于社交網(wǎng)絡的個性化推薦服務研究[D].西安:西北大學,2012.
[2]POLO M, BOBBY B.Using trust in recommender system: an experimental analysis[C] .Oxford: Proceeding of Itrust 2004 Intemational Conference. 2004: 221-235
[3]王茜,張衛(wèi)星.基于分類樹相似度加權的協(xié)同過濾算法[C].重慶:2008年計算機應用技術交流會,2008.
[4]李聰,梁昌勇,馬麗.基于鄰域最近鄰的協(xié)同過濾推薦算法[J]計算機研究與發(fā)展,2008 (9):1532-1538
[5]陳志敏,李志強.基于用戶和項目屬性的協(xié)同過濾推薦算法[J].計算機應用,2011(7)1748-1750.
[6]程飛,賈彩燕.一種基于用戶相似性的協(xié)同過濾推薦算法研究[J].計算機工程與科學,2013 (5):161-165
[7]王興茂,張興明,鄔江興.基于一跳信任模型的協(xié)同過濾推薦算法[J].通信學報,2015 (6):1301-1308.
[8]蔡浩,賈宇波,黃成偉.結合用戶信任模型的協(xié)同過濾推薦方法研究[J]計算機工程與應用,2010( 35):148-151.
[9]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J]通信學報,2014 (2):16-24
[IO]秦繼偉,鄭慶華,鄭德立,等.結合評分和信任的協(xié)同推薦算法[J]西安交通大學學報,2013 (4):100-105
[11]葉衛(wèi)根,宋威.融合信任用戶間接影響的個性化推薦算法[J].計算機工程與科學,2016 (12):2579-2586
[12]劉文龍.基于加權信息熵相似度的協(xié)同過濾算法研究[D]天津:天津師范大學,2013.
[13]俞琰,邱廣華.基于局部隨機游走的在線社交網(wǎng)絡朋友推薦算法[J]系統(tǒng)工程,2013(2):47-54.
[14]賀銀慧.社交網(wǎng)絡中用戶信任關系的研究及其應用[D].成都:電子科技大學,2011
[16]王興茂,張興明,吳毅濤,等基于啟發(fā)式聚類模型和類別相似度的協(xié)同過濾推薦算法[J]電子學報,2016 (7):1708-1713
[17]吳毅濤,張興明,王興茂,等基于用戶模糊相似度的協(xié)同過濾算法[J]通信學報,2016 (1):198-206.
[18]金亞亞,牟援朝基于改進信任度的協(xié)同過濾推薦算法[J]現(xiàn)代圖書情報技術,2010 (10):49-53
[19]蔡波斯,陳翔基于行為相似度的微博社區(qū)發(fā)現(xiàn)研究[J]計算機工程,2013 (8):55-59
[20]李玲,任青,付園,等基于Hadoop的社交網(wǎng)絡服務推薦算法[J]吉林大學學報(信息科學版),2013 (4):359-364
[21]劉樹棟,孟祥武一種基于移動用戶位置的網(wǎng)絡服務推薦方法[J]軟件學報,2014 (11):2556-2574
[22]徐選華,王兵,周艷菊基于信任機制的不完全信息大群體決策方、法[J]控制與決策,2016 (4):577-585.
[23]段昌敏,沈濟南,周慧華信任驅動的云聯(lián)盟博弈算法[J]計算機應用研究,2017 (9):233-240