曹秀秀
【摘 要】 協(xié)同過濾推薦系統(tǒng)根據(jù)近鄰偏好產(chǎn)生相應的推薦,惡意的用戶將設法影響推薦系統(tǒng)的行為,使其無法產(chǎn)生有用的推薦結(jié)果。討論了惡意用戶攻擊協(xié)同過濾推薦系統(tǒng)的不同方式,評估了近期研究中不同推薦方法的效果,并討論了相應的有關對策。
【關鍵詞】 推薦系統(tǒng) 協(xié)同過濾 攻擊 效果評估
隨著互聯(lián)網(wǎng)的不斷發(fā)展,海量信息已充滿整個網(wǎng)絡,從而產(chǎn)生了信息過載問題,推薦系統(tǒng)是解決這一問題的有效工具。推薦系統(tǒng)是根據(jù)用戶興趣愛好產(chǎn)生推薦結(jié)果的智能化軟件,目前已被廣泛應用于諸多領域如電子商務、社交網(wǎng)絡、音樂、書籍、電影和廣告等。其中協(xié)同過濾推薦系統(tǒng)是應用最廣泛的。實際情況中,推薦系統(tǒng)的建議可以影響用戶的購買行為,惡意的用戶會設法影響推薦系統(tǒng)的行為使其無法產(chǎn)生有用的推薦結(jié)果,這種現(xiàn)象稱之為針對推薦系統(tǒng)的攻擊。本文介紹了推薦系統(tǒng)攻擊的內(nèi)容,討論了基于社區(qū)協(xié)同過濾推薦系統(tǒng)用戶惡意攻擊的不同方式,分析了不同攻擊方式的弱點及相應的對策。
1 引言
協(xié)同過濾技術是當前研究推薦系統(tǒng)的一個熱點,它并不需要分析推薦對象的特征屬性?;谏鐓^(qū)協(xié)同過濾推薦系統(tǒng)最能涉及到用戶的誠實、公平和友善,因為只有它們才會被操縱的用戶評分集影響?;趦?nèi)容和基于知識的系統(tǒng)只會受到與系統(tǒng)配置有關的信息的操控,除非需要從公共數(shù)據(jù)挖掘知識源。所以本文只對基于社區(qū)推薦系統(tǒng)惡意攻擊進行了討論。下面簡單的典型例子概述了插入記錄攻擊的基本思想,其是基于內(nèi)存協(xié)同過濾方法的一個簡化版本,使用皮爾遜系數(shù)作為相似度度量方法,近鄰規(guī)模為1。表1為評分矩陣,最后一行為偽造記錄,在沒有該偽造記錄情況下,用戶2是最相似的用戶,該用戶對目標物品的評分2(不喜歡)將被作為針對Alice的預測值。然而,在系統(tǒng)被攻擊的情況下,如表1所示,偽造記錄成為最相似的用戶,這意味著目標物品的較高評分將被作為針對Alice的預測值。
2 攻擊類型
各種攻擊類型之間最大的不同就是攻擊的目的不同,也就是說,目的是要提高目標物品的預測值即推舉攻擊,還是降低其預測值即打壓攻擊[1]。能否高效地攻擊推薦系統(tǒng)也取決于攻擊者對有關評分數(shù)據(jù)集知識的掌握程度。
2.1 隨機攻擊
隨機攻擊由Lam和Riedl(2004)提出[2]。根據(jù)這一方式,插入記錄的所有物品評分會被賦以隨機值,隨機值服從數(shù)據(jù)庫中所有評分平均值和標準差決定的正態(tài)分布。其直觀思想是,生成的記錄應該包含“常見”的評分,這樣才會被看作許多其他真實記錄的近鄰。
2.2 均值攻擊
均值攻擊比隨機攻擊稍復雜些。在這種方法中,每個物品的平均評分被用來確定插入記錄的評分值,根據(jù)這種策略生成的記錄應該有更多的近鄰,因為它考慮了已有評分數(shù)據(jù)集的更多詳細內(nèi)容。實驗證明,這種攻擊類型應用在基于內(nèi)存的用戶-用戶協(xié)同過濾系統(tǒng)上的效果更明顯,代價是需要額外的知識來確定評分值[3]。
2.3 造勢攻擊
造勢攻擊利用了領域內(nèi)評分數(shù)據(jù)庫的其他外部知識,目的是提高插入記錄擁有更多近鄰的機會。其攻擊的思想是除了對目標物品的高評分或低評分之外,讓插入記錄只包含非常熱門物品的高評分[4]。這樣更有可能找到許多有類似主流選擇的近鄰。其典型例子是將一條對《哈利·波特》叢書高度評價的記錄(2007)插入到圖書推薦系統(tǒng)中。這種攻擊類型代價較低,可以很容易確定熱銷物品集合或當前的熱門大片。
2.4 局部攻擊
局部攻擊由Mobasher(2005)提出,只針對單個細分市場的促銷活動會更加有效[5]。當設計推舉攻擊物品A時,主要的問題是識別出對與物品A相似的物品感興趣的用戶群體。局部攻擊會被專門設計用來誤導基于物品的協(xié)同過濾方法,總的來說,這種類型攻擊隊基于用戶的協(xié)同過濾方法也有效。
3 效果評估
推舉攻擊?;谟脩舻膮f(xié)同推薦系統(tǒng)情況下,通過在MovieLens數(shù)據(jù)集上評估各種攻擊的結(jié)果可以看出,均值攻擊和造勢攻擊都能顯著誤導推薦系統(tǒng)的輸出結(jié)果[6]。攻擊規(guī)模也是影響攻擊效果的一個因素。均值攻擊效果好一些,但它比造勢攻擊需要更多有關平均物品評分的知識 。基于模型協(xié)同的推薦系統(tǒng)情況下,采用相同的操作記錄集合攻擊標準的算法時,實驗證明這類算法遠遠比基于用戶的算法更穩(wěn)定。采用相同的數(shù)據(jù)集時,觀察到的預測值變化只有0.15分,而且還是在15%的數(shù)據(jù)項被偽造的情況下。
打壓攻擊。Mobasher et al.(2007)[7]得出的另一個觀察結(jié)論是,大多數(shù)攻擊類型在抬舉物品時很有效,但用于打壓物品時影響卻很小。專門設計的打壓攻擊方法卻很有效。同樣,造勢攻擊在打壓物品時比其他方法更有效,但當目標是要抬高物品時效果就不明顯。雖然能夠觀察到某些預測值上的變化,但基于物品的方法抵御攻擊的表現(xiàn)還是更為有效。
4 對策
4.1 提高插入成本
讓自動插入變得更加困難是一種直接的防御措施。防止自動生成賬號的 標準方法包括使用Captcha(Von Ahn et al.2003)。Captcha是“區(qū)分計算機還是人類的完全自動的公開圖靈測試”的縮寫,是一種詢問-響應測試,目的是找出系統(tǒng)用戶究竟是計算機還是人。
4.2 利用基于模型的技術和額外的信息
選擇能夠?qū)Σ迦胗涗浌舾鼮轸敯舻耐扑]技術可能是一種防御的方法。此外,要注意盡量采用那種非依賴評分信息的推薦系統(tǒng),因為評分會在偽造記錄的幫助下被操縱。Massa和Avesani(2007)提出推薦系統(tǒng)也可以利用群體中不同參與者之間的信任信息[8]。
4.3 自動探測攻擊
自動探測攻擊的目標是自動探測出評分數(shù)據(jù)庫中的可疑記錄。Su等(2005)提出一種方法能夠識別群托攻擊,這種攻擊指的是系統(tǒng)中的多個用戶聯(lián)合起來抬高或打壓某個物品[9]。Zhang等(2006)采用了不同的方法,思想是每種攻擊類型都會隨著時間推移影響某些物品評分值的分布,建議檢測一段時間某些物品的評分值來探測異常并特別構(gòu)造和分析了以下兩個屬性的時間序列:樣本均值,描述物品隨時間變化的可能性;樣本熵,表明物品評分值分布的變化[10]。endprint
5 結(jié)語
推薦系統(tǒng)可以通過互聯(lián)網(wǎng)訪問,是一種基于私人用戶數(shù)據(jù)的智能化應用軟件。因此會成為惡意用戶的攻擊對象,尤其是在基于社區(qū)協(xié)同推薦系統(tǒng)的情況下。因為在很多情況下可以從中獲得金錢利益,比如操縱推薦系統(tǒng)的推薦結(jié)果或者獲取有價值客戶數(shù)據(jù)的訪問權限。針對不同的攻擊類型制定相應的防御辦法是值得關注的問題,未來的研究需要業(yè)界的廣泛合作,對研究成果的合理性進行驗證,從而提高推薦系統(tǒng)的可靠性和安全性。
參考文獻:
[1]Dietmar Jannach,Markus Zanker,Alexander Felfernig and Gerhard Friedrich.Recommender System [M].2013.
[2]K.Lam and J.Riedl,Shilling recommender systems for fun and profit,Proceedings of the 13th International Conference on World Wide Web,ACM,2004,pp.393-402.
[3]張富國,徐升華.推薦系統(tǒng)安全問題及技術研究綜述.計算機應用研究,2008,25:656-659.
[4]伍之昂,王有權,曹杰.推薦系統(tǒng)托攻擊模型與檢測技術[J].科學通報,2014.551-560.
[5]Mobasher,R.Bhamik,and C.Williams,Effective attack models for shilling item-based collaborative filtering systems,Proceedings of the 2005 WebKDD Workshop,ACM,2005,pp.13-23.
[6]伍之昂,莊毅,王有權,等.基于特征選擇的推薦系統(tǒng)托攻擊檢測算法.電子學報,2012,40:1687-1693.
[7]Mobasher,R.Bhamik,and C.Williams,Toward trustworthy recommender systems:An analysis of attack models and algorithm robustness,ACM Transactions on Internet Techonoldy 7 (2007),no.4,23.
[8]Massa and P.Avesani,Trust-aware recommender systems. Proceedings of the 2007 ACM Conference on Recommender Systems(RecSys07) (Minneapolis,MN),ACM,2007,pp.12-24.
[9]X.F.Su,H.-J.Zeng,and Z.Chen,F(xiàn)inding group shilling in recommendation system,Special Interest Tracks anf Posters of the 14th International Conference on World Wide Web(WWW05)(Chiba,Japan),ACM.2005.pp.960-961.
[10]Zhang,A.Chakrabarti,J.Ford and F.Makedon,Attack detection in time series for recommender systems,Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD06) (Philadelphia),ACM,2006,pp.809-814.endprint