王潔 劉建國
摘要:在線評級系統(tǒng)由于水軍和惡意打分者的存在而無法對物品給出客觀評價(jià),因此,建立一個(gè)基于打分行為的聲譽(yù)度量模型對于在線評級系統(tǒng)的健康發(fā)展至關(guān)重要?,F(xiàn)有的用戶聲譽(yù)度量方法僅依靠用戶評分和商品質(zhì)量之間的差異進(jìn)行計(jì)算,忽略了用戶的行為模式。將用戶的評分偏差和行為模式相結(jié)合,提出了一種新的聲譽(yù)度量方法,該方法不僅考慮了用戶打分頻率的極值,還考慮了用戶打分總次數(shù)。在兩個(gè)實(shí)證數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,新方法對隨機(jī)打分的識別準(zhǔn)確率相較于經(jīng)典算法最高可以提高 17%,對于解決冷啟動和魯棒性問題具有更好的表現(xiàn)。
關(guān)鍵詞:用戶聲譽(yù);在線評級系統(tǒng);行為模式;惡意評級
中圖分類號:G 35??????????? 文獻(xiàn)標(biāo)志碼:A
Measurement of user reputation via users'behavior patterns
WANG Jie1, LIU Jianguo2,3
(1. Business School, University of Shanghaifor Science and Technology, Shanghai 200093, China;2. Institute ofAccounting andFinance, Shanghai University ofFinance and Economics, Shanghai 200433, China;3. Research Group of Computational and AICommunication at Institutefor Global Communications and Integrated Media, Fudan University, Shanghai 200433, China)
Abstract: Online rating systems fail to measure qualities of items due to attacks given by unfair raters,and? it? is? crucial? for? the? health? of? online? rating? systems? to? establish? a? reputation? ranking? system? toidentify? unfair? raters.? The? existing? user? reputation? measurement? methods? only? take? into? account? thedifference? between? the? user's? rating? information? and? the? item? qualities,? regardless? of? users'? ratingbehavior? patterns.? Combining? users'? rating? bias? and? behavioral? patterns,? a? new? reputation? rankingmethod BPR was proposed, and the model considered not only the extremes of user rating frequency,but also the total number of user ratings. The extensive experimental results for empirical datasets showthat,? comparing? with? the? classical? method,? the? accuracy? of? the? BPR? method? for? identifying? randomratings by large-scale users could be improved by up to 17%, with better performance for cold start androbustness problems.
Keywords: user reputation; online rating systems; behavior pattern; malicious rating
互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致人們對網(wǎng)絡(luò)技術(shù)的依賴程度越來越高,同時(shí)也帶動了在線評級系統(tǒng)的發(fā)展[1]。用戶可以很容易地在互聯(lián)網(wǎng)上獲取商品和服務(wù)的相關(guān)信息。與此同時(shí),信息超載的問題也逐漸暴露出來[2-3]。為此,用戶面對大量商品而無從選擇時(shí),往往會根據(jù)評級系統(tǒng)提供的商品評價(jià)結(jié)果來作出消費(fèi)決策[4-6]。然而,由于在線評級系統(tǒng)的虛擬性,商家和消費(fèi)者之間存在著嚴(yán)重的信息不對稱,導(dǎo)致電子商務(wù)平臺出現(xiàn)嚴(yán)重的信用問題[7-8]。主要原因在于不是所有用戶都會對商品給予合理的評價(jià),他們可能由于判斷力不佳,或者出于某些利益需求而給出極高或極低的分值[9]。而這些不合理的評分結(jié)果會誤導(dǎo)其他用戶選擇低質(zhì)量商品、錯(cuò)過高質(zhì)量商品[10-12]。評分結(jié)果與實(shí)際不符,惡意評級用戶難以識別,這些因素導(dǎo)致相應(yīng)的電子商務(wù)平臺逐漸失去消費(fèi)者的信任,喪失競爭力[13]。因此,建立一個(gè)高效可靠的聲譽(yù)體系,根據(jù)用戶的打分行為度量用戶聲譽(yù),對在線評級系統(tǒng)有著非常重要的意義[14-16]。
1相關(guān)工作
關(guān)于在線評級系統(tǒng)中的用戶聲譽(yù)問題,學(xué)者們從不同角度提出了多種度量方法。Laureti等[17]認(rèn)為商品質(zhì)量與用戶評分差值越大,用戶聲譽(yù)越低,提出了 IR(iterative refinement)算法。 IR 算法將初始為1的用戶聲譽(yù)作為權(quán)重計(jì)算商品質(zhì)量,商品質(zhì)量與評分差值的倒數(shù)作為用戶聲譽(yù),而后兩者不斷迭代至算法收斂。 Zhou 等[18]引入量化兩變量相關(guān)程度的皮爾森相關(guān)系數(shù),提出了 CR (correlation-based ranking)算法,其基本思想是打分和產(chǎn)品質(zhì)量相似度越高的用戶得到的聲譽(yù)值也越高。在此基礎(chǔ)上,考慮到系統(tǒng)中惡意用戶的存在, Liao 等[19]提出了聲譽(yù)值再分配迭代算法,簡稱 IARR(iterativerankingalgorithmwithreputation redistribution)算法,引入懲罰因子后又提出了 IARR2算法。兩種算法增強(qiáng)了系統(tǒng)中高聲譽(yù)或打分次數(shù)多的用戶即高活躍度用戶的影響力,將這類用戶確定為系統(tǒng)中的高聲譽(yù)用戶。后來,Gao 等[20]提出了一種基于群組的 GR(group-based ranking)算法,算法通過用戶的群組行為來評估用戶的聲譽(yù),即如果用戶總是屬于大評級組,他們就會被賦予較高的聲譽(yù)分?jǐn)?shù)。在引入迭代機(jī)制后,Gao 等[21]提出了 IGR(iterativegroup-basedranking)算法。Fu 等[22]認(rèn)為用戶有自己的打分偏好,引入了基于用戶評分偏差的 IGDR(iterativegroup-basedand difference ranking)算法,認(rèn)為用戶評分的偏差越小聲譽(yù)越高。 Dai 等[23]認(rèn)為每個(gè)人的打分偏好不一樣,有的習(xí)慣打高分,有的習(xí)慣打低分,所以需要將用戶給出的評級范圍映射到相同的評級標(biāo)準(zhǔn)上,提出了 PGR(improvedgroup-basedrating method based on the user preference)算法。 Liu 等[24]基于貝葉斯分析,提出了一種無參數(shù)的在線用戶聲譽(yù)排序 BR(parameter-free algorithm based on the Bayesian analysis)算法,該算法基于用戶評價(jià)與所有用戶評價(jià)的主要部分一致的概率來計(jì)算用戶聲譽(yù)。 Lee 等[25]提出了一種基于偏差的排序方法,根據(jù)質(zhì)量分類的準(zhǔn)確性來分配每個(gè)用戶的聲譽(yù)指標(biāo),從用戶評價(jià)標(biāo)準(zhǔn)函數(shù)的幾個(gè)似是而非的假設(shè)出發(fā),成功地推導(dǎo)出了一個(gè)新的聲譽(yù)指數(shù),用來衡量用戶評價(jià)的統(tǒng)計(jì)意義,簡稱 DR(deviation-based spam-filtering)算法。 Sun 等[26]研究發(fā)現(xiàn):可靠用戶的評分偏差較小,且評分呈峰值分布;相反,惡意用戶通常給出有偏見的評級,他們的評級分?jǐn)?shù)幾乎不遵循一個(gè)已知的模式。基于此,他們提出了通過評級統(tǒng)計(jì)模式評估在線評級系統(tǒng)用戶聲譽(yù)的 IOR(iterative optimization ranking)算法。之前的算法都局限于商品質(zhì)量分與用戶打分的相似度對比,而 IOR 算法則開創(chuàng)了新的思路,考慮用戶所有評分的分布模式,使得該算法在大量惡意用戶的進(jìn)攻下仍舊能保持很好的魯棒性。
然而, IOR 算法僅僅考慮了用戶最大打分頻率和最小打分頻率的統(tǒng)計(jì)分布,忽略了用戶打分的整體分布特征。算法的核心要素是用戶的打分模式,打分總次數(shù)和打分頻率的極值對于度量用戶聲譽(yù)也都具有重要作用。基于此,本文提出了考慮用戶打分模式的 BPR(ranking method based onuser rating patterns)算法,不同實(shí)證數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性。
2基于打分模式的算法
本文提出的基于用戶行為模式的 BPR 算法中心思想是正常用戶打分時(shí)經(jīng)常喜歡給出自己習(xí)慣打的分值,而其他分值則較少給出,即用戶的打分行為符合峰值分布。與正常用戶不同,惡意用戶給產(chǎn)品打分通常帶有主觀偏見,并且打分的行為模式不同于正常用戶。為此,本文度量用戶評分和物品質(zhì)量之間的差異,進(jìn)而考察用戶的打分行為模式是否符合峰值分布,以區(qū)分正常用戶與惡意用戶。在此基礎(chǔ)上,本文提出了 BPR 算法來度量物品的質(zhì)量和用戶的可信度,以下為具體的算法步驟。
Step 6根據(jù)式(6)計(jì)算用戶聲譽(yù),再將得到的聲譽(yù)值代入式(3),得到商品最終的質(zhì)量分?jǐn)?shù)。正常用戶通常具有較小的評分偏差Ei和較大的Pi 值,而不公正評分者與正常用戶相比,表現(xiàn)出相反的情況,用戶i的聲譽(yù)Ri可以由Ei和Pi決定。
通過人工加入失真評級者,利用算法基于用戶的打分模式對所有用戶的聲譽(yù)進(jìn)行評價(jià),失真評級者應(yīng)該具有更低的聲譽(yù)值。圖1給出了 BPR 算法的小樣本示例。
圖1中: U={ U1, U2, U3, U4, U5}代表用戶集合, O={O1,O2,O3,O4}代表物品集合,二者的連邊表示用戶對物品的評分,這三者組成了一個(gè)加權(quán)的用戶–物品二分網(wǎng)絡(luò),可以用于對在線評分系統(tǒng)進(jìn)行表示; A 為用戶的評分矩陣; A'為用戶的評分次數(shù)矩陣,矩陣內(nèi)元素記錄了用戶對不同種類分?jǐn)?shù)的打分次數(shù);矩陣 P 記錄了每個(gè)用戶的 P 值;Q 為商品的質(zhì)量分?jǐn)?shù)矩陣; D 為用戶評分與商品質(zhì)量的差異矩陣;E 為用戶評分偏差的均值矩陣,為矩陣 D 內(nèi)每行元素的均值; R 代表用戶的聲譽(yù)分?jǐn)?shù)矩陣。示例最后對用戶聲譽(yù)從小到大進(jìn)行排序,設(shè)置閾值 L 為2,則聲譽(yù)最低的兩名用戶被視為算法識別出的失真評級者。
3實(shí)驗(yàn)結(jié)果分析
3.1數(shù)據(jù)集來源
MovieLens 25M 是發(fā)布于2019年12月份的數(shù)據(jù)集,由GroupLens (https://grouplens.org/datasets/movielens/)提供,擁有2500萬條數(shù)據(jù)可供用戶隨機(jī)挑選(所有用戶的評分次數(shù)均大于20),評分制度為0.5~5分的十級評分制。為了評估 BPR 方法的有效性,本文使用兩個(gè)真實(shí)數(shù)據(jù)集Movielens 10W 和Movielens 100W 來驗(yàn)證所提新算法的性能。Movielens 10W 和Movielens 100W 分別為MovieLens 25M 數(shù)據(jù)集中提取的前10萬條數(shù)據(jù)和前100萬條數(shù)據(jù)。實(shí)驗(yàn)所用的兩個(gè)數(shù)據(jù)集的基本統(tǒng)計(jì)數(shù)據(jù)匯總在表1中,所有數(shù)據(jù)均為網(wǎng)站提供的原始數(shù)據(jù),未經(jīng)過處理。
3.2用戶打分模式
MovieLens 25M 數(shù)據(jù)集中大部分的用戶是正常用戶,因此,應(yīng)用該數(shù)據(jù)集對用戶行為模式進(jìn)行探索得出的結(jié)論可以看作是正常用戶的行為模式。本文將MovieLens 25M 數(shù)據(jù)集中的2500萬條數(shù)據(jù)分為25份子數(shù)據(jù)集,每份包含100萬條數(shù)據(jù),并以數(shù)字1~25命名。同一個(gè)用戶可能被分割在相鄰數(shù)據(jù)集的首尾部分,為此,首先刪掉每個(gè)數(shù)據(jù)集的首尾兩個(gè)用戶。然后,刪掉評分種類小于2的用戶,計(jì)算用戶的最大最小打分頻次占自身總評分次數(shù)的比例(Max1和 Min1),在每個(gè)數(shù)據(jù)集內(nèi)對所有用戶求均值。接著,刪掉評分種類小于4的用戶,計(jì)算用戶的第二大第二小打分頻次占自身總評分次數(shù)的比例(Max2和 Min2),在每個(gè)數(shù)據(jù)集內(nèi)對所有用戶求均值。最后,刪掉評分種類小于6的用戶,計(jì)算用戶的第三大第三小打分頻次占自身總評分次數(shù)的比例(Max3和 Min3),在每個(gè)數(shù)據(jù)集內(nèi)對所有用戶求均值。
實(shí)驗(yàn)結(jié)果如圖2所示,MovieLens 25M 中正常用戶的評分行為符合峰值分布,即用戶會對習(xí)慣的少數(shù)分值打出較多的次數(shù),而較少打出其他分值。值得注意的是,此處 Min3比 Min2的數(shù)值小,這是因?yàn)橛?jì)算 Min3的數(shù)據(jù)集中刪掉了評分種類小于6的用戶,而評分種類越多,每種評分所占的比例自然會下降。
此外,本文還統(tǒng)計(jì)了MovieLens 100W 數(shù)據(jù)集內(nèi)所有用戶的不同種類分?jǐn)?shù)的打分頻率的散點(diǎn)圖,如圖3所示。
3.3異常用戶
真實(shí)的評級系統(tǒng)中廣泛存在著兩種失真的評級,即惡意評級和隨機(jī)評級。惡意評級者定義為那些只對物品給予最高或最低評分的用戶;隨機(jī)評級者定義為對物品沒有偏好并隨機(jī)打分的用戶。這些異常用戶的打分行為會導(dǎo)致物品質(zhì)量分?jǐn)?shù)的提高或降低,偏離物品真實(shí)的質(zhì)量。
在實(shí)驗(yàn)中,隨機(jī)選擇數(shù)據(jù)集中的 d 個(gè)用戶,并修改他們的評分為失真的評級。計(jì)算不同算法對這些用戶的召回率,然后恢復(fù)數(shù)據(jù)集數(shù)據(jù),再次隨機(jī)選擇 d 個(gè)用戶,重復(fù)同樣的操作,每個(gè)數(shù)據(jù)集的實(shí)驗(yàn)重復(fù)100次。在MovieLens 10W 和MovieLens 100W 數(shù)據(jù)集中生成人造失真評級者時(shí),惡意評級者的打分為0.5或5,隨機(jī)評級者的打分為集合{0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5.0}中的任意一個(gè)數(shù)。
3.4評價(jià)指標(biāo)
實(shí)驗(yàn)中,使用召回率 R(L)和 ROC 曲線下的面積 AUC ( area under curve )值來測量該方法的性能。召回率衡量在從小到大排序的用戶聲譽(yù)排名列表中,前 L 個(gè)用戶里可以檢測到的失真評級者個(gè)數(shù)占數(shù)據(jù)集中實(shí)際添加的失真評級者數(shù)量的比例。召回率 R(L)為
式中: d ′(L)表示該方法檢測到的失真評級者數(shù)量; d 表示數(shù)據(jù)集中實(shí)際添加的失真評級者數(shù)量。召回率 R(L)的范圍為[0,1],較高的召回率表示聲譽(yù)排名擁有較高的準(zhǔn)確度。
ROC 曲線下的面積 AUC 值是衡量整個(gè)排行榜排序情況的指標(biāo),它可以解釋為隨機(jī)選擇的失真評級者聲譽(yù)值低于隨機(jī)選擇的正常用戶聲譽(yù)值的概率。本文在失真評級者和正常用戶里各隨機(jī)選取一人并進(jìn)行比較,實(shí)驗(yàn)重復(fù) N 次(本文 N=10000),然后統(tǒng)計(jì)失真評級者的聲譽(yù)值低于或等于正常用戶的次數(shù)。 AUC 的值為
式中: SAUC 表示 AUC 的值; N 表示比較的總次數(shù); N′表示失真評級者的聲譽(yù)值低于正常用戶聲譽(yù)值的次數(shù); N′′表示失真評級者的聲譽(yù)值等于正常用戶聲譽(yù)值的次數(shù)。
SAUC 的值越高,表明該方法的效果越好,如果 SAUC 的值為0.5,則表明該方法對所有用戶的聲譽(yù)進(jìn)行了隨機(jī)排序。
3.5實(shí)驗(yàn)結(jié)果分析
基于 BPR 算法公式,計(jì)算Movielens 10W 和Movielens 100W 數(shù)據(jù)集的用戶聲譽(yù)分?jǐn)?shù),并按從小到大的順序排列,將聲譽(yù)最低的前 L 位用戶視為算法檢測出的失真評級者。接下來,選擇 BR (基于貝葉斯的排名)、PGR (考慮用戶偏好的基于組的排名)和 IOR(迭代優(yōu)化排名)這3種算法與本文的 BPR 算法進(jìn)行比較。
一個(gè)好的聲譽(yù)度量方法不受數(shù)據(jù)集大小的影響,當(dāng)數(shù)據(jù)量非常大且失真評級者數(shù)量非常少時(shí)仍可以準(zhǔn)確識別出失真評級者。因此,首先在這兩個(gè)數(shù)據(jù)集上添加50個(gè)相同類型的失真評級者,然后通過不同算法給出的聲譽(yù)分?jǐn)?shù)列表計(jì)算出失真評級者的召回率 R(L)。實(shí)驗(yàn)結(jié)果如圖4所示,圖中每條線均為100次獨(dú)立實(shí)驗(yàn)的均值。
從圖4中可以發(fā)現(xiàn),無論對于惡意評級用戶還是隨機(jī)評級用戶, BPR 和 IOR 算法的識別召回率都高于其他算法。在圖4(a)和(b)中, BPR 和IOR 算法的召回率基本持平。圖4(b)中, L=50時(shí), BPR 算法相比于 IOR 算法,計(jì)算所得的惡意評級用戶的召回率要高出4%。在圖4(c)和(d)中可以發(fā)現(xiàn),本文提出的算法在MovieLens 25M 數(shù)據(jù)集上識別隨機(jī)評級者時(shí)具有顯著優(yōu)勢。圖4(c)中,L=50時(shí), BPR 算法相比于 IOR 算法,計(jì)算所得的隨機(jī)評級用戶的召回率要高出15%。圖4(d)中: L=100時(shí), BPR 算法的隨機(jī)評級用戶的召回率比 IOR 算法的要高出21%;L=250時(shí), BPR 算法的召回率達(dá)到了96%。
隨著用戶量的日益上漲和新產(chǎn)品的不斷上市,用戶的評分行為急劇增加,在線評級系統(tǒng)的數(shù)據(jù)體量從開放之日起,隨時(shí)間流逝而不斷變大。因此,面對龐大體量的數(shù)據(jù)集,算法的運(yùn)行時(shí)間,即它的效率,也至關(guān)重要。本文統(tǒng)計(jì)了圖4中每個(gè)算法分別在人工添加惡意評級和隨機(jī)評級的數(shù)據(jù)集上,產(chǎn)出用戶聲譽(yù)排名列表的運(yùn)行時(shí)間,并取兩者平均值,具體結(jié)果見圖5。該時(shí)間不包含導(dǎo)入數(shù)據(jù)和人工生成失真評級者的時(shí)間,只統(tǒng)計(jì)算法運(yùn)行并導(dǎo)出用戶聲譽(yù)排名列表的時(shí)間。柱子上的數(shù)字表示運(yùn)行時(shí)間的具體數(shù)值,該數(shù)值受不同機(jī)器性能的影響會有所不同,但不影響各個(gè)算法之間的比較。
因?yàn)?IOR 算法需要迭代至前后兩次的物品質(zhì)量分?jǐn)?shù)差異小于10?4,更重要的是理論上無法保證所有的數(shù)據(jù)都能夠收斂。而 BPR 算法不需要迭代,所以算法的運(yùn)行時(shí)間明顯低于召回率同樣較高的 IOR 算法。從圖5可以看出,相較于基于迭代的 IOR ,PGR 等算法,本文提出的 BPR 算法的計(jì)算復(fù)雜性大大低于已有的迭代算法。結(jié)合圖4可以發(fā)現(xiàn),本文提出的算法既可以提高計(jì)算所得的召回率,也可以大幅度節(jié)省計(jì)算時(shí)間。
接下來,實(shí)驗(yàn)驗(yàn)證了算法對大量失真評級者攻擊時(shí)的魯棒性。實(shí)驗(yàn)設(shè)置添加人造失真評級者的數(shù)量占數(shù)據(jù)集中用戶總數(shù)的比例為{0.05, 0.10, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40, 0.45, 0.50},設(shè)置每個(gè)節(jié)點(diǎn)的 L 值與添加的人造失真評級者的數(shù)量相等。圖6給出了在不同比例的失真評級者攻擊評級系統(tǒng)時(shí),不同算法所得的召回率變化趨勢,圖中每個(gè)點(diǎn)均為100次獨(dú)立實(shí)驗(yàn)的均值。
從圖6(a)—(b)中可以發(fā)現(xiàn), PGR 算法的召回率隨系統(tǒng)中添加的失真評級者數(shù)量的增加而一直降低,而 BPR 和 IOR 算法的召回率始終保持在0.97以上。從圖6(c)—(d)中可以看出,隨著失真評級者的增加,所有方法的召回率都在小幅增加,而 BPR 算法的召回率一直高于 IOR , BR 和 PGR 算法。從圖6(c)中可以發(fā)現(xiàn):失真評級者比例為0.05時(shí), BPR 算法的召回率比 IOR 高17%;當(dāng)失真評級者比例為0.2~0.5時(shí), BPR 算法的召回率比 IOR 平均高7%。從圖6(d)可以發(fā)現(xiàn):當(dāng)失真評級者比例為0.05時(shí), BPR 算法的召回率比 IOR 高14%;失真評級者比例為0.2~0.5時(shí), BPR 算法的召回率比 IOR 平均高7%。上述實(shí)驗(yàn)結(jié)果表明,當(dāng)系統(tǒng)中存在大量失真評級者時(shí),本文所提出的 BPR 算法的召回率比 IOR , BR 和 PGR 算法都要好。
圖7給出了不同算法的 AUC值,圖中每個(gè)點(diǎn)均為100次獨(dú)立實(shí)驗(yàn)的均值。在圖7(a)—(b)中,當(dāng)惡意評級用戶的數(shù)量增加時(shí), BPR 算法和 IOR 算法的 AUC 值都穩(wěn)定地接近1,顯著高于 BR 算法。而 PGR 算法的 AUC 值則隨系統(tǒng)中惡意評級用戶比例參數(shù)的增加而不斷降低。從圖7(c)—(d)中可以發(fā)現(xiàn), BPR 算法的 AUC 值穩(wěn)定為0.99,而 IOR 算法的 AUC 值則下降。
當(dāng)用戶新加入在線評級系統(tǒng)時(shí),因?yàn)橄到y(tǒng)缺乏他們的評分?jǐn)?shù)據(jù),所以可能難以確認(rèn)他們的身份,即冷啟動問題。后續(xù)實(shí)驗(yàn)驗(yàn)證不同算法在冷啟動問題上的表現(xiàn)。因?yàn)镸ovieLens 25M 數(shù)據(jù)集上沒有評分次數(shù)小于20的用戶,所以將數(shù)據(jù)集中評分次數(shù)小于25的用戶設(shè)置為失真評級者,并計(jì)算召回率,如圖8所示。兩個(gè)數(shù)據(jù)集上評分次數(shù)少于25次的用戶分別為69和714人,圖中每條線均為100次獨(dú)立實(shí)驗(yàn)的均值。每個(gè)子圖中橫坐標(biāo)的兩個(gè)節(jié)點(diǎn)分別為該數(shù)據(jù)集上添加的失真評級者數(shù)量的1倍和2倍。在圖8(a)和(b)中, BPR 和 IOR 算法的召回率基本持平,穩(wěn)定在0.96以上。在圖8(c)和(d)中,閾值 L 等于失真評級者數(shù)量時(shí), BPR 算法的召回率比 IOR 算法的高約6%。
準(zhǔn)確識別在線評級系統(tǒng)中用戶的聲譽(yù),進(jìn)而識別正常用戶和給出惡意評級與隨機(jī)評級的不公正評分者,對于在線評級平臺的健康發(fā)展具有重要意義。在線評級系統(tǒng)中存在失真評級者給出的隨機(jī)或惡意評分,以扭曲正常的商品分?jǐn)?shù),從而影響消費(fèi)者的決策。因此,為在線評級系統(tǒng)設(shè)計(jì)一個(gè)可以準(zhǔn)確識別失真評級者聲譽(yù)的排名方法,可以使其更公正地給出商品評分,增加正常用戶對平臺的信任。實(shí)證分析MovieLens 25M 上的2500萬條真實(shí)數(shù)據(jù)發(fā)現(xiàn),除了最高頻和最低頻打分,用戶的整體打分行為具有非常穩(wěn)定的行為模式,即不同頻次的打分具有非常穩(wěn)定的分布概率??紤]用戶的打分模式,本文提出了基于用戶行為模式的在線用戶聲譽(yù)度量方法,不僅考慮了用戶的最高最低打分頻次,還考慮了用戶打分的總次數(shù)。在不同真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法計(jì)算所得的召回率、 AUC 值等指標(biāo)均優(yōu)于其他算法,更重要的是本文提出的算法具有更低的計(jì)算復(fù)雜度和更高的準(zhǔn)確率。進(jìn)一步,對算法的魯棒性和冷啟動等問題進(jìn)行實(shí)證分析后發(fā)現(xiàn),本文提出的 BPR 算法在解決魯棒性和冷啟動問題中同樣大幅度優(yōu)于其他算法。
在未來的工作中,該領(lǐng)域還可從以下幾方面開展進(jìn)一步的研究: a.現(xiàn)實(shí)世界中,一些人為了自身的利益,通常會在一個(gè)連續(xù)時(shí)間段內(nèi)雇傭大量水軍進(jìn)行虛假評分,造成某些或某個(gè)商品的實(shí)際質(zhì)量與評分不一致的情況出現(xiàn),因此,如何有效識別失真評級者團(tuán)體將會是一個(gè)符合現(xiàn)實(shí)需求的研究方向。 b.由于用戶的審美會隨流行趨勢的變化而變化,為此,在統(tǒng)計(jì)評分結(jié)果時(shí),可以考慮對不同時(shí)間段的評分給予不同的權(quán)重。 c.大量惡意攻擊發(fā)生時(shí),失真評級者往往因?yàn)檎紦?jù)了“話語權(quán)”而難以被識別,所以還應(yīng)通過尋找惡意評級者的固有屬性而不是僅僅依靠其評分,來更有效地將其識別出來。
參考文獻(xiàn):
[1] LI M, JIANG Y X, DI Z R. Characterizing the reputation of evaluators using vectors in the object feature space[J]. Expert Systems with Applications, 2022, 201:117136.
[2] ZENGA,VIDMERA,MEDOM,etal. Information filteringbysimilarity-preferentialdiffusionprocesses[J]. Europhysics Letters, 2014, 105(5):58002.
[3] ZHANG F G, ZENG A. Improving information filtering vianetworkmanipulation[J]. EurophysicsLetters, 2012, 100(5):58005.
[4] ZHAO Y, WANG L, TANG H J, et al. Electronic word-of- mouthandconsumerpurchaseintentionsinsociale- commerce[J]. ElectronicCommerceResearchand Applications, 2020, 41:100980.
[5] WUX,LIAOH,TANGM. Decisionmakingtowards large-scale alternatives from multiple online platforms by a multivariate time-series-based method[J]. ExpertSystems with Applications, 2023, 212:118838.
[6] ESPOSITOC,GALLIA,MOSCATOV,etal. Multi- criteria assessment of user trust in social reviewing systems with subjective logic fusion[J]. Information Fusion, 2022,77:1–18.
[7] WANG L, WAN J, ZHANG Y Q, et al. Trustworthiness two-waygamesviamarginpolicyine-commerce platforms[J]. AppliedIntelligence, 2022, 52(3):2671–2689.
[8] URE?A R, KOU G, DONG Y C, et al. A review on trust propagation and opinion dynamics in social networks and groupdecisionmakingframeworks[J]. Information Sciences, 2019, 478:461–475.
[9] CHUNGCY,HSUPY,HUANGSH.βP: anovel approachtofilteroutmaliciousratingprofilesfrom recommender systems[J]. Decision Support Systems, 2013,55(1):314–325.
[10] ZHANG Y L, GUO Q, NI J, et al. Memory effect of the onlineratingformovies[J]. PhysicaA, 2015, 417:261–266.
[11] YANG Z M, ZHANG Z K, ZHOU T. Anchoring bias in online voting[J]. Europhysics Letters, 2012, 100(6):68002.
[12] SIDDIQUI S, FAISAL M S, KHURRAM S, et al. Quality prediction of weappsarable in theGoogle playstore[J]. IntelligentAutomation & SoftComputing, 2022, 32(2):877–892.
[13] AL-ADHAILEHMH,ALSAADEFW. Detectingand analysingfakeopinionsusingartificialintelligence algorithms[J]. Intelligent Automation & Soft Computing, 2022, 32(1):643–655.
[14] ZENG A, CIMINI G. Removing spurious interactions in complexnetworks[J]. PhysicalReviewE, 2012, 85(3):036101.
[15] ALLAHBAKHSHM,IGNJATOVICA,MOTAHARI- NEZHAD H R, et al. Robust evaluationof products and reviewersinsocial ratingsystems[J]. World Wide Web,2015, 18(1):73–109.
[16]劉曉露, 賈書偉, 劉建國, 等.基于 Skyline Query 的高聲譽(yù)用戶識別方法研究[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2018,15(2):62–70.
[17] LAURETI P, MORET L, ZHANG Y C, et al. Information filteringviaiterativerefinement[J]. EurophysicsLetters,2006, 75(6):1006–1012.
[18] ZHOU Y B, LEI T, ZHOU T. A robust ranking algorithm to spamming[J]. Europhysics Letters, 2011, 94(4):48002.
[19] LIAO H, ZENG A, XIAO R, et al. Ranking reputation and quality in online rating systems[J]. PLoS One, 2014, 9(5):e97146.
[20] GAO J, DONG Y W, SHANG M S, et al. Group-based ranking method for online rating systems with spamming attacks[J]. Europhysics Letters, 2015, 110(2):28003.
[21] GAOJ,ZHOUT.Evaluatinguserreputationinonline ratingsystemsviaaniterativegroup-basedranking method[J]. Physica A, 2017, 473:546–560.
[22] FU Q Y, REN J F, SUN H L. Iterative group-based and difference ranking method for online rating systems with spammingattacks[J]. InternationalJournalofModernPhysics C, 2021, 32(5):2150059.
[23] DAI L, GUO Q, LIU X L, et al. Identifying online user reputation in terms of user preference[J]. Physica A,2018,494:403–409.
[24] LIU X L, LIU J G, YANG K, et al. Identifying online user reputation of user –object bipartite net.works[J] Physica A,2017, 467:508–516.
[25] LEE D, LEE M J, KIM B J. Deviation-spam-basedfiltering methodviastochasticapproach[J]. EurophysicsLetters, 2018, 121(6):68004.
[26] SUN H L, LIANG K P, LIAO H, et al. Evaluating user reputationofonlineratingsystemsbyratingstatistical patterns[J]. Knowledge-BasedSystems, 2021, 219:106895.
(編輯:丁紅藝)