張琪 紀(jì)淑娟 傅強(qiáng) 張純金
摘 要:針對(duì)在電子商務(wù)平臺(tái)上檢測(cè)編寫(xiě)虛假評(píng)論的水軍群組的問(wèn)題,提出了基于帶權(quán)評(píng)論圖的水軍群組檢測(cè)算法(WGSA)。首先,利用共評(píng)論特征構(gòu)建帶權(quán)評(píng)論圖,權(quán)重由一系列群組造假指標(biāo)計(jì)算得到;然后,為邊權(quán)重設(shè)置閾值篩選可疑子圖;最后,從圖的社區(qū)結(jié)構(gòu)出發(fā),利用社區(qū)發(fā)現(xiàn)算法生成最終的水軍群組。在Yelp大型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與K均值聚類(lèi)算法(KMeans)、基于密度的噪聲應(yīng)用空間聚類(lèi)算法(DBscan)以及層次聚類(lèi)算法相比WGSA算法的準(zhǔn)確度更高,同時(shí)對(duì)檢測(cè)到水軍群組的特征與差異作了分析,發(fā)現(xiàn)水軍群組的活躍度不同,危害也不同。其中,高活躍度群組危害最大,應(yīng)重點(diǎn)關(guān)注。
關(guān)鍵詞:電子商務(wù);水軍群組;帶權(quán)評(píng)論圖;社區(qū)發(fā)現(xiàn);聚類(lèi)
中圖分類(lèi)號(hào): TP391.4 模式識(shí)別與裝置
文獻(xiàn)標(biāo)志碼:A
Abstract: Concerning the problem that how to detect spammer groups writing fake reviews on the e-commerce platforms, a Weighted reviewer Graph based Spammer group detection Algorithm (WGSA) was proposed. Firstly, a weighted reviewer graph was built based on the co-reviewing feature with the weight calculated by a series of group spam indicators. Then, a threshold was set for the edge weight to filter the suspicious subgraphs. Finally, considering the community structure of the graph, the community discovery algorithm was used to generate the spammer groups. Compared with K-Means clustering algorithm (KMeans), Density-Based spatial clustering of applications with noise (DBscan) and hierarchical clustering algorithm on the large dataset Yelp, the accuracy of WGSA is higher. The characteristics and distinction of the detected spammer groups were also analyzed, which show that spammer groups with different activeness have different harm. The high-active group is more harmful and should be concerned more.
Key words: e-commerce; spammer group; weighted reviewer graph; community discovery; clustering
0 引言
在電子商務(wù)平臺(tái)上,在線(xiàn)商品評(píng)論在用戶(hù)的決策中起著重要作用。用戶(hù)傾向于購(gòu)買(mǎi)正面評(píng)論較多的產(chǎn)品,而不是負(fù)面評(píng)論較多的產(chǎn)品。為了抬高或降低某產(chǎn)品的信譽(yù),賺取更多利益,很多商家往往會(huì)雇傭虛假評(píng)論者發(fā)布大量贊美自家商品或詆毀競(jìng)爭(zhēng)對(duì)手商品的不實(shí)評(píng)論,誤導(dǎo)消費(fèi)者,影響電商平臺(tái)的公平競(jìng)爭(zhēng)環(huán)境。這些虛假評(píng)論者稱(chēng)為水軍。近年來(lái),隨著電子商務(wù)的迅猛發(fā)展,水軍的規(guī)模也越發(fā)壯大,甚至結(jié)成水軍群組協(xié)同作案。水軍群組即指那些有組織地協(xié)同發(fā)布虛假評(píng)論的一群人。相比水軍個(gè)體,水軍群組影響力更大(甚至能控制產(chǎn)品的輿論走勢(shì)、造成用戶(hù)逆向選擇)、隱秘性更強(qiáng),因此對(duì)檢測(cè)算法的設(shè)計(jì)要求更高。
在水軍群組檢測(cè)方面,研究者也提出了一些有針對(duì)性的檢測(cè)方法。文獻(xiàn)[1]首次進(jìn)行了電商平臺(tái)水軍群組的檢測(cè)工作,指出水軍群組的一個(gè)重要特征——“共評(píng)論”,即水軍成員通常共同評(píng)論相同的產(chǎn)品。為了檢測(cè)共評(píng)論的水軍群組,他們利用頻繁項(xiàng)挖掘的方法尋找共評(píng)論過(guò)多個(gè)產(chǎn)品的評(píng)論者集作為候選水軍群組,然后提出一種排序模型來(lái)定位最可疑的水軍群組。
繼文獻(xiàn)[1]之后,文獻(xiàn)[2]也使用頻繁項(xiàng)挖掘的方法來(lái)確定候選水軍群組,他們還評(píng)價(jià)了已有的用于識(shí)別評(píng)論者造假個(gè)體的特征與造假群組的特征的有效性;但是他們工作的目的是設(shè)計(jì)算法實(shí)現(xiàn)共謀者個(gè)體和非共謀者個(gè)體的檢測(cè),而不是水軍群組的檢測(cè)。文獻(xiàn)[3]提出了一種水軍群組檢測(cè)算法。該算法分兩步實(shí)現(xiàn):第一步,量化某產(chǎn)品為水軍目標(biāo)產(chǎn)品的概率,定位目標(biāo)產(chǎn)品;第二步,利用層次聚類(lèi)算法得到水軍群組。文獻(xiàn)[4]提出基于評(píng)論產(chǎn)品構(gòu)建二部圖,然后利用一系列群組造假特征作為識(shí)別標(biāo)準(zhǔn),使用圖劃分方法得到水軍群組。文獻(xiàn)[5]依據(jù)評(píng)論者“共評(píng)論”的關(guān)系特征構(gòu)建用戶(hù)關(guān)系網(wǎng)絡(luò),然后使用一系列特征構(gòu)建多特征尺度空間模型進(jìn)行水軍群組的識(shí)別。
從已有群組檢測(cè)研究的發(fā)展來(lái)看,利用基于圖的方法來(lái)檢測(cè)水軍群組是一個(gè)趨勢(shì)。群組劃分多采用聚類(lèi)算法、圖劃分算法。然而,上述方法只進(jìn)行了水軍群組的劃分,沒(méi)有對(duì)水軍群組進(jìn)行進(jìn)一步的分析,探究不同水軍群組間的聯(lián)系和差別,以發(fā)現(xiàn)水軍群組的整體行為特征。
針對(duì)上述工作的不足,本文提出了基于帶權(quán)評(píng)論圖的水軍群組發(fā)現(xiàn)算法(Weighted reviewer Graph based Spammer group detection Algorithm, WGSA)。本文的主要工作總結(jié)如下:
1)本文在基于圖的水軍群組檢測(cè)方法基礎(chǔ)上,構(gòu)建了帶權(quán)評(píng)論圖,然后利用權(quán)重篩選子圖。該方法能夠去掉大部分不重要的節(jié)點(diǎn),大大降低計(jì)算的時(shí)空復(fù)雜度。
2)本文從圖的社區(qū)結(jié)構(gòu)出發(fā),認(rèn)為水軍群組的造假行為會(huì)形成典型的社區(qū)結(jié)構(gòu),所以本文采用社區(qū)發(fā)現(xiàn)算法生成水軍群組,實(shí)驗(yàn)證明效果較好。
3)基于Yelp的大型帶標(biāo)簽數(shù)據(jù)集,本文對(duì)發(fā)現(xiàn)的水軍群組作了全面的可疑度分析以證明本文算法的有效性,同時(shí)探究了水軍群組的差異和整體行為特征。
1 水軍群組檢測(cè)算法
本章描述了本文提出的水軍群組檢測(cè)算法,算法由四個(gè)步驟組成,即水軍群組造假行為特征選擇、帶權(quán)評(píng)論圖的構(gòu)建、可疑子圖的篩選以及基于社區(qū)發(fā)現(xiàn)算法的水軍群組的聚類(lèi)。下面詳細(xì)介紹每個(gè)步驟細(xì)節(jié)。
1.1 造假行為特征選擇
在已有工作中,研究者提出了很多評(píng)估個(gè)人或群組的造假指標(biāo),例如語(yǔ)言指標(biāo)[1, 3, 6-7]、行為指標(biāo)[1-4, 8-12]、關(guān)系指標(biāo)[2-6, 8-14]等。與之前提出的指標(biāo)不同,本文使用行為指標(biāo)量化兩個(gè)評(píng)論者之間的共謀程度,具體指標(biāo)如下。
1.1.1 共評(píng)論次數(shù)
水軍群組的成員通常同時(shí)針對(duì)多個(gè)產(chǎn)品發(fā)表評(píng)論,協(xié)同合作完成任務(wù)。兩兩評(píng)論者,如果只共同評(píng)論過(guò)一件或兩件產(chǎn)品,有可能只是因?yàn)榍珊希钦S脩?hù)的評(píng)論,不能因此判定為水軍組織成員;而評(píng)論用戶(hù)作為分散的網(wǎng)絡(luò)用戶(hù),若共同評(píng)論的產(chǎn)品數(shù)很多,就可視為非正常用戶(hù)行為。本文利用共評(píng)論次數(shù)(Co-Reviewing Time, CRT)[1]來(lái)捕捉兩兩評(píng)論者的共評(píng)論特征。
1.1.2 評(píng)分相似度
水軍群組通常協(xié)同發(fā)布虛假評(píng)論來(lái)抬高或貶低目標(biāo)產(chǎn)品的評(píng)分。因此,水軍群組成員往往發(fā)布相似評(píng)分來(lái)控制目標(biāo)產(chǎn)品的評(píng)分趨勢(shì)。本文定義了評(píng)分相似度(Similarity of Rating, SR)[5]來(lái)捕捉這種行為。
其中:Rp1是評(píng)論者n1對(duì)產(chǎn)品p的評(píng)分,評(píng)分R∈[1,5];本文引入了一個(gè)參數(shù)β以減少誤差,β取值為2.5。SR(n1,n2)∈[1,5],SR值越趨近于-1,表示兩兩評(píng)論者在同一維度上的評(píng)分值偏差越大;越趨近于1,表示兩兩評(píng)論者的觀(guān)點(diǎn)一致性越強(qiáng)。
1.2 帶權(quán)評(píng)論圖的構(gòu)建
在電子商務(wù)網(wǎng)站中,不同的用戶(hù)可以通過(guò)兩種方式建立聯(lián)系:一種是用戶(hù)之間的直接交互,例如用戶(hù)發(fā)表評(píng)論和其他用戶(hù)回復(fù)其評(píng)論。另一種隱含的聯(lián)系是兩個(gè)用戶(hù)對(duì)同一產(chǎn)品進(jìn)行評(píng)論,即共評(píng)論。一個(gè)水軍群組的成員通常共同評(píng)論相同的產(chǎn)品,這是識(shí)別水軍群組成員間聯(lián)系的關(guān)鍵。
本文將評(píng)論者個(gè)體作為節(jié)點(diǎn),將用戶(hù)的共評(píng)論關(guān)系作為邊的聯(lián)系,構(gòu)建帶權(quán)評(píng)論圖G=(N, E,W)。N是由全體評(píng)論者組成的節(jié)點(diǎn)集,邊e=(n1,n2)∈E存在當(dāng)且僅當(dāng)評(píng)論者n1、n2至少共同評(píng)論過(guò)一個(gè)產(chǎn)品。邊的權(quán)重w∈W,對(duì)應(yīng)著每一條邊,代表了兩兩評(píng)論者節(jié)點(diǎn)間共謀的可疑度。
邊的權(quán)重w由1.1節(jié)描述的造假行為特征計(jì)算得到,計(jì)算式如下:
1.3 可疑子圖的篩選
本文構(gòu)建的評(píng)論圖是基于評(píng)論者的共評(píng)論特性,邊的權(quán)重代表了兩兩評(píng)論者間共謀的可疑度。因?yàn)樵荚u(píng)論圖十分龐大,計(jì)算難度較高,本文首先進(jìn)行可疑子圖的篩選,既可以保證算法的準(zhǔn)確度,也可以降低算法的時(shí)間復(fù)雜度。詳見(jiàn)算法1。
1) 構(gòu)建原始帶權(quán)評(píng)論圖G= (N, E, W) ,將邊的權(quán)重初始化為1
2) for 邊e=(n1,n2)∈E do
3)計(jì)算權(quán)重
4)if we< δ then
5) 移除邊e
6) end for
7) 輸出篩選得到的可疑子圖
程序后
在算法1中,在第1)行,首先構(gòu)建帶權(quán)評(píng)論圖G,將邊的權(quán)重初始化為1;第2)~7)行,計(jì)算邊的權(quán)重,設(shè)置邊權(quán)重的閾值δ,移除邊權(quán)重we<δ的邊,得到篩選后的子圖。邊篩選閾值δ的確定在實(shí)驗(yàn)部分具體說(shuō)明。
1.4 水軍群組的聚類(lèi)
水軍群組的造假行為會(huì)在評(píng)論圖中形成典型的社區(qū)結(jié)構(gòu),基于此,本文利用Louvain社區(qū)發(fā)現(xiàn)算法[16]來(lái)生成水軍群組。Louvain算法是典型的社區(qū)發(fā)現(xiàn)算法,它基于最大化模塊度進(jìn)行社區(qū)劃分,能夠有效地發(fā)現(xiàn)網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu),即本文中的水軍群組。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 數(shù)據(jù)集
與文獻(xiàn)[6,10-11]中的實(shí)驗(yàn)研究相同,本文也使用來(lái)自美國(guó)著名商戶(hù)點(diǎn)評(píng)網(wǎng)站Yelp自2006年起歷時(shí)7年的旅店評(píng)論數(shù)據(jù)。該數(shù)據(jù)集包含了評(píng)論虛假與否的標(biāo)簽,數(shù)據(jù)集的評(píng)論真率為61.1%。特別的,數(shù)據(jù)集中沒(méi)有重復(fù)交易的買(mǎi)家和賣(mài)家對(duì)。每條評(píng)論包含以下屬性:日期、評(píng)論ID、評(píng)論者ID、評(píng)論內(nèi)容、評(píng)分、認(rèn)為該評(píng)論有用的用戶(hù)個(gè)數(shù)、認(rèn)為該評(píng)論很酷的用戶(hù)個(gè)數(shù)、認(rèn)為該評(píng)論有趣的用戶(hù)個(gè)數(shù)、標(biāo)簽、旅店ID。
在數(shù)據(jù)被使用之前,本文對(duì)數(shù)據(jù)集進(jìn)行了如下預(yù)處理:
1)刪除評(píng)論集中匿名的用戶(hù)及評(píng)論數(shù)據(jù)。因?yàn)闊o(wú)法確定匿名是被同一人發(fā)表還是被多人發(fā)表。
2)刪除不活躍的用戶(hù)和產(chǎn)品。在本文研究中關(guān)注的是活躍度較高的用戶(hù),以及具有較高關(guān)注度的產(chǎn)品,不活躍的用戶(hù)可疑性小,可以忽略。在數(shù)據(jù)集中評(píng)論用戶(hù)發(fā)表的評(píng)論數(shù)少于三個(gè),以及產(chǎn)品的評(píng)論數(shù)少于三個(gè),則首先將其刪除。
3)將數(shù)據(jù)表中未使用的屬性去除,以精簡(jiǎn)數(shù)據(jù)集。
經(jīng)過(guò)以上三個(gè)方面的數(shù)據(jù)處理之后,數(shù)據(jù)集的概況如表1所示。
2.2 邊篩選閾值δ的確定
δ的大小決定了篩選得到的可疑子圖的大小與質(zhì)量:如果δ取值過(guò)大,刪除的邊過(guò)多,可能?chē)?yán)重破壞子圖的結(jié)構(gòu),影響后面社區(qū)劃分的質(zhì)量;如果取值太小,又無(wú)法保證得到的子圖中邊和節(jié)點(diǎn)的可疑度。由于邊的權(quán)重是通過(guò)特征CRT與SR計(jì)算得到,本文分別探究了CRT的閾值,記作ωCRT和SR的閾值ωSR。如果一條邊的CRT≥ωCRT,SR≥ωSR,則該邊是可疑的。在這兩個(gè)閾值的基礎(chǔ)上,本文提出了如下δ計(jì)算方法:
2.2.1 ωCRT的計(jì)算
用式(2)計(jì)算評(píng)論圖中邊的CRT值,頻繁2項(xiàng)集挖掘的結(jié)果如表2所示。邊的CRT值統(tǒng)計(jì)數(shù)據(jù)如圖1所示,其中61%的邊的CRT值為3、4和5。
接下來(lái)的問(wèn)題就是ωCRT的選取,以篩選可疑的邊。如果ωCRT取值過(guò)大,會(huì)過(guò)濾掉大部分邊,嚴(yán)重破壞圖的結(jié)構(gòu);如果ωCRT取值過(guò)小,過(guò)濾效果不明顯。為了避免過(guò)度破壞圖的結(jié)構(gòu),本文選取了3個(gè)通用的指標(biāo):模塊度(Modularity, Q)[17]、平均聚類(lèi)系數(shù)(Average Clustering Coefficient, ACC)[18]和平均路徑長(zhǎng)度(Average Path Length, APL)[19]來(lái)評(píng)價(jià)網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)。Q、ACC、APL值越大,則代表相應(yīng)的圖更緊密,社區(qū)結(jié)構(gòu)更明顯。本文采用插值法,計(jì)算了ωCRT取不同值時(shí),篩選得到的子圖的Q、ACC、APL值。計(jì)算結(jié)果如表3所示,當(dāng)ωCRT=40時(shí),Q、ACC、APL均取得最大值,這說(shuō)明,此時(shí)的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)達(dá)到了最佳,所以,ωCRT取40。
2.2.2 ωSR的計(jì)算
用式(3)計(jì)算SR的值,對(duì)SR值的分布進(jìn)行統(tǒng)計(jì),如圖2所示。從圖2中可以看出,大部分邊的SR值都大于0.5,這說(shuō)明大部分邊所連接的兩兩評(píng)論者之間的評(píng)分相似度極高,觀(guān)點(diǎn)一致性較強(qiáng)。這里取ωSR為0.5。
2.3 水軍群組的聚類(lèi)
2.4 結(jié)果分析
鑒于本文使用的Yelp數(shù)據(jù)集只有評(píng)論虛假與否的標(biāo)簽,首先從虛假評(píng)論比例出發(fā),分析了檢測(cè)到的水軍群組的特征與差異。然后選取K均值聚類(lèi)算法(K-Means clustering algorithm, KMeans)、基于密度的噪聲應(yīng)用空間聚類(lèi)算法(Density-Based spatial clustering of applications with noise, DBscan)以及層次聚類(lèi)算法進(jìn)行對(duì)比,驗(yàn)證本文算法的有效性。
2.4.1 基于虛假評(píng)論比例的造假度分析
正如許多研究中所提到的,Yelp、Amazon和Dianping等大型電子商務(wù)網(wǎng)站的數(shù)據(jù)集只能得到虛假/真實(shí)的評(píng)論標(biāo)簽,很難得到評(píng)論者個(gè)體的標(biāo)簽,更不用說(shuō)水軍群組了。在文獻(xiàn)[6]中,至少發(fā)布過(guò)一條假(被電商網(wǎng)站過(guò)濾掉的)評(píng)論的評(píng)論者將被視為虛假評(píng)論者,沒(méi)有假評(píng)論的評(píng)論者將被視為正常評(píng)論者。在文獻(xiàn)[13]中,如果評(píng)論者至少有10%的評(píng)論被Dianping網(wǎng)站檢測(cè)到是假的,則將其視為虛假評(píng)論者。在文獻(xiàn)[14]中,一個(gè)評(píng)論者發(fā)布的評(píng)論中如果有超過(guò)50%的評(píng)論是假的,即被認(rèn)為是垃圾郵件用戶(hù)。為了獲取水軍群組的標(biāo)簽,文獻(xiàn)[1-2,4]中只能采用手動(dòng)標(biāo)記的方法。而在文獻(xiàn)[14]中通過(guò)評(píng)估聚類(lèi)質(zhì)量來(lái)評(píng)價(jià)得到的水軍群組的好壞,這樣做說(shuō)服力明顯不足。
結(jié)合上述文獻(xiàn)對(duì)標(biāo)簽的處理,本文進(jìn)行了有趣的分析,對(duì)于每個(gè)水軍群組,本文計(jì)算了在這個(gè)群組中,虛假評(píng)論超過(guò)一定百分比的評(píng)論者所占的比例,統(tǒng)計(jì)情況如表5所示。
表5中的值指的是每個(gè)群組中至少發(fā)布了10%、20%、…虛假評(píng)論的評(píng)論者的比例。例如,在第一組中,有190個(gè)成員。在這一組中,100%(表5中的第一組)的評(píng)審員發(fā)布了超過(guò)10%的虛假評(píng)論,這意味著第一組的所有成員都發(fā)布了超過(guò)10%的虛假評(píng)論。注意到,第6組第8行出現(xiàn)的0,指的是群組6中沒(méi)有成員的虛假評(píng)論比例超過(guò)45%,換言之,群組6中的成員發(fā)布的虛假評(píng)論比例均低于45%。特別地,第一組的成員中有69%的成員至少發(fā)布了50%的虛假評(píng)論。這種群組可疑度極大。
本文還計(jì)算了每個(gè)水軍群組中成員虛假評(píng)論比例的平均值,結(jié)果如圖5所示。由圖5可以看出,不同群組間有極大的差異性,例如群組1、2、3、7和12中成員的平均虛假評(píng)論比例均高于40%,群組4、5、8和9為30%~40%,群組6、10、11為10%~30%。從圖5中可以看出,不同群組的活躍度是不同的。因此本文將12個(gè)群組分為3類(lèi):群組1、2、3、7和12為高活躍度群組,群組4、5、8和9為一般活躍群組,群組6、10、11為低活躍度群組。
三類(lèi)群組中成員的虛假評(píng)論比例如圖6所示。從圖6中可以看出,高活躍度群組,成員數(shù)較多,大部分成員的虛假評(píng)論比例均超過(guò)30%,危害極大;一般活躍群組,成員規(guī)模一般,虛假評(píng)論比例也較高,但遠(yuǎn)低于高活躍度群組;相對(duì)來(lái)說(shuō),低活躍度群組成員數(shù)較少,虛假評(píng)論比例也較低。綜上所述,高活躍度群組因?yàn)槿藬?shù)多、每個(gè)人的造假比例高,對(duì)整個(gè)市場(chǎng)環(huán)境的危害也最大,因此應(yīng)重點(diǎn)關(guān)注。
2.4.2 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文算法的性能,本文選舉經(jīng)典的聚類(lèi)算法KMeans算法、基于密度的聚類(lèi)算法DBscan算法作為基準(zhǔn)算法進(jìn)行對(duì)比。在現(xiàn)有工作中,文獻(xiàn)[3]利用層次聚類(lèi)算法生成水軍群組,所以,本文也與層次聚類(lèi)算法作了比較。
本文利用KMeans算法、DBscan算法、層次聚類(lèi)算法以及本文所提出的基于帶權(quán)評(píng)論圖的水軍群組發(fā)現(xiàn)算法(WGSA)對(duì)檢測(cè)出的top12個(gè)群組的4個(gè)特征進(jìn)行評(píng)估。具體特征為一天最大評(píng)論數(shù) (Maximum One day Review, MOR)[20]、極端評(píng)分比率 (EXtreme rating Ratio, EXR)[20]、評(píng)論時(shí)間間隔(Review Time Interval, RTI)[1,20]和評(píng)論者比率(Reviewer Ratio, RR)[4]。之所以選擇這些特征作為評(píng)估指標(biāo),主要因?yàn)樗鼈兙哂泻芎玫耐ㄓ眯?,在相?yīng)文獻(xiàn)采用這4個(gè)特征對(duì)個(gè)體或群體作可疑度的評(píng)估和比較,表現(xiàn)較好。
1)一天最大評(píng)論數(shù) (MOR)。
一個(gè)評(píng)論者在一天中發(fā)布大量評(píng)論是十分可疑的。MOR度量的是一個(gè)評(píng)論者一天發(fā)布評(píng)論的最大值。文獻(xiàn) [20]的研究結(jié)果顯示一名水軍一天的理論評(píng)論數(shù)至少為5,而正常評(píng)論者一般為2。對(duì)每個(gè)水軍群組的成員計(jì)算其MOR值,然后取每個(gè)水軍群組中成員MOR的平均值,得到如圖7所示的結(jié)果。從圖7可以看出,各算法檢測(cè)出的水軍群組平均一天最大評(píng)論數(shù)均超過(guò)6,有些群組甚至超過(guò)20,十分可疑,而本文算法與DBscan算法的表現(xiàn)相對(duì)更加突出。
2)極端評(píng)分比率 (EXR)。
水軍往往發(fā)布極高或極低的評(píng)分來(lái)抬高或降低目標(biāo)產(chǎn)品的評(píng)分。EXR度量的是一個(gè)評(píng)論者的評(píng)分是否極高或極低。由于評(píng)分范圍為[1,5],本文采用與文獻(xiàn)[20]一樣的處理方法,即將1、5作為極端評(píng)分,然后計(jì)算每個(gè)評(píng)論者極端評(píng)分的比例。計(jì)算得到的每個(gè)水軍群組中成員的平均極端評(píng)分比率如圖8所示。從圖8可以看出,本文算法檢測(cè)出的水軍群組中成員的平均極端評(píng)分比率均大于0.6,而其他算法只有0.3左右,本文的算法表現(xiàn)較好。
3)評(píng)論時(shí)間間隔(RTI)。
水軍通常在較短的時(shí)間內(nèi)連續(xù)發(fā)布虛假評(píng)論,所以相鄰評(píng)論間較短的時(shí)間間隔揭示了疑似的水軍行為。文獻(xiàn)[1, 20]指出,如果一個(gè)評(píng)論者的相鄰評(píng)論時(shí)間間隔小于28天,則是可疑的。本文亦取小于28天的評(píng)論時(shí)間間隔為可疑時(shí)間間隔。RTI計(jì)算的是一個(gè)評(píng)論者的所有相鄰評(píng)論時(shí)間間隔中可疑時(shí)間間隔的比例。每個(gè)群組中成員的平均RTI值如圖9所示。從圖9可以看出,本文算法檢測(cè)出的水軍群組的平均RTI值均在0.9左右,而其他算法的表現(xiàn)差一些,在0.7左右。
4)評(píng)論者比率(RR)。
如果目標(biāo)產(chǎn)品主要由某水軍群組的成員所評(píng)論,該水軍群組就能完全控制該產(chǎn)品的輿論,危害極大。RR度量的是一個(gè)產(chǎn)品的評(píng)論者中身為某水軍群組成員的比例。本文取一個(gè)群組中該比例的最大值作為RR的值。每個(gè)水軍群組的最大RR值如圖10所示。從圖10可以看出,所有算法中每個(gè)水軍群組的RR值均為1,這說(shuō)明這些水軍群組完全控制了部分產(chǎn)品的輿論走勢(shì),危害極大。
從上述分析可以得到,本文提出的算法WGSA,在MOR、RR指標(biāo)上表現(xiàn)相對(duì)較好,在EXR、RTI指標(biāo)上比其他算法有較大提升,總體來(lái)看,本文算法得到的水軍群組可疑度更高,更有效。
3 結(jié)語(yǔ)
本文提出了基于帶權(quán)評(píng)論圖的水軍群組發(fā)現(xiàn)算法(WRBA)。該算法首先構(gòu)建帶權(quán)評(píng)論者網(wǎng)絡(luò)圖,權(quán)重由一系列特征計(jì)算得到;然后設(shè)置閾值篩選可疑子圖;最后利用社區(qū)發(fā)現(xiàn)算法生成水軍群組。本文從虛假評(píng)論比例出發(fā),發(fā)現(xiàn)檢測(cè)到的水軍群組成員的平均虛假評(píng)論比例均超過(guò)10%,表明了本文所提算法的有效性。而且本文研究發(fā)現(xiàn),水軍群組可以分成三類(lèi):高活躍度群組、一般活躍群組以及低活躍度群組。其中,高活躍度群組發(fā)布的評(píng)論多,虛假評(píng)論比例高,危害極大,應(yīng)重點(diǎn)關(guān)注。為了驗(yàn)證本文算法的性能,本文選取了多個(gè)已有算法在4個(gè)群組虛假度特征(MOR、EXT、RTI和RR)上進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文算法檢測(cè)出的水軍群組可疑度更高,算法性能表現(xiàn)更好。但本文只考慮了兩種特征來(lái)構(gòu)建帶權(quán)評(píng)論者網(wǎng)絡(luò)圖,而且沒(méi)有考慮時(shí)間因素,在今后的工作中,將考慮更多的特征,完善水軍群組的檢測(cè)方法。
參考文獻(xiàn) (References)
[1] MUKHERJEE A, LIU B, GLANCE N. Spotting fake reviewer groups in consumer reviews [C]// Proceedings of the 21st Annual Conference on World Wide Web. New York: ACM, 2012: 191-200.
[2] XU C, ZHANG J, CHANG K, et al. Uncovering collusive spammers in Chinese review website [C]// Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. New York: ACM, 2013: 979-988.
[3] YE J, AKOGLU L. Discovering opinion spammer groups by network footprints [C]// Proceedings of the 2015 Joint European Conference on Machine Learning and Knowledge Discovery in Databases, LNCS 9284. Cham: Springer, 2015: 267-282.
[4] WANG Z, HOU T, SONG D, et al. Detecting review spammer groups via bipartite graph projection [J]. The Computer Journal, 2016, 59(6): 861-874.
[5] 張慧杰.基于多特征尺度空間模型的網(wǎng)絡(luò)水軍組織發(fā)現(xiàn)技術(shù)研究[D].杭州:浙江工商大學(xué),2015:2-66.(ZHANG H J. Research technology on found of spammer organizations based on multi-feature scale space model [D]. Hangzhou: Zhejiang Gongshang University , 2015:? 2-66.)
[6] RAYANA S, AKOGLU L. Collective opinion spam detection: bridging review networks and metadata [C]// Proceedings of the 2015 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 985-994.
[7] RAYANA S, AKOGLU L. Collective opinion spam detection using active inference [C]// Proceedings of the 2016 16th SIAM International Conference on Data Mining. Philadelphia, PA: SIAM, 2016: 630-638.
[8] JINDAL N, LIU B. Opinion spam and analysis [C]// Proceedings of the 2008 International Conference on Web Search & Data Mining. New York: ACM, 2008: 219-230.
[9] LIM E, NGUYEN V, JINDAL N, et al. Detecting product review spammers using rating behaviors [C]// Proceedings of the 19th ACM Conference on Information and Knowledge Management. New York: ACM, 2010: 939-948.
[10] OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination [C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 309-319.
[11] YU P S, LIU B, XIE S, et al. Review graph based online store review spammer detection [C]// Proceedings of the 11th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2011: 1242-1247.
[12] AKOGLU L, CHANDY R, FALOUTSOS C. Opinion fraud detection in online reviews by network effects [C]// Proceedings of the 2013 7th International Conference on Weblogs and Social Media. Menlo Park, CA: AAAI, 2013: 2-11.
[13] LI H, CHEN Z, MUKHERJEE A, et al. Analyzing and detecting opinion spam on a large-scale dataset via temporal and spatial patterns [C]// Proceedings of the 9th International Conference on Web and Social Media. Menlo Park, CA: AAAI, 2015: 634-637.
[14] LI H Y, FEI G, SHAO W X, et al. Bimodal distribution and co-bursting in review spam detection [C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2017: 1063-1072.
[15] AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules in large databases [C]// Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1994: 487-499.
[16] BLONDEL V D, GUILLAUME J, LAMBIOTTE R, et al. Fast unfolding of communities in large networks [J]. Journal of Statistical Mechanics Theory & Experiment, 2008(10): 155-168.
[17] NEWMAN M E J. The structure and function of complex networks [J]. SIAM Review, 2003, 45(2): 167-256.
[18] WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world networks [J]. Nature, 1998(393): 440-442.
[19] FRONCZAK A, FRONCZAK P, HOYST J A. Average path length in random networks [J]. Physical Review E, 2004, 70(5): 056110.
[20] MUKHERJEE A, KUMAR A, LIU B, et al. Spotting opinion spammers using behavioral footprints [C]// Proceedings of the 2013 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 632-640.