摘 要:為克服單視圖水軍檢測(cè)方法在處理復(fù)雜多樣的社交網(wǎng)絡(luò)數(shù)據(jù)時(shí)所存在的局限性,并解決現(xiàn)有多視圖融合方法未能充分考慮視圖間質(zhì)量差異導(dǎo)致的信息丟失和噪聲干擾等問題,提出一種基于多視圖證據(jù)融合(multi-view evidence fusion,MVEF)的社交水軍檢測(cè)方法。該方法綜合分析社交關(guān)系、行為特征和推文內(nèi)容三個(gè)視圖并提取關(guān)鍵證據(jù),通過Dirichlet分布參數(shù)化來評(píng)估每個(gè)視圖在分類決策中的類別可信度和整體不確定性。通過高效的證據(jù)融合機(jī)制,巧妙地利用不確定性整合各視圖中的關(guān)鍵證據(jù),構(gòu)建一個(gè)全面而可靠的分類決策框架。實(shí)驗(yàn)結(jié)果顯示,MVEF在兩個(gè)真實(shí)世界的Twitter數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有方法,有效提升了水軍識(shí)別的準(zhǔn)確率和魯棒性。
關(guān)鍵詞:社交水軍檢測(cè);多視圖;證據(jù)融合;不確定性
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)10-009-2939-08
doi:10.19734/j.issn.1001-3695.2024.02.0039
Social spammer detection based on multi-view evidence fusion
Zhang Donglin, Xu Jian
(School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210094, China)
Abstract:To address the limitations of single-view spammer detection methods in processing complex and diverse social network data, and the issues of information loss and noise interference due to existing multi-view fusion methods not fully consi-dering the quality differences between views, this paper proposed a social spammer detection method based on MVEF. The method integrated and analyzed three views: social relationships, behavioral characteristics, and tweet content, to extract pi-votal evidence. It employed Dirichlet distribution parameterization to assess the category credibility and overall uncertainty of each view in classification decisions. Through an efficient evidence fusion mechanism, the method skillfully utilized uncertainty to integrate key evidence from various views, constructing a comprehensive and reliable classification decision framework. Experimental results demonstrate that MVEF outperforms existing methods on two real-world Twitter datasets, effectively enhancing the accuracy and robustness of spammer detection.
Key words:social spammer detection; multi-view; evidence fusion; uncertainty
0 引言
近年來,隨著智能手機(jī)和移動(dòng)互聯(lián)網(wǎng)的普及,社交平臺(tái)如Twitter和Facebook已成為人們?nèi)粘=涣骱托畔⒎窒淼闹匾?。然而,這些平臺(tái)龐大的用戶基數(shù)和低成本的信息發(fā)布特性,也吸引了大量水軍。這些水軍通過發(fā)布虛假信息、惡意評(píng)論和刷點(diǎn)贊等行為,試圖操縱網(wǎng)絡(luò)輿論,制造虛假聲勢(shì)。這些惡意行為不僅影響用戶體驗(yàn),而且嚴(yán)重破壞公信力,沖擊正常的網(wǎng)絡(luò)秩序。因此,研究如何從眾多社交媒體賬戶中有效地檢測(cè)出水軍已成為一個(gè)緊迫的問題。
社交水軍檢測(cè)問題本質(zhì)上是一個(gè)二元分類問題。早期研究通常集中于分析用戶在某一特定方面的信息,即利用單一視圖特征檢測(cè)賬戶類別。這些方法依據(jù)水軍和普通用戶在社交平臺(tái)上的不同行為模式和關(guān)注關(guān)系等,試圖揭示它們之間的顯著差異。雖然這些單一視圖方法在一定程度上能夠識(shí)別出水軍,但由于水軍策略的不斷演變和技術(shù)的快速發(fā)展,這些方法的準(zhǔn)確性和魯棒性面臨著嚴(yán)峻的挑戰(zhàn)。
針對(duì)單視圖方法難以全面、及時(shí)地捕捉水軍的特征,一些學(xué)者開始探索多視圖融合方法來解決這一問題。例如,Chen等人[1]嘗試手動(dòng)構(gòu)建多維度特征并應(yīng)用主動(dòng)學(xué)習(xí)與協(xié)同訓(xùn)練算法,但這種方法在處理社交關(guān)系和推文數(shù)據(jù)時(shí),往往難以捕捉復(fù)雜的非線性關(guān)系。Li等人[2]則從不同視圖中提取特征,采用相關(guān)梯形網(wǎng)絡(luò)和過濾門組件捕捉跨視圖相關(guān)性進(jìn)行特征學(xué)習(xí),但可能因特征差異或冗余引入噪聲。Liu等人[3]利用用戶個(gè)人特征和消息內(nèi)容特征計(jì)算先驗(yàn)類別,再利用社交網(wǎng)絡(luò)將稀疏標(biāo)簽擴(kuò)散到未標(biāo)記的樣本。雖然可以應(yīng)對(duì)大數(shù)據(jù)稀疏標(biāo)簽的挑戰(zhàn),但是對(duì)初始先驗(yàn)標(biāo)簽的依賴較大。這些嘗試表明,盡管特征級(jí)的多視圖融合方法在理論上能提供更豐富的信息,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),如特征融合的有效性、不同視圖間質(zhì)量的平衡和噪聲處理等。
在探討多視圖融合方法時(shí),還需指出傳統(tǒng)的決策級(jí)融合方法的一些局限。這些算法多采用固定權(quán)重分配,一些算法假設(shè)所有視圖對(duì)樣本分類的影響相同,從而分配相等權(quán)重。另一些算法則根據(jù)視圖間整體的質(zhì)量差異調(diào)整權(quán)重分配。然而,實(shí)際數(shù)據(jù)集中不同樣本的視圖間質(zhì)量差異往往不同。如果簡(jiǎn)單地利用固定權(quán)重加權(quán)每個(gè)視圖的分類結(jié)果,最終可能得到不可靠的分類決策。
為解決上述挑戰(zhàn),本文提出了一種多視圖證據(jù)融合方法(MVEF),旨在高效精準(zhǔn)地檢測(cè)社交平臺(tái)上的水軍。該方法首先根據(jù)不同視圖數(shù)據(jù)的獨(dú)特性質(zhì),采用專門的基礎(chǔ)分類器來學(xué)習(xí)視圖特征,并通過非負(fù)激活函數(shù)提取決策所需的關(guān)鍵證據(jù);接著,利用Dirichlet分布模擬類概率的分布,從多個(gè)視圖角度出發(fā)對(duì)證據(jù)進(jìn)行參數(shù)化,進(jìn)而對(duì)視圖預(yù)測(cè)的類別可信度和總體不確定性進(jìn)行精確建模;最后,綜合考慮不同視圖證據(jù)間的相似性和沖突性,通過基于Dempster-Shafer(DS)理論的合并規(guī)則,有效地整合多方證據(jù)以形成最終分類決策。綜上所述,本文的具體貢獻(xiàn)有:
a)引入了基于證據(jù)的不確定性估計(jì)[4]技術(shù),有效量化視圖分類的不確定性,反映視圖間的質(zhì)量差異和噪聲水平,為融合過程中的風(fēng)險(xiǎn)評(píng)估提供可靠基礎(chǔ),增強(qiáng)了方法的魯棒性。
b)創(chuàng)新性地提出了一種決策級(jí)的證據(jù)融合算法用于社交水軍檢測(cè)。與現(xiàn)有的決策級(jí)融合模型不同,該算法特別關(guān)注每個(gè)視圖的決策風(fēng)險(xiǎn),并綜合考慮它們間的共同支持,從而生成可信且可靠的分類決策。
c)實(shí)驗(yàn)表明,MVEF方法顯著優(yōu)于現(xiàn)有方法,在Twitter SH和1KS-10KN兩個(gè)真實(shí)世界的Twitter數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了93.95%和97.41%。
1 相關(guān)工作
隨著社交網(wǎng)絡(luò)的快速發(fā)展,社交水軍的檢測(cè)已經(jīng)引起了廣泛的關(guān)注。現(xiàn)有的水軍檢測(cè)方法主要分為基于單一視圖和基于多視圖融合兩類。
1.1 基于單一視圖
單視圖方法根據(jù)數(shù)據(jù)源的不同主要分為內(nèi)容分析、用戶行為分析和社交關(guān)系分析三類。內(nèi)容視圖通過深入探索文本的語義、情感和主題分布等特征,可以有效揭示水軍發(fā)布內(nèi)容的特殊模式,如文本的重復(fù)性、含惡意鏈接[5]和強(qiáng)烈情感極性[6]等。例如,Ghanem等人[7]應(yīng)用Bi-LSTM和上下文嵌入技術(shù),挖掘推文的語義特征。用戶行為視圖專注于分析水軍的個(gè)人資料和日常行為特征,如關(guān)注數(shù)、粉絲數(shù)、發(fā)布頻率[8]、轉(zhuǎn)發(fā)次數(shù)[9]等,以識(shí)別異?;顒?dòng)。這種方法可以直接反映出水軍的特異行為和社交模式。例如,Yin等人[10]提出一種多層次依賴模型,通過分析用戶行為關(guān)系序列,有效識(shí)別水軍行為特征。社交關(guān)系視圖則側(cè)重于挖掘用戶間的社交互動(dòng),如關(guān)注和轉(zhuǎn)發(fā)行為,來識(shí)別社交網(wǎng)絡(luò)中的異常組織結(jié)構(gòu)[11]。其優(yōu)勢(shì)在于可以通過網(wǎng)絡(luò)結(jié)構(gòu)洞察水軍的協(xié)調(diào)和執(zhí)行策略。例如,李寧等人[12]基于評(píng)論者的共評(píng)關(guān)系時(shí)序網(wǎng)絡(luò)形成時(shí)序鄰居序列,進(jìn)而生成候選群組集合,最后通過造假指標(biāo)排序識(shí)別出游離水軍群組。Wang等人[13]基于社交網(wǎng)絡(luò)中的有向圖,利用成對(duì)馬爾可夫隨機(jī)場(chǎng)和環(huán)形信念傳播來模擬用戶狀態(tài)的聯(lián)合概率。盡管這些方法能夠提供針對(duì)單一視圖的深入洞察,但在識(shí)別水軍的多樣性和復(fù)雜性上不足,影響了識(shí)別的準(zhǔn)確性和效率。
1.2 基于多視圖融合
為應(yīng)對(duì)日益狡猾且多樣化的水軍行為,一些學(xué)者考慮采用多視圖融合的方式來解決這個(gè)問題,具體又可以分為特征級(jí)融合和決策級(jí)融合兩種。在表1中,詳細(xì)列出了目前基于多視圖融合的方法所采用的視圖,以及它們所屬的類別。
特征級(jí)融合旨在整合不同視圖的信息,構(gòu)建全面的特征集,以提高水軍行為檢測(cè)的效率和準(zhǔn)確性。為捕捉跨視圖的相關(guān)性,Li等人[2]采用了相關(guān)梯形網(wǎng)絡(luò)對(duì)單視圖的特征進(jìn)行深入學(xué)習(xí),并通過過濾門組件實(shí)現(xiàn)了多視圖數(shù)據(jù)的有效整合。張琪等人[14]結(jié)合評(píng)論者關(guān)系網(wǎng)絡(luò)和評(píng)論行為特征,通過構(gòu)建評(píng)論者關(guān)系圖和利用標(biāo)簽傳播方法檢測(cè)社區(qū),有效地識(shí)別出水軍群組。Zhang等人[15]從用戶的四個(gè)不同維度提取特征,并運(yùn)用CatBoost算法結(jié)合半監(jiān)督下的最大對(duì)比悲觀似然估計(jì)進(jìn)行分類。Deng等人[16]提出一種馬爾可夫驅(qū)動(dòng)圖卷積網(wǎng)絡(luò),充分利用富文本特性和用戶關(guān)注關(guān)系,極大地提高了水軍檢測(cè)的能力。而Shen等人[17]則使用矩陣分解技術(shù)深度挖掘推文內(nèi)容信息,并與社交互動(dòng)數(shù)據(jù)相結(jié)合,優(yōu)化社交用戶的特征表示。
在決策級(jí)融合的方法中,不同的視圖由各自的分類器獨(dú)立處理,避免了視圖間噪聲和誤差的累加,其結(jié)果通過一系列策略集成,以期獲得更精準(zhǔn)的檢測(cè)結(jié)果。例如,Chen等人[18]利用基礎(chǔ)分類器獲取各視圖的分類結(jié)果,并通過線性加權(quán)求和函數(shù)結(jié)合學(xué)習(xí)到的固定權(quán)重,實(shí)現(xiàn)預(yù)測(cè)結(jié)果的動(dòng)態(tài)整合,但其權(quán)重的靜態(tài)性會(huì)限制其適應(yīng)水軍策略變化的能力。Wu等人[19]利用半監(jiān)督學(xué)習(xí)框架協(xié)同訓(xùn)練垃圾信息發(fā)送者分類器和垃圾信息分類器,并通過多個(gè)正則化項(xiàng)控制用戶間關(guān)注關(guān)系、消息間的連接關(guān)系以及用戶和消息之間的發(fā)布關(guān)系以實(shí)現(xiàn)決策級(jí)融合,但是同樣存在動(dòng)態(tài)適應(yīng)性較差的問題。另外,Liu等人[20]提出了一種基于證據(jù)推理(evidential reasoning,ER)規(guī)則的多分類器信息融合模型,將不同視圖的分類結(jié)果轉(zhuǎn)換為信念度分布,并在決策層利用ER規(guī)則進(jìn)行整合。
與現(xiàn)有工作不同,多視圖證據(jù)融合方法(MVEF)有效克服了特征級(jí)融合中的特征冗余和視圖質(zhì)量不平衡問題,提高了方法對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的適應(yīng)性和魯棒性。與其他決策級(jí)融合方法相比,MVEF根據(jù)社交用戶各個(gè)視圖中提取的證據(jù),動(dòng)態(tài)地獲取視圖的類別信念質(zhì)量和不確定性以整合多視圖的決策,使得其在面對(duì)各視圖質(zhì)量顯著差異時(shí),可以靈活調(diào)整以利用視圖間的互補(bǔ)性,確保了整體預(yù)測(cè)的可靠性和穩(wěn)健性。
2 背景知識(shí)
2.1 不確定性與證據(jù)理論
在深度學(xué)習(xí)中,softmax激活函數(shù)被廣泛用于將神經(jīng)網(wǎng)絡(luò)輸出轉(zhuǎn)換成概率分布。然而它有一個(gè)潛在的缺陷,即可能導(dǎo)致模型過度自信[21],無法有效反映預(yù)測(cè)的不確定性。為解決這一問題,Sensoy等人[4]提出了證據(jù)深度學(xué)習(xí)(evidence deep learning,EDL)的概念,旨在量化分類任務(wù)中的不確定性。EDL基于DS理論構(gòu)建,后者定義證據(jù)為對(duì)一組假設(shè)的信念強(qiáng)度,代表可能的真實(shí)情況。以二元分類為例,假設(shè)框架包含兩個(gè)代表不同類別的基本假設(shè)。EDL應(yīng)用主觀邏輯(subjective logic,SL)將DS理論中的信念分配在識(shí)別框架中形式化為Dirichlet分布,并實(shí)現(xiàn)了可信度和不確定性的量化。對(duì)于K分類中每個(gè)樣本,SL分配了K個(gè)類別的可信度ck和不確定性u(píng),并滿足
u+∑Kk=1ck=1(1)
其中:當(dāng)k=1,…,K時(shí),u≥0,ck≥0。在單個(gè)實(shí)例中,主觀邏輯首先利用αk=ek+1將證據(jù)集e=[e1,e2,…,eK]轉(zhuǎn)換為Dirichlet分布的參數(shù)α=[α1,α2,…,αk]。然后,可信度ck和整體不確定性u(píng)可以很容易地通過對(duì)應(yīng)類的證據(jù)計(jì)算出:
ck=ekS=αk-1S(2)
u=KS(3)
其中:S=∑Kk=1(ek+1)=∑Kk=1αk為Dirichlet強(qiáng)度。由式(2)可以發(fā)現(xiàn),第k類提供的證據(jù)越多,其分配到的可信度就越高。而式(3)則表明所有類別提供的證據(jù)總和越多,那么分類的總體不確定性就越低,從而得到更加可信的分類結(jié)果。
2.2 Dirichlet分布與證據(jù)理論的結(jié)合
Dirichlet分布是一種用于描述概率質(zhì)量函數(shù)p可能取值的概率密度函數(shù)。在K分類問題中,可以通過以下公式定義:
D(p|α)=1B(α)∏Kk=1pαk-1k for p∈SK
0otherwise(4)
其中:B(α)是K維多項(xiàng)Beta函數(shù);而SK是K維單位單純形。在此框架中,p∈△K-1,給定一種觀點(diǎn),第k個(gè)單例的期望概率k等于對(duì)應(yīng)Dirichlet分布的均值,計(jì)算公式為
k=αkS=ek+1∑Kk=1ek+K(5)
在證據(jù)深度學(xué)習(xí)(EDL)框架內(nèi),樣本數(shù)據(jù)中與特定類別相關(guān)的特征構(gòu)成“證據(jù)”,促使該類別對(duì)應(yīng)的Dirichlet參數(shù)增加。隨著證據(jù)的不斷積累,參數(shù)的變化反映了對(duì)分類概率分布的動(dòng)態(tài)理解與調(diào)整,使得Dirichlet分布成為量化分類預(yù)測(cè)不確定性的關(guān)鍵工具。
3 方法
3.1 問題描述
在社交水軍檢測(cè)背景下,社交網(wǎng)絡(luò)S表示為S=(U,R,B,T,Y),在這個(gè)網(wǎng)絡(luò)中包含有一組社交用戶u∈U={u1,u2,…,un},一組用戶節(jié)點(diǎn)的社交關(guān)系嵌入向量r∈R,一組用戶行為特征向量b∈B,以及一組用戶推文特征向量t∈T,以及一組用戶標(biāo)簽y∈Y?;诮o定符號(hào),社交水軍檢測(cè)的問題正式定義如下:
給定一組標(biāo)簽用戶UlU,標(biāo)簽用戶的社交關(guān)系矩陣Rl,行為特征矩陣Bl,推文特征矩陣Tl,以及他們的身份標(biāo)簽YlY,社交水軍檢測(cè)的目標(biāo)是在未標(biāo)記的用戶集合Uul=U-Ul中準(zhǔn)確識(shí)別水軍。形式上,水軍檢測(cè)旨在學(xué)習(xí)社交網(wǎng)絡(luò)中用戶的聯(lián)合概率分布,這一分布取決于用戶的社交關(guān)系嵌入、行為特征以及推文內(nèi)容特征,即p(yU∣rU,bU,tU),然后根據(jù)預(yù)測(cè)出的最高概率類別來判定一個(gè)社交用戶是水軍還是合法用戶。
3.2 方法框架
如圖1所示,MVEF方法主要由三部分構(gòu)成。第一部分是證據(jù)提取。對(duì)給定輸入社交網(wǎng)絡(luò)的三個(gè)視圖數(shù)據(jù)進(jìn)行預(yù)處理以滿足分類器的輸入需求。如,對(duì)社交關(guān)系網(wǎng)絡(luò)生成節(jié)點(diǎn)嵌入,對(duì)行為特征進(jìn)行標(biāo)準(zhǔn)化處理,將原始推文輸入tokenizer處理。隨后,在社交關(guān)系視圖和行為特征視圖中,應(yīng)用多層感知機(jī)(multilayer perceptron,MLP)來學(xué)習(xí)特征。對(duì)于推文內(nèi)容視圖,則利用BERTweet預(yù)訓(xùn)練模型來深入挖掘文本特征。最后都將學(xué)習(xí)到的特征傳輸?shù)骄哂蟹秦?fù)激活函數(shù)的全連接層,以提取用于不確定性計(jì)算的證據(jù)。第二部分是不確定性量化。將各個(gè)視圖獲取到的證據(jù)參數(shù)化Dirichlet分布,以推導(dǎo)對(duì)應(yīng)的類別可信度和整體不確定性。第三部分是證據(jù)融合。設(shè)計(jì)一個(gè)組合規(guī)則,根據(jù)每個(gè)視圖的不確定性,并結(jié)合它們的類別可信度,從而推斷出多視圖融合后的類別可信度和總體不確定性,以判斷用戶的最終類別(水軍或合法用戶)。這一策略能夠充分利用每個(gè)視圖的不確定信息,降低決策風(fēng)險(xiǎn),從而生成可信的分類結(jié)果。
3.3 證據(jù)提取
3.3.1 社交關(guān)系視圖
社交關(guān)系網(wǎng)絡(luò)定義為一個(gè)有向圖G=(V,E)。其中:V是節(jié)點(diǎn)集合,代表社交網(wǎng)絡(luò)中用戶;E是邊集合,表示用戶之間的關(guān)注關(guān)系。傳統(tǒng)方法主要關(guān)注數(shù)據(jù)集內(nèi)部節(jié)點(diǎn)V之間的直接關(guān)系,可能無法獲取到全面豐富的社交關(guān)系信息。為解決這一問題,轉(zhuǎn)向社交網(wǎng)絡(luò)同質(zhì)性理論[22]的應(yīng)用。該理論基于一個(gè)關(guān)鍵假設(shè),即社交網(wǎng)絡(luò)中的用戶傾向于和與自己有相似特征或行為的用戶建立聯(lián)系。如果兩個(gè)用戶沒有直接聯(lián)系,但他們有許多共同的朋友,那么這兩個(gè)用戶之間可能存在某種形式的間接關(guān)系。
為了將這一理論應(yīng)用于方法,定義了一種新的社交關(guān)系提取方法。
算法1 包含直接和間接關(guān)系的社交關(guān)系提取方法
輸入:原始有向圖G=(V,E)。
輸出:擴(kuò)展的有向圖G=(V,E)。
1 初始化:V′=V,E′=E,V″=empty,E″=empty
2 for u in V:
3 for v not in V:
4 if u follows v or v follows u: /*尋找u所有不在V中的關(guān)注節(jié)點(diǎn)和粉絲節(jié)點(diǎn)*/
5 V′.add(v) //添加到新的節(jié)點(diǎn)集V′
6 E′.add((u,v)) or E′.add((v,u))
7 for v in (V′-V):
8 inDegree, outDegree=calculate_degree(v) /*計(jì)算節(jié)點(diǎn)的入度和出度*/
9 if inDegree >= 2 or outDegree >= 2:
10 V″.add(v) // 添加到共享鄰居集V″
11 for (u,v) in E′:
12 if (u in V and v in V″) or (v in V and u in V″):
13 E″.add((u,v)) // 添加到新的擴(kuò)展邊集
14 V=V∪V″
15 E=E∪E″
16 return G=(V,E)
鑒于新擴(kuò)展的社交關(guān)系圖G可能包含大量的間接關(guān)系,從而顯著增加了圖的規(guī)模,而DeepWalk的高效率和低計(jì)算復(fù)雜度使其特別適合處理這種大型圖,同時(shí)能夠有效地捕捉節(jié)點(diǎn)間的結(jié)構(gòu)特性。因此,將社交關(guān)系網(wǎng)絡(luò)轉(zhuǎn)換為無向圖,并使用DeepWalk算法(使用了PecanPy,可以通過并行化和優(yōu)化加速DeepWalk算法)來生成節(jié)點(diǎn)嵌入,可以形式化表示為
R=DeepWalk(G,l,r,d)(6)
其中:l是隨機(jī)游走的長度,設(shè)為80;r是每個(gè)節(jié)點(diǎn)的游走次數(shù),設(shè)為20;d是每個(gè)節(jié)點(diǎn)生成嵌入向量的維度,設(shè)為256;R∈Euclid ExtraaBpn×d是生成的節(jié)點(diǎn)嵌入矩陣。
為有效處理這些高維數(shù)據(jù),避免因模型過于復(fù)雜而導(dǎo)致的過擬合問題,采用多層感知機(jī)(MLP)作為主干網(wǎng)絡(luò)來學(xué)習(xí)這些節(jié)點(diǎn)嵌入。MLP的多層結(jié)構(gòu)和非線性激活函數(shù)使其能夠有效捕捉和轉(zhuǎn)換節(jié)點(diǎn)嵌入中的非線性關(guān)系,這對(duì)于深入理解社交網(wǎng)絡(luò)的復(fù)雜動(dòng)態(tài)并準(zhǔn)確地進(jìn)行分類至關(guān)重要。在MLP的基礎(chǔ)上,進(jìn)一步通過一個(gè)全連接層(fully connected layer,F(xiàn)C)和非負(fù)激活函數(shù)Softplus來生成社交關(guān)系視圖的證據(jù)?;谶@些考慮,社交關(guān)系視圖部分的模型結(jié)構(gòu)可以簡(jiǎn)潔地表示為
OutR=ReLU(Linear(…ReLU(Linear(r))…))(7)
eR=Softplus(FC(OutR))(8)
其中:r∈Euclid ExtraaBp1×d是DeepWalk算法生成的單個(gè)節(jié)點(diǎn)嵌入向量;OutR是主干網(wǎng)絡(luò)MLP的輸出;eR則是社交關(guān)系視圖提取的證據(jù)。
3.3.2 行為特征視圖
借鑒現(xiàn)有文獻(xiàn)特征工程提取的行為特征,并注意到在預(yù)處理原始推文時(shí)常忽略含有重要信息的社交媒體符號(hào),又從推文視圖中額外補(bǔ)充三個(gè)關(guān)鍵特征。綜合這些,共篩選出九個(gè)重要特征,并在表2中進(jìn)行了詳盡展示。所選特征在量綱和分布范圍上存在較大差異,因此采用了標(biāo)準(zhǔn)化處理以統(tǒng)一特征的數(shù)值范圍到相同標(biāo)準(zhǔn)尺度,從而構(gòu)建行為特征矩陣B。
由于這些行為特征具有多樣性和復(fù)雜性等特點(diǎn),使用與社交關(guān)系視圖相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括MLP、FC和Softplus激活函數(shù),來生成行為特征視圖的證據(jù)。其網(wǎng)絡(luò)結(jié)構(gòu)可以表示為
OutB=ReLU(Linear(…ReLU(Linear(b))…))(9)
eB=Softplus(FC(OutB))(10)
其中:b是單個(gè)社交用戶的特征向量;eB則是行為特征視圖的證據(jù)。
3.3.3 推文內(nèi)容視圖
數(shù)據(jù)集中一般包含每個(gè)用戶發(fā)布的若干條推文,單獨(dú)處理每條推文將難以與其他視圖的數(shù)據(jù)有效整合。為此,將同一用戶的所有推文按時(shí)間逆序拼接,從而創(chuàng)建一個(gè)綜合的用戶文本表示。由于推文中的語言和表達(dá)形式通常與傳統(tǒng)書面語料庫中的文本有所不同,所以如何有效地理解用戶在社交媒體上發(fā)布的文本內(nèi)容是關(guān)鍵問題。為此,選擇了BERTweet[23]作為推文內(nèi)容視圖部分的模型,與通用的BERT和RoBERTa模型不同,它是專門針對(duì)推文優(yōu)化的預(yù)訓(xùn)練模型(https://huggingface.co/vinai/bertweet-large)。這種針對(duì)性的訓(xùn)練使其在理解和處理推文特有的非標(biāo)準(zhǔn)語言和表達(dá)方式方面表現(xiàn)卓越,能夠更準(zhǔn)確地從文本中提取豐富的語義信息及上下文關(guān)系。所以,首先使用BERTweet的tokenizer將這個(gè)長句子轉(zhuǎn)換成模型可處理的格式:
(input_ids,attention_mask)=tokenizer(Tweet)(11)
其中:Tweet是用戶所有推文拼接后的長文本;input_ids是標(biāo)記化文本的索引序列;attention_mask是二進(jìn)制掩碼,用于控制模型的注意力機(jī)制。然后,通過BERTweet預(yù)訓(xùn)練模型對(duì)預(yù)處理后的文本進(jìn)行特征學(xué)習(xí),并通過全連接層和Softplus激活函數(shù)生成視圖的證據(jù):
BERTweetOut=BERTweetinput_ids,attention_mask(12)
eT=Softplus(FC(BERTweetOut))(13)
其中:eT表示從推文內(nèi)容視圖中提取的證據(jù)。
3.4 不確定性量化
通過證據(jù)提取模塊,社交關(guān)系視圖R、行為特征視圖B和推文內(nèi)容視圖T三個(gè)關(guān)鍵視圖,均貢獻(xiàn)了一組獨(dú)特的證據(jù),分別用eR、eB、eT表示。這些證據(jù)不僅捕捉了各視圖的獨(dú)特屬性,也為后續(xù)的分析提供了關(guān)鍵的信息。接著,根據(jù)第2章討論的原理,特別是引用式(2)和(3),將這些證據(jù)巧妙地映射到各自視圖的類別可信度和不確定性上。具體來說,對(duì)于社交關(guān)系視圖R,將其證據(jù)eR映射為VR={cR1,cR2,uR};行為特征視圖B的證據(jù)eB映射為VB={cB1,cB2,uB};推文內(nèi)容視圖T的證據(jù)eT映射為VT={cT1,cT2,uT}。
3.5 證據(jù)融合
在MVEF方法中,針對(duì)社交網(wǎng)絡(luò)的多視圖數(shù)據(jù),采用了一種基于DS理論的創(chuàng)新證據(jù)融合策略。該策略通過合并規(guī)則整合來自不同視圖的證據(jù),評(píng)估證據(jù)間的相似性和沖突性,生成綜合的信任度函數(shù),為最終分類提供量化的置信度。為了應(yīng)對(duì)二元分類問題的特殊需求,設(shè)計(jì)了簡(jiǎn)化的Dempster組合規(guī)則,以減少輸入證據(jù)的數(shù)量并降低融合過程的復(fù)雜性。這種簡(jiǎn)化在降低計(jì)算難度的同時(shí),仍保留了DS理論的核心—不確定性融合,確保了更可信的分類結(jié)果。
具體地,在不確定量化后,得到三個(gè)視圖的觀點(diǎn)VR={cR1,cR2,uR},VB={cB1,cB2,uB},VT={cT1,cT2,uT},并據(jù)此計(jì)算了融合后的決策觀點(diǎn)V={c1,c2,u},計(jì)算如下:
ck=1λ cRkcBkcTk+(1-uR)cRk+(1-uB)cBk+(1-uT)cTk(14)
u=1λ(1-uR)(1-uB)(1-uT)(15)
λ=(1-uR)(1-uB)(1-uT)+(1-uR)2+
(1-uB)2+(1-uT)2+∑2k=1cRkcBkcTk(16)
這里的λ是一個(gè)規(guī)范化因子,確保融合后的觀點(diǎn)滿足式(1)。經(jīng)過證據(jù)融合后,擁有最大證據(jù)的類即為最終的預(yù)測(cè)標(biāo)簽,而Dirichlet分布參數(shù)則用于計(jì)算損失。第k類的證據(jù)ek和Dirichlet分布參數(shù)αk可以由式(17)和(18)計(jì)算:
ek=Sck=Kuck(17)
αk=ek+1=Kuck+1(18)
該融合策略不僅強(qiáng)調(diào)了視圖間對(duì)同一分類結(jié)果的共同支持,而且非常重視每個(gè)視圖的類別可信度與不確定性。式(14)中的cRkcBkcTk項(xiàng)突出了多視圖數(shù)據(jù)在形成統(tǒng)一分類決策時(shí)的集體作用,促使模型在預(yù)測(cè)時(shí)作出更一致和準(zhǔn)確的判斷。例如,當(dāng)所有視圖對(duì)某一類別預(yù)測(cè)都表現(xiàn)出較高的可信度時(shí),這一項(xiàng)乘積會(huì)增大,從而促使融合后ck和ek相對(duì)增大。另一方面,(1-uR)cRk+(1-uB)cBk+(1-uT)cTk則優(yōu)先考慮那些既可信又確定的視圖。當(dāng)一個(gè)視圖的不確定性較低(即更確定)時(shí),它為各類別分配的可信度在融合中的權(quán)重就越大。這樣有助于提高模型對(duì)分類結(jié)果的整體信心,特別是在面對(duì)不同視圖間的可信度和確定性存在顯著差異時(shí)。
在處理不確定性u(píng)的融合時(shí),特別注意到了直接相乘不確定性(uRuBuT)的潛在缺陷,即在所有視圖均表現(xiàn)出較高不確定性或較低不確定性的情況下,這種方法可能導(dǎo)致最終的不確定性u(píng)變得極端大或極端小。與用于判定最終分類結(jié)果的可信度ck不同,融合后的不確定性u(píng)直接影響到Dirichlet分布的參數(shù)αk,進(jìn)而對(duì)融合后的損失函數(shù)產(chǎn)生顯著影響。所以,這種極端值的出現(xiàn)可能會(huì)導(dǎo)致融合后的損失函數(shù)變得不穩(wěn)定,從而影響模型的整體訓(xùn)練效果。
為有效地避免極端值問題,采用(1-uR)(1-uB)(1-uT)來計(jì)算融合后的不確定性。在所有視圖的不確定性都較高時(shí),這種融合方式降低了總體不確定性,體現(xiàn)出一種邏輯:通過整合視圖可以找到更穩(wěn)健的共識(shí)。相反,在各視圖的不確定性較低時(shí),融合策略適度提升了不確定性,從而在多個(gè)視圖之間找到平衡,避免對(duì)任何單一視圖的過度自信。這種融合方式不僅有助于更全面地考慮來自不同視圖的信息,而且確保了融合后的損失函數(shù)能夠穩(wěn)定地反映多視圖數(shù)據(jù)的整體特性,從而優(yōu)化整體模型性能。
3.6 損失函數(shù)
在MVEF方法中,由于采用了非負(fù)激活函數(shù)代替?zhèn)鹘y(tǒng)的softmax算子,標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)不適用于模型訓(xùn)練。為此,本文采取了不同的方法,將每個(gè)樣本由模型輸出的證據(jù)映射到Dirichlet分布D(p|αi)的參數(shù)上,并據(jù)此計(jì)算交叉熵?fù)p失的貝葉斯風(fēng)險(xiǎn)[24]:
Euclid Math OneLApcebr(αi)=∫Euclid Math OneLApceD(p|αi)dp=
∫(-∑Kj=1yijlog(pij))D(p|αi)dp(19)
由于p是遵循D(p|αi)分布的隨機(jī)變量,并且log pij作為Dirichlet分布的充分統(tǒng)計(jì)量,可以利用指數(shù)族分布的差分性質(zhì)來導(dǎo)出log pij的期望值的解析形式[25]:
Euclid Math TwoEApD(p|αi)(log pij)=∫(log pij)D(p|αi)dp=
ψ(αij)-ψ(S)(20)
其中:ψ(·)是digamma函數(shù),在(0,+∞)上單調(diào)遞增;S是前文提到的Dirichlet強(qiáng)度。在此基礎(chǔ)上,考慮到Euclid Math OneLApcebr(αi)捕捉的是樣本屬于正類的整體概率,即關(guān)注的是正類損失,將其重新標(biāo)記為Euclid Math OneLAppc(αi)。接下來,借助式(20),式(19)可以將Euclid Math OneLApcebr(αi),即Euclid Math OneLAppc(αi)進(jìn)一步展開:
Euclid Math OneLAppc(αi)=-∑Kj=1yij∫(log pij)D(p|αi)dp=
∑Kj=1yij[ψ(Si)-ψ(αij)]
(21)
Euclid Math OneLAppc(αi)專注于增強(qiáng)模型在正類識(shí)別上的精確度和置信度,因此還需要計(jì)算樣本的負(fù)類損失,對(duì)過度自信的錯(cuò)誤類別預(yù)測(cè)進(jìn)行懲罰[26]。參考上述正類損失函數(shù)的形式,負(fù)類損失函數(shù)Euclid Math OneLApnc(αi)可以表示為
Euclid Math OneLApnc(αi)=∑Kj=1(1-yij)1ψ(Si)-ψ(αij)(22)
為全面評(píng)估模型在所有類別上的分類性能,總體損失函數(shù)Euclid Math OneLAp(α)綜合了正類損失Euclid Math OneLAppc(αi)和負(fù)類損失Euclid Math OneLApnc(αi),確保在正類和負(fù)類間的有效平衡。因此,損失函數(shù)的表達(dá)式為
Euclid Math OneLAp(α)=∑Ni=1(Euclid Math OneLAppc(αi)+Euclid Math OneLApnc(αi))(23)
基于整體的MVEF方法而言,為最大化各視圖對(duì)水軍檢測(cè)的貢獻(xiàn),并通過融合不同視圖的信息來增強(qiáng)方法的整體性能,設(shè)計(jì)了一個(gè)多視圖全局損失函數(shù)Euclid Math OneLApglobal。該損失函數(shù)綜合來自不同視圖的單獨(dú)損失,并加入融合視圖的損失,具體表達(dá)式為
Euclid Math OneLApglobal=Euclid Math OneLApR+Euclid Math OneLApB+Euclid Math OneLApT+Euclid Math OneLApfused=
Euclid Math OneLAp(αR)+Euclid Math OneLAp(αB)+Euclid Math OneLAp(αT)+Euclid Math OneLAp(αfused)(24)
其中:Euclid Math OneLApR、Euclid Math OneLApB、Euclid Math OneLApT分別代表社交關(guān)系視圖、行為特征視圖和推文內(nèi)容視圖的獨(dú)立損失;Euclid Math OneLApfused則代表這些視圖經(jīng)過證據(jù)融合后的綜合損失,它考慮了這些視圖間的交互和補(bǔ)充信息。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
4.1.1 數(shù)據(jù)集
使用兩個(gè)公共數(shù)據(jù)集來評(píng)估MVEF方法:Twitter社交蜜罐數(shù)據(jù)集(Twitter SH)[27]和Twitter 1KS10KN數(shù)據(jù)集(1KS-10KN)[28]??紤]到Twitter SH數(shù)據(jù)集中用戶社交關(guān)系的缺乏,使用外部Twitter社交圖數(shù)據(jù)集[29]來補(bǔ)充它的社交網(wǎng)絡(luò)。根據(jù)實(shí)驗(yàn)需要采樣得到最終的實(shí)驗(yàn)數(shù)據(jù)集,它們的具體統(tǒng)計(jì)情況如表3所示。
4.1.2 對(duì)比基線
將MVEF與以下基線進(jìn)行比較,包括最先進(jìn)的水軍檢測(cè)方法。
LR(logistic regression)是一種廣泛使用的線性分類算法,適用于二分類問題。
SVM(support vector machine)是一種強(qiáng)大的分類器,通過找到最佳的決策邊界來區(qū)分不同類別。
RF(random forest)是一種基于樹的集成學(xué)習(xí)方法,通過構(gòu)建多個(gè)決策樹并進(jìn)行投票或平均來提升預(yù)測(cè)性能。
XGBoost是一種先進(jìn)的梯度增強(qiáng)算法,旨在通過正則化和并行處理提高模型的準(zhǔn)確性和訓(xùn)練效率。
以上的單視圖方法均使用行為特征視圖構(gòu)建的特征進(jìn)行實(shí)驗(yàn)。
GANG[13]是一種基于有向圖的社交網(wǎng)絡(luò)欺詐用戶檢測(cè)方法,通過創(chuàng)新地運(yùn)用成對(duì)馬爾可夫隨機(jī)場(chǎng)和環(huán)形信念傳播來建模用戶狀態(tài)的聯(lián)合概率分布。
MDGCN[16]是一種結(jié)合自適應(yīng)獎(jiǎng)勵(lì)馬爾可夫隨機(jī)場(chǎng)和圖卷積網(wǎng)絡(luò)的先進(jìn)模型,有效融合了用戶關(guān)系網(wǎng)絡(luò)和富文本特性。
SSDMV[2]是一種基于多視圖數(shù)據(jù)融合的半監(jiān)督深度學(xué)習(xí)模型,通過相關(guān)梯形網(wǎng)絡(luò)和過濾門組件獲得用戶的聯(lián)合表示,然后進(jìn)行標(biāo)簽推理。
SSCF[18]是一種半監(jiān)督線索融合方法,通過一個(gè)線性加權(quán)求和函數(shù)融合來自多個(gè)視角的綜合線索,以獲取最終結(jié)果。由于SSCF原本是針對(duì)微博平臺(tái)設(shè)計(jì)的特征提取,其在Twitter上應(yīng)用效果不佳。所以,在后續(xù)實(shí)驗(yàn)中,改用SSDMV的推文嵌入作為其推文視圖特征,同時(shí)使用MVEF的行為視圖特征和社交關(guān)系視圖特征作為對(duì)應(yīng)的視圖特征。
4.1.3 評(píng)價(jià)指標(biāo)
按照以往的文獻(xiàn),使用準(zhǔn)確率(accuracy)、精度(precision)、召回率(recall)和F1值(F1-score)。
4.1.4 參數(shù)設(shè)置
GANG、MDGCN、SSDMV、SSCF的參數(shù)均參照原論文進(jìn)行設(shè)置。對(duì)于MVEF,在處理社交關(guān)系視圖時(shí),設(shè)計(jì)了一個(gè)包含三層的MLP(含最后一個(gè)全連接層,以下均包含該層),結(jié)構(gòu)為[256,128,2],其隱藏層采用ReLU激活函數(shù)。為增強(qiáng)模型的性能和泛化能力,在隱藏層集成了BatchNorm1d以加快訓(xùn)練過程,并在輸入層以及隱藏層之間嵌入dropout機(jī)制(比例分別為0.2和0.5),以防止出現(xiàn)過擬合現(xiàn)象。在行為特征視圖處理中,根據(jù)數(shù)據(jù)集特性對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,Twitter SH數(shù)據(jù)集使用[9,6,4,2]的四層MLP,1KS-10KN數(shù)據(jù)集使用[9,8,7,6,4,2]的六層MLP。隱藏層同樣采用ReLU激活函數(shù),并在最后一個(gè)隱藏層后添加BatchNorm1d和Dropout層。推文內(nèi)容視圖則利用BERTweet模型提取特征向量,后接一個(gè)全連接層。為進(jìn)一步降低過擬合風(fēng)險(xiǎn),在該層前引入dropout(比例為0.2)。
為優(yōu)化模型的任務(wù)適應(yīng)性,對(duì)BERTweet進(jìn)行微調(diào),采用了誤差修正、weight-decay (L2正則化)和warmup等策略。在模型訓(xùn)練階段,為避免BERTweet微調(diào)對(duì)整體模型參數(shù)更新的影響,為BERTweet部分設(shè)置專用的AdamW優(yōu)化器,而對(duì)其他網(wǎng)絡(luò)部分則使用標(biāo)準(zhǔn)的Adam優(yōu)化器。
4.2 對(duì)比實(shí)驗(yàn)
在這一部分,將MVEF與現(xiàn)有的先進(jìn)水軍檢測(cè)方法進(jìn)行比較。隨機(jī)選擇80%的用戶作為訓(xùn)練集,其余20%作為測(cè)試集在兩個(gè)數(shù)據(jù)集上評(píng)估MVEF和上面列出基線的性能。結(jié)果顯示在表4中??梢宰⒁獾剑琈VEF方法不僅在類別分布相對(duì)平衡的Twitter SH數(shù)據(jù)集上取得了高質(zhì)量的分類結(jié)果,在類別分布不平衡的1KS-10KN數(shù)據(jù)集上同樣展示了其強(qiáng)大的檢測(cè)能力。這一發(fā)現(xiàn)進(jìn)一步證明了MVEF在社交水軍檢測(cè)領(lǐng)域的實(shí)用性。
LR和SVM這兩個(gè)經(jīng)典的機(jī)器學(xué)習(xí)算法在兩個(gè)數(shù)據(jù)集上表現(xiàn)很差,尤其是在1KS-10KN數(shù)據(jù)集上的F1值均低于0.5,因?yàn)樗鼈冊(cè)谔幚砀叨炔黄胶獾纳缃痪W(wǎng)絡(luò)數(shù)據(jù)時(shí)具有局限性,傾向于過度擬合多數(shù)類而忽略少數(shù)類。相比之下,集成學(xué)習(xí)算法RF和XGBoost表現(xiàn)更好,在Twitter SH數(shù)據(jù)集上的準(zhǔn)確率和F1值均在0.9以上,因?yàn)榧蓪W(xué)習(xí)可以通過組合多個(gè)弱學(xué)習(xí)器從而形成一個(gè)強(qiáng)學(xué)習(xí)器。它們還通過特有的機(jī)制如類別權(quán)重調(diào)整和改進(jìn)的損失函數(shù),來應(yīng)對(duì)數(shù)據(jù)不平衡帶來的挑戰(zhàn),所以在類別極度不平衡的1KS-10KN數(shù)據(jù)集上,F(xiàn)1值也達(dá)到了08左右。GANG和MDGCN這兩種方法通過有效利用社交網(wǎng)絡(luò)的緊密連接來學(xué)習(xí)用戶特征和標(biāo)簽依賴。因此,相較于社交網(wǎng)絡(luò)較為稀疏的Twitter SH數(shù)據(jù)集,它們?cè)谏缃宦?lián)系更加緊密的1KS-10KN數(shù)據(jù)集上展現(xiàn)了更加卓越的性能。尤其是MDGCN整合了圖卷積網(wǎng)絡(luò)和馬爾可夫隨機(jī)場(chǎng)的優(yōu)勢(shì),在學(xué)習(xí)特征表征的同時(shí)對(duì)關(guān)系型用戶的依賴性進(jìn)行建模,其在1KS-10KN數(shù)據(jù)集上的F1值高達(dá)0.910 9。
對(duì)比先進(jìn)的特征級(jí)融合方法SSDMV和決策級(jí)融合方法SSCF,MVEF性能表現(xiàn)更優(yōu)異。特別是在Twitter SH數(shù)據(jù)集上,MVEF的準(zhǔn)確率超過這兩個(gè)融合方法2%以上,在1KS-10KN數(shù)據(jù)集上也高出了1.5%以上。盡管SSDMV能夠探索跨視圖的特征交互,但在處理視圖間噪聲和質(zhì)量差異方面可能存在不足。與之相對(duì),MVEF獨(dú)立評(píng)估每個(gè)視圖的預(yù)測(cè)結(jié)果,并用不確定性量化視圖質(zhì)量差異,保證了最終決策的可靠性。SSCF雖然采用了決策級(jí)融合策略,但其固定的權(quán)重參數(shù)限制了模型在不同數(shù)據(jù)分布下的適應(yīng)能力。而MVEF通過分析每個(gè)樣本的視圖證據(jù)動(dòng)態(tài)調(diào)整權(quán)重,使得模型在綜合多視圖信息時(shí)更加精準(zhǔn)。
4.3 消融實(shí)驗(yàn)
為評(píng)估每個(gè)部分對(duì)方法性能的貢獻(xiàn),進(jìn)行了一系列消融實(shí)驗(yàn),分別移除了特定的視圖數(shù)據(jù)以及方法的核心模塊—證據(jù)融合模塊,并觀察方法的性能變化。
具體而言,對(duì)比完整的多視圖證據(jù)融合方法MVEF與其四種消融變體,即MVEF(B_T)、MVEF(T_R)、MVEF(R_B)和MVF。前三種消融變體分別移除社交關(guān)系視圖R、行為特征視圖B、推文內(nèi)容視圖T,旨在評(píng)估這些視圖對(duì)MVEF方法性能的貢獻(xiàn),探究視圖數(shù)量對(duì)融合模型效果的影響,以及不同視圖組合在模型性能中的相對(duì)重要性。而MVF方法則移除了證據(jù)融合模塊,其中各視圖的基分類器在全連接層之后直接采用softmax函數(shù)輸出分類概率,然后以相等權(quán)重組合形成最終預(yù)測(cè)概率,并采用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化。該變體的目的是檢驗(yàn)證據(jù)融合模塊在整合多視圖信息和提升方法性能方面的重要性。
如圖2所示,MVEF方法在不同消融設(shè)置下的性能表現(xiàn)出了明顯的差異。從三視圖融合方法MVEF中移除任意一個(gè)視圖時(shí),性能指標(biāo)均有所下降,這表明每個(gè)視圖都為模型提供了獨(dú)特而有價(jià)值的信息。然而,性能的下降程度并不一致,反映出不同視圖對(duì)模型性能貢獻(xiàn)的重要性不同。其中,社交關(guān)系視圖S對(duì)模型的整體性能有顯著影響。在所有移除某一視圖的消融實(shí)驗(yàn)設(shè)置中,無論是結(jié)合行為特征視圖MVEF(R_B),還是推文內(nèi)容視圖MVEF(T_R),包含社交關(guān)系視圖的組合均展現(xiàn)出較高的性能指標(biāo),它們?cè)赥witter SH數(shù)據(jù)集上的準(zhǔn)確率與完整模型相比僅相差約2%,在1KS-10KN數(shù)據(jù)集上的差距更是縮小至1.5%以內(nèi)。這凸顯了社交關(guān)系視圖在區(qū)分水軍和合法用戶中的重要作用,它依托社交網(wǎng)絡(luò)同質(zhì)性理論深入分析用戶之間的互動(dòng)和共性特征,捕捉到用戶緊密的社交聯(lián)系,極大地提升了模型識(shí)別水軍的能力。與此相比,MVEF(B_T)在兩個(gè)數(shù)據(jù)集上的性能普遍低于包含社交視圖的組合,特別是在1KS-10KN數(shù)據(jù)集上,其F1值與完整模型相比下降了15%,遠(yuǎn)高于其他消融變體的下降幅度。這可能是因?yàn)樾袨樘卣骱屯莆膬?nèi)容雖然能提供用戶的靜態(tài)屬性和內(nèi)容信息,但缺乏社交關(guān)系視圖所具有的用戶間動(dòng)態(tài)交互的信息,而這種交互信息對(duì)于揭示潛在的水軍網(wǎng)絡(luò)特別關(guān)鍵。
此外,特別關(guān)注了去除核心模塊—證據(jù)融合模塊的MVF方法的性能表現(xiàn)。結(jié)果表明,MVF方法雖然在某些性能指標(biāo)上優(yōu)于只包含兩個(gè)視圖的證據(jù)融合方法,但仍然不及完整的MVEF方法。例如,其在1KS-10KN數(shù)據(jù)集上的F1值仍比MVEF方法低約2%。這表明單純的視圖特征提取和簡(jiǎn)單的輸出組合,雖然能夠在一定程度上捕獲視圖間的互補(bǔ)性,但無法深入挖掘和利用視圖間的復(fù)雜相互作用。相比之下,MVEF方法的主要優(yōu)勢(shì)在于其證據(jù)融合機(jī)制,該機(jī)制不僅評(píng)估每個(gè)視圖的獨(dú)立貢獻(xiàn),還深入考慮視圖間的相互作用和聯(lián)系。這使得MVEF能夠更全面地整合多視圖數(shù)據(jù),有效地捕獲每個(gè)視圖的獨(dú)特信息。
總體而言,消融實(shí)驗(yàn)結(jié)果突顯了MVEF在多視圖數(shù)據(jù)整合上的獨(dú)特優(yōu)勢(shì),特別是其證據(jù)融合模塊在提升分類性能方面的關(guān)鍵作用。
4.4 魯棒性實(shí)驗(yàn)
在現(xiàn)實(shí)世界中,社交數(shù)據(jù)往往包含各種噪聲,為此,需要一個(gè)魯棒的水軍檢測(cè)方法能夠適應(yīng)這些數(shù)據(jù)偏差。為評(píng)估方法在各種數(shù)據(jù)偏差下的性能,進(jìn)行了魯棒性實(shí)驗(yàn)。在測(cè)試數(shù)據(jù)集中故意引入不同比例(10%、20%、30%和40%)的噪聲,模擬現(xiàn)實(shí)世界中的數(shù)據(jù)質(zhì)量問題。具體方法包括:
a)行為特征視圖(view B):在標(biāo)準(zhǔn)化后的數(shù)據(jù)上添加服從標(biāo)準(zhǔn)正態(tài)分布(均值為0,方差為1)的高斯噪聲。
b)社交關(guān)系視圖(view R):通過隨機(jī)刪除和添加社交網(wǎng)絡(luò)中的關(guān)注關(guān)系來引入噪聲。
c)推文內(nèi)容視圖(view T):通過隨機(jī)刪除和添加單詞、使用同義詞替換,以及在單詞中插入隨機(jī)字符來添加推文的噪聲。
如圖3所示,在面對(duì)不同程度行為特征的噪聲時(shí),多視圖融合方法SSDMV、SSCF以及MVEF在兩個(gè)數(shù)據(jù)集中均展示出較好的穩(wěn)健性。特別是MVEF,在面對(duì)高達(dá)40%的噪聲比例下,性能下降幅度在兩個(gè)數(shù)據(jù)集上均未超過4%。與此相比,SSCF雖然在Twitter SH數(shù)據(jù)集上的性能降幅最小(未超過2%),但在1KS-10KN數(shù)據(jù)集上表現(xiàn)最差。這種差異可能源于兩個(gè)數(shù)據(jù)集中行為特征視圖的不同貢獻(xiàn)度以及通過訓(xùn)練固定視圖權(quán)重所帶來的影響。在Twitter SH數(shù)據(jù)集中,行為特征視圖被賦予較低的權(quán)重,為模型提供一層緩沖,減輕了噪聲對(duì)整體性能的影響。對(duì)于傳統(tǒng)的單視圖方法,如SVM、RF和XGBoost,在Twitter SH數(shù)據(jù)集上的性能降幅相對(duì)更為明顯。尤其是RF,在40%噪聲條件下性能下降超過25%,說明這些方法對(duì)噪聲非常敏感。而在1KS-10KN這個(gè)極端不平衡的數(shù)據(jù)集中,SVM的性能下降則相對(duì)緩慢,這可能是因?yàn)槠浜撕瘮?shù)和間隔最大化的特性,能夠在一定程度上抵御噪聲帶來的干擾。
在添加噪聲的社交關(guān)系視圖實(shí)驗(yàn)中,利用MVEF方法的社交關(guān)系節(jié)點(diǎn)嵌入為單視圖方法SVM、RF和XGBoost提供特征。如圖4所示,MDGCN在面對(duì)噪聲時(shí)的性能下降較SSDMV和MVEF偏大,這可能是由于其對(duì)用戶間關(guān)系和依賴性的學(xué)習(xí)受到圖結(jié)構(gòu)變化的影響。單視圖方法(如SVM、RF)在社交關(guān)系視圖添加噪聲時(shí)的性能下降并不像在行為特征視圖中那樣顯著,這歸功于它們使用的高質(zhì)量節(jié)點(diǎn)嵌入,這些嵌入通過增加節(jié)點(diǎn)間的間接關(guān)系和共享鄰居來生成,從而在噪聲條件下為模型提供較為穩(wěn)定的特征表示。
結(jié)合圖4和5來看,SSDMV、MDGCN、SSCF以及MVEF等多視圖融合方法在高噪聲環(huán)境下相較于SVM、XGBoost等單視圖方法表現(xiàn)出更優(yōu)越的性能。這是因?yàn)槎嘁晥D方法能夠綜合多個(gè)數(shù)據(jù)源的信息,使得在一個(gè)視圖中出現(xiàn)的噪聲可以被其他視圖中的準(zhǔn)確信息補(bǔ)償。特別注意到,SSCF這一決策級(jí)融合方法在處理不同視圖的噪聲時(shí),其性能表現(xiàn)出了不同程度的敏感性。當(dāng)社交關(guān)系視圖遭受噪聲干擾時(shí),其性能顯著降低,而對(duì)推文視圖中的噪聲所受影響卻十分小。這一觀察可能指向了模型在訓(xùn)練過程中對(duì)社交關(guān)系視圖賦予較高的權(quán)重,認(rèn)為其特征表達(dá)具有較高的質(zhì)量,而相對(duì)地,推文視圖的權(quán)重被設(shè)置得很低。這也揭示了SSCF的固定權(quán)重分配機(jī)制在處理視圖噪聲時(shí)的局限性,其未能充分激發(fā)多視圖融合的潛力,特別是在各視圖質(zhì)量差異顯著時(shí),無法靈活調(diào)整以利用視圖間的互補(bǔ)性。相比之下,MVEF以其獨(dú)特的不確定性量化方法和有效的融合策略使其在對(duì)抗噪聲方面表現(xiàn)更為卓越,從而在數(shù)據(jù)質(zhì)量變化的環(huán)境中保持高穩(wěn)定性和準(zhǔn)確性。
5 結(jié)束語
本文提出了一種基于多視圖證據(jù)融合(MVEF)的社交水軍檢測(cè)方法,用于高效準(zhǔn)確地檢測(cè)社交平臺(tái)上的水軍。該方法綜合分析用戶行為、社交關(guān)系和推文內(nèi)容三個(gè)關(guān)鍵視圖,以提取決策所需的證據(jù)。然后,將其參數(shù)化為Dirichlet分布,準(zhǔn)確量化每個(gè)視圖在分類決策中的整體不確定性與類別可信度。在核心的證據(jù)融合環(huán)節(jié),MVEF利用各視圖的不確定性動(dòng)態(tài)調(diào)整決策權(quán)重,形成全面可信的分類結(jié)果。實(shí)驗(yàn)結(jié)果顯示,MVEF在兩個(gè)數(shù)據(jù)集上的性能均優(yōu)于現(xiàn)有的先進(jìn)方法,證明了其在準(zhǔn)確性、魯棒性和可靠性方面的顯著優(yōu)勢(shì)。未來的工作將探索優(yōu)化視圖融合策略,以適應(yīng)更加多樣化的數(shù)據(jù)環(huán)境并進(jìn)一步提升方法性能。
參考文獻(xiàn):
[1]Chen Ailin, Yang Pin, Cheng Pengsen. ACTSSD: social spammer detection based on active learning and co-training [J]. The Journal of Supercomputing, 2022, 78(2): 2744-2771.
[2]Li Chaozhuo, Wang Senzhang, He Lifang,et al. SSDMV: semi-supervised deep social spammer detection by multi-view data fusion [C]// Proc of the 18th IEEE International Conference on Data Mi-ning. Piscataway, NJ: IEEE Press, 2018: 247-256.
[3]Liu Bo, Sun Xiangguo, Ni Zeyang,et al. Co-detection of crowdturfing microblogs and spammers in online social networks [J]. World Wide Web, 2020, 23(1): 573-607.
[4]Sensoy M, Kaplan L, Kandemir M. Evidential deep learning to quantify classification uncertainty [C]// Proc of the 32nd Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates, 2018: 31.
[5]Krestel R, Chen Ling. Using co-occurrence of tags and resources to identify spammers [C]// Proc of ECML/PKDD Discovery Challenge Workshop. Berlin: Springer, 2008: 38-46.
[6]Hu Xia, Tang Jiliang, Gao Huiji,et al. Social spammer detection with sentiment information [C]// Proc of the 14th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2014: 180-189.
[7]Ghanem R, Erbay H. Spam detection on social networks using deep contextualized word representation [J]. Multimedia Tools and Applications, 2023, 82(3): 3697-3712.
[8]Zhang Xianchao, Li Zhaoxing, Zhu Shaoping,et al. Detecting spam and promoting campaigns in Twitter [J]. ACM Trans on the Web, 2016, 10(1): 1-28.
[9]Stafford G, Yu L L. An evaluation of the effect of spam on Twitter trending topics [C]// Proc of International Conference on Social Computing. Piscataway, NJ: IEEE Press, 2013: 373-378.
[10]Yin Jun, Li Qian, Liu Shaowu,et al. Leveraging multi-level depen-dency of relational sequences for social spammer detection [J]. Neurocomputing, 2021, 428: 130-141.
[11]Jeong S, Noh G, Oh H,et al. Follow spam detection based on cascaded social information [J]. Information Sciences, 2016, 369: 481-499.
[12]李寧, 梁永全, 張琪. 一種基于時(shí)序鄰居序列的游離水軍群組檢測(cè)方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(3): 776-785. (Li Ning, Liang Yongquan, Zhang Qi. Method for detecting free spammer groups based on temporal neighbor sequence [J]. Application Research of Computers, 2023, 40(3): 776-785.)
[13]Wang Binghui, Gong N Z, Fu Hao. GANG: detecting fraudulent users in online social networks via guilt-by-association on directed graphs [C]// Proc of the 17th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2017: 465-474.
[14]張琪, 紀(jì)淑娟, 張文鵬, 等. 考慮結(jié)構(gòu)與行為特征的水軍群組檢測(cè)算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(5): 1374-1379. (Zhang Qi, Ji Shujuan, Zhang Wenpeng,et al. Group spam detection algorithm considering structure and behavior characteristics [J]. Application Research of Computers, 2022, 39(5): 1374-1379.)
[15]Zhang Xulong, Jiang F, Zhang Ran,et al. Social spammer detection based on semi-supervised learning [C]// Proc of the 20th IEEE International Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE Press, 2021: 849-855.
[16]Deng Leyan, Wu Chenwang, Lian Defu,et al. Markov-driven graph convolutional networks for social spammer detection [J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(12): 12310-12322.
[17]Shen Hua, Wang Bangyu, Liu Xinyue,et al. Social spammer detection via convex nonnegative matrix factorization [J]. IEEE Access, 2022, 10: 91192-91202.
[18]Chen Hao, Liu Jun, Lyu Yanzhang,et al. Semi-supervised clue fusion for spammer detection in Sina Weibo [J]. Information Fusion, 2018, 44: 22-32.
[19]Wu Fangzhao, Wu Chuhan, Liu Junxin. Semi-supervised collaborative learning for social spammer and spam message detection in microblogging [C]// Proc of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2018: 1791-1794.
[20]Liu Shuaitong, Li Xiaojun, Hu Changhua,et al. Spammer detection using multi-classifier information fusion based on evidential reasoning rule [J]. Scientific Reports, 2022, 12(1): 12458.
[21]Moon J, Kim J, Shin Y,et al. Confidence-aware learning for deep neural networks [C]// Proc of the 37th International Conference on Machine Learning. New York: PMLR, 2020: 7034-7044.
[22]Koggalahewa D, Xu Yue, Foo E. An unsupervised method for social network spammer detection based on user information interests [J]. Journal of Big Data, 2022, 9(1): 1-37.
[23]Nguyen D Q, Vu T, Nguyen A T. BERTweet: a pre-trained language model for English Tweets [EB/OL]. (2020-10-05). https://arxiv.org/abs/2005.10200.
[24]Charpentier B, Zügner D, Günnemann S. Posterior network: uncertainty estimation without OOD samples via density-based pseudo-counts [C]// Proc of the 34th Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates, 2020: 1356-1367.
[25]Lin Jiayu. On the Dirichlet distribution [EB/OL]. (2016). https://api.semanticscholar.org/CorpusID:45761615.
[26]Zhao Kun, Gao Qian, Hao Siyuan,et al. Credible remote sensing scene classification using evidential fusion on aerial-ground dual-view images [J]. Remote Sensing, 2023, 15(6): 1546.
[27]Lee K, Eoff B, Caverlee J. Seven months with the devils: a long-term study of content polluters on twitter [C]// Proc of the 5th International AAAI Conference on Web and Social Media. Palo Alto, CA: AAAI Press, 2011: 185-192.
[28]Yang Chao, Harkreader R, Zhang Jialong,et al. Analyzing spammers’ social networks for fun and profit: a case study of cyber criminal ecosystem on Twitter [C]// Proc of the 21st International Confe-rence on World Wide Web. New York: ACM Press, 2012: 71-80.
[29]Kwak H, Lee C, Park H,et al. What is Twitter, a social network or a news media? [C]// Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 591-600.