仲麗君,楊文忠,袁婷婷,向進勇
ZHONG Lijun,YANG Wenzhong,YUAN Tingting,XIANG Jinyong
新疆大學 信息科學與工程學院,烏魯木齊 830046
College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
隨著互聯(lián)網(wǎng)的迅速發(fā)展,社交網(wǎng)絡在不同應用領域日益增多,已經(jīng)成為人們?nèi)粘I钪械闹匾缃还ぞ?。但與此同時,伴隨著社交媒體的爆炸式增長,許多非法用戶將其作為牟取利益的平臺,國外的Twitter、Facebook,以及國內(nèi)的網(wǎng)易、新浪等在線社交系統(tǒng)的許多用戶經(jīng)常受到各種異常用戶的困擾。一些用戶在社交網(wǎng)絡中大肆傳播虛假消息、垃圾信息等有害信息,向用戶推送虛假廣告,進行惡意傳銷,擾亂了社交平臺的正常營銷和推廣,侵犯了公眾的利益,污染了社交網(wǎng)絡環(huán)境,對社會造成了不良的影響。因此,識別這些異常用戶是社交網(wǎng)絡研究領域的一個重要課題,對凈化網(wǎng)絡環(huán)境,維持網(wǎng)絡秩序,提高用戶上網(wǎng)體驗,促進社會的和諧發(fā)展等具有重要作用。
異常檢測在許多應用領域得到了廣泛的應用,如垃圾郵件識別、入侵檢測、欺詐檢測、金融詐騙、故障檢測、惡意用戶識別、用戶異常情緒、人類行為分析、網(wǎng)絡詐騙、醫(yī)學和公共衛(wèi)生、工業(yè)損傷、圖像處理、傳感器網(wǎng)絡等。Markou等人[1]于2003年在監(jiān)督學習的基礎上對異常檢測的新穎性進行了研究。文獻[2-3]提出了有監(jiān)督學習、無監(jiān)督學習以及基于聚類技術的各種異常檢測方法,但是沒有對網(wǎng)絡中的異常進行檢測。文獻[4]提出了一種基于一個樣本類和兩個類別的支持向量機的混合異常檢測機制。文獻[5]對金融領域中基于聚類的異常識別方法進行了總結(jié),并從不同的角度對其進行了比較。Fire等人[6]根據(jù)社交網(wǎng)絡自身的拓撲特征,對多種類型社交網(wǎng)絡中的惡意行為進行檢測,可以檢測出多種類型的惡意配置文件,取得了良好的性能。
目前有關社交網(wǎng)絡異常用戶的識別研究,沒有一個統(tǒng)一的歸類,相關的綜述性文章多是對其中一種類型進行總結(jié),沒有一個系統(tǒng)的介紹。因此本文將社交網(wǎng)絡中的異常用戶劃分為具體的7個類別,并對每種不同類型異常用戶的研究現(xiàn)狀進行概要的介紹。然后,對異常用戶識別技術進行了詳細的闡述,并對它們的優(yōu)缺點進行了比較。
異常是一種由各種異?;顒赢a(chǎn)生的與常規(guī)不符的現(xiàn)象或事件,隨著時間的演變,不同的作者對異常有不同的定義,表1給出了一些最常用的定義。結(jié)合已有定義以及對社交網(wǎng)絡異常產(chǎn)生方式的分析,本文中的異常是指在社交網(wǎng)絡中,個人或群體的行為不符合正常模式定義的特征行為或與其同齡人以明顯不同的方式進行的互動,其表現(xiàn)為在同一結(jié)構中與其他用戶行為不同的活動,比如異常的觀點、情緒、行為等。
針對社交網(wǎng)絡中存在的異常用戶類型多樣、邊界不清、目的不同(騷擾、廣告、引導輿論走向、欺詐等)等問題,本文從異常用戶在社交網(wǎng)絡上具有的屬性特征出發(fā),總結(jié)歸納了不同種類的異常用戶的特點,將社交網(wǎng)絡異常用戶劃分為7種獨立不相交的類別。
(1)惡意用戶,發(fā)布內(nèi)容含指向病毒網(wǎng)頁、釣魚網(wǎng)站或惡意網(wǎng)站的有害鏈接,往往會給人們造成經(jīng)濟損失。
(2)僵尸用戶,自動或手動地生產(chǎn)大量“僵尸”賬號,增加粉絲量,提高影響力,主要意圖是追隨、熱捧那些迫切需要成為熱門用戶、熱門話題的用戶,絕大多數(shù)情況下它們不會向其他用戶發(fā)布垃圾信息,暴露自己,而是盡可能地將自己偽裝成正常用戶。
(3)垃圾用戶,主要是利用社交平臺頻繁發(fā)布不請自來的大量相似或相同的信息,通常是單個用戶,一般只是傳播一些垃圾信息,不會對公司、組織造成很大的傷害。
(4)虛假用戶,大量注冊的偽造賬戶,發(fā)布虛假信息、虛假評論。
(5)網(wǎng)絡水軍,為了達到某種目的(營銷、推廣、上熱搜、政治、公關等),大量發(fā)表、回復、轉(zhuǎn)發(fā)、評論、提及他人,使目的信息大量傳播,散播謠言,混淆事實,影響人們的判斷,引導輿論走勢,網(wǎng)絡水軍通常具有很強的群體特征,行為也更隱蔽,不易被察覺。
(6)異常情緒用戶,從用戶發(fā)布內(nèi)容映射的情緒狀態(tài),找出隱藏在大量文本中的特定時間內(nèi)情緒發(fā)生突然變化的用戶。
(7)不良言論用戶,該類用戶不滿足上述6類異常用戶的任何特征,看似一切正常,但是在有關民族、宗教、黨建政策等大是大非的問題上,發(fā)表含有反動、反黨反人民、辱華、煽動民族團結(jié)、支持三股勢力等言論的極端思想用戶。
表2給出了這些異常用戶的相關定義。
本文將社交網(wǎng)絡異常用戶劃分為7個類別:惡意用戶、僵尸用戶、垃圾用戶、虛假用戶、網(wǎng)絡水軍、異常情緒用戶、不良言論用戶,并分別對這7類異常用戶識別的研究現(xiàn)狀進行了分析。
無論是國外的Twitter、Facebook,還是國內(nèi)的網(wǎng)易、騰訊、新浪等,近年來都飽受惡意用戶的困擾。他們發(fā)布惡意鏈接、釣魚網(wǎng)站、傳播病毒程序,污染了網(wǎng)絡環(huán)境,嚴重威脅到人們的財產(chǎn)安全,許多專家學者對惡意用戶的識別展開了大量的研究。Stringhini等人[12]采用隨機森林算法對三大社交網(wǎng)絡上的惡意用戶進行檢測,取得了較好的分類準確率。Chu等人[13]使用貝葉斯對Twitter上發(fā)布惡意內(nèi)容的用戶進行檢測。Zheng等人[14]使用支持向量機對新浪微博上的惡意用戶進行檢測,但時間開銷較大,所提出的特征提取方法對于數(shù)據(jù)量巨大時并不適應。鑒于此,國內(nèi)的談磊等人[15]提出了一種改進的復合分類模型。Elmendili等人[16]使用基于內(nèi)容和行為的技術檢測惡意用戶。微博由于文本較短,字數(shù)較少,從中可以提取的特征有限,單一地根據(jù)用戶發(fā)布消息的內(nèi)容來識別惡意用戶具有局限性,不能很好地識別惡意用戶。為了彌補這方面的不足,文獻[17]通過在MySpace上設置蜜罐賬戶,從而獲得惡意用戶關注的方式,對這些惡意用戶樣本進行分析,提取特征,開發(fā)了一個基于機器學習的分類器。由于大多數(shù)的惡意檢測技術是針對國外的Twitter、Facebook等社交網(wǎng)站進行的研究,不一定適用于國內(nèi)的微博。因此,林成峰[18]在此基礎上,將3種分類算法進行整合,檢測新浪微博上的惡意用戶。許翰林[19]根據(jù)動態(tài)信任模型檢測社交網(wǎng)絡中的惡意用戶。劉佳[20]通過使用BP和RBF兩種算法對網(wǎng)絡中的文本進行分類來檢測異常用戶。Hong等人[21]提出了基于卷積神經(jīng)網(wǎng)絡的惡意用戶檢測方法。
表1 異常的不同定義
表2 異常用戶的不同定義
僵尸用戶,最為熟知的就是僵尸粉,它們并不參與正常的社交活動,也不具備攻擊性,而是追隨、熱捧其他用戶、話題或者發(fā)布少量不良鏈接。僵尸粉由最早的“三無”,即無頭像、無粉絲、無微博逐漸發(fā)展為“三有”,即有頭像、有粉絲、有微博,其關注的用戶有真實用戶也有僵尸用戶。隨著微博用戶基數(shù)的增加以及微博管理員管理力度的加大,這種僵尸粉已經(jīng)不能滿足互聯(lián)網(wǎng)市場,隨之而來的是人工添加的虛假粉絲,即“活粉”,資料、頭像等信息完整,與真實的微博用戶沒有什么差別,每天定時更新微博,活躍度很高,粉絲數(shù)量不再是瞬間暴增而是穩(wěn)定地增加,且多為真實用戶。
由于僵尸粉通常是由機器自動產(chǎn)生的,其生成的注冊名和人填寫的注冊名存在一定的不同??紤]到這一點,方明等人[22]提出了一種改進的分類方法進行僵尸用戶的檢測。針對新浪微博中偽裝策略不斷升級的虛假粉絲,文獻[23]在用戶的社交關系和關系屬性兩個特征的基礎上,從圖特征的角度,即雙向關注的百分比和追隨者數(shù)量與被追隨者數(shù)量的比率,用來檢測虛假粉絲。岳紅等人[24]將靜態(tài)與動態(tài)特征相結(jié)合對僵尸粉進行檢測。王一博[25]使用支持向量機,根據(jù)用戶的關系屬性和內(nèi)容屬性實現(xiàn)異常用戶的檢測。Zhang等人[26]對爬取到的新浪數(shù)據(jù)進行分析,分析得到僵尸用戶和正常用戶不同的特征,手動將合法用戶中的僵尸用戶進行標注,再利用SVM機器學習分類器自動檢測僵尸追隨者。為了提高檢測算法的準確性,文中增加了一些檢測新特征,并將用戶的配置文件和推文相結(jié)合,實驗表明該方法比以前的檢測方法更有效,準確率達到99.78%,誤檢率為11.57%。Li等人[27]使用圖的方法根據(jù)用戶的行為屬性檢測新浪微博上的僵尸賬戶。陶永才等人[28]在用戶關系構成的社交網(wǎng)絡上,對用戶的粉絲進行聚類,然后與用戶的社交網(wǎng)絡關系相結(jié)合,建立僵尸用戶的檢測模型,結(jié)果表明,召回率和精確率良好,查全率相對偏低。王越等人[29]使用C4.5決策樹對新浪微博中的僵尸粉進行檢測。
垃圾用戶頻繁發(fā)布大量重復的信息,對其他用戶造成了騷擾。國內(nèi)外有許多學者對垃圾用戶的檢測進行了研究。Wang等人[30]使用40多種分類算法對社交網(wǎng)站單個的垃圾信息進行檢測,但是無法滿足大量垃圾用戶的檢測,針對這個問題,Zhang等人[31]在信息論原理的基礎上對垃圾用戶進行分類,提出了一種基于URL驅(qū)動的評估方法。McCord等人[32]根據(jù)用戶與內(nèi)容兩方面的特征,構建了4個分類器(分別是隨機森林、SVM、樸素貝葉斯和KNN)來區(qū)分垃圾用戶與正常用戶,實驗表明,隨機森林的效果最好,精確度為95.7%。李赫元等人[33]使用支持向量機對中文微博垃圾用戶進行檢測。吳斌等人[34]考慮了微博垃圾用戶的文本、行為以及社交網(wǎng)絡信息并建模分析,識別垃圾用戶。鄒永潘等人[35]使用混合的方法從統(tǒng)計和語義兩方面進行檢測。趙斌等人[36]在對微博垃圾用戶的檢測中,提出了一種基于重用檢測模型的過濾算法,在考慮文本特征的同時,將用戶的行為特征也考慮在內(nèi),從文本粒度的角度,分為語句級檢測SRD和詞項級檢測TRD,SRD重于檢測用戶行為,TRD重于檢測垃圾信息的主題。文獻[37]在以往研究的基礎上做了進一步的完善,將內(nèi)容、用戶行為與圖形相結(jié)合,通過分析用戶的行為及其與用戶的關系,提出了一種基于圖的檢測方法。在兩種情況下使用多種分類算法進行了實驗,第一種是使用整個數(shù)據(jù)來構建和評估模型,誤報率較高;第二種將普通用戶與垃圾用戶的數(shù)量比設為2∶1,與多種分類算法相比,邏輯回歸算法準確率最高,達到了99.569%。
針對現(xiàn)有對虛假用戶的研究,Cao等人[38]使用基于圖的方法,開發(fā)了一種新工具SybilRank,結(jié)合社交屬性,使在線社交網(wǎng)絡根據(jù)用戶感知到的虛假可能性對虛假賬戶進行排名,其中排名較低的多為虛假賬戶,通過對200000個賬戶進行測試,準確率為90%。文獻[39]將微博用戶考慮在內(nèi),將微博自身的文本特征和發(fā)布者的社交網(wǎng)絡特征相結(jié)合,形成一個特征向量,然后作為支持向量機的輸入,從而進行分類,檢測結(jié)果比單一的特征要好,準確率分別提高了13%和29%。文獻[40]用混合的方法對社交網(wǎng)絡中的虛假用戶進行檢測,準確率為98%?,F(xiàn)有很多研究在采用機器學習方法檢測虛假用戶時需要人工標注大量的數(shù)據(jù)集進行訓練,代價較大,而且存在樣本不足的問題,鑒于這一點,方勇等人[41]使用層次聚類的方法對海量數(shù)據(jù)中的虛假用戶進行檢測,可以有效找出一定比例的虛假用戶。Zhang等人[42]考慮到賬戶存在的目的,使用星型抽樣的方法來發(fā)現(xiàn)所有高級賬戶的追隨者列表中重復或相似的微博賬戶,實現(xiàn)虛假賬戶的檢測。針對Twitter的研究較多,而Facebook相對較少,Gupta等人[43]使用基于規(guī)則的方法,收集了用戶賬戶上的所有活動,根據(jù)用戶個人資料及與其他用戶的互動行為對Facebook上的虛假賬戶進行檢測。Ersahin等人[44]利用信息論知識,提出了一種在Twitter社交網(wǎng)絡上檢測虛假賬戶的分類方法,準確率為90.41%。譚侃等人[45]使用基于K-means的主動學習方法對社交網(wǎng)絡中的虛假用戶進行檢測。
傳統(tǒng)對網(wǎng)絡水軍的研究多是基于內(nèi)容特征、黑名單、規(guī)則進行分析的,隨著互聯(lián)網(wǎng)的迅速發(fā)展,用戶的防范意識不斷增強,傳統(tǒng)檢測方法已經(jīng)無法發(fā)現(xiàn)這些隱蔽的水軍?,F(xiàn)有對網(wǎng)絡水軍的研究中,Moh等人[46]考慮到用戶具有的社交關系,如關注的好友、粉絲等,由特征矩陣計算該用戶的可信任度,對該用戶是否為網(wǎng)絡水軍進行識別。Wang等人[47]提出將社交網(wǎng)絡水軍間的關系作為特征,利用圖模型對網(wǎng)絡水軍之間的關系進行建模。這種基于關系交互的方法在水軍識別的準確率上有了一定的提高,但數(shù)據(jù)獲取較困難。Husna等人[48]使用主成分分析以及K-means聚類算法對水軍機器人進行識別。Bhat等人[49]提出了一種基于規(guī)則的水軍檢測方法,分析了許多郵件水軍的行為,并根據(jù)其中兩種行為特征構建了一個分類器。陳侃等人[50]通過構建決策樹實現(xiàn)微博水軍的檢測。張良等人[51]使用邏輯回歸算法對新浪微博中的網(wǎng)絡水軍進行檢測,檢測特征包括好友數(shù)、粉絲數(shù)、發(fā)文頻率、所發(fā)博文數(shù)、離線時間、博文含URL率等。上述基于行為特征的識別方法,對隱藏很深的網(wǎng)絡水軍和復雜多變的特征屬性,識別準確率較低,張艷梅等人[52]進行了改進,根據(jù)貝葉斯理論和遺傳算法進行水軍的識別。Subrahmanian等人[53]根據(jù)句法和語義特征、時間的行為特性、用戶資料等特征,先進行最原始的檢測,然后根據(jù)LDA算法進行聚類分析,再用SVM識別Twitter和Facebook上的機器人水軍。Chen等人[54]使用改進的分類算法,將循環(huán)神經(jīng)網(wǎng)絡與自動編碼器相融合,檢測網(wǎng)絡水軍。
微博、Twitter等已經(jīng)成為人們在線交流和傳播情感的主要社交平臺,用戶可以在上面自由地發(fā)表個人的意見和觀點,發(fā)泄自己的情感,表達他們對生活、服務、政策、產(chǎn)品、當前事件、熱點話題和其他主題的看法。異常情緒用戶的識別通常在語義特征的基礎上對單用戶或群體用戶的情感進行研究,根據(jù)用戶發(fā)布的內(nèi)容,了解他們的情緒狀態(tài),從而可以分析網(wǎng)絡輿情,及時發(fā)現(xiàn)異常情緒用戶,并對他們進行開導,從而預防一些極端事件和群體事件的發(fā)生。Jain[55]設計了一個基于神經(jīng)網(wǎng)絡的跟蹤單個用戶情感的移動應用程序,將用戶輸入的文本、瀏覽器的歷史記錄以及社交媒體相結(jié)合進行情感分析,判斷一個人是否表現(xiàn)出長期的負面情緒。Wang等人[56]提出了一種改進的情感分類方法,即將文本對象考慮在內(nèi),提高了分類的準確率,對Twitter數(shù)據(jù)進行異常檢測,通過比較負面情緒所占的比例來觀察一天的異常情況。劉翠娟等人[57]使用基于規(guī)則的方法,從多情感角度對社會群體情感的變化進行了分析,首先計算群體情感強度,然后通過人工方式標注情感詞的強度,最后與句法分析相結(jié)合,計算出微博文本的情感類型和強度,采用可視化的方法對群體情感進行展示。熊建英等人[58]將基于規(guī)則的技術與圖的方法相融合,在把句法分析和情感詞典相結(jié)合的基礎上,加入了社交網(wǎng)絡互動關系,即計算與用戶互動頻繁的節(jié)點之間的信任值,從而通過可信反饋,識別出情緒異常節(jié)點。Sun等人[59]爬取了5年來100個用戶的10275個微博,按用戶和月份分為5類:中立、快樂、驚訝、悲傷、憤怒,將這5類作為與用戶情緒相關的變量進行建模,5種情感用五元高斯模型來模擬,檢測出異常情緒狀態(tài)。實驗表明,單個用戶的中性、快樂和悲傷情緒服從正態(tài)分布,群體的微博情緒服從冪律分布,個人用戶異常檢測準確率為83.49%,不同月份為87.84%。文獻[60]在此基礎上提出了一個將統(tǒng)計與神經(jīng)網(wǎng)絡方法融合的改進模型用于檢測微博異常情緒用戶。
由于微博、論壇等具有發(fā)布方式便捷多樣,傳播速度快等特點,對很多敏感和突發(fā)事件的傳播更敏捷,成為很多輿情傳播的載體。諸多社交平臺的發(fā)布門檻極低,一些用戶就一些政治問題,發(fā)表諸如暴力、反動、煽動民族團結(jié)、鼓吹民族分裂等敏感言論。比如2014年8月新疆網(wǎng)民發(fā)布暴恐言論,稱武警轟炸莎車3個村,將婦女孩子全部擊斃,達到煽動民族仇恨的目的,給人們造成了極大的恐慌;2017年1月烏魯木齊市張某在“百度貼吧-烏魯木齊吧”惡意攻擊自治區(qū)維穩(wěn)措施,給政府帶來了負面的影響。雖然相關部門對其進行了管控和監(jiān)測,但仍有一些用戶會繞過這些敏感關鍵詞,將它們以其他的方式表達出來。比如2018年4月發(fā)生的“潔潔良事件”,在微博使用辱華詞語“支那”,對社會產(chǎn)生了十分惡劣的影響。
對不良言論用戶的識別多是從用戶發(fā)布的話題進行檢測的,而且這些話題多是一些敏感話題。敏感話題是話題的一種,只是這些話題中含有一些敏感關鍵詞,因而對話題的研究既涉及敏感話題的研究,又包括熱點話題的研究。目前針對文本進行話題發(fā)現(xiàn)和跟蹤的研究還不是很成熟,對社交網(wǎng)絡敏感話題的檢測與跟蹤,一般是根據(jù)國家的需要制定,雖然有一些相關的產(chǎn)品應用,但是這方面的研究相對薄弱,參考文獻也比較少。
翟東海等人[61]提出了基于CRF的敏感話題檢測模型,對敏感話題具有的敏感性特征進行擬合和推斷,與貝葉斯方法相比,具有較好的識別性能。王亮等人[62]考慮到圖像、視頻中含有的潛在信息,提出了基于SP&KM的改進的聚類算法檢測敏感話題。潘大慶[63]使用層次聚類檢測敏感話題。孫勝平[64]使用改進Single-Pass和層次聚類算法進行微博話題的發(fā)現(xiàn)。丁藎[65]通過Single-Pass算法進行修改,過濾掉與話題不相關的微博文本,最后使用樸素貝葉斯算法進行分類來實現(xiàn)對話題的跟蹤。Ishikawa等人[66]針對同一個話題可能會使用不同的詞匯來進行描述,提出一種與圖算法混合的話題檢測方法,該方法首先抽取一段時間和地域內(nèi)的Twitter文本,然后抽取出文本中具有代表性的詞,根據(jù)維基百科找到這些詞的相關語義信息,并選擇出表達意思相似的特征詞作為主題詞匯,最后根據(jù)這些新定義的詞匯進行話題的檢測。張越今等人[67]提出了一種基于相似哈希的增量型文本聚類算法。馮雪坪[68]根據(jù)微博具有時間周期的特點,在一定的時間窗口內(nèi)先對微博進行分組,然后在每個分組中使用高頻詞對微博進行排序處理,最后使用改進的Sing-Pass算法對這些微博文本聚類。李勇等人[69]使用混合的方法檢測話題,先使用LDA主題模型對微博文本進行建模,在檢測出話題簇的基礎上使用支持向量機發(fā)現(xiàn)話題。Ding等人[70]針對Twitter實時更新要求高以及內(nèi)容少等特點,提出了一種混合的半監(jiān)督狄利克雷處理過程來進行Twitter中的話題檢測與跟蹤。
分類是從一組標記的數(shù)據(jù)實例中學習模型,然后用訓練的分類器將測試實例分類到其中一個類中。分類屬于監(jiān)督學習的范疇,基于分類的異常檢測技術分為兩個階段:首先用標記的訓練數(shù)據(jù)來訓練分類器,即訓練階段;其次用分類器將待測樣本分為正?;虍惓蓚€類別,即測試階段。以下是異常識別中常見的機器學習技術。
4.1.1 貝葉斯分類
貝葉斯分類器是基于貝葉斯理論的分類器,它首先計算特征值屬于每個類別的先驗概率,再根據(jù)人工標記文本類別的概率,計算其后驗概率,把概率最大的那個類當作最終的分類結(jié)果。
在對惡意用戶的識別中,文獻[13]在傳統(tǒng)檢測方法的基礎上,通過構造信息熵,結(jié)合機器學習技術,將用戶分為三大類,提取用戶的內(nèi)容、屬性和行為特征,構建了一個貝葉斯分類系統(tǒng),在50萬用戶發(fā)布的4000多萬條推文上進行實驗,結(jié)果表明檢測準確率有了一定的提高。但是該方法計算量大,而且基于屬性間的獨立性假設,對真實社交網(wǎng)絡進行檢測時,分類準確率會受到影響。文獻[30]提出了一個適用于所有社交網(wǎng)站的單個實例的垃圾信息檢測框架,檢測特征包括內(nèi)容特征和行為特征,該方法可以實現(xiàn)單個垃圾用戶的檢測。文獻[52]利用貝葉斯模型識別微博中的水軍,選取了粉絲關注比、平均發(fā)布微博數(shù)、互相關注數(shù)、綜合質(zhì)量評價、收藏數(shù)等行為特征,與邏輯回歸算法相比,該方法可以在學習一定量的樣本后,對微博用戶進行分類,即水軍和非水軍,準確率高達97%。
4.1.2 神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡是由多個神經(jīng)元按照一定的層次結(jié)構連接起來的,也就是一組相互連接的節(jié)點,每個節(jié)點與相鄰層中的其他幾個節(jié)點有一個加權連接,單個節(jié)點將從連接節(jié)點接收到的輸入數(shù)據(jù)與一個簡單函數(shù)一起使用,來計算輸出值。
在對僵尸用戶的識別中,針對BP神經(jīng)網(wǎng)絡存在處理大量數(shù)據(jù)時收斂速度較慢、容易陷入局部極小等不足,文獻[29]提出了一種將模擬退火算法與BP神經(jīng)網(wǎng)絡相結(jié)合的方法,從個人信息特征如關注數(shù)、粉絲數(shù)、人氣指數(shù)等,和微博內(nèi)容特征如微博數(shù)、微博轉(zhuǎn)發(fā)率等,對新浪微博的5000個用戶進行檢測,結(jié)果表明,該判別模型的準確率和召回率均為93%。文獻[24]從靜態(tài)與動態(tài)兩方面,將磷蝦群優(yōu)化算法和人工免疫算法的變異操作引入到網(wǎng)絡連接權值和閾值的優(yōu)化過程中,對神經(jīng)網(wǎng)絡進行訓練,使用URL比值、用戶關注度,將微博發(fā)布時間的隨機性、用戶被關注度等作為僵尸粉的檢測特征。文獻[21]提出了利用CNN提取用戶發(fā)布內(nèi)容的文本特征和圖像特征,再用分類器進行分類,實現(xiàn)惡意用戶的檢測,實驗平均精確率為79.93%。
4.1.3 支持向量機
支持向量機算法是建立在統(tǒng)計學習理論和結(jié)構風險最小化原則上的近似實現(xiàn),其基本原理是找到一個超平面,實現(xiàn)正面和負面兩類樣本之間的分離邊緣最大化。SVM算法既可以進行有監(jiān)督的訓練,也可以調(diào)整為無監(jiān)督的學習。
在對僵尸用戶的檢測中,文獻[71]將用戶的行為特征關注數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)、微博中的被轉(zhuǎn)發(fā)的微博數(shù)、微博中被評論的微博數(shù)等作為檢測特征,準確率高于91%。文獻[33]通過對垃圾用戶行為的分析,從用戶與微博內(nèi)容這兩方面,提出了適用于中文微博特點的7個用于檢測垃圾用戶的新特征,分別是用戶權威度、用戶關注度、純粉絲度、用戶頭像特征、近期活躍度、用字多樣性等,使用SVM對垃圾用戶進行檢測,分類準確率為94%,但該方法需要對數(shù)據(jù)進行人工標注,花費代價較大。文獻[14]通過對新浪微博3萬多名用戶和1600多萬條消息的分析,提取出與消息內(nèi)容和用戶行為有關的18個特征,如點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、URL的平均數(shù)量等,使用SVM對惡意用戶進行檢測,實驗表明,該方案分類準確度達99%,性能出色。文獻[25]考慮到用戶的關系屬性和內(nèi)容屬性特征,選取5個特征值,分別是關注數(shù)、粉絲數(shù)、微博數(shù)、是否有評論和點贊,用SVM進行訓練,結(jié)果表明,僵尸用戶的測試精確度達到了96%。但是由于數(shù)據(jù)集是人工進行標注的,具有主觀性,會對結(jié)果造成影響,不僅如此,對于一些偽裝的高級用戶,還應該考慮更多的特征。
4.1.4 基于規(guī)則的技術
基于規(guī)則的異常識別技術是學習并捕獲系統(tǒng)正常行為規(guī)則的過程,任何不包含在系統(tǒng)中的東西都被認為是異常的。常見的算法有決策樹、隨機森林等。
在對惡意用戶的檢測中,文獻[12]在Facebook、MySpace和Twitter上創(chuàng)建一組蜜罐賬戶,采集社交網(wǎng)絡用戶的信息,通過對數(shù)據(jù)進行分析,挖掘出其六大行為特征,分別是跟隨者與關注者的比值、發(fā)送消息中的URL比、消息相似度即用戶發(fā)送的消息之間的相似性、朋友選擇、發(fā)送的消息數(shù)量、朋友數(shù)量,采用隨機森林算法對用戶分類,其準確性最好且誤判率最低。在對虛假用戶的識別中,文獻[43]采用兩種分類算法,即決策樹與貝葉斯網(wǎng)絡,檢測Twitter上發(fā)布虛假消息的用戶,提取了粉絲數(shù)、好友數(shù)、賬戶年齡、推文長度等用戶和內(nèi)容特征,結(jié)果表明,決策樹的分類準確率更高,對文本特征的貢獻度也更大。文獻[72]使用C4.5決策樹分類算法對垃圾用戶進行檢測,檢測特征包括用戶的關注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等,檢測準確率為92%。文獻[29]使用C4.5決策樹對新浪微博中的僵尸粉進行檢測,準確率和召回率均為92.8%,檢測特征包括用戶個人信息、用戶微博內(nèi)容和用戶鏈接關系等。
4.1.5 基于多種分類器的組合
單一的分類算法不能產(chǎn)生很好的結(jié)果,為了提高分類的準確率,可以將多種算法進行組合,彌補單一算法的不足,對異常用戶進行檢測。
由于樸素貝葉斯遵循類條件獨立原則,在現(xiàn)實問題中不一定成立,因而對分類結(jié)果也會產(chǎn)生影響,而KNN算法準確率較好,但計算量大。為了彌補這兩種算法的不足,文獻[15]對惡意用戶的識別進行了優(yōu)化,提取用戶屬性和行為的特征,如注冊時間、發(fā)文方式、好友數(shù)、粉絲數(shù)等,根據(jù)用戶屬性的相關性選擇合適的分類算法,在確保分類準確率的同時,減少了時間開銷。文獻[18]在這些研究者的基礎上,先收集大量的惡意用戶數(shù)據(jù),人工進行標注,對數(shù)據(jù)進行分析,將惡意行為分為3類,提取粉絲數(shù)、好友數(shù)、關注數(shù)等特征,對這3種惡意行為分別進行訓練,再把這些分類器整合到一起,實現(xiàn)惡意行為和用戶的自動檢測。文獻[22]從用戶個人屬性特征的角度,以注冊的用戶名為特征,采用SVM、ANN對僵尸用戶進行分類,實現(xiàn)對僵尸用戶的甄別,準確率均高于92%,但是該方法沒有考慮到動態(tài)檢測特征,因而對高級僵尸用戶不能很好地識別。在對水軍的識別中,Chen等人[54]考慮到微博評論中含有潛在的有價值信息,提出了新的檢測特征,使用循環(huán)神經(jīng)網(wǎng)絡對評論中的特征進行時間序列的分析,把RNN模塊的輸出和微博本身的特征結(jié)合,作為自動編碼器(AE)的輸入;AE通過學習正常的行為模式產(chǎn)生輸出,根據(jù)AE輸入與輸出的差值進行判斷,實驗準確率為92.49%,F(xiàn)1值為89.16%。
聚類被定義為將大量數(shù)據(jù)劃分為以相似度為基礎的集合,每個類或簇由彼此相似且與其他群組不同的對象組成,屬于無監(jiān)督學習的范疇,不需要預先標記數(shù)據(jù)。根據(jù)聚類的不同標準,聚類過程會基于對象的相似性度量產(chǎn)生數(shù)據(jù)集的不同簇類,不在任何簇中的對象認為是異常的。聚類方法有多種,下面對一些常見的基于聚類的[73]異常識別技術進行介紹。
4.2.1 劃分聚類
劃分法要提前設定類簇的個數(shù),然后通過反復地迭代將數(shù)據(jù)集劃分為多個互斥的類簇,且同一類簇中對象相似度比較大,而不同類簇中的對象相似度比較小。
文獻[48]通過對垃圾郵件發(fā)送者的行為特征進行分析,提取出郵件的發(fā)送頻率、內(nèi)容類型、到達時間、內(nèi)容長度等特征,使用K-means聚類算法進行分析,計算其相似性大小,實驗結(jié)果精確度為90%。文獻[45]使用排序與K-means聚類相結(jié)合的雙層采樣算法,提取用戶的屬性特征如關注數(shù)、粉絲數(shù)、賬戶年齡等,內(nèi)容特征如URL數(shù)、評論數(shù)等,行為特征如發(fā)帖數(shù)目、文章轉(zhuǎn)發(fā)數(shù)等,鄰居特征如該用戶鄰居用戶的粉絲數(shù)、關注數(shù)等,以及關系圖特征如雙向關注比、Page Rank值等,對社交網(wǎng)絡中的虛假用戶進行檢測。文獻[62]提出了改進的識別方法,他們認為只分析用戶發(fā)布的文字信息,不能得到精確的檢測結(jié)果,因而在此基礎上,對用戶發(fā)布的圖像、視頻進行預處理,提取其中的信息,針對Single-Pass算法全局性能不好,K-means初始點選取困難等問題,提出了改進Single-Pass和K-means組合的敏感話題檢測系統(tǒng)。先用Single-Pass算法進行聚類,形成一個個小簇,再利用K-means算法,挑選這些微型簇進行二次聚類,從而實現(xiàn)不良言論用戶的檢測。文獻[74]為了提高K-means在聚類中的效果,根據(jù)最大距離選擇初始聚類中心,并引入信息熵原理,計算各個屬性的權重,使用賦權的歐式距離計算相似度。結(jié)果表明,該方法提高了異常檢測率,降低了誤報率。
4.2.2 層次聚類
層次聚類是通過對數(shù)據(jù)對象進行一層一層的聚類,最后形成一個聚類樹的過程。根據(jù)聚類樹的生成方式可以分為兩類:凝聚和分裂的算法。凝聚式聚類方法是自底而上的,先將每個對象視為一個單一的聚類,再將其與最近的數(shù)據(jù)點迭代合并。分裂層次聚類方法與其相反,但計算上復雜度較高。
文獻[63]提出了一種基于層次聚類的敏感話題檢測算法,不僅可以實現(xiàn)對微博輿論的監(jiān)測,還可以檢測發(fā)布敏感話題的不良言論用戶,結(jié)果表明,算法的檢測精度為95.3%,話題誤判率低于6%。文獻[41]根據(jù)惡意注冊的虛假賬戶具有很大相似性的特點,提出了使用層次聚類的方法,識別虛假用戶。核心思想是先根據(jù)用戶的字符串模式對海量數(shù)據(jù)進行分類,然后計算每個類別中元素的字符串相似度的大小,進行層次聚類,從而發(fā)現(xiàn)海量數(shù)據(jù)中的虛假用戶。該方法不需要人工收集大量的數(shù)據(jù),但是時間復雜度較高。
4.2.3 密度聚類
傳統(tǒng)大部分的聚類算法是通過文本距離進行聚類的,而基于密度的聚類算法通過使用密度對不同的簇進行劃分。該聚類算法可以克服基于距離的聚類算法只能發(fā)現(xiàn)球狀簇的缺點,能夠發(fā)現(xiàn)任意形狀的簇。
Yoshida等人[75]提出了一種基于密度的垃圾用戶檢測方法,該方法需要從大量的電子郵件中提取信息,使用文檔空間密度作為基本特征,實驗表明,該方法處理速度快,準確率和召回率也非常高。Zabihi等人[76]使用基于密度的聚類算法,考慮到DBSCAN算法對維數(shù)較敏感,選擇了4個特征識別異常用戶,實驗表明,該方法可以有效地區(qū)分正常用戶和惡意用戶,并且集群質(zhì)量和準確性較高。Nguyen等人[77]提出了一種將分類與基于密度的聚類相結(jié)合的方法來檢測網(wǎng)絡中的僵尸用戶。
4.2.4 增量式聚類
Single-Pass算法是TDT評測中應用最多的增量式聚類算法。核心思想是把到來的第一篇文檔作為一個話題,分別計算后續(xù)輸入的文本和已有話題的相似度。若相似度值大于給定閾值,則把該文本分到這個話題類別中;若小于給定閾值,表明該文本不屬于已有的話題類別,需要新建一個話題類別。
在對不良言論用戶的識別中,文獻[64]針對微博內(nèi)容更新快、文本字數(shù)受限等特點,提出了使用改進的Single-Pass算法和層次聚類算法進行微博話題的發(fā)現(xiàn),該方法能夠有效進行微博的話題發(fā)現(xiàn)。文獻[67]也對Single-Pass算法進行了改進,提出了一種基于相似哈希的增量型文本聚類算法,利用相似哈希算法對文本向量進行降維,通過該算法得到的文本 Simhash指紋用海明距離來計算文本與文本簇之間的相似程度,在此基礎上用改進的Single-Pass對新增的文本實時聚類。實驗表明,該算法比于原Single-Pass在聚類效率上有了明顯的提升,保證了時效性,有較高的實用價值。
統(tǒng)計的方法先假設數(shù)據(jù)樣本符合某種分布,然后結(jié)合數(shù)理統(tǒng)計和概率論方法,根據(jù)樣本中的正常和異常數(shù)據(jù)建立概率模型,判斷給定的實例是否屬于該模型。判斷準則依賴于統(tǒng)計異常檢測技術的如下假設:正常的數(shù)據(jù)實例通常分布在概率較高的區(qū)域,而異常數(shù)據(jù)則分布在概率較低的區(qū)域。用來擬合統(tǒng)計模型的方法有參數(shù)化方法和非參數(shù)化方法兩種。參數(shù)化方法假設樣本取自服從已知模型的某個分布,從給定的樣本估計分布的參數(shù),把這些估計放到假設的模型中,并得到估計的分布,然后使用它進行決策[78]。常見的參數(shù)化技術有高斯模型、卡方檢驗等。非參數(shù)化方法對數(shù)據(jù)的假設較少,不需要假定數(shù)據(jù)分布的先驗參數(shù),模型結(jié)構由給定的數(shù)據(jù)決定。常用的方法有直方圖估計、核估計、KNN。
文獻[32]從每個Twitter用戶的帳戶中提取出基于用戶的特征,有好友數(shù)量、粉絲數(shù)量、用戶信譽、在24小時內(nèi)平均發(fā)布百分比,以及基于內(nèi)容的特征,如發(fā)布的話題標簽、推文中“@”其他人的數(shù)目、推文單詞數(shù)、推文中URL數(shù),構建了4個分類器來區(qū)分垃圾用戶與正常用戶,其中KNN的準確率和召回率均為92.8%。文獻[79]通過卡方檢驗從話題標簽、@其他用戶的情況、URL、詞語中找出了最具有代表性的10個特征,從內(nèi)容、網(wǎng)絡結(jié)構等方面利用Adaboost檢測Twitter中的水軍。Torabi等人[80]提出一種基于隱馬爾可夫模型的檢測方法,將內(nèi)容特征和URL鏈接作為檢測特征,從而實現(xiàn)垃圾發(fā)送者的識別。文獻[60]在此基礎上,提出了一種基CNN-LSTM的混合模型,然后將其與多元高斯分布相結(jié)合,檢測微博上的異常情緒用戶,提出的混合模型可以獲得更多有關上下文結(jié)構的信息,提高了泛化能力。
由于監(jiān)督學習和非監(jiān)督學習方法都存在各自的不足,單獨使用任何特定的方法都不會得到精確的結(jié)果。為了克服這兩種方法的缺點,提出了一種將兩者相結(jié)合的混合方法。研究表明混合方法可以提高異常檢測的準確率,能夠獲得更好的性能。
Chitrakar等人[81]將SVM算法和K-medoids聚類算法相結(jié)合進行異常檢測,首先用K-medoids算法將數(shù)據(jù)進行分組,然后將得到的每一個簇使用SVM進行分類。實驗結(jié)果表明,該方法提高了異常檢測準確率,但在數(shù)據(jù)集非常大時,時間復雜度較高。大多數(shù)對虛假賬戶的檢測是針對一個賬戶進行的,但在實際的社交網(wǎng)絡中,每天都可能注冊數(shù)十萬個新賬戶,因此文獻[40]首先用聚類算法將賬戶分組形成簇群,然后對這些分組形成的賬戶集群使用SVM、隨機森林等算法分類為正?;蛱摷俚挠脩?,從而判斷它們是否是由同一用戶創(chuàng)建的。該方法中使用的主要特征是針對整個群集的,如名稱、電子郵件地址、公司或大學等。文獻[35]從統(tǒng)計特征和語義特征兩方面對垃圾微博進行檢測,先提取微博的顯式特征(用戶特征、內(nèi)容特征);再利用LDA模型對隱含主題特征進行提取,構建特征向量,再用SVM進行分類。
根據(jù)信息論的相關知識,如熵、條件熵、相對熵、相對條件熵、信息增益和信息成本等,可以描述數(shù)據(jù)集的相關特征并建立合適的異常檢測模型。通常情況下,基于信息論的異常識別技術需要對訓練數(shù)據(jù)集的特征進行研究,然后根據(jù)這個特征建立模型并用一個測試數(shù)據(jù)來評估這個模型的性能,從而利用信息理論測度來確定模型是否適合測試新數(shù)據(jù)集。
文獻[50]根據(jù)社交網(wǎng)絡中的用戶與其他用戶建立的交互關系(回復、評論、轉(zhuǎn)發(fā)、點贊等)定義了3種6個特征,對傳播行為進行量化,通過信息論原理計算樣本節(jié)點的信息熵和各屬性的信息增益比率,完成分類器的構建,該方法可用于多場景下的微博水軍檢測。在對Twitter上的垃圾用戶檢測的研究中,文獻[31]提出了一種基于URL驅(qū)動的評估方法,利用香農(nóng)信息論計算發(fā)布內(nèi)容含URL的兩個賬戶之間的相似性,將相似性較高的帳戶關聯(lián)起來,提取平均發(fā)布時間間隔、帳戶發(fā)布的URL的平均數(shù)量等多個特征來進行分類,通過檢測Twitter上的垃圾用戶,驗證了該方法的有效性。文獻[44]研究了熵最小化離散化(EMD)的離散技術對虛假賬戶檢測準確率的影響,實驗通過EM對數(shù)據(jù)集進行處理,提取推文數(shù)量、朋友數(shù)量等行為特征,然后使用樸素貝葉斯進行分類,結(jié)果表明,對Twitter上的虛假賬戶的檢測準確率從85.55%增加到90.41%,為其他社交媒體平臺如Facebook、Instagram等提高虛假賬戶的檢測準確率提供了新思路。
社交網(wǎng)絡可以看成是一個圖形結(jié)構,用戶以節(jié)點的形式表示,用戶之間的交互行為用邊表示。社交網(wǎng)絡中的異常通常是基于行為、結(jié)構以及光譜進行的檢測。
文獻[19]從動態(tài)信任模型的角度出發(fā),設計了一種基于信任計算和交互信息的社交網(wǎng)絡信任模型,對用戶節(jié)點進行評價,使社交網(wǎng)絡的信任度計算更加有針對性,更適應于社交網(wǎng)站快速的發(fā)展變化,將提出的信任模型作為判斷機制用于惡意用戶檢測。文獻[16]使用一種基于協(xié)同過濾的安全策略來檢測和識別行為突然發(fā)生變化的帳戶,開發(fā)了一種工具來過濾數(shù)據(jù),并根據(jù)用戶的配置文件訪問安全數(shù)據(jù),確定社交網(wǎng)絡中偽造身份的惡意用戶,這種方法速度更快而且也更有效。文獻[27]考慮到用戶的行為屬性,根據(jù)賬戶之間的社交關系構建社會關系矩陣,每個賬戶的PageRank值通過PageRank迭代計算得到,然后根據(jù)這個值對賬戶進行排名,從而檢測出僵尸用戶,兩種測試情況下的準確率分別為84%和92%。該方法易于實現(xiàn)且只考慮賬戶之間的關系,沒有考慮特征維度,因而排序結(jié)果的準確率會受到時間延遲的影響。Ying等人[82]根據(jù)惡意用戶與正常用戶處于不同的頻譜空間區(qū)域,通過計算光譜或光譜坐標來識別正常和異常用戶的特征值或特征向量,根據(jù)隨機攻擊鏈接來識別惡意節(jié)點,實現(xiàn)基于光譜技術的異常用戶檢測。
不同的方法具有不同的特點,表3給出了幾種異常識別方法的優(yōu)缺點[83]。
本文對社交網(wǎng)絡的異常用戶進行了分類,并對每種異常用戶的發(fā)展現(xiàn)狀進行了概述,同時對主要的異常識別技術進行了分類概括,并比較了它們的優(yōu)缺點。最后,提出了異常用戶檢測中存在的問題:對一些高級偽裝的異常用戶進行異常檢測相對比較困難;目前對異常用戶的識別多是從一個或幾個少量特征進行的檢測,如何將內(nèi)容、行為、屬性、鄰居等多個特征融合在一起,提高異常用戶檢測率是一個有價值的問題,與此同時,雖然有一些學者考慮到了時間特征,但沒有受到廣泛的關注,尤其是在動態(tài)社交網(wǎng)絡中;對異常的檢測還沒有一個統(tǒng)一的標準,因為對不同的應用領域,異常的定義也是不同的,所以在一個領域中的異常檢測技術不一定適用于其他領域,不僅如此,正常的行為模式是會隨著時間的推移而變化的,當前的異常檢測技術在未來不一定適用。今后的工作將主要集中在從大數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)新的特征以及正常和異常的行為模式;此外,將獨立的異常檢測技術進行連接并應用于復雜的多系統(tǒng)檢測也是未來值得探索的問題。
表3 幾種方法的比較