陳桂茸 蔡皖東 王蓉 張鳳琴 蔣華
摘 要:在分析網(wǎng)絡(luò)水軍灌水行為的基礎(chǔ)上,提出一種網(wǎng)絡(luò)論壇水軍賬號(hào)快速檢測(cè)算法.該算法包含3步:首先通過(guò)統(tǒng)計(jì)分析網(wǎng)絡(luò)論壇單日回帖情況,確定可疑區(qū)間;然后根據(jù)用戶(hù)單日回復(fù)行為構(gòu)建用戶(hù)協(xié)作網(wǎng)絡(luò),并依據(jù)刪減后的用戶(hù)協(xié)作網(wǎng)絡(luò)的聚類(lèi)情況確定高可疑時(shí)段;最后通過(guò)高可疑用戶(hù)的回帖時(shí)間特征分析判定其是否為網(wǎng)絡(luò)水軍.該算法采用“層層逼近”的策略,分3次排除正常用戶(hù)和數(shù)據(jù),不斷縮小計(jì)算范圍,具有計(jì)算量小、計(jì)算速度快的特點(diǎn).利用該算法對(duì)“新浪網(wǎng)-娛樂(lè)論壇-影視世界版塊-影行天下子版塊”2010年全年的數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,該算法不僅能有效發(fā)現(xiàn)網(wǎng)絡(luò)論壇的單個(gè)水軍賬號(hào),還能發(fā)現(xiàn)網(wǎng)絡(luò)水軍軍團(tuán)賬號(hào)并確定炒作內(nèi)容,準(zhǔn)確率高.
關(guān)鍵詞:社交網(wǎng)絡(luò);用戶(hù)行為分析;網(wǎng)絡(luò)論壇;網(wǎng)絡(luò)水軍
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
截止2013年12月,我國(guó)網(wǎng)民規(guī)模已達(dá)6.18億[1].尤其是隨著Web2.0技術(shù)的成熟和普及,網(wǎng)絡(luò)不僅成為人們獲取信息、共享資源、交流觀點(diǎn)的重要平臺(tái),也成為人們了解社情民意、揭露社會(huì)弊端、開(kāi)展社會(huì)監(jiān)督的窗口.
然而網(wǎng)絡(luò)固有的自由性、開(kāi)放性、隱匿性等特點(diǎn)又為不法分子提供了可乘之機(jī),出現(xiàn)了以網(wǎng)絡(luò)炒作為營(yíng)生的網(wǎng)絡(luò)公關(guān)公司、網(wǎng)絡(luò)推手和網(wǎng)絡(luò)水軍等不良互聯(lián)網(wǎng)組織和個(gè)人.網(wǎng)絡(luò)公關(guān)公司為了在網(wǎng)上炒作某個(gè)話(huà)題或人物來(lái)達(dá)到宣傳、推銷(xiāo)或者詆毀他人或產(chǎn)品的目的,雇傭大量網(wǎng)絡(luò)水軍,在網(wǎng)絡(luò)推手的組織下以各種手法和名目,在互聯(lián)網(wǎng)的各種平臺(tái)大量發(fā)帖、回帖,炮制網(wǎng)絡(luò)熱點(diǎn)事件,捧紅各色人物,形成虛假網(wǎng)絡(luò)輿情,嚴(yán)重影響了網(wǎng)絡(luò)輿論的發(fā)展方向.研究網(wǎng)絡(luò)水軍檢測(cè)機(jī)制,對(duì)加強(qiáng)網(wǎng)絡(luò)水軍監(jiān)管和治理,維護(hù)社會(huì)穩(wěn)定與和諧、確保國(guó)家網(wǎng)絡(luò)空間安全具有重大現(xiàn)實(shí)意義.
1 相關(guān)研究
網(wǎng)絡(luò)水軍研究尚處于探索階段.尚未發(fā)現(xiàn)國(guó)外公開(kāi)發(fā)表的網(wǎng)絡(luò)水軍檢測(cè)方面的文獻(xiàn),與之相關(guān)的研究主要集中在垃圾評(píng)論和垃圾評(píng)論發(fā)布者檢測(cè)方面[2-17].Jindal等首次提出垃圾評(píng)論的概念并對(duì)其進(jìn)行分類(lèi),在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了電子商務(wù)網(wǎng)站中的垃圾評(píng)論檢測(cè)[2-5].Benevenuto等采用分類(lèi)技術(shù)通過(guò)分析用戶(hù)發(fā)布的內(nèi)容和用戶(hù)行為特征實(shí)現(xiàn)了對(duì)垃圾評(píng)論發(fā)布者的檢測(cè)[6-7].Mukherjee等認(rèn)為和單個(gè)垃圾評(píng)論發(fā)布者相比,群體垃圾評(píng)論發(fā)布者具有更大危害,并提出了一種同時(shí)考慮用戶(hù)行為頻率和同謀行為特征的有監(jiān)督學(xué)習(xí)模型,通過(guò)在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了對(duì)垃圾評(píng)論發(fā)布者群組的識(shí)別[13].
和國(guó)外相比,國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)水軍的研究更為活躍,但目前主要是一些傳媒和管理專(zhuān)業(yè)的研究人員從傳播學(xué)、管理學(xué)的角度,對(duì)網(wǎng)絡(luò)水軍的運(yùn)行機(jī)制和治理對(duì)策進(jìn)行了研究.近年來(lái)從技術(shù)層面對(duì)網(wǎng)絡(luò)水軍檢測(cè)的研究也取得了一定進(jìn)展.李綱等根據(jù)網(wǎng)絡(luò)水軍發(fā)布的信息具有很強(qiáng)的目的性和感情傾向性等特征,提出一種基于情感分類(lèi)的網(wǎng)絡(luò)推手識(shí)別方法,通過(guò)分析用戶(hù)的情感傾向,統(tǒng)計(jì)正面感情信息和負(fù)面感情信息的比重來(lái)識(shí)別網(wǎng)絡(luò)推手[18].范純龍等采用人工方式分析了論壇中網(wǎng)絡(luò)水軍賬號(hào)、水軍帖的分布情況,發(fā)現(xiàn)在網(wǎng)絡(luò)論壇中網(wǎng)絡(luò)水軍普遍存在,且具有較強(qiáng)的組織結(jié)構(gòu)[19].Chen等對(duì)網(wǎng)絡(luò)水軍發(fā)帖回帖行為進(jìn)行實(shí)證統(tǒng)計(jì)分析,發(fā)現(xiàn)網(wǎng)絡(luò)水軍具有和普通用戶(hù)不同的行為模式,并提出一種語(yǔ)義分析和非語(yǔ)義分析相結(jié)合的網(wǎng)絡(luò)水軍檢測(cè)機(jī)制\[20\].
與之相關(guān)的研究還包括“網(wǎng)絡(luò)馬甲”檢測(cè),國(guó)內(nèi)學(xué)者對(duì)該問(wèn)題也進(jìn)行了有益探索.Bu等利用復(fù)雜網(wǎng)絡(luò)技術(shù)和語(yǔ)義分析技術(shù),通過(guò)作者寫(xiě)作風(fēng)格分析和鏈接分析實(shí)現(xiàn)了馬甲賬號(hào)的檢測(cè)[21].Zheng等根據(jù)網(wǎng)絡(luò)馬甲通常成對(duì)出現(xiàn)、在發(fā)帖和回帖時(shí)互相呼應(yīng)的特點(diǎn),提出兩種計(jì)算模型用以檢測(cè)單個(gè)論壇內(nèi)的網(wǎng)絡(luò)馬甲對(duì)賬號(hào)和跨論壇的網(wǎng)絡(luò)馬甲對(duì)賬號(hào)[22].
垃圾評(píng)論和垃圾評(píng)論發(fā)布者檢測(cè)方面的研究對(duì)網(wǎng)絡(luò)水軍檢測(cè)有一定指導(dǎo)意義,但不能直接用于網(wǎng)絡(luò)論壇水軍賬號(hào)檢測(cè),主要原因如下:1)垃圾評(píng)論和垃圾評(píng)論發(fā)布者檢測(cè)算法主要針對(duì)的是以亞馬遜為代表的商業(yè)網(wǎng)站,在這些商業(yè)網(wǎng)站中用戶(hù)在對(duì)商品進(jìn)行評(píng)論時(shí)除了提交文本信息外,還會(huì)對(duì)商品進(jìn)行評(píng)分,當(dāng)前的算法幾乎都是通過(guò)分析用戶(hù)的評(píng)分結(jié)果來(lái)識(shí)別垃圾評(píng)論和垃圾評(píng)論發(fā)布者的;而在網(wǎng)絡(luò)論壇中,沒(méi)有這種評(píng)分機(jī)制,無(wú)法利用現(xiàn)有算法檢測(cè)網(wǎng)絡(luò)論壇中的異常用戶(hù).2)現(xiàn)有的垃圾評(píng)論和垃圾評(píng)論發(fā)布者檢測(cè)算法大都采用的是有監(jiān)督學(xué)習(xí)方法,需要大量人工標(biāo)注的數(shù)據(jù)集,而采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍信息的數(shù)據(jù)集是不科學(xué)的.因?yàn)榫W(wǎng)絡(luò)水軍在執(zhí)行任務(wù)時(shí)會(huì)最大程度抹殺操作痕跡,導(dǎo)致很難通過(guò)人工閱讀方式判定某個(gè)發(fā)帖或回帖是正常用戶(hù)還是網(wǎng)絡(luò)水軍發(fā)布的.
國(guó)內(nèi)學(xué)者雖然已經(jīng)在網(wǎng)絡(luò)水軍和網(wǎng)絡(luò)馬甲檢測(cè)方面進(jìn)行了有益探索,能檢測(cè)出某些網(wǎng)絡(luò)水軍,但存在以下問(wèn)題:1)文獻(xiàn)\[19\]采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍的數(shù)據(jù)集,缺乏科學(xué)性,同時(shí)由于不同網(wǎng)絡(luò)論壇具有不同的特征空間,使得這種方法很難擴(kuò)展;2)文獻(xiàn)\[18-21\]都是基于文本分析技術(shù)的,需要進(jìn)行分詞、聚類(lèi)、計(jì)算感情傾向性和判定寫(xiě)作風(fēng)格等操作,當(dāng)處理面向網(wǎng)絡(luò)論壇的海量數(shù)據(jù)時(shí),存在計(jì)算量大、計(jì)算效率低的問(wèn)題.同時(shí)由于網(wǎng)絡(luò)論壇的語(yǔ)言和常規(guī)的新聞?wù)Z料相比具有隨意性強(qiáng)、口語(yǔ)化嚴(yán)重等特點(diǎn),一般的語(yǔ)義分析技術(shù)很難滿(mǎn)足檢測(cè)精度的要求;3)文獻(xiàn)\[22\]所提的計(jì)算模型過(guò)于簡(jiǎn)單,只適合于檢測(cè)個(gè)人或個(gè)體商家用于自我吹捧注冊(cè)的、以成對(duì)形式出現(xiàn)的網(wǎng)絡(luò)馬甲賬號(hào),無(wú)法用于檢測(cè)網(wǎng)絡(luò)水軍.
本文在分析網(wǎng)絡(luò)水軍炒作行為的基礎(chǔ)上提出一種網(wǎng)絡(luò)論壇水軍賬號(hào)快速檢測(cè)算法.該算法的主要?jiǎng)?chuàng)新點(diǎn)有三個(gè):一是提出一種衡量用戶(hù)回復(fù)行為協(xié)作程度的新指標(biāo),協(xié)作性;二是給出了一種新的網(wǎng)絡(luò)模型,在回復(fù)過(guò)同一主帖的用戶(hù)之間建立連邊,邊的權(quán)值為用戶(hù)的協(xié)作性,并通過(guò)該網(wǎng)絡(luò)的聚類(lèi)特性確定高可疑用戶(hù);三是該算法采用了“逐步求精”的策略,分3次排除正常用戶(hù)和數(shù)據(jù),不斷縮小計(jì)算范圍,具有計(jì)算量小、計(jì)算速度快的特點(diǎn).此外該算法不僅能發(fā)現(xiàn)單個(gè)網(wǎng)絡(luò)水軍賬號(hào)和水軍軍團(tuán)賬號(hào),還能確定炒作內(nèi)容,為網(wǎng)絡(luò)監(jiān)管部門(mén)進(jìn)行網(wǎng)絡(luò)取證提供了技術(shù)支持,對(duì)網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義.
2 網(wǎng)絡(luò)論壇和網(wǎng)絡(luò)水軍分析
2.1 網(wǎng)絡(luò)論壇特點(diǎn)分析
網(wǎng)絡(luò)論壇是一種重要的信息共享和交流平臺(tái),和博客、微博等實(shí)名制社交網(wǎng)絡(luò)相比具有更大的開(kāi)放性、自由性和隱匿性:1)網(wǎng)民可以隨意注冊(cè)多個(gè)不同的用戶(hù)名而不用泄露其真實(shí)身份;2)用戶(hù)只要登錄網(wǎng)絡(luò)論壇,就可以隨意發(fā)布或回復(fù)信息;3)用戶(hù)在登錄的情況下可以瀏覽網(wǎng)絡(luò)論壇中的全部信息,而不受好友關(guān)系限制,甚至在不登錄的情況下也可以瀏覽網(wǎng)站大量?jī)?nèi)容.網(wǎng)絡(luò)論壇的這些特性使其成為我國(guó)網(wǎng)絡(luò)輿論突發(fā)事件的主要集中地,也成為網(wǎng)絡(luò)水軍人為制造虛假輿論,擾亂公眾視聽(tīng),進(jìn)而引發(fā)重大輿情危機(jī)的主要平臺(tái).
2.2 網(wǎng)絡(luò)水軍工作機(jī)制分析
網(wǎng)絡(luò)水軍,指受雇于網(wǎng)絡(luò)公關(guān)公司,通過(guò)為他人發(fā)帖、回帖、造勢(shì)來(lái)獲得報(bào)酬的網(wǎng)絡(luò)人員,他們利用大眾慣用的溝通方法在論壇、社交網(wǎng)站等平臺(tái)以聊天方式為個(gè)人或公司作宣傳或攻擊,通過(guò)文章和評(píng)論來(lái)試圖達(dá)到影響、引導(dǎo)和制造網(wǎng)絡(luò)輿論的目的.
網(wǎng)絡(luò)水軍活動(dòng)中通常包括三類(lèi)主體:客戶(hù)、網(wǎng)絡(luò)公關(guān)公司和網(wǎng)絡(luò)水軍.網(wǎng)絡(luò)公關(guān)公司是客戶(hù)與網(wǎng)絡(luò)水軍之間的中介,負(fù)責(zé)聯(lián)系客戶(hù),得到任務(wù),收取酬金,同時(shí)也負(fù)責(zé)招募、管理網(wǎng)絡(luò)水軍,發(fā)放任務(wù)和酬金等.其業(yè)務(wù)流程為:網(wǎng)絡(luò)公關(guān)公司收到客戶(hù)委托后,進(jìn)行任務(wù)籌劃和分工,將任務(wù)下發(fā)給網(wǎng)絡(luò)推手(也稱(chēng)為水軍頭目),網(wǎng)絡(luò)推手組織網(wǎng)絡(luò)水軍完成任務(wù),并負(fù)責(zé)任務(wù)審核和酬金發(fā)放等.
網(wǎng)絡(luò)水軍賺錢(qián)的模式為:領(lǐng)取新任務(wù)、完成任務(wù)、匯報(bào)任務(wù)、等待審核、審核通過(guò)、結(jié)算報(bào)酬.根據(jù)客戶(hù)目標(biāo)的不同,網(wǎng)絡(luò)水軍的任務(wù)一般分為兩類(lèi):一是廣告宣傳,二是網(wǎng)絡(luò)炒作.第一類(lèi)任務(wù)是通過(guò)增加指定內(nèi)容的可見(jiàn)率達(dá)到廣告宣傳的目的.第二類(lèi)任務(wù)則是通過(guò)炮制網(wǎng)絡(luò)熱點(diǎn),吸引廣大網(wǎng)民圍觀和討論,達(dá)到網(wǎng)絡(luò)炒作的目的.為了完成第一類(lèi)任務(wù),網(wǎng)絡(luò)水軍需要以最快速度在各種尚沒(méi)有出現(xiàn)該信息的網(wǎng)絡(luò)論壇以主帖的形式發(fā)表指定內(nèi)容,使其在最短時(shí)間內(nèi)擴(kuò)散.為了完成第二類(lèi)任務(wù),網(wǎng)絡(luò)水軍則需要短時(shí)間內(nèi)在各大網(wǎng)絡(luò)論壇大量發(fā)帖、回帖,使炒作對(duì)象在網(wǎng)絡(luò)論壇長(zhǎng)時(shí)間處于顯眼位置,吸引網(wǎng)民關(guān)注,引發(fā)討論,形成網(wǎng)絡(luò)熱點(diǎn).為了高效完成炒作任務(wù),網(wǎng)絡(luò)水軍會(huì)在全國(guó)各大論壇注冊(cè)多個(gè)賬號(hào)(有時(shí)也稱(chēng)為網(wǎng)絡(luò)馬甲),以不同身份登錄論壇,完成任務(wù).本文研究網(wǎng)絡(luò)論壇中執(zhí)行第二類(lèi)任務(wù)的網(wǎng)絡(luò)水軍賬號(hào)的快速檢測(cè)問(wèn)題.
3 網(wǎng)絡(luò)水軍賬號(hào)檢測(cè)
3.1 算法基本思想
本算法采用“層層逼近,逐步求精”的策略,利用人類(lèi)行為統(tǒng)計(jì)分析、社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)分析、時(shí)間特征分析技術(shù)分3次排除正常用戶(hù)和數(shù)據(jù),不斷縮小計(jì)算范圍,最終確定網(wǎng)絡(luò)水軍賬號(hào).首先統(tǒng)計(jì)論壇單日回帖數(shù)、日人均回帖數(shù)和日帖均回復(fù)數(shù),將不可能發(fā)生網(wǎng)絡(luò)炒作的時(shí)段排除;然后對(duì)可疑區(qū)間構(gòu)建單日用戶(hù)協(xié)作網(wǎng)絡(luò),排除沒(méi)有發(fā)生大規(guī)模用戶(hù)協(xié)作現(xiàn)象的時(shí)段,進(jìn)一步縮小計(jì)算范圍;最后對(duì)高可疑數(shù)據(jù),通過(guò)用戶(hù)回復(fù)行為的時(shí)間特性分析,判定其是否為網(wǎng)絡(luò)水軍,如圖1所示.
3.2 論壇單日回復(fù)數(shù)統(tǒng)計(jì)分析
我們前期的研究結(jié)果\[23\]發(fā)現(xiàn),論壇單日回帖數(shù)服從冪律分布,即大部分時(shí)間論壇單日回帖數(shù)很小,而少數(shù)日子論壇單日回帖數(shù)很大.
為了制造轟動(dòng)效應(yīng),達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會(huì)使用多個(gè)賬號(hào)針對(duì)論壇上若干主帖在短時(shí)間內(nèi)大量回帖,導(dǎo)致論壇當(dāng)天的回帖數(shù)、平均每個(gè)用戶(hù)的回帖數(shù)和平均每個(gè)主帖的回復(fù)數(shù)明顯增大.本文將這3個(gè)指標(biāo)都大于均值的時(shí)段確定為可疑時(shí)段.
定義1 論壇單日回帖數(shù):論壇t日提交的回帖數(shù)之和,記作RNt,則有
RNt=∑u∈UtRNtu. (1)
其中Ut為t日提交過(guò)回復(fù)帖的用戶(hù)集合,RNtu為用戶(hù)u在t日的回帖數(shù).將單日回帖數(shù)大于等于均值的時(shí)段記作S1,則有
S1={t,RNt>=∑t∈TRNtT}. (2)
其中 T為數(shù)據(jù)集涵蓋的時(shí)段,T為數(shù)據(jù)集包含的天數(shù),下文T的含義與此處相同.
定義2 論壇日人均回帖數(shù):論壇t日回帖數(shù)與當(dāng)天提交過(guò)回復(fù)帖的用戶(hù)數(shù)之比,記作ARNUt,則有
ARNUt=RNtUt.(3)
將日人均回帖數(shù)大于等于均值的時(shí)段記作S2,則有
S2={t,ARNUt>=∑t∈TARNUtT}. (4)
定義3 論壇日帖均回復(fù)數(shù):論壇t日回復(fù)數(shù)與當(dāng)天被回復(fù)過(guò)的主帖數(shù)之比,記作ARNPt,則有
ARNPt=RNtPt. (5)
其中Pt指當(dāng)天被回復(fù)過(guò)的不同主帖的集合.將日帖均回復(fù)數(shù)大于等于均值的時(shí)段記作S3,則有
S3={t,ARNPt>=∑t∈TARNPtT}.(6)
定義4 論壇可疑時(shí)段:?jiǎn)稳栈靥麛?shù)、日人均回帖數(shù)、日帖均回復(fù)數(shù)均大于均值的時(shí)段,記作S,則有
S=S1∩S2∩S3. (7)
3.3 用戶(hù)單日回復(fù)模式分析
排除不可能發(fā)生網(wǎng)絡(luò)炒作的時(shí)段后,采用下述方法對(duì)可疑時(shí)段的用戶(hù)單日回復(fù)模式進(jìn)行分析.
3.3.1 用戶(hù)協(xié)作性定義
為達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會(huì)使用多個(gè)賬號(hào)短時(shí)間內(nèi)針對(duì)同一個(gè)或幾個(gè)主帖大量回帖,導(dǎo)致這些用戶(hù)在行為上表現(xiàn)出很高的協(xié)作性.
為了便于描述用戶(hù)的這種協(xié)作性,本文提出一種新的網(wǎng)絡(luò)模型:用戶(hù)-主帖網(wǎng)絡(luò).該網(wǎng)絡(luò)包含兩種類(lèi)型的節(jié)點(diǎn):用戶(hù)和主帖,這里用戶(hù)表示論壇中的一個(gè)賬號(hào),主帖表示用戶(hù)為了發(fā)起新的話(huà)題而發(fā)表的帖子,有時(shí)也稱(chēng)為根帖.為了和主帖加以區(qū)分,本文將用戶(hù)針對(duì)主帖發(fā)表的回復(fù)帖稱(chēng)為回帖.圖2(a)是1個(gè)包含6個(gè)用戶(hù)、8個(gè)主帖的用戶(hù)協(xié)作網(wǎng)絡(luò),圖中圓圈表示用戶(hù),正方形表示主帖,用戶(hù)和主帖之間的連邊表示回復(fù)關(guān)系,如:用戶(hù)a和主帖2之間的連邊表示用戶(hù)a回復(fù)過(guò)主帖2.
定義5 鄰節(jié)點(diǎn)集合:用戶(hù)a的鄰節(jié)點(diǎn)集合定義為與節(jié)點(diǎn)a相鄰的主帖節(jié)點(diǎn)集合,即用戶(hù)a回復(fù)過(guò)的主帖集合,記作Γa.
定義6 協(xié)作性:用戶(hù)a和用戶(hù)b的協(xié)作性定義為用戶(hù)a和用戶(hù)b的鄰節(jié)點(diǎn)集合的杰出卡德相似性,即
Sa,b=|Γa∩Γb||Γa∪Γb|, (8)
其中Γa和Γb分別表示用戶(hù)a和用戶(hù)b的鄰節(jié)點(diǎn)集合.很明顯,對(duì)于任意a和b,都有Sa,b=Sb,a,且0≤Sa,b≤1.
3.3.2 構(gòu)建用戶(hù)協(xié)作網(wǎng)絡(luò)
論壇用戶(hù)回復(fù)行為隨機(jī)性大,具有很高的異質(zhì)性\[24\].如果兩個(gè)或多個(gè)用戶(hù)表現(xiàn)出很高的協(xié)作性,則有理由懷疑其為網(wǎng)絡(luò)水軍賬號(hào).本節(jié)通過(guò)構(gòu)建單日用戶(hù)協(xié)作網(wǎng)絡(luò),分析該網(wǎng)絡(luò)的聚類(lèi)特性確定高可疑時(shí)段.構(gòu)建網(wǎng)絡(luò)的方法為:將用戶(hù)抽象為節(jié)點(diǎn),如果兩個(gè)用戶(hù)的協(xié)作性大于0,即他們均回復(fù)過(guò)至少同一個(gè)主帖,則在這兩個(gè)用戶(hù)之間建立連邊,邊的權(quán)值為兩個(gè)用戶(hù)的協(xié)作性.圖2(b)是根據(jù)圖2(a)構(gòu)建的用戶(hù)協(xié)作網(wǎng)絡(luò).可以看出,用戶(hù)a,d和c之間的協(xié)作性為1,即他們的回復(fù)對(duì)象完全相同,高度可疑.
為了更清楚地觀察節(jié)點(diǎn)間的協(xié)作性,快速確定高可疑用戶(hù),按照邊的權(quán)值對(duì)用戶(hù)協(xié)作網(wǎng)絡(luò)進(jìn)行刪減,僅保留協(xié)作性大于一定閾值的邊.如圖2所示,若僅保留圖2(b)中權(quán)值大于1/3的邊,則得到圖2(c).協(xié)作性高的用戶(hù)會(huì)表現(xiàn)出明顯的社團(tuán)特性,本文將此類(lèi)用戶(hù)看作高可疑用戶(hù).
3.4 高可疑用戶(hù)回復(fù)行為分析
Jiang等前期研究發(fā)現(xiàn)\[25\],人類(lèi)打電話(huà)行為在時(shí)間上具有一定的規(guī)律性,工作時(shí)段活躍性高,休息時(shí)段活躍性低,網(wǎng)民回帖行為也具有類(lèi)似特性\[24\].本文通過(guò)用戶(hù)回帖行為時(shí)間特征分析,判定某天是否發(fā)生了網(wǎng)絡(luò)炒作.對(duì)于確定發(fā)生了網(wǎng)絡(luò)炒作的時(shí)段,根據(jù)網(wǎng)絡(luò)水軍相互協(xié)同這一特征推斷以“簇”形式出現(xiàn)的論壇用戶(hù)即為網(wǎng)絡(luò)水軍賬號(hào).實(shí)施同一網(wǎng)絡(luò)炒作的水軍賬號(hào)形成了水軍軍團(tuán).同一簇內(nèi)用戶(hù)共同回復(fù)的話(huà)題即為網(wǎng)絡(luò)炒作的內(nèi)容.
4 實(shí)驗(yàn)結(jié)果及討論
4.1 數(shù)據(jù)集
本文的數(shù)據(jù)集是采用自研的信息采集系統(tǒng)\[26\]抓取的“新浪網(wǎng)-娛樂(lè)論壇-影視世界版塊-影行天下子版塊”2010全年的發(fā)帖、回帖和用戶(hù)信息.用post,reply和user 3個(gè)表存儲(chǔ)采集到的數(shù)據(jù),其中post表存儲(chǔ)主帖信息,包括:主帖ID、發(fā)帖時(shí)間、發(fā)帖用戶(hù)ID、標(biāo)題、內(nèi)容;reply表存儲(chǔ)回帖信息,包括:回帖用戶(hù)ID、回帖時(shí)間、回帖內(nèi)容、對(duì)應(yīng)主帖ID.user表存儲(chǔ)相關(guān)用戶(hù)信息,包括:用戶(hù)ID、用戶(hù)名、用戶(hù)級(jí)別、在線(xiàn)時(shí)間、注冊(cè)時(shí)間.
數(shù)據(jù)集共包含4 407個(gè)主帖、80 990個(gè)回帖和13 099個(gè)用戶(hù),其中發(fā)表過(guò)主帖的用戶(hù)1 911個(gè),發(fā)表過(guò)回帖的用戶(hù)12 929個(gè).2010年全年沒(méi)有發(fā)帖或回帖的用戶(hù)排除在外.
4.2 實(shí)驗(yàn)結(jié)果及分析
4.2.1 可疑時(shí)段
按照式(1)到式(7)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,并計(jì)算3個(gè)指標(biāo)的最小值、最大值及均值,如表1所示.
58注:>A表示統(tǒng)計(jì)指標(biāo)大于其均值的天數(shù)
由表1可知,3個(gè)統(tǒng)計(jì)指標(biāo)的異質(zhì)性均非常強(qiáng),大多數(shù)日子取值都比較小.統(tǒng)計(jì)發(fā)現(xiàn)單日回帖數(shù)不小于均值的共69天,單日人均回帖數(shù)不小于均值的共103天,單日帖均回復(fù)數(shù)不小于均值的共58天,同時(shí)滿(mǎn)足3個(gè)條件的共45天,即為可疑時(shí)段S.
4.2.2 高可疑時(shí)段
采用3.3節(jié)描述的方法逐天分析可疑時(shí)段的用戶(hù)回復(fù)模式,發(fā)現(xiàn)有29天的用戶(hù)協(xié)作網(wǎng)絡(luò)發(fā)生了明顯聚類(lèi)現(xiàn)象,將其確定為高可疑時(shí)段.
圖3是其中4天的用戶(hù)協(xié)作網(wǎng)絡(luò).由圖3可知,這4天用戶(hù)回復(fù)行為均表現(xiàn)出極高的協(xié)作性.圖3(b) 是12月3日僅保留權(quán)值大于0.9的邊后的用戶(hù)協(xié)作網(wǎng)絡(luò),觀察發(fā)現(xiàn)除零星用戶(hù)處于離散狀態(tài)外,其它用戶(hù)聚集成為8個(gè)簇,同一簇內(nèi)的用戶(hù)協(xié)作性高達(dá)0.9,即回復(fù)對(duì)象非常接近,高度可疑.
4.2.3 確定網(wǎng)絡(luò)水軍賬號(hào)
為了確認(rèn)高度可疑的29天中形成簇的用戶(hù)是否為網(wǎng)絡(luò)水軍,采用3.4節(jié)描述的方法逐天分析這些用戶(hù)的回帖時(shí)間分布.統(tǒng)計(jì)分析結(jié)果發(fā)現(xiàn),其中7天的用戶(hù)回帖時(shí)間分布嚴(yán)重偏離正常用戶(hù)的回帖時(shí)間分布,由此斷定這7天論壇發(fā)生了網(wǎng)絡(luò)炒作,它們是12月2日、12月3日、12月5日、12月6日、12月10日、12月12日和12月13日.
圖4展示了2010年全年及12月3日、12月6日和12月10日的回帖時(shí)間在一天中的分布,其中橫坐標(biāo)為時(shí)間,縱坐標(biāo)為該段時(shí)間的回帖數(shù).為了便于顯示,將12月3日、12月6日和12月10日的統(tǒng)計(jì)數(shù)據(jù)分別擴(kuò)大2倍、10倍、10倍.
如圖4所示,從2010年全年看,零點(diǎn)回帖數(shù)較低,之后逐漸下降,并在7點(diǎn)達(dá)到谷底,這段時(shí)間正好對(duì)應(yīng)人們的休息時(shí)間.之后回帖數(shù)快速上升,9點(diǎn)至23點(diǎn)之間回帖數(shù)都保持在3 500以上,其中9點(diǎn)到18點(diǎn)的回帖數(shù)略高于18點(diǎn)之后.統(tǒng)計(jì)結(jié)果與人們的作息規(guī)律非常吻合,也與Jiang\[25\]等關(guān)于人類(lèi)打電話(huà)時(shí)間模式的研究一致.
觀察12月3日的回帖模式,發(fā)現(xiàn)零點(diǎn)回帖數(shù)很大,且之后5個(gè)小時(shí)持續(xù)攀升,并在4點(diǎn)和5點(diǎn)達(dá)到最高峰;之后快速下降,9點(diǎn)至12點(diǎn)回帖數(shù)均低于當(dāng)天零點(diǎn);13點(diǎn)至20點(diǎn),回帖數(shù)穩(wěn)定在500左右,不到零點(diǎn)時(shí)的一半,之后繼續(xù)下降,直到23點(diǎn)回帖量達(dá)到最低值.可以看出,12月3日的用戶(hù)回帖時(shí)間分布與人類(lèi)作息時(shí)間完全違背.12月6日的回帖時(shí)間分布與12月3日幾乎相同.12月10日的回帖模式與12月3日、12月6日雖然不同,但表現(xiàn)出異乎尋常的穩(wěn)定性,也不符合人類(lèi)作息規(guī)律.采用同樣方式,分析另外4天的用戶(hù)回帖時(shí)間模式,發(fā)現(xiàn)其也明顯偏離正常用戶(hù)行為特征.
統(tǒng)計(jì)分析發(fā)生網(wǎng)絡(luò)炒作的7天的用戶(hù)協(xié)作網(wǎng)絡(luò),發(fā)現(xiàn)簇內(nèi)共包含不同賬號(hào)556個(gè),其構(gòu)成了1個(gè)網(wǎng)絡(luò)水軍軍團(tuán),炒作內(nèi)容為當(dāng)時(shí)即將上映的電影《趙氏孤兒》.
采用手動(dòng)分析方式,對(duì)算法檢測(cè)出的網(wǎng)絡(luò)水軍賬號(hào)逐個(gè)進(jìn)行分析,發(fā)現(xiàn)均為網(wǎng)絡(luò)水軍賬號(hào),算法的正確率達(dá)100%.對(duì)2010年全年回帖數(shù)據(jù)進(jìn)行手動(dòng)分析,除算法發(fā)現(xiàn)的水軍賬號(hào)外,沒(méi)有發(fā)現(xiàn)其它可疑賬號(hào),因此該算法的漏報(bào)率為零.
5 結(jié) 論
在線(xiàn)交流平臺(tái)在給人們帶來(lái)便利的同時(shí),也帶來(lái)一定的社會(huì)問(wèn)題,以網(wǎng)絡(luò)水軍為代表的不法分子,利用網(wǎng)絡(luò)平臺(tái)大量發(fā)布虛假和負(fù)面信息,企圖通過(guò)網(wǎng)絡(luò)炒作行為操縱社會(huì)輿論方向,甚至有人被金錢(qián)和利益誘惑,受雇于境外敵對(duì)分子,發(fā)布有損國(guó)家和民族利益的虛假消息.網(wǎng)絡(luò)不良用戶(hù)行為檢測(cè)和挖掘研究具有重大現(xiàn)實(shí)意義.
本文以網(wǎng)絡(luò)論壇水軍賬號(hào)快速檢測(cè)為目標(biāo),提出一種基于人類(lèi)行為統(tǒng)計(jì)分析、社會(huì)網(wǎng)絡(luò)分析和時(shí)間特征分析的新算法.和傳統(tǒng)輿情監(jiān)控系統(tǒng)相比,本文所提算法大大減少了語(yǔ)義分析、感情分析的范圍,具有計(jì)算量小、計(jì)算速度快的特點(diǎn).
本文研究成果對(duì)網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義,也為安管部門(mén)進(jìn)行網(wǎng)絡(luò)取證提供了技術(shù)支撐.但網(wǎng)絡(luò)水軍隱匿在合法用戶(hù)之中,且其行為變化多端,下一步考慮將統(tǒng)計(jì)分析、行為分析技術(shù)和文本分析、情感分析等技術(shù)結(jié)合,進(jìn)一步提高檢測(cè)算法的性能.此外,隨著微博、微信等網(wǎng)絡(luò)社交平臺(tái)的快速興起,網(wǎng)絡(luò)水軍也已將矛頭對(duì)準(zhǔn)這些新興媒體.下一步將考慮研究微博平臺(tái)網(wǎng)絡(luò)水軍檢測(cè)問(wèn)題.
參考文獻(xiàn)
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第33次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06.
Internet Network Information Center of China. The 33rd statistical report on Internet development of China[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06. (In Chinese)
[2] JINDAL N, LIU Bing. Review spam detection[C]//Proc of the 16th international conference on World Wide Web. 2007: 1189-1190.
[3] JINDAL N, LIU Bing. Analyzing and detecting review spam[C]//Seventh IEEE International Conference on Data Mining.2007: 547-552.
[4] JINDAL N, LIU Bing. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.2008: 219-230.
[5] JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.2010: 1549-1552.
[6] BENEVENUTO F, RODRIGUES T, ALMEIDA V, et al. Identifying video spammers in online social networks[C]// Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web. 2008: 45-52.
[7] BENEVENUTO F, MAGNO G, RODRIGUES T, et al. Detecting spammers on twitter[C]//Seventh Annual Collaboration, Electronic Messaging, AntiAbuse and Spam Conference(CEAS2010),2010.
[8] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[J]. International Journal of Information Security and Privacy, 2009, 5(1):37-44.
[9] GUERRA PHC, GUEDES D, MEIRA JR W, et al. Spamming chains: A new way of understanding spammer behavior[C]// Sixth Conference on Email and AntiSpam(CEAS2009), 2009.
[10]LAPPAS T. Fake reviews: The malicious perspective [J].Natural Language Processing and Information Systems, Lecture Notes in Computer Science, 2012, 7337:23-34.
[11]LI F, HUANG M, YANG Y, et al. Learning to identify review spam[C]//Proceedings of the TwentySecond International Joint Conference on Artificial Intelligence. 2011: 2488-2493.
[12]LIM E P,NGUYEN V A, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proc of the 19th ACM International Conference on Information and Knowledge Management. 2010:939-948.
[13]MUKHERJEE A, LIU Bing, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proc of the 21st International Conference on World Wide Web. 2012:191-200.
[14]OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination [C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics.2011: 309-319.
[15]SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[C]// IEEE INFOCOM 2011.2011: 2309-2317.
[16]SUREKA A. Mining user comment activity for detecting forum spammers in youtube[C]//USEWOD '11, 2011.
[17]WANG Guan, XIE Sihong, LIU Bing, et al. Review graph based online store review spammer detection[C]// IEEE 11th International Conference on Data Mining(ICDM 2011). 2011: 1242-1247.
[18]李綱,甘停,寇廣增.基于文本情感分類(lèi)的網(wǎng)絡(luò)推手識(shí)別[J]. 圖書(shū)情報(bào)工作, 2010, 54(8): 77-80.
LI Gang, GAN Ting, KOU Guangzeng. Recognition of netcheaters based on text sentiment analysis[J]. Library and Information , 2010, 54(8): 77-80. (In Chinese)
[19]范純龍,肖昕,余玲,等. 基于論壇信息的水軍組織行為分析[J]. 沈陽(yáng)航空航天大學(xué)學(xué)報(bào), 2010, 29(5): 64-67.
FAN Chunlong, XIAO Xin, YU Ling, et al. Behavior analysis of network navy organization based on web forums[J]. Journal of Shenyang Aerospace University, 2010, 29(5): 64-67. (In Chinese)
[20]CHEN Cheng, WU Kui,VENKATESH S, et al. Battling the internet water army: detection of hidden paid posters, arXiv:1111.4297v1 [cs.SI] 18 Nov 2011.
[21]BU Zhan, XIA Zhengyou, WANG Jiandong. A sock puppet detection algorithm on virtual spaces[J]. KnowledgeBased Systems,2013, 37: 366-377.
[22]ZHENG Xueling, LAI Yiuming, CHOW K P, et al. Sockpuppet detection in online discussion forums[C]//The Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing. 2011: 374-377.
[23]陳桂茸,蔡皖東,徐會(huì)杰,等.網(wǎng)絡(luò)論壇人類(lèi)行為動(dòng)力學(xué)實(shí)證分析[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,40(11):153-160.
CHEN Guirong, CAI Wandong, XU Huijie, et al. Empirical analysis on human behavior dynamics in online forum[J]. Journal of Hunan University: Natural Science, 2013, 40(11):153-160. (In Chinese)
[24]司夏萌,劉云.虛擬社區(qū)中人際交互行為的統(tǒng)計(jì)分析研究[J].物理學(xué)報(bào),2011,44(7): 859-866.
SI Xiameng, LIU Yun. Empirical analysis of interpersonal interacting behavior in virtual community[J]. Acta Phys Sin, 2011, 44(7): 859-866. (In Chinese)
[25]JIANG Zhiqiang, XIE Wenjie, LI Mingxia, et al. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[26]彭冬,蔡皖東.面向 Web 論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué), 2011,44(1):157-160.
PENG Dong, CAI Wandong. The web forum crawling technology and system implementation[J]. Computer Engineering &Science, 2011,44(1):157-160. (In Chinese)