陽小蘭 劉克剛 錢程 朱福喜
摘 要: 惡意發(fā)帖檢測系統(tǒng)處理的主體是帖子,往往忽略發(fā)帖是用戶的主觀行為。針對這一現(xiàn)象,從研究用戶的主觀行為出發(fā),建立賬戶信用模型,設(shè)計(jì)基于賬戶信用評價(jià)的惡意發(fā)帖檢測系統(tǒng)。分析賬戶信用模型的主要影響因素,將其離散化,量化賬戶的信用。通過建立賬戶信用模型,對賬戶進(jìn)行信用評價(jià)和分類,有效發(fā)現(xiàn)惡意賬戶,預(yù)測發(fā)帖行為,對惡意賬號進(jìn)行嚴(yán)格監(jiān)控,并根據(jù)賬戶信用影響反饋,動態(tài)調(diào)整惡意發(fā)帖檢測系統(tǒng)。通過實(shí)驗(yàn),驗(yàn)證了惡意發(fā)帖檢測系統(tǒng)的有效性。
關(guān)鍵詞: 賬戶信用; 信用評價(jià); 惡意發(fā)帖; 發(fā)帖檢測
中圖分類號: TN711?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)06?0053?05
Research of malicious post detection system based on account credit evaluation
YANG Xiaolan1, LIU Kegang2, QIAN Cheng1, ZHU Fuxi1, 2
(1. School of Information and Engineering, Wuchang University of Technology, Wuhan 430223, China;
2. School of Computer, Wuhan University, Wuhan 430072, China)
Abstract: At present, the malicious posting detection system deals with the post itself, but ignores that the post is the user′s subjective behavior. Proceeding from the research of the user′s subjective behavior, an account credit model was established and a malicious post detection system based on account credit evaluation was designed to eliminate the phenomenon. The main influencing factors of account credit model are analyzed and discretized for account credit quantification. By establishing the model account credit, the accounts' credit standing is evaluated and classified to effectively discover malicious accounts, predict posting behavior, and realize strict monitoring of malicious accounts. The malicious posting detection system is dynamically adjusted according to the credit feedback of the account. The validity of the malicious post detection system was verified through the experiment.
Keywords: account credit; credit evaluation; malicious posting; post detection
中國互聯(lián)網(wǎng)發(fā)展迅速,據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2015年7月發(fā)布的第36次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截止2015年6月,中國網(wǎng)民規(guī)模達(dá)6.68億,互聯(lián)網(wǎng)普及率達(dá)48.8%。目前,虛假信息、造謠誹謗、網(wǎng)絡(luò)水軍等現(xiàn)象影響著互聯(lián)網(wǎng)的健康發(fā)展[1?3],惡意發(fā)帖檢測系統(tǒng)旨在為網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)、剔除惡意發(fā)帖,構(gòu)建優(yōu)質(zhì)網(wǎng)絡(luò)社區(qū)環(huán)境,營造健康和諧的網(wǎng)絡(luò)社會環(huán)境。
目前網(wǎng)絡(luò)輿情系統(tǒng)多采用自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等手段分析用戶發(fā)布的信息內(nèi)容是否健康,是否符合社區(qū)的中心思想。與針對發(fā)帖內(nèi)容的檢測技術(shù)相比,基于行為的惡意檢測技術(shù),不再在帖子的汪洋大海中無針對性的尋找惡意帖子,改為有針對性地尋找惡意帖子部落,惡意帖子部落的中心是惡意賬戶。綜合考慮賬戶發(fā)帖頻率、發(fā)帖時(shí)間、賬戶信息維護(hù)等多個(gè)維度的行為特征,可以有效發(fā)現(xiàn)惡意賬戶,對該賬戶的所有發(fā)帖進(jìn)行監(jiān)控,撤回該賬戶所發(fā)的惡意帖子。
賬戶行為挖掘的思想避開了監(jiān)測惡意文本信息作為主體,轉(zhuǎn)向檢測發(fā)帖的主體行為。其不僅可以有效地檢測惡意文本信息,還可以發(fā)現(xiàn)惡意賬戶。對風(fēng)險(xiǎn)度較高的賬戶可以采用嚴(yán)格控制技術(shù),降低網(wǎng)絡(luò)社區(qū)的風(fēng)險(xiǎn),對優(yōu)質(zhì)賬戶給予更多權(quán)限,改善網(wǎng)絡(luò)社區(qū)服務(wù),培養(yǎng)更多優(yōu)質(zhì)客戶。本文在賬戶行為挖掘的基礎(chǔ)上,通過構(gòu)建賬戶信用模型,對賬戶信用進(jìn)行評價(jià),檢測并發(fā)現(xiàn)惡意賬戶和惡意信息。
1 賬戶信用模型
信用模型的建立需要經(jīng)過如圖1所示的幾個(gè)流程,完成分類特征屬性的確定,將不能分類的屬性進(jìn)行離散化處理,結(jié)合網(wǎng)絡(luò)社區(qū)數(shù)據(jù)建立分類預(yù)測模型。
1.1 信用特征屬性
收集影響賬戶信用的相關(guān)屬性,構(gòu)建賬戶的信用特征向量V={x1,x2,…,xn},xi表示賬戶某一特征屬性離散化值。結(jié)合從事網(wǎng)絡(luò)社區(qū)開發(fā)的工作經(jīng)驗(yàn)以及查閱相關(guān)資料,列出一些基本屬性[4?6]。
(1) 賬戶名:從登錄社區(qū)的賬戶中可以預(yù)見賬戶的優(yōu)劣,對于普通或者優(yōu)質(zhì)用戶會在意自己的賬戶名稱,一般采用某些有意義的詞或者姓名的變形等。目前,騰訊等互聯(lián)網(wǎng)巨頭提供賬戶授權(quán)服務(wù),用于解決用戶注冊大量賬戶,使用單一密碼危險(xiǎn),多種密碼困難的問題。
(2) 賬戶詳細(xì)信息:一般社區(qū)賬戶會要求賬戶提供除登錄用的賬戶名和密碼之外的其他信息。作為社會人一般具有許多社會標(biāo)簽,某些標(biāo)簽可以預(yù)示用戶的真實(shí)信息。例如性別、籍貫、喜好、座右銘、學(xué)歷、生活經(jīng)歷等。對于惡意賬戶在賬戶詳細(xì)信息補(bǔ)充完整方面沒有優(yōu)質(zhì)賬戶做得好,更多的是隱藏或者偽造。
(3) 認(rèn)證等級:對于一些安全性要求比較高的社區(qū)賬戶,特別是涉及到金錢、隱私,都要求比較嚴(yán)格的實(shí)名制驗(yàn)證,驗(yàn)證賬戶的銀行卡、身份證、手機(jī)號等。一般社區(qū)賬戶會要求郵箱驗(yàn)證或者手機(jī)號驗(yàn)證。經(jīng)過較高等級驗(yàn)證的賬戶,通常是優(yōu)質(zhì)賬戶。
(4) 最近登錄行為:用戶登錄社區(qū)的時(shí)間段、頻率、IP地址一般情況下是有規(guī)律可循。關(guān)注登錄行為屬于行為分析領(lǐng)域,對于了解賬戶是否被盜、還是本身是惡意賬戶具有幫助。
(5) 最近發(fā)帖行為:分析賬戶發(fā)帖行為,可以提取許多有用的價(jià)值,是惡意檢測系統(tǒng)主要的關(guān)注行為。對于普通用戶使用網(wǎng)絡(luò)社區(qū)具有一些通用模式。即使是高產(chǎn)的作家,每天發(fā)表的博文、日志數(shù)量會穩(wěn)定在一個(gè)閾值內(nèi),對于同一個(gè)問題發(fā)表的評論同樣滿足上述觀點(diǎn)。
(6) 社區(qū)關(guān)系網(wǎng):網(wǎng)絡(luò)社區(qū)是社會關(guān)系向線上發(fā)展的產(chǎn)物。社會關(guān)系網(wǎng)預(yù)示物以類聚的思想,具有眾多粉絲的賬戶并且粉絲中包含優(yōu)質(zhì)粉絲的賬戶應(yīng)該是比較優(yōu)秀的賬戶。
賬戶信用模型的主要影響因素如圖2所示,各種因素對于用戶信用特征向量的影響,根據(jù)具體情況可以自定義設(shè)置。用戶的信用特征向量,根據(jù)用戶參與網(wǎng)絡(luò)社區(qū)的情況,相應(yīng)地動態(tài)調(diào)整。經(jīng)過實(shí)名制認(rèn)證的用戶應(yīng)該比匿名用戶具有更高的信用度。如果用戶登錄異常,或者用戶發(fā)布違規(guī)的信息,應(yīng)該適當(dāng)?shù)慕档陀脩舻男庞枚?。有些網(wǎng)絡(luò)社區(qū)允許用戶之間可以建立好友關(guān)系,同時(shí)會影響用戶的信用度。
1.2 離散化特征屬性
本文選取賬戶社區(qū)關(guān)系作為研究主要因素,對社區(qū)關(guān)系進(jìn)行離散化處理,采用非監(jiān)督學(xué)習(xí)算法進(jìn)行賬戶分類過程,采用PageRank算法對社區(qū)關(guān)系進(jìn)行離散化處理。PageRank算法可根據(jù)網(wǎng)頁之間的超鏈接,計(jì)算網(wǎng)頁排名。PageRank算法也可作為評估網(wǎng)頁優(yōu)化的結(jié)果重要參考因素[7?9]。
PageRank算法為了解決部分“沒有出鏈的頁面”帶來的陷阱問題,增加隨機(jī)跳出瀏覽的策略,即隨機(jī)地打開某一頁面,隨機(jī)地點(diǎn)擊其中某一鏈接。頁面的PageRank值決定了頁面被隨機(jī)訪問的可能性大小。假設(shè)持續(xù)點(diǎn)擊網(wǎng)頁上的鏈接,最后抵達(dá)一個(gè)沒有出鏈的頁面,此時(shí)隨機(jī)選擇一個(gè)頁面開始新的瀏覽。e=0.85表示在任意時(shí)刻,用戶瀏覽某頁面后會繼續(xù)瀏覽的概率。[1-e=0.15]表示在任意時(shí)刻,用戶停止繼續(xù)向前瀏覽,改為隨機(jī)選擇所有頁面中的某一頁面開始瀏覽的概率。完整的PageRank算法如下式所示:
[PageRank(pi)=1-eN+epj∈M(pi)PageRank(pj)L(pj)]
式中:p1,p2,…,pn是待計(jì)算頁面;M(pi)是鏈入pi頁面的集合;L(pj)是鏈出pj的集合;N是所有頁面總量。
主要特征屬性中登錄行為特征屬性的離散化采用單位時(shí)間段的頻次來表示:[vi=sid],其中si表示在時(shí)間段d內(nèi)的行為頻次,例如賬戶i在一個(gè)月內(nèi)的登錄的次數(shù)為n,該賬戶的登錄行為屬性離散化為[vi=n30]。
發(fā)帖行為特征屬性的離散值與賬戶在一段時(shí)間d內(nèi)的發(fā)帖情況有關(guān)。假設(shè)賬戶的每一個(gè)發(fā)帖最終檢測結(jié)果有一個(gè)惡意程度wi,則賬戶的發(fā)帖行為的特征屬性離散值[W=wi]。在構(gòu)建惡意檢測系統(tǒng)后,賬戶的發(fā)帖行為通過影響發(fā)帖行為特征屬性來更新信用模型,保持惡意檢測系統(tǒng)的自適應(yīng)。
并非所有的特征屬性都需要離散化處理,由于認(rèn)證等級一般包含有限狀態(tài)集,可以直接作為分類符號。本文未給出的離散化操作,可以根據(jù)前面給出的方法進(jìn)行簡單的仿效,離散化科學(xué)合理即可。完成所有的屬性離散化處理后,將進(jìn)入下一階段完成賬戶的分類。
1.3 賬戶分類
賬戶信用特征屬性的采集,對于部分不能分類的屬性進(jìn)行離散化,最后需要的工作就是構(gòu)建賬戶分類模型。賬戶信用特征向量V={x1,x2,…,xn},具有n個(gè)特征屬性,用于構(gòu)建賬戶信用模型。賬戶的信用特征向量,反映了賬戶某一時(shí)刻的信用狀態(tài)。本文在實(shí)驗(yàn)部分采用K?means算法[10?12]對賬戶進(jìn)行分類建模。
2 惡意發(fā)帖檢測模型
在基于賬戶信用模型中,對于賬戶信用度的影響因素中登錄行為和用戶發(fā)帖行為是一個(gè)基于時(shí)間狀態(tài)的影響因子。每一個(gè)賬戶可能在任何時(shí)間違反網(wǎng)絡(luò)社區(qū)核心價(jià)值觀,即使是當(dāng)前網(wǎng)絡(luò)社區(qū)中具有最高信用度的賬戶。所以構(gòu)建的惡意發(fā)帖檢測模塊是基于對于所有賬戶的不信任,建立在概率模型之上。所以采用的基本策略是對于信用度高的賬戶采用比較簡單、約束條件比較寬泛的檢測,允許部分系統(tǒng)疏漏。對于信用度低的賬戶,首先鼓勵(lì)其提高信用度;其次對于其發(fā)帖增加發(fā)帖成本(要求嚴(yán)格的發(fā)帖驗(yàn)證,發(fā)帖頻次、數(shù)量限制等);最后發(fā)帖內(nèi)容經(jīng)過嚴(yán)格的審核。
如果信用模型采用靜態(tài)模型,即首次構(gòu)建模型后保持不變,只能體現(xiàn)網(wǎng)絡(luò)社區(qū)在某個(gè)時(shí)刻的賬戶信用狀態(tài),模型只能具有紀(jì)念意義而沒有實(shí)際價(jià)值。如果信用模型中信用屬性值是單調(diào)非遞減的,如同QQ等級一樣,惡意賬戶可能增加一個(gè)潛伏階段。惡意發(fā)帖檢測模型中賬戶的信用特征向量根據(jù)特征屬性動態(tài)調(diào)整,其中主要發(fā)帖行為特征屬性,會對賬戶的信用特征向量起到重要影響,長期未登錄賬戶或惡意發(fā)帖,賬戶信用受到負(fù)極影響;賬戶存在惡意行為,根據(jù)惡意的嚴(yán)重性不同程度影響賬戶的信用度。
本文設(shè)計(jì)的基于用戶信用度的檢測模型,該檢測模型帶有反饋鏈,根據(jù)用戶發(fā)帖是否屬于惡意發(fā)帖,以及信息的惡意程度,動態(tài)調(diào)整用戶的信用特征向量,同時(shí)賬戶信用模型也決定了惡意發(fā)帖的檢測流程,如圖3所示。系統(tǒng)的初始化模塊主要完成的工作是賬戶信用模型建立,首先完成系統(tǒng)的一個(gè)賬戶信用快照。在之后的賬戶行為中動態(tài)調(diào)整信用模型的某一特征屬性值,圖3中主要是根據(jù)賬戶的發(fā)帖行為進(jìn)行分析。賬戶在完成發(fā)帖的過程中,首先獲取自己的賬戶信用標(biāo)記,確定發(fā)帖檢測的具體流程,即每一個(gè)信用標(biāo)記映射一個(gè)發(fā)帖檢測流程。惡意特征庫同樣滿足基于信用標(biāo)記映射不同的庫大小、內(nèi)容等。完成發(fā)帖檢測之后,通過檢測模型中的反饋鏈,更新信用模型中的發(fā)帖行為屬性的值。
3 惡意發(fā)帖檢測系統(tǒng)
經(jīng)典的惡意檢測系統(tǒng)的設(shè)計(jì),主要是針對某一發(fā)帖文本進(jìn)行統(tǒng)一路徑的惡意性檢測,如圖4所示。沒有區(qū)分不同賬戶的特性,采用一致的處理模式,沒有實(shí)現(xiàn)計(jì)算資源優(yōu)化配置。
惡意發(fā)帖的源頭是用戶行為,而不是永無止境的帖子。本文構(gòu)建的惡意發(fā)帖檢測系統(tǒng)模型如圖5所示,系統(tǒng)構(gòu)建在以賬戶信用模型為核心的惡意發(fā)帖檢測系統(tǒng),鼓勵(lì)用戶文明發(fā)帖,打擊惡意發(fā)帖,維護(hù)網(wǎng)絡(luò)社區(qū)的健康可持續(xù)發(fā)展。用戶發(fā)帖的檢測流程為:
(1) 查詢當(dāng)前賬戶的信用特征屬性向量;
(2) 根據(jù)賬戶的信用標(biāo)記設(shè)置發(fā)帖前置控制條件。前置控制條件決定了賬戶不一樣的發(fā)帖交互情景,如賬戶當(dāng)日的發(fā)帖額度、發(fā)帖頻率、確認(rèn)發(fā)帖的驗(yàn)證碼等。
(3) 發(fā)帖檢測過程,后置控制條件的設(shè)定,根據(jù)當(dāng)前賬戶信用標(biāo)記映射的檢測流程,進(jìn)行惡意檢測。
(4) 反饋檢測結(jié)果,更新賬戶信用度。一份帖子會對賬戶的信用度產(chǎn)生影響,影響大小和正負(fù)有區(qū)別。應(yīng)根據(jù)帖子的檢測結(jié)果進(jìn)行反饋,更新賬戶的特征屬性向量。
(5) 如果是惡意發(fā)帖,提取惡意帖特征,加入惡意發(fā)帖庫,為惡意發(fā)帖的深入學(xué)習(xí)采集樣本。賬戶信用標(biāo)記的不是實(shí)時(shí)更新,采取間隔時(shí)間段重建方式。
本系統(tǒng)模型在用戶發(fā)帖的流程中把用戶發(fā)帖行為分為發(fā)帖前置控制、發(fā)帖、發(fā)帖后置控制、發(fā)帖結(jié)果4個(gè)階段。賬戶的信用模型是根據(jù)數(shù)據(jù)分析理論創(chuàng)建,充分利用了網(wǎng)絡(luò)社區(qū)在發(fā)展中積累的歷史數(shù)據(jù)。根據(jù)模型預(yù)測當(dāng)前發(fā)帖行為的惡意程度,調(diào)控發(fā)帖的前置控制條件,減少網(wǎng)絡(luò)社區(qū)面臨的風(fēng)險(xiǎn)。模型的自身成長是和網(wǎng)絡(luò)社區(qū)的成長必然緊密相聯(lián),根據(jù)賬戶在社區(qū)的每一次操作行為去更新模型,保證模型的自適應(yīng)性。
4 實(shí)驗(yàn)分析
本實(shí)驗(yàn)采用網(wǎng)絡(luò)爬蟲[13?15]抓取網(wǎng)絡(luò)社區(qū)的賬戶、發(fā)帖等數(shù)據(jù)信息,對賬戶信用特征屬性進(jìn)行離散化處理,采用分類算法對賬戶分類。抽取不同簇賬戶的發(fā)帖信息,采用惡意檢測算法檢測,分析不同簇賬戶發(fā)帖的惡意發(fā)帖量和發(fā)帖惡意復(fù)雜度,驗(yàn)證分類有效性。
4.1 實(shí)驗(yàn)說明
本實(shí)驗(yàn)基于Python語言設(shè)計(jì)網(wǎng)絡(luò)爬蟲,抓取國內(nèi)知名網(wǎng)絡(luò)社區(qū)博客園的賬戶、發(fā)帖等信息,爬蟲抓取的主要數(shù)據(jù)字段為賬戶名、賬戶簡介、關(guān)注者、粉絲、發(fā)帖信息和賬戶在社區(qū)的最近發(fā)帖活動記錄。目前博客園用戶超過了17萬,以本人賬戶主頁為爬蟲種子,最終爬到的賬戶信息為13萬左右,還剩4萬多的用戶沒有爬取到,分析這部分賬戶是既沒有粉絲也不關(guān)注其他用戶的孤島,整個(gè)數(shù)據(jù)集不采用數(shù)據(jù)庫存儲,采用文本文件保存,每一行采用賬戶作為關(guān)鍵字,之后為具體采集屬性的數(shù)據(jù),主要原因是賬戶數(shù)據(jù)量在可控范圍內(nèi),文本可以直觀查閱、驗(yàn)證數(shù)據(jù)。實(shí)驗(yàn)部分采用PageRank算法離散化的社區(qū)關(guān)系,采用K?means分類算法進(jìn)行賬戶信用分類。
4.2 信用計(jì)算
本實(shí)驗(yàn)主要通過賬戶信用主要影響因子——賬戶信息、社區(qū)關(guān)系、最近發(fā)帖行為,實(shí)現(xiàn)對賬戶信用模型的建立,其他沒能考慮的因子是因?yàn)閷?shí)驗(yàn)數(shù)據(jù)的不完整(不能獲取賬戶的登錄行為以及認(rèn)證等級)以及當(dāng)前社區(qū)的條件下不是特征屬性(例如博客園不支持其他社區(qū)號登錄)。
本實(shí)驗(yàn)將根據(jù)PageRank算法進(jìn)行實(shí)驗(yàn)。提取數(shù)據(jù)集中每個(gè)賬戶的關(guān)注者,對于爬取的賬戶網(wǎng)絡(luò)社區(qū)關(guān)系數(shù)據(jù)采用PageRank算法進(jìn)行計(jì)算,直到轉(zhuǎn)移矩陣的收斂,得到如表1所示的排名前50的賬戶信用度值。
采用網(wǎng)絡(luò)社區(qū)關(guān)系構(gòu)建的賬戶信用模型,對其計(jì)算的結(jié)果進(jìn)行分析,可以發(fā)現(xiàn)信用度比較高的賬戶,其信用度影響因素比信用度比較低的賬戶具有突出表現(xiàn)。如圖6所示為最佳賬戶的賬戶信息,可以看出其賬戶簡介信息十分飽滿,而且信息的真實(shí)度比較高,其對社區(qū)貢獻(xiàn)和忠誠度比較高。
如圖7所示為非高信用度賬戶的賬戶信息,賬戶信息非常匱乏,只包含系統(tǒng)提供的默認(rèn)信息,并且網(wǎng)絡(luò)社區(qū)的參與不活躍。如圖8所示為高信用用戶的最近發(fā)帖行為,一般高信用賬戶會持續(xù)性地活躍在網(wǎng)絡(luò)社區(qū)中,并且對自己的發(fā)帖負(fù)責(zé)而且具有比較好的發(fā)帖質(zhì)量。在基于網(wǎng)絡(luò)社區(qū)關(guān)系的信用模型中沒有考慮到賬戶的最近發(fā)帖行為方式,可能信用低的賬戶在社區(qū)同樣比較活躍,很可能是最近加入社區(qū)的潛在優(yōu)質(zhì)賬戶。所以對于低信用度賬戶的正常發(fā)帖采用鼓勵(lì)手段,出現(xiàn)惡意發(fā)帖采取重罰手段。
4.3 賬戶分類
完成對賬戶的信用度采取非遞增排序,然后對信用度取10的對數(shù),繪制如圖9所示的賬戶信用度的分布曲線。分析圖9可知社區(qū)處于成長期,大部分的賬戶信用度較低,信用度高的用戶較少。
采用K?means算法對賬戶進(jìn)行聚類分析,結(jié)果如表2所示,本實(shí)驗(yàn)將賬戶分為3類,映射為優(yōu)、良、差。根據(jù)對重心觀察,可見劃分結(jié)果滿足要求。表2展示了不同簇中的賬戶在整個(gè)社區(qū)的規(guī)模程度,為惡意發(fā)帖檢測提供了決策意見。
5 結(jié) 語
本文提出并實(shí)現(xiàn)了基于賬戶信用模型的惡意發(fā)帖檢測系統(tǒng),該系統(tǒng)建立在以賬戶信用為核心模型基礎(chǔ)上,量化每個(gè)賬戶的信用,對賬戶進(jìn)行分級,識別惡意賬戶,并將每一個(gè)惡意發(fā)帖都反饋至賬戶信用模型中,實(shí)現(xiàn)惡意發(fā)帖檢測系統(tǒng)自動調(diào)整。本文建立的信用模型,在選取信用的影響因素方面,主要依靠實(shí)踐經(jīng)驗(yàn),需要在后續(xù)研究中建立數(shù)學(xué)模型加以改進(jìn)。本文的實(shí)驗(yàn)部分未能完成所有屬性特征的離散化處理,選取了代表性的屬性,后續(xù)研究中需要完成不能分類的屬性離散化處理。
表2 分類結(jié)果
參考文獻(xiàn)
[1] 莫倩,楊珂.網(wǎng)絡(luò)水軍識別研究[J].軟件學(xué)報(bào),2014(7):1505?1526.
[2] 王永剛,蔡飛志,LUA E K,等.一種社交網(wǎng)絡(luò)虛假信息傳播控制方法[J].計(jì)算機(jī)研究與發(fā)展,2012(z2):131?137.
[3] 楊長春,徐小松,葉施仁,等.基于文本相似度的微博網(wǎng)絡(luò)水軍發(fā)現(xiàn)算法[J].微電子學(xué)與計(jì)算機(jī),2014,31(3):82?85.
[4] 楊清龍.基于網(wǎng)絡(luò)日志的互聯(lián)網(wǎng)用戶行為分析[D].武漢:華中科技大學(xué),2013.
[5] 李向華,杜鵑.社交網(wǎng)絡(luò)用戶信用評價(jià)指標(biāo)體系研究[J].標(biāo)準(zhǔn)科學(xué),2015(1):76?78.
[6] 徐昕虹,張保穩(wěn),孔凌宇,等.一種論壇的網(wǎng)絡(luò)用戶信用評價(jià)體系[J].信息安全與通信保密,2013(1):60?62.
[7] 舒琰,向陽,張騏,等.基于PageRank的微博排名MapReduce算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(2):73?76.
[8] 李稚楹,楊武,謝治軍.PageRank算法研究綜述[J].計(jì)算機(jī)科學(xué),2011,38(10A):185?188.
[9] 王德廣,周志剛,梁旭.PageRank算法的分析及其改進(jìn)[J].計(jì)算機(jī)工程,2010,36(22):291?292.
[10] 吳夙慧,成穎,鄭彥寧,等.K?means算法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2011(5):28?35.
[11] 馮超.K?means聚類算法的研究[D].大連:大連理工大學(xué),2007.
[12] 黃韜,劉勝輝,譚艷娜.基于K?means聚類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(7):54?57.
[13] 喬峰.基于模板化網(wǎng)絡(luò)爬蟲技術(shù)的Web網(wǎng)頁信息抽取[D].成都:電子科技大學(xué),2012.
[14] 李俊麗.基于Linux的python多線程爬蟲程序設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2015,43(5):861?863.
[15] 段兵營.搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2014.