国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征分析的微博炒作賬戶識(shí)別方法

2015-01-02 02:00:50羅軍勇董雨辰
計(jì)算機(jī)工程 2015年4期
關(guān)鍵詞:特征選擇子集賬戶

張 進(jìn),劉 琰,羅軍勇,董雨辰

(數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室,鄭州450002)

1 概述

隨著移動(dòng)通信和Web技術(shù)的不斷突破,以微博為代表的在線社交網(wǎng)絡(luò)迅速發(fā)展起來(lái)。與傳統(tǒng)的社交網(wǎng)絡(luò)相比,微博具有更強(qiáng)的信息傳播能力和成員組織能力,這一獨(dú)特優(yōu)勢(shì)使其迅速成為當(dāng)前主要社會(huì)媒體之一[1]。然而,由于微博的技術(shù)門檻比較低,信息真實(shí)性無(wú)法保證,使得近年來(lái)出現(xiàn)一些炒作賬戶采用違規(guī)手段開(kāi)展網(wǎng)絡(luò)公關(guān)活動(dòng),謀取非法利益,甚至惡意制造熱點(diǎn)事件,煽動(dòng)網(wǎng)民情緒,挾制輿論導(dǎo)向,嚴(yán)重干擾正常的互聯(lián)網(wǎng)秩序。從“3Q大戰(zhàn)”到“涼茶之爭(zhēng)”,這些轟動(dòng)一時(shí)的微博熱門事件都有炒作賬戶參與的痕跡。

傳統(tǒng)炒作賬戶識(shí)別方法通常依靠人工查找、分析樣本數(shù)據(jù)特征的方式,這種方式效率低下而且成本高昂,不適合對(duì)海量賬戶進(jìn)行分析[2]。此外,隨著炒作賬戶力量的不斷壯大,炒作賬戶進(jìn)行微博炒作的形式呈現(xiàn)出多樣化的趨勢(shì),具有較強(qiáng)的組織性和隱蔽性,傳統(tǒng)識(shí)別方法很難將炒作賬戶和正常賬戶區(qū)分開(kāi)。因此,如何準(zhǔn)確、高效地從海量賬戶中識(shí)別出具有炒作嫌疑的賬戶,成為目前亟待解決的問(wèn)題。

本文以微博中的炒作賬戶為研究對(duì)象,針對(duì)炒作賬戶隱蔽性高、難以識(shí)別的問(wèn)題,提出一種基于特征分析的炒作賬戶識(shí)別方法。該方法從多個(gè)方面對(duì)炒作賬戶的特征進(jìn)行分析,構(gòu)建原始特征集,利用特征選擇技術(shù)從原始特征集中篩選出具有顯著判別能力的特征子集,并使用多種分類算法對(duì)本文方法的識(shí)別效果進(jìn)行評(píng)估。

2 相關(guān)工作

目前國(guó)內(nèi)外對(duì)炒作賬戶的研究尚處于起步階段,相關(guān)工作主要有對(duì)垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶(zombies)等微博不良賬戶的識(shí)別方法研究,這些不良賬戶與本文研究的炒作賬戶具有一定的相似性。

垃圾賬戶是指經(jīng)常發(fā)布垃圾信息的賬戶。文獻(xiàn)[3]從多個(gè)角度分析了垃圾賬戶的特征,并采用機(jī)器學(xué)習(xí)的方式自動(dòng)識(shí)別垃圾賬戶。文獻(xiàn)[4]深入分析了垃圾賬戶間的社會(huì)關(guān)系,提出一種根據(jù)賬戶間親密度來(lái)發(fā)現(xiàn)垃圾賬戶的方法。文獻(xiàn)[5]提出一種基于統(tǒng)計(jì)特征與雙向投票的垃圾賬戶識(shí)別算法,利用賬戶信任的雙向傳播與其鄰居節(jié)點(diǎn)的統(tǒng)計(jì)特征來(lái)發(fā)現(xiàn)微博中的垃圾賬戶。文獻(xiàn)[6]利用賬戶和微博特征設(shè)計(jì)分類器并對(duì)正常賬戶和垃圾賬戶進(jìn)行區(qū)分。文獻(xiàn)[7]利用Twitter中的暫停賬號(hào)分析了垃圾賬戶的特性。

馬甲賬戶是指通過(guò)注冊(cè)多個(gè)賬號(hào)進(jìn)行發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為的虛假賬戶。文獻(xiàn)[8]結(jié)合作者身份識(shí)別以及鏈接分析技術(shù)來(lái)檢測(cè)馬甲賬戶。文獻(xiàn)[9]提出一種利用文本內(nèi)容、相似度匹配來(lái)識(shí)別馬甲賬戶的方法,實(shí)驗(yàn)結(jié)果表明具有較高的準(zhǔn)確率。

僵尸賬戶是指為了進(jìn)行粉絲買賣而惡意注冊(cè)的賬戶。文獻(xiàn)[10]在Twitter中綜合考慮了賬戶發(fā)帖行為、博文內(nèi)容和賬戶屬性等特征,并利用機(jī)器學(xué)習(xí)的方法來(lái)識(shí)別僵尸賬戶。文獻(xiàn)[11]提出一種基于微博注冊(cè)賬戶名特征提取的智能分類方法,利用支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)方法對(duì)賬戶進(jìn)行分類。

綜上所述,目前對(duì)不良賬戶識(shí)別方法的研究取得了一定的成果,但是識(shí)別方法相對(duì)單一,而且通常只針對(duì)特定的賬戶群體,尚未有專門面向炒作賬戶的識(shí)別方法。本文研究的炒作賬戶也屬于微博中不良賬戶的范疇,與以上3類不良賬戶相比,炒作賬戶更加側(cè)重于其“炒作”行為,隱蔽性和組織性比較強(qiáng),也更加難以發(fā)現(xiàn)。

3 炒作賬戶相關(guān)概念與識(shí)別框架

3.1 相關(guān)概念

為有效發(fā)現(xiàn)微博中的炒作賬戶,以下給出了本文對(duì)炒作賬戶相關(guān)概念的界定。

定義1(炒作) 為擴(kuò)大事物或人的影響而通過(guò)媒體進(jìn)行反復(fù)宣傳的行為。炒作的最終目的是讓事件或人物達(dá)到轟動(dòng)性的社會(huì)效應(yīng),以實(shí)現(xiàn)利益的最大化,其常見(jiàn)的表現(xiàn)形式有話題炒作、營(yíng)銷炒作、人物炒作等。

定義2(炒作賬戶) 在微博平臺(tái)上從事炒作行為的賬戶,往往通過(guò)虛假轉(zhuǎn)發(fā)、評(píng)論等行為進(jìn)行宣傳造勢(shì),以實(shí)現(xiàn)對(duì)話題、人物或產(chǎn)品炒作等目的。炒作賬戶大多受雇于網(wǎng)絡(luò)公關(guān)公司,通過(guò)炒作來(lái)獲取利益。

3.2 炒作賬戶識(shí)別框架

本文借鑒了數(shù)據(jù)挖掘中的分類[12]思想,并結(jié)合炒作賬戶的研究背景,提出微博炒作賬戶識(shí)別框架,該框架結(jié)構(gòu)如圖1所示。

圖1 炒作賬戶識(shí)別框架

從圖1可以看出,該框架主要分為3個(gè)部分:特征分析,特征選擇以及分類判決。

(1)特征分析。分別從賬戶狀態(tài)、歷史微博以及賬戶鄰居3個(gè)方面對(duì)炒作賬戶的特征進(jìn)行分析,并構(gòu)建賬戶特征集。

(2)特征選擇。在得到賬戶特征集后,利用特征選擇技術(shù)篩選出具有較強(qiáng)判別能力的特征子集,以提高識(shí)別的效率和準(zhǔn)確率。

(3)分類判決。選擇適當(dāng)?shù)姆诸惼髋袛噘~戶是否具有炒作嫌疑,同時(shí)對(duì)識(shí)別方法的性能進(jìn)行評(píng)估。

4 炒作賬戶特征分析

由于炒作賬戶經(jīng)常參與一些炒作任務(wù),因此在賬戶特征上會(huì)與正常賬戶存在差異。通過(guò)研究發(fā)現(xiàn),微博平臺(tái)上與賬戶相關(guān)的信息主要包括基本資料、歷史微博、好友關(guān)系、個(gè)人興趣等。為盡可能全面地發(fā)現(xiàn)炒作賬戶與正常賬戶的區(qū)別,本文充分利用能夠獲取到的賬戶信息,分別從賬戶狀態(tài)、歷史微博以及賬戶鄰居3個(gè)方面對(duì)炒作賬戶進(jìn)行分析,構(gòu)建炒作賬戶的特征集。

4.1 賬戶狀態(tài)特征

賬戶狀態(tài)特征來(lái)源于賬戶基本資料,反映了賬戶的基本狀態(tài),包括賬戶粉絲數(shù)、關(guān)注數(shù)、互粉數(shù)、微博數(shù)、賬戶等級(jí)、賬戶年齡等。雖然炒作模式多種多樣,但絕大多數(shù)炒作賬戶具有相似的特征,而且與正常賬戶的差異較為明顯。

由于炒作賬戶經(jīng)常發(fā)布一些具有炒作性質(zhì)的虛假、營(yíng)銷類信息,因此吸引的粉絲數(shù)往往低于正常賬戶。為避免因粉絲太少而降低影響力,大多數(shù)炒作賬戶會(huì)通過(guò)隨機(jī)批量關(guān)注其他賬戶的方法獲取回粉,導(dǎo)致其關(guān)注數(shù)一般高于正常賬戶。另外,一些炒作賬戶很可能被正常賬戶舉報(bào)而被運(yùn)營(yíng)商封號(hào),為此不得不重新注冊(cè)新的賬戶,因此炒作賬戶等級(jí)一般較低,賬戶年齡比較小。

為進(jìn)一步反映炒作賬戶與正常賬戶的區(qū)別,本文利用賬戶的基本狀態(tài)構(gòu)造2項(xiàng)新的特征——聲望值和互粉率,具體定義如下:

定義3(聲望值) 利用粉絲數(shù)與關(guān)注數(shù)的相對(duì)大小表示,能夠反映賬戶的人氣或聲望。一般情況下,炒作賬戶的聲望值要低于正常賬戶。

定義4(互粉率) 利用互粉數(shù)與關(guān)注數(shù)之比表示,反映賬戶的人氣,間接反映與好友的親密程度。一般情況下,炒作賬戶的互粉率要低于正常賬戶。

圖2為炒作賬戶和正常賬戶部分狀態(tài)特征的累積分布函數(shù)(Cumulative Distribution Function,CDF)曲線。

從圖2(a)可以看出,80%左右的炒作賬戶關(guān)注數(shù)超過(guò)800,而80%左右的正常賬戶關(guān)注數(shù)低于300;從圖2(b)可以看出,炒作賬戶的互粉率一般低于正常賬戶;從圖2(c)可以看出,大約80%的炒作賬戶年齡在1年之內(nèi),而80%左右的正常賬戶年齡在500 d以上;從圖2(d)可以看出,絕大多數(shù)正常賬戶的聲望值要高于炒作賬戶。

圖2 炒作賬戶和正常賬戶狀態(tài)特征CDF曲線

4.2 歷史微博特征

歷史微博特征是指從賬戶發(fā)布或轉(zhuǎn)發(fā)的歷史微博中提取的特征,能夠反映賬戶使用微博的個(gè)人習(xí)慣以及發(fā)布微博的質(zhì)量,主要包括發(fā)布微博頻率、原創(chuàng)微博比例、垃圾轉(zhuǎn)發(fā)比例以及微博平均被轉(zhuǎn)發(fā)數(shù)和被評(píng)論數(shù)等。

通過(guò)對(duì)大量數(shù)據(jù)的觀察發(fā)現(xiàn),炒作賬戶往往發(fā)布微博的頻率高于正常賬戶,一方面是為了避免因活躍度太低而被判定為僵尸賬號(hào),另一方面是因?yàn)橐欢ㄆ诘赝瓿梢恍┏醋魅蝿?wù)。另外,微博運(yùn)營(yíng)商會(huì)利用垃圾信息監(jiān)測(cè)機(jī)制刪除一些垃圾信息,而炒作賬戶轉(zhuǎn)發(fā)的炒作微博很可能被判定為垃圾微博,所以,垃圾轉(zhuǎn)發(fā)比例要高于正常賬戶。同時(shí),為躲避這種垃圾信息監(jiān)測(cè)機(jī)制,炒作賬戶也會(huì)經(jīng)常轉(zhuǎn)發(fā)其它微博,但很少直接發(fā)布一些反映個(gè)人意愿的原創(chuàng)微博,因此,原創(chuàng)微博比例略低于正常賬戶。此外,由于炒作賬戶經(jīng)常發(fā)布或轉(zhuǎn)發(fā)一些具有炒作、營(yíng)銷性質(zhì)的微博,很難從內(nèi)容上吸引正常賬戶進(jìn)行再次轉(zhuǎn)發(fā)或評(píng)論,因此炒作賬戶的微博平均被轉(zhuǎn)發(fā)數(shù)和被評(píng)論數(shù)較小。

圖3為炒作賬戶和正常賬戶部分微博特征的CDF曲線圖。從圖3(a)可以看出,大約有80%的炒作賬戶微博平均被評(píng)論次數(shù)低于0.02,而80%以上的正常賬戶歷史微博平均被評(píng)論次數(shù)高于0.1。從圖3(b)可以看出,絕大多數(shù)炒作賬戶微博平均被轉(zhuǎn)發(fā)次數(shù)要低于正常賬戶。從圖3(c)可以看出,大部分炒作賬戶的發(fā)布微博頻率要高于正常賬戶。從圖3(d)可以看出,大約90%的炒作賬戶原創(chuàng)微博比例低于10%,而80%以上的正常賬戶原創(chuàng)微博比例高于20%。

圖3 炒作賬戶和正常賬戶歷史微博特征CDF曲線

4.3 賬戶鄰居特征

賬戶鄰居特征是一系列描述賬戶粉絲及關(guān)注好友特征的指標(biāo),把賬戶的粉絲及關(guān)注好友稱為“鄰居”。這些特征能夠從不同角度反映賬戶的粉絲質(zhì)量以及關(guān)注質(zhì)量,也間接反映了該賬戶的特性,主要包括鄰居的平均粉絲數(shù)、平均關(guān)注數(shù)、平均互粉數(shù)、平均聲望值等。

相關(guān)研究發(fā)現(xiàn)[13],炒作賬戶的關(guān)注行為具有一定的隨機(jī)性,而正常賬戶則更傾向于關(guān)注自己的親朋好友或名人、媒體,這就導(dǎo)致炒作賬戶關(guān)注好友的質(zhì)量一般低于正常賬戶。另一方面,炒作賬戶的粉絲中包含了大量的僵尸粉或其他炒作賬戶,而正常賬戶的粉絲大多來(lái)自真實(shí)的社交圈或是對(duì)自己感興趣的正常賬戶,因此,兩者的粉絲質(zhì)量也有高低之分。

圖4為炒作賬戶和正常賬戶部分鄰居特征的CDF曲線圖。從圖4(a)可以看出,大約80%以上的炒作賬戶關(guān)注好友的平均粉絲數(shù)不足1×104,而80%以上的正常賬戶關(guān)注好友的平均粉絲數(shù)高于1×106;從圖4(b)可以看出,絕大多數(shù)炒作賬戶關(guān)注好友的平均互粉數(shù)要低于正常賬戶。以上2圖說(shuō)明炒作賬戶關(guān)注好友的質(zhì)量要低于正常賬戶。另外,從圖4(c)和4(d)可以看出,炒作賬戶的粉絲質(zhì)量一般低于正常賬戶,但是這種差異相對(duì)較小,在實(shí)際分類中可能效果欠佳。

綜上所述,分別從賬戶狀態(tài)、歷史微博以及賬戶鄰居3個(gè)角度出發(fā),共選取了21個(gè)特征來(lái)構(gòu)建賬戶特征集。需要說(shuō)明的是,所有特征的取值范圍可能分布很大,例如賬戶粉絲數(shù)的最大值可以達(dá)到上千萬(wàn),而最小值可以低于10,這將對(duì)分類的準(zhǔn)確率造成影響。

為此,本文采用冪率壓縮的方式對(duì)一些取值范圍較大的特征進(jìn)行歸一化。具體方法為:對(duì)于特征F,其歸一化后的值為F'=lg(F+1)。

圖4 炒作賬戶和正常賬戶鄰居特征CDF曲線

從賬戶狀態(tài)、歷史微博以及賬戶鄰居選取的21個(gè)特征具體如下:

(1)賬戶狀態(tài)屬性,包含以下特征:

1)粉絲數(shù),F(xiàn)1=Ner(u),其中,Ner(u)為賬戶粉絲數(shù);

2)關(guān)注數(shù),F(xiàn)2=Nee(u),其中,Nee(u)為賬戶關(guān)注數(shù);

3)互粉數(shù),F(xiàn)3=Nbi(u),其中,Nbi(u)為賬戶互粉數(shù);

4)微博數(shù),F(xiàn)4=Ns(u),其中,Ns(u)為賬戶微博數(shù);

5)賬戶年齡,F(xiàn)5=Age(u),其中,Age(u)為賬戶年齡;

6)賬戶等級(jí),F(xiàn)6=Rank(u),其中,Rank(u)為賬戶等級(jí);

5 實(shí)驗(yàn)結(jié)果及分析

5.1 數(shù)據(jù)集

本文以國(guó)內(nèi)最大的新浪微博作為實(shí)驗(yàn)平臺(tái),利用新浪開(kāi)放的API接口,并結(jié)合網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取相關(guān)數(shù)據(jù)。這些數(shù)據(jù)主要包括賬戶基本資料、歷史微博信息、好友關(guān)系(關(guān)注及粉絲列表),分別將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)的相應(yīng)表中。本文只采集了賬戶的前200條微博和社會(huì)關(guān)系,一方面是為降低時(shí)間和空間開(kāi)銷,另一方面是因?yàn)橄嚓P(guān)研究[6]表明,賬戶的部分歷史數(shù)據(jù)在一定程度上可以判定賬戶是否具有炒作嫌疑。

由于目前尚沒(méi)有標(biāo)準(zhǔn)的炒作賬戶數(shù)據(jù)集,本文采用人工標(biāo)注的方式對(duì)實(shí)驗(yàn)所需的數(shù)據(jù)集進(jìn)行構(gòu)建。另外,標(biāo)注數(shù)據(jù)集需滿足以下3個(gè)條件:(1)數(shù)據(jù)集要有一定的規(guī)模,而且炒作賬戶與正常賬戶的比例盡量符合真實(shí)情況;(2)盡量將炒作嫌疑較大、影響微博正常傳播的賬戶標(biāo)注為炒作賬戶;(3)在進(jìn)行標(biāo)注時(shí)盡可能避免人為主觀因素造成的影響。

為滿足以上3個(gè)條件,本文從2013年6月-2014年1月期間的3個(gè)不同話題中隨機(jī)選擇賬戶進(jìn)行標(biāo)注,這3個(gè)話題分別為:(1)“3Q大戰(zhàn)”;(2)“涼茶之爭(zhēng)”;(3)某減肥產(chǎn)品廣告。經(jīng)研究發(fā)現(xiàn),以上3個(gè)話題中均有炒作賬戶參與的痕跡。為避免認(rèn)為主觀因素造成的影響,對(duì)每個(gè)賬戶均由2個(gè)人進(jìn)行標(biāo)注,當(dāng)且僅當(dāng)標(biāo)注結(jié)果一致時(shí)才將該賬戶存儲(chǔ)到數(shù)據(jù)集中。最終對(duì)7 648個(gè)賬戶進(jìn)行了標(biāo)注,其中有6 687個(gè)正常賬戶,961個(gè)炒作賬戶。此外,采集到這些賬戶的歷史微博數(shù)目為1 315 453,好友關(guān)系數(shù)目為2 417 387。在后續(xù)實(shí)驗(yàn)中,本文將采用交叉驗(yàn)證的方式交替地將標(biāo)注好的數(shù)據(jù)集作為訓(xùn)練集和測(cè)試集。

5.2 特征子集篩選

在對(duì)炒作賬戶識(shí)別方法進(jìn)行評(píng)估前,本文首先在WEKA[14]實(shí)驗(yàn)平臺(tái)上,利用其內(nèi)嵌的特征選擇算法,從原始特征集中篩選出特征子集,然后分別利用原始特征集和特征子集對(duì)方法效果進(jìn)行評(píng)估。

本文選用WEKA中的2種算法進(jìn)行特征選擇,分別為 ChiSquaredAttributeEval和 InfoGainAttributeEval,前者根據(jù)每一個(gè)特征的卡方值進(jìn)行評(píng)估,后者根據(jù)每一個(gè)特征的信息增益進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),利用以上2種特征選擇算法得到的特征子集是基本一致的,只是對(duì)個(gè)別特征的重要性排序稍有不同。表1為利用信息增益方法得到的特征子集列表。

表1 微博賬戶特征子集

從表1可以發(fā)現(xiàn),賬戶關(guān)注好友的質(zhì)量最能體現(xiàn)炒作賬戶和正常賬戶之間的區(qū)別,其次為反映賬戶狀態(tài)和微博質(zhì)量的特征,而較難從賬戶粉絲質(zhì)量和發(fā)布微博的個(gè)人習(xí)慣上區(qū)分炒作賬戶和正常賬戶。

5.3 評(píng)價(jià)指標(biāo)

為評(píng)估炒作賬戶識(shí)別效果的優(yōu)劣,本文利用常用的分類模型評(píng)估指標(biāo)對(duì)算法性能進(jìn)行評(píng)估。表2為炒作賬戶識(shí)別結(jié)果的混淆矩陣。

表2 炒作賬戶識(shí)別結(jié)果混淆矩陣

常用評(píng)價(jià)指標(biāo)主要包括:準(zhǔn)確率(P),召回率(R),誤報(bào)率(FP)以及F1度量值(F1),計(jì)算公式如下:

(1)準(zhǔn)確率:

(2)召回率:

(3)誤報(bào)率:

(4)F1度量值:

5.4 結(jié)果分析

為評(píng)估篩選后特征子集的判別能力,本文在WEKA實(shí)驗(yàn)平臺(tái)上,分別利用原始特征集和特征子集對(duì)分類模型進(jìn)行評(píng)估,選用4種常用的分類算法:樸素貝葉斯(Na ve Bayes,NB),隨機(jī)森林(Random Forest,RF),支持向量機(jī)(Support Vector Machine,SVM)以及 K 最近鄰(K Nearest Neighbor,KNN)分類算法[15]。在進(jìn)行評(píng)估時(shí),采用10折交叉驗(yàn)證的方式,并依據(jù)4個(gè)常用的評(píng)價(jià)指標(biāo)綜合比較分類器的性能。實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 不同分類算法在2種特征集下的性能對(duì)比

從圖5可以看出,將篩選出的特征子集應(yīng)用于4種分類器的評(píng)估效果要明顯優(yōu)于原始特征集,說(shuō)明本文的特征選擇方法是有效的。其中,支持向量機(jī)分類器(SVM)的分類效果最好,準(zhǔn)確率可達(dá)到95%,而且誤報(bào)率只有0.9%。

綜上所述,本文提出的基于特征分析的炒作賬戶識(shí)別方法能有效發(fā)現(xiàn)微博中的炒作賬戶,具有較高的準(zhǔn)確率。同時(shí),與傳統(tǒng)的人工識(shí)別方式相比,本文方法能高效地解決炒作賬戶識(shí)別問(wèn)題,為網(wǎng)絡(luò)違規(guī)行為取證提供了可靠依據(jù)。

6 結(jié)束語(yǔ)

本文對(duì)微博中的炒作賬戶進(jìn)行深入研究,提出一種基于特征分析的炒作賬戶識(shí)別方法。該方法從3個(gè)方面對(duì)賬戶特征進(jìn)行提取,并利用特征選擇技術(shù)從原始特征集中篩選出具有顯著判別能力的特征子集,最后在多種分類器上對(duì)識(shí)別效果進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文方法能有效識(shí)別出微博中的炒作賬戶,其中支持向量機(jī)分類算法效果最好,準(zhǔn)確率高達(dá)95%。目前對(duì)炒作賬戶的研究尚處于起步階段,下一階段的工作主要包括:(1)充分考慮炒作賬戶參與微博炒作的時(shí)間特征、發(fā)布內(nèi)容特征以及情感特征等,以發(fā)現(xiàn)更隱蔽的炒作賬戶;(2)進(jìn)一步研究炒作賬戶間的組織架構(gòu),對(duì)重點(diǎn)炒作賬戶進(jìn)行監(jiān)管。

[1] Kwak H,Lee C,Parket H,et al.What Is Twitter,A Social Network or a News Media[C]//Proceedings of the 19th International Conference on World Wide Web.New York,USA:ACM Press,2010:591-600.

[2] 陳 昱,張慧琳.社會(huì)計(jì)算在信息安全中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2011,51(10):1323-1328.

[3] Zhou Yi,Chen Kai,Song Li,et al.Feature Analysis of Spammers in Social Networks with Active Honeypots:A Case Study of Chinese Microblogging Networks[C]//Proceedings of the International Conference on Advances in Social Networks Analysis and Mining.Washington D.C.,USA:IEEE Press,2012:728-729.

[4] Yang C,Harkreader R,Zhang J.Analyzing Spammer’s Social Networks for Fun and Profit[C]//Proceedings of the 21th International Conference on World Wide Web.New York,USA:ACM Press,2012:71-80.

[5] 丁兆云,周 斌,賈 焰,等.微博中基于統(tǒng)計(jì)特征與雙向投票的垃圾用戶發(fā)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(11):2336-2348.

[6] McCord M,Chuah M.Spam Detection on Twitter Using Traditional Classifiers[C]//Proceedings ofthe 8th International Conference on Autonomic and Trusted Computing.Piscataway,USA:IEEE Press,2011:175-186.

[7] Thomas K,GrierC,Paxson V,etal.Suspended Accounts in Retrospect:An Analysis of Twitter Spam[C]//Proceedings of the 11th ACM SIGCOMM International Conference on Internet Measurement Conference.New York,USA:ACM Press,2011:243-258.

[8] Bu Zhan,Xia Zhengyou,Wang Jiandong.A SockPuppet Detection Algorithm on Virtual Spaces[J].Knowledgebased Systems,2013,37:366-377.

[9] Zheng Xueling,Lai Yiu Ming,Chow K P,et al.Sockpuppet Detection in Online Discussion Forums[C]//Proceedings ofthe 7th International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Washington D.C.,USA:IEEE Press,2011:374-377.

[10] Chu Zi,Gianvecchio S,Wang Haining,et al.Who Is Tweeting on Twitter:Human,Bot,or Cyborg[C]//Proceedings ofthe 26th Annual Computer Security Applications Conference.New York,USA:ACM Press,2010:21-30.

[11] 方 明,方 易.一種新型智能僵尸粉甄別方法[J].計(jì)算機(jī)工程,2013,39(4):190-193,198.

[12] 韓家煒.?dāng)?shù)據(jù)挖掘:概念與技術(shù)[M].3版.北京:機(jī)械工業(yè)出版社,2012.

[13] Hofman J M,Winter A.Who Says What to Whom on Twitter[C]//Proceedingsofthe 20th International Conference on World Wide Web.New York,USA:ACM Press,2011:705-714.

[14] Hall M,F(xiàn)rank E,Holmes G,et al.The WEKA Data Mining Software:An Update[J].SIGKDD Explorations,2009,11(1):10-18.

[15] Tan P,Steinbach M,Kumar V.?dāng)?shù)據(jù)挖掘?qū)д?完整版)[M].范 明,范宏建,譯.北京:人民郵電出版社,2011.

猜你喜歡
特征選擇子集賬戶
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
探索自由貿(mào)易賬戶體系創(chuàng)新應(yīng)用
外匯賬戶相關(guān)業(yè)務(wù)
父親的股票賬戶
特別健康(2018年4期)2018-07-03 00:38:20
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
每一次愛(ài)情都只是愛(ài)情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
四子王旗| 天祝| 阿克| 肥城市| 泰来县| 汉阴县| 来安县| 玉树县| 新巴尔虎右旗| 台中县| 密山市| 高安市| 娄底市| 镇平县| 江门市| 长顺县| 嵩明县| 宣武区| 沿河| 邢台县| 丹凤县| 南岸区| 淮北市| 泽普县| 日土县| 会昌县| 扎赉特旗| 武功县| 余干县| 曲阳县| 龙川县| 湟源县| 建宁县| 普定县| 调兵山市| 临武县| 平安县| 美姑县| 普宁市| 苍南县| 陈巴尔虎旗|