王龍
摘要:社交網(wǎng)絡(luò)的數(shù)據(jù)中蘊(yùn)含著大量有關(guān)現(xiàn)實(shí)中各種事件的信息。使用異常事件檢測模型準(zhǔn)確及時地發(fā)現(xiàn)社交網(wǎng)絡(luò)上傳播的異常事件信息,對于實(shí)現(xiàn)智慧城市感知社會異常動態(tài)事件,有效提高社會管理應(yīng)對效率具有關(guān)鍵作用。本文定義了基于社交網(wǎng)絡(luò)的有權(quán)無向圖,根據(jù)異常事件的特征對社交網(wǎng)絡(luò)中事件進(jìn)行了主題分類和篩選,構(gòu)建了一個基于分層社區(qū)的異常事件檢測模型,從而可以實(shí)現(xiàn)對城市區(qū)域異常事件的檢測。
關(guān)鍵詞:社交網(wǎng)絡(luò)分析;異常事件檢測;分層社區(qū)
中圖分類號:TP393
文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)04-0017-03
Research on anomaly Detection Model of Social Network Based on Hierarchical Community
WANG Long
(Guangdong Medical University,Zhanjiang 524023,China)
Abstract:Social network data contains a lot of information about various events in reality.Using anomaly event detection model to accurately and timely discover the information of abnormal events spread on social networks plays a key role in realizing smart cities' percep-tion of social abnormal dynamic events and effectively improving social management response efficiency.This paper defines a hierarchical community of social network abnormal events Based on the weighted undirected graph,classifies and filters the events in social network according to the characteristics of abnormal events,constructs an abnormal event detection model,and realizes the detection of abnormal events in urban areas.
Key words:social network analysis;abnormal event detection;hierarchical community
1 概述
隨著以微博、微信為代表的社交網(wǎng)絡(luò)的廣泛應(yīng)用,已經(jīng)取代了傳統(tǒng)媒體和個人網(wǎng)站等手段,成為人們發(fā)布和分享信息的主要平臺。每天都有大量社會事件通過社交網(wǎng)絡(luò)進(jìn)行傳播,這些事件主題的性質(zhì)類別多種多樣,包含娛樂動態(tài),社會事件,政治新聞以及自然災(zāi)害等。社交網(wǎng)絡(luò)用戶在發(fā)現(xiàn)有興趣的事件發(fā)生時習(xí)慣于在社交網(wǎng)絡(luò)平臺上發(fā)表自己的觀點(diǎn)或報告事件的發(fā)生,分析和挖掘社交網(wǎng)絡(luò)中積累的大量數(shù)據(jù)中的事件主題特征,對于在智慧城市感知建設(shè)中社會異常事件的檢測具有極大的價值。
目前各類流行的社交網(wǎng)絡(luò)應(yīng)用中的信息都具有碎片化、數(shù)據(jù)量大、時效性高,用戶聚合度不平衡的特點(diǎn),且討論主題不受時空的限制,使用人工檢測方式不能及時有效地發(fā)現(xiàn)和挖掘相關(guān)事件。因此,面向社交網(wǎng)絡(luò)中的討論主題實(shí)現(xiàn)異常話題檢測,借助事件檢測技術(shù)來及時、準(zhǔn)確地獲取網(wǎng)絡(luò)中傳播的異常事件描述,對于建設(shè)智慧城市感知系統(tǒng),高效地獲取信息,掌握社會環(huán)境的實(shí)時動態(tài)具有現(xiàn)實(shí)意義。
2 異常事件檢測
社交網(wǎng)絡(luò)上傳播的文本數(shù)據(jù)簡短,且多為不規(guī)范的網(wǎng)絡(luò)用語,往往帶有大量噪音數(shù)據(jù)。利用網(wǎng)絡(luò)爬蟲技術(shù)可以實(shí)現(xiàn)對社交網(wǎng)絡(luò)頁面信息的爬取,獲得原始文本數(shù)據(jù)集。將獲得的文本數(shù)據(jù)按照時間空間序列排列,然后根據(jù)異常事件特征對文本數(shù)據(jù)進(jìn)行預(yù)處理,濾除干擾和無用信息,可以構(gòu)造異常事件特征文本庫。
在現(xiàn)有事件檢測相關(guān)研究多在熱點(diǎn)事件發(fā)現(xiàn),沒有明確異常事件的時空特征,忽略了兩者的特點(diǎn)。異常事件的特點(diǎn)是在事件發(fā)生前的相關(guān)話題強(qiáng)度很低,基于時間空間序列的話題強(qiáng)度突然升高,在單位事件區(qū)域內(nèi)的升高頻率明顯很高。而熱點(diǎn)事件,類似娛樂新聞事件,具有一定的持續(xù)度和話題強(qiáng)度,單位事件區(qū)域內(nèi)頻率升高較為平穩(wěn)。
完成異常事件檢測,首先要識別出關(guān)鍵的異常特征詞,完成事件詞向量的構(gòu)建。同時識別社交網(wǎng)絡(luò)中的權(quán)威活躍節(jié)點(diǎn)用戶,然后根據(jù)相關(guān)詞語出現(xiàn)的關(guān)聯(lián)度來描述話題主題的傾向,根據(jù)發(fā)布信息的社交網(wǎng)絡(luò)用戶活躍性和權(quán)威性來描述話題聚合程度,構(gòu)建事件分層社區(qū)來歸類事件類別。而現(xiàn)有社交網(wǎng)絡(luò)檢測事件中監(jiān)測節(jié)點(diǎn)沒有區(qū)分權(quán)威性和活躍度指標(biāo)、面對所有節(jié)點(diǎn)檢測效率不夠、非活躍用戶對結(jié)果產(chǎn)生噪音數(shù)據(jù)影響,存在識別錯誤情況。因此需要高效判別社交網(wǎng)絡(luò)中信息發(fā)布的權(quán)威活躍節(jié)點(diǎn),還要識別非活躍用戶和劃分基于事件信息的分層主題社區(qū)、異常事件過濾等問題,從而建立一個相對實(shí)用的異常事件檢測方法。實(shí)現(xiàn)了社交網(wǎng)絡(luò)中異常事件話題的發(fā)現(xiàn),使得在異常事件發(fā)生時能夠?qū)κ录钟懈玫卣莆铡?/p>
3 異常事件檢測模型
一般的,描述一個事件可以用一組可唯一描述事件的相互密切關(guān)聯(lián)的特征詞的集合。這樣事件檢測的工作就演變?yōu)閺娜舾啥挝谋局袑⒖梢悦枋鎏囟ㄊ录囊唤M特征詞找出來。當(dāng)某一或某一類特定事件發(fā)生時,與此事件相關(guān)的特征詞在事件發(fā)生的單位時間內(nèi)出現(xiàn)頻率會迅速增加,與此事件相關(guān)的一組特征詞組的出現(xiàn)頻率也會同時迅速增加。從詞之間的語義和關(guān)聯(lián)性看,詞組在社交網(wǎng)絡(luò)文本中同時出現(xiàn)的頻率必定很高,且其中一個詞的出現(xiàn)對另一個詞地出現(xiàn)影響非常大,存在著強(qiáng)關(guān)聯(lián)關(guān)系。為了描述事件的這些特征,可建立有向加權(quán)圖,以子圖或社區(qū)的形式表示事件。
雖然社交網(wǎng)絡(luò)的文本數(shù)據(jù)數(shù)量大且噪聲多,但通過異常特征詞的共現(xiàn)關(guān)系能夠很好地捕捉特征詞之間的語義關(guān)系,以特征詞共現(xiàn)關(guān)系構(gòu)建的加權(quán)有向圖為基礎(chǔ),可選用其中的關(guān)鍵節(jié)點(diǎn)來檢測事件信息,實(shí)現(xiàn)基于權(quán)威活躍節(jié)點(diǎn)用戶的事件分層社區(qū)發(fā)現(xiàn)算法。算法舍棄了大量噪聲文本構(gòu)成的主題社區(qū),降低了事件發(fā)現(xiàn)的復(fù)雜度。同時,不同事件社區(qū)的檢測互不干擾,能很好地處理異常事件社區(qū)發(fā)現(xiàn)。該模型中可用LDA分布作為用戶在事件上的分布,事件初始LDA分布,事件在詞語上為多項(xiàng)式分布。LDA分布和多項(xiàng)式分布互為共輒分布,可簡化模型的推導(dǎo)。
3.1 基本概念
事件數(shù)據(jù):
實(shí)體間在特定時間地點(diǎn)發(fā)生的相互作用稱為事件。事件數(shù)據(jù)包括主體、客體、行為、時間、地點(diǎn)等信息。
異常事件:
基于智慧城市感知中的異常事件是指異于平常發(fā)生,造成或者可能造成社會影響或危害,需要采取處置措施予以應(yīng)對的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會安全等事件。
社交網(wǎng)絡(luò)中事件異常特征:
社交網(wǎng)絡(luò)中的異常事件具有突發(fā)特征,是在社交網(wǎng)絡(luò)中先前若干時間段內(nèi)該事件很少被用戶討論或者被討論頻次呈現(xiàn)平穩(wěn)分布,但是在當(dāng)前時間段內(nèi)以高頻次出現(xiàn)的事件,與熱點(diǎn)事件應(yīng)當(dāng)有所區(qū)分。社交網(wǎng)絡(luò)中的熱點(diǎn)事件往往是在一段時間內(nèi)受到持續(xù)關(guān)注和討論的事件,具有一定的持續(xù)性,與異常事件有很大區(qū)別。
基于主題關(guān)聯(lián)度的分層社區(qū)分類:
設(shè)有描述社交網(wǎng)絡(luò)的有向無權(quán)圖G=(V,E),其中V代表用戶節(jié)點(diǎn)集合,且共有n個用戶節(jié)點(diǎn),E代表用戶有向關(guān)系集合,eij代表連接Vi、Vj兩節(jié)點(diǎn)的有向邊。若將網(wǎng)絡(luò)G劃分成K份,G即為K個節(jié)點(diǎn)集合。若劃分成具備對于每個都滿足節(jié)點(diǎn)集合p內(nèi)的節(jié)點(diǎn)主題關(guān)聯(lián)強(qiáng)度密集、和節(jié)點(diǎn)集合p外主題關(guān)聯(lián)強(qiáng)度稀疏的特點(diǎn),那么就叫p為G的基于主題關(guān)聯(lián)程度的社區(qū)分類。
3.2 基于詞頻組共現(xiàn)關(guān)系的有向加權(quán)圖
設(shè)G是一個有向加權(quán)圖,G=(V,E,W),V是G的特征詞節(jié)點(diǎn),表示可以描述一段文本的特征詞組,E是圖中有向邊的集合,表示各詞組之間語義的共現(xiàn)關(guān)系,W是權(quán)值集合,表示詞組節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度。當(dāng)使用向量空間模型描述圖G時,可構(gòu)建文本特征詞組矩陣。詞組矩陣的一行表示一段描述一個話題的相關(guān)文本,矩陣的列表示特征詞庫中的一個詞,矩陣元素則是對應(yīng)特征詞的語義關(guān)聯(lián)度權(quán)值。矩陣中每一行文本向量的維度都等同特征詞庫的規(guī)模。若行向量空間中有D個文本向量,則D是描述事件話題的文本集合。di是第i個文本向量,V的絕對值是事件特征詞庫的大小。Sij則是對應(yīng)的第j個詞出現(xiàn)在第i個文本中的權(quán)值。
其中,vfkj是詞vj出現(xiàn)在文本中的頻率,dvfj是詞vj的逆頻率。L為平滑因子。
利用權(quán)值閾值判斷可將G中低頻詞和常用詞節(jié)點(diǎn)過濾掉,將剩余的詞組節(jié)點(diǎn)構(gòu)建為G。若任意兩個詞在同一或多段文本中出現(xiàn),則在兩個節(jié)點(diǎn)詞之間添加一條有向邊,邊的方向從關(guān)聯(lián)強(qiáng)度大的節(jié)點(diǎn)i指向關(guān)聯(lián)強(qiáng)度小的節(jié)點(diǎn)j,這一有向邊的權(quán)值是關(guān)聯(lián)強(qiáng)度系數(shù)pij。
nij表示含有特征詞i和j的文本數(shù)量。ni表示包含特征詞i的數(shù)量。nj表示包含詞組j的數(shù)量。N是特征詞庫中的總文本數(shù)量。
在計算關(guān)聯(lián)強(qiáng)度系數(shù)pij的公式中,反映了一個特征詞出現(xiàn)在文本中時引起另一個特征詞在同一段文本中出現(xiàn)的可能性。公式的第一項(xiàng)會隨著含有特征詞Vi和Vj的文本數(shù)量的增大而增大,第二項(xiàng)會隨著含詞組Vj的文本數(shù)量的增加而減小。關(guān)聯(lián)強(qiáng)度系數(shù)的大小也描述了詞組之間的語義相關(guān)程度和關(guān)聯(lián)強(qiáng)度,這對事件的分層社區(qū)劃分很有意義。
3.3 分層社區(qū)的耦合程度
每一個包含權(quán)威節(jié)點(diǎn)的詞組集合都是一個事件社區(qū),因?yàn)镚,是一個加權(quán)有向圖網(wǎng)絡(luò),可以標(biāo)識出G中的權(quán)威節(jié)點(diǎn)??梢葬娪妙愃朴嬎憔W(wǎng)頁排名的算法來尋找G中的權(quán)威節(jié)點(diǎn)。對于G中的節(jié)點(diǎn),可計算節(jié)點(diǎn)權(quán)威指數(shù):
其中Wjj為節(jié)點(diǎn)為vi和vj間的權(quán)值,In(vi)為從節(jié)點(diǎn)vi指向的節(jié)點(diǎn)集合,Out(vi)為指向vi的鄰居節(jié)點(diǎn)集合。d在0到1的開區(qū)間取值,取0.85。在描述一個事件的詞語集合中,越是權(quán)威的詞出現(xiàn)的頻率越高,和集合中其他詞共現(xiàn)的頻率也越高,同時和其他詞的關(guān)聯(lián)強(qiáng)度也會越強(qiáng)。G,結(jié)構(gòu)中,計算岀的詞語節(jié)點(diǎn)權(quán)威指數(shù)ws(v)也越高。因此可以根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)的得分ws(vi)排序來標(biāo)識權(quán)威節(jié)點(diǎn)序列。
基于G圖的分層社區(qū)檢測就是將緊密連接的節(jié)點(diǎn)劃分到同一個社區(qū),使得社區(qū)內(nèi)部節(jié)點(diǎn)耦合緊密,社區(qū)間的節(jié)點(diǎn)耦合稀疏??梢杂蒙鐓^(qū)分層指數(shù)來衡量社區(qū)的耦合程度,社區(qū)分層指數(shù)取值介于-1和1之間,衡量了社區(qū)內(nèi)部節(jié)點(diǎn)與社區(qū)節(jié)點(diǎn)相比的耦合程度。社區(qū)分層指數(shù)越高,說明社區(qū)內(nèi)部的節(jié)點(diǎn)耦合越緊密,社區(qū)間的節(jié)點(diǎn)耦合越稀疏。定義G,圖社區(qū)分層指數(shù):
Aij表示有向邊的權(quán)值,k是與節(jié)點(diǎn)i相連的所有邊的權(quán)值之和。是閾值參數(shù),m是G中所有邊權(quán)值之和。
3.4 基于分層社區(qū)的事件檢測
分別初始化每一個關(guān)鍵節(jié)點(diǎn)為一個只包含節(jié)點(diǎn)自身的事件社區(qū),然后考察每一個事件社區(qū)Ck的相鄰節(jié)點(diǎn)Vj,嘗試將其加入社區(qū)。若該節(jié)點(diǎn)加入能使社區(qū)的分層指數(shù)增大,則將Vj加入,否則不加入,如此循環(huán)直到?jīng)]有節(jié)點(diǎn)加入為止。這樣實(shí)現(xiàn)基于K個權(quán)威節(jié)點(diǎn)的事件社區(qū)發(fā)現(xiàn),減少了非權(quán)威無關(guān)節(jié)點(diǎn)的事件社區(qū)檢測工作量,不會提取包含大量噪聲的事件社區(qū)。同時K個事件社區(qū)的提取可以同時進(jìn)行,提高了效率。由于考察節(jié)點(diǎn)加入某個社區(qū),社區(qū)分層指數(shù)的變化量計算為:
其中,∑in是社區(qū)C內(nèi)部所有邊的權(quán)值和,∑tot是社區(qū)C內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)直連邊的權(quán)值和。kin是與節(jié)點(diǎn)i相鄰邊的權(quán)值和,虹是節(jié)點(diǎn)i與社區(qū)C內(nèi)部節(jié)點(diǎn)相連邊的權(quán)值和。
算法實(shí)現(xiàn):
輸入:有向加權(quán)圖G=(V,E,W),關(guān)鍵節(jié)點(diǎn)序列:KV={v1,v2,……vk}
輸出:事件社區(qū)向量:C={C1,C2,……C})
根據(jù)K個節(jié)點(diǎn)初始化生成K個事件社區(qū);C1={v1},C2={v2,……Ck={vk};
for Ci(i=l,......k)do
for Ci的每一個鄰居節(jié)點(diǎn)vj do
if ?S〉閾值 then
Ci=Ci U Vj
endif
endfor
endfor
算法輸入為K個節(jié)點(diǎn)序列,輸岀是K個事件社區(qū)向量。由于在有向圖中,若描述同一事件的詞語之間關(guān)聯(lián)程度強(qiáng),將會劃分到同一社區(qū),若不同事件的描述詞語之間關(guān)聯(lián)性較強(qiáng),將會劃分到不同社區(qū)。算法通過考察K個關(guān)鍵節(jié)點(diǎn),以社區(qū)分層指數(shù)來劃分事件社區(qū)。有利于使社區(qū)內(nèi)部緊密耦合,社區(qū)間盡量松散,從而使描述相同事件的關(guān)聯(lián)性強(qiáng)的詞語劃分到相同事件社區(qū)中。
通常一個事件很可能有多個關(guān)鍵節(jié)點(diǎn),導(dǎo)致不同的事件社區(qū)很有可能描述的是同一事件。因此在檢測出異常事件的社區(qū)后,要合并重復(fù)的事件社區(qū)。這部分工作可以利用通過有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換模型將事件社區(qū)轉(zhuǎn)換為詞向量,使用余弦相似度來衡量兩個向量之間的相似程度:若兩個向量的相似度大于0.5,則合并向量。
4 結(jié)束語
本文對社交網(wǎng)絡(luò)的事件發(fā)現(xiàn)算法模型進(jìn)行了研究。分析了一種基于加權(quán)有向圖的分層社區(qū)異常事件檢測算法,通過關(guān)鍵特征詞的共現(xiàn)關(guān)系構(gòu)建一個加權(quán)有向圖,特征詞之間的分層指數(shù)作為其權(quán)值,邊的權(quán)值則反映了它們之間的關(guān)聯(lián)強(qiáng)度。描述相同事件的詞在圖中會聚合為事件社區(qū)。每一個事件視為該有向圖的一個子圖或者社區(qū)。實(shí)現(xiàn)了基于關(guān)鍵節(jié)點(diǎn)的事件分層社區(qū)檢測,圖中有向邊權(quán)值量化了詞語的關(guān)聯(lián)程度,更利于事件檢測。在檢測事件之前先標(biāo)識了圖中的權(quán)威活躍節(jié)點(diǎn),只分析提取k個關(guān)鍵節(jié)點(diǎn)的事件子圖,有效降低了復(fù)雜度。通過指定關(guān)鍵詞節(jié)點(diǎn)的方法很容易將算法修改為指定事件檢測的算法。
參考文獻(xiàn):
[1] 李洋,陳毅恒,劉挺.微博信息傳播預(yù)測研究綜述[J].軟件學(xué)報,2016,27(2):247-263.
[2] 李彪.微博中熱點(diǎn)話題的內(nèi)容特質(zhì)及傳播機(jī)制研究——基于新浪微博6025條高轉(zhuǎn)發(fā)微博的數(shù)據(jù)挖掘分析[J].中國人民大學(xué)學(xué)報,2013,27(5):10-17.
[3] 丁晟春,龔思蘭,李紅梅.基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J].現(xiàn)代圖書情報技術(shù),2O16(Z1):12-20.
[4] 葉川,馬靜.多媒體微博評論信息的主題發(fā)現(xiàn)算法研究[J].現(xiàn)代圖書情報技術(shù),2015(11):51-59.
[5] 曾金,陸偉,丁恒,等.基于圖像語義的用戶興趣建模[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017(4):76-83.
[通聯(lián)編輯:光文玲]