黃喆婷,周安民(四川大學(xué)電子信息學(xué)院,成都 610065)
基于中心子團的社區(qū)發(fā)現(xiàn)方法
黃喆婷,周安民
(四川大學(xué)電子信息學(xué)院,成都610065)
現(xiàn)實世界中復(fù)雜網(wǎng)絡(luò)無處不在,如:社會網(wǎng)絡(luò)、電力網(wǎng)絡(luò)、生物網(wǎng)絡(luò)、航空網(wǎng)絡(luò)等。通過將對象表示成網(wǎng)絡(luò)中的節(jié)點,對象之間的關(guān)系表示成網(wǎng)絡(luò)中的邊,可以將網(wǎng)絡(luò)表示成圖模型。1998年,Watts和Strogatz在論文中提出了復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng) (small-world effect)[1]。1999年,Barabási和Albert在論文中提出了網(wǎng)絡(luò)的無標(biāo)度(scale free)特性[2]。除此之外,真實網(wǎng)絡(luò)還存在著社區(qū)結(jié)構(gòu)[3-5]。網(wǎng)絡(luò)是由許多類型的節(jié)點組合而成,同一類型的節(jié)點之間聯(lián)系緊密,不同類型的節(jié)點之間聯(lián)系稀疏。所謂社區(qū)則是由同一類型的節(jié)點及節(jié)點之間的邊所構(gòu)成的子圖。
“一向只有我影響別人。今天的作業(yè)我寫完了,這兩本借你抄抄,明天記得給我?guī)н^來?!壁w明月臨走前,把數(shù)學(xué)、英語作業(yè)本塞到王施凱手里。
對于社區(qū)發(fā)現(xiàn),已存在很多研究方法,其中基于網(wǎng)絡(luò)結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)較為流行。2002年,Girvan和Newman提出了GN算法[3],該算法是一種基于邊中介概念的分裂型算法,它通過刪除邊中介值最大的邊從而得到最終的社區(qū)結(jié)構(gòu)。2004年,Newman提出了基于局部搜索的快速Newman算法[6],在此基礎(chǔ)上又提出了CNM[7]算法。該算法引入了模塊度增量矩陣和堆結(jié)構(gòu),是一種高效的凝聚型算法。除此之外,還有許多社區(qū)發(fā)現(xiàn)算法,例如:Infomap[8]、BGLL[9]算法和COPRA[10]等。國內(nèi)也有很多社區(qū)發(fā)現(xiàn)相關(guān)算法,如:蟻群算法[11]、遺傳算法[12]和廣義網(wǎng)絡(luò)社區(qū)挖掘算法[13]等。每種算法都有各自的優(yōu)勢和局限性。
將網(wǎng)絡(luò)合理地劃分為社區(qū)可以帶來重要的價值。例如:社交網(wǎng)絡(luò)中的社區(qū),可以用于發(fā)現(xiàn)用戶可能感興趣的話題;引文作者網(wǎng)絡(luò)中的社區(qū),其作者都有著相似的研究內(nèi)容;生物網(wǎng)絡(luò)中的社區(qū),可以用于發(fā)現(xiàn)生物系統(tǒng)中功能相同的結(jié)構(gòu)單元。通過社區(qū)發(fā)現(xiàn),可以挖掘出隱藏在這些網(wǎng)絡(luò)中的新知識,有助于更好地理解和開發(fā)這些網(wǎng)絡(luò)。
1.1中介中心性
在中華龍舟大賽的影響下,萬寧正實現(xiàn)著快速騰飛,賽事帶動城鎮(zhèn)化發(fā)展,整合了文化、海產(chǎn)品等豐富資源,打造了別具一格的龍舟風(fēng)情小鎮(zhèn)。如今,當(dāng)你行走在港口的商業(yè)街上,尖尖的屋頂鱗次櫛比,深藍(lán)色的琉璃瓦流光溢彩宛如龍鱗,俯瞰下,整個小鎮(zhèn)都好似一條騰飛的巨龍。
社會網(wǎng)絡(luò)可以表示成G=(V,E)的形式,其中V= {v1,v2,…,vn}表示由n個節(jié)點構(gòu)成的集合,E={e1,e2,…,em}表示由m條邊構(gòu)成的集合。中介中心性是根據(jù)網(wǎng)絡(luò)中的節(jié)點之間的最短路徑所要經(jīng)過某一節(jié)點的概率來定義的。無向網(wǎng)絡(luò)的中介中心度可以用以下公式計算:
其中,σst表示節(jié)點s到節(jié)點t的最短路徑數(shù)量,σst(v)表示從節(jié)點s到節(jié)點t的最短路徑中經(jīng)過節(jié)點v的路徑的數(shù)量。中介中心度表示一個節(jié)點作為媒介的能力,它可以衡量一個節(jié)點在網(wǎng)絡(luò)中的重要程度。網(wǎng)絡(luò)中節(jié)點間的最短路徑經(jīng)過某一節(jié)點的概率越大,則該節(jié)點的重要性越高。
2.1社區(qū)發(fā)現(xiàn)算法流程圖
由中介中心度的計算公式可知,要得到其值必須要計算網(wǎng)絡(luò)中各節(jié)點之間的最短路徑。本文針對無權(quán)網(wǎng)絡(luò)采用廣度優(yōu)先搜索(breadth_first search)遍歷算法計算出網(wǎng)絡(luò)中任意兩點之間的最短路徑。對于無向連通圖,廣度優(yōu)先搜索先從圖的某一頂點V0出發(fā),然后訪問V0所有未被訪問過的鄰接點V1,V2,V3,…,Vn,接著再依次訪問V1,V2,V3,…,Vn的各個未被訪問過的鄰接點。重復(fù)以上步驟,直到圖中所有頂點都被訪問過。如圖1所示,以V0作為起始頂點,按照廣度優(yōu)先搜索,則訪問順序為:V0,V1,V2,V3,V4,V5,V6,V8,V7。假設(shè)要求V0到V8的最短路徑,則從V0開始搜索,先訪問V1,V2,V3,接著再訪問 V4,V5,V6,V8,此時找到 V8,則搜索結(jié)束,得出最短路徑。
圖1 廣度優(yōu)先搜索求最短路徑圖例
1.3節(jié)點適應(yīng)度
節(jié)點適應(yīng)度表示一個節(jié)點對某一社區(qū)適應(yīng)度的貢獻(xiàn)值。先給出社區(qū)C的適應(yīng)度的定義:
分別設(shè)置相應(yīng)閾值,當(dāng)節(jié)點與某一核心節(jié)點之間的拓?fù)渚嚯x小于所設(shè)置的閾值且與該核心節(jié)點之間的中介中心度的差值小于所設(shè)置的閾值時,將這個節(jié)點劃分到該核心節(jié)點所在的中心子團。如果某個節(jié)點被劃分到了多個中心子團,則將該節(jié)點作為預(yù)留節(jié)點,不加入到任何中心子團。
其中:fC+{N}表示社區(qū)C加入節(jié)點N的社區(qū)適應(yīng)度,fC-{N}表示社區(qū)C未加入節(jié)點N的社區(qū)適應(yīng)度。它們的差值即為節(jié)點N對社區(qū)C的節(jié)點適應(yīng)度。
根據(jù)廣度優(yōu)先搜索遍歷算法計算網(wǎng)絡(luò)中任意兩個節(jié)點之間的最短路徑。根據(jù)公式(1)計算網(wǎng)絡(luò)中所有節(jié)點的中介中心度,選擇中介中心度大于所設(shè)定閾值的節(jié)點作為準(zhǔn)核心節(jié)點。由于所選出的準(zhǔn)核心節(jié)點中可能會存在多個節(jié)點同屬于一個社區(qū),所以要避免這種情況的發(fā)生。將準(zhǔn)核心節(jié)點按照中介中心度由大到小排序,第一個準(zhǔn)核心節(jié)點被選為核心節(jié)點。在判斷下一個準(zhǔn)核心節(jié)點是否成為最后的核心節(jié)點之前,先依次分析此節(jié)點與之前所選的核心節(jié)點的共同鄰居數(shù)占其所有鄰居節(jié)點數(shù)量的比例,當(dāng)其值小于設(shè)定的閾值時,則該節(jié)點被選為最終的核心節(jié)點。
1.4模塊度
為什么小學(xué)數(shù)學(xué)應(yīng)當(dāng)以算術(shù)為核心呢?一個人的學(xué)習(xí)過程與人類知識體系的形成過程存在對應(yīng)關(guān)系.人類歷史上,算術(shù)是最早形成的學(xué)科;相應(yīng)的,兒童學(xué)習(xí)數(shù)學(xué),也宜從算術(shù)開始.算術(shù)的下列性質(zhì)應(yīng)當(dāng)?shù)玫秸J(rèn)識和肯定:
2.2 從畫面的景與現(xiàn)實中的景的差異中可以看出,畫中附記的“初上文殊院,觀前海諸峰”,畫面下部的寺院必定是文殊院,但據(jù)歷史了解到,寺院后面應(yīng)該是玉屏峰,是一個較低的小崖,規(guī)模并沒有這么復(fù)雜龐大。這座山峰恰與剛剛提到的似觀音石的天都峰相符[1]。實際上,石濤的別出心裁,從題詞就可以體會到,畫面的這條小路正是一條通往天上人間銀臺金闕的虛幻小路。石濤也是運用了景觀合成法來表現(xiàn)這奇幻的畫面,而不是真正的對景寫實。
(1)將每個中心子團作為一個初始社區(qū),根據(jù)公式(2)計算初始社區(qū)的社區(qū)適應(yīng)度。
其中,m為網(wǎng)絡(luò)的總邊數(shù),Qx為節(jié)點x同屬的社區(qū)個數(shù),Axy為網(wǎng)絡(luò)鄰接矩陣中的元素,如果x與y有連接,則Axy=1,否則Axy=0。kx為節(jié)點x的度。EQ值越大,則社區(qū)質(zhì)量越高。
1.2求最短路徑的有效方法
本文提出的社區(qū)發(fā)現(xiàn)算法的流程圖如圖2所示。此圖描述了如何基于中心子團挖掘社區(qū)結(jié)構(gòu)以及對重疊社區(qū)合并的過程。在1.2至1.6小節(jié),對算法的每一步做了詳細(xì)的說明。
目前來看,“套路貸”犯罪主要指向缺乏金融和法律知識的中低收入群體以及急需資金的創(chuàng)業(yè)者,他們對于“套路貸”犯罪的危害性往往認(rèn)識不足,為了周轉(zhuǎn)資金、超前消費或者套取賭資,在正規(guī)借貸渠道受阻的情況下轉(zhuǎn)而向?qū)で筚J款廣告或者職業(yè)介紹人的幫助,未經(jīng)深入研究或征得家人同意便輕信不法分子簽署虛高借貸合同。借款人因缺乏取證意識,以至于被不法分子所利用,導(dǎo)致事后難以根據(jù)現(xiàn)有證據(jù)有效判別借款、還款數(shù)額。也因缺少自我保護(hù)意識和基本的刑事、民事法律常識,以至于被不法分子“牽著鼻子走”,在其“引導(dǎo)”下進(jìn)行“層層平賬”,或交出身份證、房產(chǎn)證、營業(yè)證等重要證件進(jìn)行抵押,無形中助長了不法分子“索債”時的囂張氣焰。
2.2核心節(jié)點識別
例文(16)中,‘(餅干)’和‘(飲料)’的受事賓語沒有提及,因此對于句子意思而言就產(chǎn)生了歧義現(xiàn)象。如果改為‘’,這樣的句子意思就是‘老師給了我兩個餅干,和兩瓶飲料?!揪湓捑筒淮嬖谄缌x現(xiàn)象。但文章若是‘’的話,受事賓語是‘我們’,這時本句話就可以解釋為以下三種含義。
近年來,隨著“精益”被國內(nèi)醫(yī)療機構(gòu)逐漸認(rèn)知,如何快速習(xí)得一套便實可用的精益醫(yī)療管理體系,為醫(yī)院精益管理的院內(nèi)實踐落地作戰(zhàn)略指導(dǎo),并引領(lǐng)管理不斷推進(jìn),是每位精益學(xué)習(xí)院長期待的。
2.3挖掘中心子團
社區(qū)發(fā)現(xiàn)的目的是使社區(qū)內(nèi)部的節(jié)點間聯(lián)系緊密而社區(qū)之間的節(jié)點聯(lián)系稀疏。所以可以通過判斷某一節(jié)點與核心節(jié)點之間關(guān)系的親疏來判斷該節(jié)點是否屬于中心子團。通過以下兩個指標(biāo)衡量節(jié)點之間的關(guān)系親疏:
(1)節(jié)點之間中介中心度的差值;
2.4社區(qū)結(jié)構(gòu)發(fā)現(xiàn)
其中,KCin為社區(qū)C內(nèi)部所有節(jié)點連邊總和的二倍。KCout為社區(qū)C內(nèi)部節(jié)點與外部節(jié)點連邊總和。可以通過參數(shù)α來控制社區(qū)劃分規(guī)模的大小。通過以上定義,將節(jié)點N對社區(qū)C的節(jié)點適應(yīng)度定義為:
圖2 社區(qū)發(fā)現(xiàn)算法流程圖
(2)節(jié)點之間的拓?fù)渚嚯x。
現(xiàn)實世界中的大多數(shù)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)是未知的,對于未知結(jié)構(gòu)的網(wǎng)絡(luò),Newman和Girvan提出了模塊度[4]的概念來對社區(qū)質(zhì)量進(jìn)行評價。模塊度是社區(qū)內(nèi)實際連接數(shù)目與對應(yīng)的隨機網(wǎng)絡(luò)同等連接下社區(qū)內(nèi)期望連接數(shù)目之差,它只適用于非重疊社區(qū)。衡量重疊社區(qū)質(zhì)量采用擴展模塊度(EQ)函數(shù)[14]。其定義如下:
而現(xiàn)今傳感技術(shù)、微電子技術(shù)和計算機技術(shù)飛速發(fā)展,各種新型的傳感器不斷涌現(xiàn),基于原理介紹的傳感器難免不足,而基于原理驗證的實驗設(shè)備與實際生產(chǎn)應(yīng)用的傳感器有一定差距,添置難度大,維護(hù)成本高。
(2)對于每個社區(qū),找出該社區(qū)的所有鄰居節(jié)點,根據(jù)公式(3)計算出這些節(jié)點的節(jié)點適應(yīng)度。在節(jié)點適應(yīng)度大于0的節(jié)點中,選擇節(jié)點適應(yīng)度最大的鄰居節(jié)點加入該社區(qū)。
(3)對新得到的每個社區(qū),重復(fù)執(zhí)行過程(2)中的操作,直到所有鄰居節(jié)點的節(jié)點適應(yīng)度都小于或等于0。
2.5剩余節(jié)點處理
如果網(wǎng)絡(luò)中還存在未被劃分的節(jié)點,則在剩余節(jié)點中重復(fù)執(zhí)行2.2中的操作,找出其中的核心節(jié)點。接著繼續(xù)執(zhí)行2.3和2.4中的操作,直到所有的節(jié)點被劃分到至少一個社區(qū)中。
2.6相似社區(qū)合并
(1)根據(jù)公式(4)計算出此時網(wǎng)絡(luò)的模塊度EQ。
(2)對于包含重疊節(jié)點的社區(qū),通過兩個社區(qū)的重疊程度和合并前后的模塊度來判斷是否將這兩個社區(qū)合并。如果兩個社區(qū)重疊的節(jié)點數(shù)占節(jié)點數(shù)較少的社區(qū)的節(jié)點數(shù)的比例超過了所設(shè)置的社區(qū)重疊度閾值,則根據(jù)公式(4)計算出如果合并這兩個社區(qū)后的模塊度EQn。
(3)在得到的所有EQn中選取最大的值,令EQmax=max(EQn)。比較EQ與EQmax的大小。如果EQ 圖3 Zachary社會關(guān)系網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)示意圖 圖4 Zachary社會關(guān)系網(wǎng)絡(luò)節(jié)點中介中心度示意圖 圖5 Zachary社會關(guān)系網(wǎng)絡(luò)中心子團 圖6 Zachary社會關(guān)系網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)結(jié)果 本文將以Zachary社會關(guān)系網(wǎng)絡(luò)[10]為例驗證此算法的有效性。Zachary社會關(guān)系網(wǎng)絡(luò)是Wayne Zachary用3年時間觀察美國一所大學(xué)空手道俱樂部成員之間的社會關(guān)系來構(gòu)造的。該網(wǎng)絡(luò)包括34個節(jié)點和78條邊,每個節(jié)點代表一個俱樂部成員,邊表示俱樂部成員之間的社會關(guān)系,其社區(qū)結(jié)構(gòu)如圖3所示。通過網(wǎng)絡(luò)圖可以得出社區(qū)內(nèi)各個節(jié)點的中介中心度如圖4所示??梢詮膱D4中得出,中介中心度相對較高的節(jié)點是1,3,33,34,但由于節(jié)點34的中介中心度大于節(jié)點33的中介中心度,而節(jié)點33和節(jié)點34的共同鄰居數(shù)占節(jié)點33所有鄰居節(jié)點數(shù)的比例超過了閾值,所以選擇節(jié)點34為核心節(jié)點,節(jié)點33未被選為核心節(jié)點。同理,節(jié)點1被選為核心節(jié)點,節(jié)點3未被選為核心節(jié)點。以核心節(jié)點為基礎(chǔ)劃分出的中心子團如圖5所示。其中,藍(lán)色節(jié)點和綠色節(jié)點分別表示兩個不同的中心子團。基于中心子團的最后的社區(qū)發(fā)現(xiàn)結(jié)果如圖6所示??梢娫摼W(wǎng)絡(luò)被劃分為兩個社區(qū),分別由藍(lán)色節(jié)點和綠色節(jié)點構(gòu)成,黃色節(jié)點為兩個社區(qū)的共有節(jié)點?,F(xiàn)實中,該俱樂部由于會員與教練之間存在矛盾而分成了兩派,可見該算法的社區(qū)發(fā)現(xiàn)結(jié)果與社區(qū)真實情況基本一致。 本文首先介紹了社區(qū)發(fā)現(xiàn)的研究現(xiàn)狀及所用到的社區(qū)發(fā)現(xiàn)的相關(guān)知識,然后提出了一種基于中心子團的社區(qū)發(fā)現(xiàn)技術(shù)。該方法通過計算社區(qū)中節(jié)點的中介中心度挖掘出核心節(jié)點,以核心節(jié)點為中心劃分出中心子團作為初始社區(qū)。通過計算社區(qū)周圍的節(jié)點對其的節(jié)點適應(yīng)度來判斷是否將此節(jié)點加入該社區(qū)。如果社區(qū)之間的重疊程度很大且合并后模塊度有所提高,則將之合并。通過實驗證明,該方法可以有效地挖掘出社區(qū)結(jié)構(gòu)。下一步工作的重點是提高社區(qū)發(fā)現(xiàn)方法的自動程度和算法的效率。 9.總體規(guī)劃應(yīng)結(jié)合場地制約因素,城鎮(zhèn)規(guī)劃和建廠地區(qū)的外部條件,因地制宜地確定廠區(qū)方位,使主廠房區(qū)的位置處于地質(zhì)構(gòu)造相對穩(wěn)定的地段,與活動性大斷裂應(yīng)有足夠的安全距離,并應(yīng)符合勞動安全和工業(yè)衛(wèi)生的要求。 [1]Watts DJ,Strogatz SH.Collective Dynamics of'Small-World'Networks[J].Nature,1998,393(4):440-442. [2]Barabási AL,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286(5439):509-512. [3]Girvan M,Newman MEJ.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences of the United States of America,2002,99(12):7821-7826. [4]Newman MEJ,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical Review E,2004,69(2).026113. [5]Newman MEJ.Modularity and Community Structure in Networks[J].Proceedings of the National Academy of Sciences of the United States of America,2006,103(23):8577-8582. [6]Newman MEJ.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133. [7]Clauset A,Newman MEJ,Moore C.Finding Community Structure in Very Large Networks[J].Physical Review E,2004,70(6).066111. [8]Rosvall M,Bergstrom C.Maps of Random Walks on Complex Networks Reveal Community Structure[J].Proceedings of the National Academy of Sciences,2008,105(4):1118-1123. [9]Blondel VD,Guillaume J,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics: Theory and Experiment,2008(10):1742-5468. [10]Gregory S.Finding Overlapping Communities in Networks by Label Propagation[J].New Journal of Physics,2010,12(10):103018. [11]Jin Di,Yang Bo,Liu Jie,Liu Da-You,He Dong-Xiao.Ant Colony Optimization Based on Random Walk for Community Detection inComplex Networks[J].Journal of Software,2012,23(3):451-464. [12]Jin Di,Liu Jie,Yang Bo,He Dong-Xiao,Liu Da-You.Genetic Algorithm with Local Search for Community Detection in Large-ScaleComplex Networks[J].Acta Automatica Sinica,2011,37(7):873-882. [13]Yang Bo,Liu Jie,Liu Da-You.A Random Network Ensemble Model Based Generalized Network Community Mining Algorithm[J].Acta Automatica Sinica,2012,38(5):812-822. [14]H Shen,X Cheng,K Cai,MB Hu.Detect Overlapping and Hierarchical Community Structure in Networks[J].Physica A:Statistical Mechanics and its Applications.2009,388(8):1706-1712. [15]Zachary WW.An Information Flow Model for Conflict and Fission in Small Groups[J].Journal of Anthropological Research,1977,33(4):452-473. Core Node;Central Sub-Clique;Community Detection 由于大部分孕婦未進(jìn)行血清中弓形蟲檢查、風(fēng)疹病毒檢查、巨細(xì)胞病毒檢查、單純皰疹病毒檢查,因此,不作比較研究。 A Central Sub-Clique Based Community Detection Method HUANG Zhe-ting,ZHOU An-min (College of Electronics and Information Engineering,Sichuan University,Chengdu 610065) 1007-1423(2016)05-0028-05 10.3969/j.issn.1007-1423.2016.05.006 黃喆婷(1990-),女,黑龍江哈爾濱人,碩士研究生,研究方向為信息安全 2015-12-31 2016-01-20 現(xiàn)實世界中的許多系統(tǒng)都可以用網(wǎng)絡(luò)來表示,社區(qū)發(fā)現(xiàn)是網(wǎng)絡(luò)挖掘的研究熱點之一。介紹社區(qū)發(fā)現(xiàn)相關(guān)知識,提出一種基于中心子團的社區(qū)發(fā)現(xiàn)方法。通過節(jié)點中介中心度識別出核心節(jié)點,基于核心節(jié)點得到中心子團作為初始社區(qū)。通過計算社區(qū)周圍節(jié)點的節(jié)點適應(yīng)度來判斷是否將此節(jié)點加入該社區(qū),從而形成社區(qū)結(jié)構(gòu)。通過兩個社區(qū)的重疊程度和合并前后的模塊度來判斷是否將這兩個社區(qū)合并。實驗表明,該方法可以有效地挖掘出社區(qū)結(jié)構(gòu)。 核心節(jié)點;中心子團;社區(qū)發(fā)現(xiàn) 周安民(1963-),男,四川成都人,碩士生導(dǎo)師,研究員,研究方向為信息安全 Many real-world systems can be represented as networks,and community detection is one of the research hotspots in Web mining.Introduces some relevant knowledge of community detection and proposes a central sub-clique based community detection method.By calculating the betweenness centrality of nodes,we can identify the core node.Based on the core node,we can get central sub-clique as the initial community.By calculating the node fitness to judge whether to add the node to the community,the community structure of the network can be formed.By considering the degree of overlap of the two communities and the modularity of before and after the merger,we can judge whether to merge the two communities.The experiment shows that this method can effectively mine community structure.3 實驗
4 結(jié)語