張 毅,杜秀春,劉 欣,劉華富
(1.國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410073;2.長沙學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,湖南 長沙 410003)
當(dāng)今信息時(shí)代下,隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的快速普及和發(fā)展,通信網(wǎng)絡(luò)不斷擴(kuò)大,網(wǎng)絡(luò)之間的交互更加密集。物聯(lián)網(wǎng)技術(shù)的發(fā)展帶動(dòng)了傳感器網(wǎng)絡(luò)技術(shù)的發(fā)展應(yīng)用,博客、論壇、微博等應(yīng)用帶動(dòng)了社交網(wǎng)絡(luò)研究的熱潮。由于物聯(lián)網(wǎng)具有的廣泛的互聯(lián)性,在給人民生活帶來便捷的同時(shí),也帶來了諸多的安全問題。相比于傳統(tǒng)的計(jì)算機(jī)網(wǎng)絡(luò),物聯(lián)網(wǎng)絡(luò)中的物理設(shè)備沒有設(shè)置安全防御策略,如入侵檢測(cè)系統(tǒng)、防火墻等。這些物理設(shè)備直接暴露在了網(wǎng)絡(luò)空間中,可能被攻擊者發(fā)現(xiàn)和利用,給物理設(shè)備的安全構(gòu)成了極大的威脅。
近年來,針對(duì)物聯(lián)網(wǎng)設(shè)備的攻擊事件頻發(fā),使得人們認(rèn)識(shí)到了對(duì)于網(wǎng)絡(luò)空間中相關(guān)物理對(duì)象研究分析的重要性。例如,繼針對(duì)伊朗核設(shè)施的工業(yè)控制系統(tǒng)破壞的“震網(wǎng)”(Stuxnet)蠕蟲病毒感染事件發(fā)生后,2011年,美國某安全公司發(fā)現(xiàn)了Stuxnet病毒的變種,該變種被稱為Duqu木馬病毒,該病毒的主要目標(biāo)同Stuxnet一樣也是工業(yè)控制設(shè)備,但比Stuxnet病毒隱蔽性更強(qiáng)、危害更大[1];2014年,俄羅斯黑客組織“蜻蜓”開發(fā)的惡意病毒程序Havex對(duì)歐美一千多家能源企業(yè)進(jìn)行了攻擊[2];2016年,美國相關(guān)安全部門發(fā)現(xiàn)了7名伊朗黑客針對(duì)位于紐約的鮑曼水壩控制系統(tǒng)的攻擊行為[3]。這些攻擊行為對(duì)于國家或地區(qū)直接或間接地產(chǎn)生了重大的網(wǎng)絡(luò)安全影響。
如今,計(jì)算機(jī)通信網(wǎng)絡(luò)、物聯(lián)網(wǎng)絡(luò)、社交網(wǎng)絡(luò)組成了當(dāng)前的網(wǎng)絡(luò)新形態(tài),而且它們之間相互貫通、密不可分。其中,物聯(lián)網(wǎng)絡(luò)技術(shù)融合了傳統(tǒng)計(jì)算機(jī)通信網(wǎng)絡(luò)和由此連接起來的物理對(duì)象,社交網(wǎng)絡(luò)則融合了傳統(tǒng)計(jì)算機(jī)通信網(wǎng)絡(luò)和由此連接起來的人或組織機(jī)構(gòu)等,計(jì)算機(jī)通信網(wǎng)絡(luò)成為連接兩者的樞紐關(guān)節(jié)。信息物理社會(huì)系統(tǒng)(cyber-physical-social system,CPSS)[4]是當(dāng)前研究網(wǎng)絡(luò)的新形態(tài),主要關(guān)注的是物理對(duì)象在信息域的接口和社會(huì)域信息到信息域信息的映射以及這三者之間交互融合的過程。從多域的角度融合分析網(wǎng)絡(luò)空間中的物理對(duì)象能更加全面、準(zhǔn)確地描繪物理對(duì)象的特征。相比于只從某個(gè)域的角度進(jìn)行分析,多域信息是現(xiàn)實(shí)物理對(duì)象的真實(shí)表現(xiàn),能清楚地反映物理對(duì)象之間的關(guān)聯(lián)情況。
網(wǎng)絡(luò)中的物理對(duì)象信息通常以網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息、IP物理地址信息、開放端口信息、運(yùn)行協(xié)議以及網(wǎng)頁文本信息的形式存在。文中以Web服務(wù)器網(wǎng)頁文本中的鏈接為出發(fā)點(diǎn),綜合分析相關(guān)語義信息,結(jié)合物理域信息分析物理對(duì)象之間的關(guān)聯(lián)特性。該方法對(duì)于分析和評(píng)估網(wǎng)絡(luò)中特定物理對(duì)象被攻擊后影響的范圍、產(chǎn)生的危害有重要的幫助作用。
網(wǎng)絡(luò)空間中物理對(duì)象的種類多種多樣,如路由器、主機(jī)、服務(wù)器、打印機(jī)以及傳感器等。對(duì)于這些設(shè)備的感知探測(cè)工作現(xiàn)在已有研究,并有成熟化的產(chǎn)品投入應(yīng)用,如Shodan[5]、ZoomEye[6]、Censys[7]、諦聽[8]等,這些工具結(jié)合MaxMind、IP2Location、Whois等工具展示物理對(duì)象的有關(guān)信息,但是這些系統(tǒng)沒有進(jìn)一步綜合分析物理對(duì)象之間的關(guān)聯(lián)關(guān)系,而且給用戶提供的搜索結(jié)果信息并沒有提供關(guān)聯(lián)推薦結(jié)果,導(dǎo)致顯示效果較差。
Maltego[9]能從一個(gè)IP、Email、Twitter或者人物姓名找到一個(gè)人的社會(huì)域、信息域以及物理域的所有信息,然后將把這些有關(guān)信息相互關(guān)聯(lián)起來,以圖的形式展現(xiàn)給用戶。Maltego結(jié)合Shodan、Linkedin能搜索到的信息包括物理對(duì)象的地理位置信息、社交媒體等在線信息、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息、ISP信息,主要功能包括多域數(shù)據(jù)抽取、多域數(shù)據(jù)分析、多域信息關(guān)聯(lián)展示等,但是Maltego只能以域名、郵箱、Twitter上的信息和URL為出發(fā)點(diǎn)對(duì)相關(guān)信息進(jìn)行搜索,對(duì)研究物理對(duì)象多域融合有一定的參考意義,但是存在搜索的局限性、搜索結(jié)果的數(shù)量限制等多方面的問題。
在關(guān)聯(lián)分析研究方面,張魏斌等[10]以社會(huì)域中的關(guān)聯(lián)關(guān)系構(gòu)建模型,測(cè)算社團(tuán)的劃分和個(gè)體的社會(huì)效用。劉勘等[11]以搜索引擎返回的信息域中的信息為出發(fā)點(diǎn),分析包含在頁面中的超鏈接信息,研究出度、入度、最短路徑和密度信息,最終得出結(jié)果信息的聚類。He Xiaofeng等[12]結(jié)合信息域中Web頁面的超鏈接信息、文本挖掘信息以及共引關(guān)系來建立網(wǎng)頁的聚類。郭景峰等[13]通過詞簇、鏈接向量來建立簇,并使用近鄰傳播算法建立簇與簇之間的關(guān)系,并基于這些關(guān)系做進(jìn)一步的分析。
文中通過研究分析物理對(duì)象在多域中的屬性信息,建立物理對(duì)象在社會(huì)域、信息域、物理域中信息的關(guān)聯(lián)關(guān)系模型,結(jié)合各個(gè)域信息的完備性、準(zhǔn)確性賦予它們之間不同的權(quán)重,最后結(jié)合改進(jìn)的馬爾可夫聚類算法得出物理對(duì)象之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,該算法在物理對(duì)象多域信息聚類中有著較好的效果,該聚類結(jié)果對(duì)于分析針對(duì)物聯(lián)網(wǎng)攻擊行為所產(chǎn)生的影響有著重要的參考意義。
在現(xiàn)實(shí)環(huán)境中,物理對(duì)象的信息涉及物理域信息(Physical,P)、信息域信息(Cyber,C)和社會(huì)域信息(Social,S)。其中物理域是物理對(duì)象自身或固有的相對(duì)穩(wěn)定的屬性信息,如型號(hào)信息、地理位置信息等。信息域信息是物理對(duì)象在計(jì)算以及與其他物理對(duì)象通過互聯(lián)網(wǎng)進(jìn)行通信中反映出來的信息,如開放端口、運(yùn)行協(xié)議、路由信息等。社會(huì)域信息是與物理對(duì)象相關(guān)的人物、組織機(jī)構(gòu)、事件等的信息,包含了物理對(duì)象相關(guān)人物或組織機(jī)構(gòu)的信息。
通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)探測(cè)發(fā)現(xiàn)物理對(duì)象之間的關(guān)聯(lián)關(guān)系會(huì)受到防火墻抑制、網(wǎng)絡(luò)通信錯(cuò)誤等影響,且相關(guān)關(guān)系不明確,存在很大的誤差。Web服務(wù)器中包含了大量信息,且訪問不受控制,網(wǎng)絡(luò)與網(wǎng)絡(luò)之間的屬性關(guān)聯(lián)關(guān)系可以通過包含大量信息的網(wǎng)頁為出發(fā)點(diǎn)來尋找。圖1中B和A是基于Web服務(wù)器中的鏈接指向和文本特性構(gòu)成的鏈接圖,反映了網(wǎng)絡(luò)1和網(wǎng)絡(luò)2的關(guān)聯(lián)特性。
文中通過在信息域中分析各網(wǎng)絡(luò)間鏈接指向信息、文本語義特性和在社會(huì)域中的有關(guān)信息分析網(wǎng)絡(luò)間的關(guān)聯(lián)關(guān)系,并結(jié)合網(wǎng)絡(luò)中物理對(duì)象的地理位置信息提高融合關(guān)聯(lián)結(jié)果的準(zhǔn)確性。
圖1 網(wǎng)絡(luò)連接圖
前期已經(jīng)完成了對(duì)國內(nèi)IP地址的掃描工作。通過建立與隨機(jī)生成的IP地址的偽連接判斷遠(yuǎn)程物理對(duì)象的存活狀態(tài)和開放端口信息。爬取運(yùn)行HTTP協(xié)議的物理對(duì)象的相關(guān)網(wǎng)頁并記錄網(wǎng)頁中包含的鏈接信息。文中基于網(wǎng)頁中的鏈接關(guān)系為網(wǎng)絡(luò)中離散的物理對(duì)象建立初始鏈接關(guān)系,并通過數(shù)據(jù)預(yù)處理清洗掉無關(guān)信息。詳細(xì)工作內(nèi)容如下:
(1)統(tǒng)計(jì)和記錄運(yùn)行HTTP協(xié)議的IP地址及其對(duì)應(yīng)的域名信息,并為每個(gè)IP地址下存在的域名編號(hào);
(2)分析網(wǎng)頁文本中包含的超鏈接信息,把這些超鏈接信息分為指向本域名的內(nèi)部鏈接和指向其他域名的外部鏈接;
(3)在記錄網(wǎng)頁中的超鏈接信息時(shí),超鏈接的抽取工作需要過濾掉頁面內(nèi)的相對(duì)鏈接,只抽取指向其他域名下的外部鏈接,同時(shí)只記錄靜態(tài)超鏈接,不記錄動(dòng)態(tài)超鏈接。這樣做的目的是防止在本域名下形成大的簇而影響實(shí)驗(yàn);
(4)基于鏈接關(guān)系構(gòu)造二元組(FromId,ToId)。一個(gè)二元組在網(wǎng)絡(luò)圖中代表了一條邊,F(xiàn)romId代表邊的始發(fā)節(jié)點(diǎn),ToId代表邊的終止節(jié)點(diǎn),最后去除FromId的值等于ToId的值的節(jié)點(diǎn),即去除指向本身的內(nèi)部鏈接指向。
為清楚地表明Web頁面之間的連接情況,從數(shù)據(jù)集合中隨機(jī)選取了30 000個(gè)Web頁面的鏈接關(guān)系構(gòu)造網(wǎng)絡(luò)連接圖,如圖2所示。
圖2 Web頁面鏈接構(gòu)成的網(wǎng)絡(luò)圖
在Web頁面鏈接的出度、入度信息中,分析了30多萬個(gè)節(jié)點(diǎn)的出度和返回指向的入度。對(duì)于這些數(shù)據(jù)存在的冗余問題,根據(jù)文獻(xiàn)[13]得出Web頁面的鏡像頁面的出鏈接數(shù)應(yīng)該大于8,如果兩個(gè)頁面之間共享出鏈接(out links)的數(shù)量比率超過80%,其中一個(gè)頁面可以作為鏡像頁面刪除。這里的8和80%都是根據(jù)經(jīng)驗(yàn)獲得的參數(shù)。
馬爾可夫聚類(Markov cluster,MCL)算法由Dongen[14]提出,已成功運(yùn)用到各種網(wǎng)絡(luò)圖、計(jì)算機(jī)圖形中。該算法屬于圖形聚類算法,通過圖聚類發(fā)掘節(jié)點(diǎn)之間的關(guān)系及其聚類中心,其實(shí)質(zhì)是從一個(gè)節(jié)點(diǎn)出發(fā)通過隨機(jī)游走來確定群聚類中心。該算法基于隨機(jī)狀態(tài)轉(zhuǎn)移概率矩陣,不需要預(yù)先設(shè)定聚類數(shù)目,通過概率改變和反復(fù)修改矩陣以實(shí)現(xiàn)隨機(jī)流模擬。
MCL算法在構(gòu)建基礎(chǔ)隨機(jī)矩陣的基礎(chǔ)上,通過擴(kuò)大(Expand)和填充(Inflate)操作,再分別映射到自身,并且不停地重復(fù)上述Expand和Inflate兩個(gè)步驟直到矩陣收斂。其中,在每次Inflate操作之后需執(zhí)行修剪(Prune)操作。設(shè)初始隨機(jī)矩陣為M,則M可定義為如下形式:
(1)
為解決從一個(gè)奇數(shù)路徑在執(zhí)行擴(kuò)大操作的過程中產(chǎn)生很大影響這一問題,需要在鄰接矩陣A中添加自循環(huán)的路徑。
Expand操作的表達(dá)式為:
Mexp=Expand(M)=Me
(2)
通常參數(shù)e為非負(fù)整數(shù),且默認(rèn)值為2。
Inflate操作的表達(dá)式為:
(3)
MCL計(jì)算之后,得到一個(gè)收斂的矩陣M。解釋聚類結(jié)果為:在矩陣M中,第j列中只有一個(gè)非零值,非零值對(duì)應(yīng)的第i行表示節(jié)點(diǎn)vi是節(jié)點(diǎn)vj的吸引子,也即聚類的中心,與節(jié)點(diǎn)vj類似的節(jié)點(diǎn)一起構(gòu)成同一個(gè)類。
物理對(duì)象的多域信息表示物理對(duì)象在各個(gè)域中的信息屬性,這些信息表示物理對(duì)象之間的聯(lián)系,如社會(huì)域中的人物和組織機(jī)構(gòu)信息,同一機(jī)構(gòu)的物理對(duì)象必定歸屬于同樣的管理人員或者組織機(jī)構(gòu)。在信息域中,屬于同一組織的物理對(duì)象在信息域中有著較大的網(wǎng)絡(luò)通信流量,這些信息表示了物理對(duì)象在信息域中的關(guān)聯(lián)程度。同樣,在物理域中物理對(duì)象的地理位置信息從地理空間的角度展示了物理對(duì)象在地理上的分布情況,表現(xiàn)了物理對(duì)象屬于同一機(jī)構(gòu)的可能性。
文中分別在社會(huì)域、信息域和物理域中分析了物理對(duì)象的關(guān)聯(lián)特性,然后融合這些信息為普通無向且無權(quán)重的關(guān)聯(lián)圖構(gòu)建權(quán)重矩陣,最后得出物理對(duì)象間的關(guān)聯(lián)關(guān)系。
2.3.1 社會(huì)域分析
物理對(duì)象在社會(huì)域中的信息可以從Web文檔以及通過域名從Whois數(shù)據(jù)庫中獲取,Whois是用來查詢域名的IP及其所有者等信息的傳輸協(xié)議。Whois是一個(gè)在線的“請(qǐng)求/響應(yīng)”型的服務(wù),其運(yùn)行在43端口,它會(huì)把相關(guān)信息如所有者、管理者、所在地、郵箱、電話等信息返回給查詢請(qǐng)求。
對(duì)于Web頁面中的人物姓名、組織機(jī)構(gòu)、地理名稱等命名實(shí)體識(shí)別及其詳細(xì)信息的獲取有多種方式。對(duì)于人物姓名、組織機(jī)構(gòu)等命名實(shí)體的識(shí)別的主要方法有基于隱馬爾可夫模型(hidden Markov model,HMM)的識(shí)別方法、基于最大熵模型(maximum entropy,ME)的識(shí)別方法、基于條件隨機(jī)場(chǎng)模型(conditional random fields,CRF)的識(shí)別方法[15]等。文中基于開源工具HanLP完成命名實(shí)體的識(shí)別工作。對(duì)于從Web文檔獲取的其他信息,如郵箱、電話等則使用基于規(guī)則的匹配方法。
為求解某兩個(gè)節(jié)點(diǎn)vi和vj相互之間在社會(huì)域上的關(guān)聯(lián)程度,可以為上述信息構(gòu)造一個(gè)詞匯表,例如wk=(w1,w2,…,wk),統(tǒng)計(jì)兩個(gè)節(jié)點(diǎn)上每個(gè)詞出現(xiàn)的頻率并分別構(gòu)造出詞匯矩陣A和B,通過向量空間余弦相似度計(jì)算公式計(jì)算兩個(gè)節(jié)點(diǎn)在社會(huì)域的關(guān)聯(lián)程度比值:
(4)
2.3.2 信息域分析
上述通過社會(huì)域中有關(guān)信息分析物理對(duì)象之間的關(guān)聯(lián)特性,在一定程度上有著較好的關(guān)聯(lián)分析效果,但也存在命名實(shí)體識(shí)別誤差和人物名稱對(duì)應(yīng)問題。探測(cè)主機(jī)在獲取遠(yuǎn)程物理對(duì)象物理域信息時(shí)由于受到防火墻、入侵檢測(cè)等安全措施的抑制,探測(cè)主機(jī)的訪問是一種外網(wǎng)訪問形式,使得這種訪問由于登錄認(rèn)證、口令、訪問白名單的限制而很難獲得完整、全面的信息,但是物理對(duì)象信息域中的信息相比社會(huì)域和物理域中的信息有著獲取方式多樣、獲取途徑簡便、獲取內(nèi)容全面可靠等優(yōu)點(diǎn)。下面重點(diǎn)闡述物理對(duì)象在信息域中三種信息的處理方法:
(1)超鏈接信息表示物理對(duì)象之間的鏈接緊密程度,是物理對(duì)象關(guān)系圖構(gòu)造的基礎(chǔ),其定義如下:
(5)
(2)信息域中的網(wǎng)頁文本包含豐富的文本信息,這里通過計(jì)算兩個(gè)節(jié)點(diǎn)之間網(wǎng)頁文本的相似度來衡量兩者之間的關(guān)系。遍歷該節(jié)點(diǎn)下本域名內(nèi)的所有Web文檔,主要工作是處理和提取文檔中的關(guān)鍵字信息。其中文檔關(guān)鍵字提取以常用的詞頻和逆文檔率來表示。在爬取的前n個(gè)頁面中,設(shè)詞項(xiàng)i在文檔j中的頻率為fij,則詞項(xiàng)頻率定義為:
(6)
假設(shè)詞項(xiàng)i在ni篇文檔中出現(xiàn),其逆文檔率定義如下:
(7)
將TFij·IDFi作為詞項(xiàng)i在頁面j中的關(guān)鍵度衡量指標(biāo),取前30個(gè)單詞作為頁面的關(guān)鍵詞。對(duì)最后得出的單詞詞匯使用向量空間余弦相似度計(jì)算方法來計(jì)算相似性,用符號(hào)D(di,dj)來表示。
(3)共引用信息同樣也可以表征兩個(gè)物理對(duì)象之間的關(guān)系。共引用是指其他頁面都指向了這兩個(gè)頁面,則代表這兩個(gè)頁面可能存在著一定的關(guān)系。用Rij表示共同指向i和j這兩個(gè)頁面的個(gè)數(shù)。
最后綜合物理對(duì)象在信息域中的三種關(guān)系計(jì)算方法得到在信息域中物理對(duì)象關(guān)聯(lián)的結(jié)果:
(8)
2.3.3 物理域分析
文中在物理域信息中只使用了IP物理地址這一信息,IP物理地址這一信息在分析物理對(duì)象關(guān)聯(lián)中有著重要的作用。文中使用IP2Location、Maxmind、淘寶IP定位數(shù)據(jù),這些數(shù)據(jù)庫的異構(gòu)性和不準(zhǔn)確性導(dǎo)致不同數(shù)據(jù)庫得到的地理度和地理介數(shù)的分布稍有不同。為解決這一問題,使用這三個(gè)來源的IP地理位置信息的中心位置作為所求物理對(duì)象IP的物理地理位置信息。
用歐幾里得距離計(jì)算兩個(gè)節(jié)點(diǎn)X和Y之間在物理域信息中的關(guān)聯(lián)程度:
(9)
其中,Xlon和Xlat,Ylon和Ylat分別表示該物理對(duì)象的經(jīng)緯度信息。
最后得出兩個(gè)物理對(duì)象在物理域之間的關(guān)聯(lián)系數(shù):
(10)
當(dāng)且僅當(dāng)dist(X,Y)小于10 000時(shí)上式成立,否則P設(shè)定為零。
上述內(nèi)容分別從物理對(duì)象的社會(huì)域、信息域和物理域出發(fā)分析了物理對(duì)象在各個(gè)域中相互之間的關(guān)聯(lián)強(qiáng)度,并分別用符號(hào)S、C、P代表各個(gè)強(qiáng)度值,由此可以得到關(guān)聯(lián)矩陣的權(quán)重信息。綜合考慮物理對(duì)象在三個(gè)域中的情況得出下列權(quán)重計(jì)算公式:
W=0.4*S+0.5*C+0.1*P
(11)
考慮到在獲取社會(huì)域信息時(shí)存在的分詞偏差和存在人物不能正確對(duì)應(yīng)的問題,設(shè)定社會(huì)域(S)的權(quán)重系數(shù)為0.4。信息域中的信息比較豐富,而且相對(duì)誤差較小,設(shè)定信息域中分析得出的信息給出最高權(quán)重系數(shù)為0.5。針對(duì)物理域信息相對(duì)單一,IP對(duì)應(yīng)的物理地址存在很大誤差,同時(shí)由于內(nèi)容分發(fā)網(wǎng)絡(luò)(content delivery network,CDN)技術(shù)的應(yīng)用也增大了IP地址對(duì)應(yīng)物理地址誤差的增大,因此這里設(shè)置物理域權(quán)重為0.1。
在MCL算法的多次迭代計(jì)算過程中,包含大量節(jié)點(diǎn)的矩陣圖結(jié)構(gòu)會(huì)被逐步分解成若干小的子圖結(jié)構(gòu)。在適當(dāng)選擇的行和列的排列之后,這種圖形的相應(yīng)矩陣包含對(duì)角線放置的非零值的密集塊,并且在這些塊之外的值都為零。利用這一特點(diǎn)可以提高算法的計(jì)算效率。在算法執(zhí)行期間,發(fā)生在特定列和相似矩陣S的相應(yīng)行保持單個(gè)非零值,該非零值位于矩陣的對(duì)角線上。對(duì)應(yīng)于該特定行的節(jié)點(diǎn)可以被聲明為在聚類中單獨(dú)的隔離節(jié)點(diǎn),在后續(xù)迭代中對(duì)其他節(jié)點(diǎn)沒有影響,可以從S中移除這樣的行和列,降低后續(xù)迭代的計(jì)算負(fù)載。這樣,當(dāng)圖形在3~10次迭代之后發(fā)生分離子圖時(shí),初始大矩陣可以重新組織成幾個(gè)小的二維位置的塊,在進(jìn)一步處理中可以忽略具有相似性的塊之外的零值。
在聚類過程中包含兩種狀態(tài)結(jié)構(gòu),以任務(wù)隊(duì)列的形式保存矩陣子圖的計(jì)算結(jié)果的狀態(tài):
狀態(tài)隊(duì)列1:位于該狀態(tài)隊(duì)列下的矩陣子圖表示矩陣需要進(jìn)一步執(zhí)行迭代操作。開始時(shí),所有節(jié)點(diǎn)都位于該狀態(tài)中,當(dāng)從狀態(tài)隊(duì)列1中分離矩陣子圖時(shí),需要滿足對(duì)應(yīng)分離子圖的矩陣塊具有高密度,則從該矩陣中分離該子圖,否則相應(yīng)的節(jié)點(diǎn)保留在狀態(tài)隊(duì)列1中以用于進(jìn)一步的迭代。該矩陣子圖將在下一次迭代中增長,或者子圖將進(jìn)一步分解成較小的隔離子圖。
狀態(tài)隊(duì)列2:位于該狀態(tài)隊(duì)列下的矩陣子圖表示該矩陣已經(jīng)處于迭代停止的狀態(tài),無需進(jìn)一步執(zhí)行迭代操作,它包含屬于孤立子圖的那些節(jié)點(diǎn),其相應(yīng)的矩陣塊被視為單獨(dú)的矩陣,這些孤立子圖節(jié)點(diǎn)通常是從上一步狀態(tài)隊(duì)列1中分離得到的。它包含組織在孤立子圖中的一組節(jié)點(diǎn),通常相應(yīng)的相似矩陣小而密集。
當(dāng)狀態(tài)隊(duì)列1處于空隊(duì)列時(shí),說明整個(gè)迭代聚類求解過程已經(jīng)結(jié)束。具體算法偽代碼如算法1所示。
算法1:基于多域信息改進(jìn)型MCL聚類算法。
Input:物理對(duì)象多域信息,Expand中的參數(shù)e和Inflate中的參數(shù)r;
Output:物理對(duì)象之間關(guān)聯(lián)關(guān)系聚類矩陣。
1:由信息域中的超鏈接信息H構(gòu)建初始關(guān)聯(lián)矩陣M
2:計(jì)算物理對(duì)象之間多域關(guān)聯(lián)系數(shù)S、C、P
3:得出權(quán)重矩陣W
4:結(jié)合矩陣W把初始關(guān)聯(lián)矩陣M轉(zhuǎn)換為無向有權(quán)重矩陣,并為每個(gè)節(jié)點(diǎn)添加自循環(huán)信息
5:初始化隊(duì)列1和隊(duì)列2
6:whileM矩陣不收斂:
7:對(duì)矩陣執(zhí)行歸一化操作
8:基于參數(shù)e和r對(duì)M執(zhí)行Expand和Inflate
9:執(zhí)行Prune操作
10:if 矩陣M中包含可分離的矩陣m
11:將m加入隊(duì)列2并在M中相應(yīng)位置零
12:end if
13:end while
14:解釋最終矩陣,分析聚類結(jié)果
文中數(shù)據(jù)集的采集是利用多臺(tái)CPU為2核,內(nèi)存為4 GB,硬盤容量為40 GB配置的阿里云服務(wù)器隨機(jī)生成IP地址并進(jìn)行分布式探測(cè)來獲得的。采集的數(shù)據(jù)集共計(jì)313 287個(gè),考慮到計(jì)算時(shí)間問題,實(shí)驗(yàn)中分別從數(shù)據(jù)集中抽取了6組數(shù)據(jù)(見表1)做測(cè)試分析。
表1 實(shí)驗(yàn)結(jié)果
圖3為對(duì)網(wǎng)絡(luò)空間中物理對(duì)象節(jié)點(diǎn)執(zhí)行改進(jìn)的馬爾可夫聚類算法后的聚類情況,總共把1 293個(gè)節(jié)點(diǎn)聚類成37個(gè)簇。
圖3 聚類后的簇圖
在當(dāng)前物聯(lián)網(wǎng)安全狀況較為嚴(yán)峻的情形下,研究和分析互聯(lián)網(wǎng)中的物理對(duì)象,并為物理對(duì)象相關(guān)信息建立模型,能為物聯(lián)網(wǎng)安全的研究提供一定的幫助。以當(dāng)前物聯(lián)網(wǎng)的安全形勢(shì)為背景,通過分析物理對(duì)象的多域?qū)傩孕畔?,為物理?duì)象在各個(gè)域中的信息建立關(guān)聯(lián)特性計(jì)算模型,并結(jié)合馬爾可夫聚類算法為物理對(duì)象圖聚類建立關(guān)聯(lián)矩陣,基于隨機(jī)游走方法,通過迭代分析,最后得出物理對(duì)象關(guān)聯(lián)特性。實(shí)驗(yàn)結(jié)果表明,該算法在物理對(duì)象關(guān)聯(lián)關(guān)系分析方面有著較好的效果。實(shí)驗(yàn)結(jié)果的聚類中心節(jié)點(diǎn)是物聯(lián)網(wǎng)絡(luò)的核心節(jié)點(diǎn),其脆弱性直接影響了其他物理對(duì)象節(jié)點(diǎn)的安全性。
在實(shí)驗(yàn)過程中存在多域信息量大、計(jì)算時(shí)間復(fù)雜度高等問題,因此下一步需要繼續(xù)優(yōu)化有關(guān)關(guān)聯(lián)計(jì)算模型的時(shí)間、空間復(fù)雜度,同時(shí)可結(jié)合分布式大數(shù)據(jù)處理工具如Hadoop、Spark等開展物理對(duì)象關(guān)聯(lián)聚類的研究工作。
參考文獻(xiàn):
[1] FAISAL M,IBRAHIM M.STUXNET,DUQU and beyond[J].International Journal of Science and Engineering Investigations,2012,1(2):75-78.
[2] SCHLECHTENDAHL J,KEINERT M,KRETSCHMER F,et al.Making existing production systems industry 4.0-ready[J].Production Engineering,2015,9(1):143-148.
[3] THOMSON L L.Insecurity of the internet of things[J].Scitech Lawyer,2016,12(3):32-35.
[4] HUSSEIN D,PARK S,HAN S N,et al.Dynamic social structure of things:a contextual approach in CPSS[J].IEEE Internet Computing,2015,19(3):12-20.
[5] BODENHEIM R,BUTTS J,DUNLAP S,et al.Evaluation of the ability of the Shodan search engine to identify Internet-facing industrial control devices[J].International Journal of Critical Infrastructure Protection,2014,7(2):114-123.
[6] 白 潔.大數(shù)據(jù)應(yīng)用[J].信息安全與通信保密,2013(10):13-16.
[7] DURUMERIC Z,ADRIAN D,MIRIAN A,et al.A search engine backed by Internet-wide scanning[C]//Proceedings of the 22nd ACM SIGSAC conference on computer and communications security.New York,NY,USA:ACM,2015:542-553.
[8] 袁 勝.“白環(huán)境”下的工控安全[J].中國信息安全,2016(4):74-75.
[9] SHALIN H J.Beyond surface relations:using Maltego to analyze electronic connectivity and hidden ties in the internet understructure[J].Journal of Vacuum Science & Technology A Vacuum Surfaces & Films,2014,26(2):205-211.
[10] 張魏斌,曾 鋒,伍澤全,等.移動(dòng)群體感知中基于社會(huì)關(guān)系的路由算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(10):3128-3131.
[11] 劉 勘,范 琴.鏈路結(jié)構(gòu)的網(wǎng)頁聚類研究[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(7):1450-1454.
[12] HE Xiaofeng,ZHA Hongyuan,DING C H Q,et al.Web document clustering using hyperlink structures[J].Computational Statistics & Data Analysis,2002,41(1):19-45.
[13] 郭景峰,馬 鑫,代軍麗.基于文本-鏈接模型和近鄰傳播算法的網(wǎng)頁聚類[J].計(jì)算機(jī)應(yīng)用研究,2010,27(4):1255-1258.
[14] Dongen E S.A cluster algorithm for graphs[R].[s.l.]:[s.n.],2000.
[15] 曾冠明.基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別研究[D].北京:北京郵電大學(xué),2009.