魏 歡
(1.南昌航空大學(xué),江西 南昌 330063;2.安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
現(xiàn)階段社會(huì)已經(jīng)進(jìn)入了以網(wǎng)絡(luò)化為特征的信息化時(shí)代,所有網(wǎng)絡(luò)的運(yùn)轉(zhuǎn)都會(huì)產(chǎn)生不同的數(shù)據(jù)流,尤其在復(fù)雜網(wǎng)絡(luò)中,產(chǎn)生的混合屬性數(shù)據(jù)流不僅具有較大的規(guī)模,還存在豐富的信息量,在豐富的信息量中隱藏著大量具有潛在價(jià)值的數(shù)據(jù)信息.在復(fù)雜網(wǎng)絡(luò)中高效率地檢測(cè)出混合屬性數(shù)據(jù)流的密度已經(jīng)成為當(dāng)下亟需解決的重要問(wèn)題[1].如今世界各國(guó)都將數(shù)據(jù)流檢測(cè)工作提升為國(guó)家重點(diǎn)的戰(zhàn)略目標(biāo),隨后我國(guó)也提出了大數(shù)據(jù)戰(zhàn)略,這也標(biāo)志著中國(guó)即將進(jìn)入大數(shù)據(jù)時(shí)代,而混合屬性數(shù)據(jù)流檢測(cè)方法作為大數(shù)據(jù)時(shí)代下發(fā)現(xiàn)有用信息的關(guān)鍵,為復(fù)雜網(wǎng)絡(luò)的發(fā)展提供了更好的服務(wù).
復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)作為數(shù)據(jù)挖掘的重點(diǎn)研究話題,很早就開(kāi)始受到學(xué)術(shù)界的廣泛關(guān)注.數(shù)據(jù)流密度檢測(cè)的早期發(fā)展中,主要以識(shí)別復(fù)雜網(wǎng)絡(luò)的潛在威脅為目的[2].隨著計(jì)算機(jī)領(lǐng)域?qū)?fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)的需求越來(lái)越大,數(shù)據(jù)流在密度檢測(cè)方面也面臨著越來(lái)越多的問(wèn)題,主要是復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的異常點(diǎn)與常規(guī)點(diǎn)之間的界定模糊,常規(guī)密度檢測(cè)方法通常都是建立在模糊計(jì)算的基礎(chǔ)上,得到的密度檢測(cè)結(jié)果比較清晰,但是隨著復(fù)雜網(wǎng)絡(luò)中的數(shù)據(jù)流日趨復(fù)雜化,使數(shù)據(jù)流的產(chǎn)生變得具有隨機(jī)性[3],常規(guī)的密度檢測(cè)方法已經(jīng)不能滿(mǎn)足密度檢測(cè)能力的要求.
基于以上分析,本文從混合屬性數(shù)據(jù)流的采集、密度檢測(cè)模型建立、數(shù)據(jù)流密度檢測(cè)的實(shí)際出發(fā),提出了一種復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)方法,提高了數(shù)據(jù)流密度檢測(cè)的能力.
在檢測(cè)復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流之前,需要采集正常的復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流樣本,才能提高密度檢測(cè)的能力.復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集是通過(guò)數(shù)據(jù)采樣算法,來(lái)對(duì)復(fù)雜網(wǎng)絡(luò)內(nèi)部的混合屬性數(shù)據(jù)流進(jìn)行識(shí)別和剔除,將正常的混合屬性數(shù)據(jù)流傳輸給檢測(cè)節(jié)點(diǎn),在檢測(cè)節(jié)點(diǎn)的顯示窗口內(nèi)部形成正常的混合屬性數(shù)據(jù)流樣本[4].復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集步驟如下:
圖1 復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集流程圖
復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集流程如圖1所示.
對(duì)于復(fù)雜的網(wǎng)絡(luò)環(huán)境來(lái)講,密度檢測(cè)節(jié)點(diǎn)采集到的正常混合屬性數(shù)據(jù)流通常都是處于一個(gè)固定的檢測(cè)區(qū)域內(nèi)的,對(duì)于超出固定區(qū)域的異常混合屬性數(shù)據(jù)流,可以通過(guò)在識(shí)別傳感器上設(shè)置容忍度來(lái)直接識(shí)別混合屬性數(shù)據(jù)流[6],本文的數(shù)據(jù)流采集方法通過(guò)設(shè)置容忍度的方式來(lái)將異常的混合屬性數(shù)據(jù)流剔除,從而減少混合屬性數(shù)據(jù)流采集過(guò)程中的計(jì)算復(fù)雜度.
通過(guò)設(shè)定初始混合屬性數(shù)據(jù)流,來(lái)計(jì)算不同時(shí)刻數(shù)據(jù)流的距離,采用判斷矩陣的方式將異?;旌蠈傩詳?shù)據(jù)流剔除,基于復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集流程,完成復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集.
在復(fù)雜網(wǎng)絡(luò)環(huán)境中,混合屬性數(shù)據(jù)流都是散落分布的,給密度檢測(cè)帶來(lái)一定難度,通過(guò)復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)模型的建立,可以提高密度檢測(cè)的能力.根據(jù)數(shù)據(jù)流采集定律,在復(fù)雜網(wǎng)絡(luò)中,混合屬性數(shù)據(jù)流密度檢測(cè)過(guò)程中,控制混合屬性數(shù)據(jù)流密度的方程為[7]
(1)
式(1)中,ρ表示混合屬性數(shù)據(jù)流的密度,u表示數(shù)據(jù)流傳輸?shù)奈灰剖噶?,σ表示混合屬性?shù)據(jù)流的傳輸量,F(xiàn)v表示復(fù)雜網(wǎng)絡(luò)載荷向量.
在連續(xù)的復(fù)雜網(wǎng)絡(luò)中,根據(jù)數(shù)據(jù)流的采集定律可以得出下式
如果說(shuō)企業(yè)是一艘大船,那么企業(yè)領(lǐng)導(dǎo)人就是掌舵人,他決定了前進(jìn)的方向。而用戶(hù)則是推動(dòng)企業(yè)前行的水,沒(méi)有用戶(hù)支持的企業(yè),大船只能擱淺。30年來(lái),鄭州先科之所以能夠由小變大、由弱變強(qiáng),離不開(kāi)掌舵人的帶領(lǐng),更離不開(kāi)用戶(hù)的不離不棄。
(2)
式(2)中,Tij表示表示混合屬性數(shù)據(jù)流傳輸?shù)亩A向量,fi表示施加給混合屬性數(shù)據(jù)流的頻率,ρ表示混合屬性數(shù)據(jù)流的密度,ui表示混合屬性數(shù)據(jù)流傳輸?shù)奈灰葡蛄?,xj表示密度檢測(cè)的坐標(biāo)向量.
經(jīng)過(guò)上述的分析,可以確定混合屬性數(shù)據(jù)流密度的檢測(cè)應(yīng)力與應(yīng)變之間的關(guān)系為
σ-σ0=C(ε-ε0)
(3)
混合屬性數(shù)據(jù)流在復(fù)雜網(wǎng)絡(luò)中傳輸?shù)奈灰脐P(guān)系式為
s=s0+C(ε+ε0+εinel)
(4)
式(4)中,s0表示混合屬性數(shù)據(jù)流傳輸?shù)某跏嘉灰疲珻表示密度矩陣,ε0表示混合屬性數(shù)據(jù)流密度檢測(cè)的初始應(yīng)變,εinel表示復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)的應(yīng)力.
根據(jù)混合屬性數(shù)據(jù)流的胡克定律可知,混合屬性數(shù)據(jù)流密度的檢測(cè)應(yīng)力與應(yīng)變是成正比的[8],表達(dá)式為
Tij=cijklSkl
(5)
式(5)中,cijkl表示密度檢測(cè)矩陣,Skl表示混合屬性數(shù)據(jù)流密度檢測(cè)的應(yīng)變向量,Skl可以表示為
(6)
如果復(fù)雜網(wǎng)絡(luò)中混合屬性數(shù)據(jù)流的密度是勻稱(chēng)的,且cijkl和數(shù)據(jù)流的密度都是常數(shù),那么復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)模型可以表示為
(7)
以上基于混合屬性數(shù)據(jù)流的采集,得到了混合屬性數(shù)據(jù)流密度的控制方程,確定了混合屬性數(shù)據(jù)流密度的檢測(cè)應(yīng)力與應(yīng)變之間的關(guān)系,利用混合屬性數(shù)據(jù)流在復(fù)雜網(wǎng)絡(luò)中傳輸?shù)奈灰脐P(guān)系式,完成了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)模型的構(gòu)建,最后通過(guò)混合屬性數(shù)據(jù)流密度檢測(cè)算法設(shè)計(jì),來(lái)實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的密度檢測(cè).
將采集到的混合屬性數(shù)據(jù)流導(dǎo)入到上述建立的密度檢測(cè)模型中,經(jīng)過(guò)密度檢測(cè)模型計(jì)算后的混合屬性數(shù)據(jù)流仍然存在分散的現(xiàn)象,再利用混合屬性數(shù)據(jù)流密度檢測(cè)算法,來(lái)提高密度檢測(cè)的能力.假設(shè)dk(x)表示數(shù)據(jù)流x到k點(diǎn)的距離,lk(x)表示位于x到k點(diǎn)的距離內(nèi)的混合屬性數(shù)據(jù)流集合[9].則數(shù)據(jù)流x到y(tǒng)之間的距離可以定義為dist(x,y),那么數(shù)據(jù)流x到y(tǒng)之間的距離為
Rk(x,y)=max{dist(x,y),dk(y)}
(8)
式(8)中,dist()表示兩個(gè)數(shù)據(jù)流之間的距離,根據(jù)混合屬性數(shù)據(jù)流的可達(dá)距離Rk(x,y),可以得到混合屬性數(shù)據(jù)流x的平均可達(dá)距離ARk(x),定義為混合屬性數(shù)據(jù)流x與復(fù)雜網(wǎng)絡(luò)集合中所有數(shù)據(jù)流的可達(dá)距離平均值為
ARk(x)=meany∈lkRk(x,y)
(9)
式(9)中,mean表示數(shù)據(jù)流可達(dá)距離求平均值函數(shù),在復(fù)雜網(wǎng)絡(luò)中,通常將數(shù)據(jù)流可達(dá)距離的平均值定義為可達(dá)密度,因此復(fù)雜網(wǎng)絡(luò)的局部混合屬性數(shù)據(jù)流密度可以根據(jù)可達(dá)密度進(jìn)行計(jì)算[10],計(jì)算公式為
(10)
綜上所述,通過(guò)設(shè)定初始混合屬性數(shù)據(jù)流,來(lái)計(jì)算不同時(shí)刻數(shù)據(jù)流的距離,采用判斷矩陣的方式將異?;旌蠈傩詳?shù)據(jù)流剔除,基于復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集流程,完成復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集;基于混合屬性數(shù)據(jù)流的采集,得到了混合屬性數(shù)據(jù)流密度的控制方程,確定了混合屬性數(shù)據(jù)流密度的檢測(cè)應(yīng)力與應(yīng)變之間的關(guān)系,利用混合屬性數(shù)據(jù)流在復(fù)雜網(wǎng)絡(luò)中傳輸?shù)奈灰脐P(guān)系式,完成了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)模型的構(gòu)建,最后通過(guò)混合屬性數(shù)據(jù)流密度檢測(cè)算法設(shè)計(jì),實(shí)現(xiàn)了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的密度檢測(cè).
為了驗(yàn)證本文設(shè)計(jì)的復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)方法對(duì)混合屬性數(shù)據(jù)流密度檢測(cè)的能力強(qiáng),利用基于模糊計(jì)算的數(shù)據(jù)流密度檢測(cè)方法作為實(shí)驗(yàn)對(duì)比對(duì)象,進(jìn)行復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)能力對(duì)比實(shí)驗(yàn).
在復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)中,參與實(shí)驗(yàn)的參數(shù)有混合屬性數(shù)據(jù)流的采樣數(shù)、采樣頻率及迭代次數(shù)等,實(shí)驗(yàn)參數(shù)的選擇直接影響實(shí)驗(yàn)的最終結(jié)果,基于模糊計(jì)算的數(shù)據(jù)流密度檢測(cè)方法存在檢測(cè)時(shí)間長(zhǎng)的弊端,實(shí)驗(yàn)過(guò)程中,利用1.2中的密度檢測(cè)模型,求出實(shí)驗(yàn)參數(shù)的最優(yōu)解,實(shí)驗(yàn)的具體操作步驟如下:
Step1:將復(fù)雜網(wǎng)絡(luò)中的混合屬性數(shù)據(jù)流分割成數(shù)據(jù)流測(cè)試集合、數(shù)據(jù)流驗(yàn)證集合和數(shù)據(jù)流訓(xùn)練集合.采用1.1中的混合屬性數(shù)據(jù)流采集流程,構(gòu)造了混合屬性數(shù)據(jù)流的采集集合.將混合屬性數(shù)據(jù)流的采集頻率作為密度檢測(cè)的適應(yīng)度函數(shù),并將實(shí)驗(yàn)參數(shù)初始化;
Step2:執(zhí)行1.3中設(shè)計(jì)的密度檢測(cè)算法,進(jìn)入到密度檢測(cè)實(shí)驗(yàn)的參數(shù)求解過(guò)程.將混合屬性數(shù)據(jù)流的分布密度代入到密度檢測(cè)模型中;
Step3:對(duì)求得的混合屬性數(shù)據(jù)流進(jìn)行密度計(jì)算,并將復(fù)雜網(wǎng)絡(luò)外部的數(shù)據(jù)流分布情況記錄;
圖2 混合屬性數(shù)據(jù)流的密度檢測(cè)時(shí)間對(duì)比結(jié)果
Step4:采用交叉驗(yàn)證的方式求得混合屬性數(shù)據(jù)流的密度,取交叉驗(yàn)證過(guò)程中最小平均誤差,并訓(xùn)練混合屬性數(shù)據(jù)流密度檢測(cè)模型,最后進(jìn)行復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的密度檢測(cè);
Step5:記錄實(shí)驗(yàn)數(shù)據(jù)并統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果.
本文將提出的密度檢測(cè)方法與基于模糊計(jì)算的數(shù)據(jù)流密度檢測(cè)方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)在相同的檢測(cè)次數(shù)下,統(tǒng)計(jì)了混合屬性數(shù)據(jù)流的密度檢測(cè)時(shí)間.實(shí)驗(yàn)結(jié)果如圖2所示.
從實(shí)驗(yàn)結(jié)果中可以看出,采用基于模糊計(jì)算的數(shù)據(jù)流密度檢測(cè)方法獲取的混合屬性數(shù)據(jù)流密度檢測(cè)時(shí)間,隨著密度檢測(cè)次數(shù)的增加而越來(lái)越長(zhǎng),數(shù)據(jù)流檢測(cè)次數(shù)低于10次的檢測(cè)時(shí)間在0.3 s以?xún)?nèi),隨后越來(lái)越長(zhǎng),直到檢測(cè)次數(shù)達(dá)到50次時(shí),混合屬性數(shù)據(jù)流密度檢測(cè)時(shí)間已經(jīng)達(dá)到了0.95 s,數(shù)據(jù)流密度的檢測(cè)能力較差;而采用提出的混合屬性數(shù)據(jù)流密度檢測(cè)方法獲取的混合屬性數(shù)據(jù)流密度檢測(cè)時(shí)間基本上都控制在0.35 s以?xún)?nèi),檢測(cè)次數(shù)低于20次的檢測(cè)時(shí)間都低于0.1 s,混合屬性數(shù)據(jù)流密度檢測(cè)能力非常強(qiáng).
本文提出了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)方法研究.通過(guò)設(shè)定初始混合屬性數(shù)據(jù)流,來(lái)計(jì)算不同時(shí)刻數(shù)據(jù)流的距離,基于復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集流程,完成復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的采集;利用混合屬性數(shù)據(jù)流密度的控制方程,確定了混合屬性數(shù)據(jù)流密度的檢測(cè)應(yīng)力與應(yīng)變之間的關(guān)系,結(jié)合混合屬性數(shù)據(jù)流在復(fù)雜網(wǎng)絡(luò)中傳輸?shù)奈灰脐P(guān)系式,完成了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流密度檢測(cè)模型的構(gòu)建;最后通過(guò)混合屬性數(shù)據(jù)流密度檢測(cè)算法設(shè)計(jì),實(shí)現(xiàn)了復(fù)雜網(wǎng)絡(luò)混合屬性數(shù)據(jù)流的密度檢測(cè).對(duì)比實(shí)驗(yàn)結(jié)果顯示,提出的密度檢測(cè)方法具有較強(qiáng)的數(shù)據(jù)流密度檢測(cè)能力.
商丘師范學(xué)院學(xué)報(bào)2021年9期