王成滿(mǎn)
(四川外國(guó)語(yǔ)大學(xué)重慶南方翻譯學(xué)院,重慶 401120)
科學(xué)技術(shù)的迅速發(fā)展使社交網(wǎng)絡(luò)、交通運(yùn)輸、通信運(yùn)營(yíng)等多個(gè)領(lǐng)域均形成著大量的數(shù)據(jù),這些數(shù)據(jù)存在著許多對(duì)管理者的決策起助力價(jià)值的信息[1]。隨著數(shù)據(jù)規(guī)模的增長(zhǎng),數(shù)據(jù)挖掘方法已變成當(dāng)今社會(huì)的重點(diǎn)研究項(xiàng)目之一?;ヂ?lián)網(wǎng)網(wǎng)絡(luò)規(guī)模的擴(kuò)大令越來(lái)越多的系統(tǒng)遭受到黑客的入侵,網(wǎng)絡(luò)攻擊的手段日漸復(fù)雜,網(wǎng)絡(luò)安全問(wèn)題越來(lái)越突出[2-3]。
為了保障網(wǎng)絡(luò)的安全運(yùn)行,相關(guān)專(zhuān)家們展開(kāi)了大量研究。文獻(xiàn)[4]提出了基于內(nèi)網(wǎng)行為分析的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型,首先需要獲取網(wǎng)絡(luò)中的信息資源,其次對(duì)網(wǎng)絡(luò)中的行為異常風(fēng)險(xiǎn)要素進(jìn)行分析,最后將信息的節(jié)點(diǎn)及資源獲取途徑當(dāng)作要素,創(chuàng)建一個(gè)攻擊檢測(cè)模型,利用該模型實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)攻擊的檢測(cè)。文獻(xiàn)[5]提出了基于流量和IP熵特性的DDoS攻擊檢測(cè)方法,構(gòu)建M-ATS的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型,將博弈論(M-ATS)與馬爾可夫判決進(jìn)程(MJP)攻擊模式挖掘算法進(jìn)行了結(jié)合,通過(guò)M-ATS確定最佳網(wǎng)絡(luò)保護(hù)方法,利用MJP對(duì)未來(lái)發(fā)生的網(wǎng)絡(luò)攻擊進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果設(shè)計(jì)相應(yīng)的保護(hù)方案,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)攻擊的檢測(cè)。文獻(xiàn)[6]提出了基于蟻群算法的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型,將蟻群收斂到的路徑當(dāng)作網(wǎng)絡(luò)異常路徑,求解該異常路徑上各個(gè)節(jié)點(diǎn)的O-measure值,通過(guò)O-measure值來(lái)確定網(wǎng)絡(luò)攻擊所在位置,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)攻擊的檢測(cè)。
雖然當(dāng)前研究取得一定進(jìn)展,但是依然存在網(wǎng)絡(luò)攻擊檢測(cè)率較低、網(wǎng)絡(luò)攻擊誤報(bào)率較高以及檢測(cè)時(shí)效性較差等問(wèn)題,并不適用當(dāng)前的網(wǎng)絡(luò)攻擊檢測(cè)。因?yàn)榫W(wǎng)絡(luò)信息間拓?fù)潢P(guān)系不明確,所以在估算網(wǎng)絡(luò)信息的法向量及曲率時(shí),需構(gòu)建網(wǎng)絡(luò)信息間的拓?fù)潢P(guān)系,提出基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型。
由于網(wǎng)絡(luò)信息間不存在明確的拓?fù)潢P(guān)系,在估算網(wǎng)絡(luò)信息的法向量及曲率時(shí),需要構(gòu)建一個(gè)網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系[7]。
假設(shè)網(wǎng)絡(luò)信息點(diǎn)pj的k鄰域點(diǎn)集是Nk(pi)構(gòu)造關(guān)于pi的協(xié)方差矩陣
(1)
(2)
將式(2)得到的法矢方向調(diào)成相同的方向。
?pi∈P的k鄰域點(diǎn)集是qi∈Q(i=1,2,…,k),已知pi處的平均曲率是Hi,那么信息點(diǎn)pi在k鄰域下的局部權(quán)值求解公式為
(3)
(4)
模糊C均值聚類(lèi)算法將包含n個(gè)l維向量pi(pi1,…,pil)的集合P={p1,p2,…,pn}分成m個(gè)組O={o1,o2,…,om],每個(gè)組和一個(gè)聚類(lèi)中心相對(duì)應(yīng),求解每一個(gè)聚類(lèi)組的聚類(lèi)中心oj,(j=1,2,…,m),致使目標(biāo)函數(shù)J最小,目標(biāo)函數(shù)J(U,O)的表達(dá)式如下
(5)
(6)
(7)
(8)
模糊權(quán)重系數(shù)使距離遠(yuǎn)的向量uij對(duì)oj的影響變小,距離近的向量對(duì)oj的影響變大。這種控制方式有效地?cái)U(kuò)大了離群向量的特征[9]。特征保持權(quán)值求解方式如下
(9)
ωHi用于說(shuō)明信息點(diǎn)pi的曲率對(duì)聚類(lèi)的影響。
由于x,y,z在信息點(diǎn)附近的信息分布密度較大的情況下,信息點(diǎn)間的距離較近,信息點(diǎn)密度ρi較大,所以構(gòu)建了一個(gè)密度影響權(quán)值因子
(10)
ωρi表示信息點(diǎn)pi的密度對(duì)聚類(lèi)的影響。利用模糊C均值聚類(lèi)的權(quán)重因子能夠獲得目標(biāo)函數(shù),利用該目標(biāo)函數(shù)實(shí)現(xiàn)拓?fù)鋷缀螌W(xué)原理信息點(diǎn)的密度求解公式如下
(11)
基于上述分析,構(gòu)建一個(gè)網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系,其表達(dá)式為
(12)
利用該拓?fù)浣Y(jié)構(gòu)關(guān)系即可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息的噪聲去除,其公式為
(13)
式中,αH表示特征保持系數(shù),αρ表示密度影響系數(shù),J(U,C,ω)為去噪后的網(wǎng)絡(luò)信息。
φi′=(X″TX″)-1X″TY
(14)
(15)
式(16)與式(17)為AR(2)的參數(shù)估計(jì)
(16)
(17)
(18)
二階自回歸模型的參數(shù)X″TY由時(shí)間序列數(shù)據(jù)的線(xiàn)性估計(jì)得出。利用二階自回歸模型檢測(cè)移動(dòng)網(wǎng)絡(luò)信息樣本et′
(19)
若et′是后移算子,那么
=x″t′-φ1Bx″t′-φ2B2x″t′
=(1-φ1B-φ2B2)
=φ(B)x″t′
(20)
λ<-L′||λ>U
(21)
其中,L′和U是正數(shù)。
在進(jìn)行網(wǎng)絡(luò)攻擊判定實(shí)現(xiàn)檢測(cè)的基礎(chǔ)上,假設(shè)離散型屬性連續(xù)化后的增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測(cè)信息矩陣如式(22)所示。
(22)
其中,n′表示去噪處理后數(shù)據(jù)集中樣本的數(shù)量,M表示去噪后數(shù)據(jù)狀態(tài)節(jié)點(diǎn)隊(duì)列,d表示樣本屬性數(shù)量。則均值標(biāo)準(zhǔn)差歸一化方法對(duì)數(shù)據(jù)集中每個(gè)屬性值做歸一化處理,歸一化求解公式如下
(23)
式(23)中,xmean(i)和xstd(i)分別表示第i列數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,xij表示歸一化處理后的屬性值。
對(duì)去噪處理后的樣本信息采用B-ISVM增量式學(xué)習(xí)算法[10]。利用該算法完成對(duì)網(wǎng)絡(luò)攻擊信息的歸一化處理。設(shè)X為增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測(cè)矩陣X′歸一化處理后得到的一個(gè)矩陣
(24)
將歸一化處理后的樣本信息作為一個(gè)滑動(dòng)時(shí)間窗,設(shè)滑動(dòng)時(shí)間窗的大小是N′+1,每次從時(shí)間窗中取出N′+1個(gè)樣本信息。
時(shí)間窗內(nèi)的N′+1個(gè)信息樣本利用y1,y2,…yN+1來(lái)說(shuō)明,利用前N′個(gè)信息樣本構(gòu)建一個(gè)自回歸模型AR,判斷第N′+1個(gè)信息樣本是否存在異常。選取恰當(dāng)?shù)腁R階數(shù)q′,時(shí)間窗口大小N′應(yīng)該相對(duì)小一些,AR(q′)在擬合時(shí)間序列時(shí),準(zhǔn)確使用FPE衡量。時(shí)間窗口大小N′和階數(shù)q′的約束條件是0≤q′≤0.1N′,利用x″1,x″2,…,x″N′+1對(duì)二階自回歸模型AR(2)進(jìn)行擬合,擬合后得到的基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)模型x″t′為
x″t′=φ1x″t′-1+φ2x″t′-2+et′J(U,C,ω)+xij
(25)
最后,完成了對(duì)基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型的構(gòu)建。
為了客觀(guān)評(píng)估實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中采用網(wǎng)絡(luò)攻擊檢測(cè)率、網(wǎng)絡(luò)攻擊誤報(bào)率、網(wǎng)絡(luò)攻擊時(shí)效性、抗網(wǎng)絡(luò)攻擊性能四項(xiàng)評(píng)估指標(biāo)來(lái)驗(yàn)證本文所提方法的有效性。
假設(shè)網(wǎng)絡(luò)攻擊檢測(cè)率為
(26)
其中,A表示網(wǎng)絡(luò)攻擊檢測(cè)率,B表示被正確分類(lèi)的網(wǎng)絡(luò)攻擊樣本數(shù)量,C表示實(shí)驗(yàn)樣本集中網(wǎng)絡(luò)攻擊樣本的總量。
網(wǎng)絡(luò)攻擊誤報(bào)率的設(shè)定為
(27)
其中,D表示網(wǎng)絡(luò)攻擊誤報(bào)率,E表示被錯(cuò)誤分類(lèi)的正常樣本數(shù)量,F(xiàn)表示正常樣本的總量。
實(shí)驗(yàn)環(huán)境:本次實(shí)驗(yàn)在內(nèi)存為2G,操作系統(tǒng)為Windows的計(jì)算機(jī)上進(jìn)行,實(shí)驗(yàn)測(cè)試平臺(tái)是Matlab7.0。
實(shí)驗(yàn)從KDDCUP 1999數(shù)據(jù)集中隨機(jī)選取實(shí)驗(yàn)樣本,在對(duì)實(shí)驗(yàn)樣本進(jìn)行離散化后,形成的實(shí)驗(yàn)樣本集如表1所示。
表1 網(wǎng)絡(luò)攻擊檢測(cè)實(shí)驗(yàn)樣本集
數(shù)據(jù)集通常由正常和異常兩種信息構(gòu)成,異常信息分為四種類(lèi)型,分別是DoS、Probe、R2L和U2R。其中每一種異常信息均包含多個(gè)子類(lèi)型。
為了描述方便,將本文所構(gòu)建的檢測(cè)數(shù)學(xué)模型描述為A,基于行為分析的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型描述為B、基于流量和IP熵特性的DDoS攻擊檢測(cè)數(shù)學(xué)模型描述為C、基于蟻群算法的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型描述為D。四種網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型的檢測(cè)結(jié)果,如表2所示。
表2 網(wǎng)絡(luò)攻擊檢測(cè)結(jié)果
從表2可以看出,四種網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型中,本文所構(gòu)建模型的網(wǎng)絡(luò)攻擊檢測(cè)率是最高的,網(wǎng)絡(luò)攻擊誤報(bào)率是最低的,幾乎可以忽略不計(jì),且可以檢測(cè)出絕大多數(shù)的網(wǎng)絡(luò)攻擊,這是由于所構(gòu)建的數(shù)學(xué)模型在檢測(cè)網(wǎng)絡(luò)攻擊之前,對(duì)檢測(cè)數(shù)據(jù)進(jìn)行了去噪處理,通過(guò)上述實(shí)驗(yàn)數(shù)據(jù)可知,本文所構(gòu)建數(shù)學(xué)模型適用于對(duì)檢測(cè)率和誤報(bào)率有較高要求的場(chǎng)合。
3.3.1 網(wǎng)絡(luò)攻擊時(shí)效性對(duì)比
為了驗(yàn)證本文所構(gòu)建的檢測(cè)數(shù)學(xué)模型的時(shí)效性,將檢測(cè)模型A與B、C和D三種數(shù)學(xué)模型進(jìn)行了對(duì)比分析。四種數(shù)學(xué)模型的網(wǎng)絡(luò)攻擊檢測(cè)時(shí)效性對(duì)比結(jié)果如表3所示。
表3 時(shí)效性對(duì)比
從表3可以看出,四種網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型中,A數(shù)學(xué)模型的時(shí)效性最高,其次是B數(shù)學(xué)模型,D數(shù)學(xué)模型的時(shí)效性是四種數(shù)學(xué)模型中最差的。以閾值25和閾值100為例,當(dāng)閾值為25時(shí),A模型實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測(cè)所需的時(shí)間要比B、C、D三種模型分別縮短17.5%、26.8%、31.58%;當(dāng)閾值為100時(shí),A模型實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測(cè)所需的時(shí)間要比B、C、D三種模型分別縮短18.58%、21.03%、22.36%,通過(guò)上述實(shí)驗(yàn)數(shù)據(jù)可知,所構(gòu)建數(shù)學(xué)模型A較B模型、C模型和D模型得到了極大的改進(jìn),采用本文所構(gòu)建數(shù)學(xué)模型A能夠高效實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)攻擊的檢測(cè)。
3.3.2 網(wǎng)絡(luò)攻擊時(shí)效性對(duì)比
為了驗(yàn)證本文所構(gòu)建網(wǎng)絡(luò)攻擊數(shù)學(xué)模型的抗攻擊能力,將本文所構(gòu)建模型A與B、C和D三種數(shù)學(xué)模型的抗攻擊能力進(jìn)行了對(duì)比。對(duì)比結(jié)果如圖1所示,其中橫坐標(biāo)為網(wǎng)絡(luò)攻擊數(shù)量,單位是個(gè),縱坐標(biāo)為抗網(wǎng)絡(luò)攻擊性能,單位是百分比(%)。
圖1 四種數(shù)學(xué)模型的抗網(wǎng)絡(luò)攻擊性能對(duì)比圖
從圖1可以看出,在相同網(wǎng)絡(luò)攻擊數(shù)量的情況下,四種模型中所構(gòu)建模型A的抗攻擊性能最高,其次是模型C,模型D的抗攻擊性能最低。通過(guò)上述實(shí)驗(yàn)數(shù)據(jù)可知,采用所構(gòu)建模型A可以在準(zhǔn)確檢測(cè)網(wǎng)絡(luò)攻擊的前提下,提高網(wǎng)絡(luò)的抗攻擊能力。
綜上所述,本文所構(gòu)建的數(shù)學(xué)模型A具有高檢測(cè)率、低誤報(bào)率、高時(shí)效性、高抗攻擊能力的特點(diǎn)。采用本文所構(gòu)建的數(shù)學(xué)模型能夠在高時(shí)效、高檢測(cè)率、高抗攻擊能力的情況下實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)攻擊的檢測(cè),且誤報(bào)率較低。表明本文所構(gòu)建的模型具有較好的檢測(cè)性能。
針對(duì)現(xiàn)有網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型存在的網(wǎng)絡(luò)攻擊檢測(cè)率較低、網(wǎng)絡(luò)攻擊誤報(bào)率較高、檢測(cè)時(shí)效性較差等問(wèn)題,構(gòu)建了基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型。
所構(gòu)建模型的創(chuàng)新點(diǎn):
1)噪聲去除;
2)網(wǎng)絡(luò)信息歸一化處理;
經(jīng)上述實(shí)驗(yàn)驗(yàn)證,所構(gòu)建數(shù)學(xué)模型在網(wǎng)絡(luò)攻擊檢測(cè)率、網(wǎng)絡(luò)攻擊誤報(bào)率、網(wǎng)絡(luò)攻擊檢測(cè)時(shí)效性等方面均優(yōu)于基于行為分析的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型、基于流量和IP熵特性的DDoS攻擊檢測(cè)數(shù)學(xué)模型和基于蟻群算法的網(wǎng)絡(luò)攻擊檢測(cè)數(shù)學(xué)模型,采用本文所構(gòu)建的數(shù)學(xué)模型可以在高網(wǎng)絡(luò)攻擊檢測(cè)率、低網(wǎng)絡(luò)攻擊誤報(bào)率、高網(wǎng)絡(luò)攻擊檢測(cè)時(shí)效性的情況下更好的完成對(duì)網(wǎng)絡(luò)攻擊的檢測(cè)。