張常有, 曹元大,王玉梅 ,于 炯
(1.石家莊鐵道學(xué)院計(jì)算機(jī)與信息工程分院,河北 石家莊 050043;2.北京理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院//智能信息技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081)
入侵檢測系統(tǒng)(IDS,Intrusion Detection System)的目標(biāo)是通過收集和分析系統(tǒng)信息,進(jìn)而監(jiān)控、探測、標(biāo)識對網(wǎng)絡(luò)和計(jì)算機(jī)系統(tǒng)的有害行為和有害企圖。這樣,IDS能辨別系統(tǒng)的狀態(tài)是“正常”,還是“異?!盵1]。所以,一個(gè)IDS被定義為警戒系統(tǒng)。它自動探測主機(jī)或網(wǎng)絡(luò)中的惡意活動[2]。當(dāng)系統(tǒng)發(fā)現(xiàn)對主機(jī)或系統(tǒng)的有害行為時(shí),就產(chǎn)生一個(gè)警戒信號向系統(tǒng)中的安全設(shè)備報(bào)警。入侵檢測系統(tǒng)分為兩類:異常檢測和誤用檢測[3]。對于一個(gè)入侵檢測系統(tǒng),正確性和實(shí)時(shí)性是兩個(gè)重要因素。當(dāng)前網(wǎng)絡(luò)發(fā)展的高速化、復(fù)雜化等特性對入侵檢測系統(tǒng)的數(shù)據(jù)處理性能提出了新的挑戰(zhàn)。因?yàn)楫?dāng)網(wǎng)絡(luò)速度超過了數(shù)據(jù)處理速度時(shí),入侵檢測分析的速度也必須相應(yīng)加快,需要改進(jìn)傳統(tǒng)的分析方法。
解決這一問題有兩種基本思路:①提高入侵檢測系統(tǒng)的處理能力,包括數(shù)據(jù)處理的能力和數(shù)據(jù)采集能力。②采用新的算法或預(yù)處理,降低數(shù)據(jù)處理的難度。
依照第2種思路,針對網(wǎng)絡(luò)行為模式的正常樣本集合和異常樣本集合,降低網(wǎng)絡(luò)行為向量的維度,從而提高數(shù)據(jù)處理效率。流形學(xué)習(xí)(Manifold learning)是一種通過從高維數(shù)據(jù)中發(fā)現(xiàn)低維結(jié)構(gòu)的方法,來簡化高維數(shù)據(jù)。算法目標(biāo)是將一套給定的高維數(shù)據(jù)點(diǎn)映射到替代的低維空間[4]。Animesh Patcha[5]提出了一個(gè)稱為SCAN(Stochastic Clustering Algorithm for Network Anomaly Detection)的異常檢測方案。該算法有能力高精度檢測入侵行為,甚至使用不完整的審計(jì)數(shù)據(jù)。面向網(wǎng)絡(luò)環(huán)境,很多研究者提出了一些新的入侵檢測方法[6-10]。
此外,考慮到訓(xùn)練數(shù)據(jù)的局限性,用遺傳算法和免疫算法相結(jié)合,對正常行為樣本集合和異常行為樣本集合作優(yōu)化處理。對新采集的網(wǎng)絡(luò)行為數(shù)據(jù),分別計(jì)算其到正常行為樣本集合和異常樣本行為集合的距離,并視為縱、橫坐標(biāo)。這樣,行為樣本被映射為二維空間的點(diǎn)。依據(jù)點(diǎn)的位置,系統(tǒng)判斷該行為的入侵概率。降維處理有效提高了入侵檢測的實(shí)時(shí)處理效率。
網(wǎng)絡(luò)行為的相關(guān)度較高的屬性主要有:服務(wù)類型(srvType), 源地址(srcIP),源端口(srvPort),目的地址(dstIP),目的端口(dstPort),時(shí)延(dur),源端發(fā)送字節(jié)數(shù)(srcBytes),目的端發(fā)送字節(jié)數(shù)(dstBytes),狀態(tài)(flag)等。因此,每一個(gè)網(wǎng)絡(luò)行為向量可用如下9維(或多于9維)的向量表示:
X= [srvType,srcIP,srvPort,dstIP ,
注意到,從數(shù)據(jù)類型上看,向量X的分量有兩類:①字符型。其匹配計(jì)算就是嚴(yán)格的相等與否。這類分量適合于上文所述的類比相似度算法。本模型中的字符型分量有服務(wù)類型(srvType)、源地址(srcIP)、源端口(srvPort)、目的地址(dstIP)、目的端口(dstPort)、狀態(tài)(flag)等。②數(shù)值型。這類數(shù)據(jù)的取值是一個(gè)能用大小度量的數(shù)。他們之間的差別能夠用差額來度量。對于這類分量,如直接使用式(1)計(jì)算,結(jié)果不理想。本模型中這類數(shù)據(jù)有時(shí)延(dur),源端發(fā)送字節(jié)數(shù)(srcBytes),目的端發(fā)送字節(jié)數(shù)(dstBytes)等。
對于數(shù)值型分量,必須預(yù)先處理,使其適合相反性綜合距離模型。具體的離散化方法,可參考文獻(xiàn)[11]。離散化以后的數(shù)值型分量轉(zhuǎn)化為字符型分量,向量X可整體用于相似距離計(jì)算。
本文中,距離用向量之間的相似度來表示。相似度算法采用類比推理的相反性綜合模型。該模型同時(shí)考慮了相同分量和相異分量對相似度結(jié)果的不同貢獻(xiàn)。行為向量X=[x1,x2,…,xn]與兩個(gè)行為樣本集合之間的相似距離作為入侵檢測的基礎(chǔ)。兩個(gè)網(wǎng)絡(luò)行為向量之間的相似度代表了他們的差異程度。為了方便闡述,我們給出如下定義,
(1)定義1 (行為向量之間的相似度): 設(shè)X與Y表示任意兩個(gè)行為向量,它們之間的相似度按式(1)計(jì)算。
(1)
式(1)中,f(X∩Y)表示兩者之間的相同分量對相似度的貢獻(xiàn),f(X-Y)表示兩者之間的相異分量對相似度的貢獻(xiàn),α≥0表示相異分量的貢獻(xiàn)系數(shù),其值不小于0。明顯,Sim(X,Y)是一個(gè)0到1之間的數(shù)。
(2)定義2 (行為向量與行為集合之間的相似度): 設(shè)有行為集合A,則X與A之間的相似度為
Sim(X,A)=max{Sim(X,Aj),
Aj∈A,j=0,1,…,m}
(2)
式(2)中,Sim(X,Aj)為行為X與集合A中的元素Aj之間的相似度。最終取最大相似度作為相似結(jié)果。
人工免疫系統(tǒng)模仿自然免疫系統(tǒng),提供了一種解決潛在問題的神奇途徑。免疫網(wǎng)絡(luò)的數(shù)學(xué)框架由Jerne在20世紀(jì)70年代提出。隨后的研究者[12-13]隨又進(jìn)一步從不同的側(cè)面提出了新的AIS理論,完善了其模型、算法和應(yīng)用。
考慮到訓(xùn)練數(shù)據(jù)集可能存在的片面性,采用人工免疫方法與遺傳算法相結(jié)合,優(yōu)化異常行為樣本集合AI0,優(yōu)化過程如圖1。
圖1主要闡明了異常行為樣本庫AI的生成優(yōu)化過程。首先,采用數(shù)據(jù)挖掘方法生成初始集合AI0,可以根據(jù)經(jīng)驗(yàn)知識加以補(bǔ)充。然后用遺傳算子對它們進(jìn)行變異和增殖,生成一個(gè)更大的候選樣本集合AI0’。對個(gè)體進(jìn)行親和度測定,計(jì)算與初始AI0的相似度,篩選出優(yōu)秀樣本;再進(jìn)行否定選擇,即刪除其中與AN中相等(或非常相近)的元素。最后產(chǎn)生優(yōu)化過的異常行為樣本集合(AI)。優(yōu)化過程分為兩步:
圖1 行為樣本集合的產(chǎn)生和優(yōu)化過程
(1)克隆選擇。
克隆選擇算法的目的是擴(kuò)大異常樣本量,或者優(yōu)化抗體在該樣本空間的分布特性。這些分布特性包括樣本的密度、樣本分布的均勻度等。本節(jié)采用的克隆選擇算法以AI0為原始參數(shù),采用多點(diǎn)交叉,隨機(jī)變異的方法,擴(kuò)大樣本空間,提高這些樣本在該空間分布的均勻度。擴(kuò)大異常行為樣本空間的大小和優(yōu)化樣本在該空間分布的均勻度有利于降低IDS的漏報(bào)率。
(2)否定選擇。
否定選擇的目的是保護(hù)自體細(xì)胞不受到誤損。也就是說,AI中不能存在與AN中相同或相近的行為向量。否定選擇的算法與上節(jié)中的克隆選擇類似,要分別計(jì)算AI0'中元素與集合AN的相似度,排除其相似度為 1 和非常接近 1 的向量,避免誤報(bào)。
正常行為樣本集合AN采用類似的步驟優(yōu)化處理。
本文將網(wǎng)絡(luò)行為抽象為一個(gè)n維向量,如X=[x1,x2,…,xn]。其中xi為該向量的一個(gè)分量,表示行為的一個(gè)側(cè)面。這個(gè)n維向量稱為行為空間的一個(gè)點(diǎn)。全部網(wǎng)絡(luò)行為集合構(gòu)成了行為曲面。具有不同屬性的行為集合的全部,將構(gòu)成不同的曲面。在入侵檢測系統(tǒng)中,我們關(guān)心異常行為集合和正常行為集合。為了畫圖方便,不失一般性,設(shè)正常行為集合和異常行為集合分別在三維空間構(gòu)成“異常平面”和“正常平面”,如圖2示。其中,P和Q分別為兩個(gè)行為向量所代表的空間點(diǎn)。
圖2(a)中,|AC|為P點(diǎn)到“異常平面”的距離;|BD|為Q點(diǎn)到“異常平面”的距離;
圖2 行為向量的簡單距離模型
|UV|為閾值。
《電信網(wǎng)絡(luò)詐騙意見》第3條第五項(xiàng)亦指出,實(shí)施所列舉方式予以轉(zhuǎn)賬、套現(xiàn)、取現(xiàn)的,同時(shí)構(gòu)成其他犯罪的,依照處罰較重的規(guī)定定罪處罰,但是法律和司法解釋另有規(guī)定的除外,這與前述分析所得結(jié)論是相符的。
∵|AC| < |UV|,且|BD| < |UV|
∴P、Q均為異常
設(shè)fp(x)為向量x的異常概率函數(shù),則有
fp(P) = |UV|-|AC|和
fp(Q) = |UV|-|BD|
分別代表點(diǎn)P和Q的異常概率。
又∵ |AC| < |BD|
即,P點(diǎn)異常概率大于Q點(diǎn)異常概率。
再看圖2(b),|AE|為P點(diǎn)到“正常平面”的距離;|BF|為Q點(diǎn)到“正常平面”的距離;有,fp(P) = |AE|,fp(Q) = |BF|。
又∵ |AE| < |BF|
∴fp(P) 即,P點(diǎn)異常概率小于Q點(diǎn)異常概率。 兩個(gè)圖中得到了相矛盾的結(jié)論。為了達(dá)到判斷結(jié)果的一致性,令 綜合考慮“正常平面”和“異常平面”的距離,如圖3所示。 根據(jù)分析,定義綜合降維模型如下。 =max{Sim(X,ANj),ANj∈AN, j= 0,1,…,m} (3) 圖3 行為向量的綜合距離模型 =max{Sim(X,AIj),AIj∈AI, j= 0,1,…,m} (4) 綜合考慮行為X的正常度和異常度,定義其入侵概率為P(X,AN,AI)。入侵概率的值由式(5)計(jì)算。 (5) 式(5)中,β是X的正常度對入侵概率的貢獻(xiàn)系數(shù)。β是一個(gè)不小于0的值。 考慮到u∈[0,1],v∈[0,1],網(wǎng)絡(luò)行為X將被映射到坐標(biāo)系中(0,0)到(1,1)的區(qū)域中的一個(gè)點(diǎn)。如圖4所示。其中,(u1,v1)和(u2,v2)分別表示行為向量X1和X2在平面上映射得到的兩個(gè)點(diǎn)。 判定行為的入侵性是IDS的根本任務(wù)。為了確定一個(gè)行為X是否為異常行為,需要定義一個(gè)閾函數(shù)u=f(v),其對應(yīng)的曲線在v∈[0,1]時(shí),落在(0,0)-(1,1)區(qū)域內(nèi),如圖4中粗實(shí)線所示。理想情況下,該域函數(shù)曲線把整個(gè)空間分成兩個(gè)區(qū)域D1和D2。直觀上看,D1在曲線的左上方,D2在曲線的右下方。點(diǎn)(u1,v1)落在區(qū)域D1,(u2,v2)落在區(qū)域D2。 圖4 行為向量到平面點(diǎn)的映射模型 設(shè)ux表示行為X的u值,vx表示行為X的v值,這時(shí), ux 表示點(diǎn)(ux,vx)落在D2區(qū),判定X為入侵行為。同樣,判定X2為異常行為。當(dāng)系統(tǒng)發(fā)現(xiàn)異常,則按照既定的策略報(bào)警。 本文針對網(wǎng)絡(luò)入侵檢測系統(tǒng)面臨的海量審計(jì)數(shù)據(jù)處理問題,根據(jù)關(guān)聯(lián)規(guī)則挖掘結(jié)果,得到網(wǎng)絡(luò)行為模式。對網(wǎng)絡(luò)行為模型,計(jì)算其正常性和異常性,映射到平面上的點(diǎn)。從多維降到兩維問題,綜合考慮兩維上的投影,得到入侵與否的一致性評判結(jié)果。這種方法能適應(yīng)并行處理,有利于提高高速分布式網(wǎng)絡(luò)中的入侵檢測的效率。 參考文獻(xiàn): [1] FORREST S, PERELSON A S, ALLEN L, et al. Self-Nonself discrimination in a computer[C]// Proceedings of the 1994 IEEE Symposium on Research in Security and Privacy. Los Alamitos: IEEE Computer Society Press, 1994: 202-212. [2] KEMMERER R A, VIGNA G. Intrusion detection: a brief history and overview [J]. Computer, 2002, 35 (4): 27-30. [3] 蔣建春, 馬恒太, 任黨恩,等. 網(wǎng)絡(luò)安全入侵檢測: 研究綜述[J]. 軟件學(xué)報(bào), 2000, 11(11):1460-1407. JIANG Jianchun, MA Hengtai, REN Dangen, et al. A survey of intrusion detection research on network security[J]. Journal of Software, 2000, 11(11):1460-1466. [4] SEUNG H S, LEE D D. The manifold ways of perception[J]. Sience,2000, 22:2268-2269. [5] PATCHA P, PARK J. Network anomaly detection with incomplete audit data[J]. Computer Networks, 2007, 51 (5): 3935-3955. [6] FUGATE M, GATTIKER J R. Anomaly detection enhanced classification in computer intrusion detection[C]// LNCS 2388. Berlin, Heidelberg:Springer-Verlag, 2002:186-197. [7] KIM D, PARK J. Network-based intrusion detection with support vector machines[C]// LNCS 2662.Berlin, Heidelberg: Springer-Verlag, 2003:747-756. [8] PARK J, SHAZZAD K, KIM D. Toward modeling lightweight intrusion detection system through correlation-based hybrid featureselection[C]// FENG D, LIN D, YUNG M. Proceedings of the CISC. Heidelberg: Springer-Verlag, 2005: 279-289. [9] TAYLOR C, ALVES-FOSS J. NATE: Network analysis of anomalous traffic events, a low-cost approach[C]//Proceedings of the 2001 Workshop on New Security Paradigms. New Mexico: ACM, 2001: 89-96. [10] HORNG S, FAN P, CHOU Y, et al. A feasible intrusion detector for recognizing IIS attacks based on neural networks[J]. Computers & Security, 2008, 27 (3-4):84-100. [11] ZHANG Changyou, CAO Yuanda, Yang Minghua, et al. The immune recognition method based on analogy reasoning in IDS[J]. Wuhai University Journal of Natural Sciences,2006, 11(6): 1839-1843. [12] 焦李成, 杜海峰. 人工免疫系統(tǒng)進(jìn)展與展望[J]. 電子學(xué)報(bào), 2003, 31(10): 1540-1548. JIAO Licheng, DU Haifeng. Development and prospect of the artificial immune system[J]. Acta Electronica Sinica, 2003, 31 (10): 1540-1548. [13] 肖人彬, 王磊. 人工免疫系統(tǒng): 原理、模型、分析及展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(12): 1281-1293. XIAO Renbin, WANG Lei. Artificial immune system: principle, models, analysis and perspectives[J]. Chinese Journal of Computers, 2002, 25(12): 1281-1293.2.2 綜合距離模型
2.3 綜合降維模型
3 行為樣本向量降維方法
3.1 行為樣本到二維平面的映射
3.2 行為檢測方法
4 結(jié) 語
中山大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文)2009年1期