蘇健
摘 要:根據數據融合理論,提出了一種基于二級數據融合的入侵檢測的理論框架。該方法在一級融合充分利用了多源檢測信息;進行二級融合的各檢測方法則利用各自特點彌補單一方法的缺陷,故可在保持較低誤警率的情況下,提高檢測率,同時能夠發(fā)現(xiàn)未知類型的攻擊。在該理論框架下建立一種實現(xiàn)模型,可將一種新的基于聚類(非監(jiān)督學習)分析方法應用于此。在仿真實驗中,通過通用的KDD99數據集的測試結果表明,其總體檢測率得到了明顯的提高。文中也對系統(tǒng)的實時性進行了分析和總結。
關鍵詞:網絡安全;入侵檢測;數據融合;聚類
中圖分類號:TP393.08 文獻標識碼:A 文章編號:2095-1302(2015)08-00-03
0 引 言
近年來,互聯(lián)網迅猛發(fā)展,隨之而來的是網絡入侵事件的數量也成倍增長;信息安全領域面臨嚴峻的挑戰(zhàn),而入侵檢測技術作為主要的動態(tài)防御手段已經成為當前刻不容緩的重要課題。入侵檢測是對計算機系統(tǒng)攻擊行為的檢測。入侵檢測系統(tǒng)(Intrusion Detection System)能實時監(jiān)控系統(tǒng)的活動、及時發(fā)現(xiàn)攻擊行為并采取相應的措施以避免攻擊的發(fā)生或盡量減少攻擊造成的危害。
傳統(tǒng)的入侵分析技術分為濫用檢測(Misuse Detection)和異常檢測(Anomaly Detection)兩大類。目前已經發(fā)展出的入侵分析技術已有數十種,而任何一種單一的入侵分析技術都存在一定的不足。例如,基于規(guī)則匹配的濫用檢測方法不能有效檢測已知攻擊的變種或為止攻擊;基于系統(tǒng)調用的異常檢測方法不能適應用戶反復無常的更改其工作習慣;基于神經網絡的入侵檢測方法要求訓練數據集純凈,可移植性差。本文提出的新的入侵檢測框架能充分利用多源檢測信息,進行融合的各檢測方法利用各自特點彌補單一方法的缺陷,在保持較低的誤警率的情況下,提高檢測率,同時能夠發(fā)現(xiàn)未知類型的攻擊。
1 基于數據融合的入侵檢測
1.1 理論模型
數據融合技術在軍事領域已得到廣泛的應用,其定義為:把來自多傳感器和信息源的數據和信息加以聯(lián)合(Association)、相關(Correlation),合并為一種表示形式,以獲得目標精確的位置/狀態(tài)估計、身份識別,以及對戰(zhàn)場態(tài)勢和威脅的綜合評估。
把網絡數據看作來自多傳感器的多源信息并引入數據融合的分析模型,能有效的發(fā)現(xiàn)、分析數據之間的內在聯(lián)系,并為系統(tǒng)管理員提供有效的風險評估。在1999年,Tim Bass提出了將數據融合應用于入侵檢測的理論模型[1],圖1所示是Tim Bass的基于數據融合的入侵檢測模型圖。
在圖1所示模型中,態(tài)勢數據可通過網絡傳感器的初步觀測基元、標識符、次數和描述獲得。原始數據需要校準過濾,參照圖1中的層次0。第1層的對象提取在時間(或空間)上相關聯(lián),其數據標以公制的權重。觀測數據可以根據入侵檢測基元關聯(lián)、配對、分類。對象通過配位的行為、依賴、共同的源點、共同的協(xié)議、共同的目標、相關的攻擊率或其他高層次的屬性被檢測出,形成一個基于對象的聚集的集合。對象在這樣的對象基上的上下文中排列、關聯(lián)、置位后,態(tài)勢提取就可以提供態(tài)勢知識和識別。
在該模型的啟發(fā)下,本文提出了一種基于二級數據融合的入侵檢測的框架。第一級對通過多源檢測信息進行融合,提取出有效特征,實現(xiàn)數據融合的目標標定;第二級融合對同一目標用不同的檢測方法進行分析,并使用決策器對各分析結果進行決策融合,得出最終決策并形成反饋控制自適應的調整IDS自身,圖2所示是基于二級數據融合的入侵檢測框架。
在本模型中,一級融合從主機傳感器、網絡傳感器、網關傳感器采集數據,進行對象提取。二級融合中使用的分析引擎也分為濫用和異常兩大類。前一大類具有檢測率高但不能發(fā)現(xiàn)未知類型的攻擊的特點;后一大類則特點各有不同,如基于時序異常的IDS可以發(fā)現(xiàn)系統(tǒng)底層的異常,而基于用戶行為異常的IDS 對用戶的習慣敏感。通過決策融合可以利用各檢測引擎的優(yōu)點,彌補其他的不足。而決策形成的反饋控制可以對某些分析引擎進行微調,從而使整體具有自適應性。在決策融合中可以采用的決策方法有:決策表、能量函數、D-S證據理論。
1.2 實現(xiàn)模型
在現(xiàn)有的試驗條件下,不可能將理論模型中所有的分析引擎都加以使用。目前入侵檢測系統(tǒng)中最大的問題就是不能在較低的誤警率下獲得較高的檢測率。產生這樣問題的根本原因是入侵檢測系統(tǒng)根據單一的檢測手段得到的信息不完善,根據這些信息不易得出正確的結論。著眼于這一點,本文從兩大類入侵分析引擎中各選取一種具有代表性的進行融合:基于規(guī)則/模式匹配的Intrusion Detection Engine和基于聚類 (非監(jiān)督學習)的Intrusion Detection Engine?;谝?guī)則/模式匹配的濫用檢測方法已經發(fā)展的比較成熟,市場上的商用IDS多基于此。它是對數據包作基本的協(xié)議解碼后結合數據包數據區(qū)的內容匹配來檢測攻擊,其特點是對已知類型的攻擊檢測率相當高,但具有不能發(fā)現(xiàn)未知類型的攻擊、不易配置更新的不足?;诰垲悾ǚ潜O(jiān)督學習)的檢測方法屬于異常檢測,它是通過在數據中發(fā)現(xiàn)不同類別的數據集合來區(qū)分異常用戶類,進而推斷入侵事件發(fā)生,檢測異常入侵行為。該方法具有在較低誤警率下發(fā)現(xiàn)未知類型攻擊的能力,但是其檢測率不高。在文獻[2]中給出了一種基于非監(jiān)督學習的實現(xiàn)方法,但其性能不能滿足要求,本文采用另外一種非監(jiān)督學習的聚類方法,取得了不錯的效果。
實際的實現(xiàn)模型如圖3所示,該模型由于檢測率高、誤警率幾乎為零,故將基于規(guī)則/模式匹配的IDE作為主分析引擎。基于聚類(非監(jiān)督學習)的IDE作為輔助分析引擎,彌補主分析引擎不能發(fā)現(xiàn)未知攻擊類型的不足。由于在特征空間中反映出的入侵數據流的分布變化不定,輔分析引擎采用基于一定時間窗口的在線訓練加以擬合。決策融合現(xiàn)簡單的采用基于檢測率、誤警率二維因素的決策表,表1所列是其二維的決策表。
當最終決策表明當前數據流中的入侵數據所占的比例大于2%時形成反饋控制:關閉輔分析引擎,通知管理員,只使用主分析引擎檢測。當入侵數據所占的比例小于2%時繼續(xù)同步工作。
1.3 基于聚類(非監(jiān)督學習)的入侵分析方法
將模式識別中的聚類技術引入入侵檢測屬于異常檢測的方法。與有監(jiān)督學習相比,非監(jiān)督學習的識別率要低一些,但具有發(fā)現(xiàn)未知相似類型的能力。該方法提出了一種能處理不帶標識且含異常數據樣本的訓練集數據的入侵檢測方法。對網絡連接數據作歸一化處理后,在特征空間中按照一定規(guī)則形成類質心,并通過計算樣本數據與各類質心的最小距離來對各樣本數據進行類劃分,同時根據各類中的樣本數據動態(tài)調整類質心。由于網絡數據一般服從這樣的前提假設:正常行為的數據量及其類別數將遠遠大于各種攻擊行為的數據量及其類別。一般可以以訓練結果中各個類劃分的樣本數來評判該類是否異常。完成樣本數據的類劃分后,根據異常比例來確定異常數據類別并用于網絡連接數據的實時檢測。結果表明,該方法有效地以較低的系統(tǒng)誤警率從網絡連接數據中檢測出新的入侵行為,更降低了對訓練數據集的要求。
文獻[2]中詳述了該方法的一種具體實現(xiàn),其核心聚類算法是最鄰近算法。其性能在誤警率平均2.63%的情況下,檢測率在18.75%到56.25%之間波動。為了將這一方法應用于我們的框架中,必須進一步提高檢測率。在此方法中,核心聚類算法采用最大最小距離算法[3],同時加入一些其他的技術如非線性的歸一化預處理、非數值型特征的有效編碼等。最終,在相同的誤警率下,檢測率提高至31.625%到81.7%之間。并且,將此方法應用于入侵檢測框架時,可以利用上面提及的反饋控制調整最大最小距離算法的聚類參數,進一步提高分類的準確性,從而提高檢測率。
2 仿真試驗
在試驗中,我們采用通用的KDDCup99[4]專用數據集進行測試。該數據集來源于從一個模擬的局域網上采集來的9個星期的網絡連接數據。每條數據有41個特征,包括36個數字型特征,5個字符型特征。數據集種共包含4大類22種攻擊。本入侵檢測系統(tǒng)配置如下:主分析引擎可匹配識別8種攻擊;輔分析引擎的一次訓練集包含10種攻擊,其中2種為主分析引擎不可識別的攻擊。被檢測集含有10~12種攻擊。經過5組測試,其平均性能如表2所列。
由此可見,基于融合的檢測在較低的誤警率下可以識別一定的未知類型攻擊,從而明顯提高了檢測率。其平均檢測時間在0.011~0.019秒之間,基本可以接受。與傳統(tǒng)的方法相比,以上結果充分說明了該方法的可行性與實用性。
同時經過進一步分析,還可以看出,雖然基于聚類(非監(jiān)督學習)的入侵檢測方法有助于提高基于規(guī)則/模式匹配的入侵檢測方法的檢測率,但后者對降低前者的誤警率沒有絲毫幫助,這也是我們下一步要研究的課題之一。
此外,入侵檢測系統(tǒng)的一個非常重要的特性就是對實時性的要求很高。系統(tǒng)的精度再高,事后分析的延遲超過一定的限度對用戶來說也是無用的。因此,本文對訓練的實時性和檢測的實時性也進行了相關的分析。
(1)訓練的實時性。我們分別對樣本容量為1 000,2000,5 000的訓練集做了整體性測試,其結果如圖4所示。
可以看出,樣本容量為1 000時訓練耗時為2分40秒,而增加到2 000時已經需要16分鐘。訓練時間是隨著樣本容量的增加而呈指數級增長的。就算以最低的樣本容量訓練也遠不能達到實時的要求。進一步分析發(fā)現(xiàn)大部分時間都用來進行距離矩陣的運算了,實際核心算法的單次迭代花費小于2秒。從程序的編寫角度還可以提升20 %以上的速度,例如:距離在首次使用時計算;數據庫的查詢速度可以提升;數值預處理以后不需要開方運算。另外,由以上分析可以想到,在“實時采集,實時訓練,實時檢測”的系統(tǒng)中,訓練樣本的采集不要批量而是一條條的采集,采集到一條就立刻計算相關的距離值,即將集中計算距離矩陣的時間分散開。這樣總體的訓練時間可以降到5秒鐘以下,達到接近實時訓練的要求。
(2)檢測的實時性。檢測時間主要受規(guī)則集大小和聚類方法最終生成的分類器數目的多少影響。當前條件下一條樣本的平均檢測時間一般為0.015~0.019秒,這是可以接受的。
3 結 語
本文提出了一種基于數據融合的入侵檢測框架,其核心思想是充分利用多源檢測信息,通過融合與反饋的方法有機的結合各種分析引擎。并且一種新的基于聚類(非監(jiān)督學習)的檢測方法應用于本框架,經試驗證明了其有效性。
在下一步的工作中,還需要進一步完善整個框架,提高其性能和實用性,具體方法包括:
(1)提高基于聚類的檢測方法在線學習的穩(wěn)定性;
(2)引入其它類型的分析引擎進行融合;
(3)在相同條件下比較分析各種融合方法的結果;
(4)提高反饋控制的精確性。
參考文獻
[1] Bass,T.,Intrusion Detection Systems and Multisensor Data Fusion:Creating Cyberspace Situational Awareness, Communications of the ACM[J] , April 2000,43(4):223.
[2] Leonid Portnoy, Intrusion detection with unlabeled data using clustering [J]. ACM Workshop on Data Mining Applied to Security, 2001:105.
[3] Jinzong Li, Pattern Recognition Guide [M], China Higher Education Press, Beijing China,1994:313.
[4] Lippmann, R.P. and J. Haines, Analysis and Results of the 1999 DARPA Off-LineIntrusion Detection Evaluation, [A]. Recent Advances in Intrusion Detection, Third International Workshop, RAID 2000 Toulouse, France, October 2000 Proceedings, H.Debar, L. Me, and S.F. Wu, Editors. 2000, Springer Verlag. p. 162-182.
[5] M.C.Fairhurst, A.F.R.Rahman, Enhancing consensus in multiple expert decision fusion, IEE Proc-Vis.ImageSignalProcess [J]. February 2000, 147(1):167
[6] Lee.W, R.Nimbalkar,K.Yee,etc.A Data Miming Mining and CIDF Based Approach for Detecting Novel and Distributed Intrusions. [J]. Proceedings of The Third International Workshop on Recent Advances in Intrusion Detection. Lecture Notes in Computer Science No.1907, Toulouse, France, October 2000:291.