陳天宇,吳 凡,馬世杰,李 雷
(南京郵電大學(xué),江蘇 南京 210023)
基于CS和LS-SVM的入侵檢測(cè)算法
陳天宇,吳 凡,馬世杰,李 雷
(南京郵電大學(xué),江蘇 南京 210023)
由于入侵檢測(cè)中具有原始數(shù)據(jù)量大、維度較高、冗余度較大等特點(diǎn),導(dǎo)致傳統(tǒng)的入侵檢測(cè)算法面對(duì)海量數(shù)據(jù)時(shí)檢測(cè)識(shí)別度低,運(yùn)行時(shí)間長,性能較差。為此,文中提出了一種將壓縮感知和最小二乘支持向量機(jī)應(yīng)用于入侵檢測(cè)系統(tǒng)的方法。其創(chuàng)新點(diǎn)主要在于:引入壓縮采樣技術(shù)提取原始數(shù)據(jù)特征,在保留原數(shù)據(jù)主要特征的前提下,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù);利用最小二乘支持向量機(jī)直接在觀測(cè)域中訓(xùn)練和分類數(shù)據(jù),且核函數(shù)通過組合核函數(shù)構(gòu)建。仿真結(jié)果表明,運(yùn)用壓縮感知進(jìn)行特征提取能夠極大保留原始特征,而最小二乘支持向量機(jī)能夠在不損失精度的前提下加速分類。該方法能夠較大地減少訓(xùn)練時(shí)間,并可以有效提高檢測(cè)精度。
壓縮感知;最小二乘法;支持向量機(jī);入侵檢測(cè)
隨著經(jīng)濟(jì)社會(huì)的發(fā)展,互聯(lián)網(wǎng)被廣泛應(yīng)用于社會(huì)的各行各業(yè)。然而,人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來的便利和高效的同時(shí),其本身卻充斥著安全隱患,對(duì)財(cái)產(chǎn)安全和隱私造成了巨大威脅。在這樣的社會(huì)大環(huán)境下,入侵檢測(cè)系統(tǒng)(IntrusionDetectionSystem,IDS)成為當(dāng)下的熱門研究領(lǐng)域[1],其本質(zhì)上是個(gè)分類問題[2]。目前,入侵檢測(cè)主要通過機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)等方式完成[3-8],其一般流程為提取入侵行為或正常行為的數(shù)據(jù)特征,構(gòu)建出一個(gè)特征數(shù)據(jù)庫,從中進(jìn)行模式匹配,從而完成入侵檢測(cè)。然而,一方面,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,寬帶不斷提高,受限于奈奎斯特采樣定理,實(shí)時(shí)采樣對(duì)軟硬件的要求不斷提高;另一方面,采用機(jī)器學(xué)習(xí)的方法進(jìn)行入侵檢測(cè)時(shí),必然會(huì)面對(duì)樣本數(shù)據(jù)相關(guān)性大、維數(shù)高,訓(xùn)練重復(fù)樣本多,訓(xùn)練時(shí)間過長并且入侵樣本標(biāo)記困難等問題[2]。
近年來,由D.Donoho等在矩陣分析、統(tǒng)計(jì)理論、優(yōu)化理論等研究的基礎(chǔ)上,提出了一種新的信息采樣理論—壓縮感知理論(CompressedSensing,CS)[9-12]。該理論指出,若信號(hào)在某個(gè)變換域內(nèi)是稀疏的,則該信號(hào)就可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣實(shí)現(xiàn)從高維到低維的映射,并可以將低維信號(hào)重構(gòu),從而恢復(fù)出完整的信息。
在壓縮感知理論中,基于l0范數(shù)最小化的重構(gòu)算法是NP-hard問題,即使將問題轉(zhuǎn)化為l1范數(shù)最小化問題,計(jì)算復(fù)雜度仍為O(N3)[13],其中N為信號(hào)長度。
上述算法都無法避免對(duì)信號(hào)進(jìn)行重構(gòu),同時(shí)傳統(tǒng)的基于壓縮感知的入侵檢測(cè)在低信噪比下檢測(cè)效果不佳。
支持向量機(jī)[14](SupportVectorMachine,SVM)以統(tǒng)計(jì)學(xué)為基礎(chǔ),通過尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化來實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,廣泛應(yīng)用于統(tǒng)計(jì)分類中,適用于線性可分以及線性不可分的問題,在較小的訓(xùn)練樣本時(shí)也能獲得良好的分類效果。
基于以上原因,文中將原始入侵檢測(cè)數(shù)據(jù)進(jìn)行預(yù)處理后,選取合適的觀測(cè)矩陣和稀疏基進(jìn)行壓縮采樣并歸一化,進(jìn)而將觀測(cè)域下的低維數(shù)據(jù)通過最小二乘支持向量機(jī)建立檢測(cè)分類器,完成入侵檢測(cè)。在最小二乘支持向量機(jī)中,采用組合核函數(shù)的形式,尋求獲得最近似實(shí)際的分類模型。仿真結(jié)果表明,與經(jīng)典的機(jī)器學(xué)習(xí)方法和壓縮感知算法相比,文中提出的算法可以有效改善支持向量的稀疏性,提高系統(tǒng)的魯棒性,檢測(cè)性能大幅提高,且利用組合核函數(shù)實(shí)現(xiàn)的分類結(jié)果較一般核函數(shù)的分類結(jié)果更精確。
2.1 壓縮感知
(1)
式(1)表明,S,X其實(shí)表示的是同一個(gè)信號(hào),只不過S為信號(hào)在Φ域中的表現(xiàn)形式,X為其在時(shí)域中的表現(xiàn)形式。在Φ域中,假設(shè)X的加權(quán)系數(shù)列S中有K個(gè)非零系數(shù),則X可以用這K個(gè)非零系數(shù)來表示,稱信號(hào)X的稀疏度為K。當(dāng)K?N時(shí),就稱信號(hào)X具有稀疏性。
y=ψX=ψΦS=ΘS
(2)
其中:ψ為觀測(cè)矩陣;Θ=ψΦ是一個(gè)M×N維的壓縮傳感矩陣。
由于ψ是事先選定的確定矩陣,不隨信號(hào)X變化,因此該測(cè)量過程具有非自適應(yīng)性。
綜上所述,壓縮感知理論共包括如下三方面:
第一,對(duì)于信號(hào)X,找到其稀疏正交基Φ,使得該信號(hào)在Φ上稀疏表示。
第二,找到一個(gè)M×N的測(cè)量矩陣ψ,使其與Φ滿足非相關(guān)性,即在對(duì)信號(hào)X進(jìn)行壓縮和降維的過程中,基本不損失原信號(hào)X中的重要信息,該概念等價(jià)于Θ滿足約束等距條件[15](RestrictedIsometryProperty,RIP),也就是說,對(duì)?s∈RN,有
(3)
其中,ε為失真因子。
第三,提取原信號(hào)X中的特征信息后,采取適當(dāng)?shù)闹貥?gòu)算法和分類算法,恢復(fù)數(shù)據(jù)信息并進(jìn)行檢測(cè)。
2.2 支持向量機(jī)
支持向量機(jī)是一種強(qiáng)大的機(jī)器學(xué)習(xí)工具,已經(jīng)在模式識(shí)別、數(shù)據(jù)挖掘等方面廣泛應(yīng)用。由于壓縮感知技術(shù)在重構(gòu)時(shí)采用的算法復(fù)雜度較高,而Calderbank等證明了利用SVM將觀測(cè)域上的壓縮信號(hào)直接分類,其性能與對(duì)原信號(hào)直接使用SVM的精度類似[16],故文中采用將觀測(cè)域下的信號(hào)直接利用SVM對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和分類。
假設(shè)樣本集為:(xi,yi),i=1,2,…,n,x∈Rd,y∈{-1,1}是類別標(biāo)號(hào)。在一個(gè)d維的空間中,在處理非線性問題時(shí),先尋找某個(gè)非線性映射Π:Rd→H,x→π(x),將原空間Rd中的數(shù)據(jù)x映射到一個(gè)高維特征空間中,接著通過引入某種符合Mercer條件的核函數(shù)K(xi,xj),使支持向量機(jī)可以在高維核空間中直接利用線性函數(shù)進(jìn)行線性分類。那么在高維空間中所用的分類函數(shù)如下所示:
(4)
其中:ai>0是Lagrange因子;b是域值。
目前使用率最高的核函數(shù)有如下三種:
(1)多項(xiàng)式核函數(shù)(Poly)。
K(x,xi)=[(x·xi)+l]q
(5)
(2)Gauss徑向基核函數(shù)(RBF)。
K(x,xi)=exp(-‖x-xi‖2/σ2)
(6)
(3)Sigmoid核函數(shù)(Sigmoid)。
K(x,xi)=tanh[v(x×xi)+c]
(7)
其中,v>0,c<0。
為使分類性能最佳,文中采用改進(jìn)交叉驗(yàn)證[17]的方法尋找最優(yōu)參數(shù)。
3.1 稀疏基和隨機(jī)觀測(cè)矩陣的選取
基于對(duì)入侵檢測(cè)數(shù)據(jù)的認(rèn)識(shí),文中的稀疏基采用Gabor緊框架字典[18],其概念為:設(shè)a和b是給定的正數(shù),對(duì)于?g∈L2:L2(R),稱函數(shù)族。
ψj,k(x):=ei2πkbxg(x-ja),j,k∈Z
(8)
為經(jīng)過函數(shù)g得到的Gabor函數(shù)系。