国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

代價(jià)約束算法對(duì)入侵檢測(cè)特征提取的優(yōu)化研究*

2022-12-22 11:32鄭文鳳
關(guān)鍵詞:代價(jià)特征提取類(lèi)別

劉 云,鄭文鳳,張 軼

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

1 引言

惡意網(wǎng)絡(luò)攻擊帶來(lái)了嚴(yán)重的安全問(wèn)題,入侵檢測(cè)系統(tǒng)IDS(Intrusion Detection System)對(duì)維護(hù)網(wǎng)絡(luò)安全尤為重要[1]。數(shù)據(jù)特征提取則是IDS防御的關(guān)鍵,選擇相關(guān)不冗余的數(shù)據(jù)特征可以提高模型的檢測(cè)準(zhǔn)確性[2,3]。針對(duì)類(lèi)不平衡的高維數(shù)據(jù)特征,深度學(xué)習(xí)方法可以直接從原始數(shù)據(jù)中自動(dòng)提取相關(guān)特征,快速處理高維復(fù)雜數(shù)據(jù)[4]。因此,利用深度學(xué)習(xí)模型可降低傳統(tǒng)特征提取算法的計(jì)算復(fù)雜度,應(yīng)對(duì)復(fù)雜數(shù)據(jù)集的特征提取,提高IDS的識(shí)別精度[5]。

Yang等人[6]結(jié)合稀疏自編碼器SAE(Sparse AutoEncoder)和降噪自編碼器DAE(Denoising AutoEncoder)的優(yōu)點(diǎn),設(shè)計(jì)了融合自編碼器FAE(Fusion AutoEncoder)深度學(xué)習(xí)算法,提出了多級(jí)降噪和重采樣的方法解決數(shù)據(jù)丟失和不平衡問(wèn)題,F(xiàn)AE增強(qiáng)了模型的適用性和數(shù)據(jù)特征提取的學(xué)習(xí)能力,比傳統(tǒng)自動(dòng)編碼器AE(AutoEncoder)具有更精確的檢測(cè)效果。Shone等人[7]根據(jù)深度學(xué)習(xí)和淺層學(xué)習(xí)的模型,提出非對(duì)稱(chēng)深度自動(dòng)編碼器NDAE(Nonsymmetric Deep AutoEncoder)學(xué)習(xí)算法,使用堆疊的NDAE和隨機(jī)森林構(gòu)建深度學(xué)習(xí)分類(lèi)模型,可有效進(jìn)行無(wú)監(jiān)督的特征學(xué)習(xí),降低了非對(duì)稱(chēng)數(shù)據(jù)維數(shù)并顯著減少模型的訓(xùn)練時(shí)間,算法準(zhǔn)確性與普通深度神經(jīng)網(wǎng)絡(luò)算法相比更優(yōu)。

為了從高維復(fù)雜數(shù)據(jù)中自動(dòng)提取重要特征,構(gòu)建更加可靠的IDS,本文提出代價(jià)約束算法CCA(Cost Constraint Algorithm),并將其集成到AE中進(jìn)行無(wú)監(jiān)督的特征學(xué)習(xí)。首先構(gòu)建深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,利用L2正則化和稀疏約束方法優(yōu)化目標(biāo)函數(shù);然后根據(jù)類(lèi)別樣本分布生成的代價(jià)矩陣調(diào)整神經(jīng)網(wǎng)絡(luò)模型的參數(shù),通過(guò)堆疊多層的自編碼器學(xué)習(xí)數(shù)據(jù)特征;最終在分類(lèi)器中輸入提取的約簡(jiǎn)特征檢測(cè)分類(lèi)結(jié)果。仿真結(jié)果表明,CCA減少了特征的冗余度,且對(duì)少數(shù)攻擊類(lèi)別數(shù)據(jù)的識(shí)別更敏感,相比其他現(xiàn)有算法檢測(cè)網(wǎng)絡(luò)異常數(shù)據(jù)的精度更高。

2 基于深度學(xué)習(xí)的入侵檢測(cè)模型

2.1 入侵檢測(cè)模型

入侵檢測(cè)模型通過(guò)入侵檢測(cè)識(shí)別網(wǎng)絡(luò)攻擊行為,并給出適當(dāng)?shù)木嬉蕴岣呔W(wǎng)絡(luò)的安全性,該模型主要由數(shù)據(jù)特征提取和分類(lèi)組成,其中,基于深度學(xué)習(xí)方法進(jìn)行特征提取可以快速降低數(shù)據(jù)維度,并獲得更有效的數(shù)據(jù)特征[8]。為了應(yīng)對(duì)大規(guī)模入侵?jǐn)?shù)據(jù),研究人員通常選擇多層神經(jīng)元構(gòu)成的自編碼器構(gòu)建新的入侵檢測(cè)模型,其結(jié)構(gòu)如圖1所示。

Figure 1 Intrusion detection model based on autoencoder

在圖1中,模型先用AE自動(dòng)提取一組數(shù)據(jù)向量x=(x1,x2,…,xn)的相關(guān)特征,其中,xi表示第i個(gè)(i∈{1,2,…,n})訓(xùn)練數(shù)據(jù)向量,n是輸入數(shù)據(jù)的總數(shù)。將最后一個(gè)隱藏層輸出的重構(gòu)數(shù)據(jù)和特征作為分類(lèi)層的輸入,優(yōu)化損失函數(shù)得到模型的分類(lèi)結(jié)果。Softmax是自編碼器常用的分類(lèi)器,適用于解決多分類(lèi)問(wèn)題,可用該分類(lèi)器作為檢測(cè)算法的輸出層。Softmax函數(shù)將多個(gè)神經(jīng)元的輸出映射到[0,1],計(jì)算每個(gè)樣本數(shù)據(jù)分類(lèi)為某個(gè)類(lèi)別的概率如式(1)所示[9]。

(1)

其中,j∈{0,1,2,…,c}表示數(shù)據(jù)的類(lèi)別;yi表示數(shù)據(jù)xi的類(lèi)標(biāo)記,如yi=0時(shí),式(1)表示數(shù)據(jù)預(yù)測(cè)為正常網(wǎng)絡(luò)流量的概率。θ為訓(xùn)練時(shí)的參數(shù)向量,θj為數(shù)據(jù)屬于第j類(lèi)的參數(shù)。因此,入侵檢測(cè)模型通過(guò)P(yi=j|xi;θ)評(píng)估數(shù)據(jù)類(lèi)別的概率值,為了進(jìn)一步反向調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)參數(shù),一般通過(guò)最小化交叉熵?fù)p失函數(shù)來(lái)實(shí)現(xiàn),計(jì)算公式如式(2)所示:

(2)

其中,N表示訓(xùn)練樣本的個(gè)數(shù),I{yi=j}表示標(biāo)簽yi屬于類(lèi)別j的可能性,如果yi=j,則I=1,否則I為0。

由AE構(gòu)成的入侵檢測(cè)模型,可以實(shí)現(xiàn)高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的非線(xiàn)性轉(zhuǎn)換,但這種神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)簡(jiǎn)單的數(shù)據(jù)特征。為了快速發(fā)現(xiàn)復(fù)雜數(shù)據(jù)中的重要信息,提取更深層次的數(shù)據(jù)特征,需要在基本的神經(jīng)網(wǎng)絡(luò)上進(jìn)行優(yōu)化。通常的做法是在神經(jīng)網(wǎng)絡(luò)的隱藏層添加約束或者重復(fù)多次學(xué)習(xí),提高入侵檢測(cè)模型的檢測(cè)精度和收斂性[10]。

2.2 棧式稀疏自編碼器

將多個(gè)AE堆疊在一起學(xué)習(xí)的方法稱(chēng)為棧式自編碼器SAE(Stacked AutoEncoder)[10]。為了降低時(shí)間復(fù)雜度,本文使用堆疊2個(gè)隱藏層的自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí),將最終提取的數(shù)據(jù)特征輸入分類(lèi)器,其結(jié)構(gòu)如圖2所示。

Figure 2 Structure of stacked autoencoder

輸入層、隱藏層和輸出層是SAE深度學(xué)習(xí)的基本組成,m和m′分別是隱藏層神經(jīng)元的數(shù)量,+1是偏向神經(jīng)元。神經(jīng)網(wǎng)絡(luò)的上一層的輸出用作自編碼器的下一層的輸入,以便獲得輸入數(shù)據(jù)更高級(jí)別的特征表示。

無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)深度特征提取模型,學(xué)習(xí)數(shù)據(jù)的特征表示主要包含2個(gè)學(xué)習(xí)過(guò)程:編碼和解碼,編碼過(guò)程如式(3)所示[11]:

h=f(Wx+b)

(3)

其中,f(·)表示編碼器的非線(xiàn)性激活函數(shù),W∈Rm×n表示編碼權(quán)重矩陣,b∈Rm表示編碼偏置向量。

式(3)將輸入向量x映射到隱藏層,編碼結(jié)果用h表示,然后用解碼激活函數(shù)g(·)重構(gòu)隱藏表示h,如式(4)所示:

(4)

(5)

通過(guò)最小化重構(gòu)誤差,可優(yōu)化特征提取參數(shù)。

隱藏層的輸出數(shù)據(jù)是原始數(shù)據(jù)的低維表示,對(duì)隱藏神經(jīng)元施加稀疏約束,選擇性地激活相關(guān)的神經(jīng)元,構(gòu)成棧式稀疏自編碼器SSAE(Stacked Sparse AutoEncoder)[3]。第k個(gè)神經(jīng)元的平均激活如式(6)所示:

(6)

其中,ak(xi)表示在輸入xi時(shí)隱藏神經(jīng)元k的激活度。

(7)

(8)

在稀疏懲罰項(xiàng)中,β為稀疏控制權(quán)重系數(shù),其值在0~1。

常見(jiàn)的特征提取算法主要基于類(lèi)別分布平衡的數(shù)據(jù),但在實(shí)際入侵檢測(cè)中,數(shù)據(jù)存在嚴(yán)重的類(lèi)不平衡問(wèn)題,不同類(lèi)別的攻擊存在明顯的分布不均。數(shù)據(jù)分布不均會(huì)嚴(yán)重影響算法的性能,為了提高IDS的可靠性,所提算法在特征提取中引入代價(jià)敏感學(xué)習(xí)方法,可獲得更加有效的低維數(shù)據(jù)特征[14]。

3 代價(jià)約束算法(CCA)

3.1 代價(jià)矩陣

為了降低IDS的誤報(bào)率,正確識(shí)別未知攻擊數(shù)據(jù)的入侵行為,需要增強(qiáng)少樣本數(shù)據(jù)特征的敏感性。用采樣技術(shù)平衡訓(xùn)練數(shù)據(jù)的傳統(tǒng)方法具有一定的局限性,因此,將根據(jù)不同類(lèi)別的樣本分布提出的代價(jià)矩陣C,集成到SSAE中進(jìn)行特征學(xué)習(xí),可提取稀缺數(shù)據(jù)的相關(guān)特征,提高IDS的可靠性。

表1表示具有5個(gè)類(lèi)別數(shù)據(jù)集的代價(jià)矩陣C,其中,Cij表示實(shí)際類(lèi)別i被預(yù)測(cè)為類(lèi)別j的代價(jià)。當(dāng)i=j時(shí),Cij=0,表示正確分類(lèi)的代價(jià);當(dāng)i≠j時(shí),Cij> 0,表示錯(cuò)誤分類(lèi)的代價(jià),數(shù)據(jù)分類(lèi)錯(cuò)誤的代價(jià)根據(jù)式(9)的樣本分布計(jì)算。

Table 1 Cost matrix with 5 types of data

(9)

其中,Ni表示i類(lèi)數(shù)據(jù)實(shí)際樣本量,Nj表示i類(lèi)數(shù)據(jù)預(yù)測(cè)為j類(lèi)的樣本量。數(shù)據(jù)樣本越少,被錯(cuò)分的代價(jià)越高。根據(jù)代價(jià)矩陣優(yōu)化交叉熵?fù)p失函數(shù),可得到具有代價(jià)約束的特征提取參數(shù)調(diào)整模型,如式(10)所示:

(10)

通過(guò)Cij降低少數(shù)類(lèi)樣本數(shù)據(jù)錯(cuò)分的概率,可使該類(lèi)的數(shù)據(jù)特征更加敏感。

為了防止特征提取模型過(guò)度擬合,本文在代價(jià)函數(shù)中使用正則化方法優(yōu)化權(quán)重參數(shù),如式(11)所示:

(11)

利用L2正則化優(yōu)化權(quán)重矩陣W,用正則化參數(shù)λ來(lái)控制權(quán)重懲罰力度,L是隱藏層的個(gè)數(shù),ml是第l個(gè)隱藏層中神經(jīng)元的數(shù)量。

通過(guò)最小化代價(jià)目標(biāo)函數(shù)調(diào)整權(quán)重和偏置參數(shù),可得到最優(yōu)的SSAE特征提取模型,如式(12)所示:

(12)

3.2 代價(jià)約束算法步驟

為了解決算法初始化參數(shù)問(wèn)題,CCA算法使用無(wú)監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型的較低層,為第1層網(wǎng)絡(luò)生成初始參數(shù),并將輸出作為下一層的輸入,最后通過(guò)貪婪的逐層訓(xùn)練得到SSAE中每層網(wǎng)絡(luò)的初始參數(shù)。預(yù)訓(xùn)練后,使用有監(jiān)督的反向傳播學(xué)習(xí)對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),可以減少重構(gòu)輸出與原始輸入的誤差。代價(jià)約束算法主要步驟如算法1所示。

算法1代價(jià)約束算法(CCA)

輸入:預(yù)處理后的n維原始數(shù)據(jù)x,代價(jià)矩陣C。

輸出:參數(shù)向量θ*,分類(lèi)結(jié)果。

(1)Begin

(2)預(yù)訓(xùn)練得到初始化參數(shù)θ1=(W1,b1,W′1,b′1)。

(3)根據(jù)代價(jià)矩陣C最小化式(12)的目標(biāo)函數(shù),利用原始數(shù)據(jù)x和參數(shù)θ1計(jì)算隱藏層的輸出h。

(4)訓(xùn)練得到下一層網(wǎng)絡(luò)的參數(shù)θ2,計(jì)算第2個(gè)隱藏層的輸出。最后訓(xùn)練得到初始化參數(shù)θ3。

(5)將提取的特征和重構(gòu)數(shù)據(jù)輸入分類(lèi)器并懲罰分類(lèi)結(jié)果。當(dāng)數(shù)據(jù)被錯(cuò)分時(shí),減少分類(lèi)輸出值:

y′i=yi-Cij×yi

當(dāng)預(yù)測(cè)類(lèi)為實(shí)際類(lèi)時(shí),增加分類(lèi)輸出值:

y″i=yi+Cij×yi

(6)反向傳播調(diào)整誤差,更新權(quán)重和偏置:

wij+lδyi←wij+Δwij←wij

bj+lδ←bj+Δbj←bj

(7)最小化目標(biāo)函數(shù)值在幾個(gè)時(shí)期內(nèi)變化極小時(shí),神經(jīng)網(wǎng)絡(luò)達(dá)到收斂,停止訓(xùn)練步驟。

(9)End

在步驟(5)中,CCA算法通過(guò)相應(yīng)的成本對(duì)實(shí)際分類(lèi)和錯(cuò)誤分類(lèi)都進(jìn)行懲罰,yi是預(yù)測(cè)輸出的類(lèi)別,y′i是錯(cuò)誤預(yù)測(cè)減少的新輸出,y″i是實(shí)際類(lèi)預(yù)測(cè)增加的新輸出。因?yàn)轭A(yù)測(cè)類(lèi)別輸出的值越大,預(yù)測(cè)數(shù)據(jù)類(lèi)別的概率越高,所以CCA算法的特征懲罰學(xué)習(xí)可降低錯(cuò)誤分類(lèi)的輸出,提高數(shù)據(jù)類(lèi)別檢測(cè)的準(zhǔn)確性。

在步驟(6)中,wij是第l個(gè)隱藏層中神經(jīng)單元i到下一層神經(jīng)元j的連接權(quán)重。δ是神經(jīng)元的誤差,反向傳播過(guò)程主要通過(guò)誤差調(diào)整2個(gè)參數(shù)值。

最后一層神經(jīng)元誤差由預(yù)測(cè)類(lèi)的輸出與實(shí)際類(lèi)的輸出決定,計(jì)算公式如式(13)所示:

(13)

同時(shí),當(dāng)i不是最后一層的神經(jīng)單元時(shí),計(jì)算誤差要考慮2個(gè)連接單元的誤差的加權(quán)和,如式(14)所示:

(14)

wik是神經(jīng)元i到下一層神經(jīng)元k的連接權(quán)重。預(yù)訓(xùn)練和微調(diào)可以降低訓(xùn)練深度模型的時(shí)間復(fù)雜度,提高模型的泛化性能。在AE的Softmax分類(lèi)器中,根據(jù)算法1得到的最優(yōu)參數(shù),激活函數(shù)F(x)計(jì)算最大條件概率P(yi=j|xi;θj),輸出x所屬的類(lèi)別。

(15)

4 仿真分析

4.1 數(shù)據(jù)集及仿真環(huán)境

經(jīng)典的KDDCUP99數(shù)據(jù)集缺少新的網(wǎng)絡(luò)攻擊數(shù)據(jù),與現(xiàn)有的網(wǎng)絡(luò)流量存在較大差距,為此,澳大利亞網(wǎng)絡(luò)安全中心創(chuàng)建了UNSW-NB15數(shù)據(jù)集[16],該數(shù)據(jù)集包含更多新的網(wǎng)絡(luò)數(shù)據(jù)特征,可提高IDS評(píng)估的可靠性。UNSW-NB15數(shù)據(jù)集包含9個(gè)攻擊類(lèi)和1個(gè)正常類(lèi),共有44個(gè)數(shù)據(jù)特征,主要分為:時(shí)間特征、內(nèi)容特征、流特征、基本特征、標(biāo)記特征和其他原始特征。在257 673個(gè)數(shù)據(jù)樣本中,有 175 341個(gè)訓(xùn)練數(shù)據(jù)和82 332個(gè)測(cè)試數(shù)據(jù)。具體的數(shù)據(jù)分布如表2所示。

實(shí)驗(yàn)環(huán)境的操作系統(tǒng)為Windows 10,CPU為Intel i5-8265U,主頻為1.80 GHz,內(nèi)存為8 GB,開(kāi)發(fā)環(huán)境為Python。首先,根據(jù)數(shù)據(jù)分布對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將所有的特征數(shù)據(jù)都轉(zhuǎn)換為數(shù)值,再通過(guò)歸一化處理將所有的屬性值縮放到0~1,以加快模型的訓(xùn)練速度。采樣數(shù)據(jù)時(shí),選擇80%的樣本組成訓(xùn)練集,其余組成測(cè)試集,并將攻擊類(lèi)別分開(kāi)進(jìn)行平衡采樣,這樣可相對(duì)減少類(lèi)不平衡問(wèn)題的影響。

Table 2 Distribution of UNSW-NB15 dataset

4.2 評(píng)價(jià)指標(biāo)

利用CCA算法從高維復(fù)雜數(shù)據(jù)中提取重要的約簡(jiǎn)特征,可得到最優(yōu)的檢測(cè)結(jié)果。為了評(píng)估算法的性能,使用準(zhǔn)確率Acc、召回率R、精度Pre、F值和誤報(bào)率FAR這5個(gè)指標(biāo)來(lái)衡量入侵檢測(cè)系統(tǒng)的優(yōu)劣。Acc表示準(zhǔn)確率,即正確分類(lèi)的樣本數(shù)的比例,是最常用的評(píng)價(jià)指標(biāo)。召回率R表示正常樣本數(shù)據(jù)被正確分類(lèi)的比例。精度Pre表示預(yù)測(cè)的正樣本數(shù)中正確分類(lèi)的比例,精度高則誤報(bào)率低。R和Pre都是重要的評(píng)估指標(biāo),為了綜合考慮兩者的影響,需要用調(diào)和均值F-measure來(lái)權(quán)衡。誤報(bào)率FAR是預(yù)測(cè)的攻擊樣本中實(shí)際為正常數(shù)據(jù)的比例,降低誤報(bào)率是IDS工作的重要方面。5個(gè)指標(biāo)的計(jì)算方法如式(16)~式(20)所示:

(16)

(17)

(18)

(19)

(20)

其中,TP表示正常數(shù)據(jù)被正確分類(lèi)的樣本數(shù),F(xiàn)P表示正常數(shù)據(jù)誤報(bào)的樣本數(shù),TN表示攻擊數(shù)據(jù)被正確分類(lèi)的樣本數(shù),F(xiàn)N表示攻擊數(shù)據(jù)漏報(bào)的樣本數(shù)[6,15]。式(19)中的調(diào)整參數(shù)a是一個(gè)正值,用于確定精度在召回率上的相對(duì)重要性,在不平衡樣本中將a設(shè)置為4可以減小FN。

4.3 檢測(cè)精度分析

在兩分類(lèi)問(wèn)題中,所有類(lèi)型的攻擊都被視為惡意事件,通過(guò)結(jié)合分類(lèi)器可評(píng)估入侵檢測(cè)算法的精度。為了驗(yàn)證CCA算法的普適性,本文同時(shí)采用標(biāo)準(zhǔn)UNSW-NB15 數(shù)據(jù)集和通用的KDDCUP99數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化訓(xùn)練。使用5個(gè)度量指標(biāo)分析正常數(shù)據(jù)和異常數(shù)據(jù)的檢測(cè)結(jié)果,對(duì)比算法對(duì)異常數(shù)據(jù)的檢測(cè)準(zhǔn)確性。NDAE、FAE和CCA算法的性能指標(biāo)如表3所示。

Table 3 Performance of three algorithms in two categories problems

在UNSW-NB15數(shù)據(jù)集上,CCA算法仿真檢測(cè)數(shù)據(jù)的Acc和Pre都接近99%,驗(yàn)證了該算法可以準(zhǔn)確預(yù)測(cè)正常流量數(shù)據(jù)和攻擊數(shù)據(jù)。其次,FAE和 NDAE算法的FAR值為0.038和0.027,而CCA算法的FAR值減少到0.013。在對(duì)比的KDDCUP99數(shù)據(jù)集上,CCA算法的前4個(gè)指標(biāo)基本達(dá)到99%,F(xiàn)AR值減少到0.009,說(shuō)明該算法優(yōu)化的分類(lèi)器的誤報(bào)概率更低,提高了入侵檢測(cè)的可靠性。從訓(xùn)練結(jié)果可知,更復(fù)雜的UNSW-NB15數(shù)據(jù)集對(duì)算法的要求更高。

由于數(shù)據(jù)集中的攻擊樣本數(shù)遠(yuǎn)高于正常樣本數(shù),其他2種算法的兩分類(lèi)檢測(cè)精度也很高,因此不能反映少數(shù)攻擊類(lèi)數(shù)據(jù)對(duì)IDS的影響。圖3為不同算法在UNSW-NB15 數(shù)據(jù)集上的多分類(lèi)混淆矩陣,0表示正常數(shù)據(jù),1~9表示9種不同攻擊類(lèi)別。多類(lèi)混淆矩陣可以更好地反映IDS的檢測(cè)性能,評(píng)估特征提取算法對(duì)少數(shù)類(lèi)別數(shù)據(jù)的影響。

Figure 3 Multi-class confusion matrix of different algorithms on UNSW-NB15 dataset

樣本少的數(shù)據(jù)特征通常更難提取,所有算法對(duì)攻擊類(lèi)別的檢測(cè)精度隨著樣本數(shù)量的減少逐漸下降。從圖3 的混淆矩陣中可以看到,CCA算法對(duì)少數(shù)攻擊類(lèi)的識(shí)別精度更高,特別是對(duì)Shellcode和Worms的識(shí)別精度分別達(dá)到了80%和66%,說(shuō)明CCA算法對(duì)少數(shù)類(lèi)數(shù)據(jù)的特征提取更敏感。

4.4 收斂性分析

算法收斂時(shí),IDS的檢測(cè)精度能夠直接反映特征提取算法的有效性。圖4為不同算法性能隨迭代次數(shù)變化的擬合結(jié)果,水平軸表示迭代次數(shù),縱軸表示檢測(cè)精度。

Figure 4 Detection accuracy when different algorithms converge on UNSW-NB15 dataset

在CCA、NDAE和FAE算法的擬合曲線(xiàn)中,檢測(cè)算法收斂時(shí)分別迭代了35次,40次和45次左右。相比于另外2個(gè)算法,CCA算法以最快的收斂速度實(shí)現(xiàn)了最高的精度,表明該算法在IDS模型中要比其他算法的收斂性好。

生成入侵檢測(cè)模型所需的訓(xùn)練時(shí)間會(huì)影響IDS的檢測(cè)成本,為了在處理大規(guī)模數(shù)據(jù)時(shí)減少計(jì)算成本,需要控制算法的收斂時(shí)間。在SSAE深度學(xué)習(xí)中,隱藏層的神經(jīng)元數(shù)量會(huì)影響模型的學(xué)習(xí)時(shí)間,模型訓(xùn)練時(shí)間隨隱藏層神經(jīng)元數(shù)量的變化如圖5所示。從圖5中可以看出,隨著神經(jīng)元數(shù)量增多,算法的時(shí)間復(fù)雜度增加,模型的訓(xùn)練時(shí)間變慢。但是,CCA算法通過(guò)數(shù)據(jù)降維來(lái)減少冗余特征,在UNSW-NB15 數(shù)據(jù)集上算法收斂速度仍比另外2個(gè)算法快,并且可持續(xù)減少模型所需的學(xué)習(xí)時(shí)間,執(zhí)行速度分別是FAE和NDAE算法的1.35和1.10倍。訓(xùn)練KDDCUP99數(shù)據(jù)集也得到了相同的結(jié)果。

Figure 5 Model training time changes with network neuron numbers

5 結(jié)束語(yǔ)

在面臨高維和復(fù)雜的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)時(shí),傳統(tǒng)特征提取算法的性能達(dá)不到理想的效果,基于深度學(xué)習(xí)的CCA算法能更好地減少特征冗余并增強(qiáng)對(duì)少樣本數(shù)據(jù)特征的敏感度。本文利用SSAE構(gòu)建多層神經(jīng)網(wǎng)絡(luò)堆疊學(xué)習(xí)特征,通過(guò)KL散度對(duì)目標(biāo)函數(shù)添加稀疏約束,最后結(jié)合代價(jià)矩陣訓(xùn)練特征提取模型的最優(yōu)參數(shù)。仿真結(jié)果表明,CCA算法能夠處理高維和類(lèi)不平衡數(shù)據(jù),精確提取重要的數(shù)據(jù)特征,使IDS具有更高的檢測(cè)精度和效率。數(shù)據(jù)的不完整和噪聲也會(huì)影響IDS的檢測(cè)性能,下一步將深入研究如何提高數(shù)據(jù)特征學(xué)習(xí)的魯棒性。

猜你喜歡
代價(jià)特征提取類(lèi)別
論陶瓷刻劃花藝術(shù)類(lèi)別與特征
一起去圖書(shū)館吧
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于Daubechies(dbN)的飛行器音頻特征提取
愛(ài)的代價(jià)
幸災(zāi)樂(lè)禍的代價(jià)
代價(jià)
選相紙 打照片