基于深度學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)模型*

2023-06-27 08:51禹寧，谷良，狄婷

火力與指揮控制 2023年5期

禹寧，谷良，狄婷

（國網(wǎng)山西省電力公司信息通信分公司，太原 030000）

0 引言

網(wǎng)絡(luò)已經(jīng)成為能源、金融、政務(wù)等國家基礎(chǔ)設(shè)施和公民個(gè)人信息傳輸?shù)闹饕d體，由于網(wǎng)絡(luò)架構(gòu)的開放性和其難以根除的系統(tǒng)漏洞，各類網(wǎng)絡(luò)攻擊層出不窮，尤其高級(jí)持續(xù)威脅（advanced persistent threat，APT）攻擊已經(jīng)成為近年來威脅我國網(wǎng)絡(luò)設(shè)施安全的主要攻擊形式［1］，及時(shí)檢測(cè)復(fù)雜多變的網(wǎng)絡(luò)攻擊，保障國家重要網(wǎng)絡(luò)基礎(chǔ)設(shè)施和公民信息安全成為目前網(wǎng)絡(luò)安全研究的緊迫需求。

網(wǎng)絡(luò)攻擊通常主要有4 種形式，分別是DoS（Deny of Service）、Probe、U2R（User to Root）和R2L（Remote to Local），上述攻擊形式也是APT 攻擊過程中據(jù)點(diǎn)建立和橫向移動(dòng)階段的主要攻擊形式；一旦攻擊達(dá)成便可長(zhǎng)期駐留用戶網(wǎng)絡(luò)，適時(shí)竊取目標(biāo)用戶敏感數(shù)據(jù)信息，造成難以察覺的巨大破壞。針對(duì)上述攻擊，目前存在大量研究。YANG Y Q 等針對(duì)U2R 和R2L 攻擊提出基于改進(jìn)密度峰值算法和深度置信網(wǎng)絡(luò)的MDPCA-DBN 算法實(shí)現(xiàn)攻擊檢測(cè)［2］，該算法針對(duì)良性數(shù)據(jù)的識(shí)別準(zhǔn)確率達(dá)到97.38%，對(duì)于U2R 和R2L 的識(shí)別率分別達(dá)到6.5%和17.25%。CHUAN Y 等針對(duì)DoS 攻擊提出基于CNN 和RNN的集成檢測(cè)算法，識(shí)別率達(dá)到99.1%，但該方法計(jì)算開銷較大［3］。SONG C H 等將網(wǎng)絡(luò)攻擊視為惡意流量，基于分類思想利用LSTM 和XGBoost 集成算法實(shí)現(xiàn)了惡意流量分類識(shí)別，但該檢測(cè)方法檢測(cè)精度較低［4］。劉海波等針對(duì)APT 攻擊利用對(duì)抗網(wǎng)絡(luò)提出了基于GAN-LSTM 的檢測(cè)方法，實(shí)驗(yàn)表明融入生成對(duì)抗網(wǎng)絡(luò)的檢測(cè)算法對(duì)比LSTM 網(wǎng)絡(luò)檢測(cè)效果有明顯提升［5］。針對(duì)DDoS 攻擊，ROBSON V 等提出基于快速分層深度卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)算法（Tree-CNN）［6］，并在模型頂層使用SRS 激活函數(shù)使模型具有更好的泛化能力和學(xué)習(xí)速度，該模型識(shí)別率達(dá)到97%，但該方法模型檢測(cè)精度較低。YU J 等提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)（MSCNN）的高精度入侵檢測(cè)系統(tǒng)［7］，通過不同尺度的卷積核特征提取有效提升了卷積檢測(cè)精度，針對(duì)上述各類攻擊的平均準(zhǔn)確率提高了4.37%。WU 等提出了LuNet模型［8］，該模型針對(duì)Probe，DoS 攻擊的檢測(cè)率達(dá)到99%，但是對(duì)于U2R 和R2L 的識(shí)別率較低；IM RANA Y 等提出了基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的檢測(cè)模型（Bi-LSTM）［9］，該模型檢測(cè)精度達(dá)到92.81%，但時(shí)間復(fù)雜度較高，訓(xùn)練時(shí)間達(dá)到9 789 s；高忠石等提出了基于主成分分析優(yōu)化的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的入侵檢測(cè)模型（PCA-LSTM）實(shí)現(xiàn)二元分類，但該方法檢測(cè)精度達(dá)到94.34%［10］。

針對(duì)網(wǎng)絡(luò)復(fù)雜混沌特性導(dǎo)致的檢測(cè)精度低、特征學(xué)習(xí)不充分、時(shí)間開銷大等問題，本文提出基于深度學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測(cè)框架GP-CABL，主要貢獻(xiàn)包括：1）提出一種基于貪心策略與主成分相結(jié)合的GPCA（Greedy PCA，簡(jiǎn)稱GPCA）方法，對(duì)網(wǎng)絡(luò)流量的高維特征進(jìn)行最優(yōu)特征子集提取以降低模型時(shí)間復(fù)雜度；2）構(gòu)建CABL 框架實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測(cè)：利用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）和長(zhǎng)短期記憶網(wǎng)絡(luò)（bidirectional long short-term memory network，Bi-LSTM）充分提取流量的空間特征和時(shí)序特征，并基于注意力機(jī)制（attention）對(duì)學(xué)習(xí)過的特征圖進(jìn)行信息增強(qiáng)，以保證檢測(cè)精度的同時(shí)加快模型收斂速度；3）通過充分實(shí)驗(yàn)驗(yàn)證和對(duì)比了GP-CABL 的有效性。

1 GP-CABL 網(wǎng)絡(luò)攻擊檢測(cè)框架

1.1 網(wǎng)絡(luò)攻擊檢測(cè)框架設(shè)計(jì)

GP-CABL 檢測(cè)框架總體上是一個(gè)層次模型，檢測(cè)流程如圖1 所示，由特征構(gòu)建層、數(shù)據(jù)預(yù)處理層、特征提取層、模型訓(xùn)練與測(cè)試層和結(jié)果輸出層共5層構(gòu)成。主要工作模式為：1）采集網(wǎng)絡(luò)流量，并構(gòu)建流量初始特征；2）對(duì)初始特征進(jìn)行預(yù)處理；3）基于GPCA 提取初始特征的最優(yōu)子集，并按照4∶1 比例構(gòu)建模型訓(xùn)練集和測(cè)試集；4）訓(xùn)練CABL 模型；5）采用測(cè)試集進(jìn)行模型評(píng)估，輸出測(cè)試結(jié)果。

圖1 GP-CABL 網(wǎng)絡(luò)入侵檢測(cè)流程圖Fig.1 The flow chart of GP-CABL network intrusion detection

1.2 GPCA 特征提取算法

在惡意流量檢測(cè)中，初始特征中包含的流量特征噪聲多、維度高、冗余度大，是影響模型識(shí)別精度和性能主要因素，且初始流量特征對(duì)惡意流量檢測(cè)貢獻(xiàn)度并不均衡，因而挖掘關(guān)鍵流量特征成為降低模型復(fù)雜度、減少訓(xùn)練開銷，提升模型魯棒性的一個(gè)主要途徑。PCA 算法能夠?qū)μ卣鬟M(jìn)行線性組合和歸并，在保持流量主要信息量的情況下降低特征維度；貪心算法能夠在訓(xùn)練參數(shù)保持最優(yōu)的基礎(chǔ)上對(duì)當(dāng)前特征作出最優(yōu)選擇，基于上述分析，本文提出一種基于貪心與主成分相結(jié)合的GPCA 特征提取算法用于對(duì)初始特征進(jìn)行降維，其實(shí)現(xiàn)原理及步驟如下所示。

設(shè)經(jīng)過數(shù)據(jù)預(yù)處理后的初始特征集為S，且其共包含N 個(gè)對(duì)象，即，每個(gè)對(duì)象包含m 個(gè)變量，即：，其中，。

Step 1：求每個(gè)對(duì)象特征的平均值，即利用式（1）求出m 個(gè)特征的平均值，其中，表示第t 個(gè)特征的平均值。

Step 2：求Xi中每一維特征的相關(guān)系數(shù)矩陣R，即利用式（2）～式（4）求相關(guān)系數(shù)矩陣R。

其中，E（Xi·Xj）表示求向量Xi·Xj的期望，其計(jì)算方式如式（4）所示。

Step 3：提取低維度協(xié)方差矩陣Rk（k＜m）。列出矩陣R 的每個(gè)列向量的2-范數(shù)，選擇較大的k 列構(gòu)成子矩陣Ck。2-范數(shù)的計(jì)算公式如式（5）。

Step 6：基于貪心策略選擇模型學(xué)習(xí)率、迭代次數(shù)、模型隱藏層結(jié)點(diǎn)個(gè)數(shù)最優(yōu)值，在上述參數(shù)保持最優(yōu)的條件下，通過觀察不同主因子k 對(duì)應(yīng)的實(shí)驗(yàn)準(zhǔn)確率變化趨勢(shì)，尋找最優(yōu)k 值。最終將數(shù)據(jù)S 集

由上述推理可知傳統(tǒng)PCA 分解過程中，奇異值分解是其中計(jì)算復(fù)雜度最高也是計(jì)算開銷最大的過程，在奇異值分解前針對(duì)特征降維是降低其復(fù)雜度的有效途徑。GPCA 通過在奇異值分解之前對(duì)矩陣R 進(jìn)行降維，有效減少了計(jì)算開銷。從時(shí)間復(fù)雜度分析角度看，傳統(tǒng)PCA 奇異值分解協(xié)方差矩陣的時(shí)間復(fù)雜度為O（N×m3），其中，N 為樣本數(shù)量，m 是樣本特征的數(shù)量。而GPCA 分解前首先將m 縮小至k（k＜m），其時(shí)間復(fù)雜度為O（N×m3），當(dāng)樣本數(shù)量有限時(shí)，其計(jì)算開銷明顯降低，因此，GPCA 較傳統(tǒng)PCA 能有效提升特征提取的速度。

1.3 CABL 惡意流量檢測(cè)框架

CABL 惡意流量檢測(cè)框架由流量空間特征學(xué)習(xí)、特征增強(qiáng)和時(shí)序特征學(xué)習(xí)模塊3 部分構(gòu)成，結(jié)構(gòu)如下頁圖2 所示。從網(wǎng)絡(luò)流量數(shù)據(jù)傳輸形式看，流量數(shù)據(jù)自上而下由報(bào)文、數(shù)據(jù)報(bào)、數(shù)據(jù)包、幀和比特構(gòu)成，呈現(xiàn)顯著的層次結(jié)構(gòu)特征即空間結(jié)構(gòu)特征；從流量采集的時(shí)間過程看，流量是嚴(yán)格按時(shí)間不斷匯聚而成，是按照時(shí)間先后順序構(gòu)成的數(shù)據(jù)列，即網(wǎng)絡(luò)流量數(shù)據(jù)是按照一定的時(shí)間粒度進(jìn)行聚合構(gòu)建的時(shí)序數(shù)據(jù)，具有鮮明的時(shí)序特征。網(wǎng)絡(luò)流量在空間結(jié)構(gòu)特征方面與自然語言呈現(xiàn)出顯著的相關(guān)性，一維CNN 在自然語言處理領(lǐng)域取得良好的進(jìn)展［11］，CABL 借助CNN 特性，設(shè)置兩層卷積層對(duì)GPCA 提取的最優(yōu)特征子集進(jìn)行學(xué)習(xí)和特征提取，通過設(shè)置兩層最大池化層獲取網(wǎng)絡(luò)流量顯著特征，得到新的特征圖。針對(duì)池化層特征重構(gòu)帶來的信息損失問題，采用Attention 機(jī)制［12］對(duì)獲取的顯著特征進(jìn)行增強(qiáng)，即通過為新獲取的特征圖中各特征賦予不同的權(quán)重來加速損失函數(shù)最小化。針對(duì)網(wǎng)絡(luò)流量的時(shí)序特征學(xué)習(xí)，LSTM 網(wǎng)絡(luò)利用細(xì)胞狀態(tài)信息、輸入門、遺忘門和輸出門，有效地解決了梯度爆炸和梯度消失的問題，Bi-LSTM 網(wǎng)絡(luò)利用正向LSTM 和反向LSTM 網(wǎng)絡(luò)，兼顧歷史和未來信息對(duì)當(dāng)前狀態(tài)的影響，能夠充分地學(xué)習(xí)網(wǎng)絡(luò)攻擊發(fā)生時(shí)網(wǎng)絡(luò)流量前后突變引起的時(shí)序特征變化，因此，CABL 借助Bi-LSTM［13］學(xué)習(xí)網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)序特征。在模型訓(xùn)練中，利用基于貪心策略的調(diào)參方法尋找學(xué)習(xí)率、隱藏層神經(jīng)節(jié)點(diǎn)個(gè)數(shù)、批處理大小等變量的參數(shù)，直到損失函數(shù)基本收斂后，利用檢測(cè)率和準(zhǔn)確率等模型評(píng)價(jià)指標(biāo)獲取模型最優(yōu)參數(shù)；并利用測(cè)試集對(duì)CABL 進(jìn)行驗(yàn)證。

圖2 GP-CABL 模型架構(gòu)圖Fig.2 GP-CABL model architecture

CABL 檢測(cè)模型構(gòu)建的步驟包括：

Step 1 空間特征學(xué)習(xí)，將GPCA 選擇的最優(yōu)特征集輸入流量空間特征學(xué)習(xí)模塊進(jìn)行空間特性學(xué)習(xí)；

CNN 的輸入是三通道，其格式為H×W×C，其中，H，W 是數(shù)據(jù)集的樣本數(shù)和特征個(gè)數(shù)，C=1 表示文本序列。本文的卷積網(wǎng)絡(luò)選取3×1 的共享卷積核進(jìn)行卷積操作，提取局部區(qū)域的特征，具體可由式（7）和式（8）可得，其中，W 表示代表卷積核的矩陣向量，Bi表示隨機(jī)偏置向量，f（·）表示非線性激活函數(shù)ReLU，該激活函數(shù)反向傳播求誤差梯度時(shí)導(dǎo)數(shù)保持不變，從而可以加快模型收斂的同時(shí)有效緩解模型過擬合。

為了更加充分學(xué)習(xí)數(shù)據(jù)特征，增加卷積層和池化層，本文構(gòu)建的CABL 模型包括2 層卷積層和池化層，即對(duì)1 層CNN 學(xué)習(xí)后的特征向量利用式（10）～式（12）計(jì)算得到2 層CNN 網(wǎng)絡(luò)學(xué)習(xí)后的特征向量。

圖3 LSTM 網(wǎng)絡(luò)數(shù)據(jù)流圖Fig.3 Data flow diagram of LSTM network

其中，ht表示t 時(shí)刻隱藏層的狀態(tài)，對(duì)應(yīng)的特征向量由式（21）表示，其中，f 表示非線性激活函數(shù)且h0=0。

Step 4 惡意流量分類，將Step3 的輸出Yi利用softmax 進(jìn)行歸一化實(shí)現(xiàn)分類；

將Yi在全連接層采用softmax 進(jìn)行映射到（0，1）區(qū)間內(nèi)。本文進(jìn)行二元分類，經(jīng)過softmax 層的輸出是一個(gè)二維向量，向量的第一維表示該樣本屬于正常的概率，第二維表示樣本屬于攻擊的概率。對(duì)比二維向量的值，概率更大的則為預(yù)測(cè)結(jié)果，將預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽進(jìn)行對(duì)比，計(jì)算模型分類的各項(xiàng)性能指標(biāo)。Softmax 計(jì)算概率的方法如式（22）所示，其中，C 是分類類別的個(gè)數(shù)。

檢測(cè)框架訓(xùn)練階段，GP-CABL 是通過向CABL模型中加載GPCA 提取的最優(yōu)特征子集，模型訓(xùn)練直到損失函數(shù)loss 收斂，保存網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和網(wǎng)絡(luò)最優(yōu)權(quán)重文件。檢測(cè)框架測(cè)試階段，GP-CABL 通過加載訓(xùn)練過程獲取的最優(yōu)權(quán)重文件進(jìn)行模型測(cè)試，統(tǒng)計(jì)預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的數(shù)量，形成混淆矩陣，并通過式（23）～式（27）分別計(jì)算識(shí)別精度、準(zhǔn)確率、特異性、召回率或檢測(cè)率、F1-Score 等指標(biāo)。

1.4 基于貪心策略的CABL 模型調(diào)參

模型參數(shù)與其性能評(píng)價(jià)息息相關(guān)，合適的參數(shù)可以更接近模型性能上限，CABL 基于貪心策略的調(diào)參獲取最優(yōu)參數(shù)（包括模型學(xué)習(xí)率、迭代次數(shù)、模型隱藏層結(jié)點(diǎn)數(shù)量最優(yōu)值）。本文結(jié)合實(shí)驗(yàn)環(huán)境中內(nèi)存容量大小考慮決定設(shè)置批處理大小為100 進(jìn)行調(diào)參實(shí)驗(yàn)，調(diào)參的具體步驟如下所示：

Step 1：確定CABL 模型初始學(xué)習(xí)率為0.1。

Step 2：每一步以縮小10 倍的速度降低學(xué)習(xí)率來進(jìn)行模型訓(xùn)練，觀察模型準(zhǔn)確率和精度等指標(biāo)，觀察到損失函數(shù)隨訓(xùn)練步數(shù)呈對(duì)勾形，選擇損失下降最快那一段的學(xué)習(xí)率作為最優(yōu)的訓(xùn)練學(xué)習(xí)速率α。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)學(xué)習(xí)率為0.001 時(shí)，損失函數(shù)下降最快。

Step 3：固定Step2 確定的最優(yōu)學(xué)習(xí)速率α，觀察損失函數(shù)變化曲線，直到loss 函數(shù)逐漸趨于平穩(wěn)，模型基本收斂，停止迭代，確定最優(yōu)迭代次數(shù)T。

當(dāng)學(xué)習(xí)率為0.001，批處理大小為100 時(shí)，模型訓(xùn)練的指標(biāo)曲線如圖4 所示，由圖4 可得到迭代次數(shù)為100 時(shí)，loss 基本趨于平穩(wěn)，模型基本收斂，故確定最優(yōu)迭代次數(shù)為100。

圖4 GP-CABL 模型迭代曲線圖Fig.4 Iteration curve of GP-CABL model

Step 4：固定Step 2、Step 3 中選擇的最優(yōu)學(xué)習(xí)率α、最優(yōu)迭代次數(shù)T 不變，調(diào)整CNN 隱藏層結(jié)點(diǎn)個(gè)數(shù)和Bi-LSTM 網(wǎng)絡(luò)結(jié)點(diǎn)個(gè)數(shù)，以變化趨勢(shì)進(jìn)行調(diào)整（CNN 隱藏層結(jié)點(diǎn)個(gè)數(shù)變化為：16，8-＞32，16-＞64，32-＞128，64；Bi-LSTM 網(wǎng)絡(luò)隱藏層結(jié)點(diǎn)個(gè)數(shù)變化為：16，32，64，128），觀察模型的分類準(zhǔn)確率和訓(xùn)練時(shí)間，尋找最合適的結(jié)點(diǎn)個(gè)數(shù)。實(shí)驗(yàn)發(fā)現(xiàn)，隨著隱藏層結(jié)點(diǎn)個(gè)數(shù)的增加，模型檢測(cè)性能維持在±0.5%的區(qū)間內(nèi)，而訓(xùn)練時(shí)間會(huì)逐步增加。本實(shí)驗(yàn)綜合考慮模型性能和訓(xùn)練時(shí)間最終選擇的隱藏節(jié)點(diǎn)個(gè)數(shù)為CNN（32，16），Bi-LSTM（64）。

基于貪心策略的調(diào)參結(jié)果如表1 所示。

表1 GP-CABL 最優(yōu)參數(shù)選擇結(jié)果Table 1 Optimal parameter selection results of GP-CABL

2 實(shí)驗(yàn)及性能分析

2.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

GP-CABL 性能評(píng)價(jià)指標(biāo)包括混淆矩陣［14］、精度、準(zhǔn)確率、特異性、檢測(cè)率和F1-Score，其計(jì)算方法見式（23）～式（27）?；煜仃囈卜Q為誤差矩陣，用來表示一個(gè)分類器結(jié)果的矩陣，其矩陣表示如下頁表2 所示。

表2 混淆矩陣Table 2 Confusion matrix

其中，β 表示召回率與精度的權(quán)重比，如果認(rèn)為精度和召回率同等重要，則β=1。

2.2 實(shí)驗(yàn)環(huán)境配置

GP-CABL 框架在featurize 官網(wǎng)租用云算力進(jìn)行仿真，實(shí)驗(yàn)環(huán)境如表3 所示。

表3 GP-CABL 框架實(shí)驗(yàn)環(huán)境配置表Table 3 Experimental environment configuration table of GP-CABL framework

2.3 實(shí)驗(yàn)數(shù)據(jù)集

本文采用NSL-KDD 數(shù)據(jù)集［15］進(jìn)行仿真驗(yàn)證，該數(shù)據(jù)集包括41 個(gè)特征和1 個(gè)類標(biāo)識(shí)（標(biāo)記正?；驉阂饬髁浚?，其中，9 個(gè)特征是離散型數(shù)據(jù)，其他均為連續(xù)型，因此，在進(jìn)行訓(xùn)練前先對(duì)連續(xù)型數(shù)據(jù)進(jìn)行二值轉(zhuǎn)換、標(biāo)準(zhǔn)化等預(yù)處理操作。數(shù)據(jù)集中的惡意流量包括4 大類（DoS、Probing、R2L、U2R），共計(jì)22 種訓(xùn)練攻擊類型，具體類型參如表4 所示。本文將20%的KDDTrain+數(shù)據(jù)集（494 022 條數(shù)據(jù)）按照8∶2 的比例劃分為訓(xùn)練集和測(cè)試集進(jìn)行模型訓(xùn)練和驗(yàn)證。

表4 NSL-KDD 數(shù)據(jù)集攻擊類型Table 4 Types of NSL-KDD dataset attacks

2.3.1 數(shù)據(jù)預(yù)處理

針對(duì)NSL-KDD 數(shù)據(jù)集數(shù)據(jù)格式異構(gòu)、規(guī)格不統(tǒng)一的情況，實(shí)驗(yàn)中依次采用二值轉(zhuǎn)換、標(biāo)準(zhǔn)化、One-Hot 編碼方式進(jìn)行了數(shù)據(jù)預(yù)處理。

Step 1：二值轉(zhuǎn)換。

利用字典的鍵值對(duì)實(shí)現(xiàn)字符型特征到數(shù)值型特征的轉(zhuǎn)換，具體轉(zhuǎn)換情況如下頁表5 所示。

表5 二值轉(zhuǎn)換對(duì)照表Table 5 Binary conversion comparison table

Step 2：標(biāo)準(zhǔn)化，標(biāo)準(zhǔn)化方法如式（28）所示。

Step 3：One-Hot 編碼。

實(shí)驗(yàn)中借助Python 的numpy 包對(duì)數(shù)據(jù)標(biāo)簽la bel 進(jìn)行了One-Hot 編碼，將良性數(shù)據(jù)“0”使用“10”表示，將惡意數(shù)據(jù)“1”使用“01”表示，這樣模型訓(xùn)練時(shí)計(jì)算相似度更合理。

2.3.2 特征提取

GPCA 將NSL-KDD 數(shù)據(jù)集的特征構(gòu)造為30維新特征進(jìn)行模型訓(xùn)練，主要過程為：1）保證訓(xùn)練過程中的各項(xiàng)參數(shù)不變，主因子個(gè)數(shù)從20 開始，以5 為步長(zhǎng)進(jìn)行增加；2）觀察模型評(píng)價(jià)指標(biāo)的變化趨勢(shì)，尋找最值點(diǎn)對(duì)應(yīng)的主因子個(gè)數(shù)k。不同k 值對(duì)應(yīng)的性能指標(biāo)如圖5 所示。由圖5 發(fā)現(xiàn)隨著主因子個(gè)數(shù)的增加，模型準(zhǔn)確率和精度等指標(biāo)也隨之增加，從30 之后，模型準(zhǔn)確率和精度等指標(biāo)隨著主因子個(gè)數(shù)增加而下降，因此，取最優(yōu)主因子個(gè)數(shù)為30。

圖5 不同K 值對(duì)應(yīng)的性能指標(biāo)Fig.5 The corresponding performance indicators for different K values

2.4 實(shí)驗(yàn)結(jié)果與分析

2.4.1 實(shí)驗(yàn)結(jié)果

GP-CABL 通過貪心策略的調(diào)參方法確定兩層卷積層的隱藏結(jié)點(diǎn)個(gè)數(shù)分別為32 和16，Bi-LSTM結(jié)點(diǎn)個(gè)數(shù)為32，學(xué)習(xí)率為0.001，迭代次數(shù)為100，特征提取確定GPCA 的主因子個(gè)數(shù)為30 時(shí)，模型性能最好，模型準(zhǔn)確率達(dá)到99.865%，精度達(dá)到99.868%，檢測(cè)率達(dá)到99.861%，具體實(shí)驗(yàn)結(jié)果如表6 所示，模型測(cè)試的混淆矩陣如圖6 所示。

表6 GP-CABL 檢測(cè)框架實(shí)驗(yàn)結(jié)果Table 6 Experimental results of GP-CABL detection framework

圖6 GP-CABL 模型測(cè)試的混淆矩陣Fig.6 Confusion matrix for GP-CABL model testing

2.4.2 對(duì)比實(shí)驗(yàn)

為驗(yàn)證本文所提出的GPCA 特征提取算法的優(yōu)勢(shì)，在2.2 節(jié)所列實(shí)驗(yàn)環(huán)境下，本文將未進(jìn)行特征提取的CABL 模型和GP-CABL 模型進(jìn)行對(duì)比，對(duì)比情況如表7 所示。由表7 可以發(fā)現(xiàn)，未進(jìn)行特征提取的CABL 模型在各項(xiàng)檢測(cè)性能上稍遜于GP-CABL，而且在訓(xùn)練時(shí)間上，GP-CABL 對(duì)比CABL 模型縮短了3 476 s，因此，可以證明GPCA 特征提取模塊不僅可以提升模型檢測(cè)性能，也能大幅縮短模型訓(xùn)練時(shí)間。

表7 GP-CABL 與CABL 模型對(duì)比Table 7 Comparison of GP-CABL and CABL models

為驗(yàn)證GP-CABL 的性能，在2.2 節(jié)所列實(shí)驗(yàn)環(huán)境下，分別與DT、AdaBoost、KNN、LR 等經(jīng)典機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比，如表8 和圖7 所示，由表8 可以看出GP-CABL 檢測(cè)框架對(duì)比DT、AdaBoost、KNN 3種算法性能提升約3.1%，對(duì)比LR 算法性能提升約12%左右，由圖7 可以看出GP-CABL 在ACC、Precision、Recall 和F1-Score 方面都大幅度優(yōu)于各類機(jī)器學(xué)習(xí)方法，因此，證明GP-CABL 較經(jīng)典機(jī)器學(xué)習(xí)算法具有更好的檢測(cè)性能。

表8 GP-CABL 和經(jīng)典機(jī)器學(xué)習(xí)算法實(shí)驗(yàn)對(duì)比結(jié)果Table 8 Experimental comparison results of GP-CABL and classical machine learning algorithms

圖7 GP-CABL 模型與經(jīng)典機(jī)器學(xué)習(xí)算法性能對(duì)比情況Fig.7 Performance of GP-CABL model compared with that of classical machine learning algorithms

為進(jìn)一步驗(yàn)證GP-CABL 性能，在2.2 節(jié)所列實(shí)驗(yàn)環(huán)境下，與文獻(xiàn)［9］和文獻(xiàn)［16］中提出的Bi-LSTM和CNN+Bi-LSTM 模型進(jìn)行了對(duì)比。對(duì)比結(jié)果分別如表9、圖8 和圖9 所示。由表8 發(fā)現(xiàn)，GP-CABL 較文獻(xiàn)［9］模型在ACC、Precision、Recall 和F1-Score評(píng)估指標(biāo)方面提升約1%，但大幅降低了訓(xùn)練時(shí)間減少達(dá)4 567 s，GP-CABL 較文獻(xiàn)［16］模型在各評(píng)價(jià)指標(biāo)中提升約0.02%，訓(xùn)練時(shí)間降低815 s，其主要原因在于GP-CABL 采用GPCA 優(yōu)化了網(wǎng)絡(luò)流量特征，降低了訓(xùn)練開銷；采用CABL 深入學(xué)習(xí)流量空間和時(shí)序特征使其在檢測(cè)精度等方面獲得更好的表現(xiàn)，如圖8 和圖9 所示。

表9 GP-CABL 和文獻(xiàn)［9］、文獻(xiàn)［16］實(shí)驗(yàn)對(duì)比結(jié)果Table 9 Experimental comparison results of GP-CABL and literature 9 and literature 16

圖8 GP-CABL 模型與其他模型評(píng)估指標(biāo)對(duì)比Fig.8 Evaluation index comparison of GP-CABL model and other models

圖9 GP-CABL 模型與其他模型訓(xùn)練時(shí)間消耗對(duì)比Fig.9 Comparison of training time consumption of GP-CABL model and other models

3 結(jié)論

本文基于深度學(xué)習(xí)技術(shù)提出了針對(duì)網(wǎng)絡(luò)攻擊的GP-CABL 檢測(cè)框架，GP-CABL 基于貪心主成分分析構(gòu)建的特征優(yōu)化模型，能夠從高維網(wǎng)絡(luò)流量特征中獲取最優(yōu)特征集，大幅降低了模型訓(xùn)練中的計(jì)算開銷，提出的CABL 檢測(cè)框架能夠充分學(xué)習(xí)網(wǎng)絡(luò)流量的空間特性和時(shí)序特性，獲得更高的檢測(cè)精度，基于NSL-KDD 的實(shí)驗(yàn)表明其較當(dāng)前其他研究在檢測(cè)精度和時(shí)間開銷方面取得了明顯的提升。然而參數(shù)調(diào)優(yōu)階段選取基于貪心策略的方法容易陷入局部最優(yōu)，借助動(dòng)態(tài)規(guī)劃算法尋找模型的全局最優(yōu)參數(shù)，將是未來研究中需要改進(jìn)的問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡