融合生成式神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的流量異常檢測(cè)

2022-02-03 06:13:58顧健華文成江高澤芳

移動(dòng)通信 2022年12期

關(guān)鍵詞：網(wǎng)絡(luò)流量特征提取神經(jīng)網(wǎng)絡(luò)

顧健華，文成江，高澤芳

（中國移動(dòng)通信集團(tuán)終端有限公司，北京 100053）

0 引言

網(wǎng)絡(luò)已經(jīng)滲透到人們生活的方方面面，網(wǎng)絡(luò)給人們帶來各種便利的同時(shí)，也由于各種安全問題給人們帶來煩惱。例如，網(wǎng)絡(luò)環(huán)境充斥著各種病毒、漏洞，人們的隱私數(shù)據(jù)被頻頻泄漏，網(wǎng)絡(luò)安全成為現(xiàn)在最大的挑戰(zhàn)。網(wǎng)絡(luò)安全防護(hù)的重要基準(zhǔn)之一就是檢測(cè)網(wǎng)絡(luò)流量異常的能力。引起網(wǎng)絡(luò)流量異常的原因有性能原因和安全原因，性能原因指由于網(wǎng)絡(luò)結(jié)構(gòu)不合理或者設(shè)備故障等原因造成流量異常；而安全原因是由于DDoS 攻擊等原因造成流量異常，本文主要關(guān)注安全方面的原因。目前基于端口和基于DPI 的網(wǎng)絡(luò)流量異常檢測(cè)方法需要人工制定固定的規(guī)則進(jìn)行匹配，這種方法能夠應(yīng)對(duì)常規(guī)的攻擊行為，但難以檢測(cè)新攻擊行為所造成的流量異常。因此，本文關(guān)注的是新攻擊行為造成的流量異常檢測(cè)方法。很多學(xué)者對(duì)新流量攻擊行為造成的流量異常進(jìn)行了一些研究，包括：Hwang 等人[1]提出了一種有效的異常流量檢測(cè)機(jī)制，通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）和無監(jiān)督的深度學(xué)習(xí)模型（如自動(dòng)編碼器）自動(dòng)分析流量模式和過濾異常流量，從而實(shí)現(xiàn)異常流量自動(dòng)檢測(cè)；Du 等人[2]提出了一種基于小波分析的網(wǎng)絡(luò)流量異常檢測(cè)方法，該方法首先利用小波分析提取波形特征，然后利用支持向量機(jī)進(jìn)行分類，最終實(shí)現(xiàn)流量異常預(yù)測(cè)；Shi 等人[3]提出基于長短記憶網(wǎng)絡(luò)（LSTM）建立新攻擊行為造成流量異常的檢測(cè)模型，有效均衡流量檢測(cè)的檢測(cè)延遲和檢測(cè)精度；Hoang 等人[4]提出一種基于PCA 的物聯(lián)網(wǎng)流量異常檢測(cè)方法，該方法通過主成分分析法來識(shí)別影響網(wǎng)絡(luò)流量異常的主要因素，有效應(yīng)對(duì)維度災(zāi)難問題；Kromkowski 等人[5]提出一種網(wǎng)絡(luò)流量數(shù)據(jù)異常檢測(cè)方法的分析框架，該框架通過整合SARIMA 和LSTM 自動(dòng)編碼器來實(shí)現(xiàn)流量異常檢測(cè)，并通過實(shí)驗(yàn)證明了該方法的有效性。

由此可知，大多數(shù)學(xué)者僅僅對(duì)流量數(shù)據(jù)時(shí)間特征進(jìn)行特征提取，從而在時(shí)間維度上檢測(cè)數(shù)據(jù)的異常特征，并沒有考慮流量數(shù)據(jù)的空間特征。

在大規(guī)模復(fù)雜網(wǎng)絡(luò)環(huán)境中，采用時(shí)間序列的網(wǎng)絡(luò)流量特征提取來識(shí)別異常行為，容易受到流量的突發(fā)性和隨機(jī)性的干擾；相反，采用網(wǎng)絡(luò)流交互行為去刻畫網(wǎng)絡(luò)流時(shí)序的交互關(guān)系，建立基于時(shí)間局部性的網(wǎng)絡(luò)流交互特征模型，則能夠有效表達(dá)網(wǎng)絡(luò)流量的狀態(tài)[6-9]。但是，網(wǎng)絡(luò)流量異常行為檢測(cè)需要大量的數(shù)據(jù)為支撐，進(jìn)行多輪迭代與訓(xùn)練，才能學(xué)習(xí)到網(wǎng)絡(luò)流量異常行為的特征。但是現(xiàn)有的網(wǎng)絡(luò)流量難以獲得海量的異常行為數(shù)據(jù)，因此，非平衡小樣本的網(wǎng)絡(luò)流量異常行為數(shù)據(jù)在特征提取過程中存在數(shù)據(jù)缺失的問題。

基于上述的觀點(diǎn)，本文針對(duì)新流量攻擊造成的網(wǎng)絡(luò)流量異常檢測(cè)模型數(shù)據(jù)缺失的問題，提出一種強(qiáng)化生成式對(duì)抗網(wǎng)絡(luò)樣本數(shù)據(jù)增強(qiáng)技術(shù)，該技術(shù)可以在樣本不足的情況下，采用生成式對(duì)抗網(wǎng)絡(luò)的方法實(shí)現(xiàn)異常行為樣本量的擴(kuò)充，提升模型識(shí)別的性能。在此基礎(chǔ)上，采用深度神經(jīng)網(wǎng)絡(luò)挖掘時(shí)間序列網(wǎng)絡(luò)流量的多尺度特征，以解決由于特征工程帶來的人為主觀因素的干擾以及維度災(zāi)難問題，從而實(shí)現(xiàn)網(wǎng)絡(luò)流量異常檢測(cè)。

1 相關(guān)介紹

1.1 生成式對(duì)抗網(wǎng)絡(luò)

生成式對(duì)抗網(wǎng)絡(luò)是Goodfell 于2014 年提出來的一種生成模型[10]，該生成模型需要假設(shè)樣本數(shù)據(jù)的分布，算法通過調(diào)整數(shù)據(jù)分布的參數(shù)來擬合真實(shí)數(shù)據(jù)，然后再從假設(shè)的數(shù)據(jù)分布中采樣獲取生成的數(shù)據(jù)，這種通過隱式學(xué)習(xí)數(shù)據(jù)的規(guī)律，實(shí)現(xiàn)了樣本數(shù)據(jù)的重新生成。根據(jù)上面的描述可知，生成模型需要擬合真實(shí)數(shù)據(jù)和采樣獲取生成數(shù)據(jù)的過程，這個(gè)過程分別衍生了生成器和判別器。生成器通過學(xué)習(xí)數(shù)據(jù)的規(guī)律，模擬真實(shí)數(shù)據(jù)分布并生成樣本數(shù)據(jù)，而辨別器作為一個(gè)分類器，用來判斷輸入的樣本是真實(shí)樣本還是虛假樣本，如此，通過多次交叉訓(xùn)練，生成器和判別器達(dá)到納什均衡后，生成器生成的樣本數(shù)據(jù)與真實(shí)的樣本數(shù)據(jù)達(dá)到高度相似，從而實(shí)現(xiàn)“以假換真”的目的。

自生成模型被推出以來，各種生成對(duì)抗網(wǎng)絡(luò)的衍生模型被提出來，隨著時(shí)間的推進(jìn)，研究者發(fā)現(xiàn)，生成網(wǎng)絡(luò)在訓(xùn)練過程中極其容易發(fā)生梯度消失的現(xiàn)象，使得生成樣本的質(zhì)量十分不穩(wěn)定。除此之外，由于原始的數(shù)據(jù)具有一定的隨機(jī)性，因此，生成樣本的多樣性也隨之提升，導(dǎo)致生成器和判別器的收斂速度太慢，訓(xùn)練過程容易發(fā)生機(jī)器崩潰的現(xiàn)象。

1.2 深度神經(jīng)網(wǎng)絡(luò)

本文所闡述的深度神經(jīng)網(wǎng)絡(luò)是指深度卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)是基于卷積核結(jié)構(gòu)進(jìn)行特征抽取的神經(jīng)網(wǎng)絡(luò)，通過參數(shù)共享的方式有效降低全連接深度網(wǎng)絡(luò)的參數(shù)規(guī)律，進(jìn)而提升網(wǎng)絡(luò)特征提取的效率[11-12]。深度神經(jīng)網(wǎng)絡(luò)包括兩種類型，分別是前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)式神經(jīng)網(wǎng)絡(luò)。一般來說，前饋式神經(jīng)網(wǎng)絡(luò)適用于實(shí)現(xiàn)空間數(shù)據(jù)的特征提取，比如圖像數(shù)據(jù)；前饋神經(jīng)網(wǎng)絡(luò)通常采用反向傳播的方式來計(jì)算代價(jià)函數(shù)對(duì)網(wǎng)絡(luò)各個(gè)參數(shù)的梯度變化，結(jié)合梯度下降法實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)參數(shù)的自動(dòng)更新，最終實(shí)現(xiàn)有限樣本訓(xùn)練的情況下確定網(wǎng)絡(luò)中各個(gè)參數(shù)的權(quán)重，從而實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程。在確定網(wǎng)絡(luò)參數(shù)后，深度神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)使得模型具有不同層次的特征表達(dá)，不同層次的特征表達(dá)是有差異的，一般來說，低層次的特征擁有更高的分辨率，包括更多的細(xì)節(jié)信息，因此對(duì)局部細(xì)節(jié)的感知能力更強(qiáng)；而高層次的特征擁有較低的分辨率，但是對(duì)整體的感知更佳，具有較強(qiáng)的語義信息。而循環(huán)式神經(jīng)網(wǎng)絡(luò)則在處理時(shí)間序列上具有優(yōu)異的表現(xiàn)，比如在處理文本數(shù)據(jù)上。循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network,RNN）是一類以序列（sequence）數(shù)據(jù)為輸入，在序列的演進(jìn)方向進(jìn)行遞歸（recursion）且所有節(jié)點(diǎn)（循環(huán)單元）按鏈?zhǔn)竭B接從而形成遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network），其中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bidirectional RNN,Bi-RNN）和長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory networks，LSTM）是常見的循環(huán)神經(jīng)網(wǎng)絡(luò)。

1.3 網(wǎng)絡(luò)異常流量

網(wǎng)絡(luò)異常流量是指與正常流量的流量特征存在不同的流量類型，在真實(shí)的網(wǎng)絡(luò)環(huán)境中有多種類型的異常流量，不同的異常流量都有其獨(dú)特的特點(diǎn)[13]。一般來說，只有對(duì)各種異常流量特征進(jìn)行提取后，才能設(shè)計(jì)出合理的流量異常檢測(cè)算法，然后進(jìn)行異常流量識(shí)別。近年來，隨著云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展，傳統(tǒng)的基于匹配特征的異常流量監(jiān)測(cè)算法難以處理復(fù)雜高維度的異常流量數(shù)據(jù)，因此容易出現(xiàn)大量誤報(bào)和漏報(bào)的情況。針對(duì)該問題，很多研究者采用有監(jiān)督的異常流量監(jiān)測(cè)模型，通過采用機(jī)器學(xué)習(xí)[14]、深度學(xué)習(xí)[15]的方法實(shí)現(xiàn)異常流量檢測(cè)。但上述方法忽略了網(wǎng)絡(luò)流量存在前后關(guān)聯(lián)的時(shí)序性，因此，研究者通過多層次特征融合來實(shí)現(xiàn)前后時(shí)序特征關(guān)聯(lián)從而實(shí)現(xiàn)流量異常檢測(cè)，比如采用多尺度殘差記憶網(wǎng)絡(luò)[16]實(shí)現(xiàn)多層次時(shí)空特征的融合；采用時(shí)間序列分析法[17]挖掘網(wǎng)絡(luò)流量數(shù)據(jù)之間的變化關(guān)系，建立網(wǎng)絡(luò)流量異常檢測(cè)模型；采用融合卷積神經(jīng)網(wǎng)絡(luò)和長短記憶網(wǎng)絡(luò)[18]實(shí)現(xiàn)多層次的時(shí)空學(xué)習(xí)構(gòu)建網(wǎng)絡(luò)流量的前后時(shí)序特征關(guān)聯(lián)關(guān)系，實(shí)現(xiàn)網(wǎng)絡(luò)流量異常檢測(cè)。

1.4 不平衡樣本

不平衡樣本數(shù)據(jù)是指樣本數(shù)據(jù)類別間分布明顯不平衡的數(shù)據(jù)[19]，其中，樣本數(shù)量較多的類別稱為多數(shù)類，而樣本較少的類別稱為少數(shù)類。不平衡樣本存在于工業(yè)領(lǐng)域的故障檢測(cè)、通信領(lǐng)域的攻擊類型識(shí)別、銀行領(lǐng)域信用卡欺詐檢測(cè)等。本文重點(diǎn)討論通信領(lǐng)域的攻擊類型識(shí)別中的異常流量檢測(cè)。由于網(wǎng)絡(luò)中的異常流量樣本較少而正常流量樣本較多，因此采用機(jī)器學(xué)習(xí)方法訓(xùn)練出的分類器對(duì)正常類樣本檢測(cè)的準(zhǔn)確率較高，而少數(shù)類樣本檢測(cè)率降低，從而導(dǎo)致出現(xiàn)較大的誤檢率現(xiàn)象。針對(duì)上述的問題，通常采用數(shù)據(jù)補(bǔ)充[20]和算法優(yōu)化[21]兩種方法解決不平衡樣本的問題。數(shù)據(jù)補(bǔ)充包括過采樣和下采樣兩種方法，過采樣通常對(duì)少數(shù)類樣本進(jìn)行復(fù)制，但是這種方法往往增大機(jī)器學(xué)習(xí)對(duì)訓(xùn)練樣本過擬合的可能性；而下采樣的方法較過采樣方法計(jì)算復(fù)雜度高，而且容易丟失大量的有用信息從而導(dǎo)致分類器能力下降。算法優(yōu)化的方法主要引入損失函數(shù)和提升分類器健壯性來提升不平衡樣本的分類能力，包括代價(jià)敏感學(xué)習(xí)[22]、集成學(xué)習(xí)[23]等。代價(jià)敏感學(xué)習(xí)認(rèn)為分類錯(cuò)誤產(chǎn)生代價(jià)相同的，但在實(shí)際網(wǎng)絡(luò)攻擊識(shí)別中如果將合法用戶判別為非法用戶，那么給用戶帶來很大不便，相反，如果將非法用戶判別為合法用戶，那么會(huì)給網(wǎng)絡(luò)帶來嚴(yán)重的損失，因此，這種情況下分類錯(cuò)誤的代價(jià)相對(duì)高。而集成學(xué)習(xí)中每一個(gè)分類器在不同場(chǎng)景中影響權(quán)重難以精確衡量，因此，該方法通常導(dǎo)致識(shí)別性能不穩(wěn)定的現(xiàn)象。

考慮到本文異常流量存在的不平衡問題以及攻擊行為分類所造成代價(jià)不一致問題，本文采用數(shù)據(jù)補(bǔ)充的方式實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充，考慮到過采樣和欠采樣存在的問題，本文提出一種強(qiáng)化生成式對(duì)抗網(wǎng)絡(luò)樣本數(shù)據(jù)增強(qiáng)技術(shù)，該技術(shù)通過強(qiáng)化學(xué)習(xí)有效鑒別生成樣本的質(zhì)量，提升生成模型的收斂速度；通過梯度學(xué)習(xí)來不斷校正生成器生成樣本的質(zhì)量，提高樣本生成的可靠性。在此基礎(chǔ)上，考慮到本文需要處理流量時(shí)序交互關(guān)系，本文提出多層的特征融合加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)特征傳遞的思路，通過構(gòu)建層間的跳躍鏈接，遞歸優(yōu)化高層次特征表達(dá)，實(shí)現(xiàn)通道間高低層特征的融合[24-28]，實(shí)現(xiàn)流量異常行為識(shí)別。

2 融合生成式神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的流量異常檢測(cè)

2.1 基于生成式神經(jīng)網(wǎng)絡(luò)的樣本生成方法

生成式對(duì)抗網(wǎng)絡(luò)（GAN,Generative Adversarial Networks）是一種深度學(xué)習(xí)模型，是近年來復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的方法之一。模型通過框架中（至少）2 個(gè)模塊：生成模型（Generative Model）和判別模型（Discriminative Model）的對(duì)抗學(xué)習(xí)生成接近真實(shí)樣本分布的樣本。生成式神經(jīng)網(wǎng)絡(luò)的樣本生成過程如圖1 所示。

圖1 生成式神經(jīng)網(wǎng)絡(luò)的樣本生成過程

從圖1 可知，基于樣本特征和隨機(jī)噪音輸入生成模型將生成假樣本，然后將假樣本輸入到判別模型，如果判別模型判斷該樣本為假，那么就要微調(diào)生成模型和判別模型的參數(shù)，如果生成為真，則將生成的樣本放進(jìn)去真實(shí)樣本庫中，如此迭代，便能擴(kuò)充真實(shí)樣本庫。

針對(duì)異常流量數(shù)據(jù)樣本少的問題，本文采用生成式神經(jīng)網(wǎng)絡(luò)在少量訓(xùn)練數(shù)據(jù)上進(jìn)行快速學(xué)習(xí)，生成大量的數(shù)據(jù)解決樣本稀缺的問題；應(yīng)對(duì)數(shù)據(jù)不平衡問題，本文在采用生成式神經(jīng)網(wǎng)絡(luò)+強(qiáng)化學(xué)習(xí)以保證系統(tǒng)實(shí)現(xiàn)模型的快速收斂。采用強(qiáng)化學(xué)習(xí)在學(xué)習(xí)過程中通過學(xué)習(xí)樣本的迭代優(yōu)化不斷提升真實(shí)經(jīng)驗(yàn)樣本池質(zhì)量和數(shù)量。樣本分布規(guī)律則利用歷史樣本的特征分布不斷提高生成模型G 的性能，讓生成器盡可能學(xué)習(xí)到真實(shí)的數(shù)據(jù)分布。樣本的生成過程如圖2 所示。

圖2 基于生成式神經(jīng)網(wǎng)絡(luò)的樣本生成框架圖

本文采用隨機(jī)抽樣的方式獲取真實(shí)樣本，然后將真實(shí)樣本加入真實(shí)經(jīng)驗(yàn)樣本池X中。利用隨機(jī)噪音+Z（樣本特征）訓(xùn)練生成式神經(jīng)網(wǎng)絡(luò)得到生成模型G。

利用樣本特征分布概率不斷改進(jìn)生成模型G，提高生成模型G所生成樣本的質(zhì)量。

其中，G(z)表示生成器基于真實(shí)樣本特征生成的樣本。真實(shí)樣本以（狀態(tài)sz，動(dòng)作az）出現(xiàn)，基于當(dāng)前真實(shí)樣本的狀態(tài)和動(dòng)作，生成器生成（狀sz’，動(dòng)作az’），生成器的目標(biāo)是讓G1(z)與G2(z)具有較高的相似度，以此達(dá)到“以假亂真”的目的，因此，本文采用KL 散度來表示兩者的相似度。

然后利用判別模型對(duì)生成樣本的質(zhì)量進(jìn)行判別，結(jié)合真實(shí)樣本和生成樣本，采用強(qiáng)化學(xué)習(xí)的算法來選擇高質(zhì)量的樣本供深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)過程中真實(shí)樣本是以（狀態(tài)s，動(dòng)作a），（后續(xù)狀態(tài)s’，動(dòng)作a’）成對(duì)出現(xiàn)的，上一時(shí)刻狀態(tài)s對(duì)應(yīng)相應(yīng)的動(dòng)作a，下一時(shí)刻將判斷為真的生成樣本納入真實(shí)經(jīng)驗(yàn)樣本池后，由于真實(shí)經(jīng)驗(yàn)樣本池樣本數(shù)量增多，其樣本狀態(tài)遷移至后續(xù)狀態(tài)s’，并獲得獎(jiǎng)賞r。因此，真實(shí)經(jīng)驗(yàn)樣本池包括為兩部分：

獎(jiǎng)勵(lì)r表示為：

其中表示在到達(dá)狀態(tài)的獎(jiǎng)勵(lì)值。

為了尋找最優(yōu)策略，避免判斷模型對(duì)生成樣本鑒別的能力“時(shí)好時(shí)壞”，本文將樣本選擇的最優(yōu)策略定義為：

2.2 基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)樣本多層次特征提取

為了挖掘網(wǎng)絡(luò)流量數(shù)據(jù)的多維度時(shí)空特征，本文將各個(gè)節(jié)點(diǎn)獲取的流量數(shù)據(jù)序列進(jìn)行重構(gòu)，構(gòu)成能夠反映網(wǎng)絡(luò)流量拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)流量數(shù)據(jù)。每一個(gè)觀測(cè)周期的流量數(shù)據(jù)序列按照時(shí)間進(jìn)行排序，多個(gè)觀察周期的流量數(shù)據(jù)序列形成一個(gè)二維矩陣數(shù)據(jù)，本文采用二維數(shù)組定義流量樣本數(shù)據(jù)庫，定義二維數(shù)組a[m][n]，其中m為觀察周期所獲取，n為每個(gè)觀察周期流量樣本量，一般取一個(gè)設(shè)定的值。二維數(shù)組排列的順序按照地理位置順序存放流量樣本，即內(nèi)存中按照順序存放第1 個(gè)地理位置在m個(gè)觀察周期所采集的流量樣本，再放3 個(gè)地理位置在m個(gè)觀察周期所采集的流量樣本，依次存放。為了方便后續(xù)的特征提取，本文對(duì)每一個(gè)樣本的流量數(shù)據(jù)轉(zhuǎn)化成字符串填充到每一行中，由于人口分布是不均勻的，因此流量采集器在地理位置上分布也是不均勻的，因此對(duì)于沒有流量采集器地理位置的數(shù)據(jù)用用0 進(jìn)行填充，從而構(gòu)成特定尺寸的流量樣本數(shù)據(jù)庫。圖3 是對(duì)m個(gè)觀察周期的流量數(shù)據(jù)進(jìn)行重構(gòu)的示意圖。

圖3 流量數(shù)據(jù)重構(gòu)示意圖

重構(gòu)后的數(shù)據(jù)通過填充0 的方式，形成了N×M尺寸的樣本數(shù)據(jù)，然后采用DenseNet（Dense Convolutional Network）來實(shí)現(xiàn)網(wǎng)絡(luò)流量多層次特征的提取。DenseNet通過加強(qiáng)了特征之間的傳遞，更有效實(shí)現(xiàn)了多層次特征的提取。DenseNet 算法流程圖如圖4 所示。

圖4 基于DenseNet的多層次特征提取過程示意圖

圖4 展示了基于DenseNet 的多層次特征提取過程，輸入的是118×118 的樣本，采用卷積層1（7×7 卷積核，步長為1）對(duì)數(shù)據(jù)進(jìn)行卷積，獲得輸出是112×112 的特征向量，然后采用池化層1（3×3 卷積核，步長為2）進(jìn)行池化，輸出為56×56 的特征向量，最后將其輸入到dense block 層（每一個(gè)dense block 層包含4 個(gè)1*1 的卷積操作層和3*3 的卷積操作層），得到融合各通道的、56×56 的特征向量。經(jīng)過卷積層、池化層以及dense block 層的處理，不僅能降維減少計(jì)算量，又能融合各個(gè)通道的特征，形成多層次特征提取，最終達(dá)到減少feature map 數(shù)量的目的。重復(fù)2 次同樣操作，最終得到14×14 的特征向量。

由此可知，采用DenseNet 對(duì)重構(gòu)后的流量數(shù)據(jù)進(jìn)行多層次特征提取后，獲取正常流量的多層次特征和異常流量的多層次特征后，采用Softmax 函數(shù)實(shí)現(xiàn)異常流量識(shí)別。

3 實(shí)驗(yàn)分析

為了驗(yàn)證本文方法的有效性，設(shè)計(jì)該實(shí)驗(yàn)，在一個(gè)SDN網(wǎng)絡(luò)中部署一個(gè)流量異常監(jiān)測(cè)的小工具。該工具包含了流量收集、異常樣本生成、多層次特征提取、流量表示、異常識(shí)別、異常處理這些模塊。完成流量異常監(jiān)測(cè)示意圖如圖5 所示。

圖5 基于DenseNet的多層次特征提取過程示意圖

本文的流量數(shù)據(jù)集的相關(guān)信息如表1 所示：

表1 流量數(shù)據(jù)集相關(guān)信息

本文算法主要是基于TensorFlow 平臺(tái)實(shí)現(xiàn)，為了加速生成式神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，使用NVIDIA-1060 GPU 顯卡。在訓(xùn)練的過程中，本次實(shí)驗(yàn)分別隨機(jī)抽取了50 個(gè)傳統(tǒng)攻擊流量數(shù)據(jù)和20 個(gè)新型攻擊流量數(shù)據(jù)作為訓(xùn)練集，另分別抽取20 個(gè)傳統(tǒng)攻擊流量數(shù)據(jù)和10 個(gè)新型攻擊流量數(shù)據(jù)作為驗(yàn)證集。訓(xùn)練的回合次數(shù)本文設(shè)置為200，生成每一個(gè)回合的循環(huán)次數(shù)為50，批次大小為10。通過多次訓(xùn)練，獲得生成式網(wǎng)絡(luò)的參數(shù)。然后隨機(jī)分別抽取200 個(gè)傳統(tǒng)攻擊流量數(shù)據(jù)和50 個(gè)新型攻擊流量數(shù)據(jù)放進(jìn)生成式神經(jīng)網(wǎng)絡(luò)生成對(duì)應(yīng)的流量數(shù)據(jù)，參考文獻(xiàn)[29]，計(jì)算原始流量數(shù)據(jù)與生成新流量數(shù)據(jù)之間的相似度。表2 展示了傳統(tǒng)攻擊和新型攻擊生成數(shù)據(jù)與原始數(shù)據(jù)的相似度對(duì)比情況。

表2 相似度對(duì)比

由表2 可知，兩種數(shù)據(jù)集生成數(shù)據(jù)與原始數(shù)據(jù)的相似度大于90%，能夠在一定程度上解決流量異常檢測(cè)過程中由于訓(xùn)練數(shù)據(jù)不足，無法得到足夠的流量數(shù)據(jù)的情況下，實(shí)現(xiàn)對(duì)異常流量的監(jiān)測(cè)。

在此基礎(chǔ)上，本實(shí)驗(yàn)通過模擬真實(shí)SDN 網(wǎng)絡(luò)環(huán)境的流量產(chǎn)生及攻擊行為，實(shí)現(xiàn)網(wǎng)絡(luò)流量異常檢測(cè)。通過模擬普通的SDN 流量、攻擊行為（主要測(cè)試DDoS、DoS、端口掃描3 種行為）、攻擊監(jiān)測(cè)以及攻擊反饋等一系列的操作流程，采用不同的算法對(duì)流量異常檢測(cè)的準(zhǔn)確性進(jìn)行對(duì)比。

為了展現(xiàn)本文算法的有效性，本文將傳統(tǒng)的長短期記憶網(wǎng)絡(luò)（Long Short Term Memory，LSTM）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）和本文的算法進(jìn)行對(duì)，具體的操作流程是將上述的算法對(duì)流量特征提取后再進(jìn)行分，對(duì)比各種算法的準(zhǔn)確率。精準(zhǔn)率表示: 預(yù)測(cè)正確的樣本的數(shù)量與所有被預(yù)測(cè)樣本數(shù)量的比值，具體如圖6 所示。

圖6 3種算法的準(zhǔn)確率對(duì)比圖

實(shí)驗(yàn)結(jié)果的準(zhǔn)確率如圖6 所示，從圖中可以看出，由于攻擊行為存在隨機(jī)性、多樣化的特征，3 種算法在5次的模擬攻擊過程中準(zhǔn)確率都存在一定的波動(dòng)，這歸因于網(wǎng)絡(luò)攻擊行為特征獲取能力不足和數(shù)據(jù)存在一定的過擬合現(xiàn)象。在應(yīng)對(duì)網(wǎng)絡(luò)攻擊特征獲取能力上，本文通過DenseNet 對(duì)網(wǎng)絡(luò)流量進(jìn)行多層次特征提取，這種方法通過構(gòu)建層間的跳躍鏈接，遞歸優(yōu)化高層次特征表達(dá)，以通道間高低層特征的語義來定義攻擊行為的特征，不僅能夠有效獲取局部細(xì)節(jié)感知，還能更有效獲取攻擊行為的整體感知，因此在一定程度上提升網(wǎng)絡(luò)流量的特征提取能力，較CNN 單一的空間特征和LSTM 單一的時(shí)間特征提取效果好。應(yīng)對(duì)數(shù)據(jù)的過擬合問題，本文采用生成式神經(jīng)網(wǎng)絡(luò)來生成異常流量數(shù)據(jù)，引入強(qiáng)化學(xué)習(xí)不斷提升異常流量樣本庫的數(shù)量和質(zhì)量，從而有效應(yīng)對(duì)現(xiàn)實(shí)網(wǎng)絡(luò)中異常流量數(shù)據(jù)偏少的問題，提升模型對(duì)異常流量的識(shí)別率。

為了進(jìn)一步對(duì)比不同算法的性能，本文通過計(jì)算3種算法的召回率來衡量不同算法在數(shù)據(jù)不平衡的條件下對(duì)異常流量識(shí)別的能力，召回率表示的是數(shù)據(jù)正樣本中有多少被預(yù)測(cè)正確，其反映了分類器檢測(cè)網(wǎng)絡(luò)攻擊的能力。

3 種算法的召回率對(duì)比如圖7 所示。

圖7 3種算法的召回率對(duì)比圖

實(shí)驗(yàn)結(jié)果的召回率如圖7 所示，從圖中可以看出，本文算法的表現(xiàn)最好。其次是CNN，最后是LSTM。這是因?yàn)楸疚牟捎肈enseNet 對(duì)重構(gòu)后的流量數(shù)據(jù)進(jìn)行多層次特征提取，從而有效提升新型攻擊類型流量特征提取的能力。CNN 算法雖然在一定程度上刻畫了網(wǎng)絡(luò)流量時(shí)序的交互關(guān)系，但是其不擅長提取時(shí)間序列特征，因此無法很好反映網(wǎng)絡(luò)受到攻擊時(shí)流量在時(shí)間維度的變化情況。表現(xiàn)最差的是LSTM，這是因?yàn)樵撍惴ㄍǔＳ脕硖崛r(shí)間序列流量特征，并不擅長刻畫網(wǎng)絡(luò)流量時(shí)序的交互關(guān)系，而恰恰這種交互關(guān)系在刻畫網(wǎng)絡(luò)攻擊行為時(shí)至關(guān)重要。由此可知，本文算法的召回率表現(xiàn)相較于CNN 和LSTM算法好。

另外，本文還對(duì)比了3 種算法的漏檢率，漏檢率表示未發(fā)現(xiàn)異常流量的數(shù)量占總數(shù)量的比例，3 種算法的漏檢率對(duì)比如圖8 所示。

圖8 3種算法的漏檢率對(duì)比圖

從圖8 可知，其余兩種算法的漏檢率幾乎是本文算法的2 倍。在流量異常檢測(cè)中，誤判正常類不會(huì)造成很嚴(yán)重的后果，相反，漏檢網(wǎng)絡(luò)異常流量可能會(huì)造成很嚴(yán)重的后果。本文由于采用生成式神經(jīng)網(wǎng)絡(luò)對(duì)新型攻擊的樣本進(jìn)行擴(kuò)充后，采用DenseNet 對(duì)重構(gòu)后的流量數(shù)據(jù)進(jìn)行多層次特征提取，從而有效提升新型攻擊類型流量特征提取的能力，進(jìn)而降低了網(wǎng)絡(luò)異常流量的漏檢率。

最后，本文還對(duì)比了3 種算法的平均處理時(shí)間，3 種算法的平均處理時(shí)間對(duì)比如圖9 所示。

圖9 3種算法的平均處理時(shí)間對(duì)比圖

從圖9 可知，其余兩種算法的平均處理時(shí)間遠(yuǎn)遠(yuǎn)大于本文算法，這是因?yàn)楸疚牟捎枚鄠€(gè)dense block 層實(shí)現(xiàn)降維大大減少了模型的計(jì)算量，從而在很多程度上提升算法的處理速度。

4 結(jié)束語

本文針對(duì)特征提取和異常流量識(shí)別問題，提出了融合生成式神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的流量異常檢測(cè)方法。在特征提取方面，利用DenseNet 方法構(gòu)建神經(jīng)網(wǎng)絡(luò)層間的跳躍鏈接，采用遞歸優(yōu)化高層次特征表達(dá)方法融合通道間高低層特征的語義特征，實(shí)現(xiàn)多層次特征提取。在流量識(shí)別方面，利用生成式神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)，生成異常流量數(shù)據(jù)，避免數(shù)據(jù)不平衡給流量分類帶來的不準(zhǔn)確問題。實(shí)驗(yàn)表明，本文提出的融合生成式神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的流量異常檢測(cè)方法在準(zhǔn)確率、召回率、漏檢率以及平均處理時(shí)間均優(yōu)于傳統(tǒng)深度學(xué)習(xí)的方法，由此可知，本文的算法對(duì)網(wǎng)絡(luò)異常流量檢測(cè)有不錯(cuò)的效果，可用在日常網(wǎng)絡(luò)異常流量檢測(cè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡