国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測(cè)研究綜述

2021-07-23 07:53肖建平龍春趙靜魏金俠胡安磊杜冠瑤
關(guān)鍵詞:流量樣本深度

肖建平,龍春*,趙靜,魏金俠,胡安磊,杜冠瑤

1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

2.中國(guó)科學(xué)院大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408

3.中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,北京 100190

引 言

隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已在多個(gè)領(lǐng)域發(fā)揮著重要的作用。與此同時(shí),網(wǎng)絡(luò)空間面臨的安全威脅也在急劇增加,根據(jù)CNCERT發(fā)布的《2020 年上半年我國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析報(bào)告》:(1)在惡意程序方面,我國(guó)有超過(guò)300萬(wàn)臺(tái)主機(jī)感染了計(jì)算機(jī)惡意程序,同比增長(zhǎng)25.7%,這些惡意程序造成了僵尸網(wǎng)絡(luò)的泛濫,此外,移動(dòng)互聯(lián)網(wǎng)惡意程序的數(shù)量也大幅增加。(2)在安全漏洞方面,2020年上半年國(guó)家信息安全漏洞共享平臺(tái)(CNVD)共發(fā)現(xiàn)通用安全漏洞 11073個(gè),同比增長(zhǎng)89.0%。(3)在拒絕服務(wù)攻擊方面,分布式拒絕服務(wù)攻擊(DDoS)依然是最常見(jiàn)的網(wǎng)絡(luò)安全威脅之一,大流量DDoS攻擊事件對(duì)互聯(lián)網(wǎng)用戶造成了較大的影響。(4)在網(wǎng)站安全方面,主要存在網(wǎng)頁(yè)仿冒、網(wǎng)站后門(mén)和網(wǎng)頁(yè)篡改等問(wèn)題,其中我國(guó)境內(nèi)約3.59萬(wàn)個(gè)網(wǎng)站被植入后門(mén),數(shù)量較2019年上半年增長(zhǎng) 36.9%。(5)在云平臺(tái)安全方面,云平臺(tái)上網(wǎng)絡(luò)安全威脅形勢(shì)依然很?chē)?yán)峻,我國(guó)主要云平臺(tái)上發(fā)生了較多的各類(lèi)網(wǎng)絡(luò)安全事件。(6)在工業(yè)控制系統(tǒng)安全方面,暴露在互聯(lián)網(wǎng)上的工業(yè)設(shè)備達(dá) 4630 臺(tái),這些系統(tǒng)一旦被攻擊,將嚴(yán)重威脅生產(chǎn)系統(tǒng)的安全,我國(guó)有大量關(guān)鍵信息基礎(chǔ)設(shè)施及其聯(lián)網(wǎng)控制系統(tǒng)的網(wǎng)絡(luò)資產(chǎn)信息被境外嗅探,這無(wú)疑會(huì)帶來(lái)安全隱患[1]。隨著互聯(lián)網(wǎng)的發(fā)展,新型攻擊層出不窮,互聯(lián)網(wǎng)面臨的安全形勢(shì)不樂(lè)觀,因此,網(wǎng)絡(luò)安全正逐漸成為人們關(guān)注的焦點(diǎn),必須采取有效的措施來(lái)防護(hù)這些攻擊行為。

入侵檢測(cè)系統(tǒng)(Intrusion Detection System, IDS)起源于Anderson等人[2]在1980年提出的用來(lái)處理用戶審計(jì)數(shù)據(jù)的“計(jì)算機(jī)安全威脅監(jiān)測(cè)和監(jiān)視系統(tǒng)”。基于同樣的原則,Denning[3]提出使用由審計(jì)數(shù)據(jù)生成的用戶特征來(lái)識(shí)別入侵,即從審計(jì)記錄中獲取主體相對(duì)于客體的行為的知識(shí)和檢測(cè)異常行為的規(guī)則。這些開(kāi)創(chuàng)性的工作定義了入侵檢測(cè)的相關(guān)概念,IDS作為一種網(wǎng)絡(luò)安全防護(hù)技術(shù),能充分利用軟件和硬件,通過(guò)對(duì)網(wǎng)絡(luò)或系統(tǒng)進(jìn)行監(jiān)控,以感知惡意活動(dòng)并及時(shí)發(fā)出警報(bào),為管理人員提供響應(yīng)決策,從而確保網(wǎng)絡(luò)資源的機(jī)密性、完整性和可用性。

入侵檢測(cè)技術(shù)已在網(wǎng)絡(luò)安全防護(hù)的任務(wù)中發(fā)揮了重要作用,隨著機(jī)器學(xué)習(xí)的發(fā)展,已有很多研究工作將相關(guān)技術(shù)用于入侵檢測(cè)。但是,隨著攻擊行為的不斷升級(jí)和網(wǎng)絡(luò)數(shù)據(jù)量的快速增長(zhǎng),再加上近年來(lái)內(nèi)部威脅、零日漏洞、加密攻擊等行為的出現(xiàn),基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的IDS已經(jīng)難以應(yīng)對(duì)這些新挑戰(zhàn)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,可以學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律,在特征提取和模型建立方面效率更高,非常適合用于當(dāng)前的網(wǎng)絡(luò)攻擊檢測(cè)。

本文通過(guò)對(duì)入侵檢測(cè)的相關(guān)工作進(jìn)行梳理,首先簡(jiǎn)要介紹了利用機(jī)器學(xué)習(xí)方法進(jìn)行入侵檢測(cè)的最新研究,然后詳細(xì)論述了基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù),最后對(duì)存在的問(wèn)題和未來(lái)發(fā)展方向進(jìn)行了探討。

本文的內(nèi)容安排如下:第1節(jié)給出入侵檢測(cè)系統(tǒng)的分類(lèi);第2節(jié)介紹了入侵檢測(cè)數(shù)據(jù)集和評(píng)估方法;第3節(jié)簡(jiǎn)要分析了基于傳統(tǒng)機(jī)器學(xué)習(xí)的入侵檢測(cè)方法;第4節(jié)總結(jié)基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù);第5節(jié)對(duì)入侵檢測(cè)系統(tǒng)未來(lái)的研究方向進(jìn)行討論;第6節(jié)總結(jié)全文。

1 入侵檢測(cè)系統(tǒng)的分類(lèi)

通??筛鶕?jù)數(shù)據(jù)來(lái)源和檢測(cè)技術(shù)對(duì)入侵檢測(cè)進(jìn)行分類(lèi),具體分類(lèi)框架如圖1所示。

圖1 入侵檢測(cè)系統(tǒng)的分類(lèi)框架Fig.1 Classification framework of intrusion detection system

1.1 基于數(shù)據(jù)來(lái)源的分類(lèi)

根據(jù)所檢測(cè)數(shù)據(jù)來(lái)源的不同,可以將入侵檢測(cè)分為基于主機(jī)的入侵檢測(cè)和基于網(wǎng)絡(luò)的入侵檢測(cè)。

基于主機(jī)(Host)的入侵檢測(cè)(HIDS)[4]從其監(jiān)視的主機(jī)收集輸入數(shù)據(jù),HIDS一般使用日志文件作為其主要信息來(lái)源,通過(guò)對(duì)日志文件進(jìn)行解碼、分析來(lái)有效識(shí)別各種入侵。HIDS的優(yōu)點(diǎn)是性價(jià)比較高,誤報(bào)率比較低,缺點(diǎn)是只能監(jiān)視主機(jī)上的特定程序,且需要安裝到每個(gè)主機(jī)上,檢測(cè)范圍有限。

基于網(wǎng)絡(luò)(Network)的入侵檢測(cè)(NIDS)[5]檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)包,通過(guò)解析數(shù)據(jù)包的內(nèi)容來(lái)判斷網(wǎng)絡(luò)中是否有攻擊行為。隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,IDS已將重點(diǎn)放在對(duì)網(wǎng)絡(luò)本身的攻擊上。NIDS的優(yōu)點(diǎn)是可以通過(guò)一個(gè)系統(tǒng)對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行監(jiān)視,不需要在每臺(tái)主機(jī)上安裝軟件,缺點(diǎn)是其檢測(cè)范圍一般只限于傳輸中的非加密信息,很難實(shí)現(xiàn)需要較大計(jì)算量和較長(zhǎng)分析時(shí)間的檢測(cè)。

1.2 基于檢測(cè)技術(shù)的分類(lèi)

具體到所使用的檢測(cè)方法,入侵檢測(cè)領(lǐng)域主要有基于誤用的入侵檢測(cè)和基于異常的入侵檢測(cè)。

基于誤用(Misuse)的入侵檢測(cè)(MIDS)通過(guò)將網(wǎng)絡(luò)流量與已有的攻擊特征庫(kù)進(jìn)行匹配,根據(jù)匹配情況判斷入侵行為。其前提是存在表示攻擊的方法,例如以模式或簽名的形式來(lái)表示。

基于異常(Anomaly)的入侵檢測(cè)(AIDS)通常情況下需要對(duì)系統(tǒng)中的正?;顒?dòng)進(jìn)行記錄,確定這些活動(dòng)的特征,并進(jìn)行定量描述,當(dāng)用戶行為偏離正常記錄時(shí),就將這些行為活動(dòng)定義為攻擊?;诋惓5腎DS可以檢測(cè)未知攻擊,因此目前是學(xué)者們研究的重點(diǎn)。

2 入侵檢測(cè)系統(tǒng)的數(shù)據(jù)集和評(píng)估方法

2.1 數(shù)據(jù)集

需要通過(guò)數(shù)據(jù)集對(duì)入侵檢測(cè)系統(tǒng)的性能進(jìn)行評(píng)估,隨著IDS的發(fā)展,出現(xiàn)了許多優(yōu)秀的數(shù)據(jù)集。目前基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集主要有DARPA 98、KDD 99、NSL-KDD、UNB ISCX2012、UNSWNB15和CICIDS2017等。

DARPA 98[6]由林肯實(shí)驗(yàn)室(1998和1999)創(chuàng)建,用于網(wǎng)絡(luò)安全分析。它通過(guò)人工注入攻擊和正常流量,并因此受到了研究人員的廣泛批評(píng),這些攻擊和正常流量造成了冗余,以及其他違規(guī)行為。

KDD 99[7]是在DARPA98數(shù)據(jù)集的基礎(chǔ)上,通過(guò)一個(gè)模擬的美國(guó)空軍局域網(wǎng)產(chǎn)生的,并加入了很多模擬的攻擊,它是到目前為止使用最多的數(shù)據(jù)集。其中的流量分為五類(lèi):正常、Probe、R2L、U2R和DoS攻擊,每條記錄都是一個(gè)包含41維特征和1個(gè)標(biāo)簽的連接向量,NSL-KDD數(shù)據(jù)集[8]是KDD 99數(shù)據(jù)集的改進(jìn)版本,是為了解決KDD 99數(shù)據(jù)集中存在的問(wèn)題。NSL-KDD中刪除了KDD 99中訓(xùn)練和測(cè)試集中的冗余記錄,共有39種攻擊類(lèi)型,其中訓(xùn)練數(shù)據(jù)中有22種,測(cè)試數(shù)據(jù)包含另外17種。

UNB ISCX2012數(shù)據(jù)集[9]是通過(guò)配置文件動(dòng)態(tài)生成的數(shù)據(jù)集,包含七天的原始網(wǎng)絡(luò)數(shù)據(jù)流量,它不僅能反映當(dāng)時(shí)的流量組成和入侵,還可以修改、擴(kuò)展和重現(xiàn)。和KDD 99數(shù)據(jù)集相比,UNB ISCX2012數(shù)據(jù)集的攻擊類(lèi)型更接近于真實(shí)攻擊。

為了解決KDD 99和NSL-KDD等數(shù)據(jù)集不能全面反映網(wǎng)絡(luò)流量和現(xiàn)代低占用空間攻擊的問(wèn)題,Moustafa等人[10]創(chuàng)建了UNSW-NB15數(shù)據(jù)集。考慮到以往的數(shù)據(jù)集流量多樣性不足,覆蓋的攻擊種類(lèi)不全面,匿名的數(shù)據(jù)包信息和有效載荷不能反映當(dāng)前的趨勢(shì)或者缺乏特征集和元數(shù)據(jù),加拿大網(wǎng)絡(luò)安全研究所為入侵檢測(cè)提供了許多相關(guān)的特定數(shù)據(jù)集,如CICIDS2017數(shù)據(jù)集[11]和CSE-CIC-IDS2018數(shù)據(jù)集,這兩種數(shù)據(jù)集中包含良性網(wǎng)絡(luò)流和七種常見(jiàn)攻擊網(wǎng)絡(luò)流,和真實(shí)網(wǎng)絡(luò)數(shù)據(jù)很接近。

2.2 評(píng)估方法

當(dāng)前,入侵檢測(cè)系統(tǒng)的評(píng)估主要利用二分類(lèi)算法的評(píng)估方法說(shuō)明系統(tǒng)的性能,主要采用以下指標(biāo)。

(1)TPR:真陽(yáng)性率,在所有實(shí)際為惡意樣本的數(shù)據(jù)中,被正確地判斷為惡意樣本的比率,該指標(biāo)越高越好;

(2)FPR:假陽(yáng)性率,在所有實(shí)際為良性樣本的數(shù)據(jù)中,被錯(cuò)誤地判斷為惡意樣本的比率,該指標(biāo)越低越好;

(3)DR:檢測(cè)率,表示該方法在檢測(cè)惡意樣本的能力方面的性能,該指標(biāo)越高越好;

(4)Precision:原本為惡意樣本的數(shù)據(jù)占預(yù)測(cè)為惡意樣本數(shù)據(jù)的比率,該指標(biāo)越高越好;

(5)ACC:將實(shí)例正確地分為良性樣本和惡意樣本的比率;

(6)AUC:ROC 曲線下的面積即為AUC指標(biāo)的值,ROC 曲線由TPR 和FPR 計(jì)算得到,該指標(biāo)越高越好。

3 基于傳統(tǒng)機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)

傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)在基于異常的入侵檢測(cè)中得到廣泛應(yīng)用。通??梢詫C(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),本節(jié)根據(jù)這個(gè)分類(lèi)標(biāo)準(zhǔn)從三個(gè)方面進(jìn)行介紹,最后進(jìn)行了總結(jié),并分析了基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的入侵檢測(cè)存在的不足。

3.1 監(jiān)督機(jī)器學(xué)習(xí)方法

(1)隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Models,HMM)是關(guān)于時(shí)序的概率模型,它可以被應(yīng)用于入侵檢測(cè)的序列相關(guān)問(wèn)題。針對(duì)Web應(yīng)用程序的安全,Ariu等人[12]將有效載荷表示為一個(gè)字節(jié)序列,并使用隱馬爾可夫模型(HMM)進(jìn)行分析,經(jīng)實(shí)驗(yàn)評(píng)估,該方法對(duì)最常見(jiàn)的Web應(yīng)用攻擊(如XSS和SQL注入)特別有效,但該方法沒(méi)有考慮有效載荷的長(zhǎng)度,有進(jìn)一步提高總體準(zhǔn)確性的空間。Xiao等人[13]將HMM應(yīng)用于基于異常流量的網(wǎng)絡(luò)入侵檢測(cè),將基于主成分分析方法(PCA)提取到的流量特征作為HMM的輸入值,根據(jù)輸出的概率來(lái)判斷流量的類(lèi)型。針對(duì)車(chē)載自組網(wǎng)中的入侵檢測(cè)系統(tǒng)檢測(cè)開(kāi)銷(xiāo)大、檢測(cè)時(shí)間長(zhǎng)的問(wèn)題,Liang等人[14]提出了一種基于HMM的過(guò)濾模型用于入侵檢測(cè)系統(tǒng),該方法將自組網(wǎng)中每輛車(chē)的狀態(tài)模式建模為HMM,以實(shí)現(xiàn)快速過(guò)濾來(lái)自車(chē)輛的消息,實(shí)驗(yàn)表明,該入侵檢測(cè)系統(tǒng)在檢測(cè)率、檢測(cè)時(shí)間和檢測(cè)開(kāi)銷(xiāo)方面都有較好的性能。

(2)K近鄰算法

K近鄰算法(K-Nearest Neighbor, KNN)精度高、理論成熟,能夠解決入侵檢測(cè)中的多分類(lèi)問(wèn)題。隨著網(wǎng)絡(luò)數(shù)據(jù)特征維度的增加,K近鄰算法的分類(lèi)性能會(huì)顯著降低,為解決這個(gè)問(wèn)題,Chen等人[15]利用樹(shù)種子算法(TSA)對(duì)原始數(shù)據(jù)進(jìn)行處理,在提取到有效特征后,使用KNN進(jìn)行分類(lèi),實(shí)驗(yàn)結(jié)果表明這種組合模型能夠有效地去除冗余特征,提高網(wǎng)絡(luò)入侵檢測(cè)的準(zhǔn)確性和效率。PKNN是經(jīng)典KNN的改進(jìn)版本,適合解決多標(biāo)簽分類(lèi)問(wèn)題,它優(yōu)先考慮樣本和待分類(lèi)輸入項(xiàng)更接近的類(lèi),Saleh等人[16]設(shè)計(jì)了一種能實(shí)時(shí)應(yīng)用并適合于解決多分類(lèi)問(wèn)題的混合入侵檢測(cè)系統(tǒng),首先通過(guò)一種樸素的基特征選擇(NBFS)技術(shù)降低樣本數(shù)據(jù)的維度,然后通過(guò)優(yōu)化后的支持向量機(jī)(OSVM)來(lái)剔除離群點(diǎn),最后利用PKNN來(lái)檢測(cè)攻擊,在KDD 99、NSL-KDD和Kyoto2006+數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能較快地檢測(cè)攻擊并能用于實(shí)時(shí)入侵檢測(cè)。

(3)支持向量機(jī)

支持向量機(jī)(Support Vector Machine, SVM)通常用于解決小樣本、非線性、高維度等問(wèn)題,泛化能力強(qiáng),在入侵檢測(cè)領(lǐng)域被廣泛應(yīng)用。在數(shù)據(jù)采樣階段對(duì)數(shù)據(jù)進(jìn)行降維,可以大大提高檢測(cè)效率,Chen等人[17]提出了一種基于壓縮采樣的SVM入侵檢測(cè)模型,利用壓縮感知理論中的壓縮采樣方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行特征壓縮,然后利用SVM對(duì)壓縮結(jié)果進(jìn)行分類(lèi),所提方法大大減少了訓(xùn)練時(shí)間和檢測(cè)時(shí)間。戚等人[18]提出一種基于主成分分析的SVM攻擊檢測(cè)方法,通過(guò)主成分分析法對(duì)原始數(shù)據(jù)集進(jìn)行降維,得到能提升分類(lèi)效果的主成分屬性集,然后利用該屬性集訓(xùn)練SVM分類(lèi)器,在KDD 99數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法大大縮短了檢測(cè)時(shí)間,提高了檢測(cè)效率。Wang等人[19]為改善特征的質(zhì)量,通過(guò)對(duì)數(shù)邊際密度比(logarithms of the marginal density ratios, LMDRT)方法對(duì)原始特征進(jìn)行處理,然后構(gòu)建基于SVM的IDS,在NSL-KDD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法在準(zhǔn)確率、檢測(cè)率、誤報(bào)率和訓(xùn)練速度等方面有更好的性能和更強(qiáng)的穩(wěn)健性。

3.2 無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法

無(wú)監(jiān)督學(xué)習(xí)主要處理先驗(yàn)知識(shí)缺乏、難以人工標(biāo)注類(lèi)別或通過(guò)人工標(biāo)注成本太高這些場(chǎng)景下的問(wèn)題,在入侵檢測(cè)領(lǐng)域,無(wú)監(jiān)督學(xué)習(xí)技術(shù)不需要對(duì)數(shù)據(jù)進(jìn)行類(lèi)別標(biāo)注,能直接對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類(lèi),此外,用于降維的無(wú)監(jiān)督方法可以有效解決數(shù)據(jù)集的冗余和不相關(guān)問(wèn)題,降低計(jì)算開(kāi)銷(xiāo)。常用的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法有:k-means、高斯混合模型和主成分分析法。

(1)k-means

k-means是經(jīng)典的無(wú)監(jiān)督聚類(lèi)(Unsupervised Clustering)算法,被廣泛應(yīng)用于入侵檢測(cè)領(lǐng)域。k-means可通過(guò)與其他方法結(jié)合進(jìn)一步提升性能,也有不少研究對(duì)傳統(tǒng)k-means進(jìn)行改進(jìn)。Aung等人[20]將k-means和分類(lèi)回歸樹(shù)(CART)算法相結(jié)合來(lái)構(gòu)建入侵檢測(cè)模型,研究混合方法的性能。Al-Yaseen等人[21]為減小分類(lèi)器的訓(xùn)練時(shí)間,提高分類(lèi)器性能,提出了一種多層次的入侵檢測(cè)模型,首先通過(guò)改進(jìn)k-means算法對(duì)原始訓(xùn)練數(shù)據(jù)集進(jìn)行優(yōu)化,減少了分類(lèi)器的訓(xùn)練時(shí)間,然后使用支持向量機(jī)和極限學(xué)習(xí)機(jī)進(jìn)行多層次分類(lèi),在KDD 99數(shù)據(jù)集上進(jìn)行評(píng)估,該模型的ACC指標(biāo)達(dá)到了95.75%。

(2)高斯混合模型

高斯混合模型(Gaussian Mixture Model,GMM)對(duì)特征的概率分布進(jìn)行建模,因此可以識(shí)別網(wǎng)絡(luò)流量中的惡意數(shù)據(jù)樣本。當(dāng)攻擊樣本和正常樣本的分布類(lèi)似時(shí),可以使用高斯混合模型在特征層面建模,對(duì)兩類(lèi)樣本進(jìn)行區(qū)分[22]。為了解決訓(xùn)練數(shù)據(jù)不平衡、誤報(bào)率高以及無(wú)法檢測(cè)到未知攻擊等問(wèn)題,Chapaneri等人[23]使用高斯混合模型方法來(lái)學(xué)習(xí)每個(gè)流量類(lèi)別的統(tǒng)計(jì)特征,并使用基于四分位數(shù)間距的自適應(yīng)閾值技術(shù)來(lái)識(shí)別異常值。在CICIDS2017數(shù)據(jù)集上的評(píng)估結(jié)果表明該方法能有效檢測(cè)出未知攻擊。

(3)主成分分析法

主成分分析(PCA)是一種常用的特征提取方法,可以對(duì)高維數(shù)據(jù)進(jìn)行降維,縮短模型的訓(xùn)練時(shí)間,因此被廣泛用在入侵檢測(cè)中。文獻(xiàn)[24]使用PCA和Fisher判別比(FDR)進(jìn)行特征選擇和去噪,然后用概率自組織映射(Probabilistic Self-Organizing Maps,PSOM)對(duì)特征空間進(jìn)行建模,能有效區(qū)分正常和異常連接。

3.3 半監(jiān)督機(jī)器學(xué)習(xí)方法

隨著網(wǎng)絡(luò)數(shù)據(jù)流量的增大,僅依賴專(zhuān)家知識(shí)進(jìn)行人工標(biāo)記很難得到大量準(zhǔn)確標(biāo)記的數(shù)據(jù),造成訓(xùn)練數(shù)據(jù)集規(guī)模很有限,這使得模型無(wú)法準(zhǔn)確檢測(cè)出攻擊。半監(jiān)督機(jī)器學(xué)習(xí)方法將監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合,不過(guò)度依賴標(biāo)簽數(shù)據(jù),同時(shí)也充分利用已有數(shù)據(jù)的類(lèi)別信息,因此被廣泛用于入侵檢測(cè)中。

現(xiàn)有未知攻擊檢測(cè)方法選取的特征不具有代表性,導(dǎo)致檢測(cè)精度較低,許等人[25]使用改進(jìn)的k-means半監(jiān)督學(xué)習(xí)算法,實(shí)現(xiàn)對(duì)歷史數(shù)據(jù)的自動(dòng)標(biāo)記,并獲得了大量準(zhǔn)確標(biāo)記的訓(xùn)練數(shù)據(jù),引入信息增益的概念并用信息增益率來(lái)選取更具有代表性的特征,以提高模型對(duì)未知攻擊的檢測(cè)性能,實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同目標(biāo)網(wǎng)絡(luò)中未知攻擊檢測(cè)的準(zhǔn)確率均達(dá)到90%以上。針對(duì)網(wǎng)絡(luò)流量在不同類(lèi)別間的嚴(yán)重不平衡,訓(xùn)練集和測(cè)試集在特征空間中的分布不一致這兩個(gè)問(wèn)題,Yao等人[26]提出了一種多層半監(jiān)督入侵檢測(cè)模型框架,使用一種層次化的半監(jiān)督k-means聚類(lèi)算法來(lái)緩解類(lèi)不平衡問(wèn)題,通過(guò)一種區(qū)分測(cè)試集中已知和未知模式樣本的方法來(lái)解決分布不同的問(wèn)題,實(shí)驗(yàn)結(jié)果表明,該模型在總體準(zhǔn)確率、F1-Score、未知模式識(shí)別能力等方面均優(yōu)于現(xiàn)有的入侵檢測(cè)模型。

3.4 總結(jié)與討論

傳統(tǒng)機(jī)器學(xué)習(xí)方法在入侵檢測(cè)領(lǐng)域得到了廣泛應(yīng)用,表1總結(jié)了利用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行入侵檢測(cè)的部分工作,其中給出了所使用的技術(shù)、數(shù)據(jù)預(yù)處理方式、特征處理方法、評(píng)估數(shù)據(jù)集、任務(wù)類(lèi)型和評(píng)價(jià)指標(biāo)。

表1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的入侵檢測(cè)Table 1 Intrusion detection based on traditional machine learning

通過(guò)對(duì)引用論文的分析,多數(shù)研究工作在解決目前入侵檢測(cè)面臨的問(wèn)題時(shí),會(huì)將多種機(jī)器學(xué)習(xí)算法混合使用,首先通過(guò)特征提取或特征選擇算法對(duì)原始數(shù)據(jù)進(jìn)行處理,然后構(gòu)建基于分類(lèi)器的檢測(cè)模型。在分類(lèi)器的選取方面,通??梢詫?duì)基本模型進(jìn)行改進(jìn),也可以利用集成學(xué)習(xí)的思想,集成不同的分類(lèi)器來(lái)提升檢測(cè)性能。然而隨著攻擊行為的進(jìn)一步多樣化和流量數(shù)據(jù)持續(xù)增加、維度進(jìn)一步增大,正常樣本和攻擊樣本的嚴(yán)重不平衡,利用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行入侵檢測(cè)也存在很多不足,主要體現(xiàn)在過(guò)度依賴人工提取特征,難以深入挖掘樣本數(shù)據(jù)的內(nèi)在規(guī)律,特別是未能考慮網(wǎng)絡(luò)流量的時(shí)間、空間等特征,沒(méi)有分析數(shù)據(jù)在不同維度上的相關(guān)性,從而難以做到對(duì)潛在威脅的預(yù)測(cè)。因此,基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的入侵檢測(cè)技術(shù)面臨著巨大的挑戰(zhàn)。

4 基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù)

傳統(tǒng)機(jī)器學(xué)習(xí)方法是較為淺層的學(xué)習(xí)方法,隨著網(wǎng)絡(luò)中數(shù)據(jù)量的增加,數(shù)據(jù)維度的進(jìn)一步增大,這類(lèi)方法往往難以達(dá)到預(yù)期的效果。在這樣的背景下,深度學(xué)習(xí)(Deep Learning)應(yīng)運(yùn)而生[27],深度學(xué)習(xí)的理論和相關(guān)技術(shù)在機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域得到了迅速的發(fā)展。近年來(lái),深度學(xué)習(xí)促進(jìn)了人工智能技術(shù)及相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展。深度學(xué)習(xí)方法可分為生成式無(wú)監(jiān)督學(xué)習(xí)、判別式有監(jiān)督學(xué)習(xí)和混合深度學(xué)習(xí)三大類(lèi)[28]?;谏疃葘W(xué)習(xí)的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的結(jié)構(gòu)如圖2所示,深度學(xué)習(xí)模型主要用于特征處理和分類(lèi)。根據(jù)深度學(xué)習(xí)的分類(lèi)方法,本節(jié)將對(duì)基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù)進(jìn)行詳細(xì)介紹。

圖2 基于深度學(xué)習(xí)的NIDS結(jié)構(gòu)Fig.2 The NIDS structure based on deep learning

4.1 生成式無(wú)監(jiān)督方法

生成式方法以及由此產(chǎn)生的生成模型使用無(wú)標(biāo)記數(shù)據(jù),可用于模式分析或合成,也可以描述數(shù)據(jù)的聯(lián)合分布統(tǒng)計(jì)[28]。

(1)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)

循環(huán)神經(jīng)網(wǎng)絡(luò)[29]基于常規(guī)前饋神經(jīng)網(wǎng)絡(luò),RNN之所以被稱為遞歸,是因?yàn)樗鼈儗?duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),其輸出取決于先前的計(jì)算,RNN可以利用數(shù)據(jù)的序列信息,提取時(shí)序特征,非常適合應(yīng)用于與序列相關(guān)的入侵檢測(cè)問(wèn)題。Suda等人[30]針對(duì)車(chē)載網(wǎng)絡(luò)的入侵檢測(cè),提出了一種時(shí)間序列特征提取的入侵檢測(cè)算法,利用RNN實(shí)現(xiàn)有效提取數(shù)據(jù)包的時(shí)間序列特征。燕昺昊等人[31]提出了一種基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)和區(qū)域自適應(yīng)合成過(guò)采樣算法(RA-SMOTE)的組合式入侵檢測(cè)模型,不僅提升了低頻攻擊的檢測(cè)率,同時(shí)依靠RNN的時(shí)序循環(huán)結(jié)構(gòu)充分挖掘并利用了樣本之間的時(shí)序相關(guān)性,提升了模型刻畫(huà)數(shù)據(jù)的能力和檢測(cè)性能。

然而,在一些長(zhǎng)時(shí)間依賴問(wèn)題中,傳統(tǒng)的RNN因?yàn)樽陨斫Y(jié)構(gòu)的特點(diǎn)在訓(xùn)練過(guò)程會(huì)出現(xiàn)問(wèn)題,例如梯度消失、爆炸問(wèn)題。為了解決這個(gè)問(wèn)題,人們提出了長(zhǎng)短期記憶(Long Short-Term Memory networks,LSTM)網(wǎng)絡(luò)和門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)[29]。長(zhǎng)短期記憶網(wǎng)絡(luò)[32]對(duì)時(shí)間序列中間隔和延遲長(zhǎng)的事件有較強(qiáng)的處理能力。由于使用單一的RNN層作為分類(lèi)器難以在網(wǎng)絡(luò)攻擊檢測(cè)中獲得顯著的性能提升,為了進(jìn)一步提高性能,Hou等人[33]構(gòu)建了一種基于分層LSTM的IDS,該系統(tǒng)可以在復(fù)雜的網(wǎng)絡(luò)流量序列上跨越多個(gè)層次的時(shí)間層次進(jìn)行學(xué)習(xí),在NSL-KDD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法對(duì)各種網(wǎng)絡(luò)攻擊,特別是低頻網(wǎng)絡(luò)攻擊具有較好的檢測(cè)性能。針對(duì)物聯(lián)網(wǎng)網(wǎng)絡(luò)中的攻擊檢測(cè),Roy等人[34]提出了一種使用雙向LSTM的入侵檢測(cè)方法,雙向LSTM能在訓(xùn)練階段從數(shù)據(jù)集中學(xué)習(xí)更為詳細(xì)的特征,主要研究了在二分類(lèi)中的性能,能達(dá)到較高的攻擊流量檢測(cè)準(zhǔn)確率。門(mén)控循環(huán)單元是LSTM的一種變體,在保證性能的同時(shí)進(jìn)一步簡(jiǎn)化了結(jié)構(gòu),較少的參數(shù)也讓訓(xùn)練更容易。Xu等人[35]針對(duì)時(shí)間相關(guān)入侵的特點(diǎn),用GRU作為主要存儲(chǔ)單元,并與多層感知器(MLP)結(jié)合以識(shí)別網(wǎng)絡(luò)入侵,實(shí)驗(yàn)結(jié)果表明該方法對(duì)于時(shí)序特征明顯的DOS和PROBING攻擊有較高的檢測(cè)率。

(2)自動(dòng)編碼器(Auto-Encoder, AE)

自動(dòng)編碼器[36]對(duì)高維數(shù)據(jù)進(jìn)行特征提取,在訓(xùn)練過(guò)程中通過(guò)盡可能讓輸出接近于輸入數(shù)據(jù)來(lái)確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),它具有強(qiáng)大的非線性泛化能力。自動(dòng)編碼器主要用于數(shù)據(jù)的降維。

隨著入侵檢測(cè)系統(tǒng)需要處理的復(fù)雜數(shù)據(jù)的迅速增長(zhǎng),對(duì)大規(guī)模數(shù)據(jù)的處理成為入侵檢測(cè)系統(tǒng)面臨的挑戰(zhàn)之一,自動(dòng)編碼器被廣泛地用于入侵檢測(cè)中的降維任務(wù)。Shone 等人[36]在自動(dòng)編碼器的基礎(chǔ)上,在輸出端也使用了和編碼層類(lèi)似的函數(shù),并提出了堆疊非對(duì)稱深度自動(dòng)編碼器(NDAE),之后使用NDAE進(jìn)行特征提取,并選取了隨機(jī)森林作為分類(lèi)器,與之前的研究工作相比,NDAE顯著提升了檢測(cè)性能。Li等人[37]提出了一種基于隨機(jī)森林算法的自動(dòng)編碼器入侵檢測(cè)系統(tǒng),使用淺層自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò),降低了計(jì)算復(fù)雜度,大大縮短了檢測(cè)時(shí)間,有效提高了預(yù)測(cè)精度。為改善檢測(cè)Web攻擊的精度,Vartouni等人[38]提出了一種基于稀疏自動(dòng)編碼器的異常檢測(cè)方法,主要利用稀疏自動(dòng)編碼器進(jìn)行特征處理,與不進(jìn)行特征提取的方法相比,該方法具有更高的精度。

深度自動(dòng)編碼器(DAE)有著更多的隱藏層,通過(guò)對(duì)每一層進(jìn)行預(yù)訓(xùn)練可以增強(qiáng)模型的學(xué)習(xí)能力。Farahnakian等人[39]利用DAE構(gòu)建了入侵檢測(cè)系統(tǒng),為避免過(guò)擬合和局部最優(yōu),對(duì)模型采取逐層貪婪的方式進(jìn)行訓(xùn)練,在KDD 99上進(jìn)行評(píng)估,該方法有較高的準(zhǔn)確率、檢測(cè)率。為了提高對(duì)未知攻擊和低頻攻擊的檢測(cè)能力,Yang等人[40]構(gòu)建了一種基于正則化對(duì)抗式變分自動(dòng)編碼器的入侵檢測(cè)模型,在基準(zhǔn)數(shù)據(jù)集上的評(píng)估結(jié)果表明,該模型表現(xiàn)出了良好的檢測(cè)性能。

(3)深度玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)

深度玻爾茲曼機(jī)是一種以受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)為基礎(chǔ)的深度學(xué)習(xí)模型,由多層RBM疊加而成。RBM能從原始數(shù)據(jù)中學(xué)習(xí)特征的深層次信息,因此在入侵檢測(cè)任務(wù)中被廣泛應(yīng)用。隨著攻擊技術(shù)和方式的變化,以前獲得的有關(guān)如何區(qū)別正常流量的信息可能不再有效,因此需要一個(gè)自學(xué)習(xí)系統(tǒng),以便可以動(dòng)態(tài)地構(gòu)造和發(fā)展有關(guān)異常行為的知識(shí),F(xiàn)iore等人[41]使用了判別受限玻爾茲曼機(jī),該模型可以組合生成模型,捕獲正常流量的固有屬性并且分類(lèi)準(zhǔn)確性較高,通過(guò)將訓(xùn)練數(shù)據(jù)與測(cè)試網(wǎng)絡(luò)場(chǎng)景分離,以評(píng)估神經(jīng)網(wǎng)絡(luò)的泛化能力,實(shí)驗(yàn)證實(shí),當(dāng)在與獲取訓(xùn)練數(shù)據(jù)的網(wǎng)絡(luò)截然不同的網(wǎng)絡(luò)中測(cè)試分類(lèi)器時(shí),性能會(huì)受到影響。這表明需要對(duì)異常流量的性質(zhì)以及與正常流量的內(nèi)在差異做進(jìn)一步調(diào)查。Aldwairi等人[42]嘗試使用受限玻爾茲曼機(jī)來(lái)區(qū)分正常和異常的NetFlow流量,在信息安全中心(ISCX)數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果表明RBM可以對(duì)正常和異常的NetFlow流量進(jìn)行分類(lèi),但存在的不足是只對(duì)兩層RBM進(jìn)行了研究。Elsaeidy等人[43]對(duì)多層RBM進(jìn)行了研究,使用經(jīng)過(guò)訓(xùn)練的深度玻爾茲曼機(jī)模型從網(wǎng)絡(luò)流量中提取高層特征,然后結(jié)合前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network, FFNN)、隨機(jī)森林(Random Forest, RF)等模型利用提取到的特征來(lái)檢測(cè)不同類(lèi)型的DDoS攻擊。

(4)深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)

深度信念網(wǎng)絡(luò)[44]是一種具有深層架構(gòu)的神經(jīng)網(wǎng)絡(luò),它通過(guò)無(wú)監(jiān)督算法對(duì)每一層受限玻爾茲曼機(jī)進(jìn)行訓(xùn)練,它是一個(gè)特征學(xué)習(xí)的過(guò)程,可以解決涉及高維數(shù)據(jù)的問(wèn)題,已經(jīng)被應(yīng)用于入侵檢測(cè)領(lǐng)域。Gao等人[44]證明了深度信念網(wǎng)絡(luò)方法可以成功地應(yīng)用于入侵檢測(cè)領(lǐng)域,在KDD 99數(shù)據(jù)集上對(duì)DBN模型進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果DBN模型的性能優(yōu)于SVM和人工神經(jīng)網(wǎng)絡(luò)(ANN)。為適應(yīng)不同的攻擊類(lèi)型并降低神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,Zhang等人[45]將改進(jìn)的遺傳算法與深度信念網(wǎng)絡(luò)相結(jié)合,遺傳算法進(jìn)行多次迭代來(lái)產(chǎn)生最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),然后構(gòu)建最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)的DBN作為入侵檢測(cè)模型對(duì)攻擊進(jìn)行分類(lèi)。面對(duì)不同類(lèi)型的攻擊,該方法解決了在使用深度學(xué)習(xí)方法進(jìn)行入侵檢測(cè)時(shí)如何選擇合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的問(wèn)題,從而提高了模型的分類(lèi)精度和泛化能力,降低了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,在性能方面,針對(duì)具體攻擊類(lèi)型生成特定的網(wǎng)絡(luò)結(jié)構(gòu),其分類(lèi)精度高于其他網(wǎng)絡(luò)結(jié)構(gòu),可以達(dá)到99%以上的檢測(cè)率。

4.2 判別式有監(jiān)督方法

判別式有監(jiān)督方法以及由此產(chǎn)生的判別方法旨在通過(guò)表征以可見(jiàn)數(shù)據(jù)為條件的類(lèi)的后驗(yàn)分布來(lái)直接提供用于模式分類(lèi)的判別能力,可區(qū)分部分帶標(biāo)記數(shù)據(jù)的模式分類(lèi)數(shù)據(jù)[28]。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是典型的判別式有監(jiān)督方法[28],它由輸入層、卷積層、池化層、完全連接層和輸出層組成,具有準(zhǔn)確且高效地提取特征的能力,不同結(jié)構(gòu)的CNN具有不同數(shù)量的卷積層和池化層[46]。在入侵檢測(cè)領(lǐng)域應(yīng)用CNN時(shí),主要是通過(guò)將流量分類(lèi)問(wèn)題轉(zhuǎn)換為圖片分類(lèi)問(wèn)題,即首先要將流量數(shù)據(jù)進(jìn)行圖片化,然后得到灰度圖,利用CNN還可以提取網(wǎng)絡(luò)流量的空間特征。

Xiao等人[46]應(yīng)用數(shù)據(jù)預(yù)處理方法來(lái)消除網(wǎng)絡(luò)流量數(shù)據(jù)中的冗余和不相關(guān)特征,然后將流量轉(zhuǎn)換為二維矩陣形式,再使用CNN提取特征, 這種方法解決了傳統(tǒng)機(jī)器學(xué)習(xí)模型無(wú)法確定數(shù)據(jù)特征之間關(guān)系的問(wèn)題。Naseer等人[47]使用CNN、AE和RNN等深度神經(jīng)網(wǎng)絡(luò),來(lái)構(gòu)建入侵檢測(cè)系統(tǒng),在NSL-KDD上進(jìn)行訓(xùn)練和測(cè)試,CNN和LSTM模型都表現(xiàn)出了優(yōu)異性能。Wu等人[48]利用CNN從原始數(shù)據(jù)集中自動(dòng)提取流量特征,并根據(jù)其個(gè)數(shù)設(shè)定每類(lèi)的成本函數(shù)權(quán)重系數(shù),來(lái)解決數(shù)據(jù)集不平衡的問(wèn)題。Blanco等人[49]使用遺傳算法(Genetic Algorithm,GA)優(yōu)化CNN分類(lèi)器,以找到輸入特征的更好布局,能改善多分類(lèi)器的性能。

4.3 混合式方法

混合式深度網(wǎng)絡(luò)方法結(jié)合了生成式無(wú)監(jiān)督方法和判別式有監(jiān)督方法[28,50],主要有深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[51]。DNN是一種具有多個(gè)隱含層的多層感知器,是一種混合結(jié)構(gòu),其權(quán)值是完全連通的。GAN是一種混合深層架構(gòu),包含兩個(gè)神經(jīng)網(wǎng)絡(luò),即生成器和判別器。根據(jù)提供的輸入樣本,生成器嘗試根據(jù)理想的數(shù)據(jù)分布生成偽造的數(shù)據(jù),這些數(shù)據(jù)會(huì)和原始數(shù)據(jù)一起輸入到判別器中,判別器會(huì)學(xué)習(xí)區(qū)別原始數(shù)據(jù)和由生成器構(gòu)造的樣本,并反饋到生成器,這個(gè)學(xué)習(xí)過(guò)程被稱為生成器和判別器之間的博弈。通常情況下,網(wǎng)絡(luò)中的異常流量遠(yuǎn)少于正常流量,GAN能生成新數(shù)據(jù),因此能用來(lái)解決入侵檢測(cè)中數(shù)據(jù)類(lèi)別不平衡的問(wèn)題。Salem等人[52]首先將數(shù)據(jù)轉(zhuǎn)換成圖像,然后利用Cycle-GAN生成新的數(shù)據(jù),最后將生成的數(shù)據(jù)融入原始數(shù)據(jù)集中,之后將這些數(shù)據(jù)用于訓(xùn)練模型,并檢測(cè)異常,實(shí)驗(yàn)結(jié)果表明,分類(lèi)結(jié)果得到了改善,AUC從0.55上升到0.71,異常檢測(cè)率從17.07%上升到80.49%。與SMOTE方法相比,分類(lèi)結(jié)果得到顯著改善,展現(xiàn)了GAN強(qiáng)大的異常數(shù)據(jù)生成能力。

基于機(jī)器學(xué)習(xí)的IDS在面對(duì)對(duì)抗性攻擊時(shí)健壯性容易受到影響,為了解決這一問(wèn)題,Lin等人[53]提出了一種基于GAN的入侵檢測(cè)框架(IDSGAN),IDSGAN利用生成器將原始惡意流量轉(zhuǎn)換為對(duì)抗性惡意流量,然后判別器對(duì)流量樣本進(jìn)行分類(lèi),并模擬黑匣子檢測(cè)系統(tǒng)。實(shí)驗(yàn)中僅對(duì)攻擊流量的部分非功能性特征進(jìn)行了修改,從而保證了入侵的有效性。Usama等人[54]提出了一種使用GAN的對(duì)抗式機(jī)器學(xué)習(xí)攻擊,該攻擊可以成功規(guī)避基于機(jī)器學(xué)習(xí)的IDS,實(shí)驗(yàn)結(jié)果表明,基于GAN的防御提高了IDS面對(duì)對(duì)抗性擾動(dòng)的魯棒性。

4.4 總結(jié)與討論

隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,入侵檢測(cè)系統(tǒng)進(jìn)入了一個(gè)新的發(fā)展階段。深度學(xué)習(xí)可以用于入侵檢測(cè)的特征處理過(guò)程和分類(lèi)過(guò)程。面對(duì)海量高維度網(wǎng)絡(luò)流量數(shù)據(jù),和傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法具有更高的效率和檢測(cè)準(zhǔn)確率。表2對(duì)部分基于深度學(xué)習(xí)的入侵檢測(cè)工作進(jìn)行了總結(jié),不涉及不同方法間的比較。

表2 基于深度學(xué)習(xí)的入侵檢測(cè)Table 2 Intrusion detection based on deep learning

盡管深度學(xué)習(xí)方法相比于傳統(tǒng)機(jī)器學(xué)習(xí)具有優(yōu)勢(shì),但深度學(xué)習(xí)技術(shù)仍然沒(méi)有在商用入侵檢測(cè)系統(tǒng)中大規(guī)模應(yīng)用。目前比較有代表性的應(yīng)用產(chǎn)品有騰訊的T-Sec主機(jī)安全和東軟NetEye入侵檢測(cè)系統(tǒng)(IDS)。T-Sec主機(jī)安全(Cloud Workload Protection,CWP)基于騰訊安全積累的海量威脅數(shù)據(jù),利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為用戶提供資產(chǎn)管理、木馬文件查殺、黑客入侵檢測(cè)、漏洞風(fēng)險(xiǎn)預(yù)警等安全防護(hù)服務(wù),可以對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行多維度分析?;谏疃葘W(xué)習(xí)的入侵檢測(cè)系統(tǒng)仍面臨一些挑戰(zhàn):(1)訓(xùn)練耗時(shí)較長(zhǎng)。深度學(xué)習(xí)模型通常都具有很多隱藏層,為保證模型的效果需要逐層訓(xùn)練,這導(dǎo)致訓(xùn)練速度較慢,所要求的計(jì)算量大,通過(guò)需要GPU并行來(lái)完成大規(guī)模的計(jì)算任務(wù);(2)模型網(wǎng)絡(luò)結(jié)構(gòu)的選擇及優(yōu)化。深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)最終的分類(lèi)結(jié)果有很大的影響,因此針對(duì)不同的檢測(cè)任務(wù),需要確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu);(3)實(shí)時(shí)檢測(cè)問(wèn)題。實(shí)時(shí)檢測(cè)是IDS所追求的目標(biāo)之一,然而網(wǎng)絡(luò)中海量高維度數(shù)據(jù)的不斷增加,給基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù)帶來(lái)一定的挑戰(zhàn);(4)數(shù)據(jù)不平衡問(wèn)題。網(wǎng)絡(luò)中異常流量遠(yuǎn)少于正常流量,這導(dǎo)致訓(xùn)練出的模型具有明顯的偏向性,在多數(shù)情況下會(huì)偏向于正常流量,從而嚴(yán)重影響檢測(cè)準(zhǔn)確率。

有學(xué)者嘗試將新的深度學(xué)習(xí)方法應(yīng)用于入侵檢測(cè)。Javaid等人[55]基于自學(xué)習(xí)(Self-taught Learning)方法構(gòu)建入侵檢測(cè)系統(tǒng),自學(xué)習(xí)是一種深度學(xué)習(xí)方法,分為兩個(gè)階段。首先,從大量的未標(biāo)記數(shù)據(jù)中學(xué)習(xí)一個(gè)好的特征表示,稱為無(wú)監(jiān)督特征學(xué)習(xí)。在第二階段,將學(xué)習(xí)到的表示應(yīng)用于標(biāo)記數(shù)據(jù),并用于分類(lèi)任務(wù)。可以將不同的方法用于無(wú)監(jiān)督特征學(xué)習(xí)階段。Cordero等人[56]使用復(fù)制神經(jīng)網(wǎng)絡(luò)(Replicator Neural Networks)檢測(cè)大規(guī)模網(wǎng)絡(luò)攻擊,復(fù)制神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,可以將給定的輸入復(fù)制為輸出。在熵提取的過(guò)程中,首先將包聚合,然后將流分割成時(shí)間窗口,最后從流中選擇特定的特征。未來(lái)深度學(xué)習(xí)理論的突破不僅會(huì)緩解當(dāng)前方法面臨的問(wèn)題,還會(huì)在其他方面產(chǎn)生影響:(1)減少訓(xùn)練時(shí)長(zhǎng)和計(jì)算量,以更低的開(kāi)銷(xiāo)將深度學(xué)習(xí)應(yīng)用于工業(yè)界的產(chǎn)品和系統(tǒng)中;(2)模型參數(shù)的確定更便捷,可以學(xué)習(xí)不同任務(wù)的參數(shù)優(yōu)化過(guò)程;(3)能高效處理海量高維度數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)檢測(cè);(4)在一些任務(wù)中,未標(biāo)記數(shù)據(jù)和標(biāo)記數(shù)據(jù)可能來(lái)自不同的分布,挖掘它們之間的相關(guān)性有助于了解數(shù)據(jù)的內(nèi)在屬性、特征之間的關(guān)系。

5 總結(jié)與展望

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)攻擊也會(huì)不斷變化、不斷增加。入侵檢測(cè)作為一種保障網(wǎng)絡(luò)安全的重要手段,將會(huì)發(fā)揮著關(guān)鍵作用。通過(guò)對(duì)所調(diào)研文獻(xiàn)的分析總結(jié),本文對(duì)入侵檢測(cè)系統(tǒng)未來(lái)的研究方向進(jìn)行如下討論:

(1)入侵檢測(cè)的數(shù)據(jù)。目前廣泛使用的數(shù)據(jù)集主要是KDD 99、NSL-KDD等,但這些數(shù)據(jù)集的產(chǎn)生時(shí)間較為久遠(yuǎn),很多數(shù)據(jù)與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)不符合,用這些數(shù)據(jù)集評(píng)估入侵檢測(cè)模型得到的結(jié)果不具有代表性。因此,在未來(lái)的研究中,應(yīng)隨著網(wǎng)絡(luò)環(huán)境的發(fā)展變化,生成較新的數(shù)據(jù)集,這樣才能更好地評(píng)估入侵檢測(cè)模型。

(2)未來(lái)入侵檢測(cè)仍面臨的問(wèn)題也正如上一節(jié)中深度學(xué)習(xí)方法面臨的挑戰(zhàn)一樣,主要是高維數(shù)據(jù)的處理、實(shí)時(shí)檢測(cè)、數(shù)據(jù)不平衡等問(wèn)題,這些是未來(lái)研究中面臨的難點(diǎn)問(wèn)題。

(3)在檢測(cè)技術(shù)方面,相比傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法有著更好的效果,因此,未來(lái)在入侵檢測(cè)領(lǐng)域,深度學(xué)習(xí)會(huì)有更廣泛的應(yīng)用。然而,深度學(xué)習(xí)方法通常依賴于各自領(lǐng)域的訓(xùn)練樣本來(lái)建立該領(lǐng)域的分類(lèi)模型,面對(duì)復(fù)雜多變的網(wǎng)絡(luò)攻擊,入侵檢測(cè)系統(tǒng)也應(yīng)該自主進(jìn)化,不斷提升自身的適應(yīng)能力。近年來(lái),遷移學(xué)習(xí)在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。對(duì)于一個(gè)特定領(lǐng)域,遷移學(xué)習(xí)是基于對(duì)其他領(lǐng)域的訓(xùn)練樣本的研究,并提取用于該領(lǐng)域?qū)W習(xí)的相關(guān)知識(shí)。深度遷移學(xué)習(xí)更像人類(lèi)學(xué)習(xí),它可以用自動(dòng)化模塊代替參數(shù)系統(tǒng)和模型生成方法[57]。遷移學(xué)習(xí)可以實(shí)現(xiàn)不同域或多個(gè)任務(wù)之間的學(xué)習(xí),具體到入侵檢測(cè)中,面對(duì)不同的網(wǎng)絡(luò)攻擊,根據(jù)知識(shí)遷移對(duì)象的不同,可以使用樣本遷移算法、特征表示遷移算法、參數(shù)遷移算法和相關(guān)知識(shí)遷移算法。在實(shí)體與動(dòng)態(tài)環(huán)境的交互過(guò)程中,強(qiáng)化學(xué)習(xí)通過(guò)對(duì)策略的學(xué)習(xí),可以達(dá)到回報(bào)最大化。有研究利用分布式強(qiáng)化學(xué)習(xí)技術(shù)檢測(cè)新的和復(fù)雜的分布式攻擊,但精準(zhǔn)率波動(dòng)較大,有待提升[58]。因此,將深度遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)用于入侵檢測(cè)領(lǐng)域具有研究意義。

6 結(jié)束語(yǔ)

深度學(xué)習(xí)方法在入侵檢測(cè)領(lǐng)域受到了廣泛的關(guān)注,本文對(duì)最新的研究進(jìn)展進(jìn)行了總結(jié),介紹了入侵檢測(cè)的基本概念、數(shù)據(jù)集和評(píng)估方法,然后簡(jiǎn)要介紹了基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的入侵檢測(cè)系統(tǒng),最后重點(diǎn)闡述了基于深度學(xué)習(xí)的入侵檢測(cè)技術(shù)。本文旨在對(duì)入侵檢測(cè)相關(guān)研究提供框架和總結(jié),分析深度學(xué)習(xí)方法相比傳統(tǒng)機(jī)器學(xué)習(xí)方法在入侵檢測(cè)中的優(yōu)勢(shì),以及未來(lái)有待解決的問(wèn)題,從而為以后開(kāi)展研究工作帶來(lái)幫助。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
流量樣本深度
冰墩墩背后的流量密碼
四增四減 深度推進(jìn)
張曉明:流量決定勝負(fù)!三大流量高地裂變無(wú)限可能!
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
深度理解一元一次方程
尋找書(shū)業(yè)新流量
簡(jiǎn)約教學(xué) 深度學(xué)習(xí)
規(guī)劃·樣本
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
基于ZigBee 通信的流量研究與改進(jìn)
罗甸县| 三台县| 武安市| 探索| 江华| 广汉市| 会昌县| 玛多县| 奉新县| 安平县| 招远市| 五峰| 朔州市| 广饶县| 大荔县| 阜新| 任丘市| 崇文区| 静海县| 丰镇市| 凤山市| 富宁县| 冕宁县| 资源县| 仙桃市| 江阴市| 琼结县| 永嘉县| 城市| 临湘市| 裕民县| 南平市| 汉中市| 霞浦县| 凯里市| 辛集市| 伊春市| 莲花县| 广德县| 左权县| 昭通市|