繆祥華 張如雪 張宣琦 蒲鸛雄 王 攀 李 響 張家臨
(昆明理工大學(xué)a.信息工程與自動(dòng)化學(xué)院;b.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室)
近年來(lái),互聯(lián)網(wǎng)及其基礎(chǔ)設(shè)施逐漸在人們的日常生活中扮演著重要角色。 互聯(lián)網(wǎng)在連接不同應(yīng)用程序(如醫(yī)療保健、工業(yè)和商業(yè))中的數(shù)十億臺(tái)機(jī)器方面發(fā)揮著積極的作用。 它提供了一個(gè)全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施來(lái)連接大量的虛擬和物理事物,如通信設(shè)備、網(wǎng)絡(luò)物理系統(tǒng)和社交網(wǎng)絡(luò)。 然而它的好處在某種程度上被日趨嚴(yán)重的網(wǎng)絡(luò)攻擊所抵消。2020年國(guó)家技術(shù)安全聯(lián)盟(NTSC)的安全報(bào)告指出,網(wǎng)絡(luò)安全問(wèn)題每個(gè)月都在惡化。 2019年,大約有6.2億賬戶信息被黑客竊取,并在暗網(wǎng)上出售。 COVID-19大流行加劇了這種威脅,因?yàn)樵S多人不得不在家工作,導(dǎo)致網(wǎng)絡(luò)流量顯著增加。 而網(wǎng)絡(luò)攻擊檢測(cè)作為一種跟蹤網(wǎng)絡(luò)流量的有效安全機(jī)制,可防止惡意請(qǐng)求。
現(xiàn)有的攻擊檢測(cè)系統(tǒng)根據(jù)檢測(cè)的數(shù)據(jù)可以分為兩類:基于已知數(shù)據(jù)集的檢測(cè)和基于未知數(shù)據(jù)集的檢測(cè)。 而基于已知數(shù)據(jù)集的檢測(cè)方法又可以分為基于統(tǒng)計(jì)方法的檢測(cè)和基于機(jī)器學(xué)習(xí)的檢測(cè)。 筆者從多個(gè)角度進(jìn)行分析,研究了預(yù)處理技術(shù),如數(shù)據(jù)清理、特征選擇及特征轉(zhuǎn)換等,為數(shù)據(jù)準(zhǔn)備提供建議, 還討論了網(wǎng)絡(luò)攻擊檢測(cè)技術(shù),并按技術(shù)類別分析了它們的原理和相關(guān)應(yīng)用。
在任何數(shù)據(jù)分析過(guò)程中,數(shù)據(jù)的表示和質(zhì)量都是最重要的。 原始數(shù)據(jù)通常包含噪聲和不可靠的數(shù)據(jù),會(huì)影響訓(xùn)練、分析。 此外,網(wǎng)絡(luò)攻擊檢測(cè)中使用的數(shù)據(jù)集具有高維的特點(diǎn),使得在訓(xùn)練過(guò)程中更難發(fā)現(xiàn)知識(shí)。 要構(gòu)建高性能的探測(cè)器需要進(jìn)行有效的預(yù)處理。 網(wǎng)絡(luò)攻擊檢測(cè)中最常用的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、特征選擇、特征提取。
數(shù)據(jù)清洗可以糾正損壞或不準(zhǔn)確的記錄。 質(zhì)量標(biāo)準(zhǔn)包括以下內(nèi)容:
a. 有效性。 數(shù)據(jù)可能必須是某種類型,比如布爾型或數(shù)值型。
b. 準(zhǔn)確性。數(shù)據(jù)必須符合實(shí)際情況,例如,由于記錄過(guò)程可能存在異常值,通過(guò)數(shù)據(jù)清洗很難保證準(zhǔn)確性,因?yàn)轵?yàn)證需要真實(shí)的數(shù)據(jù)源。
c. 完整性。 一些數(shù)據(jù)可能有未知的或缺失的值。 完整性問(wèn)題通常通過(guò)默認(rèn)值、設(shè)置零或刪除來(lái)解決。
d. 一致性。 當(dāng)數(shù)據(jù)集中有沖突時(shí),就會(huì)發(fā)生不一致。例如,兩個(gè)接收器的源IP可能不同。解決這類問(wèn)題需要確定哪個(gè)數(shù)據(jù)是最可靠的。
基于平均值、標(biāo)準(zhǔn)差或聚類算法的數(shù)據(jù)分析可以揭示錯(cuò)誤,這些錯(cuò)誤的值有時(shí)可以設(shè)置為平均值或其他統(tǒng)計(jì)度量。
在將訓(xùn)練數(shù)據(jù)輸入到模型之前,通常必須進(jìn)行轉(zhuǎn)換和映射來(lái)適應(yīng)需求,以提高檢測(cè)速度和準(zhǔn)確性。 這將影響IDS數(shù)據(jù)集中的兩種數(shù)據(jù)類型。
非數(shù)值數(shù)據(jù)。 以UNSW-NB15數(shù)據(jù)集為例,名義形式的特征包括傳輸協(xié)議類型、狀態(tài)、服務(wù)類型和攻擊類型,以字符串形式存儲(chǔ),這是大多數(shù)機(jī)器學(xué)習(xí)算法不支持的。 最直接的方法是給特性下的值編號(hào)并映射它們,但這將導(dǎo)致錯(cuò)誤。 比如,在均方誤差的計(jì)算中, 將一個(gè)被標(biāo)記為0的類誤標(biāo)記為9, 其均方誤差是將該類誤標(biāo)記為1的81倍,這是不合理的。 處理這種問(wèn)題最常用的方法是獨(dú)熱編碼。 該方法為了完成對(duì)n個(gè)狀態(tài)的編碼,采用了對(duì)應(yīng)的n位狀態(tài)寄存器。 當(dāng)給定狀態(tài)生效時(shí),唯一一個(gè)與其對(duì)應(yīng)的寄存器位就會(huì)生效。
數(shù)值數(shù)據(jù)。 數(shù)據(jù)值的范圍因特性而異。 深度學(xué)習(xí)框架通過(guò)引入偏差來(lái)避免它對(duì)模型精度的影響, 但當(dāng)兩個(gè)特征值的取值范圍相差過(guò)大時(shí),仍可能影響模型學(xué)習(xí)時(shí)間。 在訓(xùn)練前,特征的取值范圍通常通過(guò)數(shù)據(jù)縮放來(lái)統(tǒng)一,例如通過(guò)下式將特性的每個(gè)值都映射到0~1之間:
但是,這個(gè)方法不能處理異常值。 例如,如果有9個(gè)值介于0~1之間,一個(gè)離群值等于100,那么這9個(gè)較小的值將被映射到0~0.01之間。這種情況可以通過(guò)z分?jǐn)?shù)標(biāo)準(zhǔn)化來(lái)避免:
其中,μ和σ分別表示特征的均值和標(biāo)準(zhǔn)差。這可以在保持特征分布的情況下將值擴(kuò)大到接近0,但特征可能不完全在相同的規(guī)模上。
特征選擇是選擇原始數(shù)據(jù)集的子集作為模型輸入,這樣可以避免維數(shù)災(zāi)難,增強(qiáng)概化[1]。 在進(jìn)行特征選擇時(shí),需要數(shù)據(jù)中包含冗余或不相關(guān)的特征,以避免過(guò)多的信息丟失。 特征選擇可以通過(guò)幾種方式來(lái)完成:
a. 手動(dòng)選擇。用戶手動(dòng)決定是否刪除某個(gè)特性。 例如,文獻(xiàn)[2]。
b. 詳盡的搜索。對(duì)每個(gè)特征組合的子集進(jìn)行驗(yàn)證,尋找效果最優(yōu)的特征子集,因此需要大量的計(jì)算。
c. 嵌入方法。 在模型構(gòu)建過(guò)程中進(jìn)行特征選擇。Bolasso算法通過(guò)構(gòu)造一個(gè)線性模型[3],結(jié)合嶺回歸的L1懲罰和L2懲罰, 將許多回歸系數(shù)降為零。FeaLect算法基于回歸系數(shù)的組合分析對(duì)特征進(jìn)行評(píng)分和選擇[4]。
d. 包裝方法。 用每個(gè)子集訓(xùn)練預(yù)測(cè)模型,并對(duì)一個(gè)保留集進(jìn)行測(cè)試。 一個(gè)子集的得分由模型檢驗(yàn)的錯(cuò)誤率得到。 這種方式是計(jì)算密集型,通常只用于尋找特征的最佳子集。
e. 過(guò)濾方法。 可以使用互信息、Pearson相關(guān)系數(shù)和顯著性評(píng)分(如類間或類內(nèi)距離)等方法對(duì)特征子集進(jìn)行評(píng)分,這些方法可以對(duì)特征進(jìn)行排序,但不能產(chǎn)生最佳子集。
與特征選擇不同[5],特征提取即創(chuàng)建新的特征以促進(jìn)學(xué)習(xí), 被認(rèn)為是構(gòu)建模型的關(guān)鍵因素,可以由以下算法執(zhí)行。
主成分分析(PCA)。 主成分分析是一種被頻繁使用的線性降維方法,它改變了基本成分的數(shù)據(jù), 主成分實(shí)質(zhì)上是數(shù)據(jù)協(xié)方差矩陣的特征向量。 XIAO Y H等將PCA與自動(dòng)編碼器相結(jié)合,將高維特征壓縮輸入到卷積神經(jīng)網(wǎng)絡(luò)(CNN)中[6]。主成分分析包含以下幾種方式:
a. 概率主成分分析(PPCA),利用概率分布進(jìn)行降維;
b. 核主成分分析[6],先利用核函數(shù)將低維空間映射到高維空間,然后利用主成分分析進(jìn)行降維;
c. 獨(dú)立分量分析(ICA),不要求隱藏變量服從高斯分布。
線性判別分析(LDA)。 LDA是一種經(jīng)典的尺度縮減方法,它通過(guò)特征的線性組合來(lái)描述多類對(duì)象。 作為一種有監(jiān)督的學(xué)習(xí)算法,它在低維空間中搜索最能區(qū)分?jǐn)?shù)據(jù)類的向量,以低維投影數(shù)據(jù), 使類內(nèi)距離最小化, 類間距離最大化。ELKHADIR Z和MOHAMMED B提出了一種基于廣義均值的魯棒中值神經(jīng)網(wǎng)絡(luò)LDA, 在處理離群點(diǎn)效應(yīng)方面,該方法利用了散點(diǎn)矩陣內(nèi)和散點(diǎn)矩陣之間的廣義均值, 并證明了所提出的方法比其他許多LDA方法執(zhí)行得更好[7]。
自編碼器(AutoEncoder)。該方法使用隱藏層進(jìn)行無(wú)監(jiān)督學(xué)習(xí),通過(guò)非線性變換[8]映射高維特征,以產(chǎn)生盡可能接近原始輸入的表示[9]。正則化自動(dòng)編碼器(稀疏、降噪和縮?。┩ǔS糜趯W(xué)習(xí)表示。 周珮等將AutoEncoder和ResNet相結(jié)合,并利用自編碼器學(xué)習(xí)數(shù)據(jù)特征使實(shí)驗(yàn)結(jié)果達(dá)到較高的準(zhǔn)確率和較低的誤報(bào)率[10]。 HAN F X等利用自適應(yīng)遺傳算法的迭代方法對(duì)組合核稀疏自編碼器的目標(biāo)函數(shù)進(jìn)行了優(yōu)化,通過(guò)結(jié)合核的稀疏自編碼器獲得降維后的特征矩陣,解決了網(wǎng)絡(luò)攻擊的非線性特征和稀疏特征的降維問(wèn)題[11]。
根據(jù)網(wǎng)絡(luò)檢測(cè)策略,網(wǎng)絡(luò)攻擊檢測(cè)方法主要分為基于統(tǒng)計(jì)的方法和基于機(jī)器學(xué)習(xí)的方法。 筆者查閱文獻(xiàn)對(duì)各類方法進(jìn)行了分類(圖1)。
圖1 已知網(wǎng)絡(luò)攻擊檢測(cè)方法的分類
統(tǒng)計(jì)方法通過(guò)分析統(tǒng)計(jì)數(shù)據(jù)來(lái)理解知識(shí)和規(guī)則。 統(tǒng)計(jì)方法具有客觀性、準(zhǔn)確性及可測(cè)試性等特點(diǎn),已成為網(wǎng)絡(luò)攻擊檢測(cè)的重要方法。
2.1.1 協(xié)方差矩陣分析(CMA)
所有的協(xié)方差系數(shù)構(gòu)成協(xié)方差矩陣,然后通過(guò)矩陣分解,可以檢測(cè)到一些潛在的攻擊,協(xié)方差矩陣分析如圖2所示。
圖2 協(xié)方差矩陣分析
首先用原始網(wǎng)絡(luò)數(shù)據(jù)構(gòu)造協(xié)方差矩陣,然后通過(guò)矩陣分解提取數(shù)據(jù)規(guī)則。 針對(duì)云環(huán)境,ISMAIL M N等提出一種用于泛洪DoS攻擊檢測(cè)的協(xié)方差矩陣分析模型[12]。 該模型包括3個(gè)階段:第1階段是對(duì)正常交通模式進(jìn)行建模的基線分析;第2階段是基于協(xié)方差矩陣分析的網(wǎng)絡(luò)攻擊檢測(cè);第3階段是預(yù)防階段。
與上述研究不同的是,TAN Z Y等使用了DoS檢測(cè)方法, 提取網(wǎng)絡(luò)流量特征之間的幾何相關(guān)性,構(gòu)造協(xié)方差矩陣來(lái)檢測(cè)DoS攻擊[13]。 該方法的優(yōu)點(diǎn)是可以通過(guò)學(xué)習(xí)幾何特征有效地檢測(cè)未知DoS攻擊。
2.1.2 基于熵的方法
熵與隨機(jī)性有關(guān),當(dāng)網(wǎng)絡(luò)攻擊發(fā)生時(shí),被攻擊主機(jī)的IP地址出現(xiàn)的頻率會(huì)增加, 這就會(huì)導(dǎo)致熵值下降。 根據(jù)這種思想,提出了多種基于熵的網(wǎng)絡(luò)攻擊檢測(cè)方法。 SAHOO K S等在SDN環(huán)境下基于流量的特性,提出一種廣義熵度量(GE)來(lái)檢測(cè)控制層的低速DDoS攻擊[14]。王楠采用了一種基于多維熵的DDoS檢測(cè)方法[15]。江峰等采用了一種基于粗糙熵的離群點(diǎn)檢測(cè)方法,該方法依據(jù)粗糙集中的粗糙熵對(duì)離群點(diǎn)進(jìn)行檢測(cè)[16]。
2.1.3 隱馬爾科夫模型(HMM)
隱馬爾可夫模型是一種統(tǒng)計(jì)模型, 它由5個(gè)部分組成:
a. 初始概率(PI),表示初始時(shí)刻隱藏狀態(tài)出現(xiàn)的概率;
b. 狀態(tài)序列(H),隱藏狀態(tài)的序列;
c. 觀察序列(O),由隱藏狀態(tài)生成的可觀察序列;
d. 轉(zhuǎn)移矩陣(A),描述狀態(tài)轉(zhuǎn)移;
e. 發(fā)射矩陣(B),描述隱藏狀態(tài)和觀測(cè)狀態(tài)之間的概率分布。
隱馬爾可夫模型如圖3所示。
圖3 隱馬爾可夫模型
針對(duì)特殊問(wèn)題,研究人員提出了一些改進(jìn)的隱馬爾可夫模型。例如,為了檢測(cè)L-DDoS(低速率DDoS),WANG W T等提出一種改進(jìn)的隱馬爾可夫模型HMM-R, 該方法利用數(shù)據(jù)包的IP來(lái)計(jì)算Renyi熵, 再結(jié)合隱馬爾可夫模型來(lái)完成低速率DDoS檢測(cè)[17]。為了解決網(wǎng)絡(luò)環(huán)境中的攻擊檢測(cè)問(wèn)題,韓紅光和周改云提出一種基于概率模型的網(wǎng)絡(luò)攻擊檢測(cè)方法,該方法主要利用馬爾可夫鏈完成網(wǎng)絡(luò)環(huán)境行為概率建模,以此實(shí)現(xiàn)預(yù)測(cè)和識(shí)別攻擊行為[18]。
2.2.1 K最近鄰(KNN)算法
K最近鄰是一種典型的聚類方法, 在網(wǎng)絡(luò)攻擊檢測(cè)中得到了廣泛的應(yīng)用。 例如,為了實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測(cè)的實(shí)時(shí)性和精確性,付子爔等將支持向量機(jī)和KNN進(jìn)行組合, 提出Il-SVM-KNN分類器,其數(shù)據(jù)結(jié)構(gòu)使用平衡k維樹(shù),減少了訓(xùn)練和測(cè)試時(shí)間[19]。 ZHU L等提出利用KNN對(duì)軟件定義網(wǎng)絡(luò)(SDN)進(jìn)行隱私保護(hù)的Predis系統(tǒng)[20]。 具體來(lái)說(shuō),Predis首先使用擾動(dòng)加密保護(hù)數(shù)據(jù)的隱私性,然后使用KNN對(duì)加密數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)攻擊事件的聚類。 該方法既保護(hù)了網(wǎng)絡(luò)安全,又保護(hù)了用戶隱私。
2.2.2 混合聚類算法
為了提高檢測(cè)效率,一些研究者提出了混合聚類的網(wǎng)絡(luò)攻擊檢測(cè)方法。 王文蔚等將熵理論與支持向量機(jī)、K-means相結(jié)合來(lái)檢測(cè)SDN網(wǎng)絡(luò)中的DDoS攻擊[21]。為了進(jìn)一步提高網(wǎng)絡(luò)異常檢測(cè)的準(zhǔn)確率, 徐雪麗等提出一種基于CNN和SVM的網(wǎng)絡(luò)報(bào)文網(wǎng)絡(luò)攻擊檢測(cè)方法[22]。 劉國(guó)強(qiáng)提出一個(gè)將深度置信網(wǎng)絡(luò)與SVM結(jié)合起來(lái)的網(wǎng)絡(luò)攻擊檢測(cè)模型[23]。
針對(duì)不同領(lǐng)域中的網(wǎng)絡(luò)攻擊檢測(cè),混合聚類算法也表現(xiàn)較好。 例如,陳萬(wàn)志等針對(duì)工業(yè)控制系統(tǒng)單次檢測(cè)的傳統(tǒng)算法對(duì)不同類型攻擊的檢測(cè) 率 和 速 度 較 差 的 問(wèn) 題[24],建 立 了SVM 和Kmeans++檢測(cè)模型,并集成了輔助工具。
2.2.3 Boosting算法
Boosting作為一種集成學(xué)習(xí)算法,其強(qiáng)分類器F(x)由多個(gè)弱分類器fi(x)組合而成,這些弱分類器之間存在依賴關(guān)系。 Boosting算法包括Adaboost算法、GBDT算法及XGBoost算法等。
Boosting算法在網(wǎng)絡(luò)攻擊檢測(cè)中得到了廣泛的應(yīng)用, 它比傳統(tǒng)的檢測(cè)方法更加智能和準(zhǔn)確。周杰英等提出一種基于隨機(jī)森林模型和GBDT模型的RF-GBDT網(wǎng)絡(luò)攻擊檢測(cè)模型[25],該模型分為函數(shù)的選擇、函數(shù)的轉(zhuǎn)換和分類器3個(gè)部分。 將該模型應(yīng)用于現(xiàn)有的數(shù)據(jù)集,并將它與同一領(lǐng)域的其他3種算法進(jìn)行比較, 有較高的準(zhǔn)確率和較低的誤報(bào)率。
在物聯(lián)網(wǎng)環(huán)境中,數(shù)據(jù)來(lái)源多、特征多且數(shù)據(jù)量大,導(dǎo)致特征和數(shù)據(jù)量分布不均勻,影響檢測(cè)結(jié)果。 為了提高網(wǎng)絡(luò)攻擊檢測(cè)的準(zhǔn)確性,喬楠等提出一種兩階段網(wǎng)絡(luò)攻擊檢測(cè)模型,該模型通過(guò)對(duì)特征進(jìn)行分類和選擇,減少了各種特征給系統(tǒng)帶來(lái)的額外開(kāi)銷[26]。 通過(guò)在改進(jìn)的隨機(jī)森林中引入權(quán)重優(yōu)化,對(duì)密集和稀疏數(shù)據(jù)的權(quán)重進(jìn)行優(yōu)化,提高了分類精度,有效降低了數(shù)據(jù)分布不平衡導(dǎo)致的精度降低問(wèn)題。
為了更有效地檢測(cè)網(wǎng)絡(luò)攻擊,ZHOU Y等提出一種基于改進(jìn)的曲線下面積自適應(yīng)增強(qiáng)(MAdaBoost-A)算法的集成系統(tǒng),利用粒子群優(yōu)化等多種策略, 將多個(gè)基于M-Adaboost的分類器組合成一個(gè)整體[27]。
由于當(dāng)前網(wǎng)絡(luò)攻擊檢測(cè)系統(tǒng)面對(duì)的是海量流量,因此誤報(bào)警率較高,同時(shí)由于模型泛化能力低,若只采用一種機(jī)器學(xué)習(xí)算法不能很好地進(jìn)行多種攻擊類型的檢測(cè)。 針對(duì)上述問(wèn)題,池亞平等提出一種基于支持向量和Adaboost算法的網(wǎng)絡(luò)攻擊檢測(cè)系統(tǒng)[28]。在Snort環(huán)境下,采用PCA方法減小采集到的流量特征的維數(shù), 最后采用SVMAdaboost算法對(duì)流量進(jìn)行分類。
物聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致了一系列安全和隱私問(wèn)題。 現(xiàn)有的網(wǎng)絡(luò)攻擊檢測(cè)技術(shù)雖然能夠識(shí)別異常流量, 但大多集中在封閉的檢測(cè)集合上,對(duì)于真實(shí)的開(kāi)放網(wǎng)絡(luò)環(huán)境, 當(dāng)發(fā)生未知的攻擊時(shí),現(xiàn)有的檢測(cè)系統(tǒng)無(wú)法正確識(shí)別,這將嚴(yán)重威脅網(wǎng)絡(luò)安全。
ZHANG Y等為了解決這一問(wèn)題,研究了將極值理論(EVT)應(yīng)用于未知網(wǎng)絡(luò)攻擊檢測(cè)系統(tǒng),提出一種基于開(kāi)放集識(shí)別的網(wǎng)絡(luò)攻擊檢測(cè)方法[29]。該方法通過(guò)將已知類的后識(shí)別激活量擬合到威布爾分布上,建立Open-CNN模型,在倒數(shù)第2級(jí)重新計(jì)算每個(gè)激活量,然后根據(jù)已知類的激活分?jǐn)?shù)估計(jì)出未知類的偽概率,實(shí)現(xiàn)對(duì)未知攻擊檢測(cè)的目的。 對(duì)不同類型和特征分布的多個(gè)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)結(jié)果證明, 該方法具有較高的分類準(zhǔn)確率,同時(shí)證明了該方法的有效性和魯棒性。
在現(xiàn)實(shí)場(chǎng)景中,數(shù)據(jù)往往是不充足的,這將會(huì)導(dǎo)致模型預(yù)測(cè)和真實(shí)數(shù)據(jù)之間產(chǎn)生各種偏差。因此,針對(duì)這類問(wèn)題,LIU A等提出了一種新的基于嵌入空間內(nèi)類別生成的未知攻擊檢測(cè)方法[30],即SFE-GACN,該文獻(xiàn)首先提出用會(huì)話特征嵌 入(Session Feature-ture Embedding,SFE)來(lái) 總結(jié)網(wǎng)絡(luò)流量基本粒度的背景,將不足的數(shù)據(jù)引入到預(yù)先訓(xùn)練好的嵌入空間中,這樣就實(shí)現(xiàn)了在少量數(shù)據(jù)情況下初步擴(kuò)展信息的目標(biāo)。 其次,進(jìn)一步提出了生成式對(duì)抗合作網(wǎng)絡(luò)(Generative Adversarial Cooperative Network,GACN), 通過(guò)監(jiān)督生成的樣本避免落入相似的類別,從而使樣本能夠生成內(nèi)部類別。
對(duì)網(wǎng)絡(luò)攻擊檢測(cè)在網(wǎng)絡(luò)安全中的研究工作進(jìn)行了全面的概述和分析。 現(xiàn)有情況表明,在不同的目標(biāo)網(wǎng)絡(luò)下,網(wǎng)絡(luò)異常檢測(cè)的研究是不平衡的。 在信息中心網(wǎng)絡(luò)(ICN)領(lǐng)域,由于工業(yè)網(wǎng)絡(luò)數(shù)據(jù)的敏感性和保密性,研究人員往往不公開(kāi)他們的數(shù)據(jù)集。 現(xiàn)有數(shù)據(jù)集的缺乏限制了ICN領(lǐng)域的網(wǎng)絡(luò)安全研究。 數(shù)據(jù)集的缺乏也是限制SDN領(lǐng)域研究的一個(gè)關(guān)鍵因素。 在進(jìn)行安全研究之前,研究者往往需要建立SDN網(wǎng)絡(luò)環(huán)境來(lái)模擬數(shù)據(jù)。 就目前所使用的網(wǎng)絡(luò)攻擊檢測(cè)技術(shù)而言,有監(jiān)督學(xué)習(xí)仍然是主流的方向。 然而,這些研究需要建立在已經(jīng)標(biāo)記的數(shù)據(jù)之上。 在實(shí)際應(yīng)用時(shí),所獲得的數(shù)據(jù)是未標(biāo)記的。 對(duì)數(shù)據(jù)進(jìn)行標(biāo)記是一項(xiàng)耗時(shí)且乏味的任務(wù)。 因此筆者認(rèn)為以后的研究方向應(yīng)為:
a. 無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)是網(wǎng)絡(luò)異常檢測(cè)的發(fā)展方向,網(wǎng)絡(luò)數(shù)據(jù)的自動(dòng)標(biāo)記也是一個(gè)值得深入研究的方向。
b. 對(duì)抗環(huán)境已被證明會(huì)影響基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)異常檢測(cè)算法。 因此,對(duì)抗環(huán)境下的抗擾動(dòng)異常檢測(cè)也有待更多的研究。
c. 現(xiàn)實(shí)中還有許多未知的攻擊未被發(fā)現(xiàn),所提到的基于未知攻擊的網(wǎng)絡(luò)攻擊檢測(cè)技術(shù)相對(duì)較少,這也是一個(gè)值得深入研究的方向。