摘 要:當(dāng)前NDP洪泛行為檢測研究主要集中于RA和NS洪泛行為的檢測,對于NDP協(xié)議中其他報(bào)文洪泛行為的檢測能力不足。此外,傳統(tǒng)閾值規(guī)則檢測方法存在動(dòng)態(tài)性差、準(zhǔn)確率低的問題,而基于人工智能的檢測方法大多只能進(jìn)行二分類檢測,缺乏多分類檢測能力。為此,提出一種針對NDP協(xié)議洪泛行為的多分類檢測框架,并提出基于時(shí)間間隔特征的NDP協(xié)議洪泛行為檢測方法。通過流量收集、數(shù)據(jù)處理等過程構(gòu)建了首個(gè)用于NDP洪泛檢測的多分類數(shù)據(jù)集,并對比使用了5種機(jī)器學(xué)習(xí)和5種深度學(xué)習(xí)算法來訓(xùn)練檢測模型。實(shí)驗(yàn)結(jié)果表明,利用機(jī)器學(xué)習(xí)中XGBoost算法的檢測準(zhǔn)確率可達(dá)99.18%,深度學(xué)習(xí)中的Transformer算法的檢測準(zhǔn)確率可達(dá)98.45%。與現(xiàn)有檢測方法相比準(zhǔn)確率更高,同時(shí)該檢測框架可以檢測出NDP協(xié)議5種報(bào)文的9類洪泛行為,并可對洪泛行為進(jìn)行多分類劃分。
關(guān)鍵詞:IPv6; NDP; 洪泛檢測; DDoS; 機(jī)器學(xué)習(xí); 深度學(xué)習(xí)
中圖分類號:TP393.08 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)10-037-3141-08
doi:10.19734/j.issn.1001-3695.2023.12.0633
NDP-FD6: multi-classification detection framework forNDP flooding behaviors in IPv6 network
Xia Wenhao1a, Zhang Liancheng2, Guo Yi2, Zhang Hongtao1b, Lin Bin1a
(1.a.School of Cyber Science & Engineering, b.Network Management Center, Zhengzhou University, Zhengzhou 450001, China; 2.College of Cyberspace Security, Information Engineering University, Zhengzhou 450002, China)
Abstract:Current researches on NDP flooding behavior detection mainly focus on detecting RA flooding and NS flooding behaviors, and there is insufficient flooding detection for other messages of the NDP protocol. Moreover, traditional threshold rule detection methods suffer from poor dynamics and low accuracy, while most of the AI-based detection methods can only perform binary classification detection, and there are still challenges in performing multi-classification detection. In short, there is a lack of corresponding research in multi-classification flooding detection of all messages of NDP protocol. Therefore, this paper proposed a multi-classification detection framework for NDP protocol flooding behaviors, and proposed a flooding behavior detection method for NDP protocol based on time interval characteristics. The framework constructed the first multi-classification dataset for NDP flooding detection through the processes of traffic collection and data processing, it compared and used 5 machine learning and 5 deep learning algorithms to train the detection model. The experimental results show that the detection accuracy of the XGBOOST algorithm in machine learning can reach 99.18%, and the detection accuracy of the Transformer algorithm in deep learning can reach 98.45%. Compared with the existing detection methods, the accuracy is higher. Meanwhile, the detection framework can detect 9 types of flooding behaviors for all 5 types of messages of NDP protocol and classify the flooding behaviors into multiple types.
Key words:IPv6; NDP; flooding detection; DDoS; machine learning; deep learning
0 引言
鄰居發(fā)現(xiàn)協(xié)議(neighbor discovery protocol,NDP)是IPv6協(xié)議體系的關(guān)鍵組成部分,描述了IPv6網(wǎng)絡(luò)的基本通信機(jī)制,結(jié)合了IPv4中的地址解析和重定向功能,并進(jìn)一步增加了鄰居不可達(dá)檢測(neighbor unreachability detection,NUD)和重復(fù)地址檢測(duplicate address detection,DAD)等新功能,從而顯著提高了IPv6網(wǎng)絡(luò)環(huán)境的通信效率。表1顯示了NDP協(xié)議的5種報(bào)文信息和功能[1]。
盡管NDP協(xié)議為IPv6網(wǎng)絡(luò)帶來了諸多優(yōu)勢,但它也存在一些安全漏洞。在默認(rèn)情況下,NDP協(xié)議缺乏對報(bào)文的身份驗(yàn)證機(jī)制,這意味著報(bào)文發(fā)送者無須提供身份驗(yàn)證信息,為威脅者提供了進(jìn)行偽造和欺騙的機(jī)會(huì),中間人(man-in-the-middle,MITM)和拒絕服務(wù)(denial-of-service,DoS)等安全威脅在NDP中較為常見[2,3]。洪泛威脅具有極大的破壞性且難以防范,會(huì)在短時(shí)間內(nèi)向目標(biāo)設(shè)備(如路由器、主機(jī))發(fā)送大量虛假或無用報(bào)文,使目標(biāo)節(jié)點(diǎn)無法為正常用戶提供服務(wù)。IPv4網(wǎng)絡(luò)洪泛威脅主要有傳輸控制協(xié)議(transmission control protocol,TCP)、同步(synchronize,SYN)泛洪、用戶數(shù)據(jù)報(bào)協(xié)議(user datagram protocol,UDP)泛洪和因特網(wǎng)控制報(bào)文協(xié)議(Internet control message protocol,ICMP)泛洪等,而在IPv6網(wǎng)絡(luò)環(huán)境中也同樣存在洪泛威脅,如圖1所示。
本文關(guān)注于NDP洪泛威脅,它們通常發(fā)送大量NDP懇求或通告報(bào)文,偽造源地址或使用隨機(jī)源地址,使目標(biāo)網(wǎng)絡(luò)中的設(shè)備無法準(zhǔn)確地識別和處理這些報(bào)文。這種威脅方式使目標(biāo)網(wǎng)絡(luò)中的設(shè)備不斷地進(jìn)行NDP報(bào)文處理,消耗大量的中央處理器(central processing unit,CPU)、內(nèi)存和帶寬資源,導(dǎo)致網(wǎng)絡(luò)性能下降甚至癱瘓[4,5]。
現(xiàn)有針對NDP洪泛威脅的檢測方法主要有閾值規(guī)則方法和人工智能方法。其中,閾值規(guī)則方法主要涉及基于流的表示、動(dòng)態(tài)閾值、基于熵的計(jì)算等方法,而人工智能方法則主要是先利用信息增益比(information gain ratio,IGR)、主成分分析(principal component analysis,PCA)等方法進(jìn)行特征選擇,然后選擇機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,最后根據(jù)模型檢測異常流量。然而,閾值規(guī)則方法缺少動(dòng)態(tài)性,由于洪泛威脅方法的多樣性以及正常流量與惡意流量間閾值設(shè)定的難度,要想為洪泛檢測設(shè)定一套絕對可靠的規(guī)則是極其困難的。而機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法則大多關(guān)注于RA報(bào)文、NS報(bào)文洪泛行為的檢測,缺少對NDP中其他報(bào)文洪泛行為的檢測能力,此外只能進(jìn)行二分類檢測,無法進(jìn)行多分類檢測[6,7]。
針對上述問題,本文提出一種NDP協(xié)議洪泛行為的多分類檢測框架,集成了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,可以對NDP五種報(bào)文的9類洪泛行為進(jìn)行檢測。該框架包含四個(gè)階段:首先是流量收集階段,從復(fù)雜的網(wǎng)絡(luò)環(huán)境中收集所需的NDP流量;然后是數(shù)據(jù)處理階段,該階段是重要和關(guān)鍵的一步,需要對NDP原始流量處理,分析提取可用字段,并且需要對數(shù)據(jù)集進(jìn)行多分類標(biāo)簽標(biāo)記。此外,在本文中通過對數(shù)據(jù)集分析,創(chuàng)新性提出關(guān)鍵特征——數(shù)據(jù)包時(shí)間間隔特征;接著是模型訓(xùn)練階段,將上一階段得到的數(shù)據(jù)集,選擇合適的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,進(jìn)行訓(xùn)練得到檢測模型;最后是洪泛檢測階段,將檢測模型部署在網(wǎng)絡(luò)中,來檢測NDP洪泛行為。
1 背景知識
1.1 NDP洪泛威脅
根據(jù)洪泛報(bào)文的不同,NDP洪泛威脅可分為RS洪泛、RA洪泛、NS洪泛、NA洪泛和重定向洪泛五種。
1.1.1 RS洪泛
RS報(bào)文用于主機(jī)在IPv6網(wǎng)絡(luò)中主動(dòng)發(fā)現(xiàn)路由器,以獲取路由器的相關(guān)信息[8]。在RS報(bào)文洪泛中,會(huì)發(fā)送大量的偽造RS報(bào)文,通常使用隨機(jī)化源IPv6地址,以使目標(biāo)網(wǎng)絡(luò)中的路由器無法準(zhǔn)確識別和處理這些報(bào)文。這種洪泛威脅使得目標(biāo)網(wǎng)絡(luò)中的路由器不斷進(jìn)行RS報(bào)文的處理和響應(yīng),消耗大量的CPU、內(nèi)存和帶寬資源,導(dǎo)致網(wǎng)絡(luò)性能下降甚至癱瘓。
1.1.2 RA洪泛
RA報(bào)文用于IPv6網(wǎng)絡(luò)中的路由器發(fā)現(xiàn)和地址配置,路由器通過發(fā)送RA報(bào)文來通告網(wǎng)絡(luò)中的設(shè)備有關(guān)網(wǎng)絡(luò)配置和路由信息[9]。然而,接收者并不會(huì)驗(yàn)證所收到的RA報(bào)文,收到偽造RA報(bào)文的節(jié)點(diǎn)會(huì)盲目地根據(jù)RA報(bào)文更新自己的配置與參數(shù)。惡意節(jié)點(diǎn)可以傳播虛假的地址前綴信息,以重新路由合法流量,阻止受害者訪問所需的網(wǎng)絡(luò)。RA洪泛威脅如圖2所示,該洪泛威脅可以用不同的網(wǎng)絡(luò)前綴洪泛本地網(wǎng)絡(luò),并讓主機(jī)基于宣布的前綴更新網(wǎng)絡(luò)參數(shù),從而導(dǎo)致系統(tǒng)不可用和無響應(yīng)。
1.1.3 NS洪泛
NS報(bào)文用于IPv6網(wǎng)絡(luò)中的地址解析、重復(fù)地址檢測等功能,設(shè)備通過發(fā)送NS報(bào)文來查詢目標(biāo)設(shè)備的媒體訪問控制(media access control,MAC)地址等信息[10]。在NS報(bào)文洪泛中,會(huì)發(fā)送大量的偽造NS報(bào)文,這些報(bào)文通常使用隨機(jī)化源IPv6地址。這種洪泛威脅旨在淹沒目標(biāo)網(wǎng)絡(luò)中的主機(jī),使其不斷處理和響應(yīng)這些偽造的NS報(bào)文,受害者節(jié)點(diǎn)被迫在鄰居緩存表中創(chuàng)建虛假的IPv6地址和對應(yīng)的MAC地址表項(xiàng)。
1.1.4 NA洪泛
NA報(bào)文同樣用于IPv6網(wǎng)絡(luò)中的地址解析、重復(fù)地址檢測等功能,設(shè)備通過發(fā)送NA報(bào)文來回應(yīng)鄰居的查詢請求[11]。這種泛洪行為將大量具有偽造源地址的NA報(bào)文發(fā)送給受害者主機(jī)。受害者主機(jī)將接收這些數(shù)據(jù)包并不斷更新其鄰居緩存表,消耗大量的CPU資源。此外,重復(fù)地址檢測過程中可以不斷發(fā)送大量偽造的NA報(bào)文,回復(fù)正在進(jìn)行重復(fù)地址檢測(duplicate address detection,DAD)驗(yàn)證的NS報(bào)文,使受害者節(jié)點(diǎn)錯(cuò)誤地認(rèn)為該地址已被占用,從而無法使用該地址。
1.1.5 重定向洪泛
重定向報(bào)文用于通知目標(biāo)設(shè)備更優(yōu)的路由信息,以便進(jìn)行數(shù)據(jù)包轉(zhuǎn)發(fā)[12]。這種洪泛行為通過發(fā)送大量的虛假重定向報(bào)文來干擾網(wǎng)絡(luò)中的節(jié)點(diǎn),造成網(wǎng)絡(luò)擁塞和服務(wù)中斷。節(jié)點(diǎn)接收到重定向報(bào)文時(shí),它會(huì)更新其本地路由表,將原本的下一跳地址替換為重定向報(bào)文中指定的新下一跳地址。通過發(fā)送大量的虛假重定向報(bào)文,目的是讓受害節(jié)點(diǎn)頻繁地更新其路由表,從而導(dǎo)致網(wǎng)絡(luò)中的受害節(jié)點(diǎn)造成無法與目的節(jié)點(diǎn)進(jìn)行正常通信。
1.2 分類算法
本節(jié)介紹本文測試對比所用10種分類算法中典型的4種。其中,隨機(jī)森林是一種經(jīng)典分類算法,XGBoost則是在隨機(jī)森林算法思想上更進(jìn)一步地改進(jìn)。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)和Transformer都屬于深度學(xué)習(xí)算法的范疇。其中,ANN是起源較早的一種算法,而Transformer則是最近備受矚目的算法[13]。
1.2.1 隨機(jī)森林算法
隨機(jī)森林是一種基于集成學(xué)習(xí)的機(jī)器學(xué)習(xí)算法,通過構(gòu)建多個(gè)決策樹對數(shù)據(jù)進(jìn)行全面分析。隨機(jī)森林的名稱源于其構(gòu)建過程中的隨機(jī)性。在構(gòu)建每個(gè)決策樹時(shí),算法隨機(jī)選擇部分特征分割數(shù)據(jù),增加模型多樣性,降低過擬合風(fēng)險(xiǎn)。隨機(jī)森林能處理高維度數(shù)據(jù),保持良好性能。此外,隨機(jī)森林能處理缺失值和異常值,不影響模型構(gòu)建。隨機(jī)森林的預(yù)測結(jié)果相對穩(wěn)定,因?yàn)橛啥鄠€(gè)決策樹組成,每個(gè)決策樹的預(yù)測結(jié)果都會(huì)影響最終結(jié)果。
1.2.2 XGBoost算法
XGBoost是一種高效且具備諸多優(yōu)點(diǎn)的梯度增強(qiáng)算法,基于梯度提升決策樹,通過梯度信息優(yōu)化目標(biāo)函數(shù),構(gòu)建出高效、可擴(kuò)展且并行化的機(jī)器學(xué)習(xí)模型。它具備出色的優(yōu)化效果、可擴(kuò)展性、靈活的目標(biāo)函數(shù)、正則化等功能[14]。在構(gòu)建增強(qiáng)模型時(shí),XGBoost采用梯度提升決策樹方法,每步擬合一個(gè)決策樹模型,并將前一步的殘差作為新的輸入特征。訓(xùn)練過程中,XGBoost計(jì)算樣本權(quán)重,以關(guān)注被錯(cuò)誤分類或未充分考慮的樣本。同時(shí),它提供靈活的目標(biāo)函數(shù)和損失函數(shù)接口,適應(yīng)各種監(jiān)督學(xué)習(xí)任務(wù)。
1.2.3 ANN算法
ANN,即人工神經(jīng)網(wǎng)絡(luò),是一種深度學(xué)習(xí)分類算法。它由多個(gè)神經(jīng)元組成,這些神經(jīng)元相互連接,形成類似于人腦神經(jīng)元網(wǎng)絡(luò)的系統(tǒng)。每個(gè)神經(jīng)元接收來自其他神經(jīng)元的信號,通過一個(gè)非線性輸入函數(shù)處理這些信號,并將處理過的信號傳遞給其他神經(jīng)元。這些連接稱為邊,它們具有可調(diào)整的權(quán)重,這些權(quán)重在學(xué)習(xí)過程中會(huì)進(jìn)行微調(diào)。權(quán)值的作用是調(diào)整信號強(qiáng)度,影響傳輸信號的強(qiáng)弱。
1.2.4 Transformer算法
Transformer是2017年由Vaswani等人首次提出的深度學(xué)習(xí)算法,其核心是自注意力機(jī)制[15]。這種機(jī)制讓模型在處理序列數(shù)據(jù)時(shí)能同時(shí)考慮所有位置,更好地捕捉上下文信息。這改變了傳統(tǒng)深度學(xué)習(xí)模型處理序列數(shù)據(jù)的思維方式,使Transformer在處理自然語言數(shù)據(jù)時(shí)有強(qiáng)大能力,更好地理解語言的內(nèi)在關(guān)系和語義信息。此外,Transformer還廣泛應(yīng)用于計(jì)算機(jī)視覺、推薦系統(tǒng)和其他序列數(shù)據(jù)建模任務(wù),展示其多領(lǐng)域適用性。
2 相關(guān)工作
在設(shè)計(jì)之初,IPv6就充分考慮了安全問題,將IPSec(Internet protocol security)集成為其核心協(xié)議的一部分。IPSec作為一項(xiàng)安全服務(wù),提供了加密、認(rèn)證和完整性保護(hù)等功能,旨在確保IPv6數(shù)據(jù)包在傳輸過程中的安全性。此外,為了提高NDP協(xié)議的安全性,引入了安全鄰居發(fā)現(xiàn)(secure neighbor discovery,SEND)機(jī)制,該機(jī)制保護(hù)鄰居節(jié)點(diǎn)的發(fā)現(xiàn)、地址解析和重定向等過程[7]。
針對NDP洪泛威脅檢測,現(xiàn)有研究可分為閾值規(guī)則方法和人工智能方法兩大類。前者通過定義檢測閾值或規(guī)則來將正常流量和異常流量分開,而后者則利用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)等,通過對數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,生成異常流量檢測模型。
2.1 IPSec和SEND
IPv6擴(kuò)展報(bào)頭的出現(xiàn)為其提供了對認(rèn)證及機(jī)密性的擴(kuò)展能力。IPSec最初作為IPv6的基本協(xié)議套件,旨在保護(hù)IP通信的安全性和隱私。在保護(hù)NDP協(xié)議方面,IPSec使用加密算法對NDP報(bào)文進(jìn)行加密,確保其機(jī)密性,防止敏感信息被竊聽。同時(shí),IPSec通過完整性校驗(yàn)算法計(jì)算和驗(yàn)證NDP報(bào)文,確保其傳輸過程中未被竄改。最后,IPSec利用數(shù)字簽名機(jī)制(如RSA)對NDP報(bào)文進(jìn)行簽名和驗(yàn)證,確保真實(shí)性和發(fā)送者身份。
SEND是IPv6中的一種安全增強(qiáng)的鄰居發(fā)現(xiàn)協(xié)議,旨在保護(hù)NDP協(xié)議的安全[8]。SEND解決了原始IPv6規(guī)范中存在的安全漏洞和威脅風(fēng)險(xiǎn)。SEND引入了鄰居驗(yàn)證機(jī)制,節(jié)點(diǎn)通過發(fā)送驗(yàn)證請求和應(yīng)答報(bào)文來驗(yàn)證鄰居節(jié)點(diǎn)的真實(shí)性。同時(shí),使用時(shí)間戳和序列號來防范重放威脅,節(jié)點(diǎn)驗(yàn)證報(bào)文的時(shí)間戳和序列號,以確保報(bào)文的順序和合理的時(shí)間間隔。最后,SEND支持對NDP報(bào)文進(jìn)行完整性校驗(yàn)和加密,使用數(shù)字簽名和公鑰驗(yàn)證來保護(hù)報(bào)文的完整性和真實(shí)性,并使用對稱密鑰加密算法來確保報(bào)文的機(jī)密性。
2.2 閾值規(guī)則方法
除了IPSec和SEND機(jī)制,對于洪泛威脅檢測,閾值規(guī)則是一種廣泛應(yīng)用的檢測方法,該方法通常定義一組識別正常和異常流量的檢測規(guī)則。
文獻(xiàn)[9]介紹了一種用于檢測IPv6網(wǎng)絡(luò)中RA洪泛的混合熵和自適應(yīng)閾值方法。通過將熵機(jī)制和自適應(yīng)閾值相結(jié)合,提供一種有效的RA洪泛檢測方法,其自適應(yīng)閾值可以根據(jù)網(wǎng)絡(luò)流量規(guī)模動(dòng)態(tài)地調(diào)整檢測閾值大小和選擇正確的熵特征,能夠檢測各種RA洪泛的情況,包括使用了規(guī)避技術(shù),根據(jù)實(shí)驗(yàn)結(jié)果,該技術(shù)的檢測準(zhǔn)確率達(dá)到了98%。然而,該檢測方法只能檢測RA洪泛,對于其他類型的NDP洪泛威脅無法有效檢測。此外,該方法只能適用于小規(guī)模的網(wǎng)絡(luò)流量。
在面對大規(guī)模網(wǎng)絡(luò)流量時(shí),文獻(xiàn)[10]提出了一種基于流量的方法來檢測NDP中的異常行為,通過收集網(wǎng)絡(luò)流量數(shù)據(jù),并利用熵和流量屬性來檢測NDP流量中RA和NS洪泛。該方法使用流量表示而不是基于數(shù)據(jù)包的表示來提高檢測的效率,并利用熵和流量屬性來計(jì)算NDP流量的異常程度,從而能夠準(zhǔn)確地檢測出RA和NS洪泛行為。同樣,該方法只能檢測RA和NS洪泛行為,對于其他類型的NDP洪泛行為可能不適用。此外,由于該方法仍然需要處理大量的網(wǎng)絡(luò)流量數(shù)據(jù),對于高速網(wǎng)絡(luò)可能存在效率問題。
文獻(xiàn)[11]提出了一種基于流量的方法來檢測NDP中的異常行為,同樣是針對NDP協(xié)議中的RA和NS洪泛行為進(jìn)行檢測,如圖3所示。與文獻(xiàn)[10]不同的是,文獻(xiàn)[11]提出了基于熵的算法、自適應(yīng)閾值算法和基于規(guī)則的技術(shù)來檢測NDP中的異常行為。其創(chuàng)新在于采用了流量表示和基于熵的算法來檢測異常行為,以適應(yīng)高速網(wǎng)絡(luò)。同時(shí),自適應(yīng)閾值算法可以根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整閾值,提高檢測準(zhǔn)確性。此外,基于規(guī)則的技術(shù)可以根據(jù)特定規(guī)則對網(wǎng)絡(luò)流量進(jìn)行分類,進(jìn)一步提高檢測效果。
2.3 人工智能方法
相比傳統(tǒng)的閾值規(guī)則方法[12],人工智能方法在檢測準(zhǔn)確率上有著明顯提高,檢測速度也表現(xiàn)出色。此外,人工智能方法還具有更高的靈活性和適應(yīng)性,并且,隨著人工智能的發(fā)展,其應(yīng)用前景廣闊,具有巨大的潛力和發(fā)展空間。
文獻(xiàn)[13]最早提出用人工智能方法解決IPv6鄰居發(fā)現(xiàn)協(xié)議洪泛威脅,旨在研究使用機(jī)器學(xué)習(xí)機(jī)制來檢測NDP洪泛威脅。使用機(jī)器學(xué)習(xí)的優(yōu)勢在于可以不依賴威脅簽名,而是學(xué)習(xí)威脅屬性的更廣泛定義。通過使用機(jī)器學(xué)習(xí)中經(jīng)典的K最近鄰(K-nearest neighbor,KNN)、C4.5、支持向量機(jī)(support vector machine,SVM)等算法訓(xùn)練檢測模型。然而,該研究的檢測對象只有RA、NS報(bào)文,并且檢測效果并不理想。
文獻(xiàn)[14]提出一種基于機(jī)器學(xué)習(xí)方法來檢測IPv6網(wǎng)絡(luò)中RA洪泛行為,如圖4所示。相比于上一方法,該方法首先利用信息增益比和主成分分析進(jìn)行特征選擇,然后利用支持向量機(jī)構(gòu)建預(yù)測模型,以檢測輸入流量的異常情況。然而,該文獻(xiàn)沒有對所提出方法與其他方法進(jìn)行比較,缺乏與現(xiàn)有方法的性能對比。此外,該方法只能檢測RA報(bào)文洪泛行為,缺乏對NDP協(xié)議中其他報(bào)文洪泛行為的檢測能力。
相比與機(jī)器學(xué)習(xí)方法,文獻(xiàn)[15]使用了深度學(xué)習(xí)進(jìn)行IPv6協(xié)議異常入侵檢測的研究,提出了一種基于反向傳播神經(jīng)網(wǎng)絡(luò)的ICMPv6洪泛威脅檢測框架,并通過監(jiān)督學(xué)習(xí)算法進(jìn)行訓(xùn)練。同樣,該方法只能檢測NDP協(xié)議中的RA報(bào)文。此外,該方法缺乏對實(shí)際應(yīng)用場景的討論和驗(yàn)證,需要更多的實(shí)驗(yàn)和實(shí)際案例來驗(yàn)證該方法的有效性。
文獻(xiàn)[16]同樣提出了一種基于深度學(xué)習(xí)的方法,用于檢測ICMPv6分布式拒絕服務(wù)(distributed denial of service,DDoS)洪泛威脅,如圖5所示。該論文首先使用集成特征選擇技術(shù)來選擇對檢測洪泛威脅有重要貢獻(xiàn)的流量特征,接著對基于深度學(xué)習(xí)的分類器進(jìn)行了性能比較分析,以確定最佳的深度學(xué)習(xí)模型,最后將最佳的深度學(xué)習(xí)分類器與基于選定特征的集成特征選擇相結(jié)合。然而,該檢測方法只能檢測出RA、NS、NA報(bào)文,不能檢測出NDP協(xié)議其他報(bào)文洪泛行為。此外,該框架采用的是二分類檢測,只能將報(bào)文分為正常報(bào)文和洪泛報(bào)文兩類。
作為IPv6洪泛威脅檢測領(lǐng)域中的最新研究,文獻(xiàn)[17]提出了一種基于ICMPv6協(xié)議的DDoS洪泛威脅檢測框架,該框架使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行分類,并通過實(shí)驗(yàn)評估了不同分類算法的性能。通過與其他機(jī)器學(xué)習(xí)方法相比,該框架具有更高的分類精度和更低的誤報(bào)率。然而,該檢測框架也存在一些局限性,如它只能檢測出RA報(bào)文洪泛行為以及一些其他ICMPv6報(bào)文洪泛行為,而不能檢測NDP協(xié)議其他報(bào)文洪泛行為。同樣,該框架采用的是二分類檢測方法,只能將報(bào)文分為正常報(bào)文和洪泛報(bào)文兩類。
2.4 現(xiàn)有方法對比分析
盡管IPSec提高了IPv6及NDP安全性,但I(xiàn)PSec的配置需要考慮加密算法、密鑰管理、身份驗(yàn)證和安全策略等多個(gè)方面,因而復(fù)雜性高。同時(shí),IPSec對數(shù)據(jù)包進(jìn)行加密和解密的過程會(huì)引入一定的性能開銷。此外,SEND在保護(hù)NDP報(bào)文方面也存在一定的局限性:首先,加密生成地址(cryptographically gene-rated address,CGA)無法識別合法節(jié)點(diǎn)的特征,因此,威脅者可以通過修改CGA參數(shù)來影響目標(biāo)節(jié)點(diǎn)性能;此外,使用SEND會(huì)增加進(jìn)程開銷,導(dǎo)致較長的處理時(shí)間,因此,SEND不適合在IPv6鏈路本地網(wǎng)絡(luò)中大規(guī)模部署。現(xiàn)有方法對比分析如表2所示。
對比閾值規(guī)則和人工智能兩類方法,基于閾值規(guī)則的檢測方法是將傳入的網(wǎng)絡(luò)流量與一組預(yù)定義的規(guī)則進(jìn)行比較,這些規(guī)則可以將正常流量與洪泛流量分開。但是由于洪泛威脅方案的多樣性以及定義正常流量和惡意流量之間閾值的難度,所以為洪泛檢測設(shè)置萬無一失的規(guī)則極其困難。
在數(shù)據(jù)規(guī)模較小的情況下,人工智能模型在面對泛洪威脅檢測時(shí)的準(zhǔn)確率,相對于傳統(tǒng)檢測方法略有優(yōu)勢,但在其他方面并沒有表現(xiàn)出其檢測優(yōu)勢,檢測性能并不突出。但是隨著系統(tǒng)擴(kuò)展到更大的數(shù)據(jù)集,研究人員發(fā)現(xiàn)深度學(xué)習(xí)模型最終變得比其他已建立的洪泛檢測工具更準(zhǔn)確、錯(cuò)誤更少,包括基于其他機(jī)器學(xué)習(xí)算法的工具,包括支持向量機(jī)和決策樹。因此,基于人工智能的檢測研究是未來的趨勢[16]。
然而,當(dāng)前的人工智能方法在進(jìn)行NDP協(xié)議洪泛威脅檢測時(shí)存在一些局限。首先,這些方法大多只能對NDP協(xié)議中的RA報(bào)文進(jìn)行檢測,而無法對NDP協(xié)議的全部報(bào)文類型進(jìn)行檢測。其次,目前的研究主要集中在二分類檢測,無論是只研究RA報(bào)文洪泛威脅或者是包含多種報(bào)文的ICMPv6協(xié)議洪泛威脅,均無法對洪泛行為進(jìn)行更為精細(xì)的分類[17]。
3 IPv6網(wǎng)絡(luò)NDP洪泛行為多分類檢測框架
為解決當(dāng)前NDP洪泛檢測研究中存在的問題,本文提出一種IPv6網(wǎng)絡(luò)NDP洪泛行為多分類檢測框架。該框架的主要目標(biāo)是能夠?qū)DP協(xié)議中全部的五種報(bào)文進(jìn)行準(zhǔn)確的多分類檢測,并克服現(xiàn)有研究中檢測不全面、分類不詳細(xì)等問題。
該檢測框架結(jié)構(gòu)包括流量收集、數(shù)據(jù)處理、模型訓(xùn)練和洪泛檢測四個(gè)階段,如圖6所示。
3.1 流量捕獲及NDP流量收集
本文的研究對象是NDP協(xié)議洪泛威脅,因此需要收集NDP流量,NDP協(xié)議包含了5種類型的報(bào)文,即ICMPv6報(bào)文類型133~137的報(bào)文。流量收集階段的目的就是從復(fù)雜的網(wǎng)絡(luò)環(huán)境中捕獲和過濾的實(shí)驗(yàn)所需的NDP流量,如圖7所示。
這一階段包含捕獲模塊和過濾模塊。首先,捕獲模塊會(huì)先捕獲目標(biāo)網(wǎng)絡(luò)的流量。通過使用網(wǎng)絡(luò)抓包工具,如tcpdump或Wireshark等來捕獲網(wǎng)絡(luò)流量,這些工具可以監(jiān)聽、收集網(wǎng)絡(luò)接口上的流量。其次,過濾模塊負(fù)責(zé)過濾掉IPv4流量,并收集IPv6流量中的NDP流量??梢允褂眠^濾器或正則表達(dá)式等工具,從捕獲的流量中過濾出IPv6流量,并從中提取NDP報(bào)文,并將其保存到一個(gè)數(shù)據(jù)集中,用于后續(xù)的數(shù)據(jù)處理、模型訓(xùn)練以及洪泛檢測。通過以上兩個(gè)模塊可以有效地捕獲和過濾出網(wǎng)絡(luò)流量中的NDP流量,為后續(xù)檢測提供數(shù)據(jù)基礎(chǔ)。
3.2 數(shù)據(jù)處理及時(shí)間間隔特征數(shù)據(jù)集構(gòu)建
該階段的主要目的是將前一階段所收集的NDP流量數(shù)據(jù)進(jìn)行處理,涉及到數(shù)據(jù)的清洗、預(yù)處理等步驟。在清洗階段,需要處理缺失值、刪除重復(fù)值、檢查異常值等,以便確保數(shù)據(jù)的質(zhì)量和可靠性。預(yù)處理階段則包括數(shù)據(jù)規(guī)范化、標(biāo)準(zhǔn)化、特征選擇等,并將數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)算法的格式,以便進(jìn)行訓(xùn)練和預(yù)測。
首先,解析原始NDP流量的數(shù)據(jù)包捕獲(packet capture,PCAP)文件,將數(shù)據(jù)包的內(nèi)容提取出來,包括目的MAC地址、目的IPv6地址、協(xié)議類型、報(bào)文類型、數(shù)據(jù)包長度等信息,并將提取出的特征信息存入到逗號分隔值(comma separated values,CSV)文件中。接著,進(jìn)行數(shù)據(jù)清洗,需要根據(jù)具體情況選擇不同的方法來處理缺失值。例如,對于缺失的數(shù)值型數(shù)據(jù),可以通過均值插補(bǔ)或中位數(shù)插補(bǔ)等方法來填充缺失值;對于缺失的分類數(shù)據(jù),則可以使用眾數(shù)插補(bǔ)或平均值插補(bǔ)等方法。同時(shí),還需要?jiǎng)h除重復(fù)值和檢查異常值,以確保數(shù)據(jù)的質(zhì)量和可靠性。
在預(yù)處理階段,需要對數(shù)據(jù)進(jìn)行規(guī)范化或標(biāo)準(zhǔn)化,以便將數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)算法的格式。例如,可以通過最小最大規(guī)范化將數(shù)據(jù)轉(zhuǎn)換為一個(gè)較小的范圍,或者通過標(biāo)準(zhǔn)化將數(shù)據(jù)的均值為0,標(biāo)準(zhǔn)差為1。此外,還需要進(jìn)行特征選擇,以便選擇與預(yù)測目標(biāo)相關(guān)的特征,并去除無關(guān)的特征。然而,除了可以直接從報(bào)文中提取的特性信息外,本文還有兩個(gè)特征:與上一個(gè)報(bào)文的時(shí)間間隔和與上一個(gè)報(bào)文的時(shí)間間隔,則需要經(jīng)過對數(shù)據(jù)進(jìn)行再次計(jì)算而獲得。
算法1 數(shù)據(jù)包時(shí)間間隔特征算法
輸入:data.csv。
輸出:data_interval.csv。
//計(jì)算Former Interval(與上一個(gè)數(shù)據(jù)包的時(shí)間間隔)
a)for i in range(len(data)) //遍歷數(shù)據(jù)集文件
b) if i>0
c) former_interval=(data[i]['Time']-data[i-1]['Time']).total_seconds()
//計(jì)算與上一個(gè)數(shù)據(jù)包的時(shí)間間隔特征值
d) data[i]['Former Interval'] = former_interval
e) else
f) data[i]['Former Interval'] = None
// 計(jì)算Latter Interval(與下一個(gè)數(shù)據(jù)包的時(shí)間間隔)
g) for i in range(len(data) - 1)
h) latter_interval=(data[i + 1]['Time'] - data[i]['Time']). total_seconds()
//計(jì)算與下一個(gè)數(shù)據(jù)包的時(shí)間間隔特征值
i) data[i]['Latter Interval'] = latter_interval
j) data[-1]['Latter Interval'] = None
算法1描述了數(shù)據(jù)包時(shí)間間隔特征的計(jì)算方法,輸入為已經(jīng)完成數(shù)據(jù)處理的含有時(shí)間戳的CSV數(shù)據(jù)集文件,該算法將通過計(jì)算相鄰兩個(gè)數(shù)據(jù)包時(shí)間戳差值為數(shù)據(jù)集新增兩個(gè)特征,分別是上一個(gè)報(bào)文發(fā)送時(shí)間和當(dāng)前報(bào)文發(fā)送時(shí)間的時(shí)間差以及當(dāng)前報(bào)文發(fā)送時(shí)間和下一個(gè)報(bào)文發(fā)送時(shí)間的時(shí)間差。
這兩個(gè)時(shí)間間隔特征是本文在NDP洪泛威脅檢測研究領(lǐng)域首次提出的。在傳統(tǒng)的NDP洪泛威脅檢測方法中,往往只考慮了報(bào)文發(fā)送時(shí)間,而忽略了不同報(bào)文之間的時(shí)間間隔信息。然而,在實(shí)際網(wǎng)絡(luò)環(huán)境中,威脅者往往會(huì)采用特定策略來避免被傳統(tǒng)方法檢測到。例如,威脅者可能會(huì)采用時(shí)間延遲方式,將威脅報(bào)文分批次發(fā)送,以避免被傳統(tǒng)方法檢測到。因此,考慮時(shí)間間隔特征對于提高NDP洪泛威脅檢測的準(zhǔn)確率具有重要的意義。本文提出的兩個(gè)時(shí)間間隔特征分別是上一個(gè)報(bào)文發(fā)送時(shí)間和當(dāng)前報(bào)文發(fā)送時(shí)間的時(shí)間差以及當(dāng)前報(bào)文發(fā)送時(shí)間和下一個(gè)報(bào)文發(fā)送時(shí)間的時(shí)間差。通過計(jì)算這兩個(gè)時(shí)間間隔特征,可以更加準(zhǔn)確地描述網(wǎng)絡(luò)流量行為,并提高NDP洪泛威脅檢測的準(zhǔn)確率。
3.3 NDP洪泛檢測多分類模型訓(xùn)練
這一階段的目的是將上一階段得到的數(shù)據(jù)集選擇合適的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法進(jìn)行模型訓(xùn)練。模型訓(xùn)練是NDP洪泛檢測中的關(guān)鍵步驟,它旨在從數(shù)據(jù)中學(xué)習(xí)模式和關(guān)聯(lián),以便模型能夠在未來的數(shù)據(jù)上進(jìn)行準(zhǔn)確的識別并分類NDP洪泛流量。
在模型訓(xùn)練階段,該框架選取了10種常用的分類算法對NDP洪泛多分類檢測數(shù)據(jù)集進(jìn)行訓(xùn)練。這10種分類算法包括5種機(jī)器學(xué)習(xí)算法,如隨機(jī)森林、XGBoost、Lightgbm、支持向量機(jī)(SVM)和樸素貝葉斯;以及5種深度學(xué)習(xí)算法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和Transformer。
在前面步驟中收集并處理得到的數(shù)據(jù)集,會(huì)經(jīng)過這些不同的分類算法進(jìn)行訓(xùn)練,以得到檢測模型。這些模型在訓(xùn)練過程中,不同的分類算法有著不同的特點(diǎn)和適用范圍,因此會(huì)根據(jù)各自分類算法的特性生成不同的檢測模型。其中,機(jī)器學(xué)習(xí)方法適用于許多傳感器數(shù)據(jù)的分析和特征提取,解決較小規(guī)模的問題。機(jī)器學(xué)習(xí)算法通常具有較好的可解釋性,可以幫助分析人員理解模型的決策過程。對于一些較簡單的問題,機(jī)器學(xué)習(xí)模型通常需要較少的計(jì)算資源和數(shù)據(jù)量,因此更容易部署和維護(hù)。深度學(xué)習(xí)算法可以自動(dòng)學(xué)習(xí)和提取數(shù)據(jù)中的特征,無須手工設(shè)計(jì)特征,這對于處理大規(guī)模和高維度數(shù)據(jù)非常有幫助。深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)上訓(xùn)練后,通常具有更好的泛化能力,可以應(yīng)對不同類型和不同來源的洪泛數(shù)據(jù)。
3.4 NDP洪泛行為檢測
該框架的核心部分之一是NDP泛洪行為檢測階段,該階段旨在準(zhǔn)確且高效地檢測NDP的洪泛行為。通過將上一階段訓(xùn)練出的檢測模型部署在網(wǎng)絡(luò)中,該階段能夠?qū)崟r(shí)監(jiān)控網(wǎng)絡(luò)流量,并迅速識別出異常的NDP洪泛行為。一旦檢測到可疑活動(dòng),該階段會(huì)立即觸發(fā)相應(yīng)的響應(yīng)措施,阻止惡意流量、隔離受影響的節(jié)點(diǎn),從而保護(hù)網(wǎng)絡(luò)資源和服務(wù)的正常運(yùn)行。
此外,NDP泛洪檢測階段還具備強(qiáng)大的記錄功能,能夠詳細(xì)記錄所有與NDP泛洪檢測相關(guān)的事件和警報(bào)。這些記錄為后續(xù)詳細(xì)的分析提供了重要的依據(jù),幫助管理員更好地理解洪泛威脅的行為模式,從而制定更加有效的防御策略。
4 實(shí)驗(yàn)對比與結(jié)果分析
4.1TjvOzWt3fC9lxPds5XL/g1M3mCGHFypgpdCYzFIt44U= 實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)所用的數(shù)據(jù)集,參考了文獻(xiàn)[13,15]中的NDP洪泛流量收集方法。其中,真實(shí)流量來自鄭州大學(xué)網(wǎng)絡(luò)管理中心網(wǎng)絡(luò)安全實(shí)驗(yàn)室,洪泛流量則在實(shí)驗(yàn)室網(wǎng)絡(luò)環(huán)境中使用THC-IPv6工具生成。
此外,對THC-IPv6工具[18,19]進(jìn)行了改進(jìn)升級,使其可以設(shè)置更多參數(shù)來自定義NDP報(bào)文的字段值,并且可以設(shè)置數(shù)據(jù)包的發(fā)包速度。
數(shù)據(jù)集包括14個(gè)特征信息,共有349 371條流量,其中正常流量42 941條,每類異常流量均為34 000條左右。針對每一類洪泛,設(shè)置了四個(gè)不同的發(fā)包速度,分別是每秒1個(gè)數(shù)據(jù)包、每秒10個(gè)數(shù)據(jù)包、每秒100個(gè)數(shù)據(jù)包和每秒1 000個(gè)數(shù)據(jù)包。數(shù)據(jù)集信息如表3所示,數(shù)據(jù)集洪泛分類信息如表4所示。
數(shù)據(jù)集由正常和洪泛流量組成,包括正常流量和9類異常流量,涉及NDP協(xié)議的五種報(bào)文,其中RS洪泛、RA洪泛、NS洪泛、NA洪泛各兩類。
RS洪泛可以根據(jù)目的地址字段,分為針對鏈路內(nèi)某一具體路由器進(jìn)行洪泛,或是將目的地址設(shè)為ff02::2,針對鏈路內(nèi)所有路由器進(jìn)行洪泛。RA洪泛同理,可以將目標(biāo)設(shè)置為鏈路內(nèi)某一具體主機(jī),或是將目的地址設(shè)為ff02::1,向鏈路內(nèi)所有主機(jī)進(jìn)行洪泛。NA洪泛同樣根據(jù)目的地址字段,分為針對單一目標(biāo)洪泛和多個(gè)目標(biāo)洪泛。而NS洪泛則是根據(jù)報(bào)文中的目標(biāo)地址字段,來選擇洪泛目標(biāo)是某一具體主機(jī)還是所有主機(jī)。上述四種報(bào)文洪泛分類都是根據(jù)洪泛的目標(biāo)數(shù)量,而重定向洪泛只有一類,它只能針對單個(gè)目標(biāo)進(jìn)行洪泛。
4.2 評價(jià)指標(biāo)
本節(jié)描述用于評估NDP洪泛檢測框架性能的評估指標(biāo)。在二分類條件下,可以很輕易地在混淆矩陣的基礎(chǔ)上定義出各種指標(biāo)(如準(zhǔn)確率、精度、召回率、F1分?jǐn)?shù))[20]。在已有NDP洪泛檢測的研究中,基本上只做二分類檢測,本文則是多分類檢測。
因此,下面將介紹針對多分類檢測的評估標(biāo)準(zhǔn)。宏平均(macro-averaging)是一種在多類別分類問題中計(jì)算性能指標(biāo)的方法,它將每個(gè)類別視為等權(quán)重,然后計(jì)算每個(gè)類別的性能指標(biāo),最后對這些指標(biāo)取平均值。
4.2.1 Macro準(zhǔn)確率
準(zhǔn)確度是多分類中最常用的度量指標(biāo)之一,它直接由混淆矩陣計(jì)算而來。Macro準(zhǔn)確率是一種評估分類模型性能的指標(biāo),對所有類別的預(yù)測結(jié)果給予了相等的權(quán)重,無論每個(gè)類別中的樣本數(shù)量多少,它計(jì)算所有類別預(yù)測結(jié)果的平均準(zhǔn)確率。
MacroAccuracy=∑Ni=11N×accuracyi=
∑Ni=11N×TPi+TNiTPi+TNi+FPi+FNi(1)
4.2.2 Macro精度
Macro精度計(jì)算所有類別的平均精度。Macro精度的計(jì)算方法為:對于每個(gè)類別,計(jì)算該類別的真陽性(TP)、假陽性(FP)和假陰性(FN)。然后,將所有類別的真陽性、假陽性和假陰性加總,得到總的真陽性(Total_TP)、假陽性(Total_FP)和假陰性(Total_FN)。Macro精度計(jì)算公式為
Precisionk=TPkTPk+FPk(2)
MacroPrecision=∑Kk=1PrecisionkK(3)
4.2.3 Macro召回率
Macro召回率計(jì)算所有類別預(yù)測正例的平均召回率。Macro召回率的計(jì)算方法為:對于每個(gè)類別,計(jì)算該類別的真陽性(TP)、假陰性(FN)和假陽性(FP)。然后,將所有類別的真陽性、假陰性和假陽性加總,得到總的真陽性(Total_TP)、假陰性(Total_FN)和假陽性(Total_FP)。Macro召回率計(jì)算公式如下:
Recallk=TPkTPk+FNk(4)
MacroRecall=∑Kk=1RecallkK(5)
4.2.4 Macro F1分?jǐn)?shù)
Macro F1分?jǐn)?shù)為Macro精度和Macro召回率的調(diào)和均值,需要先計(jì)算Macro精度和Macro召回率。它們分別通過取每個(gè)預(yù)測類的平均精度和每個(gè)實(shí)際類的平均召回率來計(jì)算。因此,Macro方法將所有類視為計(jì)算的基本元素:每個(gè)類在平均值中具有相同的權(quán)重,因此在填充程度高的類和填充程度低的類之間沒有區(qū)別。
Macro F1-score=2×MacroPrecision×MacroRecallMacroPrecision-1+MacroRecall-1(6)
4.3 結(jié)果分析
分類算法的好壞將直接影響檢測框架的效果。因此,本節(jié)將使用前面小節(jié)中的評價(jià)指標(biāo)對機(jī)器學(xué)習(xí)中的隨機(jī)森林、XGBoost、Lightgbm、SVM和貝葉斯算法和深度學(xué)習(xí)中的ANN、CNN、RNN、LSTM和Transformer等算法進(jìn)行比較。
根據(jù)上述提到的四個(gè)指標(biāo)對結(jié)果進(jìn)行評估[21]。由于基于NDP的洪泛威脅數(shù)據(jù)集包含了兩個(gè)子數(shù)據(jù)集,一個(gè)用于訓(xùn)練階段,另一個(gè)用于測試階段。本文選擇在一個(gè)數(shù)據(jù)集上訓(xùn)練分類器和神經(jīng)網(wǎng)絡(luò)模型,然后在另一個(gè)數(shù)據(jù)集上測試它們,而不是使用交叉驗(yàn)證在同一數(shù)據(jù)集上構(gòu)建和測試模型。最后對NDP洪泛威脅檢測結(jié)果進(jìn)行了總結(jié),計(jì)算了Macro準(zhǔn)確率、Macro精度、Macro召回率和Macro F1分?jǐn)?shù)。
4.3.1 機(jī)器學(xué)習(xí)算法對比
表5對NDP洪泛威脅檢測結(jié)果進(jìn)行了總結(jié),實(shí)驗(yàn)共使用5種機(jī)器學(xué)習(xí)算法,分別是隨機(jī)森林、XGBoost、LightGBM、SVM和樸素貝葉斯,其中XGBoost、LightGBM和RF的檢測準(zhǔn)確率均在98%以上,XGBoost的準(zhǔn)確率最高,接著是LightGBM和隨機(jī)森林算法[22]。這三種算法都屬于集成學(xué)習(xí)方法,即通過組合多個(gè)模型的預(yù)測來獲得更準(zhǔn)確的結(jié)果。它們都通過組合多個(gè)基本模型的預(yù)測來降低過擬合風(fēng)險(xiǎn),提高模型的性能。其中,隨機(jī)森林算法是基于決策樹的集成方法;LightGBM是基于梯度提升框架的決策樹算法,它使用基于直方圖的分桶方式,加速了訓(xùn)練過程;XGBoost也是一種基于梯度提升框架的算法,但它采用了一種更復(fù)雜的正則化技術(shù),以減小過擬合風(fēng)險(xiǎn)。
SVM和貝葉斯算法的檢測效果表現(xiàn)欠佳,其中SVM算法檢測準(zhǔn)確率僅為46.69%,貝葉斯算法的檢測準(zhǔn)確率為65.48%。SVM是可用于分類問題的監(jiān)督學(xué)習(xí)算法,旨在找到一個(gè)超平面,它可以在不同類別的數(shù)據(jù)點(diǎn)之間實(shí)現(xiàn)最大的間隔,這個(gè)超平面被用來分隔不同類別的數(shù)據(jù)。貝葉斯算法是基于貝葉斯定理的概率統(tǒng)計(jì)算法,它用來估計(jì)給定數(shù)據(jù)的概率分布,并通過計(jì)算后驗(yàn)概率來進(jìn)行分類或預(yù)測。
綜上所述,它們在工作原理、適用性和處理的數(shù)據(jù)類型等方面有顯著的不同。選擇哪個(gè)算法取決于具體問題的性質(zhì)和數(shù)據(jù)的特點(diǎn)。從本實(shí)驗(yàn)結(jié)果來看,基于樹型集成學(xué)習(xí)的機(jī)器學(xué)習(xí)算法表現(xiàn)更好,尤其是XGBoost算法各方面指標(biāo)均為最優(yōu)。
4.3.2 深度學(xué)習(xí)算法對比
接著又使用5種深度學(xué)習(xí)算法對NDP洪泛威脅進(jìn)行檢測[23],結(jié)果如表6所示。ANN是由兩層全連接層組成,兩層之間使用激活函數(shù)ReLU。CNN模型主要由一維卷積和殘差網(wǎng)絡(luò)構(gòu)建,確保訓(xùn)練的穩(wěn)定收斂。RNN采用標(biāo)準(zhǔn)的PyTorch框架中實(shí)現(xiàn)的雙向RNN,LSTM同樣采用標(biāo)準(zhǔn)的PyTorch框架中實(shí)現(xiàn)的雙向LSTM。Transformer基于FT-Transformer[24]實(shí)現(xiàn)對于表格數(shù)據(jù)的訓(xùn)練學(xué)習(xí)。可以看到采用深度學(xué)習(xí)的方法普遍可以達(dá)到不錯(cuò)的準(zhǔn)確率,同時(shí)也需要更多的訓(xùn)練技巧和訓(xùn)練時(shí)間。
4.3.3 與現(xiàn)有人工智能方法對比
表7是本文提出的檢測框架與現(xiàn)有基于人工智能檢測方法的對比,詳細(xì)比較了各項(xiàng)指標(biāo),包括檢測對象、檢測類型、基本方法和檢測效果。
通過對比發(fā)現(xiàn),本文研究在檢測對象方面更加廣泛,涵蓋了更多的類型,并實(shí)現(xiàn)了多分類檢測,同時(shí)檢測效果也更加準(zhǔn)確和穩(wěn)定。如表7所示,現(xiàn)有研究的檢測都是二分類檢測,并且檢測對象也沒有包含NDP協(xié)議中的所有報(bào)文類型。文獻(xiàn)[13,14]為機(jī)器學(xué)習(xí)方法,前者只是簡單地使用機(jī)器學(xué)習(xí)算法,后者則增加了特征選擇階段。文獻(xiàn)[15,16]為深度學(xué)習(xí)方法,同樣后者比前者多了特征選擇階段。因此文獻(xiàn)[14,16]的準(zhǔn)確率都高于文獻(xiàn)[13,15]。而本文不但進(jìn)行了特征選擇,并且新增了時(shí)間間隔特征。此外,集成了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的檢測框架能夠更好地選擇檢測效果最佳的算法,因此本文檢測準(zhǔn)確率均優(yōu)于上述方法。文獻(xiàn)[17]為2023年的最新研究,同樣結(jié)合了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,但本文在檢測對象、檢測類型、準(zhǔn)確率等方面則更具優(yōu)勢。因此,本文的檢測框架具有更高的實(shí)用價(jià)值和應(yīng)用前景。
首先,本文研究針對的是NDP協(xié)議中全部五種報(bào)文,檢測更加全面?,F(xiàn)有研究大多針對RA洪泛進(jìn)行檢測,這是由于RA報(bào)文在NDP協(xié)議中的作用明顯,并且RA洪泛的危害較大。然而,NDP協(xié)議中的其他報(bào)文也同樣在IPv6網(wǎng)絡(luò)中發(fā)揮著重要作用,其洪泛威脅帶來的危害也是不可忽略的。
其次,本文實(shí)現(xiàn)的是洪泛多分類檢測,通過對NDP洪泛分析來細(xì)分洪泛類型,構(gòu)建多分類數(shù)據(jù)集,檢測更加細(xì)致?,F(xiàn)有檢測基本只進(jìn)行二分類檢測,本文則將NDP洪泛進(jìn)行了更加細(xì)致化的劃分,并進(jìn)行了多分類檢測。二分類檢測只能將流量分為異常和正常,而本文的多分類檢測可以更加準(zhǔn)確地識別和分類洪泛威脅,將威脅信息整理和分析從而更好地保護(hù)網(wǎng)絡(luò)安全。
最后,本文提出一種IPv6網(wǎng)絡(luò)NDP洪泛行為多分類檢測框架,并提出基于時(shí)間間隔特征的NDP協(xié)議洪泛威脅檢測方法。其中基于XGBoost的機(jī)器學(xué)習(xí)檢測準(zhǔn)確率最高分別可達(dá)99.18%。
4.3.4 實(shí)驗(yàn)總結(jié)
從洪泛威脅檢測研究的發(fā)展來看,基于人工智能的方法更優(yōu)于經(jīng)典閾值規(guī)則方法。由于洪泛威脅方案的多樣性以及定義正常流量和惡意流量之間的閾值難度,要為洪泛檢測設(shè)置萬無一失的規(guī)則是極其困難的。因此,閾值規(guī)則方法在洪泛威脅檢測中存在一定的局限性。相比之下,基于人工智能的洪泛威脅檢測方法能夠更好地處理這一問題。人工智能技術(shù)可以通過對大量數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),自動(dòng)發(fā)現(xiàn)正常流量和惡意流量之間的模式和特征,并生成更加精準(zhǔn)的分類模型。這些模型可以更好地適應(yīng)各種不同的洪泛威脅方案,并且可以隨著時(shí)間的推移不斷優(yōu)化和更新。
從本文的實(shí)驗(yàn)結(jié)果來看,機(jī)器學(xué)習(xí)中的隨機(jī)森林算法、XGBoost、LightGBM都有不錯(cuò)的檢測效果,其中XGBoost算法檢測準(zhǔn)確率更是達(dá)到了99.18%,是所有算法中效果最好的。深度學(xué)習(xí)的5種算法的檢測準(zhǔn)確率雖然沒有高于XGBoost,但大多也接近XGBoost算法準(zhǔn)確率。這樣的結(jié)果并不意味著機(jī)器學(xué)習(xí)在洪泛檢測效果優(yōu)于深度學(xué)習(xí),因?yàn)楸緦?shí)驗(yàn)所采集的數(shù)據(jù)集并不復(fù)雜,并且經(jīng)過專業(yè)預(yù)處理,增加了一些有利于分類的特征字段,這恰好有助于機(jī)器學(xué)習(xí)算法。相反,隨機(jī)物聯(lián)網(wǎng)設(shè)備的增加,網(wǎng)絡(luò)流量規(guī)模的擴(kuò)大,今后的網(wǎng)絡(luò)環(huán)境將是更加復(fù)雜、多變的。而這樣的環(huán)境將更適合深度學(xué)習(xí)算法,因?yàn)樗鼈兙哂懈鼜?qiáng)的自適應(yīng)能力,可以更好地處理復(fù)雜多變、非線性的數(shù)據(jù)模式[25]。
5 結(jié)束語
本文詳細(xì)闡述了一種針對IPv6 NDP協(xié)議洪泛多分類檢測框架,并提出了基于XGBoost算法的檢測方法。這一框架為保障IPv6網(wǎng)絡(luò)的安全性提供了堅(jiān)實(shí)的基礎(chǔ),突顯了其重要的應(yīng)用價(jià)值。該框架巧妙地融合了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能夠更高效地識別和區(qū)分不同類型洪泛威脅。
值得一提的是,該檢測框架是首個(gè)針對NDP洪泛威脅進(jìn)行全面檢測并進(jìn)行多分類的,體現(xiàn)了其前瞻性、創(chuàng)新性和實(shí)用性。不僅能夠準(zhǔn)確地檢測出NDP洪泛,而且能夠?qū)Σ煌愋偷腘DP洪泛進(jìn)行分類,從而為提升網(wǎng)絡(luò)安全性提供了更加全面的保障。同時(shí),該檢測框架具有良好的效果,其檢測準(zhǔn)確率處于領(lǐng)先水平。即使在網(wǎng)絡(luò)環(huán)境繁忙的情況下,也能夠有效地檢測并區(qū)分各種類型的洪泛威脅。最后,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的結(jié)合使用,使得該框架具有強(qiáng)大的適應(yīng)能力、可擴(kuò)展性和易用性。
為適應(yīng)新的威脅和挑戰(zhàn),后續(xù)將對NDP洪泛威脅多分類檢測框架進(jìn)行優(yōu)化和擴(kuò)展,以提高其性能和可靠性??蚣艿膬?yōu)化和擴(kuò)展將包括以下幾個(gè)方面:
a)洪泛分類的精細(xì)化。
當(dāng)前僅根據(jù)報(bào)文類型和洪泛目標(biāo)簡單分類NDP洪泛報(bào)文。實(shí)際上,不同的報(bào)文類型和洪泛目標(biāo)可能會(huì)產(chǎn)生不同特點(diǎn)的洪泛威脅。例如,RA報(bào)文洪泛中還涉及路由器生存時(shí)間、MTU值等參數(shù),這些參數(shù)可以作為區(qū)分不同類型RA洪泛的標(biāo)志。因此,還需要對NDP洪泛威脅多分類檢測框架進(jìn)行改進(jìn),使其能夠根據(jù)這些參數(shù)對報(bào)文進(jìn)行更精細(xì)的分類,從而更好地識別和應(yīng)對各種類型的洪泛威脅。
b)框架算法的提升。
本文所提框架的核心是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,因此,需要不斷提升其算法的性能和準(zhǔn)確性,包括但不限于改進(jìn)機(jī)器學(xué)習(xí)模型的準(zhǔn)確率、提高深度學(xué)習(xí)模型的泛化能力、優(yōu)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程等。通過不斷提升算法的性能和準(zhǔn)確性,可以更準(zhǔn)確地識別和應(yīng)對各種網(wǎng)絡(luò)威脅,從而提高IPv6網(wǎng)絡(luò)的安全性和可靠性[26]。
總之,對NDP洪泛威脅多分類檢測框架進(jìn)行優(yōu)化和擴(kuò)展是一個(gè)持續(xù)的過程,需要不斷地改進(jìn)和完善其各個(gè)方面,以適應(yīng)不斷變化的網(wǎng)絡(luò)威脅,從而有效地保護(hù)IPv6網(wǎng)絡(luò)。
參考文獻(xiàn):
[1]Li Xiang, Liu Baojun, Zheng Xiaofeng, et al. Fast IPv6 network periphery discovery and security implications[C]//Proc of the 51st Annual IEEE/IFIP International Conference on Dependable Systems and Networks. Piscataway,NJ: IEEE Press, 2021: 88-100.
[2]Ahmed A S, Hassan R, Othman N E. IPv6 neighbor discovery protocol specifications, threats and countermeasures: a survey[J]. IEEE Access, 2017, 5: 18187-18210.
[3]Hamid Z, Daud S, Razak I S A, et al. A comparative study between IPv4 and IPv6[J]. ANP Journal of Social Science and Humanities, 2021, 2(2): 43-47.
[4]Hossain T, Rahman N. A review paper on IPv4 and IPv6: a comprehensive survey[C]//Proc of IICT. 2022.
[5]劉向舉, 尚林松, 方賢進(jìn), 等. 基于可編程協(xié)議無關(guān)報(bào)文處理的分布式拒絕服務(wù)攻擊檢測[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(7): 2149-2155. (Liu Xiangju, Shang Linsong, Fang Xianjin, et al. Distributed denial of service attack detection based on programming protocol-independent packet processors[J]. Application Research of Computers, 2022, 39(7): 2149-2155.)
[6]Liu Yanru. Research on network security based on IPSec[C]//Proc of the 7th International Conference on Education, Management, Computer and Medicine.[S.l.]:Atlantis Press, 2017: 150-154.
[7]Arkko J, Ericsson, Kempf J, et al. RFC 3971, Secure neighbor discovery(SEND)[S]. 2005.
[8]Ahmed A S, Hassan R, Othman N E. Secure neighbor discovery (SEND): attacks and challenges[C]//Proc of the 6th International Conference on Electrical Engineering and Informatics. Piscataway,NJ: IEEE Press, 2017: 1-6.
[9]Shah S B I, Anbar M, Al-Ani A. Hybridizing entropy based mechanism with adaptive threshold algorithm to detect RA flooding attack in IPv6 networks[C]//Proc of the 5th ICCST Computational Science and Technology. Berlin: Springer, 2019: 315-323.
[10]Bahashwan A A, Anbar M, Manickam S. Propose a flow-based approach for detecting abnormal behavior in neighbor discovery protocol(NDP)[C]//Proc of International Conference on Advances in Cyber Security. Berlin: Springer, 2021: 401-416.
[11]Bahashwan A A, Anbar M, Hasbullah I H, et al. Flow-based approach to detect abnormal behavior in neighbor discovery protocol(NDP)[J]. IEEE Access, 2021, 9: 45512-45526.
[12]Satrya G B, Chandra R L, Yulianto F A. The detection of DDoS flooding attack using hybrid analysis in IPv6 networks[C]//Proc of the 3rd International Conference on Information and Communication Technology. Piscataway,NJ:IEEE Press, 2015: 240-244.
[13]Najjar F, Kadhum M M, El-Taj H. Detecting neighbor discovery protocol-based flooding attack using machine learning techniques[C]//Advances in Machine Learning and Signal Processing. Berlin:Springer, 2016: 129-139.
[14]Anbar M, Abdullah R, Al-Tamimi B N, et al. A machine learning approach to detect router advertisement flooding attacks in next-generation IPv6 networks[J]. Cognitive Computation, 2018, 10: 201-214.
[15]Saad R M A, Anbar M, Manickam S, et al. An intelligent ICMPv6 DDoS flooding-attack detection framework(v6IIDS) using back-propagation neural network[J]. IETE Technical Review, 2016, 33(3): 244-255.
[16]Elejla O E, Anbar M, Hamouda S, et al. Deep-learning-based approach to detect ICMPv6 flooding DDoS attacks on IPv6 networks[J]. Applied Sciences, 2022, 12(12): 6150.
[17]Ksimi A E, Leghris C, Lafraxo S, et al. ICMPv6-based DDoS flooding-attack detection using machine and deep learning techniques[J]. IETE Journal of Research, 2023(5): 1-10.
[18]THC-IPv6[EB/OL]. (2021)[2023-12-26]. https://github. com/vanhauser-thc/thc-ipv6.
[19]Scapy[EB/OL].[2023-12-26]. https://scapy.net/.
[20]Prasath M, Perumal B. Network attack prediction by random forest: classification method[C]//Proc of the 3rd International Conference on Electronics, Communication and Aerospace Technology. Piscataway,NJ: IEEE Press, 2019: 647-654.
[21]Lafraxo S, Ansari M E, Charfi S. MelaNet: an effective deep learning framework for melanoma detection using dermoscopic images[J]. Multimedia Tools and Applications, 2022, 81(11): 16021-16045.
[22]Sahoo K S, Puthal D. SDN-assisted DDoS defense framework for the Internet of multimedia things[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2020, 16(3S): 1-18.
[23]Aleesa A M, Zaidan B B, Zaidan A A, et al. Review of intrusion detection systems based on deep learning techniques: coherent taxonomy, challenges, motivations, recommendations, substantial analysis and future directions[J]. Neural Computing and Applications, 2020, 32: 9827-9858.
[24]Gorishniy Y, Rubachev I, Khrulkov V, et al. Revisiting deep lear-ning models for tabular data[C]//Advances in Neural Information Processing Systems. 2021.
[25]Elejla O E, Belaton B, Anbar M. Intrusion detection systems of ICMPv6-based DDoS attacks[J]. Neural Computing and Applications, 2018, 30: 45-56.
[26]Mishra P, Varadharajan V, Tupakula U, et al. A detailed investigation and analysis of using machine learning techniques for intrusion detection[J]. IEEE Communications Surveys & Tutorials, 2018, 21(1): 686-728.