李夢洋,唐湘滟,程杰仁,劉譯夫
(1.海南大學 海南省Internet信息檢索重點實驗室 海南 ???570228;2.海南大學 信息科學技術學院 海南 ???570228;3.海南大學 南海海洋資源利用國家重點實驗室 海南 ???570228)
近年來分布式拒絕服務(distributed denial of service,DDoS)攻擊方式層出不窮,其頻率、規(guī)模、危害等快速增長[1].大多數(shù)DDoS攻擊檢測方法趨向于混合檢測方法[2],而且結合機器學習模型來提高正確率,包括時間序列模型[3]、支持向量機[4]、遺傳算法[5]、神經網(wǎng)絡[6]等.尤其針對大數(shù)據(jù)環(huán)境下的DDoS檢測方法的研究[7-8]也逐漸增多,但是在大數(shù)據(jù)環(huán)境下正常數(shù)據(jù)的高流量、多樣性和突發(fā)性增加了攻擊識別的難度,使得 DDoS攻擊檢測方法仍存在較高的誤報率、漏報率,亟待提出有效的檢測方法.針對該問題,本文提出一種基于網(wǎng)絡流組合相關度與決策樹參數(shù)優(yōu)化算法的隨機森林(random forest,RF) DDoS攻擊檢測方法.
由于DDoS攻擊通常采用多對一的攻擊模式,網(wǎng)絡流的源地址與目的地址、源地址與目的端口、目的端口與目的地址均呈現(xiàn)出多對一的關系,致使攻擊呈現(xiàn)出流非對稱性的特點[9].在直接或反射DDoS攻擊中,攻擊流會造成網(wǎng)絡服務不正?;虬c瘓,使得攻擊目標不能正?;貜途W(wǎng)絡服務請求而產生大量只有源地址到目的地址的單向網(wǎng)絡流,致使攻擊呈現(xiàn)出流半交互性[10].因此本文基于流非對稱性和半交互性提取特征.
假設某單位時間T內網(wǎng)絡流F為〈(t1,s1,d1,dp1),…,(tn,sn,dn,dpn)〉,其中i=1,2,…,n.ti、si、di、dpi分別表示第i個數(shù)據(jù)包的時間、源IP地址、目的IP地址、目的端口號.對這n個數(shù)據(jù)包執(zhí)行下面的規(guī)則.
1) 記源IP地址為Am、目的IP地址為An的所有數(shù)據(jù)包形成的類為StDIP(Am,An).對上面形成的這些類,若有不同的目的IP地址An和Ak使得類StDIP(Am,An)和StDIP(Am,Ak)均非空,則刪除所有源IP地址為Am的數(shù)據(jù)包所在的類.假設最后剩下的類為RStD1,RStD2,…,RStDm,定義網(wǎng)絡流F的地址相關統(tǒng)計 (address correlation statistics,ACS)特征為:
(1)
其中:W(RStDi)=αPort(RStDi)+(1-α)Packet(RStDi),0<α<1.Port(RStDi)是類RStDi中不同端口號的個數(shù),Packet(RStDi)是類RStDi中數(shù)據(jù)包的個數(shù),α是加權值,一般情況下α=0.5.
2) 記源IP地址為Am的所有數(shù)據(jù)包形成的類為SoIPC(Am),目的IP地址為An的所有數(shù)據(jù)包形成的類為DeIPC(An).若類SoIPC(Am)的源IP地址Am使得類DeIPC(Am)為空,則稱SoIPC(Am)中所有的數(shù)據(jù)包為一個源半交互流(source half interaction flow,SHI),記為SHI(Am),表示SHI流有源半交互性,SHI(Am)中不同端口號的數(shù)量記為Port(SHI(Am)).由此,對SoIPC類分類,得到所有源半交互流SHI,表示為SHI1,SHI2,…,SHIs.
對s個SHI流分類,將目的IP地址相同的SHI流分在同一類別中,記具有不同源IP地址和相同目的IP地址Am的SHI流數(shù)量為Msdnm,具有相同目的IP地址Am的SHI流所在類表示為SDHI(Msdnm,Am),且m=1,2,…,l.假設所有的Msdnm≥M(M≥2,為保證攻擊檢測較大的覆蓋面,本文令M=2)的SDHI類為SDHI1,SDHI2,…,SDHIk,類SDHIi中不同目的端口號的數(shù)量表示為Port(SDHIi),i=1,2,…,k.據(jù)此,定義網(wǎng)絡流F中單向流半交互度(unidirectional flow semi interaction,UFSI)定義為:
(2)
3) 結合1)和2)中的兩部分特征提取規(guī)則,在采樣時間Δt內,分別計算和提取ACS和UFSI兩種特征來構造二元特征,形成網(wǎng)絡流組合相關度(combination correlation degree,CCD):
CCDF=(w1ACSF,w2UFSIF),
(3)
其中:w1、w2均表示權重,表示CCD特征中ACS和UFSI所占的比例.
大數(shù)據(jù)環(huán)境下的正常網(wǎng)絡流與DDoS攻擊流都具有高容量、多樣性和突發(fā)性的特性,但是CCD特征序列仍然能較好地反映正常流與攻擊流的本質區(qū)別.首先,該特征中的兩部分統(tǒng)計特征均以DDoS攻擊的流非對稱性為基礎提出的,攻擊情況下CCD特征值比正常情況下的值顯著增大且持續(xù)時間較長;其次,ACS特征提取的是“多對一”與“一對一”會話模式的網(wǎng)絡流的源IP地址與端口的加權統(tǒng)計特征,排除了“一對多”網(wǎng)絡流的干擾,更能較好地反映網(wǎng)絡中攻擊流與正常流之間的相關性變化,而UFSI特征提取的是網(wǎng)絡流中“多對一”會話模式的單向流的統(tǒng)計信息,更能準確地刻畫網(wǎng)絡受到DDoS攻擊時單向流急劇增加的情況.這兩方面結合能夠準確描述攻擊流在受害端匯聚和直接影響正常流的狀態(tài)變化,以及匯聚的攻擊流混雜在正常流中引起的CCD特征序列異常的現(xiàn)象,從而能及時、準確地提取攻擊前后網(wǎng)絡的相關狀態(tài)特征,較好地區(qū)分攻擊前后的網(wǎng)絡異?,F(xiàn)象.
對數(shù)據(jù)集以采樣時間Δt進行流量采樣,分別計算各采樣時間中ACS和UFSI的值,并整合為二元組合,N次采樣后,獲得CCD時間序列樣本M,M(N,Δt)={CCDi,i=1,2,…,N},N為序列長度.按照采樣時間順序提取CCD特征序列,Δt作為一個時間單位,則該序列為隨時間Δt累加,且長度為N的時間特征序列.
隨機森林作為一種集成學習分類方法,具有準確率較高、能有效防止過擬合、訓練速度快、可對變量重要性排序、容易實現(xiàn)并行化等優(yōu)點.假設隨機森林分類器為R(x),第i棵決策樹記為ti(x),R(x)={ti(x),i∈[0,n_estimators]},其中:n_estimators表示隨機森林中決策樹的棵數(shù);x為輸入的待分類的訓練樣本;sign(x)∈S為x的標記值;S為標記類別的集合;ti(x)的輸出為S中的某個值,作為單棵決策樹對于樣本x的估計值;R(x)的輸出為{ti(x),i∈[0,n_estimators]}估計值中的眾數(shù).在使用隨機森林進行攻擊檢測時,x為CCD特征訓練集利用重采樣技術隨機生成的新訓練數(shù)據(jù)集中的值;在DDoS攻擊檢測中只有異常與正常兩種標記,即S={-1,1},且sign(x)只取-1來代表攻擊樣本標記和1來代表正常樣本標記.本文選取Gini系數(shù)作為單棵決策樹分裂的量化評價指標.該系數(shù)既能反映所有類別樣本的比例關系以及不同類別樣本的比例變化,還能使各種樣本計算的系數(shù)值均在(0,1)之間,以便處理分析.
遺傳算法(genetic algorithm,GA)可對任意形式的約束和目標函數(shù)在全局意義上搜索問題最優(yōu)解,具有潛在并行性、過程簡單和快速隨機搜索等優(yōu)點. 綜合考慮隨機森林本身性能、特征樣本數(shù)量等,本文設初始種群M為30,進化代數(shù)G為50,隨機森林子樹的棵數(shù)n_estimators的整數(shù)范圍(2,30),子決策樹最大深度max_depth整數(shù)范圍(2,10),變異率Pc、交叉率Pm分別為默認值.選擇訓練樣本K次交叉驗證中Roc曲線下的面積(area under curve,AUC)的平均值作為判定種群中個體優(yōu)劣度的適應度函數(shù)值,其表達式由公式(4)所示.該值越大,越接近1,越有利于個體的遺傳進化.
(4)
隨機森林中子樹的數(shù)目和子樹的最大深度均會對隨機森林的訓練結果有關鍵的影響:過少會導致訓練不足而不能產生較好結果;過多會導致構建RF的時間長、規(guī)模復雜等問題.因此,選定子樹的最大棵數(shù)n_estimators和子樹的最大深度max_depth作為待優(yōu)化參數(shù).基于遺傳算法的隨機森林參數(shù)優(yōu)化算法見算法1.
算法1基于遺傳算法的隨機森林參數(shù)優(yōu)化算法.
輸入:CCD特征訓練集,初始化Pm,Pc,M,G等參數(shù),待優(yōu)化參數(shù)n_estimators,max_depth的范圍;
輸出:最優(yōu)參數(shù)組合(n_estimators,max_depth).
1.利用初始化Pm,Pc,M,G等參數(shù),隨機產生第一代種群Pop;
2.While 繁殖代數(shù)小于Gdo
3. 在指定待優(yōu)化參數(shù)范圍內隨機選取參數(shù)組合(n_estimators,max_depth);
4. 基于CCD特征訓練集訓練指定參數(shù)組合的隨機森林;
5. 根據(jù)公式(4)計算種群Pop中每一個體的適應度Fitness;
6. 初始化空種群newPop;
7. WhileM個子代被創(chuàng)建 do
8. 根據(jù)適應度以輪盤選擇算法從種群Pop中選出2個個體;
9. If random (0,1) 10. 對2個個體按交叉概率Pc執(zhí)行交叉操作; 11. If random (0,1) 12. 對2個個體按變異概率Pm執(zhí)行變異操作; 13. End while 14. 將M個子代加入種群newPop中; 15. 用newPop取代Pop; 16.End while 17.選出最終代Pop中適應度值最優(yōu)的個體,提取其中最優(yōu)參數(shù)組合; 18.return參數(shù)組合(n_estimators,max_depth). 根據(jù)前文描述,本文基于CCD特征序列優(yōu)化了參數(shù),訓練了RF分類器,得到了基于CCD的遺傳算法優(yōu)化的隨機森林(genetic algorithm-optimized random forest,GAORF)的DDoS攻擊檢測模型. 圖1 基于CCD的GAORF-DDoS攻擊檢測方法的流程Fig.1 Process of GAORF-DDoS attack-detection method based on CCD 基于CCD的隨機森林DDoS攻擊檢測方法識別DDoS攻擊流程如圖1所示.該模型為只需判定攻擊與否二分類問題,假設正常情況下設置檢測模型輸出標記為1,而在受到攻擊情況下CCD特征值會不同程度地變化,則模型輸出值不同于正常情況,設置檢測模型輸出標記為-1.判斷待測網(wǎng)絡流是否異常需將待測網(wǎng)絡流CCD特征序列輸入攻擊檢測模型,若所輸出的標記值為-1則為攻擊. 本文前面已分析得出CCD特征序列能較好地反映大數(shù)據(jù)環(huán)境下正常流與DDoS攻擊流的不同狀態(tài)特征.RF集成了多棵決策樹,并使用bootstrap方法縮小單棵決策樹訓練樣本集的大小,使用投票機制選取更加合理的分類結果,而且本文提出的基于遺傳算法的RF參數(shù)優(yōu)化算法有效地提高了RF的分類能力.因此本文提出基于CCD的GAORF的 DDoS攻擊檢測方法,可以快速有效地識別大數(shù)據(jù)環(huán)境下的DDoS攻擊. 本文實驗使用CAIDA “DDoS attack 2007”數(shù)據(jù)集[11],檢測性能評判指標包括準確率(accuracy)、漏報率(missing report rate,MR)、誤報率(false alarm rate,FR).設采樣間隔Δt=0.1 s,ACS的權重w1=0.1,UFSI的權重w2=0.6,其中w1(0 本文分別對ACS、UFSI和CCD特征進行了多組實驗對比分析:假定攻擊流不變,每組實驗依次將正常流縮小至原值的1/10,以模擬攻擊流發(fā)生作用引起正常流不斷減少的情況;假定正常流不變,每組實驗依次將攻擊流縮小至原值的1/10,以模擬攻擊流模仿正常流狀態(tài)變化減少攻擊流來逃避檢測的情況.從相同訓練集中分別提取ACS、UFSI和CCD特征等3種特征,并分別基于3種特征訓練RF模型生成3種分類器,再利用相同測試集對3種分類器進行測試,以比較3種特征對正常流和攻擊流的區(qū)分能力,測試結果如圖2和圖3所示.其中CCD_MR、ACS_MR、UFSI_MR分別為基于CCD特征、基于ACS特征、基于UFSI特征的檢測方法的漏報率;CCD_FR、ACS_FR、UFSI_FR分別為基于CCD特征、基于ACS特征、基于UFSI特征的檢測方法的誤報率.如圖2所示,隨著正常流減少,3種特征均能較好地識別攻擊,其中CCD特征表現(xiàn)最好.從漏報率來看,隨著正常樣本減小,CCD_MR下降至15%,較ACS_MR和UFSI_MR低2%左右,且有明顯下降趨勢.對誤報率而言,隨著正常樣本減少,3種檢測方法的誤報率(ACS_FR、UFSI_FR、CCD_FR)雖有微弱上升,但均保持在2%左右.圖3中,隨著攻擊流減少,分別基于3種特征的檢測方法的誤報率和漏報率都沒有大幅度改變,其中CCD特征表現(xiàn)也最好.由于ACS特征統(tǒng)計“多對一”和“一對一”的網(wǎng)絡流,其中包含了正常流,故其值會隨著正常流的減少而發(fā)生相應變化,即ACS特征能較好地反映攻擊流引起的正常流狀態(tài)異常變化,因此漏報率較低.因正常流中“多對一”的單向流相對較少,故當正常流減少時,UFSI特征值發(fā)生細微變化,即UFSI特征能較好地反映攻擊產生的“多對一”單向流的半交互性,因此誤報率較低.由于CCD特征中包含了ACS特征和UFSI特征提供的兩方面統(tǒng)計信息,故基于CCD特征檢測的漏報率和誤報率都較低,相對ACS特征和UFSI特征,CCD特征能夠更好地識別DDoS攻擊. 考慮到支持向量機(support vector machine,SVM)分類模型是機器學習領域中的主流方法,本文將提出的GAORF分類模型與nu-SVM、C-SVM和一類支持向量機(one-class-SVM)等3種分類模型進行了多組DDoS攻擊檢測實驗對比.本實驗將從數(shù)據(jù)集樣本中提取的CCD特征序列分別帶入了GAORF、nu-SVM、C-SVM和one-class-SVM 4種分類模型進行訓練和測試,各組實驗分別通過不斷改變正常訓練樣本數(shù)量和攻擊訓練樣本數(shù)量來比較各種分類模型的學習分類能力和魯棒性,其中選取了攻擊早期的數(shù)據(jù)作為部分測試樣本.實驗結果如表1和表2所示. 圖2 正常訓練樣本變化中特征對比的誤報率和漏報率Fig.2 The false alarm rate and missing alarm rate of feature contrast with changing normal training samples 圖3 攻擊訓練樣本變化中特征對比的誤報率和漏報率Fig.3 The false alarm rate and missing alarm rate of feature contrast with changing attack training samples 表1 正常訓練樣本數(shù)量變化中4種算法檢測對比結果Tab.1 Comparison of four algorithms with changing numbers of normal training samples % 表2 攻擊訓練樣本數(shù)量變化中4種算法檢測對比結果Tab.2 Comparison of four algorithms with changing numbers of attack training samples % 由表1可知,隨著正常訓練樣本的增大,GAORF分類模型的準確率保持在90%以上,誤報率保持在0.4%以下,漏報率保持在15.6%以下.一方面RF本身具有良好穩(wěn)定的分類性能,能較好地挖掘和利用CCD特征對攻擊引起的正常流狀態(tài)異常變化的表征能力;另一方面基于遺傳算法的RF參數(shù)優(yōu)化算法通過學習正常訓練樣本集優(yōu)化了RF參數(shù),提高了RF分類能力,因此GAORF分類模型的分類效果最好.表1中nu-SVM模型的漏報率和誤報率波動較大,準確率在87.6%以下且浮動較大.由于測試集中包含了攻擊早期攻擊特征值較低的部分數(shù)據(jù),這部分特征值與正常流特征值相近,致使nu-SVM模型分類超平面難以區(qū)分從而影響了檢測結果.C-SVM分類模型在正常訓練樣本數(shù)量大于500時,準確率和漏報率分別保持在91.6%和16%,但是正常訓練樣本數(shù)量為400時該模型出現(xiàn)誤報率為100%的情況.由于該模型中懲罰參數(shù)并不會因為訓練樣本數(shù)量過度增加而有所改變,使模型表現(xiàn)出了較好的穩(wěn)定性;但是當正常樣本較少時,該模型難以獲得最優(yōu)分類面,使其出現(xiàn)了誤報率驟增的情況.隨著正常訓練樣本的增大,雖然one-class-SVM方法保持了較低的漏報率,但比其他方法誤報率高,使其準確率均在70%以下.其原因為one-class-SVM只能訓練正常訓練樣本生成分類模型,致使識別攻擊比較困難,因此難以取得較為理想的分類效果. 表2顯示,在變化攻擊樣本增大時,GAORF模型的檢測結果與其他3種SVM相比仍有很好表現(xiàn),保持了91%以上的準確率,15%的較低漏報率.一方面RF本身具有良好的穩(wěn)定分類性能,能較好地挖掘和利用CCD特征對攻擊流特性的表征能力;另一方面基于遺傳算法的RF參數(shù)優(yōu)化算法通過學習攻擊訓練樣本集優(yōu)化了RF參數(shù),提高了RF分類能力.因此4種分類模型中GAORF分類模型的分類效果仍然最好.C-SVM模型在檢測中保持91.6%的準確率,在攻擊訓練樣本數(shù)量大于500之后,C-SVM模型仍有16%以上較高漏報率.由于C-SVM模型在對攻擊訓練樣本充分擬合之后,值較大的攻擊樣本并未影響超平面,從而降低了C-SVM模型的分類能力.隨著攻擊訓練樣本的增大,nu-SVM分類模型的漏報率波動較大,準確率較低.其原因主要是當正常訓練樣本不變而攻擊樣本增大時,會使得超平面有所偏移,使得該模型難以準確識別測試集中部分攻擊早期特征值較低的樣本.one-class-SVM檢測模型的準確率保持在70%以下,誤報率較高.由于該模型只對正常訓練樣本進行訓練,增加攻擊訓練樣本并不能改變其分類模型,因此分類結果未變. 綜合表1和表2可知,針對正常樣本和攻擊樣本的不斷變化,GAORF分類模型比各種經典的SVM分類模型具有更強的學習分類能力和魯棒性.尤其在大數(shù)據(jù)環(huán)境下,樣本特征維數(shù)和數(shù)據(jù)集規(guī)模日益增長,較SVM分類模型,RF更能適應大數(shù)據(jù)的要求. 針對大數(shù)據(jù)環(huán)境下DDoS攻擊檢測方法存在誤報率、漏報率高的問題,本文提出了一種基于組合相關度的隨機森林的DDoS攻擊檢測方法.首先定義了網(wǎng)絡流組合相關度CCD,該特征采用地址相關統(tǒng)計特征ACS和單向流半交互度UFSI來表征攻擊流的非對稱性和半交互性.本文提出的基于CCD的遺傳算法的參數(shù)優(yōu)化算法來優(yōu)化RF參數(shù),并進行分類訓練以生成DDoS攻擊分類模型來檢測攻擊.實驗表明,本文定義的CCD特征能較好地提取攻擊流特性及其引起的正常流狀態(tài)異常變化特征,提出的檢測方法比同類檢測方法有更高的準確率,更低的誤報率和漏報率,較好的魯棒性,能在大數(shù)據(jù)環(huán)境下有效地檢測DDoS攻擊.2.4 基于CCD的隨機森林DDoS攻擊檢測
3 實驗結果與分析
3.1 攻擊特征比較分析
3.2 分類模型的比較分析
4 結論