蒲曉川
摘 要: 針對傳統(tǒng)模型的網(wǎng)絡(luò)流量異常檢測正確率低,檢測時(shí)間長的難題,設(shè)計(jì)了一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測模型。首先,對網(wǎng)絡(luò)流量異常檢測的研究現(xiàn)狀進(jìn)行分析,找到引起當(dāng)前檢測模型不足的原因;然后,采用HDOOP平臺(tái)設(shè)計(jì)基于最小二乘支持向量機(jī)的網(wǎng)絡(luò)流量異常檢測模型;最后,在Maltab 2014平臺(tái)下進(jìn)行網(wǎng)絡(luò)流量異常檢測實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型可以準(zhǔn)確對網(wǎng)絡(luò)流量異?,F(xiàn)象進(jìn)行檢測,獲得了比其他模型更優(yōu)的網(wǎng)絡(luò)流量異常檢測結(jié)果,具有更高的實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞: 網(wǎng)絡(luò)安全; 流量異常檢測; HDOOP平臺(tái); 最小二乘支持向量機(jī); 大數(shù)據(jù)環(huán)境; 檢測模型
中圖分類號(hào): TN915.08?34; TP392 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)03?0084?04
Abstract: Since the traditional network traffic anomaly detection model has low detection accuracy and long detection time, a network traffic anomaly detection model in large data environment was designed. The research status of the network traffic anomaly detection is analyzed to find out the reason causing the poor performance of the current detection models. The HDOOP platform is used to design the network traffic anomaly detection model based on least square support vector machine. The network traffic anomaly detection experiment was carried out with Matlab 2014 platform. The experimental results show that the model can detect the network traffic anomaly phenomenon accurately, its network traffic anomaly detection result is better than that of other models, which has higher practical application value.
Keywords: network security; traffic anomaly detection; HDOOP platform; least square support vector machine; large data environment; detection model
0 引 言
隨著網(wǎng)絡(luò)應(yīng)用范圍的不斷擴(kuò)展,出現(xiàn)了許多不同類型的網(wǎng)絡(luò),網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)類型增多,網(wǎng)絡(luò)擁塞頻率比以前也大幅增大,如何保證網(wǎng)絡(luò)系統(tǒng)的正常運(yùn)行顯得尤為重要。網(wǎng)絡(luò)流量是一種描述網(wǎng)絡(luò)運(yùn)行情況的重要指標(biāo),對網(wǎng)絡(luò)流量異常行為進(jìn)行檢測,可以發(fā)現(xiàn)不正常的網(wǎng)絡(luò)狀態(tài),因此,如何建立高正確率的網(wǎng)絡(luò)流量異常檢測模型引起了人們的高度關(guān)注[1?2]。
網(wǎng)絡(luò)流量異常檢測問題的研究一直沒有停止過,當(dāng)前存在大量的網(wǎng)絡(luò)流量異常檢測模型。網(wǎng)絡(luò)流量異常檢測可以認(rèn)為是一種網(wǎng)絡(luò)流量分類問題,即將網(wǎng)絡(luò)狀態(tài)劃分為正常和異常兩種:當(dāng)處于異常狀態(tài)時(shí),就對其進(jìn)行相應(yīng)的處理;如果是正常狀態(tài),那么就不用制定相應(yīng)防范措施[3]。當(dāng)前網(wǎng)絡(luò)流量主要基于統(tǒng)計(jì)學(xué)理論進(jìn)行建模和檢測,建模方法的選擇直接影響到網(wǎng)絡(luò)流量異常檢測效果,主要有神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)兩種[4?6],其中,神經(jīng)網(wǎng)絡(luò)的類型很多,但它們有一個(gè)共同要求:網(wǎng)絡(luò)流量異常訓(xùn)練樣本的數(shù)量要達(dá)到一定規(guī)模,如果沒有達(dá)到這個(gè)要求,那么網(wǎng)絡(luò)流量異常檢測結(jié)果就不理想;如果滿足該要求,就可以獲得理想的網(wǎng)絡(luò)流量異常檢測結(jié)果。因此,該類建模方法的網(wǎng)絡(luò)流量異常檢測結(jié)果不穩(wěn)定,而且存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)難以確定的不足,在網(wǎng)絡(luò)流量異常檢測中的應(yīng)用范圍受到一定限制[7]。與神經(jīng)網(wǎng)絡(luò)相比,支持向量機(jī)對網(wǎng)絡(luò)流量訓(xùn)練樣本的數(shù)量要求沒有那么嚴(yán)格,而且其學(xué)習(xí)能力更優(yōu),因此,在網(wǎng)絡(luò)流量異常檢測的應(yīng)用范圍更廣[8?10]。然而隨著網(wǎng)絡(luò)流量異常檢測研究的不斷深入,學(xué)者們發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)流量規(guī)模較大時(shí),支持向量機(jī)的建模時(shí)間長,建模效率低,影響實(shí)際應(yīng)用價(jià)值。最小二乘支持向量機(jī)是一種比標(biāo)準(zhǔn)支持向量機(jī)學(xué)習(xí)速度更快的算法,且沒有標(biāo)準(zhǔn)支持向量機(jī)工作復(fù)雜,為網(wǎng)絡(luò)流量異常檢測提供了一種有效的研究工具[11]。
近年來,隨著云平臺(tái)處理技術(shù)的不斷成熟,可以將一個(gè)大規(guī)模網(wǎng)絡(luò)流量異常檢測問題劃分為多個(gè)子問題,通過HDOOP對它們分別進(jìn)行處理,然后對子任務(wù)處理結(jié)果進(jìn)行融合,得到最終網(wǎng)絡(luò)流量的處理結(jié)果。為了更加準(zhǔn)確地對網(wǎng)絡(luò)流量異常進(jìn)行檢測,提出一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測模型,并在Matlab 2014平臺(tái)對網(wǎng)絡(luò)流量異常檢測效果進(jìn)行測試,本文模型大幅度改善了網(wǎng)絡(luò)流量異常檢測正確率,而且檢測性能要優(yōu)于對比模型。
1 HDOOP平臺(tái)和最小二乘支持向量機(jī)
1.1 HDOOP平臺(tái)
隨著處理數(shù)據(jù)規(guī)模的不斷增加,數(shù)據(jù)以海量的形式存在,一臺(tái)計(jì)算機(jī)無法有效地對數(shù)據(jù)進(jìn)行處理,在該背景下出現(xiàn)了云計(jì)算系統(tǒng)。在云計(jì)算系統(tǒng)中,通常以HDOOP作為平臺(tái),采用Map/Reduce分布式模式處理海量數(shù)據(jù),典型的HDOOP平臺(tái)工作原理如圖1所示。
首先,將海量網(wǎng)絡(luò)流量異常數(shù)據(jù)檢測任務(wù)劃分為多個(gè)子任務(wù),每一個(gè)子任務(wù)采用一個(gè)節(jié)點(diǎn)完成,然后將結(jié)果反饋到管理節(jié)點(diǎn)。endprint
主管理節(jié)點(diǎn)對所有節(jié)點(diǎn)結(jié)果進(jìn)行融合,得到網(wǎng)絡(luò)流量的異常檢測結(jié)果。
1.2 最小二乘支持向量機(jī)
針對標(biāo)準(zhǔn)支持向量機(jī)學(xué)習(xí)速度慢的缺陷,有學(xué)者提出最小二乘支持向量機(jī),主要改進(jìn)表現(xiàn)在:
1) 不等式約束變?yōu)榈仁郊s束;
2) 損失函數(shù)作為經(jīng)驗(yàn)函數(shù);
3) 二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題。
設(shè)網(wǎng)絡(luò)流量異常檢測的樣本集為,選擇RBF徑向基函數(shù)作為核函數(shù),具體為:
式中表示RBF徑向基函數(shù)的寬度參數(shù)。
最小二乘支持向量機(jī)的最優(yōu)決策函數(shù)可以表示為:
式中表示正則化參數(shù)。
為了解決式(2)的問題,引入拉格朗日乘子算法,則有:
式中表示拉格朗日乘子。
令的偏導(dǎo)數(shù)均等于0,即:
根據(jù)Mercer條件可以得到那么有:
最小二乘支持向量機(jī)的最優(yōu)決策函數(shù)變?yōu)椋?/p>
2 大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測模型
大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測模型的工作步驟為:
1) 在線采集網(wǎng)絡(luò)流量的相關(guān)數(shù)據(jù),通常采用網(wǎng)絡(luò)入侵時(shí)的數(shù)據(jù)作為網(wǎng)絡(luò)流量異常測試。
2) 對原始網(wǎng)絡(luò)流量異常測試數(shù)據(jù)進(jìn)行如下處理,縮小數(shù)據(jù)的范圍,加快最小二乘支持向量機(jī)的學(xué)習(xí)速度。
3) 將網(wǎng)絡(luò)流量異常檢測樣本劃分為多個(gè)子樣本集,每一個(gè)子樣本集采用一個(gè)最小二乘支持向量機(jī)進(jìn)行建模。
4) 確定最小二乘支持向量機(jī)的參數(shù),并建立最小二乘支持向量機(jī)的訓(xùn)練樣本和測試樣本。
5) 在每一個(gè)節(jié)點(diǎn)上,將訓(xùn)練樣本輸入到最小二乘支持向量機(jī)中進(jìn)行學(xué)習(xí),構(gòu)建描述輸入和輸出之間映射關(guān)系的網(wǎng)絡(luò)流量異常檢測模型。
6) 將網(wǎng)絡(luò)流量異常檢測結(jié)果回拷給管理節(jié)點(diǎn),得到訓(xùn)練樣本異常檢測的最終結(jié)果。
7) 采用測試樣本對建立的網(wǎng)絡(luò)流量異常檢測模型的性能進(jìn)行測試和分析,如果檢測結(jié)果不能滿足實(shí)際應(yīng)用要求,重新進(jìn)行訓(xùn)練,不斷循環(huán)過程,直到滿足要求為止。
3 仿真實(shí)驗(yàn)環(huán)境
3.1 實(shí)驗(yàn)環(huán)境以及參數(shù)設(shè)置
為了測試本文網(wǎng)絡(luò)流量異常檢測模型的有效性,在Matlab 2014平臺(tái)進(jìn)行仿真模擬實(shí)驗(yàn)。計(jì)算機(jī)的配置為:Intel 4核2.90 GHz CUP,AMD的顯卡,500 GB的硬盤,32 GB的內(nèi)存,WIN 10的操作系統(tǒng)。同時(shí)為了測試優(yōu)越性,選擇網(wǎng)絡(luò)流量異常檢測模型在相同仿真環(huán)境下進(jìn)行對比實(shí)驗(yàn)。最小二乘支持向量機(jī)的參數(shù)設(shè)置為:=124,=65.75。
通常情況下網(wǎng)絡(luò)系統(tǒng)狀態(tài)是正常的,如果存在一些非法入侵行為時(shí),網(wǎng)絡(luò)流量就會(huì)呈現(xiàn)一種異常狀態(tài),其中拒絕服務(wù)攻擊(DoS)出現(xiàn)頻率最高,為此,選擇該情況作為網(wǎng)絡(luò)流量異常檢測的測試對象。當(dāng)出現(xiàn)DoS行為時(shí),網(wǎng)絡(luò)流量的值會(huì)發(fā)生突變,變化曲線產(chǎn)生突變峰,采集的網(wǎng)絡(luò)流量數(shù)據(jù)如圖2所示。
3.2 結(jié)果與分析
根據(jù)上述模型的工作過程,對圖2的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行檢測,統(tǒng)計(jì)它們的檢測正確率,每一種模型運(yùn)行5次,得到的結(jié)果如圖3所示,并統(tǒng)計(jì)檢測它們的誤檢率,結(jié)果如圖4所示。從圖3可知,與對比的網(wǎng)絡(luò)流量異常檢測模型相比,本文模型的網(wǎng)絡(luò)流量異常檢測正確率明顯提高,可以對網(wǎng)絡(luò)流量異常行為進(jìn)行準(zhǔn)確、有效地檢測,同時(shí)從圖4可知,網(wǎng)絡(luò)流量異常的誤檢率顯著減少,降低了網(wǎng)絡(luò)流量異常檢測的錯(cuò)誤數(shù)量,獲得了十分理想的網(wǎng)絡(luò)流量異常檢測結(jié)果。
對于大數(shù)據(jù)的網(wǎng)絡(luò)流量異常檢測,檢測實(shí)時(shí)性十分關(guān)鍵,為此統(tǒng)計(jì)兩種模型的網(wǎng)絡(luò)流量異常檢測時(shí)間,結(jié)果如表1所示。從表1可知,本文模型的網(wǎng)絡(luò)流量異常檢測時(shí)間大約是對比模型的加快了網(wǎng)絡(luò)流量異常檢測的速度,這主要是由于本文模型采用HDOOP模型將大數(shù)據(jù)的網(wǎng)絡(luò)流量異常檢測任務(wù)劃分為多個(gè)子任務(wù),通過管理節(jié)點(diǎn)對檢測結(jié)果進(jìn)行融合,減少了網(wǎng)絡(luò)流量異常檢測的建模時(shí)間,可以滿足網(wǎng)絡(luò)流量異常的實(shí)時(shí)性。
4 結(jié) 論
流量異常檢測是網(wǎng)絡(luò)系統(tǒng)研究領(lǐng)域中的難點(diǎn),針對當(dāng)前模型存在的不足,提出大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測模型,對仿真實(shí)驗(yàn)的結(jié)果進(jìn)行分析,可得到如下結(jié)論:
1) 采用HDOOP對大數(shù)據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分而治之的模式進(jìn)行處理,加快了網(wǎng)絡(luò)流量異常檢測的速度,可以滿足大數(shù)據(jù)的網(wǎng)絡(luò)流量異常檢測實(shí)際要求。
2) 采用最小二乘支持向量機(jī)對網(wǎng)絡(luò)流量異常檢測進(jìn)行建模,模擬了輸入和輸出之間的映射關(guān)系,建立了理想的網(wǎng)絡(luò)流量異常檢測模型,提高了網(wǎng)絡(luò)流量異常檢測的正確率。
3) 本文僅基于網(wǎng)絡(luò)流量異常數(shù)據(jù)進(jìn)行建模,沒有考慮噪聲以及最小二乘支持向量機(jī)參數(shù)對網(wǎng)絡(luò)流量異常檢測結(jié)果的影響,這是進(jìn)一步需要研究的內(nèi)容。
參考文獻(xiàn)
[1] CASAS P, VATON S, FILLATR L, et al. Optimal volume anomaly detection and isolation in large?scale IP networks using coarse?grained measurements [J]. Computer networks, 2010, 54: 1750?1766.
[2] 鄒柏賢.一種網(wǎng)絡(luò)異常實(shí)時(shí)檢測方法[J].計(jì)算機(jī)學(xué)報(bào),2003,26(8):940?947.
ZOU Baixian. A real?time detection method for network anomaly [J]. Chinese journal of computers, 2003, 26(8): 940?947.
[3] 張登銀,廖建飛.基于相對熵的網(wǎng)絡(luò)流量異常檢測方法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,32(5):26?31.endprint
ZHANG Dengyin, LIAO Jianfei. Network traffic anomaly detection based on relative entropy [J]. Journal of Nanjing University of Posts and Telecommunications (natural science), 2012, 32(5): 26?31.
[4] 曹敏,程?hào)|年.基于自適應(yīng)閾值的網(wǎng)絡(luò)流量異常檢測算法[J].計(jì)算機(jī)工程,2009,35(19):164?166.
CAO Min, CHENG Dongnian. Network traffic abnormality detection algorithm based on self?adaptive threshold [J]. Computer engineering, 2009, 35(19): 164?166.
[5] 溫祥西,孟相如,馬志強(qiáng),等.基于局部投影降噪和FSVDD的網(wǎng)絡(luò)流量異常檢測[J].計(jì)算機(jī)應(yīng)用研究,2013,30(5):1523?1526.
WEN Xiangxi, MENG Xiangru, MA Zhiqiang, et al. Network traffic anomaly detection based on local projection denoise and FSVDD [J]. Application research of computers, 2013, 30(5): 1523?1526.
[6] 邱衛(wèi),楊英杰.基于尖點(diǎn)突變模型的聯(lián)動(dòng)網(wǎng)絡(luò)流量異常檢測方法[J].計(jì)算機(jī)科學(xué),2016,43(3):163?167.
QIU Wei, YANG Yingjie. Interaction network traffic anomaly detection method based on cusp catastrophic model [J]. Computer science, 2016, 43(3): 163?167.
[7] 米捷,王佳欣.多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,29(1):62?66.
MI Jie, WANG Jiaxin. Research on anomaly detection algorithm of multi layer data center network traffic [J]. Journal of Henan University of Engineering (natural science edition), 2017, 29(1): 62?66.
[8] 費(fèi)金龍,王禹,王天鵬,等.基于云模型的網(wǎng)絡(luò)異常流量檢測[J].計(jì)算機(jī)工程,2017,43(1):178?182.
FEI Jinlong, WANG Yu, WANG Tianpeng, et al. Network traffic anomaly detection based on cloud model [J]. Computer engineering, 2017, 43(1): 178?182.
[9] 李宇翀,魏東,羅興國,等.基于多元增量分析的全網(wǎng)絡(luò)在線異常檢測方法[J].上海交通大學(xué)學(xué)報(bào),2017,29(1):62?66.
LI Yuchong, WEI Dong, LUO Xingguo, et al. Online network?wide anomaly detection algorithm based on multivariate incremental component analysis [J]. Journal of Shanghai Jiaotong University, 2017, 29(1): 62?66.
[10] 劉仁山,孟祥宏.基于時(shí)間特征的網(wǎng)絡(luò)流量異常檢測[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,32(4):544?548.
LIU Renshan, MENG Xianghong. Anomaly detection of network traffic based on time characteristics [J]. Journal of Liaoning Technical University (natural science), 2013, 32(4): 544?548.
[11] 韓敏,穆大蕓.回聲狀態(tài)網(wǎng)絡(luò)LM算法及混沌時(shí)間序列預(yù)測[J].控制與決策,2011,26(10):1469?1472.
HAN Min, MU Dayun. LM algorithm in echo state network for chaotic time series prediction [J]. Control and decision, 2011, 26(10): 1469?1472.endprint