崔嘉
摘 要: 隨著信息技術(shù)的發(fā)展,對(duì)等網(wǎng)絡(luò)P2P信息流量經(jīng)常出現(xiàn)偏離正常范圍的異常情況,這里以決策樹算法為基礎(chǔ),對(duì)P2P流量檢測(cè)和流量異常時(shí)的檢測(cè)技術(shù)進(jìn)行研究。采用改進(jìn)的C4.5決策樹P2P流量檢測(cè)模型,通過P2P流量異常檢測(cè)模型對(duì)大量訓(xùn)練數(shù)據(jù)集的訓(xùn)練,實(shí)現(xiàn)了對(duì)錯(cuò)誤的逐步修正,通過試驗(yàn)室仿真試驗(yàn)可知,經(jīng)過選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實(shí)現(xiàn)較好的分類效果,分類檢測(cè)率在94.6%~96.7%,較高的檢測(cè)率說明采用改進(jìn)的C4.5決策樹算法能有效地對(duì)P2P流量進(jìn)行檢測(cè),為研究P2P流量異常檢測(cè)技術(shù)提供了參考。
關(guān)鍵詞: P2P; 流量信息; 結(jié)構(gòu)異常; 決策樹; 檢測(cè)技術(shù)
中圖分類號(hào): TN711?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)09?0093?03
Abstract: With the development of information technology, the peer?to?peer (P2P) network information traffic often deviates from the normal range. The detection technology for P2P traffic detection and abnormal traffic is studied on the basis of the decision tree algorithm. The P2P traffic detection model based on improved C4.5 decision tree is used to train the massive training datasets by means of the P2P anomaly traffic detection model to modify the error gradually. The simulation test in laboratory was performed. The P2P network traffic classifier based on improved C4.5 decision tree has perfect classification effect after selecting the characteristics of the network traffic. The classification detection rate is 94.6%~96.7%, which shows that the improved C4.5 decision tree algorithm can detect the P2P traffic effectively, and provide the reference for studying the P2P anomaly traffic detection technology in future.
Keywords: P2P; traffic information; abnormal structure; decision tree; detection technology
0 引 言
目前,隨著信息技術(shù)的發(fā)展,對(duì)等網(wǎng)絡(luò)(P2P)信息流量增長(zhǎng)越來越快[1?3]。根據(jù)國(guó)內(nèi)互聯(lián)網(wǎng)流量模式報(bào)告顯示,在整個(gè)互聯(lián)網(wǎng)流量中,P2P流量占到70%左右[4]。近年來,經(jīng)常出現(xiàn)網(wǎng)絡(luò)流量偏離正常范圍的異常情況,導(dǎo)致流量出現(xiàn)異常主要是由惡意網(wǎng)絡(luò)攻擊造成的,如DOS攻擊、蠕蟲傳播、僵尸網(wǎng)絡(luò)等攻擊,同時(shí)由于網(wǎng)絡(luò)偶發(fā)性線路中斷、配置失誤也會(huì)引起流量的異常,這就會(huì)造成網(wǎng)絡(luò)服務(wù)質(zhì)量下降,嚴(yán)重時(shí)會(huì)直接導(dǎo)致網(wǎng)絡(luò)癱瘓[5]。
P2P大量占用互聯(lián)網(wǎng)帶寬,影響用戶上網(wǎng)正常運(yùn)行,檢測(cè)管控P2P流量是網(wǎng)絡(luò)管理難題[6]。因而在大規(guī)模網(wǎng)絡(luò)環(huán)境中,對(duì)網(wǎng)絡(luò)異常進(jìn)行檢測(cè),同時(shí)對(duì)網(wǎng)絡(luò)異常提供預(yù)警信息,對(duì)維護(hù)網(wǎng)絡(luò)正常運(yùn)行意義十分重大[7]。本文以決策樹算法為基礎(chǔ),對(duì)P2P流量檢測(cè)和流量異常時(shí)的檢測(cè)技術(shù)進(jìn)行研究。
1 對(duì)等網(wǎng)絡(luò)P2P概況
對(duì)等網(wǎng)絡(luò)P2P實(shí)質(zhì)上屬于分布式網(wǎng)絡(luò),參與者均可共享使用公共部分的一些硬件資源,如硬件處理和存儲(chǔ)能力,共享資源的服務(wù)、內(nèi)容由網(wǎng)絡(luò)提供,節(jié)點(diǎn)可對(duì)這些資源進(jìn)行直接訪問,不需要經(jīng)過任何中間實(shí)體。P2P最具有代表性的應(yīng)用是進(jìn)行文件共享,同時(shí)P2P的共享還有P2P計(jì)算、P2P形式的通信網(wǎng)絡(luò)等。P2P與客戶/服務(wù)器模型的區(qū)別是網(wǎng)絡(luò)中節(jié)點(diǎn)可對(duì)其他節(jié)點(diǎn)資源或服務(wù)進(jìn)行獲取,還可提供資源或服務(wù),這是P2P的基本思想。在P2P網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)具有對(duì)等的權(quán)利、義務(wù)、服務(wù)、通信、資源消費(fèi)。
2 P2P流量監(jiān)控系統(tǒng)結(jié)構(gòu)
P2P流量監(jiān)控系統(tǒng)功能包括檢測(cè)網(wǎng)絡(luò)流量、控制網(wǎng)絡(luò)流量?jī)刹糠帧?duì)網(wǎng)絡(luò)流量進(jìn)行控制的前提是準(zhǔn)確檢測(cè)網(wǎng)絡(luò)流量。在進(jìn)行流量檢測(cè)時(shí),流量特征和協(xié)議特征要進(jìn)行相互匹配,在未知流量匹配上以后,對(duì)其分類才能進(jìn)行識(shí)別,P2P流量檢測(cè)中必須具有協(xié)議特征庫(kù)的建立。同時(shí),進(jìn)行流量控制操作必須具備前臺(tái)管理界面,以便進(jìn)行人機(jī)交互、流量控制策略的下發(fā)、流量識(shí)別結(jié)果的觀察等,并在數(shù)據(jù)庫(kù)中存儲(chǔ)檢測(cè)結(jié)果、控制策略信息、協(xié)議特征等,P2P流量監(jiān)控系統(tǒng)整體結(jié)構(gòu)如圖1所示。
P2P流量監(jiān)控系統(tǒng)工作流程:首先對(duì)網(wǎng)絡(luò)應(yīng)用流量數(shù)據(jù)進(jìn)行全面采集,其次是建立協(xié)議特征庫(kù),對(duì)數(shù)據(jù)報(bào)文進(jìn)行離線分析,同時(shí)提取其特征碼,并建立協(xié)議特征庫(kù)。然后檢測(cè)網(wǎng)絡(luò)流量,對(duì)經(jīng)過流量監(jiān)控系統(tǒng)的未知流量,通過匹配算法將未知流量特征與協(xié)議規(guī)則相匹配,如匹配成功,則作為該協(xié)議識(shí)別給流量。最后對(duì)已識(shí)別流量進(jìn)行控制操作,完成阻斷訪問、限制流量速率。
3 基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識(shí)別算法
基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識(shí)別算法需要訓(xùn)練數(shù)據(jù),訓(xùn)練主要有兩步:訓(xùn)練進(jìn)行集中學(xué)習(xí),然后進(jìn)行構(gòu)造分類模型的測(cè)試;采用訓(xùn)練階段模型進(jìn)行未知數(shù)據(jù)的分類,計(jì)算識(shí)別準(zhǔn)確率,令訓(xùn)練集為:
式中:表示輸出類值。
在訓(xùn)練集中,找出輸入和輸出間的關(guān)系函數(shù),這就是分類的目的,通過函數(shù),輸入可輸出得到基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識(shí)別分類器如圖2所示。
監(jiān)督學(xué)習(xí)是訓(xùn)練決策樹最常見的技術(shù)之一。這種決策樹技術(shù)對(duì)事先確定分類系統(tǒng)給出的信息高度依賴。對(duì)于決策樹來說,可通過分類系統(tǒng)辨別哪類屬性提供的信息最多,可用決策樹解決分類系統(tǒng)問題。
4 算法設(shè)計(jì)
4.1 C4.5多決策樹分類算法
經(jīng)過數(shù)據(jù)預(yù)處理模塊,訓(xùn)練數(shù)據(jù)集生成決策樹可處理屬性的二維表形式。設(shè)訓(xùn)練數(shù)據(jù)集全部屬性集合為。整個(gè)屬性集PE,分成個(gè)小屬性集,每個(gè)小屬性集各自獨(dú)立。屬性所有不同取值集合為。生成的棵決策樹為,數(shù)據(jù)分類為。表示數(shù)據(jù)集合,集合中第條記錄用表示。表示訓(xùn)練數(shù)據(jù)及測(cè)試數(shù)據(jù),第條記錄用表示。系統(tǒng)分辨矩陣用對(duì)角矩陣表示,每項(xiàng)定義如下:
4.2 P2P流量異常檢測(cè)
P2P流量異常檢測(cè)的實(shí)質(zhì)是通過訓(xùn)練大量數(shù)據(jù),逐步對(duì)錯(cuò)誤進(jìn)行修正,形成精確預(yù)測(cè)模型。決策樹建立完后進(jìn)行數(shù)據(jù)集訓(xùn)練。訓(xùn)練數(shù)據(jù)集為TA,保存經(jīng)過某節(jié)點(diǎn)P2P類訓(xùn)練數(shù)據(jù)的數(shù)量為;保存經(jīng)過該節(jié)點(diǎn)類訓(xùn)練數(shù)據(jù)的數(shù)量為。
4.3 P2P屬性關(guān)鍵度決策樹分類算法
決策樹生成后,經(jīng)訓(xùn)練后,形成檢測(cè)模型,原始TCP/IP數(shù)據(jù)包被從網(wǎng)絡(luò)上截獲,經(jīng)過數(shù)據(jù)預(yù)處理后,TCP/IP數(shù)據(jù)由每棵子決策樹對(duì)其進(jìn)行判斷,對(duì)判斷結(jié)果進(jìn)行加權(quán)處理,得到最優(yōu)結(jié)果。第棵子決策樹用表示,存儲(chǔ)內(nèi)部節(jié)點(diǎn)數(shù)據(jù)訓(xùn)練的P2P類統(tǒng)計(jì)數(shù),存儲(chǔ)內(nèi)部節(jié)點(diǎn)數(shù)據(jù)訓(xùn)練的類統(tǒng)計(jì)數(shù),第棵子決策樹比率用表示,數(shù)據(jù)包在整個(gè)屬性集的比率用表示,關(guān)鍵度多決策樹分類算法流程圖如圖3所示。
根據(jù)屬性差異,可建立棵子決策樹,綜合考慮全部子決策樹屬性對(duì)分類的影響,能對(duì)整個(gè)問題進(jìn)行較好地反映,可使誤報(bào)率降低,檢測(cè)率提高。
5 仿真實(shí)驗(yàn)
本文的實(shí)驗(yàn)數(shù)據(jù)通過試驗(yàn)室仿真試驗(yàn)得到,仿真試驗(yàn)采用的軟件為Sniffer,在實(shí)驗(yàn)室PC(CPU為Athlon64 X2;雙核處理器4000+2.11 GHz;內(nèi)存2 GB)對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行實(shí)時(shí)采集。在訓(xùn)練分類器實(shí)驗(yàn)中,采用定時(shí)定量的P2P流量Data1,Data1數(shù)據(jù)量較小,實(shí)驗(yàn)數(shù)據(jù)集見表1。
在測(cè)試分類器實(shí)驗(yàn)中,采用Data2~Data5對(duì)虛警率、漏警率進(jìn)行嚴(yán)格測(cè)試,實(shí)驗(yàn)數(shù)據(jù)集見表2。
由表2可以看出,選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實(shí)現(xiàn)較好的分類效果,分類檢測(cè)率在94.6%~96.7%。
6 結(jié) 語(yǔ)
本文以決策樹算法為基礎(chǔ),對(duì)P2P流量檢測(cè)和流量異常時(shí)的檢測(cè)技術(shù)進(jìn)行研究。通過試驗(yàn)室仿真試驗(yàn),選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實(shí)現(xiàn)較好的分類效果,分類檢測(cè)率在94.6%~96.7%,較高的檢測(cè)率說明采用改進(jìn)的C4.5決策樹算法能有效地對(duì)P2P流量進(jìn)行檢測(cè),為今后研究P2P流量異常檢測(cè)技術(shù)提供了參考。
參考文獻(xiàn)
[1] 柴琦,曹旭東,王洪蕾,等.P2P流量監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)[J].電子設(shè)計(jì)工程,2016,24(11):64?67.
[2] 謝生鋒.基于數(shù)據(jù)挖掘的P2P流量檢測(cè)技術(shù)研究[J].計(jì)算機(jī)與網(wǎng)絡(luò),2015(13):71?73.
[3] 閆佳,應(yīng)凌云,劉海峰,等.結(jié)構(gòu)化對(duì)等網(wǎng)測(cè)量方法研究[J].軟件學(xué)報(bào),2014,25(6):1301?1315.
[4] 王菁菁,林琛,陳珂,等.基于MapReduce的Flash P2P VoD系統(tǒng)異常監(jiān)測(cè)[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,52(4):459?465.
[5] 李建.基于流量的P2P僵尸網(wǎng)絡(luò)檢測(cè)[J].計(jì)算機(jī)時(shí)代,2016(5):45?48.
[6] 馬麗娜.基于機(jī)器學(xué)習(xí)的GTalk流量識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[7] 譚紅春,楊松濤,闞紅星.校園網(wǎng)P2P流量綜合檢測(cè)技術(shù)研究[J].長(zhǎng)沙大學(xué)學(xué)報(bào),2015,29(2):70?72.