崔弘,蔣言,郭士串,汪洋
(烽火通信科技股份有限公司,江蘇南京 210019)
隨著大數(shù)據(jù)時代的到來,在計算機(jī)網(wǎng)絡(luò)方向的工程應(yīng)用中,很多時候都需要對流量所屬應(yīng)用類型進(jìn)行識別,軟件流量識別分類是網(wǎng)絡(luò)管理、網(wǎng)絡(luò)安全和流量工程等網(wǎng)絡(luò)研究和應(yīng)用的重要組成部分,也是解決網(wǎng)絡(luò)擁塞、安全監(jiān)管、網(wǎng)絡(luò)異常檢測等研究的基礎(chǔ)。
在互聯(lián)網(wǎng)流量識別的歷史中,經(jīng)歷了3個階段:第一個階段是通過端口來識別,但是后來由于動態(tài)端口和偽裝端口等技術(shù)的出現(xiàn)導(dǎo)致這個方法不再適用;第二個階段是采用深度包檢測技術(shù),基于應(yīng)用層的流量檢測和控制技術(shù),當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過時,DPI系統(tǒng)通過深入讀取IP包載荷的內(nèi)容來對協(xié)議中的應(yīng)用層信息進(jìn)行分析讀取,進(jìn)而識別各類型應(yīng)用[1,2];第三個階段是通過機(jī)器學(xué)習(xí)的方法識別流量,通過統(tǒng)計一系列流量數(shù)據(jù)的外在特性來形成特征,例如流的持續(xù)時間和分組的數(shù)目等外在特征,然后采用機(jī)器學(xué)習(xí)的方法訓(xùn)練模型進(jìn)行流量識別[3]。本文采用第二類和第三類相結(jié)合的方式,考慮到數(shù)據(jù)外在特征的抽取具有一定的迷惑性,同時在進(jìn)行純凈數(shù)據(jù)提取時會損失大量的外在特性,所以本文首先對即時通訊軟件流數(shù)據(jù)提取報文載荷,利用信息熵對獲得特征進(jìn)行離散化處理,結(jié)合離散載荷特征與XGBoost的方法進(jìn)行流量數(shù)據(jù)量化與分類訓(xùn)練,該方法具有數(shù)據(jù)處理效率高、適應(yīng)性強(qiáng)、流量分類精度高等優(yōu)點。
本文所使用的數(shù)據(jù)來源于多個手機(jī)端即時通訊軟件聊天流量數(shù)據(jù),其中包括圖片、語音、文字等不同形式數(shù)據(jù)。分別對每種類別通訊軟件利用Wireshark抓取對應(yīng)軟件的聊天流量數(shù)據(jù)報文,由于在Wireshark抓取過程中無法避免噪音流量的數(shù)據(jù)的干擾,需要對抓取的每類報文數(shù)據(jù)進(jìn)行提純。
為了能充分利用報文中所有信息,又能準(zhǔn)確提取有價值數(shù)據(jù)降低數(shù)據(jù)維度,此次提純的方式采用五元組(源IP地址、源端口、目的IP地址、目的端口、傳輸層協(xié)議)識別的方式進(jìn)行,首先采用五元組對各流量數(shù)據(jù)進(jìn)行聚類,然后對于聚類后的數(shù)據(jù),剔除數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層數(shù)據(jù)維度,提取傳輸層有效凈載荷構(gòu)建識別模型[4~6]。通過這種方式獲取到的報文基本只屬于對應(yīng)的通訊軟件,由此獲得純凈的輸入數(shù)據(jù)。報文的示意圖如圖1所示。
圖1 報文示意圖
對每條報文去除五元組頭部信息,只保留數(shù)據(jù)部分,為了防止心跳報文等空報文的影響,同時避免數(shù)據(jù)字段后續(xù)部分無用信息的影響,只保留每條報文前50個字節(jié)長度的數(shù)據(jù),同時舍去小于9個字節(jié)的報文數(shù)據(jù),對于大于9個字節(jié)不足50個字節(jié)的數(shù)據(jù)設(shè)置缺失值為0。同時以每條報文中每個字節(jié)為一個特征維度,將每個十六進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù),對于每一條報文數(shù)據(jù),這樣可以得到一個特征維度為50的輸入向量,每個特征均為正整數(shù)數(shù)值類型。為避免類別數(shù)量不均衡帶來不良影響,設(shè)置獲取的每種類別報文均為10,000條。數(shù)據(jù)準(zhǔn)備過程示意圖如圖2所示。
圖2 數(shù)據(jù)準(zhǔn)備過程示意圖
對所有的原始報文流數(shù)據(jù),依據(jù)五元組特征對五元組進(jìn)行聚類,通過報文提純的方式對各五元組提取其中的有效載荷,具體聚類流程如圖3所示。
圖3 五元組聚類示意圖
謝宏和程浩忠等[7~9]人提出當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量通常不足以使用連續(xù)特征來獲得準(zhǔn)確的模型時,使用離散特征而不是連續(xù)特征的算法的分類誤差較低。由于網(wǎng)絡(luò)流量中的IP地址、協(xié)議和端口等屬性在分布特征上表現(xiàn)出較強(qiáng)的自相似性和重尾特性,各個屬性在分布特征上存在明顯的差異[10]。因此將信息熵應(yīng)用于載荷特征離散化,用熵值量化網(wǎng)絡(luò)流量載荷的不同屬性。特征離散化就是在特定屬性的取值范圍內(nèi)設(shè)定若干個劃分點(即斷點),將該屬性的值域范圍劃分成一些子區(qū)間(離散化區(qū)間),每個子區(qū)間用一個符號或整數(shù)值代替[11]。本文采用信息熵方法對提取的五元組連續(xù)載荷特征進(jìn)行離散化,分別計算每條報文流在這些有效載荷上的熵值。
(1)信息熵離散化原理
上式中、為可調(diào)參數(shù),可用于控制屬性X的離散區(qū)間數(shù)k。本文取,則準(zhǔn)則函數(shù)簡化為:。
豬偽狂犬病毒,除感染豬外,還可以感染多種家畜和野生動物,是一種急性傳染性疾病。豬偽狂犬病發(fā)病沒有季節(jié)性限制,春夏秋冬四季均可發(fā)生,但以冬春季節(jié)氣溫寒冷、外界應(yīng)激因素多變造成的發(fā)病率和死亡率最高?;疾∝i和帶毒豬可以通過體內(nèi)分泌物、流產(chǎn)物、尿液、乳汁排毒,健康豬接觸這些污染物質(zhì)后,感染該種病毒的幾率極大增加。近年,隨著豬養(yǎng)殖產(chǎn)業(yè)不斷向集約化和規(guī)?;较虬l(fā)展,豬偽狂犬病已經(jīng)成為嚴(yán)重?fù)p害豬養(yǎng)殖產(chǎn)業(yè)健康發(fā)展的主要病毒性疾病。因此,做好該種疾病的防控,具有重大現(xiàn)實意義。
(2)信息熵方法離散化算法
基于Shannon熵的準(zhǔn)則函數(shù),通訊流量的特征離散化算法步驟為:
步驟一:對報文載荷區(qū)間進(jìn)行初始化。依次掃描各個報文,使單個取值的樣本成為一個區(qū)間,記錄每個區(qū)間的相關(guān)信息;
步驟二:對于單個報文,掃描所有載荷區(qū)間,按區(qū)間內(nèi)樣本值的大小對區(qū)間進(jìn)行遞增排序;
步驟三:對排序后的區(qū)間進(jìn)行掃描,如果兩個相鄰區(qū)間內(nèi)樣本的分類情況對應(yīng)相同,將這兩個區(qū)間合并。每合并一次,區(qū)間數(shù)減1,合并結(jié)束后得到k個區(qū)間;
由于該算法只針對單個載荷特征,而實際報文中往往有多個載荷特征,因此需要按照以上步驟,對多個載荷特征分別使用該算法進(jìn)行離散化計算熵值。
APP識別模型,本質(zhì)上是一個多分類的問題。對于多分類問題,通常有兩種實現(xiàn)模式,一是直接進(jìn)行多種類別編碼,二是劃分為多個二分類問題。前者一次訓(xùn)練,耗時小、預(yù)測快,但不易于增量擴(kuò)展;后者需要構(gòu)建多個識別模型,訓(xùn)練耗時、預(yù)測總時間也長,但易于增量擴(kuò)展。本項目采用第二種方法,即針對N個APP中的每個APP,分別訓(xùn)練N個二分類模型;測試時,對于任意一條(或一批)報文,同時丟入N個二分類模型,最后取N個模型得分最高者作為輸出。多二分類器的流量識別模型如圖4所示。
圖4 多二分類器的流量識別模型
對通訊軟件各批報文數(shù)據(jù)分別提取五元組中有效載荷的基礎(chǔ)上,通過Shannon熵方法對各個有效載荷劃分為離散化區(qū)間,并對離散區(qū)間計算有效載荷熵值。采用構(gòu)建好的APP分類器分別對每個五元組的每個報文的五元組載荷特征熵值進(jìn)行識別,再對每個五元組的識別結(jié)果,依據(jù)得分高低進(jìn)行競選投票,最后輸出該五元組的流量歸屬類別,模型構(gòu)建流程示意圖如圖5所示。
圖5 模型構(gòu)建示意圖
本實驗針對目前市面上常見的10種手機(jī)即時通訊軟件(QQ、微信、Whatsapp、陌陌、COCO、易信、YY、阿里旺旺、微會、米聊),分別利用Wireshark抓取對應(yīng)軟件的聊天流量數(shù)據(jù)報文。由于在抓取過程中無法避免噪音流量的數(shù)據(jù)的干擾,對每類報文數(shù)據(jù)進(jìn)行提純,通過報文提純的方式對各五元組提取其中的有效載荷,獲得每種類別的五元組連續(xù)數(shù)據(jù)10,000條。為了描述載荷分布特征差異,提高分類準(zhǔn)確率,對五元組加載荷連續(xù)特征離散化后,每種類別五元組報文數(shù)據(jù)均為10,000條,數(shù)據(jù)總量為100,000條。
對于每種通訊軟件,設(shè)置訓(xùn)練數(shù)據(jù):測試數(shù)據(jù)=0.7:0.3,因為訓(xùn)練模型為二分類模型,故針對每種訓(xùn)練模型,設(shè)置對應(yīng)訓(xùn)練類別為正例,其余9種數(shù)據(jù)混合為反例,反例中保持9種數(shù)據(jù)數(shù)量相等,且正例數(shù)據(jù)量與反例數(shù)據(jù)量相等。針對每個分類模型的訓(xùn)練數(shù)據(jù)量和測試數(shù)據(jù)量為7,000條和3,000條,其中訓(xùn)練數(shù)據(jù)中3,500條為正例,3,500條為反例,測試數(shù)據(jù)中1,500條為正例,1,500條為反例。
實驗采用機(jī)器學(xué)習(xí)模型廣泛使用的框架Scikit-learn,具體軟硬件環(huán)境如表1所示。
表1 實驗軟硬件環(huán)境
XGBoost采用樹模型,Silent采用默認(rèn)值打印運(yùn)行時輸出信息,有助于模型的調(diào)參,Nthread為XGBoost運(yùn)行時的線程數(shù),基于實驗室設(shè)備,在保證運(yùn)行速度情況下設(shè)置為4;學(xué)習(xí)率eta是在更新過程中用到的收縮步長,決定著學(xué)習(xí)速度的快慢,一般設(shè)置為0.01到0.2之間,本次實驗設(shè)置為0.02。Gamma默認(rèn)值為0,max_depth表示樹的最大深度,其設(shè)置得當(dāng)可以防止過擬合,本次實驗設(shè)置值為8。由于本次實驗選取的數(shù)據(jù)類別平衡性良好,故max_delta_step、scale_pos_weight等參數(shù)使用默認(rèn)值即可,對于學(xué)習(xí)任務(wù)和學(xué)習(xí)目標(biāo)中的目標(biāo)函數(shù)選定為multi:softprob,輸出為類別數(shù)*訓(xùn)練數(shù)據(jù)量大小的矩陣,每行數(shù)據(jù)表示每個樣本屬于各個類別的概率。選取最大的概率對應(yīng)的類別作為分類器對輸入數(shù)據(jù)預(yù)測的類別。經(jīng)過調(diào)整最終設(shè)置循環(huán)迭代次數(shù)為30次。
分別采用離散載荷特征與連續(xù)載荷特征構(gòu)建XGBoost分類模型,以測試模型的準(zhǔn)確率與召回率作為比較依據(jù)。測試性能結(jié)果如表2所示,由于離散載荷考慮了流量數(shù)據(jù)的分布特征,量化了流量載荷的不同屬性,所以采用離散化流量分類器比連續(xù)流量特征分類更有效。
分別與隨機(jī)森林、SVM以及樸素貝葉斯進(jìn)行對比。在相同數(shù)據(jù)的情況下其他分類算法的測試性能結(jié)果如圖6所示,可以看出XGBoost在識別手機(jī)即時通訊應(yīng)用具有較高的準(zhǔn)確率和召回率,同時其比隨機(jī)森林、SVM和樸素貝葉斯算法在大部分應(yīng)用流量識別情景中的應(yīng)用性能要高。
表2 XGBoost測試性能結(jié)果
圖6 RF、SVM、MNB測試性能結(jié)果
本文提出一種基于離散載荷特征的即時通訊軟件流量分類技術(shù),一是基于信息熵對流量特征進(jìn)行離散化,了解流量特征分布情況以便進(jìn)行流量分類,二是采用了具有自學(xué)習(xí)、自適應(yīng)功能的XGBoost算法提高了流量識別的準(zhǔn)確率和識別速率。實驗結(jié)果表明,本方法對即時通訊軟件流量分類的準(zhǔn)確率高達(dá)92.6%,較傳統(tǒng)流量分類方法準(zhǔn)確率提高4.3%,與采用連續(xù)特征分類相比分類準(zhǔn)確率提高2.3%。綜上所述基于離散載荷特征的即時通訊軟件流量分類技術(shù)這項研究對市場手機(jī)通訊軟件的使用分布,以及通訊軟件的逆向追蹤都有著極其重要的現(xiàn)實意義。