基于離散載荷特征的即時通訊軟件流量分類方法

2020-09-10 06:50崔弘蔣言郭士串汪洋

網(wǎng)絡(luò)空間安全 2020年8期

崔弘，蔣言，郭士串，汪洋

（烽火通信科技股份有限公司，江蘇南京 210019）

1 引言

隨著大數(shù)據(jù)時代的到來，在計算機(jī)網(wǎng)絡(luò)方向的工程應(yīng)用中，很多時候都需要對流量所屬應(yīng)用類型進(jìn)行識別，軟件流量識別分類是網(wǎng)絡(luò)管理、網(wǎng)絡(luò)安全和流量工程等網(wǎng)絡(luò)研究和應(yīng)用的重要組成部分，也是解決網(wǎng)絡(luò)擁塞、安全監(jiān)管、網(wǎng)絡(luò)異常檢測等研究的基礎(chǔ)。

在互聯(lián)網(wǎng)流量識別的歷史中，經(jīng)歷了3個階段：第一個階段是通過端口來識別，但是后來由于動態(tài)端口和偽裝端口等技術(shù)的出現(xiàn)導(dǎo)致這個方法不再適用；第二個階段是采用深度包檢測技術(shù)，基于應(yīng)用層的流量檢測和控制技術(shù)，當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過時，DPI系統(tǒng)通過深入讀取IP包載荷的內(nèi)容來對協(xié)議中的應(yīng)用層信息進(jìn)行分析讀取，進(jìn)而識別各類型應(yīng)用[1,2]；第三個階段是通過機(jī)器學(xué)習(xí)的方法識別流量，通過統(tǒng)計一系列流量數(shù)據(jù)的外在特性來形成特征，例如流的持續(xù)時間和分組的數(shù)目等外在特征，然后采用機(jī)器學(xué)習(xí)的方法訓(xùn)練模型進(jìn)行流量識別[3]。本文采用第二類和第三類相結(jié)合的方式，考慮到數(shù)據(jù)外在特征的抽取具有一定的迷惑性，同時在進(jìn)行純凈數(shù)據(jù)提取時會損失大量的外在特性，所以本文首先對即時通訊軟件流數(shù)據(jù)提取報文載荷，利用信息熵對獲得特征進(jìn)行離散化處理，結(jié)合離散載荷特征與XGBoost的方法進(jìn)行流量數(shù)據(jù)量化與分類訓(xùn)練，該方法具有數(shù)據(jù)處理效率高、適應(yīng)性強(qiáng)、流量分類精度高等優(yōu)點。

2 流量載荷特征提取

本文所使用的數(shù)據(jù)來源于多個手機(jī)端即時通訊軟件聊天流量數(shù)據(jù)，其中包括圖片、語音、文字等不同形式數(shù)據(jù)。分別對每種類別通訊軟件利用Wireshark抓取對應(yīng)軟件的聊天流量數(shù)據(jù)報文，由于在Wireshark抓取過程中無法避免噪音流量的數(shù)據(jù)的干擾，需要對抓取的每類報文數(shù)據(jù)進(jìn)行提純。

2.1 數(shù)據(jù)報文的提純

為了能充分利用報文中所有信息，又能準(zhǔn)確提取有價值數(shù)據(jù)降低數(shù)據(jù)維度，此次提純的方式采用五元組（源IP地址、源端口、目的IP地址、目的端口、傳輸層協(xié)議）識別的方式進(jìn)行，首先采用五元組對各流量數(shù)據(jù)進(jìn)行聚類，然后對于聚類后的數(shù)據(jù)，剔除數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層數(shù)據(jù)維度，提取傳輸層有效凈載荷構(gòu)建識別模型[4～6]。通過這種方式獲取到的報文基本只屬于對應(yīng)的通訊軟件，由此獲得純凈的輸入數(shù)據(jù)。報文的示意圖如圖1所示。

圖1 報文示意圖

對每條報文去除五元組頭部信息，只保留數(shù)據(jù)部分，為了防止心跳報文等空報文的影響，同時避免數(shù)據(jù)字段后續(xù)部分無用信息的影響，只保留每條報文前50個字節(jié)長度的數(shù)據(jù)，同時舍去小于9個字節(jié)的報文數(shù)據(jù)，對于大于9個字節(jié)不足50個字節(jié)的數(shù)據(jù)設(shè)置缺失值為0。同時以每條報文中每個字節(jié)為一個特征維度，將每個十六進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)，對于每一條報文數(shù)據(jù)，這樣可以得到一個特征維度為50的輸入向量，每個特征均為正整數(shù)數(shù)值類型。為避免類別數(shù)量不均衡帶來不良影響，設(shè)置獲取的每種類別報文均為10,000條。數(shù)據(jù)準(zhǔn)備過程示意圖如圖2所示。

圖2 數(shù)據(jù)準(zhǔn)備過程示意圖

對所有的原始報文流數(shù)據(jù)，依據(jù)五元組特征對五元組進(jìn)行聚類，通過報文提純的方式對各五元組提取其中的有效載荷，具體聚類流程如圖3所示。

2.2 載荷特征離散化

圖3 五元組聚類示意圖

謝宏和程浩忠等[7～9]人提出當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量通常不足以使用連續(xù)特征來獲得準(zhǔn)確的模型時，使用離散特征而不是連續(xù)特征的算法的分類誤差較低。由于網(wǎng)絡(luò)流量中的IP地址、協(xié)議和端口等屬性在分布特征上表現(xiàn)出較強(qiáng)的自相似性和重尾特性，各個屬性在分布特征上存在明顯的差異[10]。因此將信息熵應(yīng)用于載荷特征離散化，用熵值量化網(wǎng)絡(luò)流量載荷的不同屬性。特征離散化就是在特定屬性的取值范圍內(nèi)設(shè)定若干個劃分點（即斷點），將該屬性的值域范圍劃分成一些子區(qū)間（離散化區(qū)間），每個子區(qū)間用一個符號或整數(shù)值代替[11]。本文采用信息熵方法對提取的五元組連續(xù)載荷特征進(jìn)行離散化，分別計算每條報文流在這些有效載荷上的熵值。

（1）信息熵離散化原理

上式中、為可調(diào)參數(shù)，可用于控制屬性X的離散區(qū)間數(shù)k。本文取，則準(zhǔn)則函數(shù)簡化為：。

豬偽狂犬病毒，除感染豬外，還可以感染多種家畜和野生動物，是一種急性傳染性疾病。豬偽狂犬病發(fā)病沒有季節(jié)性限制，春夏秋冬四季均可發(fā)生，但以冬春季節(jié)氣溫寒冷、外界應(yīng)激因素多變造成的發(fā)病率和死亡率最高?；疾∝i和帶毒豬可以通過體內(nèi)分泌物、流產(chǎn)物、尿液、乳汁排毒，健康豬接觸這些污染物質(zhì)后，感染該種病毒的幾率極大增加。近年，隨著豬養(yǎng)殖產(chǎn)業(yè)不斷向集約化和規(guī)?；较虬l(fā)展，豬偽狂犬病已經(jīng)成為嚴(yán)重?fù)p害豬養(yǎng)殖產(chǎn)業(yè)健康發(fā)展的主要病毒性疾病。因此，做好該種疾病的防控，具有重大現(xiàn)實意義。

（2）信息熵方法離散化算法

基于Shannon熵的準(zhǔn)則函數(shù)，通訊流量的特征離散化算法步驟為：

步驟一：對報文載荷區(qū)間進(jìn)行初始化。依次掃描各個報文，使單個取值的樣本成為一個區(qū)間，記錄每個區(qū)間的相關(guān)信息；

步驟二：對于單個報文，掃描所有載荷區(qū)間，按區(qū)間內(nèi)樣本值的大小對區(qū)間進(jìn)行遞增排序；

步驟三：對排序后的區(qū)間進(jìn)行掃描，如果兩個相鄰區(qū)間內(nèi)樣本的分類情況對應(yīng)相同，將這兩個區(qū)間合并。每合并一次，區(qū)間數(shù)減1，合并結(jié)束后得到k個區(qū)間；

由于該算法只針對單個載荷特征，而實際報文中往往有多個載荷特征，因此需要按照以上步驟，對多個載荷特征分別使用該算法進(jìn)行離散化計算熵值。

3 通訊流量分類模型構(gòu)建

APP識別模型，本質(zhì)上是一個多分類的問題。對于多分類問題，通常有兩種實現(xiàn)模式，一是直接進(jìn)行多種類別編碼，二是劃分為多個二分類問題。前者一次訓(xùn)練，耗時小、預(yù)測快，但不易于增量擴(kuò)展；后者需要構(gòu)建多個識別模型，訓(xùn)練耗時、預(yù)測總時間也長，但易于增量擴(kuò)展。本項目采用第二種方法，即針對N個APP中的每個APP，分別訓(xùn)練N個二分類模型；測試時，對于任意一條(或一批)報文，同時丟入N個二分類模型，最后取N個模型得分最高者作為輸出。多二分類器的流量識別模型如圖4所示。

圖4 多二分類器的流量識別模型

對通訊軟件各批報文數(shù)據(jù)分別提取五元組中有效載荷的基礎(chǔ)上，通過Shannon熵方法對各個有效載荷劃分為離散化區(qū)間，并對離散區(qū)間計算有效載荷熵值。采用構(gòu)建好的APP分類器分別對每個五元組的每個報文的五元組載荷特征熵值進(jìn)行識別，再對每個五元組的識別結(jié)果，依據(jù)得分高低進(jìn)行競選投票，最后輸出該五元組的流量歸屬類別，模型構(gòu)建流程示意圖如圖5所示。

圖5 模型構(gòu)建示意圖

4 實證分析

4.1 數(shù)據(jù)來源

本實驗針對目前市面上常見的10種手機(jī)即時通訊軟件（QQ、微信、Whatsapp、陌陌、COCO、易信、YY、阿里旺旺、微會、米聊），分別利用Wireshark抓取對應(yīng)軟件的聊天流量數(shù)據(jù)報文。由于在抓取過程中無法避免噪音流量的數(shù)據(jù)的干擾，對每類報文數(shù)據(jù)進(jìn)行提純，通過報文提純的方式對各五元組提取其中的有效載荷，獲得每種類別的五元組連續(xù)數(shù)據(jù)10,000條。為了描述載荷分布特征差異，提高分類準(zhǔn)確率，對五元組加載荷連續(xù)特征離散化后，每種類別五元組報文數(shù)據(jù)均為10,000條，數(shù)據(jù)總量為100,000條。

對于每種通訊軟件，設(shè)置訓(xùn)練數(shù)據(jù)：測試數(shù)據(jù)=0.7:0.3，因為訓(xùn)練模型為二分類模型，故針對每種訓(xùn)練模型，設(shè)置對應(yīng)訓(xùn)練類別為正例，其余9種數(shù)據(jù)混合為反例，反例中保持9種數(shù)據(jù)數(shù)量相等，且正例數(shù)據(jù)量與反例數(shù)據(jù)量相等。針對每個分類模型的訓(xùn)練數(shù)據(jù)量和測試數(shù)據(jù)量為7,000條和3,000條，其中訓(xùn)練數(shù)據(jù)中3,500條為正例，3,500條為反例，測試數(shù)據(jù)中1,500條為正例，1,500條為反例。

4.2 實驗環(huán)境

實驗采用機(jī)器學(xué)習(xí)模型廣泛使用的框架Scikit-learn，具體軟硬件環(huán)境如表1所示。

表1 實驗軟硬件環(huán)境

4.3 XGBoost參數(shù)設(shè)置

XGBoost采用樹模型，Silent采用默認(rèn)值打印運(yùn)行時輸出信息，有助于模型的調(diào)參，Nthread為XGBoost運(yùn)行時的線程數(shù)，基于實驗室設(shè)備，在保證運(yùn)行速度情況下設(shè)置為4；學(xué)習(xí)率eta是在更新過程中用到的收縮步長，決定著學(xué)習(xí)速度的快慢，一般設(shè)置為0.01到0.2之間，本次實驗設(shè)置為0.02。Gamma默認(rèn)值為0，max_depth表示樹的最大深度，其設(shè)置得當(dāng)可以防止過擬合，本次實驗設(shè)置值為8。由于本次實驗選取的數(shù)據(jù)類別平衡性良好，故max_delta_step、scale_pos_weight等參數(shù)使用默認(rèn)值即可，對于學(xué)習(xí)任務(wù)和學(xué)習(xí)目標(biāo)中的目標(biāo)函數(shù)選定為multi:softprob，輸出為類別數(shù)*訓(xùn)練數(shù)據(jù)量大小的矩陣，每行數(shù)據(jù)表示每個樣本屬于各個類別的概率。選取最大的概率對應(yīng)的類別作為分類器對輸入數(shù)據(jù)預(yù)測的類別。經(jīng)過調(diào)整最終設(shè)置循環(huán)迭代次數(shù)為30次。

4.4 實驗結(jié)果

分別采用離散載荷特征與連續(xù)載荷特征構(gòu)建XGBoost分類模型，以測試模型的準(zhǔn)確率與召回率作為比較依據(jù)。測試性能結(jié)果如表2所示，由于離散載荷考慮了流量數(shù)據(jù)的分布特征，量化了流量載荷的不同屬性，所以采用離散化流量分類器比連續(xù)流量特征分類更有效。

4.5 與其他分類方法對比

分別與隨機(jī)森林、SVM以及樸素貝葉斯進(jìn)行對比。在相同數(shù)據(jù)的情況下其他分類算法的測試性能結(jié)果如圖6所示，可以看出XGBoost在識別手機(jī)即時通訊應(yīng)用具有較高的準(zhǔn)確率和召回率，同時其比隨機(jī)森林、SVM和樸素貝葉斯算法在大部分應(yīng)用流量識別情景中的應(yīng)用性能要高。

表2 XGBoost測試性能結(jié)果

圖6 RF、SVM、MNB測試性能結(jié)果

5 結(jié)束語

本文提出一種基于離散載荷特征的即時通訊軟件流量分類技術(shù)，一是基于信息熵對流量特征進(jìn)行離散化，了解流量特征分布情況以便進(jìn)行流量分類，二是采用了具有自學(xué)習(xí)、自適應(yīng)功能的XGBoost算法提高了流量識別的準(zhǔn)確率和識別速率。實驗結(jié)果表明，本方法對即時通訊軟件流量分類的準(zhǔn)確率高達(dá)92.6%，較傳統(tǒng)流量分類方法準(zhǔn)確率提高4.3%，與采用連續(xù)特征分類相比分類準(zhǔn)確率提高2.3%。綜上所述基于離散載荷特征的即時通訊軟件流量分類技術(shù)這項研究對市場手機(jī)通訊軟件的使用分布，以及通訊軟件的逆向追蹤都有著極其重要的現(xiàn)實意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡