于 帥,董育寧,邱曉暉
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
網(wǎng)絡(luò)流量分類(lèi)(Network Traffic Classification,NTC)被用于服務(wù)質(zhì)量(Quality of Service,QoS)保證[1]、流量工程,以及惡意軟件檢測(cè)等,是一個(gè)熱門(mén)的研究領(lǐng)域[2]。 近年來(lái)隨著加密技術(shù)如VPN、TOR等的應(yīng)用[3],以及視頻應(yīng)用的大量增加,使這項(xiàng)任務(wù)變得更加困難。
目前,主要的NTC 方法采用基于統(tǒng)計(jì)特征(Statistical Feature, SF) 的 機(jī) 器 學(xué) 習(xí)( Machine Learning,ML)[4]方法;通過(guò)人工選擇的特征,應(yīng)用監(jiān)督學(xué)習(xí)方法進(jìn)行分類(lèi),如決策樹(shù)[5]、隨機(jī)森林[6]、支持向量機(jī)(Support Vector Machine,SVM)[7]、K 均值[8]等。 這些方法存在一些缺點(diǎn)。 例如,人工選擇特征會(huì)花費(fèi)大量的時(shí)間,因此,傳統(tǒng)ML 在特征選擇(Feature Selection, FS)上存在較大的挑戰(zhàn);深度學(xué)習(xí)(Deep Learning,DL)[9]能夠自動(dòng)從原始數(shù)據(jù)中讀取特征,克服了手工選取特征的弊端,但是在融合特征的利用率、有效性等方面仍有待改進(jìn)。
鑒于此,本文提出一種新的基于DL 的方法,能夠?qū)?xì)粒度流量取得較好的分類(lèi)效果。 這里所說(shuō)的細(xì)分類(lèi)是將同一類(lèi)型的應(yīng)用如音頻業(yè)務(wù)、視頻業(yè)務(wù)等,細(xì)分為子類(lèi),例如視頻類(lèi)按照清晰度細(xì)分類(lèi)[10]。對(duì)每一種應(yīng)用流量提取原始統(tǒng)計(jì)特征、特征融合(Feature fusion, FF)[11],特 征 融 合 對(duì) 原 始 特 征(Original feature,OF)起到擴(kuò)展特征信息的作用,然后生成灰度圖并使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[12]進(jìn)行分類(lèi)。 本文的主要貢獻(xiàn)有以下3 點(diǎn):
(1) 設(shè)計(jì)了一種新的流量表征思路,將特征融合的思想用到流量分類(lèi)之中。 將原始特征和融合特征生成圖像使用CNN 模型分類(lèi),相較于傳統(tǒng)ML 方法能夠自動(dòng)尋找、更新特征。
(2) 設(shè)計(jì)了新穎的FF 算法,使用多種運(yùn)算對(duì)OF 進(jìn)行擴(kuò)展,將幾十個(gè)OF 擴(kuò)展到上萬(wàn)個(gè)。
(3) 對(duì)不同粒度NTC 均取得了較好的效果;相較于已有方法,準(zhǔn)確率和運(yùn)行時(shí)間上有明顯的優(yōu)勢(shì)。
目前解決NTC 的方法主要分為4 類(lèi)。 (1) 基于有效載荷的流量分類(lèi)方法,也稱(chēng)作深度包檢測(cè)(Deep Packet Inspection,DPI)[13]。 (2) 基于端口的方法[14]。 但隨著動(dòng)態(tài)端口號(hào)的使用,這兩種方法均不能用于加密流量分類(lèi)。 (3) 基于統(tǒng)計(jì)和ML 的方法:通過(guò)手工提取相關(guān)特征,并應(yīng)用復(fù)雜模式或監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)流量分類(lèi)。 (4) 基于DL 的方法,也被稱(chēng)為端到端的方法。 端到端是指將特征提取、FS和流分類(lèi)集合到一個(gè)框架中。 端到端方法不依賴(lài)于手工選擇特征,通過(guò)自動(dòng)學(xué)習(xí)特征實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)加密流量的分類(lèi)[15]。
Zhang 等[16]提出了一種加密流量分類(lèi)方法,可以過(guò)濾和標(biāo)記未知的應(yīng)用流量。 He 等[17]在“ISCX VPN”數(shù)據(jù)集上取每個(gè)流的前90 個(gè)數(shù)據(jù)包,在“ISCX non?VPN”上取前20 個(gè)數(shù)據(jù)包進(jìn)行實(shí)驗(yàn),準(zhǔn)確率有所提高。 Liu 等[18]提出了FS?Net 框架,并應(yīng)用雙向門(mén)控循環(huán)單元(bidirectional?Gating Recurrent Unit,bi?GRU)對(duì)加密流量的序列特征進(jìn)行處理。Yao 等[19]實(shí)現(xiàn)了一個(gè)基于長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的模型,將每個(gè)流的前10個(gè)數(shù)據(jù)包作為模型輸入。 作者通過(guò)可訓(xùn)練的注意向量,應(yīng)用注意機(jī)制觀察每個(gè)數(shù)據(jù)包的貢獻(xiàn)。 Huoh等[20]將原始字節(jié)和元數(shù)據(jù)轉(zhuǎn)換為有向圖的形式,在不同的數(shù)據(jù)集上使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi),改善了分類(lèi)效果。
文獻(xiàn)[5]提取95 個(gè)SF,并使用決策樹(shù)分類(lèi)器進(jìn)行分類(lèi),取得了不錯(cuò)的分類(lèi)結(jié)果。 Salman等[21]提出了一種基于SF 的圖片生成方式。 首先提取流中前n?n個(gè)包的到達(dá)時(shí)間間隔(t)、數(shù)據(jù)包大小(packet size, ps)、協(xié)議(p)、流方向(d)做成一個(gè)數(shù)組[ps,t,p,d],并將這些數(shù)據(jù)作為一幅n?n的RGBA 圖像的像素點(diǎn);之后通過(guò)CNN 進(jìn)行分類(lèi),得到了較好的分類(lèi)結(jié)果。 Shapira等[22]使用時(shí)間長(zhǎng)度為60 s 的上行流數(shù)據(jù)包信息生成圖片。 首先將上行時(shí)間和ps 規(guī)整到0 ~1 500,作為灰度圖片的橫縱坐標(biāo),再將單位時(shí)間內(nèi)的包數(shù)目規(guī)整到0~255 作為圖片的像素點(diǎn),通過(guò)CNN 進(jìn)行分類(lèi)。 孔鎮(zhèn)等[23]在文獻(xiàn)[22]方法的基礎(chǔ)上增加了下行流數(shù)據(jù)包信息,在兩個(gè)真實(shí)數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn),效果較原方法有所提高。 文獻(xiàn)[21-22]都是通過(guò)五元組生成圖片,只使用了時(shí)間、ps、協(xié)議、IP 地址或者其中的幾類(lèi)。 然而,對(duì)于一些很有用的信息,如最大包、最小包、有效IP 數(shù)、子流的特征等沒(méi)有很好地利用。 由于OF的數(shù)目不多,不足以生成大小合適的灰度圖片。
受到以上啟發(fā),本文提出一種基于FF 的圖片生成方式,將OF 通過(guò)FF 擴(kuò)展到21 616 個(gè)特征,按每個(gè)特征對(duì)應(yīng)一個(gè)像素點(diǎn),生成灰度圖片,最后輸入到CNN 之中。
實(shí)驗(yàn)采用了兩個(gè)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集:“ISCX non?VPN”[24]數(shù)據(jù)集,下面簡(jiǎn)稱(chēng)為InVD,是2016 年NewBrunswick 大學(xué)的Gerarard Drapper 團(tuán)隊(duì)采集完成的。 本文使用了其中的4 個(gè)網(wǎng)絡(luò)應(yīng)用類(lèi)型,分別是視頻、語(yǔ)音通話、聊天、IP 語(yǔ)音。 視頻數(shù)據(jù)集(Video Dataset, VD)是2019—2020 年期間,本實(shí)驗(yàn)室在南京郵電大學(xué)校園網(wǎng)使用Wireshark 軟件采集得到的,共約58 GB。 它細(xì)分為6 個(gè)子類(lèi),每一種類(lèi)型都包含至少兩種應(yīng)用的流量。 應(yīng)用包括虎牙、斗魚(yú)、騰訊視頻、愛(ài)奇藝視頻和優(yōu)酷視頻。表1 和表2 分別給出了這兩個(gè)數(shù)據(jù)集的具體信息。本文所提到的數(shù)據(jù)流,定義為具有相同五元組的數(shù)據(jù)包集合,具體為源IP、源端口、目的IP、目的端口、傳輸層協(xié)議。
表1 VD
表2 InVD
數(shù)據(jù)預(yù)處理分為5 步。 (1) 提取數(shù)據(jù)流,通過(guò)Wireshark 采集的流量?jī)?chǔ)存在.pcap 文件中,提取得到的雙向數(shù)據(jù)流中包含數(shù)據(jù)包的到達(dá)時(shí)間、源IP 地址、目的IP 地址、傳輸協(xié)議、ps 五個(gè)信息。 (2) 刪除空文件及重復(fù)文件。 (3) 流量分割,用長(zhǎng)度為30 s的流段進(jìn)行試驗(yàn)。 (4) 按應(yīng)用類(lèi)型對(duì)流段進(jìn)行特征提取,對(duì)于每一個(gè)30 s 的流樣本,提取上行、下行、整體流的56 個(gè)原始SF,具體特征信息如表3 所示。本文將TCP、UDP、HTTP 設(shè)置為有效IP,有效IP 比則表示傳輸協(xié)議為有效IP 的數(shù)據(jù)包數(shù)目與總數(shù)據(jù)包數(shù)目的比值;子流定義為源地址相同且連續(xù)的一組數(shù)據(jù)包,子流特征中均值、標(biāo)準(zhǔn)差、離散系數(shù)、信息熵都是以各子流的數(shù)據(jù)包數(shù)目求得,如均值指平均每個(gè)子流中包含數(shù)據(jù)包的數(shù)目;離散系數(shù)為標(biāo)準(zhǔn)差與均值的比值(每個(gè)應(yīng)用類(lèi)別提取的特征文件中,列表示某個(gè)具體OF,行總數(shù)為樣本數(shù))。 (5) FF,為避免FF 過(guò)程中,數(shù)值大的特征對(duì)小特征的影響,首先對(duì)56 個(gè)OF 按列進(jìn)行歸一化,見(jiàn)式(1)。 不重復(fù)任取OF 中的兩個(gè)特征進(jìn)行一種運(yùn)算,會(huì)產(chǎn)生C256個(gè)融合特征,本實(shí)驗(yàn)用了14 種算數(shù)運(yùn)算(式(2)~(15)),生成14xC256種融合特征,加上OF,共計(jì)21 616個(gè)特征。
表3 原始SF
通過(guò)FF 得到的21 616 個(gè)特征,規(guī)整到0~255并填充灰度圖像(gray level image,gli)的每個(gè)像素點(diǎn),可以得到一個(gè)140×140 的gli。 按照特征排列順序的方式,將前19 600 個(gè)特征輸入進(jìn)gli 之中,即得到不同應(yīng)類(lèi)別的gli。 圖1 展示了OF 轉(zhuǎn)換成圖片的流程,f表示特征值,p表示像素值,生成圖片的前56個(gè)像素值為原始特征。 圖2 展示了本方法使用30 s流生成的圖片樣例。
圖1 生成圖片流程
圖2 生成的圖片樣例
使用CNN 對(duì)轉(zhuǎn)換后的gli 進(jìn)行分類(lèi)。 典型的CNN 架構(gòu)由輸入層、輸出層和隱藏層組成。 隱含層包括卷積層、匯聚層、激勵(lì)層、全連通層。 輸入層對(duì)初始數(shù)據(jù)進(jìn)行預(yù)處理;卷積層提取數(shù)據(jù)的特征;池化層選擇卷積層提取的特征,減少參數(shù)數(shù)量,防止過(guò)擬合;激勵(lì)層非線性地映射卷積層的輸出;全連接層集成特征表示;輸出層輸出預(yù)測(cè)結(jié)果。 本實(shí)驗(yàn)使用TensorFlow[25]平臺(tái)構(gòu)建了模型。 結(jié)構(gòu)為輸入層?卷積層?池化層?卷積層?池化層?卷積層?全連接層?全連接層?softmax 層,卷積核大小為5×5,池化層采用最大池化,核大小為2×2,圖3 描述了本實(shí)驗(yàn)的流程。
圖3 本文方法流程圖
在tensorflow 上搭建CNN 模型進(jìn)行訓(xùn)練和測(cè)試;實(shí)驗(yàn)環(huán)境是Windows 10,CPU 為i5?10300,內(nèi)存為32 GB。 實(shí)驗(yàn)采用五折交叉驗(yàn)證,并按4 ∶1 將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。 實(shí)驗(yàn)參數(shù)的設(shè)定:learning_rate =0.01、train_step =300、batch_size =40;
使用不斷下降的學(xué)習(xí)率來(lái)防止過(guò)擬合,每50 步,學(xué)習(xí)率降為原來(lái)的0.8;優(yōu)化器使用Adma,Loss 函數(shù)為交叉熵?fù)p失值與正則化損失值之和。
實(shí)驗(yàn)使用總體準(zhǔn)確率(acc),精準(zhǔn)率(p)和f1 測(cè)度(f1)這3 個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。
式中,r=TP/(TP+FN),TP 表示正確分類(lèi)為G類(lèi)的樣本數(shù),TN 表示正確分類(lèi)為非G類(lèi)的樣本數(shù),F(xiàn)P 表示錯(cuò)分為G類(lèi)的樣本數(shù),F(xiàn)N 表示錯(cuò)分為非G類(lèi)的樣本數(shù)。
在流長(zhǎng)度(Flow Duration,F(xiàn)D)為0.1 s、1 s、30 s和60 s 情況與文獻(xiàn)方法比較,同時(shí)比較了使用ShuffleNet[26]模型,以及用56 個(gè)OF 在隨機(jī)森林模型下的總體準(zhǔn)確率。 表4 和表5 分別給出了不同方法在兩個(gè)數(shù)據(jù)集上的acc。 為了更清楚地看到本方法與文獻(xiàn)方法在各類(lèi)別的表現(xiàn),表6 和表7 分別給出了在兩個(gè)數(shù)據(jù)集上30 s 流長(zhǎng)度下,不同應(yīng)用分類(lèi)的p和f1 測(cè)度;圖4 與圖5 分別給出了在30 s 下的混淆矩陣(未給出數(shù)據(jù)值為準(zhǔn)確率低于40%)。
表4 InVD 不同F(xiàn)D 下各種方法acc(均值±標(biāo)準(zhǔn)差)比較 %
表6 使用30 s 流在InVD 下的p 和f1(均值±標(biāo)準(zhǔn)差) %
表7 使用30 s 流VD 下的p 和f1(均值±標(biāo)準(zhǔn)差) %
圖4 30 s 流在InVD 上的混淆矩陣
3.2.1 使用30 s 流的訓(xùn)練和測(cè)試時(shí)間對(duì)比
表8 是使用30 s 流的訓(xùn)練和測(cè)試時(shí)間對(duì)比。由于文獻(xiàn)[22]方法用于訓(xùn)練的圖片大小為1 500×1 500,所以訓(xùn)練和識(shí)別時(shí)間較長(zhǎng)。 文獻(xiàn)[5]為傳統(tǒng)ML,只記錄了每個(gè)樣本的識(shí)別時(shí)間。
表8 train(/epoch)+test(/樣本)時(shí)間對(duì)比 ms
3.2.2 30 s 流下的acc 曲線及l(fā)oss 曲線
圖6 和圖7 畫(huà)出了使用30 s 流本文在兩個(gè)數(shù)據(jù)集上的acc 和loss 函數(shù)的迭代變化曲線。
圖6 InVD 下acc 和loss 曲線
圖7 VD 下acc 和loss 曲線
從表4 和表5 可以看出,對(duì)于不同長(zhǎng)度的流,本方法的acc 較其他方法有明顯的提高。
對(duì)于InVD 即粗粒度分類(lèi)上,本方法較文獻(xiàn)[5]和[22]均有不同程度的提升;在0.1 s 流時(shí)提高較為明顯,較文獻(xiàn)[22]和[5]方法分別提高了19.69%和2.29%;使用60 s 的流,本文方法的acc 達(dá)到了99.89%,比文獻(xiàn)[22]和[5]分別提高了0.86%和2%。 使用30 s 的流,本文方法為99.65%,比文獻(xiàn)[22]和[5]分別提高了0.84%和1.93%;使用1 s 的流,本文方法為99.50,比文獻(xiàn)[22]和[5]分別提高了9.35%和2.36%。
對(duì)VD 即細(xì)粒度分類(lèi)上,本文較兩個(gè)文獻(xiàn)方法分類(lèi)性能也有明顯的提升。 其中文獻(xiàn)[22]方法對(duì)視頻流的分類(lèi)效果很差,使用<30 s 的流,acc<50%;使用60 s 的流,acc 為88.1%,比本文方法低了11.77%。 文獻(xiàn)[5]同樣沒(méi)有本方法在細(xì)粒度時(shí)表現(xiàn)得好,對(duì)60 s 的流只有92.53%,而本文是99.87%,相較提高了7.34%;對(duì)0.1 s 的流,文獻(xiàn)[5]的acc 降低得比較明顯,acc 比本文低了12.24%。
文獻(xiàn)[22]將上行流數(shù)據(jù)包到達(dá)時(shí)間與ps 規(guī)整到1 500,并將單位時(shí)間間隔中具有同樣ps 的數(shù)量作為像素值,在粗粒度的分類(lèi)上取得了較好的效果,但在細(xì)粒度上的分類(lèi)效果并不好。 其原因在于其像素點(diǎn)只通過(guò)ps 的數(shù)量來(lái)表示,這種特征過(guò)于單一,其分類(lèi)結(jié)果易受ps 的數(shù)值范圍影響。 對(duì)于InVD,不同應(yīng)用上行流數(shù)據(jù)包的大小在0~1 480 的范圍內(nèi)有多種不同的取值;而在VD 中,其上行流ps 基本為某一個(gè)固定值,所以對(duì)于VD,生成的圖片中大部分不包含任何有用信息(像素點(diǎn)為空值)。 而在粗粒度分類(lèi)上,由于存在不同的ps 值,所以不同應(yīng)用流量生成的圖片具有較大的差異性,分類(lèi)的結(jié)果比VD 好。 文獻(xiàn)[5]使用95 個(gè)SF+決策樹(shù)分類(lèi)器。 粗粒度分類(lèi)時(shí),acc 比較穩(wěn)定,在98%到96%之間,但相比本文依然低了約2 個(gè)百分點(diǎn)。 本文使用FF 將特征數(shù)增加到上萬(wàn)個(gè),并且DL 能夠提取更深層次的特征,所以準(zhǔn)確率更高。
本文在粗粒度上準(zhǔn)確率已經(jīng)接近100%,但在細(xì)粒度分類(lèi)上,表現(xiàn)稍差。 通過(guò)圖5 混淆矩陣可知,錯(cuò)分情況主要發(fā)生在直播720p 和1 080p 之間。 對(duì)數(shù)據(jù)源研究發(fā)現(xiàn),斗魚(yú)直播網(wǎng)站內(nèi)720p 的視頻,幀率不唯一(30 或40 幀);由于同一分辨率下40 幀比30 幀時(shí)得到的數(shù)據(jù)量多,使準(zhǔn)確率有所下降。 同樣,由于點(diǎn)播720p 中有些數(shù)據(jù)來(lái)源為騰訊視頻,采用的是動(dòng)態(tài)幀率,同樣造成了本文方法對(duì)點(diǎn)播720p識(shí)別率低的問(wèn)題。 在分類(lèi)時(shí)間上,通過(guò)表8 可以看出,本文所用的時(shí)間較文獻(xiàn)[22]有明顯縮短,但相比ML 方法偏長(zhǎng)。
在使用OF 對(duì)比實(shí)驗(yàn)中,無(wú)論粗分類(lèi)或細(xì)分類(lèi),本文都提高了3 到4 個(gè)百分點(diǎn),同樣說(shuō)明本實(shí)驗(yàn)的有效性。
綜上,可以得出以下結(jié)論:對(duì)于不同粒度分類(lèi),相較于文獻(xiàn)[22]方法,本文有更豐富的SF,經(jīng)過(guò)FF后,每一個(gè)像素點(diǎn)都對(duì)應(yīng)一個(gè)特征值;而文獻(xiàn)[22]受限于上行流ps 的數(shù)目是否豐富,其像素點(diǎn)只表示ps 的數(shù)目,對(duì)不同的數(shù)據(jù)集,分類(lèi)效果差別較大。從實(shí)驗(yàn)結(jié)果看,本文是優(yōu)于文獻(xiàn)[22]的。 對(duì)于文獻(xiàn)[5]方法,同樣使用SF 進(jìn)行分類(lèi),但本文不但使用并豐富了SF 的數(shù)目,并且結(jié)合DL,能夠更深層次的提取特征;從分類(lèi)結(jié)果上看,本文也優(yōu)于文獻(xiàn)[5];但是在分類(lèi)時(shí)間上,以及特征的利用率上,本文還需改進(jìn)。
面對(duì)互聯(lián)網(wǎng)服務(wù)不斷增長(zhǎng)的多樣化和精細(xì)化需要,優(yōu)化網(wǎng)絡(luò)資源分配和提高QoS 極為重要,這也對(duì)NTC 的準(zhǔn)確性提出了更高要求。 本文提出一種基于DL 的方法,將SF 通過(guò)FF 豐富了特征數(shù)量;通過(guò)將豐富的特征轉(zhuǎn)換為gli,使用CNN 進(jìn)行分類(lèi),在粗粒度和細(xì)分類(lèi)分類(lèi)上均取得良好的結(jié)果。 相較于傳統(tǒng)ML 方法,本方法能夠更深層次地提取特征。相較于其他DL 方法,本方法使用了大量SF,并對(duì)原有的SF 進(jìn)行擴(kuò)展和豐富,所以不同應(yīng)用的圖片有更大的差異性。 相較于那些利用有效載荷的DL 方法,本文避免了隱私安全性問(wèn)題,并且在準(zhǔn)確率上也有明顯的提升。
不過(guò),本方法也存在有待改進(jìn)之處:(1) 使用DL 方法進(jìn)行分類(lèi)復(fù)雜度比較高,訓(xùn)練時(shí)間比較長(zhǎng)。(2) 通過(guò)FF 得到的21 616 個(gè)特征只使用了前19 600 個(gè)特征,造成特征的浪費(fèi);同時(shí),特征中有較多的冗余特征,生成的圖片較大,增加了分類(lèi)的時(shí)間。 下一步的任務(wù)是對(duì)特征進(jìn)行篩選,去除冗余特征,以達(dá)到減少訓(xùn)練時(shí)間,且準(zhǔn)確率基本不變的目的。