唐 晉,程永新,卜君健,廖竣鍇
(1.中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041;2.電子科技大學(xué),四川 成都 610054)
隨著信息社會(huì)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為社會(huì)生活不可或缺的基礎(chǔ)設(shè)施,網(wǎng)絡(luò)對(duì)人們社會(huì)生活的影響愈發(fā)深刻,人們對(duì)于網(wǎng)絡(luò)空間的安全也越來越重視。網(wǎng)絡(luò)流量分類是網(wǎng)絡(luò)行為分析、網(wǎng)絡(luò)異常檢測(cè)等重要任務(wù)的一個(gè)先決任務(wù)。近年來,為了保障網(wǎng)絡(luò)通信的機(jī)密性和保密性,各種流量加密技術(shù)在網(wǎng)絡(luò)應(yīng)用中被廣泛使用,經(jīng)過加密的流量數(shù)據(jù)的特征被掩蓋,給傳統(tǒng)的流量分類方法帶來了挑戰(zhàn)[1]。
對(duì)于加密流量,使用傳統(tǒng)的基于深度包檢測(cè)和基于流量特征提取的機(jī)器學(xué)習(xí)算法等手段進(jìn)行分類時(shí),從解析后的加密流量數(shù)據(jù)中無法提取足夠有效的信息,準(zhǔn)確率大幅度下降[2]。深度學(xué)習(xí)采用端到端的學(xué)習(xí)技術(shù),可在學(xué)習(xí)過程中自動(dòng)提取數(shù)據(jù)特征,是表征學(xué)習(xí)領(lǐng)域的代表性技術(shù)。流量數(shù)據(jù)作為一種字節(jié)流數(shù)據(jù)能被深度學(xué)習(xí)技術(shù)很好地接收處理,如Wang 等人[3]通過將流量的字節(jié)流轉(zhuǎn)化為可視化圖像數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)加密流量數(shù)據(jù)實(shí)現(xiàn)了有效的分類。
本文在流量數(shù)據(jù)可視化的基礎(chǔ)上,利用表征學(xué)習(xí)技術(shù),針對(duì)加密流量多分類問題,提出了一種端到端的粗粒度融合算法。本文提出的方法能很好地與現(xiàn)有的基于表征學(xué)習(xí)的多分類算法相結(jié)合,在保證運(yùn)行效率的情況下提升多分類效果。文章的其余部分組織如下:第1 節(jié)描述傳統(tǒng)的流量分類方法和利用深度學(xué)習(xí)方法進(jìn)行流量分類的相關(guān)工作;第2節(jié)詳細(xì)介紹本文提出的端到端的加密流量多分類粗粒度融合算法;第3 節(jié)描述在ISCX VPN-nonVPN公開流量數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的細(xì)節(jié),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;第4 節(jié)對(duì)本文工作做出總結(jié)。
傳統(tǒng)的流量分類方法主要使用的是機(jī)器學(xué)習(xí)算法,這些算法通常使用網(wǎng)絡(luò)流量的流特征和數(shù)據(jù)包特征,流特征包括流的持續(xù)時(shí)間、流的字節(jié)數(shù)等,數(shù)據(jù)包特征包含每個(gè)數(shù)據(jù)包的大小、數(shù)據(jù)包持續(xù)時(shí)間等。例如,Wang 等人[4]基于流特征使用C4.5 決策樹分類器對(duì)流量進(jìn)行了分類,Coull 等人[5]基于數(shù)據(jù)包特征利用樸素貝葉斯算法對(duì)流量進(jìn)行了分類。
傳統(tǒng)流量分類方法發(fā)展面臨的一個(gè)問題是面對(duì)不斷復(fù)雜化的網(wǎng)絡(luò)流量數(shù)據(jù),如何提取新的流量特征來對(duì)流量數(shù)據(jù)進(jìn)行有效分類。Draper-Gil 等人[6]使用流量的時(shí)間特征來對(duì)加密流量進(jìn)行了分類,并發(fā)布了ISCX VPN-nonVPN 數(shù)據(jù)集。Yamansavascilar等人[7]針對(duì)J48、隨機(jī)森林、K 最近鄰(K-Nearest Neighbour,KNN)和貝葉斯網(wǎng)絡(luò)4 個(gè)算法,選用了111 個(gè)流量特征對(duì)加密流量進(jìn)行了分類。Muliukha等人[8]對(duì)虛擬連接產(chǎn)生的流量和協(xié)議加密流進(jìn)行了分類,具體考慮了流量的IP 地址、數(shù)據(jù)包總數(shù)、端口等特征,并使用隨機(jī)森林算法進(jìn)行了流量分類。Obaidy 等人[9]對(duì)Skype、WhatsApp 等社交媒體應(yīng)用程序的流量進(jìn)行了識(shí)別分類,使用Wireshark 從最終用戶機(jī)器收集數(shù)據(jù),以生成社交媒體應(yīng)用程序的流量,然后基于Wireshark 工具的特征選擇來選擇14 個(gè)雙向流量,以獲得更好的分類精度。
然而,隨著流量加密技術(shù)的廣泛使用,加密流量特征提取越發(fā)困難,并且傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)于復(fù)雜模式的學(xué)習(xí)能力過分依賴于特征的提取,其分類性能逐漸無法滿足需求。
深度學(xué)習(xí)是表征學(xué)習(xí)領(lǐng)域的代表性技術(shù)。隨著流量加密技術(shù)的廣泛使用,由于深度學(xué)習(xí)具有自動(dòng)提取特征的特性,基于深度學(xué)習(xí)的加密流量分類技術(shù)逐漸成為研究熱點(diǎn)。基于深度學(xué)習(xí)的流量分類技術(shù)可分為基于數(shù)據(jù)特征的深度學(xué)習(xí)分類算法和基于特征自學(xué)習(xí)的深度學(xué)習(xí)分類算法。
基于數(shù)據(jù)特征的方法在輸入網(wǎng)絡(luò)前仍需要手動(dòng)提取特征,不是端到端的方法。Wang 等人[10]首次將深度學(xué)習(xí)技術(shù)應(yīng)用于流量分類領(lǐng)域,他們?cè)O(shè)計(jì)了一種人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)模型,可識(shí)別25 種協(xié)議類型,并且精度和召回率都達(dá)到90%以上。Dong 等人[11]提出了基于流量分析和統(tǒng)計(jì)特征的綜合分析方法,同時(shí)實(shí)現(xiàn)了高精度和魯棒的泛化性能。
基于特征自學(xué)習(xí)的方法很好地利用了深度學(xué)習(xí)自動(dòng)提取特征的特性,是一種端到端的流量分類方法,近年來成為研究熱點(diǎn)。Wang 等人[3]第一次將端到端的方法應(yīng)用到加密流量分類領(lǐng)域,具體是將流量數(shù)據(jù)可視化后輸入卷積神經(jīng)網(wǎng)絡(luò),無須手動(dòng)提取特征,是特征自學(xué)習(xí)算法的典型代表。張曉航等人[12]在徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),引入了一種梯度懲罰機(jī)制,在提高了分類的準(zhǔn)確性的同時(shí),能夠?qū)Σ豢梢娏髁繑?shù)據(jù)進(jìn)行有效的分類。Lotfollahi 等人[13]使用堆疊自編碼器(Stacked Autoencoder,SAE)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)兩種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,在應(yīng)用流量識(shí)別的任務(wù)中達(dá)到了98%的召回率,在流量分類任務(wù)中達(dá)到了94%的召回率。薛文龍等人[14]提出了一種用于端到端加密流量分類的輕量級(jí)網(wǎng)絡(luò),采用特征融合的方法,在顯著提高分類結(jié)果準(zhǔn)確性的同時(shí),大大降低了網(wǎng)絡(luò)計(jì)算復(fù)雜度。Izadi 等人[15]設(shè)計(jì)了一種一維卷積神經(jīng)網(wǎng)絡(luò),通過隱層自動(dòng)提取流量特征,使用蟻群優(yōu)化實(shí)現(xiàn)高效特征選擇,提高了分類精度,在ISCX VPN-nonVPN 數(shù)據(jù)集上達(dá)到了98%的準(zhǔn)確率。
基于深度學(xué)習(xí)的流量分類方法在數(shù)據(jù)處理上不同于傳統(tǒng)的流量分類方法,一般是將二進(jìn)制可視化為圖像輸入CNN 卷積神經(jīng)網(wǎng)絡(luò),或是將二進(jìn)制數(shù)據(jù)流輸入基于序列的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型中,也有將CNN 與RNN 模型結(jié)合的變種。但是,這種方法對(duì)輸入數(shù)據(jù)的預(yù)處理依賴于經(jīng)驗(yàn)化的處理,并且訓(xùn)練的可解釋性較低,模型以及損失函數(shù)的選擇差異也容易引起檢測(cè)性能的不穩(wěn)定,此外,模型的訓(xùn)練以及預(yù)測(cè)效率也值得進(jìn)一步研究。
本文針對(duì)加密流量分類任務(wù),針對(duì)多分類問題,結(jié)合深度學(xué)習(xí)技術(shù),設(shè)計(jì)了一種粗粒度類別融合算法。該方法是受Chang 等人[16]的工作的啟發(fā),他們針對(duì)自然圖像分類問題,設(shè)計(jì)了一種細(xì)粒度特征與粗粒度標(biāo)簽融合的方法。
在Chang 等人的方法中,針對(duì)每一種細(xì)粒度類別,如“火烈鳥”標(biāo)簽是粗粒度“鳥”類標(biāo)簽下的一種更細(xì)粒度的標(biāo)簽,他們同時(shí)利用粗粒度標(biāo)簽的分類損失和細(xì)粒度標(biāo)簽的分類損失監(jiān)督深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自然圖像分類問題。粗粒度標(biāo)簽預(yù)測(cè)加強(qiáng)了網(wǎng)絡(luò)對(duì)于細(xì)粒度特征的學(xué)習(xí)能力,而細(xì)粒度特征則更好地學(xué)習(xí)了粗粒度分類器,獲得了更好的分類精度。在他們的工作中,針對(duì)每一種細(xì)粒度類別,手工標(biāo)注了粗粒度的類別。
針對(duì)本文研究的加密流量分類任務(wù),流量間也會(huì)存在粗粒度類別特征,比如瀏覽網(wǎng)頁(yè)產(chǎn)生的流量可能包含一部分與流媒體相關(guān)的流量,因此在它們更粗粒度一級(jí)的類別分類上有一部分流量是可以分為一類的,但是這個(gè)粗粒度類別的標(biāo)簽難以人為設(shè)定,因此本文使用了一個(gè)粗粒度類別融合層來自動(dòng)提取6 種流量類別的類間特征,生成N組粗粒度的類別標(biāo)簽。本文所提算法的流程如圖1 所示。
圖1 端到端的粗粒度融合算法流程
本文使用的粗粒度類別融合層由一個(gè)多層感知機(jī)(Multilayer Perceptron,MLP)構(gòu)成。訓(xùn)練時(shí)經(jīng)過反向傳播,粗粒度類別融合層學(xué)習(xí)到6 種類別的類間特征,將6 種細(xì)粒度類別劃分為N個(gè)粗粒度類別。預(yù)測(cè)時(shí),粗粒度類別融合層聚合每一個(gè)基本分類器的粗粒度分類結(jié)果,得到最終預(yù)測(cè)的每一個(gè)類別的概率。
本文算法模型結(jié)構(gòu)如圖2 所示,圖中N表示粗粒度類別數(shù),是一個(gè)人為設(shè)定的超參數(shù)。
圖2 端到端的粗粒度融合算法模型
模型接收一張28×28 大小的流量可視化圖作為輸入,首先經(jīng)過一個(gè)細(xì)粒度特征提取層,該層針對(duì)每一個(gè)對(duì)應(yīng)的粗粒度類別,提取各個(gè)分類網(wǎng)絡(luò)所需的細(xì)粒度特征。該層由一個(gè)卷積塊構(gòu)成,能夠?qū)?8×28 大小的輸入轉(zhuǎn)化成64×N個(gè)通道的28×28大小的特征圖。其次將這組特征圖按順序64 個(gè)通道一組,分別輸入基礎(chǔ)分類網(wǎng)絡(luò),每個(gè)基礎(chǔ)分類網(wǎng)絡(luò)針對(duì)各自的粗粒度類別進(jìn)行分類,得到每個(gè)粗粒度類別的類別概率。此處的基礎(chǔ)分類網(wǎng)絡(luò),在本文中選擇的是ResNet18。每個(gè)粗粒度類別包含的類別數(shù)設(shè)定為6,實(shí)際情況可能更為復(fù)雜,由于深度學(xué)習(xí)自動(dòng)提取特征的特性,該6 類隱含了更少的類別數(shù)的情況。
每個(gè)基礎(chǔ)分類網(wǎng)絡(luò)輸出的是一個(gè)1×6 的概率向量,將N個(gè)1×6 的概率向量經(jīng)過concat 操作后輸入粗粒度類別融合層,最終輸出目標(biāo)分類的類別概率是一個(gè)1×6 的概率向量,取概率最大的類別作為預(yù)測(cè)的類別,該過程表述如下:
式中:logit(Ccoarse-grainedclassi)為每個(gè)基礎(chǔ)分類網(wǎng)絡(luò)預(yù)測(cè)的粗粒度類別概率;logit(Cj)為最終6 個(gè)類別中每一類的預(yù)測(cè)概率,由所有粗粒度類別概率堆疊在一起輸入作為粗粒度類別融合層的MLP 層得到;class_pred為最終的預(yù)測(cè)類別。
關(guān)于訓(xùn)練時(shí)的損失函數(shù),本文使用的是常規(guī)的交叉熵?fù)p失,僅在最終的6 個(gè)類別概率上計(jì)算交叉熵?fù)p失。
本文方法接收28×28 大小的流量可視化圖作為輸入,因此需要對(duì)二進(jìn)制流量數(shù)據(jù)字節(jié)流進(jìn)行預(yù)處理,步驟如下:
(1)根據(jù)不同的粒度對(duì)網(wǎng)絡(luò)流量進(jìn)行劃分,網(wǎng)絡(luò)流量的粒度包括傳輸控制協(xié)議(Transmission Control Protocol,TCP)連接、session、flow。其中,flow 是按照相同的五元組進(jìn)行劃分,即源網(wǎng)際互聯(lián)協(xié)議(Internet Protocol,IP)地址、源端口、目的IP 地址、目的端口、傳輸層協(xié)議,而session 則被定義為雙向的flow。
(2)對(duì)于每種會(huì)話類型的流量數(shù)據(jù)包,其中的字節(jié)數(shù)據(jù)可以劃分為多個(gè)協(xié)議層。選取流量數(shù)據(jù)時(shí)可以有兩種選擇:一是選取TCP/IP 模型最頂層應(yīng)用層的流量數(shù)據(jù),二是選取所有層的流量數(shù)據(jù)。直觀地說,應(yīng)用層的流量數(shù)據(jù)能很直接地表示出流量的數(shù)據(jù)特征,例如傳輸郵件所使用的簡(jiǎn)單郵件傳輸協(xié)議(Simple Mail Transfer Protocol,SMTP)、流媒體使用的實(shí)時(shí)傳輸協(xié)議(Real-time Transport Protocol,RTP)、超文本傳輸協(xié)議(Hyper Text Transfer Protocol,HTTP)、Bittorrent 對(duì)等協(xié)議等,都是應(yīng)用層協(xié)議的一部分,會(huì)在應(yīng)用層流量數(shù)據(jù)中有明顯的體現(xiàn)。但有時(shí)候其他層的流量數(shù)據(jù)也包含了有用的特征信息,最典型的就是應(yīng)用廣泛的傳輸層安全(Transport Layer Security,TLS)協(xié)議,它工作在傳輸層為上層應(yīng)用層提供支撐。文獻(xiàn)[10]只使用了應(yīng)用層流量數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),但文獻(xiàn)[3]針對(duì)單獨(dú)應(yīng)用層和所有層數(shù)據(jù)分別進(jìn)行了實(shí)驗(yàn),表明所有層的流量數(shù)據(jù)包含更多的可用信息,對(duì)提高分類精度有顯著的影響。因此,在本文針對(duì)加密流量進(jìn)行分類的實(shí)驗(yàn)中,使用到了所有層的流量數(shù)據(jù)。
(3)對(duì)于二進(jìn)制字節(jié)流大于784 字節(jié)的單個(gè)session,將其修剪為784 字節(jié);如果單個(gè)session 的二進(jìn)制字節(jié)流小于784 字節(jié),則在末尾添加0x00以將其補(bǔ)充到784 字節(jié)。然后將784 字節(jié)大小的結(jié)果文件轉(zhuǎn)換為28×28 的灰度圖像。最后將圖像轉(zhuǎn)換為研究領(lǐng)域常用的idx 格式文件。這是一種研究時(shí)常見的處理方法,如文獻(xiàn)[12]和文獻(xiàn)[17]均采用了類似的處理方法。
本文使用Wang 等人提出的USTC-TL2016 工具[3]對(duì)原始流量數(shù)據(jù)進(jìn)行處理,基于session 的形式處理了數(shù)據(jù)包,并提取了所有層的流量數(shù)據(jù),將原始的二進(jìn)制pcap 流量數(shù)據(jù)處理為能夠輸入CNN網(wǎng)絡(luò)的圖像格式數(shù)據(jù)。在ISCX VPN-nonVPN 公開流量數(shù)據(jù)集[18]上,針對(duì)流量數(shù)據(jù)預(yù)處理后生成的圖像,如圖3 所示,各類選取兩例分兩行展示,每一列為同一類別,底部標(biāo)注了類別名稱,包括使用若干即時(shí)聊天應(yīng)用程序產(chǎn)生的流量(Chat-VPN)、接收郵件產(chǎn)生的流量(Email-VPN)、文件傳輸產(chǎn)生的流量(File Transfer-VPN)、使用點(diǎn)對(duì)點(diǎn)文件共享協(xié)議產(chǎn)生的流量(P2P-VPN)、流式多媒體服務(wù)產(chǎn)生的流量(Streaming-VPN)、使用語(yǔ)音應(yīng)用程序進(jìn)行IP 通話產(chǎn)生的流量(VOIP-VPN)。
根據(jù)圖3 中的可視化結(jié)果進(jìn)行定性分析,各類流量之間差異性很大,不同類別的流量之間有明顯的區(qū)別,而同一類別的流量具有高度的一致性,尤其是協(xié)議加密后的流媒體流量數(shù)據(jù)和網(wǎng)絡(luò)通話流量數(shù)據(jù),這對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來說很容易區(qū)分。
實(shí)驗(yàn)的環(huán)境和配置如表1 所示。訓(xùn)練方面使用了權(quán)重衰減為1e-5 的Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-4,學(xué)習(xí)率衰減策略設(shè)置為每10 個(gè)epoch 學(xué)習(xí)率衰減為0.1,總共訓(xùn)練20 個(gè)epoch。
表1 實(shí)驗(yàn)環(huán)境及配置
為了驗(yàn)證本文提出的方法,在ISCX VPN-non VPN 公開流量數(shù)據(jù)集[18]上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。ISCX VPN-nonVPN 數(shù)據(jù)集包含了7 種常規(guī)會(huì)話類型流量數(shù)據(jù)和相應(yīng)的通過協(xié)議封裝加密的7 種會(huì)話類型的流量數(shù)據(jù)。這7 種會(huì)話類型包括用戶通過瀏覽器上網(wǎng)產(chǎn)生的流量(Browsing-VPN)、使用SMTP 發(fā)送或使用郵局協(xié)議(Post Office Protocol -Version 3,POP3)和互聯(lián)網(wǎng)消息訪問協(xié)議(Internet Message Access Protocol,IMAP)接收郵件產(chǎn)生的流量(Email-VPN)、使用若干即時(shí)聊天應(yīng)用程序產(chǎn)生的流量(Chat-VPN)、流式多媒體服務(wù)產(chǎn)生的流量(Streaming-VPN)、多種協(xié)議下文件傳輸產(chǎn)生的流量(File Transfer-VPN)、使用語(yǔ)音應(yīng)用程序進(jìn)行IP 通話產(chǎn)生的流量(VOIP-VPN)、基于Bittorrent 等點(diǎn)對(duì)點(diǎn)(peer-to-peer,P2P)文件共享協(xié)議產(chǎn)生的流量(P2P-VPN)。由于第一類瀏覽器流量(Browsing-VPN)與其他類別流量存在分類邊界模糊的問題,根據(jù)文獻(xiàn)[3]的做法,本文舍棄了第一類流量,僅使用剩下的6 種會(huì)話類型流量,并在這6 種類型的協(xié)議封裝加密后的流量上進(jìn)行了實(shí)驗(yàn)。每個(gè)類別包含的樣本數(shù)如表2 所示,其中,1/10 的數(shù)據(jù)被隨機(jī)選為測(cè)試集兼驗(yàn)證集,其余作為訓(xùn)練集,訓(xùn)練時(shí)的batch 大小設(shè)置為128。
表2 每個(gè)類別包含的樣本數(shù)
在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),如第2 節(jié)中所述,使用了Wang 等人提出的USTC-TL2016 工具[3]對(duì)原始流量數(shù)據(jù)進(jìn)行了處理,即基于session 的形式處理了數(shù)據(jù)包,并提取了所有層的流量數(shù)據(jù),將原始的二進(jìn)制pcap 流量數(shù)據(jù)處理為idx 格式的28×28 大小的灰度圖像包,部分可視化圖像的示例如圖3 所示。
圖3 各類別流量可視化示例
針對(duì)二分類問題,有4 種常用的指標(biāo)來對(duì)模型性能進(jìn)行評(píng)估,分別是準(zhǔn)確率Accuracy、精確率Precision、召回率Recall、F1 分?jǐn)?shù)F1_score,各指標(biāo)計(jì)算如下:
式中:TP為真正例的數(shù)量;FP為假正例的數(shù)量;TN為真反例的數(shù)量;FN為假反例的數(shù)量。準(zhǔn)確率Accuracy是衡量正確分類的樣本數(shù)與總樣本數(shù)的比例,但容易受到類別數(shù)量不平衡的影響。精確率Precision又稱查準(zhǔn)率,衡量模型預(yù)測(cè)為正的樣本中真實(shí)的正樣本所占的比例。召回率Recall又稱查全率,衡量所有正樣本中被模型預(yù)測(cè)為正的樣本數(shù)所占的比例。通常,一個(gè)模型無法同時(shí)滿足高精確率和高召回率,而F1 分?jǐn)?shù)F1_score是精確率和召回率的調(diào)和平均數(shù),是一種同時(shí)兼顧了分類模型的精確率和召回率的評(píng)估指標(biāo),對(duì)模型的識(shí)別準(zhǔn)確率作出綜合評(píng)價(jià)。
在多分類問題中,準(zhǔn)確率Accuracy同樣適用,但精確率Precision、召回率Recall、F1 分?jǐn)?shù)F1_score僅適用于二分類問題。因此,本文的實(shí)驗(yàn)使用的均為宏精確率macro-Precision、宏召回率macro-Recall、宏F1 分?jǐn)?shù)macro-F1_score對(duì)模型性能進(jìn)行評(píng)估,即針對(duì)多分類中的每一個(gè)類別,計(jì)算各自類別的精確率Precision、召回率Recall、F1分?jǐn)?shù)F1_score指標(biāo),對(duì)其取均值,得到整體的宏精確率、宏召回率、宏F1 分?jǐn)?shù)。
為了驗(yàn)證本文提出的方法的有效性,將本文所提的方法與LeNet、ResNet18、ResNet50、DenseNet121[19]、SENet[20]、ShuffleNet[21]、MobileNet[22]這些基于表征學(xué)習(xí)的深度學(xué)習(xí)分類模型在同樣的數(shù)據(jù)上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 顯示了各模型對(duì)加密流量數(shù)據(jù)分類的準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1 分?jǐn)?shù)F1_score。表中結(jié)果反映出各類模型均能對(duì)加密后的流量數(shù)據(jù)進(jìn)行有效的分類,其中本文所提方法在準(zhǔn)確率和召回率以及F1 分?jǐn)?shù)上都達(dá)到了最優(yōu),在精確率上僅次于原始的ResNet18。這是因?yàn)槿绫? 所示,原始數(shù)據(jù)存在類別不平衡的問題,Chat-VPN 類和VOIP-VPN 類的樣本數(shù)遠(yuǎn)超其他 4 類的樣本數(shù),計(jì)算宏精確率容易受到類別不平衡問題的影響。就網(wǎng)絡(luò)深度而言,ResNet50 采用了和ResNet18 一樣的網(wǎng)絡(luò)結(jié)構(gòu),不同的是加深了網(wǎng)絡(luò)的深度,但是分類效果并沒有隨著網(wǎng)絡(luò)深度的增加、參數(shù)量的提升而提升,因此堆砌網(wǎng)絡(luò)深度和參數(shù)量并不一定能帶來效果的提升。本文提出的方法僅在精確率上與ResNet18 相差0.07%,遠(yuǎn)小于與其他模型的差距,且在另外3 個(gè)指標(biāo)上都達(dá)到了最優(yōu),因此本文的方法仍舊是最有效的。
表3 實(shí)驗(yàn)結(jié)果 %
訓(xùn)練集中總計(jì)有11 272 條數(shù)據(jù)樣本,訓(xùn)練時(shí)的batch 大小設(shè)置為128,總訓(xùn)練步數(shù)為1 731 步。訓(xùn)練時(shí)的分類損失與訓(xùn)練步數(shù)的關(guān)系如圖4 所示。從圖4 可以看出,從初始狀態(tài)經(jīng)過同樣的訓(xùn)練步驟不同方法的收斂速度有較大差別。LeNet 在訓(xùn)練1 200 步之后趨于收斂,ResNet18 在1 200 步之后趨于收斂,ResNet50 在1 000 步之后趨于收斂,DenseNet121 在1 000 步之后趨于收斂,SENet 在 1 100 步之后趨于收斂,ShuffleNet 在1 300 步之后趨于收斂,MobileNet 在1 100 步之后趨于收斂,而本文提出的方法在訓(xùn)練880 步之后分類損失就很穩(wěn)定已經(jīng)趨于收斂,相較于其他模型,本文的方法有更快的收斂速度。
圖4 各模型收斂步數(shù)
各模型的運(yùn)行效率如表4 所示,包含總訓(xùn)練時(shí)間、訓(xùn)練到收斂的時(shí)間以及在測(cè)試集上測(cè)試完所有測(cè)試數(shù)據(jù)使用的時(shí)間。所有訓(xùn)練與測(cè)試均在GPU上完成,收斂時(shí)間根據(jù)訓(xùn)練完每個(gè)epoch 后模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果趨于穩(wěn)定的時(shí)間得出。
表4 各模型運(yùn)行效率 s
從表4 中可以看出,LeNet 由于網(wǎng)絡(luò)規(guī)模小、結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練完20 個(gè)epoch 的時(shí)間最快,但同時(shí)實(shí)際性能表現(xiàn)卻不佳,并且訓(xùn)練到收斂的時(shí)間慢于本文提出的方法。本文提出的方法在6 類加密流量上訓(xùn)練20 個(gè)epoch 需要的時(shí)間為292.23 s,但是本文提出的方法收斂速度很快,實(shí)際在訓(xùn)練經(jīng)過128.57 s 時(shí)模型就已經(jīng)收斂,因此雖然本文方法在測(cè)試時(shí)的效率低于LeNet 和SENet,但本文方法的效果遠(yuǎn)好于二者。
對(duì)于本文提出的粗粒度類別融合模塊,針對(duì)不同的粗粒度類別數(shù),進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。
如表5 所示,當(dāng)粗粒度類別數(shù)僅為1 類時(shí),本文所提方法的網(wǎng)絡(luò)會(huì)退化為一般的基干分類網(wǎng)絡(luò),效果僅為在ResNet18 前后分別加了一個(gè)卷積層和一個(gè)MLP 層。由于網(wǎng)絡(luò)結(jié)構(gòu)的改變和層數(shù)的加深,此時(shí)網(wǎng)絡(luò)的學(xué)習(xí)效果相比于原始的ResNet18 有一定的退化。當(dāng)粗粒度類別數(shù)為2 時(shí),也能到達(dá)不錯(cuò)的分類效果,但是仍有提升空間。有趣的是,當(dāng)粗粒度類別數(shù)選擇3 類和6 類時(shí),分類效果反而下降,分析認(rèn)為這是在設(shè)置為3 類和6 類時(shí),現(xiàn)有數(shù)據(jù)隱含的粗粒度類別數(shù)量特征不能很好地匹配設(shè)置的類別數(shù)量,導(dǎo)致粗粒度分類融合模塊未能有效地提取到粗粒度的類別信息。當(dāng)選擇的粗粒度類別數(shù)為4類和5 類時(shí),能夠達(dá)到最好的分類效果,在本文的對(duì)比實(shí)驗(yàn)中,權(quán)衡了效果和效率,選用的粗粒度類別數(shù)均為4 類。
表5 粗粒度類別數(shù)消融實(shí)驗(yàn)
本文在將流量數(shù)據(jù)可視化進(jìn)行表征學(xué)習(xí)的基礎(chǔ)上,利用網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)到各類別間更粗粒度下的類別關(guān)系,并根據(jù)提取到的粗粒度下的分類結(jié)果,利用多個(gè)網(wǎng)絡(luò)分別去擬合不同粗粒度分類下不同的分類結(jié)果,通過融合多個(gè)粗粒度標(biāo)簽下的分類結(jié)果得到了最終的多分類標(biāo)簽。本文所提方法是端到端的,無須手動(dòng)提取特征,也無須人工標(biāo)注粗粒度類別標(biāo)簽。該方法不僅利用了流量數(shù)據(jù)可視化之后的特征,也利用了不同類別標(biāo)簽之間可能存在的粗粒度類別關(guān)系,在保證模型運(yùn)行效率的情況下,提高了分類的準(zhǔn)確率。在未來的工作中,將結(jié)合深度學(xué)習(xí)技術(shù)繼續(xù)探究類別間粗細(xì)粒度融合的分類方法,提高分類的準(zhǔn)確率。