蔣海軍,謝 鈞,郭小帆,邱宏瓊,強(qiáng) 振
(1.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007; 2. 31103部隊(duì),江蘇 南京 210016;3.73127部隊(duì),福建 福州 350003;4.31618部隊(duì),福建 福州 350003)
當(dāng)前,以互聯(lián)網(wǎng)為代表的信息技術(shù)在全球范圍得到了迅速發(fā)展和普及。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第40次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]數(shù)據(jù)顯示:截至2017年6月,我國(guó)網(wǎng)民總數(shù)達(dá)到7.51億,互聯(lián)網(wǎng)普及率達(dá)到54.3%。其中移動(dòng)互聯(lián)網(wǎng)的主導(dǎo)地位進(jìn)一步加強(qiáng),手機(jī)網(wǎng)民7.24億,占總網(wǎng)民數(shù)的96.3%。截止到2017年6月,我國(guó)國(guó)際出口帶寬達(dá)到7 975 Gb/s,較2016年12月增長(zhǎng)20.1%。網(wǎng)絡(luò)用戶(hù)增多,傳輸數(shù)據(jù)流量增大,網(wǎng)絡(luò)應(yīng)用業(yè)務(wù)不斷豐富,使得網(wǎng)絡(luò)資源使用緊張,存在資源分配不均衡、利用率低等問(wèn)題。
傳統(tǒng)的互聯(lián)網(wǎng)體系架構(gòu)在最初的設(shè)計(jì)理念、方法上存在“先天性的”不足,導(dǎo)致其在網(wǎng)絡(luò)流量的管理控制、網(wǎng)絡(luò)資源的高效使用和網(wǎng)絡(luò)運(yùn)行的安全性、穩(wěn)定性等方面都遇到了很多問(wèn)題和挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn),產(chǎn)業(yè)界和學(xué)術(shù)界很多學(xué)者都展開(kāi)了對(duì)下一代網(wǎng)絡(luò)的研究。在眾多的研究方案中,美國(guó)斯坦福大學(xué)的MCKEOWN N教授等提出的基于OpenFlow的軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)[2]被認(rèn)為是最具前途的技術(shù)之一。SDN作為一種新型的網(wǎng)絡(luò)架構(gòu)[3],很好地解決了傳統(tǒng)網(wǎng)絡(luò)把控制邏輯和數(shù)據(jù)轉(zhuǎn)發(fā)耦合在網(wǎng)絡(luò)設(shè)備上而導(dǎo)致網(wǎng)絡(luò)控制平面管理的復(fù)雜性問(wèn)題,也使得網(wǎng)絡(luò)控制層面新技術(shù)的更新和發(fā)展具有更好的靈活性和擴(kuò)展性。
在基于OpenFlow協(xié)議的SDN網(wǎng)絡(luò)架構(gòu)下,數(shù)據(jù)根據(jù)流表進(jìn)行轉(zhuǎn)發(fā),雖然控制器可以通過(guò)匹配IP地址、通信端口、物理地址等流表項(xiàng)屬性值實(shí)現(xiàn)對(duì)單個(gè)流的管理和控制,但是SDN并沒(méi)有提供一種機(jī)制來(lái)分類(lèi)數(shù)據(jù)流所對(duì)應(yīng)的應(yīng)用和協(xié)議類(lèi)型。因此在SDN網(wǎng)絡(luò)架構(gòu)下,流量分類(lèi)仍然是實(shí)施精細(xì)化、個(gè)性化網(wǎng)絡(luò)管理的重要前提。此外由于SDN具有更強(qiáng)的對(duì)全局網(wǎng)絡(luò)態(tài)勢(shì)的感知能力和對(duì)全局網(wǎng)絡(luò)流量的控制能力,流量分類(lèi)發(fā)揮的作用更為明顯。目前網(wǎng)絡(luò)流量分類(lèi)方法主要有4種:基于端口的流量分類(lèi)技術(shù)、基于深度包檢測(cè)(Deep Packet Inspection,DPI)的流量分類(lèi)技術(shù)、基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)(Machine Learning,ML)的流量分類(lèi)和基于用戶(hù)行為特征的流量分類(lèi)技術(shù)。
在傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下,互聯(lián)網(wǎng)數(shù)字分配機(jī)構(gòu)(IANA)對(duì)一些常用的傳輸層服務(wù)端口進(jìn)行了預(yù)定義,通常在0~1 023之間。例如HTTP協(xié)議使用80端口,DNS域名服務(wù)使用53端口,F(xiàn)TP文件傳輸協(xié)議使用21端口等。此外,注冊(cè)協(xié)議主要使用1 024-49 151之間的端口,剩下的49 152-65 535端口不作特殊規(guī)定。早期,各種協(xié)議和網(wǎng)絡(luò)應(yīng)用都遵循該規(guī)則,使用的端口比較固定,因此通過(guò)端口映射的方法可以進(jìn)行網(wǎng)絡(luò)流量分類(lèi)。這種方法只需要進(jìn)行端口匹配,因此具有簡(jiǎn)單、快速、易于實(shí)現(xiàn)、準(zhǔn)確率高等優(yōu)點(diǎn)。但是隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,出于不同的目的,一部分網(wǎng)絡(luò)應(yīng)用使用了端口變換和偽裝技術(shù),使得基于端口映射的流量分類(lèi)技術(shù)無(wú)法有效應(yīng)用。MADHUKAR A等[4]在實(shí)驗(yàn)中證實(shí)了有30%~70%的流量都無(wú)法利用端口來(lái)進(jìn)行正確分類(lèi)。
數(shù)據(jù)包的載荷部分含有大量信息,DPI就是利用這些信息進(jìn)行分類(lèi)?;贒PI流量分類(lèi)技術(shù)是依據(jù)特定協(xié)議或應(yīng)用的特征碼來(lái)實(shí)現(xiàn)的,通過(guò)對(duì)網(wǎng)絡(luò)流量中的載荷數(shù)據(jù)進(jìn)行特征碼匹配,來(lái)獲取流量的分類(lèi)。
基于DPI的分類(lèi)技術(shù)雖然具有較高的準(zhǔn)確率,但也存在一些缺點(diǎn):消耗較多的計(jì)算資源,對(duì)數(shù)據(jù)加密分類(lèi)能力較弱,各類(lèi)應(yīng)用特征碼提取和更新比較困難,對(duì)載荷數(shù)據(jù)的分析會(huì)帶來(lái)對(duì)用戶(hù)隱私權(quán)的侵犯。
DPI作為一種成熟的流量分類(lèi)技術(shù),在商業(yè)場(chǎng)合有著廣泛的應(yīng)用。目前很多學(xué)者試圖從硬件、架構(gòu)、多技術(shù)融合、數(shù)據(jù)處理方式等多個(gè)方面提高DPI技術(shù)的分類(lèi)效率和速度。BUJLOW T等[5]通過(guò)建立真實(shí)標(biāo)簽的可信數(shù)據(jù)集,對(duì)流行的商業(yè)和開(kāi)源DPI軟件進(jìn)行測(cè)試。在提升DPI性能方面,DE SENSI D等[6]提出了一種基于FastFlow庫(kù)的DPI框架,以更好地解決DPI對(duì)多核硬件平臺(tái)的支持。付文亮等[7]基于FPGA硬件和DPI技術(shù)進(jìn)行實(shí)時(shí)網(wǎng)絡(luò)流分類(lèi),取得了很好的效果。Alcock等[7]利用開(kāi)源軟件庫(kù)Libprotoident,提出一種輕量級(jí)的DPI分類(lèi)方案,只通過(guò)數(shù)據(jù)包載荷的前4字節(jié)進(jìn)行分類(lèi),在準(zhǔn)確率和性能上相對(duì)于其他基于DPI的開(kāi)源軟件庫(kù)都有很大的優(yōu)勢(shì)。GRIMAUDO L等[8]基于DPI技術(shù),采用層次化分類(lèi)結(jié)構(gòu),結(jié)合多種策略,對(duì)DPI進(jìn)行優(yōu)化。YEGANEH S H等[9]則采用一種加權(quán)“Term”的智能化表達(dá)式代替?zhèn)鹘y(tǒng)的正則表達(dá)式,類(lèi)似Libprotoident的思想,并且只檢測(cè)一個(gè)流的前幾個(gè)字節(jié),從而提高網(wǎng)絡(luò)流分類(lèi)的效率。
近年來(lái),隨著人工智能技術(shù)的發(fā)展,越來(lái)越多的研究者開(kāi)始利用機(jī)器學(xué)習(xí)算法來(lái)解決流量分類(lèi)問(wèn)題。利用機(jī)器學(xué)習(xí)解決流量分類(lèi)問(wèn)題,主要有兩個(gè)部分:訓(xùn)練數(shù)據(jù)集和機(jī)器學(xué)習(xí)算法。訓(xùn)練數(shù)據(jù)集的生成首先需要利用DPI工具、系統(tǒng)進(jìn)程監(jiān)控或人工的方法標(biāo)注訓(xùn)練樣本,得到樣本標(biāo)簽,然后從網(wǎng)絡(luò)流量中提取數(shù)據(jù)流的特征,最后利用訓(xùn)練集和機(jī)器學(xué)習(xí)算法得到分類(lèi)器,即可用訓(xùn)練好的分類(lèi)器對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。早在2005年,MOORE A W等人[10]提出的248維特征,就從四層協(xié)議端口號(hào)、流的包數(shù)目、包大小、包之間的時(shí)間間隔等流屬性進(jìn)行特征提取,并對(duì)這些流屬性進(jìn)行傅里葉變換等計(jì)算,從不同視角提取特征,從而提高特征的維度和層次。文獻(xiàn)[11]對(duì)包級(jí)別和流級(jí)別兩種不同粒度的特征進(jìn)行融合,提出載荷和流統(tǒng)計(jì)信息相結(jié)合的流特征屬性,從而提高流分類(lèi)的精度。
基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)的流量分類(lèi)方法主要有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種。
(1)有監(jiān)督機(jī)器學(xué)習(xí)算法
有監(jiān)督機(jī)器學(xué)習(xí)算法在各個(gè)領(lǐng)域都有廣泛應(yīng)用,研究者們也將各種機(jī)器學(xué)習(xí)算法運(yùn)用到流量分類(lèi)中。ESTE A等[12]采用SVM對(duì)互聯(lián)網(wǎng)TCP流量進(jìn)行分類(lèi),共使用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),獲得了相當(dāng)高的精度。近年來(lái),為提高大規(guī)模網(wǎng)絡(luò)流的分類(lèi)效率,也有學(xué)者基于Hadoop、Spark分布式平臺(tái)提高SVM的處理性能[13-14]。文獻(xiàn)[15-16]使用C5.0決策樹(shù)對(duì)流量進(jìn)行分類(lèi),并且都是通過(guò)系統(tǒng)守護(hù)進(jìn)程監(jiān)視數(shù)據(jù)包與應(yīng)用程序之間的聯(lián)系,產(chǎn)生真實(shí)應(yīng)用標(biāo)簽來(lái)產(chǎn)生數(shù)據(jù)集,取得了很好的分類(lèi)效果。文獻(xiàn)[17-18]將神經(jīng)網(wǎng)絡(luò)算法用與網(wǎng)絡(luò)流分類(lèi),對(duì)各種神經(jīng)網(wǎng)絡(luò)進(jìn)行了算法改進(jìn)和架構(gòu)改進(jìn),取得了很好的效果。
(2)無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法
無(wú)監(jiān)督機(jī)器學(xué)習(xí)主要使用聚類(lèi)分析方法,與有監(jiān)督的機(jī)器學(xué)習(xí)算法不同,在無(wú)監(jiān)督機(jī)器學(xué)習(xí)中,訓(xùn)練樣本無(wú)需標(biāo)注。文獻(xiàn)[19]使用高斯混合模型(GMM)利用數(shù)據(jù)包大小和方向進(jìn)行加密流量的分類(lèi)。ZANDER S等[20]提出了基于AutoClass的無(wú)監(jiān)督網(wǎng)絡(luò)流量分類(lèi)方法,是一種基于期望最大化(Expectation maximization,EM)算法的無(wú)監(jiān)督貝葉斯分類(lèi)器。文獻(xiàn)[21-22]都將無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法用與流量分類(lèi)領(lǐng)域,此類(lèi)算法為處理未知流量提供了很好的解決思路。
隨著流特征加密技術(shù)的涌現(xiàn),給基于流統(tǒng)計(jì)特征進(jìn)行流量分類(lèi)帶來(lái)了一定的局限性。近年來(lái),研究人員開(kāi)始利用主機(jī)不同的通信行為模式進(jìn)行網(wǎng)絡(luò)流量分類(lèi)。文獻(xiàn)[23-24]提出了利用用戶(hù)連接模式、連接圖、網(wǎng)絡(luò)連接直徑等主機(jī)行為特征,對(duì)網(wǎng)絡(luò)流量進(jìn)行分析,開(kāi)辟了分析網(wǎng)絡(luò)流量分類(lèi)的新方法。基于行為特征的流量分類(lèi)技術(shù)主要通過(guò)分析網(wǎng)絡(luò)協(xié)議和應(yīng)用的連接特性和行為模式上的固有特性,達(dá)到對(duì)不同流量進(jìn)行分類(lèi)的目的。這種方法通常建模時(shí)間較長(zhǎng),時(shí)空復(fù)雜度高,應(yīng)用有一定的局限性。
表1對(duì)當(dāng)前主流的網(wǎng)絡(luò)流量分類(lèi)技術(shù)的種類(lèi)和各自特點(diǎn)和存在的缺點(diǎn)進(jìn)行了比較,以便在實(shí)際工程應(yīng)用中根據(jù)不同需求選擇合適的技術(shù)方案。
表1 主要網(wǎng)絡(luò)流量分類(lèi)技術(shù)分類(lèi)表
SDN對(duì)控制層面的集中,強(qiáng)化了對(duì)流量實(shí)施統(tǒng)一控制和管理的能力?;赟DN的流量分類(lèi)對(duì)于進(jìn)一步拓展網(wǎng)絡(luò)的功能,實(shí)現(xiàn)網(wǎng)絡(luò)流量的精細(xì)化管理和精準(zhǔn)控制具有十分重要的意義,也得到了廣大學(xué)者的關(guān)注。在基于OpenFlow的SDN環(huán)境下,文獻(xiàn)[25]通過(guò)前N個(gè)數(shù)據(jù)包長(zhǎng)度、源目的IP、端口信息作為流特征,將C5.0決策樹(shù)算法運(yùn)用到SDN上進(jìn)行流量分類(lèi),但未能解決數(shù)據(jù)流隨時(shí)間發(fā)生變化的問(wèn)題。文獻(xiàn)[26]通過(guò)采樣技術(shù),利用OpenFlow的本地計(jì)數(shù)器實(shí)現(xiàn)流統(tǒng)計(jì)特征采集,但此方法采集流特征的實(shí)時(shí)性不強(qiáng),限制了在流早期分類(lèi)場(chǎng)景下的應(yīng)用。文獻(xiàn)[27]則利用DPI的方法來(lái)分類(lèi)YouTube視頻流進(jìn)行分類(lèi),并通過(guò)QoS預(yù)留帶寬。文獻(xiàn)[28]設(shè)計(jì)了一個(gè)基于DPI和機(jī)器學(xué)習(xí)算法的混合流量分類(lèi)器,但未考慮數(shù)據(jù)流隨時(shí)間發(fā)生變化的問(wèn)題。
無(wú)論是在傳統(tǒng)網(wǎng)絡(luò)環(huán)境下還是在SDN網(wǎng)絡(luò)環(huán)境下,流量分類(lèi)的對(duì)象一直是網(wǎng)絡(luò)流量本身,這一點(diǎn)始終沒(méi)有發(fā)生變化,因此能夠適用于傳統(tǒng)網(wǎng)絡(luò)下的流量分類(lèi)技術(shù)、方法都可以用在SDN網(wǎng)絡(luò)環(huán)境下,但是作為新一代網(wǎng)絡(luò)的SDN,在體系結(jié)構(gòu),運(yùn)行方式等方面都發(fā)生了很大的變化,因此基于SDN的流量分類(lèi)在流量采集方式、流量特征提取、流量的控制管理等方面都發(fā)生了新的變化。
在SDN網(wǎng)絡(luò)環(huán)境中,控制層面邏輯業(yè)務(wù)的集中,使控制器對(duì)流量的控制能力大大加強(qiáng),通過(guò)流表項(xiàng)就可以實(shí)現(xiàn)數(shù)據(jù)報(bào)文的轉(zhuǎn)發(fā)、丟棄和進(jìn)入隊(duì)列操作,其中進(jìn)入隊(duì)列操作就可以實(shí)現(xiàn)QoS功能。因此,如果能在流量建立的早期階段就能通過(guò)流量分類(lèi)來(lái)感知流量業(yè)務(wù)類(lèi)型,并根據(jù)業(yè)務(wù)需求進(jìn)行相應(yīng)的控制,就能在控制器完成流量采集、特征提取、流量分類(lèi)和流量控制整個(gè)閉合的流量控制過(guò)程,從而極大地提高流量分類(lèi)在SDN網(wǎng)絡(luò)環(huán)境下的應(yīng)用價(jià)值。
2.1.1流量獲取方式
在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,流量的獲取方式通常有兩個(gè)步驟:一是通過(guò)端口鏡像或者分光器等手段引出所關(guān)注的流量;二是通過(guò)流量捕獲設(shè)備獲得流量數(shù)據(jù)并進(jìn)行處理。流量捕獲設(shè)備大多是基于Libpcap的包捕獲機(jī)制,通過(guò)安裝數(shù)據(jù)包捕獲函數(shù)庫(kù)(Library of Packet Capture,Libpcap)來(lái)實(shí)現(xiàn)。這種流量獲取方式缺乏對(duì)數(shù)據(jù)進(jìn)行有效的過(guò)濾,只能全盤(pán)接收鏡像的所有流量,由于總帶寬受端口速率的限制,在高帶寬、大流量的場(chǎng)景下不可避免地存在丟包現(xiàn)象。
在基于OpenFlow的SDN網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)以流為單位進(jìn)行轉(zhuǎn)發(fā),當(dāng)數(shù)據(jù)進(jìn)入交換機(jī)時(shí),會(huì)根據(jù)匹配的流表項(xiàng)中規(guī)定的動(dòng)作對(duì)數(shù)據(jù)包進(jìn)行操作,若未匹配到流表項(xiàng),則會(huì)將數(shù)據(jù)包以Packet_in的消息形式轉(zhuǎn)發(fā)到控制器,經(jīng)過(guò)控制器決策后,決定該數(shù)據(jù)包的操作并下發(fā)該流的流表項(xiàng),更新交換機(jī)流表。由此可知,數(shù)據(jù)流開(kāi)始的第一個(gè)數(shù)據(jù)包會(huì)被轉(zhuǎn)發(fā)到控制器中,后面的數(shù)據(jù)會(huì)根據(jù)控制器下發(fā)的流表項(xiàng)進(jìn)行操作,如果控制器在下發(fā)的流表項(xiàng)的動(dòng)作字段增加轉(zhuǎn)發(fā)到控制器,那么該流的后續(xù)數(shù)據(jù)包都會(huì)發(fā)送到控制器中,從而實(shí)現(xiàn)了網(wǎng)絡(luò)流量的采集。
但是,將所有數(shù)據(jù)轉(zhuǎn)發(fā)到控制器并不是OpenFlow協(xié)議設(shè)計(jì)的初衷,因?yàn)檫@樣會(huì)使控制器處理開(kāi)銷(xiāo)大大增加而不堪重負(fù),特別是在網(wǎng)絡(luò)流量大的網(wǎng)絡(luò)節(jié)點(diǎn)上,很容易因?yàn)榭刂破鞯谋罎⒍鴮?dǎo)致網(wǎng)絡(luò)癱瘓。如果只將網(wǎng)絡(luò)流的前幾個(gè)數(shù)據(jù)包轉(zhuǎn)發(fā)到控制器,這樣發(fā)送到控制器的流量將大大減少,在流量分類(lèi)這個(gè)應(yīng)用場(chǎng)景下,這就要求控制器在只分析流的開(kāi)始前N個(gè)數(shù)據(jù)包情況下,能夠完成流的分類(lèi)工作,這也決定了SDN網(wǎng)絡(luò)環(huán)境下更適合進(jìn)行流量的早期分類(lèi)。
2.1.2流統(tǒng)計(jì)特征提取
在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)流統(tǒng)計(jì)特征提取只有一種途徑,那就是先獲取流量,然后將流量按流進(jìn)行重組、排序,再對(duì)流中的每一個(gè)數(shù)據(jù)包進(jìn)行統(tǒng)計(jì),從而得到流的統(tǒng)計(jì)信息。從上一節(jié)分析可知,在SDN控制器也可以通過(guò)這種方法得到流的統(tǒng)計(jì)信息,但是這種方法在流量大的場(chǎng)景下會(huì)極大地消耗控制器資源直至崩潰,因此用這種方法來(lái)提取數(shù)據(jù)流特征只適合轉(zhuǎn)發(fā)數(shù)據(jù)包數(shù)量不多的場(chǎng)景,比如流量的早期分類(lèi)。在OpenFlow交換機(jī)流表中針對(duì)每個(gè)流表、流表項(xiàng)和每個(gè)交換機(jī)端口都有一組計(jì)數(shù)器。其中基于流的計(jì)數(shù)器有接收的數(shù)據(jù)包數(shù)、接收的字節(jié)數(shù)、秒級(jí)持續(xù)時(shí)間和納秒級(jí)持續(xù)時(shí)間。借助OpenFlow的Read-State消息,通過(guò)周期性地讀取這些計(jì)數(shù)器信息,然后利用這些采樣值,為提取數(shù)據(jù)流的統(tǒng)計(jì)信息提供了新的方法[26]。
假設(shè)以周期性C對(duì)SDN交換機(jī)的流本地計(jì)數(shù)器信息進(jìn)行n次采樣,得到n個(gè)流接收的字節(jié)數(shù)計(jì)數(shù)器數(shù)據(jù)記為B={b(1),b(2),…,b(n)},則第t個(gè)周期內(nèi)流接收到的字節(jié)數(shù)為:
B(t)=b(t)-b(t-1)
(1)
得到n個(gè)流接收的數(shù)據(jù)包數(shù)計(jì)數(shù)器記為P={p(1),p(2),…,p(n)},則第t個(gè)周期內(nèi)接收到的數(shù)據(jù)包數(shù)為:
P(t)=p(t)-p(t-1)
(2)
則第t個(gè)周期內(nèi)平均數(shù)據(jù)包大小為:
(3)
該第t個(gè)周期內(nèi)平均包到達(dá)時(shí)間間隔為:
(4)
以S(t)、T(t)作為基本量,進(jìn)一步計(jì)算它們的均值和方差,可以得到S(t)的均值和方差為:
(5)
(6)
可以得到T(t)的均值和方差為:
(7)
(8)
根據(jù)MOORE AW等人[10]的研究,對(duì)包時(shí)間間隔進(jìn)行離散傅里葉變換(Discrete Fourier Transform,DFT)可以得到在頻域上的一系列分量,這些分量作為流特征從一定程度上刻畫(huà)數(shù)據(jù)流在頻域內(nèi)的變化情況。式(9)是對(duì)包時(shí)間間隔進(jìn)行DFT的計(jì)算公式。
(9)
通過(guò)以上采樣數(shù)據(jù)計(jì)算,可以得到一系列關(guān)于流的統(tǒng)計(jì)特征。由于這些統(tǒng)計(jì)特征是依據(jù)采樣數(shù)據(jù)計(jì)算的,因此采樣周期C影響著統(tǒng)計(jì)數(shù)據(jù)與真實(shí)值之間的差異,同時(shí),控制器發(fā)送Read-State消息對(duì)計(jì)數(shù)器進(jìn)行采樣的頻率也極大地影響控制器的性能。因此周期C的選擇要綜合考慮統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性和控制器性能之間的平衡,在取得可接受的數(shù)據(jù)準(zhǔn)確性的同時(shí)盡量減少對(duì)控制器的影響。
無(wú)論是用于訓(xùn)練機(jī)器學(xué)習(xí)算法分類(lèi)器的訓(xùn)練數(shù)據(jù)集,還是作為評(píng)價(jià)各種分類(lèi)器性能的測(cè)試數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行可信標(biāo)注都是不可或缺的,但仍然是一個(gè)尚未解決的問(wèn)題。目前對(duì)網(wǎng)絡(luò)數(shù)據(jù)集的標(biāo)注一般采用兩種方法,即生成法和經(jīng)驗(yàn)法。經(jīng)驗(yàn)法是通過(guò)捕獲網(wǎng)絡(luò)數(shù)據(jù)包,并利用已有經(jīng)驗(yàn),對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。很多研究者通過(guò)DPI工具L7-filter或nDPI等對(duì)數(shù)據(jù)包進(jìn)行標(biāo)注,就是運(yùn)用了經(jīng)驗(yàn)法。生成法是在一個(gè)受控環(huán)境或?qū)嶒?yàn)環(huán)境中部署目標(biāo)應(yīng)用,模擬各種運(yùn)行模式,運(yùn)行生成的日志即標(biāo)注為目標(biāo)運(yùn)用。如可信標(biāo)注工具GT(Ground Truth),文獻(xiàn)[16]中提到的VBS系統(tǒng)和文獻(xiàn)[29]中運(yùn)行在移動(dòng)設(shè)備端的守護(hù)進(jìn)程,都是通過(guò)監(jiān)測(cè)網(wǎng)絡(luò)套接字的變化狀態(tài)來(lái)收集數(shù)據(jù)流對(duì)應(yīng)的應(yīng)用,進(jìn)行可信標(biāo)注。相比于經(jīng)驗(yàn)法,生成法難以真實(shí)反映真實(shí)的網(wǎng)絡(luò)環(huán)境,但是其環(huán)境可控,標(biāo)注可信,工作量也相對(duì)較少,已經(jīng)越來(lái)越得到研究者的認(rèn)可。
在線流量分類(lèi)不同于離線流量分類(lèi),特別是高速網(wǎng)絡(luò)環(huán)境下的在線流量分類(lèi),對(duì)特征提取速度和分類(lèi)器效率提出了很高的要求,在線流量分類(lèi)從工程實(shí)際角度出發(fā),在數(shù)據(jù)流建立初期就進(jìn)行分類(lèi),為后續(xù)的服務(wù)質(zhì)量管理和流量安全管理提供了先決條件,在線流量分類(lèi)的重要性不言而喻,從而吸引了大量學(xué)者進(jìn)行研究。
在流量的早期分類(lèi)方面,ACETO G等[30]利用網(wǎng)絡(luò)流的第一個(gè)報(bào)文的載荷數(shù)據(jù)來(lái)進(jìn)行在線流量分類(lèi)。BERNAILLE L等[31]利用網(wǎng)絡(luò)流建立初始階段的前n個(gè)數(shù)據(jù)包的大小和方向作為流特征,取得了較好的分類(lèi)效果。彭建芬等[32]發(fā)現(xiàn)在網(wǎng)絡(luò)流建立初始階段的前幾個(gè)報(bào)文在大小、方向等特征上能夠提取流特征,用于在線流量分類(lèi)。這些研究說(shuō)明了通過(guò)流的早期部分?jǐn)?shù)據(jù)包進(jìn)行流分類(lèi)是可行的,提供了理論依據(jù)。在具體實(shí)現(xiàn)方面,文獻(xiàn)[33-34]從提升網(wǎng)絡(luò)流量處理性能角度對(duì)網(wǎng)絡(luò)流量的在線分類(lèi)工作進(jìn)行改進(jìn),以提高在線分類(lèi)速度和效能。
實(shí)時(shí)性的要求包含兩個(gè)方面:快速的線上檢測(cè)、快速的模型更新。但由于網(wǎng)絡(luò)規(guī)模的日益增大,用戶(hù)規(guī)模的不斷增長(zhǎng),傳統(tǒng)的機(jī)器學(xué)習(xí)方法在處理大規(guī)模網(wǎng)絡(luò)流量分類(lèi)問(wèn)題時(shí),其分類(lèi)準(zhǔn)確率與模型訓(xùn)練速率等通常難以取得平衡。僅靠使用更多的計(jì)算資源,無(wú)法滿(mǎn)足現(xiàn)實(shí)的發(fā)展,需要從算法方面進(jìn)行革新。
網(wǎng)絡(luò)流量數(shù)據(jù)最突出的特點(diǎn)就是其隨時(shí)間快速演化,存在概念漂移的現(xiàn)象,并且不同地域、不同網(wǎng)絡(luò)環(huán)境的協(xié)議類(lèi)型的分布也不一致?,F(xiàn)有方法缺乏對(duì)數(shù)據(jù)流中概念漂移的深入研究。一方面,網(wǎng)絡(luò)數(shù)據(jù)流的演化特性,使其不能按照靜態(tài)數(shù)據(jù)的傳統(tǒng)方式多次反復(fù)讀取,并且需要對(duì)于增量數(shù)據(jù)能夠快速有效地更新模型。另一方面,還需要將不同地域、不同環(huán)境的網(wǎng)絡(luò)流量統(tǒng)一處理,以獲得良好的泛化能力。
在移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新事物新技術(shù)不斷發(fā)展的今天,流量分類(lèi)出現(xiàn)了很多新情況,面臨眾多新的挑戰(zhàn)。
一是面對(duì)海量數(shù)據(jù),傳統(tǒng)的單機(jī)處理模式已經(jīng)很難滿(mǎn)足計(jì)算要求,在這種情況下,利用Hadoop、Spark等并行處理技術(shù)和集群計(jì)算模式來(lái)處理實(shí)時(shí)網(wǎng)絡(luò)流已經(jīng)成為一種趨勢(shì),得到很多學(xué)者的關(guān)注。
二是在線學(xué)習(xí)是近年來(lái)廣泛使用的一種解決大規(guī)模機(jī)器學(xué)習(xí)問(wèn)題的方法。將在線學(xué)習(xí)算法用于實(shí)時(shí)流量分類(lèi)也是當(dāng)前研究的一個(gè)方向。但是一般意義上的在線學(xué)習(xí)算法在使用中并不區(qū)分訓(xùn)練階段與測(cè)試階段,模型在對(duì)樣本進(jìn)行預(yù)測(cè)后,通過(guò)接收正確的樣本類(lèi)別來(lái)決定是否更新模型。而網(wǎng)絡(luò)流量分類(lèi)問(wèn)題中,模型在對(duì)樣本進(jìn)行預(yù)測(cè)后無(wú)法接收真實(shí)的樣本類(lèi)別。這就導(dǎo)致了在網(wǎng)絡(luò)流量分類(lèi)應(yīng)用中,在線學(xué)習(xí)算法僅能運(yùn)用于模型的離線訓(xùn)練階段,無(wú)法實(shí)現(xiàn)模型的實(shí)時(shí)更新,使用在線算法的優(yōu)點(diǎn)是能大大縮短模型離線訓(xùn)練所需要的時(shí)間,以實(shí)現(xiàn)模型的快速更新。
三是未來(lái)網(wǎng)絡(luò)SDN控制層面的集中,對(duì)大型網(wǎng)絡(luò)的集中管控和統(tǒng)一策略具有很大的實(shí)用價(jià)值,特別是對(duì)于大規(guī)模網(wǎng)絡(luò)環(huán)境,其運(yùn)行機(jī)制的復(fù)雜度會(huì)大大增加,因此大規(guī)模復(fù)雜的SDN環(huán)境的流量分類(lèi)問(wèn)題值得進(jìn)一步研究。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC). 第40次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.(2017-08-04) http://cnnic.cn/gywm/xwzx/rdxw/201708/t20170804_69449.htm.
[2] MCKEOWN N. Software-defined networking[J]. INFOCOM Keynote Talk, 2009.
[3] FEAMSTER N, REXFORD J, ZEGURD E. The road to SDN: an intellectual history of programmable networks[J]. ACM SIGCOMM Computer Communication Review, 2014, 44(2): 87-98.
[4] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification[C]//14th IEEE International Symposium on Modeling, Analysis, and Simulation. IEEE, 2006: 179-188.
[6] DE SENSI D, DANELUTTO M, DERI L. DPI over commodity hardware: implementation of a scalable framework using fastflow[D]. University of Pisa, 2013.
[7] 付文亮, 嵩天, 周舟. RocketTC: 一個(gè)基于 FPGA 的高性能網(wǎng)絡(luò)流量分類(lèi)架構(gòu)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(2): 414-422.
[8] GRIMAUDO L, MELLIA M, BARALIS E. Hierarchical Learning for Fine Grained Internet Traffic Classification[C]//2012 8th International Wireless Communications and Mobile Computing Conference (IWCMC). IEEE, 2012: 463-468.
[9] YEGANEH S H, EFTEKHAR M, GANJALI Y,et al. CUTE: Traffic Classification Using Terms[C]//2012 21st International Conference on Computer Communications and Networks (ICCCN). IEEE, 2012: 1-9.
[10] MOOREA W, ZUEV D. Internet Traffic Classification Using Bayesian Analysis Techniques[C]//ACM SIGMETRICS Performance Evaluation Review. ACM, 2005, 33(1): 50-60.
[11] HJELMVIK E, JOHN W. Breaking and improving protocol obfuscation[R]. Chalmers University of Technology, 2010.
[12] ESTE A,GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification[J]. Computer Networks, 2009, 53(14): 2476-2490.
[13] D′ALESSANDRO V, PARK B, ROMANO L, et al. Scalable network traffic classification using distributed support vector machines[C]//2015 IEEE 8th International Conference on Cloud Computing. IEEE, 2015: 1008-1012.
[14] 劉澤燊, 潘志松. 基于 Spark 的大規(guī)模網(wǎng)絡(luò)流量分類(lèi)研究[J]. 計(jì)算機(jī)時(shí)代, 2016 (4): 1-5.
[15] BUJLOW T, RIAZ T, PEDERSEN J M. Classification of HTTP Traffic Based on C5.0 Machine Learning Algorithm[C]// Computers and Communications (ISCC). IEEE, 2012: 882-887.
[16] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.
[17] AKILANDESWARI V, SHALINIE S M. Probabilistic neural network based attack traffic classification[C]//2012 Fourth International Conference on Advanced Computing (ICoAC). IEEE, 2012: 1-8.
[18] SINGH K,AGRAWAL S. Internet traffic classification using RBF neural network[C]//International Conference on Communication and Computing Technologies (ICCCT-2011), Jalandhar, India, 2011: 39-43.
[19] BERNAILLE L, TEIXEIRA R. Early recognition of encrypted applications[C]//International Conference on Passive and Active Network Measurement. Springer Berlin Heidelberg, 2007: 165-175.
[20] ZANDER S, NGUYEN T,ARMITAGE G. Automated traffic classification and application identification using machine learning[C]//The IEEE Conference on Local Computer Networks 30th Anniversary (LCN'05) l. IEEE, 2005: 250-257.
[21] YANG C, WANG F, HUANG B. Internet traffic classification usingdbscan[C]// Information Engineering, 2009. ICIE'09. IEEE, 2009, 2: 163-166.
[22] FINAMORE A, MELLIA M, MEO M. Mining Unclassified Traffic Using Automatic Clustering Techniques[C]// International Conference on Traffic Monitoring and Analysis. Springer-Verlag, 2011:150-163.
[23] CONSTANTINOU F, MAVROMMATIS P. Identifying known and unknown peer-to-peer traffic[C]//Fifth IEEE International Symposium on Network Computing and Applications (NCA'06). IEEE, 2006: 93-102.
[24] 張震, 汪斌強(qiáng), 陳鴻昶, 等. 互聯(lián)網(wǎng)中基于用戶(hù)連接圖的流量分類(lèi)機(jī)制[J]. 電子與信息學(xué)報(bào), 2013, 35(4): 958-964.
[25] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.
[26] DA SILVA A S, MACHADO CC, BISOL R V, et al. Identification and selection of flow features for accurate traffic classification in SDN[C]// Network Computing and Applications (NCA). IEEE, 2015: 134-141.
[27] JARSCHEL M, WAMSER F, HOHN T, et al. SDN-based application-aware networking on the example of youtube video streaming[C]//2013 Second European Workshop on Software Defined Networks. IEEE, 2013: 87-92.
[28] LI Y, LI J.MultiClassifier: A combination of DPI and ML for application-layer classification in SDN[C]// Systems and Informatics (ICSAI). IEEE, 2014: 682-686.
[29] Volunteer-Based System for Research on the Internet, 2012. [Online]. Available:http://vbsi.sourceforge.net/.
[30] ACETO G, DAINOTTI A, DE DONATO W, et al. PortLoad: taking the best of two worlds in traffic classification[C]//INFOCOM IEEE Conference on Computer Communications Workshops, 2010. IEEE, 2010: 1-5.
[31] BERNAILLE L, TEIXEIRA R, SALAMATIAN K. Early application identification[C]//Proceedings of the 2006 ACM CoNEXT conference. ACM, 2006(6): 1-12.
[32] 彭建芬, 周亞建, 王樅, 等. TCP 流量早期分類(lèi)方法[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2011, 29(1): 73-77.
[33] ALSABAH M, BAUER K, GOLDBERG I. Enhancing Tor's Performance Using Real-time Traffic Classification[C]//Proceedings of The 2012 ACM Conference on Computer and Communications Security. ACM, 2012: 73-84.
[34] SZAB? G, G?DOR I, VERES A, et al. Traffic classification over Gbit speed with commodity hardware[J]. IEEE Journal of Communications Software and Systems, 2010, 5(3): 93-100.