蘇星曄
【摘要】 隨著對(duì)等網(wǎng)絡(luò)流量的迅猛增長(zhǎng),給網(wǎng)絡(luò)帶寬造成了沉重的負(fù)擔(dān),為了對(duì)對(duì)等網(wǎng)絡(luò)流量進(jìn)行有效而合理的監(jiān)控,人們對(duì)對(duì)等網(wǎng)絡(luò)流量識(shí)別的需求越來(lái)越強(qiáng)烈。本文通過(guò)對(duì)對(duì)等網(wǎng)絡(luò)流量識(shí)別的相關(guān)技術(shù)進(jìn)行研究,梳理了實(shí)現(xiàn)對(duì)等網(wǎng)絡(luò)流量識(shí)別的主要方式。
【關(guān)鍵字】 對(duì)等網(wǎng)絡(luò) 流量 識(shí)別
一、引言
近年來(lái),隨著對(duì)等網(wǎng)絡(luò)(Peer-to-peer,P2P)技術(shù)的不斷發(fā)展,P2P流量也迅猛增長(zhǎng),給網(wǎng)絡(luò)帶寬造成了沉重的負(fù)擔(dān),甚至引起網(wǎng)絡(luò)擁塞,降低了其他網(wǎng)絡(luò)應(yīng)用的性能;同時(shí),基于P2P的惡意流量也頻繁出現(xiàn)在互聯(lián)網(wǎng)上,大量的非法連接加快了帶寬的消耗,甚至導(dǎo)致拒絕服務(wù)攻擊。因此,對(duì)于P2P流量監(jiān)控已經(jīng)逐漸成為人們研究的熱點(diǎn)問(wèn)題,而流量識(shí)別顯然是其中最關(guān)鍵的環(huán)節(jié):因?yàn)橹挥袑?duì)P2P流量進(jìn)行有效識(shí)別,才能對(duì)它們進(jìn)行有效的控制。
二、對(duì)等網(wǎng)絡(luò)流量識(shí)別的實(shí)現(xiàn)方式
2.1基于端口號(hào)的識(shí)別方式
基于端口號(hào)的識(shí)別方法是P2P流量識(shí)別領(lǐng)域中最早提出的一種方法,其是通過(guò)截取網(wǎng)絡(luò)流量,識(shí)別數(shù)據(jù)流的源端口號(hào)或者目的端口號(hào),將識(shí)別出的端口號(hào)和預(yù)設(shè)的常用P2P軟件端口映射表中的端口號(hào)進(jìn)行匹配,如果找到匹配項(xiàng)就表示該流量屬于P2P流量,如果沒(méi)找到匹配項(xiàng)就表示不是P2P流量。
這種基于端口的P2P流量識(shí)別技術(shù),簡(jiǎn)單易行,計(jì)算開(kāi)銷小,不需要進(jìn)行復(fù)雜的分組處理即可得出結(jié)論,在P2P應(yīng)用初期十分快速、有效。
然而,隨著P2P的發(fā)展,各P2P應(yīng)用為了躲避流量審計(jì)和過(guò)濾等,紛紛采用隨機(jī)動(dòng)態(tài)端口(如用戶自定義端口,端口跳躍),甚至是偽端口(如將端口設(shè)置為80、8080、443等),同時(shí),網(wǎng)絡(luò)中大量采用地址轉(zhuǎn)換技術(shù)(NAT,Network Addresses Translation),使得基于端口檢測(cè)方法的識(shí)別效率越來(lái)越低。
2.2基于應(yīng)用層特征字匹配的識(shí)別方式
通過(guò)分析各類應(yīng)用的協(xié)議找出各類應(yīng)用自己的特征字符串生成常用P2P軟件協(xié)議映射表,深度分析數(shù)據(jù)包所攜帶的特征字符串,與常用P2P軟件協(xié)議映射表中的字符串進(jìn)行匹配,來(lái)檢測(cè)該數(shù)據(jù)包是否是P2P流量[1]。
這類方法需對(duì)數(shù)據(jù)包進(jìn)行負(fù)載分析,所以也稱為深度數(shù)據(jù)包識(shí)別方法(DPI,Deep Packet Inspection),由于是針對(duì)應(yīng)用層特征字段的,因此也稱為應(yīng)用簽名技術(shù)或凈荷檢測(cè)技術(shù)。
但是,它也存在著一定的局限性,主要表現(xiàn)為以下幾點(diǎn):相關(guān)協(xié)議特征字符串的獲取是通過(guò)分析數(shù)據(jù)包內(nèi)容獲得的,這關(guān)系到數(shù)據(jù)隱私和法律的問(wèn)題,一旦遇到采用加密用戶數(shù)據(jù)的手段來(lái)避免被解析和深層檢測(cè)的P2P應(yīng)用(如Skype,QQ,迅雷),這種方法就不再有效了;由于對(duì)P2P流量中的每個(gè)數(shù)據(jù)包均需要進(jìn)行字符串識(shí)別,因此增加了P2P流量的識(shí)別時(shí)間,并且對(duì)識(shí)別系統(tǒng)的配置要求較高; DPI僅能夠做到流級(jí)別的識(shí)別,還沒(méi)有做到文件級(jí)別的識(shí)別,無(wú)法識(shí)別出P2P流傳輸?shù)木唧w文件信息。
2.3基于傳輸層特征的識(shí)別方式
P2P應(yīng)用作為一種充分利用客戶端資源的新型應(yīng)用,在傳輸層表現(xiàn)出來(lái)的流量特征相對(duì)于其它應(yīng)用,如HTTP、FTP、DNS等,有許多不同的地方?;趥鬏攲犹卣鞯淖R(shí)別技術(shù)就是通過(guò)檢測(cè)這些流量特征來(lái)發(fā)現(xiàn)P2P應(yīng)用。基于流量特征檢測(cè)方法的理論依據(jù)是采用基于流量行為和流統(tǒng)計(jì)的應(yīng)用識(shí)別技術(shù),它不對(duì)網(wǎng)絡(luò)流量進(jìn)行深度報(bào)文檢測(cè),而只通過(guò)對(duì)數(shù)據(jù)包的大小分布、發(fā)送數(shù)據(jù)包的頻率、上下行流量的比例關(guān)系等行為特征進(jìn)行監(jiān)控,屬于一種統(tǒng)計(jì)分析識(shí)別方法。這類方法不需要任何關(guān)于應(yīng)用層協(xié)議的信息。
2.4基于雙重特征的識(shí)別方式
基于應(yīng)用層特征字匹配的 P2P 流量識(shí)別技術(shù)進(jìn)行的是特征字符串的匹配,能夠識(shí)別出具體的應(yīng)用類型但是無(wú)法識(shí)別未知和加密的數(shù)據(jù)流,基于傳輸層特征的 P2P 流量識(shí)別技術(shù)不需要解析和還原協(xié)議,能夠識(shí)別未知和加密的數(shù)據(jù)流,但是無(wú)法識(shí)別出具體的應(yīng)用類型,因此有人提出綜合這兩種技術(shù)的優(yōu)點(diǎn),即所謂的基于雙重特征的 P2P 流量識(shí)別技術(shù),由于兩種特征分別屬于應(yīng)用層和傳輸層,也稱之為跨層流量識(shí)別方法。
2.5基于機(jī)器學(xué)習(xí)的識(shí)別方式
要進(jìn)行實(shí)時(shí)的流量檢測(cè)就需要提取更為有效的P2P內(nèi)在行為特征,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)中的貝葉斯分類等常用分類方法已經(jīng)應(yīng)用到流量識(shí)別的研究當(dāng)中。
三、結(jié)束語(yǔ)
根據(jù)上述對(duì)實(shí)現(xiàn)對(duì)等網(wǎng)絡(luò)流量識(shí)別的各種方式的分析,可以看到各方式的優(yōu)缺點(diǎn),具體如何選擇實(shí)現(xiàn)方式應(yīng)結(jié)合具體工作的實(shí)際情況,確保安全、精確、高效地識(shí)別對(duì)等網(wǎng)絡(luò)流量。
參 考 文 獻(xiàn)
[1] 李宏達(dá),林嘉燕,P2P流量識(shí)別技術(shù)研究,軟件工程師,2010年第12期:41-43.