国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

無監(jiān)督的視頻業(yè)務(wù)特征分析與分類

2015-10-29 08:09:27姚利濤董育寧
關(guān)鍵詞:標(biāo)清視頻流非對稱

姚利濤,董育寧

南京郵電大學(xué)通信與信息工程學(xué)院,南京210003

無監(jiān)督的視頻業(yè)務(wù)特征分析與分類

姚利濤,董育寧

南京郵電大學(xué)通信與信息工程學(xué)院,南京210003

基于機(jī)器學(xué)習(xí)的流統(tǒng)計(jì)特征識(shí)別的方法關(guān)鍵在于如何找到具有區(qū)分力度的業(yè)務(wù)流統(tǒng)計(jì)特征.為此,提出了一些能夠較好地區(qū)分視頻業(yè)務(wù)的QoS相關(guān)的統(tǒng)計(jì)特征.為了充分地發(fā)揮多級聚類算法的優(yōu)勢,以靈活的特征選擇策略標(biāo)記不同層級的網(wǎng)絡(luò)視頻流,通過大量的真實(shí)網(wǎng)絡(luò)視頻數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證.結(jié)果表明,該方法能比現(xiàn)有同類方法取得更高的分類準(zhǔn)確率.

視頻流;統(tǒng)計(jì)特征;QoS;流分類;多級聚類

近年來,隨著因特網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)視頻業(yè)務(wù)的增長極其迅速.根據(jù)文獻(xiàn)[1]的預(yù)測,互聯(lián)網(wǎng)視頻流量的比例在2014年達(dá)到57%.與此同時(shí),各種新的應(yīng)用和未知協(xié)議使得網(wǎng)絡(luò)環(huán)境日趨復(fù)雜,一系列的問題如有效的網(wǎng)管、不同業(yè)務(wù)的QoS保證等也隨之產(chǎn)生.對于網(wǎng)絡(luò)服務(wù)提供商(Internet service provider,ISP)和網(wǎng)絡(luò)環(huán)境監(jiān)管者來說,快速準(zhǔn)確地識(shí)別不同的網(wǎng)絡(luò)業(yè)務(wù)流是一種行之有效的解決方法.

常用的識(shí)別和分類方法主要有基于端口的方法、基于深度包檢測(deep packet inspection,DPI)的方法和基于統(tǒng)計(jì)特征的方法[2].基于端口的識(shí)別方法是根據(jù)國際互聯(lián)網(wǎng)代理成員管理局(Internet Assigned Numbers Authority,IANA)建議的非強(qiáng)制端口號來區(qū)分不同的應(yīng)用類型,然而,隨著一些采用動(dòng)態(tài)端口的P2P應(yīng)用的出現(xiàn),這種方法已經(jīng)不能有效地滿足要求[3].為了突破基于端口的方法的限制,文獻(xiàn)[4]提出了一種更可靠的基于負(fù)載檢測的方法––DPI,該方法通過網(wǎng)絡(luò)應(yīng)用在傳輸過程中的特征來區(qū)分不同的應(yīng)用.它需要解析數(shù)據(jù)包并獲得特征字段,準(zhǔn)確性較高,但隨著應(yīng)用負(fù)載加密和新型應(yīng)用的不斷涌現(xiàn),該方法的有效性逐步下降[5].另外,有些業(yè)務(wù)可能并不存在可區(qū)分標(biāo)識(shí)[6].為了克服基于端口和基于負(fù)載檢測的識(shí)別方法的不足,文獻(xiàn)[7-8]嘗試借助業(yè)務(wù)流的統(tǒng)計(jì)特征識(shí)別業(yè)務(wù)流.該方法不需要獲取分組的負(fù)載,僅通過流的統(tǒng)計(jì)特征就能夠識(shí)別不同的網(wǎng)絡(luò)業(yè)務(wù).然而,如何找到確實(shí)有效的業(yè)務(wù)流統(tǒng)計(jì)特征,是一個(gè)巨大的挑戰(zhàn).

同時(shí),機(jī)器學(xué)習(xí)也被引入到業(yè)務(wù)流識(shí)別領(lǐng)域中.目前,用于網(wǎng)絡(luò)流量識(shí)別的機(jī)器學(xué)習(xí)算法主要分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類,其中有監(jiān)督學(xué)習(xí)分類算法又主要包括決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、最近鄰方法等.聚類屬于非監(jiān)督模式識(shí)別問題,比較典型的聚類方法有傳統(tǒng)的C-均值方法和模糊C-均值聚類(fuzzy c-means algorithm,F(xiàn)CM)方法.FCM是網(wǎng)絡(luò)業(yè)務(wù)流分類中應(yīng)用十分廣泛的技術(shù),加之由于監(jiān)督型的機(jī)器學(xué)習(xí)方法需要大量的訓(xùn)練數(shù)據(jù)來獲得內(nèi)在模型,本文采用基于核函數(shù)的模糊C-均值聚類算法.

網(wǎng)絡(luò)業(yè)務(wù)流分類研究主要集中在基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法[9].文獻(xiàn)[10]通過深入研究證明了包到達(dá)時(shí)間間隔業(yè)務(wù)流分類過程中的重要作用.文獻(xiàn)[11]總結(jié)了一些對QoS保障要求較高的業(yè)務(wù),如VoIP、VoD和網(wǎng)絡(luò)游戲等的報(bào)文大小和流長的特點(diǎn),并提出了基于報(bào)文長度和流長的隨機(jī)早期丟棄算法.文獻(xiàn)[12]利用各類業(yè)務(wù)流的包長分布,對加密通道中的網(wǎng)絡(luò)流量進(jìn)行業(yè)務(wù)識(shí)別,并取得了良好的效果.文獻(xiàn)[13-14]分別用包大小等各種流特性,并采用模式識(shí)別和機(jī)器學(xué)習(xí)等方法進(jìn)行了網(wǎng)絡(luò)業(yè)務(wù)流量的分類研究,取得了一定的效果.文獻(xiàn)[15]采用基于SVM算法,并選取三元組特征進(jìn)行P2P業(yè)務(wù)的識(shí)別,取得了96%的識(shí)別準(zhǔn)確率.文獻(xiàn)[16]使用C4.5分類網(wǎng)絡(luò)業(yè)務(wù)流,能取得比貝葉斯分類算法更高的準(zhǔn)確率,但建模時(shí)間較長.文獻(xiàn)[17]也是一種基于統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)分類方法,文中選取了10個(gè)統(tǒng)計(jì)特征進(jìn)行分類并驗(yàn)證了C4.5分類算法較好的分類性能.文獻(xiàn)[18]采用平均包大小和平均包到達(dá)時(shí)間間隔這兩個(gè)特征識(shí)別在線游戲,同樣取得了不錯(cuò)的效果.然而,上面的相關(guān)工作均采用監(jiān)督型的機(jī)器學(xué)習(xí)算法,需要大量的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練操作,因?yàn)樗鼈冃枰銐蚨嗑哂写硇缘臉颖緛慝@取不同業(yè)務(wù)的內(nèi)部模式;況且這類算法因其計(jì)算復(fù)雜程度限制了其應(yīng)用,而這些卻是非監(jiān)督聚類而算法的優(yōu)勢所在.

文獻(xiàn)[19]提出了一種半監(jiān)督的方法,使用K均值算法分類業(yè)務(wù)流數(shù)據(jù)集,但只強(qiáng)調(diào)對算法的改進(jìn).文獻(xiàn)[20]通過K均值算法分類10種網(wǎng)絡(luò)應(yīng)用,雖然簡單但是容易產(chǎn)生局部最優(yōu)解,從而導(dǎo)致不好的聚類效果.文獻(xiàn)[21]使用FCM進(jìn)行P2P業(yè)務(wù)流的識(shí)別,雖然克服了K均值算法易產(chǎn)生局部最優(yōu)解的不足,但是采用了多達(dá)15個(gè)統(tǒng)計(jì)特征,明顯增加了算法的復(fù)雜度.

上述文獻(xiàn)或者針對某種特定的業(yè)務(wù)類型,或者只強(qiáng)調(diào)對算法的改進(jìn)而忽略問題的關(guān)鍵,即如何從原始流的屬性中提取有意義的特征組合來標(biāo)識(shí)原始流[2],進(jìn)而提高流量分類模型的分類有效性.本文的工作將致力于找到能夠區(qū)分不同類型視頻業(yè)務(wù)流的確實(shí)有效的流統(tǒng)計(jì)特征.本文基于以下假設(shè):不同的網(wǎng)絡(luò)視頻應(yīng)用需要不同的QoS支持和網(wǎng)絡(luò)資源,同類的網(wǎng)絡(luò)應(yīng)用通常需要相近或相似的QoS需求.因此,準(zhǔn)確的網(wǎng)絡(luò)視頻業(yè)務(wù)流識(shí)別可以幫助網(wǎng)絡(luò)服務(wù)提供商精確地理解不同業(yè)務(wù)所需的QoS水平,協(xié)助他們進(jìn)行恰當(dāng)?shù)木W(wǎng)絡(luò)資源配置,進(jìn)而取得更佳的用戶滿意度.本文提出一種基于多層聚類的多媒體視頻流分類方法.首先對獲取的多媒體視頻流數(shù)據(jù)進(jìn)行大量的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘,得到具有較好區(qū)分效果的業(yè)務(wù)流QoS相關(guān)特征組合(如包大小的信息熵、下上行字節(jié)數(shù)之比等),然后用不同特征或特征組合標(biāo)識(shí)的業(yè)務(wù)流作為輸入,對視頻流數(shù)據(jù)進(jìn)行分層聚類.實(shí)驗(yàn)結(jié)果表明,本文方法與現(xiàn)有方法相比具有更好的分類準(zhǔn)確率.

1 多層聚類業(yè)務(wù)流識(shí)別方案

1.1總體框架

本文采用基于核函數(shù)的模糊C均值聚類的分類方法對所研究的6種業(yè)務(wù)流進(jìn)行分類識(shí)別.首先采用本文提出的業(yè)務(wù)流QoS相關(guān)特征標(biāo)識(shí)原始數(shù)據(jù)流,在不同層次的聚類中采用不同的分類特征或分類特征組合標(biāo)識(shí)業(yè)務(wù)流數(shù)據(jù)作為分類器的輸入,經(jīng)過多層聚類后得到最終的聚類結(jié)果.本文提出的基于多層聚類的網(wǎng)絡(luò)視頻流分類識(shí)別過程如圖1所示,主要包含以下幾個(gè)過程:流量統(tǒng)計(jì)特征計(jì)算過程、特征分析與特征選取過程、多層聚類過程以及輸出結(jié)果統(tǒng)計(jì)過程.

圖1 分類方案流程框圖Figure 1 Flow chart of classifcation scheme

首先通過WireShark網(wǎng)絡(luò)分析工具捕獲所需的數(shù)據(jù)流,抓包數(shù)據(jù)的存儲(chǔ)格式如圖2所示,其中包含5列,從左至右依次是包到達(dá)時(shí)間、源IP地址、目的IP地址、協(xié)議、分組大小.對上述原始數(shù)據(jù)進(jìn)行處理,計(jì)算出不同網(wǎng)絡(luò)視頻流的統(tǒng)計(jì)特征,經(jīng)過大量的數(shù)據(jù)分析和實(shí)驗(yàn)驗(yàn)證,選取具有較好區(qū)分度的QoS相關(guān)特征(如下上行字節(jié)數(shù)之比、包大小的信息熵、有效IP數(shù)目、下行子流片段數(shù)目等),對這些特征進(jìn)行適當(dāng)?shù)慕M合來標(biāo)識(shí)原始的網(wǎng)絡(luò)數(shù)據(jù)流,然后把這些特征組合標(biāo)識(shí)的原始數(shù)據(jù)流作為多層聚類分類器的輸入?yún)?shù),通過多層聚類分類器的多層聚類識(shí)別得到最后的分類結(jié)果.實(shí)驗(yàn)結(jié)果表明,文中所選取的業(yè)務(wù)流的統(tǒng)計(jì)特征組合確實(shí)有效,能夠取得較好的分類準(zhǔn)確度.

圖2 抓取數(shù)據(jù)的存儲(chǔ)格式Figure 2 Storage format of data

1.2特征選擇與分析

本文主要針對非對稱標(biāo)清(以youku標(biāo)清為例)、非對稱高清(以youku高清為例)、HTTP下載、交互式視頻通信類(以QQ為例)、P2P文件共享類(以Xunlei為例)、網(wǎng)絡(luò)在線直播類(以Sopcast為例)等6類視頻業(yè)務(wù)進(jìn)行分類研究.本小節(jié)主要選擇下上行字節(jié)數(shù)之比、下行包大小的信息熵、下行子流片段數(shù)目、下行有效IP數(shù)目等統(tǒng)計(jì)特征進(jìn)行分析.在此之前首先介紹幾個(gè)概念,流是指同種業(yè)務(wù)在30 min時(shí)間內(nèi)所抓取的數(shù)據(jù)包序列,在本文中稱為一條流,并以每種業(yè)務(wù)都抓取60條流來分析問題.下行數(shù)據(jù)是指下載到本地IP地址的數(shù)據(jù),上行數(shù)據(jù)是指從本地IP地址上傳的數(shù)據(jù).由于相關(guān)文獻(xiàn)指出數(shù)據(jù)流的下行數(shù)據(jù)包攜帶比上行數(shù)據(jù)包更多的信息,文中主要針對網(wǎng)絡(luò)數(shù)據(jù)流的下行數(shù)據(jù)進(jìn)行分析.

根據(jù)大量的統(tǒng)計(jì)實(shí)驗(yàn)和數(shù)據(jù)分析,文本選取如下4個(gè)網(wǎng)絡(luò)業(yè)務(wù)流的統(tǒng)計(jì)特征作為標(biāo)識(shí)原始視頻流的特征矢量:下上行字節(jié)數(shù)之比、下行包大小的信息熵、下行子流片段數(shù)目、下行有效IP數(shù)目.

1.2.1下上行字節(jié)數(shù)之比

下上行字節(jié)數(shù)之比即一條流中去除開銷之后剩余的數(shù)據(jù)中下行字節(jié)數(shù)與上行字節(jié)數(shù)的比值.該特征能夠有效避免網(wǎng)絡(luò)環(huán)境變化對識(shí)別結(jié)果的影響,具有較好的穩(wěn)定性.在區(qū)分對稱(如P2P流)和非對稱業(yè)務(wù)時(shí)具有較好的區(qū)分效果,結(jié)合下面介紹的下行包大小的信息熵或下行子流片段數(shù)目能夠有效地區(qū)分對稱和非對稱視頻業(yè)務(wù).

1.2.2下行包大小的信息熵

下行包大小的信息熵可用來衡量一條流下行包大小的分布均勻程度.該值越大,說明某種業(yè)務(wù)的包大小分布越均勻.大量實(shí)驗(yàn)表明,該參數(shù)對于區(qū)分對稱業(yè)務(wù)中的QQ、Xunlei和Sopcast具有較好的效果

式中,E為下行包大小的信息熵;xi為該條業(yè)務(wù)流包大小,以字節(jié)為單位;p(xi)是包大小為xi時(shí)的概率密度函數(shù)(probability density function,PDF).

1.2.3下行子流片段數(shù)目

連續(xù)地出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址可以重復(fù).研究表明,對稱業(yè)務(wù)中經(jīng)常出現(xiàn)不同IP地址與本地IP交互的情況,因而對稱業(yè)務(wù)流中的子流片段數(shù)目較多.

1.2.4下行有效IP數(shù)目

在數(shù)據(jù)流抓取的過程中會(huì)出現(xiàn)不同的IP地址與本地IP信息交互的情況,且在運(yùn)行過程中不可避免地出現(xiàn)一些后臺(tái)應(yīng)用,因而可能出現(xiàn)一些與該流無關(guān)的IP地址.在這種情況下,本文定義持續(xù)時(shí)間大于0.5 s的IP地址為有效IP地址.下行有效IP數(shù)目也就是指下行數(shù)據(jù)中總的持續(xù)時(shí)間大于0.5 s源IP地址數(shù)目的總和.

2 多級FCM算法

2.1模糊C均值聚類

FCM聚類算法是一種基于目標(biāo)函數(shù)的聚類方法,它把聚類歸結(jié)成一個(gè)帶約束的非線性規(guī)劃問題,經(jīng)優(yōu)化獲得數(shù)據(jù)集的模糊劃分和聚類,其基本思想是通過反復(fù)修改聚類中心V和分類矩陣U來實(shí)現(xiàn)動(dòng)態(tài)的迭代聚類,使得被劃分到同一簇的對象之間相似度最大,而不同簇之間的相似度最小.FCM算法的目標(biāo)函數(shù)JFCM(U,V)為

FCM算法就是通過反復(fù)迭代優(yōu)化JFCM(U,V)來進(jìn)行的,具體的步驟如下:

步驟1設(shè)定c和m,迭代停止閾值ε>0,置迭代次數(shù)t.

步驟2根據(jù)式(3)更新隸屬度矩陣.

步驟3根據(jù)式(4)更新聚類中心.

步驟4若kV(k+1)-Vkk<ε,則算法停止;否則重復(fù)步驟2和3,并置k=k+1.

若根據(jù)上述算法直接進(jìn)行分類,則分類效果不理想,原因如下:一是任何網(wǎng)絡(luò)應(yīng)用都具有包水平或流水平的統(tǒng)計(jì)特征,且不同的應(yīng)用具有不同的流統(tǒng)計(jì)特征;二是不可能使用一種特征將所有的應(yīng)用區(qū)分開;三是冗余的特征空間可能導(dǎo)致識(shí)別準(zhǔn)確率的下降.因此,本文決定采用一種多級FCM的聚類算法.

2.2一種多級FCM算法

根據(jù)本文第二部分的敘述可知,針對不同的網(wǎng)絡(luò)視頻業(yè)務(wù)采用不同的統(tǒng)計(jì)特征可以極大地提高識(shí)別準(zhǔn)確率,如何自動(dòng)地選擇每級聚類的統(tǒng)計(jì)特征組合是目前的主要工作.經(jīng)研究發(fā)現(xiàn),下上行字節(jié)數(shù)之比這個(gè)特征可以用來有效區(qū)分對稱業(yè)務(wù)和非對稱業(yè)務(wù),因此在二級聚類中設(shè)定一個(gè)閾值R.若聚類結(jié)果中的平均下上行字節(jié)數(shù)之比大于R,則認(rèn)為它是非對稱業(yè)務(wù);反之則認(rèn)為是對稱業(yè)務(wù),文中取R=20.本文的聚類方案分為兩級,具體步驟如下:

步驟1將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識(shí)進(jìn)行第1層聚類,得到兩大類聚類結(jié)果C1和C2;

步驟2計(jì)算前級聚類集中的平均下上行字節(jié)數(shù)之比,如果均值大于R則選取一組特征矢量Vi和Vj對一層聚類結(jié)果C1和C2的數(shù)據(jù)流進(jìn)行標(biāo)識(shí),則第3次聚類得到聚類結(jié)果C21,C22,···;

步驟3對上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止;

步驟4統(tǒng)計(jì)聚類輸出結(jié)果.

3 實(shí)驗(yàn)結(jié)果及分析

3.1數(shù)據(jù)集

本文主要針對網(wǎng)絡(luò)視頻流業(yè)務(wù)進(jìn)行研究,選取具有代表性的6種業(yè)務(wù)流進(jìn)行分析,包括非對稱標(biāo)清(以youku標(biāo)清為例)、非對稱高清(以youku高清為例)、HTTP下載、交互式視頻通信類(以QQ為例)、P2P文件共享類(以Xunlei為例)、網(wǎng)絡(luò)在線直播類(以Sopcast為例),詳見表1.

表1 數(shù)據(jù)集Table 1 Dataset

每條流長30 min,6種業(yè)務(wù)共360條數(shù)據(jù)流.樣本字節(jié)數(shù)是指每種業(yè)務(wù)的60條原始抓包數(shù)據(jù)的文本文檔的字節(jié)數(shù);每條樣本流在經(jīng)過分類方案流程框圖中提到的流量統(tǒng)計(jì)特征計(jì)算過程后都會(huì)產(chǎn)生一些特征文件,其中包括包大小的概率密度函數(shù)(probability density function,PDF)、包大小的信息熵、包到達(dá)時(shí)間間隔的累積密度函數(shù)(cumulative distribution function,CDF)等,每種業(yè)務(wù)的60條流處理之后的字節(jié)總數(shù)即為處理后的樣本字節(jié)數(shù)(包含特征文件).

本文實(shí)驗(yàn)從原始數(shù)據(jù)中提取了至少30個(gè)流統(tǒng)計(jì)特征,見表2.文中分為上行數(shù)據(jù)流和下行數(shù)據(jù)流,且主要分析下行數(shù)據(jù).

3.2結(jié)果分析

為了找到確實(shí)有效的業(yè)務(wù)流統(tǒng)計(jì)特征,本文嘗試了大量的統(tǒng)計(jì)實(shí)驗(yàn),根據(jù)計(jì)算出來的流統(tǒng)計(jì)特征分析驗(yàn)證,采用下上行字節(jié)數(shù)之比、下行包大小的信息熵、下行子流片段數(shù)目和下行有效IP數(shù)目4個(gè)特征對所選取的典型網(wǎng)絡(luò)視頻流進(jìn)行分類識(shí)別.

實(shí)驗(yàn)首先采用三維特征向量V=(Vi,Vj,Vk)標(biāo)識(shí)原始的網(wǎng)絡(luò)視頻流,其中Vi為下上行字節(jié)數(shù)之比,Vj為下行包大小的信息熵,Vk為下行子流片段數(shù)目.具體的區(qū)分效果如圖3所示,從圖3中可以看出不同的網(wǎng)絡(luò)視頻流業(yè)務(wù)在上述3個(gè)統(tǒng)計(jì)特征上具有明顯的差異.特別是對于對稱的QQ、Xunlei、Sopcast 3種業(yè)務(wù)和非對稱的高清、標(biāo)清、HTTP三種業(yè)務(wù),在下上行字節(jié)數(shù)之比這一維度上有明顯的區(qū)別.對稱業(yè)務(wù)的下上行字節(jié)數(shù)之比較非對稱業(yè)務(wù)明顯偏少;而其中的QQ、Xunlei這兩種業(yè)務(wù)的下行包大小的信息熵與非對稱業(yè)務(wù)區(qū)別也相當(dāng)明顯,Sopcast應(yīng)用在這一維度上卻與非對稱的幾種業(yè)務(wù)區(qū)分并不明顯.

表2 流統(tǒng)計(jì)特征Table 2 Statistical characteristics of the stream

圖3 三維整體效果圖Figure 3 Three dimensional overall efect diagram

如圖4所示,在二維空間上使用下行包大小的信息熵和下上行字節(jié)數(shù)之比可以區(qū)分對稱和非對稱業(yè)務(wù),而從任意單維特征均無法區(qū)分兩大類業(yè)務(wù),從這個(gè)意義上講文中選取的這對特征組合是有效的.

圖4 區(qū)分對稱和非對稱業(yè)務(wù)Figure 4 Distinguish between symmetric and asymmetric trafc

接著從更細(xì)的角度劃分兩大類業(yè)務(wù)流,如圖5所示.對于對稱的3種視頻業(yè)務(wù),同樣從任何一個(gè)單維特征空間均無法區(qū)分3種業(yè)務(wù)流,而在本文的二維特征空間中既可以將3種業(yè)務(wù)基本分開,又可以看出QQ和Xunlei之間在包大小的信息熵上有交疊的情況.但從整體上看,這兩個(gè)特征對于區(qū)分對稱的3種業(yè)務(wù)也是有效的.在實(shí)驗(yàn)過程中發(fā)現(xiàn),采用下行子流片段數(shù)目的對數(shù)形式要比直接采用下行子流片段數(shù)目具有更佳的分類效果.

圖5 區(qū)分QQ、Xunlei和SopcastFigure 5 Distinguish QQ,Xunlei and Sopcast

如圖6所示,對于非對稱業(yè)務(wù)而言,僅使用上述3個(gè)統(tǒng)計(jì)特征無法將它們分開,于是引入一維新的特征,即下行有效IP數(shù)目.HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個(gè)IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少.對于非對稱的高清和標(biāo)清業(yè)務(wù),雖然某一時(shí)刻也同樣是兩個(gè)IP之間的信息交互,但是本文所要獲取的資源不僅僅存在于一個(gè)視頻服務(wù)器中.或者由于網(wǎng)絡(luò)環(huán)境的影響,或者與當(dāng)前連接的服務(wù)器斷掉,本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多.采用這個(gè)特征通常能將HTTP下載和另外兩種業(yè)務(wù)區(qū)分開,但也不可避免存在一些交疊的情況.

從現(xiàn)有的特征空間來看,只有下上行字節(jié)數(shù)之比才能將非對稱的標(biāo)清和高清近似分開.如圖6所示,非對稱標(biāo)清和高清的交疊情況較嚴(yán)重,因而這兩種業(yè)務(wù)的最終聚類結(jié)果不太理想;但從現(xiàn)實(shí)情況來看,這種現(xiàn)象也是符合實(shí)際的.因?yàn)闃?biāo)清業(yè)務(wù)和高清業(yè)務(wù)之間的界限隨著時(shí)間的推移和技術(shù)的發(fā)展可能會(huì)變化,不同時(shí)期的高清和標(biāo)清業(yè)務(wù)也有不同的定義,可能現(xiàn)在或?qū)淼臉?biāo)清業(yè)務(wù)與之前的高清業(yè)務(wù)的清晰度相似,而本文獲取數(shù)據(jù)時(shí)就無法排除這種影響,所以存在這種交疊的情況似乎是可以接受的.

圖6 區(qū)分非對稱標(biāo)清、高清和HTTP下載Figure 6 Distinguish asymmetric SD,HD,and HTTP download

3.3結(jié)果評價(jià)

從3.2節(jié)的分析可以看出,本文提取的統(tǒng)計(jì)特征及其特征組合對于區(qū)分上述6種網(wǎng)絡(luò)視頻應(yīng)用基本有效.為了進(jìn)一步驗(yàn)證文中選取的統(tǒng)計(jì)特征的有效性,采用上述的特征組合標(biāo)識(shí)6種網(wǎng)絡(luò)視頻流數(shù)據(jù),并根據(jù)本文提出的多層聚類算法進(jìn)行聚類識(shí)別.

在網(wǎng)絡(luò)流分類效果好壞的衡量標(biāo)準(zhǔn)中,查全率(recall)和查準(zhǔn)率(precision)是兩個(gè)常用的指標(biāo)[22].

表3 類j的參數(shù)Table 3 Parameters of class j

表3表示樣本類j的參數(shù),其中TP為j類樣本被正確分類的樣本數(shù),F(xiàn)N為j類樣本被分類成其他類的樣本數(shù),F(xiàn)P為其他類被分類成j類的樣本數(shù).查全率表示正確預(yù)測為一類的樣本在該類中所占的比例,查準(zhǔn)率表示在預(yù)測樣本中正確樣本數(shù)所占的比例.查全率和查準(zhǔn)率分別反映了分類的完備性和正確性,其定義如式(5)和(6)所示:

由于查準(zhǔn)率和查全率分別從兩個(gè)不同的方面反映分類的效果,需要對兩者進(jìn)行綜合考量. F對查準(zhǔn)率和查全率進(jìn)行加權(quán)調(diào)和平均[23],其定義公式如下:

本文采用上述3個(gè)指標(biāo)衡量所選取的統(tǒng)計(jì)特征組合的正確性以及文中分層聚類算法的有效性.實(shí)驗(yàn)以本文提出的業(yè)務(wù)流統(tǒng)計(jì)特征組合作為標(biāo)識(shí)原始網(wǎng)絡(luò)視頻流的特征矢量.兩種算法對于6種網(wǎng)絡(luò)視頻業(yè)務(wù)的查準(zhǔn)率、查全率和F-測度值如圖7所示,其中文獻(xiàn)[18]采用平均包大小和平均包到達(dá)時(shí)間間隔兩個(gè)特征進(jìn)行網(wǎng)絡(luò)流量分類的分類結(jié)果,本文根據(jù)所提出的統(tǒng)計(jì)特征組合,并利用基于徑向基核函數(shù)的多層聚類算法的分類結(jié)果.

圖7 分類結(jié)果評價(jià)Figure 7 Evaluation of classifcation results

從圖7中可以看出,無論是查全率還是查準(zhǔn)率,本文算法較文獻(xiàn)[18]方法大多有較明顯的提升,盡管非對稱高清和Sopcast的準(zhǔn)確率沒有提升,但均大于95%,基本可以滿足分類識(shí)別的要求.對于本文算法,非對稱標(biāo)清的準(zhǔn)確率和非對稱標(biāo)清、高清的查全率雖有提升,但其數(shù)值均低于90%,這也印證了3.2節(jié)中所述的非對稱標(biāo)清和高清業(yè)務(wù)有明顯的界限的情況.從整體上觀察,對于F-measure值來說,本文算法對6種網(wǎng)絡(luò)視頻流的識(shí)別結(jié)果都有較明顯的改善.

4 結(jié)語

本文提出了一種基于新的流統(tǒng)計(jì)特征組合的多層聚類識(shí)別算法,并驗(yàn)證了實(shí)驗(yàn)中所用的特征組合的有效性.與僅采用平均包大小和平均包到達(dá)時(shí)間間隔的特征算法[18]相比,本文選擇的統(tǒng)計(jì)特征組合算法具有更優(yōu)的識(shí)別性能.在多層聚類算法中,雖然每次聚類采用不同的特征組合具有一定的復(fù)雜度,但相對于識(shí)別的準(zhǔn)確性來講,增加的復(fù)雜度似乎還是可以接受的.

[1]Cisco visual network index:forecast and methodology,2012-2017.http://www.cisco.com/c/en/ us/solutions/collateral/service-provider/ip-ngn-ip-next-generation-network/white_paper_c11-481360.html

[2]胡婷,王勇,陶曉玲.網(wǎng)絡(luò)流量分類方法的比較研究[J].桂林電子科技大學(xué)學(xué)報(bào),2010,30(3):216-219. HU T,WANG Y,TAO X L.Comparison research on the methods of network trafc classifcation[J].Journal of Guilin University of Electronic Technology,2010,30(3):216-219.(in Chinese)

[3]TAKESHITA K,KUROSAWA T,TSUJINO M.Evaluation of HTTP video classifcation method using fow group information[C]//Proceedings of 14th International Telecommunications Network Strategy and Planning Symposium,2010:1-6.

[4]董育寧,王再見,房曙光,張健.多媒體通信業(yè)務(wù)流識(shí)別與分類方法綜述[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2013,33(3):35-44. DONG Y N,WANG Z J,F(xiàn)ANG S G,ZHANG J.Survey of methods for trafc identifcation and classifcation in multimedia communications[J].Journal of Nanjing University of Posts and Telecommunications:Natural Sciences,2013,33(3):35-44.(in Chinese)

[5]YANG N,TANG C J,WANG Y,CHEN Y.Mining hotspots from multiple text streams based on stream information distance[J].Journalof Software,2011,22(8):1761-1770.

[6]PARK B C,WON Y J,KIM M S.Towards automated application signature generation for trafc identifcation[C]//Proceedings of Network Operations and Management Symposium,2008:160-167.

[7]RAAHEMI B,ZHONG W,LIU J.Peer-to-peer trafc identifcation by mining IP layer data stream using concept-adapting very fast decision tree[C]//Proceedings of 20th IEEE Computer Society Washington,2008.

[8]LI W,MOORE A W.A machine learning approach for efcient trafc classifcation[C]//Proceedings of 15th IEEE International Symposium on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems.IEEE Computer Society,Washington,2008:310-317.

[9]NGUYEN T,ARMITAGE G.A survey of techniques for Internet trafc classifcation using machine learning[J].IEEE Communication Surveys Tutorials,2008,4(10):56-76.

[10]JABER M,CASELLA R G,BARAKAT C.Can we trust the inter-packet time for trafc classifcation?[C]//Proceedings of Communications Society(ICC).IEEE,2011:1-5.

[11]HAN Y T,SUN W Q,PARK H S.Service diferentiation based on packet size and fow length in best-efort networks[C]//Information Networking,2009:1-3

[12]MUJTABA G,PARISH D J.Detection of applications within encrypted tunnels using packet size distributions[C]//Internet Technology and Secured Transactions,2009.ICITST 2009:1-6.

[13]BERNAILLE L,TEIXEIRA R,AKODJENOU I,SOULE A,SALAMATIAN K.Trafc classifcation on the fy[C]//Proceedings of the ACM SIGCOMM Computer Communication Review,2006:23-26.

[14]DIVAKARANL D M,MURTHY H A,GONSALVES T A.Trafc modeling and classifcation using packet train length and packet train size[J].ACM SIGCOMM Computer Communication Review,2007,3065(1):1-12.

[15]DU J,LONG T.P2P trafc identifcation research based on the SVM[C]//Wireless and Optical Communication Conference(WOCC),2013,22:683-686.

[16]LI W,CANII M,MOORE A W,BOLLA R.Efcient application identifcation and the temporal and spatial stability of classifcation schema[J].Computer Networks,2009,53(6):790-809.

[17]JAISWAL R C,LOKHANDE S D.Machine learning based internet trafc recognition with statistical approach[C]//India Conference(INDICON),2013 Annual IEEE:1-6.

[18]IBRAHIM H A H,MOHDNORS A A.Internet trafc classifcation algorithm based on hybrid classifers to identify online games trafc[J].Jurnal Teknologi,2013,64(3):55-60.

[19]JEFFREY E,MARTIN A,ANIRBAN M.Trafc classifcation using clustering algorithms[C]//Proceedings of Special Interest Group on Data Communication 2006,New York:281-286.[20]BERNAILLE L,TEIXEIRA R,AKODKENOU I,SOULE A,SALAMATIAN K.Trafc classifcation on the fy[J].Acmsigcomm Computer Communication Review,2006,36(2):23-26.

[21]LIU D,LUNG C H.P2P trafc identifcation and optimization using fuzzy c-means clustering[C]//India Conference(INDICON),2013 Annual IEEE Fuzzy Systems(FUZZ),2011 IEEE International Conference on 27-30 June 2011:2245-2252.

[22]ZHIBIN Y,KIL G B,KIM S.Trafc classifcation based on visualization[C]//Networked Embedded Systems for Enterprise Applications(NESEA),2011 IEEE 2nd International Conference,2011:1-6.

[23]ZHANG J,CHEN C,XIANG Y,et al.Classifcation of correlated Internet trafc fows[C]//Trust,Security and Privacy in Computing and Communications(TrustCom),2012 IEEE 11th International Conference on,2012:490-496.

(編輯:秦?。?/p>

Unsupervised Feature Analysis and Classification of Video Streams

YAO Li-tao,DONG Yu-ning
College of Telecommunications&Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China

For recognition of fow statistical features based on machine learning,the key is to select distinguishable features of diferent trafc fows.This paper presents several QoS-related statistical features that can well discriminate video trafcs.To make full use of the advantages of hierarchical clustering algorithm,this paper uses a fexible feature selection strategy to mark the network video streaming of diferent levels.Experiments are performed on a large scale real network video data.The results show that the proposed method can achieve signifcantly higher classifcation accuracy compared to existing methods.

video streaming,statistical features,QoS,trafc classifcation,hierarchical clustering

TP391

0255-8297(2015)02-0117-12

10.3969/j.issn.0255-8297.2015.02.002

2014-07-17;

2014-12-16

國家自然科學(xué)基金(No.61271233,No.60972038);教育部博士點(diǎn)基金(No.20103223110001)資助

董育寧,教授,博導(dǎo),研究方向:多媒體通信與無線網(wǎng)絡(luò),E-mail:dongyn@njupt.edu.cn

猜你喜歡
標(biāo)清視頻流非對稱
邊緣實(shí)時(shí)視頻流分析系統(tǒng)配置動(dòng)態(tài)調(diào)整算法研究
基于視頻流傳輸中的擁塞控制研究
坐標(biāo)系
天津詩人(2019年1期)2019-11-13 08:04:22
非對稱Orlicz差體
美國視頻流市場首現(xiàn)飽和征兆
點(diǎn)數(shù)不超過20的旗傳遞非對稱2-設(shè)計(jì)
高速公路高清與標(biāo)清系統(tǒng)混合監(jiān)控及管理
視頻監(jiān)控系統(tǒng)的高清標(biāo)清對比與發(fā)展
非對稱負(fù)載下矩陣變換器改進(jìn)型PI重復(fù)控制
電測與儀表(2015年4期)2015-04-12 00:43:04
視頻網(wǎng)格中流媒體業(yè)務(wù)的流量模型
珠海市| 武冈市| 潼南县| 甘谷县| 普宁市| 万载县| 布尔津县| 商洛市| 永丰县| 玛纳斯县| 垫江县| 东港市| 赫章县| 尚义县| 泉州市| 黄梅县| 溆浦县| 来宾市| 安岳县| 彭山县| 眉山市| 曲松县| 玉龙| 承德县| 察隅县| 璧山县| 池州市| 礼泉县| 海口市| 乌拉特中旗| 辉南县| 古丈县| 城市| 蒲江县| 怀柔区| 建宁县| 北碚区| 长治市| 三明市| 南城县| 长宁区|