国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)視頻流量分類的特征選擇方法研究

2018-03-19 02:44吳爭(zhēng)董育寧
關(guān)鍵詞:特征選擇子集度量

吳爭(zhēng),董育寧

南京郵電大學(xué)通信與信息工程學(xué)院,南京210003

網(wǎng)絡(luò)視頻流量分類的特征選擇方法研究

吳爭(zhēng),董育寧

南京郵電大學(xué)通信與信息工程學(xué)院,南京210003

1 引言

近年來(lái),隨著互聯(lián)網(wǎng)和流媒體技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)視頻業(yè)務(wù)的增長(zhǎng)非常迅速。在2016年互聯(lián)網(wǎng)流量中,視頻流量的比例已達(dá)到73%,根據(jù)思科[1]的預(yù)測(cè),到2021年將達(dá)到82%,并且每秒鐘將有1 000 000 min的視頻內(nèi)容通過(guò)網(wǎng)絡(luò)。通過(guò)網(wǎng)絡(luò)視頻業(yè)務(wù)流的分類,可以為互聯(lián)網(wǎng)提供商(ISP)更好地依據(jù)不同視頻業(yè)務(wù)的服務(wù)質(zhì)量(QoS)要求提供不同等級(jí)的服務(wù)。由于動(dòng)態(tài)端口,地址偽裝等技術(shù)的使用,使得基于機(jī)器學(xué)習(xí)的視頻流分類方法成為研究的熱點(diǎn)。

而如此龐大體量的網(wǎng)絡(luò)視頻流量,無(wú)疑對(duì)于分類器的負(fù)擔(dān)是巨大的,更何況是要求實(shí)時(shí)、準(zhǔn)確的網(wǎng)絡(luò)流量的分類業(yè)務(wù),這對(duì)網(wǎng)絡(luò)視頻流量的分類提出了巨大的挑戰(zhàn)。為了解決這一問(wèn)題,在分類之前,進(jìn)行特征選擇,可以提高分類器的分類效率,同時(shí)將與分類無(wú)關(guān)的特征篩除,提高分類器的準(zhǔn)確率。

在近幾十年里,有很多文獻(xiàn)對(duì)特征選擇算法進(jìn)行研究。Peng[2]較早地對(duì)信息度量準(zhǔn)則下的特征選擇算法進(jìn)行了匯總,并進(jìn)行了實(shí)驗(yàn)對(duì)比。Chandrashekar[3]對(duì)三類特征選擇算法進(jìn)行綜述,但因?yàn)闀r(shí)間較早,并沒(méi)有對(duì)特征選擇算法進(jìn)行系統(tǒng)的匯總,且沒(méi)有系統(tǒng)的實(shí)驗(yàn)對(duì)比特征選擇算法的性能。Aldehim[4]從可靠性和有效性兩個(gè)方面論證了特征選擇算法,并且實(shí)驗(yàn)論證了All approach和Part approach兩種框架的優(yōu)劣,但其并沒(méi)有從三類特征選擇算法的角度進(jìn)行對(duì)比分析。

在以往的文獻(xiàn)中雖然有特征選擇方法的綜述,但并沒(méi)有對(duì)特征選擇算法進(jìn)行系統(tǒng)性的實(shí)驗(yàn)和性能對(duì)比。本文的主要內(nèi)容及創(chuàng)新點(diǎn)有:第一,本文對(duì)特征選擇算法進(jìn)行分類綜述,不僅介紹了相關(guān)原理并且在性能方面進(jìn)行了相關(guān)對(duì)比;第二,使用較新的視頻流量數(shù)據(jù)集進(jìn)行實(shí)驗(yàn);第三,設(shè)計(jì)了一種多級(jí)分類器,使用特征選擇算法對(duì)網(wǎng)絡(luò)視頻流進(jìn)行細(xì)分類,從運(yùn)行時(shí)間、特征壓縮率,以及總體分類準(zhǔn)確率三個(gè)維度對(duì)特征選擇的算法進(jìn)行了對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析,得到網(wǎng)絡(luò)視頻分類中較為重要的特征。

本文剩余部分組織如下:第2章,對(duì)三類特征選擇算法進(jìn)行綜述,介紹算法的大體原理及優(yōu)勢(shì)和劣勢(shì);第3章說(shuō)明了實(shí)驗(yàn)環(huán)境及數(shù)據(jù)的分布,對(duì)七種特征選擇算法進(jìn)行性能評(píng)估;第4章,結(jié)論。

2 三類特征選擇方法

本文按照特征選擇方法與后續(xù)學(xué)習(xí)算法的關(guān)系以及評(píng)價(jià)準(zhǔn)則分成三類:過(guò)濾式(Filter)、包裹式(Wrapper)、嵌入式(Embedding)。

2.1 過(guò)濾式(Filter)特征選擇算法

Filter特征選擇算法通常對(duì)特征采用一些特定的標(biāo)準(zhǔn)以此來(lái)評(píng)估特征的重要程度,對(duì)特征排序,設(shè)定閾值,就可選出特征子集。由于它與學(xué)習(xí)算法無(wú)關(guān),這就使得它較為高效。在過(guò)去幾十年里,有多種過(guò)濾式特征選擇方法的評(píng)價(jià)標(biāo)準(zhǔn)被提出,大致可分為四類:距離度量、信息度量、相關(guān)性度量、一致性度量。

2.1.1 距離度量

距離度量利用距離標(biāo)準(zhǔn)來(lái)衡量特征間的相關(guān)性,可以認(rèn)為是一種分離性,差異性,或者辨識(shí)能力的一種度量。一些重要且常用的度量方式[5],有歐氏距離、S階Minkowski測(cè)度、Chebychev距離、平方距離等。典型的使用距離度量的算法有Relief[6]算法及其變種ReliefF。以處理多類別問(wèn)題為例,每次從一個(gè)訓(xùn)練樣本集中隨機(jī)抽取一個(gè)樣本R,然后從R的同類的樣本集中找出R的k個(gè)近鄰樣本(near-Hits),從每個(gè)R的不同類的的樣本集中找出k個(gè)近鄰樣本(near Misses),然后更新每個(gè)特征的權(quán)重。如下式:

因此,當(dāng)隨機(jī)選擇的樣本的某個(gè)特征值與nearMiss相應(yīng)特征值的距離比nearHit的樣本距離小時(shí),這個(gè)特征的權(quán)重就會(huì)被降低。此外,使用距離度量的評(píng)價(jià)標(biāo)準(zhǔn)的算法還有分支定界法和BFF算法[7]。

2.1.2 信息度量

信息理論的評(píng)價(jià)標(biāo)準(zhǔn)有很多種,因?yàn)樗芊从巢煌兞恐g所共有的信息量,使得所選擇的特征子集與類別的相關(guān)性最大,子集中的特征的相關(guān)性最小。

BIF(Best Individual Feature)[8],是一種簡(jiǎn)單直接的特征選擇方法,信息度量函數(shù)如下:

I(?)表示互信息,C表示類別標(biāo)簽,f為候選特征。它是對(duì)每一個(gè)特征計(jì)算與類別標(biāo)簽的互信息J(f),互信息越大的表示特征中所包含的類別標(biāo)簽的信息量越大。按照值的大小進(jìn)行排列,選取前k個(gè)特征作為特征子集。這種方法計(jì)算量小,適于高維數(shù)據(jù),但是它沒(méi)有考慮特征間的冗余量,會(huì)帶來(lái)較多的冗余特征?;谝陨先秉c(diǎn),由Battiti[9]提出的一種使用候選特征f與單個(gè)已選特征s相關(guān)性對(duì)f進(jìn)行懲罰的方法MIFS,其評(píng)價(jià)函數(shù)為:

其中β為調(diào)節(jié)系數(shù)。

由上述MIFS知,β需要設(shè)定,Peng[10]提出MRMR算法,從理論上分析了MRMR等價(jià)于最大依賴性,取β為已選特征數(shù)的倒數(shù)。基于最大依賴性,可通過(guò)計(jì)算不同特征子集與類別的互信息來(lái)選取最優(yōu)化子集。但是,在高維空間中,估計(jì)多維概率密度是一個(gè)難點(diǎn)。另一個(gè)缺點(diǎn)是計(jì)算速度慢,所以文中就提出與其等價(jià)的最小冗余和最大相關(guān),給出了一種互信息的評(píng)價(jià)準(zhǔn)則。Lin和Tang[11]不僅考慮了特征間的冗余度最小,還考慮了已知類標(biāo)簽的情況下已選特征和候選特征的條件冗余度最大,即在已知已選特征集S的情況下通過(guò)候選特征f與類別C的依賴程度來(lái)確定f的重要性,其中條件互信息I(C;f|S)越大,f所能提供的新信息越多。因?yàn)镮(C;f|S)的計(jì)算費(fèi)用較大,樣本的多維性導(dǎo)致了其估值的不準(zhǔn)確,F(xiàn)leuret[12]提出的條件互信息最大化算法中采取一種變通的形式CMIM算法,即使用單個(gè)子特征s來(lái)代替整個(gè)已選子集S來(lái)估算I(C;f|S),其中s是使得I(C;f|S)值最大的已選特征。

2.1.3 相關(guān)性度量

相關(guān)性度量的評(píng)價(jià)標(biāo)準(zhǔn)可以反應(yīng)兩變量之間的相關(guān)性,這樣在特征選擇中就可以去除特征間冗余的特征,而保留與分類結(jié)果相關(guān)性較大的特征。這類算法中分為有監(jiān)督和無(wú)監(jiān)督算法。

其中最簡(jiǎn)單的標(biāo)準(zhǔn)是Pearson相關(guān)系數(shù)[13],它可以反應(yīng)特征與標(biāo)簽的線性相關(guān)性。除了簡(jiǎn)單的Pearson系數(shù)外,還有常用的Fisher系數(shù)、卡方系數(shù)、Gini系數(shù)。Laplacian系數(shù)也是一種相關(guān)性特征選擇方法,但它最大的不同在于它是無(wú)監(jiān)督的特征選擇,這也使得它能夠較好地保留數(shù)據(jù)的結(jié)構(gòu),這個(gè)算法比較有效地衡量了各個(gè)特征的權(quán)重,但是它沒(méi)有衡量各個(gè)特征之間相互的冗余度,有可能會(huì)選取冗余特征。

CFS(Correlated Feature Selection)算法[14]是一種較常用的利用相關(guān)性度量的特征選擇方法,CFS的基本思想是使用啟發(fā)式搜索,搜索特征子集,然后利用相關(guān)性對(duì)特征子集進(jìn)行打分,選出較好的特征子集。

這里CFS_score(F)是有k個(gè)特征的特征子集F的啟發(fā)性值。-rcf為特征與類標(biāo)簽的平均相關(guān)系數(shù),-rff為特征與特征之間的平均相關(guān)系數(shù)。式中分子代表特征子集的預(yù)測(cè)能力,分母代表特征間的冗余度。Nie提出的跡比準(zhǔn)則(Trace Ratio Criterion)[15]直接選出全局最優(yōu)的特征子集,特征的重要性由跡比準(zhǔn)則的值來(lái)衡量,此外它還為一類特征選擇算法提供了大體框架,不同的親和度矩陣,會(huì)產(chǎn)生不同的特征選擇算法,如批處理的Laplacian Scores和批處理的Fisher Scores。

2.1.4 一致性度量

不一致率作為一致性的度量,可以衡量特征集合的優(yōu)劣。不一致率的定義[16]如下:

式中,P為總的樣本數(shù);Nin表示不一致數(shù)。不一致率是一種單調(diào)的度量方式,并且相較于其他度量方式,它是對(duì)子集進(jìn)行評(píng)價(jià),計(jì)算簡(jiǎn)單,能夠快速去除冗余和不相關(guān)的特征,從而獲得一個(gè)較小的特征子集,但它對(duì)噪聲數(shù)據(jù)敏感,且只適合離散數(shù)據(jù),連續(xù)數(shù)據(jù)需要提前離散化。典型的利用一致性度量的算法有:LVF[17]、FOCUS[18]。

2.2 包裹式(Wrapper)特征選擇算法

Wrapper模型將學(xué)習(xí)算法作為特征選擇算法的一部分,并且直接使用分類性能作為特征重要性程度的評(píng)價(jià)標(biāo)準(zhǔn),最終將選擇的子集用于構(gòu)造分類模型。該方法所選特征子集較為準(zhǔn)確,但所用時(shí)間較長(zhǎng)。

此類特征選擇方法常使用快速的搜索算法,選出特征子集并輸入分類器中。如Hsu等人[19]使用遺傳算法搜索特征子集,并用決策樹(shù)的分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo),選取準(zhǔn)確率最高的特征子集。Dai等人[20]將SVM分類器與PSO算法結(jié)合,提出了一種快速特征選擇的方法。

為了更快的特征選擇同時(shí)保證特征選擇的準(zhǔn)確,往往將Filter方法和Wrapper方法相結(jié)合,先使用Filter方法在原始特征集中選出特征子集,然后輸入到Wrapper方法中,從而選出滿足分類器的最好的特征子集。如Alamedine等[21]提出的將ReliefF算法和PSO算法結(jié)合,得到了一種快速的Wrapper算法。

2.3 嵌入式(Embedded)特征選擇算法

Embedded類特征算法結(jié)合了Filter和Wrapper類的優(yōu)點(diǎn),利用分類器內(nèi)部的參數(shù)對(duì)特征進(jìn)行排序,這樣就有效地結(jié)合了分類器的性能同時(shí)提高了運(yùn)算效率。大體將嵌入式算法(Embedded)分為三類。

2.3.1 Pruning方法

初始使用全部特征進(jìn)行訓(xùn)練,然后將相關(guān)系數(shù)為小的特征縮減,同時(shí)能夠保證分類器的性能。典型的應(yīng)用就是SVM-RFE。SVM-RFE算法就是根據(jù)SVM在訓(xùn)練時(shí)生成的權(quán)向量來(lái)構(gòu)造排序系數(shù),每次迭代去掉一個(gè)排序系數(shù)最小的特征屬性,最終得到所有特征屬性的排序。對(duì)于SVM-RFE算法,也有諸多缺點(diǎn),該方法能夠有效選擇特征但缺乏對(duì)冗余特征的考慮,文獻(xiàn)[22]給出了SVM-RFE with MRMR算法。每次迭代刪除一個(gè)特征,為加快算法效率,每次循環(huán)可刪除多個(gè)特征,如Ding提出的RFE-Annealing[23]算法。此外,Zhou等[24]提出了多分類問(wèn)題的MSVM-RFE算法。

2.3.2 樹(shù)結(jié)構(gòu)模型的特征選擇算法

對(duì)于樹(shù)結(jié)構(gòu)的學(xué)習(xí)算法來(lái)說(shuō),在搭建節(jié)點(diǎn)之前,需要先判斷特征的好壞,以選擇特征作為根節(jié)點(diǎn),子節(jié)點(diǎn),進(jìn)而搭建整個(gè)樹(shù)的結(jié)構(gòu)。特征優(yōu)劣大多以信息度量的方式評(píng)估,如信息增益率,基尼指數(shù)等。此外,對(duì)于樹(shù)結(jié)構(gòu)的學(xué)習(xí)算法,還有剪枝處理,就是在搭建樹(shù)結(jié)構(gòu)之前或之后剔除無(wú)關(guān)或?qū)Ψ诸悷o(wú)益的特征。

2.3.3 正則化特征選擇算法

其中常用的是利用Lasso進(jìn)行特征選擇。Lasso方法下解出的參數(shù)常常具有稀疏性,根據(jù)參數(shù)的稀疏性可將無(wú)用特征去掉。為了解決存在奇異解和最終得到的是局部最優(yōu)特征子集的情況,Zou[25]提出動(dòng)態(tài)的Lasso正則化,將正則項(xiàng)改寫(xiě):

bi是給定的權(quán)重系數(shù)用來(lái)控制每個(gè)特征的貢獻(xiàn),可以看出它是一個(gè)帶有權(quán)重的Lasso。此外,還有ElasticNet Regularization[26]解決了在特征數(shù)遠(yuǎn)遠(yuǎn)大于樣本數(shù)的問(wèn)題,它將l1和l2范數(shù)結(jié)合構(gòu)成懲罰函數(shù)。另外還有多聚類特征選擇方法(Multi-Cluster Feature Selection,MCFS)[27],它是一種無(wú)監(jiān)督利用稀疏學(xué)習(xí)技術(shù)的特征選擇方法,還有利用l2,1范式進(jìn)行正則化的特征選擇方法[28],它用來(lái)解決多分類情況下的特征選擇算法。

3 實(shí)驗(yàn)

本文實(shí)驗(yàn)平臺(tái)采用英特爾酷睿i5處理器,Win10操作系統(tǒng),8 GB內(nèi)存,視頻流的特征提取使用Linux Shell腳本完成,數(shù)據(jù)處理及算法使用Python進(jìn)行編程。

本文對(duì)網(wǎng)絡(luò)視頻流業(yè)務(wù)進(jìn)行研究,選取具有代表性業(yè)務(wù)標(biāo)清、高清、超清的Web視頻流(YOUKU,iQIYI等網(wǎng)站),即時(shí)視頻通訊(QQ視頻),網(wǎng)絡(luò)直播視頻(CBox,SopCast等),P2P客戶端視頻(Kankan)以及Http下載視頻共七種業(yè)務(wù)流進(jìn)行分析。實(shí)驗(yàn)中采取真實(shí)網(wǎng)絡(luò)中的流量,用Wireshark在不同時(shí)間段提取網(wǎng)絡(luò)流,時(shí)間跨度從2013年11月到2016年7月,提取的報(bào)文樣本以五元組(時(shí)間,源IP地址,目的IP地址,協(xié)議,報(bào)文大?。┙M成,每條視頻流持續(xù)30 min,總共統(tǒng)計(jì)840條流,數(shù)據(jù)量有266 GB。從中篩選出有效的27個(gè)特征,作為候選特征。數(shù)據(jù)集的分布如圖1所示,每個(gè)應(yīng)用類中流的條數(shù)所占的比例。

圖1 數(shù)據(jù)集分布

本文對(duì)前面所談及的七種典型的特征選擇方法進(jìn)行比較來(lái)分析不同特征選擇方法對(duì)于視頻流識(shí)別的影響,以下是對(duì)七種特征選擇算法的介紹,如表1所示。

表1 七種特征選擇方法描述

3.1 評(píng)價(jià)指標(biāo)

以下是本文實(shí)驗(yàn)采取的評(píng)價(jià)指標(biāo),對(duì)七種特征選擇算法進(jìn)行對(duì)比實(shí)驗(yàn)。

采用分類器準(zhǔn)確率(Overall Accuracy,OA)來(lái)評(píng)判特征選擇算法選擇效果的好壞。

采用特征壓縮率(Feature Compression Rate,F(xiàn)CR)來(lái)衡量算法對(duì)特征提取的效率。

時(shí)間(Time):每種特征選擇方法所運(yùn)行的時(shí)間,使用每種算法的運(yùn)行時(shí)間來(lái)考察其運(yùn)行速度。

將實(shí)驗(yàn)分為兩部分,首先對(duì)在線直播視頻、在線非直播視頻、P2P類視頻、即時(shí)通信視頻和Http視頻下載流量5類流量進(jìn)行分類作為實(shí)驗(yàn)1。然后將采用兩級(jí)分類器分類方案對(duì)在線非直播視頻流業(yè)務(wù)進(jìn)行細(xì)分類,識(shí)別出標(biāo)清(CD)、高清(SD)、超高清(HD)三種業(yè)務(wù)流,作為實(shí)驗(yàn)2。

3.2 實(shí)驗(yàn)1及結(jié)果分析

3.2.1 特征選擇方法對(duì)比

首先使用七種特征選擇方法對(duì)在線直播視頻業(yè)務(wù),在線非直播視頻業(yè)務(wù),即時(shí)視頻通信業(yè)務(wù),Http視頻下載業(yè)務(wù),P2P視頻業(yè)務(wù)五種業(yè)務(wù)流進(jìn)行分類。

由圖2可以看出,CFS算法性能起伏較大,所選出的特征并不適用于所有分類器。但同為相關(guān)性評(píng)價(jià)指標(biāo)的Laplacian算法的整體選擇效果與其他特征選擇算法大體相同,準(zhǔn)確率都在95%以上。SVM-forward算法為Wrapper類算法,其選出的特征極大提高了SVM的準(zhǔn)確率,屬于Embedded類的Lasso算法的選擇效果介于Filter類和Wrapper類之間。

圖2 七種特征選擇算法準(zhǔn)確率

由表2可以看出總體的Filter類別的特征選擇算法的時(shí)間消耗最小,尤其對(duì)于Consistency-forward特征選擇算法所用時(shí)間最小,因其復(fù)雜度較低,另外作為無(wú)監(jiān)督的特征選擇方法Laplacian算法運(yùn)算時(shí)間也較低。對(duì)于Wrapper類的SVM-forward算法所用時(shí)間最大,相較于其他算法差了2~3數(shù)量級(jí)的時(shí)間。Embedded類的Lasso算法結(jié)合了Wrapper和Filter的思想,所用時(shí)間居中。

表2 七種特征選擇算法運(yùn)行時(shí)間

3.2.2 有特征選擇和無(wú)特征選擇分類對(duì)比

綜合以上各個(gè)特征選擇的分類準(zhǔn)確率結(jié)果取平均,與無(wú)特征選擇算法的分類準(zhǔn)確率進(jìn)行對(duì)比,如圖3。

圖3 無(wú)特征選擇與特征選擇的準(zhǔn)確率對(duì)比

可以看出在特征選擇后,C4.5、KNN、LogicRegression分類器的準(zhǔn)確率都大幅度提高,而SVM的平均準(zhǔn)確率與無(wú)特征選擇的準(zhǔn)確率相接近。

接下來(lái)進(jìn)行時(shí)間對(duì)比,分類器分類時(shí)間包括訓(xùn)練時(shí)間(training time)和測(cè)試時(shí)間(testing time)。對(duì)七種特征選擇算法在四種分類器所用的訓(xùn)練時(shí)間和測(cè)試時(shí)間分別取平均,從而得到每種分類器的平均訓(xùn)練時(shí)間和測(cè)試時(shí)間,與無(wú)特征選擇的分類器進(jìn)行比較,得到各個(gè)分類器訓(xùn)練時(shí)間和測(cè)試時(shí)間的縮減率,如圖4。

圖4 訓(xùn)練時(shí)間和測(cè)試時(shí)間縮減率

可以看出,各個(gè)分類器在特征選擇后,其訓(xùn)練時(shí)間還是測(cè)試時(shí)間都得到大幅地縮減,SVM的訓(xùn)練時(shí)間縮減了93%,而KNN的測(cè)試時(shí)間縮減了50%以上。

綜合以上結(jié)果可以看出,特征選擇算法不僅可以提高分類器的準(zhǔn)確率,而且可以大幅降低分類器的負(fù)擔(dān),提高其運(yùn)行效率。

3.3 實(shí)驗(yàn)2及結(jié)果分析

對(duì)在線非直播視頻業(yè)務(wù)進(jìn)行細(xì)粒度的劃分,分為標(biāo)清、高清、超高清視頻。因?yàn)闃?biāo)清、高清,以及超清視頻同屬在線非直播視頻,擁有相似的數(shù)據(jù)特征,直接將分類器對(duì)數(shù)據(jù)的所有類別分類并不容易,因此先將標(biāo)清、高清、超清視頻作為一大類,與其他視頻流進(jìn)行分類,然后再將在線非直播視頻這一大類進(jìn)行細(xì)分類,所以本文采用兩級(jí)分類方案能夠提高視頻流分類的準(zhǔn)確率。具體分類方案如圖5。

首先在第一級(jí)分類中有:在線非直播視頻、在線直播視頻、即時(shí)視頻通話、Http視頻下載。第二級(jí)分類將在線非直播視頻進(jìn)行細(xì)分類,分成標(biāo)清(SD)、高清(HD)、超高清(CD)。

實(shí)驗(yàn)中使用的兩級(jí)分類器設(shè)計(jì)如圖6。

圖5 兩級(jí)分類方案

圖6 兩級(jí)分類器設(shè)計(jì)結(jié)構(gòu)

將整個(gè)訓(xùn)練集的50%分為訓(xùn)練集,50%分為測(cè)試集,然后將訓(xùn)練集用于特征選擇和分類器學(xué)習(xí),隨后將選擇出的特征用于測(cè)試集,形成新的測(cè)試集輸入到分類器1中,然后將分類器1預(yù)測(cè)出的待分類集——在線非直播數(shù)據(jù)集進(jìn)行細(xì)分類,最后將分類結(jié)果匯總,統(tǒng)計(jì)出準(zhǔn)確率。

首先將兩級(jí)分類方案與不分級(jí)分類進(jìn)行對(duì)比,在對(duì)比中不使用特征選擇方法,可得如圖7的各個(gè)分類器的對(duì)比圖。

圖7 分級(jí)方案與不分級(jí)方案對(duì)比

分級(jí)分類的好處在于先將邊界特征明顯的大類分出確保其準(zhǔn)確率,再使用專門(mén)的分類器將小類分出??梢钥闯龇旨?jí)分類方案在各個(gè)分類器中的準(zhǔn)確率均好于不分級(jí)分類方案。

圖8是兩級(jí)分類各個(gè)特征選擇算法在四種分類器的準(zhǔn)確率。

由圖8可以看出,ReliefF算法、Laplacian算法在三種分類器中的表現(xiàn)均好,因此其選擇穩(wěn)定性較好。CFS在三類分類器中表現(xiàn)不穩(wěn)定,且性能略差。Consistencyforward算法在三個(gè)分類器中的表現(xiàn)并不穩(wěn)定,在C4.5和KNN算法中性能較好,而在SVM算法中性能略差。在所有特征選擇算法中,SVM-forward算法得到的準(zhǔn)確率最高。而Lasso達(dá)到的準(zhǔn)確率相較于SVM-forward低了3個(gè)百分點(diǎn),而相較于Filter類算法的平均值高了2.2個(gè)百分點(diǎn)。

圖9是各個(gè)特征選擇算法在各個(gè)分類器上的特征壓縮率。

圖8 七種特征選擇方法兩級(jí)分類準(zhǔn)確率

圖9 七種特征選擇算法特征壓縮率

由于CFS和Consistency-forward直接選出特征子集并與分類器無(wú)關(guān),因此其在每種分類算法下,選出的特征子集相同,可以看出它們?cè)谌惙诸惼髦刑卣魈崛÷氏嗤?。而其他算法均給出所有特征的排名,通過(guò)網(wǎng)格搜索算法,以準(zhǔn)確率OA為指標(biāo),選擇出最佳準(zhǔn)確率的前m項(xiàng)特征作為特征子集。通過(guò)圖9可以看出,ReliefF算法的特征壓縮率隨著分類器的不同變化較大,而MRMR的特征壓縮率FCR較為穩(wěn)定,說(shuō)明其選出的特征具有普適性。而Laplacian算法的特征壓縮率的平均值最小,因此它可以選出較小的特征子集。

4 結(jié)論

網(wǎng)絡(luò)流細(xì)分類是QoS分級(jí)的關(guān)鍵,而對(duì)于要求高并發(fā)、低延時(shí)的網(wǎng)絡(luò)流分類任務(wù)來(lái)說(shuō),特征選擇是必不可少的環(huán)節(jié),它能夠提高分類效率以及分類的準(zhǔn)確性。在以往的文獻(xiàn)中雖然有特征選擇方法方面的綜述,但并沒(méi)有對(duì)特征選擇算法進(jìn)行實(shí)驗(yàn)方面的性能對(duì)比。在本文中,介紹了特征選擇的過(guò)程,并且對(duì)三類特征選擇算法的發(fā)展及其優(yōu)缺點(diǎn)進(jìn)行了總結(jié),最后通過(guò)實(shí)驗(yàn)分別在分類準(zhǔn)確率、運(yùn)算時(shí)間,以及特征壓縮率上對(duì)比了七種三類特征選擇算法的性能,并且對(duì)視頻流量采用分級(jí)結(jié)構(gòu)進(jìn)行了細(xì)分類。此外,在特征選擇方面,還有很多未確定的因素影響著特征選擇的穩(wěn)定性、可靠性;另外在參數(shù)選擇方面例如選擇特征數(shù)的確定還有待進(jìn)一步研究。

[1] White paper:Cisco VNI forecast and methodology,2016—2021[EB/OL].(2017-09-15).http://www.cisco.com/c/en/us/solutions/collateral/service-provider/ip-ngn-ip-next-generationnetwork/white_paper_c11-481360.html.

[2] Peng H,Long F,Ding C.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2005,27(8):1226-1238.

[3] Chandrashekar G,Sahin F.A survey on feature selection methods[M].[S.l.]:Pergamon Press Inc,2014.

[4] Aldehim G,Wang W.Determining appropriate approaches for using data in feature selection[J].International Journal of Machine Learning&Cybernetics,2017,8(3):915-928.

[5] 姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.

[6] Robnik?ikonja M,Kononenko I.Theoretical and empirical analysis of ReliefF and RReliefF[J].Machine Learning,2003,53(1/2):23-69.

[7] Xu L,Yan P,Chang T.Best first strategy for feature selection[C]//International Conference on Pattern Recognition,1988,2:706-708.

[8] Jain A K,Duin R P W,Mao J.Statistical pattern recognition:A review[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2000,22(1):4-37.

[9] Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.

[10] Peng H,Long F,Ding C.Feature selection based on mutual information:Criteria of max-dependency,maxrelevance,and min-redundancy[M].[S.l.]:IEEE Computer Society,2005.

[11] Lin D,Tang X.Conditional infomax learning:An integrated framework for feature extraction and fusion[C]//European Conference on Computer Vision(ECCV 2006).Berlin Heidelberg:Springer,2006:68-82.

[12] Fleuret F.Fast binary feature selection with conditional mutualinformation[J].JournalofMachineLearning Research,2004,5(3):1531-1555.

[13] Coelho F,Braga A P,Verleysen M.Multi-objective semi-supervised feature selection and model selection based on Pearson’s correlation coefficient[C]//Iberoamerican Congress Conference on Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.[S.l.]:Springer-Verlag,2010:509-516.

[14] Hall M A,Smith L A.Feature selection for machine learning:Comparing a correlation-based filter approach to the wrapper[C]//FLAIRS Conference,1999:235-239.

[15] Nie F,Xiang S,Jia Y,et al.Trace ratio criterion for feature selection[C]//National Conference on Artificial Intelligence,2008,2:671-676.

[16] Dash M,Liu H.Consistency-based search in feature selection[J].Artificial Intelligence,2003,151(1):155-176.

[17] Liu H,Setiono R.A probabilistic approach to feature selection—A filter solution[C]//International Conference on Machine Learning,1996:319-327.

[18] Almuallim H,Dietterich T G.Learning with many irrelevant features[C]//National Conference on Artificial Intelligence.[S.l.]:AAAI Press,1991:547-552.

[19] Hsu W H.Genetic wrappers for feature selection in decision tree induction and variable ordering in Bayesian network structure learning[M].[S.l.]:Elsevier Science Inc,2004.

[20] Dai P,Ning L I.A fast SVM-based feature selection method[J].Journal of Shandong University,2010,40(5):60-65.

[21] Alamedine D,Marque C,Khalil M.Channel selection for monovariate analysis on EHG[C]//International Conference on Advances in Biomedical Engineering,2015:85-88.

[22] Zhang Junying,Liu Shenliang,Wang Yue.Gene association study with SVM,MLP and cross-validation for the diagnosis of diseases[J].Progress in Natural Science:Materials International,2008,18(6):741-750.

[23] Ding Y,Wilkins D.Improving the performance of SVMRFE to select genes in microarray data[J].BMC Bioinformatics,2006,7(S2):S12.

[24] Zhou X,Tuck D P.MSVM-RFE[J].Bioinformatics,2007,23.

[25] Zou Hui.The adaptive lasso and its oracle properties[J].Journal of the American statistical association,2006,101(476):1418-1429.

[26] Zou Hui,Hastie T.Regularization and variable selection via the elastic net[J].Journal of The Royal Statistical Society Series B-statistical Methodology,2005,67(5):301-320.

[27] Deng Cai,Zhang Chiyuan,He Xiaofei.Unsupervised feature selection for multi-cluster data[J].Knowledge Discovery and Data Mining,2010:333-342.

[28] Liu Jun,Ji Shuiwang,Ye Jieping.Multi-task feature learning via efficient L2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.

WU Zheng,DONG Yuning.Contrastive analysis of features selection on network video traffic classification.Computer Engineering andApplications,2018,54(6):7-13.

WU Zheng,DONG Yuning

College of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China

Accurate identification and categorization of multimedia traffic is the premise of end to end QoS(Quality of Service)guarantees.Today,the dramatic growth of data volume takes challenge to network traffic classification.Therefore,using feature selection methods for multimedia flow identification and classification is particularly important in the big data era.This paper introduces related works on feature selection using identification and categorization of multimedia traffic,which is divided into three categories:Filter,Wrapper,Embedded and analyzes the performance of these methods.Then,this paper compares the performance of various feature selection algorithms using latest dataset from three aspects:The running speed,the feature compression rate and the feature selection accuracy.Besides,to improve classification accuracy,this paper proposes a hierarchical structure to reach fine-grained classification,according to the dataset.

features selection;video traffic classification;hierarchical classifier

準(zhǔn)確,高效的業(yè)務(wù)流識(shí)別與分類是保障多媒體通信端到端QoS(Quality of Service),執(zhí)行相關(guān)網(wǎng)絡(luò)操作的前提。如今數(shù)據(jù)規(guī)模的劇烈增加為業(yè)務(wù)流的分類提出了挑戰(zhàn),而特征選擇能夠盡可能地減少特征維數(shù),去除冗余特征,為大數(shù)據(jù)時(shí)代下的業(yè)務(wù)流分類提供解決辦法。對(duì)現(xiàn)有的特征選擇方法分成Filter、Wrapper、Embedded三類,分析了各類算法的性能原理。采用最新數(shù)據(jù)集對(duì)不同特征選擇算法性能對(duì)比,從算法的運(yùn)行時(shí)間、特征壓縮率、準(zhǔn)確率三個(gè)方面評(píng)估了特征選擇算法的性能。另外,針對(duì)現(xiàn)有數(shù)據(jù)集分類情況進(jìn)行分級(jí)分類以達(dá)到視頻流的細(xì)分類,從而提高分類的準(zhǔn)確率。

特征選擇;視頻流分類;多級(jí)分類器

2017-11-01

2018-01-24

1002-8331(2018)06-0007-07

A

TP391

10.3778/j.issn.1002-8331.1710-0342

國(guó)家自然科學(xué)基金(No.61271233)。

吳爭(zhēng)(1994—),男,博士研究生,研究領(lǐng)域?yàn)槎嗝襟w通信,E-mail:1015010406@njupt.edu.cn;董育寧(1955—),男,博士,教授,研究領(lǐng)域?yàn)槎嗝襟w通信,網(wǎng)絡(luò)流識(shí)別。

猜你喜歡
特征選擇子集度量
鮑文慧《度量空間之一》
拓?fù)淇臻g中緊致子集的性質(zhì)研究
擬度量空間中弱擬對(duì)稱映射的一些特征
關(guān)于奇數(shù)階二元子集的分離序列
迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
完全二部圖K6,n(6≤n≤38)的點(diǎn)可區(qū)別E-全染色
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
临澧县| 武安市| 西丰县| 巴林右旗| 呼和浩特市| 响水县| 香港| 张掖市| 扶绥县| 大石桥市| 神农架林区| 子洲县| 安溪县| 邓州市| 禹城市| 昌乐县| 原阳县| 武汉市| 珠海市| 岱山县| 武邑县| 青河县| 托里县| 揭东县| 奇台县| 华容县| 双江| 东乡县| 奈曼旗| 弥勒县| 沾化县| 江孜县| 通化县| 许昌市| 祁东县| 儋州市| 全椒县| 浦县| 龙岩市| 庆安县| 苗栗县|