曹彥珍++何云斌++朱素霞++孫廣路
摘要:利用一種規(guī)則學(xué)習(xí)方法中的重復(fù)增量式降低錯(cuò)誤剪枝方法解決網(wǎng)絡(luò)流量分類問題。利用該方法能夠挖掘出網(wǎng)絡(luò)流屬性特征和類別之間的相關(guān)關(guān)系,并將挖掘出的關(guān)系構(gòu)成分類器用于網(wǎng)絡(luò)流量分類。該方法能夠解決傳統(tǒng)機(jī)器學(xué)習(xí)方法在網(wǎng)絡(luò)流量中有大量的不平衡數(shù)據(jù)集時(shí),分類錯(cuò)誤率高等問題。實(shí)驗(yàn)證明,該方法在網(wǎng)絡(luò)流量分類標(biāo)準(zhǔn)數(shù)據(jù)集上具有很高的分類準(zhǔn)確率、查全率和查準(zhǔn)率。
關(guān)鍵詞:網(wǎng)絡(luò)流量分類;規(guī)則學(xué)習(xí);重復(fù)增量式降低錯(cuò)誤剪枝;不平衡數(shù)據(jù)
DOI:1015938/jjhust201705016
中圖分類號(hào): TP393
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2017)05-0085-06
Network Flow Classification MethodruleBased
CAO Yanzhen,HE Yunbin,ZHU Suxia,SUN Guanglu
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin, 150080, China)
Abstract:In this paper, repeated incremental pruning to produce error reduction which is a rule learning method is used to solve network traffic classification The method can be used to dig out the correlations between attributes and classes, which are utilized to build a classifier for traffic classification The proposed method can decrease the classification error rate when the traditional machine learning method has a large number of imbalanced data sets in the network traffic Experiments show that the method has a very high classification of accuracy, recall and precision in network traffic classification standard data sets
Keywords:traffic classification; rulebased learning; repeated incremental pruning to produce error reduction; unbalanced data
收稿日期: 2016-01-28
基金項(xiàng)目: 國家自然科學(xué)基金(60903083, 61502123);黑龍江省新世紀(jì)人才項(xiàng)目(1155ncet008);黑龍江省博士后科研啟動(dòng)基金
作者簡(jiǎn)介:
曹彥珍(1991—),女,碩士研究生;
朱素霞(1978—),女,博士,副教授
通信作者:
何云斌(1972—),男,博士,教授,Email:hybha@ 163com
0引言
隨著網(wǎng)絡(luò)中各種應(yīng)用的逐漸增加,網(wǎng)絡(luò)越來越難以管理,網(wǎng)絡(luò)安全問題也越來越嚴(yán)重,在這種情況下網(wǎng)絡(luò)流量分類技術(shù)應(yīng)運(yùn)而生。網(wǎng)絡(luò)流量分類技術(shù)是針對(duì)網(wǎng)絡(luò)中的每一條流量進(jìn)行分類,識(shí)別出其所屬的應(yīng)用層協(xié)議類型,為流量控制提供依據(jù),是網(wǎng)絡(luò)安全技術(shù)的基礎(chǔ)研究之一。同時(shí),網(wǎng)絡(luò)流分類技術(shù)能夠增強(qiáng)網(wǎng)絡(luò)的可控性, 幫助相關(guān)的研究人員掌握網(wǎng)絡(luò)上的流量分布情況, 幫助網(wǎng)絡(luò)運(yùn)營(yíng)商優(yōu)化服務(wù)質(zhì)量,預(yù)防并阻止各種網(wǎng)絡(luò)犯罪行為[1][2]。
已有的網(wǎng)絡(luò)流量分類技術(shù)有基于端口、基于載荷、基于行為以及基于機(jī)器學(xué)習(xí)等方法。隨著越來越多的應(yīng)用采用動(dòng)態(tài)端口傳輸,導(dǎo)致基于端口的方法失效;基于載荷的方法有很高的識(shí)別精度,但侵犯用戶隱私,并且不能識(shí)別加密流量;基于行為的方法不能實(shí)現(xiàn)實(shí)時(shí)分類等[3-5]。近幾年,機(jī)器學(xué)習(xí)得到了迅猛發(fā)展,很多研究者將機(jī)器學(xué)習(xí)方法應(yīng)用到了網(wǎng)絡(luò)流分類中,包括樸素貝葉斯(naive bayesian,NB)[6]、支持向量機(jī)(support vector machine,SVM)[7]、C45決策樹[8]等,并取得了不錯(cuò)的效果。
面對(duì)網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,網(wǎng)絡(luò)中流量會(huì)出現(xiàn)應(yīng)用協(xié)議類別不平衡的情況,而傳統(tǒng)的網(wǎng)絡(luò)流量分類方法的分類性能往往偏向大類,而忽略小類。在面對(duì)大量不平衡數(shù)據(jù),傳統(tǒng)的機(jī)器學(xué)習(xí)方法不能取得很好的效果。因此,本文提出一種基于重復(fù)增量式降低錯(cuò)誤剪枝(repeated incremental pruning to produce error reduction,Ripper)的網(wǎng)絡(luò)流量分類方法,由于Ripper方法是按照出現(xiàn)最不頻繁的類別到出現(xiàn)最頻繁的類別的順序產(chǎn)生規(guī)則的,使得它對(duì)于大量的不平衡數(shù)據(jù)集有很好的分類性能。
本文在第1部分簡(jiǎn)要介紹了相關(guān)工作,包括應(yīng)用于網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)方法以及Ripper方法的應(yīng)用等。第2部分首先介紹了特征選擇方法,然后詳細(xì)介紹了基于Ripper的網(wǎng)絡(luò)流量分類方法。第四部分介紹了實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)集,最后一部分得出實(shí)驗(yàn)結(jié)果并對(duì)其進(jìn)行分析,及得出結(jié)論。
1相關(guān)工作
隨著機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的廣泛應(yīng)用,基于機(jī)器學(xué)習(xí)[9]的網(wǎng)絡(luò)流量分類成為近年來的研究熱點(diǎn)。2004年,基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法被一些學(xué)者提出,這種方法是根據(jù)網(wǎng)絡(luò)流量具有的統(tǒng)計(jì)特性來對(duì)網(wǎng)絡(luò)流量進(jìn)行分類[10]。到現(xiàn)在已經(jīng)有很多種機(jī)器學(xué)習(xí)方法被引入到網(wǎng)絡(luò)流量分類的研究中,其中具有代表性的有: Moore等在2005年利用有監(jiān)督的樸素貝葉斯方法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,取得了90%以上平均識(shí)別準(zhǔn)確率[4]。Erman等在2007年融合了有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)方法,提出了半監(jiān)督的機(jī)器學(xué)習(xí)方法解決網(wǎng)絡(luò)流量分類問題,取得了很好的效果[11]。徐鵬等在2008年提出一種基于C45決策樹的網(wǎng)絡(luò)流量分類方法,利用訓(xùn)練數(shù)據(jù)集中的信息熵來構(gòu)建模型,這種方法也被證明在分類穩(wěn)定性上有很好的效果[8]。之后他又提出一種基于支持向量機(jī)的網(wǎng)絡(luò)流量分類方法,該方法能夠解決以往方法中條件獨(dú)立假設(shè)的問題,在先驗(yàn)知識(shí)相對(duì)不足的情況下,具有較高的分類準(zhǔn)確率和分類穩(wěn)定性[7]。Yu Jin等在2012年提出一種模塊化的機(jī)器學(xué)習(xí)方法,應(yīng)用于大型網(wǎng)絡(luò)的流量分類中并取得了較好的效果[12]。endprint
不同的學(xué)習(xí)模型有不同的知識(shí)表示形式,其中,規(guī)則是一種非常直觀和自然的知識(shí)表示形式,由于其形式簡(jiǎn)單、無結(jié)構(gòu)而被廣泛研究,并得到快速發(fā)展。Ripper方法由Cohen提出[13],是基于規(guī)則學(xué)習(xí)的方法中較為經(jīng)典的一種。Nilgün等在2010年將Ripper方法用于對(duì)肝炎引起的死亡風(fēng)險(xiǎn)問題進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示Ripper方法有不錯(cuò)的預(yù)測(cè)準(zhǔn)確率,并且能夠產(chǎn)生非常簡(jiǎn)單的規(guī)則[14]。2011年,Anil Rajput等利用Ripper方法處理電子政務(wù)數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明通過Ripper方法產(chǎn)生的規(guī)則簡(jiǎn)單易懂,利于相關(guān)人員對(duì)電子政務(wù)數(shù)據(jù)的研究和使用[15]。電子科技大學(xué)的鐘星將Ripper方法用于研究軟件缺陷預(yù)測(cè),并取得了不錯(cuò)的實(shí)驗(yàn)效果[16]。M Tarun等將Ripper方法應(yīng)用在教育研究中,通過對(duì)應(yīng)試者的相關(guān)特征進(jìn)行分析,并預(yù)測(cè)該應(yīng)試者能否通過執(zhí)照考試,實(shí)驗(yàn)結(jié)果顯示該方法在預(yù)測(cè)方面有很高的準(zhǔn)確率[17]。中國科學(xué)技術(shù)大學(xué)的張小康將Ripper方法應(yīng)用于惡意代碼的檢測(cè)技術(shù),取得了不錯(cuò)的效果[18]。GMeeraGandhi等在對(duì)網(wǎng)絡(luò)入侵檢測(cè)的研究中,通過多種評(píng)估項(xiàng)對(duì)基于規(guī)則的幾種歸納學(xué)習(xí)方法進(jìn)行對(duì)比,結(jié)果顯示Ripper方法在基于規(guī)則學(xué)習(xí)的方法中能表現(xiàn)出很好的性能[19]。
2基于Ripper的流量分類方法
本文首先對(duì)網(wǎng)絡(luò)流分類問題進(jìn)行形式化定義。給定網(wǎng)絡(luò)流樣本集S={s1,s2,…,sn},其特征集為F={f1,f2,…,fm},其中n是樣本個(gè)數(shù),m是特征維數(shù),則對(duì)于某一條樣本可以表示為si={si1,si2,…,sim},1≤i≤n。si的類別 ci∈C,C={c1,c2,…,cq}為類別集合,q為類別數(shù)量。
利用基于規(guī)則學(xué)習(xí)的方法處理分類問題通常分為兩步:第一步是通過對(duì)訓(xùn)練樣本歸納學(xué)習(xí)總結(jié)出特征與類別之間的關(guān)聯(lián)關(guān)系,形成if-then形式的規(guī)則;第二步是利用形成的規(guī)則對(duì)未知的樣本進(jìn)行匹配檢測(cè),以達(dá)到分類的目的。本文首先采用ReliefF算法對(duì)數(shù)據(jù)進(jìn)行降維,然后將降維后的數(shù)據(jù)利用Ripper方法進(jìn)行規(guī)則提取,得到最簡(jiǎn)的規(guī)則對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試。
21特征選擇算法
由于網(wǎng)絡(luò)流量的特征中存在與類別無關(guān)特征和冗余特征,因此需要對(duì)數(shù)據(jù)進(jìn)行特征選擇。本文應(yīng)用ReliefF算法進(jìn)行特征選擇,該算法通用性較強(qiáng),復(fù)雜性較低。
ReliefF算法是從訓(xùn)練集中每一類的樣本中各選擇d個(gè)距離si最近的樣本,其中與si同類的d個(gè)樣本定義為集合H,與si不同類的樣本根據(jù)所屬類別c的不同分別定義為集合M(c),然后計(jì)算不同類別的樣本在某一特征t上的相關(guān)性,并給予不同的權(quán)重,W={wi,w2,…,wp}為最終所求的特征權(quán)重向量,并根據(jù)權(quán)重大小將特征按降序排序,從而得到特征對(duì)類別的從強(qiáng)到弱的區(qū)分能力順序。
ReliefF具體算法如下:
算法1 ReliefF
輸入:樣本集S,特征集F,類別集C,近鄰數(shù)d,取樣次數(shù)r
輸出:權(quán)值向量W
1初始化W=0
2for i←1 to r do
3從S中隨機(jī)選擇一個(gè)樣本si;
4從與si同類的樣本中選擇最近的d個(gè)近鄰,記為H;
5for each c∈C
6從與si不同類的樣本中選擇最近的d個(gè)近鄰,記為M(c);
7wt=wt-∑x∈Hdiff(t,si,x)/(r*d)+
∑c≠class(si)[p(c)1-p(class(si))∑x∈M(c)diff(t,si,x)]/(r*d)
diff(t,si,x)=|sit-xtmaxt-mint|
8endfor
22基于Ripper的流量分類方法
規(guī)則學(xué)習(xí)是通過對(duì)訓(xùn)練集的學(xué)習(xí),總結(jié)歸納出特征值與類別之間的某種關(guān)系,形成if-then形式的規(guī)則,再利用這些形成的規(guī)則對(duì)數(shù)據(jù)集進(jìn)行匹配檢測(cè)。規(guī)則的一般形式是:
ΛNi=1(ai=vi)→ci(1)
式中:箭頭左邊項(xiàng)稱為規(guī)則前件;ai表示特征;vi表示特征值;箭頭右邊項(xiàng)稱為規(guī)則后件;ci表示結(jié)論,即樣本所屬的類別。
Ripper方法是一種用于快速分類的規(guī)則學(xué)習(xí)方法,該方法是對(duì)增量式降低錯(cuò)誤剪枝方法(Incremental Reduced Error Pruning,IREP)的一種改進(jìn)。對(duì)于網(wǎng)絡(luò)流量中多種應(yīng)用類別的分類問題,首先按照應(yīng)用類別出現(xiàn)的頻繁程度進(jìn)行排序,假設(shè){c1,c2,…,cq}是排序后的類別順序,其中c1是最不頻繁的類別, cq是最頻繁的類別。然后將類別按照排列好的順序依次產(chǎn)生規(guī)則:首先將c1的樣本作為正例,其余類別樣本全部作為反例,并產(chǎn)生區(qū)別正例和反例的規(guī)則,依次執(zhí)行,直到剩下cq類,并將其作為默認(rèn)類。這樣Ripper方法能夠最先處理最不頻繁出現(xiàn)的類別,最后處理最頻繁出現(xiàn)的類別,使用從一般到特殊的策略進(jìn)行規(guī)則的生成。正是由于Ripper產(chǎn)生規(guī)則的特殊性,使它對(duì)于處理不平衡數(shù)據(jù)有很好的性能。
Ripper方法的流程圖如圖1所示。
Ripper方法主要分兩部分,一部分為擴(kuò)展,另一部分為收縮,在擴(kuò)展的過程中,首先將規(guī)則集置空,再向規(guī)則集中添加條件,直到該規(guī)則集能夠擴(kuò)展到涵蓋整個(gè)數(shù)據(jù)集為止;而在收縮的過程中,卻是不斷地刪除規(guī)則和收縮條件。最后利用式(2)來確定是否達(dá)到最精簡(jiǎn)的規(guī)則:
C=xk-xpxk+xp(2)
其中:xk是規(guī)則所覆蓋的數(shù)據(jù)個(gè)數(shù),xp是沒有被覆蓋的數(shù)據(jù)個(gè)數(shù),當(dāng)函數(shù)值C不能再變大時(shí)方法停止收縮。Ripper方法的具體算法如下:
算法2 Ripper
輸入:訓(xùn)練集S
輸出:規(guī)則集Rendprint
1初始化R={}
2for{c1,c2,…,cq}中的每一類
3將所選中的類別的樣本作為正例Pos,其余類別的樣本作為反例Neg
4While Pos≠null do
//生長(zhǎng)階段
5把Pos分為生長(zhǎng)正例PosGrow (2/3)和剪枝正例PosPrune (1/3)
6把Neg分為生長(zhǎng)反例NegGrow (2/3)和剪枝反例NegPrune (1/3)
7通過貪婪算法,在PosGrow集上利用信息增益條件P(log(pt)-log(PT))為特征值生成規(guī)則r
//修剪階段
8根據(jù)公式(2)的度量條件在PosPrune和NegPrune上對(duì)r進(jìn)行剪枝,得到規(guī)則r′
9把r′加入到規(guī)則集R中,并刪除r′覆蓋的Pos和Neg中的樣本
10endWhile
11return R
本文將Ripper方法應(yīng)用到網(wǎng)絡(luò)流量分類中,對(duì)于某一條樣本si, Ripper方法可以提取出以下格式的規(guī)則,從而形成規(guī)則庫:
class1:si1 =a,si2 =b。如果si1為a,si2為b,那么這條樣本屬于class1;
class2:si3=c,si5=d。如果si3為c,si5為d,那么這條樣本屬于class2;
class3:true。如果不滿足以上任何一個(gè)規(guī)則,則這條樣本屬于class3。
3實(shí)驗(yàn)
31實(shí)驗(yàn)環(huán)境
本文在實(shí)驗(yàn)中使用了新西蘭懷卡托大學(xué)Witten教授等人開發(fā)的開源工作平臺(tái)Weka3713[20]。該工具利用Java語言實(shí)現(xiàn)了基于樸素貝葉斯、支持向量機(jī)、C45決策樹、規(guī)則等多種分類方法。本文的實(shí)驗(yàn)平臺(tái)為PC機(jī),其CPU為Intel(R)Core(TM)i3340GHz,內(nèi)存為4G,運(yùn)行Windows7操作系統(tǒng)。
32實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證方法的有效性,本文采用的數(shù)據(jù)集是劍橋大學(xué)Moore教授等人在網(wǎng)絡(luò)流量分類上使用的標(biāo)準(zhǔn)數(shù)據(jù)集[4]。該數(shù)據(jù)集是從2003年8月20日0時(shí)到24時(shí)流經(jīng)3個(gè)生物學(xué)研究所中共享的網(wǎng)絡(luò)出口,這些網(wǎng)絡(luò)樣本被分為10個(gè)子集,形成實(shí)驗(yàn)數(shù)據(jù)集。
數(shù)據(jù)集一共包含12類應(yīng)用,但是某些應(yīng)用的樣本在數(shù)據(jù)子集中的數(shù)量過少,不足以用來訓(xùn)練分類器,因此,這里我們選擇其中的六類進(jìn)行研究,分別是:WWW、MAIL、FTPDATA、DATABASE、P2P、SERVICES。在這六類中,WWW的數(shù)量占總數(shù)量的一半,其余五類的數(shù)量一共占總數(shù)量的一半,是一種典型的不平衡數(shù)據(jù)集。并且,每?jī)蓚€(gè)數(shù)據(jù)子集作為一個(gè)實(shí)驗(yàn)數(shù)據(jù)集,即entry01和entry02作為t1,entry03和entry04作為t2,entry05和entry06作為t3,entry07和entry08作為t4,entry09和entry10作為t5。另外,為了得到大量的不平衡數(shù)據(jù),我們按照上述的比例將多個(gè)數(shù)據(jù)子集進(jìn)行合并,形成足夠數(shù)量的數(shù)據(jù)樣本。表1為通過ReliefF算法選擇出的特征子集,表2為實(shí)驗(yàn)數(shù)據(jù)集中各個(gè)類別的樣本數(shù)量。
33實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)利用t1、t2、t3、t4、t5數(shù)據(jù)集分別在樸素貝葉斯、支持向量機(jī)、C45決策樹、Ripper這四個(gè)分類器上做的對(duì)比實(shí)驗(yàn),表3是將t1作為訓(xùn)練集,將t2、t3、t4、t5分別作為測(cè)試集的實(shí)驗(yàn)結(jié)果。圖2、圖3和圖4是將t1作為訓(xùn)練集,將t2、t3、t4、t5分別作為測(cè)試集時(shí),樸素貝葉斯、支持向量機(jī)、C45決策樹分別與Ripper方法的準(zhǔn)確率對(duì)比情況。另外,實(shí)驗(yàn)也采用各類別的查準(zhǔn)率(Precision)、查全率(Recall)和它們的調(diào)和平均值FMeasure來評(píng)價(jià)結(jié)果。表4給出在不同方法準(zhǔn)確率對(duì)比實(shí)驗(yàn)中,以t1作為訓(xùn)練集,t4作為測(cè)試集時(shí)的評(píng)價(jià)指標(biāo)。
另外進(jìn)行了一組分別采用不同樣本數(shù)的數(shù)據(jù)集在Ripper方法上進(jìn)行的對(duì)比實(shí)驗(yàn),并對(duì)該方法進(jìn)行評(píng)估。在Moore數(shù)據(jù)集上分別選取了50000個(gè)樣本、100000個(gè)樣本、150000個(gè)樣本以及200000個(gè)樣本進(jìn)行實(shí)驗(yàn),在該實(shí)驗(yàn)中所采取的實(shí)驗(yàn)方法是十折交叉。圖5是不同數(shù)量的樣本的數(shù)據(jù)集在Ripper方法上的分類準(zhǔn)確率。
通過以上實(shí)驗(yàn)結(jié)果可以看出,在相同的數(shù)據(jù)集下,相比于傳統(tǒng)的樸素貝葉斯、支持向量機(jī)、C45決策樹等方法,Ripper方法有更高的準(zhǔn)確率、查準(zhǔn)率和查全率。在使用同一種方法時(shí),在不同的樣本數(shù)進(jìn)行實(shí)驗(yàn)的結(jié)果中,增大樣本規(guī)模會(huì)對(duì)分類建模效果有一定提升作用。
4結(jié)論
本文重點(diǎn)介紹了一種規(guī)則學(xué)習(xí)算法Ripper,并將其應(yīng)用于網(wǎng)絡(luò)流量分類的研究中,重點(diǎn)解決傳統(tǒng)網(wǎng)絡(luò)流量分類方法中分類模型偏向大類、忽略小類的問題。在訓(xùn)練過程中,應(yīng)用ReliefF特征選擇算法對(duì)數(shù)據(jù)進(jìn)行降維,對(duì)降維后的數(shù)據(jù)用Ripper方法進(jìn)行分類。在Moore數(shù)據(jù)集上與樸素貝葉斯、支持向量機(jī)、C45決策樹等方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明在網(wǎng)絡(luò)流量數(shù)據(jù)出現(xiàn)大量的類別不平衡問題時(shí),Ripper方法能夠?qū)崿F(xiàn)很好的分類性能。
參 考 文 獻(xiàn):
[1]MOORE A W,PAPAGIANNAKI K Toward the Accurate Identification of Network Applications[C]//International Workshop on Passive and Active Network Measurement Springer Berlin Heidelberg, 2005: 41-54
[2]孫廣路, 郎非, 楊明明 基于混合方法的流量測(cè)量系統(tǒng)[J]. 電機(jī)與控制學(xué)報(bào), 2011, 15(6): 91-96endprint
[3]FINSTERBUSCH M, RICHTERr C, ROCHA E, et al A Survey of Payloadbased Traffic Classification Approaches[J]. IEEE Communications Surveys & Tutorials, 2014, 16(2): 1135-1156
[4]CHENG G, WANG S Traffic Classification Based on Port Connection Pattern[C]//Computer Science and Service System (CSSS), 2011 International Conference on IEEE, 2011: 914-917
[5]董輝, 孫廣路, 李丹丹, 等 基于鏈路同質(zhì)性的應(yīng)用層流量分類方法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2013, 18(4): 84-88
[6]MOORE A W,ZUEV D Internet Traffic Classification Using Bayesian Analysis Techniques[C]//ACM SIGMETRICS Performance Evaluation Review ACM, 2005, 33(1): 50-60
[7]林森, 徐鵬, 劉瓊 基于支持向量機(jī)的流量分類方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(8): 2488-2490
[8]ZHANG Y, WANG H, CHENG S A Method for Realtime Peertopeer Traffic Classification Based on C4 5[C]//Communication Technology (ICCT), 2010 12th IEEE International Conference on IEEE, 2010: 1192-1195
[9]王濤,余順爭(zhēng) 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究進(jìn)展[J]. Journal of Chinese Computer Systems: Vol33 No5 2012
[10]ROUGHAN M, SEN S, SPATSCHECK O, et al Classofservice Mapping for QoS: a Statistical Signaturebased Approach to IP Traffic Classification[C]//Proceedings of the 4th ACM SIGCOMM conference on Internet measurement ACM, 2004: 135-148
[11]ERMAN J, MAHANTI A, ARLITT M, et al Offline/Realtime Traffic Classification Using Semisupervised Learning[J]. Performance Evaluation, 2007, 64(9): 1194-1213
[12]JIN Y, DUFFIELD N, ERMAN J, et al A Modular Machine Learning System for Flowlevel Traffic Classification in Large Networks[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2012, 6(1): 4
[13]COHEN WW Fast Effective Rule Induction[C]//Proceedings of the twelfth international conference on machine learning 1995: 115-123
[14]ULUTA
瘙 塁 DEMIR N, Dal Evaluation of Risk of Death in Hepatitis by Rule Induction Algorithms[J]. Scientific Research and Essays, 2010, 5(20): 3059-3062
[15]RAJPUT A, AHARWAL R P, DUBEY M, et al J48 and JRIP Rules for EGovernance Data[J]. International Journal of Computer Science and Security (IJCSS), 2011, 5(2): 201
[16]鐘星 基于數(shù)據(jù)挖掘和多目標(biāo)決策的軟件缺陷預(yù)測(cè)方法研究[D]. 電子科技大學(xué), 2011
[17]IVY M T, BOBBY D G Generating Licensure Examinatio Performance Models Using PART and JRip Classifiers: A Data Mining Application in Education[J] International Journal of Computer and Communication Engineering, 2014,3(3):
[18]張小康 基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究[D]. 合肥: 中國科學(xué)技術(shù)大學(xué), 2009
[19]MEERA G G, KUMARAVEL Appavoo Effective Network Intrusion Detection using Classifiers Decision Trees and Decision rules[J] Int J Advanced Networking and Applications, 2010,2(3):686-692
[20]WITTEN I H, FRANK EData Mining Practical Machine Learning Tools and Technique[M].2nd ed北京:機(jī)械工業(yè)出版社,2005
(編輯:溫澤宇)endprint