国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)隨機(jī)森林算法的電力業(yè)務(wù)實(shí)時(shí)流量分類方法

2016-04-14 06:27許勇剛張建業(yè)龔小剛殷繼英
電力系統(tǒng)保護(hù)與控制 2016年24期
關(guān)鍵詞:接入網(wǎng)實(shí)時(shí)性分類器

許勇剛,張建業(yè),龔小剛,姜 珂,周 歡,殷繼英

?

基于改進(jìn)隨機(jī)森林算法的電力業(yè)務(wù)實(shí)時(shí)流量分類方法

許勇剛1,張建業(yè)2,龔小剛3,姜 珂4,周 歡4,殷繼英5

(1.北京中電普華信息技術(shù)有限公司, 北京 100085;2.國網(wǎng)新疆電力公司,新疆 烏魯木齊 830018;3.國網(wǎng)浙江電力公司,浙江 杭州 310007;4.華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,北京 102206;5.國家開發(fā)投資公司,北京 100034)

為了更有效地對(duì)電力業(yè)務(wù)系統(tǒng)安全接入過程中日漸增多的流量進(jìn)行實(shí)時(shí)分類,提高電力系統(tǒng)的業(yè)務(wù)處理速度,提出了一種基于改進(jìn)隨機(jī)森林算法的電力業(yè)務(wù)實(shí)時(shí)流量分類方法。在分析電力業(yè)務(wù)安全接入實(shí)時(shí)流量特征的基礎(chǔ)上,改進(jìn)傳統(tǒng)隨機(jī)森林算法,基于分類間隔加權(quán)對(duì)隨機(jī)森林進(jìn)行修剪來提高分類實(shí)時(shí)性;對(duì)新的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)剪輯來提高分類的準(zhǔn)確性。在此改進(jìn)算法的基礎(chǔ)上設(shè)計(jì)了電力業(yè)務(wù)安全接入實(shí)時(shí)流量分類流程。最后以某省電力公司安全接入實(shí)時(shí)流量分類為例,驗(yàn)證了所提方法的準(zhǔn)確性和實(shí)時(shí)性。

隨機(jī)森林;數(shù)據(jù)剪輯;分類間隔;電力業(yè)務(wù);流量分類

0 引言

隨著電力系統(tǒng)不斷發(fā)展[1-5],電力系統(tǒng)內(nèi)外網(wǎng)交互日益頻繁、規(guī)模增大、業(yè)務(wù)種類繁多、用戶數(shù)攀升、行為日趨復(fù)雜。如何管理網(wǎng)絡(luò)訪問控制、流量入侵檢測(cè)、網(wǎng)絡(luò)規(guī)劃建設(shè),提升內(nèi)網(wǎng)邊際安全是當(dāng)前電力系統(tǒng)內(nèi)網(wǎng)建設(shè)急需解決的問題。實(shí)時(shí)流量分類技術(shù)能夠按照業(yè)務(wù)類型對(duì)在線網(wǎng)絡(luò)流量分類,有效地減少安全接入業(yè)務(wù)的處理時(shí)間,同時(shí)定期分析表現(xiàn)特殊的流量以了解網(wǎng)絡(luò)流量的發(fā)展態(tài)勢(shì),為網(wǎng)絡(luò)優(yōu)化提供決策支持。

基于流統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量分類技術(shù)是當(dāng)前較常用的實(shí)時(shí)流量分類技術(shù)之一,它主要根據(jù)流量的某些屬性,例如平均包間隔時(shí)間、平均包長等統(tǒng)計(jì)信息,借助機(jī)器學(xué)習(xí)的分類方法將流映射到不同的流類型。目前,在流量分類中使用較為廣泛的分類技術(shù)主要有:貝葉斯、決策樹、支持向量機(jī)(SVM)[6]、隨機(jī)森林(Random Forests)等。其中貝葉斯和決策樹是單分類器技術(shù)中比較有代表性的技術(shù),但是單分類器由于自身的限制,其性能提升達(dá)到了無法超越的瓶頸[7],于是使用多個(gè)元分類器進(jìn)行分類,綜合分類結(jié)果形成最終結(jié)果的多分類器組合的思想應(yīng)運(yùn)而生。隨機(jī)森林就是在這個(gè)背景下產(chǎn)生的一種多分類器組合。隨機(jī)森林的應(yīng)用廣泛:生物信息學(xué)方面,文獻(xiàn)[8]等人使用隨機(jī)森林算法研究了沙灘細(xì)菌密度與其他變量的影響關(guān)系;生態(tài)學(xué)方面,文獻(xiàn)[9]利用隨機(jī)森林算法研究土地的覆蓋面積,并發(fā)現(xiàn)隨機(jī)森林算法與其它組合算法相比訓(xùn)練更快;遺傳學(xué)方面,Diaz-Uriarte等人利用隨機(jī)森林算法進(jìn)行基因識(shí)別[10];醫(yī)學(xué)方面,文獻(xiàn)[11]利用利用隨機(jī)森林技術(shù)對(duì)肺部CT圖像進(jìn)行肺結(jié)節(jié)的自動(dòng)檢測(cè)。

電力企業(yè)新增業(yè)務(wù)[12]的不斷涌現(xiàn)使得新增業(yè)務(wù)的端口更加具有隨機(jī)性甚至被調(diào)用,這些都使得傳統(tǒng)方法在電力業(yè)務(wù)安全接入實(shí)時(shí)流量分類中存在諸多不足。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷成熟,基于流統(tǒng)計(jì)特征的流量分類方法成為流量分類的重要手段,而隨機(jī)森林算法因其訓(xùn)練速度快、分類結(jié)果好、通用性廣等特點(diǎn)最近幾年在各領(lǐng)域分類問題上廣泛使用。本文結(jié)合電力業(yè)務(wù)安全接入流量特點(diǎn),提出基于分類間隔加權(quán)對(duì)隨機(jī)森林進(jìn)行修剪和對(duì)新的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)剪輯的改進(jìn)隨機(jī)森林算法,實(shí)現(xiàn)一種適用于電力系統(tǒng)的,分類速度快、準(zhǔn)確性高、擴(kuò)展性強(qiáng)的實(shí)時(shí)流量分類方法。

1 電力系統(tǒng)安全接入物理拓?fù)鋱D

電力企業(yè)安全接入平臺(tái)的物理成分[13]如圖1所示:主要包括接入終端、安全接入網(wǎng)關(guān)、安全認(rèn)證系統(tǒng)、訪問控制器等。

圖1 安全接入平臺(tái)物理拓?fù)鋱D

安全接入主要是從終端接入、數(shù)據(jù)傳輸以及內(nèi)網(wǎng)數(shù)據(jù)保護(hù)這三個(gè)方面解決了電力企業(yè)終端接入的安全性問題,為終端安全接入電力企業(yè)內(nèi)網(wǎng)提供了一種可靠的解決方案。安全接入的流程主要包括如下步驟:

① 終端向安全接入網(wǎng)關(guān)發(fā)送接入請(qǐng)求;

② 終端和網(wǎng)關(guān)握手協(xié)商,建立控制通道后交換認(rèn)證參數(shù);

③ 多因素認(rèn)證之后交換預(yù)共享主密鑰,建立數(shù)據(jù)通道;

④ 安全接入網(wǎng)關(guān)解密數(shù)據(jù)包,轉(zhuǎn)發(fā)給接入控制器;

⑤ 接入控制器過濾包之后,選擇合適的發(fā)送端單向傳輸裝置將包傳輸給相應(yīng)的內(nèi)網(wǎng)應(yīng)用系統(tǒng);

⑥ 應(yīng)用系統(tǒng)接收并處理請(qǐng)求,將處理結(jié)果傳輸回安全接入網(wǎng)關(guān);

⑦ 安全接入網(wǎng)關(guān)接收到應(yīng)用系統(tǒng)的相應(yīng)信息后封裝成數(shù)據(jù)包,發(fā)送給移動(dòng)終端;

⑧ 最后終端發(fā)送FIN消息斷開連接并清空緩存。

在安全接入整個(gè)過程中,安全接入網(wǎng)關(guān)有著舉足輕重的作用,既用于轉(zhuǎn)發(fā)接入、訪問請(qǐng)求,又用于將應(yīng)用系統(tǒng)的返回的信息傳回相應(yīng)的接入終端,是企業(yè)內(nèi)網(wǎng)與移動(dòng)專網(wǎng)的唯一接口。因此對(duì)接入流量進(jìn)行業(yè)務(wù)分類的過程應(yīng)部署在安全接入網(wǎng)關(guān)設(shè)備中,判斷其性能的標(biāo)準(zhǔn)是分類的準(zhǔn)確性和實(shí)時(shí)性,分別如下介紹。

(1) 準(zhǔn)確性評(píng)價(jià)指標(biāo)

準(zhǔn)確性是指在實(shí)驗(yàn)或調(diào)查中某一實(shí)驗(yàn)指標(biāo)或性狀的觀測(cè)值與其真值的接近程度,是流量分類技術(shù)的關(guān)鍵評(píng)價(jià)指標(biāo)。本文提出以召回率(recall)和精度(precision)兩項(xiàng)指標(biāo)來評(píng)價(jià)分類結(jié)果的準(zhǔn)確性。召回率和精度的計(jì)算方法[14]為

(2)

式中:TP、FN、FP、TN分別代表真正(true positive)、假負(fù)(false negative)、假正(false positive)、真負(fù)(true negative)。表1闡明了四者之間的關(guān)系。

表1 TP、FN、FP、TN之間的關(guān)系

(2) 實(shí)時(shí)性評(píng)價(jià)指標(biāo)

實(shí)時(shí)性是指實(shí)時(shí)系統(tǒng)必須對(duì)外來事件在限定時(shí)間內(nèi)做出反應(yīng),能夠反映流量分類技術(shù)在線、快速識(shí)別流量業(yè)務(wù)類型的能力。本文提出以固定流量在加了實(shí)時(shí)流量分類方法實(shí)現(xiàn)包之后的安全接入網(wǎng)關(guān)中的停留時(shí)間與未加之前的停留時(shí)間的時(shí)間差來評(píng)價(jià)分類的實(shí)時(shí)性。

2 改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法

2.1 改進(jìn)的隨機(jī)森林算法

2.1.1 隨機(jī)森林算法基本原理

隨機(jī)森林的具體過程如下:

① 給定訓(xùn)練集,測(cè)試集,特征維數(shù)。確定參數(shù):使用到的分類回歸樹的數(shù)量,每棵樹的深度,每個(gè)節(jié)點(diǎn)使用到的特征數(shù)量;

② 從中通過Bagging方法有放回的抽取個(gè)訓(xùn)練集();

③ 每一個(gè)訓(xùn)練集()用于構(gòu)建一棵分類樹,個(gè)訓(xùn)練集產(chǎn)生個(gè)分類樹。單棵樹的生長過程為:在樹的每個(gè)內(nèi)部節(jié)點(diǎn)處,從個(gè)特征中隨機(jī)挑選個(gè)特征作為候選特征,按照節(jié)點(diǎn)不純度最小的原則從個(gè)候選特征匯總選擇一個(gè)最優(yōu)特征對(duì)節(jié)點(diǎn)進(jìn)行分裂生長。終止條件:每一棵數(shù)的每個(gè)葉子節(jié)點(diǎn)的不純度達(dá)到最小。

④ 統(tǒng)計(jì)建好的棵分類樹中每一棵樹的投票結(jié)果,投票數(shù)最多的那一類即為未知樣本的預(yù)測(cè)類別。

2.1.2 隨機(jī)森林算法的改進(jìn)策略

大量的電力系統(tǒng)業(yè)務(wù)如輸變電狀態(tài)監(jiān)測(cè)、移動(dòng)作業(yè)平臺(tái)、供電電壓監(jiān)測(cè)、營銷一體化繳費(fèi)平臺(tái)等需要通過電力通信網(wǎng)進(jìn)行傳輸,使得電力系統(tǒng)對(duì)于通信網(wǎng)的依賴性在不斷增大。因此電力通信網(wǎng)要具有很高的實(shí)時(shí)性、安全性和準(zhǔn)確性,才能保證電力系統(tǒng)的正常運(yùn)行。電力系統(tǒng)中的很多業(yè)務(wù),如用電信息采集業(yè)務(wù)、電力營銷等也都有實(shí)時(shí)性和準(zhǔn)確性的需求。在電力系統(tǒng)安全接入業(yè)務(wù)流量分類問題中,針對(duì)實(shí)時(shí)性和業(yè)務(wù)分類準(zhǔn)確性的需求,提出如下改進(jìn)措施。

(1) 基于分類間隔加權(quán)對(duì)隨機(jī)森林進(jìn)行修剪

隨機(jī)森林在做分類決策時(shí),樹的數(shù)目過多會(huì)使分類時(shí)間過長,影響分類的實(shí)時(shí)性;同時(shí)每棵樹在參與最終決策時(shí)的權(quán)重都設(shè)置成一樣的,這可能忽略了不同樹對(duì)于樣本判別的重要性會(huì)不同的情況?;诖?,本文提出增加基于分類間隔加權(quán)對(duì)隨機(jī)森林進(jìn)行修剪的過程,減少樹的數(shù)目的同時(shí),增加對(duì)分類間隔貢獻(xiàn)度較大的樹的權(quán)重,既提高了分類的準(zhǔn)確性,也提高了分類的實(shí)時(shí)性。

在集成分類器的研究中,分類間隔(margin)作為一個(gè)研究要素,在分類器集成中扮演了重要的角色。對(duì)于給定一個(gè)樣本和投票方式的情況下,集成分類器中的分類間隔被定義為集成分類器在該樣本上正確分類的票數(shù)與判為其他類的最大投票數(shù)之間的差值。集成分類器中分類間隔的具體定義如下所述。

由集成分類器中分類間隔的定義引出隨機(jī)森林中分類間隔的定義如下所述。

(2) 對(duì)新的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)剪輯

在隨機(jī)森林的建立過程中,不斷加入新的置信度高的樣本對(duì)于提高分類模型的性能和泛化能力具有重要意義。因此隨機(jī)森林利用帶標(biāo)記樣本訓(xùn)練得到各元分類器,組成森林,然后對(duì)無標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè),將置信度高的樣本加入到訓(xùn)練集合中,然后利用新的訓(xùn)練數(shù)據(jù)重新進(jìn)行分類器的訓(xùn)練。但是一些被錯(cuò)誤標(biāo)記樣本的存在,使得這些錯(cuò)誤樣本會(huì)影響分類模型的性能。因此,在傳統(tǒng)的隨機(jī)森林算法的訓(xùn)練過程中增加了對(duì)新增樣本進(jìn)行數(shù)據(jù)剪輯的過程,減少其中錯(cuò)誤標(biāo)記樣本的數(shù)目,提高了分類的準(zhǔn)確性。

基于最近鄰規(guī)則的Depuration技術(shù)是一種應(yīng)用原型選擇的數(shù)據(jù)剪輯技術(shù),它分為RemoveOnly和RelabelOnly兩個(gè)部分。其中,RelabelOnly僅將樣本進(jìn)行移除操作,而RelabelOnly僅將樣本標(biāo)簽進(jìn)行修正[16]。文獻(xiàn)[16]中通過實(shí)驗(yàn)證明: Depuration的剪輯效果僅與RelabelOnly相當(dāng),且二者都沒有RemoveOnly效果好。因此,本文只選擇使用Remove Only 操作進(jìn)行數(shù)據(jù)剪輯操作。

2.2 基于改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法

圖2是改進(jìn)隨機(jī)森林算法分類方法的流程圖。主要分為隨機(jī)森林的建立過程、基于分類間隔加權(quán)的修剪過程和新樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)剪輯的過程。

圖2 改進(jìn)隨機(jī)森林算法分類流程圖

2.2.1 基于分類間隔加權(quán)的修剪過程

基于分類間隔加權(quán)[17]的修剪過程采用后向遞歸消除的方式,在每一次迭代中,刪除對(duì)分類間隔影響最小的樹,并根據(jù)重要性排序結(jié)果對(duì)各棵樹進(jìn)行加權(quán)。

假設(shè)初始的隨機(jī)森林為,基于分類間隔加權(quán)修剪隨機(jī)森林的具體過程如下:

① 計(jì)算森林中每一棵樹對(duì)隨機(jī)森林分類間隔的重要性,即通過把該棵樹從當(dāng)前森林中移除,計(jì)算margin的改變量;

② 根據(jù)每棵樹margin的改變量對(duì)數(shù)進(jìn)行排序,改變量越小說明該棵樹對(duì)森林的重要性越??;

⑤ 重復(fù)①-④,知道達(dá)到某個(gè)停止準(zhǔn)則,即森林中樹的個(gè)數(shù)達(dá)到一定的值。

2.2.2 新樣本進(jìn)行數(shù)據(jù)剪輯的過程

數(shù)據(jù)剪輯[18]操作的具體過程如下:

③ 若有,則保留此新樣例;若沒有,則該信仰里被識(shí)別為“可疑”的錯(cuò)誤標(biāo)記樣例,將其從'中移除。其中,當(dāng)和設(shè)為3和2時(shí)[19], 實(shí)際剪輯效果最好。

2.3 改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法流程

基于改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法由四個(gè)模塊組成:流量采集模塊、流量特性統(tǒng)計(jì)模塊、流量分類模塊和分類結(jié)果處理模塊。圖3表示基于改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法的整體流程。

圖3 實(shí)時(shí)流量分類方法的整體流程圖

Step1:流量采集模塊采集數(shù)據(jù)流量;

Step2:將采集到的流量交由流量特性模塊,統(tǒng)計(jì)采集到的數(shù)據(jù)包的IP分組層特性和傳輸層特性,然后對(duì)數(shù)據(jù)包進(jìn)行流匯聚,即把源IP地址、目的IP地址、源端口、目的端口和傳輸層協(xié)議相同的包劃分為一個(gè)流[14],再統(tǒng)計(jì)每個(gè)流的特性;

Step3:根據(jù)事先已經(jīng)建立好的實(shí)時(shí)流量分類方法,按照特征屬性進(jìn)行業(yè)務(wù)分類[15];

Step4:如果分類結(jié)果是已知流量類型,分類結(jié)果處理模塊將分好的業(yè)務(wù)類別打包封裝發(fā)送給相應(yīng)的業(yè)務(wù)系統(tǒng);如果分類結(jié)果是未知流量類型,那么則需重新進(jìn)行樣本學(xué)習(xí)的過程,來學(xué)習(xí)新流量類型的特征。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)過程

本文以某省電力公司2015年7月-9月的安全接入實(shí)時(shí)流量分類為例來驗(yàn)證基于改進(jìn)隨機(jī)森林分類算法的實(shí)時(shí)流量分類方法的準(zhǔn)確性和實(shí)時(shí)性。實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)如表2所示。共收集了1000個(gè)樣本集,600個(gè)是學(xué)習(xí)樣本,后400個(gè)是測(cè)試樣本,每一個(gè)樣本記錄的是一個(gè)小時(shí)內(nèi)的流量數(shù)據(jù)。

表2 實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)

(1) 利用學(xué)習(xí)樣本構(gòu)建初始隨機(jī)森林(ntree=80),并計(jì)算此時(shí)森林中每一棵樹的重要性。從當(dāng)前森林中移除重要性最低的一棵樹,更新森林,重新計(jì)算剩余每一棵樹對(duì)margin的重要性來賦予不同的權(quán)重,保存當(dāng)前的森林及森林中每棵樹的權(quán)重。計(jì)算加權(quán)的森林子集在測(cè)試樣本上的分類準(zhǔn)確率。重復(fù)以上操作,直至森林中的樹的數(shù)目降低至20棵。該實(shí)驗(yàn)重復(fù)20次,計(jì)算森林規(guī)模從80到20之間每一次的測(cè)試準(zhǔn)確率均值表3(實(shí)驗(yàn)參數(shù)見表3)。

表3 實(shí)驗(yàn)參數(shù)

(2) 選用最佳的森林規(guī)模時(shí)的分類模型,使用JAVA語言開發(fā)基于改進(jìn)隨機(jī)森林算法的實(shí)時(shí)流量分類方法的實(shí)現(xiàn)包,并將其嵌入到Weka系統(tǒng)中。將測(cè)試樣本一分為二,每組200個(gè)。用本文提出的改進(jìn)隨進(jìn)森林算法和Weka系統(tǒng)中的傳統(tǒng)隨機(jī)森林算法、樸素貝葉斯算法、支持向量機(jī)算法(SVM)對(duì)測(cè)試樣本進(jìn)行分類,最后將實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

(3) 將實(shí)現(xiàn)包嵌入到安全接入網(wǎng)關(guān)中,將測(cè)試樣本一分為二,每組200個(gè)。統(tǒng)計(jì)加了實(shí)時(shí)流量分類方法實(shí)現(xiàn)包后,測(cè)試樣本在安全接入網(wǎng)關(guān)里停留的時(shí)間,得到每組中200個(gè)樣本的平均停留時(shí)間,并與之前的作對(duì)比。

3.2 結(jié)果分析

圖4為測(cè)試準(zhǔn)確率與森林規(guī)模關(guān)系圖,表明了森林規(guī)模從80到20之間測(cè)試準(zhǔn)確率的變化趨勢(shì)。其中橫坐標(biāo)代表隨機(jī)森林規(guī)模,縱坐標(biāo)代表20次重復(fù)實(shí)驗(yàn)的平均測(cè)試準(zhǔn)確率。

由圖4中可以看出,隨著森林規(guī)模的減小,測(cè)試的準(zhǔn)確率會(huì)隨之改變。在森林規(guī)模大于30時(shí),測(cè)試準(zhǔn)確率下降幅度不大,森林規(guī)模小于30時(shí),測(cè)試準(zhǔn)確率會(huì)受到較大影響。在森林規(guī)模為33時(shí),測(cè)試準(zhǔn)確率為91.9%,雖然略低于當(dāng)森林規(guī)模為78時(shí)的準(zhǔn)確率(92.1%),但是由于森林規(guī)模大幅減少,分類的時(shí)間也大幅縮短,有效提高了系統(tǒng)的實(shí)時(shí)性,故將森林規(guī)模為33時(shí)的隨機(jī)森林模型作為最佳的分類模型,用于之后的實(shí)驗(yàn)。根據(jù)表4的實(shí)驗(yàn)數(shù)據(jù),分別得到改進(jìn)隨機(jī)森林算法與傳統(tǒng)隨機(jī)森林算法、樸素貝葉斯算法、支持向量機(jī)(SVM)算法的精度和召回率的對(duì)比圖,分別為圖5和圖6。

圖4 測(cè)試準(zhǔn)確率與森林規(guī)模關(guān)系圖

表4 分類方法的準(zhǔn)確性

圖5 精度對(duì)比圖

圖6 召回率對(duì)比圖

經(jīng)上述實(shí)驗(yàn)結(jié)果證明,與傳統(tǒng)隨機(jī)森林算法、樸素貝葉斯算法、支持向量機(jī)(SVM)算法相比,該方法的識(shí)別精度分別提高了1.94%、6.36%、2.51%,召回率分別提高了2.58%、6.49%、2.89%。滿足電力業(yè)務(wù)安全接入實(shí)時(shí)流量分類的準(zhǔn)確性的要求(每個(gè)樣本經(jīng)過安全接入網(wǎng)關(guān)的平均時(shí)間見表表)。

表5 每個(gè)樣本經(jīng)過安全接入網(wǎng)關(guān)的平均時(shí)間

圖7、圖8分別為1號(hào)樣本集、2號(hào)樣本集中每個(gè)樣本的前后停留時(shí)間對(duì)比圖。

經(jīng)實(shí)驗(yàn)結(jié)果證明,采用本文所提出的實(shí)時(shí)流量分類方法實(shí)現(xiàn)包之后的安全接入網(wǎng)關(guān)中的停留時(shí)間與未加之前相比,增幅分別為9.68%和8.42%,但都在1 ms之內(nèi),滿足電力業(yè)務(wù)安全接入實(shí)時(shí)流量分類的實(shí)時(shí)性的要求。

圖7 1號(hào)樣本集每個(gè)樣本的前后停留時(shí)間對(duì)比圖

4 結(jié)論

本文在傳統(tǒng)隨機(jī)森林算法的基礎(chǔ)上,增加了基于分類間隔加權(quán)的修剪過程和新樣本進(jìn)行數(shù)據(jù)剪輯的過程,提出一種基于改進(jìn)隨機(jī)森林算法的電力業(yè)務(wù)安全接入的實(shí)時(shí)流量分類方法,可以對(duì)電力業(yè)務(wù)安全接入的流量按業(yè)務(wù)類型進(jìn)行實(shí)時(shí)分類。經(jīng)實(shí)驗(yàn)結(jié)果驗(yàn)證其準(zhǔn)確性高、實(shí)時(shí)性好。

[1] 楊貴, 呂航, 袁志彬, 等. 智能變電站過程層網(wǎng)絡(luò)流量控制和同步方法研究與實(shí)現(xiàn)[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(11): 70-74.

YANG Gui, Lü Hang, YUAN Zhibin, et al. Research and realization of intelligent substation process level network flow control and synchronization method[J]. Power System Protection and Control, 2015, 43(11): 70-74.

[2] 趙昆, 鄒昱, 邢穎, 等. 電力系統(tǒng)實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)主站系統(tǒng)檢測(cè)評(píng)估方法研究[J]. 電力系統(tǒng)保護(hù)與控制, 2014, 42(10): 72-76.

ZHAO Kun, ZOU Yu, XING Ying, et al. Detection and evaluation on power system real time dynamic monitoring master station system[J]. Power System Protection and Control, 2014, 42(10): 72-76.

[3] 孟建良, 劉德超. 一種基于 Spark 和聚類分析的辨識(shí)電力系統(tǒng)不良數(shù)據(jù)新方法[J]. 電力系統(tǒng)保護(hù)與控制, 2016, 44(3): 85-91.

MENG Jianliang, LIU Dechao. A new method for identifying bad data of power system based on Spark and clustering analysis[J]. Power System Protection and Control, 2016, 44(3): 85-91.

[4] 黨存祿, 張寧, 邵沖. 電力系統(tǒng)無功優(yōu)化研究綜述[J]. 電網(wǎng)與清潔能源, 2014, 30(1): 8-14, 26.

DANG Cunlu, ZHANG Ning, SHAO Chong. Review of reactive power optimization in power system[J].Power System and Clean Energy, 2014, 30(1): 8-14, 26.

[5] 王惠中, 侯璟琨, 趙凱, 等. 基于云計(jì)算的電力系統(tǒng)擴(kuò)展短期負(fù)荷預(yù)測(cè)[J]. 電網(wǎng)與清潔能源, 2014, 30(6): 1-4, 10.

WANG Huizhong, HOU Jingkun, ZHAO Kai, et al. Extended short-term load forecasting in power system based on the cloud computing[J]. Power System and Clean Energy, 2014, 30(6): 1-4, 10.

[6] 律方成, 金虎, 王子建, 等. 基于主成分分析和多分類相關(guān)向量機(jī)的GIS局部放電模式識(shí)別[J]. 電工技術(shù)學(xué)報(bào), 2015, 30(6): 225-231.

Lü Fangcheng, JIN Hu, WANG Zijian, et al. GIS partial discharge pattern recognition based on principal component analysis and milticlass relevance vector machine[J]. Transactions of China Electrotechnical Society, 2015, 30(6): 225-231.

[7] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. 北京: 首都經(jīng)濟(jì)貿(mào)易大學(xué), 2014.

CAO Zhengfeng. Study on optimization of random forests algorithm[J]. Capital University of Economics and Business, 2014.

[8] PARKHURST D F, BRENNER K P, DUFOUR A P, et al. Indicator bacteria at five swimming beaches — analysis using random forests[J]. Water Research, 2005, 39(7): 1354-1360.

[9] GISLASON P O, BENEDIKTSSON J A, SVEINSSON J R. Random forests for land cover classification[J]. Pattern Recognition Letters, 2006, 27(4): 294-300.

[10] DíAZ-URIARTE R, DE ANDRES S A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinformatics, 2006, 7(1): 1.

[11] LEE S L A, KOUZANI A Z, HU E J. Random forest based lung nodule classification aided by clustering[J]. Computerized Medical Imaging and Graphics, 2010, 34(7): 535-542.

[12] 汪強(qiáng), 徐小蘭, 張劍. 一種新的智能變電站通信業(yè)務(wù)安全隔離技術(shù)的研究[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(17): 139-144.

WANG Qiang, XU Xiaolan, ZHANG Jian. A new method of smart substation communication service security isolation technology[J]. Power System Protection and Control, 2015, 43(17): 139-144.

[13]吳克河, 崔文超, 何健平. 電力企業(yè)移動(dòng)安全接入平臺(tái)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2014, 23(7): 31-36.

WU Kehe, CUI Wenchao, HE Jianping. Wireless security access platform in power utilities[J]. Computer Systems & Applications, 2014, 23(7): 31-36.

[14]柏駿, 夏靖波, 吳吉祥, 等. 實(shí)時(shí)網(wǎng)絡(luò)流量分類研究綜述[J]. 計(jì)算機(jī)科學(xué), 2013, 40(9): 8-15.

BO Jun, XIA Jingbo, WU Jixiang, et al. Survey on real-time traffic classification[J]. Computer Science & Applications, 2013, 40(9): 8-15.

[15] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[16] JIANG Y, ZHOU Z H. Editing training data for KNN classifiers with neural network ensemble[J] // Advancesin Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004: 356-361.

[17] SáNCHEZ J S, BARANDELA R, MARQUéS A I, et al. Analysis of new techniques to obtain quality training sets[J]. Pattern Recognition Letters, 2003, 24(7): 1015-1022.

[18] YANG F, LU W, LUO L, et al. Margin optimization based pruning for random forest[J]. Neurocomputing, 2012, 94: 54-63.

[19]謝永芳, 蔣有為, 唐明珠. 一種基于數(shù)據(jù)剪輯的半監(jiān)督最鄰近分類算法[C] // Proceedings of the 2011 Chinese Control and Decision Conference (CCDC). 2011: 41-45.

XIE Yongfang, JIANG Youwei, TANG Mingzhu. A semi-supervised K-nearest neighbor algorithm based on data editing[C] // Proceedings of the 2011 Chinese Control and Decision Conference (CCDC). 2011: 41-45.

(編輯 姜新麗)

A method of real-time traffic classification in secure access of the power enterprise based on improved random forest algorithm

XU Yonggang1, ZHANG Jianye2, GONG Xiaogang3, JIANG Ke4, ZHOU Huan4, YIN Jiying5

(1.Beijing China Power Information Technology Co., Ltd., Beijing 100085, China; 2.State Grid Xinjiang Electric Power Co., Wulumuqi 830018, China; 3. State Grid Zhejiang Electric Power Co., Hangzhou 310007, China; 4. School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China; 5.State Development Investment Co., Beijing 100034, China)

This paper aims to classify the growing number of real-time traffic during the secure access process of the power business system more effectively and to improve the speed of business processing of the power system. A real-time traffic classification method of the power business based on improved random forests algorithm is proposed. On the basis of analyzing characteristics of real-time traffic in secure access of the power business, traditional random forests algorithm is improved. This paper prunes random forests based on margin weight to improve real-time performance of classification and does data-editing for the new sample data to improve accuracy performance of classification. Based on this improved algorithm, a process of real-time traffic classification in secure access of the power business is designed. At last, an instance of a province’s real-time traffic classification in secure access of the power enterprise is used to validate the feasibility and efficiency of the method proposed.

random forests; data editing;classification margin; power business; traffic classification

10.7667/PSPC152144

2015-12-09;

2016-02-05

許勇剛(1974-),男,本科,高級(jí)工程師,研究方向?yàn)樾畔踩-mail: xuyonggang@sgitg.sgcc.com.cn

猜你喜歡
接入網(wǎng)實(shí)時(shí)性分類器
有線接入網(wǎng)技術(shù)在鐵路通信工程中的應(yīng)用
基于實(shí)例的強(qiáng)分類器快速集成方法
電子信息接入網(wǎng)技術(shù)在網(wǎng)絡(luò)電視中的應(yīng)用之我見
航空電子AFDX與AVB傳輸實(shí)時(shí)性抗干擾對(duì)比
光接入網(wǎng)虛擬實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
計(jì)算機(jī)控制系統(tǒng)實(shí)時(shí)性的提高策略
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
通過骨干網(wǎng)對(duì)接入網(wǎng)業(yè)務(wù)進(jìn)行保護(hù)的探討
一種基于置換的組合分類器剪枝方法