呂云彤,厲建賓,葛云龍,葛 維,黃秀麗
(1.國網(wǎng)河北省電力有限公司 電力科學(xué)研究院,河北 石家莊 050021;2.國網(wǎng)河北省電力有限公司,河北 石家莊 050000;3.全球能源互聯(lián)網(wǎng)研究院有限公司,江蘇 南京 210003)
近年來,隨著智能電網(wǎng)建設(shè)的推進(jìn),將發(fā)電側(cè)、電網(wǎng)側(cè)和負(fù)荷側(cè)組成的“源網(wǎng)荷”系統(tǒng),通過友好互動的形式將三者進(jìn)行協(xié)調(diào)發(fā)展、集成互補(bǔ),成為國內(nèi)能源互聯(lián)網(wǎng)戰(zhàn)略規(guī)劃的重要途徑。目前國網(wǎng)公司初步建成的“大規(guī)模源網(wǎng)荷友好互動系統(tǒng)”(簡稱源網(wǎng)荷系統(tǒng)),主要以復(fù)雜交直流混聯(lián)輸配電網(wǎng)的電網(wǎng)側(cè)和接入大規(guī)模柔性負(fù)荷的需求側(cè)之間的“網(wǎng)荷互動”應(yīng)對特高壓直流多饋入帶來的電網(wǎng)穩(wěn)定問題[1]。
目前源網(wǎng)荷系統(tǒng)按照中國發(fā)改委14號令(《電力監(jiān)控系統(tǒng)安全防護(hù)規(guī)定》)“安全分區(qū)、網(wǎng)絡(luò)專用、橫向隔離、縱向認(rèn)證”的要求,在系統(tǒng)的橫向邊界及縱向邊界部署正反向隔離裝置及縱向加密認(rèn)證裝置,能有效抵御來自互聯(lián)網(wǎng)的傳統(tǒng)病毒木馬的入侵。但是在外部嚴(yán)峻的工控安全形勢下,工控系統(tǒng)的物理隔離并非絕對安全。由于管理原因或技術(shù)原因,惡意攻擊依然可以通過負(fù)荷側(cè)不可控的智能負(fù)荷控制終端設(shè)備、接入內(nèi)網(wǎng)的U盤等移動媒介、接入控制區(qū)網(wǎng)絡(luò)內(nèi)部的調(diào)試人員筆記本等方式對系統(tǒng)實(shí)施惡意數(shù)據(jù)注入、偽造控制指令、獲取超級權(quán)限、造成網(wǎng)絡(luò)中斷等多種形式的惡意攻擊。
為了應(yīng)對源網(wǎng)荷系統(tǒng)信息安全防護(hù)面臨的挑戰(zhàn),有必要針對面向源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互異常檢測技術(shù)進(jìn)行研究,使電力側(cè)有足夠的惡意攻擊識別能力,以保障電力系統(tǒng)的安全穩(wěn)定運(yùn)行。
隨著無線通信等新技術(shù)的普及,未來采用多種通信技術(shù)的智能網(wǎng)荷互動終端也將投入使用,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜化、邊界模糊化、威脅形態(tài)多樣化對源網(wǎng)荷互動所涉及工控系統(tǒng)安全防護(hù)帶來嚴(yán)峻挑戰(zhàn),提出了新的安全需求。
源網(wǎng)荷系統(tǒng)包括電力發(fā)電系統(tǒng)、輸電系統(tǒng)和用電負(fù)荷系統(tǒng),其中包括多種類型的電力工控設(shè)備系統(tǒng)。由于電力工控系統(tǒng)使用電力特有的控制協(xié)議和業(yè)務(wù)邏輯,所以電力工控攻擊容易針對明確的目標(biāo)實(shí)施隱蔽的攻擊操作,且通常是集團(tuán)式的攻擊。由于缺乏對工控系統(tǒng)實(shí)時(shí)交互全過程的安全監(jiān)測能力,惡意攻擊往往不能被及時(shí)發(fā)現(xiàn)和告警。
隨著支持向量機(jī)[2-3](support vector machine,SVM)的研究和發(fā)展,更多改進(jìn)算法被提出,包括模糊SVM、最小二乘SVM、加權(quán)SVM等。其中單類支持向量機(jī)[4-5](one class support vector machine,OCSVM)是比較重要的一種派生算法。
OCSVM最先提出的文獻(xiàn)為《Estimating the support of a high-dimensional distribution》,該模型將數(shù)據(jù)樣本通過核函數(shù)映射到高維特征空間,使其具有更良好的聚集性。為了使目標(biāo)數(shù)據(jù)與坐標(biāo)原點(diǎn)達(dá)到最大分離程度,OSCVM在高維特征空間中找出一個(gè)最優(yōu)超平面來實(shí)現(xiàn)。普通分類問題一般都是2類及2類以上的,其訓(xùn)練數(shù)據(jù)有2個(gè)類,通常稱為正例和負(fù)例。例如對于垃圾郵件識別問題,正例就是垃圾郵件,負(fù)例就是正常郵件。而OCSVM算法解決的是單分類問題,其訓(xùn)練數(shù)據(jù)集只有一類,基本思想是通過高維空間內(nèi)的超平面,分離訓(xùn)練數(shù)據(jù)和原點(diǎn),使其距離最大化,如圖1所示。
圖1 OCSVM分類示意
源網(wǎng)荷系統(tǒng)中運(yùn)行的業(yè)務(wù)數(shù)據(jù)因其有一定的規(guī)律性和穩(wěn)定性,所以源網(wǎng)荷系統(tǒng)的通信流是規(guī)則,稱為狀態(tài)有限。源網(wǎng)荷系統(tǒng)具有比較固定的行為特征和可預(yù)測的行為模式,稱為行為有限?;谠淳W(wǎng)荷系統(tǒng)交互的狀態(tài)有限和行為有限的特點(diǎn),對源網(wǎng)荷系統(tǒng)的實(shí)時(shí)交互進(jìn)行檢測,得到的識別結(jié)果為正?;虍惓#@與二分類問題的結(jié)果是相同的。所以,對源網(wǎng)荷系統(tǒng)的異常檢測也可以認(rèn)為是一種二分類問題。
OCSVM是一種基于機(jī)器學(xué)習(xí)[6-7]的異常檢測算法,基本思想是通過機(jī)器學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行二分類,并且在先驗(yàn)知識不足的條件下仍可得到較高的分類正確率。對源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互異常識別的需求而言,OCSVM是非常適合用于其檢測的技術(shù)。
在樣本訓(xùn)練上,傳統(tǒng)的支持向量機(jī)算法需要至少兩類樣本來訓(xùn)練入侵檢測模型,而OCSVM由于對噪聲樣本數(shù)據(jù)具有魯棒性,并且僅從一類樣本中就可以訓(xùn)練出異常檢測模型。由于源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互的數(shù)據(jù)中大部分為正常數(shù)據(jù),極小部分是異常數(shù)據(jù),OCSVM算法可以從源網(wǎng)荷實(shí)時(shí)交互樣本數(shù)據(jù)中訓(xùn)練出異常監(jiān)測模型?;贠CSVM的源網(wǎng)荷實(shí)時(shí)交互異常檢測框架如圖2所示。
圖2 源網(wǎng)荷實(shí)時(shí)交互異常檢測框架
(1)數(shù)據(jù)采集階段。
數(shù)據(jù)采集主要是在源網(wǎng)荷系統(tǒng)運(yùn)行時(shí)對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行捕獲。從源網(wǎng)荷系統(tǒng)實(shí)時(shí)網(wǎng)絡(luò)交互中采集到的交互數(shù)據(jù)有明顯的不平衡特點(diǎn),采集數(shù)據(jù)中正常數(shù)據(jù)占大多數(shù),只有極少部分為異常數(shù)據(jù),并且采集的數(shù)據(jù)量大、維度高,還需要對采集數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,才能進(jìn)行機(jī)器學(xué)習(xí)。
(2)數(shù)據(jù)降維預(yù)處理階段。
數(shù)據(jù)預(yù)處理主要指數(shù)據(jù)降維,數(shù)據(jù)降維主要是對數(shù)據(jù)維度進(jìn)行降維處理。采集的數(shù)據(jù)維度高是由于數(shù)據(jù)屬性多,過高的數(shù)據(jù)維度會降低異常識別算法的效率,所以需要對采集數(shù)據(jù)進(jìn)行數(shù)據(jù)降維處理。框架中采用主成分分析方法[8-9](principal component analysis,PCA)對系統(tǒng)數(shù)據(jù)進(jìn)行特征提取、減少維度。主成分分析法是基于統(tǒng)計(jì)特征的多維正交線性變化,利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),常應(yīng)用于數(shù)據(jù)的特征提取和數(shù)據(jù)降維。
對數(shù)據(jù)進(jìn)行特征屬性選取時(shí),特征數(shù)量越多,原始數(shù)據(jù)的信息就越全,同時(shí)計(jì)算量也會越大。因此需要對源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互特征數(shù)據(jù)進(jìn)行合理篩選,選取的特征盡可能地代表源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)的原始數(shù)據(jù)包信息。經(jīng)過篩選比較,源網(wǎng)荷系統(tǒng)協(xié)議報(bào)文中選取了13項(xiàng)特征屬性,包括源地址、目的地址、IP包總長度、IP包頭長度、TCP包頭長度、源端口號、目的端口號、流量大小、協(xié)議標(biāo)識符、長度、業(yè)務(wù)標(biāo)識符、功能碼、數(shù)據(jù)長度。
基于所選擇的13項(xiàng)數(shù)據(jù)包特征,在數(shù)據(jù)包中提取對應(yīng)的13項(xiàng)特征,并存儲成矩陣形式,然后利用PCA方法進(jìn)行數(shù)據(jù)降維,提取主要特征,過濾掉噪聲數(shù)據(jù)和冗余項(xiàng)。具體步驟如下:
①根據(jù)源網(wǎng)荷數(shù)據(jù)包特征,設(shè)定n=13個(gè)特征變量;
②根據(jù)提取的數(shù)據(jù)幀號N,計(jì)算第N幀的各項(xiàng)特征數(shù)據(jù)地址;
③根據(jù)特征變量獲取對應(yīng)的數(shù)據(jù)值;
④判斷是否提取了13個(gè)特征變量,若結(jié)果為是,將提取的特征數(shù)據(jù)值以矩陣形式存儲,記為X0,否則繼續(xù)提取特征數(shù)據(jù);
⑥按照大小排列特征值向量,計(jì)算累計(jì)方差貢獻(xiàn)率,選取前m( (3)OCSVM算法運(yùn)行階段。 通過對采集樣本的數(shù)據(jù)預(yù)處理得到交互數(shù)據(jù)樣本,作為OCSVM算法的輸入數(shù)據(jù)。矩陣形式X=(x1,x2,…,xi,…,xl),將矩陣輸入OCSVM算法以實(shí)現(xiàn)網(wǎng)絡(luò)交互異常的識別。在矩陣X中,xi=(xi1,xi2,…,xim)表示第i個(gè)現(xiàn)場數(shù)據(jù),每一維代表該數(shù)據(jù)的一項(xiàng)屬性。 4.2.1 源網(wǎng)荷實(shí)時(shí)交互異常檢測流程 OCSVM訓(xùn)練過程是基于OCSVM異常檢測中最關(guān)鍵的模塊。通常情況下,對源網(wǎng)荷系統(tǒng)進(jìn)行數(shù)據(jù)采集時(shí),采集到的數(shù)據(jù)均為正常實(shí)時(shí)交互數(shù)據(jù)?;谠淳W(wǎng)荷系統(tǒng)實(shí)時(shí)交互采集的數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)際上就是OCSVM算法對交互正常數(shù)據(jù)進(jìn)行訓(xùn)練,把坐標(biāo)原點(diǎn)設(shè)為異常樣本,目標(biāo)就找到一個(gè)最優(yōu)的劃分面將樣本數(shù)據(jù)與原點(diǎn)分離,并且距離最大,從而得到分類決策函數(shù)。 在圖3中,首先在源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互時(shí),利用Libpcap等數(shù)據(jù)捕獲[10-11]函數(shù)對源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)包進(jìn)行捕獲,對采集數(shù)據(jù)進(jìn)行過濾和存儲,再對采集數(shù)據(jù)包進(jìn)行特征選擇與提取。再利用PCA算法進(jìn)行數(shù)據(jù)預(yù)處理,完成數(shù)據(jù)降維,并將處理后的數(shù)據(jù)存儲為OCSVM算法可用的矩陣形式。接著,通過OCSVM算法對源網(wǎng)荷實(shí)時(shí)交互數(shù)據(jù)進(jìn)行訓(xùn)練,得到源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)異常分類模型,該模型可以識別出正常行為和異常行為。最后,基于采集的源網(wǎng)荷系統(tǒng)交互數(shù)據(jù)訓(xùn)練得到的OCSVM分類器,可以用來實(shí)現(xiàn)源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)的檢測,檢測結(jié)果為源網(wǎng)荷系統(tǒng)交互的正常行為或異常行為。 圖3 源網(wǎng)荷系統(tǒng)異常交互檢測流程 4.2.2 基于OCSVM的源網(wǎng)荷實(shí)時(shí)交互異常檢測算法 算法步驟如下: (1)在數(shù)據(jù)采集模塊完成對源網(wǎng)荷交互數(shù)據(jù)的采集后,篩選合適的數(shù)據(jù)特征,利用這些特征項(xiàng)構(gòu)建l×n的源網(wǎng)荷實(shí)時(shí)交互數(shù)據(jù)訓(xùn)練集矩陣X0。其中源網(wǎng)荷實(shí)時(shí)交互數(shù)據(jù)樣本數(shù)量為l,每個(gè)樣本數(shù)據(jù)的維數(shù)為n,即一個(gè)源網(wǎng)荷實(shí)時(shí)交互數(shù)據(jù)包包含n個(gè)特征數(shù)。 (2)利用主成分分析法對步驟1的數(shù)據(jù)集進(jìn)行降維處理,得到l×m維的源網(wǎng)荷數(shù)據(jù)訓(xùn)練集X1,這m維特征是經(jīng)PCA對n維特征數(shù)據(jù)訓(xùn)練集降維后的結(jié)果。 (3)核函數(shù)采用高斯函數(shù)[12],確定權(quán)衡數(shù)據(jù)集中的正常數(shù)據(jù)與異常數(shù)據(jù)的參數(shù)ν。 (4)構(gòu)造凸優(yōu)化問題,并求解,見式1: (1) (2) (6)構(gòu)造分類決策函數(shù),見式3: f(x)=sgn[g(x)] (3) 通過上述六個(gè)步驟可以完成源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)的訓(xùn)練,得到OCSVM的分類決策函數(shù)和基于OCSVM源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互異常檢測模型,通過OCSVM檢測模型可以檢測源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù),識別出正常數(shù)據(jù)和異常數(shù)據(jù)。 為了對提出的檢測算法進(jìn)行驗(yàn)證,通過在搭建的源網(wǎng)荷實(shí)驗(yàn)環(huán)境中實(shí)際抓取數(shù)據(jù)。源網(wǎng)荷實(shí)驗(yàn)環(huán)境搭建如圖4所示,主要包括源網(wǎng)荷主站控制中心,OPNET網(wǎng)絡(luò)通信仿真系統(tǒng)、OPAL-RT電力仿真系統(tǒng)(含變電站)、路由器、網(wǎng)絡(luò)互動終端、網(wǎng)絡(luò)攻擊主機(jī)等部分。用該套源網(wǎng)荷仿真實(shí)驗(yàn)系統(tǒng)模仿源網(wǎng)荷系統(tǒng)運(yùn)行過程,網(wǎng)絡(luò)攻擊主機(jī)主要負(fù)責(zé)對源網(wǎng)荷系統(tǒng)發(fā)起網(wǎng)絡(luò)攻擊。 圖4 源網(wǎng)荷仿真實(shí)驗(yàn)系統(tǒng) 對在實(shí)驗(yàn)環(huán)境中抓取的源網(wǎng)荷數(shù)據(jù)包,采用主成分分析法完成樣本數(shù)據(jù)集的降維處理。OCSVM算法的訓(xùn)練樣本選取2 000個(gè)正常樣本數(shù)據(jù),測試樣本選取包含正常和異常數(shù)據(jù)的300個(gè)樣本,其中利用OCSVM算法生成的訓(xùn)練模型對測試樣本進(jìn)行檢測,對檢測實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。 通過Matlab仿真軟件[13-14]對OCSVM進(jìn)行仿真實(shí)驗(yàn),OCSVM的運(yùn)行結(jié)果為:OCSVM的最佳v為0.01,最佳核函數(shù)參數(shù)g取0,訓(xùn)練源網(wǎng)荷數(shù)據(jù)樣本的時(shí)間約為180.25 s。實(shí)驗(yàn)結(jié)果表明,采用OCSVM算法進(jìn)行訓(xùn)練和識別的準(zhǔn)確性較高,其測試樣本的準(zhǔn)確率為94.1%,訓(xùn)練樣本的準(zhǔn)確率為99.2%,誤報(bào)率5.79%,漏報(bào)率1.22%。 通過實(shí)驗(yàn)說明OCSVM算法能夠以較高的準(zhǔn)確率檢測出源網(wǎng)荷實(shí)時(shí)交互數(shù)據(jù)的異常數(shù)據(jù),能夠?qū)⑽粗墓艋虍惓?zhǔn)確識別出來。并且OCSVM具有較好的學(xué)習(xí)能力,訓(xùn)練樣本的準(zhǔn)確率高。 為了更好地說明OCSVM在源網(wǎng)荷實(shí)時(shí)交互異常檢測中的優(yōu)勢,將實(shí)驗(yàn)數(shù)據(jù)同時(shí)輸入了傳統(tǒng)的二分類SVM算法和BP(back propagation)前饋神經(jīng)網(wǎng)絡(luò)算法[15-16]模型中,統(tǒng)計(jì)不同算法模型中的檢測精度、訓(xùn)練時(shí)間、誤報(bào)率和漏報(bào)率,并進(jìn)行對比。實(shí)驗(yàn)采取多次取平均值的方式,結(jié)果如表1所示。 從表1可以看出,在誤報(bào)率和漏報(bào)率方面,OCSVM和SVM優(yōu)于BP,但在檢測精度和訓(xùn)練時(shí)間上OCSVM優(yōu)于SVM,說明OCSVM在識別未知攻擊或異常方面更具有優(yōu)勢。 文中研究了面向源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互的異常檢測技術(shù),既是源網(wǎng)荷系統(tǒng)安全防護(hù)、安全內(nèi)控的內(nèi)在需求,也是建設(shè)能源互聯(lián)網(wǎng)的重要保障。OCSVM算法可以基于一類樣本構(gòu)建訓(xùn)練模型,而源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù)中正常數(shù)據(jù)多,要實(shí)現(xiàn)源網(wǎng)荷系統(tǒng)交互的異常識別,可以利用OCSVM算法對正常數(shù)據(jù)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)正常數(shù)據(jù)與異常數(shù)據(jù)的識別。 提出的基于OCSVM的源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互異常檢測技術(shù),深度結(jié)合源網(wǎng)荷系統(tǒng)實(shí)時(shí)交互數(shù)據(jù),進(jìn)行針對源網(wǎng)荷系統(tǒng)攻擊的準(zhǔn)確感知,有效提升了源網(wǎng)荷系統(tǒng)這一重要電力工控系統(tǒng)的攻擊檢測識別技術(shù)能力。4.2 源網(wǎng)荷實(shí)時(shí)交互異常檢測算法
5 實(shí)驗(yàn)與結(jié)果分析
6 結(jié)束語