張吉生 吳旻榮 黨引 任東曉 沈青
摘 要: 針對(duì)網(wǎng)絡(luò)入侵的特征,提出一種基于SVM支持向量機(jī)的入侵危險(xiǎn)識(shí)別模型。利用支持向量機(jī)SVM模型,混合人工蜂群HABC優(yōu)化的方式,克服算法中存在早熟收斂和局部極小的問題。通過該模型實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵信息系統(tǒng)自適應(yīng)識(shí)別出攻擊效果,有效得到網(wǎng)絡(luò)入侵的信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估。驗(yàn)證結(jié)果表明,HABC優(yōu)化的SVM模型比傳統(tǒng)危險(xiǎn)入侵識(shí)別模型的準(zhǔn)確度更高,收斂速度快,泛化能力增強(qiáng),說明了該方法的可行性、有效性。
關(guān)鍵詞: 安全監(jiān)測(cè); 混合人工蜂群算法; 支持向量機(jī); 信息安全; 風(fēng)險(xiǎn)評(píng)估
中圖分類號(hào): TN915.08?34; V249 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)07?0081?04
An adaptive monitoring and evaluation method of information system security
ZHANG Jisheng, WU Minrong, DANG Yin, REN Dongxiao, SHEN Qing
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: Aiming at the characteristics of the network intrusion, an intrusion risk identification model based on support vector machine (SVM) is proposed. The SVM model and the optimization method of the hybrid artificial bee colony (HABC) are used to overcome the problems of premature convergence and local minimum existing in the algorithm. The attack effect of the network intrusion information system can be recognized automatically with this model, and the information system risk assessment of network intrusion can be obtained effectively. The experimental results show that the SVM model optimized with HABC has higher accuracy than that of the traditional danger intrusion identification models, faster convergence rate and stronger genera?lization ability, and the feasibility and effectiveness of the proposed method are verified.
Keywords: safety monitoring; hybrid artificial bee colony algorithm; support vector machine; information security; risk assessment
0 引 言
隨著國家電網(wǎng)SG186、SGERP、三集五大等信息化建設(shè)不斷深化,電力業(yè)務(wù)越來越依賴于信息通信系統(tǒng),信息通信系統(tǒng)的安全性和可靠性將直接影響到電網(wǎng)企業(yè)數(shù)據(jù)信息的安全保密性[1]。然而,國家電網(wǎng)數(shù)據(jù)資源中往往包含大量的敏感信息,一旦泄露或遭到非法利用,將會(huì)給個(gè)人甚至是國家?guī)頍o法彌補(bǔ)的損失。相關(guān)數(shù)據(jù)表明,僅2015年CNVD就通報(bào)了將近136個(gè)信息系統(tǒng)漏洞,占信息安全漏洞總數(shù)的1.8%。多個(gè)公司的上千萬條數(shù)據(jù)從數(shù)據(jù)庫中泄露[2]。另一方面,入侵手段越來越豐富,短時(shí)間內(nèi)入侵的監(jiān)測(cè)數(shù)據(jù)產(chǎn)生速度越來越快,入侵的數(shù)據(jù)量飛速增長,能夠達(dá)到PB量級(jí)[3],傳統(tǒng)的監(jiān)測(cè)技術(shù)面對(duì)如此大容量的數(shù)據(jù)進(jìn)行逐項(xiàng)監(jiān)測(cè)分析,工作量會(huì)大大提高,很難有效地處理與解決入侵問題。
本文利用人工蜂群算法結(jié)合細(xì)菌趨藥性算法得到的混合人工蜂群算法對(duì)支持向量機(jī)SVM的參數(shù)進(jìn)行尋優(yōu),再用優(yōu)化后的SVM對(duì)信息系統(tǒng)的操作進(jìn)行識(shí)別分類,判斷其是否為危險(xiǎn)入侵。同時(shí)采用密度估計(jì)算法對(duì)模型分類得到的正常操作數(shù)據(jù)進(jìn)行安全范圍的閾值計(jì)算,獲取正常范圍。在正常閾值的基礎(chǔ)上,利用SVM模型分類出異常與正常數(shù)值,進(jìn)行信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估,實(shí)現(xiàn)危險(xiǎn)程度的量化。算法識(shí)別準(zhǔn)確度得到了大量的提升,同時(shí)算法的收斂速度快,泛化性能強(qiáng),魯棒性高,具有較好的工程指導(dǎo)價(jià)值。
1 SVM基本原理
支持向量機(jī)(Support Vector Machine,SVM)像多層感知器網(wǎng)絡(luò)和徑向基函數(shù)網(wǎng)絡(luò)一樣,可用于模式分類和非線性回歸。
為了確保在異常入侵的任何情況下都可以將訓(xùn)練數(shù)據(jù)映射到足夠高的維度,使它們成為線性可分的,需要在非線性硬間隔分類機(jī)的基礎(chǔ)上引入線性軟間隔分類機(jī)中的松弛變量。從而分類問題可描述為:
映射:[T=x′1,y1,x′2,y2,…,x′l,yl]
其中:[x′i=?(xi)]
分類平面:[w?x+b=0]
[minw,b12w2+Ci=1lξi]
[s.t. yi((w?x′i)+b)+1≥1-ξi, i=1,2,…,l]
對(duì)于非線性求解問題,SVM主要采用如下思想解決:通過事先選擇的某種非線性映射將輸入向量[x]映射到一個(gè)高維特征空間[Z,]從而在這個(gè)高維特征空間[Z]中構(gòu)造最優(yōu)分類超平面。支持向量機(jī)SVM的體系結(jié)構(gòu)如圖1所示。
2 混合人工蜂群HABC優(yōu)化算法
大數(shù)據(jù)信息系統(tǒng)異常入侵實(shí)際上是多分類問題,支持向量機(jī)SVM的分類性能與其參數(shù)息息相關(guān),對(duì)于SVM參數(shù)訓(xùn)練而言,單個(gè)參數(shù)[(C[i],g[i])]的提高并不一定就意味著系統(tǒng)性能的提升,但從統(tǒng)計(jì)意義上來說,避免每個(gè)[(C[i],g[i])]陷入較差的局部最優(yōu)解有利于整個(gè)系統(tǒng)性能的提高,因此對(duì)SVM參數(shù)進(jìn)行全局優(yōu)化訓(xùn)練。
2.1 人工蜂群算法
本文對(duì)模型的全局搜索采用人工蜂群ABC(ArtificialBee Colony)[4]算法。如果用[E]表示蜂蜜能量,[T]表示花費(fèi)的時(shí)間,則它們的目標(biāo)函數(shù)[Fobj]可寫為[5]:
[maxFobj=ET]
目的是搜索目標(biāo)函數(shù)[F(θ)]的最大值,[θi]表示第[i]個(gè)食物源的位置,[F(θi)]就可以比作是第[i]個(gè)食物源所處位置的蜂蜜數(shù)量。某個(gè)食物源位置[θi]對(duì)應(yīng)的目標(biāo)函數(shù)值[F(θi)]越大,觀察蜂決定跟隨去開采的概率就越大。因此,每個(gè)觀察蜂被招募的概率可以表示為:
[pi=F(θi)k=1sF(θk)]
2.2 細(xì)菌趨藥算法
本文引入細(xì)菌趨藥算法(Hybird Search),在人工蜂群算法中加入局部搜索策略,提高種群的多樣性,避免早熟收斂,使用自適應(yīng)Bohzmann概率調(diào)整不同搜索階段的選擇壓力從而提高算法的整體性能。
假設(shè)細(xì)菌的總數(shù)為[Sn,]每個(gè)細(xì)菌的位置代表問題的一個(gè)可能解,可表示為[D]維空間中的一個(gè)向量[θi=[θi1,θi2,…,θiD],][i=1,2,…,Sn。]若用符號(hào)[θi(j)]表示第[i]個(gè)細(xì)菌經(jīng)過第[j]次趨藥行為后所處的位置,那么下一次趨藥步驟之后,所處的位置可表示為:
[θi(j+1)=θi(j)+C(i)??(j)]
式中:[C(i)]為正常數(shù),表示細(xì)菌[i]每次向前游動(dòng)的步長單位;[?(j)]表示細(xì)菌翻滾后隨機(jī)選中的另一個(gè)前進(jìn)方向。
同時(shí)引入自適應(yīng)Bohzmann概率,其相應(yīng)的概率公式表示如下:
[pi=exp(fitiT)j=1SNexp(fitiT)]
式中:[fiti]為第[i]個(gè)食物源的適應(yīng)度函數(shù);[T]為一個(gè)參數(shù)可控制選擇壓力。
基于ABC算法的思想,本文提出基于人工蜂群優(yōu)化算法(ABC)和細(xì)菌趨藥法(Hybird)的HABC算法描述,其算法流程如圖2所示。
3 大數(shù)據(jù)科目樣本質(zhì)量提升
對(duì)信息系統(tǒng)的實(shí)時(shí)信息數(shù)據(jù)進(jìn)行監(jiān)控,會(huì)產(chǎn)生大數(shù)據(jù)量的樣本信息。為了提高識(shí)別危險(xiǎn)異常入侵行為的精度,本文需要對(duì)大數(shù)據(jù)進(jìn)行分布式的數(shù)據(jù)質(zhì)量提升。
本文監(jiān)控采用的是信通數(shù)據(jù)庫后臺(tái)大量的審計(jì)日志數(shù)據(jù),包含CPU利用率,內(nèi)存利用率IO,操作用戶,操作時(shí)間,操作終端,操作行為,操作對(duì)象,返回碼等。其中返回碼有多種取值,其中0表示成功,具體的非0數(shù)值代表該操作失敗的具體原因,因此返回碼將所有返回非0值的失敗操作統(tǒng)一置為1。返回值的處理見表1。
4 信息系統(tǒng)安全的自適應(yīng)監(jiān)測(cè)與評(píng)估方法
4.1 安全監(jiān)測(cè)識(shí)別與評(píng)估的全局流程
本文利用模型對(duì)實(shí)時(shí)監(jiān)測(cè)的操作數(shù)據(jù)進(jìn)行異常入侵識(shí)別,同時(shí)用關(guān)聯(lián)度對(duì)危險(xiǎn)程度進(jìn)行評(píng)估,全局整體流程如圖3所示。
4.2 安全監(jiān)測(cè)評(píng)估的研究方法
本文對(duì)危險(xiǎn)程度進(jìn)行具體的評(píng)估,評(píng)估值的大小反映了入侵用戶對(duì)信息系統(tǒng)的危險(xiǎn)程度IV,評(píng)估值越大,對(duì)信息系統(tǒng)安全性起到的危險(xiǎn)程度越高。
實(shí)驗(yàn)數(shù)據(jù)使用的是信通公司持續(xù)收集2個(gè)月,共9周時(shí)間的網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)日志,其中前6周的數(shù)據(jù)都是正常數(shù)據(jù),后3周的數(shù)據(jù)中包含各種攻擊手段。數(shù)據(jù)在開始設(shè)定的協(xié)議下都被標(biāo)記為正常與攻擊。仿真中包含各種攻擊手段,共計(jì)2億條訓(xùn)練數(shù)據(jù)記錄和0.4億條測(cè)試數(shù)據(jù)。
本文以[Xin=(X1,X2,…,Xm)]為輸入訓(xùn)練變量,[Zouti=][Zi,]對(duì)應(yīng)的正常與攻擊為輸出變量,真實(shí)值與預(yù)測(cè)的正則均方差[6]NMSE用來衡量模型的識(shí)別精度。
對(duì)測(cè)試集中的前6周正常數(shù)據(jù)采用密度估計(jì)算法得到正常的閾值范圍。
定義1:設(shè)[x1,x2,…,xn]為取值[R]的獨(dú)立同分布隨機(jī)變量,其服從的分布密度函數(shù)為[f(x),]定義函數(shù):
[fh(x)=1nhi=1nKxi-xh, x∈R]
這里采用的核函數(shù)為高斯核函數(shù)。
[K(u)=12πeu22]
該式稱為密度函數(shù)[f(x)]的閾值估計(jì),[h]為預(yù)先給定的正數(shù),通常稱為窗寬或光滑參數(shù)。
本文對(duì)通過混合蜂群優(yōu)化的SVM識(shí)別模型識(shí)別出的每一條危險(xiǎn)記錄數(shù)據(jù)都采用一種關(guān)聯(lián)度的算法進(jìn)行信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估。
定義2:危險(xiǎn)程度IV為:
[IV0i=miniminkx0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)x0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)]
式中:[ρ]為分辨系數(shù),[0<ρ<1,]根據(jù)不同背景要求取值,通常取[ρ=0.5。]
最終通過識(shí)別模型,一旦達(dá)到工程發(fā)現(xiàn)的危險(xiǎn),就可以通過危險(xiǎn)程度算法實(shí)現(xiàn)信息系統(tǒng)的風(fēng)險(xiǎn)評(píng)估。
5 實(shí)例結(jié)果分析
選取9周時(shí)間收集到的網(wǎng)絡(luò)連接和審計(jì)日志數(shù)據(jù)作為原始數(shù)據(jù),選取2億條的數(shù)據(jù)作為訓(xùn)練集,0.4億條的數(shù)據(jù)作為測(cè)試集,最后將危險(xiǎn)識(shí)別結(jié)果與真實(shí)情況的結(jié)果對(duì)比。
原始的監(jiān)測(cè)數(shù)據(jù)首先經(jīng)過分布式的計(jì)算平臺(tái)進(jìn)行偽數(shù)據(jù)剔除、協(xié)調(diào)分析去噪、濾波、數(shù)據(jù)清理、數(shù)據(jù)歸一化,代入模型中,采用經(jīng)過混合人工蜂群HABC優(yōu)化過的SVM模型進(jìn)行危險(xiǎn)識(shí)別,最終以危險(xiǎn)異常點(diǎn)的識(shí)別準(zhǔn)確率作為評(píng)判的標(biāo)準(zhǔn)。
將訓(xùn)練數(shù)據(jù)集代入到模型,再將預(yù)測(cè)數(shù)據(jù)集代入,通過計(jì)算正則均方差得到模型的識(shí)別準(zhǔn)確率。HABC優(yōu)化后的SVM與未優(yōu)化SVM危險(xiǎn)異常識(shí)別準(zhǔn)確率的對(duì)比,如圖4所示。
對(duì)HABC?SVM識(shí)別出的正常數(shù)據(jù)采用本文定義的密度估算得到正常范圍的閾值后,再將實(shí)時(shí)的預(yù)測(cè)數(shù)據(jù)代入上述模型中,通過分類識(shí)別模型可以自適應(yīng)發(fā)現(xiàn)危險(xiǎn),并且識(shí)別出來,具體如圖5所示。
一旦發(fā)現(xiàn)用戶的危險(xiǎn)入侵操作,就對(duì)危險(xiǎn)識(shí)別操作的結(jié)果通過危險(xiǎn)程度算法實(shí)現(xiàn)危險(xiǎn)程度的評(píng)估,具體結(jié)果如圖6所示。
6 結(jié) 論
工程實(shí)際中,信息系統(tǒng)的安全往往關(guān)系到一個(gè)企業(yè)的核心利益,不斷發(fā)展與變化的網(wǎng)絡(luò)信息技術(shù)和網(wǎng)絡(luò)入侵攻擊技術(shù)越來越表現(xiàn)出不確定性、復(fù)雜性、多樣性等特點(diǎn)。本文圍繞大數(shù)據(jù)信息系統(tǒng)的安全進(jìn)行自適應(yīng)監(jiān)測(cè)與評(píng)估方法的研究,主要?jiǎng)?chuàng)新點(diǎn)在于:
(1) 將人工蜂群算法與細(xì)菌趨藥性算法結(jié)合起來,形成了混合人工蜂群算法HABC,有效地提高了全局參數(shù)的尋優(yōu)性能。
(2) 將支持向量機(jī)SVM與混合人工蜂群算法HABC結(jié)合起來,該模型泛化性能強(qiáng),魯棒性高,同時(shí)有效地提高了入侵危險(xiǎn)的識(shí)別準(zhǔn)確度。
(3) 采用密度估計(jì)算法,將HABC?SVM模型識(shí)別出的正常范圍數(shù)據(jù)形成安全閾值,同時(shí)模型識(shí)別出的危險(xiǎn)入侵能夠有效地實(shí)現(xiàn)信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估。
參考文獻(xiàn)
[1] 王繼業(yè),程志華,彭林,等.云計(jì)算綜述及電力應(yīng)用展望[J].中國電力,2014,47(7):108?112.
[2] BERGEMANN D, WAMBACH A. Sequential information disclosure in auctions [J]. Journal of economic theory, 2015, 159: 1074?1095.
[3] MARZ N, WARREN J. Big data: principles and best practices of scalable realtime data systems [M]. Greenwich: Manning Publications Co., 2015.
[4] OZTURK C, HANCER E, KARABOGA D. Dynamic cluste?ring with improved binary artificial bee colony algorithm [J]. Applied soft computing, 2015, 28: 69?80.
[5] 胡艷,韓璞.間接型目標(biāo)函數(shù)對(duì)控制品質(zhì)的影響[J].計(jì)算機(jī)仿真,2016,33(4):287?291.
[6] 顧燕萍,趙文杰,吳占松.最小二乘支持向量機(jī)魯棒回歸算法研究[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,55(4):396?402.