李柯
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000)
在信息全球化發(fā)展以后,關(guān)于網(wǎng)絡(luò)安全的防范就一直未曾停止過。傳統(tǒng)的信息安全防御體系已不滿足當(dāng)前信息系統(tǒng)防護(hù)要求,所以傳統(tǒng)的被動(dòng)防御模式逐漸向主動(dòng)防御模式進(jìn)行過渡,而態(tài)勢(shì)感知是主動(dòng)防御體系的核心設(shè)備。就像智慧城市的大腦一樣指揮城市的建設(shè)一樣,態(tài)勢(shì)感知統(tǒng)籌所有的安全設(shè)備來打造一個(gè)牢固的安全生態(tài)圈。面對(duì)當(dāng)前日益多樣化諸如APT、人臉、區(qū)塊鏈等新型威脅,傳統(tǒng)的被動(dòng)防御很難進(jìn)行溯源分析,而且費(fèi)時(shí)費(fèi)力。同時(shí)針對(duì)安全信息數(shù)據(jù)分析缺乏和安全事件處置效率低下等問題傳統(tǒng)的安全管理已無法應(yīng)對(duì)。在諸多行業(yè)痛點(diǎn)需要進(jìn)行處理的情況下,態(tài)勢(shì)感知成為了行業(yè)當(dāng)下的需要。它通過對(duì)收集包括安全設(shè)備、網(wǎng)絡(luò)設(shè)備及主機(jī)設(shè)備等網(wǎng)絡(luò)安全要素信息,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法隊(duì)整個(gè)網(wǎng)絡(luò)安全進(jìn)行評(píng)估其狀態(tài),然后根據(jù)狀態(tài)信息預(yù)測(cè)接下來的發(fā)展趨勢(shì)。態(tài)勢(shì)感知通過文字圖表的方式來展現(xiàn)給信息安全管理員以此來幫助信息安全管理員進(jìn)行決策,可視化的形式往往比較酷炫[2]。
網(wǎng)絡(luò)安全不像研發(fā),網(wǎng)絡(luò)安全不僅不產(chǎn)生經(jīng)濟(jì)利潤(rùn),而且還會(huì)消耗由產(chǎn)品研發(fā)等部門帶來的經(jīng)濟(jì)利潤(rùn)。這就導(dǎo)致了在互聯(lián)網(wǎng)高速發(fā)展過程中,網(wǎng)絡(luò)安全卻被邊緣化。這也導(dǎo)致了即使現(xiàn)在,無論是IT 行業(yè)還是傳統(tǒng)行業(yè)里仍然有很多人的網(wǎng)絡(luò)安全意識(shí)還很薄弱。當(dāng)然在駭客攻擊下,遭受的經(jīng)濟(jì)損失下,人們才逐漸重視起網(wǎng)絡(luò)安全。在這一階段就出現(xiàn)了以被動(dòng)響應(yīng)為核心特征的安全防御體系- 被動(dòng)防御體系。被動(dòng)防御體系典型設(shè)備如主要用在邊界的防火墻設(shè)備,IPS(入侵防御系統(tǒng))和IDS(入侵檢測(cè)系統(tǒng))等。在這一時(shí)期雖然人們對(duì)網(wǎng)絡(luò)安全有所重視,但只要不影響業(yè)務(wù)的正常運(yùn)行,無論是否受到攻擊,攻擊程度如何,都無人關(guān)注。一旦發(fā)生重大安全事件,如非法獲取webshell、通橫向滲透盜取重要數(shù)據(jù)或用DDOS 攻擊導(dǎo)致服務(wù)器癱瘓等,則需要請(qǐng)安全廠商派出安全專家進(jìn)行應(yīng)急處理??傮w上這一時(shí)期以被動(dòng)響應(yīng)為主,但已越來越不能應(yīng)對(duì)目前的網(wǎng)絡(luò)安全威脅了。為了加強(qiáng)網(wǎng)絡(luò)空間安全,國(guó)家出臺(tái)了一系列法律法規(guī),如《中華人民共和國(guó)數(shù)據(jù)安全法》、《數(shù)據(jù)安全法》、《個(gè)人隱私保護(hù)法》、《網(wǎng)絡(luò)安全法》等。
態(tài)勢(shì)感知整體架構(gòu)包括安全數(shù)據(jù)收集層、安全日志存儲(chǔ)層、計(jì)算層及展示層。安全數(shù)據(jù)收集層主要是對(duì)安全日志及流量進(jìn)行收集,來源主要安全設(shè)備的原始日志和流量。安全數(shù)據(jù)存儲(chǔ)層主要是將前面收集層收集來的數(shù)據(jù)采用HDFS 技術(shù)進(jìn)行存儲(chǔ)。計(jì)算層主要對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行挖掘分析,這里使用到聚類算法、無監(jiān)督學(xué)習(xí)算法等溯源攻擊鏈。最后的展示層就是實(shí)時(shí)的對(duì)前面的分析結(jié)果和數(shù)據(jù)分析圖表進(jìn)行可視化。
作為主動(dòng)防御體系的大腦, 網(wǎng)絡(luò)安全態(tài)勢(shì)感知能夠統(tǒng)籌所有安全信息的核心是算法。態(tài)勢(shì)感知使用的算法種類繁多,有基于數(shù)學(xué)模型或邏輯模型的融合方法,基于規(guī)則推理或概率統(tǒng)計(jì)的融合方法,也有知識(shí)推理方法、統(tǒng)計(jì)方法、灰度理論方法的評(píng)估算法。態(tài)勢(shì)感知也使用了不同的機(jī)器學(xué)習(xí)算法,例如傳統(tǒng)的機(jī)器學(xué)習(xí)算法隨機(jī)森林、支持向量機(jī)、決策樹,聚類算法K-mean 和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、LSTM 等算法進(jìn)行網(wǎng)絡(luò)安全態(tài)勢(shì)感知預(yù)測(cè)方面。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)其中的一個(gè)分支,通過構(gòu)建諸如CNN 等數(shù)學(xué)模型來發(fā)現(xiàn)數(shù)據(jù)中錯(cuò)綜復(fù)雜的關(guān)系。深度學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)有本質(zhì)上的區(qū)別,傳統(tǒng)的機(jī)器學(xué)習(xí)需要制定相應(yīng)的規(guī)則,深度學(xué)習(xí)只需要提供相應(yīng)的數(shù)據(jù)。深度學(xué)習(xí)通過神經(jīng)元構(gòu)建神經(jīng)網(wǎng)絡(luò)來模擬人腦中的神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析。深度學(xué)習(xí)通過獲取高維的數(shù)據(jù)特征來模擬人腦對(duì)圖像、聲音和文本等數(shù)據(jù)進(jìn)行解釋的機(jī)制。深度學(xué)習(xí)一般可分兩類,第一是監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)通過給數(shù)據(jù)一個(gè)標(biāo)簽,通過神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)等訓(xùn)練模型,然后運(yùn)用模型預(yù)測(cè)結(jié)果;假設(shè)我們要判斷這個(gè)動(dòng)物到底是貓還是狗,可以根據(jù)貓或狗的形狀和大小等標(biāo)簽去判斷物體的種類,這就是監(jiān)督學(xué)習(xí)。另一種無監(jiān)督學(xué)習(xí)則是從無序的信息中自動(dòng)發(fā)現(xiàn)規(guī)律,從而達(dá)到預(yù)測(cè)或分類的效果,它和監(jiān)督學(xué)習(xí)區(qū)別在是否打標(biāo)簽。還有一種是強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)和上述兩種有很大的區(qū)別,強(qiáng)化學(xué)習(xí)希望打造一個(gè)通用的人工智能體,探討的是智能體(agent)在復(fù)雜和不確定的環(huán)境(environment)中如何最大化獲得獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)的是智能體和環(huán)境動(dòng)態(tài)交互過程中獲取最大化獎(jiǎng)勵(lì)。智能體獲取環(huán)境中的狀態(tài),智能體驗(yàn)利用該狀態(tài)輸出動(dòng)作和決策。然后將決策放入環(huán)境中,環(huán)境會(huì)根據(jù)代理做出的決策輸出下一個(gè)狀態(tài)和當(dāng)前決策的獎(jiǎng)勵(lì)。代理的目的是盡可能多地從環(huán)境中獲得獎(jiǎng)勵(lì)。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)深度結(jié)合在游戲領(lǐng)域也取得了相應(yīng)的成果,如DOTA2AI、絕悟AI 等。
利用深度學(xué)習(xí)對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)感知進(jìn)行研究,需要大量數(shù)據(jù)的數(shù)據(jù)集?;ヂ?lián)網(wǎng)上關(guān)于網(wǎng)絡(luò)安全的數(shù)據(jù)集有很多,本文實(shí)驗(yàn)使用的數(shù)據(jù)集是網(wǎng)絡(luò)入侵檢測(cè)的KDDCUP99 數(shù)據(jù)集,使用此數(shù)據(jù)方便數(shù)據(jù)挖掘的入侵檢測(cè)技術(shù)研究。KDDCUP99 數(shù)據(jù)集收集連續(xù)9 周模擬的美國(guó)空軍局域網(wǎng)的網(wǎng)絡(luò)連接數(shù)據(jù)。數(shù)據(jù)集分為標(biāo)記的訓(xùn)練數(shù)據(jù)和未標(biāo)記的測(cè)試數(shù)據(jù),而且測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)具有不同的概率分布。為了入侵檢測(cè)數(shù)據(jù)更具真實(shí)性,測(cè)試數(shù)據(jù)還加了一些訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)的攻擊類型。
取KDDCUP99 數(shù)據(jù)的10%,包括訓(xùn)練集:23 個(gè)標(biāo)簽,包括正常和22 個(gè)攻擊類型標(biāo)簽,包括494021 個(gè)數(shù)據(jù)。
取KDDCUP99 數(shù)據(jù)的測(cè)試集38 個(gè)標(biāo)簽,里面包括正常標(biāo)簽和37 個(gè)攻擊標(biāo)簽,包含311029 條數(shù)據(jù)。
利用python 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)簡(jiǎn)單處理,特征和標(biāo)簽數(shù)值化,特征歸一化。
這里為了統(tǒng)一訓(xùn)練集和測(cè)試集需要過濾掉15 類攻擊,且’spy.’, ’warezclient’這兩種只存在于訓(xùn)練集中攻擊,所以一共過濾掉17 類攻擊。將過濾后的數(shù)據(jù)進(jìn)行統(tǒng)一編碼處理,其中normal 歸一類,其他不正常的歸另一類。在這里preprocessing.LabelEncoder()的作用是標(biāo)準(zhǔn)化標(biāo)簽,然后將標(biāo)簽值統(tǒng)一轉(zhuǎn)換成range(標(biāo)簽值個(gè)數(shù)-1)范圍內(nèi)。
本文使用pytorch 搭建3 層的神經(jīng)網(wǎng)絡(luò)進(jìn)行模型的訓(xùn)練,使用pytorch 中的nn 模塊中Linear 構(gòu)建輸入層、隱藏層、輸出層,使用激活函數(shù)ReLU()將來自節(jié)點(diǎn)的加權(quán)輸入轉(zhuǎn)換為該輸入的節(jié)點(diǎn)。相比于Sigmoid 等函數(shù),使用Relu 激活函數(shù),可以在整個(gè)過程中節(jié)省很多的計(jì)算量。Sigmoid 函數(shù)在深度神經(jīng)網(wǎng)絡(luò)反向傳播時(shí),容易發(fā)生梯度消失的情況,而Relu 的部分神經(jīng)元的輸出為0,在相對(duì)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)中能減少參數(shù)間的相互依賴關(guān)系并使網(wǎng)絡(luò)稀疏,以此緩解過擬合問題。
損失函數(shù)和優(yōu)化器分別使用交叉熵?fù)p失函數(shù)CrossEntropyLoss()和Adam。Adam 優(yōu)化算法在非非凸優(yōu)化問題中計(jì)算非常高效、所需內(nèi)存少,并且基本上只需極少量的調(diào)參。
最后對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練時(shí)間根據(jù)硬件配置高低,以及數(shù)據(jù)量和模型框架等因素決定,本文使用GPU進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如下:
通過實(shí)驗(yàn)比對(duì)在三層神經(jīng)網(wǎng)絡(luò)模型下使用KDDCup99 數(shù)據(jù)集進(jìn)行分類的精準(zhǔn)度能達(dá)到97%,從圖形上看測(cè)試集的波動(dòng)性比較大,數(shù)值上acc 和loss 不穩(wěn)定。
網(wǎng)絡(luò)安全態(tài)勢(shì)感知是互聯(lián)網(wǎng)時(shí)代發(fā)展的產(chǎn)物,并且?guī)椭脩魧?shí)現(xiàn)主動(dòng)的動(dòng)態(tài)安全防御。并已在各行各業(yè)得到應(yīng)用。隨著新技術(shù)諸如AI 技術(shù)、區(qū)塊鏈等不斷更新迭代,態(tài)勢(shì)感知的分析、預(yù)警和預(yù)測(cè)將越來越精準(zhǔn),也將會(huì)被更多的行業(yè)所使用。態(tài)勢(shì)感知也隨著信息技術(shù)發(fā)展而迭代更新,從態(tài)勢(shì)感知1.0 到2.0,不僅是功能發(fā)生了改變,以前的1.0 主要是放在網(wǎng)絡(luò)安全上,到了2.0 以后就以業(yè)務(wù)為核心了。國(guó)家對(duì)網(wǎng)絡(luò)空間安全的重視也使得態(tài)勢(shì)感知在網(wǎng)絡(luò)安全中占重要的地位。歷年的重保和護(hù)網(wǎng)行動(dòng)中可以看出態(tài)勢(shì)感知平臺(tái)都在發(fā)揮著重要的作用。
態(tài)勢(shì)感知不僅僅在政策中有提及相關(guān)的建設(shè)內(nèi)容,而且在法律法規(guī)中也有提及,在等保2.0 中態(tài)勢(shì)感知也是評(píng)測(cè)點(diǎn)。如今態(tài)勢(shì)感知早已成為監(jiān)管單位和關(guān)鍵信息基礎(chǔ)設(shè)施相關(guān)行業(yè)的必備設(shè)施,像電力行業(yè)態(tài)勢(shì)感知是一定要使用的。當(dāng)然目前態(tài)勢(shì)感知市場(chǎng)滲透率還是比較低,一方面還需要加大存量,另一方面還要繼續(xù)更新,以此來適應(yīng)市場(chǎng)需求變化和網(wǎng)絡(luò)環(huán)境。