国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)和人工智能技術(shù)的信息安全態(tài)勢(shì)感知系統(tǒng)研究

2018-03-19 11:57王海濤
關(guān)鍵詞:日志威脅信息安全

◆王海濤

?

基于大數(shù)據(jù)和人工智能技術(shù)的信息安全態(tài)勢(shì)感知系統(tǒng)研究

◆王海濤

(中國(guó)電力建設(shè)股份有限公司信息化管理部 北京 100048)

企業(yè)面臨的信息安全威脅呈高速增長(zhǎng)趨勢(shì),同時(shí)安全攻擊的技術(shù)也呈多樣化并高水平化發(fā)展,企業(yè)必須采用更有效的手段和措施將這些威脅完整并全面的展現(xiàn)出來(lái),為管理層和技術(shù)人員快速處置以及溯源提供技術(shù)支撐。為此,必須研究并建立信息安全態(tài)勢(shì)感知系統(tǒng)。本文首先分析了企業(yè)目前在信息安全態(tài)勢(shì)感知方面的不足,然后利用大數(shù)據(jù)技術(shù)、人工智能算法、威脅情報(bào)技術(shù)等,研究企業(yè)級(jí)信息安全態(tài)勢(shì)感知系統(tǒng)的建設(shè),提出了信息安全態(tài)勢(shì)感知系統(tǒng)的模型、架構(gòu)以及具體的實(shí)現(xiàn)方式等。通過(guò)該系統(tǒng)的設(shè)計(jì)和部署,能夠在企業(yè)中實(shí)現(xiàn)信息安全威脅的有效發(fā)現(xiàn)、威脅感知、風(fēng)險(xiǎn)判定以及威脅溯源,全面提高企業(yè)應(yīng)對(duì)安全威脅和安全攻擊的檢測(cè)能力,為安全事件處置提供有效的技術(shù)支撐。

大數(shù)據(jù);人工智能;態(tài)勢(shì)感知;威脅情報(bào)

0 引言

近年來(lái),具備國(guó)家和組織背景的網(wǎng)絡(luò)攻擊日益增多,政府、軍隊(duì)、金融、大型企業(yè)等所處的特殊角色,經(jīng)常會(huì)面臨更多的來(lái)自外部的攻擊威脅。例如:攻擊伊朗布什爾核電站的“震網(wǎng)病毒”,針對(duì)Google郵件服務(wù)器的“極光攻擊”,針對(duì)烏克蘭電網(wǎng)的“BlackEnergy”攻擊等。雖然企業(yè)的信息安全人員已經(jīng)在網(wǎng)絡(luò)中部署了大量的安全設(shè)備,但仍然會(huì)有部分攻擊繞過(guò)所有的防護(hù)措施直達(dá)企業(yè)內(nèi)部,導(dǎo)致重要數(shù)據(jù)資產(chǎn)的泄露、損壞或篡改。因此,需要通過(guò)技術(shù)手段及時(shí)發(fā)現(xiàn)潛藏在網(wǎng)絡(luò)中的安全威脅,盡早的快速發(fā)現(xiàn)威脅中的惡意行為,并對(duì)受害目標(biāo)以及攻擊源頭進(jìn)行精準(zhǔn)定位,對(duì)入侵途徑以及攻擊者背景進(jìn)行研判與溯源,從而從源頭上解決企業(yè)網(wǎng)絡(luò)中的安全威脅,盡可能地減少安全威脅給企業(yè)帶來(lái)的損失。

1 企業(yè)在信息安全態(tài)勢(shì)感知方面面臨的挑戰(zhàn)

多年以來(lái),企業(yè)的信息安全一直處于“防御-發(fā)現(xiàn)-修復(fù)”的被動(dòng)循環(huán)中,通常的做法是通過(guò)滲透測(cè)試或者風(fēng)險(xiǎn)評(píng)估盡可能早地發(fā)現(xiàn)網(wǎng)絡(luò)和信息系統(tǒng)中存在的漏洞或者風(fēng)險(xiǎn),及時(shí)進(jìn)行修復(fù),同時(shí)當(dāng)發(fā)現(xiàn)攻擊行為時(shí),通過(guò)分析相關(guān)的安全設(shè)備日志、網(wǎng)絡(luò)流量確定攻擊行為并盡快阻斷攻擊。在這種被動(dòng)防御的infosec生命周期中(圖1),絕大多數(shù)企業(yè)都將95%的精力放在防御上,5%的精力放在了發(fā)現(xiàn)攻擊上,而修復(fù)基本上一是依托于產(chǎn)品/設(shè)備的原廠商發(fā)布補(bǔ)丁進(jìn)行被動(dòng)的修復(fù),二是不斷優(yōu)化完善防御策略,提高防御的能力。

圖1 Infosec生命周期

隨著企業(yè)信息安全建設(shè)的不斷深入,信息安全的防御手段也在逐步增強(qiáng),大部分企業(yè)都建設(shè)了終端管理、網(wǎng)絡(luò)殺毒、訪(fǎng)問(wèn)控制、安全審計(jì)、漏洞發(fā)現(xiàn)等安全系統(tǒng),在一定程度上保障了業(yè)務(wù)的安全運(yùn)行,但各系統(tǒng)各自為政、互相獨(dú)立,無(wú)法做到統(tǒng)一管理、統(tǒng)一預(yù)警、統(tǒng)一追查并溯源。另一方面,由于大型企業(yè)的網(wǎng)絡(luò)規(guī)模龐大,存在大量不同格式的日志,如Syslog日志、Web服務(wù)日志、防火墻日志、Netflow日志等,這些日志來(lái)源于各個(gè)業(yè)務(wù)系統(tǒng)服務(wù)器以及眾多的安全設(shè)備、網(wǎng)絡(luò)設(shè)備,分布甚廣、數(shù)量巨大,這些日志數(shù)據(jù)往往沒(méi)有進(jìn)行有效管理和充分利用,不能夠充分發(fā)揮日志的分析作用,尤其是沒(méi)有對(duì)所有日志進(jìn)行高速采集、歸一化存儲(chǔ)、關(guān)聯(lián)性分析。近年來(lái),技術(shù)越進(jìn)步、越先進(jìn),企業(yè)網(wǎng)絡(luò)面臨的攻擊就越多。而且新技術(shù)的不斷應(yīng)用,導(dǎo)致攻擊的手段和方式也越來(lái)越隱蔽、越來(lái)越不易發(fā)現(xiàn)。高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)便是一種可以繞過(guò)各種傳統(tǒng)安全檢測(cè)防護(hù)措施,通過(guò)精心偽裝、長(zhǎng)期潛伏、持續(xù)滲透,從而實(shí)現(xiàn)定點(diǎn)攻擊的復(fù)雜、隱蔽的攻擊手段。

圖2的上半部分是Verizo數(shù)據(jù)泄露報(bào)告中有關(guān)企業(yè)網(wǎng)絡(luò)遭受惡意攻擊導(dǎo)致數(shù)據(jù)丟失甚至系統(tǒng)癱瘓的時(shí)間分布表,下半部分是企業(yè)發(fā)現(xiàn)攻擊并修復(fù)漏洞、恢復(fù)系統(tǒng)運(yùn)行所需要的時(shí)間對(duì)比表,從圖中可以看出,目前攻擊能夠在幾分鐘、幾個(gè)小時(shí)內(nèi)就導(dǎo)致企業(yè)數(shù)據(jù)的外泄甚至系統(tǒng)癱瘓,而企業(yè)要發(fā)現(xiàn)這些攻擊并有效阻止這些攻擊則需要數(shù)周、甚至數(shù)月的時(shí)間。這就讓企業(yè)的網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)長(zhǎng)時(shí)間處于危險(xiǎn)狀態(tài),而且舊的漏洞被修復(fù)后,攻擊者又會(huì)發(fā)現(xiàn)并利用新的漏洞,導(dǎo)致信息安全人員疲于應(yīng)付。

圖2 Verizo數(shù)據(jù)泄露報(bào)告

2 系統(tǒng)總體設(shè)計(jì)

為應(yīng)對(duì)企業(yè)面臨的各種信息安全威脅,中國(guó)電建啟動(dòng)了信息安全態(tài)勢(shì)感知系統(tǒng)的研究,經(jīng)過(guò)大量的調(diào)研與論證,最終確定下來(lái)系統(tǒng)的總體模型如圖3所示。其核心思想是結(jié)合企業(yè)內(nèi)網(wǎng)安全數(shù)據(jù)以及互聯(lián)網(wǎng)安全數(shù)據(jù),對(duì)企業(yè)內(nèi)部的信息安全威脅進(jìn)行綜合的威脅評(píng)估和風(fēng)險(xiǎn)分析,從而全面感知企業(yè)所面臨的威脅,最大限度的掌握企業(yè)的整體安全態(tài)勢(shì)。企業(yè)內(nèi)網(wǎng)的安全數(shù)據(jù)源主要包括安全設(shè)備告警、設(shè)備日志(網(wǎng)絡(luò)設(shè)備、服務(wù)器、應(yīng)用等)、內(nèi)網(wǎng)安全評(píng)估數(shù)據(jù)、網(wǎng)絡(luò)重要區(qū)域邊界的網(wǎng)絡(luò)流量數(shù)據(jù)等。外網(wǎng)安全數(shù)據(jù)源主要包括來(lái)自互聯(lián)網(wǎng)的商業(yè)及開(kāi)源威脅情報(bào)數(shù)據(jù)、互聯(lián)網(wǎng)安全輿情和漏洞監(jiān)測(cè)數(shù)據(jù)等。安全態(tài)勢(shì)感知系統(tǒng)將內(nèi)、外部安全數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,判定安全攻擊并進(jìn)行驗(yàn)證,同時(shí)結(jié)合資產(chǎn)脆弱性等維度,利用風(fēng)險(xiǎn)評(píng)估模型進(jìn)行綜合風(fēng)險(xiǎn)評(píng)估,最后將風(fēng)險(xiǎn)評(píng)估結(jié)果送至威脅態(tài)勢(shì)展現(xiàn)模塊進(jìn)行展現(xiàn)。針對(duì)高級(jí)持續(xù)性攻擊(APT),主要依靠大數(shù)據(jù)的威脅情報(bào),通過(guò)對(duì)企業(yè)內(nèi)網(wǎng)中存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行檢索,從而發(fā)現(xiàn)內(nèi)網(wǎng)中可能存在的未知威脅,并將發(fā)現(xiàn)的APT攻擊事件直觀展現(xiàn)在態(tài)勢(shì)展現(xiàn)模塊。

圖3信息安全態(tài)勢(shì)感知系統(tǒng)模型圖

要實(shí)現(xiàn)以上功能,我們?cè)O(shè)計(jì)出信息安全態(tài)勢(shì)感知系統(tǒng)的結(jié)構(gòu)框架如圖4所示。系統(tǒng)整體設(shè)計(jì)成五層分布式體系架構(gòu),分為數(shù)據(jù)采集層、預(yù)處理層、存儲(chǔ)層、大數(shù)據(jù)分析層和態(tài)勢(shì)展現(xiàn)層。從系統(tǒng)架構(gòu)上說(shuō),主要分為兩大部分,一部分通過(guò)采集各種安全設(shè)備、監(jiān)控系統(tǒng)的報(bào)警信號(hào),及時(shí)發(fā)現(xiàn)系統(tǒng)中的信息安全事件,被動(dòng)對(duì)威脅進(jìn)行感知;另一部分對(duì)采集的環(huán)境數(shù)據(jù)、配置數(shù)據(jù)、行為數(shù)據(jù)、協(xié)議解析數(shù)據(jù)等進(jìn)行智能的關(guān)聯(lián)分析,發(fā)現(xiàn)、預(yù)警潛在的信息安全事件,甚至對(duì)事件背后的組織背景、影響范圍、破壞能力等進(jìn)行評(píng)估,主動(dòng)對(duì)威脅進(jìn)行感知。系統(tǒng)核心組件包括大數(shù)據(jù)采集探針(日志、流量)、云端數(shù)據(jù)采集、分布式實(shí)時(shí)計(jì)算系統(tǒng)、復(fù)雜事件處理引擎、分布式全文搜索引擎等。

圖4信息安全態(tài)勢(shì)感知系統(tǒng)結(jié)構(gòu)框架圖

3 系統(tǒng)核心平臺(tái)設(shè)計(jì)

信息安全態(tài)勢(shì)感知系統(tǒng)的工作原理就是要通過(guò)大數(shù)據(jù)對(duì)相關(guān)的信息安全態(tài)勢(shì)進(jìn)行分析、感知,因此必須對(duì)海量的大數(shù)據(jù)進(jìn)行高效的存儲(chǔ)、計(jì)算、關(guān)聯(lián)分析、檢索等。為此我們構(gòu)建了一個(gè)以分布式存儲(chǔ)為基礎(chǔ),采用大數(shù)據(jù)處理技術(shù),能夠進(jìn)行分布式計(jì)算的核心平臺(tái),該平臺(tái)的核心技術(shù)主要包括:

(1)Hadoop Distributed File System(HDFS),我們采用Hadoop分布式文件系統(tǒng)作為系統(tǒng)的文件系統(tǒng),HDFS文件系統(tǒng)具備高容錯(cuò)性的特點(diǎn),并且可以部署在價(jià)格低廉的PC服務(wù)器上,HDFS放寬了對(duì)POSIX的要求,這樣便可以實(shí)現(xiàn)以流的形式訪(fǎng)問(wèn)文件系統(tǒng)中的數(shù)據(jù),另一方面,HDFS還支持大規(guī)模集群部署,這樣便可以通過(guò)無(wú)限擴(kuò)容節(jié)點(diǎn)解決高吞吐量并發(fā)訪(fǎng)問(wèn)數(shù)據(jù)的需求。

圖5 HDFS分布式文件系統(tǒng)

(2)HBase--Hadoop Database,我們采用運(yùn)行在HDFS上的NoSQL數(shù)據(jù)庫(kù)——HBase作為系統(tǒng)的數(shù)據(jù)庫(kù),HBase具有高可靠性、高性能、面向列、可伸縮的特點(diǎn)。HBase是一個(gè)非關(guān)系型數(shù)據(jù)庫(kù),它通過(guò)一個(gè)四維數(shù)據(jù)模型來(lái)定義數(shù)據(jù):

①行鍵:每行都有唯一的行鍵,行鍵沒(méi)有數(shù)據(jù)類(lèi)型,行鍵是一個(gè)字節(jié)數(shù)組。

②列簇:數(shù)據(jù)在行中被組織成列簇,每行有相同的列簇,但是在行之間,相同的列簇不需要有相同的列修飾符,在數(shù)據(jù)庫(kù)引擎中,HBase將列簇存儲(chǔ)在它自己的數(shù)據(jù)文件中,它們事先被定義好。

③列修飾符:列簇定義真實(shí)的列,被稱(chēng)之為列修飾符,列修飾符就是列本身。

④版本:每列都可以有多個(gè)可配置的版本,HBase通過(guò)列修飾符指定的版本來(lái)獲取數(shù)據(jù)。

圖6 HBase分布式數(shù)據(jù)庫(kù)

HBase這種基于列、而不是基于行的數(shù)據(jù)定義、存儲(chǔ)、使用模式,非常適合動(dòng)態(tài)增加數(shù)據(jù)的屬性,通過(guò)HBase,可以創(chuàng)建一張很大的表,而這個(gè)表的屬性可以根據(jù)需求去動(dòng)態(tài)增加,特別適合非結(jié)構(gòu)化數(shù)據(jù)的處理。

(3)MapReduce分布式計(jì)算平臺(tái),我們構(gòu)建了一個(gè)基于MapReduce計(jì)算模型的、適用于大規(guī)模數(shù)據(jù)集并行運(yùn)算的分布式計(jì)算平臺(tái)MapReduce。MapReduce的核心思想就是利用“Map(映射)”以及“Reduce(化簡(jiǎn))”的思想,對(duì)現(xiàn)有的軟件系統(tǒng)進(jìn)行改造,通過(guò)將現(xiàn)有軟件系統(tǒng)中的計(jì)算功能指定給一個(gè)Map函數(shù),用來(lái)把一組“鍵值對(duì)”映射成一組新的“鍵值對(duì)”,并指定并發(fā)的Reduce函數(shù),從而保證所有映射的“鍵值對(duì)”中,每一個(gè)共享相同“鍵值對(duì)”的函數(shù)能夠進(jìn)行協(xié)調(diào)的并行計(jì)算,這樣便極大地方便了不會(huì)分布式并行編程的程序員,能夠以最小化修改代碼的方式將傳統(tǒng)的程序重新運(yùn)行在分布式系統(tǒng)上。

圖7 MapReduce計(jì)算模型

4 系統(tǒng)關(guān)鍵技術(shù)研究

4.1數(shù)據(jù)采集

系統(tǒng)需要采集的數(shù)據(jù)源包括:網(wǎng)絡(luò)流量鏡像數(shù)據(jù)、日志數(shù)據(jù)、安全情報(bào)及支持?jǐn)?shù)據(jù)等。其中,日志數(shù)據(jù)相對(duì)比較規(guī)范,只需對(duì)相關(guān)設(shè)備、服務(wù)器的日志進(jìn)行配置,便可以導(dǎo)出Syslog日志、Web服務(wù)日志、防火墻日志、Netflow日志等。安全情報(bào)及支持?jǐn)?shù)據(jù)目前還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),我們將安全情報(bào)數(shù)據(jù)歸一化為系統(tǒng)能夠識(shí)別、利用的情報(bào)數(shù)據(jù),同時(shí)通過(guò)同步云服務(wù)器或升級(jí)包的方式對(duì)情報(bào)庫(kù)進(jìn)行定期更新,將各類(lèi)情報(bào)及支持?jǐn)?shù)據(jù)存儲(chǔ)在系統(tǒng)中,供系統(tǒng)處理及分析時(shí)使用。

系統(tǒng)平臺(tái)數(shù)據(jù)采集的難點(diǎn)是網(wǎng)絡(luò)流量鏡像數(shù)據(jù)的采集和處理,由于大型企業(yè)、尤其是大型數(shù)據(jù)中心的網(wǎng)絡(luò)流量巨大、采集點(diǎn)多,因此采集探針必須具有良好的容錯(cuò)和擴(kuò)展性,并且必須具有大數(shù)據(jù)量采集的能力。系統(tǒng)對(duì)原始鏡像流量進(jìn)行預(yù)處理,使用多核并行化處理手段對(duì)大流量的網(wǎng)絡(luò)原始數(shù)據(jù)進(jìn)行解析、還原、分析等工作,然后形成統(tǒng)一的流量日志格式上傳到大數(shù)據(jù)平臺(tái)進(jìn)行保存。流量采集探針的架構(gòu)圖如下圖8所示:

圖8流量采集架構(gòu)圖

流量采集探針主要分為兩個(gè)模塊,基礎(chǔ)流量處理模塊負(fù)責(zé)對(duì)原始流量進(jìn)行預(yù)處理,包含基本的包重組和流量重組,并且能夠解析流量的傳輸層及網(wǎng)絡(luò)層信息;高層協(xié)議處理模塊又分為異常行為發(fā)現(xiàn)、協(xié)議解析和消息傳輸?shù)饶K,其中協(xié)議解析模塊負(fù)責(zé)對(duì)應(yīng)用層協(xié)議進(jìn)行深度解析,分析HTTP、DNS、SMTP等應(yīng)用層協(xié)議的信息,并提取關(guān)鍵信息輸送到消息傳輸模塊,同時(shí)對(duì)HTTP、SMTP等協(xié)議中包含的文件進(jìn)行還原,并將還原后的信息發(fā)送到大數(shù)據(jù)平臺(tái)進(jìn)行保存;異常行為發(fā)現(xiàn)模塊對(duì)流量中可能存在的蠕蟲(chóng)、端口掃描、木馬等行為進(jìn)行發(fā)現(xiàn),所有信息都通過(guò)消息傳輸模塊進(jìn)行標(biāo)準(zhǔn)化處理,然后發(fā)送到大數(shù)據(jù)平臺(tái)進(jìn)行存儲(chǔ)。

經(jīng)過(guò)不斷的測(cè)試和優(yōu)化,我們通過(guò)萬(wàn)兆網(wǎng)絡(luò)以及IPv4/IPv6網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)還原技術(shù)最終實(shí)現(xiàn)了網(wǎng)絡(luò)全流量的實(shí)時(shí)采集和處理,該技術(shù)主要采用分光器鏡像或者網(wǎng)絡(luò)端口鏡像技術(shù),將網(wǎng)絡(luò)中的流量導(dǎo)出,然后輸入到分析平臺(tái)進(jìn)行相關(guān)分析。流量還原和數(shù)據(jù)分析可以在IPv4/IPv6網(wǎng)絡(luò)環(huán)境下,對(duì)HTTP、SMTP/POP3等主流協(xié)議進(jìn)行高性能分析,并通過(guò)碎片文件偵測(cè)和P2SP重組,還原主流P2SP軟件傳輸?shù)奈募?/p>

(1)端口匹配:在網(wǎng)絡(luò)協(xié)議發(fā)展過(guò)程中,已經(jīng)形成一系列的標(biāo)準(zhǔn)協(xié)議規(guī)范,規(guī)定了不同協(xié)議使用的端口,其它一些廣泛使用的應(yīng)用程序雖然沒(méi)有標(biāo)準(zhǔn)化端口,但已經(jīng)形成了事實(shí)上的標(biāo)準(zhǔn)端口。端口匹配就是根據(jù)標(biāo)準(zhǔn)或事實(shí)標(biāo)準(zhǔn)的對(duì)應(yīng)關(guān)系,利用TCP/UDP的端口來(lái)識(shí)別行為,這種方式具備檢測(cè)效率高的優(yōu)點(diǎn),但容易被偽造,因此在端口檢測(cè)基礎(chǔ)上,需要增加特征檢測(cè)的判斷和分析來(lái)進(jìn)一步深度分析數(shù)據(jù)。

圖9流量采集分析模型

(2)流量特征檢測(cè):流量特征檢測(cè)分為兩種,一種是標(biāo)準(zhǔn)協(xié)議流量的識(shí)別,標(biāo)準(zhǔn)協(xié)議規(guī)定了特有的消息、命令和狀態(tài)遷移機(jī)制,通過(guò)分析流量數(shù)據(jù)包中應(yīng)用層的專(zhuān)有字段和狀態(tài),就可以精確可靠地識(shí)別這些流量;另一種是未公開(kāi)協(xié)議流量的識(shí)別,一般需要通過(guò)逆向工程分析協(xié)議機(jī)制,直接或解密后通過(guò)報(bào)文流的特征字段來(lái)識(shí)別該通信流量。

(3)自動(dòng)連接關(guān)聯(lián):隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,在互聯(lián)網(wǎng)上傳輸?shù)臄?shù)據(jù)越來(lái)越多,單個(gè)連接完成所有任務(wù)的模式也逐漸開(kāi)始出現(xiàn)瓶頸,因此很多協(xié)議采用動(dòng)態(tài)協(xié)商端口的方式進(jìn)行數(shù)據(jù)傳輸,為了識(shí)別這些數(shù)據(jù),需要根據(jù)控制鏈接上面的報(bào)文信息,自動(dòng)關(guān)聯(lián)到數(shù)據(jù)傳輸?shù)逆溄硬?duì)其進(jìn)行還原。

(4)行為特征分析:針對(duì)一些不便于還原的數(shù)據(jù)流量,我們采用了行為特征的方法進(jìn)行分析,也就是說(shuō)系統(tǒng)不試圖分析鏈接上的數(shù)據(jù),而使用鏈接的統(tǒng)計(jì)特征,如連接數(shù)、單個(gè)IP的連接模式、上下行流量的比例、數(shù)據(jù)包發(fā)送頻率等指標(biāo)來(lái)區(qū)分?jǐn)?shù)據(jù)流。

4.2數(shù)據(jù)預(yù)處理

由于我們的核心平臺(tái)采用了基于大數(shù)據(jù)技術(shù)的Stream框架,因此可以對(duì)各類(lèi)數(shù)據(jù)按照預(yù)定的流程進(jìn)行流式處理,以保證各種數(shù)據(jù)處理的準(zhǔn)確性。Stream框架是一個(gè)分布式的結(jié)構(gòu),支持水平擴(kuò)展,通過(guò)增加集群節(jié)點(diǎn)便可提高集群的并發(fā)處理能力。Stream框架還具有自動(dòng)容錯(cuò)機(jī)制,可自動(dòng)處理進(jìn)程、機(jī)器以及網(wǎng)絡(luò)異常,保證事件處理流程的穩(wěn)定運(yùn)行。在處理數(shù)據(jù)時(shí),數(shù)據(jù)不寫(xiě)入磁盤(pán),緩存在各個(gè)節(jié)點(diǎn)的內(nèi)存中。我們的核心能力平臺(tái)具有延遲低,實(shí)時(shí)性強(qiáng)的特點(diǎn),通過(guò)預(yù)先設(shè)定事件處理拓?fù)?,可以快速的?duì)事件處理流程進(jìn)行搭建,可根據(jù)不同的處理要求構(gòu)建相應(yīng)的事件處理拓?fù)淠P停瑵M(mǎn)足業(yè)務(wù)要求。

我們的大數(shù)據(jù)平臺(tái)采用如下圖10的事件處理拓?fù)?,?duì)日志信息以及網(wǎng)絡(luò)流數(shù)據(jù)進(jìn)行處理,該拓?fù)浣Y(jié)構(gòu)可以靈活的配置及開(kāi)發(fā)。

圖 10數(shù)據(jù)預(yù)處理拓?fù)鋱D

(1)數(shù)據(jù)歸一。在Stream流中,系統(tǒng)將各種廠商以及設(shè)備的日志信息、流量數(shù)據(jù)按照正則表達(dá)式、協(xié)議還原等方式進(jìn)行歸一化處理,統(tǒng)一轉(zhuǎn)化為系統(tǒng)平臺(tái)通用的數(shù)據(jù)對(duì)象,并將這些數(shù)據(jù)對(duì)象作為整個(gè)系統(tǒng)平臺(tái)分析、存儲(chǔ)的數(shù)據(jù)元。

(2)情報(bào)知識(shí)庫(kù)的關(guān)聯(lián)。數(shù)據(jù)元經(jīng)過(guò)情報(bào)庫(kù)與知識(shí)庫(kù)關(guān)聯(lián),并關(guān)聯(lián)到企業(yè)自己的支持信息及情報(bào)信息,為后續(xù)的檢測(cè)分析提供數(shù)據(jù)基礎(chǔ)。情報(bào)庫(kù)與知識(shí)庫(kù)均存儲(chǔ)在系統(tǒng)平臺(tái)的分布式搜索引擎中,可為系統(tǒng)平臺(tái)數(shù)據(jù)關(guān)聯(lián)提供快速的檢索功能。

(3)數(shù)據(jù)歸并。系統(tǒng)通過(guò)計(jì)算分析引擎按照預(yù)置的事件流程框架將數(shù)據(jù)進(jìn)行歸并。計(jì)算分析引擎的重點(diǎn)一方面是要以時(shí)間為紐帶分析相關(guān)事件之間復(fù)雜的關(guān)聯(lián)數(shù)據(jù)并作出相應(yīng)反應(yīng),另一方面還必須具備吞吐量高、響應(yīng)時(shí)間低以及能夠快速處理復(fù)雜邏輯的功能。計(jì)算分析引擎通過(guò)事件過(guò)濾、時(shí)間滑動(dòng)窗口聚集、事件分組窗口輸出率限制、事件內(nèi)外連接等邏輯對(duì)事件進(jìn)行分析。系統(tǒng)平臺(tái)使用計(jì)算分析引擎作為實(shí)時(shí)關(guān)聯(lián)規(guī)則引擎,作為事件處理流程中的一個(gè)Bolt節(jié)點(diǎn),所有事件處理完成后匯總進(jìn)入計(jì)算分析引擎的規(guī)則引擎入口,規(guī)則引擎結(jié)合日志數(shù)據(jù)、流量數(shù)據(jù)等數(shù)據(jù)元分析數(shù)據(jù)流中的異常,從而觸發(fā)告警。

4.3數(shù)據(jù)存儲(chǔ)與海量數(shù)據(jù)檢索

為從海量數(shù)據(jù)中有效地快速查詢(xún)所需的信息,我們采用了大數(shù)據(jù)搜索引擎Elastic Search。ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器,它提供了一個(gè)分布式多用戶(hù)能力的全文搜索引擎,是目前Java開(kāi)源社區(qū)最流行的企業(yè)搜索引擎之一,尤其適合部署在企業(yè)的云計(jì)算環(huán)境中。系統(tǒng)平臺(tái)經(jīng)過(guò)數(shù)據(jù)處理與計(jì)算層之后,將數(shù)據(jù)分別保存在分布式搜索引擎的索引文件中,分布式搜索引擎可以為各種存儲(chǔ)類(lèi)型按字段建立索引,從而提供快速的檢索功能。分布式搜索引擎中的索引字段可以按照事件分類(lèi)、事件名稱(chēng)、事件原始內(nèi)容等字段進(jìn)行分詞檢索。為了提高檢索性能,同時(shí)保證數(shù)據(jù)的可靠性,我們將索引以多個(gè)分片以及多個(gè)副本的形式存儲(chǔ)于分布式文件系統(tǒng)中,通過(guò)分布式計(jì)算和搜索技術(shù),實(shí)現(xiàn)了對(duì)近期錄入的數(shù)據(jù)可以達(dá)到近似實(shí)時(shí)的查詢(xún),對(duì)于存儲(chǔ)于分布式存儲(chǔ)中的TB級(jí)數(shù)據(jù)也能夠做到秒級(jí)查詢(xún)。

4.4檢測(cè)分析與處理

各種日志數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)經(jīng)過(guò)歸一化預(yù)處理后,存儲(chǔ)于分布式HBase和HDFS中,下一步就是要對(duì)這些大數(shù)據(jù)進(jìn)行深度挖掘和關(guān)聯(lián)分析,主動(dòng)發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和威脅,防患于未然。

(1)惡意代碼智能檢測(cè)技術(shù)

為了檢測(cè)惡意代碼,我們構(gòu)建了一個(gè)人工智能引擎,該引擎能夠根據(jù)已知的正常軟件和惡意軟件的大量樣本,通過(guò)數(shù)據(jù)挖掘找出兩類(lèi)軟件最具區(qū)分度的特征,然后建立機(jī)器學(xué)習(xí)模型,使用機(jī)器學(xué)習(xí)算法,得到惡意軟件的識(shí)別模型(如圖11),最后通過(guò)模型對(duì)未知程序進(jìn)行分析判斷,計(jì)算軟件的惡意概率,從而在可控的誤報(bào)率之下盡可能多的發(fā)現(xiàn)惡意程序。

其中,惡意代碼機(jī)器學(xué)習(xí)算法是人工智能引擎的核心模塊,其模型如圖12所示,海量可執(zhí)行程序文件(包括惡意程序和非惡意程序)作為PE文件輸入引擎,引擎根據(jù)行為類(lèi)特征的不同,包含了k個(gè)決策機(jī),以及對(duì)應(yīng)k個(gè)決策機(jī)的k個(gè)訓(xùn)練模型;引擎分析可執(zhí)行程序文件后,抽取相應(yīng)的類(lèi)行為特征,將所抽取的類(lèi)行為特征放入一個(gè)相應(yīng)的特征向量之內(nèi),根據(jù)已經(jīng)抽取到的特征,進(jìn)行特征分類(lèi);最后根據(jù)分類(lèi)的結(jié)果,將不同類(lèi)別程序文件的特征向量和黑白屬性使用不同的決策機(jī)進(jìn)行訓(xùn)練,得到相應(yīng)的訓(xùn)練模型。

圖11惡意代碼智能檢測(cè)模型圖

(2)廣譜反病毒查殺技術(shù)

我們?cè)趥鹘y(tǒng)的Windows可執(zhí)行文件反病毒特征碼查殺技術(shù)的基礎(chǔ)上,優(yōu)化了改進(jìn)型特征碼查殺技術(shù)。近年來(lái),變形病毒和感染型病毒越來(lái)越多,而且越來(lái)越復(fù)雜、偽裝越來(lái)越隱蔽。在定位病毒特征碼方面,采用傳統(tǒng)的基于“文件偏移”、“入口偏移”、“節(jié)偏移”的特征引擎已經(jīng)很難發(fā)現(xiàn)病毒,因此,必須研究采用“輸出函數(shù)偏移”、“資源偏移”、“導(dǎo)入函數(shù)調(diào)用偏移”等多種定位方法,才能夠在多個(gè)層次對(duì)目標(biāo)文件進(jìn)行定位;同時(shí),合理利用“普通匹配”和“模糊匹配”方法,在不影響效率的情況下,提高病毒特征碼匹配的能力與速度。另一方面,為了提高查殺的準(zhǔn)確性,還引入了“導(dǎo)入函數(shù)匹配”、“指令分析匹配”、“資源匹配”等多種基于樣本解析的抽象匹配方法。

(3)機(jī)器學(xué)習(xí)、重沙箱技術(shù)

系統(tǒng)具有數(shù)據(jù)的采集和處理能力后,還需要依賴(lài)機(jī)器學(xué)習(xí)、重沙箱和關(guān)聯(lián)分析等技術(shù)對(duì)大量數(shù)據(jù)進(jìn)行篩選,提取重要信息輸送到人工運(yùn)營(yíng)團(tuán)隊(duì)進(jìn)行分析。其中,機(jī)器學(xué)習(xí)部分我們采用了Euler平臺(tái),基于Euler平臺(tái)提供的各種算法,可以對(duì)DNS、文件等信息進(jìn)行聚類(lèi)和相似度分析,以便從海量的低價(jià)值信息中篩選出可能和已知的攻擊行為或攻擊特征相關(guān)的新生威脅。另一方面,通過(guò)可視化關(guān)聯(lián)分析平臺(tái),可以將任意兩個(gè)互聯(lián)網(wǎng)信息間的關(guān)聯(lián)性直觀的展現(xiàn)出來(lái),比如兩個(gè)毫不相干的域名可能擁有相同的注冊(cè)人,為安全運(yùn)營(yíng)團(tuán)隊(duì)進(jìn)一步分析攻擊行為和攻擊背景提供有效的工具。而重沙箱則從文件角度將大量惡意文件或未知文件的網(wǎng)絡(luò)行為和進(jìn)程行為輸出到機(jī)器學(xué)習(xí)平臺(tái)和人工運(yùn)營(yíng)團(tuán)隊(duì),既為分析提供數(shù)據(jù)支撐,也直接輸出部分攻擊線(xiàn)索。

(4)自動(dòng)化數(shù)據(jù)處理技術(shù)

態(tài)勢(shì)感知系統(tǒng)作為智能化的工具平臺(tái),最終還是要靠人來(lái)運(yùn)用,為了盡可能地為專(zhuān)業(yè)人員提供可靠、可信、綜合的數(shù)據(jù),我們構(gòu)建了一個(gè)基于人工智能自學(xué)習(xí)的自動(dòng)化數(shù)據(jù)處理平臺(tái),通過(guò)該平臺(tái)可以將系統(tǒng)中大數(shù)據(jù)分析出的未知威脅通過(guò)專(zhuān)業(yè)人員進(jìn)行人工干預(yù),做到精細(xì)分析,確認(rèn)攻擊手段、攻擊對(duì)象以及攻擊目的,通過(guò)人工智能結(jié)合大數(shù)據(jù)知識(shí)以及攻擊者的多個(gè)維度特征還原出攻擊者的全貌,包括程序形態(tài)、不同編碼風(fēng)格和不同攻擊原理的同源木馬程序、惡意服務(wù)器等,通過(guò)全貌特征“跟蹤”攻擊者,持續(xù)的發(fā)現(xiàn)未知威脅,最終確保發(fā)現(xiàn)未知威脅的準(zhǔn)確性,生成可供本地分析平臺(tái)使用的威脅情報(bào)。

5 總結(jié)

企業(yè)面臨的安全威脅數(shù)量呈高速增長(zhǎng)趨勢(shì),同時(shí)安全威脅技術(shù)也呈現(xiàn)多樣化和高水平化發(fā)展,企業(yè)必須采用更有效的手段和措施將這些威脅完整并全面的展現(xiàn)出來(lái),為管理層和技術(shù)人員后續(xù)處置和溯源提供技術(shù)支撐。本文闡述了一種基于大數(shù)據(jù)存儲(chǔ)分析以及人工智能技術(shù)的態(tài)勢(shì)感知系統(tǒng)的設(shè)計(jì)思路,采用大數(shù)據(jù)存儲(chǔ)技術(shù)、威脅情報(bào)技術(shù)、機(jī)器學(xué)習(xí)算法、關(guān)聯(lián)分析技術(shù)等,全面的發(fā)現(xiàn)和展現(xiàn)企業(yè)信息系統(tǒng)所面臨的安全威脅,并對(duì)威脅進(jìn)行風(fēng)險(xiǎn)評(píng)估,全面評(píng)估信息系統(tǒng)安全風(fēng)險(xiǎn)狀態(tài)。企業(yè)可以參考本文完成系統(tǒng)的研發(fā)和部署,全面提升企業(yè)的威脅發(fā)現(xiàn)和感知能力。

[1]陶翔.大數(shù)據(jù)技術(shù)的發(fā)展歷程及其演化趨勢(shì)[N].科技日?qǐng)?bào),2014.

[2]席榮榮,云曉春,金舒原,張永錚.網(wǎng)絡(luò)安全態(tài)勢(shì)感知研究綜述[J].計(jì)算機(jī)應(yīng)用,2012.

[3]劉鵬,孟炎,吳艷艷.大規(guī)模網(wǎng)絡(luò)安全態(tài)勢(shì)感知及預(yù)測(cè)[J].計(jì)算機(jī)安全,2013.

猜你喜歡
日志威脅信息安全
一名老黨員的工作日志
扶貧日志
人類(lèi)的威脅
信息安全專(zhuān)業(yè)人才培養(yǎng)探索與實(shí)踐
雅皮的心情日志
受到威脅的生命
保護(hù)信息安全要滴水不漏
高校信息安全防護(hù)
游學(xué)日志
搞笑圖片