張小林 羅漢云 董甲東
摘 要:闡述網(wǎng)絡(luò)安全態(tài)勢感知研究.通過數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則apriori對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過源IP地址和目的IP地址關(guān)聯(lián)來自不同設(shè)備的攻擊類型、時間、端口,通過底層的網(wǎng)絡(luò)設(shè)備采集的數(shù)據(jù)流提供的流量異常信息,發(fā)現(xiàn)網(wǎng)絡(luò)安全威脅,給管理者提供更全面的參考.
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;安全威脅評估;態(tài)勢感知
[中圖分類號]TP393.09 ? [文獻(xiàn)標(biāo)志碼]A
Abstract:Expounds the research of network security situation awareness.The association rules Apriori in data mining technology is used to analyze the association of data;the source IP address and destination IP address are used to associate attack types,time and ports from different devices;the traffic anomaly information collected by the underlying network devices is used to discover the network security threats and provide a more comprehensive reference for managers.
Key words:association rules;security threat assessment;Situational awareness
互聯(lián)網(wǎng)的快速發(fā)展,帶動了智能終端的普及推廣,促進(jìn)了信息系統(tǒng)和APP的大規(guī)模興起.伴隨著這些應(yīng)用的爆炸式增長,帶來了很大的安全漏洞隱患.2017年國家出臺了《中華人民共和國網(wǎng)絡(luò)安全法》,將信息系統(tǒng)落實網(wǎng)絡(luò)安全等級保護(hù)寫進(jìn)法律.2019年12月1日,新一版的網(wǎng)絡(luò)安全等級保護(hù)2.0標(biāo)準(zhǔn)正式實施.信息系統(tǒng)安全風(fēng)險[1]由資產(chǎn)、威脅、脆弱性三要素共同決定,在風(fēng)險評估中需要先對三個要素分別進(jìn)行準(zhǔn)確評價,進(jìn)而在此基礎(chǔ)上進(jìn)行安全風(fēng)險綜合評估.對網(wǎng)絡(luò)安全風(fēng)險[2]進(jìn)行識別、分析和評估的目的是幫助管理者更好地選擇合適的安全策略,做好網(wǎng)絡(luò)安全的防御決策.
態(tài)勢感知( Situation Awareness,SA) 是指“在一定的時空范圍內(nèi),認(rèn)知、理解環(huán)境因素,并且對未來的發(fā)展趨勢進(jìn)行預(yù)測”.最初這個概念并沒有引入到網(wǎng)絡(luò)安全的領(lǐng)域中,1999年,Bass認(rèn)為“下一代網(wǎng)絡(luò)入侵檢測系統(tǒng)應(yīng)該融合從大量的異構(gòu)分布式網(wǎng)絡(luò)傳感器采集的數(shù)據(jù),實現(xiàn)網(wǎng)絡(luò)空間的態(tài)勢感知(cyberspace situational awareness).” 他基于數(shù)據(jù)融合的JDL(Joint Directors of Labo ratories)模型,提出了基于多傳感器數(shù)據(jù)融合的網(wǎng)絡(luò)態(tài)勢感知功能模型.Endsley和Bass為網(wǎng)絡(luò)安全態(tài)勢感知的研究奠定了基礎(chǔ),很多專家學(xué)者也基于Endsley態(tài)勢感知的概念模型和Bass的功能模型提出了十幾種網(wǎng)絡(luò)安全態(tài)勢感知的模型.雖然各個模型組成的名稱不一樣,但是實現(xiàn)的功能基本相同.在這些模型當(dāng)中,主要數(shù)據(jù)都是來自網(wǎng)絡(luò)傳感器、網(wǎng)絡(luò)流量、網(wǎng)絡(luò)安全設(shè)備的相關(guān)日志、嗅探器所采集的數(shù)據(jù)等.根據(jù)提取數(shù)據(jù)的角度不同,觀測點不一樣,在網(wǎng)絡(luò)安全態(tài)勢感知概念里也有不同的類型,如Jajodia和Wang采集網(wǎng)絡(luò)的脆弱性信息來評估網(wǎng)絡(luò)的脆弱性態(tài)勢.Ning采集網(wǎng)絡(luò)的警報信息來評估網(wǎng)絡(luò)的威脅性態(tài)勢. Barford和Dacier利用honeynet采集的數(shù)據(jù)信息來評估網(wǎng)絡(luò)的攻擊態(tài)勢.
通過收集網(wǎng)絡(luò)中產(chǎn)生的實時數(shù)據(jù)格式不一,需要對其進(jìn)行數(shù)據(jù)處理,最終通過可視化展現(xiàn)出來歷史信息的安全態(tài)勢感知,具有一定的對未來一段時間內(nèi)網(wǎng)絡(luò)安全趨勢的預(yù)測.在一個網(wǎng)絡(luò)中,能夠產(chǎn)生數(shù)據(jù)的設(shè)備、軟件很多,它們的型號可能不同,實現(xiàn)的技術(shù)也不一樣,主要體現(xiàn)在網(wǎng)絡(luò)設(shè)備、各個應(yīng)用管理系統(tǒng)、安全管理設(shè)備、網(wǎng)絡(luò)運行管理平臺等,這些系統(tǒng)所產(chǎn)生的運行監(jiān)測數(shù)據(jù)和系統(tǒng)的各種日志數(shù)據(jù)格式不一,且源源不斷生產(chǎn)的數(shù)據(jù),可以通過流式數(shù)據(jù)處理方式來對它們進(jìn)行融合處理.筆者采用以安全威脅為中心的模式進(jìn)行評估,聚焦于收集、檢測以及分析,形成一個循環(huán)的閉環(huán).在數(shù)據(jù)收集階段,按照應(yīng)用收集框架(ACF)思路進(jìn)行,以提高收集數(shù)據(jù)源的效率,確定重要的數(shù)據(jù)源,對海量日志進(jìn)行預(yù)處理,通過關(guān)聯(lián)規(guī)則進(jìn)行深層關(guān)聯(lián)分析,實現(xiàn)對網(wǎng)絡(luò)安全態(tài)勢的感知預(yù)警.
1 關(guān)聯(lián)規(guī)則及算法
關(guān)聯(lián)規(guī)則[3]就是找出頻繁項集,通過在大量數(shù)據(jù)中找出符合閾值的某類算法——尋找K-項集.關(guān)聯(lián)規(guī)則算法中有代表性的經(jīng)典算法是ARGen算法和Apriori算法,大部分算法都是基于這兩種經(jīng)典算法進(jìn)行改進(jìn)的.[4]本文采用Apriori算法改進(jìn)的基于矩陣的關(guān)聯(lián)算法,通過在壓縮事務(wù)數(shù)據(jù)庫采取策略時,盡量刪除那些不可能得到頻繁項集的項目[5],盡量減少事務(wù)數(shù)據(jù)庫記錄數(shù)量,盡量減少對數(shù)據(jù)庫的讀寫操作.
ARGen算法 ARGen算法由Agrawal和Ramakrishman提出的,過程如下:
R=Φ;//R為關(guān)聯(lián)規(guī)則集合
For each P∈Ldo
For each XP such that XΦ
Ifsupport(p)support(x)≥а then
R=R∪{X(P-X)};
Apriori算法 Apriori算法在關(guān)聯(lián)規(guī)則算法分析中具有相當(dāng)重要的地位,其中含有priori是因為算法使用了頻繁項集性質(zhì)的先驗(priori)知識.[5]
2 數(shù)據(jù)收集、范化、聚合
海量異構(gòu)數(shù)據(jù)處理過程中,數(shù)據(jù)融合是一個多級、多層面的數(shù)據(jù)處理過程,涉及到數(shù)據(jù)的提取、理解、分析等.基于邏輯關(guān)系的數(shù)據(jù)融合根據(jù)信息內(nèi)在的邏輯關(guān)系進(jìn)行的融合,采取的融合方法是警報關(guān)聯(lián)[6],能快速直觀的在海量數(shù)據(jù)信息之中分析出網(wǎng)絡(luò)的安全態(tài)勢.
2.1 環(huán)境搭建
網(wǎng)絡(luò)中產(chǎn)生的海量異構(gòu)數(shù)據(jù)的數(shù)據(jù)量增長很快,可利用Hadoop框架下的分布式文件系統(tǒng)HDFS和分布式計算MapReduce對海量數(shù)據(jù)進(jìn)行運算.HDFS文件系統(tǒng)是一個主/從(master/slave)體系結(jié)構(gòu),HDFS集群擁有一個NameNode和一些DataNodes節(jié)點,通過NameNode管理文件系統(tǒng)的元數(shù)據(jù),DataNode存儲實際的數(shù)據(jù),在配置集群服務(wù)器時,各個服務(wù)器間要配置集群之間ssh的免密登錄.MapReduce是一種計算模型,可將大批量工作(數(shù)據(jù))分解(MAP)執(zhí)行,然后再將結(jié)果合并成最終結(jié)果(REDUCE).通過各個節(jié)點分布式計算,在任務(wù)被分解后,通過大量機器進(jìn)行并行計算,減少整個操作的時間.
Hive是Hadoop大數(shù)據(jù)生態(tài)圈中的數(shù)據(jù)倉庫,以表格的形式組織和管理,以類SQL的方式處理數(shù)據(jù)倉庫中表格里的數(shù)據(jù),不需要開發(fā)專門的MapReduce應(yīng)用,用類SQL語句方式存放在HDFS上的大規(guī)模數(shù)據(jù)集.Hive實際上相當(dāng)于一個MapReduce和HDFS的翻譯終端,當(dāng)用戶向Hive提交其編寫的HiveQL后,Hive運行時環(huán)境會將這些腳本翻譯成MapReduce和HDFS操作并向集群提交這些操作,Hadoop集群逐步執(zhí)行這些MapReduce和HDFS操作.
2.2 日志源收集
在核心網(wǎng)絡(luò)配置中,根據(jù)等級保護(hù)建設(shè)的要求,一般需要部署一些網(wǎng)絡(luò)安全設(shè)備,如安全入侵檢測(IDS)、網(wǎng)絡(luò)安全入侵防護(hù)(IPS)、防火墻、堡壘機、數(shù)據(jù)庫審計、漏洞掃描、web應(yīng)用防火墻(WAF)等設(shè)備,需要采集這些設(shè)備的運行日志、攻擊防護(hù)日志、訪問日志、入侵日志以及主機的審計日志.網(wǎng)絡(luò)設(shè)備數(shù)據(jù)流的采集采用NetFlow v5格式,利用SILK收集和分析數(shù)據(jù)流,對需要的的日志、數(shù)據(jù)進(jìn)行收集、預(yù)處理和模式分析.
入侵防御設(shè)備(IPS)的主要工作在Layer 2至Layer 7層,對進(jìn)來的數(shù)據(jù)包進(jìn)行檢測,確定這種數(shù)據(jù)包的真正用途.如果檢測到攻擊,IPS會根據(jù)設(shè)置好的防護(hù)策略進(jìn)行阻斷或重置連接,在這種攻擊擴散到網(wǎng)絡(luò)的其他地方之前阻止這個惡意連接.IPS一般都是嵌入部署,部署在出口火墻之后.IPS的日志主要有:威脅日志、設(shè)備系統(tǒng)日志、會話日志、NAT轉(zhuǎn)換日志.IPS主要通過過濾器來防御威脅,對過濾器設(shè)置過濾規(guī)則,僅僅依靠自身的威脅日志很難做到精準(zhǔn)防護(hù),更多的時候需要和其他日志進(jìn)行同步分析,盡量減少誤報率.系統(tǒng)設(shè)備日志主要記錄系統(tǒng)內(nèi)部的日志以及管理員登錄維護(hù)日志.威脅日志格式如表1所示.
2.3 日志預(yù)處理及分析
Web應(yīng)用防火墻主要部署在網(wǎng)站平臺前端,一般是串聯(lián)部署.web防火墻結(jié)合IPS、防火墻、漏洞掃描等安全系統(tǒng)提供的日志,為web防火墻的設(shè)置提供安全策略,對IPS的安全設(shè)置提供防護(hù)策略.Web防火墻主要日志有:web安全日志、web防篡改日志、網(wǎng)絡(luò)層訪問控制日志、DDOS防護(hù)日志(和IPS具有同樣的功能)等.web防火墻和IPS、IDS等更多是進(jìn)行安全策略方面的設(shè)置,借助系統(tǒng)提供的不同等級的模板策略快速實施.想真正融合到網(wǎng)絡(luò)里,還需要針對每個特例進(jìn)行設(shè)置,減少誤報.
在數(shù)據(jù)預(yù)處理階段,分析設(shè)備的功能及日志主要采集的內(nèi)容,便于后期的事務(wù)識別,如表2所示.
對海量異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,是為后面進(jìn)行入侵檢測分析和態(tài)勢感知提供數(shù)據(jù)源,它的質(zhì)量高低對整個過程影響很大,數(shù)據(jù)源處理效率的高低也是一個重要的環(huán)節(jié).根據(jù)關(guān)聯(lián)規(guī)則分析需要的特定的數(shù)據(jù)格式定義好需要的范式,在數(shù)據(jù)預(yù)處理階段進(jìn)行轉(zhuǎn)換.[7]
在事務(wù)識別和聚合以及在后面的分析過程中,都是以目的IP地址為主要特征進(jìn)行數(shù)據(jù)挖掘.IPS日志主要記錄所有的入侵信息,關(guān)鍵的字段為源和目的IP地址、協(xié)議、時間、攻擊類型等.WAF日志主要記錄對網(wǎng)站的攻擊記錄,關(guān)鍵字段為源和目的IP地址、端口、協(xié)議、時間、攻擊類型等.這兩個日志有很多重疊的部分,但是各自的側(cè)重點不一樣,IPS更多的是IP和端口的安全,有來自外部的攻擊記錄,也有從內(nèi)部攻擊外部的記錄.WAF則是對網(wǎng)站攻擊的具體事件類型的記錄,再結(jié)合漏洞掃描的日志信息、防火墻的日志,可以更精確的判斷那些是威脅的IP及威脅的事件類型是什么,哪些方面需要增加安全策略,哪個時間段易受攻擊等.
3 結(jié)束語
海量異構(gòu)數(shù)據(jù)預(yù)處理,采用Hadoop框架下的HDFS系統(tǒng)和MapReduce對收集的數(shù)據(jù)進(jìn)行分布式存儲和分布式計算可提高效率.采用Hadoop生態(tài)圈中的Hive數(shù)據(jù)倉庫進(jìn)行存儲管理查詢,將以前一個一個孤立的安全設(shè)備、安全策略、安全事件,形成一張龐大的有關(guān)聯(lián)的數(shù)據(jù)網(wǎng).通過數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則Apriori對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過源IP地址和目的IP地址,關(guān)聯(lián)來自不同設(shè)備的攻擊類型、時間、端口,通過底層網(wǎng)絡(luò)設(shè)備采集的數(shù)據(jù)流,提供流量異常信息,發(fā)現(xiàn)網(wǎng)絡(luò)的安全威脅,給管理者提供更全面的設(shè)置安全策略,完善網(wǎng)絡(luò)安全保障工作.
參考文獻(xiàn)
[1]王晉東,張恒巍,王娜,等.信息系統(tǒng)安全風(fēng)險評估與防御決策[M].北京:國防工業(yè)出版社,2017.1.
[2]Chris Sanders,Jason Smith.網(wǎng)絡(luò)安全監(jiān)控[M].北京:機械工業(yè)出版社,2016.11.
[3]陳鳳娟.不確定數(shù)據(jù)中的頻繁閉項集挖掘[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2016(3):22-25.
[4]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.3.
[5]張小林.基于矩陣的Apriori改進(jìn)算法與實現(xiàn)[J].長春師范學(xué)院學(xué)報:自然科學(xué)版,2013,3(6):17-21.
[6]單宇鋒.網(wǎng)絡(luò)安全態(tài)勢感知系統(tǒng)的關(guān)鍵技術(shù)研究與實現(xiàn)[D].北京:北京郵電大學(xué),2012.
[7]賈小貝,方歡.基于時延Petri網(wǎng)的網(wǎng)絡(luò)日志行為相似性分析[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2017(4):6-10.
編輯:琳莉