国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于局部異常檢測的告警誤報緩解*

2021-10-03 04:13:14范曉波胥小波
通信技術(shù) 2021年9期
關(guān)鍵詞:誤報日志局部

袁 齊,范曉波,胥小波

(中國電子科技網(wǎng)絡(luò)信息安全有限公司,四川 成都 610041)

0 引言

隨著網(wǎng)絡(luò)應(yīng)用和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,計算機網(wǎng)絡(luò)在提供生活便利的同時,也產(chǎn)生了大量的安全漏洞?;ヂ?lián)網(wǎng)上充斥著各式各樣的網(wǎng)絡(luò)攻擊,很多擁有大量網(wǎng)絡(luò)資產(chǎn)的大中型企業(yè),往往成為黑客的首要攻擊目標(biāo),因此企業(yè)往往會部署多種安全設(shè)備。在這種背景下,企業(yè)內(nèi)部的多種安全防護設(shè)備每天會產(chǎn)生大量的安全告警,一個中等的企業(yè)每天的安全日志告警數(shù)量通常在百萬級別[1],企業(yè)安全運營人員難以對這些安全告警逐一分析調(diào)查,也無法定位出真正高威脅的告警。因此,安全運營人員疲于處理大量安全誤報,而真實的惡意攻擊行為被淹沒在警報中沒有得到及時處理。

告警誤報緩解[2]旨在去除大量的誤報,從而使得安全運營人員集中精力分析真正的高危告警。告警誤報緩解是異源多構(gòu)網(wǎng)絡(luò)空間知識高質(zhì)量轉(zhuǎn)化的需要,海量網(wǎng)絡(luò)空間信息的正確決策對智能化程度有更高的要求。網(wǎng)絡(luò)空間行為是由信息主導(dǎo)的,但制約正確決策的并非是信息本身,而是從海量數(shù)據(jù)中提取重要信息的能力。告警誤報緩解是網(wǎng)絡(luò)態(tài)勢理解的前提,只有進行過整理、解釋、選擇后生成的知識層面的網(wǎng)絡(luò)空間信息才能有效用于態(tài)勢理解。一方面,應(yīng)著重關(guān)注網(wǎng)絡(luò)空間信息大數(shù)據(jù)挖掘的研究,從而加強對網(wǎng)絡(luò)空間態(tài)勢的抽象理解,如網(wǎng)絡(luò)空間態(tài)勢的感知判斷,信息內(nèi)部因果關(guān)系的理解,網(wǎng)絡(luò)空間知識的搜索、判斷、歸類和度量,對不同格式數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)的自動分析等;另一方面,應(yīng)當(dāng)對專家知識等已有的成果和結(jié)論加以高效利用,比如可以組織經(jīng)驗豐富的網(wǎng)絡(luò)安全專家為生成的樣本集添加標(biāo)簽,形成數(shù)據(jù)資產(chǎn),以提高網(wǎng)絡(luò)空間信息處理能力。

一般來說,傳統(tǒng)的告警緩解方法大都基于規(guī)則[3]采用前件與后件的工作方式,當(dāng)告警滿足前件時則忽略該告警或者將該告警置于優(yōu)先級較低的隊列。近年來,由于規(guī)則方法的局限性,很多工作探索數(shù)據(jù)驅(qū)動的方法進行告警緩解,如將告警看作是一種特殊的“語言”采用遞歸神經(jīng)網(wǎng)絡(luò)進行分析[4],或是基于生成對抗網(wǎng)絡(luò)的進行系統(tǒng)日志級檢測[5]等。而在文獻[6]中,作者利用先驗知識采用聚類的方法進行告警關(guān)聯(lián)驗證。

本文提出一種新的基于局部異常檢測的告警誤報緩解方法對攻擊網(wǎng)際互連協(xié)議地址(Internet Protocol,IP)進行畫像,該方法蘊含的1 個基本前提是絕大部分告警都是使用自動化工具發(fā)起的嘗試性攻擊,真正高威脅的攻擊相對是比較少的。那么,從攻擊階段、攻擊頻次、攻擊者地域特征等維度去刻畫,真實高威脅的攻擊會偏離正常范圍。

1 模型和框架

網(wǎng)絡(luò)安全監(jiān)控已經(jīng)逐步走向成熟,目前很多工具旨在監(jiān)控并發(fā)現(xiàn)針對自身網(wǎng)絡(luò)里的攻擊行為,如防火墻、入侵檢測系統(tǒng)(Intrusion Detection System,IDS)[7]、入侵防御系統(tǒng)(Intrusion Prevention System,IPS)[8]、主機監(jiān)控設(shè)備等,以全局、“自上而下”的方式監(jiān)控每個服務(wù)和設(shè)備。每個監(jiān)控設(shè)備都會產(chǎn)生大量的日志,安全信息和事件管理中心(Security Information and Event Management,SIEM)[9]對所有的安全日志進行歸一化處理和保存,以便對企業(yè)的安全狀態(tài)有一個全面地認(rèn)識,典型的SIEM 中告警日志處理流程如圖1 所示。

圖1 SIEM 中日志處理流程

通常來說,一方面,監(jiān)測設(shè)備為了不遺漏攻擊事件,發(fā)現(xiàn)任意攻擊特征就上報事件,這種攻擊特征檢測是非常寬松的;而另一方面,糟糕的開發(fā)者通常對用戶的輸入不進行過濾、轉(zhuǎn)義等處理,兩者相互配合造成大量誤報,開發(fā)者編碼不規(guī)范,導(dǎo)致這種誤報更加泛濫,從而掩蓋真實攻擊。

本文提出的基于異常檢測的告警誤報緩解系統(tǒng)如圖2 所示。圖中特征層基于數(shù)據(jù)拉取模塊拉取的數(shù)據(jù),定期通過特征工程計算源攻擊IP 最近一段時間的統(tǒng)計特征,在特征空間中刻畫源IP 的行為特征,并將特征數(shù)據(jù)存入數(shù)據(jù)庫中。在訓(xùn)練階段,對于某個攻擊IP 來說,獲取其前一段時間的特征數(shù)據(jù)用于訓(xùn)練異常檢測模型,模型評估與驗證模塊對訓(xùn)練的模型進行交叉驗證,若通過驗證則保存模型。檢測階段則用保存的模型對當(dāng)前的告警日志進行實時檢測,輸出真實、高危的告警。告警誤報緩解可以去除大量的誤報,從而使得安全運營人員集中精力分析真正的高危告警。值得注意的是,由于數(shù)據(jù)漂移等問題存在,在經(jīng)過一段時間后,模型可能并不適用當(dāng)前數(shù)據(jù)分布情況,因而模型需要定期進行更新。

圖2 基于異常檢測的告警誤報緩解流程

2 局部異常檢測

2.1 特征工程

對于機器學(xué)習(xí)模型來說,數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限。本文異常檢測的特征主要分為基本屬性特征和統(tǒng)計特征兩大類。不管是統(tǒng)計特征還是屬性特征,都需要將原始日志如事件類型、執(zhí)行的動作、設(shè)備源等通過配置文件中的特征字典映射為對應(yīng)的數(shù)值編碼,并通過數(shù)值編碼來表示嚴(yán)重等級或者可信程度。屬性特征用0-1 就可以進行編碼,表明攻擊者是否具備某個屬性,如是否命中威脅情報字段,可以用1 表示命中,而0 表示未命中。模型主要的屬性特征如圖3 所示。

圖3 屬性特征及說明

針對告警階段等強相關(guān)數(shù)值特征,則采用統(tǒng)計特征分別從總量特性sum、最大值特性max、唯一值特性unique 3 個維度進行刻畫。如圖4 所示,其中攻擊階段是指告警事件在網(wǎng)絡(luò)攻擊生命周期殺傷鏈(kill-chain)7 個階段中所處的位置。殺傷鏈7個階段用來拆分惡意軟件的每個攻擊階段,包括偵查跟蹤、武器構(gòu)建、載荷投遞、漏洞利用、安裝植入、命令與控制、目標(biāo)達成等。

圖4 統(tǒng)計特征及說明

屬性特征和統(tǒng)計特征的具體說明如下文所述。

(1)屬性特征說明:例如源IP 是國內(nèi)或國外、是否命中威脅情報、源IP 和目的IP 的內(nèi)外網(wǎng)類型。

(2)統(tǒng)計特征說明:通過主鍵(源IP 和資產(chǎn)標(biāo)識兩個字段)進行聚合之后對每個原始日志字段進行對應(yīng)的聚合函數(shù)(主要是求和函數(shù)sum、最大值函數(shù)max、唯一值函數(shù)unique)得到對應(yīng)的特征字段。

2.2 異常檢測算法

真實的攻擊日志通常和實際監(jiān)控網(wǎng)絡(luò)環(huán)境(拓?fù)?、業(yè)務(wù)、資產(chǎn)、漏洞等)息息相關(guān)。通過將上述系統(tǒng)部署到真實的線上環(huán)境中,抽取高維特征數(shù)據(jù)進行可視化分析,告警日志通常會形成相關(guān)簇。例如,對于提供公網(wǎng)服務(wù)的企業(yè)來說,在外網(wǎng)中部署的設(shè)備較多,使得產(chǎn)生的告警日志中外網(wǎng)占了大部分,內(nèi)網(wǎng)少部分;相反,對于內(nèi)網(wǎng)業(yè)務(wù)系統(tǒng)較多的企業(yè)來講,內(nèi)網(wǎng)中部署的設(shè)備較多,使得產(chǎn)生的告警日志中內(nèi)網(wǎng)占了大部分,外網(wǎng)少部分。此外,內(nèi)網(wǎng)和外網(wǎng)的安全設(shè)備類型也不一致,產(chǎn)生的告警類型也不同。因此,內(nèi)網(wǎng)和外網(wǎng)產(chǎn)生的告警數(shù)量以及類型不同,其通過特征工程后形成了兩種相對獨立的分布。如果選擇孤立森林(Isolation Forest,iForest)[10]或者直方圖異常(Histogram-based Outlier Score,HbOS)[11]這種全局的異常檢測算法,在進行檢測的時候會將少量的簇判定為異常,從而造成誤判。

不同的攻擊方向關(guān)注的告警類型也不一樣,在3 種攻擊方向外網(wǎng)到內(nèi)網(wǎng)、內(nèi)網(wǎng)到內(nèi)網(wǎng)、內(nèi)網(wǎng)到外網(wǎng)中,其特征顯然是不一樣的。如從外到內(nèi)更多關(guān)注的是掃描、漏洞攻擊、挑戰(zhàn)黑洞(Challenge Collapsar,CC)攻擊、暴力破解等,內(nèi)網(wǎng)之間則更關(guān)注橫向滲透、內(nèi)網(wǎng)服務(wù)、蠕蟲傳播等[12]。

本文在異常檢測中采用局部異常因子算法(Local Outlier Factor,LOF)[13-15]。LOF 局部異常檢測依賴每個點p和鄰域點的密度來判斷該點是否為異常,點p的密度越低,越有可能是異常點。而點的密度是通過點之間的距離來計算的,也就是說,LOF 算法中點的密度是通過點的k鄰域計算得到的,而不是通過全局計算得到。LOF 的計算依賴如下幾個定義。

(1)k-鄰近距離。在距離數(shù)據(jù)點p最近的幾個點中,第k個最近的點跟點p之間的距離稱為點p的k-鄰近距離,記為k_distance(p)。

(2)可達距離??蛇_距離的定義跟k-鄰近距離是相關(guān)的,給定參數(shù)k時,數(shù)據(jù)點p到數(shù)據(jù)點o的可達距離reach_dist(p,o)為數(shù)據(jù)點o的k-鄰近距離和數(shù)據(jù)點p與點o之間的直接距離的最大值,計算方式為:

數(shù)據(jù)點p的局部可達密度(local reachability density,lrd)的定義是基于可達距離的,為它與鄰近的數(shù)據(jù)點的平均可達距離的倒數(shù),具體為:

式中:Nk(p)是那些跟點p的距離小于等于k-distance(p)的數(shù)據(jù)點集合。

(3)局部異常因子。根據(jù)局部可達密度的定義,如果一個數(shù)據(jù)點跟其他點比較疏遠的話,那么顯然它的局部可達密度就小。但LOF 算法衡量一個數(shù)據(jù)點的異常程度,并不是看它的絕對局部密度,而是看它跟周圍鄰近的數(shù)據(jù)點的相對密度。局部異常因子即是用局部相對密度來定義的。數(shù)據(jù)點p的局部相對密度(局部異常因子)為點p的鄰居們的平均局部可達密度跟數(shù)據(jù)點p的局部可達密度的比值,計算方法為:

根據(jù)局部異常因子的定義,如果數(shù)據(jù)點p的LOF 得分在1 附近,表明數(shù)據(jù)點p的局部密度跟它的鄰居們差不多;如果數(shù)據(jù)點p的LOF 得分小于1,表明數(shù)據(jù)點p處在一個相對密集的區(qū)域;如果數(shù)據(jù)點p的LOF 得分遠大于1,表明數(shù)據(jù)點p跟其他點比較疏遠,很有可能是一個異常點,從而實現(xiàn)異常檢測。

3 實驗結(jié)果與分析

本文系統(tǒng)在公安部組織的2021 年針對國內(nèi)基礎(chǔ)設(shè)施系統(tǒng)的大型攻防演練中進行實驗。攻防演練持續(xù)14 天,采集了流量側(cè)日志(綠盟綜合威脅探針uts、天眼分析平臺)、防火墻日志和終端告警日志,日志分布情況如圖5 所示,從圖中可以看出大部分日志為流量側(cè)日志。

圖5 日志分布情況

在攻防演練中的每一天,都統(tǒng)計上報被封的IP數(shù)目、算法檢測IP 數(shù)目及算法檢測的真實攻擊IP數(shù)目,記錄結(jié)果如表1 表2 所示。

表1 第1 周IP 數(shù)統(tǒng)計

表2 第2 周IP 數(shù)統(tǒng)計

值得注意的是,表中僅包含安全分析人員通過分析網(wǎng)絡(luò)態(tài)勢感知系統(tǒng)攻擊日志進行上報的IP 數(shù),不包括通過主機上的普通業(yè)務(wù)日志進行研判封堵的IP,也不包括其他廠商上報的IP,因為這些IP 無法從攻擊日志中進行分析得到。

由表1和表2中可以看出,攻防演練開始的時候算法檢測的性能較差,其原因是:一方面,異常檢測算法需要訓(xùn)練數(shù)據(jù)的沉淀;另一方面,需要根據(jù)實際情況進行算法調(diào)優(yōu),包括超參數(shù)和特征等。除去開始的第1天,后面13 天的平均檢測精度P(Precision)為0.59,平均召回率R(Recall)為0.69。精度的定義是算法檢測的正確攻擊IP 數(shù),占檢測IP 總數(shù)的比例;而召回率為檢測的正確攻擊IP 數(shù),占實際攻擊IP 的比例。兩者計算如下:

式中:TP 為被判定為攻擊IP,NTP為攻擊IP 的數(shù)目;FP 為被判定為攻擊IP,NFP為正常訪問的數(shù)目;FN為被判定為正常訪問,NFN為攻擊IP 的數(shù)目。

根據(jù)精度和召回率的定義,本文提出的基于局部異常的算法檢測出IP 中接近六成的IP 屬于真實的攻擊IP,且檢測的真實攻擊IP 占所有真實攻擊IP 總數(shù)的七成。

此外,將本文提出的算法性能和監(jiān)控設(shè)備內(nèi)置的規(guī)則進行比較,規(guī)則輸出將所有的告警日志分為4 類:很高、高、中、信息,從而在日志量巨大的情況下使得安全分析人員關(guān)注等級為“很高”的日志。圖6 為基于規(guī)則的不同等級占比顯示每個等級的日志占比,由于整個攻防演練期間,被封的真實IP 總數(shù)為245 個,而等級為“很高”的日志數(shù)目為24 718,其最高精度為245/24 718 ≈1%,與之對應(yīng)的,本文算法精度為59%,和只采用規(guī)則相比,該算法可以極大減少分析人員的時間。

圖6 基于規(guī)則的不同等級占比

4 結(jié)語

針對企業(yè)安全運營中存在的海量告警問題,本文提出一種新的告警誤報緩解方法,基于真正高威脅的攻擊相對是比較少的事實,該方法采用局部異常檢測算法從攻擊階段、攻擊頻次、攻擊者地域特征等維度去刻畫攻擊IP 的偏離正常范圍的程度,從而去除大量的誤報,使得安全運營人員集中精力分析真正的高危告警。該方法在大型網(wǎng)絡(luò)攻防實戰(zhàn)中進行部署,結(jié)果表明具備較好的檢測性能。

猜你喜歡
誤報日志局部
局部分解 巧妙求值
一名老黨員的工作日志
華人時刊(2021年13期)2021-11-27 09:19:02
家用燃?xì)鈭缶髡`報原因及降低誤報率的方法
煤氣與熱力(2021年6期)2021-07-28 07:21:40
非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
游學(xué)日志
局部遮光器
吳觀真漆畫作品選
各類氣體報警器防誤報漏報管理系統(tǒng)的應(yīng)用
一種基于粗集和SVM的Web日志挖掘模型
任丘市| 嘉祥县| 弥渡县| 辉南县| 英吉沙县| 甘泉县| 鄱阳县| 乌鲁木齐县| 彩票| 东山县| 同心县| 嘉禾县| 蓝田县| 资讯 | 田东县| 车险| 隆林| 岗巴县| 高雄市| 新和县| 镇雄县| 堆龙德庆县| 墨玉县| 云浮市| 平和县| 杂多县| 湖北省| 喀喇| 河间市| 乐陵市| 祥云县| 乌拉特前旗| 会宁县| 长子县| 将乐县| 德庆县| 澎湖县| 额济纳旗| 大兴区| 彰化市| 南充市|