崔 琳, 楊黎斌, 何清林, 王夢涵, 馬建峰
1西北工業(yè)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院 西安 中國 710129
2國家互聯(lián)網(wǎng)應(yīng)急中心 北京 中國 100029
3西安電子科技大學(xué) 網(wǎng)絡(luò)與信息安全學(xué)院 西安 中國 710071
隨著萬物互聯(lián)的時代到來, 互聯(lián)網(wǎng)由于其固有的多源異構(gòu), 泛在開放等特性, 使其在享受“云大物移智”等新型技術(shù)便利的同時, 其所面臨的新生網(wǎng)絡(luò)威脅也日趨復(fù)雜多變, 各種新型安全攻擊事件頻發(fā)。尤其是在大國博弈的背景下, “震網(wǎng)”、 “火焰”、“毒區(qū)”等高級可持續(xù)威脅(Advanced Persistent Threat, APT)攻擊陸續(xù)出現(xiàn), 當前網(wǎng)絡(luò)空間的安全威脅問題日益嚴峻。根據(jù) CNCERT的研究, 近年來我國逐漸成為各類網(wǎng)絡(luò)攻擊的重災(zāi)區(qū), 而其中以APT和DDoS為代表的新型攻擊所占的比重越來越大。表1列出了近年來的一些新型網(wǎng)絡(luò)安全威脅類型。
表1 新生威脅及其特點 Table 1 Emerging threats and their characteristics
可以看出, 隨著目標場景變化, 惡意攻擊者將網(wǎng)絡(luò)空間攻擊的復(fù)雜性和影響力提升到前所未有的程度, 其攻擊模式、數(shù)量與種類層出不窮。這些新型攻擊充分利用了web、電子郵件、應(yīng)用程序等多種傳播方式, 且可在網(wǎng)絡(luò)系統(tǒng)中相互滲透, 以捕獲有價值的數(shù)據(jù), 具有常態(tài)化、專業(yè)化、多矢量、多階段等特性。由于新型攻擊的這些特性, 加之攻擊者的先手優(yōu)勢, 這也對現(xiàn)今網(wǎng)絡(luò)空間的威脅防護提出了新的挑戰(zhàn)。傳統(tǒng)安全防御方法大多依靠部署于邊界或特殊節(jié)點的防火墻、入侵檢測系統(tǒng)等安全設(shè)備, 通過基于啟發(fā)式和簽名等靜態(tài)檢測方法, 將每個攻擊向量視為一個單獨路徑進行分階段獨立檢查, 而缺少全局視角, 難以應(yīng)對攻擊策劃精妙、更新迭代頻繁的新型網(wǎng)絡(luò)威脅攻擊。
針對網(wǎng)絡(luò)空間所面臨的新型安全威脅, 一個重要的防護手段是深度挖掘網(wǎng)絡(luò)威脅的情報信息, 并將其引入至安全檢測全周期中, 從而主動發(fā)現(xiàn)并防御惡意且極難檢測的攻擊行為。網(wǎng)絡(luò)威脅情報(Cyber Threat Intelligence, CTI)挖掘技術(shù)通過收集、挖掘、識別實時網(wǎng)絡(luò)威脅信息并將其轉(zhuǎn)化為威脅情報。一般來說, 威脅情報是指可用于解決威脅或應(yīng)對危害的知識, 包括威脅來源、攻擊意圖、攻擊手法、攻擊目標信息, 具有知識密度大、準確性高、關(guān)聯(lián)性強等特點, 能夠為安全分析的各個階段提供有力的數(shù)據(jù)支撐, 并可針對多態(tài)、復(fù)雜的高智能威脅與攻擊做出及時響應(yīng)防御。
根據(jù)來源不同, 威脅情報一般可分為內(nèi)部威脅情報和外部威脅情報, 如圖1所示, 其中內(nèi)部威脅情報一般來源于目標系統(tǒng)中的內(nèi)部安全事件信息, 可通過入侵檢測系統(tǒng)(IDS)等安全設(shè)備中的相關(guān)信息提純獲得。外部來源的威脅情報包括: (1) 商業(yè)威脅情報, 即安全廠商以產(chǎn)品形式出售或分享的商業(yè)威脅信息; (2) 開源威脅情報(Open Source Threat Intelligence, OSTI), 在公開平臺中分享的開源威脅情報。近些年由于網(wǎng)絡(luò)威脅攻擊形式迭代更新頻繁, 開源威脅情報突破了其他威脅情報形式來源少, 情報特征受限等不足, 以其快速靈活、性效比高、易于移植等特點, 吸引了政府、業(yè)界以及學(xué)界的廣泛關(guān)注, 并作為網(wǎng)絡(luò)防御的重要資源, 在眾多實際情景中得到應(yīng)用。
圖1 威脅情報來源 Figure 1 The sources of threat intelligence
美國非常重視威脅情報, 從戰(zhàn)略、法律、標準、防御體系、與私營部門的信息共享方面都制定了相對完善的機制[2]。美國也是最早在政府層面開展開源情報挖掘技術(shù)研究的國家, 并將其作為政府的常規(guī)情報搜集手段。當前美國已建立起了覆蓋地方、企業(yè)、政府等多個層面的開源威脅情報挖掘體系, 重點著眼于開源威脅情報的挖掘技術(shù)研究及深度利用。歐洲網(wǎng)絡(luò)與信息安全局于2019年建立了一個整合各方資源的統(tǒng)一開源威脅情報挖掘共享中心, 強調(diào)擴大網(wǎng)絡(luò)威脅情報的收集范圍, 包括來自相關(guān)學(xué)科的 事件信息, 并將這些數(shù)據(jù)的收集、存儲和分析標準化。國家應(yīng)急響應(yīng)中心CNCERT以及國內(nèi)各大知名安全公司如綠盟, 360等近年都陸續(xù)構(gòu)建了國內(nèi)頂尖的開源威脅情報平臺, 能夠?qū)崟r采集整理網(wǎng)絡(luò)開源威脅信息, 并拓展開源威脅情報的應(yīng)用, 使其成為我國網(wǎng)絡(luò)安全防御體系的關(guān)鍵組成部分, 貫穿于態(tài)勢感知平臺、下一代防火墻、入侵檢測系統(tǒng)等眾多的安全產(chǎn)品之中。近年來, 威脅情報市場發(fā)展勢頭良好, 其中威脅情報安全服務(wù)提供商的收入也在連年增長。但相較而言, 我國的威脅情報體系發(fā)展仍處于起步階段, 雖然涌現(xiàn)了一批較為出色的威脅情報公司, 并在部分廠商的實際情景中開始落地應(yīng)用。但總體來看, 其開發(fā)及應(yīng)用主要集中于商業(yè)威脅情報, 對于開源威脅情報的關(guān)注相對較少, 同時缺乏有效、可靠的威脅情報的挖掘采集、質(zhì)量評價手段, 其對應(yīng)基于開源威脅情報的網(wǎng)絡(luò)安全分析技術(shù)也較為落后, 沒有形成情報挖掘分析、評價與利用為一體的威脅情報綜合服務(wù)平臺。盡管開源威脅情報已成為安全行業(yè)的研究及應(yīng)用熱點, 但仍然存在許多制約開源威脅情報產(chǎn)業(yè)鏈發(fā)展的關(guān)鍵問題尚待解決, 包括開源威脅情報挖掘關(guān)聯(lián)、質(zhì)量評價、落地應(yīng)用等關(guān)鍵技術(shù)的研究。近年來, 學(xué)術(shù)界結(jié)合云計算、大數(shù)據(jù)等前沿技術(shù)對這些關(guān)鍵技術(shù)問題進行了深入研究探索。如圖2所示, 學(xué)術(shù)研究熱度連年上升反映出該領(lǐng)域已持續(xù)受到關(guān)注, 研究和分析已有的開源威脅情報研究概況, 對于進一步推進我國開源威脅情報挖掘分析工作的發(fā)展, 提高國家網(wǎng)絡(luò)安全的整體防御能力, 具有重要的意義。
圖2 2015—2020年基于開源信息平臺開源威脅情報挖掘文獻分布情況 Figure 2 The distribution of OSCTI mining documents based on open source information platform from 2015 to 2020
本文系統(tǒng)調(diào)研分析了近6年來主流安全類期刊和會議上關(guān)于開源威脅情報挖掘的文獻工作, 統(tǒng)計分析了一百多篇文獻的技術(shù)理論及應(yīng)用場景, 總結(jié)了開源威脅情報挖掘及應(yīng)用領(lǐng)域當前的研究成果并指出該領(lǐng)域的研究方向, 嘗試為我國開源情報挖掘及應(yīng)用領(lǐng)域進行梳理, 具體來說主要貢獻包括3個方面:
(1) 深入分析了開源威脅情報挖掘的一百多篇相關(guān)文獻, 系統(tǒng)梳理了開源威脅情報挖掘相關(guān)文獻的技術(shù)理論以及在網(wǎng)絡(luò)安全檢測中的應(yīng)用場景, 歸納總結(jié)出了開源威脅情報挖掘的一般流程框架模型;
(2) 首次從開源威脅情報采集與識別提取, 開源威脅情報融合評價和開源威脅情報關(guān)聯(lián)分析等三個方面對開源威脅情報所面臨的問題以及對應(yīng)的研究現(xiàn)狀進行了梳理總結(jié), 并從技術(shù)應(yīng)用場景, 所使用的技術(shù)及性能評估等方面對相關(guān)文獻進行了詳細解析;
(3) 分析了當前我國開源威脅情報挖掘及應(yīng)用研究中的不足, 總結(jié)了面臨的四大機遇與挑戰(zhàn), 并指出了未來的研究趨勢與下一步研究方向。
根據(jù)《網(wǎng)絡(luò)威脅情報權(quán)威指南》中給出的定義, 威脅情報是指對企業(yè)可能產(chǎn)生潛在或直接危害的信息集合。這些威脅信息經(jīng)過搜集、分析、整理, 能幫助企業(yè)研判面臨的威脅并做出正確應(yīng)對, 以保護企業(yè)的關(guān)鍵資產(chǎn)。從開源情報的直觀定義出發(fā), 開源情報在挖掘并應(yīng)用到關(guān)鍵資產(chǎn)保護時, 其安全應(yīng)用場景可總結(jié)為圖3所示, 已有絕大部分開源威脅情報挖掘的研究工作都可以納入到該框架中。
圖3 基于開源信息平臺開源威脅情報挖掘框架 Figure 3 OSCTI mining framework based on open source information platform
開源威脅情報挖掘的整體框架自頂向下可歸納為開源威脅情報采集識別、融合評價和關(guān)聯(lián)分析等三大關(guān)鍵研究子方向。其中各子方向功能介紹如下:
(1) 開源威脅情報采集識別
該研究子方向主要針對不同開源情報信息載體, 如技術(shù)博客、社區(qū)論壇、社交媒體和公開報告等, 利用動態(tài)爬蟲與檢測更新等方法, 獲取威脅情報的基礎(chǔ)信息; 由于開源信息平臺其數(shù)據(jù)內(nèi)容通常是文本表示形式, 開源情報信息獲取時一般需要通過IOC(Indicator of Compromise)提取等技術(shù)手段, 將其轉(zhuǎn)換成非標準化或OpenIOC(Open Indicator of Compromise), STIX(Structured Threat Information eXpression)等標準化開源威脅情報格式, 而后分別應(yīng)用于質(zhì)量評價階段和應(yīng)用檢測階段;
(2) 開源威脅情報融合評價
由于開源威脅情報來源的開放性, 使其挖掘得到的情報信息也具有多源異構(gòu)性, 對應(yīng)情報的質(zhì)量及可信性也參差不齊, 這將阻礙開源威脅情報的存儲和共享, 應(yīng)用于安全場景檢測時也可能引發(fā)漏報、誤報等不可控問題。在實際應(yīng)用時, 一般需要對多源異構(gòu)的開源威脅情報信息進行融合評價處理。開源威脅情報融合評價主要是針對多源異構(gòu)開源威脅情報基礎(chǔ)數(shù)據(jù)進行整合、萃取和提煉, 并研究建立相關(guān)質(zhì)量評價指標對開源威脅情報的質(zhì)量及可信性進行評價, 為后續(xù)威脅情報和威脅攻擊的關(guān)聯(lián)挖掘提供輸入線索;
(3) 開源威脅情報關(guān)聯(lián)分析
這部分研究主要針對開源威脅情報的落地應(yīng)用, 一般是綜合運用Kill-Chain模型、鉆石模型或異質(zhì)信息網(wǎng)絡(luò)等模型, 在不同應(yīng)用場景中結(jié)合已有開源威脅情報與實時流量數(shù)據(jù), 對威脅情報進行深度關(guān)聯(lián)、碰撞、分析操作, 以發(fā)現(xiàn)一些潛在的攻擊行為, 推理挖掘揭示出隱含的攻擊鏈條等威脅信息等。以開源威脅情報為應(yīng)用核心的關(guān)聯(lián)分析研究工作在當前較為熱門, 大致可分為網(wǎng)絡(luò)狩獵、態(tài)勢感知、惡意檢測等三個應(yīng)用場景, 在后續(xù)章節(jié)中將詳細論述。
以上是開源威脅情報挖掘的一般流程框架模型, 涵蓋了開源威脅情報挖掘中較為重要的研究方向, 具有一定的普適性和通用性。通過梳理該流程框架, 可幫助初涉此方向的研究者對開源威脅情報挖掘研究領(lǐng)域做整體把握, 也可輔助細分方向的研究者予以借鑒, 突破固有局限性, 解決現(xiàn)有研究的問題。在接下來論述中, 將按照此框架模型, 依次針對開源威脅情報采集與識別提取, 開源威脅情報融合評價和開源威脅情報關(guān)聯(lián)分析三大研究子方向進行詳細論述。
傳統(tǒng)的威脅情報采集與識別一般具有固定獲取途徑, 主要依賴從安全廠商過往的網(wǎng)絡(luò)威脅攻擊數(shù)據(jù)中提煉, 例如包括從企業(yè)內(nèi)部網(wǎng)絡(luò)、終端部署的檢測設(shè)備或高交互蜜罐中產(chǎn)生的日志數(shù)據(jù), 也有一大部分威脅情報來源于訂閱的安全廠商、行業(yè)組織收集的威脅數(shù)據(jù)等。隨著網(wǎng)絡(luò)攻擊的數(shù)量和復(fù)雜度迅速增加[3], 基于傳統(tǒng)途徑的內(nèi)部威脅情報收集手段和方式[4-10]難以從根本解決威脅情報來源單一等不足。開源信息平臺安全應(yīng)用[11-17]發(fā)展和安全需求催生出的開源威脅情報自動獲取和識別技術(shù)為解決傳統(tǒng)威脅情報的固有弊端提供了行之有效的新路徑。從技術(shù)方法來看, 現(xiàn)有開源威脅情報采集研究工作主要集中于研究設(shè)計自動化爬蟲及解析技術(shù), 從安全論壇和博客等平臺獲得非結(jié)構(gòu)化語義文本數(shù)據(jù)。本節(jié)依據(jù)開源情報信息載體的不同, 將其劃分為技術(shù)博客、社區(qū)論壇、社交媒體、公開報告、通用方法等五個開源威脅情報識別提取平臺并依此篩選分析代表性的相關(guān)研究工作, 接下來, 針對這五個平臺中開源威脅情報的識別提取研究工作進行分別闡述。
開源威脅情報采集是指從多個不同來源的開源數(shù)據(jù)選取目標開源信息(如目標博客網(wǎng)站內(nèi)容)作為輸入, 輸出可被進一步處理的開源威脅情報基礎(chǔ)信息。從近年國內(nèi)外研究工作來看, 開源威脅情報的獲取主要通過動態(tài)爬蟲, 更新檢測及話題檢測等技術(shù)來實現(xiàn)。其中, 動態(tài)爬蟲技術(shù)主要是將目標開源平臺的信息動態(tài)完整抓取下來并存儲。近些年來隨著各大網(wǎng)站反爬蟲機制不斷加強, 開源威脅情報采集技術(shù)也在完善演進。文獻[18]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的威脅情報自動識別模型。在該模型中, 利用爬蟲技術(shù)從安全論壇和博客等平臺獲得非結(jié)構(gòu)化語義文本數(shù)據(jù), 并利用CNN框架實現(xiàn)了開源威脅情報的自動化判別提取。文獻[19]提出了一種基于社交媒體數(shù)據(jù)的開源威脅情報自動提取和評估框架TIMiner。在該框架中, 利用爬蟲技術(shù)從博客、黑客論壇帖子等不同社交媒體平臺收集威脅相關(guān)數(shù)據(jù), 并利用自然語言處理(Natural Language Processing, NLP)和CNN實現(xiàn)帶域標簽OSCTI提取。除上述研究成果, 另外有大量研究如文獻[20-23]等將動態(tài)更新及話題檢測應(yīng)用至動態(tài)爬蟲技術(shù)中, 以提高威脅情報的爬取準確率。這些研究工作大都先利用爬蟲技術(shù)獲取目標數(shù)據(jù), 并結(jié)合話題檢測技術(shù)過濾掉與IOC無關(guān)的非結(jié)構(gòu)化信息內(nèi)容, 在實際部署中還利用了動態(tài)檢測更新技術(shù)實時跟蹤目標內(nèi)容源, 以保證爬取內(nèi)容的及時性。這其中話題檢測技術(shù)是開源情報信息采集的關(guān)鍵技術(shù), 近年來較為常用的技術(shù)方法主要采用命名實體識別(Named Entity Recognition, NER)結(jié)合支持向量機(Support Vector Machine, SVM)、邏輯回歸(Logistic Regression, LR)、隨機森林(Random Forest, RF)等機器學(xué)習(xí)分類方法。
上述研究工作將開源威脅情報采集通過動態(tài)爬蟲與檢測更新以及話題檢測流程技術(shù)實現(xiàn), 為落地實現(xiàn)開源威脅情報采集應(yīng)用提供了很多有益借鑒。開源威脅情報采集只是威脅情報挖掘的基礎(chǔ), 需要進一步展開標準化或非標準化開源威脅情報的識別提取, 拓展獲取開源威脅情報后的應(yīng)用維度。
開源威脅情報識別提取是開源威脅情報挖掘的核心工作之一, 主要以非結(jié)構(gòu)化開源威脅情報基礎(chǔ)信息數(shù)據(jù)作為輸入, 輸出是標準化或者非標準化開源威脅情報, 涵蓋了IOC提取與威脅情報生成等技術(shù)環(huán)節(jié)。由于不同的開源信息平臺中披露的開源威脅情報內(nèi)容結(jié)構(gòu)存在較大差異, 其對應(yīng)的威脅情報識別提取方法也存在區(qū)別。接下來本節(jié)以不同開源威脅信息平臺源為劃分依據(jù), 對開源威脅情報識別提取研究工作進行了歸納介紹。
3.2.1 技術(shù)博客
技術(shù)博客是面向廣大較專業(yè)人員的技術(shù)問題、經(jīng)驗等分享交流學(xué)習(xí)平臺。相較于社交媒體微博等, 其面向人群廣度和內(nèi)容傳播時效較低, 但內(nèi)容更為豐富且具有一定深度, 一般具有較強的專業(yè)性, 通常能夠以更規(guī)范的形式為對象提供內(nèi)容信息支撐。安全相關(guān)博客文章是開源威脅情報內(nèi)容的重要載體之一, 其發(fā)布安全領(lǐng)域相關(guān)知識信息對預(yù)測現(xiàn)實世界漏洞利用、檢測威脅、威脅預(yù)警等具有重要作用。針對安全相關(guān)的技術(shù)博客, 文獻[24]提出了一種基于神經(jīng)網(wǎng)絡(luò)序列標記的端到端模型, 用于從網(wǎng)絡(luò)安全技術(shù)文章中自動識別IOC。在該模型中, 運用自然語言處理的序列標記技術(shù)從網(wǎng)絡(luò)安全技術(shù)文章中收集本地代碼, 同時結(jié)合多路聚焦(Self-attention)技術(shù)以更好地從網(wǎng)絡(luò)安全技術(shù)文章文本中收集出上下文信息。實驗表明, 該模型在自動識別IOC時具有良好的性能, 顯著優(yōu)于其他模型。文獻[21]設(shè)計實現(xiàn)了一種基于大規(guī)?,F(xiàn)場數(shù)據(jù)處理模型, 用于從安全相關(guān)技術(shù)文章中自動提取IOC。該模型在自動提取IOC的同時還能將IOC關(guān)聯(lián)至相應(yīng)的活動階段, 例如誘餌、開發(fā)、安裝和指揮控制等階段。通過實際大規(guī)?,F(xiàn)場數(shù)據(jù)測試, 該系統(tǒng)在提取IOC和確定IOC活動階段時均具有良好的性能。但不能以自動化方式記錄IOC語義等信息, 因此安全人員需要手動提取和報告定性活動特征, 效率較低, 不具備普適性。文獻[25]提出了一種自動從技術(shù)文章中提取OpenIOC格式開源威脅情報的技術(shù)iACE。在該研究工作中, 作者利用圖挖掘技術(shù)分析IOC標記及該標記與其所在句子上下文的關(guān)系, 當標記間的語法連接與通常表達IOC的方式一致時, 則提取IOC生成描述指示符(例如, 惡意zip文件)和其上下文(例如, 從外部來源下載)的OpenIOC標記。該技術(shù)利用IOC相關(guān)文章的語義特征并配合捕獲實體間關(guān)系的圖挖掘技術(shù)來提升IOC提取的準確性, 相較同期其他IOC工具, 其在性能上有一定優(yōu)勢, 對IOC提取技術(shù)的演進具有相當影響力。以上研究文獻針對從技術(shù)博客中安全技術(shù)文章上定向識別提取開源威脅情報, 在可處理的信息源內(nèi)容形式上比較單一。文獻[18]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型, 能夠從安全方向技術(shù)博客中的所有非結(jié)構(gòu)化數(shù)據(jù)中自動識別開源威脅情報, 突破單一的安全技術(shù)文章內(nèi)容形式。該模型利用網(wǎng)絡(luò)爬蟲技術(shù)獲得非結(jié)構(gòu)化語義文本數(shù)據(jù), 對獲取到的語義文本進行預(yù)處理并輸入到單詞嵌入模型中用于提取特征向量, 最后應(yīng)用CNN分類模型來識別OSCTI實體。經(jīng)驗證該模型在多個核心指標上優(yōu)于其他模型, 能夠提高OSCTI來源的覆蓋率和識別準確率等指標。但由于訓(xùn)練集相對較小, 該方法也存在召回率不高, 存在容易混淆某些術(shù)語的問題。文獻[26]提出了另外一種利用深度學(xué)習(xí)方法從安全技術(shù)博客中提取STIX標準開源網(wǎng)絡(luò)威脅情報的方法。在該方法中, 作者綜合利用了NLP等一系列技術(shù), 有助減少人工干預(yù), 使網(wǎng)絡(luò)安全專業(yè)人員更好地配置優(yōu)化安全工具性能以最終提供最佳防御。
3.2.2 社區(qū)論壇
社區(qū)論壇是面向所有網(wǎng)民群體的交流平臺, 雖然專業(yè)性不及技術(shù)博客, 但內(nèi)容、主題、形式更為豐富且傳播速度也更為快捷。其中, 暗網(wǎng)深網(wǎng)等黑客社區(qū)論壇為黑客等提供一個自由言論的交流平臺, 其中可能經(jīng)常涉及大量有價值的威脅情報信息。鑒于此, 來自佛羅里達大西洋大學(xué)的團隊[27]首先提出了一種針對暗網(wǎng)信息內(nèi)容的預(yù)處理概率模型, 能夠識別并過濾錯誤配置的流量以提高暗網(wǎng)數(shù)據(jù)純度, 有效提升開源威脅情報的獲取及存儲效率。來自美國亞利桑那州立大學(xué)的團隊[28]又提出了一種從暗網(wǎng)和深網(wǎng)上的站點收集開源網(wǎng)絡(luò)威脅情報的原型系統(tǒng), 該系統(tǒng)能有效收集高質(zhì)量的網(wǎng)絡(luò)威脅警告, 這些威脅警告包括關(guān)于新開發(fā)的惡意軟件和尚未在網(wǎng)絡(luò)攻擊中部署的漏洞的信息, 可幫助安全專家進行更好的威脅分析應(yīng)對。來自挪威科技大學(xué)的團隊[29]為幫助信息安全響應(yīng)團隊將其審查重點放在最具情報價值帖子上, 提出了一種利用監(jiān)督機器學(xué)習(xí)算法對黑客論壇帖子進行分類的方法, 以快速篩選出黑客論壇中不同類型的高質(zhì)量開源威脅情報。為提高開源情報識別精度, 該團隊[30]又進一步提出了一種基于狄利克雷分配(Latent Dirichlet Allocation, LDA)的混合機器學(xué)習(xí)模型對情報信息內(nèi)容的聚類效果進行改進。通過使用實際黑客論壇數(shù)據(jù)進行測試, 結(jié)果表明該方法可快速準確地提取相關(guān)可操作情報。上述四項研究工作有助于安全人員更具有針對性地高效從暗網(wǎng)深網(wǎng)中識別提取高質(zhì)量開源威脅情報。不同于此, Zhang等人[22]認為IOC提取可認為是一個從舊威脅情報到新威脅情報的循環(huán)提純過程, 并設(shè)計實現(xiàn)了一個從網(wǎng)絡(luò)社區(qū)論壇中自動挖掘IOC信息的工具iMCircle。該工具可從搜索結(jié)果中主動提取特定威脅域作為后續(xù)檢索輸入, 并在檢索過程中自動判定提取目標是否和輸入指標保持一致, 以實現(xiàn)開源IOC的動態(tài)收集。
總體來看, 通過暗網(wǎng)、深網(wǎng)等社區(qū)論壇形式進行開源威脅情報挖掘是一種可行技術(shù)。但由于暗網(wǎng)等社區(qū)論壇用戶交互的匿名性, 使其發(fā)布的情報信息質(zhì)量上也存在較大的不確定性, 需要大量的后期質(zhì)量評價及驗證工作。
3.2.3 社交媒體
Twitter等社交媒體提供了一個龐大而多樣的用戶群, 是典型的開放信息內(nèi)容自然聚合器之一, 且由于其依附于社交網(wǎng)絡(luò), 平臺信息內(nèi)容天然具有交互性高, 覆蓋廣泛, 時效性強等特性, 且能夠匯集大量與網(wǎng)絡(luò)安全相關(guān)的資源?;谏缃幻襟w的這些特性, 近年有大量研究工作基于社交媒體平臺進行威脅情報的識別提取研究。Ritter等人[31]通過實驗證實了社交媒體是安全相關(guān)事件信息的寶貴資源, 同時, 他們提出了一種基于Twitter流的焦點事件提取方法來幫助安全分析師及時獲取威脅新事件, 識別提取開源威脅情報。Sceller等人[16]提出了一個針對Twitter流的自我學(xué)習(xí)框架SONAR, 可用于實時檢測、定位和分類Twitter中的網(wǎng)絡(luò)安全事件, 有助于安全分析師快速識別提取開源威脅情報。來自里斯本大學(xué)的團隊[32]提出了一種從Twitter獲取信息的端到端模型。該模型使用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)開源威脅信息接收處理和安全實體識別提取, 以幫助減少安全分析師自動化過濾大量不相關(guān)信息, 提高開源威脅情報識別提取效率。來自馬里蘭大學(xué)的團隊[14]提出了一個從Twitter等社交媒體信息流中識別分析OSCTI的框架CyberTwitter, 以幫助安全分析師及時從實時更新的社交媒體信息中獲得各種可能的開源威脅情報。在該框架中, 作者使用安全漏洞概念提取器(Security Vulnerability Concept Extractor, SVCE)來提取與安全漏洞相關(guān)的術(shù)語, 將提取的情報以資源描述框架[33](Resource Description Framework, RDF)三元組的形式存儲在網(wǎng)絡(luò)安全知識庫中, 并使用語義Web規(guī)則語言(Semantic Web Rule Language, SWRL)規(guī)則來推理提取的情報。上述三項研究工作均能幫助安全人員在從社交媒體數(shù)據(jù)中識別提取開源威脅情報時避免冗雜的工作, 但在提取效率上存在缺陷。為了進一步提升開源威脅情報識別應(yīng)用效率, Zhao等人[19]提出了一種基于社交媒體數(shù)據(jù)的新型帶域標簽的OSCTI自動提取和評估的框架TIMiner。該方法綜合利用了詞嵌入和句法依賴技術(shù)。該框架帶域標簽的分類OSCTI可以實現(xiàn)個性化共享, 使用戶只關(guān)注他們自己領(lǐng)域中的威脅信息, 可減少無關(guān)信息對用戶的干擾, 而使其專注于對與威脅最相關(guān)信息的分析, 有利于安全專家聚焦于特定領(lǐng)域不同威脅的演變趨勢, 并抓住攻擊防御的核心??傮w來看, Twitter等社交媒體已成為開源威脅情報的重要來源, 但社交媒體中數(shù)據(jù)龐雜, 質(zhì)量良莠不齊, 情報數(shù)據(jù)提純、威脅事件發(fā)現(xiàn)技術(shù)等有助于提升開源威脅情報識別提取的效率。
3.2.4 公共報告
公共報告是指發(fā)布于網(wǎng)絡(luò)平臺中可被公開獲取的涵蓋安全、漏洞或威脅等主題的報告。公共報告通常由專業(yè)人員發(fā)布, 雖然時效性較差, 但在形式與內(nèi)容上都具有很強的專業(yè)性, 直接或間接覆蓋大量威脅情報信息。文獻[34]利用各種NLP技術(shù)分析并研究了漏洞報告, 并開發(fā)了一種自動從互聯(lián)網(wǎng)上收集物聯(lián)網(wǎng)漏洞報告的工具IoTShield。作者利用該工具實際收集和分析了分布在博客、論壇和郵件列表中的7500多份安全報告。測試表明從公共漏洞報告中識別提取開源威脅情報具有一定指導(dǎo)價值。南京大學(xué)的Mu等人[35]認為現(xiàn)有安全漏洞報告普遍存在重要威脅信息覆蓋率不高等不足, 提出利用開放平臺中不同用戶人群的報告來彌補公共漏洞報告中信息不足的缺陷。以上兩個工作主要針對漏洞報告收集, 分析以及對信息彌合的方法進行研究, 有助于專業(yè)人員從公共漏洞報告中識別提取高質(zhì)量開源威脅情報, 但上述研究未實現(xiàn)從公共漏洞報告中識別提取開源威脅情報的完整流程, 來自馬里蘭大學(xué)的團隊[36]提出了一種從公共代碼庫(如GitHub[37]、GitLab[38]、bitbucket[39])報告的漏洞列表信息中直接挖掘關(guān)于開源項目和庫的開源威脅情報的方法, 并對客戶機上已安裝軟件的庫和項目依賴關(guān)系進行跟蹤。該方法能夠在安全知識圖中表示并存儲開源威脅情報和軟件依賴關(guān)系, 用于幫助安全分析師和開發(fā)人員在發(fā)現(xiàn)有關(guān)產(chǎn)品中使用的鏈接庫和項目的任何開源威脅情報后, 從知識圖中查詢和接收警報。北卡羅來納大學(xué)的團隊[40]提出了一種從非結(jié)構(gòu)化的威脅報告中挖掘開源威脅情報的方法TTPtrill。該方法利用NLP和信息檢索(Information Retrieval, IR)等技術(shù)從非結(jié)構(gòu)化的威脅報告中自動提取威脅動作并以STIX格式構(gòu)建戰(zhàn)術(shù)威脅情報(Tctics,Techniques& Procedures, TTP)。隨后該團隊[41]又提出了一種自動將非結(jié)構(gòu)化威脅報告轉(zhuǎn)換為結(jié)構(gòu)化開源威脅情報的方法ActionMiner。該方法結(jié)合了NLP與信息論中的熵和互信息(Mutual Information, MI)度量這兩種技術(shù)。相比僅使用斯坦福(Stanford)依賴解析器, ActionMiner方法在提取網(wǎng)絡(luò)威脅行動時具有更高的精度和召回率??傮w來看, 從公共報告中識別提取開源威脅情報已經(jīng)成為開源威脅情報的主要來源之一。但公共報告通常存在信息不足的問題, 現(xiàn)有大部分研究還需要不斷拓展新的技術(shù)方法, 用于提升從公共開源報告中挖掘高質(zhì)量開源威脅情報的效率, 以幫助安全人員進行更及時的威脅防御。
3.2.5 通用方法
另外還有一些研究工作如文獻[42-45]通過綜合應(yīng)用NLP、機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)實現(xiàn)從非結(jié)構(gòu)化信息中提取開源威脅情報。這些研究成果并沒有針對區(qū)分某個特定開源威脅情報平臺, 其技術(shù)方法具有一定的通用性Ramnani等人[42]提出了一種利用NLP技術(shù)和模式識別框架來自動提取開源威脅情報的方法。該方法綜合運用了目標利用、話題跟蹤及推薦等技術(shù), 以STIX結(jié)構(gòu)為基礎(chǔ)建模, 實現(xiàn)了威脅情報的大規(guī)模提取。崇實大學(xué)的團隊[43]提出了一種基于NLP、虛擬化結(jié)構(gòu)和分布式處理技術(shù)的OSCTI提取分析系統(tǒng)。該系統(tǒng)還可使用所產(chǎn)生的數(shù)據(jù)作為輸入值來遞歸地提取更多的數(shù)據(jù)。通過保存和管理提取數(shù)據(jù)之間的關(guān)系, 用以幫助安全人員使用這些數(shù)據(jù)來分析網(wǎng)絡(luò)攻擊。文獻[44]提出了一種基于事件的OSCTI發(fā)現(xiàn)和分析智能框架, 在該框架中, 作者綜合利用NLP、機器學(xué)習(xí)和數(shù)據(jù)挖掘等多種技術(shù)進行研究實現(xiàn)。后一年, 在文獻[45]中, 作者提出了一種輕量級可擴展的在線框架IoCMiner, 用以自動從公共信息共享平臺中提取IOC。在該框架中, 作者結(jié)合使用了圖論、機器學(xué)習(xí)和文本挖掘等技術(shù)。總體來看, 上述研究中介紹的通用方法雖然具有較好的平臺覆蓋性, 但由于在開源情報信息識別處理時沒有充分考慮各信息平臺的特點, 其處理效率上還有待提高。
從上述分析可以看出, IOC提取是開源情報信息采集識別環(huán)節(jié)中最核心的研究要點, 主要研究從開源情報數(shù)據(jù)中提取威脅情報實體, 并根據(jù)安全含義, 完整其上下文和戰(zhàn)略信息, 填補不一致帶來的歧義等。IOC提取一般采用命名實體識別技術(shù)或其他人工智能處理技術(shù), 如正則表達式匹配[40], SVM等, 針對預(yù)處理后的非結(jié)構(gòu)文本信息進行遍歷定位出IOC, 并應(yīng)用機器挖掘技術(shù)獲取目標實體關(guān)系, 最終根據(jù)實際需要進行標準化威脅情報格式輸出。開源威脅情報采集及識別有助于提升情報信息的廣度及厚度, 加快從漏洞發(fā)現(xiàn)到針對檢測的防護周期, 可更好應(yīng)用于威脅狩獵, 惡意檢測等深度挖掘分析防護手段中。
本節(jié)將開源威脅情報識別提取研究工作劃分為技術(shù)博客, 社區(qū)論壇, 社交媒體, 公開報告, 通用方法五個平臺, 并對這些平臺的開源威脅情報識別提取工作進行詳細對比分析, 如表2所示, 其中每一行代表一項研究工作, 第1列代表該項研究的主要提取平臺; 第3列為該研究主要的技術(shù)應(yīng)用場景; 第4列是為實現(xiàn)該研究所應(yīng)用的技術(shù)方法; 第5列為性能評估; 第6列為通過總結(jié)優(yōu)缺點對該項研究工作的評價。
表2 開源威脅情報識別提取相關(guān)文獻分類總結(jié)對比 Table 2 Classification, summary and comparison of related research on OSCTI identification and extraction
續(xù)表
續(xù)表
續(xù)表
綜合表2的對比分析可以看出, 已有開源威脅情報的獲取及識別提取研究文獻大多綜合利用NLP、關(guān)系模型構(gòu)建、機器學(xué)習(xí)等數(shù)據(jù)挖掘技術(shù)從技術(shù)博客、社區(qū)論壇, 社交媒體, 公開報告等開源信息平臺中實現(xiàn)威脅情報信息提取, 本質(zhì)上是基于數(shù)據(jù)挖掘的信息萃取。相較于BiLSTM+CRF等方法, 很多研究文獻在實體識別時更傾向于選擇易實現(xiàn)的正則表達式。在關(guān)系模型構(gòu)建時, 多運用圖, 甚至引入專屬安全領(lǐng)域的網(wǎng)絡(luò)安全本體UCO。而在機器學(xué)習(xí)分類時, 多選擇算法簡單, 魯棒性強的SVM。神經(jīng)網(wǎng)絡(luò)由于具有自學(xué)習(xí)、聯(lián)想存儲功能與高速尋找優(yōu)化解等優(yōu)勢, 可以預(yù)見其未來在針對開源威脅情報挖掘中的應(yīng)用占比會進一步擴大。本節(jié)以上內(nèi)容有助于研究學(xué)者和相關(guān)從業(yè)人員快速了解開源威脅情報的識別提取, 同時促進在未來的研究工作中根據(jù)性能和優(yōu)缺點等更準確高效的選擇適當?shù)姆椒◤膶?yīng)平臺和技術(shù)應(yīng)用場景中識別提取開源威脅情報, 完成目標安全求解問題。研究開源威脅情報識別提取技術(shù), 有利于解決傳統(tǒng)威脅情報開發(fā)的局限, 擴充商業(yè)威脅情報的數(shù)據(jù)維度, 為深入理解威脅攻擊提供更為廣闊有效的路徑。但與此同時, 開源威脅情報采集來源廣泛混雜, 情報質(zhì)量不一, 需要強化開源威脅情報融合評價的研究, 以提高開源威脅情報的質(zhì)量與可信性。
高質(zhì)量威脅情報一般具備時效性、準確性、完整性、豐富性、可操作性、場景相關(guān)性等特征?,F(xiàn)有開源威脅情報大多呈多源異構(gòu)性, 情報質(zhì)量良莠不齊, 這也阻礙了開源威脅情報的存儲和共享, 應(yīng)用于實際場景檢測時也可能引發(fā)漏報、誤報等不可控問題。開源威脅情報的融合評價為甄選高質(zhì)量的開源威脅情報提供了數(shù)據(jù)融合方法與質(zhì)量評價機制, 可滿足威脅檢測等現(xiàn)實需求。本節(jié)從開源威脅情報數(shù)據(jù)融合和質(zhì)量評價兩個方向展開文獻收集, 并重點依據(jù)質(zhì)量評價的定性評價方法和定量評價方法進行文獻甄選和分析。其中當前威脅情報的數(shù)據(jù)融合研究工作多采用針對開源威脅情報的基礎(chǔ)信息數(shù)據(jù), 運用多源異構(gòu)情報的一致性分析[48]和去偽去重等粗粒度數(shù)據(jù)融合方法, 通過拓展情報信息維度等操作, 實現(xiàn)對分析研判后的開源威脅情報歸一化封裝輸出。開源威脅情報的質(zhì)量評價研究是針對開源威脅情報的可信性及可用性等指標進行評估, 一般包括定性評價方法和定量評價方法。接下來我們對開源威脅情報數(shù)據(jù)融合和質(zhì)量評價研究工作進行具體論述。
開源威脅情報由于情報來源的開放性, 也導(dǎo)致其情報產(chǎn)出具有顯著多源異構(gòu)性, 該固有弊端也阻礙了開源威脅情報的存儲、共享和應(yīng)用。開源威脅情報的融合處理是情報能夠有效利用的前提, 近年來眾多學(xué)者也對該方向做了大量研究, 目前已有研究主要通過對多來源本體相同的開源威脅情報進行一致性分析、去偽去重及數(shù)據(jù)融合分析等操作進行改善。
4.1.1 一致性分析
一致性分析的重要技術(shù)是本體構(gòu)建, 本體是同一領(lǐng)域內(nèi)不同主體之間進行交流以及連通的語義基礎(chǔ)[49], 本體由多個元素構(gòu)成, 其形式化定義[50]如下:
其中,C是本體概念的集合(通常使用自然語言進行 描述);R是非上下文關(guān)系, 其中:relRCC→×定義了實際關(guān)系的映射;C HCC?×是上下文關(guān)系的集合, 定義本體的層次結(jié)構(gòu);v A是本體上公理的集合。其構(gòu)建層次如圖4。安全情報本體作為情報知識圖譜構(gòu)建的核心層次, 是將信息抽取得到的實體及其關(guān)系構(gòu)建為知識網(wǎng)絡(luò), 實現(xiàn)數(shù)據(jù)向知識的轉(zhuǎn)化以及知識與應(yīng)用結(jié)合的過程, 同時利用本體中定義的約束與規(guī)則可為后續(xù)的質(zhì)量評估、知識推理等過程提供基礎(chǔ)[51]。本體構(gòu)建、一般基于本體復(fù)用, 本體構(gòu)建和本體匹配等[51]的實現(xiàn)。從網(wǎng)絡(luò)安全研究的原理、需求、規(guī)范等抽象角度進行構(gòu)建的本體被稱為基于模式的知識本體, 而從現(xiàn)有數(shù)據(jù)的格式、內(nèi)容、結(jié)構(gòu)化程度出發(fā)構(gòu)建的本體則區(qū)分為基于數(shù)據(jù)的知識本體。北京航空航天大學(xué)的團隊將本體應(yīng)用于開源威脅情報一致性分析中, 提出了一種用于描述多源異構(gòu)開源威脅情報的基于本體的統(tǒng)一模型[52], 以促進開源威脅情報的共享與分析。同時, 他們還進一步提出了一種基于統(tǒng)一模型和開源情報收集工具IntelMQ的開源威脅情報集成框架。
圖4 本體構(gòu)建層次 Figure 4 Ontology construction level
4.1.2 去偽去重
開源威脅情報去偽去重是開源威脅情報挖掘時另外一個重要處理步驟, 主要使用維度擴展及挖掘分析等方法對情報數(shù)據(jù)進行提純判定, 盡可能對基礎(chǔ)情報信息進行增值。M. Adithya等人[53]認為安全的信息去冗技術(shù)可以降低分布式存儲中的通信和容量開銷, 并在這個以信息為導(dǎo)向的大社會中有巨大應(yīng)用。他們的觀點證實了數(shù)據(jù)去重對開源威脅情報系統(tǒng)的重要性。Edwards等人[54]就在一項美國專利中提出了開發(fā)一種可過濾、分類、消除重復(fù)數(shù)據(jù)、對數(shù)據(jù)項進行優(yōu)先級排序的威脅情報系統(tǒng)的想法。Brown等人[55]認為開源威脅情報系統(tǒng)在使用前必須對開源情報數(shù)據(jù)進行去重等操作, 避免將新收集的情報數(shù)據(jù)直接關(guān)聯(lián)到現(xiàn)有數(shù)據(jù), 以避免增加安全運營人員的額外工作量。其中去重操作主要是利用快速匹配 算法從各種數(shù)據(jù)集中精準識別出匹配記錄, 并將其從屬性、關(guān)系或數(shù)據(jù)內(nèi)容等維度上進行合并。作者同時也指出去重效果受到許多因素的影響, 包括數(shù)據(jù)質(zhì)量、首字母縮略詞和縮寫詞的不同用法或語言差異。
4.1.3 數(shù)據(jù)融合分析
開源威脅情報數(shù)據(jù)融合分析旨在通過運用機器學(xué)習(xí)等智能數(shù)據(jù)融合方法針對原始情報信息進行關(guān)聯(lián)融合處理, 以獲得具備時效性、準確性、完整性等特性的高質(zhì)量威脅情報。目前學(xué)術(shù)界已產(chǎn)出一些威脅情報的數(shù)據(jù)融合分析成果。Modi等人[56]于2016年提出了一個自動開源威脅情報融合框架, 該框架由分析、收集、控制、數(shù)據(jù)和應(yīng)用層面構(gòu)成, 它可從不同情報來源提取開源威脅情報并利用聚類技術(shù)對內(nèi)容相似的情報數(shù)據(jù)進行聚合關(guān)聯(lián), 最終輸出形成統(tǒng)一格式的威脅情報。Azevedo等人[57]也提出了一種開源威脅情報關(guān)聯(lián)融合的類似方法。該方法主要采用簇聚合技術(shù), 可關(guān)聯(lián)并聚合不同開源情報源中的相似IOC信息并將其匯集成簇從而得到提純的開源威脅情報。文獻[58]結(jié)合自然語言處理方法和智能分析技術(shù), 設(shè)計實現(xiàn)了一種基于多源情報信息融合的高質(zhì)量開源威脅情報生成工具。該工具綜合運用一致性分析, 去偽去重等常見的粗粒度數(shù)據(jù)融合分析手段, 并結(jié)合了SVM、貝葉斯推斷等高階數(shù)據(jù)分析技術(shù), 可針對威脅情報數(shù)據(jù)進行清洗、集成、整合處理。但其數(shù)據(jù)融合方法手段及關(guān)聯(lián)應(yīng)用效率還尚待進一步提升。綜合來看, 現(xiàn)有基于開源威脅的數(shù)據(jù)融合研究大都還處于采用一致性分析、去偽去重等粗粒度階段, 也有部分研究借鑒并應(yīng)用了一些高階數(shù)據(jù)融合方法, 但其處理效率還待提升。傳統(tǒng)的數(shù)據(jù)融合分析技術(shù), 如貝葉斯推理、卡爾曼過濾等基于概率的方法, D-S(Dempster-Shafer)理論等證據(jù)推理方法, 機器學(xué)習(xí)、智能聚合、模糊邏輯等基于知識的方法等[59-60]具有質(zhì)量好、穩(wěn)定性強、魯棒性高等優(yōu)勢, 非常適用于大數(shù)據(jù)環(huán)境中時效性要求高的開源威脅情報數(shù)據(jù)融合處理, 可應(yīng)用于新興的綜合性數(shù)據(jù)融合分析以實現(xiàn)開源威脅情報融合。另外, 未來可預(yù)見開源威脅情報數(shù)據(jù)將趨于更龐雜, 基于深度學(xué)習(xí)的數(shù)據(jù)融合方法[61]由于其在處理海量數(shù)據(jù)上的優(yōu)勢, 也將得到廣泛應(yīng)用。
開源威脅情報用于輔助支持決策或安全分析, 情報的可信及可用性將直接影響安全決策分析結(jié)果。對情報質(zhì)量的篩選、評估顯得尤為重要, 國內(nèi)外研究學(xué)者已展開了廣泛研究工作, 一般可分為定性評價方法和定量評價方法, 其中定量評價又包括特征指標提取, 指標自定義和應(yīng)用圖挖掘技術(shù)的方法。
4.2.1 定性評價方法
Bouwman等人[62]將若干情報供應(yīng)商提供的商業(yè)情報與開源數(shù)據(jù)進行了對比, 發(fā)現(xiàn)商業(yè)情報和公開情報在情報內(nèi)容方面幾乎沒有重疊, 并指出商業(yè)威脅情報質(zhì)量存在覆蓋率不足, 及時性欠缺等問題, 這也從側(cè)面說明了開源威脅情報可作為商業(yè)情報的有效補充。與此同時, Bouwman還給出了一種商業(yè)威脅情報質(zhì)量的定性評估方法, 主要利用了情報的場景相關(guān)性、豐富性、可操作性等特征。這些質(zhì)量評價指標也可以作為開源威脅情報質(zhì)量的有益借鑒。Alessandra等人[63]提出了一種面向開源網(wǎng)絡(luò)威脅情報平臺的定性質(zhì)量評估方法。該方法首先根據(jù)5W3H(what, who, why, when, where, how, how much and how long)原則, 得出四個主要實體——威脅、時間、威脅參與者和防御, 并從威脅情報應(yīng)用周期中抽取了一些通用的評價標準指標, 如收集階段需要的通用格式, 分析階段的數(shù)據(jù)模型和關(guān)系機制, 部署階段所需要的情報數(shù)字簽名格式等, 同時針對OSCTI平臺, 還給出了一些額外標準, 如文件數(shù)量、質(zhì)量以及許可證聲明等。這些定性的評價標準或方法為提升開源威脅情報的可用性提供了有效途徑。
4.2.2 定量評價方法
定性評價對于開源威脅情報的質(zhì)量評價來說仍不精確, 因此有研究人員提出利用定量指標對開源威脅情報進行評價。
一些文獻從開源威脅情報的特點出發(fā), 提取多個特征作為評價依據(jù)。文獻[64]基于Lucassen等人提出的信息可信度3S(Semantic, Surface, and Source features)模型和情報共享的多源協(xié)作, 提出了開源威脅情報可信度多維度的分析方法。3S模型指出信息特征和用戶特征可共同作用來判斷信息可信度, 其中信息特征有語義內(nèi)容、表面特征和源特征等, 用戶特征包括用戶自身的領(lǐng)域知識和技能及相關(guān)經(jīng)驗。通過對此模型進一步深化擴展, 作者從時間、內(nèi)容和領(lǐng)域知識三個維度提取了情報源的權(quán)威度、可驗證情報源數(shù)等16個客觀定量可信特征, 并提出基于DBN(Deep Belief Network)的情報可信判別算法, 分析挖掘情報間不同維度下可信評價的關(guān)聯(lián)關(guān)系。文獻[64]還進一步總結(jié)得出, 開源威脅情報本身具有時效性。從時間維度看, 情報發(fā)布時間距離當前時間越近, 及時性越強, 其可信度就越高, 對預(yù)測當前企業(yè)、設(shè)備的威脅態(tài)勢越有利; 從情報內(nèi)容維度看, 開源威脅情報內(nèi)容的文本格式和數(shù)據(jù)形式的機器可讀性以及是否符合STIX或OpenIOC等標準, 可以反映情報的可用性和通用性。各個情報內(nèi)容的相似度、貢獻度可以反映情報的原創(chuàng)性、完整性; 從領(lǐng)域知識維度看, 開源威脅情報必須對威脅有定制化的全面分析, 包含大概率會出現(xiàn)的情境, 能夠從海量情報中篩選出真正相關(guān)的情報, 盡可能地分析攻擊的所有態(tài)勢。在此基礎(chǔ)上, 文獻[65]分別從情報來源、情報內(nèi)容、活躍周期、黑名單庫匹配程度4個維度提取特征作為評估情報質(zhì)量的依據(jù), 設(shè)計了一套基于深度神經(jīng)網(wǎng)絡(luò)算法和Softmax分類器的情報質(zhì)量評價模型。從情報來源維度看, 開源威脅情報的來源或載體的可信度在很大程度上可以直接反映該情報的可信程度。
另外有些學(xué)者提出了一些自定義的定量情報評價標準。Vector 等人[66]定義的度量標準包括數(shù)量、差異貢獻、排他貢獻、相對延遲、準確性(誤報率)、覆蓋范圍。Thomas等人[67]將開源情報的應(yīng)用周期視為一個封閉系統(tǒng), 對威脅情報的擴展性、保持性、誤報率、可驗證性、互用性、兼容性、相似性、時效性、完整性等10個定量參數(shù)進行了定義與推導(dǎo), 采用加權(quán)平均模型, 使每個實體能夠根據(jù)自己的需求和優(yōu)先次序?qū)?shù)進行調(diào)整, 并可通過應(yīng)用結(jié)果對情報源質(zhì)量的信任程度進行動態(tài)反饋調(diào)整。Schlette等人[68]將威脅情報的評價維度劃分為三個層次: 屬性級、對象級、報告級。通過加權(quán)平均各個維度的聚合質(zhì)量指標, 形成一個可量化的威脅情報質(zhì)量評估體系。在該體系中, 每個定量維度的權(quán)重可調(diào)整, 且必要時可將人工OSCTI分析人員納入質(zhì)量評估體系。Griffioen等人[69]提出了四種類型的威脅情報質(zhì)量評價指標: 及時性、敏感性、原創(chuàng)性和影響力, 并基于這四種類型評價指標, 引入了一種改進分類方法對威脅情報實現(xiàn)定量評估。文獻[70]則認為開源威脅情報本質(zhì)是為用戶提供檢測服務(wù), 提出了一種基于用戶視角建立對應(yīng)的定量指標體系, 對開源威脅情報服務(wù)進行評估的方法。該方法將威脅情報視為一種特殊服務(wù), 其質(zhì)量評價包括價格、功能、性能和質(zhì)量、服務(wù)、資格等五個維度, 且基于人們更容易相信絕大多數(shù)人給出的信息真實性的假設(shè), 提出基于多數(shù)威脅情報使用者的意見和評價來衡量情報的可信度。該方法可根據(jù)用戶反饋來動態(tài)調(diào)整各檢測項目的權(quán)重和得分, 以獲得更為精確的情報質(zhì)量評價結(jié)果。由于開源威脅情報在共享及應(yīng)用時存在部分用戶的“搭便車”行為。針對這一問題, Omar等人[71]提出情報質(zhì)量指數(shù)(Quality of Indicators, QoI)的概念, 用于評估開源威脅情報共享參與者的貢獻水平。QoI評估方法涉及的指標包括正確性、相關(guān)性、實用性和唯一性, 采用基準方法定義, 并利用機器學(xué)習(xí)算法進行質(zhì)量評價。
利用圖可直觀有效地表達推斷出各實體間的關(guān)系, 因此一些學(xué)者也提出應(yīng)用圖挖掘技術(shù)來進行情報評價方法研究。文獻[72]首先提出從圖挖掘的角度自動評估異構(gòu)開源威脅情報的可信水平, 創(chuàng)新性地構(gòu)建了異構(gòu)開源威脅情報圖, 并從源、內(nèi)容、時間和反饋的多維角度提出了一種基于圖挖掘的情報特征提取方法, 結(jié)合隨機森林算法訓(xùn)練分類器, 為大規(guī)模異構(gòu)開源威脅情報提供了一種自動可解釋的可信評估方法。Roland 等人[73]提出了一種OSCTI源排序方法FeedRank, 其核心思想即用相關(guān)圖模擬feed之間的時間與空間關(guān)聯(lián), 根據(jù)內(nèi)容的原創(chuàng)性和其他源對其引用的程度對源進行排名。此方法還會對每個OSCTIF(OSCTI Feed)的貢獻度進行量化分析。文獻[74]提出了一種基于知識表示算法TransE模型和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型的情報數(shù)據(jù)的可信評估模型。該方法利用了知識圖譜在鏈接關(guān)系檢索、關(guān)系存儲等方面的優(yōu)勢, 構(gòu)建了一個情報知識圖譜, 并綜合運用TransE和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型對情報數(shù)據(jù)進行可信評價。
本節(jié)總結(jié)論述了開源威脅情報的數(shù)據(jù)融合, 質(zhì)量及可信性評價相關(guān)研究工作, 將質(zhì)量及可信性評價相關(guān)研究工作劃分為定性評價和定量評價兩個方向, 并對依這兩個方向收集甄選的開源威脅情報質(zhì)量及可信性評價相關(guān)研究工作進行詳細比較, 如表3所示, 其中每一行代表一項研究工作, 第1列代表不同的研究方向; 第3列為主要的技術(shù)應(yīng)用場景; 第4列為實現(xiàn)該項研究所應(yīng)用的技術(shù)方法, 主要從數(shù)學(xué)模型以及評價技術(shù)兩個方向進行歸納分析; 第5列為性能評估; 第6列為通過總結(jié)優(yōu)缺點對該項研究工作的評價。
綜合表3中的分析比較, 可以看出, 機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)等作為一種有效的分類工具, 已經(jīng)被大量應(yīng)用至開源威脅情報質(zhì)量的定性評價中, 如文獻[64-65]在多維度提取特征指標并都應(yīng)用了機器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型; 而在定量評價中由于涉及各個指標的權(quán)重考量問題, 加權(quán)平均模型是更為常用的手段,因此文獻[68,70], 在針對情報的評估中, 都主要應(yīng)用了加權(quán)平均數(shù)學(xué)模型對情報質(zhì)量進行了量化評估; 有向圖或知識圖譜等技術(shù)可以充分挖掘情報之間的聯(lián)系, 近年作為一種較為新穎的情報質(zhì)量度量方法也受到廣大學(xué)者關(guān)注, 例如文獻[72-74]都利用了圖挖掘方法, 其中文獻[72-73]引入了有向圖和PageRank算法, 而文獻[74]則應(yīng)用了知識圖譜進行評估建模。以上對開源威脅情報的融合評價分析可以幫助相關(guān)研究人員和從業(yè)者展開源威脅情報質(zhì)量融合與評價技術(shù)的研究, 并以此為基礎(chǔ)提出一種綜合的開源威脅情報質(zhì)量定量評估方法, 可大大減少對開源威脅情報質(zhì)量評價及可信度打分所需的人力, 為組織篩選出高質(zhì)量、準確可信的威脅情報提供幫助。
表3 開源威脅情報質(zhì)量及可信性評價相關(guān)研究分類總結(jié)對比 Table 3 Classification, summary and comparison of related research on OSCTI quality and credibility evaluation
續(xù)表
開源威脅情報關(guān)聯(lián)分析是指綜合運用Kill- Chain、鉆石或異構(gòu)信息網(wǎng)絡(luò)等模型, 結(jié)合開源威脅情報信息, 對實時攻擊流量數(shù)據(jù)進行深度關(guān)聯(lián)、碰撞、分析等操作, 以期發(fā)現(xiàn)一些潛在的攻擊行為, 進而推理挖掘揭示出隱含的攻擊鏈條等高價值威脅信息。以開源威脅情報為應(yīng)用核心的關(guān)聯(lián)分析是當前開源威脅情報挖掘中的熱點研究方向, 根據(jù)情報利用方式的不同, 可大致分為網(wǎng)絡(luò)狩獵, 態(tài)勢感知惡意檢測三個應(yīng)用場景, 本節(jié)依據(jù)這三個應(yīng)用場景分別搜集并選取分析代表性的相關(guān)文獻共計近30篇。其中威脅狩獵一般采用威脅情報驅(qū)動的檢測方法, 針對網(wǎng)絡(luò)流量數(shù)據(jù)進行主動搜索, 從而檢測出可能逃避現(xiàn)有安全防御措施的威脅目標。網(wǎng)絡(luò)狩獵涉及圖計算、模式匹配、領(lǐng)域特定語言等技術(shù)理論; 態(tài)勢感知是以威脅情報大數(shù)據(jù)為基礎(chǔ), 從全局視角出發(fā), 提升對安全威脅的發(fā)現(xiàn)識別, 理解分析、響應(yīng)處置能力。由于涉及和惡意攻擊行為的策略博弈, 因此在利用威脅情報進行態(tài)勢感知分析時, 近期有較多文獻引入了博弈理論來分析安全態(tài)勢的發(fā)展。開源威脅情報的惡意檢測則是指挖掘檢測任何惡意侵害目標系統(tǒng)相關(guān)資產(chǎn)的代碼或程序等。利用開源威脅情報輔助惡意檢測有助于更快發(fā)現(xiàn)實體威脅目標。常見方法是從開源威脅情報中提取相關(guān)檢測知識, 并與惡意軟件的靜態(tài)、動態(tài)特征數(shù)據(jù)進行關(guān)聯(lián), 構(gòu)建網(wǎng)絡(luò)安全知識圖譜(Cybersecurity Knoweledge Graph, CKG)來挖掘惡意軟件行為。接下來我們以網(wǎng)絡(luò)狩獵, 態(tài)勢感知和惡意檢測這三個應(yīng)用場景, 對開源威脅情報關(guān)聯(lián)分析研究工作進行具體論述。
威脅狩獵[75]一般是采用人工分析和機器輔助的方法, 針對網(wǎng)絡(luò)和數(shù)據(jù)進行主動和反復(fù)的搜索, 從而篩選出可能逃避現(xiàn)有安全防御措施的威脅攻擊。與傳統(tǒng)檢測方式相比, 網(wǎng)絡(luò)狩獵拓展了威脅檢測方式, 可充分利用第三方威脅情報信息來提升對新型威脅的檢測能力, 具有明確的目的性, 包括縮減威脅目標的狩獵范圍, 顯著減少威脅檢測時間, 搜索發(fā)現(xiàn)未知威脅等。
如何獲取準確、及時用多樣化的威脅情報來提供大量輔助上下文檢測信息是保證威脅狩獵成功的關(guān)鍵?,F(xiàn)有網(wǎng)絡(luò)狩獵技術(shù)需要大量的人工查詢構(gòu)建工作, 而忽略了OSCTI提供的關(guān)于威脅行為豐富外部知識。近年基于開源威脅情報的網(wǎng)絡(luò)狩獵研究成果表明, 開源威脅情報可應(yīng)用支撐威脅行為狩獵。文獻[76]中提出了一種在計算機系統(tǒng)中使用OSCTI搜索網(wǎng)絡(luò)威脅的系統(tǒng)EFFHUNTER。在該系統(tǒng)中, 作者實現(xiàn)了一個無監(jiān)督、輕量級和精確的NLP管道, 用于從非結(jié)構(gòu)化OSCTI文本中提取結(jié)構(gòu)化威脅行為, 同時作者為該系統(tǒng)匹配一個簡潔而富于表現(xiàn)力的特定領(lǐng)域查詢語言TBQL, 用于搜索惡意系統(tǒng)活動, 提升獵捕效率。文獻[15]提出了一種自動識別黑客論壇、IRC頻道和Cardingshop內(nèi)潛在威脅的方法。該方法允許從收集的所有黑客內(nèi)容中提取潛在威脅, 并通過將機器學(xué)習(xí)方法與信息檢索技術(shù)相結(jié)合來識別系統(tǒng)中的潛在網(wǎng)絡(luò)威脅。文獻[77]設(shè)計實現(xiàn)了一種針對多個暗網(wǎng)數(shù)據(jù)源的OSCTI識別提取工具, 通過結(jié)合數(shù)據(jù)流量檢測技術(shù), 可實現(xiàn)威脅情報的快速集成、跨多個數(shù)據(jù)集的目標分析及威脅關(guān)聯(lián)檢測等操作。如何將威脅情報落地于旁路流量檢測, 系統(tǒng)日志檢測或主機行為檢測產(chǎn)品中是威脅狩獵應(yīng)用的難點問題。張等人[78]提出了一種新威脅情報平臺MANTIS用以幫助安全分析師識別潛在威脅。該平臺中運用基于屬性圖的相似性算法將不同的威脅數(shù)據(jù)形式統(tǒng)一表示。這種統(tǒng)一表示可方便安全分析師將不相關(guān)的攻擊活動關(guān)聯(lián)起來, 從而識別出可能的安全威脅。文獻[79]將網(wǎng)絡(luò)威脅搜索表述為圖挖掘問題, 并提出了一個基于OSCTI檢測的網(wǎng)絡(luò)威脅狩獵系統(tǒng)Poirot。該系統(tǒng)依托圖挖掘關(guān)聯(lián)技術(shù), 將威脅情報和網(wǎng)絡(luò)原始日志、終端日志、告警日志進行關(guān)聯(lián)分析, 既可從攻擊者視角完整揭示網(wǎng)絡(luò)攻擊活動的戰(zhàn)術(shù)攻擊路徑, 也能從被控主機視角完整描繪被控主機網(wǎng)絡(luò)行為, 呈現(xiàn)出威脅全貌。Kim等人[80]提出了一種OSCTI收集管理框架CyTIME, 可在無需人工干預(yù)的情況下自動生成入侵檢測系統(tǒng)和惡意軟件防御系統(tǒng)的安全規(guī)則, 用于實時識別新網(wǎng)絡(luò)安全威脅。該工具能夠高效自動為每個用戶生成和存儲安全規(guī)則。
除了上述對威脅進行識別搜索, 文獻[81]提出了一種基于開源威脅情報數(shù)據(jù)進行實時識別威脅主題的方法。該方法能夠在威脅檢測平臺邊界中檢測失陷主機, 同時增強流量的檢測覆蓋度。文獻[82]提出了一個用于OSCTI建模和威脅類型識別的實用系統(tǒng)HinCT。該系統(tǒng)設(shè)計一個威脅情報元模式來描述基礎(chǔ)設(shè)施節(jié)點的語義關(guān)聯(lián), 進而在異質(zhì)信息網(wǎng)絡(luò)上構(gòu)建網(wǎng)絡(luò)威脅情報模型, 將各類節(jié)點關(guān)系的信息進行高級語義的集成。作者通過設(shè)計一種基于權(quán)重學(xué)習(xí)的元路徑和元圖的威脅基礎(chǔ)設(shè)施相似度度量方法, 結(jié)合異質(zhì)圖卷積網(wǎng)絡(luò)算法融合節(jié)點屬性和基于元路徑和元圖的相似鄰接關(guān)系, 從而識別基礎(chǔ)設(shè)施節(jié)點的威脅標簽。文獻[83]認為對惡意資產(chǎn)的把握有助于威脅識別搜索, 進而提出了一種基于開源威脅情報的黑客社區(qū)惡意資產(chǎn)分析工具, 并運用深度學(xué)習(xí)算法及自學(xué)習(xí)檢測模型對可能的內(nèi)網(wǎng)滲透攻擊進行主動搜索識別。文獻[84]將主動威脅發(fā)現(xiàn)工作建模為圖形計算問題, 通過運用威脅情報知識圖譜技術(shù)實現(xiàn)了威脅事件的線索提取。該方法實現(xiàn)了一套自動證據(jù)挖掘和交互式數(shù)據(jù)檢查的編程工具, 可用于以威脅情報數(shù)據(jù)為驅(qū)動的安全檢測。
態(tài)勢感知是以大數(shù)據(jù)分析為基礎(chǔ), 實現(xiàn)對安全威脅的發(fā)現(xiàn)識別、理解分析、響應(yīng)處置, 從而完成對系統(tǒng)安全威脅的全局視角把控。一般來說, 為盡可能從整體上動態(tài)掌握網(wǎng)絡(luò)安全全局狀況, 安全防御者需要盡可能引入外部信息來幫助其應(yīng)對日趨復(fù)雜多變的新型網(wǎng)絡(luò)威脅。開源威脅情報是一種基于環(huán)境的情報信息, 對于特定安全威脅具有靶向性。合理運用開源情報信息, 有利于快速感知發(fā)現(xiàn)網(wǎng)絡(luò)威脅?;谶@種認識, Husari等人[85]提出了一種利用開源情報信息來感知探測APT攻擊方法。該方法主要是利用博客、電子郵件和社交媒體等非結(jié)構(gòu)化信息來提取并構(gòu)建TTP鏈。具體來說, 作者利用NLP方法將非結(jié)構(gòu)化的開源情報信息解構(gòu)成標準STIX2格式的威脅情報, 結(jié)合機器學(xué)習(xí)方法解析推斷出整個APT攻擊的時間關(guān)系, 并通過流行的ATT&CK框架將情報內(nèi)容翻譯成可解釋的TTP鏈, 可用于網(wǎng)絡(luò)威脅態(tài)勢的監(jiān)測。上海大學(xué)的李等人[86]針對攻擊鏈模型進行了仔細研究, 提出了一種基于DNS流量和開源威脅情報系統(tǒng)的APT探測模型。在該模型中, 作者以DNS流量作為APT整體檢測的原始數(shù)據(jù), 利用開源威脅情報信息測算整個系統(tǒng)DNS域名的風(fēng)險值。國家互聯(lián)網(wǎng)應(yīng)急中心的溫等人[87]提出了一種探測和預(yù)測APT攻擊的方法。該方法綜合運用情報收集、網(wǎng)絡(luò)安全監(jiān)控、基于知識的推理等手段對網(wǎng)絡(luò)整體態(tài)勢進行把握。實際測驗表明該方法能夠準確高效檢測和預(yù)測APT。總體來看, 現(xiàn)有利用開源威脅情報進行APT探測的研究工作中, 一個共性方法是利用博客、電子郵件和社交媒體等開源威脅情報信息來學(xué)習(xí)生成APT攻擊鏈, 即各威脅動作的時序關(guān)系, 并基于此建立TTP模型來實現(xiàn)對APT攻擊的快速感知和發(fā)現(xiàn)。
態(tài)勢感知應(yīng)用于系統(tǒng)安全防護時一般需要和具體業(yè)務(wù)流程結(jié)合, 而將開源威脅情報整合運用, 有利于改善業(yè)務(wù)流程的整體安全態(tài)勢。Gschwandtner等人[88]提出了一個在現(xiàn)有信息安全管理系統(tǒng)(Information Security Management, ISM)中集成OSCTI的框架, 以幫助組織增強其信息安全管理能力。該框架能使安全專業(yè)人員規(guī)劃、集成和管理OSCTI內(nèi)容, 同時輔助增強企業(yè)安全預(yù)算管理和企業(yè)網(wǎng)絡(luò)彈性。一些新型網(wǎng)絡(luò)攻擊逐步瞄準關(guān)鍵基礎(chǔ)設(shè)施中的工業(yè)控制系統(tǒng)。由于現(xiàn)有工控系統(tǒng)大都由各種PLC控制系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)及云系統(tǒng)混雜構(gòu)成, 如何設(shè)計安全架構(gòu), 監(jiān)控識別攻擊, 實施動態(tài)威脅感知防御成為一個難點問題。南威爾士大學(xué)的團隊[89]提出了一種基于Beta混合隱馬爾可夫機制(Hybrid Hidden Markov Mechanism, MHMM)的新開源威脅情報態(tài)勢感知架構(gòu)用以監(jiān)視識別來自工業(yè)4.0的網(wǎng)絡(luò)威脅攻擊。在該方案中, 作者對混雜物理和網(wǎng)絡(luò)系 統(tǒng)的工業(yè)4.0組件進行動態(tài)交互建模以實現(xiàn)監(jiān)視識別功能。該機制在現(xiàn)實世界工業(yè)4.0系統(tǒng)中具有良好的適用性。
現(xiàn)有大部分利用開源威脅情報進行安全態(tài)勢感知的研究工作, 都假設(shè)攻擊及防御都為單次靜態(tài)的, 并且威脅攻擊總是出現(xiàn)在防御之前。而從現(xiàn)實情況來看, 隨著攻防兩端不斷更新攻擊及防御策略, 網(wǎng)絡(luò)安全態(tài)勢一直在處于此消彼長的動態(tài)變化中。博弈論結(jié)合開源威脅情報近年也被引入至威脅態(tài)勢感知研究工作中。為幫助理解網(wǎng)絡(luò)安全態(tài)勢變化的趨勢, 文獻[90]提出了一種云計算環(huán)境下利用隨機博弈和開源威脅情報的網(wǎng)絡(luò)安全態(tài)勢感知方法, 該方法利用博弈雙方的效用來量化網(wǎng)絡(luò)安全態(tài)勢, 并探尋了該博弈模型的Nash均衡狀態(tài)。文獻[91]提出了一種基于開源威脅情報的網(wǎng)絡(luò)攻擊預(yù)測方法, 該方法基于攻擊者和防御者之間的博弈關(guān)系, 結(jié)合高質(zhì)量開源威脅情報中的上下文數(shù)據(jù)和攻防混合策略Nash均衡來預(yù)測攻擊行為。文獻[92]收集包含攻擊媒介的大型國際黑客論壇, 使用深度學(xué)習(xí)文本分類來探測新興的惡意移動軟件變化趨勢。該研究框架可以應(yīng)用于探測其他黑客論壇資產(chǎn), 以確定與用戶相關(guān)的領(lǐng)域中的惡意軟件趨勢和主要傳播者。文獻[93]則充分利用來自經(jīng)驗測量的真實開源網(wǎng)絡(luò)威脅情報, 并以輕耦合方式整合至業(yè)務(wù)系統(tǒng)。通過運用威脅情報, 業(yè)務(wù)系統(tǒng)可將網(wǎng)絡(luò)和物理環(huán)境聯(lián)合起來, 結(jié)合博弈策略來預(yù)測、推斷和歸因有形的計算機程序產(chǎn)品攻擊, 以提升業(yè)務(wù)產(chǎn)品的安全性。文獻[94]提出了一種基于開源威脅情報的社交物聯(lián)網(wǎng)(Social Internet of Things, SIoT)賬戶惡意行為預(yù)測方法。該方法利用支持向量機獲取與目標賬戶惡意行為相關(guān)的開源威脅情報, 分析開源威脅情報中的上下文數(shù)據(jù)關(guān)系來預(yù)測惡意賬戶的行為, 并探究了最終可能的平衡狀態(tài)。在這些研究工作中, 開源威脅情報作為防御方的動作策略集, 是其預(yù)測潛在攻擊行為的重要基礎(chǔ)。而另一方面, 由于社交媒體、博客和黑暗網(wǎng)絡(luò)漏洞市場等情報的多種語言特點, 阻礙了威脅情報的解析及預(yù)測效率。為更好利用開源信息進行網(wǎng)絡(luò)態(tài)勢感知, Ranade等人[95]提出了一種基于神經(jīng)網(wǎng)絡(luò)的開源情報跨語言翻譯系統(tǒng)。該系統(tǒng)使用多語言威脅情報系統(tǒng)來協(xié)調(diào)不同語言的網(wǎng)絡(luò)術(shù)語表示, 幫助安全分析師及時理解并抓住多語言威脅情報中的關(guān)鍵信息, 從而擴展至全球范圍內(nèi)安全監(jiān)控, 威脅預(yù)測感知能力。
隨著網(wǎng)絡(luò)攻擊中可利用的惡意工具或軟件越來越趨于常態(tài)化, 傳統(tǒng)的基于異常和基于簽名等的檢測技術(shù)已經(jīng)難以保證其檢測時效性。開源威脅情報惡意檢測旨在利用開源情報信息挖掘檢測可能對目標資產(chǎn)造成損害的攻擊對象, 包括惡意軟件、惡意URL等。近年來國內(nèi)外研究學(xué)者針對該方向也展開了大量的研究工作。Gandotra等人[96]設(shè)計實現(xiàn)了一個可幫助安全人員分析、識別和預(yù)測惡意軟件并進行早期預(yù)警的框架(Early Warning System, EWS)。通過該框架生成的威脅情報可以與安全機構(gòu)共享, 以便安全人員發(fā)布建議和預(yù)防措施來應(yīng)對未來的惡意軟件威脅。在惡意軟件識別中, 針對惡意軟件進行甄別分類有利于更好了解惡意軟件感染方式及威脅級別。胡等人[97]提出了一種基于開源威脅情報的惡意軟件機器學(xué)習(xí)分類器。該方法通過開源情報信息來提取惡意軟件中的多方面內(nèi)容特征, 如指令序列及字符串等, 能夠高效完成惡意軟件檢測分類。Piplai等人[98]提出了一種開源威脅情報結(jié)合網(wǎng)絡(luò)安全知識圖譜進行惡意軟件檢測的方法。該方法的主要思路是將開源威脅情報中提取的知識與沙箱中捕獲的惡意軟件行為數(shù)據(jù)構(gòu)建知識圖譜, 并運用圖挖掘技術(shù)來推斷識別惡意軟件行為。在惡意軟件的識別檢測中, 惡意對象的特征提取是其關(guān)鍵步驟。一個準確且具有良好表征意義的特征可有效提升檢測效率。應(yīng)用開源威脅情報對于準確提取惡意軟件特征有良好的借鑒作用。來自美國馬里蘭大學(xué)的團隊[99]提出了一種端到端特征集自動生成方法FeatureSmith, 用以從安全會議發(fā)表的論文內(nèi)容中自動提取用于訓(xùn)練機器學(xué)習(xí)分類檢測器的特征集。該團隊還利用FeatureSmith自動生成了一個用于檢測惡意軟件的特征集, 可集成到已有安全系統(tǒng)中為惡意軟件檢測提供便利。
惡意URL也是一種典型的惡意攻擊載體, 當前主流的防御方法主要依靠黑名單機制, 其準確性及靈活性較差。引入機器學(xué)習(xí)方法來優(yōu)化惡意URL檢測是常見的解決方法, 但也存在由于URL的短文本特性所導(dǎo)致的特征單一等不足。中國科學(xué)院大學(xué)的汪鑫等人[100]提出了一種將開源威脅情報與URL檢測相結(jié)合的思路, 并實現(xiàn)了一個基于開源威脅情報平臺的惡意URL檢測系統(tǒng)。該系統(tǒng)從開源情報信息源中提取出URL字符串的結(jié)構(gòu)特征、情報特征和敏感詞特征等三類特征, 輔以訓(xùn)練分類器, 并引入多分類器投票機制來提升分類精度??缯灸_本XSS攻擊作為惡意URL的一種典型威脅, 傳統(tǒng)檢測方式一般依靠靜態(tài)分析和動態(tài)分析。文獻[101]提出了一種基于貝葉斯網(wǎng)絡(luò)域內(nèi)知識和開源威脅情報集成學(xué)習(xí)的XSS攻擊檢測方法。在該文中, 作者收集了大量開源威脅情報信息, 并用其生成模擬真實環(huán)境的XSS攻擊檢測數(shù)據(jù)集。實際實驗表明, 該數(shù)據(jù)集可有效模擬真實場景。
惡意攻擊會對數(shù)據(jù)安全、資產(chǎn)系統(tǒng)造成嚴重危害, 而攻擊現(xiàn)場往往蘊含著有關(guān)攻擊方的豐富信息??刹扇?shù)字取證分析得到惡意攻擊來源、模式以及攻擊方的畫像, 以幫助改進系統(tǒng)后續(xù)防御效能。鑒于現(xiàn)階段系統(tǒng)數(shù)據(jù)流量巨大, 攻擊技術(shù)日趨復(fù)雜, 這些特性都給安全事故現(xiàn)場的數(shù)字取證帶來困難。數(shù)字取證結(jié)合威脅情報信息有利于安全事件的調(diào)查取證和快速溯源?;谶@種認識, Serketzis等人[102]利用可操作的OSCTI基于已有的數(shù)字取證準備(Digital Forensic Readiness, DFR)模型開發(fā)擴展的輕量級DFR模型, 旨在實現(xiàn)快速有效的數(shù)據(jù)分類, 使響應(yīng)者或取證分析師能夠快速過濾掉與系統(tǒng)危害無關(guān)的數(shù)據(jù)類, 顯著提高通過針對惡意活動模式的數(shù)字取證效率。為增強現(xiàn)有DFR方案的有效性, Serketzis等人[103]又結(jié)合數(shù)字取證技術(shù), 定量運用開源威脅情報數(shù)據(jù)來識別高取證價值信息, 以此用于快速分類和識別惡意軟件的攻擊模式。
本節(jié)具體介紹了開源情報關(guān)聯(lián)分析的網(wǎng)絡(luò)狩獵、態(tài)勢感知和惡意檢測三個重要應(yīng)用方向, 闡述了依這三個關(guān)聯(lián)分析應(yīng)用方向搜集選取的代表性研究工作, 并對這三個關(guān)鍵應(yīng)用方向中研究工作進行詳細比較分析, 如下表4所示, 表中每一行代表一項研究工作, 第1列代表相關(guān)開源威脅情報聯(lián)合分析研究被分類的三個主要方向; 第3列為每個研究工作的具體技術(shù)應(yīng)用場景; 第4列為該項研究為實現(xiàn)任務(wù)所應(yīng)用的具體技術(shù)方法, 主要從數(shù)據(jù)處理, 關(guān)系模型構(gòu)建, 檢測方法以及數(shù)據(jù)存儲方向進行歸納分析; 第5列為性能評估; 第6列為通過總結(jié)優(yōu)缺點對該項研究工作的評價。
綜合表4的對比分析可以看出, 開源威脅情報關(guān)聯(lián)應(yīng)用的研究文獻綜合利用了機器學(xué)習(xí)、NLP、數(shù)據(jù)庫等技術(shù)方法, 涵蓋網(wǎng)絡(luò)狩獵、態(tài)勢感知、惡意檢測等極為普遍的安全領(lǐng)域交互應(yīng)用場景。從應(yīng)用角度來看, 網(wǎng)絡(luò)狩獵側(cè)重于針對未知、新式、變異等攻擊威脅的搜尋檢測; 態(tài)勢感知更關(guān)注于提升對全局威脅形勢把握的技術(shù)手段的研究, 包括整體決策, 威脅分類, 攻擊預(yù)測等。惡意檢測則是針對可能對目標資產(chǎn)造成實質(zhì)侵害的惡意對象實體, 如惡意軟件、URL和活動等。從技術(shù)實現(xiàn)角度來看, 相較網(wǎng)絡(luò)狩獵以及惡意檢測關(guān)聯(lián)分析, 開源威脅情報態(tài)勢感知分析更多的應(yīng)用了深度學(xué)習(xí)技術(shù)來進行全局威脅情勢把握與預(yù)測。本章節(jié)梳理工作可幫助研究學(xué)者和從業(yè)者了解主流開源威脅情報的關(guān)聯(lián)應(yīng)用場景與方法, 快速確定研究方向或為已有安全問題提供解決思路。隨著針對關(guān)鍵基礎(chǔ)設(shè)施的威脅攻擊日趨復(fù)雜, 開源威脅情報在威脅關(guān)聯(lián)分析中將占據(jù)更加重要的比重, 亟需在已有基礎(chǔ)上投入更多的人力物力精細化深入拓展開源威脅情報關(guān)聯(lián)應(yīng)用。
表4 開源威脅情報聯(lián)合分析相關(guān)研究分類總結(jié)對比 Table 4 Classification, summary and comparison of related research on OSCTI joint analysis
續(xù)表
開源威脅情報具有種類多樣、內(nèi)容豐富、快速靈活等特點, 可作為直接或潛在安全威脅的外部鑒定信息資源, 有效提高網(wǎng)絡(luò)攻擊的檢測識別與響應(yīng)處理能力。本文聚焦于開源威脅情報挖掘應(yīng)用技術(shù), 系統(tǒng)梳理分析了近年來開源威脅情報挖掘相關(guān)工作的研究現(xiàn)狀, 歸納總結(jié)出了開源威脅情報挖掘的一般流程框架模型, 并針對開源威脅情報識別提取, 開源威脅情報融合評價以及開源威脅情報關(guān)聯(lián)應(yīng)用三個關(guān)鍵場景進行了系統(tǒng)評述和優(yōu)劣勢分析。通過歸納總結(jié)分析現(xiàn)有研究成果, 本文發(fā)現(xiàn)開源威脅情報挖掘無論從信息源的拓展, 數(shù)據(jù)質(zhì)量評價還是在安全防御中的應(yīng)用價值, 都呈現(xiàn)快速發(fā)展的趨勢, 但也存在一些局限性?,F(xiàn)有這些局限問題的存在為未來開源威脅情報的發(fā)展提供了機遇和挑戰(zhàn)。結(jié)合近幾年的研究熱點, 目前開源威脅情報挖掘研究工作的局限性及其發(fā)展趨勢主要表現(xiàn)在以下幾個方面:
(1) 面向?qū)W術(shù)研究的統(tǒng)一信息模型和框架
現(xiàn)有開源威脅情報挖掘研究主要局限于某個特定開源社區(qū)或者某個特定的社交平臺, 其研究方法主要是按研究對象的不同進行具體區(qū)分, 學(xué)術(shù)角度看尚未形成具有明晰脈絡(luò)的技術(shù)體系, 缺少從全局和共性的角度去考慮開源情報數(shù)據(jù)的信息模型及其挖掘問題的基礎(chǔ)性研究工作。這種情況不利于該領(lǐng)域相似研究工作的繼承、借鑒和比較, 也不利于該領(lǐng)域的長期發(fā)展和積累。從已有開源情報挖掘相關(guān)工作分析中不難看出, 很多開源情報挖掘問題都可通過應(yīng)用命名實體識別技術(shù)或其他人工智能技術(shù), 如正則表達式匹配, BiLSTM+CRF等來進行實現(xiàn), 不同的開源情報平臺, 如社交網(wǎng)絡(luò)、技術(shù)博客或研究報告等都完全可以共享同一個信息模型和基礎(chǔ)算法。如何構(gòu)建形成面向?qū)W術(shù)研究的統(tǒng)一信息模型和框架是一個重要問題。
(2) 面向數(shù)據(jù)投毒的情報應(yīng)用風(fēng)險評估
由于開源信息平臺其固有的開放多源性, 使其威脅情報質(zhì)量很容易受到錯誤信息干擾。例如攻擊者可采用人工智能和機器學(xué)習(xí)等技術(shù), 針對數(shù)據(jù)訓(xùn)練過程中的漏洞, 往目標訓(xùn)練數(shù)據(jù)集中注入“中毒數(shù)據(jù)”, 從而生成虛假威脅情報, 甚至迫使模型學(xué)習(xí)錯誤的輸入以服務(wù)于攻擊者的惡意目標, 來破壞網(wǎng)絡(luò)防御系統(tǒng)。目前國內(nèi)外對針對威脅情報挖掘領(lǐng)域中數(shù)據(jù)風(fēng)險把控方面的研究相對較少。一方面是由于國內(nèi)開源情報挖掘大環(huán)境還處于萌芽狀態(tài), 尚無有效的情報分析機制。由于不同挖掘模式下的數(shù)據(jù)類型和服務(wù)類型不同, 需要研究建立具有較好適應(yīng)性、有效性的風(fēng)險分析與評估模型, 而目前開源威脅情報挖掘領(lǐng)域在風(fēng)險評估方面缺少體系研究, 知識積累不足。針對上述問題, 可研究和借鑒現(xiàn)有大數(shù)據(jù)、人工智能等領(lǐng)域的相關(guān)成熟技術(shù), 結(jié)合威脅情報的自身特點進行深入的探索。
(3) 面向大眾的開源情報開發(fā)支撐工具
開源情報挖掘主要采用大眾生產(chǎn)模式, 越來越多的外部開發(fā)者通過公開發(fā)布方式在開源平臺中貢獻威脅情報信息。外部貢獻已經(jīng)成為開源威脅情報的主要推動力, 近年來在威脅情報中的比重呈不斷增長趨勢。限制開源情報發(fā)展的一個重要因素在于威脅情報生產(chǎn)具有相當?shù)募夹g(shù)門檻, 這主要包括兩個方面原因: 一方面, 包含威脅情報的安全流量數(shù)據(jù)一般存在于專用安全檢測設(shè)備中, 如蜜罐、防火墻中, 難以輕易獨立獲取;另一方面, 即使獲取到安全檢測等數(shù)據(jù), 也需要開發(fā)者具有威脅情報的專業(yè)知識來從中提取出威脅情報信息。研究一個面向大眾的開源情報開發(fā)支撐工具, 實現(xiàn)對大規(guī)模異構(gòu)流量數(shù)據(jù)條件下的快速威脅情報定位、提取, 并建立統(tǒng)一的威脅數(shù)據(jù)信息模型, 對于建立更為友好的威脅情報生態(tài)具有重要意義。
(4) 面向全環(huán)節(jié)的開源情報時效性提升
現(xiàn)有開源情報挖掘技術(shù)多通過爬蟲等技術(shù)在開放信息源中進行遍歷提取, 在性能指標中更關(guān)注于情報的準確性、覆蓋性。隨著網(wǎng)絡(luò)威脅的更新迭代日趨頻繁, 對于威脅情報的時效性指標也要求越來越高?,F(xiàn)有開源威脅情報挖掘研究工作大都瞄準從某個具體環(huán)節(jié)對挖掘效率進行提升[111-120]。而實際上, 開源威脅情報深度挖掘的各個環(huán)節(jié)都在影響整體的速度效率, 提升威脅情報的時效性需要從整體上進行綜合把握。例如開源情報信息源有很多是通過論壇, 社交網(wǎng)絡(luò)等平臺, 以流數(shù)據(jù)形式動態(tài)產(chǎn)生, 因此針對大規(guī)模動態(tài)開源情報網(wǎng)絡(luò)信息, 通過研究高效的模型和算法, 來盡可能提升開源情報挖掘效率是一個重要環(huán)節(jié)。另外高質(zhì)量的威脅情報本質(zhì)來源于情報發(fā)布者的及時分享及發(fā)布, 這一般由情報發(fā)布者自我驅(qū)動。如何設(shè)計合適的激勵機制, 綜合考量威脅情報的價值, 從而激勵各個組織主動及時產(chǎn)出并共享更多的威脅情報是影響威脅情報質(zhì)量提升的關(guān)鍵問題。而目前激勵機制設(shè)計的首要難點是解決威脅信息數(shù)據(jù)價值評估難度大、威脅信息交易收益不易計量的問題。
網(wǎng)絡(luò)技術(shù)日益翻新的今天, 開源威脅情報挖掘技術(shù)可緩解傳統(tǒng)威脅情報信息量單薄等問題, 其研究發(fā)展得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。但是對開源威脅情報挖掘研究工作進行系統(tǒng)化梳理的相關(guān)研究成果并不多。本文對當前開源情報挖掘領(lǐng)域進行梳理, 重點分析了開源威脅情報從采集識別提取至融合評價再至關(guān)聯(lián)分析交互場景應(yīng)用的完整基于開源信息平臺開源威脅情報挖掘流程, 并基于現(xiàn)有研究工作, 提出了當前開源威脅情報挖掘工作中存在的問題以及未來發(fā)展方向, 旨在為威脅情報應(yīng)用及其他相關(guān)安全領(lǐng)域的研究和實踐提供有益借鑒。