国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)威脅情報處理方法綜述

2023-04-29 00:44:03吳沛穎王俊峰崔澤源范曉宇葛文翰林同燦余堅唐賓徽
關(guān)鍵詞:深度學(xué)習(xí)

吳沛穎 王俊峰 崔澤源 范曉宇 葛文翰 林同燦 余堅 唐賓徽

摘要:網(wǎng)絡(luò)威脅情報是對網(wǎng)絡(luò)攻擊者的動機、行為等進行收集處理和分析的威脅行為知識集合.威脅情報文本包含豐富的攻擊行為特征、惡意軟件描述以及對系統(tǒng)所造成的影響等信息,能夠幫助實現(xiàn)對攻擊行為的建模分析.對網(wǎng)絡(luò)威脅情報處理和分析能夠幫助組織更好地理解威脅,從而做出更快、更有效的安全決策,并在網(wǎng)絡(luò)威脅的響應(yīng)和防御過程中由被動轉(zhuǎn)向主動.然而,由于情報文本中復(fù)雜的語義信息和行為邏輯關(guān)系,從中識別和提取出有價值的關(guān)鍵信息和可操作建議一直存在著很大挑戰(zhàn).隨著人工智能的快速發(fā)展,關(guān)于網(wǎng)絡(luò)威脅情報關(guān)鍵信息的自動化提取的研究取得了一定進展.然而,目前還缺乏針對具體分析內(nèi)容的處理方法的系統(tǒng)性分析與整理.本文首先介紹了網(wǎng)絡(luò)威脅情報的相關(guān)基本概念;然后對威脅情報所能提供的關(guān)鍵信息及其價值進行闡述;隨后對近年網(wǎng)絡(luò)威脅情報處理的研究工作進行梳理和總結(jié);最后,總結(jié)了網(wǎng)絡(luò)威脅情報處理領(lǐng)域面臨的挑戰(zhàn),并展望了未來的研究方向.

關(guān)鍵詞:網(wǎng)絡(luò)威脅情報; 攻擊行為特征; 深度學(xué)習(xí); 自動化提取

中圖分類號:??TN915.08 文獻標(biāo)識碼:A? DOI:DOI:10.19907/j.0490-6756.2023.050001

收稿日期: ?2023-08-13

基金項目: ?國家重點研發(fā)計劃(2022YFB3305200); 國家自然科學(xué)基金(U2133208); 四川省青年科技創(chuàng)新研究團隊(2022JDTD0014)

作者簡介: ?吳沛穎(2000-), 四川成都人, 碩士研究生, 研究方向為網(wǎng)絡(luò)空間安全. E-mail: 997528113@qq.com

通訊作者: ??王俊峰. E-mail:wangjf@scu.edu.cn

A survey of cyber threat intelligence processing methods

WU Pei-Ying ?1 , WANG Jun-Feng ?1,2 ?, CUI Ze-Yuan ?2 , FAN Xiao-Yu ?2 , ?GE Wen-Han ?1 , LIN Tong-Can ?1 , YU Jian ?1 , TANG Bin-Hui ?3

(1.College of Computer Science, Sichuan University, Chengdu 610065, China;

2.National Defense Key Laboratory of Visual Synthesis Graphics and Images, Sichuan University, Chengdu 610065, China;

3.School of Cyber Science and Engineering, Sichuan University, Chengdu 610065, China)

Cyber threat intelligence is a collection of threat behavior knowledge that collects, processes, and analyzes the motives and behaviors of cyber attackers. Threat intelligence text contains rich attack behavior characteristics, malware description,and impact on the system,which can help realize the modeling and analysis of attack behavior. The processing and analysis of cyber threat intelligence can help organizations better understand threats,thereby making faster and more effective security decisions,and shifting from reactive to proactive in the response and defense of cyber threats. However,due to the complex semantic information and behavioral logic relationships in intelligence texts,it has always been a great challenge to identify and extract valuable key information and actionable suggestions from them. With the rapid development of artificial intelligence,the research on the automatic extraction of key information of network threat intelligence has made some progress. However,there is still a lack of systematic analysis and collation of the processing methods for the specific analysis content. This paper first introduces the relevant basic concepts of cyber threat intelligence. Then elaborates on the key information and value that threat intelligence can provide. Then sorts out and summarizes the research work on cyber threat intelligence processing in recent years. Finally,summarize the challenges faced in the field of network threat intelligence processing,and look forward to the future research direction.

Cyber threat intelligence; Aggressive behavior characteristics; Deep learning; Automated ??extraction

吳沛穎, 等: 網(wǎng)絡(luò)威脅情報處理方法綜述

1 引 言 互聯(lián)網(wǎng)應(yīng)用呈指數(shù)級增長,網(wǎng)絡(luò)環(huán)境越來越復(fù)雜,各種網(wǎng)絡(luò)攻擊頻繁出現(xiàn).隨著社會經(jīng)濟和互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)攻擊者的目標(biāo)更加傾向于企業(yè)、政府等大型組織的關(guān)鍵信息基礎(chǔ)設(shè)施或重要信息系統(tǒng),攻擊手段的復(fù)雜性隨之不斷提升 ?[1] ,在過去十余年對全球政府與數(shù)字經(jīng)濟的關(guān)鍵部門造成了數(shù)萬億美元的損失 ?[2] .有計劃、有針對性的攻擊越發(fā)頻繁,例如2006年被提出的高級持續(xù)性威脅(Advanced Persistent Threat,APT)攻擊,具有強隱蔽性和針對性,組織嚴(yán)密且持續(xù)時間長,入侵后果極為嚴(yán)重.著名的APT攻擊“震網(wǎng)攻擊”是近代網(wǎng)絡(luò)攻擊的一個里程碑,伊朗布什爾核電站遭受Stuxnet蠕蟲攻擊,導(dǎo)致核離心機自行燒毀, 國防、電網(wǎng)等領(lǐng)域遭到極大破壞 ?[3] .據(jù)奇安信全球APT2023年中報告,涉及我國政府部門的APT事件占比高達33%,能源、科研和教育等重要行業(yè)遭受攻擊的情況也十分突出 ?[4] .表1總結(jié)了近年發(fā)生的著名網(wǎng)絡(luò)攻擊事件,涵蓋了多種攻擊手段.這些網(wǎng)絡(luò)攻擊事件對目標(biāo)組織造成了嚴(yán)重的損失.

隨著網(wǎng)絡(luò)攻擊的復(fù)雜化、武器化和軍事化,傳統(tǒng)的安全防御措施已無法滿足組織的安全需求.全方位了解攻擊者的信息并在網(wǎng)絡(luò)威脅防御和響應(yīng)過程中搶占主動地位變得至關(guān)重要,而由網(wǎng)絡(luò)威脅情報驅(qū)動的網(wǎng)絡(luò)安全防御是高效應(yīng)對復(fù)雜網(wǎng)絡(luò)威脅的關(guān)鍵 ?[8] .

網(wǎng)絡(luò)威脅情報是關(guān)于現(xiàn)有或即將出現(xiàn)的威脅信息,經(jīng)過提煉、分析和整理,包含了攻擊場景、機制、技術(shù)指標(biāo)和可采取行動的建議等,能夠輔助對網(wǎng)絡(luò)威脅進行響應(yīng)決策和分析 ?[10] .面對以APT為代表的能夠繞過基于啟發(fā)式和簽名的傳統(tǒng)防火墻、入侵檢測系統(tǒng)、殺毒軟件的新一代網(wǎng)絡(luò)攻擊,提供了有價值的攻擊相關(guān)信息的網(wǎng)絡(luò)威脅情報是幫助檢測和主動防御復(fù)雜網(wǎng)絡(luò)攻擊的重要信息來源 ?[11] ,在針對高級威脅行為展開協(xié)同響應(yīng)和積極防御中具有不可或缺的關(guān)鍵作用 ?[12] .

威脅情報能夠讓安全分析師或組織更好地了解攻擊者,從而更快地響應(yīng)威脅事件并主動領(lǐng)先于攻擊者的下一步行動,在復(fù)雜網(wǎng)絡(luò)攻擊溯源過程中具有不可替代的地位.許多部門組織已經(jīng)利用各自的技術(shù)收集了大量的威脅情報幫助防御決策 ?[12,13] .對于中小型企業(yè),威脅情報可以幫助其達到原本無法實現(xiàn)的安全保護級別;對于擁有大型安全團隊的企業(yè)或部門,則可以利用外部威脅情報來降低成本,并提高安全分析師的效率 ?[14] .

對于威脅情報處理相關(guān)研究的現(xiàn)狀,Cascavilla等 ?[15] 對威脅情報相關(guān)最新技術(shù)進行了梳理,并提供根據(jù)不同維度對網(wǎng)絡(luò)攻擊與威脅情報解決方案的分類;Sun等 ?[16] 全面回顧了從多種不同數(shù)據(jù)源挖掘威脅情報的研究工作,總結(jié)了CTI挖掘技術(shù),并提出了一種根據(jù)研究目標(biāo)對CTI挖掘進行分類的方法;Tang等 ?[12] 強調(diào)了智能威脅分析的重要性,對APT攻擊的智能威脅分析技術(shù)和最近的應(yīng)用研究進行了系統(tǒng)總結(jié),并為知識圖譜和 深度學(xué)習(xí)與威脅分析的結(jié)合提供了參考;崔琳等 ?[17] 系統(tǒng)梳理了近年對開源威脅情報挖掘技術(shù)的研究狀況,針對開源威脅情報采集與識別提取、情報融合評價和情報關(guān)聯(lián)應(yīng)用三個場景進行了分析,并評述了相關(guān)研究工作中所用技術(shù)的性能和優(yōu)缺點.

威脅情報蘊含大量不同結(jié)構(gòu)的有價值信息和潛在表達,需要根據(jù)獲取目標(biāo)應(yīng)用不同的處理方式和技術(shù)分門別類進行學(xué)習(xí)、提取和分析,從而充分利用威脅情報所提供的知識.以上的綜述工作涵蓋了不同技術(shù)與方向,但缺乏對具體處理內(nèi)容的側(cè)重深入探討.目前仍沒有從知識獲取目標(biāo)的角度進行細化的威脅情報處理方法的整理與研究.

本文系統(tǒng)性回顧了網(wǎng)絡(luò)威脅情報處理的發(fā)展?fàn)顩r,整體結(jié)構(gòu)和主要內(nèi)容如圖1所示.第2節(jié)整理了基本概念及數(shù)據(jù)來源;第3節(jié)對威脅情報所包含的關(guān)鍵知識進行總結(jié);第4節(jié)根據(jù)不同的提取與處理內(nèi)容對最新研究工作分別進行梳理探討;第5節(jié)對研究現(xiàn)狀所存在的問題及面臨的挑戰(zhàn)進行了分析,同時對未來的研究方向進行了展望.

2 網(wǎng)絡(luò)威脅情報概述

2.1 威脅情報概念

威脅情報的概念存在著多種定義.McMillan ?[18] 認為威脅情報是關(guān)于威脅的任何基于證據(jù)的知識,可以為決策提供信息,目的是防止攻擊或縮短妥協(xié)和檢測之間的窗口;Dalziel ?[19] 將威脅情報描述為“經(jīng)過提煉、分析和處理的數(shù)據(jù),使其具有相關(guān)性、可操作性和價值”;Shackleford ?[20] 認為威脅情報是“收集、評估和應(yīng)用的關(guān)于安全威脅、威脅參與者、漏洞利用、惡意軟件、漏洞和妥協(xié)指標(biāo)的數(shù)據(jù)集”;Tounsi等 ?[21] 對這些定義進行概括,認為威脅情報包含了有關(guān)現(xiàn)有或新出現(xiàn)的威脅的技術(shù)指標(biāo)、背景、機制、影響和可采取行動的建議.總的來說,威脅情報是對威脅手段、過程和參與者等網(wǎng)絡(luò)安全原始數(shù)據(jù)進行分析提煉、有助于網(wǎng)絡(luò)安全防御決策的知識集合.本文使用的相關(guān)專業(yè)術(shù)語的英文單詞首字母縮寫如表2所示.

威脅情報分析的目的是為了提供給安全團隊、決策者和其他相關(guān)人員有關(guān)威脅的信息,以便他們能夠更好地了解威脅并采取相應(yīng)措施 ?[22] .通過威脅情報分析,組織可以了解到攻擊者的行為模式、攻擊方式和攻擊目標(biāo)等信息,不僅可以幫助組織進行更加有效的安全決策,同時也能幫助組織更好地了解自身的安全狀況 ?[23] .

2.2 威脅情報生命周期

威脅情報不是端到端的工作,而是具有一個生命周期的循環(huán)過程.不同企業(yè)或安全組織所關(guān)注的威脅類型由于其業(yè)務(wù)性質(zhì)的不同而千差萬別,通過威脅情報生命周期的每個階段,可以提供一個連貫的結(jié)構(gòu),幫助確保威脅情報的輸出結(jié)果是可操作的,并與企業(yè)或組織的風(fēng)險管理和業(yè)務(wù)目標(biāo)一致.圖2給出了網(wǎng)絡(luò)威脅情報生命周期的具體構(gòu)成,并說明了每個階段所承擔(dān)的任務(wù).

在網(wǎng)絡(luò)安全的背景下,Brown等 ?[24] 將威脅情報描述為可操作信息或情報生命周期模型的產(chǎn)物.威脅情報的生命周期包含6個階段:需求識別、收集、處理、分析、傳播和反饋 ?[25] ,如圖2所示.除了直接向供應(yīng)商購買之外,大多數(shù)威脅情報項目都從需求識別開始,負責(zé)情報收集的人員直接與業(yè)務(wù)管理人員對接,確定需要的情報類型,以確保情報與業(yè)務(wù)和風(fēng)險管理目標(biāo)一致;在收集階段,可以使用專用的威脅情報平臺,或從相關(guān)來源收集原始數(shù)據(jù),例如內(nèi)部的網(wǎng)絡(luò)日志、網(wǎng)絡(luò)設(shè)備和安全設(shè)備的檢測、在特定網(wǎng)頁上抓取數(shù)據(jù);數(shù)據(jù)收集完畢后進行處理,首先要過濾掉虛假數(shù)據(jù)和冗余數(shù)據(jù),將類似的數(shù)據(jù)分組到一起,并進行格式化處理等 ?[26] ;分析階段是重中之重,決定了數(shù)據(jù)能否提供有價值的決策指導(dǎo)信息.在分析階段,需要在數(shù)據(jù)中提取出有意義的上下文信息并轉(zhuǎn)換為威脅情報;在傳播過程中,相關(guān)威脅情報被發(fā)送給相對應(yīng)的利益相關(guān)者,讓其從情報中獲取價值并幫助其進行決策 ?[27] ;情報發(fā)送完成之后,需要及時收集反饋以確定情報分析是否及時、有效并具有可操作性.反饋的問題有助于改進下一輪威脅情報的收集和分析,形成一個持續(xù)改進的循環(huán)和迭代過程.

可操作的情報始終是威脅情報生命周期的最終目標(biāo) ?[28] ,然而如Sauerwein等 ?[29] 研究所述,今天的大部分組織主要關(guān)注數(shù)據(jù)收集工作,而甚少關(guān)注生命周期的其他活動.Boeke等 ?[30] 表示,工具和數(shù)據(jù)源無法在沒有人為干預(yù)的情況下提供威脅情報.任何類型的情報都需要分析, 分析是由人類進行的,在威脅情報生命周期中必須始終有分析師參與.

2.3 威脅情報數(shù)據(jù)源

網(wǎng)絡(luò)威脅情報的數(shù)據(jù)獲取對于后期任務(wù)至關(guān)重要,數(shù)據(jù)的數(shù)量、時效性、多樣性和可信度等衡量手段對于后期任務(wù)具有重大價值和意義,也影響著主被動防御、溯源信息的質(zhì)量和處理效率.網(wǎng)絡(luò)威脅情報的來源非常多樣化,可以按照不同的維度進行分類.表3列出了從不同維度進行分類的主要威脅情報數(shù)據(jù)源.

2.3.1 威脅情報的公開性質(zhì)

(1) 開源情報數(shù)據(jù)源: 開源情報是從公開可用的信息源收集的情報,包括網(wǎng)絡(luò)、新聞、政府報告、公開的數(shù)據(jù)庫、暗網(wǎng)等.這些信息源可以通過各種方式獲取,包括網(wǎng)絡(luò)爬蟲、RSS訂閱、API調(diào)用等 ?[31] .相關(guān)機構(gòu)可以以較低成本獲得實時的、大量的、多樣化的不同來源信息,對于威脅情報的收集和分析有重大意義 ?[32] .例如開源威脅情報平臺VirusTotal,匯集了全球范圍內(nèi)的惡意軟件樣本及相關(guān)信息.它通過聚合不同安全廠商的報告,提供有關(guān)惡意軟件哈希值、行為分析和病毒掃描結(jié)果等信息.組織可以通過VirusTotal了解已知惡意軟件的特征,及時檢測和應(yīng)對已知威脅.

(2) 商業(yè)數(shù)據(jù)源:該類數(shù)據(jù)源通常由專門的安全公司提供,需要付費以獲取內(nèi)容.相關(guān)公司通常有專門的研究團隊,可以提供更深入、更專業(yè)的威脅情報,例如Recorded Future是一個商業(yè)的威脅情報提供商,通過網(wǎng)絡(luò)爬蟲等方法收集全球范圍的威脅信息并進行分析,以提供深入、專業(yè)的威脅情報.該類數(shù)據(jù)源能夠提供全面的、高質(zhì)量的威脅情報,不僅包括開源信息,還包括從專有源、甚至暗網(wǎng)等獲取的信息、專家分析與應(yīng)對建議等內(nèi)容 ?[33] .

(3) 內(nèi)部數(shù)據(jù)源:包括組織內(nèi)部產(chǎn)生的情報、內(nèi)部專家分析以及內(nèi)部共享的情報.組織內(nèi)部可能有安全團隊進行威脅情報的分析,并在組織內(nèi)部通過不同共享協(xié)議共享有關(guān)威脅情報的信息 ?[34] .

開源情報的特點在于實時性、多樣性,用于檢測常見攻擊模式核威脅,例如從博客中收集關(guān)于新型惡意軟件的相關(guān)信息,可以幫助及時預(yù)警;商業(yè)數(shù)據(jù)源專業(yè)性更高,能夠幫助組織深入地了解高級威脅并提供防御措施;內(nèi)部數(shù)據(jù)源具有針對性,可以幫助組織了解內(nèi)部網(wǎng)絡(luò)活動,及時發(fā)現(xiàn)異常行為.

2.3.2 威脅情報的結(jié)構(gòu)化程度

(1) 結(jié)構(gòu)化數(shù)據(jù)源:這些數(shù)據(jù)源提供的信息通常以結(jié)構(gòu)化的格式(如JSON、XML等)提供,易于機器閱讀和處理.例如,STIX、TAXII、CybOX等表示威脅情報的結(jié)構(gòu)化語言 ?[35] .這些協(xié)議或標(biāo)準(zhǔn)提供了一套描述和傳遞威脅情報的規(guī)范,能夠更準(zhǔn)確地獲取和共享威脅情報,提高威脅信息傳輸?shù)男?

(2) 非結(jié)構(gòu)化數(shù)據(jù)源:這些數(shù)據(jù)源提供的信息通常是文本形式,如博客文章、論壇帖子和推文等.這些信息需要通過數(shù)據(jù)挖掘技術(shù)進行收集,并經(jīng)過針對性的處理和專家分析之后才能提取出有價值的威脅信息,構(gòu)成威脅情報.

結(jié)構(gòu)化數(shù)據(jù)源的優(yōu)勢在于提供了自動化處理與分析的可行性,能夠幫助提升分析和共享的效率;非結(jié)構(gòu)化數(shù)據(jù)源的優(yōu)勢在于能夠捕捉更廣泛的威脅信息,但需要更多的人工干預(yù)和處理.

2.3.3 威脅情報的來源劃分

(1) 內(nèi)源數(shù)據(jù):內(nèi)部數(shù)據(jù)源主要來自于組織內(nèi)部的系統(tǒng)和網(wǎng)絡(luò),包括內(nèi)部攻擊組織報告、日志數(shù)據(jù)、入侵檢測系統(tǒng)(IDS)報警、防火墻報告和安全事件管理(SIEM)系統(tǒng)等.內(nèi)部數(shù)據(jù)重點關(guān)注組織運營的環(huán)境,提供了組織內(nèi)部正在發(fā)生的事件的宏觀視圖,有助于檢測是否存在性能問題和安全漏洞,盡早發(fā)現(xiàn)問題并防止非法活動,對組織內(nèi)部的安全防御和威脅應(yīng)對具有重要作用.

(2) 外源數(shù)據(jù):外源數(shù)據(jù)來自組織外部,包括開源數(shù)據(jù)源、商業(yè)數(shù)據(jù)源,以及其他組織分享的威脅情報.外源數(shù)據(jù)能夠提供更全面、更豐富的威脅信息,幫助組織建立態(tài)勢感知,掌握最新的威脅動態(tài)以改進相應(yīng)的安全防御決策.

內(nèi)源數(shù)據(jù)是特定組織的內(nèi)部產(chǎn)物,其內(nèi)容更加貼近組織的業(yè)務(wù)和運營特點,并且收集和記錄具有實時性,有利于更準(zhǔn)確地識別潛在威脅;外源數(shù)據(jù)具有多樣性和全面性的特點,有助于阻止了解完整的威脅動態(tài),避免盲區(qū).

以上不同數(shù)據(jù)源有各自的作用與價值,在實際運用中應(yīng)根據(jù)具體需求合理進行多數(shù)據(jù)源的集成與整合,避免單一數(shù)據(jù)導(dǎo)致的限制性,同時確保數(shù)據(jù)對組織安全分析的有效性.

3 網(wǎng)絡(luò)威脅情報關(guān)鍵內(nèi)容

根據(jù)對威脅情報處理結(jié)果的梳理,威脅情報知識獲取的目標(biāo)主要包括IOC、TTPs、威脅主體和威脅關(guān)系等4種.本節(jié)對這幾類能夠從網(wǎng)絡(luò)威脅情報中提取出的關(guān)鍵知識及其價值和意義進行了詳細闡述.

3.1 IOC

威脅指標(biāo)IOC是MANDIANT公司在長期的數(shù)字取證實踐中定義的可以反映主機或網(wǎng)絡(luò)行為的技術(shù)指示器.與實物證據(jù)一樣,IOC作為數(shù)字線索可以幫助網(wǎng)絡(luò)安全人員識別出數(shù)據(jù)泄露、惡意軟件感染等惡意活動和安全威脅,提高威脅檢測的準(zhǔn)確性和速度.常見的IOC有IP、域名、郵箱、漏洞、惡意軟件等 ?[36] .

獨立的IOC數(shù)據(jù)并不會包含太多的有用信息,比如一個IP地址,并不能知道被誰所有,或者用來做了什么事情;而包含在報告中的IOC則能夠與語義關(guān)聯(lián)起來,得知該IOC的出現(xiàn)場景 ?[37] .通常一篇威脅情報會包含與其內(nèi)容相關(guān)的IOC信息,會出現(xiàn)在正文中,或以表格、附頁形式羅列出來.但隨著網(wǎng)絡(luò)用戶大量增加,威脅情報數(shù)量日益增多,威脅情報格式多種多樣,不同團隊、組織發(fā)布的威脅情報格式各異,沒有統(tǒng)一的規(guī)范.威脅情報中包含IOC的數(shù)量、IOC信息出現(xiàn)的位置都大不相同,所以如何快速、自動化地從中抽取IOC信息,是一個非常有價值的研究內(nèi)容.圖3是美國著名安全公司FireEye提出的IOC痛苦金字塔模型,其從提取分析的困難程度從下往上由簡至難對IOC進行了分類.

3.2 TTPs

技戰(zhàn)術(shù)(TTPs)是從軍事術(shù)語衍生而來的三個不同級別的網(wǎng)絡(luò)攻擊活動,是對攻擊者在目標(biāo)制定策略、攻擊手段、攻擊過程等方面的詳細描述,同時也是威脅行為畫像體系的重要內(nèi)容 ?[39] .戰(zhàn)術(shù)(Tactic)是攻擊背后的總體目標(biāo)以及攻擊者實施攻擊所遵循的一般策略,是對攻擊行為的最高級別描述;技術(shù)(Technique)是對攻擊者在特定戰(zhàn)術(shù)背景之下的行為的進一步描述,是攻擊者用于實施攻擊的具體方法,例如數(shù)據(jù)竊取、跨站腳本攻擊等;過程(Procedures)是對技術(shù)上下文中的活動的更詳細、更底層的逐步描述,包括用于策劃攻擊的工具和方法.TTP的結(jié)構(gòu)允許分析人員組織哪些對抗行為屬于與特定技術(shù)和策略相關(guān)的特定程序,并幫助分析人員了解攻擊者可能試圖實現(xiàn)的目標(biāo)以及如何更好地進行防御 ?[40] .

ATT&CK框架是MITRE實驗室基于TTPs構(gòu)建的攻擊描述框架,如圖4所示.其站在攻擊者視角描述了攻擊過程各階段所用到的技戰(zhàn)術(shù).TTPs分析可以幫助安全研究人員將攻擊與已知的黑客或威脅組織關(guān)聯(lián)起來,集中調(diào)查攻擊路徑、識別威脅源頭和攻擊媒介、定義威脅的嚴(yán)重性.通過識別攻擊者及其組織,安全研究人員能夠確定與其他攻擊者可能存在的關(guān)系,還可以幫助識別新出現(xiàn)的威脅、預(yù)測即將到來的攻擊并制定對策,提高防御系統(tǒng)對網(wǎng)絡(luò)攻擊態(tài)勢的感知能力 ?[41] .

3.3 威脅主體

威脅主體(Cyber Threat Actor)指發(fā)起或可能發(fā)起網(wǎng)絡(luò)攻擊的個人或組織 ?[42] ,是威脅情報中一個關(guān)鍵的組成部分.威脅主體有很多類型,具有不同的屬性、動機、技能水平和攻擊手段.了解和分析不同類型的威脅主體及其動機能夠幫助組織更好地制定網(wǎng)絡(luò)安全策略,保護自身免受侵害和損失.

威脅主體在威脅情報中的內(nèi)容通常包括以下幾個方面 ?[43] :(1) 主體類型:威脅主體可以是個人黑客,也可以是犯罪團伙、恐怖組織或國家支持的黑客組織.了解威脅主體的類型可以幫助組織理解其可能的動機和能力.(2) 動機:威脅主體的動機可能包括金錢、政治、意識形態(tài)、競爭優(yōu)勢等.了解威脅主體的動機可以幫助預(yù)測其可能的目標(biāo)和攻擊方式.(3) 能力:這包括威脅主體的技術(shù)能力(例如,他們是否具有執(zhí)行APT攻擊的能力)和資源(例如,他們是否有足夠的資金和人力來執(zhí)行大規(guī)模的攻擊).(4) 行為模式:這包括威脅主體通常使用的攻擊技術(shù)、他們的攻擊頻率、他們是否有特定的目標(biāo)或行業(yè)偏好等.(5) 歷史記錄:威脅主體過去的行為,包括他們發(fā)起的攻擊類型、成功的攻擊、攻擊目標(biāo)、他們?nèi)绾芜m應(yīng)和發(fā)展他們的技術(shù)和戰(zhàn)略等.(6) 關(guān)聯(lián)信息:威脅主體可能與其他威脅主體或惡意軟件有關(guān)聯(lián),了解這些關(guān)聯(lián)可以幫助更好地理解威脅情景.

3.4 復(fù)雜威脅關(guān)系

威脅情報不僅包含了IOC、TTP等威脅實體,還包含了威脅主體與威脅實體之間、及不同威脅實體相互之間的關(guān)聯(lián).對多種不同的威脅關(guān)系信息進行梳理分析,可以幫助組織直觀地理解威脅主體的行為模式,進而更有效地預(yù)測威脅,制定防御策略.

威脅關(guān)系通常包括以下幾個方面:(1) 威脅主體與攻擊工具的關(guān)系:這包括威脅主體通常使用的攻擊工具和技術(shù),例如惡意軟件、釣魚郵件和零日漏洞等.(2) 威脅主體與攻擊目標(biāo)的關(guān)系:這包括威脅主體的目標(biāo)選擇,例如他們是否傾向于攻擊特定的行業(yè)或組織,或者他們是否有特定的地理或政治目標(biāo). (3) 威脅主體與其他威脅主體的關(guān)系:這包括威脅主體之間的合作或競爭關(guān)系,例如他們是否屬于同一個犯罪網(wǎng)絡(luò),或者他們是否在某些攻擊中合作.(4) 威脅主體與其歷史行為的關(guān)系:這包括威脅主體過去的攻擊行為,例如他們過去使用的攻擊技術(shù),他們的攻擊頻率,以及他們的攻擊成功率.(5) 威脅主體與其環(huán)境的關(guān)系:這包括威脅主體的地理位置、政治環(huán)境和技術(shù)環(huán)境等,這些因素可能影響他們的攻擊策略和目標(biāo).(6) 攻擊手段與目標(biāo)之間的關(guān)系:包括哪些攻擊手段更可能針對哪些目標(biāo),或者某類目標(biāo)是否更容易受到某種攻擊手段的攻擊.圖5給出了多個威脅實體之間具體的關(guān)系結(jié)構(gòu).

4 網(wǎng)絡(luò)威脅情報處理技術(shù)

4.1 IOC抽取

目前針對IOC自動提取這個特定領(lǐng)域的研究并不多,最初采用的方法為基于規(guī)則的提取.基于規(guī)則的方法是針對已有的IOC數(shù)據(jù)進行分類,并對每一類數(shù)據(jù)根據(jù)存在的樣本提取其中的特征,編寫特定的正則表達式,用于識別和定位威脅情報文本中的實體特征.該方法的優(yōu)點是規(guī)則制定快,抽取效率高,但規(guī)則需要人為制定,容易以偏概全,規(guī)則的全面性直接決定了提取效果的優(yōu)劣,同時還存在假陽性問題.

目前基于規(guī)則的開源抽取方法有很多,如Chris Morrow的python-IOCextract ?[45] ,Stephen Brannon的IOCextractor ?[46] 等,雖然能夠識別部分混淆,但對于現(xiàn)在的網(wǎng)絡(luò)環(huán)境來說,魯棒性依然不夠,也無法解決假陽性問題.規(guī)則制定依賴于語言且可擴展性很差,難以適應(yīng)變化.隨著規(guī)則數(shù)量和情報數(shù)據(jù)復(fù)雜性的增加,該方法的準(zhǔn)確性和效率難以達到理想效果 ?[47] .

隨著自然語言處理技術(shù)的成熟和對自動化提取的日漸重視,基于機器學(xué)習(xí)和深度學(xué)習(xí)的命名實體識別NER得到了進一步發(fā)展應(yīng)用 ?[48] .現(xiàn)有的較為主流的NER檢測方法一般是建立在以BIO標(biāo)注法及其變種劃分的數(shù)據(jù)集的基礎(chǔ)上的全監(jiān)督學(xué)習(xí)方法.其核心方法圍繞隱馬爾科夫模型、支持向量機、決策樹、最大熵模型、CRF ?[49] 、CNN ?[50,51] 和RNN ?[52,53] .

IOC提取的應(yīng)用十分常見,例如大型組織收到帶附件的電子郵件,需對其附件進行安全分析以確保不包含惡意內(nèi)容.首先可以使用基于規(guī)則的方法匹配附件文本,提取出可能的IP、域名等;針對文件哈希,則可以使用機器學(xué)習(xí)模型,對其是否為惡意文件進行檢測.

Yi等 ?[54] 將基于規(guī)則的方法與CRF模型相結(jié)合,首先使用規(guī)則和字典進行安全實體匹配,協(xié)助CRF模型結(jié)合上下文信息進一步提高識別性能.

Huang等 ?[55] 首次將Bi-LSTM-CRF模型用于序列標(biāo)注,將最后一層LSTM的輸出去預(yù)測標(biāo)簽分類,能夠關(guān)注前后時序信息,再通過CRF計算最大概率序列,該模型已經(jīng)成為NER領(lǐng)域的Base Line.之后Ma等 ?[56] 使用CNN提取字符集特征,提出了Bi-LSTM-CNNS-CRF.

Zhou等 ?[57] 首次將端到端的神經(jīng)序列標(biāo)記應(yīng)用于自動化IOC識別任務(wù),提出一個基于Bi-LSTM和條件隨機場的模型,利用注意力機制對每個token的重要性進行度量,在報告中包含大量沒有上下文的IOC的情況下,幫助LSTM對輸入的序列進行準(zhǔn)確編碼,并在模型中引入一些拼寫特征,使得模型在使用非常少的訓(xùn)練數(shù)據(jù)的情況下依然能表現(xiàn)良好,并能夠識別出低頻IOC,平均準(zhǔn)確率為90.4%.該模型的缺點是使用手工拼寫特征,很容易錯誤提取出類似IOC但不具有惡意的token導(dǎo)致較高的誤報率,而沒有引入上下文特征來解決這一問題.

注意力機制對于不同信息賦予不同權(quán)重,從而能夠篩選出重要的信息.Attention的思想很早就被提出,最早因Google Mind團隊將其用于圖像分類 ?[58] 而受到關(guān)注.Bahdanau等 ?[59] 將注意力機制用于機器翻譯,是在NLP領(lǐng)域的首次應(yīng)用.在Vaswani等 ?[60] 提出Transformer架構(gòu)之后,注意力機制和自注意力機制逐漸融入、代替了LSTM的功能,成為自然語言處理的主流方法.此后Zhao等 ?[61] 提出了一種基于多粒度注意力的IOC識別模塊.在傳統(tǒng)的Bi-LSTM-CRF的模型上綜合使用char-level, 1-gram, 2-gram和3-gram的新詞嵌入特征來捕獲不同大小的IOC特征,提高了IOC提取的準(zhǔn)確性;然后使用異構(gòu)信息網(wǎng)絡(luò)對IOC之間的相互依賴關(guān)系進行建模,利用句法依賴解析器 ?[62] 從威脅描述中提取IOC之間的關(guān)系,并使用基于權(quán)重學(xué)習(xí)的相似性度量,最后利用經(jīng)典的GCN來呈現(xiàn)兩個IOC之間的關(guān)系,從而更好地探索上下文.該研究能夠挖掘隱藏在IOC相互依賴的關(guān)系中威脅對象分類、威脅類型匹配等高級安全知識.

針對Zhou等 ?[57] 所提模型存在誤報率高的問題,Long等 ?[63] 在其工作基礎(chǔ)上進行了擴展,進一步引入了多頭自注意力模塊和上下文特征.多頭自注意力模塊能夠自適應(yīng)地增強每個單詞與其他單詞的信息的嵌入,使得卷積執(zhí)行的局部文本能夠攜帶全局信息.該模型輸入更多token特征,包括拼寫特征和上下文特征,能夠提高在有限數(shù)量數(shù)據(jù)集上的性能.該模型在英文測試集上的平均準(zhǔn)確率達93.1%,在中文測試集上的平均準(zhǔn)確率為82.9%.

考慮到將不同數(shù)據(jù)源相結(jié)合以提高IOC檢測精度的問題,Zhu等 ?[64] 將情報與現(xiàn)場收集的測量數(shù)據(jù)聯(lián)系起來,對威脅態(tài)勢進行分析.模型使用NLTK庫結(jié)合Stanford CoreNLP模型 ?[65] 解析單詞之間的語法關(guān)系,確定哪些單詞與IOC候選詞直接相關(guān);使用基于依賴關(guān)系的Word2Vec計算語義相似度,作為特征輸入到IOC分類器中,確定輸入的單詞是否是IOC及其所屬的活動階段.該模型在檢測IOC上達到了91.9%的精度,但在IOC分類工作上完成度不高,其用于判斷一個對象是否確實為IOC的特征采取較為有限,可能導(dǎo)致較高的誤報率;并且在分辨IOC所屬具體階段上較為模糊.該模型在分類活動階段上的平均精度僅為78.2%.

基于Transformer架構(gòu)的Encoder網(wǎng)絡(luò)誕生了BERT ?[66] 這一預(yù)訓(xùn)練網(wǎng)絡(luò).BERT使用深層的自注意力機制來預(yù)訓(xùn)練詞向量,來達到類似于Word2Vec ?[67,68] 的詞嵌入效果,但是其表現(xiàn)遠超Word2Vec.Liu等 ?[69] 利用正則表達式和微調(diào)的BERT模型識別IOC,針對將IOC分類到對應(yīng)句子所處活動階段的任務(wù),設(shè)計了一個觸發(fā)增強的IOC分類模型:當(dāng)輸入未見過的句子時,使用最相似的觸發(fā)向量來增強句子中關(guān)鍵字的權(quán)重,從而提高分類性能,在活動分類工作中的準(zhǔn)確率達86.55%.

為解決多義性和邊界模糊問題,Wang等 ?[70] 實現(xiàn)了一個基于知識工程的IOC實體識別模型,通過構(gòu)建知識庫提高了實體識別的準(zhǔn)確性.該模型首先通過BERT模型獲取上下文相關(guān)的詞向量表示,再輸入到Bi-LSTM層與CRF層對詞序列進行編碼和推理;最后按照實體特征類型,基于MITRE、Malware DB等開源網(wǎng)絡(luò)威脅知識庫構(gòu)建知識工程層,并基于最大匹配驗證算法對CRF層輸出的標(biāo)簽預(yù)測進行驗證,對錯誤的推理結(jié)果進行修正,在威脅情報實體識別任務(wù)上的平均準(zhǔn)確率達到92.53%.

Fang等 ?[71] 為克服傳統(tǒng)NER模型僅考慮局部依賴關(guān)系的問題,提出一種從圖形級別捕獲非局部和非順序依賴關(guān)系的GCN算法,幫助確定結(jié)構(gòu)復(fù)雜的新型實體詞語.該模型相比最流行的CNN-Bi-LSTM-CRF模型在性能上得到了顯著提升.

除了以上使用NER的方式,Liao等 ?[72] 首先利用規(guī)則抽取所有待定IOC實體,提出將IOC候選詞與其上下文之間的語法連接分析轉(zhuǎn)換為圖形挖掘問題.該研究通過依存語法分析構(gòu)建語法樹,使用Stanford依賴解析器 ?[73] 捕獲上下文術(shù)語與IOC之間的語義鏈接,并將句子轉(zhuǎn)換為依賴圖,然后使用圖挖掘技術(shù)直積核 ?[74] 來測量兩個圖的相似性來判斷是否為IOC實體,鑒別假陽性.

4.2 TTPs分析

與IOC相比,TTPs更注重攻擊行為的描述與關(guān)聯(lián) ,抽取IOC的技術(shù)并不能完全適用于抽取TTPs的過程.從威脅情報入手的TTPs研究目前大多停留于對語句的分類和行為界定上 ?[75] .對語句或文章的技戰(zhàn)術(shù)分類主要通過對原始文本的高度抽象并進行表征 ?[76] ,以形成能夠判斷文本主要核心內(nèi)容的嵌入式向量表達.對于技戰(zhàn)術(shù)的實體抽取和關(guān)鍵信息的定位、清洗、結(jié)構(gòu)化等并無太多研究.同時,威脅情報的TTPs信息抽取也有諸多影響計算機識別準(zhǔn)確率的因素存在,其中主要包括如下限制:(1) 標(biāo)準(zhǔn)多樣性:分析指標(biāo)多樣且快速迭代.例如ATT&CK標(biāo)準(zhǔn)就保證一年一大版本更新.因此僅有資深研究人員建立了對歷史版本的印象,能夠接納新版本并應(yīng)用到業(yè)務(wù)分析中;同時也不易存在對所有標(biāo)準(zhǔn)均認知成熟的研究者.(2) 發(fā)布多樣性:網(wǎng)絡(luò)威脅情報質(zhì)量格式多樣.披露網(wǎng)絡(luò)攻擊事件的組織有很多,發(fā)布的網(wǎng)絡(luò)威脅情報質(zhì)量和價值受人員從業(yè)經(jīng)驗、發(fā)布規(guī)范、書寫習(xí)慣和商業(yè)價值等社區(qū)因素影響,很難規(guī)范.(3) 描述多樣性: 技戰(zhàn)術(shù)分析具有較高抽象性,漏洞描述、動作描述、惡意代碼描述、組織描述和樣本描述都可能是技戰(zhàn)術(shù)的分析特征或入口.因此需要自動化方法對其兼收并蓄.

機器學(xué)習(xí)存在的問題是無法深入處理語義信息,沒有充分考慮語義特征而可能導(dǎo)致無法準(zhǔn)確捕獲安全實體.對于沒有明顯結(jié)構(gòu)特征的實體,采用深度學(xué)習(xí)融合實體的結(jié)構(gòu)特征和語義特征自動識別安全實體,能夠處理深層語義信息,有效地從情報中學(xué)習(xí)到有價值的表達和潛在關(guān)聯(lián)因素 ?[16] 、改善語義實體之間關(guān)系抽取的有效性 ?[77] .深度學(xué)習(xí)省去了特征構(gòu)建的工作量,且通過梯度傳播進行訓(xùn)練,能夠構(gòu)建更復(fù)雜的網(wǎng)絡(luò),解決更困難的深層語義信息提取任務(wù) ?[78] .

在實際生產(chǎn)應(yīng)用場景中,例如組織內(nèi)部系統(tǒng)受到外部入侵,安全團隊在分析時應(yīng)特別關(guān)注可能的TTPs以追溯攻擊者的行為,首先對系統(tǒng)日志文件進行傳統(tǒng)的檢測,例如基于規(guī)則等方法;由于攻擊者通常采用復(fù)雜攻擊方法,需要深度學(xué)習(xí)對日志文件的深層文本特征和語義信息進行更準(zhǔn)確的捕捉,從而識別出潛在的TTPs,如攻擊模式和入侵行為等,幫助更好地理解攻擊者的行為和意圖.

Husari等 ?[79] 提出一種威脅-動作本體用于描述網(wǎng)絡(luò)威脅的攻擊模式和技術(shù).該工作首先使用一個NLP工具 ?[80] 識別和提取威脅動作,然后構(gòu)建了一組正則表達式用于解析特殊術(shù)語,并映射到已知的攻擊模式和技術(shù)上,通過計算相似度得分對其進行歸類.該模型在識別提取TTP上取得了84%的平均準(zhǔn)確率.

Ge等人 ?[81] 在Husari等 ?[79] 的工作基礎(chǔ)上, 提出一種基于弱監(jiān)督關(guān)鍵信息評價模型.為確保所提取關(guān)鍵字的有效性, 其采用了專家評估和置信度評估兩大方法對關(guān)鍵詞質(zhì)量進行檢驗.該模型使用FastText ?[82] 單詞嵌入表達式將文本轉(zhuǎn)換為連續(xù)分布的詞嵌入向量,通過評估關(guān)鍵詞向量空間和非關(guān)鍵詞向量空間的離群度和空間映射,使用注意力機制實現(xiàn)對語句核心語義的篩選.同時通過多層 n -gram的注意力實現(xiàn)對不同粒度語義的多重選擇,具有在技戰(zhàn)術(shù)分類問題上的可解釋性和效率上的優(yōu)勢.該模型提高了從全尺寸威脅情報和惡意軟件中提取TTP的能力.

針對非結(jié)構(gòu)化威脅數(shù)據(jù)中提取和分類TTP的任務(wù),You等 ?[83] 構(gòu)建了一個威脅上下文增強的TTP挖掘模型.該模型由元素特征提取和描述特征提取兩條路徑組成,將多種TTP元素出現(xiàn)的次數(shù)用矩陣表示,使用兩個CNN過濾器來提取矩陣中共現(xiàn)TTP的元素特征;對給定的描述文本使用Sentence-Bert ?[84] 獲得句子嵌入向量,然后嵌入到Bi-LSTM層得到描述特征.該模型通過連接元素特征和描述特征,提高了TTP分類的準(zhǔn)確性 ,其平均分類準(zhǔn)確率為94.10%,相較于之前僅使用文本特征的方法具有更高的精度,且能夠在訓(xùn)練樣本很少的情況下仍然保持較好的效果.

Wu等 ?[85] 則是圍繞電子商務(wù)的攻擊可能發(fā)生在購買的前中后時期,無法完全映射到傳統(tǒng)殺傷鏈的問題,構(gòu)建了一個TTP半自動生成器.根據(jù)流行主題術(shù)語通常具有相似的語義和詞匯結(jié)構(gòu)的規(guī)律,設(shè)計了一組基于語法結(jié)構(gòu)的TTP實體識別規(guī)則,用于從非結(jié)構(gòu)化數(shù)據(jù)中自動提取電子商務(wù)主題TTP實體,并將其轉(zhuǎn)換為STIX模式.該研究以80%的精確度鑒定了6042個TTP,為電子商務(wù)CTI研究提供了新的線索.

考慮到大多數(shù)TTP提取工作都忽略了TTP分層標(biāo)簽之間的相關(guān)性,Liu等 ?[86] 圍繞TTP層次結(jié)構(gòu)之間的依賴性,提出一種基于注意力機制的變換器分層RNN模型.模型使用Word2Vec將CTI嵌入到向量矩陣,將ATT&CK的戰(zhàn)術(shù)-技術(shù)兩級結(jié)構(gòu)映射到矩陣以保留TTP分層標(biāo)簽之間的語義關(guān)系;然后在轉(zhuǎn)換層感知CTI的上下文語義信息;然后是一個注意力循環(huán)結(jié)構(gòu),用于學(xué)習(xí)層次結(jié)構(gòu)中戰(zhàn)術(shù)和技術(shù)標(biāo)簽之間的依賴關(guān)系; 最后構(gòu)建一個聯(lián)合分層分類模塊來預(yù)測最終的TTP,并在TTP提取的準(zhǔn)確性分別在Macro- F 1和Micro- F 1分?jǐn)?shù)上提高了8.2%和6.5%.

針對戰(zhàn)術(shù)與技術(shù)層次結(jié)構(gòu)導(dǎo)致性能下降的問題,Yu等 ?[87] 對威脅情報中的戰(zhàn)術(shù)和技術(shù)進行了分類,提出一個基于層次知識遷移和注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型將戰(zhàn)術(shù)和技術(shù)分類分為前后兩個階段,首先采用FastText ?[82] 詞嵌入方法將CTI文本轉(zhuǎn)換為二維圖像,然后使用CNN挖掘深層文本特征進行戰(zhàn)術(shù)分類; 在戰(zhàn)術(shù)分類訓(xùn)練完成之后,根據(jù)戰(zhàn)術(shù)與技術(shù)之間的特殊層次關(guān)系,通過對戰(zhàn)術(shù)分類過程中CNN層和注意力層的參數(shù)進行轉(zhuǎn)換,完成戰(zhàn)術(shù)到技術(shù)的知識遷移并進行技術(shù)的分類訓(xùn)練.

Ge等 ?[88] 針對TTP分類缺乏必要且充分證據(jù)的問題,提出了一種可解釋TTP分類框架,能夠為關(guān)鍵證據(jù)提供準(zhǔn)確邊界,以證明TTP分類結(jié)果的合理性.該框架首先利用基于主題原型的關(guān)鍵字重要性過濾方法從CTI文本中提取證據(jù),隨后使用基于CNN的鑒別器對證據(jù)集的元素進行TTP分類,并使用各種基于案例的可解釋方法來衡量CTI證據(jù)的完整性.實驗證明,該方法將Micro- F 1分?jǐn)?shù)提高了016%~6.63%,將Macro- F 1分?jǐn)?shù)提高了026%~6.85%.

4.3 威脅關(guān)系圖構(gòu)建

單獨的威脅實體無法提供足夠的信息,聯(lián)系其上下文進行分析,并對實體之間的關(guān)系進行提取和分析才能夠進一步獲取更多有效知識.威脅實體信息在情報中的分布通常較為隱蔽和分散,利用知識圖譜能夠集中組織威脅態(tài)勢的特點,可以較好地對威脅實體相關(guān)知識及實體間關(guān)系進行分析和展示.

知識圖譜是一種視覺輔助工具,是由大量實體及其之間的關(guān)系組成的大規(guī)模知識庫,能夠?qū)嶓w和關(guān)系的信息以圖形結(jié)構(gòu)的形式進行組織 ?[89] .如何從文本中提取出實體之間的關(guān)系是知識圖譜構(gòu)建的核心任務(wù).由于網(wǎng)絡(luò)攻擊過程存在多個階段并使用多種技術(shù),很適合使用知識圖譜對整個攻擊過程進行全面描繪并識別與其他攻擊的相似性.知識圖譜可以有效地組織和表示知識,使其進一步得到有效利用 ?[90] .將知識圖譜應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,可以更好地組織管理和利用海量的網(wǎng)絡(luò)安全情報信息 ?[91] .關(guān)系連接實體形成圖形結(jié)構(gòu).圖數(shù)據(jù)庫可以用于以三元組表達事實的存儲介質(zhì),如NoSQL圖數(shù)據(jù)庫Neo4j ?[92] .利用包括本體、信息提取和實體消歧在內(nèi)的知識圖譜構(gòu)建技術(shù),知識圖譜能夠有效地提取和集成來自多源異構(gòu)數(shù)據(jù)的知識,對知識進行結(jié)構(gòu)化的表達和可視化展示 ?[93] .結(jié)合語義建模、查詢和推理技術(shù)網(wǎng)絡(luò)安全知識圖譜可以模仿安全專家的思維過程,根據(jù)現(xiàn)有事實的關(guān)系三元組和邏輯規(guī)則推導(dǎo)新知識或檢查數(shù)據(jù)一致性 ?[94] . ??網(wǎng)絡(luò)安全知識圖譜使用本體作為知識表示的基礎(chǔ).本體是對共享概念系統(tǒng)的明確描述,本質(zhì)上是特定領(lǐng)域中一組概念及其關(guān)系的形式化表達,是知識圖譜中知識管理的核心,其研究成果為知識圖譜規(guī)范實體、關(guān)系以及類型、屬性等對象之間的關(guān)系提供了理論基礎(chǔ) ?[95] .基于本體構(gòu)建的知識庫不僅具有強大的層次結(jié)構(gòu) ,而且冗余度極低.目前許多研究都集中在網(wǎng)絡(luò)安全本體的構(gòu)建上,構(gòu)建網(wǎng)絡(luò)安全本體,整合各種網(wǎng)絡(luò)安全數(shù)據(jù)資源,目的是有效地組織和利用知識并為網(wǎng)絡(luò)安全評估和分析提供支持 ?[96] .針對不同的應(yīng)用場景,研發(fā)人員構(gòu)建了不同的本體,包括入侵檢測、計算節(jié)點可達矩陣等.Feng等 ?[97] 關(guān)注Loc/ID分離網(wǎng)絡(luò)架構(gòu),并對其原理、機制和特征進行了相關(guān)綜合調(diào)查;Li等 ?[98] 參考不同類型網(wǎng)絡(luò)攻擊的特點,在語義層面給出了詳細和規(guī)范的網(wǎng)絡(luò)安全本體構(gòu)建;Iannacone等 ?[99] 提出了一個代表網(wǎng)絡(luò)安全領(lǐng)域的整體本體,旨在創(chuàng)建一種知識表示,以促進來自各種結(jié)構(gòu)化和非結(jié)構(gòu)化來源的數(shù)據(jù)集成;Syed等 ?[100] 提出了統(tǒng)一網(wǎng)絡(luò)安全本體(Unified Cybersecurity Ontolog,UCO),旨在支持網(wǎng)絡(luò)安全系統(tǒng)中的信息繼承和網(wǎng)絡(luò)態(tài)勢感知,集成來自不同系統(tǒng)的異構(gòu)數(shù)據(jù),以及最常用的信息共享和交換網(wǎng)絡(luò)安全標(biāo)準(zhǔn).

對于大型企業(yè)或組織的安全團隊,構(gòu)建威脅關(guān)系圖是幫助理解攻擊模式的重要手段.對于已經(jīng)收集到的威脅實體,借助圖數(shù)據(jù)庫等技術(shù)建立實體-關(guān)系結(jié)構(gòu),能夠幫助揭示攻擊事件的整體流程,提供靈活的查詢與分析能力,幫助安全團隊評估風(fēng)險和制定決策.

Hooi等 ?[101] 利用知識圖譜能夠集中組織威脅態(tài)勢的特點,以UCO為參考構(gòu)建了威脅主體本體,包括威脅主體、惡意軟件、目標(biāo)以及活動等4種類型,然后訓(xùn)練CRF模型提取威脅主體相關(guān)的命名實體,并構(gòu)建為知識圖譜.

針對實體抽取常忽略攻擊圖和攻擊技術(shù)的缺陷,Li等 ?[102] 基于知識圖譜技術(shù)訓(xùn)練了一個基于學(xué)習(xí)的命名實體識別模型AttacKG,結(jié)合開源工具EntityRuler來識別CTI報告中的實體;然后使用基于學(xué)習(xí)的自然語言解析模型提取實體和依賴關(guān)系并初始化一個攻擊圖;最后引入了技術(shù)知識圖的概念,使用基于從MITRE ATT&CK知識庫抓取的TTPs示例構(gòu)建的攻擊圖來初始化技術(shù)模版,并在Milajerdi等 ?[103] 的工作基礎(chǔ)上改進了圖對齊算法,將攻擊圖知識增強為技術(shù)知識圖,有效地從大量報告中聚合產(chǎn)生技術(shù)級別的威脅情報知識圖.

Guo等 ?[104] 指出目前網(wǎng)絡(luò)安全概念實體和關(guān)系提取采用傳統(tǒng)的管道模型,存在錯誤傳播問題并忽略了兩個子任務(wù)之間的聯(lián)系,提出了一種聯(lián)合提取的框架,通過建模多序列標(biāo)記問題,為不同關(guān)系聲稱單獨的標(biāo)簽序列,幫助構(gòu)建初步的知識圖譜.

Liu等 ?[105] 強調(diào)了共指消解技術(shù)在知識融合中的重要性及其在網(wǎng)絡(luò)安全領(lǐng)域應(yīng)用的落后,對現(xiàn)有共指消解模型在網(wǎng)絡(luò)安全語料庫上的有效性進行了研究,并提出了一種基于語義文本匹配的共指解析模型,使模型能夠區(qū)分不同實體類型之間的共指,從而更細粒度地運行共指解析,幫助構(gòu)建全面、明確、低冗余的網(wǎng)絡(luò)安全知識圖譜.

5 挑戰(zhàn)與未來展望

5.1 模型可解釋性

從網(wǎng)絡(luò)追蹤溯源的角度出發(fā),證據(jù)的可解釋性至關(guān)重要,但許多機器學(xué)習(xí)模型是黑盒模型,其內(nèi)部結(jié)構(gòu)和決策過程很難被理解.這使得模型的預(yù)測結(jié)果缺乏可信度和可解釋性,在實戰(zhàn)環(huán)境中缺乏可信的支撐能力 ?[106] .模型可解釋性與模型性能之間存在一種權(quán)衡關(guān)系.一些復(fù)雜的模型在性能上表現(xiàn)出色,但其可解釋性較差.相反,一些簡單的模型可能更容易解釋,但性能可能不如復(fù)雜模型.因此,如何在可解釋性和性能之間找到平衡是一個挑戰(zhàn).另外,模型可解釋性還涉及到不同的利益相關(guān)者之間的需求和期望.不同的用戶可能對模型的解釋性有不同的要求.例如,研究人員可能需要詳細的模型內(nèi)部信息,而終端用戶可能更關(guān)注模型預(yù)測結(jié)果的可解釋性.因此,如何滿足不同用戶的需求,提供適當(dāng)?shù)慕忉尯徒忉尲墑e也是一個挑戰(zhàn).

5.2 模型的自適應(yīng)性

模型自適應(yīng)指模型能夠根據(jù)環(huán)境或其他條件變化所反饋的信息,自動調(diào)整結(jié)構(gòu)和參數(shù)以適應(yīng)變化 ?[107] .現(xiàn)代網(wǎng)絡(luò)攻擊手段持續(xù)演進升級,ATT&CK框架平均3~6個月更新一次,網(wǎng)絡(luò)威脅知識更新迭代之快、威脅情報數(shù)據(jù)源之復(fù)雜,使得處理模型必須不斷吸收新的知識以跟上威脅變化的速度,發(fā)揮防御效能.

威脅情報處理模型需要增強自適應(yīng)能力,在出現(xiàn)新的威脅知識時能夠盡快適應(yīng)新任務(wù),迅速學(xué)習(xí)新的攻擊類別.提升模型的自適應(yīng)能力一方面能夠提高模型的性能,另一方面能針對不同的學(xué)習(xí)任務(wù)滿足需求.如何將加強模型的自適應(yīng)性,加強對于層出不窮的IOC與TTPs、快速更新的威脅手段與情報知識的學(xué)習(xí)和識別能力,增強魯棒性與有效性,是十分有價值的研究方向.

5.3 威脅情報共享

威脅情報的有效共享是網(wǎng)絡(luò)威脅檢測和預(yù)防的另一大核心.威脅情報共享的核心思想是通過共享有關(guān)最新威脅和漏洞的信息,在利益相關(guān)者之間建立態(tài)勢感知,并幫助迅速采取措施.威脅情報來源和格式的數(shù)量都十分龐大,目前已經(jīng)引入了STIX、TAXII和CybOX等結(jié)構(gòu)化標(biāo)準(zhǔn)以提供共享網(wǎng)絡(luò)威脅情報的通用方法,但根據(jù)研究資料表明,這些標(biāo)準(zhǔn)的使用并不廣泛,而且常常出現(xiàn)執(zhí)行不力的情況 ?[108] .

溯源圖是幫助威脅情報共享的另一種方式.溯源圖是知識圖譜在刻畫攻擊事件場景領(lǐng)域的應(yīng)用,能夠幫助不同組織之間共享關(guān)于高級威脅行為體的信息.通過分享溯源圖,安全團隊可以傳遞有關(guān)特定威脅行為體的詳細信息,包括攻擊路徑、關(guān)聯(lián)的攻擊活動和使用的工具等 ?[109] .這種威脅情報共享的方式可以加強協(xié)作,提高整個安全社區(qū)對高級威脅行為體的認知和應(yīng)對能力 ?[110] ,是一個值得深入研究的方向.

此外,目前廣泛使用的交換信息的方法是手動共享,即在已經(jīng)存在信任關(guān)系的情況下,利益相關(guān)者之間互相共享,或通過信息共享與分析中心(ISAC)等受信任的團體進行共享.手動共享存在著速度緩慢、人為失誤和主觀因素過濾等問題 ?[111] .因此,共享過程自動化是目前一個亟待解決的重要問題.由于不同國家和組織之間政治、法律、文化和語言等因素的差異,使得情報共享面臨著相當(dāng)?shù)奶魬?zhàn).未來想要建立起高效的威脅情報共享協(xié)作,需要安全專家、技術(shù)人員以及政府組織等各界人士的努力協(xié)調(diào)與配合.

5.4 大語言模型處理

大語言模型是自然語言處理的最新進展結(jié)果,其基于大規(guī)模語料庫使用大量參數(shù)進行標(biāo)記和訓(xùn)練,具有強大的理解和生成文本能力 ?[112] .傳統(tǒng)的威脅情報處理模式中,常需要耗費大量人力進行數(shù)據(jù)清洗和分析,存在自動化程度低、知識價值利用率低、專家經(jīng)驗難以復(fù)制等問題.而大語言模型則是突破這些瓶頸的技術(shù)關(guān)鍵.隨著GPT的出現(xiàn)與發(fā)展,大語言模型與網(wǎng)絡(luò)安全的應(yīng)用結(jié)合有了更多探索空間.經(jīng)過海量參數(shù)建模調(diào)優(yōu)的大語言模型能夠在威脅情報處理上極大減少人工勞動并提升分析效果,解決傳統(tǒng)處理過程存在的問題;經(jīng)過智能問答訓(xùn)練的模型能夠落地為安全助手,讓缺乏豐富經(jīng)驗的一般安全人員也能夠執(zhí)行專業(yè)分析.大語言模型將能夠在智能化威脅情報分析的基礎(chǔ)上,為安全人員提供決策和響應(yīng)上有價值的支撐,提升網(wǎng)絡(luò)安全防御效能.

6 結(jié) 語

隨著網(wǎng)絡(luò)威脅情報的價值受到更多關(guān)注和重視,越來越多的精力被投入到對威脅情報處理分析的研究之中.本文對威脅情報提供的關(guān)鍵知識進行了總結(jié),對獲取不同知識的威脅情報處理技術(shù)進行了詳細調(diào)研和介紹.基于深度學(xué)習(xí)的NER和知識圖譜作為關(guān)鍵技術(shù),提高了情報分析的有效性.深度學(xué)習(xí)能夠幫助分析情報文本的深層語義,知識圖譜則能夠直觀展示實體關(guān)系的結(jié)構(gòu),有助于威脅知識理解與共享.最后討論了威脅情報處理面臨的挑戰(zhàn),指出在模型可解釋性、自適應(yīng)性、情報共享和處理效率上存在的問題,并提出可能的研究方向,希望能夠推動該領(lǐng)域的不斷發(fā)展與進步.

參考文獻:

[1] ??Aslan , ?Aktu g ??ˇ ?S S, Ozkan-Okay M, ?et al . A comprehensive review of cyber security vulnerabilities, threats, attacks, and solutions[J]. Electronics,2023, 12: 1333.

[2] ?ArcticWolf. ?A brief history of cybercrime[EB/OL].[2022-11-16].https://arcticwolf.com/resources/blog/decade-of-cybercrime/.

[3] ?Britannica."Stuxnet".[EB/OL].[2022-12-13].https://www.britannica.com/technology/Stuxnet.

[4] ?奇安信威脅情報中心.全球高級持續(xù)性威脅(APT)2023年中報告[EB/OL].[2023-07-12].https://ti.qianxin.com/uploads/2023/07/20/fcd50f2540db9ca 6fb91b192c0fe2a4c.pdf.

[5] ?360天眼實驗室. 數(shù)字海洋的游獵者[EB/OL].[2023-05-27].https://apt.360.net/report/apts/1.html.

[6] ?360天眼實驗室.蔓靈花攻擊行動 [EB/OL].[2023-05-01].https://apt.360.net/report/apts/5.html.

[7] ?趙慧.宏碁電腦遭勒索攻擊,贖金3.25億元創(chuàng)下最高紀(jì)錄[EB/OL].[2022-12-27].http://xxhjsc.jsou.edu.cn/2022/1227/c6906a136824/page.htm.

[8] ?國家計算機病毒應(yīng)急處理中心.西北工業(yè)大學(xué)遭美國NSA網(wǎng)絡(luò)攻擊事件調(diào)查報告(之一)[EB/OL].[2022-09-05].https://www.cverc.org.cn/head/zhaiyao/news20220905-NPU.htm.

[9] ?Mary ?Whitfill Roeloffs.MOVEitcyber attack:personal data of millions stolen from oregon, Louisiana,U.S.Agency[EB/OL].[2023-06-16].https://www.forbes.com/sites/maryroeloffs/2023/06/16/moveit-cyber-attack-personal-data-of-millions-stolen-from-oregon-louisiana-us-agency/.

[10] ?Gartner. ?Marketguide for security threat intelligence services [R/OL].[2023-05-14].https://www.gartner.com/en/documents/2874317.

[11] Zhou ?Y,Tang Y,Yi M, et al . CTI view: APT threat intelligence analysis system [J]. Secur Commun Netw, 2022, 2022: 1.

[12] Tang B H, Wang J F, Yu Z, ?et al . Advanced persistent threat intelligent profiling technique: a survey [J]. Comput Electr Eng, 2022, 103: 108261.

[13] Brown R, Stirparo P. SANS 2022 cyber threat intelligence survey [R/OL].[2023-02-23].https://www.sans. org/white-papers/sans-2022-cyber-threat- ??intelligence-survey/.

[14] Baker ?K.What is cyber threat Intelligence[EB/OL].[2023-03-23].https://www.crowdstrike.com/cybersecurity-101/threat-intelligence/.

[15] Cascavilla G,Tamburri D A,Van Den Heuvel W J. Cybercrime threat intelligence: a systematic multi-vocal literature review[J]. Comput Secur,2021,105: 102258.

[16] Sun N, Ding M, Jiang J, ?et al . Cyber threat intelligence mining for proactive cybersecurity defense: a survey and new perspectives[J]. IEEE Commun Surv ?Tut, 2023, 25: 1748.

[17] 崔琳, 楊黎斌, 何清林, 等.基于開源信息平臺的威脅情報挖掘綜述[J].信息安全學(xué)報, 2022, 7: 1.

[18] McMillan ?R. Definition: threat intelligence[EB/OL]. [2023-05-16].https://www.gartner.com/en/documents/2487216.

[19] Dalziel H. How to define and build an effective cyber threat intelligence capability [M].Boca Raton:Syngress, 2014.

[20] Shackleford D. Whos using cyberthreat intelligence and how [R/OL].[2023-02-17].https://cdn-cybersecurity.att.com/docs/SANS-Cyber-Threat-Intelligence-Survey-2015.pdf.

[21] Tounsi W, Rais H. A survey on technical threat intelligence in the age of sophisticated cyber attacks[J]. Comput ?Secur, 2018, ?72: 212.

[22] Schlette ?D,Caselli M,Pernul G. A comparative study on cyber threat intelligence: the security incident response perspective [J]. IEEE Commun Surv Tut, 2021, 23: 2525.

[23] Bromiley M. Threat intelligence:what it is, and how to use it effectively [EB/OL].[2023-05-20].https://www.sans.org/webcasts/threat-intelligence-is-effectively-102622/.

[24] Brown S, Gommers J, Serrano O. From cyber security information sharing to threat management [C]//Proceedings of the 2nd ACM Workshop on Information Sharing and Collaborative Security.Denver: Association for Computing Machinery, 2015: ??43.

[25] Yuzuka A.Thethreat intelligence lifecycle:a definitive guide for 2023 [EB/OL].[2023-06-22].https://flareio/learn/resources/blog/threat-intelligence-lifecycle/.

[26] Ali A M, Angelov P. Anomalous behaviour detection based on heterogeneous data and data fusion[J].Soft Comput, 2018, 22: 3187.

[27] Yeboah-Ofori A, Islam S, Yeboah-Boateng E. Cyber threat intelligence for improving cyber supply chain security [C]//Proceedings of the 2019 International Conference on Cyber Security and Internet of Things (ICSIoT).Accra: IEEE, 2019: 28.

[28] Abu ?M S,Selamat S R,Ariffin A, et al . Cyber threat intelligence-issue and challenges [J]. Ind J Elect ?Eng ?Comput ?Sci, 2018, ?10: ?371.

[29] Sauerwein ?C, Sillaber C, Mussmann A, ?et al . Threat intelligence sharing platforms: an exploratory study of software vendors and research perspectives [EB/OL].[2023-02-12].https://aisel.aisnet.org/wi2017/track08/.

[30] Boeke S, van de BDP J. Cyber threat intelligence—from confusion to clarity; an investigation into cyber ?threat intelligence [EB/OL].[2023-01-20].https://studenttheses.universiteitleiden.nl/handle/1887/ ?64551.

[31] Gao P, Shao F, Liu X, ?et al . Enabling efficient cyber threat hunting with cyber threat intelligence[C]//Proceedings of the 2021 IEEE 37th International Conference on Data Engineering (ICDE). Chania: IEEE, 2021: 193.

[32] Koloveas P, Chantzios T, Alevizopoulou S, ?et al . intime: a machine learning-based framework for gathering and leveraging web data to cyber-threat intelligence [J]. Electronics, 2021, 10: 818.

[33] Conti ?M, Dargahi T, Dehghantanha A. Cyber threat intelligence: challenges and opportunities [M].London: Springer International Publishing, ??2018.

[34] Sukhabogi S. Atheoretical review on the importance of threat intelligence sharing & the challenges intricated [J]. Turk ?J Comput Math ?Educ,2021,12: 3950.

[35] Nunes ?E, Diab A, Gunn A, ?et al . Darknet and deepnet mining for proactive cybersecurity threat intelligence [C]//Proceedings of the 2016 IEEE Conference on Intelligence and Security Informatics (ISI).Tucson: IEEE, 2016: 7.

[36] Johnson C, Badger L, Waltermire D, ?et al . Guide to cyber threat information sharing[EB/OL].[2022-10-04].https://csrc.nist.gov/pubs/sp/800/150/final.

[37] Tatam M, Shanmugam B, Azam S, ?et al . A review of threat modelling approaches for APT-style attacks [EB/OL].[2023-01-16].https://pubmed.ncbi.nlm.nih.gov/33506133/.

[38] CrowdStrike. Indicators of compromise security ?[EB/OL].[2022-10-05].https://www.crowdstrike.com/cybersecurity-101/indicators-of-compromise/.

[39] Bahrami P N, Dehghantanha A, Dargahi T, ?et al . Cyber kill chain-based taxonomy of advanced persistent threat actors: Analogy of tactics, techniques, and procedures [J]. JIPS, 2019, 15: 865.

[40] Al-Shaer R,Spring J M,Christou E. Learning the associations of mitre att & ck adversarial techniques[C]//2020 IEEE Conference on Communications and Network Security. [S.l.]:IEEE, 2020: 1.

[41] 于忠坤, 王俊峰, 唐賓徽, 等.基于注意力機制和特征融合的網(wǎng)絡(luò)威脅情報技戰(zhàn)術(shù)分類研究[J].四川大學(xué)學(xué)報: 自然科學(xué)版, 2022, 59: 053003.

[42] IBM. What is a threat actor [EB/OL].[2023-06-27].https://www.ibm.com/topics/threat-actor.

[43] Lemay A, Calvet J, Menet F, ?et al . Survey of publicly available reports on advanced persistent threat actors [J]. Comput Secur, ?2018, 72: 26.

[44] 范淵.網(wǎng)絡(luò)安全運營服務(wù)能力指南[M].北京:電子工業(yè)出版社, 2022.

[45] Chris ?Morrow.InQuest/python-iocextract[DB/OL].[2023-06-27].https://github.com/InQuest/python-iocextract.

[46] Stephen ?Brannon.stephenbrannon/IOCextractor[DB/OL].[2023-06-27].https://github.com/stephenbrannon/IOCextractor.

[47] 劉瀏, 王東波.命名實體識別研究綜述[J].情報學(xué)報, 2018, 37: 329.

[48] 陳曙東, 歐陽小葉. 命名實體識別技術(shù)綜述[J]. 無線電通信技術(shù), 2020, 46: 251.

[49] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging [EB/OL].[2022-08-09].https://arxiv.org/abs/1508.01991.

[50] Strubell E, Verga P, Belanger D, ?et al . Fast and accurate entity recognition with iterated dilated convolutions [EB/OL].[2023-02-07].https://arxiv.org/abs/1702.02098.

[51] Wang X, Guan Z, Xin W, ?et al . Multi-type source code defect detection based on TextCNN [C]//Proceedings of the 3rd International Conference on Frontiers in Cyber Security. Singapore: Springer Singapore, 2020: 95.

[52] Lin Y, Liu L, Ji H, ?et al . Reliability-aware dynamic feature composition for name tagging [C]//Proceedings of the 57th annual meeting of the association for computational linguistics.Florence:Association for Computational Linguistics, 2019: 165.

[53] Wang R, Li Z, Cao J, ?et al . Convolutional recurrent neural networks for text classification [C]//Proceedings of the 2019 International Joint Conference on Neural Networks. Budapest:IEEE,2019: 1.

[54] Yi F, Jiang B, Wang L, ?et al . Cybersecurity named entity recognition using multi-modal ensemble learning [J]. IEEE Access, 2020, 8: ?63214.

[55] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].[2022-08-09].https://arxiv.org/abs/1508.01991.

[56] Ma X, Hovy E.End-to-end sequence labeling via bi-directional lstm-cnns-crf[EB/OL].[2023-05-29].https://arxiv.org/abs/1603.01354.

[57] Zhou S, Long Z, Tan L, ?et al . Automatic identification of indicators of compromise using neural-based sequence labelling [EB/OL].[2022-10-24].https://arxiv.org/abs/1810.10156.

[58] Mnih ?V, Heess N, Graves A, ?et al . Recurrent models of visual attention[EB/OL].[2022-12-08].https://arxiv.org/abs/1406.6247.

[59] Bahdanau ?D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL].[2022-09-01].https://arxiv.org/abs/1409.0473.

[60] Vaswani A, Shazeer N, Parmar N, ?et al . Attention is all you need [EB/OL].[2022-12-04].https://arxiv.org/abs/1706.03762.

[61] Zhao J, Yan Q, Liu X, ?et al . Cyber threat intelligence modeling based on heterogeneous graph convolutional network [C]//Proceedings of the 23rd International Symposium on Research in Attacks,Intrusions and Defenses.San Sebastian:[s.n.],2020: 241.

[62] Chen D, Manning C D. A fast and accurate dependency parser using neural networks [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Orlando:Association for Computational Linguistics, 2014: 740.

[63] Long Z, Tan L, Zhou S, ?et al . Collecting indicators of compromise from unstructured text of cybersecurity articles using neural-based sequence labelling[C]//Proceedings of the 2019 International Joint Conference on Neural Networks. Budapest: IEEE, 2019: 1.

[64] Zhu ?Z,Dumitras T. Chainsmith: automatically learning the semantics of malicious campaigns by mining threat intelligence reports [C]//Proceedings of the 2018 IEEE European Symposium on Security and Privacy.London: IEEE, 2018: 458.

[65] Manning ?C D, Surdeanu M, Bauer J, ?et al .The stanford CoreNLP natural language processing toolkit [C]//Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations.Baltimore:Association for Computational Linguistics, 2014: 55.

[66] Devlin J, Chang M W, Lee K, ?et al . Bert: Pretraining of deep bidirectional transformers for language understanding [EB/OL].[2023-05-24].https://arxiv.org/abs/1810.04805.

[67] Rong ?X. word2vec Parameter Learning Explained[EB/OL].[2022-11-11].https://arxiv.org/abs/1411.2738.

[68] Mikolov T, Chen K, Corrado G, ?et al . Efficient estimation of word representations in vector space [EB/OL].[2023-01-16].https://arxiv.org/abs/1301.3781.

[69] Liu J, Yan J, Jiang J, ?et al . TriCTI: an actionable cyber threat intelligence discovery system via trigger-enhanced neural network[J].Cybersecurity,2022, 5: 8.

[70] Wang X, Liu R, Yang J, ?et al . Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering[C]// Proceedings of the 2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design.Guangzhou: IEEE, 2022: 406.

[71] Fang Y, Zhang Y, Huang C. CyberEyes: cybersecurity entity recognition model based on graph convolutional network [J]. Comput J, 2021, 64: 1215.

[72] Liao X,Yuan K,Wang X F, ?et al . Acing the ioc game: toward automatic discovery and analysis of open-source cyber threat intelligence [C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security.New York: Association for Computing Machinery, 2016: 755.

[73] Finkel J R, Grenager T, Manning C D. Incorporating non-local information into information extraction systems by gibbs sampling [C]//Proceedings of the 43rd annual meeting of the association for computational linguistics (ACL05).Ann Arbor: Association for Computational Linguistics, 2005: 363.

[74] Kriege N M, Johansson F D, Morris C. A survey on graph kernels [J]. Appl Netw Sci, 2020, 5: 1.

[75] Legoy V, Caselli M, Seifert C, ?et al . Automated retrieval of att&ck tactics and techniques for cyber threat reports [EB/OL].[2023-04-29].https://arxiv.org/abs/2004.14322.

[76] Aly M. Survey on multiclass classification methods[J]. Neural Netw, 2005,19: 2.

[77] Lu H, Zhang M, Xu X, ?et al . Deep fuzzy hashing network for efficient image retrieval[J]. IEEE T Fuzzy Syst, 2020, 29: ?166.

[78] Li J, Sun A, Han J, ?et al . A survey on deep learning for named entity recognition [J]. IEEE T Knowl Data En, 2020, 34: 50.

[79] Husari G,Al-Shaer E,Ahmed M, ?et al . Ttpdrill: automatic and accurate extraction of threat actions from unstructured text of cti sources [C]//Proceedings of the 33rd Annual Computer Security Applications Conference.New York: Association for Computing Machinery, 2017: 103.

[80] De ?Marneffe M C,Manning C D. The Stanford typed dependencies representation [C]//Proceedings of the Workshop on Cross-framework and Cross-domain Parser Evaluation.Manchester:Coling 2008 Organizing Committee, 2008: 1.

[81] Ge W, Wang J. SeqMask: behavior extraction over cyber threat intelligence via multi-instance learning[EB/OL].[2022-11-29].https://academic.oup.com/comjnl/advance-article-abstract/doi/10.1093/comjnl/bxac172/6852690?redirectedFrom=fulltext.

[82] Joulin A, Grave E, Bojanowski P, ?et al . Bag of tricks for efficient text classification[EB/OL].[2023-07-06].https://arxiv.org/abs/1607.01759.

[83] You Y, Jiang J, Jiang Z, ?et al . TIM: threat context-enhanced TTP intelligence mining on unstructured threat data [J]. Cybersecurity, 2022, 5: 3.

[84] Reimers ?N, Gurevych I. Sentence-bert: sentence embeddings using siamese bert-networks [EB/OL].[2023-05-27].https://arxiv.org/abs/1908.10084.

[85] Wu ?Y, Liu Q, Liao X, ?et al . Price tag: towards semi-automatically discovery tactics, techniques and procedures of E-commerce cyber threat intelligence[J]. IEEE T Depend Secure, 2021(1): 1.

[86] Liu C, Wang J, Chen X. Threat intelligence att&ck extraction based on the attention transformer hierarchical recurrent neural network [J]. Appl Soft Comput, 2022, 122: 108826.

[87] Yu Z, Wang J F, Tang B H, ?et al . Tactics and techniques classification in cyber threat intelligence [J]. Comput J, 2022(8): 8.

[88] Ge ?W,Wang J, Lin T, et al . Explainable cyber threat behavior identification based on self-adversarial topic generation[J]. Comput Secur, 2023, 132: 103369.

[89] Chen ?Z, Wang Y, Zhao B, ?et al . Knowledge graph completion: a review[J]. IEEE Access,2020,8: 192435.

[90] Chen X, Jia S, Xiang Y. ?A review: knowledge reasoning over knowledge graph [J]. Expert Syst Appl, 2020, 141: 112948.

[91] Zhang ?K, Liu J. Review on the application of knowledge graph in cyber security assessment[J].IOP Conf Ser Mater Sci Eng, 2020, 768: 052103.

[92] Yan Z, Liu J. A review on application of knowledge graph in cybersecurity[C]// Proceedings of the 2020 International Signal Processing, Communications and Engineering Management Conference (ISPCEM). Montreal: ?IEEE, 2020: 240.

[93] Auer ?S,Kovtun V,Prinz M, et al . Towards a knowledge graph for science [C]//Proceedings of the 8th International Conference on Web Intelligence, Mining and Semantics.Serbia: Association for Computing Machinery, 2018: 1.

[94] Ji S, Pan S, Cambria E, ?et al . A survey on knowledge graphs: representation, acquisition, and applications [EB/OL].[2022-04-01].https://arxiv.org/abs/2002.00388.

[95] 劉嶠, 李楊, 段宏, 等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展, 2016, 53: 582.

[96] Xu ?G, Cao Y, Ren Y, ?et al . Network security situation awareness based on semantic ontology and user-defined rules for Internet of Things [J]. IEEE Access, 2017, 5: 21046.

[97] Feng B, Zhang H, Zhou H, ?et al . Locator/identifier split networking: a promising future Internet architecture[J]. IEEE Commun Surv ?Tut,2017,19: 2927.

[98] Li K, Zhou H, Tu Z, ?et al . CSKB: a cyber security knowledge base based on knowledge graph[C]// Proceedings of the 1st International Conference on Security and Privacy in Digital Economy. Singapore: Springer Singapore, 2020: 100.

[99] Iannacone M, Bohn S, Nakamura G, ?et al . Developing an ontology for cyber security knowledge graphs [C]//Proceedings of the 10th Annual Cyber and Information Security Research Conference.Oak Ridge: Association for Computing Machiner, 2015: 1.

[100] ?Syed ?Z, Padia A, Finin T, ?et al . UCO: a unified cybersecurity ontology[EB/OL].[2022-12-12].https://mdsoar.org/handle/11603/11804.

[101] Hooi E ?K J, Zainal A, Maarof M A, ?et al . TAGraph: Knowledge Graph of Threat Actor[C]// Proceedings of the 2019 International Conference on Cybersecurity. Negeri Sembilan: ?IEEE, 2019: 76.

[102] Li Z, Zeng J, Chen Y, ?et al . AttacKG: constructing technique knowledge graph from cyber threat intelligence reports [C]//Proceedings of the 27th European Symposium on Research in Computer Security, Copenhagen, Denmark. Cham: Springer International Publishing, 2022: 589.

[103] Milajerdi S M, Eshete B, Gjomemo R, ?et al . Poirot: aligning attack behavior with kernel audit records for cyber threat hunting[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security.London: Association for Computing Machinery, 2019: 1795.

[104] Guo Y, Liu Z, Huang C, ?et al . A framework for threat intelligence extraction and fusion [J]. Comput Secur, 2023, 132: 103371.

[105] Liu Z, Su H, Wang N, ?et al . Coreference resolution for cybersecurity entity: towards explicit, comprehensive cybersecurity knowledge graph with low redundancy [C]// Proceedings of the International Conference on Security and Privacy in Communication Systems. Cham: Springer Nature Switzerland, 2022: 89.

[106] Poursabzi-Sangdeh ?F, Goldstein D G, Hofman J M, ?et al . Manipulating and Measuring Model Interpretability [C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems.Yokohama: Association for Computing Machinery, 2021: 1.

[107] 涂序彥, 馬忠貴, 郭燕慧. 廣義人工智能[M].北京: 國防工業(yè)出版社, ?2012.

[108] Ramsdale A, Shiaeles S, ?Kolokotronis N. A comparative analysis of cyber-threat intelligence sources, formats and languages[J]. Electronics,2020, 9: ?824.

[109] Hossain ?M N, Milajerdi S M,Wang J, et al . {SLEUTH}: Real-time attack scenario reconstruction from {COTS} audit data [C]// Proceedings of the 26th USENIX Security Symposium (USENIX Security 17).Vancouver:{USENIX}Association,2017: 487.

[110] Lv ?Y, Qin S, Zhu Z, ?et al . A review of provenance graph based apt attack detection: applications and developments [C]// Proceedings of the 2022 7th IEEE International Conference on Data Science in Cyberspace.Guilin: IEEE, 2022: 498.

[111] Wagner T D,Mahbub K,Palomar E, ?et al . Cyber threat intelligence sharing: Survey and research directions ?[J]. Comput Secur, 2019, 87: 101589.

[112] Wei J,Tay Y, Bommasani R, ?et al . Emergent abilities of large language models [EB/OL].[2022-12-26].https://arxiv.org/abs/2206.07682.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
仪征市| 汉沽区| 商都县| 襄垣县| 青海省| 盈江县| 彭山县| 仙游县| 蓝田县| 抚州市| 东乡族自治县| 秭归县| 工布江达县| 龙游县| 巴南区| 普宁市| 田东县| 西畴县| 腾冲县| 海原县| 富源县| 金堂县| 绥宁县| 青岛市| 集安市| 藁城市| 兴宁市| 固镇县| 长白| 滨州市| 武宁县| 房产| 兴宁市| 饶阳县| 广水市| 泽库县| 香河县| 介休市| 南靖县| 丰城市| 锦州市|