網(wǎng)絡(luò)安全知識圖譜關(guān)鍵技術(shù)

2021-07-23 07:53李序連一峰張海霞黃克振

數(shù)據(jù)與計算發(fā)展前沿 2021年3期

李序，連一峰，張海霞，黃克振

1.中國科學(xué)院大學(xué)，北京 100049

2.中國科學(xué)院軟件研究所，可信計算與信息保障實驗室，北京 100190

引言

近年來，網(wǎng)絡(luò)安全事件頻發(fā)，網(wǎng)絡(luò)攻擊手段日益呈現(xiàn)復(fù)雜多變的特征，新型攻擊工具層出不窮，單純依靠入侵防御系統(tǒng)等被動防御手段已經(jīng)無法有效地維護(hù)網(wǎng)絡(luò)空間安全，特別是近年來頻發(fā)的針對關(guān)鍵信息基礎(chǔ)設(shè)施的攻擊活動，對國家網(wǎng)絡(luò)空間安全保障工作帶來了巨大挑戰(zhàn)[1]。同時，大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展，也為網(wǎng)絡(luò)安全防護(hù)提供了新的解決方案。互聯(lián)網(wǎng)中存在大量的網(wǎng)絡(luò)安全相關(guān)數(shù)據(jù)，例如防火墻、入侵檢測系統(tǒng)等監(jiān)測到的網(wǎng)絡(luò)安全告警數(shù)據(jù)、網(wǎng)絡(luò)安全研究機(jī)構(gòu)或廠商建立的漏洞信息庫（如CNNVD），以及互聯(lián)網(wǎng)安全論壇和廠商發(fā)布的安全通告等。安全分析人員通過挖掘此類數(shù)據(jù)中的信息，可以為網(wǎng)絡(luò)安全態(tài)勢感知提供支撐，實現(xiàn)安全預(yù)警預(yù)測，支持網(wǎng)絡(luò)安全決策。然而，網(wǎng)絡(luò)安全數(shù)據(jù)存在海量化、分散化、碎片化以及關(guān)系隱蔽化的特點，如何及時、精準(zhǔn)地對海量數(shù)據(jù)進(jìn)行分析處理，提取關(guān)鍵要素和關(guān)聯(lián)關(guān)系，挖掘潛在的有價值信息，是網(wǎng)絡(luò)安全領(lǐng)域面臨的重要問題。

1988年，Berners-Lee率先提出了語義網(wǎng)（Semantic Web）的概念[2]，核心思想是在網(wǎng)頁數(shù)據(jù)中添加能夠被計算機(jī)所理解的語義信息，從而提升機(jī)器的理解能力。作為語義網(wǎng)的數(shù)據(jù)支撐，知識圖譜（Knowledge Graph）的概念由谷歌公司于2012年提出，旨在實現(xiàn)更智能的搜索引擎，并于2013年開始在學(xué)術(shù)界和業(yè)界普及。知識圖譜可以通過統(tǒng)一的框架將多源異構(gòu)的數(shù)據(jù)組織起來，利用圖結(jié)構(gòu)表達(dá)數(shù)據(jù)之間的語義關(guān)系，為數(shù)據(jù)的分析和挖掘提供了支持。隨著深度學(xué)習(xí)等人工智能技術(shù)的發(fā)展，知識圖譜技術(shù)在金融風(fēng)控、證券投資、醫(yī)療和地理信息等領(lǐng)域得到了廣泛的應(yīng)用。在網(wǎng)絡(luò)安全領(lǐng)域，通過對海量安全數(shù)據(jù)進(jìn)行知識抽取、融合和推理，能夠?qū)崿F(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)挖掘，從而在目標(biāo)畫像、APT檢測、攻擊溯源等方面發(fā)揮作用。

目前，網(wǎng)絡(luò)安全知識圖譜的研究尚處于起步階段，對于構(gòu)建和應(yīng)用網(wǎng)絡(luò)安全領(lǐng)域圖譜的整體技術(shù)框架的研究很少，本文重點對網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的各類關(guān)鍵技術(shù)進(jìn)行研究，提出了網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu)。

本文第1節(jié)介紹相關(guān)技術(shù)的國內(nèi)外研究現(xiàn)狀，第2節(jié)提出網(wǎng)絡(luò)安全知識圖譜技術(shù)架構(gòu)，從本體模型、實體抽取、關(guān)系抽取、圖譜構(gòu)建與推理方法等方面詳細(xì)闡述知識圖譜關(guān)鍵技術(shù)，最后第3節(jié)對全文進(jìn)行總結(jié)。

1 國內(nèi)外研究現(xiàn)狀

知識圖譜的核心是本體結(jié)構(gòu)[3]。本體是對一個特定領(lǐng)域中的概念及其之間關(guān)系的一種描述。知識圖譜描述的是真實世界中存在的實體或概念，強(qiáng)調(diào)實體和屬性值。一個本體可以用五元組來表達(dá)：O =（C,R,F,A,I），C是本體概念的集合，描述領(lǐng)域內(nèi)的實際概念；R是關(guān)系集合，描述概念之間的關(guān)系；F是上下文關(guān)系的集合；A是公理集合，代表本體內(nèi)存在的事實，可以對本體內(nèi)的概念或關(guān)系進(jìn)行約束；I表示實例的集合。

網(wǎng)絡(luò)安全知識圖譜在語義網(wǎng)技術(shù)作為知識表示的基礎(chǔ)上，最重要的是本體結(jié)構(gòu)[4]。Undercoffer等人[5]提出了一個針對網(wǎng)絡(luò)攻擊的本體結(jié)構(gòu)并應(yīng)用到了分布式入侵檢測系統(tǒng)中，作者分析了4 000多種網(wǎng)絡(luò)攻擊，從目標(biāo)和攻擊兩個維度進(jìn)行建模；Herzog等人[6]定義網(wǎng)絡(luò)安全本體模型的核心概念包括資產(chǎn)、威脅、漏洞和對策，并描述了資產(chǎn)與漏洞、威脅與目標(biāo)資產(chǎn)之間的關(guān)聯(lián)關(guān)系；Iannacone等人[7]面向網(wǎng)絡(luò)安全整體領(lǐng)域構(gòu)建了一種本體，包含了15種實體及115個屬性；SYED等人[8]擴(kuò)展了Undercoffer提出的面向入侵檢測系統(tǒng)的本體，提出了一個更為通用的網(wǎng)絡(luò)安全知識本體——UCO，可以將網(wǎng)絡(luò)安全本體映射為STIX格式，對應(yīng)CVE等網(wǎng)絡(luò)安全知識庫以及DBPedia等通用知識庫。除此之外，國內(nèi)很多學(xué)者也對網(wǎng)絡(luò)安全領(lǐng)域的本體構(gòu)建進(jìn)行了研究，賈焰等人[9]基于現(xiàn)有的漏洞數(shù)據(jù)庫和攻擊規(guī)則庫，構(gòu)建了包含漏洞、資產(chǎn)、軟件、操作系統(tǒng)和攻擊在內(nèi)的網(wǎng)絡(luò)安全實體；王通等人[10]根據(jù)威脅情報目標(biāo)需求，參考威脅情報模型STIX和攻擊模式模型CAPEC構(gòu)建了網(wǎng)絡(luò)威脅情報本體模型。

實體抽取又稱為命名實體識別，目前的命名實體識別技術(shù)主要包括基于規(guī)則的方法、基于統(tǒng)計學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?；谝?guī)則的方法一般由領(lǐng)域?qū)＜沂止?gòu)建規(guī)則模板，選擇詞語的統(tǒng)計信息、指示詞等作為特征，以模式匹配為主要手段，例如Balduccini等人[11]提出將本體與正則表達(dá)式相結(jié)合來抽取網(wǎng)絡(luò)日志中的實體，該方法采用遺傳算法生成正則表達(dá)式對日志段落中的信息進(jìn)行標(biāo)記，然后通過本體將標(biāo)記信息匹配為實體；Liao等人[12]采用語法樹和正則表達(dá)式相結(jié)合的方法來識別網(wǎng)絡(luò)安全博客文本中的失陷指標(biāo)（Indicators Of Compromise）?；谝?guī)則的方法對于實體識別的準(zhǔn)確率較高，但是需要耗費大量人力來構(gòu)建規(guī)則，并且規(guī)則的移植性較差。基于統(tǒng)計學(xué)習(xí)的方法是將命名實體作為序列標(biāo)注或多分類任務(wù)來處理，主要采用最大熵、條件隨機(jī)場、隱馬爾可夫等模型。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，出現(xiàn)了很多命名實體識別工具，例如Stanford NLP、Stanform NER等，但這些工具都是基于通用知識語料庫進(jìn)行訓(xùn)練的，直接應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域的信息抽取中并不能取得較好的結(jié)果。賈焰等人[9]使用現(xiàn)有漏洞數(shù)據(jù)庫中的“influence platform”字段進(jìn)行匯總，構(gòu)建了實體字典，選擇Standform NER中的字典特征進(jìn)行訓(xùn)練，取得了較好的效果；Joshi等人[13]在條件隨機(jī)場（CRF）模型的基礎(chǔ)上采用網(wǎng)絡(luò)安全語料進(jìn)行訓(xùn)練?；诮y(tǒng)計學(xué)習(xí)的方法可以自動抽取實體，但需要大量的人工標(biāo)注數(shù)據(jù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，神經(jīng)網(wǎng)絡(luò)方法被廣泛應(yīng)用到了命名實體識別任務(wù)中，并成為目前的主流方法，其中Huang等人[14]首次將BiLSTM-CRF模型應(yīng)用到了命名實體識別中，利用雙向長短時記憶網(wǎng)絡(luò)（LSTM）進(jìn)行特征提取和CRF進(jìn)行實體標(biāo)注；Houssem等人[15]利用LSTM進(jìn)行網(wǎng)絡(luò)安全實體識別，也取得了較好的效果。

信息抽取中的另外一項任務(wù)是關(guān)系抽取，不同的關(guān)系將獨立的實體連接在一起形成知識圖譜。目前關(guān)系抽取主要分為三種方法：基于規(guī)則的模式匹配方法、基于監(jiān)督學(xué)習(xí)的方法和基于半監(jiān)督或無監(jiān)督的方法。早期的關(guān)系抽取主要采用基于規(guī)則的模式匹配方法，由領(lǐng)域?qū)＜叶x各類關(guān)系的規(guī)則，然后使用規(guī)則和文本進(jìn)行模式匹配，但是領(lǐng)域?qū)＜覠o法對所有關(guān)系的規(guī)則進(jìn)行窮舉?；诒O(jiān)督學(xué)習(xí)的方法把關(guān)系抽取作為多分類問題來處理，每一種關(guān)系都是一個類別，通過標(biāo)簽數(shù)據(jù)對分類器進(jìn)行訓(xùn)練。這種方法依賴于標(biāo)注數(shù)據(jù)的規(guī)模和特征的選擇，獲得大量標(biāo)注數(shù)據(jù)的代價通常是非常高昂的。為了解決這個問題，出現(xiàn)了基于半監(jiān)督或無監(jiān)督的關(guān)系抽取方法，主要包括基于Bootstrapping的方法和遠(yuǎn)程監(jiān)督的方法，其中Bootstrapping方法利用少量實例作為初始種子(seed tuples)集合，通過學(xué)習(xí)得到新的模式(pattern)，進(jìn)而基于新的模式發(fā)現(xiàn)更多的實例，不斷迭代從非結(jié)構(gòu)化數(shù)據(jù)中尋找和發(fā)現(xiàn)新的潛在關(guān)系三元組；Mintz等人[16]提出了遠(yuǎn)程監(jiān)督方法，通過將知識庫與非結(jié)構(gòu)化文本對齊來自動構(gòu)建大量訓(xùn)練數(shù)據(jù)，然后構(gòu)建特征用于訓(xùn)練分類器；Riede對傳統(tǒng)的遠(yuǎn)程監(jiān)督學(xué)習(xí)方法進(jìn)行改進(jìn)，提出了增強(qiáng)的遠(yuǎn)程監(jiān)督假設(shè)，即“如果兩個實體之間存在某種關(guān)系，那么至少有一個提到兩個實體的句子可以表達(dá)這種關(guān)系”，使用無向圖模型預(yù)測實體之間的關(guān)系以及哪個句子表達(dá)了這個關(guān)系，與原始的遠(yuǎn)程監(jiān)督方法相比，錯誤率降低了31%；Zeng等人[17]使用卷積神經(jīng)網(wǎng)絡(luò)來自動提取特征，解決了采用詞性標(biāo)注、依存句法樹等技術(shù)構(gòu)建特征時錯誤率偏高的問題；Miwa等人[18]提出了使用雙向LSTM和樹形LSTM同時對實體和句子進(jìn)行建模的方法。在網(wǎng)絡(luò)安全領(lǐng)域的關(guān)系抽取中，Pingle等人[19]在網(wǎng)絡(luò)安全語料庫上訓(xùn)練Word2Vec模型對實體進(jìn)行詞嵌入，采用前饋神經(jīng)網(wǎng)絡(luò)FFNN預(yù)測實體間的關(guān)系。

在網(wǎng)絡(luò)安全知識圖譜的構(gòu)建和推理方面，綠盟科技[20]基于知識圖譜進(jìn)行APT組織的追蹤分析，通過采集威脅情報、各機(jī)構(gòu)發(fā)布的APT報告及安全通告等數(shù)據(jù)，定義APT攻擊本體，建立APT攻擊知識圖譜，實現(xiàn)對APT攻擊行為的追蹤溯源。瑞星公司構(gòu)建了威脅情報及網(wǎng)絡(luò)安全知識圖譜[21]，包含100億+實體以及400億+關(guān)系，其中，實體包含文件、漏洞、IP、黑客組織等網(wǎng)絡(luò)安全攻擊事件中涉及到的所有元素，與普通的威脅情報平臺相比，在惡意軟件領(lǐng)域可以發(fā)揮特長，將一些惡意軟件模糊搜索、自動歸類的技術(shù)應(yīng)用到了知識圖譜的檢索中。在學(xué)術(shù)界，也有很多研究人員對知識圖譜在網(wǎng)絡(luò)安全領(lǐng)域中的應(yīng)用開展了研究工作，Yulu等人[22]基于網(wǎng)絡(luò)安全知識圖譜對網(wǎng)絡(luò)攻擊進(jìn)行溯源分析；Wei等人[23]通過知識圖譜來過濾不相關(guān)的警報日志；Narayanan集成不同來源的威脅情報構(gòu)建網(wǎng)絡(luò)威脅情報圖譜[24]，實現(xiàn)了簡單的網(wǎng)絡(luò)安全事件預(yù)測；陶源等人利用知識圖譜建立日志審計分析模型，以支持網(wǎng)絡(luò)安全等級保護(hù)工作[25]。

2 網(wǎng)絡(luò)安全知識圖譜技術(shù)架構(gòu)

當(dāng)前，知識圖譜相關(guān)技術(shù)發(fā)展迅猛，網(wǎng)絡(luò)安全作為新興的應(yīng)用領(lǐng)域，相關(guān)的知識圖譜本體模型、實體抽取、關(guān)系抽取，以及圖譜構(gòu)建及推理技術(shù)逐漸引起研究人員的重視。網(wǎng)絡(luò)安全知識圖譜技術(shù)架構(gòu)主要分為三個層次，其中：

（1）本體構(gòu)建層負(fù)責(zé)定義網(wǎng)絡(luò)安全領(lǐng)域的概念及其關(guān)系，例如網(wǎng)絡(luò)攻擊者、攻擊工具、木馬病毒、攻擊活動、安全事件、漏洞隱患、防護(hù)措施等；

（2）信息抽取層負(fù)責(zé)從多源異構(gòu)的網(wǎng)絡(luò)安全數(shù)據(jù)中抽取相關(guān)實體及其關(guān)系，將信息抽取過程中得到的實體進(jìn)行對齊和鏈接，并通過對抽取到的實體及關(guān)系進(jìn)行評估校驗后構(gòu)建知識圖譜；

采用文獻(xiàn)[27]Molish法對20%vol和72%vol紅棗白蘭地的致濁物進(jìn)行定性分析，實驗結(jié)果，20%vol未出現(xiàn)紫紅色環(huán)，72%vol出現(xiàn)紫紅色環(huán)。表明20%vol紅棗白蘭地致濁物中不含有糖類，72%vol紅棗白蘭地致濁物中可能含有糖類，與紅外光譜圖結(jié)果相吻合。

（3）知識推理層負(fù)責(zé)在初步構(gòu)建的知識圖譜基礎(chǔ)上，通過知識推理分析挖掘新的實體或隱含關(guān)系，對圖譜進(jìn)行補(bǔ)全，提供網(wǎng)絡(luò)安全決策支持。

2.1 本體模型

網(wǎng)絡(luò)安全本體模型的構(gòu)建應(yīng)根據(jù)具體的目標(biāo)需求來完成，例如針對APT攻擊，本體模型應(yīng)重點圍繞APT攻擊相關(guān)的組織、技術(shù)、工具、歷史攻擊活動、掌握資源等要素定義實體、屬性及其關(guān)系；針對勒索病毒，則本體模型應(yīng)重點定義病毒、代碼特征、利用漏洞、目標(biāo)對象、軟硬件版本、傳播范圍、阻斷方式等要素。

圖1給出了針對通用網(wǎng)絡(luò)安全目標(biāo)需求的本體模型示例。圖中每個節(jié)點代表本體模型的一類實體，節(jié)點間的連接代表實體間關(guān)系。例如，歸屬于某組織的攻擊者利用攻擊工具或惡意程序，發(fā)起對某個IP主機(jī)的攻擊事件，該攻擊工具或惡意程序利用了某款軟件存在的安全漏洞。

圖1 網(wǎng)絡(luò)安全本體模型示例Fig.1 An example of network security ontology model

2.2 實體抽取

網(wǎng)絡(luò)安全實體抽取任務(wù)主要面向的是網(wǎng)絡(luò)安全相關(guān)的非結(jié)構(gòu)化文本，例如網(wǎng)絡(luò)安全網(wǎng)站、論壇和各類社交媒體上發(fā)布的內(nèi)容。本文介紹基于經(jīng)典的雙向長短時記憶網(wǎng)絡(luò)-條件隨機(jī)場（BiLSTM-CRF）模型的實體抽取方法。其中雙向長短時記憶網(wǎng)絡(luò)（BiLSTM）負(fù)責(zé)學(xué)習(xí)句子的上下文關(guān)系，條件隨機(jī)場（CRF）則負(fù)責(zé)處理實體類型之間的依賴關(guān)系，模型結(jié)構(gòu)如圖2所示。

圖2 BiLSTM-CRF模型Fig.2 BiLSTM-CRF model

模型的第一層是詞嵌入層，通過Word2Vec工具，將單詞序列(w1,w2,w3,...,wT)中的每個單詞映射成低維向量xi∈Rd，d為詞向量的維度。

模型的第二層是雙向LSTM層，負(fù)責(zé)自動提取句子特征。將單詞序列的各個詞向量(x1,x2,x3,...,xT)作為雙向LSTM在各個時間點的輸入，再將正向LSTM輸出的隱狀態(tài)序列與反向LSTM在各個位置輸出的隱狀態(tài)進(jìn)行拼接，得到完整的隱狀態(tài)序列(h1,h2,h3,...,hT)∈RTxm，接入一個線性層，將隱狀態(tài)向量從m維映射為13維向量（共有13種實體類別），從而得到自動提取的句子特征，記作L=(L1,L2,L3,...,LT)∈RTx13，Li∈R13的每一維Lij是把單詞wi分類為第j類實體的得分：

進(jìn)而得到歸一化之后的概率如公式（2）所示，P(y|x)表示將單詞序列x的實體類別預(yù)測為y的概率，Y表示單詞序列x對應(yīng)所有可能的實體類別序列構(gòu)成的集合，|Y|=13T：

模型通過最大化似然函數(shù)進(jìn)行訓(xùn)練，一個訓(xùn)練樣本(x,yx)的似然函數(shù)計算如公式（3）所示，其中P(yx|x)表示單詞序列x的實體類別序列為yx的概率：

最后由條件隨機(jī)場（CRF）層使用動態(tài)規(guī)劃Viterbi算法來得到預(yù)測值。

2.3 關(guān)系抽取

針對網(wǎng)絡(luò)安全關(guān)系抽取任務(wù)，由于缺乏中文標(biāo)注的網(wǎng)絡(luò)安全實體關(guān)系數(shù)據(jù)集，因此傳統(tǒng)的模式匹配和監(jiān)督學(xué)習(xí)方法并不適用。考慮使用遠(yuǎn)程監(jiān)督方法，在只需要少量標(biāo)注數(shù)據(jù)集的基礎(chǔ)上進(jìn)行模型訓(xùn)練。本文介紹分段卷積神經(jīng)網(wǎng)絡(luò)（Piecewise Convolutional Neural Networks，PCNN）模型[26]，將遠(yuǎn)程監(jiān)督學(xué)習(xí)看作是一個多實例學(xué)習(xí)問題，使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型自動學(xué)習(xí)文本特征，在最后的池化操作中使用分段池化的方法，利用該模型進(jìn)行網(wǎng)絡(luò)安全實體關(guān)系的識別。PCNN模型結(jié)構(gòu)如圖3所示。

圖3 PCNN模型Fig.3 PCNN model

PCNN模型的第一層是詞嵌入層，將輸入的單詞轉(zhuǎn)化為詞向量。PCNN模型根據(jù)每個單詞相對兩個實體的位置信息進(jìn)行拼接形成位置向量，然后在卷積層通過CNN模型來提取文本特征。常用的最大池化操作因為對句子長度特征池化，不適合關(guān)系抽取任務(wù)。PCNN模型將句子按照實體位置分為三段，分別對每段進(jìn)行池化，最后通過softmax層計算句子屬于每類關(guān)系的得分。

PCNN使用多實例學(xué)習(xí)方法來降低錯誤標(biāo)注帶來的影響。多實例學(xué)習(xí)每次使用一袋包含同一對實體的樣本，袋的標(biāo)簽為實體對在知識圖譜中的關(guān)系，袋中的數(shù)據(jù)相互獨立。每次對M袋數(shù)據(jù)進(jìn)行訓(xùn)練，首先從每一袋數(shù)據(jù)中選取最具代表性的樣本，計算方式如下：

其中，qi表示第i袋樣本的數(shù)量，yi為第i袋數(shù)據(jù)的標(biāo)簽，mji表示第i袋數(shù)據(jù)中的第j個樣本；然后，將該樣本的標(biāo)簽視為此袋數(shù)據(jù)的預(yù)測標(biāo)簽，計算交叉熵?fù)p失：

其中，M表示袋的數(shù)量，yi為第i袋數(shù)據(jù)的標(biāo)簽，為第i袋數(shù)據(jù)中選出的最具代表性的樣本。

2.4 圖譜構(gòu)建與推理方法

經(jīng)過實體抽取和關(guān)系抽取之后，網(wǎng)絡(luò)安全數(shù)據(jù)中的實體和關(guān)系可以鏈接到本體模型中定義的概念及關(guān)系，通過Neo4j等圖數(shù)據(jù)庫可以存儲初步形成的知識圖譜。為保證圖譜的質(zhì)量，還需對圖譜中的知識進(jìn)行評估校驗，去除多數(shù)據(jù)源中的冗余知識，并研判解決存在沖突的信息，避免在知識推理過程中錯誤傳播。

由于很多網(wǎng)絡(luò)安全數(shù)據(jù)的組織形式比較簡單，信息抽取之后創(chuàng)建的知識圖譜中主要包含句子中顯式表達(dá)的關(guān)系，還需要在現(xiàn)有知識的基礎(chǔ)上通過知識推理，挖掘潛在的隱含知識，豐富網(wǎng)絡(luò)安全知識圖譜。網(wǎng)絡(luò)安全知識圖譜的知識推理可以結(jié)合具體的任務(wù)需求，綜合使用基于規(guī)則的推理和基于知識表示學(xué)習(xí)的推理方法。某些網(wǎng)絡(luò)安全數(shù)據(jù)可以根據(jù)專家經(jīng)驗知識定義規(guī)則，例如對于某些具有鮮明特征的APT組織的攻擊手段或技術(shù)方法，可以由專家定義規(guī)則知識庫，將圖譜知識與規(guī)則庫進(jìn)行模式匹配。

另一方面，知識表示學(xué)習(xí)可以將圖譜中離散的關(guān)系和實體映射成低維的連續(xù)向量，同時不損失知識圖譜中的原有語義。目前常用的方法主要是基于深度學(xué)習(xí)的知識表示學(xué)習(xí)，針對本文構(gòu)建的網(wǎng)絡(luò)安全知識圖譜，將<實體，關(guān)系，實體>三元組映射成低維的向量，使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多步知識推理。目前在知識圖譜推理的基礎(chǔ)研究中，結(jié)合領(lǐng)域知識圖譜的本體知識來構(gòu)建圖譜表示模型的研究成果較少，研究針對網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的表示模型，可以在一定程度上提高圖譜推理的準(zhǔn)確率，實現(xiàn)更為精準(zhǔn)、更具可操作性的安全決策推理。

3 小結(jié)

本文提出了網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu)，從本體模型定義、實體抽取、關(guān)系抽取、圖譜構(gòu)建及推理等方面闡述了網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的關(guān)鍵技術(shù)。當(dāng)前，知識圖譜在信息檢索、推薦系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用，在網(wǎng)絡(luò)安全領(lǐng)域中也開始發(fā)揮越來越重要的作用。將知識圖譜引入網(wǎng)絡(luò)安全領(lǐng)域中，可以將互聯(lián)網(wǎng)中零散的網(wǎng)絡(luò)安全數(shù)據(jù)組織在一起，挖掘網(wǎng)絡(luò)安全數(shù)據(jù)之間潛在的語義關(guān)系，幫助全方位掌握威脅信息，對當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢做出判斷，進(jìn)而預(yù)警、預(yù)測未來可能發(fā)生的威脅。

本文提出的網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu)中知識抽取、推理等關(guān)鍵技術(shù)主要還是基于深度學(xué)習(xí)技術(shù)，然而使用深度學(xué)習(xí)技術(shù)構(gòu)建知識圖譜仍然存在不準(zhǔn)確、不全面的問題，首先深度學(xué)習(xí)技術(shù)依賴于大量的標(biāo)注的語料庫，目前通用知識語料庫主要還是關(guān)注人物、事物等，將深度學(xué)習(xí)知識圖譜引入到領(lǐng)域圖譜中時會出現(xiàn)準(zhǔn)確率大大降低等問題，可移植性較低；其次，知識圖譜涉及各個方面各個場景，并不像圖片、語音可以在單一的維度來訓(xùn)練模型，從而達(dá)到足夠的精度和召回率；在知識推理方面，目前主流的方法還是基于深度學(xué)習(xí)與知識表示學(xué)習(xí)，單純依賴大量的標(biāo)注數(shù)據(jù)，在網(wǎng)絡(luò)安全領(lǐng)域的知識圖譜中，有諸多的先驗知識無法有效使用并融合到深度學(xué)習(xí)的推理模型當(dāng)中，以提高知識推理的精度。

后續(xù)可以圍繞如何提升網(wǎng)絡(luò)安全領(lǐng)域信息抽取的準(zhǔn)確性，如何融合已有的專家知識構(gòu)建網(wǎng)絡(luò)安全領(lǐng)域知識圖譜表示模型和推理模型，進(jìn)一步開展更多的研究和探索工作，以提高網(wǎng)絡(luò)安全主動防御能力。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡