李序,連一峰,張海霞,黃克振
1.中國科學(xué)院大學(xué),北京 100049
2.中國科學(xué)院軟件研究所,可信計算與信息保障實驗室,北京 100190
近年來,網(wǎng)絡(luò)安全事件頻發(fā),網(wǎng)絡(luò)攻擊手段日益呈現(xiàn)復(fù)雜多變的特征,新型攻擊工具層出不窮,單純依靠入侵防御系統(tǒng)等被動防御手段已經(jīng)無法有效地維護(hù)網(wǎng)絡(luò)空間安全,特別是近年來頻發(fā)的針對關(guān)鍵信息基礎(chǔ)設(shè)施的攻擊活動,對國家網(wǎng)絡(luò)空間安全保障工作帶來了巨大挑戰(zhàn)[1]。同時,大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,也為網(wǎng)絡(luò)安全防護(hù)提供了新的解決方案。互聯(lián)網(wǎng)中存在大量的網(wǎng)絡(luò)安全相關(guān)數(shù)據(jù),例如防火墻、入侵檢測系統(tǒng)等監(jiān)測到的網(wǎng)絡(luò)安全告警數(shù)據(jù)、網(wǎng)絡(luò)安全研究機(jī)構(gòu)或廠商建立的漏洞信息庫(如CNNVD),以及互聯(lián)網(wǎng)安全論壇和廠商發(fā)布的安全通告等。安全分析人員通過挖掘此類數(shù)據(jù)中的信息,可以為網(wǎng)絡(luò)安全態(tài)勢感知提供支撐,實現(xiàn)安全預(yù)警預(yù)測,支持網(wǎng)絡(luò)安全決策。然而,網(wǎng)絡(luò)安全數(shù)據(jù)存在海量化、分散化、碎片化以及關(guān)系隱蔽化的特點,如何及時、精準(zhǔn)地對海量數(shù)據(jù)進(jìn)行分析處理,提取關(guān)鍵要素和關(guān)聯(lián)關(guān)系,挖掘潛在的有價值信息,是網(wǎng)絡(luò)安全領(lǐng)域面臨的重要問題。
1988年,Berners-Lee率先提出了語義網(wǎng)(Semantic Web)的概念[2],核心思想是在網(wǎng)頁數(shù)據(jù)中添加能夠被計算機(jī)所理解的語義信息,從而提升機(jī)器的理解能力。作為語義網(wǎng)的數(shù)據(jù)支撐,知識圖譜(Knowledge Graph)的概念由谷歌公司于2012年提出,旨在實現(xiàn)更智能的搜索引擎,并于2013年開始在學(xué)術(shù)界和業(yè)界普及。知識圖譜可以通過統(tǒng)一的框架將多源異構(gòu)的數(shù)據(jù)組織起來,利用圖結(jié)構(gòu)表達(dá)數(shù)據(jù)之間的語義關(guān)系,為數(shù)據(jù)的分析和挖掘提供了支持。隨著深度學(xué)習(xí)等人工智能技術(shù)的發(fā)展,知識圖譜技術(shù)在金融風(fēng)控、證券投資、醫(yī)療和地理信息等領(lǐng)域得到了廣泛的應(yīng)用。在網(wǎng)絡(luò)安全領(lǐng)域,通過對海量安全數(shù)據(jù)進(jìn)行知識抽取、融合和推理,能夠?qū)崿F(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)挖掘,從而在目標(biāo)畫像、APT檢測、攻擊溯源等方面發(fā)揮作用。
目前,網(wǎng)絡(luò)安全知識圖譜的研究尚處于起步階段,對于構(gòu)建和應(yīng)用網(wǎng)絡(luò)安全領(lǐng)域圖譜的整體技術(shù)框架的研究很少,本文重點對網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的各類關(guān)鍵技術(shù)進(jìn)行研究,提出了網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu)。
本文第1節(jié)介紹相關(guān)技術(shù)的國內(nèi)外研究現(xiàn)狀,第2節(jié)提出網(wǎng)絡(luò)安全知識圖譜技術(shù)架構(gòu),從本體模型、實體抽取、關(guān)系抽取、圖譜構(gòu)建與推理方法等方面詳細(xì)闡述知識圖譜關(guān)鍵技術(shù),最后第3節(jié)對全文進(jìn)行總結(jié)。
知識圖譜的核心是本體結(jié)構(gòu)[3]。本體是對一個特定領(lǐng)域中的概念及其之間關(guān)系的一種描述。知識圖譜描述的是真實世界中存在的實體或概念,強(qiáng)調(diào)實體和屬性值。一個本體可以用五元組來表達(dá):O =(C,R,F,A,I),C是本體概念的集合,描述領(lǐng)域內(nèi)的實際概念;R是關(guān)系集合,描述概念之間的關(guān)系;F是上下文關(guān)系的集合;A是公理集合,代表本體內(nèi)存在的事實,可以對本體內(nèi)的概念或關(guān)系進(jìn)行約束;I表示實例的集合。
網(wǎng)絡(luò)安全知識圖譜在語義網(wǎng)技術(shù)作為知識表示的基礎(chǔ)上,最重要的是本體結(jié)構(gòu)[4]。Undercoffer等人[5]提出了一個針對網(wǎng)絡(luò)攻擊的本體結(jié)構(gòu)并應(yīng)用到了分布式入侵檢測系統(tǒng)中,作者分析了4 000多種網(wǎng)絡(luò)攻擊,從目標(biāo)和攻擊兩個維度進(jìn)行建模;Herzog等人[6]定義網(wǎng)絡(luò)安全本體模型的核心概念包括資產(chǎn)、威脅、漏洞和對策,并描述了資產(chǎn)與漏洞、威脅與目標(biāo)資產(chǎn)之間的關(guān)聯(lián)關(guān)系;Iannacone等人[7]面向網(wǎng)絡(luò)安全整體領(lǐng)域構(gòu)建了一種本體,包含了15種實體及115個屬性;SYED等人[8]擴(kuò)展了Undercoffer提出的面向入侵檢測系統(tǒng)的本體,提出了一個更為通用的網(wǎng)絡(luò)安全知識本體——UCO,可以將網(wǎng)絡(luò)安全本體映射為STIX格式,對應(yīng)CVE等網(wǎng)絡(luò)安全知識庫以及DBPedia等通用知識庫。除此之外,國內(nèi)很多學(xué)者也對網(wǎng)絡(luò)安全領(lǐng)域的本體構(gòu)建進(jìn)行了研究,賈焰等人[9]基于現(xiàn)有的漏洞數(shù)據(jù)庫和攻擊規(guī)則庫,構(gòu)建了包含漏洞、資產(chǎn)、軟件、操作系統(tǒng)和攻擊在內(nèi)的網(wǎng)絡(luò)安全實體;王通等人[10]根據(jù)威脅情報目標(biāo)需求,參考威脅情報模型STIX和攻擊模式模型CAPEC構(gòu)建了網(wǎng)絡(luò)威脅情報本體模型。
實體抽取又稱為命名實體識別,目前的命名實體識別技術(shù)主要包括基于規(guī)則的方法、基于統(tǒng)計學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法一般由領(lǐng)域?qū)<沂止?gòu)建規(guī)則模板,選擇詞語的統(tǒng)計信息、指示詞等作為特征,以模式匹配為主要手段,例如Balduccini等人[11]提出將本體與正則表達(dá)式相結(jié)合來抽取網(wǎng)絡(luò)日志中的實體,該方法采用遺傳算法生成正則表達(dá)式對日志段落中的信息進(jìn)行標(biāo)記,然后通過本體將標(biāo)記信息匹配為實體;Liao等人[12]采用語法樹和正則表達(dá)式相結(jié)合的方法來識別網(wǎng)絡(luò)安全博客文本中的失陷指標(biāo)(Indicators Of Compromise)?;谝?guī)則的方法對于實體識別的準(zhǔn)確率較高,但是需要耗費大量人力來構(gòu)建規(guī)則,并且規(guī)則的移植性較差。基于統(tǒng)計學(xué)習(xí)的方法是將命名實體作為序列標(biāo)注或多分類任務(wù)來處理,主要采用最大熵、條件隨機(jī)場、隱馬爾可夫等模型。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,出現(xiàn)了很多命名實體識別工具,例如Stanford NLP、Stanform NER等,但這些工具都是基于通用知識語料庫進(jìn)行訓(xùn)練的,直接應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域的信息抽取中并不能取得較好的結(jié)果。賈焰等人[9]使用現(xiàn)有漏洞數(shù)據(jù)庫中的“influence platform”字段進(jìn)行匯總,構(gòu)建了實體字典,選擇Standform NER中的字典特征進(jìn)行訓(xùn)練,取得了較好的效果;Joshi等人[13]在條件隨機(jī)場(CRF)模型的基礎(chǔ)上采用網(wǎng)絡(luò)安全語料進(jìn)行訓(xùn)練?;诮y(tǒng)計學(xué)習(xí)的方法可以自動抽取實體,但需要大量的人工標(biāo)注數(shù)據(jù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)方法被廣泛應(yīng)用到了命名實體識別任務(wù)中,并成為目前的主流方法,其中Huang等人[14]首次將BiLSTM-CRF模型應(yīng)用到了命名實體識別中,利用雙向長短時記憶網(wǎng)絡(luò)(LSTM)進(jìn)行特征提取和CRF進(jìn)行實體標(biāo)注;Houssem等人[15]利用LSTM進(jìn)行網(wǎng)絡(luò)安全實體識別,也取得了較好的效果。
信息抽取中的另外一項任務(wù)是關(guān)系抽取,不同的關(guān)系將獨立的實體連接在一起形成知識圖譜。目前關(guān)系抽取主要分為三種方法:基于規(guī)則的模式匹配方法、基于監(jiān)督學(xué)習(xí)的方法和基于半監(jiān)督或無監(jiān)督的方法。早期的關(guān)系抽取主要采用基于規(guī)則的模式匹配方法,由領(lǐng)域?qū)<叶x各類關(guān)系的規(guī)則,然后使用規(guī)則和文本進(jìn)行模式匹配,但是領(lǐng)域?qū)<覠o法對所有關(guān)系的規(guī)則進(jìn)行窮舉?;诒O(jiān)督學(xué)習(xí)的方法把關(guān)系抽取作為多分類問題來處理,每一種關(guān)系都是一個類別,通過標(biāo)簽數(shù)據(jù)對分類器進(jìn)行訓(xùn)練。這種方法依賴于標(biāo)注數(shù)據(jù)的規(guī)模和特征的選擇,獲得大量標(biāo)注數(shù)據(jù)的代價通常是非常高昂的。為了解決這個問題,出現(xiàn)了基于半監(jiān)督或無監(jiān)督的關(guān)系抽取方法,主要包括基于Bootstrapping的方法和遠(yuǎn)程監(jiān)督的方法,其中Bootstrapping方法利用少量實例作為初始種子(seed tuples)集合,通過學(xué)習(xí)得到新的模式(pattern),進(jìn)而基于新的模式發(fā)現(xiàn)更多的實例,不斷迭代從非結(jié)構(gòu)化數(shù)據(jù)中尋找和發(fā)現(xiàn)新的潛在關(guān)系三元組;Mintz等人[16]提出了遠(yuǎn)程監(jiān)督方法,通過將知識庫與非結(jié)構(gòu)化文本對齊來自動構(gòu)建大量訓(xùn)練數(shù)據(jù),然后構(gòu)建特征用于訓(xùn)練分類器;Riede對傳統(tǒng)的遠(yuǎn)程監(jiān)督學(xué)習(xí)方法進(jìn)行改進(jìn),提出了增強(qiáng)的遠(yuǎn)程監(jiān)督假設(shè),即“如果兩個實體之間存在某種關(guān)系,那么至少有一個提到兩個實體的句子可以表達(dá)這種關(guān)系”,使用無向圖模型預(yù)測實體之間的關(guān)系以及哪個句子表達(dá)了這個關(guān)系,與原始的遠(yuǎn)程監(jiān)督方法相比,錯誤率降低了31%;Zeng等人[17]使用卷積神經(jīng)網(wǎng)絡(luò)來自動提取特征,解決了采用詞性標(biāo)注、依存句法樹等技術(shù)構(gòu)建特征時錯誤率偏高的問題;Miwa等人[18]提出了使用雙向LSTM和樹形LSTM同時對實體和句子進(jìn)行建模的方法。在網(wǎng)絡(luò)安全領(lǐng)域的關(guān)系抽取中,Pingle等人[19]在網(wǎng)絡(luò)安全語料庫上訓(xùn)練Word2Vec模型對實體進(jìn)行詞嵌入,采用前饋神經(jīng)網(wǎng)絡(luò)FFNN預(yù)測實體間的關(guān)系。
在網(wǎng)絡(luò)安全知識圖譜的構(gòu)建和推理方面,綠盟科技[20]基于知識圖譜進(jìn)行APT組織的追蹤分析,通過采集威脅情報、各機(jī)構(gòu)發(fā)布的APT報告及安全通告等數(shù)據(jù),定義APT攻擊本體,建立APT攻擊知識圖譜,實現(xiàn)對APT攻擊行為的追蹤溯源。瑞星公司構(gòu)建了威脅情報及網(wǎng)絡(luò)安全知識圖譜[21],包含100億+實體以及400億+關(guān)系,其中,實體包含文件、漏洞、IP、黑客組織等網(wǎng)絡(luò)安全攻擊事件中涉及到的所有元素,與普通的威脅情報平臺相比,在惡意軟件領(lǐng)域可以發(fā)揮特長,將一些惡意軟件模糊搜索、自動歸類的技術(shù)應(yīng)用到了知識圖譜的檢索中。在學(xué)術(shù)界,也有很多研究人員對知識圖譜在網(wǎng)絡(luò)安全領(lǐng)域中的應(yīng)用開展了研究工作,Yulu等人[22]基于網(wǎng)絡(luò)安全知識圖譜對網(wǎng)絡(luò)攻擊進(jìn)行溯源分析;Wei等人[23]通過知識圖譜來過濾不相關(guān)的警報日志;Narayanan集成不同來源的威脅情報構(gòu)建網(wǎng)絡(luò)威脅情報圖譜[24],實現(xiàn)了簡單的網(wǎng)絡(luò)安全事件預(yù)測;陶源等人利用知識圖譜建立日志審計分析模型,以支持網(wǎng)絡(luò)安全等級保護(hù)工作[25]。
當(dāng)前,知識圖譜相關(guān)技術(shù)發(fā)展迅猛,網(wǎng)絡(luò)安全作為新興的應(yīng)用領(lǐng)域,相關(guān)的知識圖譜本體模型、實體抽取、關(guān)系抽取,以及圖譜構(gòu)建及推理技術(shù)逐漸引起研究人員的重視。網(wǎng)絡(luò)安全知識圖譜技術(shù)架構(gòu)主要分為三個層次,其中:
(1)本體構(gòu)建層負(fù)責(zé)定義網(wǎng)絡(luò)安全領(lǐng)域的概念及其關(guān)系,例如網(wǎng)絡(luò)攻擊者、攻擊工具、木馬病毒、攻擊活動、安全事件、漏洞隱患、防護(hù)措施等;
(2)信息抽取層負(fù)責(zé)從多源異構(gòu)的網(wǎng)絡(luò)安全數(shù)據(jù)中抽取相關(guān)實體及其關(guān)系,將信息抽取過程中得到的實體進(jìn)行對齊和鏈接,并通過對抽取到的實體及關(guān)系進(jìn)行評估校驗后構(gòu)建知識圖譜;
采用文獻(xiàn)[27]Molish法對20%vol和72%vol紅棗白蘭地的致濁物進(jìn)行定性分析,實驗結(jié)果,20%vol未出現(xiàn)紫紅色環(huán),72%vol出現(xiàn)紫紅色環(huán)。表明20%vol紅棗白蘭地致濁物中不含有糖類,72%vol紅棗白蘭地致濁物中可能含有糖類,與紅外光譜圖結(jié)果相吻合。
(3)知識推理層負(fù)責(zé)在初步構(gòu)建的知識圖譜基礎(chǔ)上,通過知識推理分析挖掘新的實體或隱含關(guān)系,對圖譜進(jìn)行補(bǔ)全,提供網(wǎng)絡(luò)安全決策支持。
網(wǎng)絡(luò)安全本體模型的構(gòu)建應(yīng)根據(jù)具體的目標(biāo)需求來完成,例如針對APT攻擊,本體模型應(yīng)重點圍繞APT攻擊相關(guān)的組織、技術(shù)、工具、歷史攻擊活動、掌握資源等要素定義實體、屬性及其關(guān)系;針對勒索病毒,則本體模型應(yīng)重點定義病毒、代碼特征、利用漏洞、目標(biāo)對象、軟硬件版本、傳播范圍、阻斷方式等要素。
圖1給出了針對通用網(wǎng)絡(luò)安全目標(biāo)需求的本體模型示例。圖中每個節(jié)點代表本體模型的一類實體,節(jié)點間的連接代表實體間關(guān)系。例如,歸屬于某組織的攻擊者利用攻擊工具或惡意程序,發(fā)起對某個IP主機(jī)的攻擊事件,該攻擊工具或惡意程序利用了某款軟件存在的安全漏洞。
圖1 網(wǎng)絡(luò)安全本體模型示例Fig.1 An example of network security ontology model
網(wǎng)絡(luò)安全實體抽取任務(wù)主要面向的是網(wǎng)絡(luò)安全相關(guān)的非結(jié)構(gòu)化文本,例如網(wǎng)絡(luò)安全網(wǎng)站、論壇和各類社交媒體上發(fā)布的內(nèi)容。本文介紹基于經(jīng)典的雙向長短時記憶網(wǎng)絡(luò)-條件隨機(jī)場(BiLSTM-CRF)模型的實體抽取方法。其中雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)負(fù)責(zé)學(xué)習(xí)句子的上下文關(guān)系,條件隨機(jī)場(CRF)則負(fù)責(zé)處理實體類型之間的依賴關(guān)系,模型結(jié)構(gòu)如圖2所示。
圖2 BiLSTM-CRF模型Fig.2 BiLSTM-CRF model
模型的第一層是詞嵌入層,通過Word2Vec工具,將單詞序列(w1,w2,w3,...,wT)中的每個單詞映射成低維向量xi∈Rd,d為詞向量的維度。
模型的第二層是雙向LSTM層,負(fù)責(zé)自動提取句子特征。將單詞序列的各個詞向量(x1,x2,x3,...,xT)作為雙向LSTM在各個時間點的輸入,再將正向LSTM輸出的隱狀態(tài)序列與反向LSTM在各個位置輸出的隱狀態(tài)進(jìn)行拼接,得到完整的隱狀態(tài)序列(h1,h2,h3,...,hT)∈RTxm,接入一個線性層,將隱狀態(tài)向量從m維映射為13維向量(共有13種實體類別),從而得到自動提取的句子特征,記作L=(L1,L2,L3,...,LT)∈RTx13,Li∈R13的每一維Lij是把單詞wi分類為第j類實體的得分:
進(jìn)而得到歸一化之后的概率如公式(2)所示,P(y|x)表示將單詞序列x的實體類別預(yù)測為y的概率,Y表示單詞序列x對應(yīng)所有可能的實體類別序列構(gòu)成的集合,|Y|=13T:
模型通過最大化似然函數(shù)進(jìn)行訓(xùn)練,一個訓(xùn)練樣本(x,yx)的似然函數(shù)計算如公式(3)所示,其中P(yx|x)表示單詞序列x的實體類別序列為yx的概率:
最后由條件隨機(jī)場(CRF)層使用動態(tài)規(guī)劃Viterbi算法來得到預(yù)測值。
針對網(wǎng)絡(luò)安全關(guān)系抽取任務(wù),由于缺乏中文標(biāo)注的網(wǎng)絡(luò)安全實體關(guān)系數(shù)據(jù)集,因此傳統(tǒng)的模式匹配和監(jiān)督學(xué)習(xí)方法并不適用。考慮使用遠(yuǎn)程監(jiān)督方法,在只需要少量標(biāo)注數(shù)據(jù)集的基礎(chǔ)上進(jìn)行模型訓(xùn)練。本文介紹分段卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Networks,PCNN)模型[26],將遠(yuǎn)程監(jiān)督學(xué)習(xí)看作是一個多實例學(xué)習(xí)問題,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型自動學(xué)習(xí)文本特征,在最后的池化操作中使用分段池化的方法,利用該模型進(jìn)行網(wǎng)絡(luò)安全實體關(guān)系的識別。PCNN模型結(jié)構(gòu)如圖3所示。
圖3 PCNN模型Fig.3 PCNN model
PCNN模型的第一層是詞嵌入層,將輸入的單詞轉(zhuǎn)化為詞向量。PCNN模型根據(jù)每個單詞相對兩個實體的位置信息進(jìn)行拼接形成位置向量,然后在卷積層通過CNN模型來提取文本特征。常用的最大池化操作因為對句子長度特征池化,不適合關(guān)系抽取任務(wù)。PCNN模型將句子按照實體位置分為三段,分別對每段進(jìn)行池化,最后通過softmax層計算句子屬于每類關(guān)系的得分。
PCNN使用多實例學(xué)習(xí)方法來降低錯誤標(biāo)注帶來的影響。多實例學(xué)習(xí)每次使用一袋包含同一對實體的樣本,袋的標(biāo)簽為實體對在知識圖譜中的關(guān)系,袋中的數(shù)據(jù)相互獨立。每次對M袋數(shù)據(jù)進(jìn)行訓(xùn)練,首先從每一袋數(shù)據(jù)中選取最具代表性的樣本,計算方式如下:
其中,qi表示第i袋樣本的數(shù)量,yi為第i袋數(shù)據(jù)的標(biāo)簽,mji表示第i袋數(shù)據(jù)中的第j個樣本;然后,將該樣本的標(biāo)簽視為此袋數(shù)據(jù)的預(yù)測標(biāo)簽,計算交叉熵?fù)p失:
其中,M表示袋的數(shù)量,yi為第i袋數(shù)據(jù)的標(biāo)簽,為第i袋數(shù)據(jù)中選出的最具代表性的樣本。
經(jīng)過實體抽取和關(guān)系抽取之后,網(wǎng)絡(luò)安全數(shù)據(jù)中的實體和關(guān)系可以鏈接到本體模型中定義的概念及關(guān)系,通過Neo4j等圖數(shù)據(jù)庫可以存儲初步形成的知識圖譜。為保證圖譜的質(zhì)量,還需對圖譜中的知識進(jìn)行評估校驗,去除多數(shù)據(jù)源中的冗余知識,并研判解決存在沖突的信息,避免在知識推理過程中錯誤傳播。
由于很多網(wǎng)絡(luò)安全數(shù)據(jù)的組織形式比較簡單,信息抽取之后創(chuàng)建的知識圖譜中主要包含句子中顯式表達(dá)的關(guān)系,還需要在現(xiàn)有知識的基礎(chǔ)上通過知識推理,挖掘潛在的隱含知識,豐富網(wǎng)絡(luò)安全知識圖譜。網(wǎng)絡(luò)安全知識圖譜的知識推理可以結(jié)合具體的任務(wù)需求,綜合使用基于規(guī)則的推理和基于知識表示學(xué)習(xí)的推理方法。某些網(wǎng)絡(luò)安全數(shù)據(jù)可以根據(jù)專家經(jīng)驗知識定義規(guī)則,例如對于某些具有鮮明特征的APT組織的攻擊手段或技術(shù)方法,可以由專家定義規(guī)則知識庫,將圖譜知識與規(guī)則庫進(jìn)行模式匹配。
另一方面,知識表示學(xué)習(xí)可以將圖譜中離散的關(guān)系和實體映射成低維的連續(xù)向量,同時不損失知識圖譜中的原有語義。目前常用的方法主要是基于深度學(xué)習(xí)的知識表示學(xué)習(xí),針對本文構(gòu)建的網(wǎng)絡(luò)安全知識圖譜,將<實體,關(guān)系,實體>三元組映射成低維的向量,使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多步知識推理。目前在知識圖譜推理的基礎(chǔ)研究中,結(jié)合領(lǐng)域知識圖譜的本體知識來構(gòu)建圖譜表示模型的研究成果較少,研究針對網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的表示模型,可以在一定程度上提高圖譜推理的準(zhǔn)確率,實現(xiàn)更為精準(zhǔn)、更具可操作性的安全決策推理。
本文提出了網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu),從本體模型定義、實體抽取、關(guān)系抽取、圖譜構(gòu)建及推理等方面闡述了網(wǎng)絡(luò)安全領(lǐng)域知識圖譜的關(guān)鍵技術(shù)。當(dāng)前,知識圖譜在信息檢索、推薦系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用,在網(wǎng)絡(luò)安全領(lǐng)域中也開始發(fā)揮越來越重要的作用。將知識圖譜引入網(wǎng)絡(luò)安全領(lǐng)域中,可以將互聯(lián)網(wǎng)中零散的網(wǎng)絡(luò)安全數(shù)據(jù)組織在一起,挖掘網(wǎng)絡(luò)安全數(shù)據(jù)之間潛在的語義關(guān)系,幫助全方位掌握威脅信息,對當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢做出判斷,進(jìn)而預(yù)警、預(yù)測未來可能發(fā)生的威脅。
本文提出的網(wǎng)絡(luò)安全知識圖譜的技術(shù)架構(gòu)中知識抽取、推理等關(guān)鍵技術(shù)主要還是基于深度學(xué)習(xí)技術(shù),然而使用深度學(xué)習(xí)技術(shù)構(gòu)建知識圖譜仍然存在不準(zhǔn)確、不全面的問題,首先深度學(xué)習(xí)技術(shù)依賴于大量的標(biāo)注的語料庫,目前通用知識語料庫主要還是關(guān)注人物、事物等,將深度學(xué)習(xí)知識圖譜引入到領(lǐng)域圖譜中時會出現(xiàn)準(zhǔn)確率大大降低等問題,可移植性較低;其次,知識圖譜涉及各個方面各個場景,并不像圖片、語音可以在單一的維度來訓(xùn)練模型,從而達(dá)到足夠的精度和召回率;在知識推理方面,目前主流的方法還是基于深度學(xué)習(xí)與知識表示學(xué)習(xí),單純依賴大量的標(biāo)注數(shù)據(jù),在網(wǎng)絡(luò)安全領(lǐng)域的知識圖譜中,有諸多的先驗知識無法有效使用并融合到深度學(xué)習(xí)的推理模型當(dāng)中,以提高知識推理的精度。
后續(xù)可以圍繞如何提升網(wǎng)絡(luò)安全領(lǐng)域信息抽取的準(zhǔn)確性,如何融合已有的專家知識構(gòu)建網(wǎng)絡(luò)安全領(lǐng)域知識圖譜表示模型和推理模型,進(jìn)一步開展更多的研究和探索工作,以提高網(wǎng)絡(luò)安全主動防御能力。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。