国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Markov 時(shí)間博弈的移動(dòng)目標(biāo)防御最優(yōu)策略選取方法

2020-02-09 09:29譚晶磊張恒巍張紅旗金輝雷程
通信學(xué)報(bào) 2020年1期
關(guān)鍵詞:攻擊者收益狀態(tài)

譚晶磊,張恒巍,張紅旗,金輝,雷程

(1.信息工程大學(xué)三院,河南 鄭州 450001;2.河南省信息安全重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)

1 引言

全球性網(wǎng)絡(luò)安全攻防競賽[1]已經(jīng)達(dá)到前所未有的強(qiáng)度,各類網(wǎng)絡(luò)攻擊事件愈演愈烈,網(wǎng)絡(luò)攻擊者不斷制定新的攻擊策略。其中,移動(dòng)目標(biāo)攻擊(MTA,moving target attack)技術(shù)是最受攻擊者歡迎的攻擊方法之一,它利用各種不確定的攻擊手段隱藏攻擊意圖,并試圖逃避傳統(tǒng)網(wǎng)絡(luò)防御的檢測機(jī)制。由于傳統(tǒng)網(wǎng)絡(luò)防御機(jī)制無法準(zhǔn)確預(yù)知攻擊者下一步攻擊行動(dòng),MTA 技術(shù)在網(wǎng)絡(luò)攻防博弈中逐漸獲得競爭優(yōu)勢,這不僅對網(wǎng)絡(luò)空間造成了很大的安全威脅,而且產(chǎn)生了高昂的防御成本。

近年來,網(wǎng)絡(luò)安全戰(zhàn)略經(jīng)歷了從被動(dòng)防御到主動(dòng)防御的演化升級,新興的移動(dòng)目標(biāo)防御(MTD,moving target defense)技術(shù)[2]已經(jīng)成為平衡網(wǎng)絡(luò)安全競爭環(huán)境的新方法,它通過引入動(dòng)態(tài)性、隨機(jī)性以及異構(gòu)性來保護(hù)網(wǎng)絡(luò)空間,旨在利用攻擊面的動(dòng)態(tài)變換打破網(wǎng)絡(luò)系統(tǒng)的靜態(tài)特性,向攻擊者呈現(xiàn)一個(gè)不可預(yù)測的網(wǎng)絡(luò)狀態(tài),以阻止攻擊者的惡意行為,增加攻擊者攻擊成功的難度。

MTA 與MTD[3]依據(jù)攻防成本和收益選取最優(yōu)策略攻防收益最大化,具有關(guān)系非合作性。在移動(dòng)目標(biāo)攻防對抗過程中,MTA 試圖通過各種攻擊手段控制系統(tǒng)攻擊面,將攻擊面的暴露范圍不斷擴(kuò)大,為后續(xù)持續(xù)性攻擊做好準(zhǔn)備;而MTD 則通過動(dòng)態(tài)化、隨機(jī)化和多樣化的方法控制系統(tǒng)攻擊面,轉(zhuǎn)移或者減少系統(tǒng)攻擊面,以拒止MTA 的攻擊行動(dòng),因而移動(dòng)目標(biāo)攻防雙方具有目標(biāo)對立性。移動(dòng)目標(biāo)攻防雙方對于最優(yōu)策略的選取不僅僅取決于自身,同時(shí)也取決于對手,因此移動(dòng)目標(biāo)攻防雙方具有策略依存性。移動(dòng)目標(biāo)攻防過程所具有的關(guān)系非合作性、目標(biāo)對立性和策略依存性與博弈論的理論特性相契合,博弈論可在選取移動(dòng)目標(biāo)防御最優(yōu)策略的研究中發(fā)揮重要作用。

姜偉等[4]提出了一種基于完全信息博弈的最優(yōu)防御策略選取算法,通過構(gòu)建攻防隨機(jī)博弈模型,預(yù)測攻擊行為,并由此制定最優(yōu)防御策略。林旺群等[5]提出了基于完全信息動(dòng)態(tài)博弈的最優(yōu)策略,通過引入“虛擬節(jié)點(diǎn)”將攻擊圖轉(zhuǎn)換為博弈樹,采用非合作動(dòng)態(tài)博弈求解最優(yōu)防御策略,但是該模型并沒有給出詳細(xì)的策略選取算法。Manadhata 等[6]則提出了基于隨機(jī)博弈的最優(yōu)攻擊面變換方法,為了權(quán)衡安全性和可用性,將移動(dòng)目標(biāo)防御形式化為二人隨機(jī)博弈。然而,單階段博弈難以有效刻畫移動(dòng)目標(biāo)防御持續(xù)動(dòng)態(tài)變化的特性,因此Vadlamudi 等[7]提出了基于貝葉斯攻擊圖的移動(dòng)目標(biāo)防御最優(yōu)策略選取方法,它利用貝葉斯攻擊圖描述了攻擊方利用的脆弱性間的關(guān)聯(lián)關(guān)系,以及防御方可觀測到的攻擊行為和網(wǎng)絡(luò)安全狀態(tài),但是仍然難以表征攻防對抗的動(dòng)態(tài)性。為了刻畫MTD 攻防對抗的動(dòng)態(tài)連續(xù)特性,Lei 等[8]將攻防雙方對資源脆弱性的利用抽象為攻擊面和探測面的變化,并在收益函數(shù)的計(jì)算中考慮了跳變的性能消耗。由于攻防雙方的行為策略會(huì)導(dǎo)致網(wǎng)絡(luò)系統(tǒng)狀態(tài)的改變,且狀態(tài)轉(zhuǎn)移具有Markov 性,Maleki[9]提出了基于Markov 的移動(dòng)目標(biāo)防御博弈模型,通過將Markov 決策過程與博弈模型相結(jié)合,對單目標(biāo)IP 跳變和多目標(biāo)IP 跳變策略進(jìn)行分析,證明多元素跳變可以有效提高防御的收益,但是基于Markov 的博弈收益量化仍然依賴攻防對抗的歷史數(shù)據(jù)和專家經(jīng)驗(yàn)。

雖然現(xiàn)有的研究取得了一定成果,但在模型構(gòu)建和收益量化方面仍存在不足。一方面,現(xiàn)有的研究工作大多基于隨機(jī)博弈、貝葉斯博弈等博弈模型,難以有效刻畫MTD 攻防的動(dòng)態(tài)連續(xù)特性;另一方面,現(xiàn)有的收益量化方法大都基于歷史數(shù)據(jù)與專家經(jīng)驗(yàn)表征刻畫,難以保證決策結(jié)果的客觀準(zhǔn)確性。基于此,本文引入時(shí)間博弈進(jìn)行博弈的動(dòng)態(tài)性刻畫,并利用時(shí)間博弈隱蔽對抗的特性構(gòu)建MTD 攻防模型,基于Markov 決策過程表征MTD 狀態(tài)的隨機(jī)遷移特性,通過攻防雙方對攻擊面的控制時(shí)間量化攻防收益。

2 移動(dòng)目標(biāo)攻防集合策略構(gòu)建

2.1 移動(dòng)目標(biāo)攻擊策略

移動(dòng)目標(biāo)攻擊體系已經(jīng)逐步發(fā)展并不斷完善,常見的移動(dòng)目標(biāo)攻擊技術(shù)如表1 所示。

表1 移動(dòng)目標(biāo)攻擊技術(shù)分類

多態(tài)MTA 可以有效規(guī)避防御者入侵檢測系統(tǒng)的特征檢測。一方面,多態(tài)MTA 使用多個(gè)加密密鑰生成相同惡意軟件的不同實(shí)例,由于新實(shí)例具有新的未知靜態(tài)簽名,使基于簽名的反惡意軟件防御無效。另一方面,多態(tài)MTA 有效載荷(代碼和數(shù)據(jù))是加密的,可以繞過防御者的深層靜態(tài)分析。多態(tài)MTA 通過更改內(nèi)存中的代碼使防御者的攻擊檢測過程復(fù)雜化。

與多態(tài)MTA 類似,自修改MTA 可以有效規(guī)避文件和內(nèi)存的自動(dòng)掃描,而混淆MTA 則可以有效逃避手動(dòng)檢查代碼?;煜齅TA 所創(chuàng)建的具有混淆性的代碼通常難以被傳統(tǒng)檢測手段發(fā)現(xiàn),它可以創(chuàng)建帶有模糊字符串的有效負(fù)載、虛擬代碼和復(fù)雜的函數(shù)調(diào)用圖,并隨機(jī)生成惡意軟件實(shí)例。自加密MTD 則通過變換惡意軟件簽名來隱藏惡意代碼和數(shù)據(jù)。

反虛擬機(jī)/反沙箱MTA 是另一種移動(dòng)目標(biāo)攻擊方法,惡意軟件分析通常利用虛擬機(jī)或沙箱環(huán)境檢測惡意軟件的運(yùn)行活動(dòng),如果檢測到虛擬機(jī)或沙箱,則反虛擬機(jī)/反沙箱MTA 會(huì)改變其行為并避免任何惡意活動(dòng)。一旦在真實(shí)系統(tǒng)上執(zhí)行并被標(biāo)記為良性之后,它就會(huì)開始其惡意行為。

反調(diào)試MTA 可以避免調(diào)試和運(yùn)行時(shí)的檢測分析。如果反調(diào)試MTA 在運(yùn)行時(shí)檢測到調(diào)試工具,則會(huì)更改其執(zhí)行流程保持良性操作。如果它未被調(diào)試工具檢測到,則會(huì)啟動(dòng)惡意行為。

目標(biāo)漏洞利用MTA 可以更改統(tǒng)一資源定位符(URL,uniform resource locator)模式、主機(jī)服務(wù)器、加密密鑰和文件名,還可以通過限制來自相同IP地址的漏洞訪問次數(shù)來規(guī)避蜜罐防御。

行為改變MTA 通常在真實(shí)用戶交互后發(fā)動(dòng)攻擊,因而它可以確保在真實(shí)機(jī)器上執(zhí)行攻擊。

這些有效的移動(dòng)目標(biāo)攻擊方法為攻擊者贏得了不對稱的攻擊優(yōu)勢,使傳統(tǒng)防御技術(shù)處于被動(dòng)不利的局面。攻擊者明確自己的攻擊對象、攻擊時(shí)間、攻擊目標(biāo)和攻擊方式,而防御者則處于不確定狀態(tài),只能利用大量的成本、時(shí)間和資源來規(guī)避攻擊者可能發(fā)起的任何攻擊探測和入侵活動(dòng)。因此,防御者和攻擊者之間不存在理論上的對稱性。

2.2 移動(dòng)目標(biāo)防御策略

防止移動(dòng)目標(biāo)攻擊的最佳方法是使用基于移動(dòng)目標(biāo)防御的新安全解決方案。2009 年,美國國家賽博跨越式發(fā)展年會(huì)首先提出了移動(dòng)目標(biāo)防御這一概念,提出移動(dòng)目標(biāo)防御通過持續(xù)變換系統(tǒng)呈現(xiàn)給攻擊方的攻擊面,從而有效增加攻擊方探測目標(biāo)節(jié)點(diǎn)脆弱性的代價(jià)[10]。2012 年,美國白宮國防安全委員會(huì)在賽博空間安全研究進(jìn)展報(bào)告[11]中明確了移動(dòng)目標(biāo)的概念,即移動(dòng)目標(biāo)是可在多個(gè)維度上通過移動(dòng)來降低攻擊方優(yōu)勢并增加系統(tǒng)彈性的技術(shù)手段。2014 年,《可改變游戲規(guī)則的賽博空間安全研究與發(fā)展建議》中則將移動(dòng)目標(biāo)防御定義為一種創(chuàng)建、分析、評估和部署多樣化、持續(xù)時(shí)變的機(jī)制和策略,以增加攻擊實(shí)施的復(fù)雜度與成本,限制和降低系統(tǒng)脆弱性曝光度和被攻擊的概率,提高系統(tǒng)彈性的防御手段[12]。

移動(dòng)目標(biāo)防御是一種新的主動(dòng)防御思想,它通過移動(dòng)或偽裝攻擊者探測的資源以擾亂應(yīng)用程序存儲(chǔ)器。當(dāng)惡意軟件獲得對移動(dòng)目標(biāo)防御保護(hù)系統(tǒng)的訪問權(quán)限時(shí),它無法找到所需的易受攻擊的資源以造成損害。就其本質(zhì)而言,移動(dòng)目標(biāo)防御與攻擊無關(guān),因此可以有效抵御已知和未知攻擊的多種變化。之前的研究[13]已經(jīng)總結(jié)概述了它的基本理論框架,如圖1 所示。

圖1 MTD 理論框架

將物理網(wǎng)絡(luò)映射到邏輯任務(wù)模型,由調(diào)整引擎獲取邏輯任務(wù)模型的當(dāng)前狀態(tài),并由配置管理調(diào)整產(chǎn)生新狀態(tài)進(jìn)行適應(yīng),分析引擎獲取物理網(wǎng)絡(luò)的實(shí)時(shí)事件,利用傳統(tǒng)防御中入侵檢測、防火墻等檢測機(jī)制進(jìn)行脆弱性分析,由邏輯安全模型產(chǎn)生邏輯安全狀態(tài)發(fā)送給調(diào)整引擎,形成一個(gè)閉合自反饋的動(dòng)態(tài)調(diào)整系統(tǒng)。

移動(dòng)目標(biāo)防御技術(shù)研究是針對系統(tǒng)不同要素、安全威脅和應(yīng)用場景設(shè)計(jì)的可行防御策略,分為系統(tǒng)層MTD 和網(wǎng)絡(luò)層MTD 這2 個(gè)層面,其中,系統(tǒng)層MTD 包括硬件MTD 和軟件MTD,網(wǎng)絡(luò)層MTD 包括MAC、IP、協(xié)議、路徑、操作系統(tǒng)、指紋以及端口MTD,具體如表2 所示。本文所采用的移動(dòng)目標(biāo)防御策略為網(wǎng)絡(luò)層MTD。

3 移動(dòng)目標(biāo)防御模型構(gòu)建

3.1 移動(dòng)目標(biāo)防御時(shí)間博弈過程分析

2013 年,針對APT,美國RSA 實(shí)驗(yàn)室的Dijk[14]首次提出了時(shí)間博弈,與現(xiàn)有的大多數(shù)博弈模型不同,時(shí)間博弈由防御者和攻擊者這2 個(gè)局中人以及公共資源構(gòu)成,它允許局中人在任意時(shí)刻采取行動(dòng)來控制資源。然而,在局中人實(shí)際移動(dòng)之前,不會(huì)顯示資源控制權(quán),因此隱蔽性是時(shí)間博弈的最大特點(diǎn)。每個(gè)局中人的目標(biāo)是最大化控制資源時(shí)間,同時(shí)最小化移動(dòng)成本。在移動(dòng)目標(biāo)攻防過程中,根據(jù)時(shí)間博弈基本理論,網(wǎng)絡(luò)攻防系統(tǒng)中的局中人共同爭奪對公共資源(攻擊面)的控制權(quán),盡可能地最大化自身的收益,圖2 顯示了隨著時(shí)間變化,移動(dòng)目標(biāo)攻擊者(灰色)和移動(dòng)目標(biāo)防御者(黑色)之間的公共資源控制權(quán)的切換。

表2 移動(dòng)目標(biāo)防御策略集合分類

圖2 移動(dòng)目標(biāo)防御時(shí)間博弈說明示例

移動(dòng)目標(biāo)攻防策略的實(shí)施都需要付出一定的成本,其中,移動(dòng)目標(biāo)攻擊者的目標(biāo)是破壞網(wǎng)絡(luò)關(guān)鍵服務(wù),并盡可能降低攻擊成本。移動(dòng)目標(biāo)防御者的目標(biāo)是增加安全防御預(yù)算,減緩或阻止攻擊行為,以最大化移動(dòng)目標(biāo)攻擊者的攻擊成本。移動(dòng)目標(biāo)攻防雙方都需要對系統(tǒng)攻擊面進(jìn)行控制,不同的是,攻擊者是利用攻擊面可用的脆弱性資源發(fā)起攻擊,而防御者則是改變或減少攻擊面脆弱性資源來提高攻擊者的攻擊難度,攻擊面的控制權(quán)會(huì)隨著局中人的行動(dòng)發(fā)生變化。因此,利用時(shí)間博弈刻畫單階段移動(dòng)目標(biāo)防御過程更符合真實(shí)網(wǎng)絡(luò)攻防場景。

本文首先利用時(shí)間博弈模型刻畫單階段移動(dòng)目標(biāo)防御過程,接著從全局視角出發(fā),借鑒Markov 決策過程[15],將各博弈階段之間的狀態(tài)遷移描述為隨機(jī)過程,將多階段時(shí)間博弈與Markov 決策方法相結(jié)合,構(gòu)建多階段Markov 時(shí)間博弈并進(jìn)行均衡求解。

3.2 Markov 時(shí)間博弈移動(dòng)目標(biāo)防御模型構(gòu)建

首先,對單階段時(shí)間博弈進(jìn)行分析,如定義1所示。

定義1單階段時(shí)間博弈模型(STG-MTD)。STG-MTD 表示為六元組(N,B,R,η,U,T),具體如下。

1)N={NMTA,NMTD}是攻防博弈的局中人集合,其中,NMTA代表移動(dòng)目標(biāo)攻擊方,NMTD代表移動(dòng)目標(biāo)防御方。

2)B={PMTA,PMTD}是攻防博弈可行動(dòng)作空間,其中,PMTA和PMTD分別代表移動(dòng)目標(biāo)攻擊者和防御者的移動(dòng)策略集。

3)R是移動(dòng)目標(biāo)攻防雙方所競爭的公共資源,本文將網(wǎng)絡(luò)中的攻擊面視為公共資源。

4)η是博弈信念集合,ηMTAi表示移動(dòng)目標(biāo)攻擊方選擇MTA 策略PMTAi(0≤i≤m)的概率,滿足表示移動(dòng)目標(biāo)防御方選擇MTD策略PMTDj(0≤j≤l)的概率,滿足。

5)U={UMTA,UMTD}是移動(dòng)目標(biāo)攻防雙方的收益函數(shù)集合,它由所有局中人對攻擊面的控制時(shí)間TN和策略實(shí)施所需成本CN共同決定,分別為UMTD(CMTDi,TMTDj)和UMTA(CMTAi,TMTAj),1≤i≤m,1≤j≤l。

6)T是博弈的總時(shí)間,T=TMTD+TMTA。

以單階段時(shí)間博弈為基礎(chǔ),構(gòu)建多階段Markov時(shí)間博弈模型。

1)博弈模型定義

定義2Markov 時(shí)間博弈移動(dòng)目標(biāo)防御模型(MTG-MTD)。MTG-MTD 可以表示為十元組(N,K,R,S,f,B,η,U,β,T),具體如下。

①N={NMTA,NMTD}是攻防博弈的局中人集合,其中,NMTA代表移動(dòng)目標(biāo)攻擊方,NMTD代表移動(dòng)目標(biāo)防御方。

②K是多階段攻防博弈的階段數(shù),G(K)代表當(dāng)前攻防博弈階段,其中K={1,…,n},n∈?。

③R是移動(dòng)目標(biāo)攻防雙方競爭的公共資源,本文將網(wǎng)絡(luò)中的攻擊面視為公共資源。

④S={S1,S2,…,SK}是不同網(wǎng)絡(luò)攻防階段安全狀態(tài)集合。

⑤f表示狀態(tài)遷移概率,fij=f(Sj|Si)表示系統(tǒng)從狀態(tài)Si遷移至狀態(tài)Sj的概率,攻防雙方的對抗行為是影響安全狀態(tài)轉(zhuǎn)換的關(guān)鍵因素,由于攻防雙方的可行策略集和網(wǎng)絡(luò)系統(tǒng)運(yùn)行環(huán)境可能發(fā)生改變,因此狀態(tài)轉(zhuǎn)換具有一定隨機(jī)性。

⑦η是博弈信念集合,在第k階段,表示移動(dòng)目標(biāo)攻擊方選擇MTA策略(0≤i≤m)的概率,滿足表示移動(dòng)目標(biāo)防御方選擇MTD 策略(0≤j≤l)的概率,滿足

⑨β是折現(xiàn)因子,表示博弈階段k中的收益相較初始階段的折現(xiàn)比例,0<β≤1 。

⑩T是單階段博弈所需的總時(shí)間。

2)移動(dòng)目標(biāo)攻防收益量化

移動(dòng)目標(biāo)攻防收益量化是最優(yōu)防御策略選取的基礎(chǔ),在文獻(xiàn)[16]的研究基礎(chǔ)上,本文從移動(dòng)目標(biāo)攻防雙方對攻擊面的控制出發(fā),結(jié)合移動(dòng)目標(biāo)攻防策略特點(diǎn),對移動(dòng)目標(biāo)攻防策略收益進(jìn)行全面分析量化。

定義3防御成本(DC,defense cost)。DC 由移動(dòng)目標(biāo)防御者控制攻擊面的時(shí)間成本TCASC和變換攻擊面的時(shí)間成本THASC兩部分組成,DC=TCASC+THASC。

定義4攻擊成本(AC,attack cost)。AC 指移動(dòng)目標(biāo)攻擊者發(fā)現(xiàn)系統(tǒng)漏洞并采取MTA 策略時(shí)所產(chǎn)生的時(shí)間成本。

定義5防御有效性(DE,defense effectiveness)。DE 是移動(dòng)目標(biāo)防御者實(shí)施MTD 策略對攻擊面的控制時(shí)間。

定義6攻擊有效性(AE,attack effectiveness)。AE 是移動(dòng)目標(biāo)攻擊者實(shí)施MTA 策略對攻擊面的控制時(shí)間。

定義7防御收益。防御收益指移動(dòng)目標(biāo)防御者控制攻擊面獲得的收益。

定義8攻擊收益。攻擊收益指移動(dòng)目標(biāo)攻擊者控制攻擊面獲得的收益。

移動(dòng)目標(biāo)攻防收益矩陣M如下,和分別表示策略組合下的攻擊收益值和防御收益值,滿足定義7 和定義8。

令R為目標(biāo)準(zhǔn)則函數(shù),用于判斷移動(dòng)目標(biāo)攻防雙方策略選取的優(yōu)劣。常用的準(zhǔn)則函數(shù)[17]主要有折現(xiàn)期望回報(bào)準(zhǔn)則函數(shù)和平均回報(bào)準(zhǔn)則函數(shù)。在移動(dòng)目標(biāo)攻防對抗過程中,由于網(wǎng)絡(luò)系統(tǒng)信息的價(jià)值與時(shí)間相關(guān),因此采用折現(xiàn)期望回報(bào)準(zhǔn)則函數(shù)作為博弈雙方的目標(biāo)函數(shù),其中,表示攻防雙方分別采取策略PMTA和PMTD時(shí)相較于初始階段的折現(xiàn)收益值,S為初始階段狀態(tài),S′為未來階段狀態(tài),US為初始階段狀態(tài)下的攻防收益值。

移動(dòng)目標(biāo)攻擊方通過偵察網(wǎng)絡(luò)攻擊面,發(fā)現(xiàn)并利用系統(tǒng)資源脆弱性,進(jìn)而導(dǎo)致系統(tǒng)性能開銷增大或系統(tǒng)功能不可用。移動(dòng)目標(biāo)防御方通過選取MTD策略從而增大或轉(zhuǎn)換攻擊面,進(jìn)而在保證網(wǎng)絡(luò)功能正常安全運(yùn)行的前提下提高系統(tǒng)的安全性。

由以上定義可知,經(jīng)過有限次博弈后,系統(tǒng)在不同狀態(tài)間進(jìn)行遷移,可用攻防博弈樹表示。在TG-MTD 模型構(gòu)建的基礎(chǔ)上,第4 節(jié)給出了模型的均衡策略分析求解和具體的最優(yōu)防御選取算法。

4 博弈均衡求解與防御策略選取算法設(shè)計(jì)

根據(jù)第2 節(jié)的分析,不同博弈階段中攻防雙方對攻擊面的控制順序動(dòng)態(tài)變化。因此,本節(jié)首先提出時(shí)間博弈的子博弈精煉納什均衡求解方法,然后分析多階段攻防博弈的求解過程。

4.1 博弈均衡分析

在時(shí)間博弈階段G(K),移動(dòng)目標(biāo)攻防策略分別為若為第k階段的時(shí)間穩(wěn)定策略,則對于任意攻防策略和滿足

不同移動(dòng)目標(biāo)攻防策略的選取會(huì)影響每階段博弈情況,根據(jù)Markov 決策準(zhǔn)則,局中人必有一個(gè) Markov 最優(yōu)響應(yīng)策略[18]。因此,如果為Markov 最優(yōu)響應(yīng)策略,那么使目標(biāo)準(zhǔn)則函數(shù)對任意階段k均滿足式(2)所示條件。

定理 1多階段 Markov 攻防時(shí)間博弈MTG-MTD 存在混合策略下的納什均衡。

證明MTG-MTD 博弈由多個(gè)獨(dú)立且相似的單階段不完全信息動(dòng)態(tài)博弈構(gòu)成。一方面,由于每個(gè)獨(dú)立的單階段不完全信息動(dòng)態(tài)博弈均屬于有限博弈,因此,必定存在混合策略下的納什均衡[19]。另一方面,由多階段Markov 時(shí)間博弈模型的定義,依據(jù)轉(zhuǎn)移概率和收益函數(shù)可知,存在與MTG-MTD等價(jià)的有限Markov 博弈,且收益函數(shù)為凸函數(shù)。依據(jù)有限Markov 博弈的均衡策略存在性定理[20],存在混合策略下的納什均衡。證畢。

4.2 博弈均衡求解

4.2.1 單階段時(shí)間博弈均衡求解

首先,給出單階段時(shí)間博弈均衡的求解過程和步驟,參照完全信息動(dòng)態(tài)博弈的相關(guān)理論知識,移動(dòng)目標(biāo)攻防雙方對攻擊面的控制權(quán)爭奪具有先后順序,先行動(dòng)的一方的各種信息會(huì)被另一方完全掌握,因而后行動(dòng)的一方可以根據(jù)對方的信息進(jìn)行相應(yīng)調(diào)整以最大化自身利益。

針對本文完全信息動(dòng)態(tài)移動(dòng)目標(biāo)攻防場景,引入澤爾騰的子博弈精煉納什均衡思想方法[21],去除均衡中的不可置信威脅策略的納什均衡,得出合理的預(yù)測結(jié)果。不失一般性,子博弈精煉納什均衡的每個(gè)信息集上的均衡結(jié)果均為最優(yōu)策略。

移動(dòng)目標(biāo)攻防雙方在不同策略組合下的收益矩陣可以用圖3 的博弈樹直觀展示。假設(shè)博弈開始時(shí)刻由移動(dòng)目標(biāo)攻擊者控制攻擊面,隨后移動(dòng)目標(biāo)防御者實(shí)施策略,爭奪攻擊面的控制權(quán),單階段博弈總時(shí)間為T。

4.2.2 多階段Markov 時(shí)間博弈均衡求解

引入折現(xiàn)因子,將未來收益折算成基于初始階段的折現(xiàn)收益,在此基礎(chǔ)上,將博弈均衡策略的求解問題轉(zhuǎn)化為非線性規(guī)劃(NLP2,nonlinear programming second)最優(yōu)值問題,求解多階段均衡策略B*及其收益U*。

圖3 網(wǎng)絡(luò)攻防時(shí)間博弈樹

對于K={1,…,n},n∈?,有目標(biāo)函數(shù)為

約束條件為

4.3 最優(yōu)策略選取算法

基于移動(dòng)目標(biāo)攻防場景下多階段Markov 時(shí)間博弈模型及其子博弈精煉納什均衡的研究,給出多階段Markov 時(shí)間博弈的最優(yōu)主動(dòng)防御策略選取算法。

算法1多階段Markov 時(shí)間博弈的最優(yōu)防御策略選取算法

輸入多階段Markov 時(shí)間博弈模型MTG-MTD

輸出多階段最優(yōu)移動(dòng)目標(biāo)防御策略

算法的時(shí)間復(fù)雜度為O(k(m+n)2),空間復(fù)雜度為O(knm),表3 展示了本文提出的最優(yōu)策略選取方法與其他最優(yōu)策略選取方法的比較結(jié)果。在移動(dòng)目標(biāo)攻防對抗中,Manadhata 等[22]僅討論了單階段博弈。Clark 等[23]雖然將博弈模型擴(kuò)展到多階段,但仍不能揭示移動(dòng)目標(biāo)攻防對抗的多狀態(tài)和多階段過程。Lei 等[8]結(jié)合Markov 決策過程理論和動(dòng)態(tài)博弈描述了多狀態(tài)和多階段特征。上述研究成果均采用歷史數(shù)據(jù)與專家經(jīng)驗(yàn)量化收益計(jì)算,本文針對MTD 攻防過程的動(dòng)態(tài)連續(xù)特性,將時(shí)間因素加入收益度量能夠提高收益計(jì)算的準(zhǔn)確性。與上述方法相比,MTG-MTD 是基于Markov 時(shí)間博弈建立的,完美地展示了移動(dòng)目標(biāo)攻防過程的對立性、動(dòng)態(tài)性及自適應(yīng)性的特征。在最優(yōu)策略選取方面,本文分析了時(shí)間因素對攻防成本和收益的影響,并將最優(yōu)策略選取問題轉(zhuǎn)化為非線性規(guī)劃問題求解,在降低復(fù)雜度的同時(shí)大大增加了不同的應(yīng)用場景下的通用性。

5 應(yīng)用實(shí)例分析

5.1 應(yīng)用實(shí)例

本節(jié)通過應(yīng)用實(shí)例驗(yàn)證MTG-MTD 最優(yōu)防御策略選取算法的有效性,利用軟件定義網(wǎng)絡(luò)(SDN,software defined network)的部分節(jié)點(diǎn)拓?fù)浯罱藢?shí)驗(yàn)網(wǎng)絡(luò)環(huán)境,系統(tǒng)結(jié)構(gòu)如圖4 所示。其中,LDAP服務(wù)器、FTP 服務(wù)器、Linux 數(shù)據(jù)庫等控制服務(wù)器作為移動(dòng)目標(biāo)防御策略的應(yīng)用目標(biāo),同時(shí)移動(dòng)目標(biāo)攻擊者可以通過網(wǎng)絡(luò)等途徑訪問控制服務(wù)器,它們的連通性通過表4 中的訪問控制策略來確定,應(yīng)用服務(wù)器作為控制服務(wù)器的應(yīng)用提供者。移動(dòng)目標(biāo)攻擊者具有對應(yīng)用服務(wù)器的用戶級訪問權(quán)限,其目標(biāo)是竊取存儲(chǔ)在Linux 數(shù)據(jù)庫服務(wù)器中的敏感信息。

移動(dòng)目標(biāo)攻擊者的可能的攻擊路徑如下。

路徑1:應(yīng)用服務(wù)器→LDAP 服務(wù)器→Linux 數(shù)據(jù)庫。

路徑2:應(yīng)用服務(wù)器→LDAP 服務(wù)器→FTP 服務(wù)器→Linux 數(shù)據(jù)庫。

表3 不同策略選取方法對比分析

表4 訪問控制策略

圖4 實(shí)驗(yàn)系統(tǒng)結(jié)構(gòu)示意

1)初始化參數(shù)

令S={S1,S2,S3,S4}表示網(wǎng)絡(luò)階段狀態(tài)。其中,S1是移動(dòng)目標(biāo)攻擊者利用應(yīng)用服務(wù)器的漏洞,并獲得其root 權(quán)限的階段狀態(tài);S2和S3分別是移動(dòng)目標(biāo)攻擊者利用LDAP服務(wù)器和FTP服務(wù)器的漏洞獲得Linux 數(shù)據(jù)庫訪問權(quán)限的階段狀態(tài);S4是攻擊者通過利用Linux 數(shù)據(jù)庫的漏洞獲得root 權(quán)限的階段狀態(tài)。本實(shí)驗(yàn)中MTG-MTD 的折扣率為β=0.7。

2)構(gòu)建策略空間,狀態(tài)轉(zhuǎn)移概率和收益矩陣

表5顯示了每個(gè)網(wǎng)絡(luò)狀態(tài)下的移動(dòng)目標(biāo)攻防策略。PMTA={PMTA1,PMTA2,PMTA3,PMTA4,PMTA5,PMTA6,PMTA7,PMTA8}表示移動(dòng)目標(biāo)攻擊者控制攻擊面,相關(guān)MTA 策略集合如表1 所示。PMTD={PMTD1,PMTD2,PMTD3}表示移動(dòng)目標(biāo)防御者控制著攻擊面,其中,PMTD1={IP(C 類),Port(64512),Timing(fixed)}表示MTD 在固定周期中變換IP 地址和端口號,括號中的內(nèi)容表示相應(yīng)變換元素的取值范圍,IP(C 類)表示IP 的變換取值為C 類IP 地址空間,Port(64512)表示端口變換取值為64512,Timing(fixed)和Timing(random)分別表示MTD 固定變換時(shí)機(jī)和隨機(jī)變換時(shí)機(jī),PMTD2={IP(C 類),Port(64512),Timing(random)}表 示MTD 在隨機(jī)周期中變換 IP 地址和端口號,PMTD3={Forwarding Path,Timing(fixed)}表示 MTD在固定周期內(nèi)變換轉(zhuǎn)發(fā)路徑,括號中的內(nèi)容表示相應(yīng)變換元素的取值范圍。同時(shí),網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)移概率具體如表6 所示。依據(jù)3.2 節(jié)移動(dòng)目標(biāo)攻防收益的計(jì)算方法,表7 給出了移動(dòng)目標(biāo)攻防收益矩陣。

表5 不同網(wǎng)絡(luò)狀態(tài)下的移動(dòng)目標(biāo)攻防策略

3)選取MTG-MTD 模型的最優(yōu)策略

在選取最優(yōu)策略之前,將最優(yōu)策略選取問題等價(jià)轉(zhuǎn)化為非線性規(guī)劃問題。在此基礎(chǔ)上,利用所提算法及交互式的線性和通用優(yōu)化求解器(LINGO,linear interactive and general optimizer)求解最優(yōu)策略。表8 給出了攻防雙方及其相應(yīng)收益的最優(yōu)策略。

表6 網(wǎng)絡(luò)系統(tǒng)狀態(tài)轉(zhuǎn)移概率

表7 移動(dòng)目標(biāo)攻防策略收益矩陣

約束條件為

目標(biāo)函數(shù)為

表8 移動(dòng)目標(biāo)攻防策略和收益

5.2 結(jié)果分析

通過對移動(dòng)目標(biāo)防御模型均衡和收益分析,可以得出以下移動(dòng)目標(biāo)攻防過程的一般規(guī)律。

1)由于防御實(shí)施效果的針對性,應(yīng)該盡可能實(shí)施成本低且防御效果佳的MTD 策略,針對特定的移動(dòng)目標(biāo)攻擊,應(yīng)實(shí)施適當(dāng)?shù)囊苿?dòng)目標(biāo)防御。例如在狀態(tài)S1,攻擊者的主要攻擊手段是利用自身的動(dòng)態(tài)變換規(guī)避常規(guī)的入侵檢測系統(tǒng),因而IDS 對于上述攻擊無效;相反地,實(shí)施移動(dòng)目標(biāo)防御可以有效抵御此類攻擊。

2)由于攻擊的持續(xù)性,要盡可能避免攻擊者與目標(biāo)系統(tǒng)建立通信控制連接,否則很難采取有效防御策略。例如在狀態(tài)S4,當(dāng)攻擊者已經(jīng)入侵目標(biāo)系統(tǒng),并且進(jìn)行后續(xù)攻擊開發(fā)時(shí),IDS 等傳統(tǒng)防御手段對于攻擊防御無效,并且移動(dòng)目標(biāo)防御的效果也不理想,此時(shí)最佳策略為關(guān)閉服務(wù)。

由于單階段博弈過程由時(shí)間博弈所刻畫,使博弈場景更貼近有實(shí)際網(wǎng)絡(luò)攻防過程,相較于矩陣博弈,本文所采用的時(shí)間博弈可以更好地刻畫博弈動(dòng)態(tài)性,同時(shí)利用Markov 決策過程刻畫多階段性,從而幫助網(wǎng)絡(luò)安全管理人員更好地決策。

6 結(jié)束語

本文基于多階段Markov 時(shí)間博弈模型研究了移動(dòng)目標(biāo)攻防策略選取問題,主要工作如下。在分析移動(dòng)目標(biāo)攻防過程的基礎(chǔ)上,構(gòu)建了Markov 時(shí)間博弈模型,具備分析多階段-多狀態(tài)攻防行為的能力;基于折扣總收益設(shè)計(jì)了移動(dòng)目標(biāo)防御博弈的目標(biāo)準(zhǔn)則函數(shù),實(shí)現(xiàn)了對多階段攻防博弈的量化分析;提出了基于非線性規(guī)劃的多階段博弈均衡計(jì)算方法,設(shè)計(jì)了多階段最優(yōu)防御策略選取算法。研究成果對于在多階段移動(dòng)目標(biāo)攻防中實(shí)施網(wǎng)絡(luò)防御決策具有指導(dǎo)意義,能夠?yàn)殚_展網(wǎng)絡(luò)空間攻防對抗研究提供理論模型支持。

當(dāng)前網(wǎng)絡(luò)攻防策略集合均與時(shí)間無關(guān),需要將時(shí)間作為策略因素考慮,因此對于攻防策略行動(dòng)問題時(shí)機(jī)的研究是下一步開展的主要研究方向。

猜你喜歡
攻擊者收益狀態(tài)
螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
狀態(tài)聯(lián)想
正面迎接批判
正面迎接批判
生命的另一種狀態(tài)
怎么設(shè)定你的年化收益目標(biāo)
堅(jiān)持是成功前的狀態(tài)
有限次重復(fù)博弈下的網(wǎng)絡(luò)攻擊行為研究
其他綜合收益的幾個(gè)重要邏輯關(guān)系解析
泊头市| 五指山市| 淳化县| 赤峰市| 宜川县| 大姚县| 即墨市| 阿拉善盟| 磴口县| 大新县| 顺平县| 灵宝市| 蓝田县| 建湖县| 兴山县| 布尔津县| 永安市| 昂仁县| 海伦市| 项城市| 思茅市| 稻城县| 台南县| 原平市| 天台县| 高碑店市| 孟村| 巴东县| 扶沟县| 巴林右旗| 阿克苏市| 莲花县| 拉孜县| 永春县| 林周县| 石狮市| 榕江县| 卓资县| 咸丰县| 靖西县| 水城县|