国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

帶有欺騙證據(jù)的蜜罐博弈攻防策略優(yōu)化機制

2023-01-08 14:31:10宋麗華姜洋洋邢長友張國敏
通信學報 2022年11期
關(guān)鍵詞:混合策略蜜罐攻擊者

宋麗華,姜洋洋,邢長友,張國敏

(陸軍工程大學指揮控制工程學院,江蘇 南京 210007)

0 引言

作為 “價值在于被探查、攻擊或泄露的安全資源”[1],蜜罐被廣泛部署于網(wǎng)絡中以獲取攻擊者的相關(guān)信息,提升網(wǎng)絡系統(tǒng)的防御能力。為充分發(fā)揮蜜罐的誘捕能力,以及解決蜜罐策略的靜態(tài)性導致的易被攻擊者檢測工具識破并加以利用的問題,現(xiàn)有研究主要關(guān)注蜜罐行為策略的適應性增強。運用博弈論和強化學習的馬爾可夫決策過程(MDP,Markov decision process)模型分析防御方與攻擊方的交互過程,優(yōu)化蜜罐對攻擊者命令的響應策略是提高其適應性的重要方法。

蜜罐動作策略的優(yōu)化需要綜合考慮以下兩點:一是盡可能延長與攻擊者的交互,這要求蜜罐在動作選擇方面盡可能與正常系統(tǒng)保持一致,從而避免引起攻擊者的懷疑;二是有意識地衡量攻擊者攻擊指令的潛在威脅,以免系統(tǒng)被攻破,這要求蜜罐不能為了降低攻擊者懷疑而一味地執(zhí)行攻擊指令,最終造成巨大的損失。因此蜜罐行為策略的適應性增強體現(xiàn)在衡量上述收益和風險,針對攻擊者可能采取的策略,選擇最佳的動作響應。

然而,現(xiàn)有對蜜罐行為策略的研究存在如下局限性。博弈論方面:一是蜜罐可選動作較少,只考慮蜜罐的常規(guī)動作響應,即執(zhí)行或者不執(zhí)行,沒有將新的蜜罐可采取動作(如偽造輸出等)納入考慮,不符合現(xiàn)實情況;二是沒有綜合考慮攻防多輪交互的全過程,只關(guān)注某個階段,局部最優(yōu)不代表全局最優(yōu),單輪最優(yōu)策略可能導致博弈提前結(jié)束,損失后續(xù)博弈帶來的蜜罐收益;三是沒有考慮攻擊者對防御方類型信念的變化對攻防策略的影響,信念通過直接影響攻擊方期望收益計算從而影響攻擊者的策略選擇,根據(jù)貝葉斯法則,蜜罐通過不同的動作選擇可以改變后續(xù)博弈的信念走向從而延續(xù)與攻擊方的交互,因此忽略信念的變化也就是忽略了蜜罐策略對后續(xù)博弈的影響,也容易導致蜜罐選擇局部最優(yōu)策略,喪失獲取更多輪收益的可能;四是傳統(tǒng)博弈求解方法難以處理大規(guī)模決策問題。強化學習方面:一是傳統(tǒng)強化學習方法不適用于大規(guī)模決策問題,求解能力有限;二是強化學習的研究只適用于固定策略的惡意軟件,面對可動態(tài)調(diào)整策略的高級攻擊者可能不存在最優(yōu)解,很難學得穩(wěn)定的防御策略。

面對可動態(tài)調(diào)整策略的高級攻擊者,為增強蜜罐行為策略適應性應該利用博弈模型描述交互過程,結(jié)合實際情況細化博弈要素定義,綜合博弈全過程考慮單個決策節(jié)點的動作選擇,并尋求大規(guī)模決策問題求解方法。

本文將博弈論和深度強化學習進行結(jié)合,對蜜罐博弈模型進行了改進,并根據(jù)深度強化學習方法深度反事實遺憾最小化(Deep-CFR,deep counterfactual regret minimization)思想設(shè)計了求解博弈近似混合策略均衡的算法。本文的主要貢獻如下。

1) 引入攻擊方信念,將蜜罐與攻擊者交互過程建模為多輪次不完全信息動態(tài)博弈模型,允許蜜罐偽造輸出欺騙攻擊者,而攻擊者對欺騙證據(jù)具有一定的識別能力。

2) 綜合博弈全過程求解了攻防雙方純策略均衡。

3) 為求解混合策略均衡,以最小化動作選擇導致的收益遺憾值為目標,設(shè)計實現(xiàn)了基于Deep-CFR 的近似求解算法。

1 相關(guān)工作

蜜罐行為策略的適應性增強方法中應用最廣的是博弈論和強化學習方法。博弈論方面,Wagener等[2]以安全外殼(SSH,secure shell)協(xié)議攻擊為應用背景,利用多輪動態(tài)博弈模型建模SSH 蜜罐與攻擊者的交互過程,蜜罐的動作空間包括執(zhí)行攻擊指令(允許)與不執(zhí)行攻擊指令(阻塞),最后通過求解均衡得到了蜜罐的最優(yōu)阻塞概率。Hayatle 等[3]以僵尸網(wǎng)絡為應用背景,利用多輪次不完全信息動態(tài)博弈建模蜜罐和僵尸主控機之間的交互過程,均衡結(jié)果表明蜜罐不能更新其響應策略,隨時間推移一定會被攻擊者識別為蜜罐。王鵑等[4]提出了一種博弈論、軟件定義網(wǎng)絡(SDN,software defined network)和docker 技術(shù)融合的動態(tài)蜜罐設(shè)計方案,該方案是一個包括低、中、高交互蜜罐的混合蜜罐,通過攻防雙方不完全信息動態(tài)博弈計算出均衡解,確定選擇何種蜜罐以何種行為應對。

上述研究中,文獻[2]通過固定攻擊方策略求解蜜罐的最優(yōu)策略,文獻[3]只求解了蜜罐在單輪博弈過程的最佳動作選擇,并且兩者在建模時均只定義了蜜罐的簡單動作空間,沒有考慮整個交互過程中攻擊方信念的變化以及這種變化對攻防雙方動作選擇的影響;文獻[4]雖涉及了蜜罐的具體行為,但主要優(yōu)化的是蜜罐類型的選擇,屬于部署策略的優(yōu)化,同時其按攻擊階段將博弈全過程分成多個單輪博弈,求解單輪博弈均衡。

強化學習方面,Wagener 等[5]設(shè)計了Heliza 蜜罐,此后開發(fā)出了很多具有代表性的強化學習蜜罐,如基于深度Q 網(wǎng)絡算法開發(fā)的SSH 高交互蜜罐系統(tǒng)[6-7]、基于逆向強化學習開發(fā)的物聯(lián)網(wǎng)蜜罐[8]、針對自動重復惡意軟件開發(fā)的蜜罐[9]和結(jié)合攻擊嚴重性分析的Modified-Cowrie[10]。強化學習蜜罐的共同做法是將攻擊者建模為環(huán)境的一部分,通過不斷交互學得針對攻擊方固定策略的最佳響應,這意味著其只適用于固定策略的攻擊方,在應對策略可變的攻擊方方面不如博弈論方法有效,很可能無法學得穩(wěn)定的蜜罐策略。但是這些工作在定義攻防動作方面更加細致,其定義了蜜罐制造虛假輸出欺騙攻擊者的可選動作,若攻擊者發(fā)出下載攻擊工具的指令,蜜罐可以選擇替換其中的部分比特,讓攻擊者相信其執(zhí)行了指令,同時導致攻擊工具不可用,或者輸出偽造的更常出現(xiàn)的故障信息(如網(wǎng)頁無法找到等),而不是簡單地返回下載指令的錯誤代碼,在阻塞攻擊指令執(zhí)行的同時,避免大幅度提升攻擊方對防御方類型為密罐的懷疑。這種偽造輸出欺騙的行為會帶有一定的欺騙證據(jù),攻擊方對欺騙證據(jù)也具有一定的識別能力,如Pawlick等[11-12]基于存在蜜罐的網(wǎng)絡中防御方選擇暴露每個系統(tǒng)的類型或偽裝系統(tǒng)的場景,利用信號博弈建模攻防雙方的交互。該工作討論了2 種場景:攻擊方對防御方發(fā)送的虛假信息不具備識別能力以及具備一定的識別能力,最后分別得到了相關(guān)均衡結(jié)果。然而其目標并非蜜罐行為策略的優(yōu)化,且只考慮了單輪博弈過程的均衡求解。

無論是博弈論還是強化學習的現(xiàn)有研究,都因為使用傳統(tǒng)博弈求解方法和傳統(tǒng)強化學習算法而在處理大規(guī)模決策問題方面能力有限?,F(xiàn)有研究開發(fā)出了解決大型不完全信息博弈的深度強化學習算法,其利用深度神經(jīng)網(wǎng)絡的函數(shù)近似功能使算法成功地擴展到大型狀態(tài)動作空間,并能收斂到近似混合策略均衡。因此,將基于深度強化學習的近似混合策略與博弈模型結(jié)合,既能彌補傳統(tǒng)強化學習方法在應對策略可動態(tài)調(diào)整攻擊方的不足,又能針對大規(guī)模博弈問題學得穩(wěn)定的蜜罐最優(yōu)策略。

2 帶有欺騙證據(jù)的蜜罐博弈模型

基于上述問題,本文將攻防動作空間拓展,基于多輪次非合作不完全信息動態(tài)博弈模型構(gòu)建帶有欺騙證據(jù)的蜜罐博弈模型(HoneyED,honeypot game with evidence for deception):防御方可以偽造輸出信息變相阻止攻擊命令的執(zhí)行,但是這種偽造并非無法識別,攻擊方可以對防御方的輸出采取相關(guān)手段進行驗證,并以一定的概率識別出防御方的欺騙行為;攻擊方對對手的真實身份(蜜罐或生產(chǎn)系統(tǒng))有一定的信念,并根據(jù)防御方響應實時更新這一信念,信念會影響攻擊方的動作選擇。

2.1 博弈要素定義

攻擊方動作空間。攻擊方有兩類動作:一是攻擊(attack),即發(fā)送攻擊命令讓防御方執(zhí)行,其中帶有攻擊工具和攻擊目標等信息;二是退出(exit),即斷開與蜜罐的連接,中途退出博弈。

防御方動作空間。防御方有四類動作:一是允許(allow),即執(zhí)行攻擊命令,并返回實際輸出信息;二是阻塞(block),即不執(zhí)行攻擊命令,并返回常規(guī)的錯誤代碼;三是虛假允許(f-allow),即不執(zhí)行攻擊命令,針對攻擊命令偽造輸出信息造成攻擊成功的假象;四是虛假阻塞(f-block),即不執(zhí)行攻擊命令,針對攻擊命令偽造最有可能的阻塞信息,以緩解由阻塞導致的攻擊方懷疑大幅度增長。

欺騙證據(jù)。針對防御方的反饋信息,攻擊方能以一定的概率識別出其欺騙行為。對于虛假允許和虛假阻塞,驗證后的攻擊方分別以pva和pvb概率識別出欺騙行為,識別出欺騙行為的攻擊方將選擇退出。HoneyED 博弈模型要素定義如表1 所示。

表1 HoneyED 博弈模型要素定義

2.2 博弈過程

HoneyED 博弈過程如圖1 所示。帶有初始信念分布的攻擊者首先評估兩類動作的期望收益,選擇是否進行攻擊以及進行何種攻擊。若攻擊者選擇退出則博弈結(jié)束,否則蜜罐根據(jù)收到的攻擊命令選擇動作響應;若蜜罐選擇偽造信息,攻擊方將以一定的概率識別出欺騙行為,并直接退出博弈,否則攻擊方認為其是真實的攻擊執(zhí)行信息或阻塞信息,并根據(jù)反饋信息修改其對防御方類型的信念分布,繼續(xù)評估兩類動作的價值并選擇下一步動作,直到其選擇中途退出或者完成攻擊任務退出博弈。博弈過程由多個博弈階段組成,每個階段稱為一輪博弈。攻防雙方各執(zhí)行一次動作即進行了一輪博弈,隨后攻擊方更新信念進入下一輪博弈。

圖1 HoneyED 博弈過程

3 純策略均衡求解

本節(jié)假設(shè)攻擊方完成任務需要防御方成功執(zhí)行n(n≥1)次允許動作,理論推導求解攻防純策略均衡。

3.1 帶有欺騙證據(jù)的一步蜜罐博弈

考慮攻擊方只需要一個攻擊指令被成功執(zhí)行即可完成任務的情況,本文稱之為帶有欺騙證據(jù)的一步蜜罐博弈(1SA-HoneyED,honeypot game with evidence for deception that requires one successful action)。圖2 給出了1SA-HoneyED 博弈過程,其中,攻擊方前期通過偵察確定網(wǎng)絡中的任一臺主機部署蜜罐的概率為P0。即使在一步蜜罐博弈中,博弈過程仍有可能包含多個交互輪次(一輪博弈),例如,攻擊方發(fā)送的前幾個命令全部被蜜罐偽造阻塞輸出,而攻擊方未能識別出來,直到最后一個命令被蜜罐允許執(zhí)行才得以攻擊成功而退出。

圖2 中,空心圓圈表示決策點,黑色實心圓圈表示博弈結(jié)束,虛線方框表示以初始信念P0開始的一輪博弈(攻擊方和防御方各執(zhí)行一次動作)。若蜜罐選擇block 或者f-block 而未被識別,博弈將以攻擊方后驗信念P′重新開始新的一輪;若蜜罐選擇allow 或者f-block 而未被識別,或者f-allow(無論是否被識別),將導致攻擊方認為自己完成了攻擊任務或者確認對方為蜜罐而選擇退出博弈,導致博弈結(jié)束。從博弈開始(初始信念P0)到博弈結(jié)束的完整過程稱為一個1SA-HoneyED。

圖2 1SA-HoneyED 博弈過程

關(guān)于1SA-HoneyED,有以下結(jié)論。

定理11SA-HoneyED 是有限博弈。

1SA-HoneyED 結(jié)束有以下可能:一是攻擊方認為自己完成任務,由防御方選擇allow 和f-allow 未被識別導致;二是攻擊方發(fā)現(xiàn)了欺騙行為,直接認定防御方為蜜罐選擇退出,由f-allow 被識別和f-block 被識別導致。博弈進入下一輪的條件是蜜罐選擇block 或者選擇f-block 而未被識別,判斷博弈是否為有限過程需要分析這2 種情況下博弈過程是否能一直持續(xù)。下面,給出這2 種情況一定導致1SA-HoneyED 結(jié)束的證明,為此先證明4 個引理。

引理11SA-HoneyED 中,allow 和f-allow 不是每輪博弈中蜜罐的最優(yōu)動作。

證明若蜜罐在第n輪博弈中選擇allow 或者f-allow,其獲得的總期望收益為l a-ra-c d和l a-c d-cfa,選擇block 將至少獲得l a-cd的總收益,因為

所以第n輪蜜罐選擇allow 或f-allow 獲得的并不是最大總收益,從而allow 或f-allow 也不是最優(yōu)動作。證畢。

引理21SA-HoneyED 中,攻擊方對防御方為蜜罐的懷疑隨博弈輪次單調(diào)上升。

證明假設(shè)第n輪攻擊方懷有初始信念Pn,后驗信念為。若蜜罐選擇f-block,該輸出有pvb的概率被攻擊方識別并直接退出,因此當面臨攻擊方無法識別的f-block 輸出時,其認為蜜罐產(chǎn)生此輸出的可能性是Pn(1 -pvb),而真實生產(chǎn)系統(tǒng)產(chǎn)生此輸出的可能性是pt2(1 -Pn),因此后驗信念更新為

若蜜罐選擇block,則

引理 31SA-HoneyED 中,當信念增長到時,攻擊方的最優(yōu)動作是選擇exit退出博弈。

證明基于引理1 和引理2 分析攻擊方收益,假設(shè)某輪攻擊方懷有初始信念Pn。用fattack(Pi)表示以Pi為初始信念的一步蜜罐博弈攻擊方能獲得的總期望收益,已知每輪蜜罐不會選擇allow 或f-allow,若蜜罐選擇block,攻擊方獲得即時期望收益為

若蜜罐選擇f-block,則

引理4隨著蜜罐不斷選擇block 和f-block 未被識別,攻擊方信念一定達到。

證明由引理2 可得,攻擊方信念隨博弈輪次單調(diào)上升,按照式(2)和式(3)更新,且通過式(2)和式(3)的比較可得,對于同一先驗信念,block 導致的后驗信念更大,因此需證明蜜罐不斷選擇f-block未被識別將導致攻擊方信念達到。由于后驗信念也是下一輪的先驗信念,因此用Pn+1重新表示。由式(3)可得

定理1 證明過程如下。由于f-block 未被識別和block 會導致攻擊方信念不斷增長,當信念至多增長到時,攻擊方應該選擇exit 中途退出博弈,可以得到 f-block 未被識別和 block 一定導致1SA-HoneyED 結(jié)束,因此1SA-HoneyED 是有限博弈。

表2 1SA-HoneyED 的均衡結(jié)果

3.2 帶有欺騙證據(jù)的兩步及n 步蜜罐博弈

用類似的方法對帶有欺騙證據(jù)的兩步及n步蜜罐博弈進行分析,即攻擊方需要成功執(zhí)行兩次和n(n≥3)次行動才完成任務的博弈,分別簡寫為2SA-HoneyED 和nSA-HoneyED,得到的結(jié)論陳述如下,因篇幅限制,此處省略證明和分析過程。

定理22SA-HoneyED 是有限博弈。

定理3nSA-HoneyED 是有限博弈。

由于2SA-HoneyED 中當蜜罐選擇allow 或者f-allow 后博弈將跳轉(zhuǎn)到1SA-HoneyED,因此基于1SA-HoneyED 的均衡收益,可以得到假設(shè)條件和2SA-HoneyED 均衡結(jié)果分別如表3 和表4 所示,表4 僅展示其中3 種情況及其對應的假設(shè)條件組合。為表示方便,用表示攻擊方退出博弈的信念閾值,用η表示

表3 假設(shè)條件

表4 2SA-HoneyED 均衡結(jié)果

3.3 均衡結(jié)果分析

分析3.1 節(jié)和3.2 節(jié)得到的均衡結(jié)果,本節(jié)可以得到如下趨勢性結(jié)論。

1) 信念過大將導致攻擊方中途退出博弈。

2) 由于block 和f-block 將大幅度增加攻擊方信念,因此若攻擊方完成任務需要多步,為引誘攻擊方繼續(xù)攻擊,避免其中途退出,蜜罐一開始應執(zhí)行或虛假執(zhí)行攻擊指令。

3) 當攻擊方將要完成攻擊任務時,為降低風險,蜜罐應阻塞或虛假阻塞攻擊指令。

4) 當攻擊方欺騙識別能力較低時,由于虛假動作能有效降低風險,因此蜜罐傾向于選擇虛假動作,隨著攻擊方欺騙識別能力的提高,虛假動作被識破風險增大,導致后續(xù)博弈收益減小,蜜罐選擇真實輸出操作。

隨著完成任務步數(shù)的增加,分類討論情況增多,針對攻擊方識別能力得出對應均衡解的難度加大,即使2SA-HoneyED 也很難列舉出所有可能情況的純策略均衡。因此,需要設(shè)計算法以攻擊方完成任務步數(shù)及識別能力為參數(shù)自動求解均衡策略。

4 nSA-HoneyED 近似混合策略均衡求解算法

純策略均衡是混合策略均衡的特例,考慮到混合策略可以給其他博弈參與人造成不確定性,不易被對方準確猜測等特點,本節(jié)基于Deep-CFR 設(shè)計實現(xiàn)近似混合策略均衡求解算法,并構(gòu)建執(zhí)行混合均衡策略的攻防智能體。

反事實遺憾最小化(CFR,counterfactual regret minimization)算法[13]是目前流行的大型不完美信息博弈的近似均衡求解算法,其基本思路是計算在信息集s 下執(zhí)行動作a 所獲得的收益與信息集s 的價值之間的差異,即遺憾值,來調(diào)整在狀態(tài)s 下執(zhí)行動作a 的概率,通過最小化單個信息集的遺憾值來實現(xiàn)最小化全局遺憾值的目的。CFR 算法記錄每一次迭代中智能體在信息集s 的動作選擇概率,利用其得到近似所有迭代過程動作選擇概率的平均策略。Deep-CFR[14]利用神經(jīng)網(wǎng)絡的強大擬合能力,構(gòu)建價值網(wǎng)絡估計遺憾值,利用監(jiān)督學習構(gòu)建策略網(wǎng)絡來近似所有迭代過程的平均策略,最終訓練得到的策略網(wǎng)絡就是執(zhí)行混合均衡策略的攻防智能體。

4.1 算法設(shè)計

目前研究主要將Deep-CFR 應用于德州撲克游戲的策略優(yōu)化,這類游戲的特點是參與人收益固定(贏或輸),且博弈過程中不涉及信念的更新。本文在Deep-CFR 的基礎(chǔ)上,面向nSA-HoneyED 重新設(shè)計模擬博弈流程,得到nSA-HoneyED 近似混合策略均衡求解算法(nSA-HoneyED-AMSEA,approximate mixed strategy equilibrium algorithm fornSA-HoneyED)。

原Deep-CFR 算法包括2 個部分:使用遍歷數(shù)據(jù)訓練網(wǎng)絡的外層算法Deep-CFR 和用于模擬博弈的遍歷算法TRAVERSE,Deep-CFR 調(diào)用TRAVERSE獲得價值樣本和策略樣本。nSA-HoneyED-AMSEA 在原TRAVERSE 的基礎(chǔ)上增加了信念更新和收益計算環(huán)節(jié),得到帶有信念更新模擬博弈遍歷算法(TRAVERSE-BU,TRAVERSE algorithm with belief updating)。TRAVERSE-BU 在每一輪攻防雙方根據(jù)價值網(wǎng)絡選擇動作后,基于先驗信念計算攻防雙方的即時收益,然后根據(jù)貝葉斯法則計算后驗信念,用于下一輪即時收益的計算和信念的進一步更新,最后綜合相關(guān)即時收益計算對應信息集的遺憾值。詳細過程如算法1 和圖3 所示。

圖3 TRAVERSE-BU 算法流程

算法1帶有信念更新的CFR 博弈遍歷算法

4.2 實驗結(jié)果與分析

本節(jié)通過仿真實驗檢驗算法的有效性,驗證所得策略的最優(yōu)性。

4.2.1 實驗設(shè)置

實驗基于SSH 攻擊場景,參考文獻[6,15]提出的量化方法確定博弈模型各要素取值,設(shè)定攻擊方完成任務需要2 步。為探討攻擊方欺騙識別能力大小對雙方策略的影響,考慮3 種欺騙識別概率組合:{pvb= 0.2,pva=0.4}、{pvb=0.4,pva=0.8}和{pvb=0.7,pva= 0.8},分別代表低、中、高欺騙識別能力。

SSH 攻擊中,攻擊方可以執(zhí)行系統(tǒng)信息查詢、攻擊工具下載、攻擊工具運行等攻擊指令,其中起決定性作用的是攻擊工具的下載與運行,而蜜罐能從攻擊工具下載和運行中獲得關(guān)于攻擊方工具庫地址和攻擊工具使用的相關(guān)有用信息?;谶@一分析,對攻防雙方動作空間進行簡化,僅針對攻擊方輸出攻擊工具下載與執(zhí)行指令優(yōu)化蜜罐策略。其中,attack 表示攻擊方執(zhí)行攻擊工具下載與執(zhí)行指令,allow、block、f-allow 和f-block表示蜜罐的響應動作,即正常執(zhí)行、返回錯誤代碼、偽造文件(如替換原始下載文件中的部分比特等)、偽造阻塞信息輸出(如網(wǎng)頁無法找到等)。

神經(jīng)網(wǎng)絡輸入長度為128 的歷史動作序列,采用Adam 優(yōu)化器實現(xiàn)網(wǎng)絡參數(shù)更新,每一次迭代模擬博弈10 次。實驗參數(shù)設(shè)置如表5 所示。

表5 實驗參數(shù)設(shè)置

4.2.2 算法收斂性分析

圖4 展示了在{pvb=0.7,pva= 0.8}組合下2SAHoneyED-AMSEA 運行過程中損失值隨訓練過程的變化情況。從圖4 可以看出,3 000 次訓練即可達到良好的收斂效果。由于攻擊方動作空間較小,因此攻擊方價值網(wǎng)絡比防御方收斂得快。

圖4 在{pvb=0.7,pva= 0.8}組合下2SA-HoneyED-AMSEA運行過程中損失值隨訓練過程的變化情況

4.2.3 兩步博弈均衡結(jié)果分析

圖5 展示了3 種欺騙識別概率組合下2SAHoneyED-AMSEA 運行得到的動作選擇概率。圖5中,S 表示博弈開始,A 表示攻擊方?jīng)Q策,D 表示蜜罐決策,N 表示“自然”,黑色實心節(jié)點表示博弈結(jié)束。圖5 只展示了概率大于0.1 的動作,且只畫出了選擇最大概率動作的博弈過程。

圖5 顯示,欺騙輸出動作雖然能減少即時風險,但是也減少了獲得后續(xù)博弈收益的概率,因此隨著攻擊方識別能力的增強,后續(xù)博弈收益逐漸降低,蜜罐越來越傾向于選擇真實輸出。而在導致蜜罐更改最優(yōu)策略的攻擊方識別能力閾值上,實驗與理論分析結(jié)果基本一致,詳細分析如下。

首先,理論分析可以得到1SA-HoneyED 中攻擊方退出博弈的信念閾值為。而圖5中當在1SA-HoneyED中蜜罐選擇f-block或block導致信念大于0.3時,攻擊方均以較大概率選擇退出博弈,說明以最大化期望收益為目的攻擊方確實存在退出博弈的信念閾值,與理論分析結(jié)果契合。

另一方面,當pva= 0.8時,蜜罐均選了allow;當pva= 0.4時,蜜罐選擇了f-allow,這一點也與理論分析吻合。后者表明當 1-pva<pt1且后驗信念大于時,若≈0.44,則蜜罐將在2SA-HoneyED 中選擇f-allow,不選擇 allow。類似地,理論分析知≈0.78且后驗信念小于(低、中、高欺騙識別概率組合中該值分別為0.04、0.06 和0.11)時,蜜罐將在1SA-HoneyED 中選擇f-block,否則選擇block。圖5 顯示這3 個閾值在實驗中分別是0.06、0.09 和0.10,與理論結(jié)果相近。以低欺騙識別概率組合為例,實驗閾值比理論閾值大是因為實驗中雙方采取的是混合策略,f-block引起的懷疑較小,更容易導致攻擊方繼續(xù)攻擊從而獲得后續(xù)博弈收益,所以蜜罐更傾向于選擇f-block;而高欺騙識別概率組合中實驗閾值比理論閾值小是因為pvb較大,f-block 和block都將大概率導致攻擊方退出,而block 動作成本更小。

圖5 3 種欺騙識別概率組合下2SA-HoneyED-AMSEA 運行得到的動作選擇概率

4.2.4 蜜罐策略的最優(yōu)性

本節(jié)考察算法輸出蜜罐策略的最優(yōu)性,為此將其與三類常見策略進行對比:局部最優(yōu)(只選擇每一輪博弈的最優(yōu)動作,即block)、偽裝(采取與生產(chǎn)系統(tǒng)相同的動作選擇概率,即allow、f-block、block分別為0.89、0.10、0.01)和虛假偽裝策略(在偽裝策略的基礎(chǔ)上用f-allow 代替allow,即f-allow、f-block、block 分別為0.89、0.10、0.01)。實驗中攻擊方采用算法訓練出的智能體。圖6 展示了對應的蜜罐收益。

圖6 蜜罐收益對比

從圖6 可以看出,采用算法輸出的策略時蜜罐收益最大。對此分析如下:攻擊方在信念達到閾值后將退出博弈,而f-block 和block 均會導致信念的大幅度增長,因此局部最優(yōu)策略沒有綜合考慮博弈全過程,實際上只能獲得一輪收益;而偽裝策略沒有考慮在攻擊方欺騙識別能力較低時,f-allow 相對于allow 能獲得更大的收益,同時在攻擊方將要完成任務時,block 相對于allow是更好的選擇;虛假偽裝策略則沒有考慮隨著欺騙識別能力的提高,欺騙輸出動作逐漸喪失優(yōu)勢;算法輸出策略綜合博弈全過程考慮了信念對攻擊方策略的影響,能在盡量不提高攻擊方懷疑的基礎(chǔ)上針對攻擊方的欺騙識別能力選擇最佳動作,獲得最大的收益??梢哉f,算法能根據(jù)攻擊方策略和欺騙識別能力,適應性選擇最佳動作,得到近似最優(yōu)策略。

4.2.5 攻擊任務復雜度對蜜罐策略的影響

用攻擊方完成任務所需成功執(zhí)行攻擊命令數(shù)量代表攻擊任務的復雜度,本節(jié)檢查該變量對蜜罐最優(yōu)策略的影響。圖 7 展示了欺騙組合概率{pvb=0.2,pva= 0.4}下攻擊方分別需要成功執(zhí)行2 次、4 次、8 次攻擊時的實驗結(jié)果。

從圖7 可以看出,當博弈為2SA 時,蜜罐在初始博弈階段以較大概率選擇f-allow,而后以較大概率選擇f-block;當博弈為4SA 時,蜜罐在初始階段以較大概率選擇allow,且概率逐漸減小,f-allow的概率增大,而后以較大概率選擇f-block;當博弈為8SA 時,蜜罐在初始階段以更大概率選擇allow,而后變化趨勢與4SA 一致。

圖7 欺騙組合概率{pv b=0.2,pv a= 0.4}下攻擊方分別需要成功執(zhí)行2 次、4 次、8 次攻擊時的實驗結(jié)果

由于欺騙輸出動作會以一定概率被攻擊方識別,導致蜜罐是否獲得后續(xù)博弈收益呈現(xiàn)一定的概率(連續(xù)選擇3 次f-allow,后續(xù)攻防博弈繼續(xù)進行的概率為 (1-pva)3),因此當博弈所需成功執(zhí)行攻擊命令的次數(shù)增加時,蜜罐一開始將更加堅定地選擇allow,接著攻擊方剩余攻擊次數(shù)逐漸減小,蜜罐更傾向于選擇f-allow,攻擊方信念逐漸上升,選擇exit的概率越來越大,從而導致蜜罐更關(guān)注即時收益的獲取,轉(zhuǎn)而選擇f-block。

5 結(jié)束語

蜜罐行為策略的優(yōu)化是提升蜜罐欺騙性能的重要因素,博弈論為其提供了很好的分析框架。然而,現(xiàn)有博弈模型動作簡單、沒有綜合考慮博弈全過程、不符合實際攻防情況,同時所推導出的蜜罐策略只關(guān)注該輪收益的最大化,容易導致蜜罐喪失后續(xù)博弈帶來的更多收益,為此本文建立了帶有欺騙證據(jù)的蜜罐博弈機制,將蜜罐動作空間拓展,增加欺騙輸出動作,并關(guān)注博弈全過程中攻擊方對防御方類型信念的變化。針對具有不同欺騙識別能力的攻擊方,本文求解了攻防純策略均衡,并設(shè)計了基于Deep-CFR 的近似混合策略均衡求解算法。實驗表明,所提算法結(jié)果與理論分析相契合,面對欺騙識別能力弱的攻擊方,蜜罐更傾向于采用欺騙輸出動作。下一步工作包括進一步細化攻防雙方的動作空間,優(yōu)化智能求解算法。

猜你喜歡
混合策略蜜罐攻擊者
基于微分博弈的追逃問題最優(yōu)策略設(shè)計
自動化學報(2021年8期)2021-09-28 07:20:18
蜜罐蟻
中外文摘(2019年20期)2019-11-13 02:57:53
被自己撐死的蜜罐蟻
知識窗(2019年6期)2019-06-26 04:27:09
基于博弈的蜜罐和入侵檢測系統(tǒng)最優(yōu)配置策略
正面迎接批判
愛你(2018年16期)2018-06-21 03:28:44
混合策略的漢維輔助翻譯系統(tǒng)的設(shè)計與實現(xiàn)
哈密瓜:鄉(xiāng)間蜜罐
中國三峽(2017年4期)2017-06-06 10:44:22
注冊制背景下上市公司與投資者的博弈分析
會計之友(2016年22期)2016-12-17 15:26:44
有限次重復博弈下的網(wǎng)絡攻擊行為研究
基于混合策略博弈的我國工業(yè)碳減排分析
江孜县| 当涂县| 临邑县| 黄大仙区| 洪湖市| 苍梧县| 吉林市| 巴马| 石阡县| 安吉县| 辉南县| 桂东县| 侯马市| 东安县| 临颍县| 海丰县| 东兰县| 固始县| 渑池县| 蒙城县| 唐河县| 松阳县| 通河县| 宽甸| 于田县| 庆城县| 裕民县| 揭阳市| 德清县| 水城县| 扶沟县| 贺兰县| 连州市| 宝坻区| 汝州市| 法库县| 犍为县| 天气| 库伦旗| 响水县| 泸溪县|