基于演化博弈的物聯(lián)網(wǎng)最優(yōu)防御策略選擇

2020-03-05 02:40:36陳趙懿

兵器裝備工程學(xué)報(bào) 2020年1期

甘煒，陳趙懿，王謙

(1.中國(guó)石化潤(rùn)滑油有限公司北京分公司物聯(lián)網(wǎng)實(shí)驗(yàn)室，北京 100000; 2.陸軍工程大學(xué)石家莊校區(qū) 模擬訓(xùn)練中心, 石家莊 050000; 3.陸軍第九綜合訓(xùn)練基地教研部，石家莊 075000)

物聯(lián)網(wǎng)以感知為核心,通過物物互聯(lián)組成信息系統(tǒng)，大致可分為感知層(傳感網(wǎng))、傳輸層(互聯(lián)網(wǎng))和處理層[1]，在軍事上，已廣泛應(yīng)用于戰(zhàn)場(chǎng)感知、后勤保障領(lǐng)域[2]。然而，部署在無人監(jiān)管的開放環(huán)境中的物聯(lián)網(wǎng)，其感知節(jié)點(diǎn)一般數(shù)量龐大，資源有限、處理能力低，易受惡意節(jié)點(diǎn)入侵。惡意節(jié)點(diǎn)可通過丟包攻擊、女巫攻擊、黑洞攻擊和泛洪攻擊等[3]方式破壞物聯(lián)網(wǎng)安全，檢測(cè)與防御惡意節(jié)點(diǎn)攻擊是提高其安全的重要防線。由于物聯(lián)網(wǎng)正常節(jié)點(diǎn)與惡意節(jié)點(diǎn)之間的交互過程具有攻防特點(diǎn)，利用博弈論的方法研究物聯(lián)網(wǎng)安全問題得到了廣泛應(yīng)用，Hao等[4]人建立了協(xié)同檢測(cè)的博弈論模型，分析攻防對(duì)抗下物聯(lián)網(wǎng)系統(tǒng)的安全。但這些博弈模型大多是建立在物聯(lián)網(wǎng)節(jié)點(diǎn)完全理性基礎(chǔ)上，且假設(shè)攻防雙方總能采取最優(yōu)策略，這種完全理性與完全信息的假設(shè)與實(shí)際物聯(lián)網(wǎng)特點(diǎn)不太吻合，現(xiàn)實(shí)中物聯(lián)網(wǎng)節(jié)點(diǎn)很難掌握網(wǎng)絡(luò)全部信息，且防御措施不一定總是最優(yōu)。針對(duì)信息不完全的現(xiàn)實(shí)條件，有學(xué)者利用貝葉斯博弈，建立了物聯(lián)網(wǎng)多階段攻防模型[5]；也有學(xué)者構(gòu)建隨機(jī)博弈模型[6]研究攻防對(duì)抗下多階段的物聯(lián)網(wǎng)安全問題；沈士根等[7]建立演化博弈模型分析傳感器節(jié)點(diǎn)分別采取“信任”與“不信任”兩種決策的比例變化趨勢(shì)。

利用演化博弈分析物聯(lián)網(wǎng)安全狀態(tài)變化，不要求參與者掌握完全信息[8]，符合物聯(lián)網(wǎng)節(jié)點(diǎn)特點(diǎn)。存在惡意節(jié)點(diǎn)的物聯(lián)網(wǎng)環(huán)境中，為最小化自身風(fēng)險(xiǎn)，網(wǎng)絡(luò)節(jié)點(diǎn)通過學(xué)習(xí)與模仿，不斷調(diào)整攻防策略，本文主要研究網(wǎng)絡(luò)節(jié)點(diǎn)攻防策略的選擇變化過程、演化趨勢(shì)以及演化穩(wěn)定性，可為物聯(lián)網(wǎng)節(jié)點(diǎn)部署最優(yōu)防御措施提供參考。本文首先建立物聯(lián)網(wǎng)攻防演化博弈模型，計(jì)算攻防策略效用，并構(gòu)建兩種節(jié)點(diǎn)策略選擇的復(fù)制動(dòng)態(tài)方程；而后給出演化穩(wěn)定策略求解算法，分析攻防策略選擇的演化過程和系統(tǒng)演化穩(wěn)定狀態(tài)；最后對(duì)演化博弈模型進(jìn)行實(shí)驗(yàn)與數(shù)值分析。

1 物聯(lián)網(wǎng)攻防演化博弈模型

演化博弈論把博弈理論和動(dòng)態(tài)演化過程結(jié)合起來，可用動(dòng)態(tài)系統(tǒng)方法分析不完全信息演化的穩(wěn)定性。通過復(fù)制動(dòng)態(tài)方程求解的演化穩(wěn)定策略為演化均衡[9]，是動(dòng)態(tài)系統(tǒng)的平衡點(diǎn)，具有較強(qiáng)預(yù)測(cè)能力，可用于分析物聯(lián)網(wǎng)節(jié)點(diǎn)選擇攻防策略的變化趨勢(shì)與穩(wěn)定性。

1.1 模型假設(shè)

1) 物聯(lián)網(wǎng)感知節(jié)點(diǎn)部署在開放環(huán)境中，依靠無線通信，網(wǎng)絡(luò)中存在正常和惡意兩種類型節(jié)點(diǎn)，且每種節(jié)點(diǎn)周圍都存在另一種節(jié)點(diǎn)，每個(gè)正常節(jié)點(diǎn)都具有攻擊檢測(cè)與防御功能。

2) 物聯(lián)網(wǎng)節(jié)點(diǎn)是有限理性的，且具有模仿與學(xué)習(xí)能力。由于博弈過程中，參與者收益具有差異性，網(wǎng)絡(luò)節(jié)點(diǎn)可模仿和學(xué)習(xí)高收益鄰居節(jié)點(diǎn)的策略，根據(jù)當(dāng)前有限的局部信息選擇最優(yōu)策略。

3) 物聯(lián)網(wǎng)攻防博弈具有重復(fù)性。正常節(jié)點(diǎn)與惡意節(jié)點(diǎn)間博弈是重復(fù)進(jìn)行的，且博弈過程中效用矩陣不變。

1.2 模型定義

定義物聯(lián)網(wǎng)節(jié)點(diǎn)的攻防演化博弈模型為一個(gè)7元組AEGM={N,A,P,Θ,C,B,U}。具體為：

1)N=(Nm,Nr)為博弈參與者，即物聯(lián)網(wǎng)節(jié)點(diǎn)，Nm為惡意節(jié)點(diǎn)(攻擊者)，Nr為正常節(jié)點(diǎn)(防御方)。

5)C=(Cm,Cr)為攻防雙方采取純策略的操作代價(jià)。一般而言，不同類型的攻防策略，其操作成本不同，惡意節(jié)點(diǎn)發(fā)動(dòng)的攻擊越復(fù)雜，危害越大，其操作成本越高；同理，正常節(jié)點(diǎn)啟動(dòng)的安全防御機(jī)制越復(fù)雜，其成本也越高。為簡(jiǎn)化分析，假設(shè)同一類型的純策略，其操作代價(jià)相同。

7)U=(Um,Ur)，正常節(jié)點(diǎn)和惡意節(jié)點(diǎn)的效用函數(shù)，取值為實(shí)數(shù)。

1.3 策略演化

演化博弈中，由于節(jié)點(diǎn)僅是有限理性，在初始階段往往不能立即就找到最優(yōu)策略，而是通過不斷模仿與學(xué)習(xí)鄰居同類節(jié)點(diǎn)來尋找較優(yōu)策略。在這種學(xué)習(xí)與模仿機(jī)制下，網(wǎng)絡(luò)節(jié)點(diǎn)的策略選擇呈現(xiàn)出動(dòng)態(tài)演化趨勢(shì)。演化過程中，不同策略的節(jié)點(diǎn)比例P隨時(shí)間推移而發(fā)生變化，是一個(gè)與時(shí)間相關(guān)的函數(shù)，其動(dòng)態(tài)變化速率可用復(fù)制動(dòng)態(tài)方程表示。

(1)

(2)

整個(gè)物聯(lián)網(wǎng)所有惡意節(jié)點(diǎn)的平均期望效用為：

(3)

(4)

整個(gè)物聯(lián)網(wǎng)所有正常節(jié)點(diǎn)的平均期望效用為：

(5)

采用文獻(xiàn)[12]方法，構(gòu)建惡意節(jié)點(diǎn)策略選擇的復(fù)制動(dòng)態(tài)方程為：

(6)

正常節(jié)點(diǎn)策略選擇的復(fù)制動(dòng)態(tài)方程為：

(7)

2 物聯(lián)網(wǎng)攻防演化穩(wěn)定策略

求解復(fù)制動(dòng)態(tài)動(dòng)方程的演化穩(wěn)定策略，并預(yù)測(cè)兩種節(jié)點(diǎn)最終選擇的策略情況。

2.1 演化穩(wěn)定策略求解算法

構(gòu)建動(dòng)態(tài)系統(tǒng)，令：

(8)

聯(lián)立式(7)和式(8)，演化穩(wěn)定策略求解算法如下：

Input:物聯(lián)網(wǎng)攻防演化博弈模型Output:演化穩(wěn)定策略Step1:對(duì)模型參數(shù)進(jìn)行初始化,包括兩種類型節(jié)點(diǎn)數(shù)目,攻防策略空間等。Step2:計(jì)算惡意節(jié)點(diǎn)和正常節(jié)點(diǎn)分別采取各純策略時(shí)的效用值um(aim,ajr)和ur(aim,ajr)。Step3:初始化P=(Pm,Pr),即對(duì)每種策略的節(jié)點(diǎn)比例進(jìn)行賦值。Step4:計(jì)算惡意節(jié)點(diǎn)的復(fù)制動(dòng)態(tài)方程。通過式(2)和(3)計(jì)算惡意節(jié)點(diǎn)攻擊期望效用和平均期望效用,而后根據(jù)式(6)得到復(fù)制動(dòng)態(tài)方程。Step5:計(jì)算正常節(jié)點(diǎn)的復(fù)制動(dòng)態(tài)方程。通過式(4)和(5)計(jì)算正常節(jié)點(diǎn)攻擊期望效用和平均期望效用,而后根據(jù)式(7)得到復(fù)制動(dòng)態(tài)方程。

上述計(jì)算過程，Step2的時(shí)間復(fù)雜度為O(|Am|×|Ar|)，Step4和Step5的時(shí)間復(fù)雜度都為O((|Am|+|Ar|)2)，綜上，整個(gè)算法的時(shí)間復(fù)雜度為O((|Am|+|Ar|)2)?？臻g消耗主要是攻防效用矩陣和穩(wěn)定策略求解中間值的存儲(chǔ)，其空間復(fù)雜度為O(|Am|×|Ar|)。

2.2 攻防策略的穩(wěn)定性分析

(9)

(10)

根據(jù)式(8)，系統(tǒng)可能存在式(11)的5個(gè)演化穩(wěn)定策略。即：

(11)

系統(tǒng)平衡點(diǎn)(即物聯(lián)網(wǎng)兩種節(jié)點(diǎn)選擇各自策略的比例)的穩(wěn)定性可通過式(9)和式(10)構(gòu)成的雅可比矩陣J的局部穩(wěn)定性判斷[14]，J行列式為負(fù)值，平衡點(diǎn)為鞍點(diǎn)；行列式為正值而其跡為負(fù)值時(shí)，平衡點(diǎn)是穩(wěn)定的；行列式為正值且其跡非負(fù)時(shí)，平衡點(diǎn)不穩(wěn)定[15]。雅克比矩陣J為：

(12)

根據(jù)式(12)，可預(yù)測(cè)分析物聯(lián)網(wǎng)兩種節(jié)點(diǎn)策略選擇的穩(wěn)定性；調(diào)整攻防效用矩陣，改變復(fù)制動(dòng)態(tài)方程，可改變系統(tǒng)平衡點(diǎn)及其穩(wěn)定性。因此，管理員可結(jié)合物聯(lián)網(wǎng)運(yùn)行的歷史數(shù)據(jù)，分析常見攻防措施，得到攻防效用，選擇合適的節(jié)點(diǎn)比例部署防御措施，既可使整個(gè)物聯(lián)網(wǎng)系統(tǒng)安全風(fēng)險(xiǎn)降到最低，也可最小化網(wǎng)絡(luò)資源消耗，達(dá)到最優(yōu)部署的目的。

3 實(shí)驗(yàn)

設(shè)置不同的網(wǎng)絡(luò)參數(shù)值，驗(yàn)證演化博弈模型的有效性，并分析兩種節(jié)點(diǎn)的最終策略選擇情況。

3.1 數(shù)值分析

表1 效用矩陣

依據(jù)穩(wěn)定策略求解算法，利用Matlab 2013b進(jìn)行實(shí)驗(yàn)，得X5=[0.941 2，0.735 3]T。根據(jù)式(12)判斷，此時(shí)系統(tǒng)X1X2X3X4是鞍點(diǎn)，X5為不穩(wěn)定平衡點(diǎn)。

1) 初始狀態(tài)為X1、X2、X3、X4時(shí)，經(jīng)過演化，兩種節(jié)點(diǎn)的策略選擇保持不變，因?yàn)楣?jié)點(diǎn)的策略相同，沒有其他策略可用來學(xué)習(xí)和模仿。

圖1 攻擊策略固定

圖2 防御策略固定

4) 初始狀態(tài)選擇混合策略X5=[0.941 2，0.735 3]T時(shí)，隨著演化推進(jìn)，雙方策略保持不變。而當(dāng)初始狀態(tài)偏離平衡點(diǎn)后，短期內(nèi)博弈雙方會(huì)靠近演化穩(wěn)定策略解，卻無法穩(wěn)定，隨著博弈次數(shù)增加，策略選擇呈現(xiàn)周期性的波動(dòng)，如圖3所示。可認(rèn)為兩種節(jié)點(diǎn)的策略選擇只要偏離不穩(wěn)定平衡點(diǎn)，節(jié)點(diǎn)策略選擇就不會(huì)穩(wěn)定，物聯(lián)網(wǎng)系統(tǒng)風(fēng)險(xiǎn)也無法降到最低。

圖3 初始狀態(tài)偏離平衡點(diǎn)

3.2 攻防效用

改變物聯(lián)網(wǎng)節(jié)點(diǎn)攻防演化博弈參數(shù)，調(diào)整攻防策略效用，假設(shè)攻防效用矩陣如表2所示。

表2 效用矩陣

求解演化穩(wěn)定策略，復(fù)制動(dòng)態(tài)系統(tǒng)X5=[0.547 6,0.785 7]T，此時(shí)X2X3是系統(tǒng)穩(wěn)定點(diǎn)，X1X4X5為不穩(wěn)定點(diǎn)，兩種節(jié)點(diǎn)的復(fù)制動(dòng)態(tài)關(guān)系如圖4所示。

圖4 復(fù)制動(dòng)態(tài)關(guān)系

兩種節(jié)點(diǎn)初始策略選擇在A區(qū)域時(shí)，系統(tǒng)會(huì)趨于穩(wěn)定均衡狀態(tài)X2，圖5(a)所示；初始狀態(tài)在D區(qū)域時(shí)，系統(tǒng)趨于穩(wěn)定均衡狀態(tài)X3，圖5(b)所示。初始狀態(tài)在B或C區(qū)域時(shí)，系統(tǒng)可能演化到A或D區(qū)域，最終穩(wěn)定到X2或X3狀態(tài)，如圖6所示。A和D區(qū)域的系統(tǒng)演化狀態(tài)可預(yù)測(cè)與控制，可為最優(yōu)防御措施的部署提供參考。

圖5 A、D區(qū)域的系統(tǒng)演化

圖6 B、C區(qū)域的系統(tǒng)演化

3.3 對(duì)比分析

與文獻(xiàn)[4-5]中博弈方法比較，得到結(jié)論如表3所示。文獻(xiàn)[4]中的傳統(tǒng)博弈模型，建立在參與者完全理性的假設(shè)基礎(chǔ)之上，降低了模型的可行性；文獻(xiàn)[5]中的貝葉斯博弈方法，不能研究網(wǎng)絡(luò)整體變化趨勢(shì)。基于演化博弈理論的物聯(lián)網(wǎng)攻防模型，在個(gè)體有限理性的基礎(chǔ)上，通過微分方程研究網(wǎng)絡(luò)整體變化趨勢(shì)，便于宏觀上掌握網(wǎng)絡(luò)動(dòng)態(tài)。

表3 三種博弈模型

4 結(jié)論

本文建立了物聯(lián)網(wǎng)攻防演化博弈模型，利用復(fù)制動(dòng)態(tài)方程表示網(wǎng)絡(luò)節(jié)點(diǎn)攻防策略選擇的變化率，提出了演化穩(wěn)定策略求解算法，進(jìn)而分析了物聯(lián)網(wǎng)節(jié)點(diǎn)攻防策略的動(dòng)態(tài)演化過程。將其應(yīng)用于實(shí)際開放環(huán)境的物聯(lián)網(wǎng)中，考慮惡意節(jié)點(diǎn)入侵的影響，可對(duì)物聯(lián)網(wǎng)安全風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)；通過量化常見的攻防策略效用，在計(jì)算和分析演化穩(wěn)定均衡解的基礎(chǔ)上，可實(shí)現(xiàn)最優(yōu)防御策略部署。本文博弈模型中參數(shù)量化與參數(shù)間的關(guān)系，都進(jìn)行了理想假設(shè)與簡(jiǎn)化處理，下一步結(jié)合實(shí)際的具體物聯(lián)網(wǎng)環(huán)境，探索并獲取真實(shí)的客觀數(shù)據(jù)，以修正完善模型參數(shù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡