鄂小松, 石峻松
(1.樹(shù)蛙信息科技(南京)有限公司,江蘇 南京 210033)(2.南京信奧弢電子科技有限公司,江蘇 南京 210039)
一般情況下,網(wǎng)絡(luò)中攻防雙方的對(duì)抗過(guò)程符合博弈論各項(xiàng)特征,因而可將博弈論引入解決攻防雙方策略抉擇問(wèn)題。在實(shí)際對(duì)抗中,由于攻防雙方知之甚少,因此在網(wǎng)絡(luò)攻防沖突時(shí)會(huì)產(chǎn)生不完全信息問(wèn)題。為有效解決不完全信息下的博弈問(wèn)題,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。Harsanyi[1]提出用貝葉斯納什均衡解來(lái)解決靜態(tài)博弈論中不完全信息問(wèn)題。針對(duì)動(dòng)態(tài)博弈論領(lǐng)域,通常的解決方法包括完美貝葉斯均衡[2]和序貫均衡[3]兩種方法。對(duì)于有限動(dòng)態(tài)不完全博弈過(guò)程,序貫均衡總能得到混合策略,然而對(duì)于完美貝葉斯均衡方法,其計(jì)算過(guò)程較為復(fù)雜。Nayyar等[4]在假設(shè)動(dòng)態(tài)隨機(jī)非零和博弈狀態(tài)和觀(guān)測(cè)方程是線(xiàn)性的且初始隨機(jī)變量為高斯隨機(jī)變量的前提下,利用求解線(xiàn)性方程組序列,提出了公共信息馬爾科夫完美均衡計(jì)算方法。該方法的關(guān)鍵是將初始不完全信息下的博弈過(guò)程轉(zhuǎn)化為一個(gè)完全信息下的虛擬博弈過(guò)程以及眾多不同的或者更大的狀態(tài)/動(dòng)作空間。然而該方法無(wú)法對(duì)攻擊者的策略集和效用函數(shù)進(jìn)行差異性分析,且建模過(guò)程復(fù)雜。此外,為提高隨機(jī)博弈過(guò)程狀態(tài)觀(guān)測(cè)及動(dòng)作策略選取效率,Cole等[5]將具有懲罰函數(shù)的第三方觀(guān)察者引入系統(tǒng),且為每一個(gè)對(duì)抗參與者賦予私有信息觀(guān)測(cè)狀態(tài)。模型中每個(gè)參與者狀態(tài)置信度僅依賴(lài)于當(dāng)前狀態(tài)而不依賴(lài)其策略,這種假設(shè)使得每個(gè)參與者當(dāng)前策略選取受過(guò)去私有觀(guān)測(cè)狀態(tài)影響,嚴(yán)重時(shí),策略選取將會(huì)產(chǎn)生較大偏差。
國(guó)內(nèi)也有不少學(xué)者將博弈論引入網(wǎng)絡(luò)信息安全領(lǐng)域。劉榮等[6]將信息安全中攻防沖突雙方的收益進(jìn)行量化,建立了對(duì)抗雙方的博弈矩陣,同時(shí)將演化博弈理論引入沖突模型,求解攻防雙方對(duì)抗過(guò)程中網(wǎng)絡(luò)動(dòng)態(tài)微分方程。在MATLAB中對(duì)網(wǎng)絡(luò)攻防雙方對(duì)抗過(guò)程進(jìn)行了策略穩(wěn)定性分析,通過(guò)5組均衡解驗(yàn)證了模型的準(zhǔn)確性與有效性,然而在建模過(guò)程中假設(shè)攻防雙方處于理想化背景,導(dǎo)致在計(jì)算對(duì)抗雙方博弈沖突過(guò)程時(shí),缺乏一定的現(xiàn)實(shí)基礎(chǔ)。朱建明等[7]結(jié)合網(wǎng)絡(luò)對(duì)抗攻防雙方效能函數(shù),基于系統(tǒng)動(dòng)力學(xué)方程建立了不完全信息下具有自主學(xué)習(xí)機(jī)制的網(wǎng)絡(luò)對(duì)抗演化博弈模型,并對(duì)模型進(jìn)行了仿真,驗(yàn)證了引入第三方動(dòng)態(tài)懲罰策略的非合作演化博弈過(guò)程納什均衡的存在性與唯一性,然而建立模型過(guò)程中沒(méi)有考慮計(jì)算資源受限情況。
綜上,為了解決獲取信息不完全以及計(jì)算資源受限情況下的網(wǎng)絡(luò)安全問(wèn)題,本文通過(guò)量化信息獲取機(jī)制及資源受限條件,建立了網(wǎng)絡(luò)安全中攻防雙方動(dòng)態(tài)博弈過(guò)程方程,并給出了納什均衡及代價(jià)函數(shù)的計(jì)算過(guò)程。
(1)
(2)
控制器的控制策略可表示為gi,定義為:
(3)
在博弈過(guò)程中,每一個(gè)控制器的可利用資源數(shù)量都具有一定限制,控制器i在t時(shí)執(zhí)行的動(dòng)作及策略選擇不僅依賴(lài)于其他控制器的觀(guān)測(cè)和響應(yīng)動(dòng)作,還需考慮自身資源消耗情況。
令控制器集合為J,t時(shí)公共信息的增量為Zt,有Zt=Ct/Ct-1。其中,Zt為增量集合, 則Zt={Z1,…,ZT}。因此,控制器i的資源限制條件可表達(dá)如下:
假定每一個(gè)控制器都存在一個(gè)代價(jià)函數(shù),策略固定情況下,所有控制器的總代價(jià)函數(shù)可表達(dá)為:
(4)
為簡(jiǎn)化計(jì)算過(guò)程,對(duì)模型部分條件作如下假設(shè):
假設(shè)1:假定系統(tǒng)中各個(gè)控制器獲取的公共及私有信息隨時(shí)間演化過(guò)程如下。
1)獲取的公共信息Ct隨著時(shí)間不斷增加,即?t∈T,Ct?Ct+1。令Zt+1=Ct+1/Ct為t到(t+1)時(shí)刻公共信息的增量,則Ct+1={Ct,Zt+1}。因此有:
(5)
2)私有信息的演化過(guò)程可表達(dá)為:
(6)
式(5)表明,t到(t+1)時(shí)刻,增加的新公共信息一部分為t時(shí)刻選取的動(dòng)作以及(t+1)時(shí)刻的觀(guān)測(cè)集,另一部分為t時(shí)刻部分私有信息。式(6)表明控制器1和2私有信息的演化過(guò)程受到不同觀(guān)察者及動(dòng)作的影響。
在公共信息條件已知的條件下,任意時(shí)間t,控制器狀態(tài)及私有信息的置信度的條件概率模型為:
(7)
(8)
根據(jù)假設(shè)2可知,Πt僅依賴(lài)于公共信息Ct,且由于任意參與者都能得到公共信息,因此對(duì)于所有參與者而言,Πt為已知的。因此Πt的演化可視為一個(gè)馬爾科夫過(guò)程,記為
(9)
系統(tǒng)尋求納什均衡問(wèn)題最終簡(jiǎn)化為尋找Πt的馬爾科夫完美均衡問(wèn)題。下面將介紹貝葉斯博弈條件下一種改進(jìn)的尋找馬爾科夫完美均衡算法。
步驟1:初始T時(shí)刻,?π∈Πt,狀態(tài)xt的概率分布、動(dòng)作集及其代價(jià)函數(shù)如下:
(10)
式中:Ui為控制器i(i=1,2)的動(dòng)作集合;Zt+1為公共信息的增量;Mi為控制器的資源限制數(shù)量;j≠i,i,j=1,2。
步驟2:當(dāng)t 圖1所示為一個(gè)簡(jiǎn)化的火警網(wǎng)絡(luò)控制模型,數(shù)據(jù)中心通過(guò)網(wǎng)絡(luò)接收傳感器搜集的環(huán)境信息,如空氣濕度、煙霧濃度、溫度、光照強(qiáng)度等。如果發(fā)現(xiàn)火災(zāi),將產(chǎn)生警報(bào)信息并發(fā)送給控制器執(zhí)行各類(lèi)指令,如打開(kāi)應(yīng)急燈、關(guān)閉電梯、開(kāi)啟消防噴頭等。 圖1 簡(jiǎn)化的火警網(wǎng)絡(luò)控制模型 (11) 此外,控制器1能夠完全觀(guān)測(cè)信息,控制器2觀(guān)測(cè)誤差率為1/3,則有 (12) 令各控制器資源上限Mi=1,且在一個(gè)時(shí)間步長(zhǎng)后分享觀(guān)測(cè)與動(dòng)作集。在t時(shí)刻,公共信息與私有信息計(jì)算式如下: (13) (14) 式中:π(X2=1)為當(dāng)X2=1時(shí)在分布下π的概率。 同理,當(dāng)t=1時(shí),δ1(x)=1-x,δ2(y)=1-y為博弈過(guò)程的貝葉斯納什均衡。代價(jià)為: (15) 案例結(jié)果可為不完全信息、資源受限條件下博弈雙方策略的選取提供借鑒。 進(jìn)一步,令各控制器資源受限閾值Mi=25,系統(tǒng)噪聲服從標(biāo)準(zhǔn)正態(tài)分布,各狀態(tài)轉(zhuǎn)移(信息演化)過(guò)程服從Sigmod函數(shù),即: (16) 隨著控制器增多,本文方法與Markov方法下的博弈過(guò)程中納什均衡策略的最大執(zhí)行策略數(shù)如圖2所示。可以看出,隨著系統(tǒng)控制器增多,兩種方法下各控制器可獲取資源不斷增加,這種情況符合實(shí)際規(guī)律。本文方法由于考慮了資源受限情況,系統(tǒng)執(zhí)行均滿(mǎn)足資源受限要求,然而Markov方法存在控制器在博弈時(shí)超過(guò)可獲取的資源數(shù)量限制Mi=25。 圖2 不同算法下控制器數(shù)量與控制器最大執(zhí)行策略數(shù)關(guān)系 本文研究了網(wǎng)絡(luò)安全中攻防沖突雙方信息獲取不完整以及資源受限條件下的動(dòng)態(tài)博弈問(wèn)題,并提出了一種改進(jìn)的尋找馬爾科夫完美均衡算法。案例結(jié)果為不完全信息、資源受限條件下博弈雙方策略選取提供了一定借鑒。但是,目前的研究工作僅考慮了資源受限情況,未考慮觀(guān)測(cè)過(guò)程中干擾、時(shí)延等帶來(lái)的誤差問(wèn)題,故要真正在實(shí)踐中體現(xiàn)其價(jià)值,還需要進(jìn)行后續(xù)研究。3 案例與分析
4 結(jié)束語(yǔ)
機(jī)械設(shè)計(jì)與制造工程2020年12期