沈士根,周海平,黃龍軍,范 恩,胡珂立,曹奇英
(1.紹興文理學院計算機科學與工程系,浙江 紹興 312000;2. 東華大學計算機科學與技術學院,上海 201620)
項目來源:國家自然科學基金項目(61772018,61603258,61272034)
2017-04-08修改日期2017-06-09
基于最優(yōu)反應均衡的傳感網惡意程序傳播抑制方法*
沈士根1,周海平1,黃龍軍1,范 恩1,胡珂立1,曹奇英2
(1.紹興文理學院計算機科學與工程系,浙江 紹興 312000;2. 東華大學計算機科學與技術學院,上海 201620)
為抑制傳感網惡意程序傳播,在考慮傳感網惡意程序傳播參與者“有限理性”的基礎上,提出一種基于最優(yōu)反應均衡的方法。根據(jù)傳感網惡意程序傳播過程中的博弈分析,建立傳感網惡意程序傳播階段博弈模型以反應傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間的博弈交互過程。由參與者之間博弈交互持續(xù)進行的事實,建立傳感網惡意程序傳播重復博弈模型。使用最優(yōu)反應均衡預測傳感網惡意程序的行為以解決重復博弈納什均衡解求解困難的問題,給出抑制傳感網惡意程序傳播的算法。實驗分析了參與者基于最優(yōu)反應均衡的策略,對所提出方法的有效性進行了驗證。
傳感網;惡意程序;有限理性;最優(yōu)反應均衡
近年來,保障包括物聯(lián)網安全在內的網絡空間安全已上升到前所未有的高度[1-2]。由于傳感網是物聯(lián)網構成的基礎,所以物聯(lián)網安全的保障實際上需要通過保障傳感網安全來實現(xiàn)。其中,傳感網惡意程序已成為破壞傳感網安全的主要威脅[3-4]。因此,迫切需要分析傳感網惡意程序的傳播行為,給出防御傳感網惡意程序傳播的方法,以便較好地抑制傳感網惡意程序的傳播。
針對傳感網惡意程序傳播如何抑制的問題,王小明團隊提出了面向移動傳感網惡意程序空間分布的定向免疫和恢復控制策略[5],又在借鑒傳染病防御思想上提出了脈沖免疫和恢復控制策略[6],還使用Pontryagin極大值原理得到了易感節(jié)點免疫比例與感染節(jié)點恢復比例的最優(yōu)控制變量對,為抑制惡意程序在移動傳感網中傳播提供了安全策略[7]。楊雄等人[8]在擴展傳統(tǒng)SIR傳播模型基礎上,提出了一種適用于傳感網的攻防策略優(yōu)化模型。傅蓉蓉等人[9]提出了一種傳感網環(huán)境自適應的節(jié)點免疫算法。王田等人[10]在建立移動惡意程序傳播模型基礎上,通過掛起感染邊界附近的高風險節(jié)點來阻斷惡意程序的進一步傳播。Zhu和Zhao[11]針對傳感網中的惡意程序,給出了基于Pontryagin最大化原理的最優(yōu)防御策略。同樣使用Pontryagin最大化原理,Eshghi等人[12]針對聚簇網絡環(huán)境給出了一種優(yōu)化的補丁安裝策略,從而抑制惡意程序的傳播。另外,Yang等人[13]利用軟件多樣性方法抑制惡意程序的傳播。
要實現(xiàn)傳感網惡意程序傳播的抑制,尋找抑制策略是關鍵,而抑制策略的選擇在本質上需要探究傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間的交互和相互依存性問題。博弈論與這種交互行為有著天然的密切關系,能夠充分地考慮傳感網惡意程序和傳感網入侵檢測系統(tǒng)策略的依存性及成本與收益之間的平衡性[14],因此,博弈論自然而然已成為一種尋找抑制策略的理論工具。劉玉嶺等人[15]建立了一種基于靜態(tài)貝葉斯博弈的績效評估模型以及攻防雙方對抗情形下的惡意程序攻防策略績效評估方法。陳永強等人[16]提出了一種基于模糊貝葉斯博弈模型的網絡最優(yōu)抑制策略選取方法。王晉東等人[14]提出了一種基于靜態(tài)貝葉斯博弈的最優(yōu)抑制策略選取方法。Garnaev等人[17]利用貝葉斯博弈針對惡意攻擊的不確定性給出了一種防御策略。Chen等人[18]基于演化博弈提出了一種主動防御傳感網惡意程序攻擊的方法。Spyridopoulos等人[19]利用完全信息靜態(tài)博弈給出了能最小化惡意程序傳播影響的優(yōu)化策略。Liu等人[20]基于隨機演化聯(lián)盟博弈提出了一種針對傳感云(Sensor-Cloud)服務系統(tǒng)中動態(tài)變化攻擊的動態(tài)防御方法。Shen等人[21]提出了基于微分博弈的傳感網惡意程序傳播抑制策略。然而,上述文獻均假設博弈參與者具有“完全理性”,而在實際博弈過程中,參與者常具有學習能力,即具有“有限理性”(Bounded Rationality)的特性。
本文考慮傳感網惡意程序和傳感網入侵檢測系統(tǒng)的“有限理性”,基于最優(yōu)反應均衡(Quantal Response Equilibrium)提出一種抑制傳感網惡意程序傳播的方法。首先,分析傳感網惡意程序和傳感網入侵檢測系統(tǒng)博弈過程中的動作及各“動作對”的偏好值,給出傳感網惡意程序傳播階段博弈模型;其次,根據(jù)實際傳感網環(huán)境中傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間博弈交互持續(xù)進行的現(xiàn)狀,將傳感網惡意程序傳播階段博弈模型擴展為傳感網惡意程序傳播重復博弈模型;最后,針對傳感網惡意程序傳播重復博弈納什均衡解求解困難的問題和參與者雙方具有“有限理性”的事實,使用最優(yōu)反應均衡預測傳感網惡意程序的行為,提出抑制傳感網惡意程序傳播的新方法。
定義1傳感網惡意程序傳播階段博弈模型定義為一個三元組Θ=(Φ,Γ,Δ),其中:
①Φ={傳感網惡意程序,傳感網入侵檢測系統(tǒng)}為參與者集合;
②Γ=ΓMal×ΓIDS為參與者動作集合的笛卡兒積,其中,ΓMal={aMal|合作(Cooperate,C),故障(Fault,F),預傳播(Pre-infect,P),傳播(Infect,I)}為傳感網惡意程序的動作集合,ΓIDS={aIDS|休眠(Sleep,S),授權(Grant,G),防御(Defend,D)}為傳感網入侵檢測系統(tǒng)的動作集合;
③Δ=ΔMal×ΔIDS為參與者支付集合的笛卡兒積,其中,ΔMal={uMal(aMal):ΓMal|→}為傳感網惡意程序的支付集合,ΔIDS={uIDS(aIDS):ΓIDS|→}為傳感網入侵檢測系統(tǒng)的支付集合。
在定義1中,對于傳感網惡意程序而言,它有4種可能的動作。為了迷惑傳感網入侵檢測系統(tǒng),被惡意程序感染的傳感節(jié)點在與其他節(jié)點通信時會采取“合作”動作C使傳感網入侵檢測系統(tǒng)認為它是一個正常節(jié)點。由于傳感網屬于多跳網絡,其網絡通信可靠度較有線網絡低,存在一定的數(shù)據(jù)丟包現(xiàn)象,對于這些不是因為惡意程序采取惡意行為造成的網絡故障問題本文將其歸結為“故障”動作F。然而,惡意程序的最終目的是竊取傳感節(jié)點感知的信息,干擾傳感網節(jié)點通信,甚至會通過耗盡傳感節(jié)點電源等方式使傳感節(jié)點完全失去功能,為了達到這些目的,傳感網惡意程序會采取探測目標傳感節(jié)點的漏洞和網絡的拓撲結構等方面的“預傳播”動作P,最后再采取“傳播”動作I。
另一方面,傳感網入侵檢測系統(tǒng)可采取的動作跟傳感網特性是密切相關的。由于入侵檢測系統(tǒng)的運行需要耗費較多的能量,而傳感節(jié)點能量有限,所以,傳感網中的入侵檢測系統(tǒng)一直處于運行狀態(tài)不是一種優(yōu)化策略,需要采取“休眠”動作S降低傳感節(jié)點的能量消耗。傳感網入侵檢測系統(tǒng)啟動后,當未檢測到惡意行為時,需要采取“授權”動作G以便保證傳感節(jié)點的正常工作;當檢測到惡意行為時,需要采取“防御”動作D防御惡意程序的傳播。值得說明的是,未檢測到惡意行為包含兩種情況:一種情況是被檢測的數(shù)據(jù)確實不包含惡意行為,而另一種情況是由于任何入侵檢測系統(tǒng)都存在漏報率,造成惡意行為的漏報。
根據(jù)上述分析,傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間博弈交互時共有12種“動作對”。例如,“動作對”(C,S)表示傳感網惡意程序表現(xiàn)正常時,傳感網入侵檢測系統(tǒng)采取動作S;“動作對”(C,D)和(F,D)分別表示傳感網惡意程序表現(xiàn)正常(動作C)和網絡故障(動作F)時,傳感網入侵檢測系統(tǒng)因誤報都采取動作D;“動作對”(P,G)和(I,G)分別表示傳感網惡意程序表現(xiàn)出惡意行為而采取動作P和I時,傳感網入侵檢測系統(tǒng)因漏報都采取動作G;“動作對”(I,D)表示傳感網惡意程序采取動作I時,傳感網入侵檢測系統(tǒng)成功檢測到惡意程序的傳播行為而采取動作D。
接下來分析傳感網惡意程序和傳感網入侵檢測系統(tǒng)采取各“動作對”時的偏好值,并以此確定傳感網惡意程序傳播博弈模型的支付矩陣。對?x,y∈Γ,記x?y和x~y分別表示“動作對”x的偏好值優(yōu)于“動作對”y和“動作對”x的偏好值等價于“動作對”y。對傳感網惡意程序而言,采取動作I傳播惡意程序后傳感網入侵檢測系統(tǒng)未能檢測到惡意程序時,它獲得的收益最大。而傳感網入侵檢測系統(tǒng)采取動作S和G都未能檢測到惡意程序,因此,(I,S)與(I,G)具有相同的收益。接下來傳感網惡意程序獲得收益從大到小依次為(P,S)、(F,S)、(C,S)。另一方面,傳感網惡意程序獲得收益最小的是其采取“預傳播”動作P時就被傳感網入侵檢測系統(tǒng)采取動作D實現(xiàn)防御,隨后依次為(F,D)、(C,D)、(I,D)。綜合上述分析,可得到傳感網惡意程序對各“動作對”的偏好次序為:
(I,S)~(I,G)?(P,S)~(P,G)?(F,S)~(F,G)?
(C,S)~(C,G)?(I,D)?(C,D)?(F,D)?(P,D)
(1)
對傳感網入侵檢測系統(tǒng)而言,獲得收益最大的是傳感網惡意程序采取動作C而傳感網入侵檢測系統(tǒng)采取動作S的情況。由于傳感網入侵檢測系統(tǒng)采取動作G比S要消耗更多的能量用于檢查監(jiān)控數(shù)據(jù),所以“動作對”(C,G)獲得的收益其次。當傳感網入侵檢測系統(tǒng)采取動作D時,它獲得的收益從大到小依次為“動作對”(I,D)、(P,D)、(F,D)、(C,D)。當傳感網惡意程序采取動作I而傳感網入侵檢測系統(tǒng)采取動作G時傳感網入侵檢測系統(tǒng)獲得的收益最小,接下來依次為“動作對”(I,S)、(F,G)、(F,S)、(P,G)、(P,S)。綜合上述分析,可得到傳感網入侵檢測系統(tǒng)對各“動作對”的偏好次序為:
(C,S)?(C,G)?(I,D)?(P,D)?(F,D)?(C,D)?
(P,S)?(P,G)?(F,S)?(F,G)?(I,S)?(I,G)
由Binmore[22]提供的根據(jù)偏好次序定義各參與者支付值的方法,可以得到傳感網惡意程序和傳感網入侵檢測系統(tǒng)采取各動作的支付矩陣,如表1所示。
表1 傳感網惡意程序傳播階段博弈模型的支付矩陣
在實際的傳感網環(huán)境中,傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間的博弈交互是持續(xù)進行的。例如,當傳感網惡意程序采取動作C而傳感網入侵檢測系統(tǒng)采取動作S完成第1階段博弈后,傳感網惡意程序可以采取動作C、F、P或I進行第2階段博弈,此時,傳感網入侵檢測系統(tǒng)針對傳感網惡意程序的不同動作可以采取S、G或D完成第2階段博弈,……,這些過程重復進行,直到傳感網入侵檢測系統(tǒng)采取動作D結束整個博弈。由此可知,傳感網惡意程序和傳感網入侵檢測系統(tǒng)這兩個參與者誰都不知道博弈何時結束,所以,該博弈屬于典型的無限次重復博弈類型。圖1給出了傳感網惡意程序和傳感網入侵檢測系統(tǒng)之間的重復博弈過程。
圖1 傳感網惡意程序傳播重復博弈過程
由圖1可知,傳感網惡意程序傳播重復博弈實質是傳感網惡意程序傳播階段博弈的重復,而對應的策略為一系列階段博弈所定義的動作計劃,參與者傳感網惡意程序和傳感網入侵檢測系統(tǒng)能根據(jù)歷史動作觀察到上一個階段博弈的結果,并由此選擇未來的動作。另外,重復博弈中的支付值通常是每個階段支付值折扣后的累加值。下面給出傳感網惡意程序傳播重復博弈的定義。
①參與者集合Φ與定義1相同;
④β∈[0,1]為折扣因子。
對于重復博弈而言,最大的問題是隨著階段博弈的不斷重復,“策略對”總量將呈爆炸性增長趨勢。在傳感網惡意程序傳播重復博弈的第1階段,由圖1可知共有12種“策略對”。由于傳感網入侵檢測系統(tǒng)采取動作D將結束整個博弈,因此在第2階段博弈時共有9×12=108種“策略對”。依此類推,可得到傳感網惡意程序傳播重復博弈在階段t時的“策略對”總量φt為:
φt=9×φt-1,t∈{2,3,4,…}
式中:φ1=12。
通常,對于一個非合作博弈,納什均衡是最優(yōu)解,達到納什均衡意味著參與者雙方都認為自己現(xiàn)有的策略是最好的策略,因此,在對方不改變策略的前提下,任何一方都不會調整自己的策略,否則,率先改變策略的一方將減少對應的期望效益。然而,面對傳感網惡意程序傳播重復博弈,求解納什均衡將隨“策略對”總量的爆炸性增長變得異常復雜。另外,在多階段的傳感網惡意程序傳播重復博弈中,參與者雙方“完全理性”的假設變得不現(xiàn)實。例如,傳感網惡意程序在博弈的初始階段為了隱藏自己,常采取動作C,此時的納什均衡解為“策略對”(C,S),而傳感網惡意程序最終將通過傳播自己來達到獲得傳感節(jié)點上感知的信息,甚至破壞傳感網通信的目的,此時的納什均衡解變?yōu)椤安呗詫Α?I,D)。因此,針對傳感網惡意程序傳播重復博弈納什均衡解求解困難的問題和參與者雙方具有“有限理性”的事實,本文引入最優(yōu)反應均衡來預測傳感網惡意程序的行為,從而為抑制傳感網惡意程序傳播提供新方法。
最優(yōu)反應均衡在行為博弈論中是一個普遍使用的均衡概念,最早由McKelvey和Palfrey[23]提出,其最大的特點是考慮了實際情況中參與者具有的“有限理性”,也就是說,在計算參與者選擇動作后的期望收益時,各個參與者會因為認識偏差而造成錯誤。因此,在實際情況中參與者經常不能選擇最優(yōu)的納什均衡,而只能選擇參與者認為的最優(yōu)策略。對于傳感網惡意程序傳播重復博弈,傳感網惡意程序和傳感網入侵檢測系統(tǒng)會根據(jù)每個階段博弈的結果進行學習,并修正自己的動作。隨著博弈的進行,各個階段博弈的均衡點不斷變動,最終收斂于納什均衡。
算法1基于最優(yōu)反應均衡抑制傳感網惡意程序傳播的算法
步驟1 系統(tǒng)管理員配置傳感網入侵檢測系統(tǒng)的初使動作;
步驟2 系統(tǒng)管理員初使化傳感網惡意程序傳播重復博弈的博弈參數(shù);
步驟3 傳感網入侵檢測系統(tǒng)被包含傳感網惡意程序行為的監(jiān)控數(shù)據(jù)喚醒;
步驟4t=1;
步驟5 DO WHILE T.
步驟7 IFaIDS="D" THEN
步驟8 BREAK;
步驟9 ELSE
步驟14 ENDIF
步驟15t=t+1;
步驟16 ENDDO
使用Gambit實驗工具,首先通過仿真得到傳感網惡意程序傳播重復博弈中傳感網惡意程序和傳感網入侵檢測系統(tǒng)基于最優(yōu)反應均衡的策略(如表2所示),再說明基于最優(yōu)反應均衡抑制傳感網惡意程序傳播的有效性。實驗參數(shù)設置時,傳感網惡意程序和傳感網入侵檢測系統(tǒng)初始以等概率選擇各自的策略,即傳感網惡意程序以25%的概率選擇動作C、F、P或I,而傳感網入侵檢測系統(tǒng)以約33.33%的概率選擇動作S、G或D;參與者理性度參數(shù)初始設置為γ=0。
表2 傳感網惡意程序和傳感網入侵檢測系統(tǒng)基于最優(yōu)反應均衡的策略
圖2給出了傳感網惡意程序在給定理性度參數(shù)前提下基于最優(yōu)反應均衡選擇相應動作的變化趨勢,其中,y軸表示選擇某個動作的概率。從圖2和表2的數(shù)據(jù)中可以看出,隨著理性度γ值的增加,傳感網惡意程序選擇動作C的概率經歷先降后升最后再下降的過程(兩次拐點分別出現(xiàn)在理性度γ≈0.287 518和γ≈0.868 198),選擇動作F的概率呈現(xiàn)越來越小的趨勢,選擇動作P的概率經歷先緩慢上升再逐步下降的過程(拐點出現(xiàn)在理性度γ≈0.32 61),而選擇動作I的概率呈現(xiàn)越來越大的趨勢。最終,當理性度γ約達到15.576 65時,傳感網惡意程序選擇動作I的概率達到1,也就是說,此時動作C、F、P已被傳感網惡意程序摒棄,傳感網惡意程序始終選擇動作I以獲取最大的效益。
圖2 傳感網惡意程序基于最優(yōu)反應均衡的策略
圖3給出了傳感網入侵檢測系統(tǒng)面對傳感網惡意程序采取的動作選擇基于最優(yōu)反應均衡的相應動作的變化趨勢。從圖3和表2的數(shù)據(jù)中可以看出,隨著理性度γ值的增加,傳感網入侵檢測系統(tǒng)選擇動作S和G的概率越來越小,而選擇動作D的概率越來越大。最終,當理性度γ約達到2.293 818時,傳感網入侵檢測系統(tǒng)選擇動作D的概率達到1,也就是說,此時動作S和G已被傳感網入侵檢測系統(tǒng)摒棄,傳感網入侵檢測系統(tǒng)始終選擇動作D以獲取最大的效益。
圖3 傳感網入侵檢測系統(tǒng)基于最優(yōu)反應均衡的策略
如何抑制傳感網惡意程序傳播已成為當前保障傳感網安全的研究熱點,本文提出了一種基于最優(yōu)反應均衡并考慮傳感網惡意程序傳播參與者“有限理性”的抑制方法。建立的傳感網惡意程序傳播階段博弈模型分析了傳感網惡意程序傳播過程中各參與者的動作及偏好值,能體現(xiàn)參與者的交互過程,進一步建立的傳感網惡意程序傳播重復博弈模型能體現(xiàn)實際傳感網中各參與者之間的重復博弈過程。通過最優(yōu)反應均衡預測傳感網惡意程序的行為,解決了重復博弈納什均衡解求解困難的問題,給出的算法為實際應用提供了思路。實驗結果說明本文方法能有效抑制傳感網惡意程序的傳播,為保障傳感網安全提供了一種新方法。
[1] 羅軍舟,楊明,凌振,等. 網絡空間安全體系與關鍵技術[J]. 中國科學:信息科學,2016,46(8):939-968.
[2] 張煥國,韓文報,來學嘉,等. 網絡空間安全綜述[J]. 中國科學:信息科學,2016,46(2):125-164.
[3] 沈士根,劉建華,曹奇英. 博弈論與無線傳感器網絡安全[M]. 北京:清華大學出版社,2016.
[4] 沈士根,黃龍軍,范恩,等. 受惡意程序傳染的WSNs可生存性評估[J]. 傳感技術學報,2016,29(7):1083-1089.
[5] Wang X,He Z,Zhao X,et al. Reaction-Diffusion Modeling of Malware Propagation in Mobile Wireless Sensor Networks[J]. Science China Information Sciences,2013,56(9):1-18.
[6] Wang X,He Z,Zhang L. A Pulse Immunization Model for Inhibiting Malware Propagation in Mobile Wireless Sensor Networks[J]. Chinese Journal of Electronics,2014,23(4):810-815.
[7] 曹玉林,王小明,何早波. 移動無線傳感網中惡意軟件傳播的最優(yōu)安全策略[J]. 電子學報,2016,44(8):1851-1857.
[8] 楊雄,查志琴,朱宇光,等. 基于能量有限型無線傳感網的惡意軟件攻防優(yōu)化策略[J]. 計算機工程與科學,2011,33(5):22-26.
[9] 傅蓉蓉,鄭康鋒,張冬梅,等. 無線傳感器網絡蠕蟲的傳播與控制[J]. 北京交通大學學報,2013,37(2):17-21.
[10] 王田,吳群,文晟,等. 無線傳感網中移動式蠕蟲的抑制與清理[J]. 電子與信息學報,2016,38(9):2202-2207.
[11] Zhu L,Zhao H. Dynamical Analysis and Optimal Control for a Malware Propagation Model in an Information Network[J]. Neurocomputing,2015,149:1370-1386.
[12] Eshghi S,Khouzani M H R,Sarkar S,et al. Optimal Patching in Clustered Malware Epidemics[J]. IEEE/ACM Transactions on Networking,2016,24(1):283-298.
[13] Yang Y,Zhu S,Cao G. Improving Sensor Network Immunity under Worm Attacks:A Software Diversity Approach[J]. Ad Hoc Networks,2016,47:26-40.
[14] 王晉東,余定坤,張恒巍,等. 靜態(tài)貝葉斯博弈主動防御策略選取方法[J]. 西安電子科技大學學報,2016,43(1):144-150.
[15] 劉玉嶺,馮登國,吳麗輝,等. 基于靜態(tài)貝葉斯博弈的蠕蟲攻防策略績效評估[J]. 軟件學報,2012,23(3):712-723.
[16] 陳永強,吳曉平,付鈺,等. 基于模糊靜態(tài)貝葉斯博弈的網絡主動防御策略選取[J]. 計算機應用研究,2015,32(3):887-889.
[17] Garnaev A,Baykal-Gursoy M,Poor H V. Incorporating Attack-Type Uncertainty into Network Protection[J]. IEEE Transactions on Information Forensics and Security,2014,9(8):1278-1287.
[18] Chen Z,Qiao C,Qiu Y,et al. Dynamics Stability in Wireless Sensor Networks Active Defense Model[J]. Journal of Computer and System Sciences,2014,80(8):1534-1548.
[19] Spyridopoulos T,Maraslis K,Mylonas A,et al. A Game Theoretical Method for Cost-Benefit Analysis of Malware Dissemination Prevention[J]. Information Security Journal,2015,24(4-6):164-176.
[20] Liu J,Shen S,Yue G,et al. A Stochastic Evolutionary Coalition Game Model of Secure and Dependable Virtual Service in Sensor-Cloud[J]. Applied Soft Computing,2015,30:123-135.
[21] Shen S,Li H,Han R,et al. Differential Game-Based Strategies for Preventing Malware Propagation in Wireless Sensor Networks[J]. IEEE Transactions on Information Forensics and Security,2014,9(11):1962-1973.
[22] Binmore K. Playing for Real:A Text on Game Theory[M]. New York:Oxford University Press,2007.
[23] Mckelvey R D,Palfrey T R. Quantal Response Equilibria for Extensive Form Games[J]. Experimental Economics,1998,1:9-41.
QuantalResponseEquilibrium-BasedMethodforPreventingWSNsMalwareInfection*
SHENShigen1,ZHOUHaiping1,HUANGLongjun1,FANEn1,HUKeli1,CAOQiying2
(1.Department of Computer Science and Engineering,Shaoxing University,Shaoxing Zhejiang 312000,China; 2.College of Computer Science and Technology,Donghua University,Shanghai 201620,China)
We consider bounded rationality of players during the process of WSNs(Wireless Sensor Networks)malware infection,and propose a method based on QRE(Quantal Response Equilibrium)to prevent the infection behavior of malware. According to game analyses,we construct a stage game model to reflect interactions between two players-WSNs malware and WSNs IDS(Intrusion Detection System). Furthermore,we construct a repeated game model describing continual interactions between the two players. We then solve the problem of computing Nash Equilibrium in the repeated game by employing QRE to predict behaviors of WSNs malware,and attain an algorithm preventing WSNs malware infection. Experiments analyze QRE-based strategies for the two players,and confirm the efficiency of our method.
wireless sensor networks;malware;bounded rationality;quantal response equilibrium
TP393
A
1004-1699(2017)10-1589-07
10.3969/j.issn.1004-1699.2017.10.023
沈士根(1974-),男,漢族,紹興文理學院計算機科學與工程系教授,博士,主要研究方向為無線傳感器網絡、移動互聯(lián)網、博弈論,shigens@126.com;
周海平(1977-),男,漢族,紹興文理學院計算機科學與工程系教授,博士,主要研究方向為復雜網絡、推薦算法、博弈論,hpzhou2885@163.com;
曹奇英(1960-),男,漢族,東華大學計算機科學與技術學院教授,博士生導師,博士,主要研究方向為普適計算、智能信息處理,caoqiying@dhu.edu.cn。