摘要:針對多智能體通過無線傳感器網(wǎng)絡(luò)與目標(biāo)接收器通信時可能遭遇的信息竊取問題,提出了一種創(chuàng)新的多智能體波束成形方法。該方法旨在通過動態(tài)調(diào)整智能體的分布及傳輸信號狀態(tài),確保接收器能收到高質(zhì)量的信號,最大限度地避免被潛在的竊聽者竊取信息。首先將聯(lián)合優(yōu)化問題定義為部分可觀測馬爾可夫決策過程(POMDP),其次基于深度強化學(xué)習(xí)算法解決此優(yōu)化問題。通過引入集中式訓(xùn)練、分布式執(zhí)行的框架,智能體可以根據(jù)局部觀測進(jìn)行協(xié)同決策,從而調(diào)整全局通信狀態(tài)。為了驗證所提方法的有效性,基于多智能體粒子環(huán)境(MPE)設(shè)計了仿真環(huán)境,并在多個場景下進(jìn)行了訓(xùn)練及測試,實驗結(jié)果驗證了該方法的有效性。
關(guān)鍵詞:多智能體系統(tǒng);波束成形;防竊聽通信;深度強化學(xué)習(xí)
中圖分類號:TP301.6文獻(xiàn)標(biāo)志碼:A
0引言(Introduction)
多智能體之間可以通過無線傳感器網(wǎng)絡(luò)(WSN)進(jìn)行通信[1],無線傳感器網(wǎng)絡(luò)由一些傳感器節(jié)點組成,這些傳感器節(jié)點可以通過無線通信進(jìn)行交互[2]。然而,無線通信存在信號傳輸距離受限、信道質(zhì)量有波動和易受到干擾等問題[3],為了解決這些問題,引入了波束成形技術(shù)建立傳感器與遠(yuǎn)程設(shè)備之間的通信鏈路[4],通過控制多個智能體發(fā)射的信號,可以改變波束的形狀。
智能體在與目標(biāo)接收器通信的過程中,環(huán)境中可能存在竊聽者試圖干擾或竊取敏感信息,因此需要在保證可靠通信的同時,防止信息被竊取。在實際場景中,竊聽者的數(shù)量未知,并且可能是動態(tài)的,這大大降低了無線通信的安全性。為了防止信息被竊聽者竊取,同時確保信號可以傳輸?shù)街付ǖ慕邮掌鳎悄荏w需要動態(tài)調(diào)整自身發(fā)射信號的狀態(tài)(圖1)。
針對智能體通信中潛在的信息竊取問題,本文引入了智能體的位置和傳感器發(fā)射信號的相位偏移作為控制變量。首先將多智能體聯(lián)合波束成形問題表述為部分可觀測馬爾可夫決策過程,其次設(shè)計了一種基于近端策略優(yōu)化的算法求解該POMDP。智能體可以根據(jù)自身的局部觀測結(jié)果調(diào)整自身行為,進(jìn)而影響波束成形結(jié)果。
1相關(guān)工作(Relatedwork)
目前,強化學(xué)習(xí)被廣泛應(yīng)用于無線傳感器網(wǎng)絡(luò)的波束成形問題。TAN等[5]提出了一種基于深度強化學(xué)習(xí)的自適應(yīng)波束成形方案,為實時自適應(yīng)波束成形提供了一種高效的深度學(xué)習(xí)模型,可以實時預(yù)測產(chǎn)生任意期望輻射圖案所需的空間相位配置。受深度強化學(xué)習(xí)在動態(tài)規(guī)劃問題中展現(xiàn)出的較高解決能力的啟發(fā),MISMAR等[6]將波束成形、功率控制和干擾協(xié)調(diào)的聯(lián)合優(yōu)化表述為一個非凸優(yōu)化問題,利用最大化信號干擾噪聲比,并通過深度強化學(xué)習(xí)解決此問題。然而,在通信過程中可能會受到干擾或存在竊聽者試圖竊取信息,YU等[7]提出了一種使用人工噪聲輔助的安全波束成形系統(tǒng),發(fā)射器將人為干擾信號與有效信息結(jié)合進(jìn)行傳輸,并對信息和干擾信號的發(fā)射功率進(jìn)行分配,確保信息發(fā)送給合法用戶的同時,有效防范竊聽者。YANG等[8]研究了一種智能反射面輔助的安全無線通信系統(tǒng),在存在竊聽者的復(fù)雜環(huán)境中,保障了合法用戶的安全通信。由于系統(tǒng)高度動態(tài)且復(fù)雜,因此他們提出了一種基于深度強化學(xué)習(xí)(DRL)的安全波束成形方法,以實現(xiàn)在動態(tài)環(huán)境中針對竊聽者的最優(yōu)波束成形策略。XIAO等[9]的研究考慮了一個多輸入單輸出可見光通信的場景,其中多個燈具充當(dāng)發(fā)射器,一個可見光通信接收器作為合法用戶,同時存在一個竊聽者試圖獲取信息。文中提出了一種基于強化學(xué)習(xí)的可見光通信波束控制方案,該方案旨在通過優(yōu)化波束成形策略,確保信息在動態(tài)環(huán)境中能夠安全、準(zhǔn)確地傳輸給合法用戶,同時有效防止竊聽者的信息竊取。
現(xiàn)有的研究沒有考慮到環(huán)境中存在多個動態(tài)竊聽者的情況,本文將此優(yōu)化問題建模為POMDP,通過引入集中式訓(xùn)練、分布式執(zhí)行的框架,基于近端策略優(yōu)化(PPO)設(shè)計了算法并進(jìn)行求解。
2系統(tǒng)模型(Systemmodel)
2.1系統(tǒng)描述
系統(tǒng)模型由多個智能體、接收器和竊聽者組成,每個智能體攜帶一個用于發(fā)射信號的傳感器,并配備一個各向同性的天線,使智能體發(fā)出的信號能在各個方向上連續(xù)且均勻地傳送,從而保證接收器可以接收到一個共同的信息。在該環(huán)境中,存在一個或多個動態(tài)竊聽者試圖獲取智能體發(fā)射的信號。針對該模型提出以下假設(shè)。
(1)假設(shè)智能體發(fā)出信號的反射和散射對最終波束成形結(jié)果的影響很小,可以忽略不計。
(2)假設(shè)所有智能體均配備相同的傳感器用于發(fā)射信號,并且受到最大發(fā)射功率的限制,即所有智能體以相同的功率發(fā)射信號。
(3)每個節(jié)點(包括智能體、接收器和竊聽者)都有一個與載波頻率ω同步的本地振蕩器,載波漂移很小。
2.2信噪比計算
設(shè)定一個笛卡兒坐標(biāo)系,智能體分布在坐標(biāo)系原點周圍,接收器在Y軸正方向,竊聽者在初始時刻處于坐標(biāo)系上的一個隨機位置。用z、zr和ze分別表示m個智能體、接收器和竊聽者的位置。用ρri=‖zr-zi‖和ρei=‖ze-zi‖分別表示智能體i到接收器和竊聽者的距離。
假設(shè)所有智能體的傳感器都發(fā)射相同的信號,用As(t)表示,其中A是發(fā)射信號的振幅,s(t)是復(fù)數(shù)正弦波,即s(t)=elωt。使用φi(KT)表示智能體i在時間t∈[KT,(K+1)T]內(nèi)的相位控制變量,φti表示智能體i發(fā)射的傳感器信號在t時刻的瞬時相位偏移。在該系統(tǒng)中,所有智能體上傳感器發(fā)射信號的相位偏移在t=KT時被同時更新,其中T>sπ/ω是一個常數(shù)。用τri表示從智能體i到接收器的傳播延遲,即τri=ρri/c,ηi為因時鐘同步誤差而產(chǎn)生的相位偏移。
因此,接收器在時間t∈[KT,(K+1)T]內(nèi)的綜合接收信號是
r(t)=∑[DD(]m[]i=1[DD)]μriAs[JB<1(]t-τri-ηi-φi(K)[JB>1)]+n(t)[JZ)][JY](1)
其中:n(t)表示零均值高斯白噪聲,功率為σ2;μri表示從智能體i到接收器因傳輸距離ρri而產(chǎn)生的信號衰減,即μri=vρ-αri,其中v>0為常數(shù),α為路徑損失指數(shù),通常設(shè)置為3.7。在不失一般性的情況下,假設(shè)高斯白噪聲的功率σ2=1。那么接收器接收到的傳感器信號的信噪比(SNR)為
由公式(2)和公式(3)可以得出,SNRrec(z,φ)和SNReav(z,φ)都取決于智能體的位置分布和傳感器信號的相位偏移,即可以通過智能體的決策決定最終接收器和竊聽者接收到信號的信噪比。
2.3優(yōu)化目標(biāo)
本文旨在確保接收器能接收到良好信號的前提下,最大限度地避免被動態(tài)竊聽者竊取信息。由于竊聽者會在環(huán)境中不斷移動,所以為了實現(xiàn)上述目標(biāo),智能體需要根據(jù)竊聽者的位置變化動態(tài)地調(diào)整自身行為,從而持續(xù)降低竊聽者接收到的信號質(zhì)量??紤]到實際需要,施加了以下兩項限制。
(1)由于目標(biāo)是實現(xiàn)遠(yuǎn)距離的防竊聽通信,限制智能體在一定區(qū)域內(nèi)移動,通過調(diào)整自身位置和傳感器信號的相位偏移改變通信區(qū)域。
(2)為了避免智能體碰撞和傳感器信號相互干擾,任何兩個智能體之間的距離ρij=‖zi-zj‖應(yīng)始終大于1/4的傳輸信號波長。
由于期望接收器能夠接收到高質(zhì)量的傳輸信號,所以研究人員設(shè)定了一個信噪比的閾值X,接收器接收到的傳感器信號的信噪比必須大于此閾值,以保證信號的可靠傳輸。在此基礎(chǔ)上,通過尋找參數(shù)的最佳組合(z,φ)*最小化SNReav。
因此,優(yōu)化目標(biāo)可以被表述為
3.1深度強化學(xué)習(xí)概述
強化學(xué)習(xí)作為一種先進(jìn)的機器學(xué)習(xí)方法,使得智能體可以根據(jù)當(dāng)前自身的策略執(zhí)行動作,并通過與環(huán)境進(jìn)行交互獲得的獎勵改進(jìn)自身策略,其目標(biāo)是最大化智能體獲得的累計獎勵。深度強化學(xué)習(xí)融合了深度學(xué)習(xí)的特征表示能力和強化學(xué)習(xí)的決策與控制能力,可以使智能體學(xué)習(xí)到比人工建模更好的特征表示。
針對多智能體聯(lián)合波束成形問題,需要對智能體本身的行為進(jìn)行限制,以及對通信目標(biāo)進(jìn)行聯(lián)合優(yōu)化。然而,由于環(huán)境中存在動態(tài)的竊聽者,因此對于多個智能體和竊聽者的場景進(jìn)行系統(tǒng)建模極具挑戰(zhàn)性。在這種情況下,傳統(tǒng)的優(yōu)化方法難以處理復(fù)雜的場景。
3.2POMDP
為了使多智能體聯(lián)合波束成形問題適用于DRL框架,以下列出了本文建立POMDP的基本要素。
狀態(tài):根據(jù)建立的系統(tǒng)模型,t時刻的狀態(tài)包括環(huán)境中所有智能體、接收器和竊聽者的狀態(tài),s(t)={zt,[AKz·D4]t,φt,ztr,SNRtrec,zte,SNRteav},其中zt={zt1,…,ztm}表示環(huán)境中智能體的位置,[AKz·D4]t={[AKz·D4]ti,…,[AKz·D4]tm}表示智能體的速度,φt={φt1,…,φtm}表示傳感器信號的相位偏移角度。
動作:智能體的行為包括改變移動速度和調(diào)整傳感器信號的相位偏移,即ai(t)={au,aφ}。
觀測:智能體i在t時刻的觀測包括智能體本身的狀態(tài)、周圍智能體的狀態(tài)以及接收器和竊聽者的相對位置信息,即oi(t)={zti,[AKz·D4]ti,φti,z〖DD(-1*2〗[HT5]^〖DD)〗t,z〖DD(-1*2〗[HT5]^〖DD)〗tr,z〖DD(-1*2〗[HT5]^〖DD)〗te,φ〖DD(-1*2〗[HT5]^〖DD)〗t}。
獎勵:由于優(yōu)化目標(biāo)是保證接收器的信號強度大于設(shè)定的閾值,[JP2]同時盡量降低竊聽者接收的信號強度,因此設(shè)置獎勵函數(shù)Ri(t)=Rrange(t)+Rρ(t)+RSNR(t),其中Rrange(t)=[JP]rrange(t)*wrange為智能體的移動范圍限制獎勵,Rρ(t)=rρ(t)*wρ[JP2]表示智能體之間的距離限制獎勵,RSNR(t)=rrec(t)*wrec+reav(t)*[JP]weav表示傳輸信號質(zhì)量獎勵,具體描述如下。
智能體移動范圍限制:智能體超出限定范圍則獲得相應(yīng)懲罰,否則為0。
rrange(t)=[JB({]-1,‖zi‖>D
0,‖zi‖≤D〖JB)〗[JZ)][JY](5)
智能體之間的距離限制:任何兩個智能體之間的距離ρij=‖zi-zj‖應(yīng)始終大于1/4的傳輸信號波長。
rρ(t)=[JB({]-1,ρij>λ/4
0,ρij≤λ/4〖JB)〗[JZ)][JY](6)
傳輸信號質(zhì)量獎勵:接收器的信噪比必須大于設(shè)定的閾值,由于優(yōu)化目標(biāo)是盡量降低竊聽者接收到的信號質(zhì)量,所以將竊聽者接收到的傳感器信號的信噪比直接作為負(fù)獎勵項。
rrec(t)=[JB({]-1,SNRrec(z,φ)<X
0,SNRrec(z,φ)≥X〖JB)〗[JZ)][JY](7)
reav(t)=-SNReav(z,φ)[JZ)][JY](8)
3.3基于PPO的算法框架
近端策略優(yōu)化(PPO)是一種常用的強化學(xué)習(xí)算法,旨在優(yōu)化智能體的策略,使其在與環(huán)境的交互過程中獲得最大的累計獎勵。該算法通過在每次更新模型參數(shù)時限制新策略與舊策略之間的差異,防止網(wǎng)絡(luò)更新引起劇烈策略變化,該算法引入了一個截斷的代理目標(biāo)函數(shù),并將其作為優(yōu)化目標(biāo)。目標(biāo)函數(shù)的具體形式如下:
多智能體強化學(xué)習(xí)可以為只具備局部觀測的多智能體系統(tǒng)提供分布式的決策,通過引入一個全局的價值函數(shù),將POMDP轉(zhuǎn)化為完全可觀測的馬爾可夫決策過程(MDP)。本文采用集中式訓(xùn)練分布式執(zhí)行的框架,分為集中式訓(xùn)練階段和分布式執(zhí)行階段。
在集中式訓(xùn)練階段,Critic網(wǎng)絡(luò)基于全局狀態(tài)信息計算行為價值函數(shù)Q(s,a1,…,am|φ),評估智能體的行為,通過最小化損失函數(shù)更新參數(shù)。
Actor網(wǎng)絡(luò)根據(jù)智能體的局部觀測輸出智能體的行為,同時根據(jù)Critic網(wǎng)絡(luò)計算的行為價值函數(shù),沿梯度方向更新網(wǎng)絡(luò)參數(shù)θ。
在分布式執(zhí)行階段,不使用Critic網(wǎng)絡(luò)進(jìn)行評估,每個智能體獨立執(zhí)行一個Actor網(wǎng)絡(luò),根據(jù)自身的局部觀測進(jìn)行決策。
算法的訓(xùn)練過程包括兩個步驟:在經(jīng)驗收集階段,所有智能體使用同一個策略網(wǎng)絡(luò)產(chǎn)生的行為與環(huán)境交互,并記錄采樣軌跡,然后計算優(yōu)勢函數(shù)和狀態(tài)價值函數(shù);在策略優(yōu)化階段,在經(jīng)驗緩存區(qū)中隨機采樣小批量數(shù)據(jù),對策略網(wǎng)絡(luò)和狀態(tài)價值網(wǎng)絡(luò)進(jìn)行更新。
4.1實驗設(shè)置
本文基于多智能體粒子世界環(huán)境(MPE)構(gòu)建了一個新的交互場景,用于模擬多智能體的行為及聯(lián)合波束成形過程。如圖2所示,假設(shè)環(huán)境中存在一個笛卡兒坐標(biāo)系,智能體初始時隨機分布在坐標(biāo)系原點周圍,并被限制在一個給定半徑(D=0.8)范圍內(nèi)進(jìn)行移動,同時隨機設(shè)定每個智能體傳感器信號的初始相位偏移φi∈[0,2π];接收器位于Y軸的正方向,位置坐標(biāo)為[0,3];竊聽者在初始時刻處于智能體附近的一個隨機位置,并在環(huán)境中不斷移動,限制竊聽者移動的角度范圍為[0,π/4]∪[3π/4,2π]。
使用獎勵函數(shù)限制智能體的行為,包括智能體的移動范圍限制及智能體之間的距離限制;設(shè)置移動范圍限制獎勵權(quán)重wrange=30;為完成系統(tǒng)目標(biāo),設(shè)置接收器信號質(zhì)量獎勵權(quán)重wrec=20,竊聽者信號質(zhì)量獎勵權(quán)重weav=5;此外,為了避免智能體之間發(fā)生碰撞以及減少傳感器信號的相互干擾,設(shè)置距離限制獎勵權(quán)重wρ=1。在仿真環(huán)境中,為了簡化計算,研究人員忽略因時鐘同步誤差而產(chǎn)生的相位偏移,設(shè)定v2A2=1,信噪比閾值X=5dB,SNRrec(z,φ)需要大于此閾值,以保證可靠通信。
為了驗證本文所提出方法的穩(wěn)定性,針對該仿真環(huán)境,分別在智能體數(shù)量增加和竊聽者數(shù)量增加的情況下,創(chuàng)建了6種不同的仿真場景,智能體數(shù)量m為3,4,5,分別對應(yīng)單個或兩個竊聽者,如圖3所示,a3e1表示3個智能體和1個竊聽者的場景。
從圖4中各場景下的獎勵曲線可以看出,算法在不同場景下均能達(dá)到收斂。在智能體數(shù)量增加的情況下,由于每個智能體發(fā)出的傳感器信號幅值相同,導(dǎo)致竊聽者也可以接收到相對更強的傳感器信號;當(dāng)竊聽者數(shù)量增加時,SNReav為環(huán)境中所有竊聽者接收到的傳感器信號的疊加,因此最終達(dá)到收斂時,系統(tǒng)獲得的獎勵均有所降低。從圖4中可以看出,竊聽者數(shù)量對于最終收斂獎勵的影響更大。
本文在各場景下模擬了智能體與環(huán)境的交互過程,并進(jìn)行可視化展示,包括智能體的狀態(tài)及行為決策和竊聽者的行為等,為了能直觀地表示當(dāng)前的通信狀態(tài),可視化模擬了環(huán)境中各個位置接收到傳感器信號的信噪比變化。各場景下的波束成形結(jié)果如圖5所示。
當(dāng)環(huán)境中只有一個竊聽者時,增加智能體的數(shù)量不會影響最終的波束成形結(jié)果,通過調(diào)整智能體行為均能實現(xiàn)防竊聽通信;當(dāng)竊聽者數(shù)量增加時,盡管每個智能體發(fā)出的傳感器信號幅值不變,這會在一定程度上增強接收器處收到的信號,但同時也增大了信息被竊聽的風(fēng)險。為了解決此問題,可以通過調(diào)整傳感器信號的強度避免通信被竊聽。
5結(jié)論(Conclusion)
本文研究了一種防竊聽的多智能體波束成形方法。該方法通過結(jié)合了多智能體的移動決策和傳感器信號的相位控制,實現(xiàn)了動態(tài)的防竊聽通信。首先建立了系統(tǒng)模型,并提出系統(tǒng)通信目標(biāo)和防竊聽目標(biāo)的聯(lián)合優(yōu)化問題,其次將該問題建模為在智能體行為受限情況下的POMDP。為解決此問題,設(shè)計了一種基于PPO的多智能體深度強化學(xué)習(xí)方法,通過在交互過程中優(yōu)化智能體的行為策略,使多智能體系統(tǒng)獲得最大的累計獎勵。本文在多個場景下評估了算法的性能,并進(jìn)行可視化仿真,實驗結(jié)果驗證了本文所提出方法的有效性。
參考文獻(xiàn)(References)
[1][ZK(#]KANDRISD,NAKASC,VOMVASD,etal.Applicationsofwirelesssensornetworks:anup\|to\|datesurvey[J].Appliedsysteminnovation,2020,3(1):14.
[2]孫彬,耿偉濤.無線傳感器網(wǎng)絡(luò)節(jié)點覆蓋優(yōu)化策略研究[J].信息與電腦(理論版),2023,35(6):13\|16.
[3]周游,蘭天宇.無線通信系統(tǒng)中的智能反射面研究綜述[J].信息工程大學(xué)學(xué)報,2021,22(3):277\|282.
[4]馬曉琳,袁全盛,江源,等.面向無人機通信安全的波束成形策略研究[J].現(xiàn)代電子技術(shù),2023,46(19):13\|19.
[5]TANYJ,ZHUC,TANTC,etal.Self\|adaptivedeepreinforcementlearningforTHzbeamformingwithsiliconmetasurfacesin6Gcommunications[J].Opticsexpress,2022,30(15):27763\|27779.
[6]MJPpzVNHzbwxRnuVzye+FqB2Ld7VgAJGoogoM5TuZ57A=ISMARFB,EVANSBL,ALKHATEEBA.Deepreinforcement learningfor5Gnetworks:jointbeamforming,powercontrol,andinterferencecoordination[J].IEEEtransactionsoncommunications,2020,68(3):1581\|1592.
[7]YUH,KIMT,JAFARKHANIH.Wirelesssecurecommunicationwithbeamformingandjammingintime\|varyingwiretapchannels[J].IEEEtransactionsoninformationforensicsandsecurity,2018,13(8):2087\|2100.
[8]YANGHL,XIONGZH,ZHAOJ,etal.Deepreinforcementlearning\|basedintelligentreflectingsurfaceforsecurewirelesscommunications[J].IEEEtransactionsonwirelesscommunications,2021,20(1):375\|388.
[9]XIAOL,SHENGGY,LIUSC,etal.Deepreinforcementlearning\|enabledsecurevisiblelightcommunicationagainsteavesdropping[J].IEEEtransactionsoncommunications,2019,67(10):6994\|7005.