国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DRL的主動RIS安全無線通信優(yōu)化方法

2023-10-18 23:14:21劉文濤ManzoorAhmed林青
計算機應用研究 2023年9期

劉文濤 Manzoor Ahmed 林青

摘 要:針對可重構智能表面(reconfigurable intelligent surface,RIS)輔助的安全無線通信系統(tǒng)在保密率優(yōu)化問題中存在的信道空間連續(xù)變化、傳統(tǒng)數(shù)學優(yōu)化方法難以逼近最優(yōu)解等問題,提出一種基于深度強化學習的SEC-DDPG(security deep deterministic policy gradient)算法。通過將RIS通信系統(tǒng)建模為連續(xù)變化空間中的馬爾可夫決策過程,聯(lián)合優(yōu)化傳輸波束賦形和反射波束賦形達到最大化用戶保密率的目的。仿真實驗結果顯示,在不同的傳輸功率及反射單元數(shù)量下,SEC-DDPG算法在主動和被動RIS系統(tǒng)中得到的最優(yōu)保密率均比傳統(tǒng)的交替優(yōu)化算法有15%~20%的提升。研究結果表明,主動RIS場景下的安全性要優(yōu)于被動RIS,與交替優(yōu)化算法相比,SEC-DDPG算法能顯著提高安全無線通信系統(tǒng)的用戶保密率且具有魯棒性,接近系統(tǒng)的最佳保密性能。

關鍵詞:主動可重構智能表面;深度強化學習;深度確定性策略梯度;波束賦形;乘法衰落;多輸入單輸出;物理層安全

中圖分類號:TN926?? 文獻標志碼:A

文章編號:1001-3695(2023)09-039-2808-07

doi:10.19734/j.issn.1001-3695.2023.01.0026

Optimization for active reconfigurable intelligent surface-assisted secure wireless communication based on deep reinforcement learning

Liu Wentao,Manzoor Ahmed,Lin Qing

(College of Computer Science & Technology,Qingdao University,Qingdao Shandong 266071,China)

Abstract:For reconfigurable intelligent surface(RIS)-assisted secure wireless communication systems in the secrecy rate optimization problem,there are problems such as continuous variation of channel space and difficulty in approximating the optimal solution by traditional mathematical optimization methods.This paper proposed a SEC-DDPG(security deep deterministic policy gradient) algorithm based on deep reinforcement learning.By modeling the RIS communication system as a Markovian decision process in a continuously variable space,this algorithm jointly optimized the transmission beamforming and reflection beamfor-ming to maximize the user secrecy rate.The simulation experimental results show that the SEC-DDPG algorithm obtains the optimal secrecy rate in both active and passive RIS systems with 15%~20% improvement over the conventional alternating optimization algorithm for different transmission power and the number of reflective elements.The study results show that the secu-rity in the active RIS scenario is better than that in the passive RIS,and the SEC-DDPG algorithm can significantly improve the user secrecy rate of the secure wireless communication system with robustness and close to the optimal secrecy performance of the system compared with the alternating optimization algorithm.

Key words:active reconfigurable intelligent surface;deep reinforcement learning;deep deterministic policy gradient;beamforming;multiplicative fading;multi input single output;physical layer security

0 引言

隨著5G時代的到來,移動端設備的性能不斷提升,極大地增大了發(fā)射基站的傳輸負載,如何大幅提高信道容量成為亟待解決的問題。傳統(tǒng)無線通信理論中認為無線環(huán)境是不可控的,通過優(yōu)化信號的傳輸方式帶來的性能提升已經(jīng)很有限,然而智能環(huán)境可以通過控制信道中的設備實現(xiàn)信道的重構,進而實現(xiàn)傳輸性能的大幅提升[1]。其中可重構智能表面(RIS)因其低功耗、易部署、環(huán)境友好、兼容性強等特點,尤其是在可重構編程和提高光譜利用率方面的優(yōu)異表現(xiàn),相對于傳統(tǒng)無線通信中采用的復雜射頻鏈組件具有革命性的優(yōu)勢,成為最有前景的信道增強技術之一[2~4]。

RIS是一種新的無線傳輸技術,具體來說,是一種可以實現(xiàn)無線環(huán)境重復編程的輔助設備,外形上可以理解為一種廉價的智能薄復合材料板,類似于壁紙,可以覆蓋墻壁、天花板等建筑物表面[1,5]。RIS中的每個反射單元都能獨立地實現(xiàn)輸入信號的實時引導,通過調整反射單元的相移可以重新配置所需方向的信號功率,主動改變入射信號來實現(xiàn)控制無線通信環(huán)境的目的[6]。根據(jù)其能量消耗,RIS可分為主動RIS和被動RIS,RIS的主動或被動性質決定了其最終性能。值得一提的是,由于其固有的可配置屬性,RIS不可能是完全被動的[4]。

傳統(tǒng)的反射面板配備的只是固定的移相器,盡管在雷達系統(tǒng)、遙感和衛(wèi)星通信中有廣泛應用,但是不能滿足用戶隨機移動產(chǎn)生的動態(tài)無線信道,所以很少用于移動無線通信。RIS通過調整所有反射單元的相移,同時提高合法用戶的接收信號功率并減輕竊聽者的干擾功率,可以抑制干擾以及提高通信安全性。受到該結果的啟發(fā),一些研究人員開始深入探索利用RIS增強和優(yōu)化無線通信系統(tǒng)物理層安全(physical layer security,PLS)的問題[4]。RIS增強的PLS主要通過用戶保密率來評價系統(tǒng)的保密性能,一般通過控制信號傳輸方式或者重構信道來優(yōu)化用戶保密率問題。其中的一個關鍵問題是,傳輸和反射波束賦形的聯(lián)合設計需要基站到竊聽者、RIS到竊聽者兩條鏈路的信道狀態(tài)信息(channel state information,CSI),這是相當具有挑戰(zhàn)性的工作。RIS的工作模式幾乎是被動的,主動RIS也只有很少部分功率用于信號傳輸,而且在通信環(huán)境中,竊聽者自身也會通過保持靜默來隱藏自己的位置,這些因素導致系統(tǒng)只能探測到空氣中的信號,難以完整獲取竊聽者的CSI。因此,在無法完整獲取竊聽者CSI的條件下聯(lián)合設計傳輸和反射波束賦形是優(yōu)化用戶保密率的關鍵。

文獻[7~9]研究了多輸入單輸出(multi-input single-output,MISO)系統(tǒng)的PLS問題,借助交替優(yōu)化(alternating optimization,AO)算法將目標優(yōu)化問題拆分成多個子問題,通過迭代優(yōu)化獲得用戶保密率。文獻[10]研究了多用戶MISO的PLS通信系統(tǒng),同時考慮了傳輸波束賦形、人工噪聲以及RIS反射波束賦形三種因素的影響,以最大化加權和保密率;文獻[11]介紹了一種基于RIS的PLS通信框架,討論了系統(tǒng)中的一些環(huán)境變量造成的影響。這些方法都是通過分析優(yōu)化問題的閉式表達式來逼近最優(yōu)解的數(shù)學優(yōu)化方法,其優(yōu)化性能過于依賴公式的人工設計和推導,一般難以應對更復雜的實際通信場景。

深度強化學習(deep reinforcement learning,DRL)的蓬勃發(fā)展,為RIS的PLS優(yōu)化問題提供了新的解決方式[12~15]。文獻[16]提出了一種DRL框架,通過理想化信道狀態(tài)信息簡化信道系數(shù),用DRL算法優(yōu)化用戶傳輸速率,避免了信道建模的復雜過程;文獻[17]研究了一種存在多個竊聽者多個合法用戶的PLS通信系統(tǒng),提出一種基于延時信道的深度Q網(wǎng)絡(deep Q-network,DQN)算法,通過將動作空間分割成離散變量來簡化智能體與環(huán)境的交互過程;文獻[18]在文獻[17]的基礎上研究了一個能抵抗智能惡意干擾、具備高抗干擾通信性能的多用戶MISO安全通信系統(tǒng)。這些DRL方法都是通過簡化環(huán)境建模來實現(xiàn)智能體的交互,沒有考慮實際環(huán)境中信道系數(shù)的變化是一個連續(xù)的過程。

上述研究都是基于傳統(tǒng)的被動RIS,通常RIS僅作為反射器。隨著RIS在無線通信中的研究活動不斷開展,被動RIS輔助的通信系統(tǒng)中乘法衰落現(xiàn)象的弊端逐步顯現(xiàn)[19,20]。相對于直接鏈路的信號強度,基站到RIS、RIS到合法用戶的雙路徑相乘造成的路徑損失通常是基站到合法用戶直接鏈路的數(shù)千倍[19],反射鏈路帶來的信道增益幾乎可以忽略不計??紤]到RIS的增益受限于面積和反射單元個數(shù),這就意味著要給整個系統(tǒng)模型帶來有效的信道增益,需要大體積的RIS面板或者大規(guī)模的反射單元矩陣,這就無法體現(xiàn)RIS小巧、輕便、容易部署的優(yōu)點。為了彌補被動RIS的上述缺點,文獻[19~22]研究了一種主動RIS,通過在RIS配置主動負載來克服乘法衰落帶來的路徑損失。實驗結果也證明了主動RIS比被動RIS有更高的傳輸速率,相同的功率預算下,具有更好的信道傳輸性能,不過研究方法仍舊是采用傳統(tǒng)的數(shù)學優(yōu)化算法。

在實際通信環(huán)境中,信道系數(shù)是隨著時間變化的連續(xù)函數(shù),RIS中的反射相移也是一個連續(xù)的區(qū)間[23]。特別是在大規(guī)模RIS通信網(wǎng)絡中,信道系數(shù)和反射相移都是連續(xù)變化的空間,傳統(tǒng)的優(yōu)化方法一般會采取對連續(xù)變量進行離散化處理的方式來控制優(yōu)化計算的時間和空間復雜度[24],但是這樣做會損失一些潛在的最優(yōu)解選擇,使得大規(guī)模RIS通信網(wǎng)絡的安全性能難以達到較高的優(yōu)化水平。為了解決這一問題,本文受到DRL中深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法的啟發(fā),提出一種RIS波束賦形控制算法SEC-DDPG,將信道系數(shù)和反射相移建模為連續(xù)的狀態(tài)空間和動作空間,并基于DDPG算法的框架來有效求解連續(xù)狀態(tài)空間和動作空間中最優(yōu)解搜索問題,從而使得主動RIS無線通信系統(tǒng)的保密率優(yōu)化達到更高水平。

SEC-DDPG算法的主要特點有:a)信道建模采用主動RIS,克服乘法衰落造成的信道損失,考慮了在物理層提高合法用戶保密率;b)在信道建模中考慮了主動RIS負載產(chǎn)生的熱噪聲,使得主動RIS的信道模型更為準確;c)設計并實現(xiàn)了時間連續(xù)的智能體交互環(huán)境,使得在時隙連續(xù)變化的信道中,能夠隨著通信環(huán)境信道參數(shù)的動態(tài)變化聯(lián)合優(yōu)化傳輸波束賦形和反射波束賦形。實驗結果表明,SEC-DDPG算法在主動RIS場景下能實現(xiàn)更好的保密性能,也證明了DDPG算法比傳統(tǒng)數(shù)學優(yōu)化方法中的AO算法具有更高的應用價值。

1 主動RIS安全無線通信問題

1.1 RIS無線通信系統(tǒng)模型

本文中用戶保密率優(yōu)化問題的無線通信系統(tǒng)模型如圖1所示,系統(tǒng)由多天線發(fā)射基站、主動RIS反射面板、合法用戶和竊聽者四部分組成。RIS面板位于基站與用戶之間,用來增強無線通信的信號,基站服務于周圍用戶,基站與合法用戶之間隱藏著隨機分布的竊聽者企圖竊聽數(shù)據(jù)。假設竊聽者只是合法用戶不信任的其他用戶,竊聽者的信道是可知的。整個系統(tǒng)的控制器部署在主動RIS上面,通過控制基站發(fā)射功率的傳輸調節(jié)反射單元的反射相移,研究在竊聽者的干擾下能否實現(xiàn)合法用戶的安全傳輸[21]。

4 實驗結果與分析

4.1 實驗系統(tǒng)環(huán)境與參數(shù)

實驗環(huán)境中,用戶、基站、RIS的位置如圖4所示,假設基站天線數(shù)M=4,RIS反射單元個數(shù)N=16,基站和RIS的功率Pmax=10 dBm、PI=10 dBm。大規(guī)模信道衰落的計算公式為PL=PL0-10ε log10(d/d0) dB,其中PL0=-30 dB是參考距離d0=1 m處的路徑損失,ε表示路徑損失指數(shù),d表示發(fā)射端到接收端之間的距離。考慮到RIS能直接溝通基站與用戶、用戶與竊聽者的反射鏈路中采用萊斯分布來仿真小規(guī)模信道衰落,直接鏈路則服從瑞利分布。RIS主動負載產(chǎn)生的熱噪聲為σ2I=90 dB,信道環(huán)境產(chǎn)生的高斯噪聲為σ2u=σ2e=90 dB。為了方便計算,本文采用隨機變量來初始化動作w和Ψ,所有反射單元的振幅放大系數(shù)值相等,ηn=η,n∈N。其他參數(shù)的設置如表1所示。

4.2 實驗結果分析

圖5展示了SEC-DDPG算法在訓練過程中的收斂性能。為了更好地理解本文算法,討論了基站傳輸功率Pmax=20 dBm情況下獎勵(短期獎勵和平均獎勵)與時間步長的關系。其中,振幅放大系數(shù)為η2=10 dB,主動RIS的最大反射功率為PI=10 dBm,反射單元個數(shù)N=16,獎勵函數(shù)表示用戶的保密率。由圖5可以看出,獎勵隨著時間步長step的增加而上升,前2 000 step時獎勵值在0~8振蕩,隨著訓練步數(shù)的增加,短期獎勵逐步收斂,大約6 000 step就能收斂到一個相對穩(wěn)定的獎勵值,最終穩(wěn)定在10.5左右。結果表明,本文算法能高效地探索環(huán)境、累計獎勵,獲得一個滿意的解決方案。

圖6、7展示了AO和SEC-DDPG算法在主動RIS或被動RIS參與的場景中,對比兩種信道模型下的性能差異。文獻[7,20]采用AO算法,通過推導閉式表達式的方式分別研究了被動RIS和主動RIS場景下的用戶保密率優(yōu)化問題,用AO-pass和AO-active表示。本文分別設計了被動RIS和主動RIS兩種仿真環(huán)境,用SEC-DDPG算法優(yōu)化用戶保密率,分別用SEC-pass和SEC-active表示。

圖6展示了四種算法下用戶保密率在不同功率下的變化。其中,反射單元個數(shù)N=16,RIS面板的反射功率PI=10 dBm,振幅放大系數(shù)η2=20 dB??梢钥闯觯啾扔诒粍覴IS,主動RIS場景中的兩種算法都能大幅提升用戶的保密率,本文提出的SEC-DDPG算法提升幅度略高于AO算法。SEC-DDPG算法得到的用戶保密率比AO算法高20%左右,這是因為SEC-DDPG通過與環(huán)境交互的方式累積最大獎勵,能隨機探索所有動作,獲得一個傳輸波束賦形和反射波束賦形的最優(yōu)值,既可以有效抑制竊聽者的監(jiān)聽,又能保證用戶數(shù)據(jù)的傳輸,接近系統(tǒng)的最優(yōu)性能;而AO算法推導的閉式表達式得到的是一種次優(yōu)解,性能過度依賴于公式的設計,很難得到最優(yōu)解。

圖7展示了四種算法下用戶保密率在不同反射單元個數(shù)下的變化。其中,最大傳輸功率Pmax=20 dBm,RIS面板的反射功率PI=10 dBm,振幅放大系數(shù)η2=20 dB??梢钥闯?,主動RIS場景下的兩種方案都能獲得更高的用戶保密率,SEC-DDPG比AO算法的性能高15%左右。在被動RIS場景中,反射單元個數(shù)的增加對SEC-DDPG算法的影響略大于AO算法,這是因為反射單元數(shù)量會影響神經(jīng)網(wǎng)絡的輸入維度,反射單元個數(shù)越多,在輸入維度占的比重越大,網(wǎng)絡輸出的動作具有更多的隨機性,相比于AO算法固定的閉式表達式更接近問題最優(yōu)解。圖8和9展示了SEC-DDPG算法在主動RIS、被動RIS、無RIS三種場景下用戶保密率的變化情況。主動RIS場景下考慮了振幅放大系數(shù)為η2=10 dB、η2=20 dB和η2=30 dB三種不同的情況。

圖8表示用戶保密率與基站最大傳輸功率的變化關系??梢钥闯觯S著基站傳輸功率的增加,用戶保密率都能按預期增加。與沒有RIS的場景下得到的最優(yōu)解相比,由于乘法衰落效應的影響,被動RIS對保密率的提升程度很有限,僅有10%左右,但采用主動RIS設計的算法由于主動負載的存在,能極大地提升用戶的保密率(η2=10 dB時大約30%,η2=20 dB時大約40%,η2=30 dB時大約55%),實現(xiàn)了更好的保密性能。這是因為,主動RIS的主動負載通過增加傳輸功率、強化信號,有效地削弱了反射信道鏈路中乘法衰落效應帶來的影響。

圖9展示了用戶保密率與反射單元個數(shù)N之間的關系。可以看到,主動RIS和被動RIS場景下的用戶保密率都會隨著N的增加而變大,這是因為反射單元N的增加會提高通信系統(tǒng)整體信道的傳輸自由度,也就是說,會有更多的信道來傳輸數(shù)據(jù),所以在RIS輔助的系統(tǒng)中,保密率會隨著N的增加而增大。由于乘法衰落效應的影響,主動RIS場景下本文算法獲得的保密性能明顯大于被動RIS。被動RIS場景下,隨著數(shù)量N的增加,保密率僅提升了18%左右,小于主動RIS場景下的增幅(η2=10 dB時提升了30%左右)。被動RIS場景下的最大值與主動RIS場景下的最小值相差無幾,可以表明,與被動RIS相比,使用主動RIS可以節(jié)省更多反射元件,以實現(xiàn)更好的性能增益,從而大大降低RIS的復雜性。

5 結束語

本文研究了基于主動RIS輔助的安全無線通信系統(tǒng),提出一種基于DRL的SEC-DDPG算法,聯(lián)合優(yōu)化傳輸波束賦形和反射波束賦形以提高系統(tǒng)保密率,通過實驗分析了主動RIS對用戶保密率的影響以及算法的性能。實驗結果表明主動RIS能有效緩解乘法衰落帶來的信道損失,彌補被動RIS在直接鏈路中信道增益不足的缺陷,實現(xiàn)更大的信道增益。相對于傳統(tǒng)的AO數(shù)學優(yōu)化算法,所提的SEC-DDPG算法能更有效地提高用戶保密率,保證用戶數(shù)據(jù)傳輸?shù)陌踩浴O乱徊降墓ぷ魇欠治龆嘤脩粝翸ISO安全無線通信,將算法推廣到多用戶的場景中,泛化算法的適用性。

參考文獻:

[1]Di Renzo M,Zappone A,Debbah M,et al.Smart radio environments empowered by reconfigurable intelligent surfaces:how it works,state of research,and the road ahead[J].IEEE Journal on Selected Areas in Communications,2020,38(11):2450-2525.

[2]Pan Cunhua,Ren Hong,Wang Kezhi,et al.Reconfigurable intelligent surfaces for 6G systems:principles,applications,and research directions[J].IEEE Communications Magazine,2021,59(6):14-20.

[3]Dai Linglong,Wang Bichai,Wang Min,et al.Reconfigurable intelligent surface-based wireless communications:antenna design,prototyping,and experimental results[J].IEEE Access,2020,8:45913-45923.

[4]Liu Yuanwei,Liu Xiao,Mu Xidong,et al.Reconfigurable intelligent surfaces:principles and opportunities[J].IEEE Communications Surveys & Tutorials,2021,23(3):1546-1577.

[5]Wu Qingqing,Zhang Shuowen,Zheng Beixiong,et al.Intelligent reflecting surface-aided wireless communications:a tutorial[J].IEEE Trans on Communications,2021,69(5):3313-3351.

[6]Di Renzo M,Debbah M,Phan-Huy D T,et al.Smart radio environments empowered by reconfigurable AI meta-surfaces:an idea whose time has come[J].EURASIP Journal on Wireless Communications and Networking,2019,2019(5):article No.129.

[7]Cui Miao,Zhang Guangchi,Zhang Rui.Secure wireless communication via intelligent reflecting surface[J].IEEE Wireless Communications Letters,2019,8(5):1410-1414.

[8]Shen Hong,Xu Wei,Gong Shulei,et al.Secrecy rate maximization for intelligent reflecting surface assisted multi-antenna communications[J].IEEE Communications Letters,2019,23(9):1488-1492.

[9]Chu Zheng,Hao Wanming,Xiao Pei,et al.Intelligent reflecting surface aided multi-antenna secure transmission[J].IEEE Wireless Communications Letters,2020,9(1):108-112.

[10]Niu Hehao,Chu Zheng,Zhou Fuhui,et al.Weighted sum secrecy rate maximization using intelligent reflecting surface[J].IEEE Trans on Communications,2021,69(9):6170-6184.

[11]Chen Jie,Liang Yingchang,Pei Yiyang,et al.Intelligent reflecting surface:a programmable wireless environment for physical layer security[J].IEEE Access,2019,7:82599-82612.

[12]孟晨陽,郝崇清,李冉,等.基于改進DDPG算法的復雜環(huán)境下AGV路徑規(guī)劃方法研究[J].計算機應用研究,2022,39(3):681-687.(Meng Chenyang,Hao Chongqing,Li Ran,et al.Research on AGV path planning method in complex environment based on improved DDPG algorithm[J].Application Research of Computers,2022,39(3):681-687.)

[13]陳清林,鄺祝芳.基于DDPG的邊緣計算任務卸載和服務緩存算法[J].計算機工程,2021,47(10):26-33.(Chen Qinglin,Kuang Zhufang.Task offloading and service caching algorithm based on DDPG in edge computing[J].Computer Engineering,2021,47(10):26-33.)

[14]劉金石,Manzoor A,林青.基于QMix的車輛云計算資源動態(tài)分配方法[J].計算機工程,2022,48(11):284-290,298.(Liu Jinshi,Manzoor A,Lin Qing.QMix-based method for dynamic resource allocation leveraging vehicular cloudlet computing[J].Computer Engineering,2022,48(11):284-290,298.)

[15]鄧暉奕,李勇振,尹奇躍.引入通信與探索的多智能體強化學習QMIX算法[J].計算機應用,2023,43(1):202-208.(Deng Huiyi,Li Yongzhen,Yin Qiyue.Improved QMIX algorithm from communication and exploration for multi-agent reinforcement learning[J].Journal of Computer Applications,2023,43(1):202-208.)

[16]Huang Chongwen,Mo Ronghong,Yuen C.Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J].IEEE Journal on Selected Areas in Communications,2020,38(8):1839-1850.

[17]Yang Helin,Xiong Zehui,Zhao Jun,et al.Deep reinforcement lear-ning-based intelligent reflecting surface for secure wireless communications[J].IEEE Trans on Wireless Communications,2021,20(1):375-388.

[18]Yang Helin,Xiong Zehui,Zhao Jun,et al.Intelligent reflecting surface assisted anti-jamming communications:a fast reinforcement learning approach[J].IEEE Trans on Wireless Communications,2021,20(3):1963-1974.

[19]Zhang Zijian,Dai Linglong,Chen Xibi,et al.Active RIS vs.passive RIS:which will prevail in 6G?[J].IEEE Trans on Communications,2023,71(3):1707-1725.

[20]Dong Limeng,Wang Huiming,Bai Jiale.Active reconfigurable intelligent surface aided secure transmission[J].IEEE Trans on Vehicular Technology,2022,71(2):2181-2186.

[21]Long Ruizhe,Liang Yingchang,Pei Yiyang,et al.Active reconfigurable intelligent surface-aided wireless communications[J].IEEE Trans on Wireless Communications,2021,20(8):4962-4975.

[22]You Changsheng,Zhang Rui.Wireless communication aided by intelligent reflecting surface:active or passive?[J].IEEE Wireless Communications Letters,2021,10(12):2659-2663.

[23]Song Yizhuo,Khandaker M R A,Tariq F,et al.Truly intelligent reflecting surface-aided secure communication using deep learning[C]//Proc of the 93rd IEEE Vehicular Technology Conference.Piscataway,NJ:IEEE Press,2021:1-6.

[24]Zhu Yu,Bo Zhu,Li Ming,et al.Deep reinforcement learning based joint active and passive beamforming design for RIS-assisted MISO systems[C]//Proc of IEEE Wireless Communications and Networking Conference.Piscataway,NJ:IEEE Press,2022:477-482.

[25]Wu Qingqing,Zhang Rui.Intelligent reflecting surface enhanced wireless network via joint active and passive beamforming[J].IEEE Trans on Wireless Communications,2019,18(11):5394-5409.

[26]Yu Xianghao,Xu Dongfang,Sun Ying,et al.Robust and secure wireless communications via intelligent reflecting surfaces[J].IEEE Journal on Selected Areas in Communications,2020,38(11):2637-2652.

[27]Watkins C,Dayan P.Q-learning[J].Machine Learning,1992,8(3):279-292.

[28]Feng Keming,Wang Qisheng,Li Xiao,et al.Deep reinforcement lear-ning based intelligent reflecting surface optimization for MISO communication systems[J].IEEE Wireless Communications Letters,2020,9(5):745-749.

收稿日期:2023-01-27;修回日期:2023-03-15? 基金項目:山東省自然科學基金資助項目(ZR2020MF060)

作者簡介:劉文濤(1996-),男,山東濰坊人,碩士,主要研究方向為安全無線通信;Manzoor Ahmed(1975-),男(通信作者),巴基斯坦人,副教授,碩導,博士(后),主要研究方向為蜂窩網(wǎng)絡安全通信(manzoor.achakzai@gmail.com);林青(1981-),男,山東泰安人,講師,博士,主要研究方向為智能交通.

喀喇沁旗| 家居| 商河县| 鄄城县| 建昌县| 资兴市| 历史| 闽清县| 志丹县| 九江县| 儋州市| 巴中市| 六枝特区| 阿拉尔市| 抚顺县| 当涂县| 呼和浩特市| 洛阳市| 石城县| 中阳县| 桐庐县| 珲春市| 黔西县| 广元市| 民权县| 军事| 横峰县| 黄骅市| 贺兰县| 安阳市| 广西| 广德县| 姚安县| 芜湖市| 马龙县| 唐海县| 龙口市| 宜宾县| 惠州市| 济宁市| 临朐县|