国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的水聲網(wǎng)絡(luò)公平跨層MAC協(xié)議

2024-09-22 00:00:00韓翔張育芝李夢(mèng)凡馮曉美
現(xiàn)代電子技術(shù) 2024年17期

摘" 要: 針對(duì)水聲通信異構(gòu)網(wǎng)絡(luò)中信道分配不公和節(jié)點(diǎn)能量受限的問(wèn)題,基于深度強(qiáng)化學(xué)習(xí)方法,提出跨層聯(lián)合優(yōu)化公平信道接入和功率控制的媒介訪問(wèn)控制(POCL?MAC)協(xié)議。根據(jù)反饋ACK包獲知時(shí)延狀態(tài)下的信道沖突結(jié)果和接收機(jī)處信噪比,基于深度強(qiáng)化學(xué)習(xí)的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)序列自主學(xué)習(xí),調(diào)整認(rèn)知用戶的接入時(shí)隙和發(fā)射功率;采用公平函數(shù)實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)中認(rèn)知用戶和主用戶吞吐量性能的比例公平。設(shè)計(jì)了一個(gè)聯(lián)合狀態(tài)序列和獨(dú)立式獎(jiǎng)勵(lì)函數(shù),在不增加神經(jīng)網(wǎng)絡(luò)復(fù)雜度的前提下,提高跨層聯(lián)合優(yōu)化的子動(dòng)作決策準(zhǔn)確度。仿真結(jié)果表明,相比于傳統(tǒng)DRL算法,所提算法實(shí)現(xiàn)了接近于最優(yōu)公平性吞吐量性能,同時(shí)具有更好的能量利用效率。

關(guān)鍵詞: 深度強(qiáng)化學(xué)習(xí); 水聲通信網(wǎng)絡(luò); MAC協(xié)議; 沖突避免; 功率優(yōu)化; 信道分配

中圖分類號(hào): TN929.3?34" " " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " "文章編號(hào): 1004?373X(2024)17?0001?09

Deep reinforcement learning based proportional?fair optimized cross?layer MAC

protocol for underwater acoustic networks

HAN Xiang, ZHANG Yuzhi, LI Mengfan, FENG Xiaomei

(College of Communication and Information Engineering, Xi’an University of Science and Technology, Xi’an 710054, China)

Abstract: In view of the unfair channel allocation and energy?constrained nodes in underwater acoustic communication heterogeneous networks, a proportional?fair optimized cross?layer medium access control (POCL?MAC) protocol is proposed based on deep reinforcement learning (DRL). It strives to optimize fair channel access and power control by cross?layer joint. By feedback ACK packets, the channel conflict outcomes and receiver?side signal?to?noise ratio (SNR) under delay status are obtained. Autonomous learning is carried out based on the state, action and reward sequence of DRL to adjust the access slot and transmission power of cognitive users. Fairness function is employed to achieve proportional fairness between cognitive users and primary users′ throughput performance in heterogeneous networks. A joint state sequence and independent reward function are designed to enhance the accuracy of sub?action decisions in cross?layer joint optimization without increasing neural network complexity. Simulation results demonstrate that the proposed algorithm can achieve near?optimal fairness throughput performance while exhibiting better energy utilization efficiency in comparison with the traditional DRL?based algorithms.

Keywords: DRL; underwater acoustic communication network; MAC protocol; conflict avoidance; power optimization; channel allocation

0" 引" 言

海洋監(jiān)測(cè)、水下探索等領(lǐng)域中,水聲傳感器網(wǎng)絡(luò)[1](Underwater Acoustic Sensor Networks, UWANs)發(fā)揮了重要作用。UWANs依賴水聲信道,其特性包括傳輸延遲長(zhǎng)、帶寬資源稀缺、多徑和多普勒效應(yīng)、能量限制等[2]。這些獨(dú)有特性要求重新設(shè)計(jì)媒介訪問(wèn)控制(Media Access Control, MAC)協(xié)議,以適應(yīng)水下環(huán)境。水下MAC協(xié)議的設(shè)計(jì)必須考慮時(shí)空不確定性[3]導(dǎo)致的接收端沖突。水聲環(huán)境中能量受限,設(shè)計(jì)MAC協(xié)議必須減少無(wú)效的重傳成本。這要求信道資源合理分配單次的傳輸能耗。

早期研究致力于緩解UWANs中長(zhǎng)時(shí)延帶來(lái)的碰撞問(wèn)題[4?6]。這些研究減少了數(shù)據(jù)包沖突,但沒(méi)有在長(zhǎng)時(shí)延條件下提高吞吐量。為了充分利用信道資源,提出一些自適應(yīng)算法,如:信道感知ALOHA協(xié)議[7]、DOTS協(xié)議[8]等。這些算法通常基于特定模型,并需要完整的網(wǎng)絡(luò)先驗(yàn)信息,實(shí)現(xiàn)在特定場(chǎng)景下的最優(yōu)決策。但是由于水聲網(wǎng)絡(luò)具有復(fù)雜的時(shí)空特性,這些網(wǎng)絡(luò)先驗(yàn)信息是動(dòng)態(tài)變化的,很難實(shí)時(shí)獲取。此外,水聲通信網(wǎng)絡(luò)中的能量效率問(wèn)題也一直是關(guān)注的重點(diǎn)。經(jīng)典的能耗解決方案是設(shè)計(jì)睡眠/喚醒機(jī)制[9]以及使用最大功率的控制包[10]。由于水聲信道的快速時(shí)變性,基于時(shí)不變模型的功率控制方法容易受到干擾或者消耗大量能量。自適應(yīng)傳輸功率控制方法是根據(jù)傳輸距離和噪聲干擾等自動(dòng)調(diào)整傳輸功率[11?13],以降低網(wǎng)絡(luò)中的整體能耗。這些數(shù)據(jù)鏈路層的協(xié)議,通過(guò)調(diào)整傳輸功率,縮小傳輸范圍,減少?zèng)_突情況。這些分層協(xié)議設(shè)計(jì)沒(méi)有考慮實(shí)際路徑損耗,在強(qiáng)時(shí)變水聲信道下,對(duì)于能量利用效率的提升比較有限。

近年來(lái)深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)技術(shù)已被應(yīng)用于MAC協(xié)議設(shè)計(jì)中[14]。DRL結(jié)合了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的多維感知能力和強(qiáng)化學(xué)習(xí)的自主決策能力。在地面無(wú)線網(wǎng)絡(luò)中,基于DRL的DeepMAC框架[15]將協(xié)議解耦為一組參數(shù)模塊,用作DRL輸入并以模塊化方式分析學(xué)習(xí)?;贒RL的DLMA協(xié)議[16]用于解決異構(gòu)網(wǎng)絡(luò)中的信道公平性沖突避免問(wèn)題,用戶在每個(gè)時(shí)隙選擇是否傳輸,根據(jù)傳輸結(jié)果獲得獎(jiǎng)勵(lì)?;贒RL的Dueling?DDQN算法被提出[17],以便在快速變化的無(wú)線通信網(wǎng)絡(luò)中最大限度地提高系統(tǒng)吞吐量。由于水聲信道長(zhǎng)時(shí)延等特性,這些基于地面無(wú)線網(wǎng)絡(luò)的DRL方法協(xié)議不再適用于水聲信道。

水聲通信網(wǎng)絡(luò)中,DR?DLMA協(xié)議[18]將長(zhǎng)時(shí)延納入DRL框架中以適應(yīng)水聲信道。DL?MAC協(xié)議[19]學(xué)習(xí)并利用長(zhǎng)時(shí)延特性,通過(guò)同步或異步傳輸模式提高系統(tǒng)吞吐量。但是這些協(xié)議沒(méi)有考慮水聲信道的時(shí)變衰減特性,忽視了能量效率問(wèn)題。文獻(xiàn)[20]通過(guò)DRL根據(jù)反饋鏈路的信道狀態(tài)預(yù)測(cè)前饋信道,聯(lián)合調(diào)度發(fā)射功率、調(diào)制順序和編碼速率,在物理層優(yōu)化能效。文獻(xiàn)[21]明確指出,跨層設(shè)計(jì)有益于協(xié)同調(diào)度資源以提高用戶能量效率。文獻(xiàn)[22]提出了集群UWANs的聯(lián)合時(shí)隙調(diào)度和功率分配的跨層協(xié)議,但其目標(biāo)在于實(shí)現(xiàn)最佳吞吐量性能而非能量利用效率,同時(shí)代價(jià)是復(fù)雜度高。上述文獻(xiàn)均未考慮從物理層和數(shù)據(jù)鏈路層跨層聯(lián)合優(yōu)化來(lái)提高節(jié)點(diǎn)能量效率。

為解決水聲異構(gòu)網(wǎng)絡(luò)中公平信道接入和功率控制聯(lián)合優(yōu)化問(wèn)題,本文提出了基于深度強(qiáng)化學(xué)習(xí)的公平優(yōu)化跨層動(dòng)作媒介訪問(wèn)控制(POCL?MAC)協(xié)議。應(yīng)用聯(lián)合狀態(tài)和獨(dú)立獎(jiǎng)勵(lì)的設(shè)計(jì)有助于節(jié)點(diǎn)準(zhǔn)確判斷系統(tǒng)狀態(tài),提高兩種子動(dòng)作決策效率,實(shí)現(xiàn)強(qiáng)時(shí)變性環(huán)境下的穩(wěn)定決策。最后,通過(guò)仿真實(shí)驗(yàn)對(duì)本文所提方法的公平性吞吐量和能量效率的收斂性能和穩(wěn)定性能進(jìn)行了驗(yàn)證。

1" 水下無(wú)線通信網(wǎng)絡(luò)系統(tǒng)模型

1.1" 水聲異構(gòu)網(wǎng)絡(luò)模型

本文考慮一個(gè)數(shù)據(jù)收集UWANs異構(gòu)網(wǎng)絡(luò)模型,包括[N]個(gè)傳感器節(jié)點(diǎn),如圖1所示。設(shè)UWANs模型中包括TDMA協(xié)議節(jié)點(diǎn)、ALOHA協(xié)議節(jié)點(diǎn)和POCL?MAC協(xié)議智能節(jié)點(diǎn)。異構(gòu)網(wǎng)絡(luò)涵蓋了多種協(xié)議,不失一般性,本文考慮基于固定分配的TDMA協(xié)議和隨機(jī)接入的ALOHA協(xié)議,并將其作為主用戶。POCL?MAC協(xié)議智能節(jié)點(diǎn)則視作認(rèn)知用戶,自主選擇空閑時(shí)隙接入信道。這[N]個(gè)節(jié)點(diǎn)以時(shí)隙方式,通過(guò)一個(gè)共享的水聲上行鏈路將數(shù)據(jù)包傳輸?shù)侥康母?biāo),即接收端(Access Point, AP)。AP在一個(gè)時(shí)隙只能成功接收一個(gè)數(shù)據(jù)包,若接收到多個(gè)數(shù)據(jù)包則產(chǎn)生信道沖突。

POCL?MAC協(xié)議中,智能節(jié)點(diǎn)首先隨機(jī)決定在當(dāng)前時(shí)隙是否傳輸數(shù)據(jù)包。若傳輸,智能節(jié)點(diǎn)再隨機(jī)選擇傳輸功率。無(wú)論智能節(jié)點(diǎn)是否傳輸數(shù)據(jù)包,都將接收到來(lái)自AP的ACK消息。根據(jù)ACK消息,智能節(jié)點(diǎn)獲知信道沖突狀態(tài)以及信道衰減信息。此后,智能節(jié)點(diǎn)根據(jù)已有信息決定是否傳輸數(shù)據(jù)包,并選擇相應(yīng)的傳輸功率,最終根據(jù)反饋信息學(xué)習(xí)并調(diào)整節(jié)點(diǎn)傳輸策略。

由三個(gè)節(jié)點(diǎn)組成的時(shí)隙沖突模型如圖2所示。由于節(jié)點(diǎn)間的傳輸時(shí)延差,在一個(gè)時(shí)隙內(nèi),TDMA和ALOHA節(jié)點(diǎn)發(fā)送的數(shù)據(jù)包將分別在不同的時(shí)隙內(nèi)被AP接收,在接收端不會(huì)造成沖突,在不同時(shí)隙內(nèi)發(fā)送的數(shù)據(jù)包可能會(huì)同時(shí)到達(dá)AP,導(dǎo)致接收端沖突,這與傳統(tǒng)的地面無(wú)線通信理論相悖。雖然TDMA和ALOHA這些已有節(jié)點(diǎn)的沖突無(wú)法避免,但本文所提出的協(xié)議旨在學(xué)習(xí)各節(jié)點(diǎn)發(fā)送機(jī)制在時(shí)延條件下的信道沖突結(jié)果,避免沖突,利用信道中空閑的時(shí)隙進(jìn)一步提高網(wǎng)絡(luò)吞吐量。

由于水聲信道的復(fù)雜特性,在設(shè)計(jì)MAC協(xié)議時(shí)必須要考慮到信道的影響,如時(shí)延的大小、多徑和多普勒效應(yīng)帶來(lái)的路徑損耗,以及各種噪聲對(duì)接收端的干擾等因素。

1.2" 水聲信道特性

對(duì)于一個(gè)特定的節(jié)點(diǎn)[i],[i∈{1,2,…,N}]。設(shè)節(jié)點(diǎn)[i]和AP之間的距離為[di]。因此,節(jié)點(diǎn)[i]到AP之間的傳輸延遲[Di]為:

[Di=dic-τ] (1)

式中:[c]為UWANs中的聲速;[τ]為系統(tǒng)中一個(gè)時(shí)隙的時(shí)間單位;[x]為大于[x]的最小整數(shù)。因此,[Di]的物理意義是從節(jié)點(diǎn)[i]發(fā)送數(shù)據(jù)包到AP或從AP反饋ACK包所需的時(shí)隙數(shù)。在實(shí)際應(yīng)用中,不同節(jié)點(diǎn)與AP之間的距離與傳輸延遲不同。本文協(xié)議中智能節(jié)點(diǎn)無(wú)需獲取各節(jié)點(diǎn)的傳輸時(shí)延,即可實(shí)現(xiàn)可靠的沖突避免,提高網(wǎng)絡(luò)吞吐量。

在一定信道估計(jì)和信道均衡算法的前提下,影響系統(tǒng)性能的因素主要取決于信噪比。UWANs中的信道衰減通常由信道大尺度衰落和時(shí)變的多徑衰落來(lái)描述。受風(fēng)浪、湍流等因素影響,水聲信道瞬時(shí)信道衰減會(huì)產(chǎn)生變化,從而影響瞬時(shí)接收的信噪比。在接收端平均窄帶信噪比為:

[SNRPi(d,f)=Pi*H(d, f)A(d, f)+N(f)] (2)

式中:[Pi]為信號(hào)傳輸功率;[H(d, f)]為信道增益;[A(d, f)]為傳播損失;[N(f)]為環(huán)境噪聲。接收端的BER隨著接收端SNR的增加而減小,當(dāng)接收端信噪比足夠大,使誤碼率在接收端可容忍范圍內(nèi),數(shù)據(jù)包才能被正確接收和解調(diào)。在時(shí)變信道下為了保證正確的接收與解調(diào),非自適應(yīng)系統(tǒng)通常采用較高的傳輸功率,但是能耗也隨之增加。由于水聲網(wǎng)絡(luò)系統(tǒng)中能量嚴(yán)重受限,在時(shí)變信道下必須考慮自適應(yīng)調(diào)整發(fā)送功率,以取得更優(yōu)的能量利用效率。

1.3" 目標(biāo)函數(shù)

本文提出了一種用于水聲信道基于DRL的比例公平的跨層聯(lián)合優(yōu)化MAC協(xié)議,即POCL?MAC協(xié)議。該協(xié)議實(shí)現(xiàn)的目標(biāo)是:通過(guò)跨層聯(lián)合優(yōu)化數(shù)據(jù)鏈路層,接入分配和物理層功率分配,最大化上行網(wǎng)絡(luò)能量利用效率。智能節(jié)點(diǎn)動(dòng)態(tài)學(xué)習(xí)整體網(wǎng)絡(luò)中的信道沖突結(jié)果,并在空閑時(shí)隙接入網(wǎng)絡(luò),實(shí)現(xiàn)公平吞吐量的最大化。同時(shí),在保證數(shù)據(jù)包傳遞效率的前提下,通過(guò)選擇最優(yōu)的傳輸功率來(lái)降低功率消耗,提高能量利用效率。

為了衡量系統(tǒng)沖突,定義[F(M)]為沖突避免概率函數(shù)。沖突避免概率函數(shù)與TDMA節(jié)點(diǎn)占用的時(shí)隙比例[x]、ALOHA節(jié)點(diǎn)的發(fā)送概率[q]有關(guān)。在已知[x]和[q]的情況下,各節(jié)點(diǎn)沖突避免概率即各節(jié)點(diǎn)單位吞吐量為:

[FALOHA(M)=(1-x)NaT-MTq(1-q)Na-1] (3)

[FPOCL(M)=(1-x)MT(1-q)Na] (4)

[FTDMA(M)=x(1-q)Na-1] (5)

式(3)~式(5)分別表示ALOHA節(jié)點(diǎn)、智能節(jié)點(diǎn)和TDMA節(jié)點(diǎn)的單位吞吐量。其中[Na]為ALOHA節(jié)點(diǎn)數(shù)量。智能節(jié)點(diǎn)在每[T]個(gè)時(shí)隙中,學(xué)習(xí)選擇無(wú)沖突的時(shí)隙,此時(shí)發(fā)送的時(shí)隙數(shù)為[M],達(dá)到最大化沖突避免概率,實(shí)現(xiàn)最大總吞吐量的目標(biāo)。

然而在異構(gòu)網(wǎng)絡(luò)中,智能節(jié)點(diǎn)會(huì)與其他競(jìng)爭(zhēng)型節(jié)點(diǎn)競(jìng)爭(zhēng),以最大總吞吐量作為系統(tǒng)性能指標(biāo),會(huì)占用其他競(jìng)爭(zhēng)型節(jié)點(diǎn)的時(shí)隙,造成信道資源的不公平分配。因此,本文采用基于公平的吞吐量來(lái)調(diào)整系統(tǒng)性能的度量指標(biāo)。對(duì)于一個(gè)特定的節(jié)點(diǎn)[i],其吞吐量表示為[x(i)],則其比例公平性吞吐量定義如下:

[f(i)α(x(i))=log(x(i))] (6)

因此最大比例公平性吞吐量為:

[Fα(M)=i=1Nlog(x(i))] (7)

設(shè)智能節(jié)點(diǎn)在時(shí)隙[t]發(fā)送一個(gè)功率為[Pi]的數(shù)據(jù)包,則數(shù)據(jù)包投遞率如下:

[θPi=Pr{BERPi≤δ}] (8)

式中[δ]為接收端可正確解調(diào)的最小誤碼率門(mén)限??紤]沖突避免和數(shù)據(jù)包投遞率因素,定義有效公平吞吐量為:

[Feffect(M)=θPi*Fα(M)] (9)

智能節(jié)點(diǎn)的有效公平吞吐量問(wèn)題可以表述為:[maxFeffect(M)Pi]。

在實(shí)際中,由于水聲信道的先驗(yàn)信息很難獲取,因此本文采用DRL技術(shù)來(lái)自主學(xué)習(xí),解決復(fù)雜水聲信道中MAC的設(shè)計(jì)問(wèn)題。

2" 基于DRL的跨層聯(lián)合優(yōu)化MAC協(xié)議

2.1" 系統(tǒng)設(shè)計(jì)

POCL?MAC協(xié)議中DRL的動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)的定義如下。

動(dòng)作:使用POCL?MAC協(xié)議的節(jié)點(diǎn)視為智能節(jié)點(diǎn)。在每個(gè)時(shí)隙中,智能節(jié)點(diǎn)需要決定以何種功率訪問(wèn)信道。將智能節(jié)點(diǎn)的動(dòng)作集定義為:

[A={A1, A2}] (10)

[A1={Transmit, Wait}] (11)

[A2={P1,P2,…,Pn}] (12)

在學(xué)習(xí)的初始化階段,智能節(jié)點(diǎn)將隨機(jī)選擇動(dòng)作[A1t]確定是否傳輸數(shù)據(jù)包,如果智能節(jié)點(diǎn)將發(fā)送,再選擇動(dòng)作[A2t=Pi],以功率[Pi]向AP發(fā)送數(shù)據(jù)包。經(jīng)過(guò)一個(gè)傳輸時(shí)延[D],AP在時(shí)隙[t+D]接收到數(shù)據(jù)包并反饋ACK信號(hào)給智能節(jié)點(diǎn)。智能節(jié)點(diǎn)在時(shí)隙[t+2D]中從ACK信號(hào)得到對(duì)應(yīng)的觀測(cè)值[O1t+2D]和[O2t+2D]。

[O1t+2D={Success, Collided, Failed, Busy, Idle}" " "] (13)

[O2t+2D={ESNRtACK, Vacant}] (14)

式(13)中等號(hào)右側(cè)各項(xiàng)分別表示傳輸成功、信道沖突導(dǎo)致傳輸失敗、功率不足而傳輸失敗、信道被其他節(jié)點(diǎn)占用、信道處于空閑狀態(tài)。[O2t+2D]中如果智能節(jié)點(diǎn)成功傳輸數(shù)據(jù)包,則記錄時(shí)隙[t]的信道狀態(tài)信息,否則,信道狀態(tài)信息為空。智能節(jié)點(diǎn)在時(shí)隙[t+2D]接收到ACK信號(hào)后,根據(jù)觀測(cè)值[O1t+2D]獲知時(shí)隙[t]中智能節(jié)點(diǎn)發(fā)送的數(shù)據(jù)包是否被AP成功接收,根據(jù)觀測(cè)值[O2t+2D]獲知時(shí)隙[t]的信道狀態(tài)信息。在一定的初始化階段后,智能節(jié)點(diǎn)可以根據(jù)已有的知識(shí)進(jìn)行在線學(xué)習(xí):如果[A1t=Wait],表示智能體不發(fā)送數(shù)據(jù)包,則[A2t=NULL],智能節(jié)點(diǎn)在時(shí)隙[t]無(wú)需選擇功率;如果[A1t=Transmit],則根據(jù)反饋的SNR信息,選擇一個(gè)最優(yōu)的傳輸功率[A2t=Pi]。

狀態(tài):將系統(tǒng)狀態(tài)定義為動(dòng)作和觀測(cè)值的序列耦合。在時(shí)隙[t]中,智能節(jié)點(diǎn)收到先前動(dòng)作[A1t-2D]、[A2t-2D]產(chǎn)生的觀測(cè)值[O1t]、[O2t],將對(duì)應(yīng)的[A1t-2D]、[A2t-2D]和[O1t]、[O2t]組合,構(gòu)成一組動(dòng)作?觀測(cè)對(duì):

[Zt=(A1t-2D, A2t-2D, O1t, O2t)] (15)

因?yàn)闀r(shí)變系統(tǒng)中單組動(dòng)作?觀測(cè)對(duì)無(wú)法準(zhǔn)確表征短期內(nèi)的信道狀態(tài)變化,也無(wú)法準(zhǔn)確擬合信道狀態(tài),一組動(dòng)作?觀測(cè)對(duì)的長(zhǎng)期序列可以更好地表征短期信道特征從而提高決策性能。因此,時(shí)隙[t]中智能節(jié)點(diǎn)的狀態(tài)[St]定義為:

[St=(Zt-(L-1),…,Zt)] (16)

式中[L]表示歷史狀態(tài)序列長(zhǎng)度。當(dāng)前系統(tǒng)狀態(tài)由時(shí)隙[t]及其之前共[L]個(gè)動(dòng)作?觀測(cè)對(duì)組成。[L]值越大,系統(tǒng)狀態(tài)越能夠更好地表征信道沖突和信道衰減情況,使智能節(jié)點(diǎn)更好地學(xué)習(xí)系統(tǒng)的運(yùn)行規(guī)律,做出更好的決策。

獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)的計(jì)算取決于系統(tǒng)的目標(biāo),即在單位能量下最大化有效公平吞吐量。因此獎(jiǎng)勵(lì)與AP的接收結(jié)果直接相關(guān),[R1t]和[R2t]由以下表達(dá)式給出:

[R1t=1," " "O1t=Success0," " "O1t=otherwise] (17)

[R2t=Pn-Pin," " " O1t=Success0," " " O1t=otherwise] (18)

公式(17)中[R1t]取決于智能節(jié)點(diǎn)是否發(fā)送與沖突結(jié)果,只有當(dāng)智能節(jié)點(diǎn)完成無(wú)沖突傳輸時(shí),獎(jiǎng)勵(lì)為1,否則為0。單位吞吐量可通過(guò)對(duì)一個(gè)窗口長(zhǎng)度內(nèi)所有[R1t]取平均計(jì)算得出,用于公式的公平性優(yōu)化目標(biāo)。公式(18)中[R2t]取決于智能節(jié)點(diǎn)消耗的功率。其中[i∈(1, n)],[if" "ilt;j, Pilt;Pj]。智能節(jié)點(diǎn)所選擇的功率[Pi]越大,其[R2t]越小,使得其趨于選擇較小但能夠成功傳輸?shù)墓β蕘?lái)節(jié)約能耗。智能節(jié)點(diǎn)根據(jù)單步的獎(jiǎng)勵(lì)值,決定其下一步的動(dòng)作選擇,每一步都選擇最優(yōu)的動(dòng)作,每一步均實(shí)現(xiàn)最優(yōu)的單位能量有效公平吞吐量。通過(guò)對(duì)這兩個(gè)獨(dú)立目標(biāo)的分別優(yōu)化,最終實(shí)現(xiàn)系統(tǒng)能量利用效率最大的目標(biāo)。

2.2" 聯(lián)合狀態(tài)獨(dú)立獎(jiǎng)勵(lì)算法

1) 獨(dú)立獎(jiǎng)勵(lì)優(yōu)化策略

在跨層聯(lián)合優(yōu)化DRL算法中,分別考慮了接入分配策略和功率優(yōu)化策略,優(yōu)化吞吐量獎(jiǎng)勵(lì)[R1t]和能耗獎(jiǎng)勵(lì)[R2t]。吞吐量獎(jiǎng)勵(lì)[R1t]需要獨(dú)立估值,并計(jì)算用于協(xié)調(diào)智能節(jié)點(diǎn)發(fā)送策略的公平函數(shù)。吞吐量獎(jiǎng)勵(lì)[R1t]和能耗獎(jiǎng)勵(lì)[R2t]的優(yōu)化目標(biāo)相對(duì)獨(dú)立。[R1t]的目標(biāo)是最大化時(shí)隙利用率,而[R2t]的目標(biāo)是最小化單位能耗。它們的獎(jiǎng)勵(lì)函數(shù)式(17)和式(18)是階躍函數(shù)和歸一化的離散函數(shù),獎(jiǎng)勵(lì)函數(shù)之間的相關(guān)性較弱。

在處理由兩個(gè)子動(dòng)作組成的問(wèn)題時(shí),傳統(tǒng)的DRL算法只能優(yōu)化加權(quán)獎(jiǎng)勵(lì)。加權(quán)獎(jiǎng)勵(lì)如式(19)所示:

[R′t=ηR1t+μR2t,η∈(0,1),μ=1-η] (19)

式中:[η]和[μ]分別是[R1t]和[R2t]的權(quán)重因子,權(quán)重因子確定接入分配和功率優(yōu)化的重要性?;跈?quán)重因子的策略通常會(huì)以犧牲一個(gè)目標(biāo)的利益來(lái)保護(hù)另一個(gè)目標(biāo),這會(huì)導(dǎo)致系統(tǒng)達(dá)到次優(yōu)解。

為了避免權(quán)重因子造成的決策偏頗,本文分別優(yōu)化[R1t]和[R2t]以實(shí)現(xiàn)接入分配和功率優(yōu)化的目標(biāo)。多目標(biāo)系統(tǒng)中,獨(dú)立學(xué)習(xí)可以避免偏見(jiàn)決策,更好地實(shí)現(xiàn)公平接入分配和功率優(yōu)化目標(biāo)。

2) 聯(lián)合狀態(tài)優(yōu)化策略

本文系統(tǒng)中,功率優(yōu)化子動(dòng)作依賴于物理層反饋信道狀態(tài)信息,這些信息又受數(shù)據(jù)鏈路層信道接入信息的影響。將接入分配的狀態(tài)和反饋信道狀態(tài)信息組合,聯(lián)合的狀態(tài)[St]將包括完整的歷史[L]組動(dòng)作?觀察對(duì)[Zt=(A1t-2D, A2t-2D, ][O1t, O2t)],這種跨層的聯(lián)合狀態(tài)集有助于智能節(jié)點(diǎn)獲取更全面的信息,通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)充分考慮歷史的沖突狀態(tài)和信道狀態(tài),更好地匹配狀態(tài)[St]和實(shí)際信道狀態(tài)信息,以做出更優(yōu)的決策。

因此,必須采用一種聯(lián)合狀態(tài)獨(dú)立獎(jiǎng)勵(lì)的跨層聯(lián)合優(yōu)化DRL算法,以有效學(xué)習(xí)基于歷史聯(lián)合狀態(tài)信息的信道接入和信道狀態(tài)信息。這種算法旨在實(shí)現(xiàn)最佳的接入和功率策略,確保網(wǎng)絡(luò)吞吐量穩(wěn)定,并最小化智能節(jié)點(diǎn)的能量消耗??鐚覦RL訓(xùn)練輸入輸出模型如圖3所示。

2.3" 系統(tǒng)整體網(wǎng)絡(luò)模型

系統(tǒng)整體網(wǎng)絡(luò)模型如圖4所示。

狀態(tài)[St]輸入DRL網(wǎng)絡(luò),經(jīng)過(guò)訓(xùn)練后輸出公平吞吐量和功率優(yōu)化的兩個(gè)[Q]表,即[Q(St, A1t;θE)A1t∈A1]和[Q(St, A2t;θE)A2t∈A2],從而選擇出兩個(gè)子動(dòng)作值[A1t]和[A2t]。從環(huán)境中獲得觀察值并計(jì)算獎(jiǎng)勵(lì)[R1t+2D]和[R2t+2D],環(huán)境狀態(tài)成為[St+1]。將單次經(jīng)驗(yàn)樣本[et=(St, A1t, A2t, R1t, R2t, St+1)]存入經(jīng)驗(yàn)池。智能節(jié)點(diǎn)以概率[ξ]隨機(jī)選擇動(dòng)作,或以概率[1-ξ]根據(jù)公式分別決定其下一步動(dòng)作[A1t]和[A2t]:

[Ait=argmaxAit∈AiQ(St, Ait;θE), i=1,2] (20)

更新?lián)p失函數(shù)時(shí),使用從經(jīng)驗(yàn)池中隨機(jī)抽取的[NE]個(gè)經(jīng)驗(yàn)組成的一批次樣本[B]來(lái)計(jì)算損失函數(shù),訓(xùn)練網(wǎng)絡(luò)損失函數(shù)更新公式如下:

[Loss(θ)=1NEt∈By-Q(St, At;θE)2] (21)

式中[y=rt+2D+1+γmaxA'Q(St+2D+1,S',θ-)]為智能節(jié)點(diǎn)的目標(biāo)值。利用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)方法最小化上述損失函數(shù),更新eval?網(wǎng)絡(luò)的參數(shù)[θ]。更新后的訓(xùn)練網(wǎng)絡(luò)與新的近似[Q]函數(shù)用于時(shí)隙[t+1]中智能節(jié)點(diǎn)的決策。

整體流程如算法1所示。

算法1:聯(lián)合狀態(tài)?獨(dú)立獎(jiǎng)勵(lì)的跨層聯(lián)合優(yōu)化DRL算法

1.初始化DRL算法的基本參數(shù)和數(shù)據(jù)結(jié)構(gòu);

2.開(kāi)始迭代,直至完成預(yù)設(shè)的時(shí)隙數(shù);

3.輸入當(dāng)前狀態(tài)[St]到評(píng)估網(wǎng)絡(luò),輸出所有動(dòng)作的[Q]值,形成兩個(gè)[Q]表;

4.以概率[ξ]選擇隨機(jī)動(dòng)作[A1t]和[A2t];

5.否則,根據(jù)貪婪策略公式(20),從[Q1]和[Q2]中選擇[A1]和[A2];

6.執(zhí)行[A1]和[A2],獲得對(duì)應(yīng)的觀測(cè)值[O1t]和[O2t],根據(jù)公式(17)、公式(18)計(jì)算獎(jiǎng)勵(lì)[R1t]和[R2t],根據(jù)式(15)、式(16)更新并生成[St+1];

7.將[(St,A1t,A2t,R1t,R2t,St+1)]存儲(chǔ)進(jìn)經(jīng)驗(yàn)池[EN];

8.從經(jīng)驗(yàn)池[EN]采樣并重組[NE]個(gè)匹配經(jīng)驗(yàn)樣本;

9.利用SGD法最小化損失函數(shù)式(21),更新eval?網(wǎng)絡(luò)的參數(shù)[θ]。

3" 仿真設(shè)置和性能分析

3.1" 仿真設(shè)置

3.1.1" 水聲網(wǎng)絡(luò)系統(tǒng)設(shè)置及性能指標(biāo)

本文研究的是一個(gè)水聲異構(gòu)網(wǎng)絡(luò),其中包含一個(gè)POCL?MAC智能節(jié)點(diǎn)、一個(gè)TDMA節(jié)點(diǎn)和一個(gè)ALOHA節(jié)點(diǎn)。仿真信道中,ALOHA節(jié)點(diǎn)以概率[q=0.2]隨機(jī)發(fā)送數(shù)據(jù)包,TDMA節(jié)點(diǎn)則在每10個(gè)時(shí)隙中固定選擇2個(gè)時(shí)隙進(jìn)行發(fā)送,即時(shí)隙占用比例[x=0.2]。

本文以具有完全感知能力的節(jié)點(diǎn)在相同場(chǎng)景下的結(jié)果作為測(cè)試最優(yōu)值。若已知優(yōu)先節(jié)點(diǎn)的MAC機(jī)制,則總和理論最優(yōu)公平吞吐量為:

[Tput_sumopt=(1-x)Naq(1-q)Na-1Na+1+x(1-q)Na+(1-x)(1-q)NaNa+1] (22)

式中:等號(hào)右側(cè)分別代表ALOHA節(jié)點(diǎn)、TDMA節(jié)點(diǎn)和智能節(jié)點(diǎn)的理論最優(yōu)公平吞吐量。智能節(jié)點(diǎn)需要與競(jìng)爭(zhēng)型的ALOHA節(jié)點(diǎn)競(jìng)爭(zhēng)時(shí)隙接入機(jī)會(huì),因此必須考慮基于比例公平的吞吐量。

本文將ALOHA節(jié)點(diǎn)和TDMA節(jié)點(diǎn)視為主要用戶,設(shè)其使用較大的功率進(jìn)行發(fā)送以對(duì)抗信道衰減,在不與智能節(jié)點(diǎn)和其他MAC協(xié)議節(jié)點(diǎn)發(fā)生沖突的情況下,其傳輸必定會(huì)被接收端接收。智能節(jié)點(diǎn)作為認(rèn)知用戶,必須智能地感知信道避免沖突,實(shí)現(xiàn)最大的總和理論最優(yōu)公平吞吐量,并優(yōu)化功率以實(shí)現(xiàn)最優(yōu)的能量利用效率。設(shè)接收端所需數(shù)據(jù)包功率至少為[0 dBm]以保證正確解調(diào),同時(shí)設(shè)智能節(jié)點(diǎn)的發(fā)射功率[Pj]單位為[dBm],取值區(qū)間為[[12,26]],量化級(jí)數(shù)為15。此外,發(fā)射功率等于0代表不發(fā)送。

在本文中,智能節(jié)點(diǎn)的目標(biāo)是能量利用效率最大化,由單位時(shí)間內(nèi)傳輸比特?cái)?shù)和單位時(shí)間能量消耗決定。其中,傳輸比特?cái)?shù)的定義如下:

[T_bits=T=t-Nw+1tRb*θPi" Nw] (23)

式中:[Nw]為平滑窗口;[Rb]為固定的信息發(fā)送速率,為3 000 b/s;[θPi]為數(shù)據(jù)包投遞率。發(fā)送功率[Pi]換算成以mW為單位,便于計(jì)算能量利用效率,其換算公式為:

[Pi(mW)=1 mW*10Pi(dBm)10] (24)

因此每毫瓦能量成功發(fā)送的比特?cái)?shù)即平均能量利用效率,為:

[Aeue=T_bitsPi(mW)] (25)

3.1.2" 深度強(qiáng)化學(xué)習(xí)參數(shù)設(shè)置

DRL算法中使用的RNN架構(gòu)是兩個(gè)雙層全連接的神經(jīng)網(wǎng)絡(luò),都擁有一個(gè)GRU層和兩個(gè)Dense層,每層中有32個(gè)隱藏神經(jīng)元。GRU層和Dense層神經(jīng)元的激活函數(shù)分別是Tanh和ReLU函數(shù)。DRL算法的狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)遵循先前的定義。狀態(tài)歷史長(zhǎng)度[L]為20,當(dāng)更新DNN的權(quán)重時(shí),從一個(gè)包含1 000個(gè)先前經(jīng)驗(yàn)的經(jīng)驗(yàn)回放庫(kù)中隨機(jī)選擇64個(gè)小批經(jīng)驗(yàn)樣本,用于計(jì)算損失函數(shù)。經(jīng)驗(yàn)池以FIFO的方式進(jìn)行更新,采用RMSProp算法進(jìn)行隨機(jī)梯度下降,采用自適應(yīng)[ε]貪婪算法使決策策略適應(yīng)未來(lái)的變化。

3.1.3" 基于BELLHOP的統(tǒng)計(jì)仿真信道模型設(shè)置

本文采用基于BELLHOP的統(tǒng)計(jì)仿真信道模型[23],仿真一個(gè)淺海中頻近距離時(shí)變信道。BELLHOP通過(guò)設(shè)置特定的信道參數(shù),包括聲速、吸收系數(shù)、頻率等以研究信道的時(shí)變性。具體的信道參數(shù)設(shè)置如表1所示。

所建立的水聲信道中瞬時(shí)信道增益如圖5所示。仿真水聲信道增益在[-12,-26]dB范圍內(nèi)呈現(xiàn)明顯的波動(dòng)性和時(shí)變性。受自然因素、機(jī)械噪聲等影響,水聲信道增益呈現(xiàn)出隨機(jī)波動(dòng)的特征。

3.2" 仿真信道下的測(cè)試結(jié)果

本文比較了POCL?MAC算法在有或沒(méi)有跨層設(shè)計(jì)的GRU和DNN網(wǎng)絡(luò)設(shè)置下的性能。

1) POCL?MAC:采用GRU網(wǎng)絡(luò)和跨層設(shè)計(jì)的POCL?MAC。

2) NCL?GRU:基于DRL的分層設(shè)計(jì)MAC。它將利用兩個(gè)獨(dú)立的GRU網(wǎng)絡(luò),兩個(gè)行動(dòng)決策之間沒(méi)有信息交互。

3) CL?DNN:基于DRL的跨層設(shè)計(jì)MAC。它將使用DNN網(wǎng)絡(luò)而不是GRU網(wǎng)絡(luò),在行動(dòng)決策之間存在信息交互,然而,它缺乏保留歷史狀態(tài)信息的能力。

4) Optimal:該節(jié)點(diǎn)的理論最優(yōu)值。

3.2.1" 吞吐量和公平性

仿真信道下,本文提出的MAC協(xié)議的網(wǎng)絡(luò)吞吐量和公平性的性能比較如圖6所示。

不考慮公平性的基于DRL的MAC協(xié)議如圖6a)所示。智能節(jié)點(diǎn)和TDMA節(jié)點(diǎn)分別達(dá)到了最大吞吐量0.621和0.161,然而ALOHA節(jié)點(diǎn)的吞吐量為0.003。TDMA節(jié)點(diǎn)和ALOHA節(jié)點(diǎn)在每時(shí)隙內(nèi)有[q?(1-x)+x?(1-q)+][x?q=0.36]的固定概率占用信道。因此,POCL?MAC節(jié)點(diǎn)達(dá)到最大吞吐量,意味著它占用了競(jìng)爭(zhēng)型ALOHA節(jié)點(diǎn)所有的接收時(shí)隙。在不考慮公平性的情況下,系統(tǒng)的目標(biāo)是實(shí)現(xiàn)最優(yōu)的總體網(wǎng)絡(luò)吞吐量。智能節(jié)點(diǎn)占用信道的吞吐量大于避讓發(fā)送的吞吐量,盡管這會(huì)造成大量沖突。具有固定發(fā)送時(shí)隙的TDMA節(jié)點(diǎn)則不會(huì)與競(jìng)爭(zhēng)型節(jié)點(diǎn)競(jìng)爭(zhēng)信道。這種場(chǎng)景實(shí)現(xiàn)的最優(yōu)總體網(wǎng)絡(luò)吞吐量,對(duì)于網(wǎng)絡(luò)中其他競(jìng)爭(zhēng)型的節(jié)點(diǎn)不公平。

如圖6b)所示,考慮公平性的POCL?MAC協(xié)議,系統(tǒng)達(dá)成了節(jié)點(diǎn)的公平性。ALOHA節(jié)點(diǎn)和TDMA節(jié)點(diǎn)收斂后達(dá)到了各自的最優(yōu)公平吞吐量的95.64%和96.98%,且表現(xiàn)穩(wěn)健。根據(jù)公式(22),總吞吐量的最優(yōu)值為0.560,實(shí)際總吞吐量為0.559,達(dá)到了最優(yōu)值的99.76%。智能節(jié)點(diǎn)依然占用了極少量的ALOHA時(shí)隙,使得ALOHA節(jié)點(diǎn)吞吐量略低于理論值。但是通過(guò)公平性調(diào)度,主動(dòng)退避發(fā)送,這避免了與ALOHA節(jié)點(diǎn)的絕大多數(shù)沖突。該系統(tǒng)保證了在異構(gòu)網(wǎng)絡(luò)中主要用戶和認(rèn)知用戶均能保持比例公平性。

3.2.2" 系統(tǒng)通用性

為了驗(yàn)證系統(tǒng)在各場(chǎng)景下的通用性,首先模擬了具有不同[q]值的ALOHA節(jié)點(diǎn)的場(chǎng)景。設(shè)TDMA節(jié)點(diǎn)時(shí)隙占用率[x]=0.2。ALOHA節(jié)點(diǎn)的發(fā)送概率[q]從0.1增加到0.5。從圖7a)可以看出,POCL?MAC可以在多次實(shí)驗(yàn)中各節(jié)點(diǎn)均達(dá)到對(duì)應(yīng)的吞吐量。隨著[q]值的增加,顯然ALOHA的吞吐量也隨著增加,TDMA和POCL?MAC的吞吐量均有所下降。隨著ALOHA更積極地接入信道,ALOHA和TDMA的沖突隨之增加。雖然TDMA節(jié)點(diǎn)的發(fā)送策略保持不變,其吞吐量由于沖突而下降。POCL?MAC則是為了避免與ALOHA的沖突,采取了保守策略,主動(dòng)減少了發(fā)送頻率。

其次,模擬了具有不同時(shí)隙占用率的TDMA節(jié)點(diǎn)的場(chǎng)景。ALOHA節(jié)點(diǎn)的發(fā)送概率[q]固定為0.2。TDMA節(jié)點(diǎn)的時(shí)隙占用率[x]從0.1增加至0.5。從圖7b)可以看出,POCL?MAC在這種場(chǎng)景隨著[x]的增加,TDMA的吞吐量有所下降。

值得注意的是,網(wǎng)絡(luò)總吞吐量隨著[x]的增加而增加,而隨著[q]值的增加而減少。這是因?yàn)锳LOHA發(fā)送的時(shí)隙具有隨機(jī)性,智能節(jié)點(diǎn)不可能精準(zhǔn)地預(yù)測(cè)其發(fā)送的時(shí)隙。這就要求智能節(jié)點(diǎn)需要預(yù)留出多個(gè)時(shí)隙,來(lái)確保一次成功的ALOHA節(jié)點(diǎn)傳輸。ALOHA節(jié)點(diǎn)占用的時(shí)隙越大,智能節(jié)點(diǎn)就越需要預(yù)留比這更多的時(shí)隙,這最終導(dǎo)致總吞吐量的下降。相反地,智能節(jié)點(diǎn)幾乎可以完美地學(xué)習(xí)具有固定傳輸時(shí)隙的TDMA節(jié)點(diǎn)的發(fā)送策略。因此,在不改變[q]的情況下,增加[x]值,系統(tǒng)直接表現(xiàn)出吞吐量的增加。同時(shí),POCL?MAC和ALOHA分享其余可用的信道接入機(jī)會(huì)。

3.2.3" 能量利用效率的對(duì)比

在仿真信道下智能節(jié)點(diǎn)的平均能量效率的測(cè)試結(jié)果如圖8所示。

lt;E:\2024年第17期\2024年第17期\Image\61t8.tifgt;

圖8" 不同算法平均能量效率對(duì)比

智能節(jié)點(diǎn)在傳輸數(shù)據(jù)包時(shí)需要消耗較高能量;在不傳輸?shù)臅r(shí)隙監(jiān)聽(tīng)信道以接收ACK數(shù)據(jù)包,保持一個(gè)較低的能耗。POCL?MAC方法在動(dòng)態(tài)變化的信道衰減情況下,始終能保持良好的平均能量效率。相比NCL?GRU和CL?DNN,其平均能量效率分別提高了7.17%和18.25%。具有跨層設(shè)計(jì)的GRU算法節(jié)點(diǎn)通過(guò)不斷學(xué)習(xí),最終在數(shù)據(jù)包投遞率和平均能量效率中取得了更好的表現(xiàn),其以更高的概率成功送達(dá)數(shù)據(jù)包,減小了數(shù)據(jù)包的重傳,學(xué)習(xí)效率和算法穩(wěn)定度均優(yōu)于傳統(tǒng)算法。

本文所提出的POCL?MAC算法節(jié)點(diǎn)受劇烈變化的信道影響,短期內(nèi)消耗的平均功率能隨信道變化自適應(yīng)地調(diào)整以適應(yīng)不同的信道衰減值。相比其他算法,該算法節(jié)點(diǎn)在幾乎任何時(shí)間段都能取得最優(yōu)的能量效率。這表明,無(wú)論網(wǎng)絡(luò)中每個(gè)時(shí)隙的信道衰減信息如何,本文提出的智能節(jié)點(diǎn)總是可以快速適應(yīng)信道急劇變化的影響,采取最佳措施來(lái)最小化功率消耗和最大化平均能量效率并接近最優(yōu)的網(wǎng)絡(luò)吞吐量。結(jié)論顯示,POCL?MAC智能節(jié)點(diǎn)相對(duì)于其他算法的節(jié)點(diǎn),可以實(shí)現(xiàn)接近最優(yōu)的比例公平吞吐量,并達(dá)到更優(yōu)的平均能量效率。

4" 結(jié)" 語(yǔ)

本文提出了一種UWANs場(chǎng)景下基于DRL的比例公平的跨層聯(lián)合優(yōu)化MAC協(xié)議——POCL?MAC,用于在水聲長(zhǎng)時(shí)延且動(dòng)態(tài)變化信道環(huán)境下實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)的高效信道利用。其目標(biāo)是找到一個(gè)最優(yōu)的訪問(wèn)策略與傳輸功率,以在動(dòng)態(tài)信道衰減的情況下與其他節(jié)點(diǎn)共存時(shí),最大限度地提高公平網(wǎng)絡(luò)吞吐量,并通過(guò)聯(lián)合調(diào)度傳輸時(shí)隙和功率來(lái)最大化DRL節(jié)點(diǎn)的能量效率。實(shí)驗(yàn)結(jié)果表明,POCL?MAC協(xié)議在動(dòng)態(tài)水下環(huán)境的異構(gòu)網(wǎng)絡(luò)中具有較好的適應(yīng)性,實(shí)現(xiàn)了不同節(jié)點(diǎn)基于節(jié)點(diǎn)數(shù)量的比例公平性,并使智能節(jié)點(diǎn)的能量效率最大化。同時(shí),本文算法避免了傳統(tǒng)DRL中分層設(shè)計(jì)的局限性,對(duì)于水聲環(huán)境能較好的收斂。

注:本文通訊作者為韓翔。

參考文獻(xiàn)

[1] FELEMBAN E, SHAIKH F K, QURESHI U M, et al. Underwater sensor network applications: A comprehensive survey [J]. International journal of distributed sensor networks, 2015, 11(11): 896832.

[2] LI S N, QU W Y, LIU C F, et al. Survey on high reliability wireless communication for underwater sensor networks [J]. Journal of network and computer applications, 2019, 148: 102446.

[3] ALFOUZAN F A. Energy?efficient collision avoidance MAC protocols for underwater sensor networks: Survey and challenges [J]. Journal of marine science and engineering, 2021, 9(7): 741.

[4] MOLINS M, STOJANOVIC M. Slotted FAMA: A MAC protocol for underwater acoustic networks [C]// Proceedings of MTS/IEEE OCEANS. New York: IEEE, 2006: 1?7.

[5] HONG L, HONG F, GUO Z W, et al. A TDMA?based MAC protocol in underwater sensor networks [C]// 2008 4th International Conference on Wireless Communications, Networking and Mobile Computing. New York: IEEE, 2008: 1?4.

[6] CHIRDCHOO N, SOH W S, CHUA K C. Aloha?based MAC protocols with collision avoidance for underwater acoustic networks [C]// INFOCOM 2007: 26th IEEE International Conference on Computer Communications. New York: IEEE, 2007: 2271?2275.

[7] TO T, TO D, WANG X H, et al. A reservation?type protocol for channel?aware ALOHA [C]// 21st Annual IEEE International Symposium on Personal, Indoor and Mobile Radio Communications. New York: IEEE, 2010: 1431?1435.

[8] NOH Y, LEE U, HAN S, et al. DOTS: A propagation delay?aware opportunistic MAC protocol for mobile underwater networks [J]. IEEE transactions on mobile computing, 2014, 13(4): 766?782.

[9] XIA Y Q, CHEN S M, PEI P H, et al. COPESM?MAC: A contention?based medium access protocol using parallel reservation and sleep mode for underwater acoustic sensor networks [C]// OCEANS 2019 Conference. New York: IEEE, 2019: 1?5.

[10] CHO J, AHMED F, SHITIRI E, et al. Power control for MACA?based underwater MAC protocol: A Q?learning approach [C]// 2021 IEEE Region 10 Symposium (TENSYMP). New York: IEEE, 2021: 1?4.

[11] ALFOUZAN F, SHAHRABI A, GHOREYSHI S M, et al. An energy?conserving collision?free MAC protocol for underwater sensor networks [J]. IEEE access, 2019, 7: 27155?27171.

[12] AHMED F, CHO J, SHITIRI E, et al. Reinforcement learning?based power control for MACA?based underwater MAC protocol [J]. IEEE access, 2022, 10: 71044?71053.

[13] ALABLANI I A, ARAFAH M A. EE?UWSNs: A joint energy?efficient MAC and routing protocol for underwater sensor networks [J]. Journal of marine science and engineering, 2022, 10(4): 488.

[14] NAYAK N K S, BHATTACHARYYA B. Machine learning based medium access control protocol for heterogeneous wireless networks: A review [C]// 2021 Innovations in Power and Advanced Computing Technologies (i?PACT). [S.l.: s.n.], 2021: 1?6.

[15] PASANDI H B, NADEEM T. Mac protocol design optimization using deep learning [C]// 2020 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). New York: IEEE, 2020: 709?715.

[16] YU Y D, WANG T T, LIEW S C. Deep?reinforcement learning multiple access for heterogeneous wireless networks [J]. IEEE journal on selected areas in communications, 2019, 37(6): 1277?1290.

[17] 楊華,耿烜,孔寧.一種采用Dueling?DDQN算法的無(wú)線網(wǎng)絡(luò)MAC協(xié)議[J].北京郵電大學(xué)學(xué)報(bào),2023,46(3):25?30.

[18] YE X W, YU Y D, FU L Q. Deep reinforcement learning based MAC protocol for underwater acoustic networks [J]. IEEE transactions on mobile computing, 2022, 21(5): 1625?1638.

[19] GENG X, ZHENG Y R. Exploiting propagation delay in underwater acoustic communication networks via deep reinforcement learning [J]. IEEE transactions on neural networks and learning systems, 2023, 34(12): 10626?10637.

[20] DONG C F, TANG Y Q, JING L Y, et al. Adaptive transmission for underwater acoustic communication based on deep reinforcement learning [C]// 2022 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). New York: IEEE, 2022: 1?5.

[21] BHASKARWAR R V, PETE D J. Cross?layer design approaches in underwater wireless sensor networks: A survey [J]. SN computer science, 2021, 2(5): 362.

[22] JIN X C, LIU Z X, MA K. Joint slot scheduling and power allocation for throughput maximization of clustered UASNs [J]. IEEE Internet of Things journal, 2023, 10(19): 17085?17095.

[23] PORTER M B. The bellhop manual and user′s guide: Preliminary draft [EB/OL]. [2011?01?01]. https://www.researchgate.net/publication/267803064.

龙里县| 五指山市| 澄江县| 平江县| 三原县| 米脂县| 龙口市| 青州市| 盐城市| 通道| 石狮市| 静安区| 子洲县| 康平县| 中西区| 广州市| 三河市| 荣成市| 阳高县| 台山市| 赣州市| 洛宁县| 大石桥市| 灵台县| 台东县| 镇远县| 徐闻县| 卢氏县| 鹰潭市| 呼图壁县| 开远市| 浠水县| 嫩江县| 石景山区| 修文县| 吉安县| 淮阳县| 隆德县| 焉耆| 华坪县| 黄骅市|