国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SARSA算法的水聲通信自適應(yīng)調(diào)制

2020-06-30 08:49王安義張育芝
科學(xué)技術(shù)與工程 2020年16期
關(guān)鍵詞:水聲吞吐量信噪比

王安義,李 萍,張育芝

(西安科技大學(xué)通信與信息工程學(xué)院,西安 710054)

海洋蘊(yùn)藏著豐富的資源,人們對(duì)海洋資源的探索與日俱增。由于海洋環(huán)境的復(fù)雜性,電磁波和光波在海水中傳播會(huì)受到嚴(yán)重的損耗,與電磁波和光波相比較,水聲通信是目前最適合于在水下中遠(yuǎn)距離傳輸?shù)耐ㄐ欧绞絒1]。聲波在海水中傳播的典型傳輸速度為1 500 m/s,比電磁波的速度低5個(gè)數(shù)量級(jí),通信過(guò)程中形成長(zhǎng)時(shí)延傳輸;且水聲信道受環(huán)境影響大,由于水下環(huán)境時(shí)刻發(fā)生著變化,水聲信道呈現(xiàn)出復(fù)雜多變特性。在水聲自適應(yīng)調(diào)制系統(tǒng)中,往往伴隨著信息傳輸過(guò)時(shí)問(wèn)題,過(guò)大的反饋時(shí)延導(dǎo)致發(fā)射端接收到來(lái)自接收端的反饋信息與實(shí)際信道狀態(tài)信息不匹配,帶來(lái)傳輸誤碼高、吞吐量低等問(wèn)題。

已有一些研究采用正交頻分復(fù)用自適應(yīng)調(diào)制技術(shù)[2],利用自適應(yīng)比特和功率分配算法[3]實(shí)現(xiàn)系統(tǒng)的自適應(yīng),以提高系統(tǒng)吞吐量,但以上研究未考慮反饋信道信息過(guò)時(shí)問(wèn)題。在時(shí)變信道下,準(zhǔn)確獲取信道狀態(tài)信息是自適應(yīng)調(diào)制系統(tǒng)中的關(guān)鍵問(wèn)題,人工智能在學(xué)習(xí)動(dòng)態(tài)變化的過(guò)程和智能決策問(wèn)題上有一定的優(yōu)勢(shì),能更好地學(xué)習(xí)信道變化,其中的強(qiáng)化學(xué)習(xí)算法也被應(yīng)用在很多領(lǐng)域,如智能決策[4]、無(wú)線資源分配[5]等領(lǐng)域,并取得一些成效。中國(guó)學(xué)者利用強(qiáng)化學(xué)習(xí)的Q-學(xué)習(xí)算法[6]預(yù)測(cè)無(wú)線通信信道,實(shí)現(xiàn)自適應(yīng)調(diào)制,達(dá)到了提高系統(tǒng)的吞吐量的目的,但中國(guó)目前還沒有將強(qiáng)化學(xué)習(xí)應(yīng)用于水聲通信領(lǐng)域的研究;國(guó)外研究者利用強(qiáng)化學(xué)習(xí)算法[7]學(xué)習(xí)預(yù)測(cè)了距海面不同深度下的水聲通信信道狀態(tài)的變化。本文研究如何將人工智能中的強(qiáng)化學(xué)習(xí)算法算法應(yīng)用到水聲自適應(yīng)調(diào)制系統(tǒng)中。

提出一種強(qiáng)化學(xué)習(xí)算法—SARSA(state-action-reward-state-action)算法來(lái)學(xué)習(xí)水聲信道[8]狀態(tài)的變化并選擇最優(yōu)策略進(jìn)行調(diào)制。SARSA算法是一種基于模型,但不需要先驗(yàn)知識(shí)的學(xué)習(xí)算法,發(fā)射端感知到每一時(shí)刻的信道狀態(tài),通過(guò)不斷地試錯(cuò)和探索,最終根據(jù)信道狀態(tài),學(xué)習(xí)出在每一時(shí)刻可采取的最佳行為策略,來(lái)自適應(yīng)地選擇調(diào)制方式,而不需要提前了解環(huán)境,有效地改善信道變化給通信系統(tǒng)帶來(lái)的不利影響。在信道好的時(shí)候選用調(diào)制階數(shù)高的調(diào)制方式,最大化通信傳輸效率,信道差的時(shí)候選用低階調(diào)制,以保證通信質(zhì)量可靠性和傳輸穩(wěn)定性。

1 水聲自適應(yīng)調(diào)制系統(tǒng)模型

1.1 系統(tǒng)模型

圖1所示為基于SARSA算法的水聲自適應(yīng)系統(tǒng)模型。在水聲自適應(yīng)調(diào)制系統(tǒng)中,信號(hào)經(jīng)發(fā)射端調(diào)制后通過(guò)信道,并在接收端進(jìn)行解調(diào),得到解調(diào)信號(hào)與解調(diào)信息,調(diào)制過(guò)程中利用SARSA算法學(xué)習(xí)信道變化,擇優(yōu)選擇調(diào)制策略,以實(shí)現(xiàn)最大化系統(tǒng)吞吐量、降低系統(tǒng)誤碼率的目的。

圖1 基于SARSA算法的水聲自適應(yīng)調(diào)制系統(tǒng)Fig.1 Underwater acoustic adaptive system based on SARSA algorithm

1.2 信道模型

由于水體環(huán)境的復(fù)雜性,水聲通信信道受海底與海面的變化、海洋湍流及海洋生物活動(dòng)[9]等的影響,水聲信道往往是時(shí)刻變化的。采用文獻(xiàn)[9]的信道模型,根據(jù)測(cè)試結(jié)果,將信道信噪比序列建模為:

Sk=αsin(2πk/L)+β+n(k)

(1)

式(1)中:L=100,是記錄周期;α=4.46,是動(dòng)態(tài)標(biāo)準(zhǔn)差;β=18為均值;n(k)是服從具有方差為δ2,均值為0的高斯分布,即n(k)~N(0,δ2),模擬實(shí)現(xiàn)信噪比序列。

2 基于SARSA算法的自適應(yīng)調(diào)制

2.1 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一個(gè)分支,主要解決智能體通過(guò)不斷地試錯(cuò)與探索,將狀態(tài)與動(dòng)作之間關(guān)聯(lián)起來(lái),最終達(dá)到獲得最大獎(jiǎng)勵(lì)回報(bào)累積量的問(wèn)題。其基本原理是:如果智能體(agent)執(zhí)行的某個(gè)動(dòng)作策略導(dǎo)致環(huán)境對(duì)智能體的獎(jiǎng)賞(reward)越大,則智能體以后采用這個(gè)動(dòng)作策略的概率就會(huì)加強(qiáng),反之得到的獎(jiǎng)賞越小,智能體產(chǎn)生這個(gè)動(dòng)作的概率就會(huì)減弱[10]。強(qiáng)化學(xué)習(xí)中把學(xué)習(xí)過(guò)程看作一個(gè)不斷的試錯(cuò)和探索過(guò)程,其原理框圖如圖2所示。

圖2 強(qiáng)化學(xué)習(xí)理論框圖Fig.2 Reinforcement learning theory block diagram

在本文算法中,采用不同時(shí)刻的信道信噪比{s1,s2,…,st}為狀態(tài)集,以四種不同的調(diào)制方式作{a1,a2,…,at}為動(dòng)作集,各狀態(tài)在不同動(dòng)作下與環(huán)境交互產(chǎn)生的吞吐量作為獎(jiǎng)勵(lì),即環(huán)境根據(jù)狀態(tài)與動(dòng)作給出合理的反饋。系統(tǒng)得到的累計(jì)獎(jiǎng)賞[11]為

(2)

式(2)中:rt為在t時(shí)刻的即時(shí)獎(jiǎng)勵(lì),γ∈[0,1]為折扣因子,值越小,代表agent主要考慮即時(shí)獎(jiǎng)勵(lì),越趨近于1,表示考慮將來(lái)獎(jiǎng)勵(lì)的程度越大。對(duì)于某一時(shí)刻的狀態(tài)所選用的策略可以用π來(lái)表示,則狀態(tài)在執(zhí)行策略后的期望回報(bào)Vπ可用式(3)來(lái)表示,在狀態(tài)s下執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)期望qπ可用式(4)來(lái)表示:

本研究發(fā)現(xiàn),S6K1抑制劑PF-4708671和PI3K/mTOR激酶抑制劑NVP-BEZ235聯(lián)用于乳腺癌細(xì)胞MDA-MB-436和肺癌細(xì)胞A549,可顯著增強(qiáng)單用時(shí)對(duì)腫瘤細(xì)胞的生長(zhǎng)抑制作用。

(3)

(4)

式中:Rt為t時(shí)刻的獎(jiǎng)勵(lì);st為t時(shí)刻的狀態(tài);at為t時(shí)刻的動(dòng)作;γ為折扣因子。

2.2 基于SARSA算法的水聲自適應(yīng)系統(tǒng)

SARSA算法是Rummery和Niranjan提出的一種基于模型的強(qiáng)化學(xué)習(xí)算法[12]。SARSA算法是通過(guò)價(jià)值函數(shù)的不斷更新,來(lái)更新當(dāng)前的策略,用Q表來(lái)存儲(chǔ)當(dāng)前的策略,再通過(guò)新的策略產(chǎn)生新的狀態(tài)和即時(shí)獎(jiǎng)勵(lì),進(jìn)而更新價(jià)值函數(shù);一直迭代下去,直到到達(dá)最終狀態(tài)或收斂狀態(tài)。它采用的是Q迭代法,一步SARSA算法Q更新可用表示為

Qsub=r+γQ(st+1,at+1)-Qpre(st,at)

(5)

Qnew(st,at)=Qpre(st,at)+α(Qsub)

(6)

式中:r是在當(dāng)前狀態(tài)下所選動(dòng)作帶來(lái)的獎(jiǎng)勵(lì);γ是衰減因子;Q(st+1,at+1)表示在下一時(shí)刻的Q;Qpre(st,at)表示當(dāng)前狀態(tài)下的Q;Qsub表示差距;Qnew(st,at)代表更新后的當(dāng)前狀態(tài)Q;α表示學(xué)習(xí)效率。

SARSA算法求解步驟如下:

初始化Q(s),?s∈S,a∈A(s)

重復(fù)(每一個(gè)episode):

使用貪婪算法(ε-greedy),根據(jù)狀態(tài)選取一個(gè)動(dòng)作執(zhí)行

重復(fù)(對(duì)episode中的每一步):

執(zhí)行動(dòng)作a,觀測(cè)獎(jiǎng)賞值和下一狀態(tài)s′

更新Q表:

Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)-Q(st,at)]s←s′

a←a′

直到狀態(tài)終止

智能體在每一次的學(xué)習(xí)過(guò)程中,在選擇當(dāng)前步用何種動(dòng)作時(shí)是采用貪婪策略,若設(shè)定貪婪因子e=0.1,即90%的情況下選擇選擇Q表中對(duì)應(yīng)狀態(tài)下的最優(yōu)值為當(dāng)前步動(dòng)作的策略;10%的情況下去探索新的可能策略,作為當(dāng)前步動(dòng)作的策略,選擇動(dòng)作進(jìn)而得到下一個(gè)狀態(tài)st+1和下一次獎(jiǎng)勵(lì)rt+1,再根據(jù)貪婪算法來(lái)選擇策略來(lái)確定下一狀態(tài)所選擇的動(dòng)作at+1,并依據(jù)式(6)進(jìn)行Q函數(shù)的更新,由于Q與獎(jiǎng)勵(lì)有關(guān),是多步獎(jiǎng)賞值的一個(gè)求和,所以該算法用Q來(lái)表示所選動(dòng)作產(chǎn)生獎(jiǎng)賞的另一種表現(xiàn)形式[13],然后根據(jù)Q表所確定的at+1作為智能體所采取的下一個(gè)動(dòng)作,如此循環(huán),直至達(dá)到最終狀態(tài)。

SARSA與Q-學(xué)習(xí)的最明顯的區(qū)別在于Q-學(xué)習(xí)每次迭代時(shí)采用的是值函數(shù)的最大值更新Q,但在下一次選動(dòng)作時(shí)不一定會(huì)用到該動(dòng)作;而SARSA則是在這一次更新Q時(shí)選用了哪一個(gè)動(dòng)作策略,下一狀態(tài)時(shí)就選用該動(dòng)作策略為下一次的動(dòng)作進(jìn)行迭代,不再重新另外選擇[14],因此,SARSA學(xué)習(xí)在每一步的學(xué)習(xí)過(guò)程中,智能體都是依據(jù)當(dāng)前選擇的Q策略確定下一狀態(tài)時(shí)的動(dòng)作;而Q-學(xué)習(xí)中依據(jù)重新選擇后的Q策略確定動(dòng)作,因此稱SARSA是一種在線策略(on policy)學(xué)習(xí)方法。

3 算法仿真與分析

3.1 仿真環(huán)境

研究水下長(zhǎng)時(shí)延傳輸導(dǎo)致的發(fā)射端接收到的反饋信息過(guò)時(shí),進(jìn)而不能準(zhǔn)確選擇自適應(yīng)調(diào)制方式的問(wèn)題。仿真環(huán)境示意圖如圖3所示。建立水下場(chǎng)景,收發(fā)端水平放置于水面下,具體參數(shù)設(shè)置見文獻(xiàn)[9]所示,發(fā)射機(jī)每隔15 min發(fā)送一次信號(hào)序列,并記錄下每次信道狀態(tài)的變化。

圖3 仿真環(huán)境示意圖Fig.3 Simulation environment diagram

3.2 仿真參數(shù)

SARSA算法中,將接收器在水聲信道中不同時(shí)刻下的信噪比作為SARSA算法的狀態(tài)集;四種不同的調(diào)制方式BPSK、4QAM、8QAM、16QAM作為算法的動(dòng)作集,每個(gè)動(dòng)作與環(huán)境交互后,狀態(tài)轉(zhuǎn)換到下一時(shí)刻狀態(tài);策略定為在信噪比在一定范圍內(nèi)選取何種適宜的動(dòng)作更好,各調(diào)制方式下系統(tǒng)吞吐量大小作為獎(jiǎng)勵(lì),用R獎(jiǎng)勵(lì)表的形式表現(xiàn)出來(lái),同樣的建一個(gè)Q表,初始值為0,再根據(jù)每次的學(xué)習(xí)更新Q表,不斷迭代學(xué)習(xí),直到收斂或達(dá)到最終狀態(tài),得到最佳的Q表,每次根據(jù)Q表選擇動(dòng)作。學(xué)習(xí)率在這里設(shè)為α=0.9,折扣因子γ=0.1,代表對(duì)將來(lái)的獎(jiǎng)勵(lì)影響較小。

采用固定調(diào)制模式、直接反饋與SARSA算法下的自適應(yīng)調(diào)制做對(duì)比,利用反饋回來(lái)的信噪比SNR信息,自適應(yīng)的選擇對(duì)應(yīng)的調(diào)制階數(shù)。根據(jù)反饋SNR直接自適應(yīng)選擇調(diào)制比特?cái)?shù)的依據(jù)如圖4所示,為四種調(diào)制方式下吞吐量隨信噪比的變化趨勢(shì)。從圖4中可以看出,隨著信噪比的增大,吞吐量整體越來(lái)越大。自適應(yīng)調(diào)制方式的選擇原則是:在一定信噪比范圍內(nèi),選擇吞吐量最大的調(diào)制方式。信噪比在0~3 dB,BPSK調(diào)制下吞吐量最大;信噪比在4~8 dB,4QAM調(diào)制下吞吐量最大;信噪比在9~22 dB,8QAM調(diào)制下吞吐量最大;信噪比在22 dB以上時(shí),16QAM調(diào)制下吞吐量最大。表1給出了自適應(yīng)調(diào)制的切換閾值。

圖4 不同調(diào)制方式下吞吐量Fig.4 Throughput with different modulation modes

表1 自適應(yīng)調(diào)制切換閾值Table 1 Threshold for adaptive modulation

3.3 仿真結(jié)果及分析

通過(guò)MATLAB仿真平臺(tái),采用文獻(xiàn)[8]中在2014年8月現(xiàn)場(chǎng)試驗(yàn)測(cè)量的信道參數(shù)進(jìn)行仿真,通過(guò)表1及所設(shè)置參數(shù)編寫腳本文件實(shí)現(xiàn)仿真。仿真對(duì)比了固定調(diào)制模式、直接反饋和強(qiáng)化學(xué)習(xí)三種情況下自適應(yīng)調(diào)制系統(tǒng)的性能。從圖5(a)中可以看出,在固定調(diào)制方式16QAM調(diào)制下,系統(tǒng)誤碼性能較差,平均誤碼率為2.94×10-2;圖5(b)中,直接反饋下的自適應(yīng)調(diào)制,誤碼性能相較于16QAM調(diào)制下有所改善,系統(tǒng)平均誤碼率為7.5×10-3;圖5(b)中,經(jīng)強(qiáng)化學(xué)習(xí),從無(wú)到有的訓(xùn)練數(shù)據(jù),經(jīng)400次左右的訓(xùn)練,系統(tǒng)學(xué)習(xí)了環(huán)境變化規(guī)律,誤碼性能相較圖5(a)、圖5(b),系統(tǒng)誤碼率為3.1×10-3,系統(tǒng)誤碼性能得到提高。

圖5 三種情況下系統(tǒng)性能Fig.5 System performance under three cases

圖6中反映了三種方式下的吞吐量情況,從圖中可以看出吞吐量比較:經(jīng)強(qiáng)化學(xué)習(xí)>直接反饋>16QAM下。在16QAM調(diào)制下,信號(hào)傳輸?shù)玫降目偼掏铝繛? 507 bit,在直接反饋下,得到傳輸?shù)目偼掏铝繛? 860 bit;經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后,根據(jù)學(xué)習(xí)得到最佳策略,根據(jù)最佳策略而選擇的動(dòng)作,采取最佳動(dòng)作得到的誤碼率,傳輸?shù)玫降目偼掏铝渴? 000 bit。

圖6 三種情況下吞吐量變化趨勢(shì)Fig.6 Variation trend of throughput under three cases

4 結(jié)論

基于SARSA算法在沒有先驗(yàn)知識(shí)的條件下,對(duì)水聲信道狀態(tài)變化進(jìn)行了從無(wú)到有的學(xué)習(xí),最終學(xué)習(xí)出不同信道狀態(tài)下的最佳自適應(yīng)調(diào)制策略,并與直接反饋和固定調(diào)制方式下系統(tǒng)性能做了對(duì)比,從仿真結(jié)果可以看出:①經(jīng)強(qiáng)化學(xué)習(xí)后的系統(tǒng)可降低信號(hào)在傳輸時(shí)的誤碼率,保證了信道傳輸?shù)目煽啃?②系統(tǒng)經(jīng)過(guò)強(qiáng)化學(xué)習(xí),提高了通信吞吐量,提高了傳輸效率,并且,傳輸數(shù)據(jù)越多,改善效果越明顯。綜上所述,利用人工智能中的強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)水聲信道變化的規(guī)律,并進(jìn)行水聲自適應(yīng)通信,結(jié)果表明SARSA算法在水聲自適應(yīng)調(diào)制系統(tǒng)中,能有效提高自適應(yīng)調(diào)制系統(tǒng)的傳輸效率和可靠性。

猜你喜歡
水聲吞吐量信噪比
水聲單載波擴(kuò)頻均衡技術(shù)研究
一種適用于水聲通信的信號(hào)水印認(rèn)證技術(shù)
兩種64排GE CT冠脈成像信噪比與劑量對(duì)比分析研究
自跟蹤接收機(jī)互相關(guān)法性能分析
基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
2017年3月長(zhǎng)三角地區(qū)主要港口吞吐量
2016年10月長(zhǎng)三角地區(qū)主要港口吞吐量
2016年11月長(zhǎng)三角地區(qū)主要港口吞吐量
認(rèn)知水聲通信系統(tǒng)中OFDM技術(shù)的應(yīng)用