(海軍工程大學(xué) 電子工程學(xué)院,武漢 430033)
應(yīng)答式干擾下基于Q學(xué)習(xí)算法的跳頻系統(tǒng)信道調(diào)度方法*
徐長月**,黃高明,侯小陽
(海軍工程大學(xué) 電子工程學(xué)院,武漢 430033)
針對應(yīng)答式干擾對跳頻通信的影響,提出了基于Q學(xué)習(xí)算法的認(rèn)知無線電跳頻系統(tǒng)信道調(diào)度模型。該模型根據(jù)認(rèn)知系統(tǒng)對跳頻行為的實時回報評估值,運用機器學(xué)習(xí)的方法尋找出最合理的規(guī)避干擾策略,最終達(dá)到適應(yīng)干擾的目的。運用Simulink對該干擾方式下的算法應(yīng)用性能進(jìn)行了仿真驗證,結(jié)果表明該算法能夠降低跳頻系統(tǒng)此干擾下的誤比特率到1%以下,基本接近未受干擾下的誤比特率。
認(rèn)知無線電;跳頻系統(tǒng);應(yīng)答式干擾;Q學(xué)習(xí);信道調(diào)度
隨著電磁環(huán)境的日趨復(fù)雜,傳統(tǒng)的通信電子防護(hù)能力已經(jīng)不能很好地適應(yīng)新環(huán)境,具體表現(xiàn)為電子防護(hù)感知能力弱、智能化和自適應(yīng)水平不高[1]。跳頻干擾能夠針對通信網(wǎng)絡(luò),給我方的信息系統(tǒng)帶來極大的威脅。
為了消除這種干擾的影響,傳統(tǒng)跳頻系統(tǒng)通常是從幾種常規(guī)的“抗干擾”技術(shù)著手,如文獻(xiàn)[2]利用擴展頻譜的方法來降低干擾增益,文獻(xiàn)[3]采用增加跳速的方法來提升系統(tǒng)性能,文獻(xiàn)[4]則通過組網(wǎng)的方式提升通信網(wǎng)絡(luò)的可靠性等。然而,隨著干擾技術(shù)的日益發(fā)展,這些方式均有其實際應(yīng)用的局限性,防護(hù)效果愈加不理想。
人工智能和軟件無線電技術(shù)的發(fā)展催生了認(rèn)知無線電的出現(xiàn),與傳統(tǒng)無線電相比,其具有學(xué)習(xí)能力是其本質(zhì)特征,給解決跳頻干擾的問題帶來新的解決思路。其可以快速感知電磁環(huán)境和無線信道狀況,對干擾信號特征進(jìn)行分析和學(xué)習(xí),根據(jù)累積的學(xué)習(xí)經(jīng)驗,推斷出干擾信號下一步的行為以及提前采取合適的避讓方式。通過“感知-學(xué)習(xí)-決策”的模式來規(guī)避干擾,使“先知先覺”的智能抗干擾方式取代傳統(tǒng)“后知后覺”的抗干擾方式[5-6]?,F(xiàn)階段機器學(xué)習(xí)策略在認(rèn)知通信中的主要應(yīng)用有基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法的通信頻率和相關(guān)參數(shù)預(yù)測、基于統(tǒng)計學(xué)習(xí)的信道模型訓(xùn)練以及基于強化學(xué)習(xí)的頻譜利用率提高,如文獻(xiàn)[7]。
Q學(xué)習(xí)(Q-learning),又稱增強學(xué)習(xí),是一種強化學(xué)習(xí),是一類求解序貫優(yōu)化決策問題的機器學(xué)習(xí)方法,強調(diào)在與環(huán)境的交互中學(xué)習(xí)。Q學(xué)習(xí)系統(tǒng)通過利用行為作用于環(huán)境的評價性來修正行為選擇策略,以極大化期望的回報值為學(xué)習(xí)目標(biāo)。在人工智能和機器學(xué)習(xí)領(lǐng)域,Q學(xué)習(xí)在理論和算法上已取得了大量的研究成果[8]。本文將Q學(xué)習(xí)算法應(yīng)用到基于認(rèn)知無線電跳頻系統(tǒng)的信道調(diào)度中,通過仿真證實了該算法在針對應(yīng)答式干擾有著良好的預(yù)測效果,經(jīng)過一段時間的學(xué)習(xí)可以適應(yīng)干擾,降低跳頻系統(tǒng)的誤比特率。
應(yīng)答式干擾又稱振蕩式回答干擾、跟蹤式干擾,是對付跳頻通信最有效的干擾方式。它可以通過接收對方的通信信號,長時間儲存測得的頻率參數(shù),實現(xiàn)多種干擾樣式的調(diào)制,干擾對方的通信網(wǎng)絡(luò),在電子對抗中有著廣泛的應(yīng)用。
應(yīng)答式干擾有許多樣式,典型的干擾方式有引導(dǎo)應(yīng)答式干擾、轉(zhuǎn)發(fā)應(yīng)答式干擾。本文中一種應(yīng)答式干擾機原理是通過感知發(fā)射機活動的頻段,隨機發(fā)射大功率寬帶噪聲對該頻段進(jìn)行壓制干擾,在對方通信信道空閑的時候保持干擾機空閑狀態(tài),這樣既可以節(jié)省干擾機的能量又可以避免干擾機被偵察到。
干擾機有效的干擾區(qū)域與干擾機、發(fā)射機、接收機三者的相對位置有關(guān),其位置示意圖如圖1所示。
圖1 應(yīng)答式干擾模型Fig.1 The mode of reactive jamming
若Td代表跳頻持續(xù)時間,Tj代表干擾機處理信號時間,η代表保證接收機不被干擾成功傳輸每跳滯留時間的最小占比,c代表光速,d1、d2、d3為圖1所示的距離,則應(yīng)答式干擾機成功干擾需滿足下式[9]:
d1+d3≤(ηTd-Tj)c+d2。
(1)
當(dāng)式(1)取等號時,圖1就是一個以接收機、干擾機為焦點的橢圓,即干擾機、發(fā)射機和接收機相對位置關(guān)系要滿足干擾橢圓才能實施有效的干擾。若要取得理想的干擾效果,干擾信號強度要足夠大,即信干比(Signal-to-Interference Ratio,SIR)足夠小,并且要保證干擾機足夠接近發(fā)射機與接收機。本文假設(shè)均滿足這些要求。
對上述應(yīng)答式干擾機模型作出如下定義:干擾機監(jiān)測到信號傳輸時間超過Nr單位時間步長,發(fā)射干擾信號,并且接收機被成功干擾;一旦監(jiān)測到的信號空閑時間達(dá)到Ni單位時間步長,停止干擾。
傳統(tǒng)跳頻通信中,收發(fā)雙發(fā)受事先設(shè)定的偽隨機碼控制進(jìn)行同步跳變,而不考慮每次跳達(dá)的信道質(zhì)量好壞,以及每次跳變給系統(tǒng)帶來的能量消耗和開銷等問題。
基于上述情況,本文的跳頻策略是:根據(jù)系統(tǒng)被干擾的過程中每個時刻系統(tǒng)回報度的一個評估反饋值,發(fā)射機可以隨機選擇保持信道不變、信道空閑、信道改變等行為,經(jīng)過一段時間對這些評估值與發(fā)射機行為的統(tǒng)計學(xué)習(xí),最終達(dá)到在每個時刻采取合適的行為以“避讓”干擾的目的。需要指出的是,系統(tǒng)選擇改變信道行為時,高質(zhì)量的信道通過認(rèn)知無線電對電磁環(huán)境的實時監(jiān)測進(jìn)行提供。系統(tǒng)回報值與收發(fā)雙方的信道質(zhì)量、能量消耗以及系統(tǒng)開銷等實時反饋因素有關(guān)。
設(shè)空閑時間Ni為單位時間長度,設(shè)跳頻系統(tǒng)為每一跳駐留時間為不大于Ni的超快速跳頻系統(tǒng),下文將以Nr=3、Ni=1的應(yīng)答式干擾為重點,對Q學(xué)習(xí)算法在認(rèn)知無線電跳頻系統(tǒng)信道調(diào)度中的應(yīng)用作深入研究。
在Q學(xué)習(xí)中,把學(xué)習(xí)的過程當(dāng)作馬爾科夫決策過程(Markov Decision Process,MDP)模型來處理[10]。跳頻系統(tǒng)信道調(diào)度Agent在這個過程中所處的每個狀態(tài)下,所選擇的行為是隨機的。在t時刻從狀態(tài)s采取行為a后,達(dá)到狀態(tài)s′的概率表達(dá)式如下:
(2)
該概率值取決于Agent所處的狀態(tài)與采取的行為,它是一個無記憶的系統(tǒng),因而具有馬爾科夫特性。
(3)
學(xué)習(xí)的目的就是通過在一個特定的環(huán)境中,利用統(tǒng)計的方法估算出采取不同行為帶來的預(yù)計回報度大小。
為了獲得Agent的最優(yōu)策略,必須考慮到系統(tǒng)處在每個狀態(tài)采取任何行為帶來的長期回報度。公式(4)就是基于觀察評估的行為-回報度函數(shù),對于在策略π下,從狀態(tài)s采取行為a的統(tǒng)計回報度Qπ(s,a)為[11]
(4)
式中:γ為折扣率,范圍在0~1之間,代表著未來回報率的影響強度,也就是折扣率γ越接近于0,Agent考慮即時回報度,忽略長遠(yuǎn)的效果;相反,γ越接近于1,Agent考量越長遠(yuǎn),削減即時回報度對學(xué)習(xí)策略的影響。
在特定狀態(tài)st下,采取行為at方式時,算法更新評估函數(shù)Q(st,at)如下[11]:
(5)
式中:α代表學(xué)習(xí)率,范圍在0~1之間,可為常數(shù),表示評估函數(shù)更新的速度大小。
Q學(xué)習(xí)算法的步驟如下[12]:
Step1 任意初始化狀態(tài)Q(st,at)。
Step2 觀察得到當(dāng)前狀態(tài)st。
Step3 根據(jù)特定的搜索策略(本文采用ε貪婪算法),選擇當(dāng)前狀態(tài)st對應(yīng)的隨機行為at。
Step4 執(zhí)行行為at,得到回報值rt+1,同時觀察得到下一個狀態(tài)st+1。
Step5 根據(jù)強化學(xué)習(xí)公式(5),更新狀態(tài)與動作。
Step6 更新狀態(tài)st+1=st。
Step7 回到Step 2,重復(fù)執(zhí)行Step 2~7,直到Agent獲得最大的穩(wěn)定回報值,重復(fù)的步數(shù)為學(xué)習(xí)的時間步長。
將Q學(xué)習(xí)算法應(yīng)用于認(rèn)知無線電跳頻系統(tǒng)的信道調(diào)度,建立了如圖2所示的信道調(diào)度Agent和電磁環(huán)境的交互圖。Q學(xué)習(xí)應(yīng)用在認(rèn)知無線電信道調(diào)度Agent內(nèi),決策器按照內(nèi)部特定的搜索策略(ε貪婪算法)和當(dāng)前信道狀態(tài)st以及Q學(xué)習(xí)算法狀態(tài)-行為回報值rt+1,在行為庫中選擇合適行為使得迭代的Q值最大化。行為庫由以下3種方式構(gòu)成:
(1)改變信道,根據(jù)認(rèn)知無線電提供的信道庫,隨機選擇新信道進(jìn)行通信;
(2)保持信道,保持相同信道進(jìn)行信息傳輸;
(3)空閑信道,將信道空閑,不進(jìn)行任何通信。
圖2 基于Q學(xué)習(xí)的認(rèn)知無線電信道調(diào)度Agent與電磁環(huán)境交互示意圖Fig.2 The interaction process based on Q-learning algorithm between the agent of cognitive radio channel scheduling and electromagnetic environment
認(rèn)知無線電信道調(diào)度Agent處于當(dāng)前狀態(tài)st,選擇特定行為at后,環(huán)境反饋回報值rt+1,同時信道調(diào)度Agent感知到系統(tǒng)的下一個狀態(tài)st+1,Q(st,at)值進(jìn)行下一次迭代,得到更新。確定Q學(xué)習(xí)算法因素(包括狀態(tài)、獎懲、搜索策略、Q(st,at)函數(shù)、學(xué)習(xí)率α和折扣系數(shù)γ等)后,Agent最終目的就是確定3種信道調(diào)度行為的動態(tài)選擇,得到系統(tǒng)最大回報值,從而最優(yōu)化系統(tǒng)性能指標(biāo)。
如圖3 ,用MDP模型來示意信道調(diào)度的所有可能狀態(tài)和選擇行為。模型的水平方向表示信號傳輸?shù)目倳r間,垂直方向表示在同一信道傳輸(空閑)的時間,每個圈代表整個信道調(diào)度過程中所處的狀態(tài),方向線代表在各個傳輸狀態(tài)信道可采取的行為。
圖3 基于Nr=3應(yīng)答式干擾信道調(diào)度馬爾科夫決策過程圖Fig.3 The MDP process of channel scheduling on the reactive jamming while Nr=3
下面就Q學(xué)習(xí)應(yīng)用到動態(tài)認(rèn)知無線電信道調(diào)度應(yīng)對應(yīng)答式干擾問題的關(guān)鍵因素進(jìn)行闡明。
(1)信道所處狀態(tài):空閑態(tài)(s0)、改變態(tài)(s1)、保持態(tài)(s2,s3)、干擾態(tài)(s4)。
(2)行為選擇:改變信道(以符號1表示)、保持信道(以符號0表示)、空閑信道(以符號-1表示)。
(3)搜索策略:運用ε貪婪算法進(jìn)行平衡“探索”和“利用”。信道在狀態(tài)st,以1-ε的概率選擇最優(yōu)Q(st,at)值對應(yīng)的行為(即 “利用”),以ε的概率任意選擇對應(yīng)當(dāng)前狀態(tài)st的行為(即“探索”)。進(jìn)行仿真時,隨機產(chǎn)生0~1之間的一個數(shù),根據(jù)其與ε的大小比較結(jié)果選擇對應(yīng)的行為。
(4)回報度相關(guān)因素:在實際應(yīng)用中,回報度是由鏈路的傳輸質(zhì)量和吞吐量決定的。由于改變信道需要花費時間和能量,因此在鏈路的傳輸質(zhì)量和吞吐量不受影響的情況下,保持信道將獲得更大的回報值,且維持得越久,回報值越大?;谶@些考量因素,在圖3信道調(diào)度馬爾科夫過程基礎(chǔ)上,建立如圖4所示的回報度圖[13],圖中每個圈中的數(shù)字即采取上述行為時的返回回報度。
圖4 Nr=3應(yīng)答式干擾信道調(diào)度行為回報度Fig.4 The rewards of channel scheduling on the reactive jamming while Nr=3
跳頻系統(tǒng)信道調(diào)度解決應(yīng)答式干擾問題的關(guān)鍵就是要確定各個狀態(tài)采取恰當(dāng)?shù)男袨?,使整個Agent得到的回報度最大。
基于Simulink平臺,在上述Nr=3、Ni=1應(yīng)答式干擾下,設(shè)置超快跳頻系統(tǒng)跳速為1×105hop/s,每一跳信號的調(diào)制方式為2FSK,信號傳輸速率1 Mbit/s,取信噪比為17 dB,跳頻頻點為68個,信道間隔1 MHz,跳頻帶寬68 MHz;干擾機信干比-18 dB,干擾跟蹤概率為100%;系統(tǒng)每次仿真時間1 ms,學(xué)習(xí)率α= 0.9,折扣率γ= 0.8,探索率ε=0.95[14]。以下對基于Q-學(xué)習(xí)算法的認(rèn)知無線電跳頻系統(tǒng)信道調(diào)度策略進(jìn)行仿真。
系統(tǒng)行為回報度隨學(xué)習(xí)迭代時間的變化如圖5(a)所示,可以看出在學(xué)習(xí)110次左右時間步長后系統(tǒng)回報度近乎平穩(wěn),說明該算法已得出各狀態(tài)最大回報度的行為選擇策略。此時,仿真得到的最優(yōu)策略為1 0 0 -1,即采取在狀態(tài)s0下改變信道、狀態(tài)s1下保持信道、狀態(tài)s2下保持信道、狀態(tài)s3下空閑信道循環(huán)策略,將得到最大回報,如圖5(b)所示。
(a)行為回報度
(b)最優(yōu)策略圖5 Nr=3應(yīng)答式干擾模型信道調(diào)度行為回報度及最優(yōu)策略Fig.5 The rewards of channel scheduling and optimal policyon the reactive jamming while Nr=3
采取了Q學(xué)習(xí)算法跳頻系統(tǒng)與普通跳頻系統(tǒng)性能在應(yīng)答式干擾下隨干擾時間的變化如圖6所示,可以看出普通跳頻在應(yīng)答式干擾下,誤比特率極高,通信性能變差且不能恢復(fù)。Q學(xué)習(xí)算法跳頻系統(tǒng)在應(yīng)答式干擾下,初始誤比特率極高,但隨著學(xué)習(xí)時間的積累,學(xué)習(xí)能力的增強,系統(tǒng)行為方式的采取得當(dāng),較好地對應(yīng)答式干擾進(jìn)行了合理的“避讓”,系統(tǒng)誤比特率隨著學(xué)習(xí)時間步長不斷下降,并在學(xué)習(xí)110次左右時間步長后基本達(dá)到較低的水準(zhǔn),即可滿足系統(tǒng)通信需求。假設(shè)上述干擾機單位時間步長為10 μs,即干擾機監(jiān)測到信號傳輸時間超過30 μs,發(fā)射干擾信號并且干擾成功,監(jiān)測到的信號空閑時間達(dá)到10 μs,停止干擾,則系統(tǒng)只需要學(xué)習(xí)1.1 ms左右的學(xué)習(xí)時間即可適應(yīng)這種干擾。
圖6 Nr=3應(yīng)答式干擾條件下Q學(xué)習(xí)跳頻通信性能Fig.6 The performance of frequency hopping communication based on Q-learning algorithm on the reactive jamming while Nr=3
最后,對信干比在-20~0 dB之間進(jìn)行了一段時間的仿真,結(jié)果如圖7所示。
圖7 Nr=3應(yīng)答式干擾不同信干比下Q學(xué)習(xí)跳頻通信性能Fig.7 The performance of frequency hopping communication based on Q-learning algorithm on the reactive jamming with different SIR while Nr=3
由圖7可以看出,隨著干擾信號的增強,系統(tǒng)誤比特率增大。運用Q學(xué)習(xí)算法的跳頻系統(tǒng)在這段時間內(nèi)的誤比特率基本接近但是略高于受到干擾下的系統(tǒng)性能,這是由于運用Q學(xué)習(xí)算法的跳頻系統(tǒng)在受到干擾后學(xué)習(xí)時間內(nèi)混入的誤碼造成的。
未來的電子戰(zhàn)將面臨著更加復(fù)雜的電磁環(huán)境威脅,將機器學(xué)習(xí)與人工智能的新技術(shù)手段應(yīng)用到信息系統(tǒng)的防護(hù)中去,能適應(yīng)未來多變的戰(zhàn)場情況,取得信息優(yōu)勢,獲得戰(zhàn)場主動權(quán)具有重大的意義。本文就機器學(xué)習(xí)中的Q學(xué)習(xí)算法在認(rèn)知無線電跳頻系統(tǒng)中的信道調(diào)度應(yīng)用進(jìn)行了研究,并給出了應(yīng)對應(yīng)答式干擾下基于Q學(xué)習(xí)算法的系統(tǒng)性能仿真。Q學(xué)習(xí)算法在應(yīng)對應(yīng)答式干擾下的信道調(diào)度、提升信息系統(tǒng)的防護(hù)能力方面具有較高的應(yīng)用價值,但該方法在依據(jù)信道質(zhì)量、系統(tǒng)能量消耗和開銷的評估回報值方面還需要進(jìn)一步研究。
[1] 吳利民,王滿喜,陳功.認(rèn)知無線電與通信電子戰(zhàn)概論[M].北京:電子工業(yè)出版社,2015.
[2] 姚富強,張少元.一種跳碼直擴通信技術(shù)體制探討[J].國防科技大學(xué)學(xué)報,2005,27(5):52-55
YAO Fuqiang,ZHANG Shaoyuan.Research on a kind of communication technical architecture of code-hopping DSSS[J].Journal of National University of Defense Technology,2005,27(5) :52-55. (in Chinese)
[3] 沈連豐,鄒樂,宋揚,等.一種適用于WPAN應(yīng)用環(huán)境的高速自適應(yīng)跳頻[J].電子學(xué)報,2002,30(10):1541-1543.
SHEN Lianfeng,ZOU Le,SONG Yang,et al.A high-speed AFH scheme and its performance analysis in WPAN systems[J].Acta Electronic Sinica,2002,30(10):1541-1543. (in Chinese)
[4] 張毅,姚富強.基于可靠性的抗干擾通信網(wǎng)性能仿真系統(tǒng)及其性能分析[J].系統(tǒng)仿真學(xué)報,2004,16(5):967-970.
ZHANG Yi,YAO Fuqiang.Performance simulation of the anti-jamming communication network[J].Journal of System Simulation,2004,16(5):967-970. (in Chinese)
[5] 李永成,王滿喜,姚少林.基于后綴數(shù)組算法的認(rèn)知引擎技術(shù)研究[J].電子對抗,2016(6) :27-30.
LI Yongcheng,WANG Manxi,YAO Shaolin. Research on cognitive engine technique based on suffix array[J].Electronic Warfare,2016(6):27-30. (in Chinese)
[6] 石峰,王文彬.認(rèn)知無線電網(wǎng)絡(luò)的干擾信道學(xué)習(xí)算法[J].科技通報,2015,31 (6):130-132.
SHI Feng,WANG Wenbin.Interference channel learning algorithm in cognitive radio networks[J].Bulletin of Science and Technology,2015,31 (6):130-132. (in Chinese)
[7] 王董禮,魏瓊,曹鵬,等.短波認(rèn)知通信中的機器學(xué)習(xí)策略[J].信息通信,2016,168(12):40-42.
WANG Dongli,WEI Qiong,CAO Peng,et al.The machine learning strategies in HF cognitive communication[J].Information and Commuications,2016,168(12):40-42. (in Chinese)
[8] 徐昕,賀漢根.神經(jīng)網(wǎng)絡(luò)增強學(xué)習(xí)的梯度算法研究[J].計算機學(xué)報,2003,26(2):227-233.
XU Xin,HE Hangen.A gradient algorithm for neural-network-based reinforcement learning[J].Chinese Journal of Computers,2003,26(2):227-233. (in Chinese)
[9] 楊明,陳靜. 超短波跳頻通信抗跟蹤式干擾性能分析[J].無線電工程,2014,44 (3):32-34.
YANG Ming,CHEN Jing. Analysis on anti-tracking jamming performance of VHF / UHF frequency-hopping communication[J].Radio Engineering,2014,44 (3):32-34.(in Chinese)
[10] 于俊,劉全,傅啟明,等.基于優(yōu)先級掃描Dyna結(jié)構(gòu)的貝葉斯Q學(xué)習(xí)方法[J].通信學(xué)報,2013,34 (11):129-139.
YU Jun,LIU Quan,FU Qiming,et al.Bayesian Q learning method with Dyna architecture and prioritized sweeping[J].Journal on Communications,2013,34 (11):129-139. (in Chinese)
[11] SUTTON R,BARTO A. Reinforcement learning:an introduction[M].Cambridge:Cambridge University Press,1998.[12] 王世進(jìn),孫晟,周炳海,等.基于Q-學(xué)習(xí)的動態(tài)單機調(diào)度[J].上海交通大學(xué)學(xué)報,2007,41(8):1227-1232.
WANG Shijin,SUN Sheng,ZHOU Binghai,et al.Q-learning based dynamic single machine scheduling[J].Journal of Shanghai Jiaotong University,2007,41(8):1227-1232. (in Chinese)
[13] LICHTMAN M L.Antifragile communications[D].Virginia:Virginia Polytechnic Institute and State University,2016:129-144.
[14] WANG Y C,USHER J M. Application of reinforcement learning for agent-based production scheduling[J].Engineering Applications of Artificial Intelligence,2005,18(1):73-82.
AChannelSchedulingMethodforFrequencyHoppingSystemBasedonQ-learningAlgorithmunderReactiveJamming
XU Changyue,HUANG Gaoming,HOU Xiaoyang
(College of Electronic Engineering,Naval University of Engineering,Wuhan 430033,China)
In response to effect of reactive jamming on frequency hopping(FH) communication,a mode of cognitive radio frequency hopping system′s the channel scheduling based on the Q-learning algorithm is proposed.The model uses the method of machine learning to find out the most reasonable strategy of avoiding jamming according to the real-time evaluation rewards on hopping behaviors of the cognitive system,and realizes adapting to the jamming eventually.The performance of the application in response to the reactive jamming is simulated on Simulink and the results show that it can significantly reduce the bit error rate(BER) of FH system less than one percent which is nearly close to the one in unjammed condition.
cognitive radio;frequency hopping system;reactive jamming;Q-learning;channel scheduling
10.3969/j.issn.1001-893x.2017.12.018
徐長月,黃高明,侯小陽.應(yīng)答式干擾下基于Q學(xué)習(xí)算法的跳頻系統(tǒng)信道調(diào)度方法[J].電訊技術(shù),2017,57(12):1451-1456.[XU Changyue,HUANG Gaoming,HOU Xiaoyang.A channel scheduling method for frequency hopping system based on Q-learning algorithm under reactive jamming[J].Telecommunication Engineering,2017,57(12):1451-1456.]
2017-03-24;
2017-07-14
date:2017-03-24;Revised date:2017-07-14
國家自然科學(xué)基金資助項目(61601491)
444716022@qq.comCorrespondingauthor444716022@qq.com
TN973.3
A
1001-893X(2017)12-1451-06
徐長月(1993—),男,江蘇宿遷人,2015年于河海大學(xué)獲工學(xué)學(xué)士學(xué)位,現(xiàn)為海軍工程大學(xué)碩士研究生,主要研究方向為信息對抗技術(shù);
Email:444716022@qq.com
黃高明(1972—),男,湖南永州人,2006年于東南大學(xué)獲博士學(xué)位,現(xiàn)為海軍工程大學(xué)教授,主要研究方向為雷達(dá)/電子對抗信號處理、盲信號處理、無源探測;
侯小陽(1989—),男,陜西寶雞人,2012年于海軍工程大學(xué)獲工學(xué)學(xué)士學(xué)位,現(xiàn)為碩士研究生,主要研究方向為信息對抗技術(shù)。