国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于馬爾可夫的多功能雷達認知干擾決策建模研究

2022-08-17 09:44朱霸坤朱衛(wèi)綱高天昊
關(guān)鍵詞:短語雷達決策

朱霸坤, 朱衛(wèi)綱, 李 偉, 楊 瑩, 高天昊

(1. 航天工程大學(xué)電子光學(xué)工程系, 北京 101416; 2. 電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點實驗室,河南 洛陽 471032; 3. 航天工程大學(xué)研究生院, 北京 101416)

0 引 言

電磁空間是繼陸、海、空、天、網(wǎng)后又一個獨立的作戰(zhàn)空間和作戰(zhàn)域。電子戰(zhàn)作為贏得電磁頻譜戰(zhàn)的核心手段,也追隨著電磁頻譜裝備發(fā)展的趨勢,朝著智能化、多功能化、網(wǎng)絡(luò)化的趨勢發(fā)展。多功能雷達依托于數(shù)字相控陣體制,具有快速的天線波束掃描能力和靈活的多波束形成能力,能夠?qū)崿F(xiàn)檢測、跟蹤、制導(dǎo)等多種功能,是各國電磁頻譜裝備體系中的核心關(guān)鍵裝備之一,對于戰(zhàn)爭的勝負至關(guān)重要。因此,針對多功能雷達的干擾,一直是各國研究的熱點之一。雷達干擾策略優(yōu)化是認知電子戰(zhàn)過程中實現(xiàn)認知干擾的關(guān)鍵環(huán)節(jié),包括雷達干擾決策和雷達干擾波形優(yōu)化兩個部分,而本文的主要研究內(nèi)容為雷達干擾決策。雷達干擾決策是指在雷達對抗的過程中,干擾方以完成既定的戰(zhàn)術(shù)目標為目的,選擇干擾樣式的過程。傳統(tǒng)的雷達干擾決策方法包括基于模板匹配的干擾決策方法、基于博弈論的干擾決策方法和基于推理的干擾決策方法。這三類方法各有特點,但無一例外都需要大量的先驗數(shù)據(jù)作為決策的支撐。而多功能雷達波形靈活多變,自適應(yīng)能力強,依靠對大量先驗數(shù)據(jù)進行統(tǒng)計分析進而得到干擾策略的方法面臨著先驗數(shù)據(jù)獲取困難問題,進而會導(dǎo)致干擾決策時效性和有效性的降低。

強化學(xué)習是當前機器學(xué)習研究中的熱門算法,已經(jīng)在游戲、機器人控制、無人駕駛、金融交易和建筑規(guī)劃等領(lǐng)域取得了廣泛的應(yīng)用,在干擾決策領(lǐng)域也得到了越來越多學(xué)者的青睞?;趶娀瘜W(xué)習的干擾決策方法具備一定的認知能力,能夠在缺乏先驗數(shù)據(jù)的情況下通過“試錯”的方式學(xué)習得到最佳的干擾策略。文獻[14-17]和文獻[18]分別采用了基于Q-Learning和基于深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network, DQN)的方法進行雷達干擾決策,研究和驗證了將強化學(xué)習算法應(yīng)用于干擾決策的可行性,但相關(guān)文獻在干擾決策過程的建模中還存在一些分歧,如多功能雷達信號的建模、雷達狀態(tài)的界定等問題。

本文主要是通過對多功能雷達信號和雷達對抗過程的研究,完善雷達認知干擾決策模型的相關(guān)細節(jié),并在此模型的基礎(chǔ)上進行仿真實驗,驗證模型和算法的相關(guān)性能。本文以理論基礎(chǔ)、系統(tǒng)設(shè)計、模型算法研究的遞進次序,分別研究了多功能雷達信號模型、認知干擾決策系統(tǒng)和認知干擾決策的馬爾可夫決策過程(Markov decision process, MDP)模型3個方面的內(nèi)容。

1 多功能雷達信號模型研究

1.1 多層級的多功能雷達信號模型

多功能雷達是指能序貫執(zhí)行大量雷達任務(wù),具有多種雷達功能的雷達系統(tǒng),一般通過相控陣天線來實現(xiàn)。相比于傳統(tǒng)雷達,多功能雷達具備瞬時改變雷達信號參數(shù)的能力,因此多功能雷達在時間和空間域上都具有很強的靈活性,并且能夠根據(jù)目標和環(huán)境特性自適應(yīng)地調(diào)整性能指標。多功能雷達的靈活性和自適應(yīng)性使其具有十分復(fù)雜的信號形式,傳統(tǒng)的基于統(tǒng)計的電子偵察模型難以對其進行準確描述。

對此,Visenevski等人提出了多層級的多功能雷達信號模型。如圖1所示,該模型分為3層,分別為雷達字層、雷達短語層和雷達句子層。其中,雷達字為有限數(shù)目雷達脈沖的固定排列,是最基本的信號單元;有限個雷達字又構(gòu)成了雷達短語,雷達短語的排列固定,由特定的文法規(guī)則產(chǎn)生,影響著多功能雷達在不同環(huán)境下的工作性能。雷達短語最終構(gòu)成了雷達句子。雷達句子是雷達信號序列高度符號化的形式。多層級的多功能雷達信號模型采用符號化的語言對雷達信號進行表征,通過簡潔的符號序列保留了雷達信號中的絕大部分關(guān)鍵特征信息,為多功能雷達信號的相關(guān)研究工作打下了良好的基礎(chǔ)。本節(jié)主要基于多層級的多功能雷達信號模型研究多功能雷達信號。

圖1 多層級的多功能雷達信號模型Fig.1 Multi-level multi-functional radar signal model

1.2 雷達狀態(tài)

在多功能雷達中,一種雷達功能的實現(xiàn)需要序貫地執(zhí)行一系列的雷達任務(wù),多種雷達功能常以時分復(fù)用的形式并行執(zhí)行。如圖2所示,多功能雷達的任務(wù)調(diào)度模塊會根據(jù)雷達功能和雷達任務(wù)的優(yōu)先級排序生成任務(wù)序列。在生成任務(wù)序列后,多功能雷達會依據(jù)目標和環(huán)境特性為雷達任務(wù)選擇雷達短語。而雷達短語序列會轉(zhuǎn)換為雷達字序列,最后映射為雷達脈沖信號。

圖2 多功能雷達工作原理簡圖Fig.2 Diagram of working principle of multi-functional radar

多功能雷達的信號靈活多變,因此要對多功能雷達實施有效的干擾,需要實時地獲取雷達的工作狀態(tài)信息,以支撐干擾策略的快速調(diào)整??梢哉f,雷達狀態(tài)識別是多功能雷達對抗的基礎(chǔ),將雷達對抗中雷達的行為過程分解為離散的雷達狀態(tài)是進行干擾決策的前提條件。在文獻[25]中,雷達狀態(tài)被定義為:以干擾方所接收的信號參數(shù)為基本依據(jù)而界定的目標雷達所處的情況。而關(guān)于雷達狀態(tài)的表征方法,目前還存在著分歧。文獻[14]將雷達工作模式作為雷達狀態(tài),但多功能雷達在同一工作模式下會根據(jù)環(huán)境和目標特性選取不同的雷達短語,僅憑工作模式還不足以為干擾決策提供充足的信息。文獻[15]在已有的脈沖描述字和輻射源描述字的基礎(chǔ)上選取特征表征雷達狀態(tài),但如何選取特征,選取哪些特征又成為新的問題。文獻[18]將雷達任務(wù)作為雷達狀態(tài),雷達任務(wù)雖與雷達短語有關(guān)但和雷達短語并不是一一對應(yīng)的關(guān)系,因此并不能用嚴謹?shù)臄?shù)學(xué)符號來表示或者描述雷達任務(wù)。針對在當前雷達狀態(tài)表征中存在的問題,本文提出一種聯(lián)合雷達短語信息和雷達功能信息的雷達狀態(tài)表征方法。

一款多功能雷達,其雷達短語與雷達字之間映射關(guān)系是相對固定的,而且雷達字是雷達工程師經(jīng)過大量實驗根據(jù)經(jīng)驗設(shè)計出來的,也是相對固定的,所以導(dǎo)致多功能雷達的靈活性和自適應(yīng)性主要是雷達任務(wù)的調(diào)度機制和雷達短語的選取機制。在這兩個機制的作用下,多功能雷達生成了雷達短語序列,所以雷達短語序列集中反應(yīng)了多功能雷達的靈活性和自適應(yīng)性。可以考慮將雷達短語作為雷達狀態(tài),但同一雷達短語可能會被不同的雷達功能復(fù)用,這樣僅用雷達短語符號就無法區(qū)分不同雷達功能,進而導(dǎo)致雷達短語序列中喪失多功能雷達信號中有關(guān)任務(wù)調(diào)度的信息。因此,可以考慮在雷達短語符號中加入雷達功能的信息進行區(qū)分,使用雷達短語信息和雷達功能信息聯(lián)合表征雷達狀態(tài)。所以,雷達狀態(tài)可以用或者的語法結(jié)構(gòu)來表示,其中是多層級的多功能雷達信號模型中的雷達功能,是雷達短語,是構(gòu)成雷達短語的雷達字,為了使表述更為簡潔,將雷達狀態(tài)記為,,,…,其中,,表示不同的雷達狀態(tài),==;,,,,,,∈1,2,…。本文所提出的雷達狀態(tài)聯(lián)合表征的方法具有如下特點。

(1) 聯(lián)合表征的雷達狀態(tài)本身就包含了雷達功能和雷達短語信息,并且在雷達狀態(tài)的變換中還隱藏著多功能雷達的任務(wù)調(diào)度和雷達短語選取的相關(guān)信息,能夠為雷達的干擾決策提供較為充足的信息。

(2) 本文所提的雷達狀態(tài)表征方法采用雷達功能和雷達短語聯(lián)合表征,而目前對于多功能雷達的工作模式識別和雷達字提取都有相關(guān)的研究,可以作為該方案可行性的支撐。

(3) 雷達功能和雷達短語聯(lián)合表征的方法簡單易操作,以簡單的符號保留了最大量的雷達信號信息,且不需要進行特征選擇、特征提取等操作。

以水星功能雷達為例說明雷達狀態(tài)的表征,水星多功能雷達可以實現(xiàn)5種雷達功能,分別為搜索、捕獲、非自適應(yīng)跟蹤、距離分辨、跟蹤保持,具有9種雷達字(,,…,)。9種雷達字一共構(gòu)成了43個雷達短語,都是4字短語,其中非自適應(yīng)跟蹤和跟蹤保持復(fù)用5個雷達短語,捕獲、非自適應(yīng)跟蹤、跟蹤保持復(fù)用1個雷達短語。所以,水星多功能雷達共有50種雷達狀態(tài)。

1.3 雷達狀態(tài)序列的馬爾可夫性

按照第1.2節(jié)中提出的雷達狀態(tài)的表征方法,就可以將偵察感知環(huán)節(jié)得到的多功能雷達信號序列表示為雷達狀態(tài)序列,其形式如圖3所示。從雷達信號產(chǎn)生的角度出發(fā),多功能雷達的任務(wù)調(diào)度機制和雷達短語選擇機制直接影響了雷達狀態(tài)序列,因此可以通過分析多功能雷達的任務(wù)調(diào)度和雷達短語選擇機制研究雷達狀態(tài)序列的性質(zhì)。

圖3 雷達狀態(tài)序列Fig.3 Radar state sequence

任務(wù)調(diào)度:任務(wù)調(diào)度是指在給定雷達任務(wù)請求集合的條件下,根據(jù)某種準則來安排任務(wù)的執(zhí)行序列,以期望在滿足系統(tǒng)約束的同時,達到某種意義上的最優(yōu)調(diào)度結(jié)果。安排任務(wù)執(zhí)行序列的準則被稱為調(diào)度策略,如圖4所示。多功能雷達的任務(wù)調(diào)度策略可以分為固定模板調(diào)度策略、多模板調(diào)度策略、自適應(yīng)調(diào)度策略和部分模板調(diào)度策略。

圖4 4種調(diào)度策略的示意圖Fig.4 Schematic diagram of four scheduling strategies

固定模板策略每次調(diào)度間隔按照相同的調(diào)度策略進行調(diào)度安排,每個時間槽執(zhí)行確定的雷達任務(wù),若沒有相應(yīng)的雷達任務(wù)要執(zhí)行,則相應(yīng)的時間槽空出。多模板調(diào)度策略可以根據(jù)不同的場景選擇使用不同的模板。自適應(yīng)模板調(diào)度策略能綜合考慮資源、時間、戰(zhàn)場態(tài)勢等多種因素通過某種優(yōu)化算法選擇最佳的調(diào)度策略。部分模板調(diào)度策略則是固定模板調(diào)度策略和自適應(yīng)調(diào)度策略的結(jié)合。固定模板調(diào)度策略和多模板調(diào)度策略基于預(yù)設(shè)的調(diào)度模板,調(diào)度產(chǎn)生的雷達任務(wù)序列具有明顯的規(guī)律性,因而其產(chǎn)生的雷達任務(wù)序列具有馬爾可夫性。對于自適應(yīng)調(diào)度,雷達任務(wù)序列的產(chǎn)生受到任務(wù)規(guī)劃算法和各類其他因素的影響,因此雷達任務(wù)序列受到任務(wù)規(guī)劃算法的影響,必然會包含某種規(guī)律,這種規(guī)律也會使雷達任務(wù)序列具有馬爾可夫性,部分模板調(diào)度策略同理。所以,可以用(+1|)表示雷達任務(wù)間的轉(zhuǎn)移概率。

多功能雷達在生成雷達任務(wù)序列后,會根據(jù)目標和環(huán)境特性選擇雷達短語,因此可用(|,)來表示雷達短語選擇的策略,其中代表目標和環(huán)境特性,是指在環(huán)境下,選擇雷達短語執(zhí)行雷達任務(wù)的概率。

可以將雷達狀態(tài)間的轉(zhuǎn)移概率表示為

(+1|)=(+1|)(|)

(1)

雷達任務(wù)反應(yīng)了雷達功能,雷達功能和雷達短語聯(lián)合表征了雷達狀態(tài),因此(|)=1,進一步推導(dǎo)可得

(+1|)=(+1|)=(+1|)(+1|+1,+1)

(2)

(+1|)(+1|+1,+1)體現(xiàn)了多功能雷達任務(wù)調(diào)度和選擇雷達短語的工作過程。

(+1|)反應(yīng)了雷達狀態(tài)序列的馬爾可夫性,該馬爾可夫性受到多功能雷達的雷達任務(wù)調(diào)度策略、雷達短語選擇策略和目標環(huán)境特性的影響。雷達狀態(tài)數(shù)量是有限的,可以用一個馬爾可夫狀態(tài)轉(zhuǎn)移模型來描述雷達狀態(tài)間的關(guān)系,圖5為雷達狀態(tài)數(shù)量為7時的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖,通過狀態(tài)轉(zhuǎn)移概率描述7種雷達狀態(tài)間的轉(zhuǎn)換關(guān)系,(|)表示雷達狀態(tài)轉(zhuǎn)移到雷達狀態(tài)的概率。

圖5 雷達狀態(tài)的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖Fig.5 Schematic diagram of Markov state transition model of radar state

2 認知干擾決策系統(tǒng)

針對多功能雷達信號靈活多變,并且能夠根據(jù)目標環(huán)境特性調(diào)整信號波形的特點,需要設(shè)計一種具備認知能力的干擾決策系統(tǒng),能夠在沒有先驗信息的情況下,實時學(xué)習雷達的狀態(tài)轉(zhuǎn)移特性并選擇合適的干擾樣式實施干擾。圖6為本文設(shè)計的認知干擾決策系統(tǒng),主要包括偵察感知模塊、認知干擾決策模塊和干擾實施模塊3個模塊。偵察感知模塊包括信號接收設(shè)備、信號處理、信號特征提取及識別的軟硬件設(shè)備,主要對目標信號進行搜索、檢測、截獲;測量基本參數(shù);形成對認知干擾決策有用的信息。認知干擾決策模塊可細分為策略學(xué)習模塊和干擾決策模塊,是認知干擾決策系統(tǒng)的大腦,主要硬件為一臺計算機,內(nèi)嵌策略學(xué)習和干擾決策的相關(guān)算法。干擾實施模塊包括干擾波形發(fā)生器和干擾波形庫等軟硬件設(shè)備,主要功能是執(zhí)行認知干擾決策模塊的指令,最終對威脅目標實施干擾。

圖6 認知干擾決策系統(tǒng)Fig.6 Cognitive interference decision system

圖7以時隙結(jié)構(gòu)圖的形勢展示了雷達對抗過程中認知干擾決策系統(tǒng)各模塊的工作情況,不同顏色的時間塊代表不同的工作階段。

圖7 認知干擾決策系統(tǒng)的工作時隙圖Fig.7 Working time slot diagram of a cognitive interference decision system

圖7中,時隙結(jié)構(gòu)圖的起始時間為,時刻干擾實施模塊開始發(fā)射干擾信號對多功能雷達進行干擾。干擾信號并不會立刻到達多功能雷達,而是存在一個電磁波傳播的延遲。多功能雷達接收到干擾信號后,會進行相關(guān)的信號處理、雷達信號參數(shù)的選擇和波形優(yōu)化,稱為雷達的反應(yīng)時間,用表示。同樣,對于干擾決策系統(tǒng)也存在一個反應(yīng)時間,用表示,等于兩部分時間之和,分別是策略學(xué)習的時間和干擾決策的時間。認知干擾決策系統(tǒng)中,偵察感知、策略學(xué)習、干擾決策和干擾實施的順序循環(huán)構(gòu)成了認知干擾決策的閉環(huán),完成一個認知閉環(huán)所需的時間稱為一個時間步,用steptime表示,其計算方法如下:

steptime=2++=2+++

(3)

每一次認知閉環(huán)的完成,都意味著多功能雷達與認知干擾決策系統(tǒng)進行了一次交互,而交互過后,多功能雷達遵循著自身固有的馬爾可夫性調(diào)整雷達狀態(tài),認知干擾決策系統(tǒng)則會進行策略學(xué)習,通過策略學(xué)習不斷提升干擾策略,這一過程即為干擾決策系統(tǒng)的“認知”過程。

3 認知干擾決策的MDP模型

本節(jié)在前文研究的基礎(chǔ)上,將認知干擾決策過程構(gòu)建為一個帶收益的MDP模型,并且在該模型的基礎(chǔ)上研究了求解干擾策略的認知干擾決策算法。認知干擾決策算法是認知干擾決策系統(tǒng)中認知干擾決策模塊的內(nèi)嵌算法,主要實現(xiàn)了策略學(xué)習和干擾決策功能。在本節(jié)中將以強化學(xué)習中的Q-Learning算法為基礎(chǔ)構(gòu)建認知干擾決策算法。

3.1 決策模型的構(gòu)建

電子戰(zhàn)中的干擾效果評估,即評估電子對抗設(shè)備在規(guī)定的復(fù)雜電磁環(huán)境中,執(zhí)行干擾任務(wù)的能力,能否達到預(yù)期的干擾效果以及能達到的程度。文獻[1]將基于干擾效果的在線評估技術(shù)作為認知電子戰(zhàn)的關(guān)鍵技術(shù)之一,而在基于強化學(xué)習的認知干擾決策中,強化學(xué)習是通過收益的反饋引導(dǎo)智能體去學(xué)習和調(diào)整干擾策略,在整個過程中沒有明顯的干擾效果評估環(huán)節(jié)。干擾效果評估通常是對一次獨立的干擾行動的干擾效果好壞進行評估,利用干擾效果評估的結(jié)果可以修正單次干擾行動的決策策略,以使得單次干擾行動的干擾效果達到最好。強化學(xué)習中收益設(shè)置的目的,并不是使得單次的干擾效果達到最好,而是通過序列決策去達到某個戰(zhàn)術(shù)目的,這個戰(zhàn)術(shù)目的可以理解為使多功能雷達的雷達狀態(tài)轉(zhuǎn)移到某個或者某些狀態(tài)(例如:在戰(zhàn)機突防自衛(wèi)干擾的場景中,干擾的戰(zhàn)術(shù)目標可以設(shè)置為讓多功能雷達處于非制導(dǎo)的雷達狀態(tài),可以是搜索或者跟蹤的雷達狀態(tài),這樣戰(zhàn)機就會一直處于一個不被制導(dǎo)波束照射的相對安全的狀態(tài),就可以成功突防)。因此,將認知干擾決策問題的戰(zhàn)術(shù)目的定義為:以最少的時間步使多功能雷達的雷達狀態(tài)轉(zhuǎn)移至目標雷達狀態(tài),目標雷達狀態(tài)可以是一個,也可以是多個。這樣的戰(zhàn)術(shù)目的存在著兩方面的要求:① 直接要求,雷達狀態(tài)最終要轉(zhuǎn)移到目標雷達狀態(tài);② 由實際戰(zhàn)場的實時性要求所帶來的隱含要求,即要以最少的時間轉(zhuǎn)移到目標雷達狀態(tài)。在強化學(xué)習中,每一個回合的結(jié)束都意味著雷達狀態(tài)轉(zhuǎn)移到了目標雷達狀態(tài),同時也意味著已經(jīng)完成了第一個方面的要求。所以在后續(xù)的研究中,主要以完成單個回合所需的時間步數(shù)來衡量算法的性能,最少的時間步數(shù)意味著最少的時間和最短的決策路徑,此時的策略也就是最佳的干擾策略。

強化學(xué)習的決策過程是一個序列決策的過程,不再拘泥于單次的干擾行動,能充分圍繞目標的實現(xiàn)靈活地進行干擾決策,提升決策優(yōu)勢,這與美軍提出的決策中心戰(zhàn)和馬賽克戰(zhàn)的理念將更加契合。序列決策是一種考慮更為長遠,也更加智能的決策方式,判斷決策好壞的唯一標準是最終的戰(zhàn)術(shù)目的是否達到,而不是決策過程中某一步所選干擾樣式所產(chǎn)生的干擾效果。在基于強化學(xué)習的干擾決策中,收益的設(shè)置主要是依據(jù)專家的經(jīng)驗和強化學(xué)習的相關(guān)理論,并且需要與認知干擾決策的戰(zhàn)術(shù)目的相一致,即能夠完成戰(zhàn)術(shù)目的干擾策略可以獲得最大的收益。收益只需在對抗開始之前進行設(shè)置即可,在電子對抗中構(gòu)建收益函數(shù)的難度遠低于在線的干擾效果評估。采用收益反饋的方式去引導(dǎo)干擾決策系統(tǒng)學(xué)習最佳的干擾策略,就可以在雷達狀態(tài)轉(zhuǎn)移馬爾可夫模型的基礎(chǔ)上將認知干擾決策過程建模為一個帶收益的MDP模型。在本文中,由于沒有先驗的專家經(jīng)驗,簡單地將雷達狀態(tài)轉(zhuǎn)移至目標雷達狀態(tài)的收益設(shè)置為100,其他情況下的收益設(shè)置為-1。這樣的收益設(shè)置,能保證強化學(xué)習的最佳策略滿足認知干擾決策戰(zhàn)術(shù)目的兩方面的要求。

認知干擾決策的MDP模型如圖8所示,可用 {,,,}表示。,,,為MDP模型的四元組,其中是雷達狀態(tài)空間,是干擾樣式空間,是狀態(tài)轉(zhuǎn)移概率,是收益函數(shù)。對四元組詳細的定義如下:

雷達狀態(tài)空間,:{=[,,…,]},雷達狀態(tài)空間中共有個雷達狀態(tài),=表示第個時間步的雷達狀態(tài)為,目標雷達狀態(tài)記為,雷達狀態(tài)轉(zhuǎn)移至目標雷達狀態(tài)代表一個干擾任務(wù)回合的結(jié)束。

干擾樣式空間,:{=[,,…,]},干擾樣式空間共有種干擾樣式,=表示第個時間步的干擾樣式為

狀態(tài)轉(zhuǎn)移概率,在上文中用轉(zhuǎn)移概率(+1|)來描述雷達狀態(tài)間的馬爾可夫性,對于干擾方而言,采用何種干擾樣式進行干擾是已知的,所以可以將狀態(tài)轉(zhuǎn)移概率寫為={(+1|,)},(+1|,)表示在雷達狀態(tài)采取干擾樣式,雷達狀態(tài)轉(zhuǎn)移到+1的概率。

收益函數(shù),:={(+1|)},(+1|)表示雷達狀態(tài)從轉(zhuǎn)移至+1干擾決策智能體獲得的收益,記為。收益函數(shù)為

(4)

圖8 認知干擾決策的MDP模型Fig.8 MDP model of cognitive interference decision-making

在認知干擾決策的MDP模型中,干擾決策的目標是尋找一個最佳干擾策略最大化累計收益,累計收益表示為=+1++2++3+…。其中,∈[0,1]為折扣率,表示未來的收益在當前時刻的折現(xiàn)。干擾策略,即干擾決策系統(tǒng)選擇干擾樣式的方法,是雷達狀態(tài)到干擾樣式的映射:→。

至此,雷達對抗中的認知干擾決策問題就被轉(zhuǎn)換為一個帶收益的MDP問題,可以采用強化學(xué)習的方法來解決此類問題。

3.2 基于Q-Learning的認知干擾決策算法

為了實現(xiàn)智能的序列決策,干擾機需要在對抗的過程中學(xué)習干擾策略,干擾策略是干擾機考慮長遠和智能的體現(xiàn),每一步中干擾樣式的選取都由干擾策略所決定。學(xué)習干擾策略的算法即認知干擾決策算法。

將雷達對抗中干擾機與多功能雷達的交互以圖9的形式展現(xiàn)。干擾機在當前的時間步偵察到多功能雷達的雷達狀態(tài)為,干擾機根據(jù)雷達狀態(tài)的變換獲得收益,并在更新干擾策略后,采用干擾樣式對多功能雷達實施干擾,多功能雷達在受到干擾后,雷達狀態(tài)轉(zhuǎn)變?yōu)?span id="syggg00" class="subscript">+1,干擾機偵察到雷達狀態(tài)的變化并獲得收益+1,然后干擾機更新策略,并做出決策,如此反復(fù)迭代。干擾機就可以不斷地優(yōu)化干擾策略,使雷達狀態(tài)以最少的時間步轉(zhuǎn)換至目標雷達狀態(tài)。這一交互的過程也就是強化學(xué)習的過程,考慮到雷達干擾決策問題中干擾樣式-雷達狀態(tài)空間并不大,采用Q-Learning算法進行認知干擾決策。

圖9 雷達對抗中的交互過程Fig.9 Interaction process in radar countermeasures

在Q-Learning算法中,在狀態(tài)下依據(jù)策略選擇動作所得到的累計收益期望被稱為狀態(tài)-動作價值,記為(,)。(,)是選擇動作的依據(jù),一般采用-greedy方法選擇動作:

(5)

以1-的概率選擇使得當前(,)達到最大的動作,以的概率隨機選擇動作,被稱為探索因子,用以平衡Q-Learning算法中的學(xué)習與探索。

最佳策略滿足貝爾曼最優(yōu)方程:

(,)=

∑(′,|,)[(,)+·max+(′,′)]

(6)

式中:′,′表示下一時刻的狀態(tài)和動作;(′,|,)表示動態(tài)環(huán)境特性;(,)表示關(guān)于狀態(tài)和動作的函數(shù)。在Q-Learning中采用差分的方式對值進行更新,不斷迭代直至(,)的值收斂就可以得到最佳策略;其表達式如下:

(,)←(,)+[(,)+max(′,′)-(,)]

(7)

在雷達干擾決策問題中,狀態(tài)即雷達狀態(tài),動作即干擾機所采用的干擾樣式。在以上工作的基礎(chǔ)上,提出基于Q-Learning的認知干擾決策算法如圖10所示。

圖10 基于Q-Learning的認知干擾決策算法Fig.10 Cognitive interference decision-making algorithm based on Q-Learning

在實際的對抗過程中,可能需要經(jīng)歷多個任務(wù)回合才能讓認知干擾決策系統(tǒng)學(xué)習到最佳的干擾策略。算法中展示的是在一個干擾任務(wù)回合中基于Q-Learning的干擾決策算法的實現(xiàn)過程,在干擾任務(wù)開始之初,初始化的值表為0,干擾智能體對于干擾決策問題毫無經(jīng)驗。隨著時間步和任務(wù)回合數(shù)的增加,干擾智能體不斷學(xué)習到關(guān)于干擾決策的知識,這種知識以值的形式存儲在表中,表在不斷地更新提升,干擾智能體就能在雷達干擾任務(wù)中做出越來越好的干擾決策,使雷達狀態(tài)以更少的時間步轉(zhuǎn)移到目標雷達狀態(tài)。

4 實驗仿真和結(jié)果分析

在實際的雷達對抗中,要實現(xiàn)對多功能雷達的認知干擾,需要偵察感知、認知干擾決策和干擾實施3個模塊相互配合,而本文研究的重點是認知干擾決策模塊,所以實驗仿真主要是為了驗證基于Q-Learning的認知干擾決策算法的性能。

本節(jié)仿真了一個包含50個雷達狀態(tài)的多功能雷達模型,并假定認知干擾決策系統(tǒng)可以選擇9種干擾樣式,雷達狀態(tài)與干擾樣式間的相互作用關(guān)系由隨機生成的狀態(tài)轉(zhuǎn)移矩陣決定,以驗證基于Q-Learning的干擾決策算法的認知特性,并測試其在不穩(wěn)定環(huán)境下的性能。

4.1 仿真參數(shù)設(shè)置

在本次實驗中,仿真參數(shù)的設(shè)置分為多功能雷達狀態(tài)轉(zhuǎn)移模型的參數(shù)設(shè)置和干擾決策算法的參數(shù)設(shè)置。多功能雷達間的狀態(tài)按照概率={(+1|,)} 發(fā)生轉(zhuǎn)移,因此可以用一個××的三維矩陣描述在干擾樣式已知的情況下雷達狀態(tài)間的轉(zhuǎn)移關(guān)系,其中是干擾樣式的數(shù)量,是雷達狀態(tài)的數(shù)量,轉(zhuǎn)移矩陣的形式如圖11所示,由個×的矩陣構(gòu)成,分別是不同干擾樣式作用下的狀態(tài)轉(zhuǎn)移矩陣。

圖11 多功能雷達的狀態(tài)轉(zhuǎn)移矩陣Fig.11 State transition matrix of multi-functional radar

雷達狀態(tài)間的轉(zhuǎn)換情況可以用一張連通網(wǎng)絡(luò)來表示,采用python語言中的networks模塊生成隨機網(wǎng)絡(luò),如圖12(a)所示,網(wǎng)絡(luò)中的每一個節(jié)點為一個雷達狀態(tài),節(jié)點間用線相連表示雷達狀態(tài)間能夠轉(zhuǎn)換,單向箭頭表示能夠單向轉(zhuǎn)換,雙向箭頭表示能夠雙向轉(zhuǎn)換。狀態(tài)間的轉(zhuǎn)移概率用均值為、方差為的高斯分布隨機生成,并且滿足∈[0,1],同一雷達狀態(tài)轉(zhuǎn)移到其他雷達狀態(tài)的概率之和為1。將初始雷達狀態(tài)設(shè)為1,目標雷達狀態(tài)數(shù)量為1個,設(shè)為,即=,=,收益函數(shù)可以表示為

(8)

圖12 仿真實驗的雷達狀態(tài)轉(zhuǎn)換情況Fig.12 Radar state transition of simulation experiment

此外,基于Q-Learning的認知干擾算法的需要設(shè)置3個參數(shù),參數(shù)設(shè)置如表 1所示。

表1 干擾決策算法參數(shù)設(shè)置

4.2 干擾決策算法的認知特性驗證

將用于生成狀態(tài)轉(zhuǎn)移矩陣的高斯分布均值設(shè)置為1,方差設(shè)置為0,則在該條件下生成的狀態(tài)轉(zhuǎn)移矩陣是穩(wěn)定環(huán)境下的狀態(tài)矩陣,即對多功能雷達施加某一干擾樣式后,雷達狀態(tài)的轉(zhuǎn)移是確定的,干擾決策的環(huán)境是平穩(wěn)的。而作為干擾方,無論環(huán)境是否平穩(wěn),環(huán)境參數(shù)都是未知的。在仿真生成的穩(wěn)定環(huán)境中,保持決策算法的參數(shù)不變,進行20次蒙特卡羅實驗,結(jié)果如圖13所示。

圖13 認知干擾決策算法的性能表現(xiàn)Fig.13 Performance of cognitive interference decision- making algorithms

圖13的橫坐標為認知干擾決策系統(tǒng)與多功能雷達交互的回合數(shù),縱坐標為在每一個回合中到達目標狀態(tài)所需步數(shù)。在整個干擾任務(wù)開始之初,雷達狀態(tài)到達目標雷達狀態(tài)所需的步數(shù)需要200步以上,經(jīng)過不斷的交互學(xué)習,所需步數(shù)最終收斂到5步左右。這充分體現(xiàn)了基于Q-Learning的干擾決策算法的認知特性,能夠在缺乏先驗知識的未知環(huán)境中,通過與環(huán)境的交互學(xué)習,不斷提升干擾策略。由于存在0.1的探索率,所以曲線最終不會完全收斂到5步(見圖12(b),5步是最佳干擾策略所需的步數(shù)),也不會絕對的光滑。

用干擾路徑來描述干擾決策的結(jié)果,在算法收斂后,所得干擾路徑為→→→→,共5步。圖12(b)中,紅色的箭頭是模型已知情況下用dijkstra算法所求最短路徑,用雷達狀態(tài)轉(zhuǎn)移路徑可表示為→→→→→,一共進行5次狀態(tài)轉(zhuǎn)移,與采用干擾路徑進行干擾所得結(jié)果相一致,這表明認知干擾決策算法學(xué)習到了最佳的干擾策略。

4.3 不穩(wěn)定環(huán)境下的算法性能分析

考慮到在實際的雷達對抗過程中,對多功能雷達施加干擾后,雷達狀態(tài)的轉(zhuǎn)移不一定遵循著必然的規(guī)律,雷達狀態(tài)可能會發(fā)生轉(zhuǎn)移,也有可能不轉(zhuǎn)移,即環(huán)境的不穩(wěn)定性。在本文的仿真實驗中,通過生成雷達狀態(tài)轉(zhuǎn)移矩陣的高斯分布控制環(huán)境的不穩(wěn)定性,均值越接近1,方差越小,環(huán)境越穩(wěn)定,均值越接近0,方差越大,環(huán)境越不穩(wěn)定。本節(jié)實驗中主要討論非平穩(wěn)環(huán)境對算法性能的影響,所以將方差固定為(130),通過改變均值來控制環(huán)境的不穩(wěn)定性。將均值分別設(shè)置為01,03,05,07,09,1,在雷達狀態(tài)連通網(wǎng)絡(luò)相同的情況下,采用相同的干擾決策算法進行仿真實驗,每一次改變值,進行20次蒙特卡羅實驗,實驗結(jié)果如圖14所示。

圖14 不同穩(wěn)定性環(huán)境下認知干擾決策算法性能對比Fig.14 Performance comparison of cognitive interference decision- making algorithm in different stable environment

隨著值的不斷減小,曲線的起伏越來越劇烈,收斂所需的回合數(shù)不斷增加,每次回合所需的步數(shù)也越來越多,這意味著在戰(zhàn)場上,認知干擾決策系統(tǒng)需要花費更多的時間與多功能雷達交互更多的次數(shù)才能獲得最佳的干擾策略,即環(huán)境的穩(wěn)定越差,干擾決策算法學(xué)習的難度越大。但是從圖14中也可以看出,值小于等于0.3時,干擾決策算法都能在400個回合收斂或者近似收斂,即使是值等于0.1時,不能在400個回合內(nèi)收斂,其趨勢仍是向著收斂的方向發(fā)展,這表明基于Q-Learning算法在穩(wěn)定性極差的環(huán)境中,也具有良好的適應(yīng)性。

在圖14的局部放大圖中,在不同穩(wěn)定性的環(huán)境下,干擾決策算法最終收斂的所需步數(shù)是不同的。其統(tǒng)計如表 2所示,環(huán)境穩(wěn)定性越差,最終收斂的步數(shù)越大,這是因為環(huán)境越不穩(wěn)定,決策產(chǎn)生最佳干擾路徑的概率就會越小。

表2 不同μ值下干擾決策算法收斂時的步數(shù)

總之,在非穩(wěn)定的環(huán)境中,盡管學(xué)習的難度會增大,但基于Q-Learning的認知干擾決策算法還是能將到達目標狀態(tài)的所需步數(shù)下降到一個可觀的范圍,這表明本文所提的認知干擾決策算法具有較強的適應(yīng)性。

5 結(jié)束語

本文研究的核心問題是認知干擾決策問題,所有內(nèi)容圍繞著認知干擾決策問題展開。首先,作為干擾決策的前端,偵察感知應(yīng)該為干擾決策提供什么樣的信息?對此,本文提出了雷達功能和雷達短語聯(lián)合表征雷達狀態(tài)的方法,在理論上能為干擾決策提供充足的信息且簡單易行。其次,認知的閉環(huán)是怎么樣的,認知干擾決策的系統(tǒng)應(yīng)如何設(shè)計?本文設(shè)計的認知干擾決策系統(tǒng)不同于傳統(tǒng)的OODA閉環(huán)系統(tǒng),在整個系統(tǒng)中沒有了干擾評估環(huán)節(jié),認知干擾決策將不再拘泥于單次的干擾效能最大化,而是進行更長遠的序列決策,以收益函數(shù)為牽引尋求電磁戰(zhàn)場上的決策優(yōu)勢。最后,本文以強化學(xué)習中Q-Learning算法為基礎(chǔ),設(shè)計了基于Q-Learning認知干擾決策算法,能在缺少先驗信息的情況下,自主學(xué)習達到最佳干擾策略,并且在不穩(wěn)定的環(huán)境下也具有較好的決策性能。

當然,現(xiàn)實的世界是復(fù)雜的,本文的建模過程難免損失真實世界的一些細節(jié),將這些細節(jié)補充完整,設(shè)計更貼近真實世界的模型是下一步工作的方向之一。在強化學(xué)習中,提升算法收斂速度一直是一個經(jīng)久不衰的問題,因此如何結(jié)合雷達對抗領(lǐng)域的特點,因地制宜,更好地解決這個問題,關(guān)系到相關(guān)理論研究能否應(yīng)用于工程實踐,值得進一步研究。認知干擾決策的問題是一個龐大復(fù)雜的問題,對其研究應(yīng)該遵循科學(xué)的規(guī)律,循序漸進。本文將問題封閉在一個足夠小的空間,即多功能雷達作為威脅對象,主要進行干擾樣式的選擇,只有將一個個這樣的小空間不斷地擴張并拼湊在一起,才能最終實現(xiàn)真正的認知干擾決策。而選取干擾樣式后更進一步的干擾波形優(yōu)化與最終干擾能力的生成密切相關(guān),可以作為今后深入研究的一個方向。

猜你喜歡
短語雷達決策
為可持續(xù)決策提供依據(jù)
DLD-100C型雷達測試方法和應(yīng)用
雷達欺騙干擾的現(xiàn)狀與困惑
雷達
決策大數(shù)據(jù)
決策大數(shù)據(jù)
諸葛亮隆中決策
班上的“小雷達”
《健民短語》一則
三都| 盐边县| 涿鹿县| 迭部县| 南江县| 浦江县| 娱乐| 洞头县| 安平县| 涪陵区| 红桥区| 兴安县| 西吉县| 沭阳县| 富顺县| 水富县| 买车| 那曲县| 玛多县| 北辰区| 手机| 西和县| 灵台县| 巍山| 繁峙县| 独山县| 禹城市| 包头市| 榕江县| 夏津县| 神木县| 永春县| 宽甸| 高青县| 周至县| 牡丹江市| 柳林县| 新蔡县| 龙山县| 黄冈市| 招远市|