安 雷, 李召瑞, 吉 兵
(陸軍工程大學(xué)石家莊校區(qū)電子與光學(xué)工程系, 河北 石家莊 050003)
現(xiàn)代化作戰(zhàn)條件下,受限于復(fù)雜的電磁空間環(huán)境,各類目標(biāo)偵測傳感器作用的發(fā)揮高度依賴于資源調(diào)配及信息融合,傳感器調(diào)度技術(shù)成為了目標(biāo)跟蹤的研究熱點[1]。而由于被動傳感器所具備的不向外輻射信號、角度測量精度高的特點[2],以及可移動運載平臺在風(fēng)險規(guī)避能力上的優(yōu)勢[3],研究提出適用于可移動主被動傳感器系統(tǒng)的調(diào)度方法,能夠有效提升目標(biāo)跟蹤精度、降低使用代價、改善傳感器系統(tǒng)的生存能力。
以雷達(dá)等為代表的主動傳感器,通過向外輻射電磁波等能量信號,從而獲取目標(biāo)的空間位置和運動狀態(tài)等信息。但輻射告警接收機(jī)的應(yīng)用,可以幫助目標(biāo)截獲輻射信號,識別傳感器身份并鎖定其位置,進(jìn)而實施攻擊[4]。所以,對主動傳感器來說,跟蹤目標(biāo)時存在一定輻射風(fēng)險,并將因輻射風(fēng)險而產(chǎn)生的使用代價稱為輻射代價[5]。
針對輻射風(fēng)險控制的傳感器調(diào)度方法,主要是在保證目標(biāo)跟蹤精度的基礎(chǔ)上,通過調(diào)配傳感器資源或者實施平臺機(jī)動的方式,避免高輻射風(fēng)險傳感器的使用或使傳感器處于高輻射的工作狀態(tài)。要實現(xiàn)對輻射風(fēng)險的有效控制,首要的是對其進(jìn)行準(zhǔn)確的量化[6]。文獻(xiàn)[6-7]將傳感器一個工作時長內(nèi)的輻射風(fēng)險量化為固定值,但由于輻射風(fēng)險非線性變化的特征,這種方法并不準(zhǔn)確。文獻(xiàn)[8]則基于雙方傳感器的發(fā)射功率、脈沖寬度和采樣時間等參數(shù),計算一方傳感器被另一方截獲的概率,將截獲概率與截獲代價的乘積定義為截獲風(fēng)險,以截獲風(fēng)險作為輻射風(fēng)險的衡量指標(biāo)。文獻(xiàn)[9]在調(diào)度中采取輻射度影響(emission level impact, ELI)模型量化傳感器輻射風(fēng)險,反映了其非線性變化的特征,相比于文獻(xiàn)[8]中的截獲風(fēng)險,無需提前掌握對方設(shè)備參數(shù),但ELI狀態(tài)及輻射風(fēng)險等級均由人為確定,與主動傳感器的實際工作特征不符。
在面向目標(biāo)跟蹤的傳感器調(diào)度中,系統(tǒng)首先基于先驗信息預(yù)測優(yōu)化指標(biāo),并以此為依據(jù)決策選取最優(yōu)調(diào)度方案,執(zhí)行調(diào)度方案獲得目標(biāo)量測信息,再依靠濾波算法得到目標(biāo)估計狀態(tài),同時反饋到下一階段決策。這其中,優(yōu)化指標(biāo)的預(yù)測和目標(biāo)狀態(tài)的估計,都依賴于目標(biāo)跟蹤算法的應(yīng)用。而在實戰(zhàn)環(huán)境下的目標(biāo)跟蹤中,由于目標(biāo)數(shù)量眾多,難以做到完全觀測,且環(huán)境中還包含雜波干擾,導(dǎo)致跟蹤存在較大的不確定性[10]。為此,經(jīng)典的多目標(biāo)跟蹤算法如聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)(joint probabilistic data association, JPDA)算法[11]和多假設(shè)跟蹤(multiple hypothesis tracking, MHT)算法[12]等,采取數(shù)據(jù)關(guān)聯(lián)的方式來解決不確定性問題,導(dǎo)致調(diào)度方案求解變成了非確定性多項式難題,計算量大,反應(yīng)速度慢,無法滿足目標(biāo)跟蹤時效性的要求。針對這種情況,Mahler基于隨機(jī)有限集(random finite set, RFS)理論,首次提出了有限集統(tǒng)計學(xué)(finite set statistics, FISST)[13],形成了一種可適性好的多目標(biāo)多傳感器系統(tǒng)統(tǒng)計模型,并在此基礎(chǔ)上,簡化多目標(biāo)貝葉斯濾波求解復(fù)雜性,提出了概率假設(shè)密度[14](probability hypothesis density, PHD)濾波器、帶勢PHD[15](cardinalized PHD, CPHD)濾波器、多伯努利[16](multi-Bernoulli, MB)濾波器及其改進(jìn)等多目標(biāo)跟蹤算法,省去了復(fù)雜的量測-航跡關(guān)聯(lián)環(huán)節(jié),實現(xiàn)了比經(jīng)典算法更好的跟蹤性能。
進(jìn)一步,學(xué)者們將基于RFS的多目標(biāo)跟蹤算法與傳感器調(diào)度相結(jié)合,文獻(xiàn)[17]針對可移動單傳感器控制問題,以最優(yōu)子模式分配(optimal subpattern assignment, OSPA)距離為跟蹤精度衡量指標(biāo),采取標(biāo)簽多伯努利(labeled MB, LMB)濾波器估計目標(biāo)狀態(tài),顯著提高了跟蹤精度。文獻(xiàn)[18]采取高斯混合多目標(biāo)(Gaussian mixture multi-target, GM-MT)濾波算法,利用不同高斯分布之間的巴氏距離求解高斯混合(Gaussian mixture, GM)之間的信息增益,提出了以單步OSPA距離最優(yōu)為準(zhǔn)則的傳感器控制策略。
上述兩種調(diào)度方法,針對跟蹤精度這個單指標(biāo)的優(yōu)化問題,均采取短時調(diào)度的方式得到了控制方案,但對輻射風(fēng)險進(jìn)行優(yōu)化時,由于跟蹤精度和輻射風(fēng)險之間相互矛盾的關(guān)系,單純地進(jìn)行最優(yōu)化調(diào)度,將導(dǎo)致跟蹤精度嚴(yán)重降低,這就要求在調(diào)度中必須以兩者的有效平衡為優(yōu)化目標(biāo)。文獻(xiàn)[19]針對傳感器網(wǎng)絡(luò)多目標(biāo)跟蹤中的節(jié)點調(diào)度問題,在節(jié)點數(shù)和跟蹤精度雙重約束的前提下,以節(jié)點調(diào)度代價和網(wǎng)絡(luò)傳輸代價最小化為優(yōu)化目標(biāo),提出了一種基于單步代價的傳感器短時調(diào)度策略。但短時調(diào)度的決策依據(jù)僅為單步收益,雖然單指標(biāo)最優(yōu)化的性能突出,卻不能很好地滿足多指標(biāo)平衡的要求,相比之下,長時調(diào)度的決策依據(jù)為一段時間內(nèi)調(diào)度收益的總和,平衡優(yōu)化性能要優(yōu)于短時調(diào)度[20]。文獻(xiàn)[21]針對空戰(zhàn)中飛行器跟蹤精度與輻射風(fēng)險的平衡問題,以多步累積發(fā)現(xiàn)概率、累積被截獲概率為決策依據(jù),實現(xiàn)了機(jī)載多類型傳感器的有效協(xié)同。文獻(xiàn)[22]以傳感器能量損耗為約束條件,利用基于δ擴(kuò)展LMB(δ-generalized LMB, δ-GLMB)濾波器實現(xiàn)目標(biāo)狀態(tài)估計,采取子最優(yōu)算法求解調(diào)度方案,提出了一種約束條件控制下的多傳感器調(diào)度算法。
針對上述問題,基于可移動主被動傳感器系統(tǒng)多目標(biāo)跟蹤場景,提出了一種輻射控制的長時調(diào)度方法。主要工作如下:首先,基于部分可觀測馬爾可夫決策過程(partially observable Markov decision process, POMDP)[23]和RFS理論,建立多目標(biāo)狀態(tài)模型和量測模型。其次,基于GM-PHD[24-25]濾波算法實現(xiàn)多目標(biāo)長時跟蹤精度的預(yù)測,基于改進(jìn)的輻射風(fēng)險量化方法實現(xiàn)傳感器長時輻射代價的預(yù)測,在此基礎(chǔ)上,利用改進(jìn)的灰狼優(yōu)化算法求解調(diào)度方案。最后,采取Joint-GLMB[16]濾波算法處理目標(biāo)量測信息,得到目標(biāo)估計狀態(tài)。
如圖1所示,在平面直角坐標(biāo)情況下,由多部基于可移動平臺的主被動傳感器對多目標(biāo)展開跟蹤。假設(shè)目標(biāo)進(jìn)行近勻速直線運動,傳感器系統(tǒng)由N個可移動平臺組成,每個平臺上包含1部主動傳感器(雷達(dá))、1部被動傳感器(紅外探測器)。由于主動傳感器觀測目標(biāo)時存在輻射風(fēng)險,會被目標(biāo)識別甚至鎖定位置,為提高傳感器系統(tǒng)生存能力,實現(xiàn)對多目標(biāo)的準(zhǔn)確跟蹤及傳感器系統(tǒng)輻射風(fēng)險的有效控制,展開相應(yīng)的調(diào)度方法研究。
圖1 基于可移動平臺的主被動傳感器系統(tǒng)工作示意圖Fig.1 Working diagram of active/passive sensor system based on mobile platform
定義k時刻多目標(biāo)運動狀態(tài):
(1)
Xk+1=Sk+1|k(Xk)∪Bk+1|k(Xk)∪Γk+1
(2)
式中:Sk+1|k(Xk)表示k+1時刻的存活目標(biāo)RFS;Bk+1|k(Xk)表示由存活目標(biāo)Xk衍生目標(biāo)的RFS;Γk+1表示k+1時刻的新生目標(biāo)RFS。根據(jù)文獻(xiàn)[24],各目標(biāo)的運動特征服從線性高斯多目標(biāo)(linear Gaussian multi-target, LGM)模型,則目標(biāo)馬爾可夫轉(zhuǎn)移概率密度滿足:
(3)
傳感器系統(tǒng)觀測多目標(biāo)得到的狀態(tài)定義如下:
(4)
Zk=Dk(Xk)∪Kk
(5)
由于傳感器量測模型也必須服從LGM,故多目標(biāo)量測似然為
(6)
式中:Hk為量測矩陣;Rk為量測噪聲協(xié)方差矩陣。
由于主被動傳感器的工作特性,k時刻主動傳感器n1觀測目標(biāo)m得到的量測信息包括目標(biāo)斜距離和方位角:
(7)
而被動傳感器n2觀測目標(biāo)m得到的量測信息僅有方位角:
(8)
(9)
(10)
同時,由于截獲概率α[28]的定義為
(11)
(12)
式中:B為輻射風(fēng)險量化系數(shù)。
(13)
式中:vs,c是傳感器的控制速度;jk表示平臺的機(jī)動方向選擇;lk表示平臺的機(jī)動速度選擇;機(jī)動方案共有NRNθ+1種(包含傳感器不動),則qk的取值為
(14)
NR=2、Nθ=8時的傳感器平臺機(jī)動方案如圖2所示。
圖2 NR=2、Nθ=8時的傳感器平臺機(jī)動方案Fig.2 Maneuvering scheme of sensor platform while NR=2、Nθ=8
基于平衡目標(biāo)跟蹤精度和傳感器輻射風(fēng)險的目的,構(gòu)建目標(biāo)優(yōu)化函數(shù):
(15)
在調(diào)度模型的基礎(chǔ)上,按照指標(biāo)預(yù)測、決策求解、方案執(zhí)行的流程,借助RFS多目標(biāo)跟蹤算法實現(xiàn)目標(biāo)狀態(tài)估計,提出傳感器系統(tǒng)長時調(diào)度方法。該節(jié)將介紹改進(jìn)的灰狼優(yōu)化算法(grey wolf optimization algorithm, GWO)。同時,從文獻(xiàn)[29]中的對比實驗可以看出,在各類RFS多目標(biāo)跟蹤算法中,GM-PHD算法雖然得到的跟蹤精度一般,但計算所需時間最短,考慮到預(yù)測階段備選調(diào)度方案較多、計算量大的實際,采取GM-PHD進(jìn)行狀態(tài)估計。而joint-GLMB算法雖然增加了一定的計算量,但目標(biāo)狀態(tài)估計準(zhǔn)確度卻得到了大幅提升,為保證目標(biāo)跟蹤精度,在調(diào)度方案執(zhí)行階段,利用joint-GLMB濾波計算目標(biāo)估計狀態(tài)。
以O(shè)SPA距離作為衡量指標(biāo),實現(xiàn)多目標(biāo)長時跟蹤精度的預(yù)測。
步驟 1初始化
步驟 2計算目標(biāo)狀態(tài)預(yù)測值
步驟 3計算傳感器平臺預(yù)測位置
(16)
式中:若2≤qk≤Nθ+1,則jk=1,lk=qk-1;若Nθ+2≤qk≤2Nθ+1,則jk=2,lk=qk-1-jkNθ;以此類推,若(NR-1)Nθ+2≤qk≤NRNθ+1,則jk=NR,lk=qk-1-(jk-1)Nθ。
步驟 4計算目標(biāo)量測預(yù)測值
步驟 4.1被調(diào)度平臺主被動傳感器量測信息融合
(17)
(18)
步驟 4.2未調(diào)度平臺被動傳感器無源定位
(19)
(20)
(21)
(22)
(23)
(24)
步驟 4.3系統(tǒng)量測信息融合
(25)
步驟 5計算目標(biāo)估計狀態(tài)預(yù)測值
步驟 6計算長時跟蹤精度預(yù)測值
(26)
根據(jù)本文所提基于截獲概率的輻射風(fēng)險量化方法,結(jié)合第2.1節(jié)中對多目標(biāo)長時跟蹤精度的預(yù)測,提出傳感器長時輻射代價的預(yù)測方法。
步驟 1初始化
步驟 2計算被調(diào)度平臺與目標(biāo)間的預(yù)測距離
(27)
則被調(diào)度平臺到目標(biāo)的預(yù)測距離為
(28)
步驟 3計算主動傳感器輻射風(fēng)險預(yù)測值
(29)
步驟 4計算長時輻射代價預(yù)測值
(30)
為適應(yīng)傳感器長時調(diào)度方案求解的特點,在GWO[31]的基礎(chǔ)上,針對狼群初始化和搜索機(jī)制進(jìn)行改進(jìn)。
步驟 1狼群初始化
假設(shè)當(dāng)前為k時刻,利用改進(jìn)的灰狼優(yōu)化算法求取[k,k+h-1]時域內(nèi)的最優(yōu)調(diào)度方案。規(guī)定狼的數(shù)量為W,算法迭代次數(shù)為It,搜索目標(biāo)即調(diào)度方案為一個h×2維的矩陣:
(31)
式中:P為各時刻的擬調(diào)度平臺,取值范圍為[1,N]內(nèi)的整數(shù);Q為各時刻擬調(diào)度平臺對應(yīng)的機(jī)動方案,取值范圍為[1,NRNθ+1]內(nèi)的整數(shù),則搜索空間大小為(N(NRNθ+1))h。
搜索開始前,初始化狼群位置,每只狼的當(dāng)前位置即其當(dāng)前搜索到的調(diào)度方案,初始位置中每個元素的值為取值范圍內(nèi)的隨機(jī)整數(shù):
(32)
式中:w∈{1,2,…,W};Λ[1,N]表示一個在[1,N]范圍內(nèi)的隨機(jī)整數(shù)。
當(dāng)采取隨機(jī)初始化的方法產(chǎn)生初始種群時,若狼群數(shù)量較少,則難以保證較好的種群多樣性,但增加狼群數(shù)量卻會導(dǎo)致計算量的大幅增長?;诖?為提高初始種群的多樣性和搜索的覆蓋范圍,將狼群中兩個狼的初始位置分別改為調(diào)度方案的下界值和上界值:
(33)
(34)
步驟 2計算適應(yīng)度值
(35)
步驟 3更新并記錄α狼、β狼和δ狼
根據(jù)狼群的適應(yīng)度值Fi,選取并記錄α狼、β狼和δ狼,即截至當(dāng)前迭代次數(shù)下適應(yīng)度值最小的3個狼,其滿足Fiα 算法 1 α狼、β狼和δ狼的更新算法while it 步驟 4更新狼群位置 由于調(diào)度方案求解時,每只狼的位置中所有元素必須是取值范圍內(nèi)的整數(shù),所以將標(biāo)準(zhǔn)灰狼優(yōu)化算法中每次迭代更新后的位置定義為擬搜索位置,在對擬搜索位置作適應(yīng)性處理后,再更新狼的位置。擬搜索位置超出邊界的,取相應(yīng)的上下邊界值;擬搜索位置在取值范圍內(nèi)的,四舍五入取整。同時,由于狼的位置即當(dāng)前該狼搜索得到的調(diào)度方案為一個h×2維的矩陣,所以基于矩陣中的每個元素對狼的位置進(jìn)行更新。 (36) (37) (38) (39) (40) 式中:a為收斂因子:a=2-it·(2/It);ι為[0,1]中的一個隨機(jī)數(shù)。 步驟 5迭代循環(huán) 在實現(xiàn)長時目標(biāo)跟蹤精度預(yù)測和長時輻射代價預(yù)測的基礎(chǔ)上,根據(jù)目標(biāo)優(yōu)化函數(shù)式(15),采取改進(jìn)的GWO求解調(diào)度方案,依據(jù)調(diào)度方案更新傳感器位置、獲得目標(biāo)量測信息,最后,利用joint-GLMB濾波算法估計目標(biāo)狀態(tài),仿真總時長為H。 步驟 1初始化 步驟 2求解調(diào)度方案 步驟 3執(zhí)行調(diào)度方案 步驟 3.1更新傳感器平臺位置 步驟 3.2獲得目標(biāo)量測信息 步驟 3.3計算目標(biāo)估計狀態(tài) 步驟 3.4決策時域內(nèi)循環(huán) 步驟 4循環(huán) 若k+h-1≥H,則調(diào)度任務(wù)結(jié)束。 長時調(diào)度流程如圖3所示。 圖3 長時調(diào)度流程Fig.3 Non-myopic scheduling process 目標(biāo)均采取近勻速直線運動,初始狀態(tài)分別為M1(0 m,0 m/s,800 m, -14 m/s),M2(800 m, -14 m/s, 0 m,7 m/s),M3(-800 m,14 m/s,200 m, -7 m/s),M4(800 m, 14 m/s,600 m, -9 m/s)。目標(biāo)存活概率pS,k=0.99,檢測概率pD,k=0.98;OSPA距離截止參數(shù)c=100,階參數(shù)p=1。將觀測環(huán)境中雜波干擾的RFS建模成泊松分布,其強(qiáng)度Kk(Zk)=λcVu(Zk),其中u(·)為均勻分布概率密度函數(shù);V=(-1 000 m,1 000 m)×(-1 000 m,1 000 m)為傳感器監(jiān)測區(qū)域,λc=3為單位面積內(nèi)雜波的平均個數(shù)。GWO中狼群大小W=10,算法迭代次數(shù)It=10。仿真總時間H=100 s,仿真結(jié)果為100次蒙特卡羅實驗的平均。 為充分驗證本文所提調(diào)度方法的有效性,同時與位置固定的主被動傳感器長時調(diào)度方法(non-myopic scheduling method for active/passive sensor, NAPS),可移動主動傳感器長時調(diào)度方法(non-myopic scheduling method for mobile active sensor, NMAS),以及可移動主被動傳感器短時調(diào)度方法(myopic scheduling method for mobile active/passive sensor, MMAPS)進(jìn)行比較。采取仿真時間內(nèi)的OSPA距離及其定位誤差(簡稱為OSPA-L)和勢誤差(簡稱為OSPA-C)的均值來衡量目標(biāo)的跟蹤精度,采取仿真時間內(nèi)的累計輻射代價(cumulative radiation cost, CRC)來評價調(diào)度方法對輻射風(fēng)險的控制效果,采用單次仿真即100次采樣間隔的運行時間均值(TIME)來評價調(diào)度方法的實時性。利用本文所提調(diào)度方法跟蹤目標(biāo),得到的多目標(biāo)運動軌跡和調(diào)度序列如圖4和圖5所示。 圖4 多目標(biāo)真實運動軌跡和采取本文方法進(jìn)行調(diào)度得到的觀測軌跡Fig.4 Real trajectory of multi-target and the observation trajectory scheduled by the proposed method 圖5 采取本文方法得到的傳感器調(diào)度序列Fig.5 Sensor scheduling sequence obtained by the proposed method 累計輻射代價,如圖6和圖7所示決策時長h=4 s時,在分別采取不同調(diào)度方法的情況下,僅對目標(biāo)跟蹤精度進(jìn)行優(yōu)化時得到的OSPA距離和僅對傳感器輻射風(fēng)險進(jìn)行優(yōu)化時得到的CRC。 圖6 僅優(yōu)化跟蹤精度時得到的OSPA距離Fig.6 OSPA distance obtained when only the tracking accuracy is optimized 圖7 僅優(yōu)化輻射代價時得到的CRCFig.7 CRC obtained when only the radiation cost is optimized 為進(jìn)一步驗證本文所提調(diào)度方法的優(yōu)勢,決策時長h分別取2 s、3 s、4 s進(jìn)行平衡優(yōu)化調(diào)度。表1為平衡優(yōu)化時各調(diào)度方法的性能對比,為便于分析比較,通過調(diào)整優(yōu)化函數(shù)系數(shù)α,使OSPA距離均值保持基本一致。 表1 不同決策時長下平衡優(yōu)化的調(diào)度性能對比 從圖6和圖7可以得出,相比于長時調(diào)度,短時調(diào)度(MMAPS)針對單指標(biāo)的優(yōu)化效果最好,當(dāng)僅對目標(biāo)跟蹤精度進(jìn)行優(yōu)化時,取得的OSPA距離平均值最低,當(dāng)僅對輻射代價進(jìn)行優(yōu)化時,其取得的CRC最低。但在綜合考慮跟蹤精度和輻射風(fēng)險,即以平衡優(yōu)化為目標(biāo)的情況下,由于長時調(diào)度的決策基礎(chǔ)是一段時域內(nèi)調(diào)度收益的總和,其針對多指標(biāo)平衡的優(yōu)化效果要優(yōu)于短時調(diào)度。所以在表1中,當(dāng)OSPA距離均值基本一致的情況下,本文方法PSM在3個決策時長下得到的CRC均要低于MMAPS。 同時,結(jié)合前文可知,隨著h的增加,長時調(diào)度的平衡優(yōu)化性能將得到改善,最優(yōu)調(diào)度方案下的CRC會進(jìn)一步降低。但由于搜索空間大小即可選調(diào)度方案數(shù)量(N(NRNθ+1))h將會呈現(xiàn)指數(shù)級的增長,在狼群大小W、算法迭代次數(shù)It不變的情況下,GWO性能降低,丟失最優(yōu)解,如表1所示,調(diào)度得到的CRC先降低后增加??梢圆扇≡黾覹或It的方式來解決這個問題,但由于會導(dǎo)致系統(tǒng)反應(yīng)時間增加,影響傳感器調(diào)度的實時性,所以,在使用本文方法進(jìn)行調(diào)度時,決策時長h的選擇一般不宜超過4 s。 總的來看,本文方法在保證多目標(biāo)跟蹤精度的基礎(chǔ)上,進(jìn)一步提高了對輻射代價的控制能力,更加滿足多指標(biāo)平衡優(yōu)化的目的,調(diào)度性能最優(yōu);適應(yīng)性、穩(wěn)定性較好,在不同決策時長條件下,均得到了比其他調(diào)度方法更好的優(yōu)化效果。 本文研究了雜波環(huán)境下面向多目標(biāo)跟蹤的傳感器調(diào)度問題,提出了一種可移動主被動傳感器系統(tǒng)長時調(diào)度方法。該方法主要分為兩個階段:第1階段,在實現(xiàn)長時跟蹤精度和長時輻射代價預(yù)測的基礎(chǔ)上,采用改進(jìn)的GWO,搜索獲得最優(yōu)調(diào)度方案;第2階段,根據(jù)調(diào)度方案更新傳感器平臺位置并獲得目標(biāo)量測信息,采用joint-GLMB濾波算法得到目標(biāo)估計狀態(tài)。最后,通過仿真驗證了所提調(diào)度方法的有效性。2.4 長時調(diào)度方法及流程
3 仿真實驗及結(jié)果分析
3.1 仿真條件設(shè)置
3.2 調(diào)度方法性能分析
4 結(jié)束語