白樺,孫旭朋,黃文錚,陽(yáng)輝
(北京圣濤平試驗(yàn)工程技術(shù)研究院有限責(zé)任公司,北京 100089)
無(wú)人機(jī)智能化程度高、造價(jià)相對(duì)低廉,但在實(shí)際應(yīng)用中也暴露出嚴(yán)重的安全隱患。在受到熱、電、溫循、振動(dòng)等環(huán)境應(yīng)力的影響下,無(wú)人機(jī)的失效率有可能升高;無(wú)人機(jī)的維護(hù)水平也制約每次任務(wù)能夠投入的機(jī)器的架次。對(duì)于某型號(hào)無(wú)人機(jī),其平均一般故障間隔時(shí)間為500 h,平均嚴(yán)重故障間隔時(shí)間為1 300 h,故障檢測(cè)率為93 %[1]。2008年以來(lái)的無(wú)人機(jī)實(shí)際飛行公開(kāi)數(shù)據(jù)顯示,常用國(guó)外無(wú)人機(jī)機(jī)型和國(guó)內(nèi)投入運(yùn)行機(jī)型的故障間隔時(shí)間在9.1~55.1 h之間,可用度40~98 %[2]。無(wú)人機(jī)飛行風(fēng)險(xiǎn)可以總結(jié)為: 高危害性、不可控性和預(yù)測(cè)難度大[3],其中不可控性是對(duì)于視距外的故障,地面人員無(wú)法針對(duì)無(wú)人機(jī)故障妥善處理。在現(xiàn)代控制方法支撐下,無(wú)人機(jī)向集群化方向發(fā)展,可以實(shí)現(xiàn)更多的任務(wù)。由于集群無(wú)人機(jī)的任務(wù)變化和功能時(shí)變性,給建立集群無(wú)人機(jī)可靠性與任務(wù)成功之間的關(guān)系模型帶來(lái)了挑戰(zhàn)。
POMDP是具有有限分立狀態(tài)和有限行動(dòng)選擇的不可全知Markov系統(tǒng)在取得狀態(tài)和行動(dòng)對(duì)應(yīng)回報(bào)下的決策問(wèn)題[4]。POMDP框架可以應(yīng)用于無(wú)人機(jī)對(duì)抗[5]、無(wú)線網(wǎng)絡(luò)協(xié)議[6]、對(duì)話系統(tǒng)[7]等應(yīng)用描述。POMDP的不確定性使得求解依賴于歷史,占據(jù)龐大的數(shù)據(jù)空間。使過(guò)程期望回報(bào)最大的行動(dòng)序列,稱為最優(yōu)策略。然而傳統(tǒng)的POMDP值迭代算法需要在整個(gè)信念空間上更新值函數(shù)[4],這種精確解法的時(shí)間和空間復(fù)雜度極高,只能解決小規(guī)模的POMDP問(wèn)題?;邳c(diǎn)的值迭代算法[8]只在少量信念狀態(tài)上更新值函數(shù),計(jì)算效率有所提高。論文[9]提出了一種緊湊的信念狀態(tài)表示法,對(duì)于求解大規(guī)模POMDP問(wèn)題具有良好性能。
本文將在POMDP框架下,考慮集群無(wú)人機(jī)可靠性對(duì)于任務(wù)的影響,對(duì)集群無(wú)人機(jī)偵察任務(wù)進(jìn)行建模,通過(guò)仿真計(jì)算,構(gòu)建包括戰(zhàn)備完好率和單機(jī)失效率在內(nèi)的可靠性指標(biāo)與偵查任務(wù)實(shí)現(xiàn)效能的定量關(guān)系模型。
POMDP模型用于描述具有隱藏的系統(tǒng)狀態(tài)且行為效果是不確定的Markov過(guò)程。 POMDP模型用六元組{S,A,T,Ω,R,O}表示,其中S是系統(tǒng)所有狀態(tài)的非空集合,部分狀態(tài)是不能直接觀察到的;A表示行動(dòng)的有限集合;T表示狀態(tài)轉(zhuǎn)移函數(shù),用表示觀察點(diǎn)在狀態(tài)S上對(duì)應(yīng)行動(dòng)A后轉(zhuǎn)移到狀態(tài)s′的概率;R是回報(bào)函數(shù),R(s,a)表示觀察點(diǎn)在狀態(tài)s上對(duì)應(yīng)行動(dòng)a可提供的回報(bào);O表示觀察點(diǎn)被觀察到的狀態(tài)的有限集合;Ω 表示觀察函數(shù),用表示觀察點(diǎn)對(duì)應(yīng)行動(dòng)a轉(zhuǎn)移到狀態(tài)s′后被觀察到狀態(tài)o的概率。
信念狀態(tài)是系統(tǒng)歷史的充分統(tǒng)計(jì)量,由狀態(tài)集合S上的概率分布組成的維向量。一種緊湊的信念狀態(tài)表示法[9]假定系統(tǒng)的所有Markov過(guò)程均獨(dú)立進(jìn)行,認(rèn)為此時(shí)可能存在一種維數(shù)隨獨(dú)立的系統(tǒng)點(diǎn)個(gè)數(shù)線性增長(zhǎng)的信念表示。對(duì)于離散時(shí)間t組成的狀態(tài)歷史h,定義條件概率Ψ(t):
其中(t)為系統(tǒng)點(diǎn)1置于狀態(tài)的概率。而對(duì)于 任意h,可以證明觀察到的條件概率分布Ψ(h)為系統(tǒng)點(diǎn)條件概率分布B(h)的一種等價(jià)表示[5]。從而系統(tǒng)點(diǎn)彼此獨(dú)立時(shí),緊湊的信念狀態(tài)表示法可以使得POMDP狀態(tài)空間隨系統(tǒng)點(diǎn)數(shù)量?jī)H線性增長(zhǎng)。
對(duì)于當(dāng)前不可觀察的系統(tǒng)點(diǎn)n,條件概率會(huì)按照Markov矩陣P更新。對(duì)于當(dāng)前可觀察的系統(tǒng)點(diǎn)n,系統(tǒng)點(diǎn)狀態(tài)具有確定值,條件概率wn將會(huì)置于對(duì)應(yīng)有限觀察狀態(tài)k的單位向量表示觀察值為表示不可觀察的部分。
本文考慮的場(chǎng)景是:集群無(wú)人機(jī)在不確定環(huán)境下偵察,例如山火現(xiàn)場(chǎng)。集群無(wú)人機(jī)根據(jù)對(duì)環(huán)境的部分觀察,自主規(guī)劃獲取最大偵察信息的路徑,即尋找最大期望回報(bào)的行動(dòng)組合。
地形被考慮成一系列系統(tǒng)點(diǎn),每個(gè)點(diǎn)的環(huán)境信息在有限狀態(tài)間的轉(zhuǎn)換具有單調(diào)矩陣的屬性。我們可以基于Markov單調(diào)矩陣特性,“預(yù)測(cè)”當(dāng)前不可觀察點(diǎn)的信念狀態(tài)[9]。
每個(gè)系統(tǒng)點(diǎn)可以提供偵察回報(bào),但同時(shí)具有對(duì)無(wú)人機(jī)的傷害能力。本文對(duì)每個(gè)系統(tǒng)點(diǎn)同時(shí)具有提供信息和給予傷害的屬性,選取單調(diào)Markov矩陣進(jìn)行描述,分別稱為信息模型I和威脅模型R。本文把偵察信息和偵察威脅分為4種類(lèi)型,分別具有5種信息狀態(tài)和5種威脅狀態(tài)。本文采用的復(fù)雜偵察地形圖如圖1。
圖1 無(wú)人機(jī)偵察任務(wù)信息值地形圖和威脅值地形圖
格點(diǎn)代表偵察對(duì)象,連線代表可飛行路徑。格點(diǎn)顏色區(qū)分不同的對(duì)象,格點(diǎn)對(duì)應(yīng)屬性變化規(guī)律為Markov矩陣~,~為信念向量。4種Markov矩陣及對(duì)應(yīng)信念向量如下所示:
各狀態(tài)對(duì)應(yīng)回報(bào)值為:
回報(bào)值是基于偵察信息狀態(tài)oI和偵察威脅狀態(tài)oR的回報(bào)值的組合函數(shù)。某時(shí)刻的偵察回報(bào)為:
式中:
本文用蒙特卡洛算法求解偵察回報(bào),并設(shè)定集群無(wú)人機(jī)不在同一時(shí)刻巡邏同一系統(tǒng)點(diǎn)。同時(shí)減少無(wú)人機(jī)在偵察一個(gè)系統(tǒng)點(diǎn)后,下一個(gè)時(shí)間步時(shí)對(duì)其進(jìn)行重復(fù)偵察的可能。具體為:當(dāng)前時(shí)刻被偵察到的點(diǎn),將在下一時(shí)刻按照單調(diào)Markov矩陣~首列的概率進(jìn)行衍變,即有更大概率回報(bào)值取序列中的最小值。
通過(guò)以上POMDP框架和信念表示求解本文設(shè)定地形??紤]每次決策都進(jìn)行多步搜索,集群無(wú)人機(jī)依次考慮單機(jī)最大回報(bào)值路徑,排次在后的無(wú)人機(jī)不到訪同一時(shí)間步已有無(wú)人機(jī)偵察的系統(tǒng)點(diǎn)。假設(shè)無(wú)人機(jī)的續(xù)航時(shí)間為10 h,飛行速度為每0.01 h經(jīng)過(guò)相鄰系統(tǒng)點(diǎn)。集群無(wú)人機(jī)的初始位置為隨機(jī)分布。仿真20架次無(wú)人機(jī)在不同路徑搜索深度下的偵察回報(bào),搜索深度從1到7步,每個(gè)狀態(tài)的蒙特卡洛事例數(shù)100次。結(jié)果如圖2所示。
可見(jiàn),平均總回報(bào)值在4步搜索深度之后穩(wěn)定,并基本達(dá)到飽和。為提高仿真計(jì)算效率,搜索深度將固定在4步。
仿真計(jì)算5~25架無(wú)人機(jī)同時(shí)執(zhí)行同一地形偵察任務(wù)的總回報(bào)值(圖3),在集群無(wú)人機(jī)數(shù)量達(dá)到17時(shí),回報(bào)值達(dá)到最大。曲線先增后減的走向是由于不同無(wú)人機(jī)探測(cè)同一地點(diǎn)時(shí),信息值不重復(fù)計(jì)算,而威脅值是累加的,回報(bào)值因同時(shí)更多架次無(wú)人機(jī)受到傷害而減小。
假設(shè)戰(zhàn)備完好率以及單架無(wú)人機(jī)的失效率為常數(shù)。本文建立無(wú)人機(jī)數(shù)量N取值范圍在10~18架,戰(zhàn)備完好率κ在60~100 %,單機(jī)失效率λ在1× 10-4- 5× 10-2h-1范圍內(nèi)的集群無(wú)人機(jī)偵察任務(wù)可靠性研究,定量分析偵察回報(bào)的影響因素。各條件蒙特卡洛仿真事例數(shù)均為400。
圖2 20架無(wú)人機(jī)搜索深度與平均回報(bào)值標(biāo)準(zhǔn)差
曲面是按曲面(4)對(duì)偵察回報(bào)值的擬合。用顏色區(qū)分任務(wù)架次的條件。
表達(dá)式(4)對(duì)出動(dòng)架次的影響用二次多項(xiàng)式描述,對(duì)失效率影響采用指數(shù)形式。從圖4可以看到,回報(bào)擬合曲面與仿真結(jié)果吻合,最大偏差在5 %以內(nèi),擬合結(jié)果見(jiàn)表1。
圖5~6給出擬合回報(bào)值對(duì)出動(dòng)架次和失效率的偏差分布。即在特定形和合理的戰(zhàn)備完好率、失效率范圍內(nèi),(4)在預(yù)測(cè)不同架次和失效率的偵察回報(bào)上表現(xiàn)穩(wěn)定,可以有效評(píng)估架次和失效率變化對(duì)偵察回報(bào)的影響。
圖3 無(wú)人機(jī)數(shù)量與平均回報(bào)值標(biāo)準(zhǔn)差
圖4 無(wú)人機(jī)出動(dòng)架次和失效率組合條件下偵察任務(wù)回報(bào)值
本文對(duì)在給定的任務(wù)設(shè)定下,基于POMDP框架和蒙特卡洛仿真計(jì)算方法,對(duì)集群無(wú)人機(jī)偵察任務(wù)進(jìn)行了仿真計(jì)算,給出了在有限探索深度下集群無(wú)人機(jī)自主決策的行動(dòng)序列,建立了集群無(wú)人機(jī)總數(shù)、單機(jī)失效率、戰(zhàn)備完好率與任務(wù)回報(bào)值時(shí)間的定量關(guān)系模型。該方法可為集群無(wú)人機(jī)偵查任務(wù)的可靠性指標(biāo)的制定提供定量分析工具。
表1 擬合參數(shù)值
圖5 不同出動(dòng)架次下回報(bào)值預(yù)測(cè)誤差分布
圖6 不同失效率下回報(bào)值預(yù)測(cè)誤差分布