李亞哲姚 堯馮景祥尤 岳
(江蘇自動(dòng)化研究所,江蘇 連云港 222006)
無(wú)人水下航行器(UUV)自20世紀(jì)60年代發(fā)展至今,已廣泛應(yīng)用于各大領(lǐng)域,包括近海石油勘探、水下安保、水下通信線路的鋪設(shè)與維修等民用領(lǐng)域以及水下搜索、偵察、獵雷、反潛作戰(zhàn)等軍用領(lǐng)域。然而隨著海洋資源進(jìn)一步的開發(fā)以及水下作業(yè)力度的加大,單個(gè)UUV 在獲取信息、任務(wù)處理以及控制執(zhí)行力等方面有明顯的局限性,難以獨(dú)自完成復(fù)雜的工作任務(wù)。因此UUV 技術(shù)必然會(huì)朝著魯棒性更強(qiáng)、容錯(cuò)性更好的UUV 集群的方向發(fā)展。UUV 集群技術(shù)在水下偵察、搜救、圍捕等任務(wù)中也得到了廣泛應(yīng)用。其中UUV 集群圍捕任務(wù)經(jīng)常被用來(lái)檢測(cè)和評(píng)價(jià)UUV 集群系統(tǒng)的性能。隨著智能無(wú)人集群體系理論的發(fā)展,其仿真及驗(yàn)證也得到了極大的提高。近年來(lái),該問(wèn)題成為UUV 集群領(lǐng)域的一個(gè)熱點(diǎn)課題。
文獻(xiàn)[6]根據(jù)人類的認(rèn)知活動(dòng)提出了一種基于群體意志統(tǒng)一的無(wú)人機(jī)圍捕策略,有效解決了不同數(shù)量的無(wú)人機(jī)集群圍捕問(wèn)題,但該方法局限于固定環(huán)境下的圍捕。文獻(xiàn)[7]在每個(gè)機(jī)器人都能獲取全局態(tài)勢(shì)的前提下利用循環(huán)追蹤策略解決了圍捕問(wèn)題。文獻(xiàn)[8]通過(guò)預(yù)測(cè)虛擬目標(biāo)提出一種使用相位差的神經(jīng)振蕩器的基于極限環(huán)的算法,成功完成了多機(jī)器人圍捕目標(biāo)的任務(wù),但未考慮被圍捕目標(biāo)的逃跑策略。文獻(xiàn)[9]使用強(qiáng)化學(xué)習(xí)的方法來(lái)訓(xùn)練機(jī)器人集群模型對(duì)目標(biāo)的圍捕,但強(qiáng)化學(xué)習(xí)有訓(xùn)練時(shí)間長(zhǎng)、學(xué)習(xí)到的新策略無(wú)法保證最優(yōu)等固有缺陷。關(guān)于集群圍捕的研究,圍捕策略的設(shè)計(jì)是能否完成圍捕任務(wù)的關(guān)鍵技術(shù)之一。
現(xiàn)有的絕大多數(shù)研究均建立在圍捕UUV 的性能優(yōu)于被圍捕UUV 性能的前提下,然而這是不現(xiàn)實(shí)的。因此,本文設(shè)定被圍捕UUV 的速度大于圍捕UUV,且被圍捕UUV 將采用智能的逃跑策略,這大大增加了UUV 集群圍捕的難度。本文將采用基于阿波羅尼斯(Apollonius)圓的圍捕模型,然后提出基于有限狀態(tài)機(jī)的圍捕策略,通過(guò)仿真驗(yàn)證,成功實(shí)現(xiàn)了對(duì)目標(biāo)UUV 的圍捕。
本文研究的圍捕問(wèn)題建立在無(wú)限且無(wú)障礙物的二維平面上,由(≥3)個(gè)圍捕UUV 對(duì)1個(gè)目標(biāo)UUV 進(jìn)行圍捕,最終形成以目標(biāo)UUV 為中心的一個(gè)包圍圈,如圖1所示。
圖1 UUV 集群圍捕目標(biāo)
圖1中,{,,…,U },表示個(gè)圍捕UUV 的集合,表示被圍捕的目標(biāo)UUV,用V 表示圍捕UUV 的速度,V 表示目標(biāo)UUV 的速度。為提高所設(shè)計(jì)的圍捕策略的普適性,本文允許V >V 。
圍捕任務(wù)開始后,圍捕UUV 按照UUV 集群尾部策略進(jìn)行圍捕,同時(shí)目標(biāo)UUV 按照設(shè)定的逃逸策略進(jìn)行逃逸。當(dāng)圍捕UUV 包圍目標(biāo)UUV 并在其周圍形成封閉的Apollonius圓時(shí),視為圍捕成功。
本文采用國(guó)際水池會(huì)議(ITTC)及造船工程學(xué)會(huì)(SNAME)推薦的坐標(biāo)系和參數(shù)符號(hào)描述UUV的運(yùn)動(dòng)。對(duì)UUV 的建模過(guò)程參考文獻(xiàn)[10]。
根據(jù)研究的需要,不考慮UUV 在垂直方向上的運(yùn)動(dòng),即假設(shè)UUV 只在水平面內(nèi)運(yùn)動(dòng)。這里定義[,,],為運(yùn)載體坐標(biāo)系在地面坐標(biāo)系下的廣義位置坐標(biāo),如圖2 所示。定義[,,],為UUV 的廣義速度。其中,和分別表示UUV 在運(yùn)載體坐標(biāo)系下沿水平面的2個(gè)坐標(biāo)軸方向的速度,為艏向角速度。
圖2 UUV 水平面運(yùn)動(dòng)圖示
則UUV 的運(yùn)動(dòng)學(xué)模型為:
根據(jù)圍捕UUV 與目標(biāo)UUV 會(huì)同時(shí)到達(dá)Apollonius圓上一點(diǎn)這一特性,設(shè)計(jì)UUV 集群圍捕模型如圖3所示。
圖3 為個(gè) 圍 捕UUV 即,,,…,U 與目標(biāo)之間構(gòu)建基于Apollonius圓的UUV 集群圍捕模型。其中,點(diǎn),,,…,O 為Apollonius圓的圓心。當(dāng)某2個(gè)相鄰的Apollonius圓沒(méi)有相切或相交時(shí),目標(biāo)UUV 可利用速度優(yōu)勢(shì),憑借智能逃逸策略突破包圍圈,進(jìn)行逃逸;當(dāng)所有相鄰的2個(gè)Apollonius圓相切或相交時(shí),個(gè)圍捕UUV形成封閉Apollonius圓域,圍捕成功。
圖3 UUV 集群圍捕模型
目前圍捕問(wèn)題中被圍捕者的傳統(tǒng)逃逸策略為將所有追捕者的速度方向進(jìn)行矢量疊加,并朝著疊加后的總速度方向以最大速度進(jìn)行逃逸,然而傳統(tǒng)的逃逸策略不夠智能化。本文將以UUV 集群是否對(duì)目標(biāo)UUV 形成包圍圈作為研究,提出一種智能的逃逸策略,討論如下:
(1) 如圖4所示,目標(biāo)UUV 計(jì)算以目標(biāo)為頂點(diǎn)、相鄰UUV 與自身所形成的角度,當(dāng)有角度大于或等于180°時(shí),即≥180°,判定為UUV 集群未對(duì)目標(biāo)UUV 形成包圍圈,這時(shí)目標(biāo)UUV 采用傳統(tǒng)的逃逸策略,以最大速度朝的方向逃逸。
圖4 目標(biāo)UUV 未被包圍逃逸方向示意圖
(2) 當(dāng)目標(biāo)UUV 計(jì)算相鄰UUV 與自身所形成的夾角,所有夾角均小于180°時(shí),如圖5 所示,<<<180°,判定為UUV 集群未對(duì)目標(biāo)UUV 形成包圍圈。此時(shí)目標(biāo)UUV 采取“最大夾角”逃逸策略,即選擇形成最大夾角的2個(gè)圍捕UUV(和)連線的中點(diǎn)方向V 作為逃逸方向。
圖5 目標(biāo)UUV 被包圍逃逸方向示意圖
有限狀態(tài)機(jī)是系統(tǒng)根據(jù)用戶定義的規(guī)則在有限的狀態(tài)之間進(jìn)行轉(zhuǎn)換,最終處于結(jié)束狀態(tài)或消亡狀態(tài)的一種數(shù)學(xué)模型。
由于目標(biāo)UUV 的性能高于圍捕UUV,UUV集群無(wú)法追捕目標(biāo)。因此本章主要分析在UUV 集群圍捕過(guò)程中設(shè)置合理的誘捕策略進(jìn)行圍捕,即在實(shí)時(shí)策略選擇過(guò)程中對(duì)UUV 集群狀態(tài)進(jìn)行轉(zhuǎn)換的策略。建立有限狀態(tài)機(jī)模型,對(duì)UUV 集群狀態(tài)轉(zhuǎn)換規(guī)則進(jìn)行詳細(xì)研究,最終實(shí)現(xiàn)了UUV 集群圍捕的有效決策。
3.2.1 UUV 集群圍捕策略狀態(tài)設(shè)計(jì)
UUV 集群圍捕就是對(duì)目標(biāo)形成包圍圈并縮小的過(guò)程。假設(shè)所有的UUV 均勻速運(yùn)動(dòng),且V >V ,UUV 集群無(wú)法通過(guò)簡(jiǎn)單的追捕捕獲目標(biāo),本章設(shè)計(jì)了合適的伏擊圍捕策略,每個(gè)決策階段都由多個(gè)基本狀態(tài)構(gòu)成,包括潛伏狀態(tài)、追捕狀態(tài)、攔截狀態(tài)和合圍狀態(tài)。
(1) 潛伏狀態(tài)
圍捕UUV 進(jìn)入潛伏狀態(tài)時(shí),停止運(yùn)動(dòng)且僅打開被動(dòng)聲納,噪音極小,無(wú)法被目標(biāo)UUV 發(fā)現(xiàn),即圍捕UUV 處于潛伏狀態(tài)時(shí)不會(huì)對(duì)目標(biāo)UUV 的運(yùn)動(dòng)產(chǎn)生任何影響。
(2) 追捕狀態(tài)
當(dāng)處于追捕狀態(tài)時(shí),圍捕UUV 以最快的速度朝向目標(biāo)運(yùn)動(dòng)。
(3) 攔截狀態(tài)
攔截狀態(tài)是指相鄰2個(gè)圍捕UUV 相互靠近、缺口變小的運(yùn)動(dòng)狀態(tài)。
(4) 合圍狀態(tài)
合圍狀態(tài)是指UUV 集群成功包圍目標(biāo),且形成封閉Apollonius 圓域,即UUV 集群成功圍捕目標(biāo)。
3.2.2 UUV 集群圍捕策略設(shè)計(jì)
當(dāng)UUV 集群在無(wú)速度優(yōu)勢(shì)的條件下對(duì)目標(biāo)UUV 實(shí)施圍捕時(shí),可以通過(guò)潛伏、誘導(dǎo)等策略對(duì)其進(jìn)行圍捕。對(duì)于單目標(biāo)UUV 來(lái)說(shuō),圍捕UUV 的數(shù)量越多,圍捕越容易,成功率越高,本文取最小值=3,如圖6所示,正三角形虛線區(qū)域?yàn)榉鼡羧?。此時(shí)如果能找到一個(gè)合適的圍捕策略,使得3個(gè)圍捕UUV 包圍目標(biāo)并形成封閉Apollonius圓域,就能圍捕成功。
對(duì)于圍捕UUV 的策略選擇,輸出的控制量為啟動(dòng)信號(hào)和轉(zhuǎn)角方向,對(duì)應(yīng)的是圍捕UUV 的狀態(tài)轉(zhuǎn)換,各狀態(tài)記為(,,,),其中s (0,1,2,3)分別表示UUV 的潛伏狀態(tài)、追捕狀態(tài)、攔截狀態(tài)和合圍狀態(tài)。定義(,,,)為輸入集,其中用于判斷目標(biāo)是否進(jìn)入伏擊圈,即用1表示目標(biāo)進(jìn)入伏擊圈,0表示目標(biāo)未進(jìn)入伏擊圈。取或或,表示圍捕UUV 與U (1,2,3)之間的距離大小,設(shè)為預(yù)設(shè)閾值,將d (1,2,3)的具體值分別在3個(gè)區(qū)間內(nèi)進(jìn)行匹配,分別為(0,),(,2),(2,∞),對(duì)應(yīng)模糊歸一化集合[小(),中(),大()]。在,,中取值,描述的是目標(biāo)UUV 的運(yùn)動(dòng)方向。如圖6所示,通過(guò)判斷目標(biāo)UUV 的運(yùn)動(dòng)方向與圍捕UUV 和目標(biāo)連線所成的夾角θ(1,2,3)可以決策進(jìn)入攔截狀態(tài)的圍捕UUV。將θ(1,2,3)的當(dāng)前值與3 個(gè)論域的值匹配,分別為(0°,30°),(30°,90°),(90°,180°),對(duì)應(yīng) 模 糊 歸一化集合[小(),中(),大()]。1表示所有圍捕UUV全部脫離潛伏狀態(tài),反之至少有1個(gè)圍捕UUV 處于潛伏狀態(tài)。接下來(lái)對(duì)UUV 集群圍捕策略進(jìn)行設(shè)計(jì)。
圖6 輸入集示意圖
由于V >V ,所以在目標(biāo)UUV 進(jìn)入伏擊圈之前,各圍捕UUV 保持潛伏狀態(tài)。目標(biāo)進(jìn)入伏擊圈后,與目標(biāo)之間的距離小于設(shè)定啟動(dòng)閾值的圍捕UUV 進(jìn)入追捕狀態(tài)。根據(jù)目標(biāo)UUV 的智能逃逸策略,當(dāng)3個(gè)圍捕UUV 全部進(jìn)入追捕狀態(tài)時(shí),目標(biāo)UUV 將采取“最大夾角”逃逸策略,因此目標(biāo)運(yùn)動(dòng)方向上相鄰的2個(gè)圍捕UUV 將進(jìn)入攔截狀態(tài)。在此期間,為縮小包圍圈,當(dāng)目標(biāo)UUV 運(yùn)動(dòng)方向與自身和某圍捕者U 連線所成夾角小于某閾值時(shí),U 將處于追捕狀態(tài)。在追捕狀態(tài)和攔截狀態(tài)下,UUV集群包圍圈將逐漸縮小,最終成功圍捕目標(biāo)UUV。UUV 集群圍捕示意圖如圖7所示。
圖7 UUV 集群圍捕示意圖
基于上文設(shè)計(jì)的圍捕策略,本文首先設(shè)定UUV 集群圍捕目標(biāo)UUV 的任務(wù)為。反映了圍捕UUV 狀態(tài)轉(zhuǎn)換和選擇的規(guī)則,用簡(jiǎn)化的四元組表示為(,,,)(由于最終狀態(tài)只有一個(gè),所以這里忽略了最終狀態(tài)的集合),其中表示從一個(gè)狀態(tài)變換到另一狀態(tài)的轉(zhuǎn)換規(guī)則,→。
狀態(tài)轉(zhuǎn)移規(guī)則如下:
if0 andandand0 then圍捕者選擇狀態(tài);
if1 andandand0 then圍捕者選擇狀態(tài);
……
因?yàn)閲墩?、、完全等價(jià),所以各圍捕者具有相同的狀態(tài)轉(zhuǎn)移規(guī)則,以為例,其全部狀態(tài)轉(zhuǎn)移規(guī)則如表1所示。
表1 圍捕者UUV狀態(tài)轉(zhuǎn)移規(guī)則
本實(shí)驗(yàn)使用的是Matlab仿真環(huán)境。假定目標(biāo)UUV 一直處于可以被UUV 集群感知的狀態(tài),且目標(biāo)UUV 只能探測(cè)到處于運(yùn)動(dòng)狀態(tài)的目標(biāo),無(wú)法探測(cè)到處于潛伏狀態(tài)的圍捕者。圍捕UUV 和目標(biāo)UUV 的運(yùn)動(dòng)均受單位時(shí)間內(nèi)最大角速度的限制。UUV 集群圍捕失敗的判定條件為目標(biāo)UUV 移動(dòng)到包圍圈之外。實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如下:
預(yù)設(shè)啟動(dòng)閾值為70 m;圍捕成功閾值為25 m;目標(biāo)UUV 的速度V 為1.4 m/s;圍捕UUV的速度V 為1.2 m/s;圍捕UUV 初始位置坐標(biāo)為(1 000,214),(200,1 600),(1 800,1 600)。
如圖8所示,圍捕初始時(shí)刻,圍捕UUV 集群保持三角伏擊陣型并處于潛伏狀態(tài),目標(biāo)UUV 從起點(diǎn)(1 400,1 800)以最大速度1.4 m/s出發(fā)。UUV集群圍捕第24 s 時(shí)刻,目標(biāo)UUV 進(jìn)入伏擊圈,UUV滿足啟動(dòng)閾值,進(jìn)入追捕狀態(tài),UUV與UUV未滿足啟動(dòng)閾值條件,仍處于潛伏狀態(tài),目標(biāo)UUV 判定自身未被包圍,采取傳統(tǒng)的逃逸策略。在處于UUV集群圍捕第58 s時(shí)刻,UUV與UUV先后滿足啟動(dòng)閾值條件,進(jìn)入追捕狀態(tài)。第58 s后目標(biāo)UUV 判定自身處于圍捕包圍圈,采用“最大夾角”逃逸策略。此后,為縮小包圍圈,圍捕UUV 依據(jù)目標(biāo)逃逸方向在追捕狀態(tài)和攔截狀態(tài)中切換,目標(biāo)被圍捕UUV 形成相鄰的Apollonius圓無(wú)縫隙地包圍。最終UUV 集群將目標(biāo)UUV 限制在了一個(gè)較小區(qū)域,且各圍捕UUV 均滿足圍捕成功閾值條件,判定為圍捕成功。整個(gè)圍捕過(guò)程持續(xù)154 s。
圖8 UUV 集群圍捕仿真圖
本文在被圍捕目標(biāo)速度性能高于圍捕者的前提下,提出一種基于有限狀態(tài)機(jī)的UUV 集群圍捕策略。針對(duì)進(jìn)入U(xiǎn)UV 集群圍捕伏擊圈內(nèi)部目標(biāo)的圍捕,設(shè)計(jì)了4種圍捕者狀態(tài),并對(duì)狀態(tài)轉(zhuǎn)換規(guī)則進(jìn)行了詳細(xì)設(shè)計(jì)。最后,在Matlab仿真環(huán)境下驗(yàn)證了所提出圍捕策略的有效性。