王景璟 魏 維 王永越 侯向往 任 勇
AUV 是應(yīng)用最廣泛的一種水下機(jī)器人,其具備機(jī)動(dòng)能力強(qiáng)、活動(dòng)范圍廣、制造成本低等特點(diǎn).AUV能夠以艦船、潛艇等平臺(tái)作為基地,實(shí)現(xiàn)數(shù)十甚至數(shù)百公里范圍的水下情報(bào)收集、巡邏搜索、目標(biāo)打擊等軍事任務(wù),因此被譽(yù)為現(xiàn)代海軍的“力量倍增器”[1].
由于單個(gè)AUV 作業(yè)能力有限,無(wú)法完成復(fù)雜的任務(wù),與此同時(shí),基于單AUV 的作業(yè)模式,魯棒性往往較差.因此,近些年研究人員開(kāi)始探索利用多個(gè)AUV 組成的AUV 集群協(xié)作執(zhí)行任務(wù),通過(guò)集群協(xié)同導(dǎo)航,進(jìn)行路徑規(guī)劃,可以協(xié)同、高效地完成多項(xiàng)軍事和民用領(lǐng)域中的水下任務(wù).大量研究表明,相比于單AUV 的作業(yè)模式,AUV 集群協(xié)作[2]具有魯棒性高、能力強(qiáng)、效率高等顯著優(yōu)勢(shì).因此,AUV 集群協(xié)作基礎(chǔ)理論與關(guān)鍵技術(shù)研究成為了國(guó)際研究的熱點(diǎn)問(wèn)題.2009 年,歐盟發(fā)起了AUV 集群協(xié)同認(rèn)知控制項(xiàng)目CO3AUVs,2016 年,美國(guó)提出了《到2025 年美國(guó)海軍水下無(wú)人潛航器的發(fā)展需求》,經(jīng)過(guò)十余年的發(fā)展,催生了大量?jī)?yōu)秀的成果.在AUV 集群協(xié)作的眾多應(yīng)用中,協(xié)同圍捕任務(wù)無(wú)疑是最復(fù)雜、最能代表AUV集群協(xié)作水平的任務(wù),其涉及AUV 集群感知、通信、編隊(duì)、跟蹤、抓捕等多項(xiàng)關(guān)鍵技術(shù),被譽(yù)為是AUV集群技術(shù)“皇冠上的明珠”.
因此,本文旨在對(duì)AUV 集群協(xié)同圍捕技術(shù)進(jìn)行深入的剖析,以梳理總結(jié)國(guó)內(nèi)外AUV 集群協(xié)同圍捕技術(shù)的研究成果,并且指出AUV 集群協(xié)同圍捕技術(shù)未來(lái)發(fā)展的方向.國(guó)內(nèi)外科研人員針對(duì)多智能體協(xié)同圍捕技術(shù),在陸地機(jī)器人、無(wú)人機(jī)等領(lǐng)域的理論與應(yīng)用進(jìn)行了研究與綜述.BAGHAEI 等針對(duì)機(jī)器人的資源、時(shí)間、能量,綜述了多機(jī)器人系統(tǒng)的任務(wù)分配和通信方法[5].文獻(xiàn)[6-12]基于群體的圍捕問(wèn)題,研究了多智能體的對(duì)抗與協(xié)作機(jī)制.DONG 等研究了決策和圍捕策略[13],將圍捕方法劃分成3 類: 基于數(shù)學(xué)的方法、基于知識(shí)編碼的方案、基于學(xué)習(xí)驅(qū)動(dòng)的算法.張偉等研究了AUV 集群系統(tǒng)的發(fā)展現(xiàn)狀和關(guān)鍵技術(shù)[14],李強(qiáng)等調(diào)研了體系層指揮控制和智能對(duì)抗的研究進(jìn)展[15].
現(xiàn)有綜述側(cè)重于研究理想環(huán)境下圍捕雙方之間的對(duì)抗策略,很少考慮執(zhí)行圍捕任務(wù)的真實(shí)環(huán)境,更未有針對(duì)AUV 水下環(huán)境圍捕任務(wù)的研究.此外,復(fù)雜的水下環(huán)境對(duì)AUV 集群感知、通信以及運(yùn)動(dòng)行為有著非常嚴(yán)重的影響.AUV 集群協(xié)同圍捕技術(shù)必須將復(fù)雜惡劣的水下環(huán)境考慮進(jìn)來(lái).為了彌補(bǔ)現(xiàn)有文獻(xiàn)的缺失,本文以水下AUV 集群協(xié)同圍捕任務(wù)為研究對(duì)象,充分考慮水下環(huán)境對(duì)集群的影響,進(jìn)行以下幾個(gè)方面的研究和總結(jié): 1)歸納總結(jié)了5 種典型的圍捕場(chǎng)景.2)提出了一個(gè)全面的AUV 集群協(xié)同圍捕任務(wù)的系統(tǒng)框架.3)指出了AUV 集群協(xié)同圍捕技術(shù)的未來(lái)研究方向.
目標(biāo)圍捕問(wèn)題是一種在分布式系統(tǒng)中多智能體合作和協(xié)調(diào)的問(wèn)題,涉及到混合系統(tǒng)理論、計(jì)算機(jī)視覺(jué)、最優(yōu)控制理論、通信理論和多智能體協(xié)調(diào)學(xué)科等知識(shí).目標(biāo)圍捕問(wèn)題本質(zhì)上是圍捕機(jī)器人通過(guò)搜索發(fā)現(xiàn)目標(biāo),以盡可能少的代價(jià)(移動(dòng)距離或者能耗)對(duì)靜態(tài)或者動(dòng)態(tài)的目標(biāo)實(shí)現(xiàn)小于某個(gè)距離的包圍的過(guò)程.圖1 描述了AUV 圍捕任務(wù)的階段劃分: 1)AUV 集群系統(tǒng)在隨機(jī)游走過(guò)程中檢測(cè)到目標(biāo).2)集群AUV 內(nèi)部通過(guò)決策算法選出群體中執(zhí)行圍捕任務(wù)的個(gè)體AUV.3)圍捕者AUV 重新編隊(duì),前往目標(biāo),對(duì)動(dòng)態(tài)行進(jìn)的目標(biāo)進(jìn)行圍捕.4)當(dāng)AUV 距離目標(biāo)小于圍捕閾值距離并形成圍勢(shì),目標(biāo)圍捕成功.
由于存在不同的圍捕的目標(biāo)狀態(tài)和圍捕環(huán)境,可將目標(biāo)圍捕任務(wù)場(chǎng)景劃分為5 種不同的類型,具體來(lái)說(shuō):
1)根據(jù)目標(biāo)的狀態(tài)可以分為靜態(tài)目標(biāo)圍捕場(chǎng)景和動(dòng)態(tài)目標(biāo)圍捕場(chǎng)景.目標(biāo)處于靜態(tài)的情況下,圍捕者在得知目標(biāo)的位置和狀態(tài)信息后,通過(guò)一定的任務(wù)分配和圍捕方法對(duì)目標(biāo)進(jìn)行圍捕,圍捕過(guò)程中不用考慮目標(biāo)位置和狀態(tài)的改變.目標(biāo)處于動(dòng)態(tài)的情況下,目標(biāo)大多為非合作狀態(tài),圍捕者的圍捕行為與目標(biāo)的逃跑行為是一種動(dòng)態(tài)博弈的關(guān)系,且每次實(shí)驗(yàn)由于目標(biāo)行為的不確定性,目標(biāo)的圍捕軌跡、協(xié)同圍捕的難度、圍捕所需時(shí)間也動(dòng)態(tài)改變.
2)根據(jù)圍捕對(duì)象的數(shù)量,可以將圍捕任務(wù)分為單目標(biāo)圍捕場(chǎng)景和多目標(biāo)圍捕場(chǎng)景.單目標(biāo)圍捕任務(wù)中圍捕者團(tuán)隊(duì)只對(duì)單個(gè)目標(biāo)執(zhí)行圍捕任務(wù),由于圍捕對(duì)象數(shù)量少,行為簡(jiǎn)單,逃逸能力有限,已有的求解方法較為成熟.多目標(biāo)圍捕任務(wù)需要考慮圍捕對(duì)象能夠通過(guò)局部交互通信獲得超過(guò)單一個(gè)體的環(huán)境感知能力來(lái)對(duì)抗圍捕者的圍捕,即圍捕對(duì)象通過(guò)相互合作可獲得更強(qiáng)的逃逸能力.由于多目標(biāo)圍捕問(wèn)題的復(fù)雜性,如何控制多機(jī)器人協(xié)同實(shí)現(xiàn)多目標(biāo)圍捕,是一個(gè)極具挑戰(zhàn)的課題.
3)根據(jù)圍捕環(huán)境是否已知,可以把圍捕任務(wù)所處的環(huán)境劃分為已知環(huán)境圍捕和未知環(huán)境圍捕.在已知環(huán)境中,地圖已知,這類圍捕任務(wù)側(cè)重研究圍捕者和目標(biāo)的對(duì)抗策略,且預(yù)先定義的地圖一般較為簡(jiǎn)單,常用的地圖模型有柵格模型[16]和有限圖模型[17].在未知環(huán)境中,圍捕者在初始狀態(tài)時(shí)對(duì)障礙物、目標(biāo)等環(huán)境信息完全未知,往往采取一定的感知和識(shí)別技術(shù),如裝備主動(dòng)聲吶、水下照相機(jī)等,對(duì)探測(cè)范圍內(nèi)的水下環(huán)境進(jìn)行識(shí)別,實(shí)時(shí)創(chuàng)建較為復(fù)雜的環(huán)境地圖[18].
4)根據(jù)圍捕環(huán)境模型的連續(xù)性,可以將圍捕任務(wù)劃分為連續(xù)環(huán)境圍捕和離散環(huán)境圍捕.離散環(huán)境圍捕采取柵格模型或有限圖模型等離散化的環(huán)境模型模擬AUV 執(zhí)行任務(wù)的環(huán)境,由于離散環(huán)境下只考慮了AUV 和目標(biāo)在有限個(gè)方向和位置上的運(yùn)動(dòng)狀況,不能反映實(shí)際水下環(huán)境中AUV 真實(shí)的運(yùn)動(dòng)狀況.在連續(xù)環(huán)境中結(jié)合AUV 狀態(tài)、圍捕者和目標(biāo)連續(xù)的運(yùn)動(dòng)軌跡對(duì)圍捕任務(wù)進(jìn)行建模與仿真,更具有實(shí)際意義.
5)根據(jù)圍捕環(huán)境模型的維數(shù),可以將水下圍捕任務(wù)的環(huán)境分為二維環(huán)境圍捕和三維環(huán)境圍捕兩類.二維環(huán)境中的圍捕任務(wù)是在模擬水下環(huán)境時(shí)不考慮AUV 和目標(biāo)的上浮或下潛,只考慮AUV 和目標(biāo)在水下同一深度的對(duì)抗.三維環(huán)境中圍捕者和圍捕對(duì)象可以在三維的海洋環(huán)境中,通過(guò)上浮或下潛等操作進(jìn)行圍捕和逃跑,對(duì)比二維環(huán)境中的圍捕任務(wù),三維環(huán)境中圍捕者和目標(biāo)增加了一個(gè)維度的運(yùn)動(dòng)方向,對(duì)圍捕任務(wù)的建模更接近于真實(shí)的水下環(huán)境,也更具挑戰(zhàn)性.
AUV 水下圍捕系統(tǒng)是一個(gè)復(fù)雜的任務(wù)系統(tǒng),任務(wù)從開(kāi)始到結(jié)束要經(jīng)歷多個(gè)決策過(guò)程,建模過(guò)程涉及到對(duì)圍捕環(huán)境、AUV 運(yùn)動(dòng)狀態(tài)、目標(biāo)行為等建模,所以把對(duì)圍捕任務(wù)的研究進(jìn)行拆分是有必要的.針對(duì)AUV 集群協(xié)同圍捕任務(wù)的系統(tǒng)框架,本文通過(guò)3個(gè)階段進(jìn)行研究:
1)第1 階段是建模階段.水下目標(biāo)圍捕任務(wù)建模部分可以分為環(huán)境建模、AUV 和圍捕目標(biāo)的運(yùn)動(dòng)建模以及AUV 編隊(duì)3 個(gè)部分.水下環(huán)境建模需要考慮實(shí)際環(huán)境的連續(xù)性和仿真柵格的離散性,成熟的方法包括柵格法和Voronoi 法;AUV 作為主要的目標(biāo)圍捕任務(wù)執(zhí)行者,需要建立滿足實(shí)際任務(wù)需求的運(yùn)動(dòng)模型,例如六自由度模型和三自由度模型;而AUV 編隊(duì)方式主要討論了多AUV 協(xié)同圍捕過(guò)程的隊(duì)形選取.
2)第2 階段是執(zhí)行圍捕任務(wù)階段,可分為圍捕任務(wù)分配、協(xié)同圍捕方式選取以及目標(biāo)行為分析3個(gè)部分.任務(wù)分配部分和協(xié)同圍捕部分的解決方法都可分為非仿生和仿生算法.而目標(biāo)行為分析主要研究了圍捕目標(biāo)的位置預(yù)測(cè)、逃逸策略以及防御策略.
3)第3 個(gè)階段是評(píng)價(jià)階段.為了評(píng)估水下目標(biāo)圍捕任務(wù)的完成情況,需要設(shè)計(jì)合理的AUV 圍捕任務(wù)評(píng)價(jià)標(biāo)準(zhǔn),來(lái)準(zhǔn)確估計(jì)圍捕任務(wù)系統(tǒng)性能.總結(jié)AUV 集群圍捕任務(wù)系統(tǒng)框架如圖2 所示,并在第3章進(jìn)行詳細(xì)的討論.
圖2 AUV 集群圍捕任務(wù)系統(tǒng)框架Fig.2 The framework of AUV swarm hunting task system
水聲通信網(wǎng)絡(luò)是以聲波為信息傳輸載體,通過(guò)互連多個(gè)水下平臺(tái),協(xié)同完成信息采集、傳輸和共享的統(tǒng)一體系.水聲通信網(wǎng)絡(luò)能夠在較大范圍海域內(nèi)分布式地獲取水下設(shè)備的各類信息,提高了水下信息采集和處理能力.由于水聲通信網(wǎng)絡(luò)能夠提供持續(xù)、網(wǎng)絡(luò)化的信息傳輸服務(wù),其應(yīng)用前景十分廣泛.此外,水聲通信網(wǎng)絡(luò)有以下3 個(gè)特點(diǎn): 1)水聲信號(hào)傳播速度較低(約為1 500 m/s),在水聲通信網(wǎng)絡(luò)協(xié)議設(shè)計(jì)中需考慮傳播時(shí)延,以保障網(wǎng)絡(luò)吞吐量和端到端時(shí)延性能;2)受多徑效應(yīng)、多普勒效應(yīng)影響,水聲通信信道數(shù)據(jù)傳輸誤碼率高,常規(guī)的水聲通信鏈路極易中斷,需要更可靠的傳輸機(jī)制支持才能保證多跳網(wǎng)絡(luò)中數(shù)據(jù)的成功交付;3)水聲通信網(wǎng)絡(luò)節(jié)點(diǎn)電池容量有限,需要采用高效的資源分配方案.
AUV 為了提供更好的水下信息傳輸與共享服務(wù),需要采用合理的水聲通信網(wǎng)絡(luò)組網(wǎng)協(xié)議,匹配水聲信道和水下環(huán)境的特點(diǎn),以支持水聲通信網(wǎng)絡(luò)高效穩(wěn)定地運(yùn)行.本節(jié)從水聲信道建模、未知環(huán)境建模、考慮海洋特性的環(huán)境建模和水下聲通信建模4 個(gè)方面,來(lái)綜述水下AUV 協(xié)作圍捕環(huán)境建模技術(shù).
2.1.1 水聲信道建模
由于海水介質(zhì)的不均勻性,聲波在傳播過(guò)程中由于散射、吸收等原因,會(huì)產(chǎn)生一定程度的衰減.水聲的傳播損失是研究水下通信的基礎(chǔ),常用的水下聲信號(hào)的衰減模型為:.其中,l 為距離,f 為傳輸信道的中心頻率,A0為一常數(shù),k 為衰減因子,a(f)為吸收因子,對(duì)于高頻信號(hào),吸收系數(shù)如式(1)所示:
對(duì)于低頻信號(hào),吸收系數(shù)如式(2)所示:
水聲信號(hào)在水下的傳播速度約為1 500 m/s,受海洋環(huán)境影響,水下聲音的實(shí)際傳播速度與密度、溫度、鹽度、壓力均有關(guān),水聲信號(hào)在水下的傳播速度常用經(jīng)驗(yàn)公式如式(3)所示:
其中,T 是溫度;S 是鹽度;P 是壓強(qiáng).由于水下聲音通信速率較低,不能實(shí)時(shí)傳輸通信數(shù)據(jù),數(shù)據(jù)接收延遲較為嚴(yán)重,在一定程度上影響了AUV 集群團(tuán)隊(duì)在水下定位的精準(zhǔn)性和AUV 內(nèi)部個(gè)體之間相對(duì)定位的精準(zhǔn)性,同時(shí)AUV 之間的通信數(shù)據(jù)也存在滯后性,這也是水下AUV 集群團(tuán)隊(duì)協(xié)作完成圍捕任務(wù)的難點(diǎn)之一.
受水下環(huán)境的影響,水聲信號(hào)在水下傳播時(shí)存在多徑效應(yīng),如聲信號(hào)在水面或水底會(huì)發(fā)生反射,在遇到由于溫度、密度、鹽度等影響下產(chǎn)生的海水分界面時(shí),會(huì)產(chǎn)生反射或折射現(xiàn)象.聲信號(hào)通過(guò)不同的直射、反射和折射路徑,以不同的時(shí)間到達(dá)接收端,會(huì)發(fā)生多徑效應(yīng).在AUV 集群系統(tǒng)通信中,多徑效應(yīng)會(huì)使水聲信號(hào)產(chǎn)生復(fù)雜的衰變和時(shí)延,影響整個(gè)通信系統(tǒng)的可靠性.
2.1.2 未知環(huán)境建模
傳統(tǒng)方法采用貝葉斯估計(jì)結(jié)合卡爾曼濾波將未知的圍捕場(chǎng)景轉(zhuǎn)換成已知的圍捕場(chǎng)景,缺點(diǎn)是計(jì)算較為復(fù)雜.SEBASTIAN 等提出了一種采取極大似然估計(jì)的優(yōu)化方法[19],在有噪聲觀測(cè)數(shù)據(jù)時(shí),可以獲得效果更好的環(huán)境地圖.RENE 等考慮到圍捕過(guò)程中先驗(yàn)地圖的不準(zhǔn)確性,將對(duì)目標(biāo)的追捕和對(duì)地圖的探索合并為一個(gè)問(wèn)題,研究追捕者如何在追捕的同時(shí)進(jìn)行環(huán)境建模[20].此外,Voronoi 圖[21-24]也可以表達(dá)AUV的工作環(huán)境,它的優(yōu)點(diǎn)是可以融合障礙物信息以及AUV 的位姿信息.
2.1.3 考慮海洋特性的環(huán)境建模
在對(duì)AUV 執(zhí)行水下圍捕任務(wù)的環(huán)境建模時(shí),還應(yīng)考慮海洋環(huán)境的特性,如溫度、鹽度、海流等影響水聲通信的海洋環(huán)境因素.LIANG 等考慮了溫度和鹽度對(duì)AUV 協(xié)同系統(tǒng)的影響[25],LOLLA 等集成海洋建模、時(shí)間最優(yōu)水平集和優(yōu)化方案來(lái)預(yù)測(cè)海流[26].
2.1.4 水下聲通信建模
由于水下帶寬的限制和較低的傳輸速率,水聲通信時(shí)延明顯大于檢測(cè)時(shí)間的延遲,在水下AUV 的圍捕任務(wù)建模中,對(duì)水聲通信中的延遲建模是很有必要的.XIAO 等建立了誤差傳播方程,針對(duì)水聲通信時(shí)延問(wèn)題進(jìn)行研究,將時(shí)間滯后轉(zhuǎn)換為AUV 觀測(cè)方程中的測(cè)量偏置[27].LIANG 等提出一種精確水下定位方法解決水下聲速變化的問(wèn)題[28].REED 等通過(guò)實(shí)驗(yàn)討論聲學(xué)在淺水環(huán)境中維持高動(dòng)態(tài)、多智能體任務(wù)的能力,比較了3 種不同通信配置的跟蹤性能[29].
常用的AUV 運(yùn)動(dòng)模型有質(zhì)點(diǎn)模型和六自由度模型.質(zhì)點(diǎn)模型忽略了不同方向上AUV 的流體力學(xué)特點(diǎn),而無(wú)法反映真實(shí)AUV 運(yùn)動(dòng)受到水下時(shí)空復(fù)雜性影響.六自由度模型指AUV 可以相對(duì)于坐標(biāo)系,進(jìn)行3 個(gè)平移和3 個(gè)旋轉(zhuǎn)運(yùn)動(dòng),即有6 個(gè)自由度[30]: X方向的前沖、Y 方向的橫移、Z 方向的升降、K 方向的橫搖、M 方向的縱傾、N 方向的偏航.相比質(zhì)點(diǎn)模型,六自由度模型可以更好地描述AUV 在水下的運(yùn)動(dòng)狀態(tài),更接近真實(shí)的水下情況.在實(shí)際應(yīng)用中,為了降低六自由度模型帶來(lái)的運(yùn)動(dòng)建模的計(jì)算復(fù)雜度,可以根據(jù)AUV 實(shí)際的工作環(huán)境和運(yùn)動(dòng)狀態(tài)設(shè)置自由度的個(gè)數(shù).如劉琨采用了三自由度模型,忽略了AUV的升降、橫搖與縱搖方向上的運(yùn)動(dòng)[31].CAI 等采用了四自由度模型執(zhí)行圍捕任務(wù),假設(shè)AUV 不能側(cè)移和側(cè)滾,忽略了橫搖和橫移方向上的運(yùn)動(dòng)[32].
集中式/全局領(lǐng)導(dǎo)式編隊(duì)結(jié)構(gòu)如圖3(a)所示,有一個(gè)領(lǐng)導(dǎo)者AUV,其他AUV 通過(guò)向領(lǐng)導(dǎo)者AUV 傳遞數(shù)據(jù)進(jìn)行通信,再由領(lǐng)導(dǎo)者AUV 進(jìn)行一定的決策過(guò)程統(tǒng)一分配任務(wù),這對(duì)領(lǐng)導(dǎo)者AUV 的帶寬和數(shù)據(jù)處理能力有一定的要求.優(yōu)點(diǎn)是統(tǒng)一分配任務(wù),不存在沖突的狀況,缺點(diǎn)是抗干擾能力較差,一個(gè)AUV出故障可能影響到整個(gè)系統(tǒng),且隨著AUV 數(shù)量的增加,統(tǒng)一管理效率降低.局部領(lǐng)導(dǎo)者結(jié)構(gòu)如圖3(b)所示,多AUV 被分成若干組,每一組中選取一個(gè)領(lǐng)導(dǎo)者AUV,負(fù)責(zé)管理該分組內(nèi)的數(shù)據(jù)通信和任務(wù)分配,相對(duì)于全局領(lǐng)導(dǎo)式,增強(qiáng)了單點(diǎn)的魯棒性,容錯(cuò)率較高.分布式結(jié)構(gòu)如圖3(c)所示,個(gè)體AUV 之間地位平等,每個(gè)AUV 都對(duì)環(huán)境進(jìn)行感知,并進(jìn)行相應(yīng)的決策.此外,許真珍等提出了一種基于多智能體系統(tǒng)的分層式編隊(duì)體系[33].吳迪等將編隊(duì)系統(tǒng)分為5 層: 感知層、協(xié)作規(guī)劃層、協(xié)調(diào)控制層、行為控制層和通信層[24].AUV 采用分布式編隊(duì)結(jié)構(gòu)優(yōu)點(diǎn)是提高了單點(diǎn)的魯棒性,缺點(diǎn)是由于水下環(huán)境中AUV 之間存在通信延遲、多普勒頻移等問(wèn)題,多個(gè)AUV 之間的通信存在滯后性.
圖3 常用的AUV 編隊(duì)結(jié)構(gòu)示意圖Fig.3 The schematic diagram of commonly used AUV formation structure
2.4.1 非仿生算法
拍賣算法是AUV 圍捕任務(wù)決策的主流方法,發(fā)現(xiàn)目標(biāo)的AUV 自動(dòng)成為拍賣者,其他AUV 作為競(jìng)標(biāo)者.由拍賣者AUV 組建拍賣市場(chǎng),其他的AUV 進(jìn)行競(jìng)標(biāo)[34-37,56].基于協(xié)商機(jī)制的決策方法AUV 個(gè)體之間通過(guò)協(xié)商機(jī)制,進(jìn)行平等的任務(wù)分配,可以達(dá)到系統(tǒng)資源的合理分配.使用協(xié)商分配方法每個(gè)AUV 與其預(yù)期圍捕點(diǎn)之間的距離是相近的.每艘AUV 都可以同時(shí)接近目標(biāo),提高了搜索效率[24,38,39].
基于能量的方法是一種循環(huán)調(diào)度的方法,使用能量平衡方法來(lái)循環(huán)調(diào)度多層AUV,可以實(shí)現(xiàn)系統(tǒng)運(yùn)行過(guò)程的動(dòng)態(tài)任務(wù)分配,提高系統(tǒng)的圍捕效率[40-42].為了提高AUV 執(zhí)行圍捕任務(wù)的效率,也可以將決策任務(wù)的目標(biāo)設(shè)定為得到最小的圍捕時(shí)間——基于圍捕時(shí)間的決策方法[43-44].該方法適用于動(dòng)態(tài)目標(biāo)圍捕,在圍捕過(guò)程中,當(dāng)目標(biāo)試圖逃跑,AUV 對(duì)目標(biāo)的預(yù)測(cè)圍捕時(shí)間也會(huì)發(fā)生變化,圍捕隊(duì)伍會(huì)隨之改變.
強(qiáng)化學(xué)習(xí)方法則適用于未知的、動(dòng)態(tài)的、非結(jié)構(gòu)化的任務(wù)系統(tǒng)中,可以通過(guò)獎(jiǎng)賞值得到最優(yōu)的分配策略.該方法不需要預(yù)先設(shè)計(jì)分配規(guī)則,但在大多數(shù)情況下,隨著智能體數(shù)量和任務(wù)數(shù)量的增加,任務(wù)分配系統(tǒng)性能隨之下降,這主要是因?yàn)橹悄荏w行為的選擇是策略層面的,較難獲取大量的訓(xùn)練樣本,同時(shí)獎(jiǎng)勵(lì)設(shè)置的不合理也會(huì)導(dǎo)致算法表現(xiàn)不佳[36,45-46].此外,非仿生算法還有樹(shù)搜索算法、引入了聲譽(yù)機(jī)制的任務(wù)分配方法、基于領(lǐng)導(dǎo)者—追隨者的聯(lián)盟形成方法、基于模糊協(xié)同智能的分配優(yōu)化算法和引入李雅普諾夫函數(shù)對(duì)候選目標(biāo)賦值進(jìn)行局部決策的任務(wù)分配方法[47-51].
2.4.2 仿生算法
遺傳算法(genetic algorithm,GA)是一種模擬生物遺傳和進(jìn)化的仿生算法.它使用遺傳算子搜索解的子空間,使用適應(yīng)值來(lái)評(píng)價(jià)性能,因?yàn)樗鼘?duì)復(fù)雜問(wèn)題優(yōu)越的求解能力,遺傳算法在任務(wù)分配上具有出色的表現(xiàn)[52-55].粒子群優(yōu)化算法(particle swarm optimization,PSO)是一種模擬鳥(niǎo)群的群體智能算法,在粒子的位置和速度上迭代改進(jìn)候選粒子,從而完成任務(wù)分配,群體機(jī)器人通過(guò)周期性地運(yùn)行算法控制底層的行動(dòng)和決策,改進(jìn)的粒子群算法可以實(shí)現(xiàn)多任務(wù)動(dòng)態(tài)分配[56-60].蟻群優(yōu)化算法(ant colony optimization,ACO)是模仿螞蟻覓食行為的仿生算法,螞蟻通過(guò)選擇任務(wù)、分配機(jī)器人執(zhí)行任務(wù)等行為選出任務(wù)分配的最優(yōu)解,使用蟻群算法可以在高層尋找松耦合任務(wù)的最優(yōu)分配,在低層完成緊耦合的任務(wù)[61-65].
仿生算法中的人工免疫算法、模擬退火算法、細(xì)菌優(yōu)化算法、螢火蟲(chóng)優(yōu)化算法、量子遺傳算法、人工蜂群優(yōu)化算法、果蠅優(yōu)化算法和自組織映射神經(jīng)網(wǎng)絡(luò)也在目標(biāo)圍捕任務(wù)分配中得到了應(yīng)用[45,66-72].
2.5.1 非仿生算法
現(xiàn)代博弈論起源于1944 年馮.諾依曼[73]的一本著作,結(jié)合博弈論可以解決完全信息博弈和不完全信息博弈兩種情況下的AUV 圍捕問(wèn)題[24,74-78].強(qiáng)化學(xué)習(xí)可以讓智能體在環(huán)境中,根據(jù)當(dāng)前狀態(tài)作出決策,獲得最大收益,將強(qiáng)化學(xué)習(xí)用于多智能體的圍捕,圍捕任務(wù)系統(tǒng)也表現(xiàn)出了較好的性能[32,39,41,79-83].同時(shí),在圍捕模型的基礎(chǔ)上結(jié)合運(yùn)動(dòng)軌跡預(yù)測(cè)方法設(shè)計(jì)基于預(yù)測(cè)的圍捕模型,預(yù)測(cè)目標(biāo)可能到達(dá)的位置,也可以實(shí)現(xiàn)對(duì)目標(biāo)的圍捕[31,42,84,85].此外,基于極限環(huán)的圍捕方法[86]、創(chuàng)建一個(gè)可收縮的籠子[87]也被用于AUV圍捕目標(biāo)領(lǐng)域.
2.5.2 仿生算法
采用狼群算法的AUV 圍捕將圍捕過(guò)程分為3 個(gè)階段: 隨機(jī)游走、受到召喚圍捕目標(biāo)、圍攻目標(biāo)3個(gè)階段[88-92],對(duì)于求解分布式集群協(xié)同問(wèn)題具有重要意義.獅群算法研究了獅群成員間的協(xié)同捕獵關(guān)系,以及獅群與目標(biāo)獵物的動(dòng)態(tài)博弈關(guān)系,將圍捕過(guò)程分為3 個(gè)階段: 正面抵近階段,協(xié)同包圍階段,協(xié)同收縮階段,將圍捕AUV 分為3 種角色: 伏擊者,攔截者,佯攻者,進(jìn)行對(duì)目標(biāo)的圍捕[35].鯨魚(yú)優(yōu)化算法(whale optimization algorithm,WOA)模擬了座頭鯨的社會(huì)行為,WOA 是一種螺旋式的捕獵機(jī)制.但WOA算法的開(kāi)發(fā)趨勢(shì)是有限的.改進(jìn)的WOA 方法將關(guān)聯(lián)學(xué)習(xí)方法與局部爬山算法相結(jié)合,提高了開(kāi)發(fā)過(guò)程[93-95].粒子群優(yōu)化算法則適用于動(dòng)態(tài)環(huán)境下的圍捕,通過(guò)個(gè)體的局部相互作用來(lái)實(shí)現(xiàn)目標(biāo)定位,當(dāng)檢測(cè)到目標(biāo)時(shí),就會(huì)出現(xiàn)集體圍捕行為[96].
文獻(xiàn)[38,97-102]在不同的水下環(huán)境中應(yīng)用并測(cè)試了一種基于仿生神經(jīng)網(wǎng)絡(luò)的AUV 協(xié)同圍捕算法.AUV 的三維工作環(huán)境以生物啟發(fā)神經(jīng)網(wǎng)絡(luò)模型表示,利用神經(jīng)元的活性值來(lái)指導(dǎo)每艘AUV 的導(dǎo)航和避障,最終將目標(biāo)包圍.CHEN 等提出了一種離散的生物啟發(fā)神經(jīng)網(wǎng)(glasius bio-inspired neural networks,GBNN)和置信函數(shù)相結(jié)合的算法[44].陳銘治等在GBNN 神經(jīng)網(wǎng)絡(luò)中,使用反比例函數(shù)代替指數(shù)函數(shù)計(jì)算神經(jīng)元連接權(quán)值,提出加快兩點(diǎn)神經(jīng)元活性傳播的改進(jìn)措施,使其適用于實(shí)時(shí)動(dòng)態(tài)圍捕[43].CAO 等將SOM 神經(jīng)網(wǎng)絡(luò)與GBNN 相結(jié)合,處理了在有障礙物的水下環(huán)境中多目標(biāo)圍捕的情況[72].AGRAWAL 針對(duì)神經(jīng)網(wǎng)絡(luò)中重復(fù)尋優(yōu)的問(wèn)題,提出一種自適應(yīng)仿生神經(jīng)網(wǎng)絡(luò)(adaptive bio-inspired neural network,ABNN),該網(wǎng)絡(luò)具有對(duì)目標(biāo)進(jìn)行自適應(yīng)尋優(yōu)的能力[103].
在圍捕過(guò)程的研究中,也可以利用人工免疫算法構(gòu)建免疫網(wǎng)絡(luò)模型,對(duì)抗原、抗體進(jìn)行了數(shù)學(xué)化描述,通過(guò)對(duì)圍捕過(guò)程的分析,構(gòu)造出了抗原與抗體的親和度,抗體之間的刺激系數(shù)與抑制系數(shù)等公式,通過(guò)求解抗體濃度來(lái)完成圍捕任務(wù)[66,104].此外,遺傳算法、栗翅鷹算法、黑猩猩優(yōu)化算法和旗魚(yú)優(yōu)化算法等仿生算法也在AUV 圍捕任務(wù)中得到了應(yīng)用[76,105-107].
針對(duì)圍捕目標(biāo)位置的預(yù)測(cè),本質(zhì)是以目標(biāo)過(guò)去的行為狀態(tài)為基礎(chǔ),利用統(tǒng)計(jì)學(xué)等方式找出規(guī)律,得到目標(biāo)行為的預(yù)測(cè)模型.使用多項(xiàng)式擬合、馬爾可夫模型、基于幾何規(guī)則的跟蹤導(dǎo)航數(shù)學(xué)模型、卡爾曼濾波器、分布式目標(biāo)軌跡觀測(cè)器等可實(shí)現(xiàn)對(duì)目標(biāo)位置的預(yù)測(cè)[31,39,42,108-110].針對(duì)目標(biāo)逃逸的建模,可以對(duì)目標(biāo)的逃逸速度、逃逸方向等進(jìn)行建模,豐富真實(shí)情況下目標(biāo)的逃逸狀態(tài)[43-44,111].文獻(xiàn)[74,112]則研究了目標(biāo)在抵抗圍捕表現(xiàn)出的殺死、格斗、戰(zhàn)斗力、支援、攻擊、避讓等拒捕行為.
在衡量AUV 圍捕任務(wù)系統(tǒng)的性能時(shí),常采用平均圍捕時(shí)間衡量系統(tǒng)執(zhí)行圍捕任務(wù)的效率,采用圍捕系統(tǒng)壽命衡量系統(tǒng)耗能情況,采用圍捕成功率衡量圍捕算法的性能,采用AUV 所花費(fèi)的追捕距離和目標(biāo)的逃逸距離等標(biāo)準(zhǔn)評(píng)價(jià)圍捕者和目標(biāo)的對(duì)抗策略.
圖4 總結(jié)了本節(jié)涉及到的圍捕階段劃分及技術(shù)的實(shí)現(xiàn)方法,表1 對(duì)本章提到的圍捕的具體場(chǎng)景進(jìn)行了分析與總結(jié).由表可知,已有的圍捕場(chǎng)景在三維連續(xù)環(huán)境下的研究較少,以二維離散為主;已有的研究考慮海洋環(huán)境特性較少;已有研究對(duì)AUV 的運(yùn)動(dòng)大多處理為質(zhì)點(diǎn),缺少AUV 六自由度運(yùn)動(dòng)模型的應(yīng)用;已有研究考慮的目標(biāo)行為較為簡(jiǎn)單,目標(biāo)的智能性較低.
圖4 圍捕階段劃分及技術(shù)實(shí)現(xiàn)Fig.4 The hunting phase division and technology implementation
引入強(qiáng)化學(xué)習(xí)的圍捕決策方法可以更好地得到圍捕決策的全局最優(yōu)解,且在算法的性能上有了明顯的提高.以鯨魚(yú)優(yōu)化算法為例,鯨魚(yú)優(yōu)化算法對(duì)目標(biāo)的圍捕以三維螺旋方式進(jìn)行,是一種適合三維連續(xù)動(dòng)態(tài)圍捕環(huán)境的方法,HEIDARI 等引入強(qiáng)化學(xué)習(xí)的方法對(duì)鯨魚(yú)優(yōu)化算法進(jìn)行了優(yōu)化,減少了算法陷入局部最優(yōu)解的可能[94].在AUV 圍捕中采用強(qiáng)化學(xué)習(xí)和仿生算法相結(jié)合,可能會(huì)獲得更優(yōu)的圍捕方案.
AUV 在進(jìn)行決策、圍捕目標(biāo)和目標(biāo)對(duì)抗的過(guò)程中會(huì)有一定的能量消耗,因此,AUV 的電池續(xù)航能力也是在設(shè)計(jì)圍捕系統(tǒng)時(shí)應(yīng)該考慮的內(nèi)容,一方面可以采用水下對(duì)接充電方式,另一方面可以采用一定的決策方案,使AUV 在一定條件下返回陸地充電站進(jìn)行充電.
AUV 在追捕目標(biāo)時(shí),應(yīng)考慮合理的路徑規(guī)劃方式,以便可以快速追上目標(biāo),應(yīng)考慮在追捕過(guò)程中如何避障、如何不碰撞群體中其他AUV,同時(shí)在未形成圍勢(shì)前,應(yīng)避免進(jìn)入目標(biāo)能感知的范圍,以避免觸碰目標(biāo)的逃跑機(jī)制.
在已有的研究中,目標(biāo)在圍捕過(guò)程中表現(xiàn)出的智能較低,后續(xù)可以引入一定強(qiáng)化學(xué)習(xí)的機(jī)制,使目標(biāo)可以智能學(xué)習(xí)逃跑策略,了解圍捕者的位置和意圖,增強(qiáng)其行為的智能性,提高圍捕難度.也可以引入另一個(gè)集群智能的目標(biāo)群體,進(jìn)行兩個(gè)群體之間相互對(duì)抗的圍捕任務(wù)研究.
針對(duì)多AUV 水下圍捕任務(wù)的國(guó)內(nèi)外研究進(jìn)展,本文介紹了集群智能的發(fā)展背景和對(duì)多AUV 水下圍捕任務(wù)研究的迫切性,討論了多AUV 水下圍捕的技術(shù)難點(diǎn),通過(guò)橫向、縱向的對(duì)比與分析后,總結(jié)出了已有研究在多AUV 圍捕任務(wù)中存在的幾點(diǎn)問(wèn)題: 1)多AUV 協(xié)作系統(tǒng)使用多種仿生算法和非仿生算法對(duì)目標(biāo)進(jìn)行圍捕,但很多已有的研究只是將其他領(lǐng)域的算法進(jìn)行了簡(jiǎn)單的遷移,沒(méi)有考慮復(fù)雜的水下環(huán)境,對(duì)算法的認(rèn)識(shí)不夠深入和全面.2)在多AUV 協(xié)作方面沒(méi)有考慮水下多AUV 的通信方式,沒(méi)有考慮多AUV 的協(xié)同定位,這不利于多AUV 在真實(shí)的水下環(huán)境中對(duì)目標(biāo)進(jìn)行定位并實(shí)施圍捕.3)已有文獻(xiàn)對(duì)目標(biāo)行為的考慮較為簡(jiǎn)單,目標(biāo)行為的非智能化在一定程度上降低了對(duì)圍捕任務(wù)研究的難度,與現(xiàn)實(shí)中的目標(biāo)行為相差較遠(yuǎn).隨著以上難點(diǎn)的逐步攻克,多AUV 協(xié)作系統(tǒng)技術(shù)將會(huì)走向成熟,基于多AUV 圍捕任務(wù)的研究也會(huì)有更真實(shí)的應(yīng)用場(chǎng)景和更廣闊的應(yīng)用前景.