楊 洋 王 征 胡致遠 尹 洋
(海軍工程大學(xué)電氣工程學(xué)院 武漢 430033)
無人水下航行器(UUV)是一種小體積,具有良好操縱性,能搭載各種傳感器和強續(xù)航力的水下移動載體,無人乘坐、成本低的特點使其可以服務(wù)于海洋科技、海洋軍事和海洋經(jīng)濟等不同領(lǐng)域[1]。隨著對UUV的技術(shù)研究逐漸成熟,多智能體協(xié)同執(zhí)行任務(wù)已經(jīng)成為UUV發(fā)展的必由之路。相較于單體UUV,集群運動控制的優(yōu)勢顯而易見,比如更高的可拓展性與穩(wěn)定性、更強的魯棒性等[2]。
UUV集群系統(tǒng)在作業(yè)時常以編隊形式移動,這對其編隊控制提出了較高要求。多UUV的編隊控制是指在多艘航行器抵達目的地的過程中受到環(huán)境中多種約束條件的限制基礎(chǔ)上保持某種特定的隊形行進的控制技術(shù),其必要性主要由目標搜索、地形勘探等覆蓋性的任務(wù)要求以及隊形中UUV之間信息交互的便捷性所體現(xiàn)。
在集群系統(tǒng)中,編隊航行相較于隨機分散航行又具有以下優(yōu)勢:
1)更高的資源利用率;
2)有效抵御多個方向的威脅,增強安全性;
3)大大降低集群成本;
4)具有較高的可靠性和生存能力[3];
5)增強集群的搜索力,提高搜索任務(wù)的發(fā)現(xiàn)概率[4]。
目前,受阻于特殊的海流、近水面海浪等水下干擾和惡劣的水下通信條件,前期發(fā)展較為完備的空中無人機編隊控制理論無法直接運用于UUV集群系統(tǒng),這一方面限制了UUV編隊控制的迅速發(fā)展,另一方面也激發(fā)了國內(nèi)外學(xué)者的科研熱情,改善已有成果或者探索全新理論,用于解決水下無人系統(tǒng)的特殊難題[5]。
本文將從編隊的國內(nèi)外應(yīng)用成果、任務(wù)類型、關(guān)鍵技術(shù)和研究展望等方面,在理解UUV集群研究現(xiàn)狀的基礎(chǔ)上,系統(tǒng)總結(jié)UUV集群編隊控制的研究進展,以期為日后UUV集群技術(shù)的發(fā)展提供參考與思路。
自20世紀60年代第一臺UUV誕生以來,其控制技術(shù)已經(jīng)過了明顯的發(fā)展,集群編隊控制領(lǐng)域也在近幾年大放異彩[6~7]。國外UUV編隊控制現(xiàn)有研究成果由美國領(lǐng)軍,葡萄牙、英國等緊隨其后,均已取得了長足的發(fā)展。
自主海洋采樣網(wǎng)絡(luò)(Autonomous Ocean Sam?pling Network,AOSN)由美國海洋研究局資助,多水下滑翔機系統(tǒng)運轉(zhuǎn)實現(xiàn),其搭載的多種傳感器可同時完成多深度層次的海洋參數(shù)采集任務(wù)[8]。該項目下AOSN-II子項目采用了一組五種類型的水下滑翔機構(gòu)成自適應(yīng)采樣網(wǎng)絡(luò)編隊行進,采用利于結(jié)構(gòu)調(diào)整的隊形控制策略,系統(tǒng)中每個成員機器人各得其所,利用適配傳感器在蒙特利爾海灣進行了約30天的海洋數(shù)據(jù)采集試驗,任務(wù)中涉及的參數(shù)包括溫度、深度、鹽度、葉綠素等數(shù)據(jù),并將這些數(shù)據(jù)在編隊成員之間,下位機與上位機之間進行傳輸處理。
英國由Nekton研究機構(gòu)牽頭開發(fā)了一種水下多智能體平臺(Underwater Multi-agent Platform,UMAP),它由四臺低成本、可操縱性強的小型AUV及其配套軟件構(gòu)成。日漸成熟的UMAP現(xiàn)可以開展分布式搜索算法、海洋學(xué)調(diào)查、編隊控制等相關(guān)研究,并已被用于美國Sandia國家實驗室開發(fā)的多智能體合作熱流柱定位算法,以及用以繪制北卡羅萊納州海岸線上紐波特河口灣一帶的鹽度移動情況[9~10]。UMAP已成為UUV編隊系統(tǒng)可完成多種類型使命任務(wù)的典型案例。
圖1 三臺水下滑翔機編隊示意圖
美國國防高級研究計劃局(DARPA)自2009年開始就已在著手部署網(wǎng)絡(luò)協(xié)同無人水下航行器(CNAV)系統(tǒng),它通過一定數(shù)量的UUV在共享水聲網(wǎng)絡(luò)中互相發(fā)送數(shù)據(jù),進行水下目標的探測、定位、跟蹤任務(wù),同時能減弱因目標位置、戰(zhàn)斗因素和環(huán)境條件的變化引起的干擾,如圖2所示。結(jié)合使用具有固定的被動聲納節(jié)點后,該系統(tǒng)將應(yīng)用在分布式敏捷獵潛系統(tǒng)(DASH)中,用于廣闊海域搜尋檢測作戰(zhàn)對象。通過該技術(shù),水下無人系統(tǒng)的自主控制等級將向7級(多機編隊控制、航路重規(guī)劃、指揮、執(zhí)行重規(guī)劃戰(zhàn)術(shù))發(fā)展[11]。
圖2 CNAV項目示意圖
為了協(xié)調(diào)處理多無人水下航行器系統(tǒng),法國、意大利等五國多家科研機構(gòu)在歐盟第六框架計劃(6th framework programme of the European Union,F(xiàn)P6)的資助下創(chuàng)建了GREX研究項目[12]。該項目開發(fā)的技術(shù)較為通用,可通過接口連接到已存在的異構(gòu)系統(tǒng),同時其足夠的魯棒性可用以解決故障通信等引起的問題。GREX項目核心研究包括了“異構(gòu)多水下無人系統(tǒng)在未知環(huán)境中的協(xié)調(diào)控制研究”在內(nèi)的多項成果。最后階段的一系列海上試驗于2019年底完成,最終目的是驗證異構(gòu)AUV集群系統(tǒng)的操縱理論,其第二步便測試了編隊機動任務(wù),該過程與帶有時變形成模式的協(xié)調(diào)路徑跟隨任務(wù)相同。AUV在部署后四散成編隊隊形,并在無沖突的前提下計算出抵達終點的路徑,順利完成了多AUV系統(tǒng)的編隊行進試驗。
圖3 四臺AUV協(xié)調(diào)轉(zhuǎn)彎的GPS軌跡
觀測系統(tǒng)仿真實驗(Observing System Simula?tion Experiment,OSSE)項目作為由美國國家科學(xué)基金會資助的海洋觀測站計劃(Ocean Observatories Initiative,OOI)的先期啟動項目,主要的研究內(nèi)容共涉及到四個方面,其中三項是關(guān)于多UUV使命規(guī)劃與編隊協(xié)調(diào)控制的研究[13]。截止2009年底,針對多UUV仿真平臺的調(diào)試工作已然完成,并且在2010年中大西洋海灣進行的多滑翔式水下機器人試驗取得了令人矚目的成績。
在歐盟第七框架計劃(7th framework pro?gramme of the European Union,F(xiàn)P7)的資助下,由德國、意大利、法國、葡萄牙及西班牙的相關(guān)科研機構(gòu)在2016年聯(lián)合完成了名為“海洋機器人系統(tǒng)的自組織與基于邏輯的節(jié)點連接”(Marine robotic sys?tem of self-organizing,logically linked physical nodes)的研究項目,簡稱MORPH。該項目旨在為嚴苛海洋環(huán)境下的海底探測與標圖提供有效的方法和工具,并在2012年~2015年間完成了多次海上試驗。MORPH項目集成現(xiàn)有的多個AUV并設(shè)計了適用于協(xié)同作業(yè)的體系結(jié)構(gòu)和通信系統(tǒng),在此基礎(chǔ)上研究了多AUV系統(tǒng)的協(xié)調(diào)編隊控制[14~15]、協(xié)同定位與協(xié)同導(dǎo)航問題。圖4為MORPH海試場景。
圖4 MORPH海上試驗
國內(nèi)在UUV集群編隊控制研究方面雖然起步較晚,且以仿真研究為主,但在哈爾濱工程大學(xué)、北京航空航天大學(xué)機器人研究所、中國科學(xué)院沈陽自動化研究所等組織的帶領(lǐng)下正在迎頭趕上,近些年已取得了豐碩成果,較為典型的成果包含UUV編隊反水雷、監(jiān)視敵對潛艇、水下目標搜索等任務(wù)。
哈爾濱工程大學(xué)的學(xué)者們早年已初步開發(fā)了多智能體系統(tǒng)協(xié)調(diào)路徑規(guī)劃的仿真環(huán)境以及多UUV系統(tǒng)的實物[16]。而后在這一套平臺系統(tǒng)的基礎(chǔ)上進行了雙UUV編隊航行試驗,但由于前期研究的不完備性,該試驗未能深入探討可實際應(yīng)用的體系結(jié)構(gòu)和控制策略[17]。從結(jié)果上來看,這次實驗完成的UUV設(shè)計和多UUV系統(tǒng)搭建工作為以后更為完善的集群研究打下了堅實的基礎(chǔ)。
2014年~2015年,哈爾濱工程大學(xué)的水下機器人技術(shù)重點實驗室綜合考慮海洋環(huán)境與可用設(shè)備因素,合理選取了威海老港和榮成西霞口附近海域,利用三臺AUV完成了一系列異構(gòu)多AUV系統(tǒng)的協(xié)調(diào)控制海試[18]。該系列試驗分別驗證了水聲通信設(shè)備的通信性能、制導(dǎo)-控制系統(tǒng)的設(shè)計可行性,以及協(xié)調(diào)路徑跟隨、目標跟蹤、基于行為的編隊控制算法的有效性。試驗過程中雖未考慮和處理領(lǐng)航者失效的極端情況,但妥善解決了水聲組網(wǎng)通信系統(tǒng)出現(xiàn)的故障,轉(zhuǎn)而采用無線電開展水面編隊航行以模擬水聲通信[19]。圖5為基于路徑跟隨的多AUV編隊控制海試場景。
圖5 基于路徑跟隨的多AUV編隊控制海試
鑒于UUV編隊在水下網(wǎng)絡(luò)中心戰(zhàn)(UWNCW)中的運用已經(jīng)有相當(dāng)?shù)木窒扌?,王圣潔等將人工智能引入UUV編隊控制,設(shè)計了一種潛艇與AUV相結(jié)合的協(xié)同編隊系統(tǒng),并詳細分析了系統(tǒng)的優(yōu)點及其復(fù)雜性,針對系統(tǒng)控制體系結(jié)構(gòu)及決策問題等關(guān)鍵技術(shù)進行了研究探討,對系統(tǒng)在突發(fā)威脅情況下的航跡規(guī)劃過程進行了仿真,仿真結(jié)果表明潛艇與智能UUV協(xié)同系統(tǒng)能夠有效地實現(xiàn)避障并能躲避突發(fā)威脅,顯著提升了整個系統(tǒng)的應(yīng)急能力[20]。
2014年中國科學(xué)院沈陽自動化研究所的機器人學(xué)國家重點實驗室研究團隊在基于無線通信的多AUV編隊湖上試驗的基礎(chǔ)上,接續(xù)開展了基于水聲通信的AUV編隊試驗[21]。試驗采用了研究所研制的便攜式AUV——“探索100”,可搭載溫鹽深儀、側(cè)掃聲吶、DVL等傳感器,并加裝了水聲通信機模塊,以便編隊成員交換信息。試驗任務(wù)設(shè)計為兩臺AUV成“一”字型,按照預(yù)定軌跡編隊行進,編隊過程中通過水聲通信機交互信息,實現(xiàn)隊形保持。最終編隊成員在動態(tài)平衡中完成了試驗任務(wù)。圖6為隊形生成過程中的AUV成員。
圖6 隊形生成中的AUV
綜合比較國內(nèi)外應(yīng)用成果可以得出結(jié)論:多UUV集群系統(tǒng)的研究越來越受到眾多專家學(xué)者的重視,而編隊控制作為集群運動控制的重要一環(huán),在主要項目成果中從未缺席。近二十年以來美國眾多相關(guān)機構(gòu)已將UUV編隊控制應(yīng)用于各大集群項目中,在世界各地均有部署其水下勘測與數(shù)據(jù)采集系統(tǒng)設(shè)施。歐盟國家借助其框架計劃,在多UUV編隊控制領(lǐng)域也有了長足的發(fā)展。而國內(nèi)的UUV編隊控制研究起步晚于國外,從理論仿真轉(zhuǎn)入海上試驗階段的時間也并不長,但目前正在已構(gòu)建好的試驗系統(tǒng)基礎(chǔ)上加速發(fā)展。
多UUV系統(tǒng)編隊控制的研究受到單體UUV自身結(jié)構(gòu)與軟件設(shè)計、UUV成員之間通信質(zhì)量、系統(tǒng)體系機構(gòu)等多方面影響,控制架構(gòu)層次較多。在實際研究過程中,通常將UUV編隊控制問題解耦為單體UUV路徑跟蹤控制子問題和多UUV隊形控制子問題。編隊任務(wù)的解耦分層為理解控制架構(gòu)和將編隊控制用于完成水下實際任務(wù)提供了極大便利,同時大大簡化了研究流程,降低了科研難度。
UUV的路徑跟蹤控制是指單體UUV從給定初始狀態(tài)開始運動,在某一光滑路徑上運行其路徑跟蹤控制器,并在其持續(xù)激勵下完成跟蹤任務(wù)。系統(tǒng)中每臺UUV均包含一個獨立的路徑跟蹤控制器,以實現(xiàn)UUV實時位置與期望路徑位置誤差為零的目標。路徑跟蹤任務(wù)的提出是基于單體UUV角度的,在集群領(lǐng)域?qū)儆谖⒂^層面。路徑跟蹤控制隨著UUV控制技術(shù)的發(fā)展已經(jīng)有了相當(dāng)豐碩的研究成果。
2000年文獻[22]首次證明了UUV實現(xiàn)路徑跟蹤控制的等價條件為控制UUV的艏向角速度,使得UUV的速度向量與路徑曲線的切線方向相一致且向量大小相等。侯恕萍等[23]研究了海流干擾下多UUV的空間曲線路徑跟蹤控制問題,針對單個UUV的路徑跟蹤控制,基于Lyapunov穩(wěn)定性理論設(shè)計了一種海流觀測器來估計未知恒定的海流速度,并利用LaSalle不變集原理對路徑跟蹤子系統(tǒng)的收斂性進行了分析。文獻[24]基于Lyapunov直接法和反步法設(shè)計了編隊成員的位置和航向跟蹤控制器,并考慮了質(zhì)量矩陣中非零非對角線項和未知流體動力阻尼項的影響。邊信黔等[25]在單個UUV的路徑跟蹤控制中引入視距導(dǎo)航(Line of sight guidance)算法設(shè)計路徑跟蹤控制器,使得跟蹤誤差漸近收斂到零。
單體UUV路徑跟蹤控制器的設(shè)計大多基于級聯(lián)系統(tǒng)理論,在以速度和姿態(tài)角為虛擬控制變量設(shè)計UUV運動學(xué)控制器的基礎(chǔ)上,使用backstepping的遞推方法結(jié)合UUV動力學(xué)模型設(shè)計動力學(xué)控制器[26~27]。但由于UUV路徑跟蹤控制處于單體研究層面,且仿真設(shè)計思路較為單一,本文不再贅述。
多UUV隊形控制是指編隊系統(tǒng)內(nèi)UUV根據(jù)其他成員的狀態(tài),調(diào)整自身速度、航向、位姿以達到多UUV協(xié)調(diào)編隊航行的控制技術(shù)。隊形控制任務(wù)是在多個UUV協(xié)同進行任務(wù)的情況下提出的,在集群領(lǐng)域?qū)儆诤暧^層面。由于UUV的集群編隊概念提出較晚,該任務(wù)目前也是一眾學(xué)者攻克研究的主要方向,如何實現(xiàn)智能化是其重點,融合多種已知算法或開發(fā)新算法已成為主要解決途徑。
邊信黔等通過引入代數(shù)圖論知識,得到多個UUV復(fù)雜網(wǎng)絡(luò)通信拓撲的數(shù)學(xué)表達,根據(jù)通信得到相鄰UUV的狀態(tài)來調(diào)整自身的航速,設(shè)計協(xié)調(diào)控制器,使得多UUV沿期望路徑的位置和速度在規(guī)定隊形下達到一致,實現(xiàn)多UUV間的協(xié)調(diào),而不影響空間域上的路徑跟蹤性能[28]。文獻[29]將隊形控制器設(shè)計過程分解為運動學(xué)控制和動力學(xué)控制:運動學(xué)控制部分實現(xiàn)動目標跟蹤、UUV間避碰及UUV偏航角誤差為零的控制目標;動力學(xué)控制部分應(yīng)用反步法設(shè)計實際的控制輸入。隊形控制器的控制目標是在多UUV編隊跟蹤并圍捕動態(tài)目標過程中,避免UUV成員之間,UUV與障礙物以及UUV與目標之間的碰撞并以穩(wěn)定的編隊結(jié)構(gòu)圍捕動態(tài)目標。
在已有的UUV集群控制技術(shù)中,隊形控制算法一直是國內(nèi)外學(xué)者研究的重點、焦點。主流的UUV隊形控制算法涵蓋了人工勢場法、領(lǐng)航者-跟隨者法、虛擬結(jié)構(gòu)法、基于行為法、強化學(xué)習(xí)等方法。多UUV隊形控制中的關(guān)鍵技術(shù)包含隊形生成、隊形保持、隊形重構(gòu)與協(xié)同避障[30]。
人工勢場法最早由Khatib在1985年提出[31],其指導(dǎo)思想是將智能體在外界環(huán)境中的運動擬作在一種虛擬勢場中的運動,該勢場中的目標點對智能體施加引力作用,障礙物和其他威脅施加斥力作用,智能體在兩種虛擬勢場力的合力中產(chǎn)生加速度而運動。文獻[32]在主從式編隊形式下,將自組織神經(jīng)網(wǎng)絡(luò)(SOM)和人工勢場法結(jié)合起來進行隊形控制設(shè)計,綜合互補了SOM的自適應(yīng)性和人工勢場法的避障可行性優(yōu)勢。文獻[33]在二維空間中使用人工勢場法用于路徑規(guī)劃和協(xié)同避障,同時考慮了機器人移動空間的邊界斥力。同時有研究將人工勢場法與虛擬領(lǐng)航者法結(jié)合,設(shè)計人工勢場用于編隊控制,虛擬領(lǐng)航者作為編隊領(lǐng)導(dǎo)者用于隊形生成。二者結(jié)合使編隊控制在保證簡單結(jié)構(gòu)的前提下增強了系統(tǒng)的可靠性[34]。人工勢場法易于實現(xiàn),能有效解決隊形重構(gòu)與協(xié)同避障問題,但也存在勢場函數(shù)較難設(shè)計和易陷入局部極值的缺點。
領(lǐng)航者-跟隨者法是UUV集群編隊控制中最常用的算法之一,其思想是將UUV編隊中的某一成員定義為領(lǐng)航者,其他成員作為跟隨者,領(lǐng)航者運行其路徑跟蹤控制器,跟隨者根據(jù)相對于領(lǐng)航者的位置誤差與速度誤差進行編隊控制[35]。為了使跟隨者能夠更好地跟蹤上領(lǐng)航者,李娟等利用領(lǐng)航者的位置與速度信息進行編隊控制器設(shè)計,增加系統(tǒng)的魯棒性的同時,分別對跟隨者的縱向速度誤差和橫向速度誤差進行了積分滑模面的設(shè)計[36]。李娟等還提出了一種AUV路徑控制和編隊協(xié)調(diào)控制相結(jié)合的新型編隊控制器,在路徑跟蹤控制基礎(chǔ)上,編隊協(xié)調(diào)控制器將領(lǐng)航者與跟隨者的位置誤差控制轉(zhuǎn)化為跟隨者的速度誤差控制,使跟隨者能快速達到期望位置,從而使所有AUV實現(xiàn)期望的隊形并保持[37]。薛多銳基于虛擬領(lǐng)航者的編隊控制策略,在有向通信拓撲下,結(jié)合歐拉一拉格朗日誤差系統(tǒng)無源性提出了一種基于領(lǐng)航者-跟隨者的制導(dǎo)-控制結(jié)構(gòu)多AUV編隊軌跡跟蹤控制方法[38]。但是領(lǐng)航者-跟隨者法的缺陷也顯而易見:領(lǐng)航者較難得到跟隨者的速度、位姿等信息;領(lǐng)航者與跟隨者相對獨立,一旦領(lǐng)航者出現(xiàn)故障或與跟隨者失去聯(lián)系,UUV編隊系統(tǒng)將無法正常運行——故其魯棒性與系統(tǒng)可靠性往往不強。針對該缺點,有研究提出了建立虛擬領(lǐng)航者的觀點,即領(lǐng)航者作為一虛擬參考點參與編隊控制。其優(yōu)勢在于,領(lǐng)航者是虛擬的,因而不會影響整個系統(tǒng)的性能,明顯提高系統(tǒng)的可靠性,且更容易實現(xiàn)分布式的控制結(jié)構(gòu)[39~40]。
基于行為的控制方法即將UUV的協(xié)調(diào)編隊控制器分解為若干簡單的子行為,包括但不限于向目的地移動、保持隊形、協(xié)同避障。通過對各個UUV子行為的控制即可完成對UUV集群的編隊控制。文獻[41]探討了基于行為的方法在未知環(huán)境中執(zhí)行編隊控制任務(wù)的多個移動機器人的路徑規(guī)劃中的應(yīng)用。根據(jù)任務(wù)和環(huán)境,采用五種原始行為,設(shè)計了一系列的生成函數(shù)來生成行為組合的控制參數(shù)。由于可以根據(jù)當(dāng)前情況調(diào)整這些功能的輸出,因此機器人可以通過合理地組合行為來實現(xiàn)運動策略,從而提高了對環(huán)境的適應(yīng)性。而對于各個子行為的處理,可采用兩種方法:一是Brooks的行為抑制法,即同一時間點UUV的子行為僅進行一種,不同子行為無法同時運行;二是Arkin控制變量的矢量累加方法,即同一時刻多種子行為可通過自定義的權(quán)重進行矢量相加,UUV進行復(fù)合行為的運轉(zhuǎn)。顯然,前者每一時刻的控制行為較為精確,但控制任務(wù)并不平滑且任務(wù)完成時間較長;后者在各個子行為之間容易出現(xiàn)干擾,但完成任務(wù)速度較快,且平滑銜接。
虛擬結(jié)構(gòu)法的主要思想是將UUV的編隊模擬為一個虛擬的剛性結(jié)構(gòu),移動時該結(jié)構(gòu)中每臺UUV成員的相對位置固定,并參照虛擬結(jié)構(gòu)的幾何中心設(shè)計路徑跟蹤控制器,該方法由Lewis等最早提出[42]。袁健等[43]基于虛擬結(jié)構(gòu)思想采用坐標變換將各AUV相對于虛擬領(lǐng)航者的相對位置轉(zhuǎn)換為各自的期望位置,并設(shè)計了一種有限時間跟蹤控制律以確保各AUV能在有限時間內(nèi)跟蹤上其期望軌跡,從而實現(xiàn)了多AUV的小尺度有限時間編隊控制。文獻[44]提出了虛擬結(jié)構(gòu)和虛擬領(lǐng)航者相結(jié)合的隊形控制方法,利用隊形向量實現(xiàn)UUV編隊的隊形保持和隊形變換。虛擬結(jié)構(gòu)法優(yōu)點在于僅通過虛擬結(jié)構(gòu)的中心點就可以進行編隊控制的路徑設(shè)計,便于完成隊形生成,但由于其剛性的結(jié)構(gòu),算法的靈活性并不高,不適合用于解決協(xié)同避障與隊形重構(gòu)。
強化學(xué)習(xí)的概念最早由Minsky在20世紀60年代提出的[45]。隨著UUV集群產(chǎn)業(yè)的快速發(fā)展,如何將強化學(xué)習(xí)應(yīng)用在UUV編隊系統(tǒng)中得到了各路學(xué)者越來越多的重視。強化學(xué)習(xí)是在環(huán)境激勵中不斷強化或弱化使用某種行為策略的可能性,無教師信號。雖然針對編隊控制的強化學(xué)習(xí)研究還未完全將目光轉(zhuǎn)移至UUV控制領(lǐng)域,但強化學(xué)習(xí)方法仍然將是UUV編隊控制的重要發(fā)展方向。徐健等[46]設(shè)計了一個用于UUV集群的強化學(xué)習(xí)算法研究平臺,其強化學(xué)習(xí)模塊讀取環(huán)境仿真模塊參數(shù)后進行強化學(xué)習(xí)的訓(xùn)練,輸出集群系統(tǒng)的行為策略,并將得到的策略結(jié)果傳輸給每一個UUV成員的任務(wù)處理模塊,完成集群動作,包含了編隊控制。文獻[47]設(shè)計了一種基于代價函數(shù)的新型強化學(xué)習(xí)方法,可以集中式端到端方式訓(xùn)練分散策略,其采用了一種將每個智能體聯(lián)合行為值估算為僅基于本地觀測條件值的非線性組合的網(wǎng)絡(luò),聯(lián)合行為值在各智能體中均單調(diào),這保證了離線學(xué)習(xí)中聯(lián)合行為值的易處理性最大化。李波等[48]提出了一種基于分層強化學(xué)習(xí)及CMAC神經(jīng)網(wǎng)絡(luò)的多agent動態(tài)編隊方法,在多agent動態(tài)編隊中引入“抽象機制”把任務(wù)分為三個層次,其次利用CMAC神經(jīng)網(wǎng)絡(luò)可以作為狀態(tài)泛化方法和分層強化學(xué)習(xí)中的Q-學(xué)習(xí)方法相結(jié)合,加快算法的學(xué)習(xí)速率。強化學(xué)習(xí)作為當(dāng)今熱門的領(lǐng)域之一,其迅猛的發(fā)展將改變UUV編隊控制研究的現(xiàn)狀。在有足夠的環(huán)境交互數(shù)據(jù)的前提下,強化學(xué)習(xí)可以提供十分完善的UUV編隊解決方案,適用于解決所有的編隊控制關(guān)鍵技術(shù)。
本文從UUV編隊控制的國內(nèi)外應(yīng)用成果、技術(shù)研究現(xiàn)狀和研究展望等方面,在理解UUV集群研究現(xiàn)狀的基礎(chǔ)上,系統(tǒng)總結(jié)了UUV集群編隊的研究進展,為日后UUV集群技術(shù)的發(fā)展提供了參考思路。
近些年來UUV的編隊控制研究雖已經(jīng)過多年研究,目前卻也存在多處可以展望的前進方向。
1)前人的研究,特別在國內(nèi),大多基于理論層面,各類文獻中記載海上試驗過程較少,僅有仿真驗證,而無實物考察。而在實際任務(wù)中,海洋環(huán)境復(fù)雜多變、測距和測向傳感器的精度通常較低、水聲通信也有可能出現(xiàn)誤碼甚至中斷,這些非理想因素均可使常規(guī)編隊控制算法失效。對于UUV編隊的研究,最終目的都應(yīng)是實現(xiàn)其實用性,這是編隊控制的必經(jīng)之路。
2)在實用性的思想前提下,UUV編隊結(jié)構(gòu)必將是異構(gòu)的,以便編隊系統(tǒng)完成更為復(fù)雜的任務(wù)。而現(xiàn)有文獻大部分停留在對同構(gòu)系統(tǒng)的解析,異構(gòu)系統(tǒng)編隊控制仍有空缺。有必要針對異構(gòu)UUV集群系統(tǒng)設(shè)計其編隊控制算法。
3)本文所引用的文獻大多在編隊任務(wù)解耦之后將幾種算法改進或結(jié)合,而對于新興算法的研究尚少。目前UUV編隊控制算法的使用主要集中于使用飛行器編隊控制算法的移植或者將傳統(tǒng)編隊控制算法進行改進,鮮有提出UUV編隊控制的全新算法。新穎算法的空缺,勢必將激起各學(xué)者的研究熱情[49~50]。