郭啟敏 張鵬 王應(yīng)洋 王石
摘 要:自主能力是無人機跨代升級的根本能力和直接推手。 隨著人工智能技術(shù)的顛覆變革, 基于智能算法的自主航跡規(guī)劃技術(shù)成為提高無人機自主能力的關(guān)鍵技術(shù), 具有重要研究價值。 本文首先總結(jié)國內(nèi)外相關(guān)研究, 提出對無人系統(tǒng)自主性的理解, 對智能算法應(yīng)用于無人機自主航跡規(guī)劃的優(yōu)勢進行分析, 然后從算法改進方式入手, 對進化算法、? 群智能算法、? 神經(jīng)網(wǎng)絡(luò)、? 強化學(xué)習(xí)算法和深度強化學(xué)習(xí)等航跡規(guī)劃智能算法進行分類梳理和總結(jié), 最后結(jié)合當前無人機自主航跡規(guī)劃面臨的挑戰(zhàn), 對未來的研究方向進行展望。
關(guān)鍵詞:無人機; 航跡規(guī)劃; 自主性; 智能優(yōu)化算法; 機器學(xué)習(xí)算法; 算法改進
中圖分類號: TJ760; V279文獻標識碼:A文章編號: 1673-5048(2023)03-0029-12
DOI: 10.12132/ISSN.1673-5048.2022.0220
0 引言
無人機在空戰(zhàn)中地位作用日益突出, 如何提高在高對抗、? 強拒止戰(zhàn)場環(huán)境中的自主作戰(zhàn)能力, 成為各國重點研究方向, 美軍將自主性列為加速無人系統(tǒng)作戰(zhàn)應(yīng)用的四大驅(qū)動力之一[1]。 無人機自主能力涵蓋自主感知、? 自主判斷、? 自主決策、? 自主行動等多個方面。 其中, 無人機航跡規(guī)劃是無人機遂行任務(wù)的核心環(huán)節(jié), 航跡規(guī)劃的優(yōu)劣關(guān)系到無人機的生存和任務(wù)能力。 因此, 無人機自主航跡規(guī)劃技術(shù)成為影響無人機自主能力的關(guān)鍵因素。
近年來, 以機器學(xué)習(xí)為代表的人工智能技術(shù)飛速發(fā)展, 實現(xiàn)與多種應(yīng)用場景的深度融合[2]。 在軍事領(lǐng)域, 人工智能技術(shù)成為推動軍事革命的核心力量, 世界軍事大國紛紛搶先布局人工智能, 塑造未來新型戰(zhàn)場優(yōu)勢, 掌握智能化戰(zhàn)爭主動權(quán)。 將基于人工智能技術(shù)的智能算法應(yīng)用于無人機自主航跡規(guī)劃, 能夠避免傳統(tǒng)航跡規(guī)劃算法的不足, 實現(xiàn)復(fù)雜、? 動態(tài)、? 高度不確定性戰(zhàn)場環(huán)境下的自主航跡規(guī)劃。
1 無人系統(tǒng)自主性及其內(nèi)涵
自主性(Autonomy)是行為主體按自己意愿行事的動機、? 能力或特性。 提高無人系統(tǒng)自主性, 對壓縮“OODA”回路的循環(huán)周期[3]、? 占據(jù)戰(zhàn)場主動權(quán)具有重要意義。
1.1 無人系統(tǒng)自主性定義
20世紀70年代, 研究人員將自主性概念引入無人系統(tǒng)領(lǐng)域后, 自主性就成為衡量無人系統(tǒng)智能化程度的重要指標, 但至今未形成被廣泛認同的定義。 美軍對無人系統(tǒng)自主性的研究有3項。
(1) 圍繞能力需求
美國空軍研究實驗室(AFRL)于2000年提出自主作戰(zhàn)概念, 認為無人作戰(zhàn)系統(tǒng)應(yīng)具備態(tài)勢感知、? 信息處理、? 控制重構(gòu)和自適應(yīng)能力, 能夠在沒有人類干預(yù)情況下, 制定最優(yōu)策略完成給定任務(wù)。 美國無人系統(tǒng)自主性等級工作組(ALFUS)將無人系統(tǒng)自主性定義為系統(tǒng)具有傳感、? 感知、? 分析、? 通信、? 規(guī)劃、? 決策和執(zhí)行能力, 完成由人類指定的任務(wù)或由其他無人系統(tǒng)分配的任務(wù)[4]。
(2) 提煉行為特征
美國空軍實驗室專家Bruce Clough認為, 自主系統(tǒng)能夠不受外界影響進行合理決策, 具備在沒有指揮員指令時完成任務(wù)和為實現(xiàn)目標開發(fā)任務(wù)的能力, 即自主系統(tǒng)有自由意志[5]。 美國國防部在《無人系統(tǒng)綜合路線圖(2011-2036)》[6]中指出, 自主系統(tǒng)能夠在不確定情況下以目標導(dǎo)向方式優(yōu)化自身行為。 報告認為無人系統(tǒng)應(yīng)具備與人類操作員和其他無人系統(tǒng)的交互協(xié)作能力, 以及適應(yīng)環(huán)境、? 任務(wù)變化并從中學(xué)習(xí)的能力。
(3) 自主行為的核心
美國空軍在2019年版《自主地平線》[7]中未明確定義無人系統(tǒng)自主性, 而是針對系統(tǒng)行為提出了“WHAT,? WHAT-NOT,? WHY,? NOT-HOW”模型, 即通過在任務(wù)環(huán)境中告訴無人系統(tǒng)“做什么、? 不做什么、? 為什么做和不做的后果”來描述自主行為, 認為熟練性、? 可信賴性和靈活性三組屬性是自主行為的核心。
國內(nèi)對無人系統(tǒng)自主性研究中, 高勁松等[8]將無人機自主性定義為無人機在沒有外界指導(dǎo)下根據(jù)作戰(zhàn)目標產(chǎn)生自己意圖的能力。 胡曉峰等[9]認為自主性是將決策權(quán)賦予智能系統(tǒng), 使其能夠在特定范圍內(nèi)自由采取行動。 劉暢等[10]對無人機可變自主展開研究, 認為無人機系統(tǒng)自主等級應(yīng)根據(jù)戰(zhàn)場態(tài)勢變化、? 任務(wù)需求和操作員意圖共同決定。 鄭劍[11]對無人作戰(zhàn)系統(tǒng)自主性的描述較為全面, 即無人作戰(zhàn)系統(tǒng)根據(jù)自身能力, 精確獲取戰(zhàn)場環(huán)境信息, 通過系統(tǒng)內(nèi)部間交流協(xié)作, 在操作人員監(jiān)督下進行獨立判斷、? 決策并完成作戰(zhàn)任務(wù)的能力。
從國內(nèi)外無人系統(tǒng)自主性定義研究中, 得出結(jié)論: (1)自主性的重要性體現(xiàn)在復(fù)雜、? 動態(tài)、? 高度不確定性的戰(zhàn)場環(huán)境中; (2)自主性是更高級別的自動化, 自主系統(tǒng)通過目標導(dǎo)向方式優(yōu)化自身行為; (3)自主性體現(xiàn)在無人系統(tǒng)領(lǐng)受任務(wù)后, 在沒有人類干預(yù)情況下獨立完成任務(wù)的能力; (4)自主性包括自主感知、? 判斷、? 決策和行動, 自主決策是自主性的核心。
綜上所述, 對無人系統(tǒng)自主性可理解為: 無人系統(tǒng)自主性的最終目標不是讓系統(tǒng)脫離人的控制, 而是實現(xiàn)人機合作的高度自主。 自主性代表無人系統(tǒng)的獨立性水平, 無人系統(tǒng)應(yīng)具備在復(fù)雜、? 動態(tài)、? 高度不確定性戰(zhàn)場環(huán)境中理解、? 學(xué)習(xí)、? 協(xié)作和自適應(yīng)的能力, 在沒有人類干預(yù)情況下通過目標導(dǎo)向獨立完成任務(wù)。 無人系統(tǒng)的自主級別應(yīng)根據(jù)戰(zhàn)場環(huán)境和操作員意圖動態(tài)調(diào)整, 并使無人系統(tǒng)始終處于操作人員的監(jiān)控下。
1.2 無人系統(tǒng)自主性內(nèi)涵
(1) 自主感知認知
自主感知認知是指無人系統(tǒng)利用自身攜帶的多樣化傳感設(shè)備, 對戰(zhàn)場態(tài)勢要素進行綜合感知, 使用信息融合技術(shù)對感知信息進行融合處理, 實現(xiàn)對動態(tài)戰(zhàn)場環(huán)境的準確理解和敵方作戰(zhàn)意圖的準確判斷, 從而使無人系統(tǒng)達到人類指揮員的認知水平。 自主感知認知能力是無人系統(tǒng)從戰(zhàn)場邊緣進入戰(zhàn)場中心的基礎(chǔ)保證。
(2) 自主規(guī)劃決策
自主規(guī)劃決策是無人系統(tǒng)在自主感知認知能力基礎(chǔ)上, 綜合分析戰(zhàn)場環(huán)境變化和敵我雙方作戰(zhàn)要素變化, 不依賴指揮員指令進行作戰(zhàn)規(guī)劃, 最終實現(xiàn)任務(wù)目標約束下的快速輔助規(guī)劃決策。 2020年, 在DARPA人工智能近距空戰(zhàn)格斗比賽中, 蒼鷺公司的自主空戰(zhàn)算法以5∶0的總比分擊敗了經(jīng)驗豐富的美軍F-16飛行教官。 自主規(guī)劃決策能力是提高無人系統(tǒng)作戰(zhàn)效能的必然要求。
(3) 自主協(xié)同交互
自主協(xié)同交互是指利用協(xié)同交互技術(shù), 解決多無人系統(tǒng)、? 無人/有人系統(tǒng)間的協(xié)同問題和人機之間的交互問題, 使無人系統(tǒng)能夠跨系統(tǒng)相互通信、? 共享信息并與人類協(xié)同完成作戰(zhàn)任務(wù)。 美國“忠誠僚機”項目通過有人機與自主作戰(zhàn)無人機高效集成, 實現(xiàn)有人-無人編隊協(xié)同作戰(zhàn), 對空中、? 地面目標實施打擊。 自主協(xié)同交互能力是無人系統(tǒng)融入聯(lián)合作戰(zhàn)體系的關(guān)鍵要素。
(4) 自主學(xué)習(xí)
隨著現(xiàn)代戰(zhàn)爭從物理域、? 信息域向認知域拓展, 通過學(xué)習(xí)數(shù)據(jù)中的模式模型, 開發(fā)出具備自主學(xué)習(xí)和決策能力的無人系統(tǒng), 使系統(tǒng)具有類人智能[1]。 因此, 未來無人系統(tǒng)不是一成不變的, 而是根據(jù)戰(zhàn)場態(tài)勢信息不斷學(xué)習(xí)進化, 這種學(xué)習(xí)能力將使無人系統(tǒng)實現(xiàn)高度自主。 自主學(xué)習(xí)能力是推進自主感知認知、? 自主規(guī)劃決策、? 自主協(xié)同交互向更深層次發(fā)展的力量倍增器。
2 航跡規(guī)劃智能算法優(yōu)勢
2.1 航跡規(guī)劃問題
無人機自主航跡規(guī)劃是在滿足性能約束和保證飛行安全的前提下, 生成一條連接起點和終點的最優(yōu)任務(wù)航線[12], 其實質(zhì)是一類多約束條件下的最優(yōu)化問題。
無人機航跡規(guī)劃按任務(wù)需求可分為預(yù)先航跡規(guī)劃和實時航跡規(guī)劃。 預(yù)先航跡規(guī)劃是基于環(huán)境先驗信息的全局優(yōu)化, 因此在合理時間內(nèi)得到全局近似最優(yōu)解更具現(xiàn)實意義; 實時航跡規(guī)劃是應(yīng)對突發(fā)威脅的航線局部優(yōu)化, 需要盡量縮短規(guī)劃時間以達到實時性要求。
求解航跡規(guī)劃問題的主要方法是將航跡規(guī)劃問題轉(zhuǎn)換為狀態(tài)空間的航線優(yōu)化問題, 利用優(yōu)化算法獲得最優(yōu)解。 當前, 針對小范圍、? 已知環(huán)境下的航跡規(guī)劃研究已經(jīng)較為成熟, 未來重點研究方向是大范圍復(fù)雜場景和動態(tài)不確定環(huán)境下的航跡規(guī)劃研究[13]。 因此, 航跡規(guī)劃算法的改進、? 創(chuàng)新和應(yīng)用也是未來研究的重點和難點。
2.2 智能算法優(yōu)勢分析
航跡規(guī)劃算法分為傳統(tǒng)優(yōu)化算法和智能算法兩大類。 其中傳統(tǒng)優(yōu)化算法又分為圖搜索算法、? 空間采樣算法、? 勢場法等。 A*算法[14]作為一種被廣泛應(yīng)用的圖搜索算法, 實現(xiàn)較為簡單, 但是在大范圍高維空間中搜索效率低, 難以解決多約束的航跡規(guī)劃問題; 快速擴展隨機樹法[15]是一種典型空間采樣算法, 無需離散化飛行環(huán)境, 搜索速度快, 但是難以獲得最優(yōu)航線; 人工勢場法[16]規(guī)劃速度快、? 實時性好, 但在大范圍高維空間中存在局部震蕩、? 局部極小值等情況導(dǎo)致航線不可用。 因此, 傳統(tǒng)優(yōu)化算法能夠在簡單環(huán)境下具有較好的航跡規(guī)劃效果, 但是難以高效解決復(fù)雜、? 動態(tài)、? 高度不確定性戰(zhàn)場環(huán)境下的無人機自主航跡規(guī)劃問題。
近年來, 智能算法因具有高并行性、? 強魯棒性、? 自組織自學(xué)習(xí)等特點, 被廣泛應(yīng)用于復(fù)雜環(huán)境下的無人機自主航跡規(guī)劃問題[17]。 與傳統(tǒng)優(yōu)化算法相比, 智能算法在復(fù)雜環(huán)境下有以下優(yōu)勢:
(1) 魯棒性。 復(fù)雜環(huán)境體現(xiàn)在規(guī)劃空間的復(fù)雜。 自主航跡規(guī)劃問題是NP-hard問題, 傳統(tǒng)優(yōu)化算法在小規(guī)模空間中具有明顯優(yōu)勢, 隨著空間規(guī)模增大, 計算復(fù)雜度呈指數(shù)增加, 易產(chǎn)生“組合爆炸”; 智能算法構(gòu)建啟發(fā)式目標(獎勵)函數(shù), 采用并行計算和自組織、? 自學(xué)習(xí)方式, 在簡單和復(fù)雜環(huán)境中均表現(xiàn)出良好適用性。
(2) 實時性。 復(fù)雜環(huán)境也體現(xiàn)在約束條件的復(fù)雜, 需全面考慮無人機自身性能約束和動態(tài)變化的各類威脅、? 障礙, 因此, 自主航跡規(guī)劃問題是一類多極值優(yōu)化問題。 與傳統(tǒng)優(yōu)化算法相比, 智能算法在求解多極值優(yōu)化問題時, 犧牲得到最優(yōu)航跡的可能卻獲得更快的收斂速度, 更符合航跡規(guī)劃實時性需求。
綜上, 相比傳統(tǒng)優(yōu)化算法, 智能算法在解決多約束條件下的優(yōu)化問題上具有明顯優(yōu)勢, 更加適用于復(fù)雜、? 動態(tài)、? 高度不確定性戰(zhàn)場環(huán)境下的無人機自主航跡規(guī)劃。
3 無人機自主航跡規(guī)劃智能算法
無人機自主航跡規(guī)劃智能算法分為兩類: 智能優(yōu)化算法和機器學(xué)習(xí)算法。 圖1為無人機自主航跡規(guī)劃智能算法分類圖。
3.1 智能優(yōu)化算法
智能優(yōu)化算法通過模擬大自然的某種現(xiàn)象或生物群體的自組織行為解決無人機自主航跡規(guī)劃等組合優(yōu)化問題, 具有易實現(xiàn)、? 啟發(fā)性、? 并行處理等特點。
3.1.1 進化算法
進化算法來源于大自然的生物進化現(xiàn)象。 在無人機自主航跡規(guī)劃中常用的進化算法有遺傳算法和差分進化算法。
(1)? 遺傳算法
遺傳算法(Genetic Algorithm, GA)是一類基于生物進化論和遺傳學(xué)機理的隨機搜索優(yōu)化算法[18]。 在航跡規(guī)劃中, 對初始航線進行基因編碼, 依據(jù)各類約束建立適應(yīng)度函數(shù), 通過選擇、? 交叉、? 變異等遺傳算子逐代演化出最優(yōu)航跡。
遺傳算法具有魯棒性、? 隱含并行性[19] 特點, 有較強的全局搜索能力, 適用于求解復(fù)雜環(huán)境的無人機航跡規(guī)劃問題。 但是遺傳算法在算法后期的局部搜索能力差, 同時存在早熟性收斂、? 規(guī)劃時間長的缺點。 針對上述缺點, 研究人員主要從種群初始化、? 遺傳算子、? 種群結(jié)構(gòu)和適應(yīng)度函數(shù)等方面進行改進。
① 種群初始化策略改進。 文獻[20]通過Logistic混沌映射生成初始航線, 通過反向搜索降低初始航線交叉概率, 該算法能夠提高初始航線質(zhì)量, 縮短航跡規(guī)劃時間。 文獻[21]針對Logistic映射不能均勻遍歷解空間的缺點, 采用Tent映射方法初始化航線, 同時引入自適應(yīng)遺傳算子, 使交叉、? 變異概率隨適應(yīng)度值變化自動調(diào)整。
② 遺傳算子改進。 文獻[22]通過改進輪盤賭選擇算子和引入插入算子、? 刪除算子, 保證路徑連續(xù)且最短, 采用精英保留策略避免了進化過程丟失最優(yōu)路徑。 文獻[23]提出基于模糊自適應(yīng)遺傳算法的路徑規(guī)劃方法, 通過模糊邏輯控制器動態(tài)調(diào)整交叉、? 變異概率, 在增強多樣性的同時提高路徑搜索效率。
③ 種群結(jié)構(gòu)改進。 隨著迭代次數(shù)增加, 高適應(yīng)度航線會重復(fù)出現(xiàn)(即同質(zhì)化現(xiàn)象), 導(dǎo)致早熟性收斂。 文獻[24]提出一種基于多種群遷移遺傳算法的路徑規(guī)劃方法, 將種群劃分為多個小種群并賦予不同功能, 利用種群間遷移機制代替選擇機制, 有效解決了同質(zhì)化現(xiàn)象。
④ 適應(yīng)度函數(shù)改進。 文獻[25]將轉(zhuǎn)彎次數(shù)和航線角度等約束引入適應(yīng)度函數(shù), 提高航線平滑度, 但是多約束條件下通過線性加權(quán)法建立適應(yīng)度函數(shù), 存在權(quán)重選擇難題。 針對此問題, 文獻[26]提出基于改進NSGA-Ⅱ算法的多目標無人機航跡規(guī)劃方法, 同時對航線長度、? 航線威脅、? 最大轉(zhuǎn)彎角等多個目標函數(shù)進行優(yōu)化, 得到一組分布多樣化的最優(yōu)路徑。
(2) 差分進化算法
差分進化算法(Differential Evolution, DE)是一類基于群體差異的隨機搜索優(yōu)化算法。 與遺傳算法類似, 在航跡規(guī)劃中, 對初始航線編碼建立各類約束的適應(yīng)度函數(shù), 通過變異、? 交叉、? 選擇等操作, 迭代得到最優(yōu)航跡。
差分進化算法結(jié)構(gòu)簡單、? 魯棒性強, 獨特的記憶功能使其具有較強的全局搜索能力, 適用于求解無人機航跡規(guī)劃等組合優(yōu)化問題。 針對標準差分進化算法早熟收斂和收縮停滯[27]等缺點, 主要從控制參數(shù)、? 進化策略和種群結(jié)構(gòu)等方面改進, 也可以與其他優(yōu)化算法結(jié)合使用。
① 控制參數(shù)、? 進化策略改進。 文獻[28]引入基于正弦余弦算法的變異策略、? 融合擾動的交叉策略和自適應(yīng)縮放因子, 改進差分進化算法, 應(yīng)用于無人機三維航跡規(guī)劃, 得到能夠有效避開各類障礙的更短航線。 文獻[29]將改進差分進化算法用于無人機低空突防三維航跡規(guī)劃, 采用馮·諾依曼拓撲結(jié)構(gòu)和改進變異算子優(yōu)化進化策略, 使用相對極坐標方式初始化航線縮小解空間, 航跡規(guī)劃效果優(yōu)于標準差分進化算法。
② 種群結(jié)構(gòu)改進。 文獻[30]提出一種多策略融合的差分進化算法, 通過劃分多個子種群并采取不同變異策略, 使算法兼顧全局和局部搜索能力, 同時引入基于教學(xué)的參數(shù)自適應(yīng)策略動態(tài)調(diào)整縮放因子和交叉概率, 有效解決了多目標約束的無人機航跡規(guī)劃問題。
③ 與其他優(yōu)化算法結(jié)合。 文獻[31]提出一種基于APSODE-MS算法的無人機三維航跡規(guī)劃方法, 在自適應(yīng)粒子群算法基礎(chǔ)上, 引入含動態(tài)縮放因子的差分進化算法, 增加航線多樣性, 改善粒子群算法收斂速度慢等問題, 具有比傳統(tǒng)PSO和DE算法更好的航跡規(guī)劃效果。
表1為基于進化算法的無人機自主航跡規(guī)劃方法的改進和對比。
3.1.2 群智能算法
群智能算法主要模擬生物群體與環(huán)境交互而表現(xiàn)出的集體自組織行為。 無人機自主航跡規(guī)劃中常用的群智能算法有粒子群算法、? 蟻群算法、? 人工蜂群算法等。
(1) 粒子群算法
粒子群算法(Particle Swarm Optimization, PSO)是一類模擬鳥群覓食行為的群智能搜索優(yōu)化算法。 在航跡規(guī)劃中, 每個粒子代表一條航線, 建立適應(yīng)度函數(shù)評價粒子的航線質(zhì)量, 根據(jù)粒子間信息共享指導(dǎo)粒子運動由無序向有序演變, 最終得到最優(yōu)航線。
粒子群算法具有參數(shù)設(shè)置少、? 搜索速度快等優(yōu)點, 被廣泛用于無人機自主航跡規(guī)劃, 但是易陷入局部最優(yōu)、? 收斂速度慢等缺點影響了算法的應(yīng)用效果。 研究人員主要從控制參數(shù)、? 更新策略、? 拓撲結(jié)構(gòu)和與其他優(yōu)化算法結(jié)合等方面改進算法。
① 控制參數(shù)改進。 文獻[32]設(shè)計一種隨種群進化過程自適應(yīng)線性變化的加速系數(shù)和最大速度, 提高航跡規(guī)劃的最優(yōu)性和快速性。 文獻[33]采用“階梯式”慣性權(quán)重調(diào)整方法, 相比于線性型、? 指數(shù)型自適應(yīng)參數(shù)調(diào)整方法, 提高了航跡規(guī)劃效率。
② 更新策略改進。 文獻[34]提出自適應(yīng)學(xué)習(xí)粒子群算法, 在優(yōu)化階段從4種粒子更新策略中自適應(yīng)選擇更新策略, 有效提高航線質(zhì)量。 文獻[35]通過在更新規(guī)則中引入自適應(yīng)柯西變異算子, 有效改進航線質(zhì)量、? 減少規(guī)劃時間。
③ 拓撲結(jié)構(gòu)改進。 文獻[36]將全局與局部粒子群算法結(jié)合, 提出混合粒子群算法, 與全局或局部粒子群算法相比, 有效縮短多目標航跡規(guī)劃時間。
④ 與其他優(yōu)化算法結(jié)合。 文獻[37]將粒子群算法與可見性圖結(jié)合求解無人車路徑規(guī)劃問題, 采用基于搜索空間縮減技術(shù)的改進Dijkstra算法初始化種群, 有效避免 陷入局部最優(yōu)。 文獻[38]在粒子更新階段引入正弦余弦算法, 提高船舶避撞路徑規(guī)劃的速度和準確性。
此外, 通過改變搜索空間和粒子編碼方式, 研究人員提出多種航跡規(guī)劃改進算法, 如相位角編碼粒子群算法[39](θ-PSO)、? 量子粒子群算法[40](QPSO), 這兩種改進算法的性能均優(yōu)于標準粒子群算法, 但是在復(fù)雜環(huán)境中仍難以找到最優(yōu)航線。 文獻[41]提出一種基于球面矢量的粒子群算法, 將搜索空間從傳統(tǒng)笛卡爾空間轉(zhuǎn)移到配置空間, 通過球面矢量的幅值、? 仰角和方位角分量與無人機運動分量之間的相互關(guān)系實現(xiàn)復(fù)雜環(huán)境中的無人機航跡規(guī)劃。
(2) 蟻群算法
蟻群算法(Ant Colony Optimization, ACO)是一類模擬螞蟻覓食行為的群智能搜索優(yōu)化算法, 主要包括初始化、? 構(gòu)建問題解和信息素更新三部分。 在航跡規(guī)劃中, 將空間離散化并賦予初始信息素, 螞蟻的搜索路徑代表可行航跡, 通過信息素迭代更新, 蟻群在正反饋作用下集中到最優(yōu)航線。
蟻群算法具有正反饋特點, 魯棒性強、? 實現(xiàn)簡單, 被廣泛用于無人機自主航跡規(guī)劃, 但是存在易陷入局部最優(yōu)、? 收斂速度慢等問題。 研究人員從信息素初始化、? 狀態(tài)轉(zhuǎn)移規(guī)則、? 信息素更新策略、? 搜索策略、? 種群結(jié)構(gòu)等方面改進算法來滿足自主航跡規(guī)劃要求。
① 信息素初始化策略改進。 傳統(tǒng)蟻群算法采用均勻分布的信息素初始策略, 導(dǎo)致盲目搜索、? 計算量大等問題。 文獻[42]綜合考慮節(jié)點到起點連線距離和節(jié)點到終點距離, 提出航線初始信息素非均勻分布策略, 用更少迭代次數(shù)得到最優(yōu)航線。 文獻[43]引入人工魚群算法進行預(yù)搜索, 優(yōu)化信息素初始分布, 將擁擠度因子引入狀態(tài)轉(zhuǎn)移規(guī)則, 實現(xiàn)水下無人航行器三維路徑規(guī)劃。
② 狀態(tài)轉(zhuǎn)移規(guī)則、? 信息素更新策略改進。 狀態(tài)轉(zhuǎn)移和信息素更新是蟻群算法的核心。 文獻[44]將轉(zhuǎn)彎角引導(dǎo)因子和障礙物排除因子引入狀態(tài)轉(zhuǎn)移規(guī)則, 并提出基于路徑質(zhì)量和自適應(yīng)信息素揮發(fā)因子的信息素更新策略, 提高路徑規(guī)劃速度和避障能力。 文獻[45]提出動態(tài)調(diào)整影響因子的參數(shù)自適應(yīng)狀態(tài)轉(zhuǎn)移策略和差異化-動態(tài)分級信息素更新策略, 解決蟻群算法在復(fù)雜環(huán)境中規(guī)劃效率低的問題。
③ 搜索策略改進。 文獻[46]引入一種三維空間局部搜索策略, 根據(jù)無人機機動性能約束, 縮小螞蟻可選節(jié)點范圍, 降低空間復(fù)雜度。 文獻[47]提出一種基于概率的隨機游走搜索策略, 通過交替使用布朗運動和柯西運動構(gòu)造新路徑, 平衡算法搜索和收斂能力。
④ 種群結(jié)構(gòu)改進。 文獻[48]提出一種雙向并行搜索策略, 將蟻群等分為兩組, 從起點和終點相向搜索, 改進算法以較快速度找到最優(yōu)路徑。 文獻[49]提出一種多種群博弈蟻群算法, 將博弈論相關(guān)思想應(yīng)用于蟻群間信息交流, 提高搜索效率和路徑規(guī)劃質(zhì)量。
(3) 人工蜂群算法
人工蜂群算法(Artificial Bee Colony, ABC)是一類模擬蜜蜂采蜜行為的群智能搜索優(yōu)化算法, 由蜜源、? 引領(lǐng)蜂、? 跟隨蜂、? 偵察蜂四部分組成。 蜜源代表航跡規(guī)劃問題的可行解, 引領(lǐng)蜂、? 跟隨蜂進行航線的局部搜索和信息共享, 偵察蜂在搜索停滯時尋找新航線, 經(jīng)多次迭代得到的最優(yōu)蜜源即為最優(yōu)航線。
人工蜂群算法魯棒性強, 具有控制參數(shù)少、? 實現(xiàn)簡單等優(yōu)點, 適用于求解無人機自主航跡規(guī)劃問題。 但存在局部搜索能力較弱、? 收斂速度較慢等缺點。
①? 搜索策略和選擇策略是人工蜂群算法的核心, 主要從這兩方面同時進行改進。 文獻[50]提出一種多改進策略融合的無人直升機航跡規(guī)劃方法, 用搜索策略規(guī)則庫代替隨機搜索策略, 在規(guī)則庫中融合基于自我知識、? 其他個體知識[51]、? 最優(yōu)個體知識、? 種群平均知識的4種搜索策略, 根據(jù)不同飛行環(huán)境選擇合適搜索策略, 采用集成反饋機制代替輪盤賭選擇策略, 改進算法提高了復(fù)雜環(huán)境下的航跡規(guī)劃質(zhì)量。 針對傳統(tǒng)人工蜂群算法隨機搜索策略是一維搜索的局限性, 文獻[52]提出一種基于強化學(xué)習(xí)的人工蜂群算法, 首先為引領(lǐng)蜂和跟隨蜂設(shè)計不同的搜索策略, 引入基于重尾分布的尺度因子, 提高搜索隨機性, 其次在引領(lǐng)蜂階段, 通過強化學(xué)習(xí)算法動態(tài)調(diào)整搜索方程中的更新維度, 獲得良好的航跡規(guī)劃效果。 其他改進方法有鄰域結(jié)構(gòu)搜索策略[53-54]、? Boltzmann選擇策略[55]、? 排序選擇策略[56]、? 隨機分組機制選擇策略[57]等。
②? 從蜜源初始化、? 種群結(jié)構(gòu)等方面對算法進行改進。 文獻[58]將混沌思想和反向?qū)W習(xí)方法引入蜜源初始化階段, 使蜜蜂能夠充分搜索解空間, 增加種群多樣性。 文獻[59]根據(jù)種群進化狀態(tài)自適應(yīng)調(diào)整種群規(guī)模, 平衡算法搜索和收斂能力。 文獻[60]提出一種自適應(yīng)多種群人工蜂群算法, 能夠根據(jù)進化狀態(tài)調(diào)整子種群數(shù)量, 具有更好的搜索效果。
(4) 其他算法
除常用算法外, 近些年研究人員將多種新型群智能算法用于求解無人機自主航跡規(guī)劃問題, 如布谷鳥搜索算法[61](Cuckoo Search, CS)、? 蝙蝠算法[62](Bat Algorithm, BA)、? 鯨魚優(yōu)化算法[63](Whale Optimization Algorithm, WOA)、? 樽海鞘群算法[64](Salp Swarm Algorithm, SSA)、? 郊狼優(yōu)化算法[65](Coyote Optimization Algorithm, COA)等, 這些算法均被證明具有良好的航跡規(guī)劃效果。
表2為基于群智能算法的無人機自主航跡規(guī)劃方法的改進和對比。
3.2 機器學(xué)習(xí)算法
機器學(xué)習(xí)算法通過模擬人類的學(xué)習(xí)行為, 實現(xiàn)在航線樣本或飛行環(huán)境中的自主學(xué)習(xí), 解決復(fù)雜環(huán)境下的無人機自主航跡規(guī)劃等組合優(yōu)化問題, 具有自主性強、? 實時性好等優(yōu)勢。
3.2.1 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)是一類模擬生物神經(jīng)網(wǎng)絡(luò)行為的智能計算模型, 由大量簡單同質(zhì)的神經(jīng)元相互連接而成, 其信息處理方式是一種基于神經(jīng)元的結(jié)構(gòu)化傳遞[66]。 神經(jīng)網(wǎng)絡(luò)能夠擬合復(fù)雜非線性函數(shù), 因此具有較好的泛化能力、? 非線性映射能力和學(xué)習(xí)能力, 是無人機自主航跡規(guī)劃的重要研究方向。
基于神經(jīng)網(wǎng)絡(luò)的無人機自主航跡規(guī)劃方法分為兩類。 一是使用神經(jīng)網(wǎng)絡(luò)直接生成飛行航線, 再利用其他方法優(yōu)化航線。 文獻[67]將無人機威脅信息、? 搜索信息、? 位置信息作為神經(jīng)網(wǎng)絡(luò)輸入, 引擎推力作為網(wǎng)絡(luò)輸出, 使用神經(jīng)網(wǎng)絡(luò)直接控制無人機運動, 再通過構(gòu)建適應(yīng)度函數(shù), 利用遺傳算法選擇最優(yōu)飛行航線, 更新網(wǎng)絡(luò)參數(shù), 有效解決飛行樣本有限、? 環(huán)境信息未知等問題, 但此類方法存在局限性, 不能確保所得航跡為近似最優(yōu)解。 二是使用神經(jīng)網(wǎng)絡(luò)計算目標函數(shù), 再使用其他方法生成飛行航線。 文獻[68]首先使用動態(tài)步長策略初始化航跡, 使用神經(jīng)網(wǎng)絡(luò)建立威脅能量函數(shù), 網(wǎng)絡(luò)輸入為航點與威脅邊緣距離, 輸出為航點的威脅能量函數(shù)值, 再利用梯度下降法構(gòu)建關(guān)于函數(shù)的運動方程, 使航線快速遠離威脅。 此類方法利用神經(jīng)網(wǎng)絡(luò)并行計算特點, 同時檢測航線是否與所有威脅發(fā)生碰撞, 縮短目標函數(shù)計算時間, 多與智能優(yōu)化算法結(jié)合使用[69-70]。
模糊邏輯是運用模糊集理論求解不確定性問題的人工智能方法, 將模糊邏輯和神經(jīng)網(wǎng)絡(luò)相結(jié)合, 發(fā)揮模糊邏輯推理的結(jié)構(gòu)性知識表達能力和神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力, 可以實現(xiàn)優(yōu)勢互補。 文獻[71]將自適應(yīng)神經(jīng)模糊推理系統(tǒng)應(yīng)用于機器人路徑規(guī)劃中, 通過基于模糊推理的神經(jīng)網(wǎng)絡(luò)實現(xiàn)動態(tài)障礙下的路徑規(guī)劃。 文獻[72]提出一種混合神經(jīng)模糊控制器, 先將障礙物距離輸入神經(jīng)網(wǎng)絡(luò)得到目標角, 再將目標角和障礙物距離輸入模糊系統(tǒng)得到最佳目標角度值, 控制機器人獲得最優(yōu)路徑。
深度神經(jīng)網(wǎng)絡(luò)是包含多個隱含層的神經(jīng)網(wǎng)絡(luò), 通過學(xué)習(xí)飛行樣本的內(nèi)在規(guī)律進行航跡規(guī)劃。 文獻[73]提出一種基于殘差卷積神經(jīng)網(wǎng)絡(luò)的無人機實時航跡規(guī)劃方法, 從包含環(huán)境信息的訓(xùn)練集中提取的無人機位置、? 目標位置和局部環(huán)境信息作為網(wǎng)絡(luò)輸入, 網(wǎng)絡(luò)輸出為環(huán)境狀態(tài)和無人機航向, 經(jīng)過離線訓(xùn)練后的網(wǎng)絡(luò)模型具有較好的實時航跡規(guī)劃能力。 文獻[74]提出一種端到端的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 將三維航跡規(guī)劃問題轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)分類問題, 引入動作分解和合成概念, 通過2D卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)值迭代過程, 解決三維航跡規(guī)劃問題。
3.2.2 強化學(xué)習(xí)
強化學(xué)習(xí)(Reinforcement Learning, RL)是指智能體通過與環(huán)境交互獲得最優(yōu)行動策略的一類機器學(xué)習(xí)方法[66]。 智能體依據(jù)策略π執(zhí)行動作at后, 狀態(tài)st轉(zhuǎn)移至新狀態(tài)st+1, 同時環(huán)境反饋給智能體一個獎勵r, 智能體根據(jù)獎勵r更新行動策略π*并執(zhí)行新的動作at+1, 智能體通過與環(huán)境交互進行“試錯”學(xué)習(xí), 最終獲得最優(yōu)行動策略。 圖2所示為強化學(xué)習(xí)模型。
無人機航跡規(guī)劃問題可以轉(zhuǎn)換為從起始狀態(tài)到目標狀態(tài)的基于馬爾科夫決策過程的強化學(xué)習(xí)問題, 學(xué)習(xí)得到的最優(yōu)行動策略可為無人機在復(fù)雜飛行環(huán)境下進行自主決策提供依據(jù)。 不同于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí), 強化學(xué)習(xí)不依賴樣本數(shù)據(jù), 因此適用于飛行樣本較少的無人機自主航跡規(guī)劃問題。
文獻[75]提出基于接收信號強度的導(dǎo)向強化Q-learning算法, 以接收信號強度作為獎勵, 以導(dǎo)向強化原則更新Q函數(shù)優(yōu)化動作選擇, 通過在強化學(xué)習(xí)中引入啟發(fā)式思想提高無人機在未知環(huán)境下的學(xué)習(xí)效率。 文獻[76]提出一種雙層Q-learning算法, 低層算法處理靜態(tài)障礙信息, 用于全局航跡規(guī)劃, 高層算法處理動態(tài)障礙信息, 用于局部航跡規(guī)劃, 通過在強化學(xué)習(xí)中引入分層思想?yún)f(xié)同規(guī)劃無人機無碰撞路徑。
3.2.3 深度強化學(xué)習(xí)
在航跡規(guī)劃中, 復(fù)雜飛行環(huán)境意味著存在高維原始數(shù)據(jù)輸入, 將這些數(shù)據(jù)直接作為強化學(xué)習(xí)的狀態(tài)輸入很難被計算機處理和理解, 最終導(dǎo)致維數(shù)災(zāi)難[77]。 借助深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力逐層提取環(huán)境狀態(tài)信息, 提高系統(tǒng)處理和泛化能力, 這是深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的思想。
基于深度強化學(xué)習(xí)的無人機航跡規(guī)劃方法按照策略更新方式分為基于價值函數(shù)和基于策略的兩類方法。
(1) 基于價值函數(shù)的深度強化學(xué)習(xí)方法
基于價值函數(shù)的DRL方法是一類間接方法, 通過最大化價值函數(shù)間接優(yōu)化策略。 DeepMind團隊提出深度Q網(wǎng)絡(luò)[78](Deep Q-Network, DQN), 將卷積神經(jīng)網(wǎng)絡(luò)與Q-learning算法結(jié)合, 使用深度神經(jīng)網(wǎng)絡(luò)端到端的擬合Q表, 一定程度解決了維數(shù)災(zāi)難問題。
文獻[79]提出一種ANOA算法用于無人車實時路徑規(guī)劃, ANOA算法采用競爭Q網(wǎng)絡(luò)(Dueling DQN)結(jié)構(gòu), 將狀態(tài)動作值分為狀態(tài)值函數(shù)和動作優(yōu)勢函數(shù)兩部分, 使網(wǎng)絡(luò)能夠?qū)W到在沒有動作影響下的環(huán)境狀態(tài)價值, 算法效率優(yōu)于DQN算法。 文獻[80]將基于Rainbow模型的深度強化學(xué)習(xí)算法應(yīng)用于海戰(zhàn)場路徑規(guī)劃, Rainbow模型融合了Double DQN網(wǎng)絡(luò)、? 優(yōu)先經(jīng)驗回放、? Dueling網(wǎng)絡(luò)、? 噪聲網(wǎng)絡(luò)、? 分布式學(xué)習(xí)、? 多步學(xué)習(xí)等6種DQN算法改進機制, 實驗證明該算法有更優(yōu)的路徑規(guī)劃效果。 文獻[81]將Deep-Sarsa算法用于無人機航跡規(guī)劃, Deep-Sarsa在Sarsa算法基礎(chǔ)上, 同樣使用深度神經(jīng)網(wǎng)絡(luò)端到端的擬合Q表, 采用同策略(on-policy)學(xué)習(xí)方法, 學(xué)習(xí)速度更快, 在實時航跡規(guī)劃方面有更好表現(xiàn)。
基于價值函數(shù)的DRL方法適用于離散動作空間的航跡規(guī)劃, 但無法處理連續(xù)動作空間, 且無法解決隨機策略問題[82]。
(2) 基于策略的深度強化學(xué)習(xí)方法
基于策略的DRL方法是一類直接方法, 通過優(yōu)化策略搜索方式直接優(yōu)化策略。 其基本思想是在策略π中引入?yún)?shù)θ構(gòu)建概率函數(shù)πθ(s, a), 通過學(xué)習(xí)參數(shù)θ逐漸逼近最優(yōu)策略。 參數(shù)化的函數(shù)形式使算法復(fù)雜度不受狀態(tài)動作數(shù)的影響, 且函數(shù)輸入可以是連續(xù)的, 因此適用于高維連續(xù)動作空間。
在航跡規(guī)劃研究中, 基于Actor-Critic的深度強化學(xué)習(xí)方法是近些年的研究熱點。 Actor-Critic算法[83]引入價值函數(shù)評估策略函數(shù), 使策略學(xué)習(xí)方法可以單步更新, 提高學(xué)習(xí)效率。 其中Actor網(wǎng)絡(luò)由策略梯度法衍生而來, 通過學(xué)習(xí)策略函數(shù)生成策略, 指導(dǎo)動作選擇; Critic網(wǎng)絡(luò)由價值函數(shù)法衍生而來, 通過學(xué)習(xí)價值函數(shù), 對策略進行估值并反饋給Actor網(wǎng)絡(luò)進行策略優(yōu)化。 圖3所示為Actor-Critic算法框架。
通過對相關(guān)研究的分析總結(jié), 將基于Actor-Critic的DRL方法分為隨機策略DRL方法和確定性策略DRL方法。
① 隨機策略DRL方法是指在Actor中利用隨機策略梯度定理學(xué)習(xí)策略參數(shù)θ進行策略優(yōu)化, 在Critic中使用深度神經(jīng)網(wǎng)絡(luò)擬合價值函數(shù)Q。 由于隨機策略在相同狀態(tài)下每次選擇的動作不同, 因此算法具有良好的探索性。
信賴域策略優(yōu)化算法[84](Trust Region Policy Optimization, TRPO)引入信賴域算法進行策略優(yōu)化, 以KL散度作為步長約束條件, 解決了傳統(tǒng)策略梯度算法步長選擇不合理的問題, 但是計算過程復(fù)雜, 未能解決實際航跡規(guī)劃問題。
近端策略優(yōu)化算法[85](Proximal Policy Optimization, PPO)是TRPO算法的簡化版本。 算法將新舊策略的KL散度作為懲罰項, 大幅簡化計算步驟, 學(xué)習(xí)效率更高。 文獻[86]提出一種基于Safe-PPO算法的路徑規(guī)劃方法, 在PPO算法中引入?yún)f(xié)方差自適應(yīng)進化策略, 解決傳統(tǒng)PPO算法的方差適應(yīng)性問題。 文獻[87]提出一種基于異步多線程 PPO算法的航跡規(guī)劃方法, 引入異步機制統(tǒng)一全局和局部規(guī)劃過程, 提高學(xué)習(xí)效率。
針對PPO算法大量采樣導(dǎo)致學(xué)習(xí)效率較低的問題, 文獻[88]提出了SAC(Soft Actor-Critic)算法, SAC算法是一類基于最大熵框架的異策略(off-policy)隨機策略梯度算法, 最大熵強化學(xué)習(xí)框架平均動作選擇概率, 提高空間探索能力, off-policy方法減少了樣本采樣次數(shù), 提高學(xué)習(xí)效率。 在航跡規(guī)劃應(yīng)用中, 文獻[89]將多層并行注意力機制網(wǎng)絡(luò)模型引入SAC算法, 通過多代理系統(tǒng)與注意力機制相結(jié)合提高算法性能, 實現(xiàn)未知動態(tài)環(huán)境下的高效路徑規(guī)劃。 文獻[90]提出一種改進SAC算法, 通過建立綜合獎勵函數(shù)將問題描述為最大化獎勵的策略問題, 引入優(yōu)先經(jīng)驗回放機制改變樣本權(quán)重, 解決隨機抽樣樣本利用率低的問題, 實現(xiàn)機器人自主避障規(guī)劃。
② 確定性策略DRL方法是指在Actor中利用確定性策略梯度定理最大化價值函數(shù)Q進行策略優(yōu)化, 在Critic中使用深度神經(jīng)網(wǎng)絡(luò)擬合價值函數(shù)Q。 由于確定性策略在相同狀態(tài)下每次選擇的動作是確定的, 采樣數(shù)據(jù)更少、? 效率更高, 因此算法更適合高維連續(xù)動作空間。
文獻[91]提出深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)。 該算法基于上述思想構(gòu)造4個網(wǎng)絡(luò)學(xué)習(xí)策略函數(shù)和價值函數(shù), 通過獨立目標網(wǎng)絡(luò)和經(jīng)驗回放機制打破數(shù)據(jù)相關(guān)性。 在航跡規(guī)劃應(yīng)用中, 文獻[92]提出一種相關(guān)經(jīng)驗學(xué)習(xí)DDPG算法以解決無人機自主運動規(guī)劃問題, 引入雙重篩選抽樣方法, 利用優(yōu)先經(jīng)驗回放機制和經(jīng)驗相關(guān)性函數(shù)找到最適合當前無人機狀態(tài)的舊經(jīng)驗進行學(xué)習(xí), 同時調(diào)整學(xué)習(xí)和動作選擇順序, 增加學(xué)習(xí)過程對當前狀態(tài)動作選擇的影響, 獲得比DDPG算法更好的航跡規(guī)劃效果。 雙延遲深度確定性策略梯度算法[93](Twin Delayed DDPG, TD3)是DDPG算法的改進版本, 通過加入目標策略平滑、? 裁剪雙Q網(wǎng)絡(luò)、? 策略延遲更新三種改進方法, 解決DDPG算法過高估計問題, 提高了算法效率。 文獻[94]提出一種具有雙流網(wǎng)絡(luò)結(jié)構(gòu)的改進TD3算法, 該算法從環(huán)境變化信息中提取環(huán)境特征, 感知動態(tài)障礙物運動趨勢, 使無人機能夠在動態(tài)環(huán)境中安全快速地到達終點。
3.3 算法應(yīng)用比較
智能優(yōu)化算法和機器學(xué)習(xí)算法均適用于無人機自主航跡規(guī)劃問題, 其中智能優(yōu)化算法長于搜索而不擅長學(xué)習(xí), 機器學(xué)習(xí)算法長于學(xué)習(xí)而不擅長搜索。 通過梳理智能算法研究現(xiàn)狀, 對比智能優(yōu)化算法和機器學(xué)習(xí)算法應(yīng)用情況, 得到相關(guān)結(jié)論。
(1) 智能優(yōu)化算法結(jié)構(gòu)簡單、? 易于實現(xiàn), 對計算機配置要求不高, 更適合在地面控制站使用。 其多為啟發(fā)式算法, 可拓展性強, 通過融合多重改進策略, 適用于多樣化場景的預(yù)先航跡規(guī)劃。
但是, 在解空間變大時, 該算法普遍存在易陷入局部最優(yōu)、? 收斂速度慢的缺點, 難以把握搜索和收斂的平衡, 導(dǎo)致航線規(guī)劃質(zhì)量沒有保證、? 規(guī)劃時間較長等問題, 因此在復(fù)雜環(huán)境下的實時航跡規(guī)劃效果不理想。
(2) 機器學(xué)習(xí)算法具有非線性映射能力, 通過學(xué)習(xí)航線數(shù)據(jù)的內(nèi)在規(guī)律得到一個航跡規(guī)劃策略, 當環(huán)境發(fā)生變化需要航線重規(guī)劃時, 無需像智能優(yōu)化算法那樣需要重新進行搜索, 適用于實時航跡規(guī)劃。
數(shù)據(jù)驅(qū)動是機器學(xué)習(xí)的特點, 但無人機航線數(shù)據(jù)較少, 制約了機器學(xué)習(xí)在航跡規(guī)劃中的應(yīng)用; 深度強化學(xué)習(xí)存在不穩(wěn)定性, 如算法初期盲目搜索會影響規(guī)劃效率, 數(shù)據(jù)訓(xùn)練不充分、? 超參數(shù)設(shè)置不合理均會影響航線質(zhì)量; 此外, 機器學(xué)習(xí)是黑箱模型, 在實際作戰(zhàn)使用中存在著信任問題。
4 展望
無人機自主航跡規(guī)劃智能算法仍存在很多問題有待深入研究, 可從5個方面進行梳理。
(1) 貼近真實戰(zhàn)場的環(huán)境模型
近些年, 無人機實時三維航跡規(guī)劃成為研究熱點, 但是在成果和論文數(shù)量方面仍少于二維預(yù)先航跡規(guī)劃[17]。 隨著各類無人機在戰(zhàn)場上的廣泛運用, 二維預(yù)先航跡規(guī)劃無法保證無人機安全性和任務(wù)能力, 迫切需要無人機具備實時航跡規(guī)劃能力, 以應(yīng)對復(fù)雜、? 動態(tài)、? 高度不確定的戰(zhàn)場環(huán)境。 傳統(tǒng)優(yōu)化方法依賴先驗環(huán)境信息, 處理復(fù)雜問題時易出現(xiàn)維數(shù)爆炸, 難以解決不確定性信息。 因此, 未來研究應(yīng)圍繞構(gòu)建貼近真實戰(zhàn)場的實時三維環(huán)境模型展開, 同時, 如何提高智能算法在該類模型下的實時性和規(guī)劃效率, 也是未來研究重點。
(2) 考慮多類約束的目標函數(shù)
智能算法通過設(shè)計目標(獎勵)函數(shù)求解最優(yōu)航跡, 現(xiàn)有算法中目標函數(shù)考慮要素較少, 難以保證所得航跡的最優(yōu)性、? 可靠性。 因此, 設(shè)計目標函數(shù)時, 應(yīng)考慮在滿足任務(wù)需求和各類約束條件下的最小化飛行成本(包括飛行時間或航跡長度等)。 其中, 約束通常分為兩類, 性能約束即無人機動力學(xué)約束, 如最小轉(zhuǎn)彎角、? 最大俯仰角、? 升限等, 環(huán)境約束指環(huán)境中各類障礙和威脅, 如地形、? 建筑、? 敵方偵察打擊裝備等。 此外, 構(gòu)造目標函數(shù)時, 大部分文獻通過線性加權(quán)法將多目標優(yōu)化問題轉(zhuǎn)換為單目標優(yōu)化問題求解, 實現(xiàn)簡單但難以保證航跡最優(yōu)。 梯度下降法直接優(yōu)化[95]和神經(jīng)網(wǎng)絡(luò)非線性逼近[68]被認為是解決此類問題的有效方法。 因此, 設(shè)計合理的目標函數(shù)是未來研究中亟待解決的問題。
(3) 智能優(yōu)化算法的設(shè)計改進
智能優(yōu)化算法是一類結(jié)果型算法, 即算法優(yōu)化過程是通過直接對隨機生成的解集進行選擇、? 優(yōu)化等操作得到最優(yōu)解。 此類算法便于理解、? 易于實現(xiàn), 但是存在一些問題: 復(fù)雜環(huán)境下運算量大、? 易陷入局部最優(yōu)、? 難以把握搜索和收斂的平衡。 因此, 未來在基于智能優(yōu)化算法的無人機自主航跡規(guī)劃方法研究中, 一是要將研究重心放在提高算法搜索效率和搜索精度上, 同時注重使用新的智能算法[96-97], 因為這些算法與經(jīng)典智能優(yōu)化算法相比, 融合并優(yōu)化了更多改進策略, 易于實現(xiàn)且效率更高; 二是在搜索解空間時要注重客觀性、? 有效性, 把握不同規(guī)劃階段對搜索和收斂能力的需求, 提高算法的自組織、? 自學(xué)習(xí)能力。
(4) 機器學(xué)習(xí)算法的設(shè)計改進
機器學(xué)習(xí)算法是一類過程型算法, 即算法優(yōu)化過程是通過學(xué)習(xí)數(shù)據(jù)中的規(guī)律求最優(yōu)解。 機器學(xué)習(xí)算法理論上更適合復(fù)雜動態(tài)的戰(zhàn)場環(huán)境, 但是存在依賴大量飛行數(shù)據(jù)、? 模型訓(xùn)練時間較長等問題, 限制了其在無人機自主航跡規(guī)劃中的應(yīng)用。 因此, 未來在基于機器學(xué)習(xí)算法的無人機自主航跡規(guī)劃方法研究中, 一是要將基于模型和無模型的機器學(xué)習(xí)算法相結(jié)合, 先從數(shù)據(jù)中學(xué)習(xí)環(huán)境模型, 再基于模型進行策略優(yōu)化并反向更新模型, 實現(xiàn)兩種方法的優(yōu)勢互補; 二是要實現(xiàn)機器學(xué)習(xí)算法中多源域的特征遷移、? 任務(wù)遷移, 通過提高遷移能力提高航跡規(guī)劃算法通用性; 三是要將機器學(xué)習(xí)與邏輯推理結(jié)合, 開展機器學(xué)習(xí)可解釋性研究, 解決信任危機。
(5) 基于算法融合的設(shè)計改進
利用算法互補性, 將多種優(yōu)化算法融合用于無人機自主航跡規(guī)劃, 彌補單一智能算法的缺陷, 是另一種算法改進方法。 常用融合方法有: 在不同規(guī)劃階段針對性選擇不同算法或者利用一種算法的優(yōu)點彌補另一算法的不足。 此外, 文獻[73]提供了另一種改進思路, 將A*算法在不同訓(xùn)練場景中得到的最優(yōu)路徑作為樣本用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò), 再將經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)用于無人機實時航跡規(guī)劃。 但是當前關(guān)于融合算法的研究較少, 同時融合算法會增加算法復(fù)雜度和計算成本。 因此, 如何設(shè)計算法融合策略, 使融合算法充分發(fā)揮各自優(yōu)勢, 將是未來重要的研究方向。
5 結(jié)語
由于智能算法在復(fù)雜、? 動態(tài)、? 高度不確定性戰(zhàn)場環(huán)境下的良好適應(yīng)性, 其被廣泛應(yīng)用于求解無人機自主航跡規(guī)劃問題。 研究表明, 智能優(yōu)化算法適用于地圖規(guī)模較小或?qū)崟r性要求不高的預(yù)先航跡規(guī)劃任務(wù), 機器學(xué)習(xí)算法適用于實時性要求高的實時航跡規(guī)劃任務(wù)。
無人機自主航跡規(guī)劃智能算法仍需持續(xù)深入地探索和發(fā)展, 未來的研究重點是改進各類智能算法的自身缺陷, 同時結(jié)合航跡規(guī)劃的特性, 提高算法搜索效率和搜索精度。
參考文獻:
[1] Fahey H K M, Miller M J.Unmanned Systems Integrated Roadmap FY2017-2042[R]. Washington D C: Department of Defense, 2018.
[2] Suguna S K, Dhivya M, Paiva S. Artificial Intelligence(AI): Recent Trends and Applications[M]. Boca Raton: CRC Press, 2021.
[3] United States Air Force Unmanned Aircraft Systems Flight Plan 2009-2047[R]. Washington D C: USAF, 2009.
[4] Sebbane Y B. Intelligent Autonomy of UAVs: Advanced Missions and Future Use[M]. Boca Raton: CRC Press, 2018: 11-15.
[5] Clough B. Metrics, Schmetrics! How Do You Track a UAVs Autonomy? [C]∥1st UAV Conference, AIAA, 2002: 3499.
[6] Unmanned Systems Integrated Roadmap FY2011-2036[R]. Washington D? C: Department of Defense, 2011.
[7] Zacharias G L. Autonomous Horizons: The Way Forward[M]. Alabama: Air University Press, 2019: 12-33.
[8] 高勁松, 鄒慶元, 陳哨東. 無人機自主性概念研究[J]. 電光與控制, 2007(5): 58-61.
Gao Jinsong, Zou Qingyuan, Chen Shaodong. Study on the Concept of Autonomy for UAV[J]. Electronics Optics & Control, 2007(5): 58-61.(in Chinese)
[9] 胡曉峰, 榮明. 智能化作戰(zhàn)研究值得關(guān)注的幾個問題[J]. 指揮與控制學(xué)報, 2018(3): 195-200.
Hu Xiaofeng, Rong Ming. Several Important Questions of Intelligent Warfare Research[J]. Journal of Command and Control, 2018(3): 195-200.(in Chinese)
[10] 劉暢, 謝文俊, 張鵬, 等. 復(fù)雜威脅環(huán)境下無人機實時航線規(guī)劃邏輯架構(gòu)[J]. 北京航空航天大學(xué)學(xué)報, 2020(10): 1948-1957.
Liu Chang, Xie Wenjun, Zhang Peng, et al. UAV Real-Time Route Planning Logical Architecture in Complex Threat Environment[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020(10): 1948-1957.(in Chinese)
[11] 鄭劍. 面向任務(wù)的無人作戰(zhàn)系統(tǒng)自主性等級評估與分配技術(shù)研究[D]. 長沙: 國防科技大學(xué), 2019: 12-15.
Zheng Jian. Research on Autonomy Levels Evaluation and Assignment Technology of Mission-Oriented Unmanned Combat System[D]. Changsha: National University of Defense Technology, 2019: 12-15.(in Chinese)
[12] Aggarwal S, Kumar N. Path Planning Techniques for Unmanned Aerial Vehicles: A Review, Solutions, and Challenges[J]. Computer Communications, 2020, 149: 270-299.
[13] Shahid N, Abrar M, Ajmal U, et al. Path Planning in Unmanned Aerial Vehicles: An Optimistic Overview[J]. International Journal of Communication Systems, 2022, 35(6): e5090.
[14] 張一豆, 趙剡, 魏彤. 基于改進A*算法的導(dǎo)盲避障路徑規(guī)劃策略研究[J]. 航空兵器, 2017(3): 86-92.
Zhang Yidou, Zhao Yan, Wei Tong. Improved A* Algorithm for Obstacle Avoidance Path Planning Strategy of the Blind[J]. Aero Weaponry, 2017(3): 86-92.(in Chinese)
[15] 高升, 艾劍良, 王之豪. 混合種群RRT無人機航跡規(guī)劃方法[J]. 系統(tǒng)工程與電子技術(shù), 2020(1): 101-107.
Gao Sheng, Ai Jianliang, Wang Zhihao. Mixed Population RRT Algorithm for UAV Path Planning[J]. Systems Engineering and Electronics, 2020(1): 101-107.(in Chinese)
[16] 韓堯, 李少華. 基于改進人工勢場法的無人機航跡規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù), 2021(11): 3305-3311.
Han Yao, Li Shaohua. UAV Path Planning Based on Improved Artificial Potential Field[J]. Systems Engineering and Electro-nics, 2021(11): 3305-3311.(in Chinese)
[17] Zhao Y J, Zheng Z, Liu Y. Survey on Computational-Intelligence-Based UAV Path Planning[J]. Knowledge-Based Systems, 2018, 158: 54-64.
[18] 段玉倩, 賀家李. 遺傳算法及其改進[J]. 電力系統(tǒng)及其自動化學(xué)報, 1998(1): 39-52.
Duan Yuqian, He Jiali. Genetic Algorithm and Its Modification[J]. Proceedings of the CSU-EPSA, 1998(1): 39-52.(in Chinese)
[19] Holland J H. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence[M]. Ann Arbor: University of Michigan Press, 1992.
[20] Gao M S, Liu Y X, Wei P F. Opposite and Chaos Searching Genetic Algorithm Based for UAV Path Planning[C]∥ IEEE 6th International Conference on Computer and Communications, 2020.
[21] 文超, 董文瀚, 解武杰, 等. 基于CEA-GA的多無人機三維協(xié)同曲線航跡規(guī)劃方法[J/OL]. 北京航空航天大學(xué)學(xué)報. [2022-09-13]. https:∥doi.org/10.13700/j.bh.1001-5965.2021.0787.
Wen Chao, Dong Wenhan, Xie Wujie, et al. Multi-UAVs 3D Cooperative Curve Path Planning Method Based on CEA-GA [J/OL]. Journal of Beijing University of Aeronautics and Astronautics.[2022-09-13]. https:∥doi.org/10. 13700/ j.bh.1001-5965.2021.0787.(in Chinese)
[22] 魏彤, 龍琛. 基于改進遺傳算法的移動機器人路徑規(guī)劃[J]. 北京航空航天大學(xué)學(xué)報, 2020(4): 703-711.
Wei Tong, Long Chen. Path Planning for Mobile Robot Based on Improved Genetic Algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020(4): 703-711.(in Chinese)
[23] 王吉岱, 王新棟, 田群宏, 等. 基于改進模糊自適應(yīng)遺傳算法的移動機器人路徑規(guī)劃[J]. 機床與液壓, 2021(23): 18-23.
Wang Jidai, Wang Xindong, Tian Qunhong, et al. Mobile Robot Path Planning Based on Improved Fuzzy Adaptive Genetic Algorithm[J]. Machine Tool & Hydraulics, 2021(23): 18-23.(in Chinese)
[24] Hao K, Zhao J, Yu K, et al. Path Planning of Mobile Robots Based on a Multi-Population Migration Genetic Algorithm[J]. Sensors, 2020, 20(20): E5873.
[25] 牛秦玉, 李博. 基于模擬退火遺傳算法的全向AGV路徑規(guī)劃[J/OL]. 計算機集成制造系統(tǒng). [2022-09-13]. https:∥kns.cnki.net/ kcms/detail/11.5946.TP.20220517.1105. 014. html.
Niu Qinyu, Li Bo. Omnidirectional AGV Path Planning Based on Simulated Annealing Genetic Algorithm[J/OL]. Computer Integrated Manufacturing Systems. [2022-09-13]. https:∥kns.cnki. net/kcms/detail/11.5946.TP.20220517.1105.014. html. (in Chinese)
[26] 樊嬌, 雷濤, 董南江, 等. 基于改進NSGA-Ⅱ算法的多目標無人機路徑規(guī)劃[J]. 火力與指揮控制, 2022(2): 43-48.
Fan Jiao, Lei Tao, Dong Nanjiang, et al. Multi-Objective UAV Path Planning Based on an Improved NSGA-ⅡAlgorithm[J]. Fire Control & Command Control, 2022(2): 43-48.(in Chinese)
[27] 丁青鋒, 尹曉宇. 差分進化算法綜述[J]. 智能系統(tǒng)學(xué)報, 2017(4): 431-442.
Ding Qingfeng, Yin Xiaoyu. Research Survey of Differential Evolution Algorithms[J]. CAAI Transactions on Intelligent Systems, 2017(4): 431-442.(in Chinese)
[28] 張宗豪, 徐斌, 胡錚. 應(yīng)用改進差分進化算法的三維路徑規(guī)劃[J]. 電光與控制, 2022(6): 6-10.
Zhang Zonghao, Xu Bin, Hu Zheng. Application of Modified Differential Evolution Algorithm in 3D Path Planning[J]. Electronics Optics & Control, 2022(6): 6-10.(in Chinese)
[29] 彭志紅, 孫琳, 陳杰. 基于改進差分進化算法的無人機在線低空突防航跡規(guī)劃[J]. 北京科技大學(xué)學(xué)報, 2012(1): 96-101.
Peng Zhihong, Sun Lin, Chen Jie. Online Path Planning for UAV Low-Altitude Penetration Based on an Improved Differential Evolution Algorithm[J]. Journal of University of Science and Technology Beijing, 2012(1): 96-101.(in Chinese)
[30] Chai X Z, Zheng Z S, Xiao J M, et al. Multi-Strategy Fusion Differential Evolution Algorithm for UAV Path Planning in Complex Environment[J]. Aerospace Science and Technology, 2022, 121: 107287.
[31] 魯亮亮, 代冀陽, 應(yīng)進, 等. 基于APSODE-MS算法的無人機航跡規(guī)劃[J]. 控制與決策, 2022(7): 1695-1704.
Lu Liangliang, Dai Jiyang, Ying Jin, et al. UAV Trajectory Planning Based on APSODE-MS Algorithm[J]. Control and Decision, 2022(7): 1695-1704.(in Chinese)
[32] Shao S, Peng Y, He C, et al. Efficient Path Planning for UAV Formation via Comprehensively Improved Particle Swarm Optimization[J]. ISA Transactions, 2020, 97: 415-430.
[33] 方群, 徐青. 基于改進粒子群算法的無人機三維航跡規(guī)劃[J]. 西北工業(yè)大學(xué)學(xué)報, 2017(1): 66-73.
Fang Qun, Xu Qing. 3D Route Planning for UAV Based on Improved PSO Algorithm[J]. Journal of Northwestern Polytechnical University, 2017(1): 66-73.(in Chinese)
[34] Li G S, Chou W S. Path Planning for Mobile Robot Using Self-Adaptive Learning Particle Swarm Optimization[J]. Science China Information Sciences, 2017, 61(5): 1-18.
[35] 巫茜, 羅金彪, 顧曉群, 等. 基于改進PSO的無人機三維航跡規(guī)劃優(yōu)化算法[J]. 兵器裝備工程學(xué)報, 2021(8): 233-238.
Wu Qian, Luo Jinbiao, Gu Xiaoqun, et al. Optimization Algorithm for UAV 3D Track Planning Based on Improved PSO Method[J]. Journal of Ordnance Equipment Engineering, 2021(8): 233-238.(in Chinese)
[36] 馮輝, 劉夢佳, 徐海祥. 基于AHPSO算法的無人艇多目標路徑規(guī)劃[J]. 華中科技大學(xué)學(xué)報:自然科學(xué)版, 2018,46(6): 59-64.
Feng Hui, Liu Mengjia, Xu Haixiang. Multi-Target Path Planning for Unmanned Surface Vessel Based on AHPSO[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2018, 46(6): 59-64.(in Chinese)
[37] Krell E, King S A, Garcia Carrillo L R. Autonomous Surface Vehicle Energy-Efficient and Reward-Based Path Planning Using Particle Swarm Optimization and Visibility Graphs[J]. Applied Ocean Research, 2022, 122: 103125.
[38] Xue H. A Quasi-Reflection Based SC-PSO for Ship Path Planning with Grounding Avoidance[J]. Ocean Engineering, 2022, 247: 110772.
[39] Hoang V T, Phung M D, Dinh T H, et al. Angle-Encoded Swarm Optimization for UAV Formation Path Planning[C]∥ IEEE/RSJ International Conference on Intelligent Robots and Systems, 2018.
[40] 金建海, 孫俊, 張安通, 等.? 基于量子粒子群優(yōu)化算法的無人艇航線規(guī)劃[J]. 船舶力學(xué), 2020, 24(3): 352-361.
Jin Jianhai, Sun Jun, Zhang Antong, et al. USV Path Planning Based on Quantum-Behaved Particle Swarm Optimization[J]. Journal of Ship Mechanics, 2020, 24(3): 352-361.(in Chinese)
[41] Phung M D, Ha Q P. Safety-Enhanced UAV Path Planning with Spherical Vector-Based Particle Swarm Optimization[J]. Applied Soft Computing, 2021, 107(2): 107376.
[42] 劉雙雙, 黃宜慶. 多策略蟻群算法在機器人路徑規(guī)劃中的應(yīng)用[J]. 計算機工程與應(yīng)用, 2022, 58(6): 278-286.
Liu Shuangshuang, Huang Yiqing. Application of Multi-Strategy Ant Colony Algorithm in Robot Path Planning[J]. Computer Engineering and Applications, 2022, 58(6): 278-286.(in Chinese)
[43] 胡致遠, 王征, 楊洋, 等. 基于人工魚群-蟻群算法的UUV三維全局路徑規(guī)劃[J]. 兵工學(xué)報, 2022, 43(7): 1676-1684.
Hu Zhiyuan, Wang Zheng, Yang Yang, et al. Three-Dimensional Global Path Planning for UUV Based on Artificial Fish Swarm and Ant Colony Algorithm[J]. Acta Armamentarii, 2022, 43(7): 1676-1684.(in Chinese)
[44] Miao C W, Chen G Z, Yan C L, et al. Path Planning Optimization of Indoor Mobile Robot Based on Adaptive Ant Colony Algorithm[J]. Computers & Industrial Engineering, 2021, 156: 107230.
[45] 肖金壯, 余雪樂, 周剛, 等. 一種面向室內(nèi)AGV路徑規(guī)劃的改進蟻群算法[J]. 儀器儀表學(xué)報, 2022, 43(3): 277-285.
Xiao Jinzhuang, Yu Xuele, Zhou Gang, et al. An Improved Ant Colony Algorithm for Indoor AGV Path Planning[J]. Chinese Journal of Scientific Instrument, 2022, 43(3): 277-285.(in Chinese)
[46] 魏江, 王建軍, 王健, 等. 基于改進蟻群算法的三維航跡規(guī)劃[J]. 計算機工程與應(yīng)用, 2020, 56(17): 217-223.
Wei Jiang, Wang Jianjun, Wang Jian, et al. 3D Path Planning Based on Improved Ant Colony Algorithm[J]. Computer Engineering and Applications, 2020, 56(17): 217-223.(in Chinese)
[47] Liu J, Anavatti S, Garratt M, et al. Modified Continuous Ant Co-lony Optimisation for Multiple Unmanned Ground Vehicle Path Planning[J]. Expert Systems with Applications, 2022, 196: 116605.
[48] 趙娟平, 高憲文, 符秀輝. 改進蟻群優(yōu)化算法求解移動機器人路徑規(guī)劃問題[J]. 南京理工大學(xué)學(xué)報, 2011(5): 637-641.
Zhao Juanping, Gao Xianwen, Fu Xiuhui. Improved Ant Colony Optimization Algorithm for Solving Path Planning Problem of Mobile Robot[J]. Journal of Nanjing University of Science and Technology, 2011(5): 637-641.(in Chinese)
[49] 陳銀燕, 高安邦. 機器人導(dǎo)航路徑的多種群博弈蟻群規(guī)劃策略[J]. 機械設(shè)計與制造, 2021(1): 272-276.
Chen Yinyan, Gao Anbang. Robot Navigation Path Planning Strate-gy Based on Multi-Population Game Ant Colony Algorithm[J]. Machinery Design & Manufacture, 2021(1): 272-276.(in Chinese)
[50] Han Z L, Chen M, Shao S Y, et al. Improved Artificial Bee Colony Algorithm-Based Path Planning of Unmanned Autonomous Helicopter Using Multi-Strategy Evolutionary Learning[J]. Aerospace Science and Technology, 2022, 122: 107374.
[51] Chen X, Tianfield H, Li K J. Self-Adaptive Differential Artificial Bee Colony Algorithm for Global Optimization Problems[J]. Swarm and Evolutionary Computation, 2019, 45: 70-91.
[52] Cui Y B, Hu W, Rahmani A. A Reinforcement Learning Based Artificial Bee Colony Algorithm with Application in Robot Path Planning[J]. Expert Systems with Applications, 2022, 203: 117389.
[53] Xiao S Y, Wang H, Wang W J, et al. Artificial Bee Colony Algorithm Based on Adaptive Neighborhood Search and Gaussian Perturbation[J]. Applied Soft Computing, 2021, 100: 106955.
[54] Ye T Y, Wang W J, Wang H, et al. Artificial Bee Colony Algorithm with Efficient Search Strategy Based on Random Neighborhood Structure[J]. Knowledge-Based Systems, 2022, 241: 108306.
[55] Chen M R, Chen J H, Zeng G Q, et al. An Improved Artificial Bee Colony Algorithm Combined with Extremal Optimization and Boltzmann Selection Probability[J]. Swarm and Evolutionary Computation, 2019, 49: 158-177.
[56] 孔德鵬, 常天慶, 戴文君, 等. 基于排序選擇和精英引導(dǎo)的改進人工蜂群算法[J]. 控制與決策, 2019, 34(4): 781-786.
Kong Depeng, Chang Tianqing, Dai Wenjun, et al. An Improved Artificial Bee Colony Algorithm Based on the Ranking Selection and the Elite Guidance[J]. Control and Decision, 2019, 34(4): 781-786.(in Chinese)
[57] Zeng T, Wang W J, Wang H, et al. Artificial Bee Colony Based on Adaptive Search Strategy and Random Grouping Mechanism[J]. Expert Systems with Applications, 2022, 192: 116332.
[58] 魏鋒濤, 岳明娟, 鄭建明. 基于改進鄰域搜索策略的人工蜂群算法[J]. 控制與決策, 2019, 34(5): 965-972.
Wei Fengtao, Yue Mingjuan, Zheng Jianming. Artificial Bee Colo-ny Algorithm Based on Improved Neighborhood Search Strategy[J]. Control and Decision, 2019, 34(5): 965-972. (in Chinese)
[59] Cui L Z, Li G H, Zhu Z X, et al. A Novel Artificial Bee Colony Algorithm with an Adaptive Population Size for Numerical Function Optimization[J]. Information Sciences, 2017, 414: 53-67.
[60] Nseef S K, Abdullah S, Turky A, et al. An Adaptive Multi-Population Artificial Bee Colony Algorithm for Dynamic Optimisation Problems[J]. Knowledge-Based Systems, 2016, 104: 14-23.
[61] Xie C, Zheng H Q. Application of Improved Cuckoo Search Algorithm to Path Planning Unmanned Aerial Vehicle[C] ∥12th International Conference on Intelligent Computing (ICIC), 2016.
[62] Wang G G, Chu H E, Mirjalili S. Three-Dimensional Path Planning for UCAV Using an Improved Bat Algorithm[J]. Aerospace Science and Technology, 2016, 49: 231-238.
[63] Yan Z P, Zhang J Z, Zeng J, et al. Three-Dimensional Path Planning for Autonomous Underwater Vehicles Based on a Whale Optimization Algorithm[J]. Ocean Engineering, 2022, 250: 111070.
[64] 王秋萍, 王彥軍, 戴芳. 多策略集成的樽海鞘群算法的機器人路徑規(guī)劃[J]. 電子學(xué)報, 2020, 48(11): 2101-2113.
Wang Qiuping, Wang Yanjun, Dai Fang. Multi-Strategy Ensemble Salp Swarm Algorithm for Robot Path Planning[J]. Acta Electronica Sinica, 2020, 48(11): 2101-2113.(in Chinese)
[65] 陳都, 孟秀云. 基于自適應(yīng)郊狼算法的無人機離線航跡規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù),? 2022, 44(2): 603-611.
Chen Dou, Meng Xiuyun. UAV Offline Path Planning Based on Self-Adaptive Coyote Optimization Algorithm[J]. Systems Engineering and Electronics, 2022, 44(2): 603-611.(in Chinese)
[66] 王東. 機器學(xué)習(xí)導(dǎo)論[M]. 北京: 清華大學(xué)出版社,? 2021.
Wang Dong. Introduction to Machine Learning[M]. Beijing: Tsin-ghua University Press,? 2021.(in Chinese)
[67] 李波, 楊志鵬, 賈卓然, 等. 一種無監(jiān)督學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)的無人機全區(qū)域偵察路徑規(guī)劃[J]. 西北工業(yè)大學(xué)學(xué)報, 2021, 39(1): 77-84.
Li Bo, Yang Zhipeng, Jia Zhuoran, et al. An Unsupervised Learning Neural Network for Planning UAV Full-Area Reconnaissance Path[J]. Journal of Northwestern Polytechnical University, 2021, 39(1): 77-84.(in Chinese)
[68] 陳俠, 艾宇迪. 應(yīng)用改進神經(jīng)網(wǎng)絡(luò)的無人機三維航跡規(guī)劃[J]. 電光與控制, 2018, 25(9): 7-11.
Chen Xia, Ai Yudi. Application of Improved Neural Network in 3D Path Planning of UAVs[J]. Electronics Optics & Control, 2018, 25(9): 7-11.(in Chinese)
[69] 陳秋蓮, 鄭以君, 蔣環(huán)宇, 等. 基于神經(jīng)網(wǎng)絡(luò)改進粒子群算法的動態(tài)路徑規(guī)劃[J]. 華中科技大學(xué)學(xué)報:自然科學(xué)版, 2021, 49(2): 51-55.
Chen Qiulian, Zheng Yijun, Jiang Huanyu, et al. Improved Particle Swarm Optimization Algorithm Based on Neural Network for Dynamic Path Planning[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2021,49(2): 51-55.(in Chinese)
[70] Duan H B, Huang L Z. Imperialist Competitive Algorithm Optimized Artificial Neural Networks for UCAV Global Path Planning[J]. Neurocomputing, 2014, 125: 166-171.
[71] Pothal J K, Parhi D R. Navigation of Multiple Mobile Robots in a Highly Clutter Terrains Using Adaptive Neuro-Fuzzy Inference System[J]. Robotics and Autonomous Systems, 2015, 72: 48-58.
[72] Muni M K, Parhi D R, Kumar P B, et al. Towards Motion Planning of Humanoids Using a Fuzzy Embedded Neural Network Approach[J]. Applied Soft Computing, 2022, 119: 108588.
[73] Liu Y, Zheng Z, Qin F Y, et al. A Residual Convolutional Neural Network Based Approach for Real-Time Path Planning[J]. Knowledge-Based Systems, 2022, 242: 108400.
[74] Wu K Y, Abolfazli Esfahani M, Yuan S H, et al. TDPP-Net: Achieving Three-Dimensional Path Planning via a Deep Neural Network Architecture[J]. Neurocomputing, 2019, 357: 151-162.
[75] 周彬, 郭艷, 李寧, 等. 基于導(dǎo)向強化Q學(xué)習(xí)的無人機路徑規(guī)劃[J]. 航空學(xué)報, 2021,42(9): 498-505.
Zhou Bin, Guo Yan, Li Ning, et al. Path Planning of UAV Using Guided Enhancement Q-Learning Algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2021,42(9): 498-505.(in Chinese)
[76] Cui Z Y, Wang Y. UAV Path Planning Based on Multi-Layer Rein-forcement Learning Technique[J]. IEEE Access, 2021, 9: 59486-59497.
[77] 閆其粹. 解決強化學(xué)習(xí)中維數(shù)災(zāi)問題的方法研究[D]. 蘇州: 蘇州大學(xué), 2010: 1-4.
Yan Qicui. Researches on the Curse of Dimensionality in Reinforcement Learning[D]. Suzhou: Soochow University, 2010: 1-4.(in Chinese)
[78] Mnih V, Kavukcuoglu K, Silver D, et al. Human-Level Control through Deep Reinforcement Learning[J]. Nature, 2015, 518(7540): 529-533.
[79] Wu X, Chen H L, Chen C G, et al. The Autonomous Navigation and Obstacle Avoidance for USVs with ANOA Deep Reinforcement Learning Method[J]. Knowledge-Based Systems, 2020, 196: 105201.
[80] 楊清清, 高盈盈, 郭玙, 等. 基于深度強化學(xué)習(xí)的海戰(zhàn)場目標搜尋路徑規(guī)劃[J/OL]. 系統(tǒng)工程與電子技術(shù). [2022-10-17]. https:∥kns.cnki.net/kns8/defaultresult/index.
Yang Qingqing, Gao Yingying, Guo Yu, et al. Target Search Path Planning for Naval Battle Field Based on Deep Reinforcement Learning[J/OL]. Systems Engineering and Electronics. [2022-10-17]. https:∥kns.cnki.net/kns8/defaultresult/index. (in Chinese)
[81] Luo W, Tang Q R, Fu C H, et al. Deep-Sarsa Based Multi-UAV Path Planning and Obstacle Avoidance in a Dynamic Environment[C]∥ International Conference on Swarm Intelligence, 2018.
[82] 閆皎潔, 張鍥石, 胡希平. 基于強化學(xué)習(xí)的路徑規(guī)劃技術(shù)綜述[J]. 計算機工程, 2021, 47(10): 16-25.
Yan Jiaojie, Zhang Qieshi, Hu Xiping. Review of Path Planning Techniques Based on Reinforcement Learning[J]. Computer Engineering, 2021, 47(10): 16-25.(in Chinese)
[83] Grondman I, Busoniu L, Lopes G A D, et al. A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gra-dients[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012, 42(6): 1291-1307.
[84] Schulman J, Levine S, Moritz P, et al. Trust Region Policy Optimization[C]∥32nd International Conference on Machine Learning, 2015: 1889-1897.
[85] Schulman J, Wolski F, Dhariwal P, et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2022-10-17]. https: ∥arxiv.org/pdf/1707.06347.pdf.
[86] 別桐, 朱曉慶, 付煜, 等. 基于Safe-PPO算法的安全優(yōu)先路徑規(guī)劃方法[J/OL]. 北京航空航天大學(xué)學(xué)報.[2022-10-17]. https:∥ doi.org/10.13700/j.bh.1001- 5965.2021.0580.
Bie Tong, Zhu Xiaoqing, Fu Yu, et al. Safety Priority Path Planning Method Based on Safe-PPO Algorithm[J/OL]. Journal of Beijing University of Aeronautics and Astronautics.[2022-10-17].https:∥doi.org/10.13700/j.bh.1001-5965.2021.0580.(in Chinese)
[87] He Z C, Dong L, Sun C Y, et al. Asynchronous Multithreading Reinforcement-Learning-Based Path Planning and Tracking for Unmanned Underwater Vehicle[J]. IEEE Transactions on Systems Man Cybernetics-Systems, 2022, 52(5): 2757-2769.
[88] Haarnoja T, Zhou A, Abbeel P, et al. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor[C]∥35th International Conference on Machine Learning, 2018: 1861-1870.
[89] 韓金亮, 任海菁, 吳淞瑋, 等. 基于多層注意力機制—柔性AC算法的機器人路徑規(guī)劃[J]. 計算機應(yīng)用研究, 2020,37(12): 3650-3655.
Han Jinliang, Ren Haijing, Wu Songwei, et al. Robot Path Planning Based on Soft AC Algorithm for Multilayer Attention Mechanism[J]. Application Research of Computers, 2020, 37(12): 3650-3655.(in Chinese)
[90] Chen P Z, Pei J A, Lu W Q, et al. A Deep Reinforcement Learning Based Method for Real-Time Path Planning and Dynamic Obstacle Avoidance[J]. Neurocomputing, 2022, 497: 64-75.
[91] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous Control with Deep Reinforcement Learning[EB/OL]. (2019-07-05)[2022-10-17]. https:∥arxiv.org/pdf/1509.02971.pdf.
[92] Hu Z J, Gao X G, Wan K F, et al. Relevant Experience Learning: A Deep Reinforcement Learning Method for UAV Autonomous Motion Planning in Complex Unknown Environments[J]. Chinese Journal of Aeronautics, 2021, 34(12): 187-204.
[93] Fujimoto S, van Hoof H, Meger D. Addressing Function Approximation Error in Actor-Critic Methods[EB/OL]. (2018-10-22)[2022-10-17].https:∥arxiv.org/pdf/1802.09477.pdf.
[94] Zhang S T, Li Y B, Dong Q H. Autonomous Navigation of UAV in Multi-Obstacle Environments Based on a Deep Reinforcement Learning Approach[J]. Applied Soft Computing, 2022, 115: 108194.
[95] Gebken B, Peitz S, Dellnitz M. A Descent Method for Equality and Inequality Constrained Multiobjective Optimization Problems[EB/OL]. (2017-12-11)[2022-10-17]. https:∥arxiv.org/pdf/1712.03005.pdf
[96] Hashim F A, Hussien A G. Snake Optimizer: A Novel Meta-Heuristic Optimization Algorithm[J]. Knowledge-Based Systems, 2022, 242: 108320.
[97] Ntakolia C, Iakovidis D K. A Swarm Intelligence Graph-Based Pathfinding Algorithm(SIGPA) for Multi-Objective Route Planning[J]. Computers & Operations Research, 2021, 133: 105358.
Review of Intelligent Algorithms for Autonomous Path Planning of UAVs
Guo Qimin1,2, Zhang Peng1, Wang Yingyang1, Wang Shi3
(1. Equipment Management and UAV Engineering College, Air Force Engineering University, Xian 710051, China;
2. Graduate College, Air Force Engineering University, Xian 710051, China; 3. Unit 93057 of PLA , Siping 136400, China)
Abstract: Autonomous capability is the fundamental ability and direct driving force of UAVs cross-generation upgrade. With the disruptive revolution of artificial intelligence technology, the autonomous path planning technology of UAV based on intelligent algorithm has become a key link to improve the autonomous capability of UAV, which has important research value. This paper firstly summarizes relevant studies of path planning technology at home and abroad, puts forward an understanding of the autonomy of unmanned systems, and analyzes the advantages of intelligent algorithms applied to the autonomous path planning of UAVs. Secondly, starting with algorithm improvement methods, the intelligent algorithms of autonomous path planning of UAVs, such as evolutionary algorithm, swarm intelligence algorithm, neural network, reinforcement learning algorithm and deep reinforcement learning, are classified and summarized. Finally, the future research directions for autonomous path planning technology are prospected based on the current challenges of UAV autonomous path planning.
Key words: UAV; path planning; autonomy; intelligent evolutionary algorithm; machine learning algorithm; algorithm improvement
收稿日期: 2022-10-18
基金項目:? 國家自然科學(xué)基金項目(62103439); 陜西省自然科學(xué)基礎(chǔ)研究計劃項目(2021JQ-364)
作者簡介: 郭啟敏(1994-), 男, 山東青島人, 碩士研究生。
*通信作者: 張鵬(1979-), 男, 山西五臺人, 博士, 副教授。