穆朝絮,張 勇,余 瑤,孫長銀
近年來,航空航天飛行器由于其重要的戰(zhàn)略意義與經濟價值,逐漸受到社會各界的廣泛關注. 隨著材料科學、控制理論、特種發(fā)動機技術、通訊傳感等技術的提高,航空航天飛行器的相關研究也逐步從理論探索向實際應用邁步. 各種航空飛行器,如大型的氣球、飛艇、飛機、巡航導彈,小型的旋翼飛行器、撲翼飛行器,以及航天飛行器中的高超聲速飛行器、彈道導彈、衛(wèi)星、航天飛船、火箭等. 它們依靠空氣浮力或空氣相對運動產生動力實現(xiàn)升空飛行. 隨著航空航天技術的飛速發(fā)展,航空航天飛行器在偵查敵情、遠程打擊、情報收集、抗險救災等方面都擁有其獨特的優(yōu)勢,在民用、軍事、科學研究等方面擁有廣闊的應用發(fā)展前景.
航空飛行器工作環(huán)境分布于大氣層的各個分層中,小型旋翼飛行器工作環(huán)境一般位于對流層,民用或軍用飛機一般位于平流層. 對于近空間高超聲速飛行器則主要飛行于平流層、中間層與部分電離層[1]. 當飛行器的飛行高度超出大氣層后,可將其列為航天飛行器行列,因此,也可將高超聲速飛行器稱作空天飛行器. 航空航天飛行器飛行環(huán)境的不同導致了它們面臨不同的環(huán)境干擾,位于較低層的飛行器往往受風速、溫度、濕度、氣壓等天氣因素影響較多. 而對于飛行環(huán)境跨度較大的近空間飛行器如高超聲速巡航導彈和高超聲速飛機,則主要受其高動態(tài)、強耦合、快時變、模型不確定等問題影響而難于控制,且由于近空間環(huán)境中大氣密度較小,環(huán)境溫度變化復雜,導致傳統(tǒng)的航空航天飛行器控制技術不能有效適用,需要在特定空域下進行飛行器技術的研究和探索[2-4].
航空航天飛行器系統(tǒng)往往具有動力學特性復雜,飛行環(huán)境多不確定性,控制精度要求較高的特點. 在保證航空航天飛行器控制系統(tǒng)具有較強的魯棒性能的同時,又對靈活性和自適應性有較高的需求,于是,傳統(tǒng)控制方法已經難以滿足諸多復雜的控制要求,迫切需要研究先進的魯棒控制方法以解決當前問題.近年來,隨著智能控制與現(xiàn)代控制理論的飛速發(fā)展,滑模變結構控制、自適應控制、魯棒控制、最優(yōu)控制等控制方法開始用于航空航天飛行器控制系統(tǒng)設計[5-7]. 近年來,大數(shù)據、機器學習等技術的興起也掀起了一股人工智能的浪潮. 強化學習作為一種新興的基于數(shù)據學習的人工智能算法,逐漸受到了科研人員的重視.
強化學習思想最初是為了求解動態(tài)規(guī)劃(dynamic programming, DP)問題[8-9],其基本原理是通過設計增強學習機制,不斷獎勵并強化符合設定指標的策略行為,從而獲得近似最優(yōu)的性能指標和控制策略[10-13].對于線性系統(tǒng),動態(tài)規(guī)劃方法可以通過求解代數(shù)黎卡提方程得到最優(yōu)控制問題的狀態(tài)反饋控制器. 如果是非線性系統(tǒng)或代價/目標函數(shù)為非標準的狀態(tài)和控制變量組成的二次型形式,則需要求解非線性偏微分哈密爾頓-雅克比-貝爾曼(Hamilton-Jacobi-Bellman,HJB)方程得到最優(yōu)控制策略,然而這往往難以直接實現(xiàn). 隨著系統(tǒng)維數(shù)增大,動態(tài)規(guī)劃方法可能面臨“維數(shù)災難”的問題而無法應用于實際.在此背景下,自適應動態(tài)規(guī)劃 (Adaptive Dynamic Programming, ADP)應運而生[14-16].
在強化學習中,普遍采用神經網絡近似性能指標函數(shù)及策略,呈現(xiàn)出多個神經網絡有機融合的結構,表現(xiàn)出強大的學習能力,因而得到了迅速發(fā)展和推廣,衍生出一系列實現(xiàn)結構,如近似動態(tài)規(guī)劃(Approximate Dynamic Programming),自適應評價設計(Adaptive Critic Design)或神經動態(tài)規(guī)劃(Neuro-Dynamic Programming)等,引起了學術界的廣泛關注[17-26]. ADP是一種基于強化學習理論的先進智能控制方法,基于神經網絡的函數(shù)泛化能力,通過近似求解非線性HJB方程,避免了維數(shù)災難問題. ADP方法擁有應用范圍廣,自適應性自調節(jié)能力強,魯棒性能優(yōu)秀等特點. 由于ADP具有的自適應能力,一些基于ADP方法的魯棒控制策略也被先后提出,并用于非線性系統(tǒng)魯棒控制問題研究[27-35]. ADP方法從初始階段的基本結構和算法設計,到中期的方法擴展和理論完善,目前已經發(fā)展到相關成果在非線性動態(tài)不確定系統(tǒng)中的擴展應用階段. 當涉及具體應用場景時,則需要解決現(xiàn)實系統(tǒng)中的動態(tài)不確定問題,即魯棒控制問題.其中,航空航天飛行器系統(tǒng)作為典型的高維非線性系統(tǒng),面臨的復雜擾動與不確定問題也成為了該領域研究中的難點和熱點. 對于航空航天飛行系統(tǒng)中存在的不確定性、擾動的問題:一些研究在設計性能指標函數(shù)時會將不確定擾動對系統(tǒng)動態(tài)響應的影響考慮其中,進而通過穩(wěn)定性分析保證控制策略對于閉環(huán)不確定系統(tǒng)的魯棒穩(wěn)定性.對于模型部分或完全未知的場景:基于數(shù)據學習的思想為模型不確定問題提供了一條新的求解思路. 可以通過引入神經網絡、蒙特卡洛抽樣等技術來近似系統(tǒng)動態(tài)響應,實現(xiàn)對于控制、狀態(tài)等信息流的映射與學習,進而放松對于精確系統(tǒng)模型的要求,而神經網絡在其間往往被應用于海量系統(tǒng)數(shù)據的處理. 相比其他傳統(tǒng)魯棒控制方法,ADP方法在保留了動態(tài)規(guī)劃方法最優(yōu)屬性的同時,通過結合強化學習理論以及數(shù)據驅動思想,實現(xiàn)了對于動態(tài)不確定、模型未知等問題的處理.
ADP方法通過動態(tài)調整控制器參數(shù)以適應被控對象的動態(tài)特性的變化及所在環(huán)境的不確定性.從該角度出發(fā),ADP控制與魯棒控制具有相似的被控對象.不同的是,魯棒控制設計過程中,往往需要通過穩(wěn)定性分析,進一步考慮在某些特定界限下達到控制目標所留有的自由度,即滿足一定的魯棒性能指標.可以說,ADP方法在魯棒控制問題中的應用,是ADP方法對于實際系統(tǒng)動態(tài)不確定與擾動問題的進一步考慮,即加深了ADP方法的理論研究深度,為ADP理論成果可以有效應用于現(xiàn)實不確定系統(tǒng)奠定了基礎,又豐富了魯棒控制理論研究成果,為魯棒控制問題的求解的擴寬了解決思路.本文將以此為前提,針對基于自適應動態(tài)規(guī)劃的航空航天飛行器魯棒控制問題研究與未來發(fā)展前景進行介紹與分析.
ADP方法利用強化學習機制獲得近似最優(yōu)的代價函數(shù)和控制策略,實現(xiàn)最優(yōu)控制問題的前向求解. ADP方法通過函數(shù)近似結構來估計動態(tài)規(guī)劃中的代價函數(shù)和控制策略,主要包括三個核心框架部分:動態(tài)系統(tǒng)、行為網絡和評價網絡. 動態(tài)系統(tǒng)即被控系統(tǒng),包含系統(tǒng)運行的動態(tài)特征;評價網絡近似最優(yōu)代價函數(shù),行為網絡近似最優(yōu)控制策略.除此之外,一些典型結構中也包含模型網絡,用于應對動態(tài)系統(tǒng)未知或部分未知時估計系統(tǒng)狀態(tài)輸出信號. 評價網絡和行為網絡的相互作用相當于一個智能體在外界獎勵/懲罰作用下的強化學習過程. 動態(tài)系統(tǒng)收到當前控制信號后,通過自身對控制信號的響應產生獎勵/懲罰信號,來影響代價函數(shù)輸出,最終影響行為網絡控制策略的產生.
WERBOS等[36]基于強化學習框架,給出了自適應動態(tài)規(guī)劃方法的幾種典型結構. WERBOS在文獻中給出了啟發(fā)式動態(tài)規(guī)劃(heuristic dynamic programming,HDP)和二次啟發(fā)式動態(tài)規(guī)劃(dual heuristic dynamic programming,DHP)的基本結構框架用以實現(xiàn)ADP控制思想. HDP結構應用較為廣泛,典型結構中包括行為網絡、評價網絡以及模型網絡. 行為網絡基于系統(tǒng)動態(tài)和代價函數(shù)來輸出控制策略,評價網絡用于估計代價函數(shù),模型網絡則用于系統(tǒng)動態(tài)估計. 不同于HDP,DHP中評價網絡用于估計代價函數(shù)的梯度,而不再是估計代價函數(shù). 文獻[37]中,基于HDP和DHP結構,兩種改進結構控制依賴啟發(fā)式動態(tài)規(guī)劃(action dependent HDP,ADHDP)和控制依賴二次啟發(fā)式規(guī)劃(action dependent DHP,ADDHP)相繼被提出. 在原有結構基礎上,這兩種控制依賴型框架中評價網絡的輸入包含系統(tǒng)動態(tài)以及系統(tǒng)的控制輸入信息. Prokhorov等提出全局二次啟發(fā)式規(guī)劃(globalized DHP,GDHP)和控制依賴全局二次啟發(fā)式規(guī)劃(action dependent globalized DHP,ADGDHP)結構[38-39]. GDHP中評價網絡用于估計系統(tǒng)的代價函數(shù)及其梯度. ADGDHP則在GDHP的基礎上,使評價網絡的輸入包含系統(tǒng)動態(tài)和系統(tǒng)控制輸入信息. 在上述結構基礎上,HE[25]等考慮了獎勵/懲罰信號的自適應調節(jié),提出了目標導向型自適應動態(tài)規(guī)劃 (goal representation adaptive dynamic programming,GrADP)實現(xiàn)結構.
綜合以上ADP結構的擴展方式和設計思路,其主要體現(xiàn)于:1) 評價網絡的輸入信息;2) 評價網絡的輸出信息;3) 評價、行為、模型等網絡結構的應用數(shù)量以及網絡拓撲分布.
評價網絡輸入、輸出信息的豐富程度體現(xiàn)了對于系統(tǒng)動態(tài)信息的獲取需求,為評價網絡近似系統(tǒng)代價函數(shù)提供了數(shù)據支持. 但是,過大的信息流也會導致計算效率的降低以及計算資源的浪費. 同時,一些無效數(shù)據的輸入也會阻礙評價網絡學習過程的推進. 因此,合理設計神經網絡結構,也是ADP算法有效實現(xiàn)的保證. 行為網絡輸入信息一般包括系統(tǒng)動態(tài)信息,通過系統(tǒng)動態(tài)信息的提取以及評價網絡的調節(jié),最終為被控系統(tǒng)提供近似最優(yōu)控制策略. 因此,如何處理并提取有效輸入狀態(tài)信息是設計中的一個關鍵. 具體到算法實現(xiàn),神經網絡的權值更新規(guī)則一定程度上決定了算法的收斂性能. 如何在保證提出方法穩(wěn)定性的基礎上,提升算法收斂的快速性、準確性以及訓練結果的最優(yōu)性,是ADP方法設計過程中的重點和難點. 除以上關鍵問題外,評價、行為、模型網絡的拓撲結構復雜程度,神經網絡的深度、寬度,各網絡的應用數(shù)量等問題,均會影響ADP方法實現(xiàn)上的難易程度以及實際應用的控制效果.
此外,魯棒控制問題中代價函數(shù)的設計也是一個重要環(huán)節(jié),如何充分考慮不確定系統(tǒng)中的各種干擾和不確定性并合理設計系統(tǒng)代價函數(shù)是ADP方法取得較好控制效果的基礎,這有益于提高ADP方法的魯棒控制精度、計算效率以及穩(wěn)定性. 不同的ADP結構均有各自的特點,他們在計算速度和計算精度上有所不同,用以應對不同響應特性的系統(tǒng)以及不同的控制需求. 近年來,隨著ADP方法的逐漸成熟,基于以上各種框架的研究也被不斷擴展.
ADP方法在實現(xiàn)過程中一般應用函數(shù)近似技術,通過神經網絡來近似代價函數(shù)、最優(yōu)控制策略、系統(tǒng)動態(tài)響應等,從而近似求解系統(tǒng)最優(yōu)控制問題. 通過神經網絡(評價網絡)近似估計代價函數(shù)或代價函數(shù)梯度,避免了直接求解非線性偏微分HJB方程來得到系統(tǒng)代價函數(shù). 進而最優(yōu)控制策略也可以基于神經網絡(行為網絡)近似得到. 特別的,針對動態(tài)模型信息已知的系統(tǒng),可以應用單網絡自適應評價方法[40],模型網絡與行為網絡進行刪減,結合最優(yōu)控制策略的具體解析表達與評價網絡輸出,得到近似最優(yōu)控制策略.
ADP算法實現(xiàn)主要是通過設計迭代算法來實現(xiàn). 從目前ADP的發(fā)展來看,迭代ADP算法主要分為策略迭代算法與值迭代算法[7,16]. 策略迭代與值迭代都屬于“強化學習”里策略求解中的動態(tài)規(guī)劃方法,兩者最明顯的區(qū)別體現(xiàn)在算法迭代的起始條件以及迭代循環(huán)條件.
策略迭代主要包括策略評估(Policy evaluation)與策略提高(Policy improvement)兩個過程[11]. 強化學習策略迭代算法從一個初始化控制策略集開始,基于值函數(shù)對當前控制動作進行評估,從中選取值函數(shù)收斂且滿足值函數(shù)差分最大/最小的策略,并進入下一階段,利用值函數(shù)信息實現(xiàn)策略提高. 計算采取下一動作后,得到下一狀態(tài)的值函數(shù)為最大/最小,則選取該策略并返回“策略評估”過程,直到得到最優(yōu)值函數(shù)與最優(yōu)控制動作. 具體的,迭代ADP算法中,往往對應一個具體被控對象,因此,往往需要一個“初始穩(wěn)定的控制策略”保證算法的順利進行. 在策略提高過程中,迭代ADP算法往往設計具體權值更新規(guī)則完成神經網絡更新,即對應策略提高過程.
值迭代算法中,通過計算不同控制動作下的期望值函數(shù),根據需求,選取最大/最小的期望值函數(shù)作為當前值函數(shù),并用于更新控制策略. 通過循環(huán)此步驟直到值函數(shù)收斂到最優(yōu)值,進而得到最優(yōu)控制動作[11]. 在迭代ADP算法中,兩種迭代算法除了初始穩(wěn)定控制策略要求的不同,策略迭代是計算確定策略下的值函數(shù),據此修改控制策略,在迭代過程中不斷優(yōu)化. 值迭代算法則是根據期望值函數(shù)來更新迭代,且最后輸出確定的最優(yōu)控制策略,保證了最優(yōu)性. 同時,兩種算法也各有其不足,策略迭代每次循環(huán)迭代次數(shù)更少,但收斂速度較慢,整體需要迭代的次數(shù)較多,使得計算量較大. 值迭代由于其遍歷特性,當系統(tǒng)狀態(tài)空間較大時,有限步驟內往往不能得到滿意的值函數(shù)和控制策略[41].
ADP算法從應用方式上主要分為離線算法與在線算法. 相比于在線迭代算法,離線迭代算法更為保守,當系統(tǒng)模型動態(tài)發(fā)生變化或參數(shù)不確定性影響較大時,可能導致原離線近似最優(yōu)策略控制效果降低,需要對ADP控制器重新進行離線訓練,增加了系統(tǒng)運行維護成本. 在線迭代算法可以解決模型不確定這一問題,通過在線訓練神經網絡,可以使控制策略自適應調節(jié),適應系統(tǒng)模型變化帶來的影響. 但是,在線算法往往需要占用更多系統(tǒng)資源,并且在算法學習之初可能導致系統(tǒng)出現(xiàn)較大振蕩. 同時,當系統(tǒng)存在較多干擾時,可能導致網絡權值不斷調整,無效信息的引入也將影響算法收斂結果的最優(yōu)性,而離線算法中則不存在這樣的問題. 不可否認的是,在線ADP算法擁有廣闊的發(fā)展前景. 從科學研究到現(xiàn)代工業(yè)生產,各種微米級、納米級技術的發(fā)展需求也越來越高,人們不斷追求精度更高魯棒性更強的控制策略. 因此,設計一種即擁有在線算法的自適應性,也保持離線算法的抗干擾能力的ADP算法具有非常重要的理論與現(xiàn)實意義.
航空航天飛行器往往工作于復雜多變的飛行環(huán)境,這為系統(tǒng)穩(wěn)定控制帶來了一定的不確定性.同時,復雜的系統(tǒng)動力學特性,如非線性、強耦合、撓性不確定等問題對控制策略的設計提出了更高的要求. 結合神經網絡強大的泛化能力與強化學習的自學習能力,近年來出現(xiàn)了一批基于ADP方法的航空航天飛行器魯棒控制問題的研究. 值得注意的是,不同種類航空航天飛行器除了系統(tǒng)模型動態(tài)特性存在巨大差異外,所處的飛行環(huán)境與控制問題側重點也各不相同. 因此,考慮三種典型場景,對ADP方法在高超聲速飛行器系統(tǒng),導航制導系統(tǒng)以及無人機系統(tǒng)的魯棒控制問題分別展開分析與討論.
“近空間”是指距離地面20千米至100千米的空域,該空域處于飛機等航空器的最高飛行高度和衛(wèi)星飛船等航天器的最低軌道高度之間,也稱為亞軌道或空天過渡區(qū). 高超聲速飛行器正是飛行在近空間飛行速度不小于5馬赫(Mach)的一種飛行器[2,42]. 高超聲速飛行器控制發(fā)展過程中,一些基于傳統(tǒng)非線性控制方法的研究不斷被提出[42-45]. 然而,高超聲速飛行器具有的強非線性、強耦合、模型不確定性和干擾、姿態(tài)約束、參數(shù)時變和撓性特性等特點為控制策略的選取帶來了極大的挑戰(zhàn).
目前,ADP方法在高超聲速飛行器等空天飛行器的應用大多是針對環(huán)境擾動和參數(shù)不確定問題進行深入討論研究.文獻[46]中重點考慮了高超聲速飛行器環(huán)境干擾和參數(shù)不確定問題,設計滑??刂破鱽肀WC系統(tǒng)整體穩(wěn)定性,同時提出一種基于數(shù)據的ADHDP輔助控制器,用于在線自適應補償干擾和不確定引起的系統(tǒng)振蕩.文獻[47]提出一種直接啟發(fā)式動態(tài)規(guī)劃策略,嵌入模糊神經網絡以提高算法自學習能力和魯棒性能,用于處理高超聲速飛行器姿態(tài)角度跟蹤過程中存在的有界參數(shù)不確定問題. 文獻[48]針對推進系統(tǒng)和機身模型間的耦合問題,提出一種基于在線同步策略迭代算法的H∞魯棒控制策略.文獻[49]考慮變結構近空間飛行器系統(tǒng)的參數(shù)不確定性和外界擾動問題,提出一種基于降階觀測器技術與自適應動態(tài)規(guī)劃方法的開關自適應主動抗干擾控制技術. 文獻[50]提出一種基于徑向基神經網絡實現(xiàn)的自適應動態(tài)神經模糊控制方法,仿真表明提出策略對于模型參數(shù)變化有較強的容錯性能. 此外,一些基于神經網絡觀測器/神經網絡近似技術補償高超聲速飛行器不確定動態(tài),進而設計自適應魯棒控制器的研究,也表現(xiàn)出了不錯的控制效果[51-52].
一般來說,導航制導系統(tǒng)的控制問題更多指向導彈這種特殊飛行器. 導彈因為其精確打擊能力與超強的破壞力成為很多軍事大國在武器裝備戰(zhàn)略轉型上的優(yōu)選目標[7]. 基于ADP框架下的導航制導控制策略能夠根據導彈跟蹤目標的動態(tài)變化,針對不同突發(fā)狀況,自適應的進行在線調整并更新末端制導率,從而實現(xiàn)智能追蹤、精確打擊的目的. 結合強化學習與非線性動態(tài)規(guī)劃理論,ADP框架下導航制導系統(tǒng)的相關研究為未來智能導航系統(tǒng)的發(fā)展奠定了理論基礎.
相比于其他應用場景,ADP方法在導航制導領域的研究剛剛起步,主要用于最優(yōu)制導律的設計問題,以下主要對現(xiàn)有的一些研究成果進行分析. 文獻[53]針對多變量擾動下的飛行器垂直起降系統(tǒng)制導控制問題,基于稀疏核理論,設計一種基于核的在線DHP魯棒控制策略設計. 文獻[54]中主要針對行星著陸任務中制導算法進行研究,設計了一種終端多面滑模制導律,并基于強化學習原理,對制導律增益進行在線自適應調整,取得了不錯的仿真效果.文獻[55]基于自適應動態(tài)規(guī)劃框架,自適應調節(jié)關聯(lián)搜索單元參數(shù)、自適應評價單元參數(shù)以及模糊規(guī)則函數(shù)的中心參數(shù)和寬度參數(shù),提出一種基于自適應評價方法的自動駕駛儀用于導彈傾斜轉彎控制問題. 文獻[56]基于自適應評價結構,提出一種最優(yōu)制導律設計方法. 文獻[57]與[58]分別考慮導彈制導中狀態(tài)約束和輸入約束問題,設計了基于自適應評價網絡的制導律,實現(xiàn)了最小時間內從初始飛行馬赫數(shù)到目標馬赫數(shù)的控制. 針對空間目標精確打擊的研究,一些基于強化學習理論的方法被提出,實現(xiàn)了導彈追擊、空間對戰(zhàn)等問題的躲避控制[59-60].
隨著電子、通信技術的逐漸成熟,出現(xiàn)了各種民用與軍用無人機,具體科學研究也取得了不錯的進展,其中,尤以微小型無人機的研究成果最為豐富[61-63]. 目前為止,對于微小型無人機,國際上較為認可的一種說法是將其分為旋翼式、固定翼和撲翼式無人機. 對于前兩種無人機的研究成果較多,擁有更多的實際應用場景,并且這兩種無人機的表現(xiàn)也較為符合人們的期望.
微型撲翼式無人機主要結合空氣動力學和仿生學理論來進行結構設計,其體積相較于旋翼式更小,在軍事偵察中擁有其重要的戰(zhàn)略地位,但目前關于撲翼式無人機的研究還處于理論與試驗階段,與ADP方法結合的研究較少[64-67]. 文獻[65]針對蜂鳥撲翼微型無人機設計了一種基于擾動觀測器的神經網絡輸出反饋和狀態(tài)反饋控制器,通過穩(wěn)定性和仿真分析,表明在合適的控制參數(shù)下,系統(tǒng)狀態(tài)可以收斂到穩(wěn)定點附近鄰域內. 文獻[66]針對撲翼微型無人機準穩(wěn)態(tài)模型設計了基于強化學習的控制算法,并進行了仿真驗證,進一步,文獻[67]基于該算法應用果蠅動態(tài)模型在真實環(huán)境下進行了實驗驗證.
固定翼、旋翼無人機系統(tǒng)往往是耦合非線性系統(tǒng),并且由于飛行速度較慢,容易受到外界環(huán)境因素影響. 對此,ADP等基于強化學習的控制框架憑借其自適應性能得到了廣泛關注[68-73]. 文獻[69]考慮風力擾動與空氣阻尼參數(shù)不確定下四旋翼無人機魯棒控制問題,通過模型等價變換定義系統(tǒng)耦合不確定性,以單網絡自適應評價結構為基礎,設計了一種基于學習的自適應魯棒控制策略,并通過對比實驗驗證了方法的有效性. 針對兩自由度旋翼無人機模型不確定性問題,文獻[70]提出了一種基于數(shù)據采樣ADP方法的輸出反饋控制器,并通過仿真實驗驗證其可行性. 文獻[71]針對四旋翼無人機中模型不確定與干擾問題提出一種改進的在線自適應評價結構,分別對各子系統(tǒng)進行控制器設計,實現(xiàn)了較好的控制效果. 文獻[72]研究小型固定翼無人機在隨機環(huán)境干擾下集群控制問題,設計基于Q學習的集群控制策略并與Quintero動態(tài)規(guī)劃方法進行對比,結果表明提出的方法對于環(huán)境擾動有更好的適應性. 文獻[73]設計一種基于多步策略評估的Q學習方法用于兩自由度直升機模型控制問題,該策略是基于數(shù)據實現(xiàn)并且無需精確系統(tǒng)模型. 文獻[74]以強化學習理論為基礎,設計自適應評價增補控制器用于四旋翼無人機控制問題,并基于Q學習、時序差分以及經驗回歸技術提高訓練速度與穩(wěn)定性.
以上為ADP方法及相關強化學習技術在航空航天飛行器魯棒控制問題的應用介紹. 目前,相關研究已經逐漸步入正軌并且得到了科研、技術人員的重點關注.由于ADP等方法在該領域研究普遍尚未成熟與完善,目前仍然是研究中的熱點與難點,具有廣闊的發(fā)展前景空間.
當前ADP方法理論研究成果已經比較豐富,具體涉及了ADP結構改進與算法擴展研究,算法結構、更新迭代方式、計算效率等研究,對于系統(tǒng)約束、不確定性等問題的研究,針對復雜系統(tǒng)的應用等等.但ADP方法在航空航天飛行器應用的相關理論研究仍然有待深入完善,以下給出幾種未來可能的發(fā)展方向:
1)考慮航空航天飛行器狀態(tài)、控制約束問題. 目前,即使在ADP方法理論研究方面,關于狀態(tài)、控制約束問題的研究仍不完善,在航空航天領域中的研究成果也是更為少見,有待深入研究.
2)考慮系統(tǒng)模型撓性特性問題. 對于高超聲速飛行器、導彈等速度較高的飛行器系統(tǒng),撓性非線性特性對系統(tǒng)動態(tài)響應的影響往往不容忽視,但是專門針對該問題的研究仍然較少.
3)效率提高. 考慮航空航天飛行器高動態(tài)特性,往往需要控制器對系統(tǒng)狀態(tài)的快速響應. 然而,設計基于強化學習的方法往往需要較長的訓練時間來優(yōu)化輸出,這就體現(xiàn)了提高算法迭代效率的重要性.
4)提高算法魯棒性能. 當前航空航天飛行器往往是維數(shù)高,耦合性強的非線性系統(tǒng),受飛行環(huán)境的影響,模型本身也會存在不確定. 當出現(xiàn)較大擾動或不確定問題時,單純的ADP控制效果仍不理想,這一問題仍然有待解決.
5)考慮系統(tǒng)時滯問題. 受制于通信、傳感等技術,系統(tǒng)時滯問題也逐漸受到研究人員的關注,尤其對于航空航天飛行器這類復雜系統(tǒng),時滯特性對于系統(tǒng)穩(wěn)定性、算法有效性等方面的研究仍然較少.
各種航空航天飛行器系統(tǒng)是當前非線性控制領域研究的一個熱點. 航空航天飛行器系統(tǒng)往往具有復雜的系統(tǒng)特性與多變的飛行環(huán)境,這也為其魯棒控制問題的解決帶來極大的挑戰(zhàn).而ADP方法結合了強化學習的自學習特性與動態(tài)規(guī)劃的最優(yōu)特性,憑借其優(yōu)秀的自適應自調節(jié)性能,可應用于非線性系統(tǒng)魯棒控制問題. 本文首先針對ADP方法的基本框架與算法實現(xiàn)方面進行了結構介紹與機理分析. 進一步,對ADP方法在高超聲速飛行器系統(tǒng),導航制導系統(tǒng)以及無人機系統(tǒng)的魯棒控制問題研究展開綜述,同時包含一些強化學習技術,如Q學習方法在該領域的應用研究等.
ADP方法在航空航天飛行器魯棒控制問題的研究仍有待深入,具體算法、技術細節(jié)仍需改進,迫切需要相關科研、技術人員積極參與到具體研究中,促進我國航空航天事業(yè)的發(fā)展.