国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識與數(shù)據(jù)混合驅(qū)動的高速飛行控制方法綜述

2023-09-22 12:56:16柳嘉潤張華明賈晨輝劉曉東
宇航學(xué)報(bào) 2023年8期
關(guān)鍵詞:飛行器框架驅(qū)動

黃 旭,柳嘉潤,張 遠(yuǎn),張華明,賈晨輝,劉曉東

(1. 北京航天自動控制研究所,北京 100854;2. 宇航智能控制技術(shù)全國重點(diǎn)實(shí)驗(yàn)室,北京 100854)

0 引 言

隨著飛行器任務(wù)多樣性不斷提高,擁有寬速域和跨空域等特點(diǎn)的高速飛行器成為了21世紀(jì)航空航天領(lǐng)域的前沿研究熱點(diǎn)之一。相比于傳統(tǒng)飛行器,高速飛行器的寬飛行包線、非常規(guī)先進(jìn)布局/變體布局、復(fù)合材料和靈巧材料結(jié)構(gòu)、多元混合控制效應(yīng)、容錯(cuò)/可重構(gòu)的控制需求等新技術(shù)特征不斷涌現(xiàn)[1],發(fā)動機(jī)與動力學(xué)的耦合、氣動熱彈性力、動力學(xué)耦合等特性更加顯著[2],意味著其控制難度上升,對先進(jìn)控制方法的需求更為迫切。一般地,高速飛行器的控制器設(shè)計(jì)需考慮以下幾個(gè)關(guān)鍵問題[3-9]:

1) 不確定性

該類飛行器的實(shí)際飛行數(shù)據(jù)相比于常規(guī)航空飛行器較少,且空氣動力學(xué)數(shù)據(jù)庫中的數(shù)據(jù)值與實(shí)際值的差異不易評估與修正,從而產(chǎn)生參數(shù)不確定性。建模及設(shè)計(jì)控制器時(shí)對模型進(jìn)行了簡化,可能會忽略一些高階模態(tài),產(chǎn)生未建模動態(tài)。馬赫數(shù)(Ma)大于6時(shí)會產(chǎn)生真實(shí)氣體效應(yīng)影響飛行器表面壓力分布從而改變氣動力與力矩系數(shù),產(chǎn)生氣動不確定性。機(jī)體彈性特性顯著時(shí)產(chǎn)生的形變使飛行器表面受力不均,帶來的機(jī)體不確定性。發(fā)動機(jī)和機(jī)體,以及非常規(guī)布局等,產(chǎn)生耦合不確定性。測量誤差和噪聲等,產(chǎn)生狀態(tài)不確定性。

2) 伺服特性和控制分配

工程應(yīng)用中需充分考慮伺服特性,如舵面飽和、延遲和死區(qū)等,這些特性的影響在高速飛行器這類具有較快動態(tài)響應(yīng)的對象中更加顯著。且單一的控制形式可能在某些飛行段受限,需要進(jìn)行復(fù)合控制。如再入過程中大氣稀薄、動壓較小的階段,氣動舵面控制能力不足,需要設(shè)計(jì)分配方法實(shí)現(xiàn)其與反作用控制系統(tǒng)(Reaction control system, RCS)的復(fù)合控制。這類具有異類操縱機(jī)構(gòu)配置的飛行器必然存在異構(gòu)伺服特性問題。

3) 變外形/組合構(gòu)型的控制

首先該類飛行器飛行速域?qū)捛绎w行空域大,固定布局難以滿足要求,其次不同的構(gòu)型可以靈活分配飛行任務(wù)。飛行器擁有變外形能力時(shí),需要考慮構(gòu)型間的切換控制以及變外形過程的穩(wěn)定控制。在將變形量作為控制輸入進(jìn)行研究時(shí),則進(jìn)一步增加了系統(tǒng)復(fù)雜度,需考慮控制分配等問題。傳統(tǒng)基于線性模型的增益預(yù)置控制等方法難以滿足此類飛行器的高品質(zhì)控制需求。

4) 容錯(cuò)控制與安全控制

該類飛行器的飛行環(huán)境復(fù)雜且惡劣,控制系統(tǒng)需要具備一定的容錯(cuò)控制能力以應(yīng)對執(zhí)行機(jī)構(gòu)和傳感器故障等。提高控制系統(tǒng)的魯棒性和自適應(yīng)性,或者建立故障診斷與控制器重構(gòu)的機(jī)制,都是有效的容錯(cuò)控制思路。此外,飛行過程中存在超燃沖壓發(fā)動機(jī)狀態(tài)邊界在內(nèi)的安全邊界,設(shè)計(jì)控制器時(shí)也需要充分考慮這類約束,在保證安全的前提下盡量提高控制器的性能。

針對上述關(guān)鍵問題,當(dāng)前主要手段是基于建立的飛行器模型進(jìn)行控制器的設(shè)計(jì)工作。飛行器模型、控制理論以及控制器的設(shè)計(jì)經(jīng)驗(yàn)等均屬于本文中定義的“知識”范疇,是對原始數(shù)據(jù)等進(jìn)行人為提煉和總結(jié)后的產(chǎn)物。知識驅(qū)動的控制方法應(yīng)用于高速飛行器時(shí),一方面,模型過于復(fù)雜時(shí),以小偏差線性化和線性控制理論為基礎(chǔ)的傳統(tǒng)工程設(shè)計(jì)方法面臨嚴(yán)峻挑戰(zhàn),可靠控制系統(tǒng)的設(shè)計(jì)難度劇增;另一方面,模型不匹配、測量手段不足和建模成本高等問題導(dǎo)致難以對被控對象進(jìn)行較為精確的建模甚至無法建模,依賴模型的非線性控制方法能力受到限制。相比于知識驅(qū)動的控制方法,數(shù)據(jù)驅(qū)動的方法則直接通過數(shù)據(jù)構(gòu)建相應(yīng)的映射關(guān)系,具有對精確建模依賴弱、算法通用性強(qiáng)和算法庫豐富等特點(diǎn)[10]。其中以深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning, DRL)為代表的數(shù)據(jù)驅(qū)動方法已在行星探測[11]、空間操控[12]、飛行決策[13]和目標(biāo)打擊[14]等領(lǐng)域得到了研究與應(yīng)用。然而當(dāng)前數(shù)據(jù)驅(qū)動方法存在物理意義不夠清晰和對高質(zhì)量數(shù)據(jù)需求大等問題,對于高速飛行器這類歷史數(shù)據(jù)不豐富且需要保證飛行安全性的對象而言,其工程應(yīng)用相對困難。

隨著人工智能技術(shù)的發(fā)展,知識與數(shù)據(jù)結(jié)合相關(guān)的人工智能思路不斷被提出,如知識、數(shù)據(jù)、算法和算力四要素驅(qū)動的第三代人工智能[15]以及知識/數(shù)據(jù)算法級組件化協(xié)同控制[10]等。在航空航天領(lǐng)域中,諸多學(xué)者也都提出了關(guān)于知識與數(shù)據(jù)結(jié)合的控制觀點(diǎn)[16-17]以應(yīng)對飛行器發(fā)展所帶來的新的控制問題。

本文將從知識與數(shù)據(jù)混合驅(qū)動的不同控制框架出發(fā),對此類方法在高速飛行控制中的應(yīng)用進(jìn)行總結(jié)、分析和展望。文中所涉及的數(shù)據(jù)驅(qū)動方法以機(jī)器學(xué)習(xí)方法為主,且主要著眼于高速飛行器的在線姿態(tài)控制問題。值得注意的是,由于智能控制發(fā)展過程中所涉及的理論和應(yīng)用場景十分廣泛[18],文中并沒有以“智能控制方法”來表述所提及的數(shù)據(jù)驅(qū)動和混合驅(qū)動控制方法。

1 知識驅(qū)動和數(shù)據(jù)驅(qū)動方法的界定及分析

1.1 知識驅(qū)動方法的界定及分析

本文所提到的知識,側(cè)重于在執(zhí)行具體飛行任務(wù)之前通過各種手段所掌握的先驗(yàn)知識,如飛行器模型。飛行器模型的內(nèi)涵包括模型的形式以及模型的參數(shù)。對于飛行器運(yùn)動學(xué)/動力學(xué)模型,?;谂nD歐拉方程或拉格朗日方程進(jìn)行建立(對于變外形飛行器還可能涉及如凱恩法在內(nèi)的多體動力學(xué)建模方法),常用微分方程組的形式進(jìn)行描述;氣動模型則常以插值表或多項(xiàng)式等形式描述;除此之外,地球引力模型、風(fēng)模型、溫度模型和大氣密度模型等均有不同的描述形式。模型參數(shù)是依賴于模型形式的具體數(shù)據(jù),可通過不同手段進(jìn)行測量或估算。如飛行器轉(zhuǎn)動慣量和彈性模態(tài)參數(shù)可分別通過工程估算和振動實(shí)驗(yàn)等方式獲得;氣動參數(shù)可依靠風(fēng)洞實(shí)驗(yàn)、計(jì)算流體力學(xué)方法(Computational fluid dynamics, CFD)和工程估算等手段獲得;風(fēng)場模型參數(shù)則可通過統(tǒng)計(jì)風(fēng)速/風(fēng)向數(shù)據(jù)或飛行前測量等方式獲得。若飛行器可重復(fù)使用或飛行架次較多,則可基于已完成的飛行控制任務(wù)中所收集的數(shù)據(jù)對知識進(jìn)行修正,從而形成新的先驗(yàn)知識。除此之外,控制領(lǐng)域的相關(guān)理論,如Lyapunov穩(wěn)定性理論和Bellman最優(yōu)原理等,以及控制器設(shè)計(jì)經(jīng)驗(yàn)如參數(shù)的選取和性能指標(biāo)的設(shè)定等,也都屬于知識的范疇。

基于以上知識,形成了各類知識驅(qū)動的控制方法,如PID控制、動態(tài)逆、反步法、滑模控制、自抗擾控制和預(yù)設(shè)性能控制等。知識驅(qū)動的控制方法理論體系完備,具有較清晰的物理意義,且運(yùn)算效率較高。但對于高速飛行器所面臨的控制問題,工程中常用的基于經(jīng)典控制理論的增益預(yù)置PID控制方法由于依賴小偏差線性化等理論,對強(qiáng)非線性和強(qiáng)耦合特點(diǎn)的被控對象適應(yīng)能力差,且大飛行包線也會大大增加特征工作點(diǎn)的數(shù)量從而增加設(shè)計(jì)成本。其他方法除了依賴較為精確的模型外,存在動態(tài)逆的逆誤差、反步法的“計(jì)算膨脹”、滑??刂贫墩褚种婆c高精度控制的矛盾、自抗擾控制魯棒性和抗噪性的矛盾以及預(yù)設(shè)性能控制的脆弱性等問題。相關(guān)方法已在許多文獻(xiàn)[4,19]中進(jìn)行了總結(jié),本文不再進(jìn)一步說明。以上提到的部分控制方法還常與干擾觀測技術(shù)、指令濾波技術(shù)等配合使用,以進(jìn)一步提升性能,但這類技術(shù)本質(zhì)上也都基于模型進(jìn)行設(shè)計(jì)。

綜上,在飛行任務(wù)復(fù)雜程度加劇,強(qiáng)干擾、強(qiáng)非線性、強(qiáng)不確定等問題更加突出等背景下,知識驅(qū)動方法在保證穩(wěn)定性和魯棒性方面面臨更大挑戰(zhàn)。

1.2 數(shù)據(jù)驅(qū)動方法的界定及分析

本文定義的數(shù)據(jù)包括離線數(shù)據(jù)和在線數(shù)據(jù),前者指通過各類地面實(shí)驗(yàn)獲得的原始數(shù)據(jù)以及歷史飛行數(shù)據(jù)等,后者指在執(zhí)行具體飛行任務(wù)過程中通過各種實(shí)時(shí)測量手段所獲得并在線進(jìn)行處理和運(yùn)用的數(shù)據(jù)。知識驅(qū)動和數(shù)據(jù)驅(qū)動的本質(zhì)區(qū)別在于前者通過某些技術(shù)手段對原始數(shù)據(jù)進(jìn)行了人為提煉,如簡化、歸納和特征提取等,形成了以模型和經(jīng)驗(yàn)等表現(xiàn)形式的抽象知識,并基于抽象知識實(shí)現(xiàn)控制目標(biāo)。而后者則是基于較為原始的數(shù)據(jù)通過學(xué)習(xí)等方式完成控制任務(wù)。當(dāng)前飛行器控制中常用具有強(qiáng)非線性和強(qiáng)決策能力等特點(diǎn)的機(jī)器學(xué)習(xí)方法完成包括系統(tǒng)辨識、不確定性補(bǔ)償以及系統(tǒng)控制在內(nèi)的各類任務(wù),本文所述的“數(shù)據(jù)驅(qū)動方法”即主要討論這些機(jī)器學(xué)習(xí)方法。

神經(jīng)網(wǎng)絡(luò)(Neural network, NN)、模糊邏輯系統(tǒng)(Fuzzy logic system, FLS)、支持向量機(jī)(Support vector machines, SVM)以及高斯過程回歸(Gaussian process regression, GPR)等機(jī)器學(xué)習(xí)方法均具有高精度非線性逼近能力,且研究人員可以根據(jù)具體問題選擇和設(shè)計(jì)相應(yīng)的模型??刂祁I(lǐng)域中常用的神經(jīng)網(wǎng)絡(luò)經(jīng)典拓?fù)浣Y(jié)構(gòu)包括全連接神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)(Radial basis function neural network, RBFNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,包括深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)、長短記憶(Long short-term me-mory, LSTM)神經(jīng)網(wǎng)絡(luò)和深度貝葉斯神經(jīng)網(wǎng)絡(luò)在內(nèi)的新拓?fù)浣Y(jié)構(gòu)被提出并用于解決更加復(fù)雜的分類和回歸等問題。不同于NN,SVM基于不同的核函數(shù)處理各類線性和非線性問題,在解決小樣本問題時(shí)具有一定優(yōu)勢。GPR則基于嚴(yán)格的統(tǒng)計(jì)學(xué)習(xí)理論,可有效處理具有高維和小樣本特點(diǎn)的復(fù)雜問題,在解決回歸問題時(shí)與NN和SVM相比具有易于實(shí)現(xiàn)、超參數(shù)自適應(yīng)獲取以及輸出量的概率意義明確等優(yōu)點(diǎn)[20]。對于FLS,本文討論其中具有自適應(yīng)逼近能力的相關(guān)方法,可通過模糊推理以任意精度逼近任意連續(xù)光滑函數(shù)。雖然上述方法均具有良好的性能,但實(shí)際應(yīng)用時(shí)還需考慮飛行器控制系統(tǒng)的在線計(jì)算資源分配問題。常用思路是降低算法的在線計(jì)算復(fù)雜度并將學(xué)習(xí)形式從批量改進(jìn)為增量以優(yōu)化在線問題的求解,如增量支持向量機(jī)[21]、增量稀疏譜高斯過程回歸[22]和增量集成高斯過程回歸[23]等。除此之外。部分模型如DNN和LSTM在線時(shí)僅進(jìn)行前向計(jì)算,對其自身的泛化能力和離線訓(xùn)練時(shí)樣本的質(zhì)量/數(shù)量提出了更高的要求。

不同于以上主要基于監(jiān)督學(xué)習(xí)機(jī)制進(jìn)行參數(shù)更新的方法,強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)則是一類基于增強(qiáng)學(xué)習(xí)機(jī)制通過交互進(jìn)行策略學(xué)習(xí)的方法。其中自適應(yīng)動態(tài)規(guī)劃(Adaptive dynamic programming, ADP)方法基于Bellman最優(yōu)控制原理通過行動者-評論家(Actor-Critic)架構(gòu)求解控制問題的哈密頓-雅克比-貝爾曼方程,從而得到近似最優(yōu)控制策略。ADP又可分為啟發(fā)式動態(tài)規(guī)劃(Heuristic dynamic programming, HDP)以及二次啟發(fā)式動態(tài)規(guī)劃(Dual heuristic dynamic programming, DHP)等,DHP通過將價(jià)值函數(shù)對狀態(tài)的導(dǎo)數(shù)作為Critic的輸出來提高收斂性,但增加了對系統(tǒng)動力學(xué)信息的依賴。動作依賴(Action dependent, AD)型ADP方法如動作依賴型啟發(fā)式動態(tài)規(guī)劃(Action dependent HDP, ADHDP)則通過引入狀態(tài)行為值函數(shù)的方式隱式獲取系統(tǒng)的動力學(xué)信息,但同時(shí)也提高了方法對數(shù)據(jù)量的要求[24]。近年興起的深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning, DRL)方法則是結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),多用于解決復(fù)雜環(huán)境下高維系統(tǒng)的決策控制問題。無模型(model-free)的DRL方法開源算法庫豐富且拓展性強(qiáng),基于其獲得的飛行控制策略常具有強(qiáng)泛化能力和魯棒性等特點(diǎn),但其實(shí)際控制效果也一定程度上依賴于地面飛行模擬器搭建的充分程度[25]。當(dāng)前常用的無模型DRL算法包括深度確定性策略梯度(Deep deterministic policy gradient, DDPG)、隨機(jī)策略優(yōu)化(Proximal policy optimization, PPO)以及軟行動者-評論家(Soft actor-critic, SAC)等,且算法的發(fā)展迭代十分迅速。

雖然數(shù)據(jù)驅(qū)動方法擁有弱模型依賴和強(qiáng)自適應(yīng)能力等優(yōu)點(diǎn),但其物理意義并不清晰且對數(shù)據(jù)要求較高。應(yīng)對復(fù)雜的飛行控制問題時(shí)相比于知識驅(qū)動方法的分析難度更大,且穩(wěn)定性和收斂性不易保證。部分?jǐn)?shù)據(jù)驅(qū)動方法無法獨(dú)立完成控制任務(wù),需要與知識驅(qū)動方法配合使用。表1從內(nèi)涵、特征、優(yōu)缺點(diǎn)等方面對知識驅(qū)動方法和數(shù)據(jù)驅(qū)動方法進(jìn)行了總結(jié)和對比。

表1 知識驅(qū)動與數(shù)據(jù)驅(qū)動方法對比Table 1 Comparison between knowledge-based and data-driven methodologies

2 知識與數(shù)據(jù)混合驅(qū)動的控制方法分類與進(jìn)展

結(jié)合本文第一節(jié),無論是數(shù)據(jù)驅(qū)動還是知識驅(qū)動方法均有其不足與局限性,而將兩者結(jié)合運(yùn)用則可使其優(yōu)勢互補(bǔ),進(jìn)一步增強(qiáng)方法的性能。數(shù)據(jù)驅(qū)動方法具有非線性表達(dá)能力和離線/在線學(xué)習(xí)等特點(diǎn),可一定程度上彌補(bǔ)模型復(fù)雜、無精確建模和環(huán)境不確定性下知識驅(qū)動方法的局限性。而基于知識可對復(fù)雜問題進(jìn)行分解降維,或?qū)?shù)據(jù)驅(qū)動方法的參數(shù)初值和學(xué)習(xí)架構(gòu)等進(jìn)行優(yōu)化,以利于數(shù)據(jù)驅(qū)動方法的收斂。圖1總結(jié)了高速飛行器控制中數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法的具體作用形式以及多類混合驅(qū)動方法思路?;旌向?qū)動方法中除了智能觀測器外,還有通過模仿學(xué)習(xí)、設(shè)計(jì)啟發(fā)式目標(biāo)函數(shù)以及知識化機(jī)器學(xué)習(xí)模型結(jié)構(gòu)等方式對數(shù)據(jù)驅(qū)動方法進(jìn)行增強(qiáng)的思路[10],對此本文不再展開。文中主要討論混合驅(qū)動的控制方法框架,依據(jù)(知識增強(qiáng)的)數(shù)據(jù)驅(qū)動方法在框架中的重要程度以及知識和數(shù)據(jù)的結(jié)合形式將其分為三大類:1)基于數(shù)據(jù)修正的知識驅(qū)動控制框架;2)基于知識補(bǔ)償?shù)臄?shù)據(jù)驅(qū)動控制框架;3)知識與數(shù)據(jù)并聯(lián)型控制框架。

圖1 高速飛行器控制中的知識、數(shù)據(jù)及混合驅(qū)動方法Fig.1 Knowledge-based, data-driven and cooperating methods in high-speed vehicle control

2.1 基于數(shù)據(jù)修正的知識驅(qū)動控制框架

基于數(shù)據(jù)調(diào)優(yōu)的控制框架中,常利用RL類方法通過自適應(yīng)調(diào)節(jié)知識驅(qū)動控制器的增益等手段優(yōu)化控制品質(zhì)。文獻(xiàn)[26]針對具有未知不確定性和外部干擾的變外形近空間飛行器提出了一種切換自適應(yīng)自抗擾控制律,利用角度和角速度兩類誤差設(shè)計(jì)ADHDP的代價(jià)函數(shù)在線調(diào)節(jié)自抗擾控制器的增益以提升變形過程中的姿態(tài)控制品質(zhì)。文獻(xiàn)[27]基于DDPG算法根據(jù)穩(wěn)定性和魯棒性指標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),訓(xùn)練智能體進(jìn)行魯棒控制器的參數(shù)調(diào)優(yōu),實(shí)現(xiàn)了含有氣動伺服彈性的飛行器系統(tǒng)(系統(tǒng)狀態(tài)除了位置姿態(tài)外還包括氣動力滯后項(xiàng)和伺服機(jī)構(gòu)的狀態(tài))的控制,且控制效果優(yōu)于手動調(diào)參的魯棒控制器。相比于上文,文獻(xiàn)[28]還設(shè)計(jì)了含有控制輸入約束的分段獎(jiǎng)勵(lì)函數(shù),基于DDPG算法學(xué)習(xí)反步法設(shè)計(jì)的控制器的參數(shù)調(diào)節(jié)策略,在無抗飽和輔助結(jié)構(gòu)和障礙Lyapunov函數(shù)(Barrier Lyapunov function, BLF)設(shè)計(jì)等條件下取得了較好的考慮狀態(tài)約束下的抗飽和控制效果。該框架中知識驅(qū)動控制器需要根據(jù)系統(tǒng)知識進(jìn)行設(shè)計(jì),控制器參數(shù)范圍可以事先設(shè)定,有較高的安全性。

基于數(shù)據(jù)補(bǔ)償?shù)目刂瓶蚣苤?數(shù)據(jù)驅(qū)動方法的使用形式靈活,既能夠根據(jù)需求補(bǔ)償系統(tǒng)的建模不確定項(xiàng)、干擾和難以建模的部分動態(tài)等,也能進(jìn)一步設(shè)計(jì)混合驅(qū)動觀測器以增強(qiáng)知識驅(qū)動觀測器的性能。文獻(xiàn)[29]針對非仿射飛行器模型使用模糊神經(jīng)網(wǎng)絡(luò)估計(jì)飛行器的未知?jiǎng)討B(tài)并設(shè)計(jì)了新型魯棒控制器,并基于Lyapunov理論推導(dǎo)了神經(jīng)網(wǎng)絡(luò)參數(shù)變化律,仿真結(jié)果表明該方法能夠有效處理參數(shù)不確定性。文獻(xiàn)[30]使用雙RBFNN分別逼近高速飛行器高度和速度通道的不確定性,并基于高階跟蹤微分器設(shè)計(jì)了神經(jīng)動態(tài)逆控制器,實(shí)現(xiàn)了高速飛行器的自適應(yīng)高度與速度控制。文獻(xiàn)[31]同樣通過RBFNN對嚴(yán)格反饋多入多出非線性系統(tǒng)的不確定性動態(tài)進(jìn)行逼近,利用誤差動態(tài)和歷史數(shù)據(jù)構(gòu)造了新型臨界預(yù)測誤差增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的非線性逼近能力,并將該方法用于高速飛行器再入控制中。不同于以上文獻(xiàn)中考慮的標(biāo)準(zhǔn)飛行器模型形式,文獻(xiàn)[32]對系統(tǒng)的全狀態(tài)量進(jìn)行非線性映射以處理狀態(tài)約束并針對映射后的多變量系統(tǒng)使用多個(gè)RBFNN逼近未知?jiǎng)討B(tài),值得注意的是該文獻(xiàn)引入了自適應(yīng)界估計(jì)(Adaptive bound estimation)方法,減小了控制框架對多重隨機(jī)不確定性先驗(yàn)上界信息的依賴。除了神經(jīng)網(wǎng)絡(luò)外,相關(guān)研究中還使用SVM和RL等數(shù)據(jù)驅(qū)動方法作為補(bǔ)償器。文獻(xiàn)[33]使用最小二乘SVM方法逼近高速飛行器高度和速度子系統(tǒng)的動態(tài),該思路只需更新兩個(gè)自適應(yīng)標(biāo)量,可有效減小在線計(jì)算量。文獻(xiàn)[34]采用在線SVM擬合基于高速飛行器模型設(shè)計(jì)的理想非線性廣義預(yù)測控制器中的不確定項(xiàng),與使用RBFNN進(jìn)行不確定性補(bǔ)償?shù)姆抡娼Y(jié)果對比表明該方法具有良好的魯棒性和抗干擾能力。文獻(xiàn)[35]使用RL方法離線訓(xùn)練并在線估計(jì)飛行控制系統(tǒng)中的總擾動,其中actor網(wǎng)絡(luò)用于產(chǎn)生總擾動的估計(jì),而critic網(wǎng)絡(luò)則對估計(jì)精度進(jìn)行評價(jià)。數(shù)據(jù)驅(qū)動方法還可與知識驅(qū)動觀測器結(jié)合以提升觀測器的狀態(tài)估計(jì)和不確定性補(bǔ)償?shù)刃阅?。文獻(xiàn)[36]針對高速飛行器在各種擾動情況下的高精度姿態(tài)跟蹤問題提出了一種基于極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)擾動觀測器(ELM-NNDO)的滑??刂撇呗?并基于Lyapunov綜合方法推導(dǎo)出神經(jīng)網(wǎng)絡(luò)權(quán)值更新律。文獻(xiàn)[37]提出了一種由基于神經(jīng)網(wǎng)絡(luò)的Luenberger型觀測器和同步擾動觀測器組合而成的復(fù)合觀測器,實(shí)現(xiàn)了未知非線性動力學(xué)和未知擾動同時(shí)存在時(shí)系統(tǒng)狀態(tài)的估計(jì)。文獻(xiàn)[38]利用區(qū)間II型FLS構(gòu)造函數(shù)逼近器來逼近飛行器的未知?jiǎng)討B(tài),在此基礎(chǔ)上設(shè)計(jì)了固定時(shí)間收斂的自適應(yīng)模糊觀測器用于估計(jì)未測航跡角以及攻角。文獻(xiàn)[39]利用FLS逼近角度環(huán)的參數(shù)不確定性以及角速度環(huán)的綜合擾動,并在此基礎(chǔ)上設(shè)計(jì)了模糊擾動觀測器。此外,數(shù)據(jù)驅(qū)動補(bǔ)償器也常用于故障的辨識和補(bǔ)償。文獻(xiàn)[40]使用改進(jìn)的RBFNN和自適應(yīng)方法設(shè)計(jì)了一種容錯(cuò)滑??刂破?其中神經(jīng)網(wǎng)絡(luò)作為自適應(yīng)律的一部分對故障值進(jìn)行估計(jì),該方法可以快速處理執(zhí)行器的效益損失故障以及卡死故障。文獻(xiàn)[41]設(shè)計(jì)了障礙Lyapunov函數(shù)處理攻角約束并使用魯棒自適應(yīng)分配律對已知形式但數(shù)值未知的執(zhí)行機(jī)構(gòu)失效故障進(jìn)行補(bǔ)償。文獻(xiàn)[42]通過結(jié)合FLS和一種界估計(jì)方法處理與系統(tǒng)狀態(tài)相關(guān)的時(shí)變執(zhí)行機(jī)構(gòu)故障。文獻(xiàn)[43]針對具有初始系統(tǒng)故障和含非高斯噪聲輸出的高速飛行器系統(tǒng),通過有理平方根B樣條方法將測量的姿態(tài)角轉(zhuǎn)化為相應(yīng)的概率密度函數(shù)從而通過自適應(yīng)模糊觀測器估計(jì)干擾和故障。文獻(xiàn)[44]設(shè)計(jì)了自適應(yīng)觀測器和SVM自適應(yīng)補(bǔ)償器以分別補(bǔ)償瞬時(shí)故障和慢時(shí)變故障。文獻(xiàn)[45]設(shè)計(jì)了FLS逼近系統(tǒng)模型并通過設(shè)定逼近殘差閾值對傳感器故障進(jìn)行檢測和隔離,最終基于模糊增強(qiáng)觀測器對故障值進(jìn)行準(zhǔn)確估計(jì)。當(dāng)存在更復(fù)雜的故障情況時(shí),則需考慮故障辨識和控制器重構(gòu)等手段。文獻(xiàn)[46]提出了一種基于長短記憶(LSTM)神經(jīng)網(wǎng)絡(luò)的故障診斷單元實(shí)現(xiàn)了多源干擾下的執(zhí)行機(jī)構(gòu)故障診斷,將執(zhí)行機(jī)構(gòu)失效故障和偏移故障的信息采用魯棒最小二乘分配方法為執(zhí)行機(jī)構(gòu)分配控制力矩,并結(jié)合擴(kuò)張狀態(tài)觀測器對控制分配誤差進(jìn)行補(bǔ)償。文獻(xiàn)[47]對故障特征進(jìn)行了相關(guān)性分析、降維和敏感特征提取,并通過含有遺傳算法優(yōu)化的SVR方法實(shí)現(xiàn)了故障模式識別,實(shí)現(xiàn)了針對多傳感器融合故障的定位和診斷/單傳感器故障時(shí)間判斷??紤]氣動伺服彈性[39,48-49]和執(zhí)行機(jī)構(gòu)非線性[50]的高速飛行器控制問題也常用該類框架解決。

基于模型辨識/學(xué)習(xí)的控制框架中,數(shù)據(jù)驅(qū)動方法一般通過辨識系統(tǒng)參數(shù)、學(xué)習(xí)正向模型映射以及預(yù)測未來狀態(tài)等方式將相關(guān)信息提供給知識驅(qū)動控制器。文獻(xiàn)[51-52]基于機(jī)器學(xué)習(xí)方法通過跟蹤誤差和系統(tǒng)狀態(tài)等信息在線擬合力矩系數(shù)在內(nèi)的氣動參數(shù),從而輔助姿態(tài)控制過程。文獻(xiàn)[53]基于GPR辨識系統(tǒng)的增量模型以得到非線性動態(tài)逆控制器中的系統(tǒng)控制矩陣,一定程度上解決了帶遺忘因子的遞歸最小二乘方法(RLS)針對快時(shí)變系統(tǒng)辨識效果差的問題。文獻(xiàn)[54]使用FLS同時(shí)逼近仿射系統(tǒng)的未知?jiǎng)討B(tài)和輸入動力學(xué),并通過設(shè)計(jì)非線性觀測器來補(bǔ)償逼近誤差影響,最終得到了基于模糊重構(gòu)的動態(tài)面控制器。文獻(xiàn)[55]使用SVM回歸模型在線擬合含有常數(shù)和動態(tài)不確定性的系統(tǒng)非線性模型,從而將原飛行控制問題轉(zhuǎn)化為了二次規(guī)劃問題,使用模型預(yù)測控制(MPC)方法進(jìn)行在線求解。除了對模型的部分參數(shù)進(jìn)行辨識或直接擬合飛行器線性/非線性模型外,也可考慮更復(fù)雜的數(shù)據(jù)建模形式,如概率空間下的狀態(tài)轉(zhuǎn)移模型和多步預(yù)測模型等,文獻(xiàn)[56]基于LSTM神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了多速率采樣器以從非平穩(wěn)時(shí)間序列中更好的進(jìn)行特征提取,實(shí)現(xiàn)了高速飛行器這類高速率系統(tǒng)的建模以及響應(yīng)預(yù)測。該框架中主要關(guān)注數(shù)據(jù)驅(qū)動方法的收斂性以及辨識/預(yù)測的快速性和準(zhǔn)確性等,最終效果除了與各類數(shù)據(jù)驅(qū)動方法的特點(diǎn)相關(guān)外,也與系統(tǒng)復(fù)雜度和參數(shù)的可辨識性等密切聯(lián)系,且一般而言在線的辨識/學(xué)習(xí)過程需要一定的激勵(lì)作用。

基于數(shù)據(jù)修正的知識驅(qū)動控制框架中知識驅(qū)動控制器的結(jié)構(gòu)并沒有較大改變,大部分情況下工程中相應(yīng)的設(shè)計(jì)和分析方法仍然能夠使用,當(dāng)前該類框架相比于后兩類更易于工程實(shí)現(xiàn)。

2.2 基于知識補(bǔ)償?shù)臄?shù)據(jù)驅(qū)動控制框架

該類框架中數(shù)據(jù)驅(qū)動控制器一般通過監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)方式獲得飛行器的控制策略。本文按照學(xué)習(xí)機(jī)理將該類框架進(jìn)一步分為:1)基于逆系統(tǒng)學(xué)習(xí)的控制框架;2)基于RL理論的控制框架;3)基于人工樣本的控制框架。該大類框架圖如圖3所示,知識驅(qū)動方法包括狀態(tài)觀測器和抗飽和補(bǔ)償器等,ξ代表抗飽和補(bǔ)償量。知識驅(qū)動方法也可輸出不直接作用于系統(tǒng)的參考控制量ukc等,為數(shù)據(jù)驅(qū)動控制器的監(jiān)督學(xué)習(xí)過程提供參考輸出。

圖3 基于知識補(bǔ)償?shù)臄?shù)據(jù)驅(qū)動控制框架Fig.3 Data-driven control framework based on knowledge compensation

基于逆系統(tǒng)學(xué)習(xí)的控制框架中,數(shù)據(jù)驅(qū)動控制器本質(zhì)上是在線解決以系統(tǒng)相關(guān)狀態(tài)作為輸入,系統(tǒng)控制量作為輸出的回歸問題。除了直接基于系統(tǒng)的輸入輸出數(shù)據(jù)學(xué)習(xí)前饋控制策略并結(jié)合反饋控制律完成控制任務(wù)外,還可將知識驅(qū)動控制器的輸出作為回歸問題訓(xùn)練集中的輸出數(shù)據(jù)引導(dǎo)數(shù)據(jù)驅(qū)動控制器進(jìn)行在線學(xué)習(xí)。如文獻(xiàn)[57]設(shè)計(jì)了一種自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)控制器,僅以跟蹤誤差作為控制器輸入并將標(biāo)稱動態(tài)逆控制器的輸出作為參考輸出,基于反向傳播法推導(dǎo)了控制器的自適應(yīng)律,仿真結(jié)果驗(yàn)證了在大不確定條件下控制器的有效性和魯棒性。當(dāng)飛行器模型未知或存在不確定性時(shí),還可通過數(shù)據(jù)驅(qū)動方法學(xué)習(xí)和補(bǔ)償正向模型從而與逆動力學(xué)控制器配合使用,如文獻(xiàn)[58]設(shè)計(jì)了雙神經(jīng)網(wǎng)絡(luò)擬合正逆動力學(xué)的控制架構(gòu),將用于逆動力學(xué)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)與另一個(gè)基于神經(jīng)網(wǎng)絡(luò)的正向動力學(xué)補(bǔ)償控制器結(jié)合,通過飛行數(shù)據(jù)學(xué)習(xí)由狀態(tài)量和目標(biāo)狀態(tài)到控制量的映射,隨著學(xué)習(xí)的推進(jìn),神經(jīng)網(wǎng)絡(luò)逆動力學(xué)控制器的輸出將占主導(dǎo)。

基于RL理論的控制框架中,數(shù)據(jù)驅(qū)動控制器通過交互的方式學(xué)習(xí)控制策略。該框架中可能存在基于知識設(shè)計(jì)的前饋控制部分,但前饋部分只與參考輸入和系統(tǒng)動態(tài)有關(guān),并不能單獨(dú)使系統(tǒng)穩(wěn)定,這里需要注意和下一節(jié)的知識與數(shù)據(jù)并聯(lián)型的控制框架進(jìn)行區(qū)別。文獻(xiàn)[59]使用無跡卡爾曼濾波狀態(tài)估計(jì)器估計(jì)了winged-cone飛行器縱平面姿態(tài)的不確定性并得到了前饋控制部分,反饋控制策略使用策略迭代(PI)方法自學(xué)習(xí)得到,且基于Lyapunov理論證明了單次迭代過程中價(jià)值函數(shù)單調(diào)遞減且能收斂到Bellman最優(yōu)解。文獻(xiàn)[60]在系統(tǒng)模型完全未知的情況下,前饋動態(tài)逆控制器和系統(tǒng)模型均由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到,反饋控制律則由ADHDP方法學(xué)習(xí)得到。文獻(xiàn)[61]使用神經(jīng)網(wǎng)絡(luò)處理系統(tǒng)的參數(shù)不確定性和未建模非線性,并以此優(yōu)化由離散最小值原理推導(dǎo)的Actor-Critic控制架構(gòu)的最憂性條件,仿真結(jié)果驗(yàn)證了該設(shè)計(jì)方法在不確定條件下對吸氣式高速飛行器跟蹤控制的有效性。為了進(jìn)一步減小ADP類控制方法在在線控制時(shí)對全局模型的依賴,Zhou等[62]提出了基于增量模型的自適應(yīng)動態(tài)規(guī)劃方法(iADP)以及其改進(jìn)方法,應(yīng)用于飛行器的在線自學(xué)習(xí)控制[63]、故障容錯(cuò)控制及狀態(tài)部分可觀測條件下的飛行控制[64]中,該類方法通過RLS方法在線辨識系統(tǒng)增量模型并預(yù)測下一拍狀態(tài),ADP則基于增量模型信息進(jìn)行策略更新。文獻(xiàn)[65]在iADP的基礎(chǔ)上提出了基于誤差動力學(xué)的DHP飛行器自學(xué)習(xí)控制方法,方法對誤差狀態(tài)進(jìn)行了增廣并基于RLS辨識誤差動力學(xué)的控制矩陣和參數(shù)不確定性,實(shí)現(xiàn)了高速變外形飛行器三通道耦合條件下的姿態(tài)跟蹤控制。雖然上述的部分方法對知識的依賴程度不高,但在線學(xué)習(xí)時(shí)當(dāng)數(shù)據(jù)多樣性不足時(shí)也易影響學(xué)習(xí)效果,常需通過注入持續(xù)激勵(lì)和探索量等手段改善學(xué)習(xí)效果。近期也有將經(jīng)驗(yàn)回放等方法代替?zhèn)鹘y(tǒng)激勵(lì)條件的研究,如文獻(xiàn)[37]提出一種基于復(fù)合觀測器的RL跟蹤控制器,推導(dǎo)了含有反饋控制量的誤差動力學(xué)形式并采用歷史經(jīng)驗(yàn)重放和并行學(xué)習(xí)代替持續(xù)激勵(lì)從而實(shí)現(xiàn)高速飛行器的最優(yōu)姿態(tài)跟蹤。

基于人工樣本的控制框架中一般基于其他控制/優(yōu)化方法生成數(shù)據(jù)集,后使用深度神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)驅(qū)動方法學(xué)習(xí)控制策略來達(dá)到提高在線計(jì)算效率和增強(qiáng)泛化能力等目的。文獻(xiàn)[66]使用粒子群優(yōu)化方法求解了含輸入飽和及氣動熱等約束的最優(yōu)控制問題,在不同初始化條件下生成了最優(yōu)軌跡數(shù)據(jù)集,使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)狀態(tài)到動作的映射關(guān)系,從而能在線實(shí)時(shí)計(jì)算最優(yōu)反饋控制量實(shí)現(xiàn)飛行器的6自由度控制。文獻(xiàn)[67]通過MPC離線求解含有輸入飽和約束的優(yōu)化問題生成大量樣本數(shù)據(jù),訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制分配策略,從而在在線控制時(shí)實(shí)現(xiàn)高效的優(yōu)化問題近似求解。當(dāng)要求初始數(shù)據(jù)驅(qū)動控制器擁有一定的控制能力以保證飛行的安全性或滿足收斂條件時(shí)(如策略迭代方法收斂的前提之一是初始控制策略能夠使系統(tǒng)穩(wěn)定),除了基于RL方法進(jìn)行離線學(xué)習(xí)外,基于知識驅(qū)動控制器產(chǎn)生的樣本對數(shù)據(jù)驅(qū)動控制器進(jìn)行預(yù)訓(xùn)練也是途徑之一。相比于姿態(tài)控制,此框架更多時(shí)候應(yīng)用于高速飛行器的在線軌跡規(guī)劃中[68-70],耗時(shí)的優(yōu)化計(jì)算和網(wǎng)絡(luò)訓(xùn)練等過程是離線進(jìn)行的,在線時(shí)僅進(jìn)行網(wǎng)絡(luò)的前向計(jì)算,控制器擁有良好的實(shí)時(shí)性和收斂性。

基于逆系統(tǒng)學(xué)習(xí)的控制框架和基于RL理論的控制框架均擁有無模型/弱模型依賴條件下的控制策略學(xué)習(xí)能力,這兩類框架在如機(jī)械臂和四旋翼飛行器控制等領(lǐng)域已取得了一定的研究成果,但在高速飛行器這類復(fù)雜系統(tǒng)中應(yīng)用時(shí)方法的收斂性和穩(wěn)定性還有待進(jìn)一步分析和研究。當(dāng)前基于人工樣本的控制框架在姿態(tài)控制領(lǐng)域的研究較少,更多用于解決更高層次的控制問題如在線軌跡規(guī)劃。

2.3 知識與數(shù)據(jù)并聯(lián)型的控制框架

本節(jié)將繼續(xù)討論數(shù)據(jù)驅(qū)動控制器和知識驅(qū)動控制器并聯(lián)作用形式,方案框架如圖4所示。此框架中兩類控制器均輸出控制量,常基于知識驅(qū)動控制器推導(dǎo)相應(yīng)的誤差動力學(xué)等方程,后使用數(shù)據(jù)驅(qū)動控制器解決最優(yōu)跟蹤/最優(yōu)調(diào)節(jié)等問題。框架中知識驅(qū)動控制器單獨(dú)作用時(shí)能夠使系統(tǒng)保持穩(wěn)定,數(shù)據(jù)驅(qū)動控制器則根據(jù)不同的設(shè)計(jì)思想完成如誤差修正等任務(wù)。此類設(shè)計(jì)思想能夠降低數(shù)據(jù)驅(qū)動控制器的學(xué)習(xí)復(fù)雜度,也能最大程度上利用知識來保證飛行過程中系統(tǒng)的穩(wěn)定性等。

圖4 知識與數(shù)據(jù)并聯(lián)型控制框架Fig.4 Parallel control framework of knowledge and data

文獻(xiàn)[71]針對高速飛行器的高度速度控制問題提出了數(shù)據(jù)驅(qū)動的強(qiáng)化學(xué)習(xí)輔助控制方法,其中滑??刂破骺刂骑w行器穩(wěn)定飛行,無模型的ADHDP方法僅通過數(shù)據(jù)學(xué)習(xí)跟蹤性能優(yōu)化策略。值得注意的是由于ADHDP這類方法在學(xué)習(xí)控制策略時(shí)能夠隱式學(xué)習(xí)系統(tǒng)動態(tài)從而無需系統(tǒng)先驗(yàn)[72],故在設(shè)計(jì)時(shí)除了將飛行器跟蹤誤差和參考作為狀態(tài)外,還常以誤差積分等項(xiàng)作為智能體狀態(tài)進(jìn)一步增強(qiáng)控制性能,且知識驅(qū)動控制器也能一定程度上減弱此類方法需要數(shù)據(jù)量大帶來的控制風(fēng)險(xiǎn)。文獻(xiàn)[73]針對高速飛行器三通道姿態(tài)控制,快回路使用RBFNN擬合未建模動態(tài)并結(jié)合自適應(yīng)積分滑模控制器作為跟蹤器,將問題轉(zhuǎn)化為最優(yōu)跟蹤問題后反饋部分利用ADP進(jìn)行控制策略的學(xué)習(xí),前饋控制量則直接由模型信息和參考軌跡得到。文獻(xiàn)[74]基于RNN和反步法設(shè)計(jì)前饋控制器,將再入飛行器的姿態(tài)跟蹤問題轉(zhuǎn)化為姿態(tài)角/角速率跟蹤誤差的最優(yōu)反饋控制問題,從而引入ADP方案解決。文獻(xiàn)[75]提出了一種由基于DRL的輔助控制器和固定時(shí)間抗干擾控制器組成的復(fù)合控制框架,抗干擾控制器能夠?qū)⒉糠挚捎^測馬爾科夫決策過程(POMDP)轉(zhuǎn)化為馬爾科夫決策過程,進(jìn)一步由DRL學(xué)習(xí)輔助控制策略來提高控制性能,該框架可以一定程度上解決高速飛行器的強(qiáng)不確定和非真實(shí)環(huán)境訓(xùn)練下的DRL泛化問題。

綜上,對知識與數(shù)據(jù)混合驅(qū)動的飛行控制方法進(jìn)行了分類,包括3大類與7小類,數(shù)據(jù)驅(qū)動方法可以在不同的框架中完成不同的任務(wù)以提高控制方法的魯棒性和自適應(yīng)性。值得注意的是知識與數(shù)據(jù)混合驅(qū)動的控制方法設(shè)計(jì)非常靈活,該種分類方法也并非絕對,部分子框架間也可以進(jìn)行組合,設(shè)計(jì)的復(fù)雜程度和結(jié)構(gòu)形式應(yīng)依據(jù)具體對象以及控制需求而定。下面將針對本節(jié)總結(jié)的控制框架,討論混合驅(qū)動方法在工程應(yīng)用中的若干關(guān)鍵問題。

3 混合驅(qū)動方法在工程應(yīng)用時(shí)的若干關(guān)鍵問題

3.1 理論可靠性問題

工程應(yīng)用中為保證飛行任務(wù)的成功必須對系統(tǒng)的穩(wěn)定性/可靠性進(jìn)行評估,如基于經(jīng)典控制理論設(shè)計(jì)控制器時(shí)可通過頻域法定量分析開環(huán)系統(tǒng)的幅值和相位裕度,基于現(xiàn)代控制理論設(shè)計(jì)的控制器則多是通過Lyapunov函數(shù)進(jìn)行穩(wěn)定性分析。而數(shù)據(jù)驅(qū)動方法可解釋性較弱且常涉及在線學(xué)習(xí)過程,混合驅(qū)動方法的收斂性、穩(wěn)定性以及可靠性分析則成為其能否順利工程應(yīng)用的關(guān)鍵之一。

在當(dāng)前混合驅(qū)動的方法研究中,考慮在線學(xué)習(xí)時(shí)通常是在模型不確定性和擬合誤差有界等假設(shè)下開展Lyapunov穩(wěn)定性證明或?qū)W習(xí)律的推導(dǎo)等工作,多為證明閉環(huán)系統(tǒng)的一致最終有界(UUB)穩(wěn)定[31-32]和漸近穩(wěn)定[42]等。證明的復(fù)雜度與具體控制框架和系統(tǒng)等相關(guān),如基于數(shù)據(jù)調(diào)優(yōu)的控制框架可以以滿足穩(wěn)定性條件的控制參數(shù)區(qū)間為基礎(chǔ)進(jìn)行尋優(yōu)[26],控制框架中含有數(shù)據(jù)驅(qū)動補(bǔ)償器或數(shù)據(jù)驅(qū)動控制器時(shí)則常設(shè)計(jì)含數(shù)據(jù)驅(qū)動方法參數(shù)估計(jì)誤差在內(nèi)的Lyapunov函數(shù)[37,71,73]。當(dāng)僅有離線學(xué)習(xí)時(shí),部分控制框架可對系統(tǒng)進(jìn)行線性化從而分析穩(wěn)定性[76]。但對大多數(shù)復(fù)雜系統(tǒng)而言,蒙特卡洛仿真可能是當(dāng)前最為有效的間接驗(yàn)證或分析方式。除了使用控制領(lǐng)域中的穩(wěn)定性證明工具,部分研究開始借助其他領(lǐng)域的方法對系統(tǒng)的穩(wěn)定性進(jìn)行分析,如文獻(xiàn)[77]提出了一種自適應(yīng)學(xué)習(xí)率的增量RL控制方法,通過小波分析監(jiān)測飛行狀態(tài)的振蕩情況來間接分析系統(tǒng)的穩(wěn)定性。

總而言之,當(dāng)前混合驅(qū)動方法的理論性研究主要呈現(xiàn)兩個(gè)特征。一是研究模型簡化,其主要集中于飛行器的縱平面高度速度控制或單通道姿態(tài)控制,進(jìn)行多通道姿態(tài)控制時(shí)也常將角度回路和角速度回路分離處理。而此類方法在高速飛行器的應(yīng)用時(shí)則需要進(jìn)一步考慮通道耦合,執(zhí)行機(jī)構(gòu)約束等條件。二是無統(tǒng)一理論支撐,目前知識驅(qū)動和數(shù)據(jù)驅(qū)動方法的理論研究處于相對“割裂”的狀態(tài),還未能有效實(shí)現(xiàn)混合驅(qū)動理論方法的統(tǒng)一和融合。當(dāng)系統(tǒng)的復(fù)雜度進(jìn)一步提升時(shí),如何設(shè)計(jì)符合工程應(yīng)用需求的可靠性、安全性理論分析模式是未來需要重點(diǎn)考慮的問題。

3.2 數(shù)據(jù)依賴性問題

數(shù)據(jù)的依賴性問題在混合驅(qū)動方法中依然存在。首先,當(dāng)前的研究中考慮的不確定性并不全面,干擾觀測技術(shù)對于傳感器測量噪聲和風(fēng)干擾產(chǎn)生的狀態(tài)不確定性的處理能力有限[5],數(shù)據(jù)驅(qū)動方法對此類不確定性相對敏感,在大增益下控制量易出現(xiàn)飽和或振蕩等影響控制品質(zhì)的現(xiàn)象,甚至導(dǎo)致系統(tǒng)失穩(wěn)。其次,高速飛行器的歷史飛行數(shù)據(jù)有限且在線數(shù)據(jù)呈現(xiàn)小樣本特性,僅依靠歷史數(shù)據(jù)和在線數(shù)據(jù)進(jìn)行學(xué)習(xí),在跨空域等新技術(shù)特征下存在一定的局限性。最后,數(shù)據(jù)驅(qū)動方法的參數(shù)更新律與擬合誤差或跟蹤誤差等直接相關(guān),當(dāng)高質(zhì)量數(shù)據(jù)不足時(shí),數(shù)據(jù)驅(qū)動方法的參數(shù)更新效率降低,故部分方法在學(xué)習(xí)過程中需要激勵(lì)作用或探索量以提高其收斂性,但同時(shí)兩者對于系統(tǒng)而言也是額外的干擾,工程應(yīng)用時(shí)需充分考慮這類“探索與利用”的矛盾。

對于混合驅(qū)動方法下的數(shù)據(jù)處理和利用問題,一方面需要從機(jī)理上對各類不確定性進(jìn)行分析和處理,以減少狀態(tài)不確定性對混合驅(qū)動方法的影響;另一方面可優(yōu)化知識驅(qū)動方法與數(shù)據(jù)驅(qū)動方法間的不同組合形式以減小對數(shù)據(jù)的依賴,也可考慮基于模型離線產(chǎn)生的豐富低可信度全局?jǐn)?shù)據(jù)和少量高保真歷史/在線局部數(shù)據(jù)的結(jié)合處理方式。

3.3 計(jì)算高效性問題

混合驅(qū)動方法往往具有高于知識驅(qū)動方法的算力需求,如何在當(dāng)前機(jī)載算力有限的條件下處理混合驅(qū)動方法帶來的控制性能增強(qiáng)和算力需求提高的矛盾也需要重點(diǎn)關(guān)注。

針對該問題,目前主要從方法優(yōu)化和硬件加速兩個(gè)方面著手。在當(dāng)前姿態(tài)控制相關(guān)的研究中常使用結(jié)構(gòu)較為簡單的神經(jīng)網(wǎng)絡(luò)等模型以一定程度上減小前向計(jì)算和參數(shù)更新的計(jì)算開銷,但同時(shí)也限制了其表達(dá)能力。因此,為充分發(fā)揮數(shù)據(jù)驅(qū)動方法的優(yōu)勢,一方面可在算法和模型層面開展優(yōu)化,如使用增量模式對數(shù)據(jù)驅(qū)動方法的參數(shù)進(jìn)行在線更新;采用自動微分(Automatic differential, AD)技術(shù)[78]用于降低基于梯度的優(yōu)化問題的計(jì)算復(fù)雜度;引入事件觸發(fā)(event-triggered)機(jī)制[79]節(jié)省在線學(xué)習(xí)的計(jì)算開銷;對復(fù)雜神經(jīng)網(wǎng)絡(luò)模型進(jìn)行剪枝、量化和知識蒸餾以降低其計(jì)算功耗。另一方面則是從硬件入手,如設(shè)計(jì)高算力功耗比的通用型計(jì)算框架和專用AI處理器等等。

由于高速飛行器的特殊性,混合驅(qū)動方法的計(jì)算高效性是必須關(guān)注的問題。耗時(shí)的學(xué)習(xí)過程可離線完成,在線控制時(shí)的混合驅(qū)動方法應(yīng)盡量簡潔和高效。

除了以上三類關(guān)鍵問題外,多性能指標(biāo)下的代價(jià)/獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、充分的地面驗(yàn)證方法、快時(shí)變系統(tǒng)條件下的學(xué)習(xí)效率等問題也需要重點(diǎn)考慮和研究。

4 方法展望

當(dāng)前知識與數(shù)據(jù)混合驅(qū)動的控制方法雖然已在高速飛行控制領(lǐng)域取得了一系列成果,但大多數(shù)研究均是在一定的簡化條件和假設(shè)下完成的,與工程應(yīng)用還存在一定差距。為了進(jìn)一步推動該類方法的工程應(yīng)用,還需充分考慮飛行器這類被控對象的特點(diǎn),將離線設(shè)計(jì)/驗(yàn)證與在線學(xué)習(xí)/控制過程充分結(jié)合,設(shè)計(jì)出更加高效、穩(wěn)定且物理意義清晰的混合驅(qū)動方法。結(jié)合近年相關(guān)領(lǐng)域中基于人工智能技術(shù)產(chǎn)生的新成果和新思想,未來可從以下三點(diǎn)開展工作:

1) 數(shù)據(jù)的高效利用

從各類數(shù)據(jù)的利用上,首先可以通過數(shù)據(jù)驅(qū)動方法獲得更準(zhǔn)確的飛行器模型參數(shù)以間接提升控制品質(zhì),如通過監(jiān)督學(xué)習(xí)自動檢測已知數(shù)據(jù)的潛在不變關(guān)系以提高氣動系數(shù)的外推準(zhǔn)確性[80]。其次可以促進(jìn)基于模型產(chǎn)生的低可信度全局?jǐn)?shù)據(jù)與高保真數(shù)據(jù)的融合,如文獻(xiàn)[81]提出一種線性動態(tài)導(dǎo)數(shù)模型與模糊神經(jīng)網(wǎng)絡(luò)相結(jié)合的機(jī)器學(xué)習(xí)框架,能夠提升大攻角下非定常氣動參數(shù)的預(yù)測精度和效率。最后也可充分利用先驗(yàn)知識提高在線學(xué)習(xí)速度和穩(wěn)定性,如文獻(xiàn)[82]將基于名義模型產(chǎn)生的系統(tǒng)軌跡周圍的數(shù)據(jù)點(diǎn)作為樣本加入RL的更新律中,加快了學(xué)習(xí)速度并降低了方法對激勵(lì)信號的依賴。

2) 拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)與優(yōu)化

從拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)上,可以基于知識直接優(yōu)化數(shù)據(jù)驅(qū)動方法的結(jié)構(gòu),將“黑箱”改進(jìn)成“灰箱”,提高數(shù)據(jù)驅(qū)動方法在對應(yīng)問題上的表達(dá)能力并賦予其更清晰的物理意義[83]。典型的研究如機(jī)械臂力學(xué)結(jié)構(gòu)化的深度拉格朗日神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)在線逆動力學(xué)學(xué)習(xí)控制[84];基于動力學(xué)神經(jīng)常微分方程(Dyna-mics neural ordinary differential equation, DyNODE)實(shí)現(xiàn)的特定區(qū)間長度狀態(tài)預(yù)測與RL控制[85];基于物理知識神經(jīng)網(wǎng)絡(luò)(Physics-informed neural network, PINN)的飛行器閉環(huán)最優(yōu)制導(dǎo)與控制[86]和最優(yōu)轉(zhuǎn)移軌道設(shè)計(jì)[87]等等。對于具有變外形能力以及需考慮復(fù)雜故障的高速飛行器,當(dāng)前并不能僅基于知識處理其飛行過程中復(fù)雜流場和系統(tǒng)耦合等產(chǎn)生的不確定性,可考慮探索拓?fù)浣Y(jié)構(gòu)更加復(fù)雜和專用性更強(qiáng)的混合驅(qū)動方法加以解決。

3) 安全飛行與保護(hù)

從飛行安全性考慮,除了進(jìn)一步增強(qiáng)方法的可解釋性外,還可通過切換保護(hù)的形式優(yōu)化在線學(xué)習(xí)過程。其中安全邊界可用高斯過程在內(nèi)的貝葉斯類方法進(jìn)行建模,基于安全邊界設(shè)計(jì)切換控制策略或獲得安全控制參數(shù)組合[88-89]。

5 結(jié) 論

高速飛行器是一類多學(xué)科交叉的復(fù)雜系統(tǒng),對于其新技術(shù)特征下的控制問題,工程中常用的知識驅(qū)動方法以及人工智能領(lǐng)域的數(shù)據(jù)驅(qū)動方法均存在一定的局限性。本文在對兩者進(jìn)行界定與分析的基礎(chǔ)上引出了混合驅(qū)動的思想,并對近年提出的相關(guān)控制方法進(jìn)行了分類。知識與數(shù)據(jù)混合驅(qū)動的控制方法以多種組合形式使兩類方法優(yōu)勢互補(bǔ),是推進(jìn)高速飛行器控制技術(shù)發(fā)展的重要思路。其中數(shù)據(jù)驅(qū)動部分發(fā)揮的作用呈現(xiàn)從無到有、比重從小到大的發(fā)展趨勢,數(shù)據(jù)驅(qū)動的調(diào)參器、補(bǔ)償器、模型學(xué)習(xí)器以及控制器等基于不同機(jī)理增強(qiáng)控制系統(tǒng)的魯棒性和自適應(yīng)性。然而當(dāng)前混合驅(qū)動方法的相關(guān)研究對實(shí)際工程問題考慮并不全面,且在理論可靠性、數(shù)據(jù)依賴性以及計(jì)算高效性等關(guān)鍵問題上還需重點(diǎn)討論和研究。一方面,設(shè)計(jì)控制器時(shí)需要充分考慮高速飛行器的不確定性、相關(guān)約束、容錯(cuò)和安全控制等問題。另一方面,還需理論研究和應(yīng)用研究并行,推動針對性出針對性更強(qiáng)、可靠性更高、穩(wěn)定性更優(yōu)的混合驅(qū)動控制技術(shù)發(fā)展。

猜你喜歡
飛行器框架驅(qū)動
基于模糊PI控制的驅(qū)動防滑仿真系統(tǒng)分析
高超聲速飛行器
框架
屈宏斌:未來五年,雙輪驅(qū)動,砥礪前行
廣義框架的不相交性
軌旁ATC系統(tǒng)門控柜接收/驅(qū)動板改造
復(fù)雜飛行器的容錯(cuò)控制
電子制作(2018年2期)2018-04-18 07:13:25
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
基于S3C6410的Wi-Fi驅(qū)動移植實(shí)現(xiàn)
一種基于OpenStack的云應(yīng)用開發(fā)框架
开江县| 绥德县| 汾西县| 阜城县| 九江市| 资兴市| 达拉特旗| 许昌县| 阿鲁科尔沁旗| 外汇| 神农架林区| 武隆县| 张北县| 白城市| 内黄县| 无为县| 巢湖市| 张家港市| 随州市| 沅江市| 阳谷县| 洪洞县| 贵德县| 双辽市| 康平县| 布尔津县| 六安市| 金秀| 宾阳县| 句容市| 加查县| 磐石市| 西青区| 常山县| 高要市| 左云县| 南平市| 通城县| 从江县| 墨玉县| 通江县|