魏連震, 龔建偉, 陳慧巖, 李子睿,3, 龔乘
(1.北京理工大學(xué) 機械與車輛學(xué)院, 北京 100081; 2.北京理工大學(xué) 長三角研究院, 浙江 嘉興 314019;3.代爾夫特理工大學(xué) 交通與規(guī)劃系, 荷蘭 代爾夫特 2628 CN)
現(xiàn)代局部戰(zhàn)爭的實踐反復(fù)證明,高新技術(shù)已經(jīng)成為現(xiàn)代戰(zhàn)爭的制勝因素。隨著自主智能、網(wǎng)絡(luò)協(xié)同、云處理等高新技術(shù)的發(fā)展,作戰(zhàn)模式正在發(fā)生重要轉(zhuǎn)變,以地面無人戰(zhàn)車為代表的無人作戰(zhàn)系統(tǒng)能夠執(zhí)行多種特殊任務(wù),是應(yīng)對未來不確定形勢的重要突破口,具有廣泛的應(yīng)用前景。
在執(zhí)行打擊任務(wù)時,地面無人戰(zhàn)車通常可采取靜態(tài)射擊與行進(jìn)間射擊兩種作戰(zhàn)方式。相比靜態(tài)射擊的作戰(zhàn)方式,行進(jìn)間射擊能夠縮短任務(wù)完成時間以提升作戰(zhàn)效率,降低被反裝甲武器命中的概率從而提升戰(zhàn)場生存能力,是地面無人戰(zhàn)車未來發(fā)展的重要方向。行進(jìn)間射擊的關(guān)鍵技術(shù)之一是跟瞄鏡對目標(biāo)準(zhǔn)確、穩(wěn)定地跟瞄?,F(xiàn)代坦克主流采用穩(wěn)像式火控系統(tǒng):火炮與瞄準(zhǔn)鏡分別穩(wěn)定,瞄準(zhǔn)鏡對目標(biāo)實時跟瞄并調(diào)動火炮,火控計算機根據(jù)跟瞄角速度、目標(biāo)距離、炮彈彈種、風(fēng)速等值計算射擊諸元以實現(xiàn)射擊。然而,無論跟瞄系統(tǒng)處于穩(wěn)像狀態(tài)還是自動跟蹤狀態(tài),底盤運動和路面起伏都會對瞄準(zhǔn)帶來平移誤差,這給跟瞄控制系統(tǒng)帶來了挑戰(zhàn)。
為提升戰(zhàn)車行進(jìn)間跟瞄的準(zhǔn)確性與穩(wěn)定性,不同研究人員提出了各自的技術(shù)方案。如鐘洲等建立了車載防空導(dǎo)彈的行進(jìn)和發(fā)射一體化多柔性體動力學(xué)模型,并分析了路面和車速對防空導(dǎo)彈行進(jìn)間發(fā)射精度的影響,但僅重點關(guān)注動力學(xué)模型的創(chuàng)建與分析,并未給出合適的控制方法。慕巍等利用光電跟蹤儀、火炮、載體慣導(dǎo)系統(tǒng)、視頻跟蹤器和激光測距機輸出的相關(guān)參數(shù),完成瞄準(zhǔn)線坐標(biāo)系下方位速度環(huán)和俯仰速度環(huán)跟蹤前饋補償參數(shù)的計算,以提升對高速目標(biāo)跟瞄控制的準(zhǔn)確性。熊珍凱等針對機動快速目標(biāo)的跟蹤問題,采用基于當(dāng)前統(tǒng)計模型的改進(jìn)卡爾曼濾波算法預(yù)測出目標(biāo)運動狀態(tài)參數(shù),并采用自適應(yīng)滑模的解算控制方法,實現(xiàn)伺服系統(tǒng)的位置控制,提升跟瞄精度。這些方法沒有涉及本車運動狀態(tài)的分析,在動對靜、動對動場景受限。郝強等采集目標(biāo)距離、火炮相對車體角度和車體速度等信息,循環(huán)解算瞄準(zhǔn)線的補償角速度,減小了跟瞄誤差。但是,該方法僅考慮底盤速度影響,忽略了路面起伏影響,在地形復(fù)雜的越野場景中跟瞄補償?shù)男Ч患选埿l(wèi)民等以自行火炮與敵遭遇時緊急直瞄場景為研究對象,提出一種自行火炮自動直瞄控制方法,以提高火炮直瞄時快速反應(yīng)能力和射擊精度。然而,該方法側(cè)重于瞄準(zhǔn)的快速性,沒有充分考慮各種非線性干擾對瞄準(zhǔn)穩(wěn)定性的影響。朱斌等考慮系統(tǒng)內(nèi)部擾動和外部擾動對穩(wěn)瞄系統(tǒng)速度跟蹤精度的影響,提出了采用自抗擾的控制方案。不過,該方法側(cè)重于穩(wěn)定性,仍然沒有有效消除底盤運動與路面起伏因素帶來的瞄準(zhǔn)線平移誤差。
針對跟瞄控制存在的上述問題,本文從整車角度進(jìn)行研究,提出一種基于強化學(xué)習(xí)補償?shù)牡孛鏌o人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制方法。將感知模塊感知得到的地形信息與規(guī)劃模塊規(guī)劃得到的未來軌跡傳輸至上裝跟瞄控制模塊,上裝跟瞄控制模塊利用Dueling 深度Q網(wǎng)絡(luò)(DQN)強化學(xué)習(xí)算法對這些信息處理后得到補償控制量,以削弱底盤運動與路面起伏對跟瞄的影響,提升戰(zhàn)車跟瞄的準(zhǔn)確性與穩(wěn)定性。首先建立地面無人戰(zhàn)車一體化運動學(xué)模型,之后對補償控制方法進(jìn)行細(xì)節(jié)性描述,最后利用仿真實驗證明方法的有效性。
針對地面無人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制問題,提出問題場景模型、地面無人戰(zhàn)車一體化運動學(xué)模型以及強化學(xué)習(xí)模型。
地面無人戰(zhàn)車行進(jìn)間跟瞄平面示意如圖1所示。無人戰(zhàn)車接收上級指揮端下發(fā)的打擊任務(wù),從起點位置規(guī)劃戰(zhàn)車的運動軌跡,而后自主跟蹤運動軌跡并且實時搜索打擊目標(biāo),跟瞄系統(tǒng)對可疑目標(biāo)識別并在自動跟蹤狀態(tài)對其瞄準(zhǔn)。跟瞄控制的目標(biāo)是迅速、準(zhǔn)確、穩(wěn)定地減小跟瞄鏡與打擊目標(biāo)隨動角度誤差。
圖1 問題場景描述Fig.1 Problem scenario description
地面無人戰(zhàn)車采用履帶式移動底盤,可通過調(diào)節(jié)左、右兩側(cè)主動輪的轉(zhuǎn)速或轉(zhuǎn)矩控制整車航向和速度。戰(zhàn)車配備無人炮塔,其中升降式搜索鏡用于識別周圍可疑目標(biāo),跟瞄鏡對搜索到的敵方目標(biāo)實時跟瞄,火炮隨動,而后火控計算機計算射擊諸元,控制火炮在閾值內(nèi)完成射擊。考慮戰(zhàn)車底盤的平移、俯仰、橫擺、側(cè)傾等會對上裝跟瞄與打擊模塊產(chǎn)生影響,基于履帶式無人車運動學(xué)模型, 推導(dǎo)出右手坐標(biāo)系的地面無人戰(zhàn)車底盤與上裝一體化運動學(xué)模型,如圖2所示。
圖2 地面無人戰(zhàn)車一體化運動學(xué)模型Fig.2 Integrated kinematics model of unmanned combat ground vehicle
圖2中,為世界坐標(biāo)系,為底盤坐標(biāo)系,為跟瞄坐標(biāo)系,為火炮坐標(biāo)系。如2(a)中同時給出了可旋轉(zhuǎn)方向,記代表底盤在世界坐標(biāo)系中的橫擺角速度,代表底盤在世界坐標(biāo)系中的俯仰角速度,代表底盤在世界坐標(biāo)系中的側(cè)傾角速度,代表跟瞄鏡在底盤坐標(biāo)系中的方位角速度,代表跟瞄鏡在底盤坐標(biāo)系中的高低角速度,代表火炮在底盤坐標(biāo)系中的方位角速度,代表火炮在底盤坐標(biāo)系中的高低角速度。圖2(b)中、分別為左、右兩側(cè)履帶或驅(qū)動輪的牽連速度,為底盤在世界坐標(biāo)系中的橫擺角,為跟瞄鏡在世界坐標(biāo)系中的方位角,為火炮在世界坐標(biāo)系中的方位角,為戰(zhàn)車底盤履帶中心距,為底盤瞬時轉(zhuǎn)向中心,為底盤運動速度。
由于差速轉(zhuǎn)向戰(zhàn)車在轉(zhuǎn)向時,兩側(cè)履帶或驅(qū)動輪不可避免地會發(fā)生滑移滑轉(zhuǎn),定義左右兩側(cè)的滑移滑轉(zhuǎn)系數(shù)分別為
(1)
式中:、分別為左、右兩側(cè)履帶或驅(qū)動輪相對于車體的卷繞縱向線速度??紤]到滑轉(zhuǎn)滑移,底盤的運動速度、橫擺角速度分別為
(2)
(3)
由上述定義與推導(dǎo),可得地面無人戰(zhàn)車的數(shù)學(xué)模型為
(4)
式中:、、、分別為底盤在世界坐標(biāo)系中的俯仰角、側(cè)傾角、跟瞄鏡在世界坐標(biāo)系中的高低角以及火炮在世界坐標(biāo)系中的高低角。
強化學(xué)習(xí)是機器學(xué)習(xí)的一個重要分支,它模擬的是生物學(xué)中的行為主義,即自然界中的生物體在一定的正向或負(fù)向刺激下,通過不斷學(xué)習(xí)形成一套應(yīng)對刺激的策略,從而實現(xiàn)自身利益最大化。強化學(xué)習(xí)任務(wù)通常利用馬爾可夫決策過程(MDP)進(jìn)行描述,它滿足馬爾可夫性質(zhì):系統(tǒng)下一時刻狀態(tài)只與當(dāng)前時刻狀態(tài)有關(guān),與過往時刻狀態(tài)無關(guān)。MDP的基本組成是五元組(,,,,),其中為智能體在交互環(huán)境中的狀態(tài)集,為智能體在交互環(huán)境中對應(yīng)的動作集,為智能體的狀態(tài)轉(zhuǎn)移概率,為獎勵的折現(xiàn)因子,為智能體在交互環(huán)境中采取特定動作的回報獎勵。強化學(xué)習(xí)過程是智能體從初始狀態(tài)開始,不斷從動作集中選取動作進(jìn)行狀態(tài)的轉(zhuǎn)移,之后利用獎賞函數(shù)對選取的動作進(jìn)行評價從而更新參數(shù)直到累計獎勵最大化的過程,核心思想是試錯與學(xué)習(xí),具體如圖3所示。
圖3 強化學(xué)習(xí)過程Fig.3 Process of reinforcement learning
強化學(xué)習(xí)主體框架包括智能體、環(huán)境、動作、獎勵4個內(nèi)容。本文主要涉及地面無人戰(zhàn)車跟瞄控制方法:由強化學(xué)習(xí)控制的智能體為地面無人戰(zhàn)車的炮塔;環(huán)境指代的是戰(zhàn)車周圍態(tài)勢;動作指代的是炮塔方位角控制量、炮塔高低角控制量;獎勵指代的是人為設(shè)定的獎賞函數(shù)。通過獎賞函數(shù)的獎賞值引導(dǎo)智能體進(jìn)行學(xué)習(xí),下面闡述了強化學(xué)習(xí)模型的基本要素:
1)累積獎勵。智能體每次執(zhí)行動作后系統(tǒng)都會對該步操作進(jìn)行評價,該評價值是單步獎勵,累積獎勵是智能體在一個回合之后所有動作單步獎勵的折扣加權(quán)和,如(5)式所示:
(5)
式中:代表時刻后開始的累積獎勵;+1代表+1時刻的單步獎勵。需要注意的是:累積獎賞實際上是一個隨機變量,對它求期望可以得到價值函數(shù)。
2)策略。策略代表智能體在每種狀態(tài)下執(zhí)行某種動作的概率,是狀態(tài)空間到動作空間的映射,如(6)式所示:
(|)=[=|=]
(6)
式中:(|)為狀態(tài)時執(zhí)行動作的概率;為時刻可選動作集;為時刻狀態(tài)集。
3)狀態(tài)價值函數(shù)。為評價智能體所在狀態(tài)的優(yōu)劣,需獲得智能體從當(dāng)前狀態(tài)轉(zhuǎn)移到結(jié)束狀態(tài)的累積獎勵,在當(dāng)前狀態(tài)下按照一個固定策略求得的累積獎勵期望是狀態(tài)價值函數(shù),如(7)式所示:
(7)
4)動作價值函數(shù)。在當(dāng)前狀態(tài)下執(zhí)行某個動作后按照某固定策略求得的累積獎勵期望即是動作價值函數(shù),如(8)式所示:
(8)
5)貝爾曼方程。貝爾曼方程是將多層決策轉(zhuǎn)化為多個決策的動態(tài)規(guī)劃過程,根據(jù)迭代公式求解狀態(tài)價值函數(shù)與動作價值函數(shù),狀態(tài)價值函數(shù)與動作價值函數(shù)對應(yīng)的貝爾曼方程分別為
(9)
(10)
跟瞄控制問題的核心在于跟瞄系統(tǒng)能夠快速、準(zhǔn)確、穩(wěn)定地對目標(biāo)實時瞄準(zhǔn),其難點在于目標(biāo)點運動、己方戰(zhàn)車運動、路面起伏等因素帶來的非線性干擾。針對此,本文提出一種基于強化學(xué)習(xí)補償?shù)牡孛鏌o人戰(zhàn)車跟瞄控制方法,以減小跟瞄誤差,提升跟瞄性能。
控制方法架構(gòu)如圖4所示。PID控制器根據(jù)當(dāng)前跟瞄偏差得到主控制量;Dueling DQN控制器將底盤局部規(guī)劃路徑點與目標(biāo)的相對位置、局部規(guī)劃路徑點附近的起伏梯度、車輛運動速度、當(dāng)前跟瞄誤差等信息作為輸入,利用神經(jīng)網(wǎng)絡(luò)處理得到補償控制量;主控制量與補償控制量加權(quán)之和為最終控制量,共包括方位控制量與高低控制量兩個輸出。主控制量保證跟瞄的大致方向性,補償控制量用于對主控制量進(jìn)行修正,從而提升地面無人戰(zhàn)車行進(jìn)間跟瞄對底盤速度變化以及路面起伏的自適應(yīng)能力。需要說明的是:該控制方法得到的控制量是跟瞄系統(tǒng)下一時刻相對轉(zhuǎn)動的角度增量,并非底層的轉(zhuǎn)矩控制量。本文中強化學(xué)習(xí)算法的學(xué)習(xí)機制與網(wǎng)絡(luò)結(jié)構(gòu)能夠針對復(fù)雜動態(tài)信息分析和處理,并且具備持續(xù)學(xué)習(xí)效果,隨著訓(xùn)練次數(shù)的增多,跟瞄效果的準(zhǔn)確性與穩(wěn)定性可逐步提升。圖4中,、分別為方位角度偏差值與高低角度偏差值,、、、、、分別為方位角和高低角對應(yīng)的比例、積分、微分權(quán)重系數(shù),是方位角增量,是高低角增量。
圖4 基于強化學(xué)習(xí)的補償控制方法架構(gòu)圖Fig.4 Framework of compensation control method based on reinforcement Learning
戰(zhàn)車對目標(biāo)的實時跟瞄偏差角度值可以由目標(biāo)在跟瞄坐標(biāo)系中位置求解得到,角度計算如(11)式所示:
(11)
式中:、、代表跟瞄目標(biāo)在世界坐標(biāo)系中坐標(biāo);、、代表車輛跟瞄鏡在世界坐標(biāo)系中坐標(biāo)。
最終的控制量(當(dāng)前控制時刻相對于上一控制時刻,其跟瞄方位角度增量與跟瞄高低角度增量)的數(shù)學(xué)表達(dá)如(12)式所示:
(12)
式中:、分別為方位角和高低角主控制量權(quán)重系數(shù);、分別為方位角和高低角主控制量;、分別為方位角和高低角補償控制量權(quán)重系數(shù);、分別為方位角和高低角補償控制量;代表積分時間;r()、()分別為強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)擬合的方位角和高低角非線性函數(shù)。
本文采用的強化學(xué)習(xí)算法參考了Dueling DQN算法思路,它屬于值迭代算法的一種,是基于傳統(tǒng)DQN算法的一種改進(jìn)算法,如圖5所示。圖5中,()代表第條數(shù)據(jù)對應(yīng)的誤差值,代表一次性處理的數(shù)據(jù)條數(shù)。
圖5 強化學(xué)習(xí)算法思路圖Fig.5 Algorithm diagram of reinforcement learning
圖5中,估計網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)上一致,區(qū)別在于估計網(wǎng)絡(luò)實時更新參數(shù),目標(biāo)網(wǎng)絡(luò)非實時更新,算法值計算如(13)式所示:
(13)
式中:(|,) 為狀態(tài)值函數(shù),用于衡量狀態(tài)價值,僅與狀態(tài)有關(guān),為公有網(wǎng)絡(luò)參數(shù),為狀態(tài)值函數(shù)特有網(wǎng)絡(luò)參數(shù);(,|,)是動作優(yōu)勢函數(shù),用于衡量不同動作相對于所處狀態(tài)的價值,同時與狀態(tài)以及動作有關(guān),是動作優(yōu)勢函數(shù)特有網(wǎng)絡(luò)參數(shù);為離散動作空間元素個數(shù)。
本文中使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,其中方位角度補償控制網(wǎng)絡(luò)與高低角度補償控制網(wǎng)絡(luò)類似,區(qū)別在于神經(jīng)網(wǎng)絡(luò)的輸入信息、輸出信息以及神經(jīng)元個數(shù)。方位角度補償控制網(wǎng)絡(luò)的輸入為底盤局部規(guī)劃路徑點與目標(biāo)的相對位置、左右履帶速度、方位跟瞄誤差;高低角度補償控制網(wǎng)絡(luò)的輸入為局部規(guī)劃路徑點附近的起伏梯度、左右履帶速度、高低跟瞄誤差。其中,路徑附近起伏梯度指的是“一定數(shù)目的未來路徑點以及對應(yīng)的左右偏移路徑點集合”前后相鄰點之間高度差值構(gòu)成的矩陣。輸入信息先經(jīng)過若干層全連接層,之后分為狀態(tài)值網(wǎng)絡(luò)以及動作值網(wǎng)絡(luò),最后得到每種動作對應(yīng)的值。此外,本文對部分全連接層進(jìn)行了處理,即在訓(xùn)練階段隨機將部分神經(jīng)元丟棄從而削弱訓(xùn)練中的發(fā)生過擬合現(xiàn)象。
圖6 Dueing DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Structure of Dueing DQN neural network
程序訓(xùn)練過程:先隨機探索一定步數(shù)以獲得多組數(shù)據(jù)并將其存儲在經(jīng)驗池中,每一次從經(jīng)驗池中抽出若干條數(shù)據(jù)并不斷更新網(wǎng)絡(luò)參數(shù)值,直至模型滿足要求或訓(xùn)練次數(shù)達(dá)到閾值。Dueling DQN算法是通過最小化時序差分誤差實現(xiàn)網(wǎng)絡(luò)更新,其數(shù)學(xué)表達(dá)如(14)式所示:
=(+max′′(′,′|′,′,′)-
(,|,,))
(14)
式中:′代表下一狀態(tài)的目標(biāo)值。因?qū)嶋H進(jìn)行參數(shù)更新是同時對若干條數(shù)據(jù)進(jìn)行處理,平均后的誤差值如(15)式所示:
(15)
利用TD誤差對網(wǎng)絡(luò)參數(shù)的更新原理是借助梯度下降算法,本文在實驗時采用了Adam優(yōu)化器實現(xiàn)參數(shù)梯度下降,相比傳統(tǒng)的隨機梯度下降算法能夠更快地實現(xiàn)參數(shù)收斂。
底盤運動是影響地面無人戰(zhàn)車行進(jìn)間跟瞄誤差的一個重要非線性干擾,當(dāng)速度大小或者速度方向發(fā)生變化時會對跟瞄的穩(wěn)定性產(chǎn)生影響,即使戰(zhàn)車保持勻速直線運動,也會對戰(zhàn)車跟瞄帶來瞄準(zhǔn)線的平移。路面起伏是影響地面無人戰(zhàn)車行進(jìn)間跟瞄誤差的另一個重要非線性干擾因素。基于單獨PID控制的跟瞄算法不能對戰(zhàn)車未來階段的起伏信息進(jìn)行預(yù)判,這種被動跟隨控制策略在起伏路面時跟瞄效果不佳;并且,由于路面起伏的復(fù)雜性,傳統(tǒng)的前饋補償方法難以針對性開展設(shè)計。本章基于V-REP動力學(xué)仿真軟件進(jìn)行強化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)訓(xùn)練與測試,通過觀察訓(xùn)練過程中獎賞值的上升和對比單獨PID控制方法與補償控制方法跟瞄誤差角數(shù)值來驗證本文提出的補償控制方法有效性,仿真實驗流程如圖7所示,仿真軟硬件環(huán)境如表1所示。
圖7 仿真實驗流程圖Fig.7 Flow chart of simulation
表1 仿真軟硬件環(huán)境
為在V-REP動力學(xué)軟件中搭建路面起伏環(huán)境,采用Perlin噪聲算法構(gòu)建近似于自然環(huán)境的起伏路面,并將地形文件、車輛模型、打擊目標(biāo)導(dǎo)入V-REP仿真軟件,再利用ROS接口實現(xiàn)與程序端的通信,最終完成起伏路面仿真環(huán)境搭建,如圖8所示。仿真中設(shè)定車輛運動速度為15 km/h,方位角速度閾值為40°/s,高低角速度閾值為40°/s。設(shè)計兩個強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分別對方位角與高低角進(jìn)行補償控制,強化學(xué)習(xí)的基本信息如表2所示。
圖8 三維仿真環(huán)境搭建過程Fig.8 Construction process of 3D simulation environment
表2 強化學(xué)習(xí)基本設(shè)置
由表2可以看出,獎賞函數(shù)是關(guān)于目標(biāo)跟瞄角誤差值的二次函數(shù),當(dāng)誤差角越小時對應(yīng)的獎賞值越大,因此可通過觀察訓(xùn)練過程中獎賞值變化分析跟瞄效果。圖9繪制出了無人戰(zhàn)車從起始位置自主運動到目標(biāo)位置的前500次訓(xùn)練過程中高低角網(wǎng)絡(luò)平均獎賞值的變化情況,為便于觀察進(jìn)行了均值濾波。由圖9看出:隨著訓(xùn)練次數(shù)地增多,平均獎賞值呈現(xiàn)整體上升的趨勢,這代表Dueling DQN控制器對于跟瞄誤差補償效果隨著訓(xùn)練增多而提升。
圖9 平均獎賞值變化圖Fig.9 Variation diagram of average reward values
地面無人戰(zhàn)車在從起點位置到終點位置的運行中,不同跟瞄控制方法對應(yīng)的跟瞄角度誤差均值能夠反映控制效果的好壞。
將戰(zhàn)車從跟瞄穩(wěn)定位置到終點位置運動過程中上裝跟瞄角度誤差的變化情況進(jìn)行記錄,并對比基于PID控制與強化學(xué)習(xí)補償控制兩種方法的跟瞄角度誤差變化情況,對比結(jié)果如圖10所示,其中圖10(a)為方位角度誤差變化,圖10(b)為高低角度誤差變化。由圖10可知:基于強化學(xué)習(xí)補償?shù)目刂品椒ㄆ骄檎`差明顯更小,控制效果更優(yōu)。
圖10 跟瞄角誤差變化圖Fig.10 Variation diagram of tracking/aiming error
本文提出一種基于強化學(xué)習(xí)補償?shù)牡孛鏌o人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制方法,有效地提升了地面無人戰(zhàn)車的動態(tài)作戰(zhàn)性能。首先建立地面無人戰(zhàn)車一體化運動學(xué)模型以及強化學(xué)習(xí)模型,然后具體介紹了基于強化學(xué)習(xí)補償?shù)母榭刂品椒軜?gòu),最后基于V-REP動力學(xué)仿真軟件進(jìn)行了控制方法效果對比,得出結(jié)論:強化學(xué)習(xí)補償能夠較好地削弱速底盤運動以及路面起伏對上裝跟瞄的非線性干擾。不過,目前的工作仍是初步的:1)在跟瞄系統(tǒng)建模方面采用了簡單運動學(xué)模型,后續(xù)會針對該模型進(jìn)行完善并深入分析底盤運動與路面起伏對跟瞄性能的影響特性;2)后續(xù)將補充開展與上裝載荷任務(wù)相協(xié)同的底盤運動規(guī)劃研究。