伍瑞卓,張興龍,徐 昕,張昌昕
(國(guó)防科技大學(xué)智能科學(xué)學(xué)院,湖南長(zhǎng)沙 410073)
近年來(lái),地面機(jī)器人廣泛地應(yīng)用在工業(yè)、服務(wù)業(yè)、醫(yī)療業(yè)和特殊危險(xiǎn)行業(yè),應(yīng)用環(huán)境表現(xiàn)出多樣化和復(fù)雜化的特征.相比于結(jié)構(gòu)化道路環(huán)境,機(jī)器人在植被覆蓋、鋪有沙礫、結(jié)冰或高低起伏的地面上運(yùn)動(dòng)時(shí),其底層動(dòng)力學(xué)會(huì)因道路變化而發(fā)生變化,使得機(jī)器人跟蹤控制面臨環(huán)境不確定性和模型不確定性的挑戰(zhàn),因此,機(jī)器人在不同地形條件下的運(yùn)動(dòng)控制成為了一個(gè)重要研究問(wèn)題.
強(qiáng)化學(xué)習(xí)作為一類能夠求解序貫決策優(yōu)化問(wèn)題的機(jī)器學(xué)習(xí)方法,受到了廣泛的關(guān)注和研究[1-3],研究人員通過(guò)算法設(shè)計(jì)使得智能體在環(huán)境中進(jìn)行主動(dòng)探索,并且獲得“獎(jiǎng)勵(lì)”或“懲罰”,以此來(lái)學(xué)習(xí)和優(yōu)化智能體在當(dāng)前不確定環(huán)境中的運(yùn)動(dòng)策略.因?yàn)榫S數(shù)災(zāi)難問(wèn)題,近年的強(qiáng)化學(xué)習(xí)工作主要圍繞大規(guī)模連續(xù)空間MDP(Markov decision process)的值函數(shù)與策略逼近方法展開(kāi),可以分為基于值函數(shù)逼近的強(qiáng)化學(xué)習(xí)算法、基于策略梯度的強(qiáng)化學(xué)習(xí)算法和基于執(zhí)行器-評(píng)價(jià)器的強(qiáng)化學(xué)習(xí)算法,其中基于執(zhí)行器-評(píng)價(jià)器的強(qiáng)化學(xué)習(xí)算法,被用于求解連續(xù)空間中的最優(yōu)控制問(wèn)題[4].
基于執(zhí)行器-評(píng)價(jià)器的強(qiáng)化學(xué)習(xí)算法通過(guò)構(gòu)建執(zhí)行器和評(píng)價(jià)器結(jié)構(gòu),并利用函數(shù)近似這兩種結(jié)構(gòu),逼近動(dòng)態(tài)規(guī)劃方程中的性能指標(biāo)函數(shù)和控制策略以滿足最優(yōu)性原理.Werbos[5]提出了兩種經(jīng)典的基于執(zhí)行器-評(píng)價(jià)器的強(qiáng)化學(xué)習(xí)方法算法,分別是啟發(fā)式動(dòng)態(tài)規(guī)劃(heuristic dynamic programming,HDP)和對(duì)偶啟發(fā)式規(guī)劃(dual heuristic programming,DHP).Xu 等人[6-7]在DHP 的基礎(chǔ)上,提出了滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)算法(receding horizon reinforcement learning,RHRL),將無(wú)限時(shí)域下的優(yōu)化問(wèn)題轉(zhuǎn)換為多個(gè)有限時(shí)域下的優(yōu)化問(wèn)題,該方法結(jié)合了強(qiáng)化學(xué)習(xí)和模型預(yù)測(cè)控制方法的優(yōu)勢(shì),相比模型預(yù)測(cè)控制,滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)能獲得優(yōu)化策略的顯式表達(dá)式,相鄰預(yù)測(cè)時(shí)域的策略學(xué)習(xí)具有連續(xù)性;相比無(wú)限時(shí)域強(qiáng)化學(xué)習(xí),滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)在復(fù)雜非線性系統(tǒng)優(yōu)化控制問(wèn)題上的求解效率高,可以實(shí)現(xiàn)在線優(yōu)化.但由于要求已知系統(tǒng)模型信息,所以準(zhǔn)確的系統(tǒng)模型是滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)算法保證性能穩(wěn)定的關(guān)鍵.
近年來(lái),學(xué)者們針對(duì)滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)算法開(kāi)展了許多研究.文獻(xiàn)[8]針對(duì)離散非線性系統(tǒng)設(shè)計(jì)基于滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)的控制器,將其用于求解非線性最優(yōu)控制問(wèn)題,有效降低計(jì)算代價(jià).針對(duì)連續(xù)時(shí)間系統(tǒng),文獻(xiàn)[9]在預(yù)測(cè)時(shí)域內(nèi)設(shè)計(jì)了一組與時(shí)間相關(guān)的執(zhí)行器和評(píng)價(jià)器用于學(xué)習(xí)隨狀態(tài)改變的值函數(shù)和策略,有效提升優(yōu)化控制性能.針對(duì)未知模型帶約束的非線性系統(tǒng)優(yōu)化控制問(wèn)題,有學(xué)者提出了一種魯棒的滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)方法以完成在線優(yōu)化求解,并從理論上分析了該方法的收斂性和迭代可行性,以及閉環(huán)系統(tǒng)的魯棒性和漸近穩(wěn)定性,在仿真和實(shí)驗(yàn)中驗(yàn)證了有效性和優(yōu)越性[10].文獻(xiàn)[11]將滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)應(yīng)用在智能車輛跟蹤控制中,在城市測(cè)試道路和鄉(xiāng)村起伏砂石道路中進(jìn)行了實(shí)車實(shí)驗(yàn),充分驗(yàn)證了該方法的有效性和適應(yīng)能力.目前基于滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)的控制算法主要考慮在結(jié)構(gòu)化道路上的情況,而在復(fù)雜地形條件下,移動(dòng)機(jī)器人的運(yùn)動(dòng)控制會(huì)受到環(huán)境不確定性的影響,使得移動(dòng)機(jī)器人的高精度控制仍然面臨挑戰(zhàn).
高斯過(guò)程回歸(Gaussian process regression,GPR)在基于模型的學(xué)習(xí)預(yù)測(cè)控制中也是一種常用的機(jī)器學(xué)習(xí)方法,可以用于設(shè)計(jì)機(jī)器人運(yùn)動(dòng)控制的預(yù)測(cè)控制器,例如地面移動(dòng)輪式機(jī)器人[12]、小型飛艇[13]等,以提升機(jī)器人對(duì)不確定環(huán)境的自適應(yīng)能力.目前在學(xué)習(xí)預(yù)測(cè)控制領(lǐng)域內(nèi),大多數(shù)研究是將高斯過(guò)程回歸建模方法與MPC(model predictive control)方法結(jié)合.Kocijan等人[14]最早將高斯過(guò)程回歸引入預(yù)測(cè)控制中,辨識(shí)完整的動(dòng)力學(xué)系統(tǒng),并使用MPC方法進(jìn)行預(yù)測(cè)控制;Ostafew 等人[12,15]利用高斯過(guò)程回歸和機(jī)器人非線性先驗(yàn)?zāi)P凸餐平鎸?shí)模型,以實(shí)現(xiàn)基于學(xué)習(xí)的MPC方法,并在復(fù)雜地形條件下完成機(jī)器人控制實(shí)驗(yàn)驗(yàn)證,有效的驗(yàn)證了所提方法在環(huán)境不確定條件下的學(xué)習(xí)能力.高斯過(guò)程也被應(yīng)用在強(qiáng)化學(xué)習(xí)中,包括基于值函數(shù)逼近的強(qiáng)化學(xué)習(xí)方法[16]和基于策略梯度的強(qiáng)化學(xué)習(xí)算法[17-19].此外,Chua等人[20]將高斯過(guò)程與神經(jīng)網(wǎng)絡(luò)結(jié)合,將其用于有模型的深度強(qiáng)化學(xué)習(xí)中,以提高樣本的利用率.目前還沒(méi)有高斯過(guò)程在基于執(zhí)行器-評(píng)價(jià)器的強(qiáng)化學(xué)習(xí)算法中的相關(guān)研究.
本文針對(duì)復(fù)雜地形條件下機(jī)器人高精度控制受到環(huán)境和模型不確定性影響的問(wèn)題,提出了基于高斯過(guò)程建模的學(xué)習(xí)預(yù)測(cè)控制方法,所提方法能夠在復(fù)雜地形條件下實(shí)時(shí)學(xué)習(xí)環(huán)境和模型不確定性,不需要精確的機(jī)器人模型,并可以在線學(xué)習(xí)最優(yōu)控制策略,有效提升移動(dòng)機(jī)器人在復(fù)雜地形條件下的適應(yīng)能力.該方法結(jié)合了高斯過(guò)程建模泛化能力強(qiáng)、計(jì)算效率高和滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)算法求解效率高的優(yōu)勢(shì),利用高斯過(guò)程建立機(jī)器人系統(tǒng)誤差狀態(tài)模型,以學(xué)習(xí)得到環(huán)境和模型不確定性的表征,并將其用于滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)中,通過(guò)在線迭代優(yōu)化學(xué)習(xí)在該環(huán)境下的最優(yōu)策略,從而減小環(huán)境和模型不確定性對(duì)機(jī)器人運(yùn)動(dòng)控制的影響,有效提升控制性能.
本文的研究對(duì)象為輪式機(jī)器人,定義狀態(tài)向量為x=[x y θ]T,x ∈Rn;輸入向量為u=[v w]T,u∈Rm;當(dāng)前時(shí)刻為k;?為采樣間隔.移動(dòng)機(jī)器人運(yùn)動(dòng)學(xué)模型為
因?yàn)橐苿?dòng)機(jī)器人底層動(dòng)力學(xué)會(huì)隨著外部環(huán)境的變化而產(chǎn)生變化,以及移動(dòng)機(jī)器人系統(tǒng)具有非線性性,所以導(dǎo)致機(jī)器人運(yùn)動(dòng)過(guò)程中實(shí)際狀態(tài)與理想狀態(tài)之間存在偏差,可以用?表示該偏差,?=[εxεyεθ]T,由此得到實(shí)際狀態(tài)的表達(dá)式為
除去擾動(dòng)部分,參考軌跡與上述運(yùn)動(dòng)學(xué)模型具有相同的形式,定義參考狀態(tài)向量為xr=[xryrθr]T,參考控制量為ur=[vrwr]T,由此得到參考軌跡的狀態(tài)方程為
輪式機(jī)器人及其與參考軌跡的關(guān)系如圖1所示,由于本文針對(duì)側(cè)向控制問(wèn)題,所以令速度v=vr.根據(jù)文獻(xiàn)[21],定義誤差xe=[xeyeθe]T,其滿足
圖1 輪式機(jī)器人和參考軌跡示意圖Fig.1 Diagram of wheeled robot and reference trajectory
通過(guò)式(4)旋轉(zhuǎn)坐標(biāo)框架得到誤差狀態(tài)模型為
中間部分化簡(jiǎn)時(shí)令θe(k)+εθ(k)近似等于θe(k).
輪式機(jī)器人的運(yùn)動(dòng)學(xué)模型(1)在參考軌跡點(diǎn)的誤差狀態(tài)方程為
可以發(fā)現(xiàn)實(shí)際誤差狀態(tài)方程(5)與運(yùn)動(dòng)學(xué)模型得出的誤差狀態(tài)方程(6)僅相差擾動(dòng)項(xiàng).將坐標(biāo)旋轉(zhuǎn)矩陣記為D(k),即
將式(6)代入式(5)得到
定義誤差狀態(tài)擾動(dòng)為?e=[εexεeyεeθ]T,那么?e與狀態(tài)擾動(dòng)ε的關(guān)系為
在已知k時(shí)刻的狀態(tài)擾動(dòng)?(k)后,即可通過(guò)式(9)計(jì)算得到k時(shí)刻的誤差狀態(tài)的擾動(dòng)?e(k),則式(8)可化簡(jiǎn)為
誤差狀態(tài)模型可以拆分為標(biāo)稱誤差狀態(tài)模型和擾動(dòng)模型兩個(gè)部分,標(biāo)稱誤差狀態(tài)模型是考慮擾動(dòng)不存在的理想模型,擾動(dòng)模型是根據(jù)實(shí)際的環(huán)境建立得到的模型.該混合模型既考慮了機(jī)器人固有的先驗(yàn)?zāi)P?避免了構(gòu)建純數(shù)據(jù)驅(qū)動(dòng)建模的黑箱模型,又引入擾動(dòng)模型以考慮環(huán)境和模型不確定性對(duì)機(jī)器人動(dòng)力學(xué)的影響.并且在運(yùn)動(dòng)過(guò)程中,通過(guò)不斷更新數(shù)據(jù)集樣本的方式,可以完成擾動(dòng)模型的實(shí)時(shí)學(xué)習(xí),從而適應(yīng)復(fù)雜地形.
而后,在預(yù)測(cè)時(shí)域內(nèi)采用該誤差狀態(tài)模型學(xué)習(xí)近似最優(yōu)策略.
本文提出的基于高斯建模的移動(dòng)機(jī)器人學(xué)習(xí)預(yù)測(cè)控制方法的整體框架如圖2所示,該方法分成模型學(xué)習(xí)和策略學(xué)習(xí)兩個(gè)部分.
圖2 高斯-RHRL方法框架Fig.2 The framework of GP-RHRL
記當(dāng)前時(shí)刻為k,預(yù)測(cè)時(shí)域的長(zhǎng)度為N,N ∈N+,數(shù)據(jù)集DP中的樣本是由真實(shí)模型在過(guò)去時(shí)刻產(chǎn)生的.在模型學(xué)習(xí)中,首先將當(dāng)前時(shí)刻k下的狀態(tài)a*(k)與數(shù)據(jù)集DP中的數(shù)據(jù)進(jìn)行相似性度量,相似度高的數(shù)據(jù)組成Dq,相似度較低的放入數(shù)據(jù)集DP中以更新樣本池.而后在每一步策略學(xué)習(xí)前通過(guò)高斯過(guò)程回歸建立公式(10)中的擾動(dòng)模型,得到擾動(dòng)預(yù)測(cè)量;在策略學(xué)習(xí)中,采用滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)求解優(yōu)化控制問(wèn)題,在預(yù)測(cè)時(shí)域[k,k+N]內(nèi)進(jìn)行策略優(yōu)化和策略評(píng)估,通過(guò)迭代優(yōu)化以實(shí)現(xiàn)在線近似最優(yōu)策略的學(xué)習(xí),從而獲取預(yù)測(cè)時(shí)域內(nèi)的控制序列將第1個(gè)控制量u(k)作為輸入施加到真實(shí)模型中,得到的下一時(shí)刻狀態(tài)x(k+1)用于學(xué)習(xí)下一預(yù)測(cè)時(shí)域內(nèi)的控制策略,以此類推實(shí)現(xiàn)在線滾動(dòng)優(yōu)化機(jī)制.
假設(shè)數(shù)據(jù)集DP中g(shù)(ai)都源于一個(gè)零均值的高斯過(guò)程,如式(13)所示:
其中s(·,·)為核函數(shù),本文使用多元二次核函數(shù),如式(14)所示,因?yàn)槎嘣魏瞬粌H是各階可微分的,滿足了后續(xù)對(duì)高斯過(guò)程求偏導(dǎo)數(shù)的要求,并且計(jì)算代價(jià)小于高斯核函數(shù),可以提升算法速度,即
其中:S ∈Rp×p為協(xié)方差矩陣;(S)ij=s(ai,aj).
記超參數(shù)為Ψ=[σp σn σm ?]T,基于已有數(shù)據(jù)集的似然函數(shù)為
最優(yōu)超參數(shù)可以通過(guò)最大化似然函數(shù)得到,即
將待預(yù)測(cè)的輸入向量定義為a*,對(duì)應(yīng)的預(yù)測(cè)輸出定義為g(a*).下一步將構(gòu)建訓(xùn)練樣本a,g(a)和預(yù)測(cè)樣本a*的聯(lián)合高斯先驗(yàn)分布為
根據(jù)文獻(xiàn)[22-23]的第9.4小節(jié)可知,在微分線性算子的作用下,高斯過(guò)程的微分依然是高斯過(guò)程,可以獲得其偏導(dǎo)數(shù).因?yàn)闈L動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)僅需要下一時(shí)刻誤差狀態(tài)對(duì)當(dāng)前時(shí)刻誤差狀態(tài)和動(dòng)作的偏導(dǎo)數(shù),所以只計(jì)算高斯過(guò)程回歸預(yù)測(cè)分布的均值μ對(duì)預(yù)測(cè)樣本a*的偏導(dǎo)數(shù),不考慮方差的偏導(dǎo)數(shù).
則有均值對(duì)誤差狀態(tài)的偏導(dǎo)數(shù)為
其中:i ∈{n+1,2n},j ∈{1,n},以及均值對(duì)動(dòng)作的偏導(dǎo)數(shù)為
其中:i=2n+m,j ∈{1,n}.因?yàn)槲⒎质蔷€性算子,故有
又因?yàn)楸疚闹惺褂玫亩嘣魏撕瘮?shù)是可微的,所以可以得到?s(a*,ai),如公式(24)所示:
將?s(a*,ai)代入式(23)后,便可以計(jì)算出均值對(duì)預(yù)測(cè)樣本的偏導(dǎo)數(shù)?μ,再根據(jù)式(21)-(22)分別得到均值對(duì)誤差狀態(tài)和動(dòng)作的偏導(dǎo)數(shù).
高斯過(guò)程建模中涉及核矩陣的求逆計(jì)算,完整的高斯過(guò)程回歸時(shí)間復(fù)雜度為O(p3),這導(dǎo)致完整高斯過(guò)程回歸在實(shí)時(shí)性要求較高的問(wèn)題中難以得到應(yīng)用.為了減小計(jì)算量,目前衍生出多種可延展高斯過(guò)程回歸方法,可以分為全局近似和局部近似兩種類型[24].數(shù)據(jù)子集法屬于全局近似方法,其思想是利用訓(xùn)練數(shù)據(jù)的一個(gè)子集(子集中數(shù)據(jù)量為q)來(lái)近似整個(gè)高斯過(guò)程,其優(yōu)勢(shì)是將時(shí)間復(fù)雜度從O(p3)降為O(q3),且原理簡(jiǎn)單易實(shí)現(xiàn).所以本文采用數(shù)據(jù)子集法進(jìn)行高斯過(guò)程回歸預(yù)測(cè).
將對(duì)預(yù)測(cè)樣本a*和數(shù)據(jù)集中的樣本ai進(jìn)行相似性度量來(lái)完成數(shù)據(jù)子集的提取.根據(jù)文獻(xiàn)[25]可知,針對(duì)高維數(shù)據(jù),采用距離和角度度量能更加有效的區(qū)分樣本,如式(25)所示:
通過(guò)高斯過(guò)程回歸建模得到誤差狀態(tài)模型后,便可以采用學(xué)習(xí)預(yù)測(cè)控制算法在線迭代優(yōu)化得到控制量,下一小節(jié)將詳細(xì)介紹基于滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)的預(yù)測(cè)控制算法.
為了研究第2小節(jié)中的控制問(wèn)題,需要將其轉(zhuǎn)化為優(yōu)化問(wèn)題.定義目標(biāo)函數(shù)為
根據(jù)貝爾曼方程可知當(dāng)前狀態(tài)的值函數(shù)取決于下一個(gè)狀態(tài)的值函數(shù)以及當(dāng)前狀態(tài)采取的動(dòng)作所得到的即時(shí)獎(jiǎng)勵(lì),式(26)可寫成如下形式:
定義代價(jià)函數(shù)為
其中:R ∈R+為正數(shù);Um為控制量的最大值;ρ=UmR,H是一類連續(xù)可微單調(diào)遞增的奇函數(shù),且滿足‖H(·)‖2≤1;H-1為其反函數(shù),該式可對(duì)系統(tǒng)輸入進(jìn)行軟約束,本文采用雙曲正切函數(shù),H(·)=tanh(·).定義終端代價(jià)函數(shù)為
其中P為正定矩陣.
由此,有限時(shí)域滾動(dòng)優(yōu)化求解最優(yōu)策略可以描述為
下一時(shí)刻狀態(tài)對(duì)當(dāng)前時(shí)刻動(dòng)作偏導(dǎo)數(shù)記作d(u(τ)),即
假設(shè)瞬時(shí)代價(jià)r(τ)只與當(dāng)前狀態(tài)a(τ)和動(dòng)作u(τ)相關(guān),與下一狀態(tài)無(wú)關(guān),同時(shí)根據(jù)Bellman最優(yōu)原理,最優(yōu)值函數(shù)作V*(τ)在策略π滿足如下離散HJB方程:
最優(yōu)動(dòng)作u*(τ)滿足
對(duì)最優(yōu)狀態(tài)值函數(shù)求取最優(yōu)動(dòng)作的偏導(dǎo),使其等于零可以得到最優(yōu)動(dòng)作解析表達(dá)式為
為了提升求解效率,引入Actor-Critic結(jié)構(gòu)與值函數(shù)逼近進(jìn)行預(yù)測(cè)時(shí)域的策略學(xué)習(xí).在預(yù)測(cè)時(shí)域τ ∈Ω內(nèi),值函數(shù)和策略是根據(jù)當(dāng)前狀態(tài)改變的,所以采用N組時(shí)間相關(guān)的神經(jīng)網(wǎng)絡(luò)逼近預(yù)測(cè)時(shí)域內(nèi)的Actor-Critic,如圖3所示,網(wǎng)絡(luò)結(jié)構(gòu)為采用3層的反向傳播神經(jīng)網(wǎng)絡(luò),表示為Critic網(wǎng)絡(luò)逼近最優(yōu)狀態(tài)值函數(shù)的協(xié)狀態(tài)λ*(τ),可以將其命名為Critic(k),Critic(k+1),···,Critic(k+N-1),Actor 網(wǎng)絡(luò)逼近最優(yōu)動(dòng)作u*(k),可以將其命名為Actor(k),Actor(k+1),···,Actor(k+N-1).
圖3 滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)Fig.3 The structure of receding horizon reinforcement learning algorithm
記i ∈N+為預(yù)測(cè)時(shí)域內(nèi)在線學(xué)習(xí)的迭代次數(shù),在第i次迭代中,將當(dāng)前策略下的值函數(shù)記作V(i)(τ),網(wǎng)絡(luò)輸出的協(xié)狀態(tài)和動(dòng)作記作λ(i)(τ)和u(i)(τ).
網(wǎng)絡(luò)Critic(τ)的學(xué)習(xí)目標(biāo)為極小化如下時(shí)域差分誤差:
采用時(shí)域差分算法更新每次迭代的評(píng)價(jià)器網(wǎng)絡(luò)權(quán)值,其更新規(guī)則可以表示為
網(wǎng)絡(luò)Actor(τ)的學(xué)習(xí)目標(biāo)為極小化如下誤差函數(shù):
在實(shí)際應(yīng)用中,由于計(jì)算機(jī)算力的限制和應(yīng)用中系統(tǒng)實(shí)時(shí)性的要求,迭代次數(shù)數(shù)i →∞一般難以實(shí)現(xiàn),所以提出策略學(xué)習(xí)終止的判別條件.
收斂條件1網(wǎng)絡(luò)權(quán)值收斂.
收斂條件2預(yù)測(cè)時(shí)域內(nèi)性能指標(biāo)收斂.
其中ΔW和ΔV是判斷評(píng)價(jià)器和執(zhí)行器網(wǎng)絡(luò)收斂的閾值.收斂條件1和2可以同時(shí)使用,也可以根據(jù)實(shí)際情況選擇任一收斂條件.
為驗(yàn)證本文所提出的基于高斯過(guò)程建模學(xué)習(xí)預(yù)測(cè)控制方法(Gaussian process RHRL,GP-RHRL)的有效性,本節(jié)以輪式機(jī)器人為例,采用Webots-MATLAB聯(lián)合仿真進(jìn)行跟蹤軌跡為橢圓形和8字形的側(cè)向跟蹤控制仿真,并與未采用擾動(dòng)模型的滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)方法(RHRL)、未采用擾動(dòng)模型的非線性模型預(yù)測(cè)控制方法(nonlinear model predictive control,NMPC)和采用擾動(dòng)模型的非線性模型預(yù)測(cè)控制方法(Gaussian process NMPC,GP-NMPC)進(jìn)行對(duì)比,進(jìn)一步驗(yàn)證了所提方法的優(yōu)越性.GP-RHRL和GP-NMPC均采用高斯過(guò)程回歸預(yù)測(cè)擾動(dòng),但不同的是,GP-RHRL還在迭代優(yōu)化的過(guò)程中考慮了預(yù)測(cè)擾動(dòng)對(duì)誤差狀態(tài)的偏導(dǎo)數(shù)和對(duì)動(dòng)作的偏導(dǎo)數(shù)影響,而GP-NMPC僅將誤差狀態(tài)擾動(dòng)的預(yù)測(cè)值與當(dāng)前誤差狀態(tài)相加,如式(11)所示,并沒(méi)有在模型中使用偏導(dǎo)數(shù)信息.
在Webots 中可以通過(guò)其給出的物理模塊節(jié)點(diǎn)(uneven terrain)生成一片不平坦地面,其大小為12 m×12 m,高度分布是基于Perlin梯度噪聲生成的大小為50×50的矩陣,其可視化如圖4所示.而后選擇該物理模塊的表面紋理為沙地(Sandyground),由此得到一片模擬戶外環(huán)境的地面.
圖4 地形圖Fig.4 Topographic map
機(jī)器人則采用多功能戶外先鋒機(jī)器人(Pioneer 3-AT)行進(jìn)最大速度為0.7 m/s.圖5展示了的部分參數(shù).機(jī)器人的位姿數(shù)據(jù)通過(guò)仿真環(huán)境中的位置節(jié)點(diǎn)獲得,分別是位置信息[PxPyPz]和以軸角表示的姿態(tài)信息[AxAyAzAangle].
圖5 Pioneer 3-AT尺寸圖Fig.5 Dimension figure of Pioneer 3-AT
橢圓軌跡的半長(zhǎng)軸a=5,半短軸b=2,長(zhǎng)度單位為m,其期望速率變化如圖6所示.NMPC,GP-NMPC,RHRL 和GP-RHRL 的控制參數(shù)相同,控制時(shí)域長(zhǎng)度N=6,Q=diag{10,800,30},R=1,P=Q,采樣間隔?=0.05 s.在初始時(shí)刻,數(shù)據(jù)集DP中的樣本對(duì)數(shù)量為30個(gè),而后將每一時(shí)刻生成的樣本放入DP中,以實(shí)時(shí)更新DP,如果樣本數(shù)量達(dá)到最大值600,則從第1個(gè)樣本開(kāi)始舍棄,使得DP中樣本總量始終保持為600個(gè),相似性度量后得到的數(shù)據(jù)集Dq中的樣本對(duì)數(shù)量為30個(gè).
圖6 橢圓參考軌跡和期望速度示意圖Fig.6 Diagram of reference trajectory and expected speed in an elliptic trajectory
橢圓軌跡中機(jī)器人Pioneer進(jìn)行過(guò)程中的俯仰角和翻滾角的變化如圖7所示.機(jī)器人從標(biāo)識(shí)①出發(fā),以逆時(shí)針?lè)较蛐羞M(jìn).標(biāo)識(shí)①至④處的俯仰角和翻滾角由黑色實(shí)線指出.整段橢圓軌跡中,俯仰角在-30°~12°間,翻滾角在-30°~30°間.
擾動(dòng)的預(yù)測(cè)情況如圖8所示.在該環(huán)境下擾動(dòng)的變化曲線并不平滑且無(wú)規(guī)律,更多呈現(xiàn)出的鋸齒波和脈沖波形狀.但高斯的預(yù)測(cè)基本符合實(shí)際情況,航向角誤差和縱向誤差預(yù)測(cè)基本與真值重合,側(cè)向誤差的預(yù)測(cè)均較為準(zhǔn)確.
圖8 Webots中橢圓軌跡下擾動(dòng)?和?e的預(yù)測(cè)結(jié)果Fig.8 Prediction of disturbance ? and ?e in an elliptic trajectory in Webots
表1展示了4種方法的性能指標(biāo)對(duì)比,其中GP-RHRL方法獲取了最低的性能指標(biāo)Jx,表明所提方法相比其他對(duì)比方法能有效降低跟蹤誤差,而在性能指標(biāo)Ju上GP-RHRL所取得的數(shù)值是最大的,表明在復(fù)雜地形條件下機(jī)器人受到外界影響后,所需的控制器介入量更大,才能有效對(duì)跟蹤性能進(jìn)行改善.在側(cè)向誤差的均方根指標(biāo)上,GP-RHRL相較RHRL性能提升19.9%,較NMPC提升35.7%,較GP-NMPC提升25.0%.
表1 Webots中橢圓軌跡性能指標(biāo)對(duì)比Table 1 Comparison of performance indexes of elliptic trajectory in Webots
圖9進(jìn)一步展示了側(cè)向誤差ye和航向誤差θe的變化情況,可以明顯看出,GP-RHRL在側(cè)向誤差上優(yōu)于其他3種方法,GP-NMPC方法在側(cè)向誤差快速增大時(shí),對(duì)其的修正過(guò)程更加遲緩,此外NMPC方法的航向誤差也常常大于RHRL,說(shuō)明RHRL對(duì)不確定性的適應(yīng)能力更強(qiáng).后而在航向角誤差上,雖然4種方法的區(qū)別不明顯,仍然可以從時(shí)間步600至800這段曲線中看出GP-RHRL對(duì)于航向角誤差的改善效果更好.
圖9 Webots中橢圓軌跡跟蹤側(cè)向誤差ye和航向誤差θe示意圖Fig.9 Diagram of lateral error ye and heading error θe for elliptic trajectory tracking in Webots
8字形軌跡的的期望速率如圖10所示.NMPC,GPNMPC,RHRL和GP-RHRL的控制參數(shù)相同,控制時(shí)域長(zhǎng)度為N=6,Q=diag{10,600,30},R=1,P=Q,采樣間隔?=0.05 s.數(shù)據(jù)集DP中的樣本更新規(guī)則與上一小節(jié)相同.
圖10 8字形參考軌跡和期望速度示意圖Fig.10 Diagram of reference trajectory and expectedtrajectory speed in an eight-shaped
在該軌跡中Pioneer的俯仰角和翻滾角的變化如圖11所示.機(jī)器人從標(biāo)識(shí)①出發(fā),先以逆時(shí)針?lè)较蛐羞M(jìn),到達(dá)標(biāo)識(shí)④處后以順時(shí)針?lè)较蛐羞M(jìn).標(biāo)識(shí)①至⑤處的俯仰角和翻滾角由黑色實(shí)線指出.整段8字形軌跡中,俯仰角在-30°~30°間,翻滾角在-32°~35°間,機(jī)器人的姿態(tài)變化相較橢圓軌跡更加復(fù)雜.
圖11 Webots中8字形軌跡下俯仰角和翻滾角的變化曲線圖Fig.11 Variation curve of roll angle and pitch angle in an eight-shaped trajectory in Webots
擾動(dòng)預(yù)測(cè)情況如圖12所示.側(cè)向誤差中,在時(shí)間步1600至2000間未能將部分脈沖狀噪聲有效預(yù)測(cè),同時(shí)航向角誤差和縱向誤差預(yù)測(cè)則更加準(zhǔn)確.表2展示了4種方法的性能指標(biāo)對(duì)比,GP-RHRL方法在關(guān)鍵指標(biāo)Jx上相比其他3個(gè)方法最小,可以看出在降低跟蹤誤差上GP-RHRL也最有效.在表4中的側(cè)向誤差在側(cè)向誤差的均方根指標(biāo)中,GP-RHRL相較RHRL性能提升12.6%,較NMPC 提升28.0%,較GP-NMPC 提升20.5%.
表2 Webots中8字形軌跡性能指標(biāo)對(duì)比Table 2 Comparison of performance indexes of eight-shaped trajectory in Webots
圖13展示了軌跡跟蹤的側(cè)向誤差ye和航向誤差θe.可以看出GP-RHRL 方法在側(cè)向誤差上的性能表現(xiàn)均優(yōu)于其他3種方法.比較特殊的情況出現(xiàn)在時(shí)間步1600至2000,此時(shí)Pioneer機(jī)器人移動(dòng)至圖10中(5,5)位置附近,采用高斯建模預(yù)測(cè)不確定的方法(GPRHRL和GP-NMPC)較未改進(jìn)方法(RHRL和NMPC)反而出現(xiàn)更大的側(cè)向誤差.在該時(shí)間段中,狀態(tài)中的擾動(dòng)ye呈現(xiàn)較急劇的波動(dòng),從而對(duì)擾動(dòng)的預(yù)測(cè)準(zhǔn)確度降低,所以造成了側(cè)向誤差變大的情況.在非常極端的環(huán)境下,如果高斯建模不準(zhǔn)確,也可能會(huì)對(duì)機(jī)器人的運(yùn)動(dòng)造成負(fù)面影響.
圖13 Webots中8字形軌跡跟蹤側(cè)向誤差ye和航向誤差θe示意圖Fig.13 Diagram of lateral error ye and heading error θe for eight-shaped trajectory tracking in Webots
由此可知,在未對(duì)該地形進(jìn)行數(shù)據(jù)采集時(shí),僅憑機(jī)器人運(yùn)動(dòng)中實(shí)時(shí)采集的少量數(shù)據(jù)難以對(duì)變化劇烈的擾動(dòng)進(jìn)行準(zhǔn)確預(yù)測(cè).所以本文所提方法在運(yùn)用少量實(shí)時(shí)數(shù)據(jù)的情況下,無(wú)法解決強(qiáng)不確定性帶來(lái)的性能退化問(wèn)題.針對(duì)這個(gè)問(wèn)題,在后續(xù)研究中也將考慮機(jī)器人在相同或類似環(huán)境下進(jìn)行重復(fù)運(yùn)動(dòng)時(shí),進(jìn)行多輪數(shù)據(jù)采集,學(xué)習(xí)該類環(huán)境的特征和參數(shù),并將之用于高斯過(guò)程建模中,從而使得高斯過(guò)程預(yù)測(cè)更加準(zhǔn)確,提升算法性能.
仿真驗(yàn)證中所使用的處理器為英特爾酷睿i7-11700K@3.60 GHz,操作系統(tǒng)為Windows 11,顯卡為英偉達(dá)3060Ti,算法通過(guò)MATLAB 2020a 進(jìn)行計(jì)算,虛擬環(huán)境和物理引擎由Webots 2021b提供.在求解時(shí)間上,NMPC 方法的單步平均求解時(shí)間為24.6 ms,RHRL方法的單步平均求解時(shí)間為4.9 ms,GPNMPC單步平均求解時(shí)間為460.2 ms,GP-RHRL單步平均求解時(shí)間為42.9 ms,小于50 ms的采樣間隔,滿足實(shí)時(shí)性要求.可以看出相比MPC,采用強(qiáng)化學(xué)習(xí)進(jìn)行迭代求解可以節(jié)省大量計(jì)算時(shí)間.同時(shí)GP-NMPC所需的求解時(shí)間遠(yuǎn)高于GP-RHRL,是因?yàn)镹MPC采用的模型不斷變化,使得優(yōu)化過(guò)程非常耗時(shí).
本文提出了基于高斯過(guò)程回歸建模的學(xué)習(xí)預(yù)測(cè)控制方法,首先,利用實(shí)時(shí)采集的狀態(tài)擾動(dòng)樣本,通過(guò)高斯過(guò)程回歸建模方法對(duì)環(huán)境和模型的不確定性進(jìn)行建模.其次,根據(jù)狀態(tài)和誤差狀態(tài)的關(guān)系推導(dǎo)得出誤差狀態(tài)模型.而后,在滾動(dòng)時(shí)域強(qiáng)化學(xué)習(xí)中采用該模型進(jìn)行迭代優(yōu)化,以學(xué)習(xí)得到考慮環(huán)境和模型不確定性的近似最優(yōu)策略,從而改善控制器性能.最后,以橢圓軌跡和8字形軌跡的側(cè)向跟蹤為例驗(yàn)證了該方法的有效性.在后續(xù)的工作中,可進(jìn)一步在建模中充分利用先驗(yàn)信息,提高建模準(zhǔn)確性和控制性能,并在實(shí)際平臺(tái)開(kāi)展控制方法驗(yàn)證.