段京良 陳良發(fā) 王文軒 焦春絢 劉征宇 馬飛 李升波
摘 要: 為滿足復(fù)雜交通場(chǎng)景下智能汽車軌跡跟蹤避撞控制的高實(shí)時(shí)性要求,該文采用了一種循環(huán)模型預(yù)測(cè)控制算法(RMPC)將在線優(yōu)化問(wèn)題轉(zhuǎn)化為循環(huán)策略參數(shù)的離線求解,并進(jìn)行了仿真試驗(yàn)。根據(jù)車輛主動(dòng)避撞的約束條件,引入懲罰函數(shù)將約束型主動(dòng)避撞優(yōu)化控制問(wèn)題轉(zhuǎn)化為無(wú)約束有限時(shí)域最優(yōu)控制問(wèn)題;進(jìn)而利用循環(huán)函數(shù)逼近得到不同預(yù)測(cè)步長(zhǎng)控制問(wèn)題的最優(yōu)解;最后將算法部署到原型控制器,結(jié)合CarSim 平臺(tái)驗(yàn)證了算法的避撞性能以及在線計(jì)算的高效性。結(jié)果表明:預(yù)測(cè)步數(shù)從12 增加到20 步,避撞過(guò)程最小車距由0.34 m 提升至1.38 m,千次實(shí)驗(yàn)碰撞次數(shù)由44 下降到0 ;與常用在線優(yōu)化求解器相比,該算法在預(yù)測(cè)步數(shù)為15 時(shí),其計(jì)算效率提升超過(guò)5.6 倍。
關(guān)鍵詞: 智能汽車;循環(huán)模型預(yù)測(cè)控制算法(RMPC);循環(huán)函數(shù);橫向主動(dòng)避撞
中圖分類號(hào): U 467.1+4 文獻(xiàn)標(biāo)識(shí)碼: A DOI: 10.3969/j.issn.1674-8484.2023.05.007
智能汽車主動(dòng)避撞是指當(dāng)車輛的行進(jìn)方向出現(xiàn)潛在碰撞風(fēng)險(xiǎn)時(shí),車輛通過(guò)減速或者轉(zhuǎn)向避免碰撞。研究表明,在較高車速下,汽車通過(guò)轉(zhuǎn)向?qū)崿F(xiàn)橫向主動(dòng)避撞比僅采取減速的縱向主動(dòng)避撞更加有效[1-2]。然而,車輛的橫向主動(dòng)避撞過(guò)程十分復(fù)雜,具有反應(yīng)時(shí)間短、車輛易失穩(wěn)和約束條件多的特點(diǎn),及時(shí)準(zhǔn)確的轉(zhuǎn)向操作可有效降低車輛失穩(wěn)和碰撞的風(fēng)險(xiǎn)。因此,這也對(duì)主動(dòng)避撞策略求解的實(shí)時(shí)性和準(zhǔn)確性提出了更高的要求[3-4]。
由于車輛在避撞過(guò)程中橫向動(dòng)力學(xué)特性高度非線性,并受到自車穩(wěn)定性以及周車位置等因素的約束,因此主動(dòng)避撞控制通常被構(gòu)建為一個(gè)典型的非線性、帶約束的最優(yōu)控制問(wèn)題。按照控制方法分類,主動(dòng)避撞控制方法主要可分為PID 控制、滑??刂坪湍P皖A(yù)測(cè)控制等。PID 控制和滑??刂凭哂杏?jì)算簡(jiǎn)單、實(shí)時(shí)性好、相對(duì)容易應(yīng)用于實(shí)車的優(yōu)點(diǎn),但兩者的控制精度較差,難以處理真實(shí)避撞場(chǎng)景中的復(fù)雜動(dòng)態(tài)約束,無(wú)法保證車輛行駛的安全性。
模型預(yù)測(cè)控制(model predictive control, MPC)作為一種解決有限時(shí)域優(yōu)化控制問(wèn)題的常用控制方法,具有直接處理約束、預(yù)瞄狀態(tài)反饋、滾動(dòng)時(shí)域優(yōu)化等優(yōu)勢(shì)[5-6]。MPC 避撞控制器可根據(jù)對(duì)環(huán)境信息處理方式的不同分為集中式控制器和分層式控制器:集中式控制器直接利用環(huán)境信息和車輛狀態(tài)信息作為輸入計(jì)算輸出控制律;分層式控制器先利用環(huán)境信息和車輛狀態(tài)進(jìn)行軌跡規(guī)劃生成期望軌跡,然后根據(jù)期望軌跡和車輛狀態(tài)信息計(jì)算輸出控制律[7-8]。分層式控制器在實(shí)車應(yīng)用時(shí),上層的軌跡規(guī)劃通?;诰€性車輛動(dòng)力學(xué)模型生成期望軌跡,從而降低在線求解對(duì)車載計(jì)算資源的需求以提高控制器求解效率。而實(shí)際避撞過(guò)程中車輛輪胎通常處于非線性工作區(qū),使得上層軌跡規(guī)劃得到的期望軌跡難以跟蹤甚至不可行。
針對(duì)分層式控制器面臨的問(wèn)題, 文獻(xiàn)[9] 利用MPC 方法,基于車輛非線性動(dòng)力學(xué)模型以及CarSim平臺(tái),通過(guò)引入靜態(tài)障礙物,實(shí)現(xiàn)了多種速度下的實(shí)時(shí)避障。但是該方法僅考慮靜態(tài)障礙物。文獻(xiàn)[10] 通過(guò)建立碰撞的危險(xiǎn)區(qū)域并在目標(biāo)函數(shù)中加入避撞懲罰項(xiàng)實(shí)現(xiàn)主動(dòng)避撞控制。該方法只考慮單個(gè)障礙物,在面對(duì)復(fù)雜多變的實(shí)際交通場(chǎng)景時(shí),同樣面臨較大的困難。此外,由于非線性帶約束控制問(wèn)題在線計(jì)算的復(fù)雜度較高,上述MPC 避撞方法實(shí)際應(yīng)用中無(wú)法滿足車載控制器的高實(shí)時(shí)性要求。
為解決計(jì)算實(shí)時(shí)性的問(wèn)題,文獻(xiàn)[11] 基于線性系統(tǒng)提出了一種高實(shí)時(shí)MPC 控制方法,通過(guò)暖啟動(dòng)技術(shù),將上一時(shí)刻的優(yōu)化變量作為下一時(shí)刻的初始值,提高了在線計(jì)算效率。文獻(xiàn)[12] 利用移動(dòng)阻塞策略,假設(shè)預(yù)測(cè)時(shí)域內(nèi)部分控制輸入恒定不變并降低待優(yōu)化變量的維度,簡(jiǎn)化了預(yù)測(cè)控制問(wèn)題計(jì)算復(fù)雜度,提高了計(jì)算效率。然而,這種方法缺乏穩(wěn)定性保證。文獻(xiàn)[13] 提出一種顯式MPC 方法,將在線優(yōu)化問(wèn)題轉(zhuǎn)化為離線計(jì)算和在線查表兩部分,通過(guò)將傳統(tǒng)的模型預(yù)測(cè)控制系統(tǒng)轉(zhuǎn)換為與之等價(jià)的顯式多面體分段仿射系統(tǒng),離線建立從狀態(tài)量到最優(yōu)控制律之間的映射關(guān)系。但是,這種算法只適用于小規(guī)模的低維度系統(tǒng),對(duì)于高維系統(tǒng)其所需存儲(chǔ)容量隨狀態(tài)維數(shù)增加呈指數(shù)增長(zhǎng),嚴(yán)重影響在線查表速度,阻礙此類方法在大規(guī)模預(yù)測(cè)控制問(wèn)題的進(jìn)一步應(yīng)用。
綜上所述,應(yīng)用傳統(tǒng)MPC 方法在線求解主動(dòng)避撞控制這類“多目標(biāo)”“非線性”“多約束”的問(wèn)題時(shí),受制于問(wèn)題復(fù)雜度及車載計(jì)算資源的影響,控制器往往難以在求解時(shí)間與控制性能上做出平衡。為解決上述問(wèn)題,文獻(xiàn)[14] 提出了循環(huán)模型預(yù)測(cè)控制算法(recurrentmodel predective control, RMPC),該算法具有高計(jì)算效率和算力自適應(yīng)能力,可以根據(jù)車載計(jì)算資源的變化實(shí)時(shí)調(diào)整預(yù)測(cè)步數(shù),建立狀態(tài)信息到不同預(yù)測(cè)步數(shù)最優(yōu)解之間的映射關(guān)系,提高預(yù)測(cè)型車輛主動(dòng)避撞控制問(wèn)題的在線求解速度。這種高實(shí)時(shí)離線求解在線應(yīng)用控制模式已得到廣泛的研究和應(yīng)用[15-18]。
因此,本文以智能汽車的主動(dòng)避撞作為研究對(duì)象,通過(guò)將車輛橫向主動(dòng)避撞控制構(gòu)建為有限時(shí)域預(yù)測(cè)型最優(yōu)控制問(wèn)題,利用RMPC 算法將在線優(yōu)化問(wèn)題轉(zhuǎn)化為循環(huán)策略參數(shù)的離線預(yù)求解,提高避撞控制器求解的實(shí)時(shí)性。最后利用原型控制器和CarSim 平臺(tái)進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證避撞場(chǎng)景下算法的避撞效果和計(jì)算效率。
其中,aθ 為學(xué)習(xí)率。通過(guò)對(duì)參數(shù)的不斷更新,算法最終會(huì)收斂到最優(yōu)解。
算法偽代碼如表1 所示。
圖4 展示了RMPC 算法求解主動(dòng)避撞控制問(wèn)題的過(guò)程,首先將期望軌跡點(diǎn)和障礙物位置等信息離散化后作為控制器輸入,利用循環(huán)函數(shù)對(duì)不同預(yù)測(cè)步數(shù)避撞控制問(wèn)題的最優(yōu)解進(jìn)行近似,然后根據(jù)目標(biāo)函數(shù)設(shè)計(jì)參數(shù)化的損失函數(shù),并利用梯度下降法更新循環(huán)函數(shù),最終得到不同預(yù)測(cè)步數(shù)下的最優(yōu)解,進(jìn)而完成主動(dòng)避撞控制問(wèn)題的求解。
如圖5 所示,循環(huán)函數(shù)的結(jié)構(gòu)特點(diǎn)使得RMPC 算法可以利用不同循環(huán)次數(shù)的循環(huán)函數(shù)對(duì)相應(yīng)預(yù)測(cè)步數(shù)控制問(wèn)題的最優(yōu)解進(jìn)行近似,其中循環(huán)次數(shù)等于預(yù)測(cè)步數(shù)。循環(huán)函數(shù)的輸入包括2 部分:分別為狀態(tài)信息和預(yù)測(cè)時(shí)域內(nèi)的環(huán)境信息,其中環(huán)境信息又由期望軌跡坐標(biāo)和障礙物坐標(biāo)組成。循環(huán)函數(shù)的輸出為最優(yōu)控制策略。該方法除了可以提高在線計(jì)算效率,還可以實(shí)現(xiàn)算力自適應(yīng)的功能。對(duì)于一般MPC 控制任務(wù)而言,預(yù)測(cè)步數(shù)越多,控制性能越好。因此,循環(huán)函數(shù)在線應(yīng)用中,若計(jì)算未超時(shí)則繼續(xù)循環(huán)計(jì)算并保存中間結(jié)果,直到時(shí)間結(jié)束后將最終結(jié)果進(jìn)行輸出,從而自適應(yīng)地得到滿足實(shí)時(shí)性要求的最大循環(huán)策略,使得循環(huán)次數(shù)可由控制器的實(shí)際算力決定,計(jì)算資源越多,循環(huán)次數(shù)越多。
3 主動(dòng)避撞控制器仿真驗(yàn)證
3.1 整體設(shè)計(jì)
如圖6 所示,為驗(yàn)證所提出方法的有效性,首先在PC 機(jī)上對(duì)循環(huán)策略網(wǎng)絡(luò)進(jìn)行離線預(yù)訓(xùn)練,然后部署到原型控制器上依托CarSim 平臺(tái)進(jìn)行仿真驗(yàn)證。控制器根據(jù)自車狀態(tài)以及周車位置信息計(jì)算得到控制量并輸出控制信號(hào)至仿真平臺(tái),仿真平臺(tái)執(zhí)行相應(yīng)控制動(dòng)作后將自車狀態(tài)信息和周車位置等信息反饋給控制器,實(shí)現(xiàn)閉環(huán)控制過(guò)程。
實(shí)驗(yàn)PC 機(jī)采用Windows 操作系統(tǒng),搭載處理器主頻為3.4 GHz,具有4 個(gè)核心8 個(gè)線程的intel i7 處理器。原型控制器采用第6 代intel i7 處理器和QM170芯片組,具有4 個(gè)核心8 個(gè)線程,主頻2.8 GHz。仿真參數(shù)如表2、表3 所示。
由于本文主要研究橫向主動(dòng)避撞控制,為簡(jiǎn)化問(wèn)題,假定縱向速度的減速度ax = -5 m/s2。此外,由于CarSim 的輸出控制量為方向盤(pán)轉(zhuǎn)角與制動(dòng)力矩,而算法輸出為前輪轉(zhuǎn)角。根據(jù)轉(zhuǎn)向特性得到前輪轉(zhuǎn)角與方向盤(pán)轉(zhuǎn)角δsw 之間的關(guān)系為δsw = ksw δ,縱向加速度與制動(dòng)力矩之間關(guān)系為T(mén)r = krax,其中: ksw = 18,kr = 127.5 Ns2。
采用GRU 網(wǎng)絡(luò)建立循環(huán)策略參數(shù)化表達(dá),通過(guò)Adam 方法更新網(wǎng)絡(luò)參數(shù)。網(wǎng)絡(luò)的輸入為系統(tǒng)狀態(tài)x = [y, ?, vy, ωr]T、環(huán)境信息r = [rs, rxa, rya, …, rxf, ryf ]T 及自車縱向速度vx。輸出層采用Tanh 函數(shù),輸出為最優(yōu)前輪轉(zhuǎn)角δ。隱層層數(shù)為4,采用Relu 函數(shù)。學(xué)習(xí)率設(shè)為5×105,訓(xùn)練次數(shù)為6×104。如圖7 所示,本文針對(duì)自車前方突然出現(xiàn)靜止障礙物的避撞場(chǎng)景設(shè)計(jì)了3 種不同初速度的避撞工況,假設(shè)仿真開(kāi)始時(shí)自車處于中間車道,初速度分別設(shè)為80 、95、10 km/h。每種工況下周車的初始位置隨機(jī)設(shè)置在自車 [-30, 60 ] m 范圍內(nèi),周車初速度與自車初速度差值為[-25, 15] km/h 內(nèi)的隨機(jī)量。
3.2 結(jié)果分析
當(dāng)自車初速度取80 km/h,預(yù)測(cè)時(shí)域取N = 12 和N = 20 時(shí),由圖8 可知。在面對(duì)前方障礙物時(shí),與12步相比,預(yù)測(cè)時(shí)域?yàn)?0 步的轉(zhuǎn)向動(dòng)作更為提前,方向盤(pán)轉(zhuǎn)動(dòng)幅度更大,車輛的橫擺角速度以及輪胎側(cè)偏角出現(xiàn)了明顯的增加,最大橫向位移也由3 m 增大到4 m,避撞過(guò)程自車與周車的最小距離隨之增大,避撞過(guò)程中發(fā)生碰撞的風(fēng)險(xiǎn)進(jìn)一步降低。
圖9 展示了預(yù)測(cè)時(shí)域N = 20 時(shí),避撞過(guò)程中各車的軌跡變化情況,其中紫色表示自車,紅色表示靜止的前車,其余黃框車輛為勻速運(yùn)動(dòng)的周車。
經(jīng)過(guò)千次隨機(jī)交通場(chǎng)景實(shí)驗(yàn),求出不同預(yù)測(cè)步數(shù)下平均的碰撞過(guò)程最小車距和千次實(shí)驗(yàn)碰撞次數(shù),從表4 可以看出不同預(yù)測(cè)步數(shù)下的避撞效果。
仿真結(jié)果表明,隨著預(yù)測(cè)步數(shù)的增大,主車在避撞過(guò)程中采取避讓動(dòng)作更為提前,幅度也更大,與周車的最小車距也隨之增大。在預(yù)測(cè)步數(shù)為12 時(shí),由于避讓動(dòng)作幅度較小,千次實(shí)驗(yàn)共發(fā)生了44 次碰撞,但當(dāng)預(yù)測(cè)步數(shù)增加至16 和20 步時(shí),千次實(shí)驗(yàn)均未產(chǎn)生碰撞,碰撞風(fēng)險(xiǎn)明顯降低。以上結(jié)果表明,在滿足計(jì)算實(shí)時(shí)性的要求下,增大預(yù)測(cè)步數(shù)控制器可以獲得更好的避撞性能,這驗(yàn)證了RMPC 算法在實(shí)際避撞場(chǎng)景中具有自適應(yīng)得到最大預(yù)測(cè)步數(shù)的最優(yōu)解的能力,同時(shí)說(shuō)明了該算法可以有效滿足求解車輛主動(dòng)避撞這類非線性并帶約束的最優(yōu)控制問(wèn)題的高實(shí)時(shí)性要求。
為了進(jìn)一步驗(yàn)證算法的魯棒性,將自車縱向初始速度設(shè)置為95、110 km/h,自車與前方障礙物距離分別為45、52 m。為獲得不同縱向速度下避撞過(guò)程的最小車距以及千次試驗(yàn)碰撞次數(shù),設(shè)置控制器預(yù)測(cè)步數(shù)為N = 20,在路面附著系數(shù)μ = 0.9 情況下,進(jìn)行千次隨機(jī)的交通場(chǎng)景實(shí)驗(yàn),結(jié)果如表5 所示,可見(jiàn),在不同縱向速度下RMPC 算法也均獲得良好的避撞效果,自車與周車的最小車距均大于1 m,各個(gè)速度下的全過(guò)程實(shí)驗(yàn)中自車與周車均未發(fā)生碰撞,反映了該算法具有良好的魯棒性。
給定一個(gè)非線性MPC 問(wèn)題,可以通過(guò)一些在線優(yōu)化求解器進(jìn)行直接在線求解,求解得到的數(shù)值解可以直接近似最優(yōu)控制策略。對(duì)于式(20)所述的最優(yōu)控制問(wèn)題,本文選用了2 個(gè)常用的MPC 在線優(yōu)化求解器BONMIN[21] 和IPOPT[22] 進(jìn)行直接求解,并分別統(tǒng)計(jì)了3 種預(yù)測(cè)時(shí)域下的平均單步求解時(shí)間。經(jīng)過(guò)100 次試驗(yàn),結(jié)果如表6 所示,當(dāng)預(yù)測(cè)時(shí)域等于15 步時(shí),IPOPT 算法耗時(shí)為26.4 ms,而RMPC 算法僅耗時(shí)4.7 ms,求解速度提升超過(guò)5.6 倍,進(jìn)一步驗(yàn)證了RMPC 算法高實(shí)時(shí)性。
4 結(jié) 論
本文針對(duì)復(fù)雜交通場(chǎng)景下智能汽車的跟蹤避撞任務(wù)控制量求解速度較慢的問(wèn)題,通過(guò)引入懲罰函數(shù)將約束型預(yù)測(cè)控制問(wèn)題轉(zhuǎn)化為無(wú)約束控制問(wèn)題,并利用一種在線計(jì)算高效且具備算力自適應(yīng)能力的顯示循環(huán)MPC 算法進(jìn)行策略離線求解。通過(guò)仿真實(shí)驗(yàn)表明,該算法可以根據(jù)計(jì)算資源的動(dòng)態(tài)變化自適應(yīng)調(diào)整預(yù)測(cè)步數(shù),有效減少主動(dòng)避撞控制器的在線求解的時(shí)間,提高避撞過(guò)程的安全性。隨著預(yù)測(cè)步數(shù)的增加,最小安全車距由0.34 m 提升至1.38 m,千次實(shí)驗(yàn)碰撞次數(shù)由44下降到0 ;與常用MPC 求解器相比,RMPC 在線計(jì)算效率提升超過(guò)5.6 倍( 預(yù)測(cè)步數(shù)為15步)。今后考慮建立更為實(shí)際的交通流場(chǎng)景描述,引入周車軌跡以及自車車輛模型參數(shù)的不確定性,實(shí)現(xiàn)更為復(fù)雜環(huán)境下的智能汽車主動(dòng)避撞控制。
參考文獻(xiàn)(References)
[1] HE Xiangkun, LIU Yulong, et al. Emergency steeringcontrol of autonomous vehicle for collision avoidance andstabilization [J]. Vehi Syst Dyn, 2019, 57(8): 1163-1187.
[2] LIU Zhaoyong, WEN Gaobo, LIU Wudong, et al. Researchon automatic emergency steering collision avoidance andstability control of intelligent driving vehicle [J]. FrontRobot AI, 2023, 10: 1120658.
[3] CHENG Shuo, LI Liang, GUO Hongqiang, et al.Longitudinal collision avoidance and lateral stabilityadaptive control system based on MPC of autonomousvehicles [J]. IEEE T Intel Transport, 2019, 21(6): 2376-2385.
[4] 來(lái)飛, 黃超群, 董紅亮, 等. 智能汽車極限工況下聯(lián)合制動(dòng)與轉(zhuǎn)向的自動(dòng)緊急避撞研究 [J]. 汽車工程, 2021, 43(6):851-860.
LAI Fei, HUANG Chaoqun, DONG Hongliang, et al.Research on automatic emergency collision avoidanceof intelligent vehicle in extreme condition by combinedbraking and steering control [J]. Autom Engi, 2021, 43(6):851-860. (in Chinese)
[5] 王藝, 蔡英鳳, 陳龍, 等. 基于模型預(yù)測(cè)控制的智能網(wǎng)聯(lián)汽車路徑跟蹤控制器設(shè)計(jì)[J]. 機(jī)械工程學(xué)報(bào), 2019,55(8): 136-144.
WANG Yi, CAI Yingfeng, CHEN Long, et al. Design ofpath tracking controller for intelligent networked vehiclesbased on model predictive control [J]. Chin J Mech Eng-En, 2019, 55(8): 136-144. (in Chinese)
[6] Nguyen H D, Kim D, et al. Linear time-varying MPCbasedautonomous emergency steering control forcollision avoidance [J]. IEEE T Vehi Tech, Doi: 10.1109/TVT.2023.3269787.
[7] 李耀華, 范吉康, 劉洋, 等. 自適應(yīng)雙時(shí)域參數(shù)MPC 的智能車輛路徑規(guī)劃與跟蹤控制[J]. 汽車安全與節(jié)能學(xué)報(bào),2021, 12(4): 528-539.
LI Yaohua, FAN Jikang, LIU Yang, et al. Intelligentvehicle path planning and tracking control with adaptivedual time domain parameter MPC [J]. J Autom SafeEnerg, 2021, 12(4): 528-539. (in Chinese)
[8] 任玥, 鄭玲, 張巍, 等. 基于模型預(yù)測(cè)控制的智能車輛主動(dòng)避撞控制研究[J]. 汽車工程, 2019, 41(4): 404-410.
REN Yue, ZHENG Ling, ZHANG Wei, et al. Researchon active collision avoidance control of Intelligent vehiclebased on model predictive control [J]. Autom Engi, 2019,41(4): 404-410. (in Chinese)
[9] GUO Hongyan, SHEN Chen, ZHANG Hui, et al.Simultaneous trajectory planning and tracking using anMPC method for cyber-physical systems: A case study ofobstacle avoidance for an intelligent vehicle [J]. IEEE T Ind Info, 2018, 14(9): 4273-4283.
[10] Abbas M A, Milman R, Eklund J M. Obstacle avoidancein real time with nonlinear model predictive control ofautonomous vehicles [J]. Can J Elect Comput E, 2017,40(1): 12-22.
[11] Zeilinger M N, Raimondo D M, Domahidi A, et al. Onreal-time robust model predictive control [J]. Automatica,2014, 50(3): 683-694.
[12] Cagienard R, Grieder P, Kerrigan E C, et al. Moveblocking strategies in receding horizon control [J]. JProcess Contr, 2007, 17(6): 563-570.
[13] 冷姚, 趙樹(shù)恩. 智能車輛橫向軌跡跟蹤的顯式模型預(yù)測(cè)控制方法[J]. 系統(tǒng)仿真學(xué)報(bào), 2021, 33(5): 1177-1187.
LENG Yao, ZHAO Shuen. Explicit model predictivecontrol method for lateral trajectory tracking of intelligentvehicle [J]. J Simulate, 2021, 33(5): 1177-1187. (in Chinese)
[14] LIU Zhengyu, DUAN Jiangliang, WANG Wenxuan, et al.Recurrent model predictive control: Learning an explicitrecurrent controller for nonlinear systems [J]. IEEE T IndElectron, 2022: 10437-10446.
[15] LI Shengbo. Reinforcement Learning for SequentialDecision and Optimal Control [M]. Springer Verlag,Singapore, 2023: 26-37.
[16] GUAN Yang, REN Yangang, SUN Qi, et al. Integrateddecision and control: toward interpretable andcomputationally efficient driving intelligence [J]. IEEE TCybernet, 2022, 53(2): 859-873.
[17] DUAN Jiangliang, LI Jie, GE Qiang, et al. Relaxed actorcriticwith convergence guarantees for continuous-timeoptimal control of nonlinear systems [J]. IEEE T IntelVehi, 2023, Doi: 10.1109/TIV.2023.3255264.
[18] DUAN Jiangliang, LI Shengbo, GUAN Yang, et al.Hierarchical reinforcement learning for self-drivingdecision-making without reliance on labelled driving data[J]. IET Intel Transport Symp, 2020, 14(5): 297-305.
[19] Kong J, Pfeiffer M, Schildbach G, et al. Kinematic anddynamic vehicle models for autonomous driving controldesign [C]// IEEE Intel Vehi Symp. IEEE, 2015: 1094-1099.
[20] Erlien S M, Fujita S, Gerdes J C. Shared steering controlusing safe envelopes for obstacle avoidance and vehiclestability [J]. IEEE T Intel Transport, 2016, 17(2): 441-451.
[21] Andersson J A E, Gillis J, Horn G, et al. CasADi: asoftware framework for nonlinear optimization andoptimal control [J]. Math Program Comput, 2019, 11:1-36.
[22] Biegler L T, Zavala V M. Large-scale nonlinearprogramming using IPOPT: An integrating framework forenterprise-wide dynamic optimization [J]. Comput ChemEngi, 2009, 33(3): 575-582.