胡 博,江 磊,宋 潔,袁 春,張?zhí)K男,劉博程
(重慶理工大學(xué) 車輛工程學(xué)院 汽車零部件先進(jìn)制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 重慶 400054)
自動(dòng)駕駛汽車技術(shù)的開(kāi)發(fā)是一項(xiàng)重要工作,可以提高交通運(yùn)輸?shù)陌踩院蜋C(jī)動(dòng)性。目前,有許多商用的高級(jí)駕駛輔助系統(tǒng),如自適應(yīng)巡航、車道保持輔助等。現(xiàn)在研究者逐步轉(zhuǎn)向開(kāi)發(fā)更加高級(jí)別的自動(dòng)駕駛車輛,這些車輛可以在更加復(fù)雜的環(huán)境中執(zhí)行駕駛?cè)蝿?wù),如并線、十字路口、匝道合并和環(huán)島等。此類場(chǎng)景都有一個(gè)典型的特征:強(qiáng)交互性,更具體來(lái)說(shuō),由于不同支路上的多個(gè)交通參與者帶來(lái)了無(wú)數(shù)的交通狀況和復(fù)雜的交互,使得在此類場(chǎng)景中的研究具有一定的挑戰(zhàn)性。環(huán)島是交互場(chǎng)景中一個(gè)很好的例子[1],因此,在此場(chǎng)景中的自動(dòng)駕駛技術(shù)研究顯得尤為重要。
目前,研究人員在自動(dòng)駕駛汽車技術(shù)上的開(kāi)發(fā)大體分為3個(gè)模塊,包括感知、規(guī)劃和控制模塊[2]。本文中主要研究運(yùn)動(dòng)規(guī)劃層,在運(yùn)動(dòng)規(guī)劃領(lǐng)域,通常采用的方法大體上分為基于圖[3-4](例如A*算法、Dijkstra算法和快速隨機(jī)搜索樹(shù)算法[5-9])、基于優(yōu)化[10](例如模型預(yù)測(cè)控制、EM Planner)和基于學(xué)習(xí)算法[11](例如深度強(qiáng)化學(xué)習(xí)方法)。目前,許多研究者基于以上方法對(duì)運(yùn)動(dòng)規(guī)劃進(jìn)行了大量的研究,產(chǎn)生了許多投入產(chǎn)業(yè)化應(yīng)用的案例,并且取得了良好的效果。運(yùn)動(dòng)規(guī)劃模塊主要負(fù)責(zé)為智能車輛生成局部運(yùn)動(dòng)軌跡,是自動(dòng)駕駛技術(shù)中至關(guān)重要的一環(huán)。圖搜索的算法通常是將自動(dòng)駕駛車輛所處的環(huán)境通過(guò)離散化的方法轉(zhuǎn)化為一個(gè)圖,并通過(guò)一些啟發(fā)式的算法生成一條滿足條件的路徑曲線[12]。Dijkstra算法就是一種非常經(jīng)典的基于圖搜索的算法。Dijkstra的主要特點(diǎn)是以起始點(diǎn)為中心向外層層擴(kuò)散,直至擴(kuò)散到目標(biāo)點(diǎn)為止。它的優(yōu)點(diǎn)是每次總能找到最優(yōu)解,缺點(diǎn)是隨著圖的范圍的擴(kuò)大,計(jì)算效率發(fā)生顯著地下降。A*算法則是一種啟發(fā)式的算法,它改善了Dijkstra的缺點(diǎn),提高了算法的搜索效率。Hybrid A*因其考慮了運(yùn)動(dòng)學(xué)的約束問(wèn)題,可以直接生成可行駛的路徑,在智能車輛中被廣泛應(yīng)用。其他的圖搜索算法大多是以上算法的改進(jìn)或者變種[13-14]?;趦?yōu)化方法的核心問(wèn)題在于構(gòu)建目標(biāo)函數(shù)和約束,函數(shù)的優(yōu)化在每個(gè)運(yùn)動(dòng)狀態(tài)都需要花費(fèi)算力資源[15]?;趦?yōu)化的方法需要在線優(yōu)化,在考慮障礙物過(guò)多的情況下,使求解空間呈現(xiàn)高度的非凸性,在考慮成本的情況下,這可能會(huì)成為實(shí)時(shí)應(yīng)用的巨大障礙[16]。近年來(lái),基于學(xué)習(xí)的智能車輛運(yùn)動(dòng)規(guī)劃方法(如深度強(qiáng)化學(xué)習(xí))已被廣泛采用[17]。與上述基于優(yōu)化的方法相比,深度強(qiáng)化學(xué)習(xí)方法控制動(dòng)作的輸出只需少量的神經(jīng)網(wǎng)絡(luò)傳播時(shí)間,顯著地提高了計(jì)算效率[18]。一些研究試圖通過(guò)經(jīng)典強(qiáng)化學(xué)習(xí)來(lái)解決自動(dòng)駕駛問(wèn)題,目前,強(qiáng)化學(xué)習(xí)大多應(yīng)用在從感知到控制或者規(guī)劃到控制這樣的端對(duì)端自動(dòng)駕駛?cè)蝿?wù)中。由于端對(duì)端的自動(dòng)駕駛不需要人為指定規(guī)則,且智能體通過(guò)和環(huán)境進(jìn)行交互學(xué)習(xí)駕駛策略與人類學(xué)習(xí)駕駛的方式十分相似,所以端對(duì)端的方法成為自動(dòng)駕駛領(lǐng)域的一個(gè)重要研究方向。
在復(fù)雜環(huán)境中,車輛對(duì)動(dòng)態(tài)障礙物行為意圖的理解是十分重要的。在簡(jiǎn)單環(huán)境或模擬環(huán)境中,自動(dòng)駕駛系統(tǒng)可以對(duì)其行為進(jìn)行簡(jiǎn)單建模,對(duì)障礙物的未來(lái)軌跡進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)軌跡對(duì)運(yùn)動(dòng)規(guī)劃系統(tǒng)生成的軌跡進(jìn)行評(píng)估,防止其與之發(fā)生碰撞。但是在自動(dòng)駕駛這樣的復(fù)雜環(huán)境中,交通參與者行為意圖的模型不能簡(jiǎn)單的進(jìn)行建模,簡(jiǎn)單模型無(wú)法準(zhǔn)確表達(dá)環(huán)境中的不確定性。因此,如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性是目前自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃研究中亟待解決的問(wèn)題。百度Apollo公司提出的EM Planner規(guī)劃方法采用了三維解耦的的運(yùn)動(dòng)規(guī)劃思想證明了在存在動(dòng)態(tài)障礙物的場(chǎng)景中進(jìn)行橫向的路徑規(guī)劃和縱向規(guī)劃可以代替同時(shí)處理多個(gè)維度的軌跡規(guī)劃。在這種思想下,縱向的速度規(guī)劃成為了動(dòng)態(tài)障礙物不確定性環(huán)境中需要解決的重要問(wèn)題之一。例如使用深度強(qiáng)化學(xué)習(xí)在十字路口[19-20]、高速路口匝道合流[21-26]和環(huán)島[27]等場(chǎng)景。目前,基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法由于其較高的計(jì)算效率已被廣泛應(yīng)用到自動(dòng)駕駛行業(yè)。然而,當(dāng)前的方法大多是基于仿真模型來(lái)學(xué)習(xí)其駕駛策略,基于神經(jīng)網(wǎng)絡(luò)的駕駛策略往往對(duì)未知場(chǎng)景的預(yù)測(cè)過(guò)于自信,這就導(dǎo)致了不安全等問(wèn)題。為了避免這一問(wèn)題,需要結(jié)合基于規(guī)則的方法對(duì)駕駛策略的規(guī)劃結(jié)果進(jìn)行進(jìn)一步修正。許多研究人員設(shè)計(jì)了安全規(guī)則對(duì)運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性進(jìn)行冗余。Yang等[19-20]通過(guò)設(shè)置基于規(guī)則的過(guò)濾層對(duì)策略的不安全動(dòng)作進(jìn)行修正,最終在安全性指標(biāo)上取得了不錯(cuò)的效果。Lubars等[28]通過(guò)結(jié)合模型預(yù)測(cè)控制和強(qiáng)化學(xué)習(xí)的方法顯著地提高了運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性。
綜上所述,目前自動(dòng)駕駛汽車的運(yùn)動(dòng)規(guī)劃研究方法也面臨著一些問(wèn)題:1)在有限成本下,基于優(yōu)化的方法在強(qiáng)交互場(chǎng)景中存在計(jì)算效率低的問(wèn)題;2)在復(fù)雜環(huán)境中,如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性以及基于深度強(qiáng)化學(xué)習(xí)方法基于不確定性模型訓(xùn)練而得的駕駛策略不能嚴(yán)格滿足安全性的問(wèn)題。本文中提出一種基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法,通過(guò)考慮周車的不確定性區(qū)域生成未來(lái)時(shí)域內(nèi)的車輛可達(dá)到狀態(tài)集,并通過(guò)設(shè)計(jì)基于規(guī)則的安全層,生成滿足給定動(dòng)力學(xué)約束、障礙物空間約束和強(qiáng)化學(xué)習(xí)優(yōu)化輸出約束下的修正軌跡,與傳統(tǒng)基于優(yōu)化的規(guī)劃方法相比,軌跡生成策略可以進(jìn)行離線訓(xùn)練和在線部署,解決了基線方法在線計(jì)算效率低的問(wèn)題。同時(shí),通過(guò)構(gòu)建考慮不確定性的馬爾科夫決策過(guò)程表征不確定環(huán)境模型,隨后結(jié)合基于規(guī)則的方法作為考慮安全性的冗余操作,提高運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性。最后,通過(guò)搭建仿真平臺(tái)訓(xùn)練智能體,從安全性、通行效率、舒適性和計(jì)算效率等多個(gè)方面分析了方法的有效性。
馬爾科夫決策過(guò)程(markov decision process,MDP)是1個(gè)典型的表示決策過(guò)程的模型[29],如圖1所示。其決策過(guò)程可以表示為〈S,A,T,R〉,其中S和A分別為狀態(tài)和動(dòng)作的集合,T為狀態(tài)轉(zhuǎn)移模型,R為構(gòu)建的獎(jiǎng)勵(lì)函數(shù)。整個(gè)決策過(guò)程就是t時(shí)刻狀態(tài)為St的智能體執(zhí)行動(dòng)作At,進(jìn)入下一時(shí)刻的狀態(tài),下一時(shí)刻的狀態(tài)由當(dāng)前狀態(tài)以及當(dāng)前采取的動(dòng)作決定,是一個(gè)隨機(jī)變量。
圖1 馬爾科夫決策過(guò)程MDP示意圖
對(duì)于自動(dòng)駕駛系統(tǒng),MDP中的狀態(tài)可以表示為智能車輛所處駕駛環(huán)境中每個(gè)時(shí)刻的表示,動(dòng)作為車輛中可被賦予的1個(gè)屬性,狀態(tài)轉(zhuǎn)移模型為環(huán)境中自我車輛與周圍車輛的運(yùn)動(dòng)模型,回報(bào)為針對(duì)駕駛環(huán)境而構(gòu)建的獎(jiǎng)勵(lì)函數(shù)。在自動(dòng)駕駛環(huán)境中,由于環(huán)境和傳感器誤差的限制,系統(tǒng)無(wú)法準(zhǔn)確知道周圍環(huán)境的狀態(tài),因此無(wú)法構(gòu)建一個(gè)精確的狀態(tài)轉(zhuǎn)移模型,此時(shí)構(gòu)建的狀態(tài)轉(zhuǎn)移模型需要考慮傳感器誤差的不確定性帶來(lái)的問(wèn)題,在實(shí)際駕駛中,傳感器的狀態(tài)感知總是存在一定的誤差的,這造成了獲得的策略輸出可能不是最優(yōu)的,甚至是不安全的。為彌補(bǔ)這一差異,必須考慮這一不確定性。由于明確知道駕駛車輛的模型信息,因此自車的模型是1個(gè)確定性的模型。為了規(guī)劃自車在預(yù)測(cè)時(shí)域內(nèi)的軌跡,使用了如式(1)的確定性車輛縱向運(yùn)動(dòng)學(xué)模型,推出給定的強(qiáng)化學(xué)習(xí)策略的規(guī)劃解。值得注意的是,與預(yù)測(cè)周車的交通行為不同,通過(guò)結(jié)合運(yùn)動(dòng)學(xué)模型以及基于深度強(qiáng)化學(xué)習(xí)的方案,可以得到一個(gè)合理且確定的規(guī)劃結(jié)果。由于周圍車輛的不確定性有著來(lái)自駕駛?cè)藛T意圖的不確定性和自車傳感器誤差帶來(lái)的不確定性。因此,建立了考慮不確定性的交通流預(yù)測(cè)模型。智能駕駛員模型(IDM)被廣泛應(yīng)用于周車智能駕駛預(yù)測(cè)模型,并且能用統(tǒng)一的模型描述從自由流到完全擁堵流的不同狀態(tài)。使用智能駕駛員模型(IDM)作為交通流車輛的狀態(tài)轉(zhuǎn)移模型。為使所建模型能夠在微觀水平上與IDM盡量保持一致,使用IDM模型的運(yùn)動(dòng)表達(dá)式:
(1)
式中:dt為采樣周期;si、vi、ai和ji分別為在預(yù)測(cè)時(shí)域內(nèi)第i點(diǎn)車輛的縱向位移、速度、加速度和加加速度。
(2)
(3)
為考慮傳感器帶來(lái)的數(shù)據(jù)誤差,我們考慮了加速度噪聲,不同車用測(cè)速雷達(dá)的測(cè)速誤差會(huì)影響策略性能,如式(4)所示。
v′=v+σvel
(4)
式中:σvel為傳感器的測(cè)速誤差。
強(qiáng)化學(xué)習(xí)是一類機(jī)器學(xué)習(xí)方法,借鑒于行為主義心理學(xué),強(qiáng)化學(xué)習(xí)算法要解決的問(wèn)題是智能體在環(huán)境中如何執(zhí)行動(dòng)作以獲得最大的累計(jì)獎(jiǎng)勵(lì)。
強(qiáng)化學(xué)習(xí)問(wèn)題可以抽象成馬爾科夫決策過(guò)程(Markov Decision Process),馬爾科夫決策過(guò)程可以表示為
{S,A,P,R,γ}
(5)
式中:S和A分別為狀態(tài)和動(dòng)作的集合;R為獎(jiǎng)勵(lì)函數(shù);γ為折扣因子。強(qiáng)化學(xué)習(xí)示意圖如圖2所示。假設(shè)t時(shí)刻狀態(tài)為st,智能體執(zhí)行動(dòng)作at,進(jìn)入下一時(shí)刻的狀態(tài)st+1,下一時(shí)刻的狀態(tài)由當(dāng)前狀態(tài)以及當(dāng)前采取的動(dòng)作決定,是一個(gè)隨機(jī)變量,狀態(tài)轉(zhuǎn)移概率如下:
pa(s,s′)=p(st+1=s|st=s,at=a)
(6)
式中:pa為當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a,下一時(shí)刻進(jìn)入狀態(tài)s′的條件概率,強(qiáng)化學(xué)習(xí)問(wèn)題的核心是執(zhí)行動(dòng)作a的策略,它可以抽象成一個(gè)函數(shù)π,定義了每種狀態(tài)時(shí)選擇的動(dòng)作。這個(gè)函數(shù)定義了在狀態(tài)s所選擇的動(dòng)作為:
π(a|s)=p(a|s)
(7)
圖2 強(qiáng)化學(xué)習(xí)示意圖
深度強(qiáng)化學(xué)習(xí)方法是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上結(jié)合深度學(xué)習(xí)而生成的一種更貼近人類思維方式的方法。DDPG (deep deterministic policy gradient)是應(yīng)用最為廣泛的深度強(qiáng)化學(xué)習(xí)算法之一。如圖3所示,基于Actor-Critic(AC)框架的DDPG算法,通過(guò)神經(jīng)網(wǎng)絡(luò)逼近價(jià)值函數(shù)和策略函數(shù),網(wǎng)絡(luò)通過(guò)梯度下降的方式進(jìn)行更新。θQ、θμ分別是策略網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的權(quán)重。同時(shí)DDPG在DQN(deep Q-learning)的基礎(chǔ)上進(jìn)行了改進(jìn),結(jié)合了DQN以及DPG(deterministic polic gradient)的優(yōu)點(diǎn),包括雙網(wǎng)絡(luò)、構(gòu)建經(jīng)驗(yàn)回放池等。DDPG有2個(gè)網(wǎng)絡(luò),即演員網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò),2個(gè)網(wǎng)絡(luò)分別負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)的迭代更新和價(jià)值網(wǎng)絡(luò)參數(shù)的迭代更新[30]。由于自動(dòng)駕駛車輛通常有一個(gè)連續(xù)的狀態(tài)空間和動(dòng)作空間,而DDPG算法在連續(xù)空間中擁有一個(gè)良好的表現(xiàn)。因此,本文中使用DDPG算法作為基礎(chǔ)的強(qiáng)化學(xué)習(xí)模型。
圖3 DDPG算法框圖
為解決基于深度強(qiáng)化學(xué)習(xí)的方法在復(fù)雜環(huán)境中如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性問(wèn)題,提出了一種基于DDPG的運(yùn)動(dòng)規(guī)劃方法。
圖4首先展示了這項(xiàng)工作的基礎(chǔ)深度強(qiáng)化學(xué)習(xí)框架,并在圖5所示的場(chǎng)景中完成駕駛策略的訓(xùn)練。通過(guò)結(jié)合本文中提出的車輛運(yùn)動(dòng)學(xué)模型推導(dǎo)軌跡規(guī)劃結(jié)果,得出規(guī)劃軌跡在未來(lái)一定時(shí)間段內(nèi)的可視化結(jié)果。其次,考慮由于真實(shí)信息和傳感器信息的差異,采用不確定性區(qū)間預(yù)測(cè)進(jìn)行近似最優(yōu)控制,在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于規(guī)則的安全層,該安全層旨在保證不確定區(qū)域內(nèi)的交通信息的最壞情況下的安全性。安全層考慮了車輛的動(dòng)力性、安全性和最優(yōu)性約束。最后,通過(guò)搭建環(huán)島場(chǎng)景中不同密度下的交通流模型來(lái)評(píng)估駕駛策略的各種性能指標(biāo)。
圖4 單車道環(huán)島場(chǎng)景示意圖
圖5 基于強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃算法場(chǎng)景示意圖
狀態(tài):所構(gòu)建的強(qiáng)化學(xué)習(xí)框架的環(huán)境狀態(tài)包括2種車輛的狀態(tài):完成環(huán)島任務(wù)的目標(biāo)車輛(e)及其由完美傳感器輸出的2個(gè)前方(f1,f2)和2個(gè)后方(b1,b2)的車輛信息。目標(biāo)車輛的狀態(tài)信息包括位置、速度和加速度。前車和后車的狀態(tài)包括位置(sf1,sf2,sb1,sb2)以及速度(vf1,vf2,vb1,vb2),所以,環(huán)境狀態(tài)空間可以表示為
s=(se,ve,ae,sf1,sf2,sb1,sb2,
vf1,vf2,vb1,vb2)
動(dòng)作:強(qiáng)化學(xué)習(xí)框架的動(dòng)作是完成環(huán)島任務(wù)車輛的加加速度值,加加速度值是加速度的導(dǎo)數(shù),通常用來(lái)表示車輛的舒適性指標(biāo)。目標(biāo)車輛的加加速度值輸出在[-3.0,3.0]m/s3,這與道路車輛正常加加速度范圍值相同[27]。
獎(jiǎng)勵(lì)函數(shù):在離線訓(xùn)練的過(guò)程中,訓(xùn)練神經(jīng)網(wǎng)絡(luò)是將駕駛經(jīng)驗(yàn)從一種形式轉(zhuǎn)移到另一種形式的過(guò)程,即把預(yù)期的行為轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置,強(qiáng)化學(xué)習(xí)算法使智能體獲得的累計(jì)回報(bào)最大化。因此,設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)必須能很好地代表預(yù)期行為。此次獎(jiǎng)勵(lì)函數(shù)分為3個(gè)部分:碰撞、任務(wù)完成、任務(wù)進(jìn)行中。對(duì)于環(huán)島任務(wù),智能體的第一目標(biāo)就是能夠無(wú)碰撞地到達(dá)目標(biāo)點(diǎn),此時(shí)給予智能體一個(gè)較大的獎(jiǎng)勵(lì),保證獎(jiǎng)勵(lì)數(shù)值不會(huì)被其他部分所覆蓋,同時(shí)給智能體在發(fā)生碰撞時(shí)一個(gè)較大的負(fù)獎(jiǎng)勵(lì),防止智能體與其他動(dòng)態(tài)障礙物發(fā)生碰撞,確保安全性。在智能體的運(yùn)行過(guò)程中,設(shè)置舒適性獎(jiǎng)勵(lì)、時(shí)間花費(fèi)獎(jiǎng)勵(lì)等,針對(duì)當(dāng)前環(huán)島場(chǎng)景所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)方程具體的實(shí)現(xiàn)方式可表示為
r(x,u)=ω1s(x,u)-ω2-ω3u2
(8)
式中:ω1、ω2、ω3為智能體在探索過(guò)程中回合成功/失敗、通行效率和舒適性指標(biāo)加加速度指數(shù)的可調(diào)權(quán)重,s(x,u)表示該回合的成功,回合成功時(shí)取值20,回合失敗時(shí)取值-20。動(dòng)作u是目標(biāo)車輛在每一個(gè)仿真步長(zhǎng)中加加速度值。在滿足無(wú)碰撞到達(dá)目標(biāo)點(diǎn)的前提下,通過(guò)給予智能體加加速度的獎(jiǎng)勵(lì),盡可能滿足車輛的舒適性指標(biāo)。約束速度盡可能在期望速度之間,同時(shí)使加速度和加加速度的值盡可能地小。在測(cè)試過(guò)程中,發(fā)現(xiàn)智能體存在停止不動(dòng)的情況,來(lái)獲取更多的累計(jì)回報(bào),為防止此類情況的發(fā)生,通過(guò)設(shè)置可調(diào)整的時(shí)間花費(fèi)懲罰權(quán)重ω2來(lái)懲罰此類行為。
在學(xué)習(xí)過(guò)程中,我們期望能夠?qū)W到最優(yōu)策略,最優(yōu)策略能夠在當(dāng)前狀態(tài)下的動(dòng)作空間輸出最優(yōu)動(dòng)作,生成最優(yōu)軌跡。不幸的是,在理論和實(shí)踐過(guò)程中,我們發(fā)現(xiàn)很難獲得這樣的最優(yōu)策略。因?yàn)轳{駛場(chǎng)景的狀態(tài)空間是連續(xù)的,自動(dòng)駕駛問(wèn)題轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)過(guò)程中,通過(guò)構(gòu)建等效問(wèn)題來(lái)求解策略,這就意味著無(wú)法考慮到無(wú)限的狀態(tài)和約束;其次,模型的精確性也會(huì)直接影響規(guī)劃結(jié)果,從而導(dǎo)致了無(wú)法在全局保證安全性。本文所提出的解耦端對(duì)端的方法,能夠輸出規(guī)劃軌跡,為了確保規(guī)劃結(jié)果的安全性能,我們?cè)O(shè)計(jì)了一種安全規(guī)則軌跡優(yōu)化方法。
1) 優(yōu)化規(guī)則:該優(yōu)化方法的目標(biāo)是在安全性行駛空間中找到與滿足效率和舒適性的強(qiáng)化學(xué)習(xí)方法目標(biāo)點(diǎn)最近的目標(biāo)位置。
(9)
ssafety={s′f∣s∩sf}∩{s′a∣s∩sa}
(10)
式中:s′f為滿足與他車保持安全距離的可行駛空間;s′a為滿足車輛動(dòng)力學(xué)約束下的可行駛空間。
2) 算法的在線部署:得到離線訓(xùn)練的策略后,結(jié)合車輛縱向運(yùn)動(dòng)學(xué)模型,生成車輛未來(lái)時(shí)域下的軌跡點(diǎn),發(fā)現(xiàn)不安全的軌跡點(diǎn)后,使用上述優(yōu)化規(guī)則對(duì)前面5個(gè)時(shí)間步長(zhǎng)的軌跡點(diǎn)進(jìn)行規(guī)則矯正,提高軌跡輸出的安全性,如算法1所示。
算法1:在線部署-矯正不安全軌跡
輸入:未來(lái)5 s的規(guī)劃軌跡。
輸出:未來(lái)5 s的安全規(guī)劃軌跡。
fori=1,50 do
ui-1=π(xi-1,xj-1)
ui=π(xi,xj)
for eachsi∣t?ssafety
end
使用自動(dòng)駕駛仿真模擬器SUMO模擬真實(shí)環(huán)島工況,使用DDPG算法對(duì)駕駛行為進(jìn)行訓(xùn)練,同時(shí)搭建如表1所示的不同密度下的交通流模型,并在不同模型中完成訓(xùn)練和測(cè)試(中等密度訓(xùn)練)。
表1 不同密度的交通流模型
通過(guò)離線訓(xùn)練的方式學(xué)習(xí)當(dāng)前設(shè)置的獎(jiǎng)勵(lì)函數(shù)下的行駛策略,為驗(yàn)證離線訓(xùn)練算法的有效性,以本文搭建的仿真環(huán)境為實(shí)驗(yàn)平臺(tái)對(duì)離線訓(xùn)練算法進(jìn)行訓(xùn)練,選擇智能體在一個(gè)訓(xùn)練周期內(nèi)獲得的平均獎(jiǎng)勵(lì)值作為評(píng)估指標(biāo)。通過(guò)圖6可以看出,整個(gè)訓(xùn)練過(guò)程中,當(dāng)前任務(wù)的獎(jiǎng)勵(lì)累積都呈上升的趨勢(shì)且在后面都趨于一個(gè)定值,證明了所提出的基于深度強(qiáng)化學(xué)習(xí)方法的有效性。此外收斂速度、不同隨機(jī)種子之間的差異以及最終性能隨交通工況的不同而不同,原因在于,在不同交通任務(wù)中與自車具有潛在沖突的動(dòng)態(tài)障礙物是不同的,從而導(dǎo)致了訓(xùn)練難度之間的差異。本文所有仿真任務(wù)均在2.5 GHz 英特爾i7-8700處理器進(jìn)行離線訓(xùn)練及在線部署仿真。DDPG算法的參數(shù)設(shè)置如表2所示。
表2 DDPG算法的參數(shù)設(shè)置
圖6 DDPG算法學(xué)習(xí)曲線
在中等密度場(chǎng)景中,完成基于DDPG算法的駕駛策略的訓(xùn)練,獲得離線策略。通過(guò)將離線策略在線部署,生成高密度和中等密度下的運(yùn)動(dòng)規(guī)劃軌跡。圖7顯示了使用增加傳感器帶來(lái)的速度噪聲的不確定性感知模型的自車和交通流車輛在預(yù)測(cè)時(shí)域內(nèi)的可視化軌跡,圖中的陰影區(qū)域表示通過(guò)設(shè)置傳感器測(cè)速誤差帶來(lái)的模型不確定性得到的車輛可能的行駛軌跡。本文中考慮了雷達(dá)所帶來(lái)的測(cè)速誤差,測(cè)速精度為±1.5 km/h,此精度為型號(hào)BGT24ATR12D的測(cè)速雷達(dá),此型號(hào)的雷達(dá)廣泛應(yīng)用在自動(dòng)駕駛解決方案中,不同傳感器的測(cè)速精度有所不同,本文的解決方案是一種考慮誤差下的通用解決方案。
圖7 目標(biāo)車輛和周圍交通流車輛的預(yù)測(cè)軌跡可視化曲線
在高等和低等密度下的交通流模型的訓(xùn)練測(cè)試中,圖7(a)和(b)顯示在一個(gè)任務(wù)回合過(guò)程中的5 s和10 s的規(guī)劃軌跡可視化結(jié)果,所學(xué)習(xí)到的策略并沒(méi)有表現(xiàn)出不安全的行為,這證明了DDPG算法所訓(xùn)練的駕駛策略的有效性,并表明了深度強(qiáng)化學(xué)習(xí)在一定程度上能夠獲得預(yù)期安全駕駛行為。圖7(c)和(d)顯示在一個(gè)任務(wù)回合過(guò)程中的15 s和20 s的規(guī)劃軌跡可視化結(jié)果??梢钥闯?自車和交通參與者在預(yù)測(cè)時(shí)域內(nèi),可能發(fā)生不安全的駕駛行為。這不代表在實(shí)際中一定會(huì)發(fā)生碰撞,而是所訓(xùn)練的駕駛策略和車輛的運(yùn)動(dòng)學(xué)的規(guī)劃結(jié)果,通過(guò)對(duì)未來(lái)結(jié)果的可視化,我們可以結(jié)合基于規(guī)則的安全層,對(duì)不安全的行為進(jìn)行在線優(yōu)化,來(lái)彌補(bǔ)傳感器誤差等帶來(lái)的策略性能的下降。本文中的安全層主要考慮了3個(gè)方面的性能考慮,即車輛動(dòng)力學(xué)限制、安全性和強(qiáng)化學(xué)習(xí)優(yōu)化結(jié)果(盡可能貼近訓(xùn)練結(jié)果)。從圖7(c)和(d)可以看出,通過(guò)考慮安全層的在線優(yōu)化后,原有軌跡大部分保持不變,不安全的區(qū)域被修改。
將本文所提出的方法與今經(jīng)典基于優(yōu)化(動(dòng)態(tài)規(guī)劃+二次規(guī)劃)和端對(duì)端的強(qiáng)化學(xué)習(xí)方法(DDPG)進(jìn)行比較,主要衡量以下4個(gè)指標(biāo):
1) 舒適性。通過(guò)計(jì)算所有評(píng)估回合合并車輛(控制車輛)的加速度的導(dǎo)數(shù)(加加速度)平均值來(lái)衡量舒適性, 加加速度通常用來(lái)衡量車輛舒適性,加加速度值越大,舒適性越差,加加速度值越小,舒適性越好。
2) 安全性。安全性通常由任務(wù)過(guò)程中的碰撞率來(lái)衡量,碰撞率越高則代表安全性越差。
3) 通行效率。通行效率是指合并車輛完成合并任務(wù)的平均通行時(shí)間。
4) 在線計(jì)算效率。在線計(jì)算效率是指算法1個(gè)周期所花費(fèi)的計(jì)算時(shí)間。
表3顯示了經(jīng)典基于優(yōu)化的動(dòng)態(tài)規(guī)劃加二次規(guī)劃的方法(DP+QP)、基于強(qiáng)化學(xué)習(xí)的端對(duì)端方法(DDPG)和本文所提出的方法在低密度的交通流模型中進(jìn)行測(cè)試的結(jié)果??梢钥闯?DDPG的方法的合并時(shí)間最短且加加速度值最小,這是由于DDPG方法設(shè)置的獎(jiǎng)勵(lì)函數(shù)考慮了車輛的通行效率和舒適性。但是其安全性卻是3種方法中最低的。這是由于,通過(guò)設(shè)置考慮多種性能指標(biāo)的獎(jiǎng)勵(lì)函數(shù)無(wú)法設(shè)置硬約束來(lái)滿足安全性能,這是使用基于強(qiáng)化學(xué)習(xí)的方法應(yīng)用在自動(dòng)駕駛技術(shù)的開(kāi)發(fā)上的一個(gè)普遍存在的問(wèn)題,此類端對(duì)端的研究方法不能嚴(yán)格滿足安全性。我們所提出的方法通過(guò)結(jié)合基于規(guī)則的方法著重考慮了安全性問(wèn)題,由仿真結(jié)果可以得知,我們的方法在通行效率和舒適性指標(biāo)上能夠達(dá)到基于優(yōu)化方法的表現(xiàn),且也能夠獲得一個(gè)零碰撞率,從而嚴(yán)格保證安全性。
表3 3種方法在低密度下的性能參數(shù)
表4和表5顯示了3種方法在中等和高等密度下的具體表現(xiàn),總體趨勢(shì)與表3相似,但是由于交通密度的增加,3種方法的性能均有所下降,這是一個(gè)正常的表現(xiàn)。我們的方法在不同交通密度下均能保持一個(gè)零碰撞率,這是我們提出基于規(guī)則的安全層修正的結(jié)果。所提出的方法能夠在嚴(yán)格滿足安全性的同時(shí),在舒適性和通行效率上具有一個(gè)良好的表現(xiàn)。
表4 3種方法在中等密度下的性能參數(shù)
表5 3種方法在高密度下的性能參數(shù)
如圖8所示,傳統(tǒng)基于優(yōu)化的動(dòng)態(tài)規(guī)劃和二次規(guī)劃的方法1個(gè)規(guī)劃周期的在線計(jì)算時(shí)間大概在100 ms,而本文所提出的方法在線計(jì)算時(shí)間能夠在10 ms以內(nèi),降低了1個(gè)數(shù)量級(jí)。這是因?yàn)楸疚闹兴岢龅姆椒▽⒋蟛糠衷诰€計(jì)算的壓力轉(zhuǎn)移到了離線端。在工業(yè)應(yīng)用中,當(dāng)車端算力有限時(shí),本文所提出的方法可能會(huì)成為一個(gè)比較理想的解決方法。
圖8 2種方法的在線計(jì)算時(shí)間曲線
1) 所提出的方法基于深度強(qiáng)化學(xué)習(xí)解決了含有大量約束的自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃問(wèn)題。所提出的方法與基于在線優(yōu)化的傳統(tǒng)算法相比,降低了車輛與環(huán)境大量交互而產(chǎn)生的對(duì)車端硬件設(shè)備的算力需求。
2) 該方法明確考慮了智能車輛傳感器誤差帶來(lái)的不確定性,建立了基于學(xué)習(xí)方法的運(yùn)動(dòng)規(guī)劃系統(tǒng)基本框架,并基于馬爾科夫決策過(guò)程構(gòu)建了一個(gè)模型來(lái)表征具有不確定性的駕駛環(huán)境。
3) 結(jié)合基于規(guī)則的方法設(shè)置安全層,對(duì)軌跡結(jié)果進(jìn)行評(píng)估的同時(shí)能夠進(jìn)行在線動(dòng)作修正。增加1層安全防護(hù),使結(jié)果更加魯棒可靠。
4) 通過(guò)構(gòu)建仿真框架對(duì)所提出的方法在不同交通密度下進(jìn)行了廣泛的評(píng)估,驗(yàn)證該方法在安全性、舒適性和在線計(jì)算效率等方面的性能。
5) 本文提出的基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法在自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃領(lǐng)域中具有應(yīng)用價(jià)值。目前的研究?jī)H集中在車輛的縱向規(guī)劃中,后續(xù)研究可以考慮車輛的橫縱向運(yùn)動(dòng)規(guī)劃,考慮更加優(yōu)秀的區(qū)間預(yù)測(cè)器,使不確定性預(yù)測(cè)區(qū)間不至于過(guò)度保守。