夏志遠(yuǎn),黃妙華,李其仲
(1.武漢理工大學(xué) 現(xiàn)代汽車零部件技術(shù)湖北省重點實驗室,湖北 武漢 430070; 2.武漢理工大學(xué) 汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430070; 3.武漢理工大學(xué) 湖北省新能源與智能網(wǎng)聯(lián)車工程技術(shù)研究中心,湖北 武漢 430070)
隨著社會的科技進(jìn)步以及人們對交通安全和交通效率的要求更高,無人駕駛汽車技術(shù)在近年來取得了長足的進(jìn)步。但目前的無人駕駛汽車距離功能完備安全可靠的要求還有很長的路要走。此外,受到經(jīng)濟(jì)發(fā)展、基礎(chǔ)設(shè)施建設(shè)等因素制約,我國目前還很難做到道路上只有無人駕駛汽車;在未來的一段時間內(nèi),無人駕駛汽車與有人駕駛汽車混行在道路上會成為過渡時期不可避免的局面。在無人駕駛汽車領(lǐng)域尚未解決的問題中,無信號保護(hù)左轉(zhuǎn)是一個較難解決的問題,這主要是由于有人駕駛汽車的駕駛意圖難以判斷。根據(jù)美國交通部在2010年的一項統(tǒng)計,在超過200萬起事故中左轉(zhuǎn)判斷失誤導(dǎo)致了其中22.2%的事故,而右轉(zhuǎn)只占了其中的1.2%[1]。為了避免風(fēng)險,美國快遞公司UPS規(guī)定司機(jī)在運輸過程中盡可能地避免左轉(zhuǎn)[2];谷歌無人駕駛汽車項目waymo甚至設(shè)計了一種通過4次右轉(zhuǎn)等于1次左轉(zhuǎn)的方法來規(guī)避左轉(zhuǎn)行為,然而在實際應(yīng)用中,由于城市規(guī)劃問題,有時會出現(xiàn)右轉(zhuǎn)之后汽車直接上了高速公路并前往更遠(yuǎn)地方的狀況[3]。除了保證安全性,流暢完成左轉(zhuǎn)同樣比較困難。根據(jù)記錄,Waymo無人駕駛汽車在一個沒有信號燈的丁字路口左轉(zhuǎn)時較難找到合適的機(jī)會切入正常行駛的車流中,而相同的情況下人類駕駛員能夠快速找到合適的時機(jī)完成左轉(zhuǎn),這對致力于提升交通效率的無人駕駛汽車來說是不可接受的[4]。綜上所述,盡管人們想出了很多辦法盡可能減少左轉(zhuǎn),但左轉(zhuǎn)行為仍然無法完全避免,因此,研究安全高效的左轉(zhuǎn)行為具有重大意義,在涉及左轉(zhuǎn)行為的問題中又以無信號保護(hù)路口的左轉(zhuǎn)最難。
近年來,學(xué)者們針對無人駕駛汽車路口決策規(guī)劃做了許多研究,常見的有基于預(yù)測的方法、基于推理的方法和基于部分可觀察馬爾科夫決策過程(partially observable Markov decision process,POMDP)的方法等。
基于預(yù)測的方法通過分析環(huán)境車輛的動態(tài)信息(速度、加速度、航向角、車道等)預(yù)測環(huán)境車輛的行為并針對性地進(jìn)行規(guī)劃決策。文獻(xiàn)[5-7]采用的基于碰撞時間預(yù)測是一種比較流行的方法,它將路口規(guī)劃問題轉(zhuǎn)化為動態(tài)避障,這種方法的場景適應(yīng)性較好,但對時間的預(yù)測精度尚不能滿足復(fù)雜場景下安全性需求;文獻(xiàn)[8]基于駕駛意圖估計的決策框架提供了相對可靠的粗略預(yù)測,但這種方法不考慮車輛之間的時間與空間關(guān)系,因此在安全性方面往往較為保守,在避碰方面不夠牢靠;文獻(xiàn)[9-10]采用模型預(yù)測控制的方法,可以同時解決規(guī)劃和控制問題,但該方法需要對車輛和環(huán)境做精確建模,計算資源消耗較大,實時性較差?;陬A(yù)測的方法尚存在一定局限性:一方面,由于感知系統(tǒng)感知結(jié)果的誤差存在、預(yù)測算法的計算能力不足等問題導(dǎo)致預(yù)測精度尚不能滿足無人駕駛車輛的安全性需求;另一方面,基于預(yù)測的方法預(yù)測結(jié)果的時效性存在一定限制,對未來時間預(yù)測的準(zhǔn)確性會隨著時間的推移而大大降低。
基于推理的方法是根據(jù)當(dāng)前環(huán)境判斷周圍車輛行為以推理出當(dāng)下無人駕駛車輛最合適的動作。文獻(xiàn)[11]采用有限/混合狀態(tài)機(jī)的方法,通過滿足“條件”觸發(fā)“動作”來從當(dāng)前行駛狀態(tài)轉(zhuǎn)換為目標(biāo)行駛狀態(tài),該方法實現(xiàn)簡單、應(yīng)用廣泛,但應(yīng)對復(fù)雜交通場景能力不足;文獻(xiàn)[12]提出基于規(guī)則沖突表算法,利用路口交通規(guī)則建立完整的應(yīng)對機(jī)制,無人車根據(jù)不同的交通場景查表找到相應(yīng)的動作并執(zhí)行,但其應(yīng)對不確定情形的反應(yīng)能力不足;文獻(xiàn)[13]基于知識的推理決策模型假定完全了解其他車輛的狀態(tài)和意圖,并且不考慮所有交通參與者之間的相互作用,該方法尚存在一定缺陷?;谕评淼姆椒ň窒扌栽谟诤雎粤谁h(huán)境的動態(tài)性和不確定性,系統(tǒng)很難充分地考慮復(fù)雜的道路交通狀況。
POMDP是一種新興的無人駕駛決策框架,這是一種基于未來行為的不確定性檢索最優(yōu)行為并實現(xiàn)交互的方法[14]。文獻(xiàn)[15]在使用POMDP算法進(jìn)行路口規(guī)劃時通常根據(jù)道路幾何選取參考路徑,然后依據(jù)參考路徑進(jìn)行速度規(guī)劃,這種采用參考路徑的規(guī)劃方法計算資源消耗較小,但在某些場景下通行效率較低。POMDP的局限性在于“維數(shù)災(zāi)難”,即運算量會隨維數(shù)數(shù)目、歷史數(shù)據(jù)的增長而呈指數(shù)型增長,這對算力要求較高。此外,該POMDP的邏輯推理能力較弱,無法對城區(qū)道路豐富的結(jié)構(gòu)化特征進(jìn)行推理。
本文提出一種解決無人駕駛汽車在無信號保護(hù)路口左轉(zhuǎn)規(guī)劃問題的方法。
首先,提出一種基于左轉(zhuǎn)規(guī)劃區(qū)對角線分割(diagonal division of the planning area of left turns,DDPALT)的路徑生成方法,以期通過分割路口并考慮車輛特定約束找到多條左轉(zhuǎn)路徑備選。該方法一方面針對不同幾何形狀與幾何尺寸的交叉路口能夠提供一種通用高效的路徑生成方法,環(huán)境適應(yīng)性好;另一方面在復(fù)雜的交通狀況中,可以根據(jù)環(huán)境車輛不同的動態(tài)行為針對性地在備選路徑中選擇合適的路徑,在一些場景下能夠提升無人駕駛汽車通過路口的通行效率。
其次,引入POMDP方法構(gòu)建速度規(guī)劃器,并利用一個樸素貝葉斯分類器求解沿備選路徑的最優(yōu)加速度。引入POMDP的優(yōu)勢在于它能夠提供一種通用的、系統(tǒng)的、不確定性情形下的速度規(guī)劃框架以應(yīng)對交叉口復(fù)雜多變的環(huán)境,相較于現(xiàn)有的方法,POMDP在環(huán)境適應(yīng)性、行車安全性等方面均有提升。
為了表述方便,本文統(tǒng)一將無人駕駛車輛表述為自主車,環(huán)境車輛則用編號表示。
根據(jù)駕駛經(jīng)驗,駕駛員在有環(huán)境車輛的路口左轉(zhuǎn)時會先等待環(huán)境車輛的反應(yīng),并通過環(huán)境車輛可能的駕駛意圖選擇合適的行駛路徑。參考這一思路,本文DDPALT方法首先根據(jù)路口幾何尺寸與幾何特征劃出車輛左轉(zhuǎn)可能通過的區(qū)域,然后將該區(qū)域分割并考慮車輛的轉(zhuǎn)向特性生成序列路徑。
左轉(zhuǎn)規(guī)劃區(qū)和不對稱規(guī)劃區(qū)示意圖如圖1所示。圖1a中,中心黑色線圍成的幾何區(qū)域為自主車輛完成左轉(zhuǎn)行為的規(guī)劃區(qū)域,該區(qū)域是由自主車當(dāng)前車道、目標(biāo)車道以及另外2個方向的道路口圍成的幾何多邊形,以下稱為左轉(zhuǎn)規(guī)劃區(qū)。中國道路存在很多不對稱的路口,如圖1b東西向和南北向的車道不垂直相交,但左轉(zhuǎn)規(guī)劃區(qū)的劃定與圖1a中類似。
圖1 左轉(zhuǎn)規(guī)劃區(qū)和不對稱路口規(guī)劃區(qū)示意圖
在左轉(zhuǎn)規(guī)劃區(qū)內(nèi)規(guī)劃路徑需要考慮:
(1) 所規(guī)劃的路徑其最小半徑應(yīng)大于或等于自主車最小轉(zhuǎn)彎半徑。
(2) 自主車的航向角應(yīng)在到達(dá)目標(biāo)車道之前與目標(biāo)車道中線對齊。
綜合上述兩點,本文采用沿對角線分割左轉(zhuǎn)規(guī)劃區(qū)以找到合適左轉(zhuǎn)路徑的方法。
為了找到合適的左轉(zhuǎn)路徑,采用的規(guī)劃方法如圖2所示。
圖2 常規(guī)路口規(guī)劃和不對稱路口規(guī)劃示意圖
以圖2a為例,ABCDE包圍的幾何圖形為左轉(zhuǎn)規(guī)劃區(qū),EF為∠AED平分線,G、H為EF上的2個點,分別對應(yīng)車輛最小轉(zhuǎn)彎半徑rmin和車輛到達(dá)目標(biāo)點前完成轉(zhuǎn)向所允許的最大半徑rmax2個約束,以0.5 m為步長分割GH得到Gi(i=1,2,3,…),Gi即為所要規(guī)劃的左轉(zhuǎn)路徑圓弧中點。以自主車起始點、Gi和目標(biāo)點為航路點,利用直線和圓弧生成序列路徑,其中圓弧半徑在[rmin,rmax]區(qū)間以0.5 m為步長序列分布,圓弧兩端分別與AB中線、CD中線相切,剩余部分由直線相連,最終形成圖2a中3條白色序列路徑。圖2b展示了在不對稱路口中用該方法生成的路徑。
采用DDPALT方法生成的路徑有較好的環(huán)境適應(yīng)性,DDPALT生成的路徑數(shù)量會隨著路口幾何尺寸變化而變化。當(dāng)路口幾何尺寸非常大時會生成多條路徑供自主車選擇;而當(dāng)路口比較小時,2.1節(jié)中提及的2個約束會重合成一條路徑。不僅如此,DDPALT生成的路徑會隨著路口幾何特征變化而變化,從圖2b可以看出,即使是不對稱路口也能夠生成若干符合條件的路徑。這種方法在應(yīng)對中國道路上復(fù)雜多樣的路口有一定參考意義。
POMDP通常用于不確定性環(huán)境下的決策,在本文所假設(shè)的場景中,自主車要在無法獲知環(huán)境車輛駕駛意圖的情況下完成左轉(zhuǎn)動作,選用POMDP作為速度規(guī)劃器是一個較合適的選擇。POMDP通常被定義為一個元組(S,A,T,R,o,O,γ)。其中:S為狀態(tài)空間;A為動作空間;T為條件轉(zhuǎn)移概率空間;R為獎勵函數(shù);o為觀測空間;O為觀測模型;γ為折扣因子。
因為駕駛環(huán)境是交互的,在路口場景中任意環(huán)境車輛都有可能對自主車產(chǎn)生影響,所以該模型的狀態(tài)空間被表示為將要進(jìn)入路口及正處在路口中的所有車輛,該模型中狀態(tài)空間被定義為:
S={S0,S1,S2,…,Sn}
(1)
其中:S0表示自主車的狀態(tài);Si(i=1,2,…,n)表示路口中環(huán)境車輛的狀態(tài)。為了降低i求解POMDP過程中可能出現(xiàn)的維度災(zāi)難風(fēng)險,借鑒Frenet坐標(biāo)系的思想來描述車輛的狀態(tài)以達(dá)到降低維度加速計算的目的,即
Si=(si,vi,ri),i=0,1,2,…,n
(2)
其中:si為車輛沿當(dāng)前路徑行駛的距離;vi為車輛速度;ri為車輛的路徑,r0代表自主車選擇的路徑,由第2節(jié)中求解的序列路徑組成,ri(i≥1)代表環(huán)境車輛的路徑,其被離散為左轉(zhuǎn)、右轉(zhuǎn)、直行。
在左轉(zhuǎn)問題中,車輛的動作空間被定義為面向縱向加速度av的控制,方向盤轉(zhuǎn)角由專門的路徑規(guī)劃器控制,此處不做過多引申。綜合考慮交叉口安全限制、成員舒適性及車輛性能,縱向加速度被離散為-4~2 m/s2,步長為1 m/s2,最大速度被限制為35 km/h,動作空間被定義為:
A=av
(3)
獎勵函數(shù)模型需要綜合考慮效率、安全、成員舒適性等因素,將獎勵函數(shù)模型設(shè)置為:
R=Rd+Rv+Ra+Rc
(4)
Rd為自主車完成左轉(zhuǎn)越過目標(biāo)車道停止線的收益,當(dāng)?shù)竭_(dá)目的地后應(yīng)當(dāng)給予較高的獎勵,因此被定義為:
(5)
其中:si為自主車沿著當(dāng)前路徑行駛的距離;sdestination為車輛自主車初始位置到目標(biāo)車道停止線的距離。
Rv為速度收益,即考察自主車實際速度跟隨參考速度vref的能力,而v為車輛實時速度。Rv被定義為:
Rv=-(v-vref)2
(6)
Ra為加速度收益,頻繁的加速度變化會使乘員感到不安寧,因此當(dāng)加速度發(fā)生變化時:
Ra=-100
(7)
Rc為碰撞收益,無人駕駛車輛的安全性需要得到保障,將Rc設(shè)為:
Rc=-10 000
(8)
由于需要考慮環(huán)境中所有可能的影響,觀測空間被定義為交叉口中除了自主車之外的所有的車輛,即
O={O1,O2,O3,…,On}
(9)
為了簡化計算,在模型中忽略傳感器的誤差。在無人駕駛車輛與有人駕駛車輛混行狀態(tài)下,有人駕駛車輛的位置、航向角以及瞬時速度是可以被自主車感知到的,但有人駕駛車輛的駕駛意圖很難精確預(yù)測,其觀測狀態(tài)定義為:
Oi=(vi,xi,yi),i=1,2,3,…,n
(10)
由于環(huán)境車輛的駕駛意圖不可知,本文引入一個二維樸素貝葉斯分類器,利用該分類器處理觀測空間中環(huán)境車輛的坐標(biāo)信息Di,n(其中:i表示車輛編號;n=1時代表速度,n=2時代表位移),并給出預(yù)測概率為:
Di=
(11)
精確預(yù)測環(huán)境車輛的路徑較難實現(xiàn),但能夠預(yù)測車輛駛?cè)胩囟窂降母怕蕿?
(12)
在車輛駕駛意圖不可知的條件下,假設(shè)環(huán)境車輛駛?cè)朊織l路徑具有相同的先驗概率,則有:
P(ri=r1)=P(ri=r2)=P(ri=r3),
i=1,2,3
(13)
其中:1代表左轉(zhuǎn)代號;2代表直行代號;3代表右轉(zhuǎn)代號。
環(huán)境所有車輛的駕駛意圖概率為:
P(ri=rj|Di,1,Di,2)=
(14)
關(guān)于P(Di,1/2|rj)的取值,為了簡化計算采用高斯分布來模擬預(yù)測,即P(Di,1|rj)=N(0,4.0),P(Di,2|rj)=N(0,6.0)。
至此觀測模型Oi=(vi,xi,yi)(i=1,2,3,…,n)可以由每個潛在路徑的概率簡化產(chǎn)生。
求解POMDP問題分為在線和離線方法。
離線方法會事先考慮環(huán)境中所有的靜態(tài)及動態(tài)問題,并且將這些問題嵌入至POMDP模型中,再利用一個離線POMDP求解器在車輛發(fā)出控制指令之前找到一個好的策略。這種方法在環(huán)境未知且其他車動態(tài)未知的情況下,構(gòu)建的POMDP模型過于龐大且很難求解[16]。
在線方法只對環(huán)境及其動態(tài)的已知部分建模,并允許在更多關(guān)于環(huán)境的信息上可用時變更執(zhí)行。與離線方法相比,在線方法在算力要求、計算效率、場景適應(yīng)性方面均有顯著優(yōu)勢。
本文采用自適應(yīng)置信樹(adaptive belief tree,ABT)來在線解決該問題。ABT方法在模型運行時會根據(jù)POMDP模型的變化來修改模型中受到影響的部分,及時地剪枝也能夠避免模型過于龐大的問題。
ABT結(jié)構(gòu)示意圖如圖3所示。ABT通過維護(hù)一個高度為H(H為樹的層數(shù),圖3中的高度為2層)的信念樹T來精準(zhǔn)表示POMDP問題中的狀態(tài)轉(zhuǎn)換關(guān)系,T中的每一個圈代表一個信念b和該信念下所處的狀態(tài)s;T的根表示初始置信值為b0;每條樹枝b-b′由一個動作a和一個觀測o標(biāo)記,這條樹枝表示當(dāng)自主車處在置信b狀態(tài)下執(zhí)行動作a并根據(jù)觀測模型接收到觀測o時,置信將會更新其下一個置信為b′。為了搜索每個置信樹,自主車的系統(tǒng)將執(zhí)行一個后序遍歷,在每個葉節(jié)點上,系統(tǒng)模擬一個默認(rèn)策略來獲得其值的下界。
在每個內(nèi)部節(jié)點,系統(tǒng)采用貝爾曼最優(yōu)性原則來選擇一個最佳動作,其公式如下:
(15)
通過遞歸計算動作分支A的最大值和觀測分支O的平均值,求得置信b的近似最優(yōu)策略變量V(b)。然后,自主車執(zhí)行策略的第1個動作。由于樹的生長順序是動作分支A-觀測分支O在高度H下循環(huán)生長,因此當(dāng)行為空間或觀測空間非常大時,構(gòu)建或搜索全樹是不現(xiàn)實的。
圖3 ABT結(jié)構(gòu)示意圖
為了解決這個問題,本文采取了一些改進(jìn)措施。首先,因為在(15)式中第2項計算了觀測分支的平均值,所以不需要遍歷所有的觀測分支來確定一個近似最優(yōu)值,觀測分支的抽樣子集足以估計這個平均值;其次,定義一個子樹,稱為確定性稀疏部分可見樹,它只包含當(dāng)前采樣場景下所有策略遍歷的置信樹節(jié)點和邊。在文獻(xiàn)[17]中證明了一個小的強(qiáng)子樹能夠產(chǎn)生一個具有有界限制的近似最優(yōu)策略。
利用PreScan和MATLAB/Simulink進(jìn)行聯(lián)合仿真,所提及的內(nèi)容均運行在英特爾酷睿i7-4710MQ處理器上(主頻2.5 GHz)。在無信號保護(hù)路口左轉(zhuǎn)場景中,左轉(zhuǎn)匯入車流和多對向車是較難解決的問題,據(jù)此設(shè)定2種不同的測試場景以驗證本文算法。在測試場景中,環(huán)境車輛的行駛軌跡與速度是預(yù)先設(shè)置的,自主車可以獲得環(huán)境車輛的位置、速度和航向角,但自主車不可獲知環(huán)境車輛駕駛意圖。
測試場景一如圖4所示。圖4a中:3輛車匯入同一車道,自主車對向和右側(cè)車道各有一輛車分別沿路線R4和R5行駛,自主車在未能判斷2輛車駕駛意圖之前保持低速行駛;在對向車快速右轉(zhuǎn)通過路口及右側(cè)車減速后,圖4c顯示自主車提升了對向車右轉(zhuǎn)和右側(cè)車直行的概率,自主車根據(jù)該假設(shè)在備選路徑中選擇了一條最靠左的軌跡(圖4a中路線R1),并在對向車右轉(zhuǎn)后加速駛離路口。圖4b中,X-Y為全局空間位置坐標(biāo)系,Z軸代表時間。結(jié)合圖4a、圖4b可以看出,自主車與對向右轉(zhuǎn)車及右側(cè)直行車的時空間曲線并未相交,計算出最小距離后結(jié)合車輛的幾何尺寸可以判斷并未發(fā)生碰撞。
測試場景二如圖5所示。圖5a中,自主車對向車道有3輛車排成1列以相同的速度沿路線R4行駛。從圖5a可以看出,自主車軌跡與對向3輛車軌跡不可避免地會發(fā)生重疊,自主車根據(jù)分類器中對對向3輛車軌跡的判斷選擇了一條較遠(yuǎn)的軌跡(圖5a中路線R1),并在對向3輛車通過路口后加速完成左轉(zhuǎn)動作。通常評價生成軌跡好壞的標(biāo)準(zhǔn)是檢驗軌跡是否最短,但在圖5a中展示的場景較為特殊,盡管自主車選擇的路徑不是最短的,但考慮對向3輛車的移動特性,選擇較遠(yuǎn)的路徑能夠避免自主車長時間等待,以縮短自主車通過路口的時間,提升通行效率。
圖4 測試場景一
圖5 測試場景二
為了驗證本文方法的高效性,對比測試采用DDPALT和基于參考路徑的方法在同樣場景下通過路口所耗時間,結(jié)果如圖6所示。
圖6 DDPALT與參考路徑方法左轉(zhuǎn)通過路口所耗時間的對比
圖6a中,白色路線R1為使用DDPALT規(guī)劃的路徑,中間路線R2為參考路徑。圖6b展示了對向車直行時采用參考路徑自主車完成左轉(zhuǎn)動作所耗時間和采用DDPALT完成左轉(zhuǎn)動作所需要的時間,其中,橫坐標(biāo)為位移,縱坐標(biāo)為時間。設(shè)定自主車從起始點出發(fā)到達(dá)目標(biāo)車道停止線與目標(biāo)車道中線的交點這段位移為完成左轉(zhuǎn)動作所需要的位移。
從圖6b可以看出,采用參考路徑的方法比采用DDPALT所耗時間長了0.66 s。這證明本文所提出的規(guī)劃方法在部分特定場景中可以提高自主車左轉(zhuǎn)效率。
本文提出DDPALT路徑生成方法并結(jié)合POMDP的速度規(guī)劃方法來解決無人駕駛車輛無信號保護(hù)路口左轉(zhuǎn)規(guī)劃問題。得出結(jié)論如下:
(1) DDPALT能夠快速準(zhǔn)確地依據(jù)車輛轉(zhuǎn)向特性和路口幾何特性找到若干條可通行的路徑,所生成的路徑環(huán)境適應(yīng)性好,能夠應(yīng)對不同的動態(tài)環(huán)境。
(2) 利用樸素貝葉斯分類器估計環(huán)境車輛的駕駛意圖在本文中是一個創(chuàng)新性的應(yīng)用,分類器所提供的駕駛意圖預(yù)估能夠為POMDP求解器提供一個可信度較高的初始置信,這為后續(xù)求解帶來極大的方便。本文采用的ABT方法克服了求解POMDP問題過程中容易出現(xiàn)的維數(shù)爆炸問題,實現(xiàn)了POMDP問題的高效近似求解,這在工程應(yīng)用中具有一定的現(xiàn)實意義。
(3) 相較于現(xiàn)有方法,本文方法在保證安全性的同時減少了車輛左轉(zhuǎn)通過無信號路口的時間,與采用參考路徑方法的對比測試結(jié)果表明,通行效率得到了提升。多場景的仿真實驗說明本文方法能夠應(yīng)對相對復(fù)雜的動態(tài)環(huán)境。