胡益愷,莊瀚洋,王春香,楊 明a,
(上海交通大學(xué) a.自動(dòng)化系;b.密西根學(xué)院;c.系統(tǒng)控制與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,上海 200240)
智能車(chē)作為當(dāng)下的研究熱點(diǎn)之一,獲得了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注[1].在車(chē)輛的正常行駛過(guò)程中經(jīng)常會(huì)遇到上下匝道、車(chē)道合并、道路施工等匯流場(chǎng)景,盡管交通法規(guī)對(duì)這些場(chǎng)景有著一些指導(dǎo)性的規(guī)定,但由于場(chǎng)景的獨(dú)特性和駕駛員不同的理解方式,導(dǎo)致匯流過(guò)程成為典型的博弈場(chǎng)景.如何有效提升該場(chǎng)景下車(chē)輛通行的效率及安全性,是智能車(chē)決策系統(tǒng)開(kāi)發(fā)中的一個(gè)關(guān)鍵問(wèn)題.
近年來(lái),一些學(xué)者提出了基于車(chē)間協(xié)同與車(chē)路協(xié)同的方法,即運(yùn)用車(chē)輛彼此之間[2-3]以及與道路基礎(chǔ)設(shè)施之間[4-6]的通信來(lái)解決交通沖突.雖然基于車(chē)與車(chē)通訊(V2V)與車(chē)聯(lián)網(wǎng)(V2X)的策略能夠提高路口交通的安全性和效率,但其過(guò)度依賴(lài)于車(chē)間通訊設(shè)備以及路側(cè)基礎(chǔ)設(shè)施,在短期內(nèi)仍然難以大范圍推廣.與此同時(shí),大量的研究工作聚焦于對(duì)單輛智能車(chē)的決策研究,例如:基于可達(dá)性分析方法[7],基于學(xué)習(xí)類(lèi)方法[8-10]以及基于博弈論的方法[11-13]等.其中,基于博弈的方法被科研工作者視為對(duì)理性決策者之間交互建模的合適工具,并被多名科研人員進(jìn)行討論與實(shí)驗(yàn)驗(yàn)證.文獻(xiàn)[11]將存在交互行為的所有決策個(gè)體視為非合作博弈中的參與者,以各方的狀態(tài)改變作為博弈策略,通過(guò)構(gòu)建收益矩陣后求解得到博弈模型的納什均衡,以作為雙方的最優(yōu)駕駛策略組合.該方法雖在匯流場(chǎng)景中取得了優(yōu)異的效果,但其并沒(méi)有考慮匯流場(chǎng)景中路權(quán)的差異,忽略了人類(lèi)駕駛員在實(shí)際駕駛中的禮貌因素,并且缺乏對(duì)車(chē)輛感知范圍的合理限制,從而在決策建模時(shí)和實(shí)際產(chǎn)生偏差,降低了決策方法的穩(wěn)健性.
本文提出基于主從博弈(Stackelberg-game)理論的智能車(chē)輛決策方法框架,該模型結(jié)合了兩個(gè)參與者的不對(duì)稱(chēng)角色特性,并賦予了一個(gè)參與者相對(duì)于另一個(gè)參與者的優(yōu)勢(shì)[14-15].該決策方法有效地將匯流場(chǎng)景中的路權(quán)因素考慮其中,例如在匝道口交替通行路段,滿足交替通行規(guī)則的車(chē)輛擁有較高的路權(quán),可以將其視為主從博弈中的領(lǐng)導(dǎo)者,而未獲得交替通行權(quán)限的車(chē)輛被合理地視為跟隨者.同時(shí),本文提出駕駛員合作收益,并考慮車(chē)輛的傳感器感知范圍有限性以提升決策方法的安全性、合理性與穩(wěn)健性.本文工作可為智能車(chē)輛在匯流場(chǎng)景下運(yùn)用博弈方法解決決策問(wèn)題的可行性提供理論驗(yàn)證.
建立基于主從博弈的車(chē)輛博弈模型,并分別從雙車(chē)博弈以及多車(chē)博弈進(jìn)行討論.同時(shí),建立環(huán)境的參數(shù)化模型與以此為基礎(chǔ)的車(chē)輛軌跡模型,以提升方法的可遷移性.
選擇主從博弈作為基礎(chǔ)博弈模型,分別定義al與af為領(lǐng)導(dǎo)車(chē)輛和跟隨車(chē)輛的決策,Al與Af分別為二者對(duì)應(yīng)的決策集合.在博弈中,參與者通過(guò)選擇合適的策略,最大化收益函數(shù),領(lǐng)導(dǎo)車(chē)輛的收益函數(shù)以Rl(s,al,af)表示,跟隨車(chē)輛的收益函數(shù)為Rf(s,al,af),其中s∈S,S={(sl,sf)t}為當(dāng)前時(shí)刻t的車(chē)輛集合狀態(tài)空間.根據(jù)主從博弈均衡解的概念[15],對(duì)兩車(chē)博弈進(jìn)行建模,并得到領(lǐng)導(dǎo)車(chē)輛的均衡解γl與跟隨車(chē)輛的均衡解γf,則有:
(1)
(2)
考慮到該場(chǎng)景下的博弈可以視為完全信息場(chǎng)景,即領(lǐng)導(dǎo)車(chē)輛了解跟隨車(chē)輛的決策方案,從而式(1)的博弈模型可以轉(zhuǎn)化為
(3)
(4)
當(dāng)環(huán)境中出現(xiàn)眾多車(chē)輛時(shí),現(xiàn)有方法常通過(guò)建立兩兩參與者之間的博弈模型后通過(guò)均衡解得到最優(yōu)決策,但該方法隨著參與者數(shù)目的增加,計(jì)算復(fù)雜度將呈指數(shù)級(jí)增長(zhǎng)[17].考慮到駕駛員的視覺(jué)感知范圍以及智能駕駛車(chē)輛的傳感器感知范圍有限,并結(jié)合領(lǐng)導(dǎo)車(chē)輛與跟隨車(chē)輛的從屬關(guān)系,有效地提高多車(chē)博弈模型的求解速度,可以表示為
(5)
圖1 匯流場(chǎng)景參數(shù)化建模Fig.1 Parameterized modeling of merging scenario
式中:S(t)為t時(shí)刻環(huán)境中所有車(chē)輛的狀態(tài);sp,q(t)為t時(shí)刻第p輛車(chē)與第q輛車(chē)之間的相對(duì)狀態(tài);leader為領(lǐng)導(dǎo)車(chē)輛;follower為跟隨車(chē)輛;kp為笛卡爾坐標(biāo)系下第p輛車(chē)的極限感知范圍;xp為第p輛車(chē)的x軸坐標(biāo);yp為第p輛車(chē)的y軸坐標(biāo);ap為第p輛車(chē)的決策;Ap為第p輛車(chē)的決策集.該多車(chē)博弈模型與現(xiàn)實(shí)匯流場(chǎng)景中駕駛員的交互行為有較高的一致性,人類(lèi)駕駛員無(wú)論是在加速車(chē)道還是在主車(chē)道都會(huì)對(duì)感知視野內(nèi)不同目標(biāo)分配不同的注意力進(jìn)行判斷與評(píng)估.
以參數(shù)組P表征匯流場(chǎng)景的結(jié)構(gòu)特征:
P={lO,lR,lW,lAcc,dR,1,dR,dM,
(6)
圖2 匯流場(chǎng)景中的車(chē)輛軌跡模型Fig.2 Vehicle path model in merging scenario
收益函數(shù)將顯式地量化博弈參與者的目標(biāo),在匯流場(chǎng)景中,駕駛員以及智能駕駛車(chē)輛擁有相同的基本目標(biāo),可以概括為行駛過(guò)程中避免與環(huán)境車(chē)輛發(fā)生碰撞,并與環(huán)境車(chē)輛保持合理距離;通過(guò)并快速到達(dá)目標(biāo)點(diǎn);控制車(chē)輛的加速度,以?xún)?yōu)化車(chē)輛舒適性的控制收益;禮貌駕駛員的合作收益.
在計(jì)算收益函數(shù)時(shí),運(yùn)用了模型預(yù)測(cè)的思想,計(jì)算了未來(lái)幀的預(yù)測(cè)收益,從而提高模型的穩(wěn)健性和安全性.考慮到基于車(chē)輛運(yùn)動(dòng)學(xué)模型的預(yù)測(cè)過(guò)程中會(huì)存在預(yù)測(cè)誤差,針對(duì)收益函數(shù)設(shè)計(jì)了衰減因子,以提升決策方法的穩(wěn)定性.
(7)
式中:Ri(t)為t時(shí)刻博弈參與者的總收益函數(shù);Ri(st,t+kτ)為總預(yù)測(cè)收益;RAi(st,t+kτ)為安全預(yù)測(cè)收益;RTi(st,t+kτ)為時(shí)間預(yù)測(cè)收益;RCi(st,t+kτ)為舒適性預(yù)測(cè)收益;RGi(st,t+kτ)為合作預(yù)測(cè)收益;τ為預(yù)測(cè)時(shí)間間隔;k為預(yù)測(cè)的時(shí)間幀數(shù);H為預(yù)測(cè)推演的時(shí)間窗口大?。籹t為t時(shí)刻車(chē)輛的狀態(tài);ω1、ω2、ω3、ω4分別為4項(xiàng)收益的權(quán)重;ξ為衰減因子,其表現(xiàn)形式為預(yù)測(cè)時(shí)間間隔越長(zhǎng)的收益在收益項(xiàng)Ri(t)中的占比將會(huì)越小.
同時(shí),在對(duì)車(chē)輛運(yùn)動(dòng)學(xué)建模的過(guò)程中,一般對(duì)車(chē)輛模型進(jìn)行簡(jiǎn)化,采用車(chē)輛二自由度模型[18-19]實(shí)現(xiàn)在預(yù)測(cè)時(shí)間窗口中的車(chē)輛狀態(tài)更新.
圖3 車(chē)輛安全收益幾何模型Fig.3 Geometric model of vehicle safety benefits
車(chē)輛安全是智能車(chē)輛行駛中最為重要的收益之一,首先定義車(chē)輛的碰撞判定以及安全距離.車(chē)輛安全收益幾何模型如圖3所示.其中:粗實(shí)線為車(chē)輛碰撞判定區(qū)域;粗虛線為安全預(yù)留區(qū)域;(xt,yt)為t時(shí)刻車(chē)輛后軸中心在笛卡爾坐標(biāo)系中的坐標(biāo),lcf與lcr分別為車(chē)輛前、后邊緣距后軸中心的碰撞判定距離;lsf與lsr分別為車(chē)輛前、后邊緣距后軸中心的行車(chē)安全預(yù)留距離;wc為車(chē)輛的碰撞判定車(chē)寬;ws為車(chē)輛的行車(chē)安全預(yù)留車(chē)寬;Ac(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻車(chē)輛碰撞判定區(qū)的重疊面積;As(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻安全預(yù)留區(qū)的重疊面積.其中,安全預(yù)留區(qū)域的參數(shù)組(lsf,lsr,ws)為車(chē)速v(t)的函數(shù).安全收益定義如下:
(8)
式中:ω11、ω12分別為碰撞權(quán)重和安全預(yù)留權(quán)重;vi(st,t′)vj(st,t′)為當(dāng)前博弈參與者的速度,即二者速度越大,收益項(xiàng)會(huì)認(rèn)為此隱患越危險(xiǎn),從而帶來(lái)更大的懲罰;I(Ac(st,t′))與I(As(st,t′))為0-1函數(shù),當(dāng)相應(yīng)的安全區(qū)域出現(xiàn)重疊時(shí)取為1,不重疊時(shí)取為0.
在保證車(chē)輛安全的同時(shí),智能車(chē)輛行駛的另一個(gè)重要收益是以較短的時(shí)間到達(dá)目的地,越快的速度將會(huì)得到更多的時(shí)間收益,從而將每一時(shí)刻車(chē)輛的速度作為時(shí)間收益,收益函數(shù)定義如下:
RTi(st,t+kτ)=RTi(st,t′)=vt(st,t′)
(9)
式中:vt(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻研究對(duì)象的速度.
乘客的舒適性亦為決策的收益之一,急動(dòng)度為加加速度,是加速度對(duì)時(shí)間的求導(dǎo),為衡量車(chē)輛控制平順度的重要指標(biāo),并且直接影響車(chē)輛成員對(duì)舒適性的感受.車(chē)輛的舒適性預(yù)測(cè)收益可以定義為
RCi(st,t+kτ)=RCi(st,t′)=-J(t′)
(10)
式中:J(t′)為t′時(shí)刻車(chē)輛的急動(dòng)度.
考慮到現(xiàn)實(shí)駕駛環(huán)境中,駕駛員在進(jìn)行決策時(shí),并不采用完全自私?jīng)Q策,而會(huì)考慮到自身決策對(duì)環(huán)境其他駕駛員的影響.本文提出合作預(yù)測(cè)收益RG(st,t+kτ),以實(shí)現(xiàn)對(duì)駕駛員合作行為的量化建模:
RGi(st,t+kτ)=RGi(st,t′)=-|uj(st,t′)|
(11)
式中:uj(st,t′)為參與者在其博弈環(huán)節(jié)環(huán)境中第j輛車(chē)輛的加速度,以表征參與者自身決策對(duì)環(huán)境其他車(chē)輛行駛的影響.uj(st,t′)的值越大,代表對(duì)其他車(chē)輛的影響越大.當(dāng)車(chē)輛所做出的決策會(huì)使環(huán)境中其他車(chē)輛的速度發(fā)生變化時(shí),合作收益將會(huì)減少.智能車(chē)輛在進(jìn)行決策過(guò)程中,將會(huì)考慮其對(duì)其他博弈參與者帶來(lái)的影響,從而表現(xiàn)出與實(shí)際駕駛相符的禮貌性.
本節(jié)從安全收益、時(shí)間收益、控制收益以及合作收益4個(gè)方面對(duì)智能車(chē)輛在匯流場(chǎng)景中的決策目標(biāo)收益進(jìn)行定義.將式 (7)~(11)與式 (5)結(jié)合,可得到?jīng)Q策的顯式過(guò)程,同時(shí)由于收益函數(shù)均具有顯式物理含義,大大增強(qiáng)了決策方法的可解釋性.通過(guò)調(diào)整收益函數(shù)項(xiàng)的權(quán)重系數(shù)以及具體收益函數(shù)中的計(jì)算參數(shù),即可實(shí)現(xiàn)對(duì)期望目標(biāo)的定向決策優(yōu)化.
本文所提出的決策求解方法,以當(dāng)前時(shí)刻的環(huán)境觀測(cè)為輸入,根據(jù)車(chē)輛路權(quán)確定其在主從博弈中的優(yōu)先度,隨后根據(jù)環(huán)境觀測(cè)生成候選軌跡后,計(jì)算從當(dāng)前時(shí)刻向前推演的博弈參與者收益,并使用基于主從模型的博弈方法得到?jīng)Q策計(jì)算結(jié)果:
γ∈A={a1,a2,…,aM}
(12)
式中:γ為博弈參與者的均衡解;ai為車(chē)輛的決策,此場(chǎng)景下決策的值為車(chē)輛的加速度,ai=ui∈[umin,umax].
決策模塊生成的決策結(jié)果為當(dāng)前時(shí)刻應(yīng)采用的車(chē)輛加速度,該結(jié)果將傳遞給車(chē)輛的控制模塊,以實(shí)現(xiàn)車(chē)輛的縱向控制.車(chē)輛的橫向控制由路徑跟蹤模塊實(shí)現(xiàn),此處不展開(kāi)討論.所提車(chē)輛決策方法流程圖如圖4所示.
圖4 面向匯流場(chǎng)景的決策方法流程圖Fig.4 Flowchart of decision method for merging scenario
本文分別在INTERACTION數(shù)據(jù)集以及NGSIM數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).其中,INTERACTION數(shù)據(jù)集是由加州大學(xué)伯克利分校機(jī)械系統(tǒng)控制實(shí)驗(yàn)室(MSC Lab)等建立的一個(gè)具有國(guó)際性、對(duì)抗性、協(xié)作性的數(shù)據(jù)集[20].其匝道收縮場(chǎng)景及加速車(chē)道場(chǎng)景如圖5所示.其中:DR_DEU_Merging_MT數(shù)據(jù)集采集地點(diǎn)位于德國(guó),是一個(gè)經(jīng)典的道路收縮場(chǎng)景;DR_CHN_Merging_ZS數(shù)據(jù)集采集地點(diǎn)位于中國(guó),該數(shù)據(jù)集中同時(shí)出現(xiàn)了道路收縮以及加速車(chē)道匯流的場(chǎng)景;圖中數(shù)字編號(hào)為所采集的車(chē)輛編號(hào).
圖5 INTERACTION 數(shù)據(jù)集Fig.5 INTERACTION dataset
NGSIM數(shù)據(jù)集[21]由美國(guó)聯(lián)邦公路局提供,本文采用文獻(xiàn)[11]中所采用的數(shù)據(jù)集NGSIM-US 101.
采用行為預(yù)測(cè)準(zhǔn)確率(ζ)以及平均絕對(duì)誤差(MAE)作為決策方法的評(píng)估指標(biāo).行為預(yù)測(cè)準(zhǔn)確率的定義可以表示為
(13)
(14)
分別基于3個(gè)數(shù)據(jù)集展開(kāi)了決策實(shí)驗(yàn),并記錄了ζ與MAE的具體表現(xiàn),如表1所示.其中,加粗的數(shù)據(jù)為決策表現(xiàn)更優(yōu)的評(píng)價(jià)結(jié)果.通過(guò)對(duì)比分析可知,本文方法優(yōu)于文獻(xiàn)[11]中所提出的方法.
表1 決策方法行為預(yù)測(cè)準(zhǔn)確率及其MAETab.1 Prediction accuracies of decision-making method behaviours and their MAE
行為預(yù)測(cè)準(zhǔn)確率與車(chē)流量的關(guān)系如圖6所示,其中:V為主路車(chē)道車(chē)輛數(shù).在不同數(shù)據(jù)集中,隨著主路車(chē)道上車(chē)流量的增大,本文所提方法與文獻(xiàn)[11]方法相比,行為預(yù)測(cè)準(zhǔn)確率的下降趨勢(shì)較緩,從而論證了本文方法在車(chē)流密度較高的場(chǎng)景下有較強(qiáng)的穩(wěn)定性.
通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比分析可知,本文所提出的基于主從博弈的智能車(chē)輛決策方法在行為預(yù)測(cè)準(zhǔn)確率方面,在INTERACTION數(shù)據(jù)集的表現(xiàn)優(yōu)于文獻(xiàn)[11],但在NGSIM-US 101數(shù)據(jù)集上的準(zhǔn)確率略低于文獻(xiàn)[11]中的結(jié)果,原因是由于文獻(xiàn)[11]中針對(duì)NGSIM數(shù)據(jù)集中378對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了針對(duì)性的參數(shù)標(biāo)定,所以有一定過(guò)擬合現(xiàn)象的產(chǎn)生.在決策輸出的平均絕對(duì)誤差方面,本文方法優(yōu)于對(duì)比文獻(xiàn)中的方法.同時(shí),隨著主路車(chē)道上車(chē)流量的增大,本文提出的方法在行為預(yù)測(cè)準(zhǔn)確率和MAE兩個(gè)指標(biāo)上的變化較少,文獻(xiàn)[11]中的指標(biāo)略有下降,從而體現(xiàn)出本文方法的穩(wěn)健性.
圖6 行為預(yù)測(cè)準(zhǔn)確率與車(chē)流量關(guān)系Fig.6 Behavior prediction accuracy versus traffic flow
本文提出了一種基于主從博弈的匯流場(chǎng)景智能車(chē)決策方法,該方法通過(guò)引入路權(quán)的定義,分別構(gòu)建了雙車(chē)博弈模型以及多車(chē)博弈模型,用以解決匯流場(chǎng)景中的決策問(wèn)題.此外,本文還設(shè)計(jì)了匯流場(chǎng)景的參數(shù)化模型,增加了決策方法的可遷移性.本文通過(guò)設(shè)計(jì)安全收益、時(shí)間收益、控制收益以及合作收益,顯式地構(gòu)成了車(chē)輛博弈中的目標(biāo)收益函數(shù),增加了所提決策方法的合理性與可解釋性.最后,分別基于INTERACTION與NGSIM數(shù)據(jù)集進(jìn)行測(cè)試與分析,驗(yàn)證了所提方法的有效性與穩(wěn)健性.結(jié)果表明,基于主從博弈的決策方法可以和匯流場(chǎng)景中的路權(quán)信息有效結(jié)合,提升決策的合理性.同時(shí),合作收益的引入可以使無(wú)人駕駛車(chē)輛解算出更加類(lèi)人且安全的決策.下一步工作將致力于在更加普適的場(chǎng)景中研究基于博弈方法的智能車(chē)決策問(wèn)題.