蔡 科,聶振宇,馬慶祿*,孔國英
(1.重慶交通大學(xué) 交通運輸學(xué)院,重慶 400074;2.重慶城市交通開發(fā)投資(集團)有限公司,重慶 401120;3.重慶奉建高速公路有限公司,重慶 401120)
匝道合流區(qū)域是主線車道與匝道的交匯路段,包括匝道、加速車道以及與之相連接的主線車道部分[1].由于匝道和主線車輛在此區(qū)域合流匯入,交通量在時間和空間上突然增大,極易導(dǎo)致交通流速度降低甚至出現(xiàn)混亂等問題,匝道合流區(qū)域不僅是高速公路通行能力的瓶頸,也是交通事故多發(fā)的路段[2].因此,提高高速公路匝道合流區(qū)域的通行效率是保障路網(wǎng)運行通暢的關(guān)鍵.
針對匝道車輛匯入與主線車輛沖突的研究,解決方法主要分為兩類:匝道信號控制[3]和區(qū)域協(xié)同控制[4].Lim等[5]以匝道和連接的主線下游路段延誤量最小為控制目標(biāo),用交通流量、合流區(qū)域長度和長度建立控制模型,利用線性規(guī)劃方法求解滿足模型約束條件的最優(yōu)解制定最佳的信號控制方案,在飽和交通流量下該模型降低了路網(wǎng)整體的行程時間和延誤時間.Chiang等[6]提出一種匝道與主線流量預(yù)測的動態(tài)控制方法,利用傳感器實時感知主線車流的運行狀態(tài),在保證主線通行效率的同時對匝道車輛進行控制,只有主線車流量較大形成排隊才對主線和匝道車輛同時進行信號控制.Chen等[7]針對不同車道提出一種主線與匝道車輛行程時間的均衡控制模型,以路網(wǎng)通行效率最大為控制目標(biāo),根據(jù)主線和匝道不同的控制策略構(gòu)建平衡機制,實現(xiàn)路線行程時間和延誤時間減少.劉暢等[8]考慮的通行效率和行車舒適性構(gòu)造目標(biāo)函數(shù),基于先進先出的合流次序,動態(tài)計算相鄰車輛通過合流點的時間差,利用龐特里亞金極小值原理求解車輛最優(yōu)行駛策略.馬慶祿等[9]引入博弈論原理協(xié)調(diào)控制車輛,考慮安全和行駛效率因素構(gòu)建博弈收益陣列,根據(jù)納什均衡消解車輛間通行權(quán)沖突問題.Zhang等[10]在保障獲取精確的主線車流信息下,充分利用匝道車輛占有率,采用多層優(yōu)先級控制方案,實現(xiàn)主線與匝道車輛通行效率均衡,減少路網(wǎng)擁堵.傳統(tǒng)的匝道控制研究主要是通過對匝道車輛匯入前的速度調(diào)節(jié),在不影響主線通行效率的前提下完成匯入[11].由于缺乏精確的車輛運行狀態(tài)和道路的感知手段,該類方法很難實現(xiàn)各個車輛的協(xié)同控制[12].近年來物聯(lián)網(wǎng)和5G通訊技術(shù)的發(fā)展,車輛間和車輛與道路設(shè)施協(xié)同工作的技術(shù)日益成熟,對單個車輛的精準(zhǔn)控制成為了可能,高速公路匝道合流區(qū)域車輛協(xié)同控制研究有了新內(nèi)容[13-14].
智能網(wǎng)聯(lián)環(huán)境下考慮車輛博弈收益函數(shù)時往往賦予安全因素較大的權(quán)重,安全因素又是車輛間隙和行駛速度的函數(shù),這樣的研究思路可能會產(chǎn)生不切合實際的納什均衡狀態(tài)[15].而匝道與主線車輛的換道動機不同,本文增加了匝道車輛換道緊迫程度的收益[16],考慮到主線與匝道車輛的不同行駛策略,構(gòu)建了不同的收益函數(shù),根據(jù)納什均衡的約束條件采用非線性規(guī)劃方法求解同一博弈對局中雙方的納什均衡策略.通過仿真驗證,相比人工駕駛和智能網(wǎng)聯(lián)環(huán)境下無人駕駛無控制合流,所提出的博弈控制模型有效提高了匝道合流區(qū)域的通行效率并降低了燃油消耗.
選取主線單車道與匝道單車道合流的場景,匝道與主線采用加速車道的連接方式,如圖1所示.匝道車輛基于行駛目的地需要屬于戰(zhàn)略性變道,匝道車輛可以在加速車道的任意段選擇匯入主線車道,協(xié)同控制策略應(yīng)用于主線與匝道的道路合流區(qū)域,路網(wǎng)中行駛的車輛均是具備智能網(wǎng)聯(lián)功能的自動駕駛車輛,車輛與車輛、車輛與路側(cè)控制單元以及路側(cè)控制單元與道路設(shè)施之間均可以實時通信,路側(cè)控制單元可以獲取協(xié)同控制區(qū)域中車輛位置、速度、加速度等行駛狀態(tài)信息以及道路各車道占有率等交通狀態(tài)信息.路側(cè)控制單元根據(jù)所獲取的車輛行駛狀態(tài)以及道路交通狀態(tài)信息,基于相應(yīng)的控制模型計算出合流控制區(qū)域內(nèi)每輛車的行駛策略,并將行駛策略發(fā)送給相應(yīng)車輛[17].
圖1 合流區(qū)域協(xié)同控制系統(tǒng)
當(dāng)車輛進入?yún)f(xié)同區(qū)域路段后開始實時采集行駛狀態(tài)信息,通過協(xié)同控制系統(tǒng)對區(qū)域內(nèi)車輛發(fā)送速度和是否變道的行駛策略指令,協(xié)同控制區(qū)域道路長度為L,車道1中車輛需要在協(xié)同控制區(qū)域內(nèi)完成向車道2的變道,變道指令由路側(cè)控制單元發(fā)出.
匝道合流區(qū)域中車道1中的車輛A需要在合流區(qū)域末端向車道2進行戰(zhàn)略性換道,在t時刻車輛A與合流區(qū)末端相距為lA,如果A繼續(xù)在車道1上行駛,隨著lA的不斷減小,其換道的意愿會愈加強烈;影響A換道時機的是換道目標(biāo)車道中臨近的滯后車輛B和先前車輛C,B和C距離合流區(qū)域末端的距離分別為lB和lC,B根據(jù)自身當(dāng)前的行駛狀態(tài)可以選擇減速配合A變道,也可選擇加速不配合A變道,在智能網(wǎng)聯(lián)環(huán)境下,車輛之間相互通信,相互可以感知其他車輛的行駛狀態(tài)和位置,A和B的行駛策略可以認(rèn)為是基于完全信息下的重復(fù)博弈.
完全信息下的重復(fù)博弈,博弈主體之間對于局中人、策略集合以及贏得函數(shù)都是完全了解的,而且雙方在同一時間步內(nèi)同時決策,沒有先后次序,同一對局中的博弈主體都是期望自身在博弈中取得更大的收益[18].定義博弈的參與者集合D∶D={A,B},A表示的車道1中車輛選擇換道和不換道的行駛策略集合S∶SA={SA1,SA2},車輛A可以選擇在目標(biāo)車道有可插車間隙時選擇換道也可以不換道繼續(xù)在原車道行駛.B表示的車道2中車輛選擇讓行和不讓行的駕駛策略集合S∶SB={SB1,SB2},對應(yīng)采取的駕駛行為分別是主動降低車速配合車輛A的換道需求和加速行駛縮小與車輛C的間距使得車輛A達不到換道的最小可插車間隙.由于A和B雙方的策略集合不同導(dǎo)致的雙方收益也不同,因此該博弈又是一個非對稱博弈[19].
(1)
式中:a和b分別為車輛B選擇減速避讓和加速不讓行的速度變化率;u1為車輛B避讓配合A換道時A的收益;u2為車輛B出于自身行駛利益不配合車輛A換道時車輛A的收益.在收益函數(shù)中如果只考慮安全因素的影響,就可能達成某個不切合實際的納什均衡狀態(tài),如果A過早的換道至車道2,則有可能增加了車道2的占有率,不僅損失了在車道1行駛更快的通行效率,而且降低了車道2的通行效率;若A遲遲沒有完成換道,則隨著lA的不斷減小,A的換道時機在不斷減少,能否順利完成換道的不確定性也在增大[20],因此不換道行駛的收益為:
(2)
A選擇不換道行駛策略的收益分別為u3和u4,式(2)反應(yīng)的是車輛A在不換道行駛策略下繼續(xù)在車道1行駛的換道緊迫程度,動態(tài)描述車輛A的換道收益.如圖1中博弈矩陣,A選擇換道和不換道的概率分別為x和1-x.車輛B的收益函數(shù)如公式(3)所示.
(3)
基于完全信息的2×2非對稱博弈中,顯然車輛A選擇純策略SA1和SA2的期望收益分別為:
(4)
式中:車輛A選擇純策略SA1和SA2的概率分別為x和1-x.則A的平均期望收益為:
E(A)=x[yu1+(1-y)u2]+(1-x)[yu3+(1-y)u4],
(5)
同樣,車輛B選擇純策略SB1和SB2的期望收益分別為:
(6)
式中:車輛B選擇純策略SB1和SB2的概率分別為y和1-y.則B的平均期望收益為:
E(B)=y[xu5+(1-x)u7]+(1-y)[xu6+(1-x)u8],
(7)
根據(jù)復(fù)制動態(tài)思想,車輛A和B通過學(xué)習(xí)會選擇收益更高的駕駛策略,納什均衡狀態(tài)也會隨之改變,由于u=(u1,u2,…,un)(其中n=6)之間的數(shù)值關(guān)系可能導(dǎo)致非純策略的納什均衡,概率值x和y也會發(fā)生變化,直至雙方達成穩(wěn)定的納什均衡狀態(tài).x和y的變化速率為
(8)
當(dāng)一個博弈達到穩(wěn)定狀態(tài)時,x和y的數(shù)值不再變化,即dx/dt=0,dy/dt=0,這樣就得到五個穩(wěn)定狀態(tài)(x,y)=(0,0)、(0,1)、(1,0)、(1,1)和(x*,y*),其中(x*,y*)=((u8-u7)/(u5+u8-u6-u7),(u4-u2)/(u1+u4-u2-u3)),分別對應(yīng)五種策略集合{SA2,SB2}、{SA2,SB1}、{SA1,SB2}、{SA1,SB1}和A采用x*的概率選擇SA1,B采用y*概率選擇SB1的混合策略.將上述求解納什均衡狀態(tài)轉(zhuǎn)化為非線性規(guī)劃求解問題,如公式(9)~(11)所示.
(9)
(10)
(11)
其中:0≤x,y≤1且E(A),E(B)≥0,公式(9)在公式(10)和(11)的約束條件下所得到的x和y的解即為博弈的納什均衡策略.
本文使用SUMO(simulation of urban mobility)仿真軟件對博弈控制模型的通行效率進行驗證,通過調(diào)用其提供的交通控制接口(traffic control interface,TraCI)進行車輛控制[21],TraCI實時獲取車輛狀態(tài)和道路信息與外部寫入的博弈控制模型算法進行聯(lián)合仿真.采用文獻[22]中的匝道合流場景,結(jié)合我國高速公路匝道合流區(qū)現(xiàn)狀,設(shè)置協(xié)同區(qū)域長度L=150 m,主線道路限速100 km/h,匝道道路限速60 km/h.在主線和匝道分別輸入25輛小型車,其中車輛進入主線的初始速度范圍60~100 km/h,車輛進入匝道的初始速度范圍40~60 km/h,車輛加速度限制在-10~2.6 m/s2,仿真步長為1 s.
實驗分別選取人工駕駛車輛和智能網(wǎng)聯(lián)車輛在匝道入口合流區(qū)的匯入情況作為對比,其中人工駕駛車輛的跟馳和換道模型采用Wiedemann心理-生理類駕駛行為模型,智能網(wǎng)聯(lián)車輛的跟馳模型采用協(xié)同自適應(yīng)巡航控制(cooperative adaptive cruise control,CACC).共兩組對照實驗與博弈控制模型進行對比,仿真結(jié)果如圖2所示.
圖2 不同控制策略仿真結(jié)果
由圖2,第3組在每個時間步內(nèi)當(dāng)前路網(wǎng)中所有車輛的平均行程時間、平均車速變化波動均最小,圖2(a)的第62個時間步,1組中由于路網(wǎng)中車輛達到一定數(shù)量,車道1與車道2處于博弈對局中的兩輛車在每個時間步中的決策趨于穩(wěn)定達到了某種納什均衡狀態(tài),隨著車輛的繼續(xù)加載,路網(wǎng)的平均行程時間并沒有繼續(xù)增加,而是整體趨于穩(wěn)定;而當(dāng)路網(wǎng)車輛開始減少,路網(wǎng)平均行程時間和平均車速與其他組別相比并沒有大幅度變化,說明在智能網(wǎng)聯(lián)環(huán)境下博弈控制策略所形成的納什均衡狀態(tài)一定程度上平衡了車流量對路網(wǎng)通行效率的影響,仿真過程的124個時間步3組50輛車的平均行程時間23.80 s、平均車速23.10 m/s,平均車速最小值9.23 m/s與最大值13.87 m/s相差66.55%.2組雖然在車輛通行效率上與3組較為接近,但是車流量增加過程中平均行程時間也在明顯增加,車輛在沒有協(xié)同控制的情況下平均車速受車流量影響變化較大,仿真過程的129個時間步2組50輛車的平均行程時間28.92 s、平均車速23.64 m/s,平均車速最小值9.58 m/s與最大值23.64 m/s相差146.76%.對車道1和車道2中處于博弈對局的兩輛車運行狀態(tài)進行分析如圖3所示.
處于博弈對局的兩輛車在沒有協(xié)同控制條件下車輛A由于需要戰(zhàn)略性換道,會尋求適當(dāng)?shù)目刹迦腴g隙匯入到車道2,車輛B會依據(jù)自身的跟馳規(guī)則行駛,如圖3,實驗車輛間沒有協(xié)同導(dǎo)致車道1的車輛在沒有合適的換道時機時,車道1中處于同一對局的車輛并沒有減速讓出合適的可插入間隙,導(dǎo)致車道1的通行效率明顯高于車道2,降低了道路整體的通行效率;在采用了博弈控制模型的第3組實驗中,智能網(wǎng)聯(lián)環(huán)境下處于同一博弈對局中的兩輛車在每個時間步的決策時間點上通過計算當(dāng)前博弈的收益矩陣,基于完全信息做出的決策.第2組共有4輛車在換道時機上沒有達成納什均衡狀態(tài),而在第3組的博弈控制模型中這4輛車的換道策略都發(fā)生了變化,如表1所列.
圖3 車輛延誤情況
表1中p1=u1+u4-u2-u3,p2=u2-u4,p3=u5+u8-u6-u7,p4=u7-u8,第2組的車輛編號11、12、13以及19的車輛在換道時機上并沒有選擇納什均衡的最優(yōu)策略,雖然其它21輛車在各自的博弈對局中都選擇的納什均衡策略,但是由于車輛編號11、12、13以及19的駕駛策略影響,第2組整體的整體通行效率降低.在應(yīng)用了博弈控制模型的第3組實驗中,車輛編號11、12、13以及19的駕駛策略均達成了納什均衡狀態(tài),博弈的仿真結(jié)果如圖4所示.
表1 納什均衡狀態(tài)分析
如圖4中(e)、(f)和(d)所示,車輛A與車輛B在博弈對局中達成了純策略的納什均衡狀態(tài),即(x,y)=(1,1)車輛A選擇換道,車輛B選擇讓行的策略組合,而圖4(h)車輛A和B達成了一個混合策略的納什均衡狀態(tài),即(x,y)=(0.69,0.46),根據(jù)納什均衡狀態(tài)的定義,當(dāng)多群體的決策達到某個均衡狀態(tài)時,該均衡狀態(tài)下任一博弈方中的任一主體都不愿意單方面改變其現(xiàn)有策略,而博弈方中的任意選擇突變策略的主體都無法入侵當(dāng)前達成穩(wěn)定狀態(tài)的群體,此時博弈對局中的雙方達成了納什均衡狀態(tài).顯然,博弈控制模型的1組實驗中改變了車輛編號11、12、13和19的換道策略,使得車道1和車道2中車輛在合流過程達到了更優(yōu)的通行效率.即是在智能網(wǎng)聯(lián)環(huán)境下,車輛具備了相互位置、速度和加速度情況感知的條件下,仍有調(diào)節(jié)車輛駕駛行為的必要,如圖5(a)所示,車道2中車輛出現(xiàn)了與車道1中車輛協(xié)調(diào)換道失敗的情況.如圖5(b)所示,協(xié)同控制后的車輛位置變化情況.
圖5(a)中仿真開始時由于車流量不大,車道1和車道2車輛可以在不影響通行效率的情況下完成換道;隨著車流量逐漸增大,部分車道2車輛錯過了某些換道時機,在距合流點較近的區(qū)域產(chǎn)生了排隊等待換道的情況,進而影響了同車道車輛的換道時機;車道2的擁堵情況不斷加劇也影響著車道1中正常行駛的車輛,車道1車輛在仿真的最后也出現(xiàn)了擁堵情況.圖5(b)中由于根據(jù)博弈控制模型計算出的納什均衡換道策略,博弈對局中的車輛基本都按照預(yù)定駕駛策略行駛,沒有產(chǎn)生擁堵,只有車道2中的個別車輛降低了行駛速度,但是并沒有對其他車輛造成影響,如圖6所示.
圖6(a)中車道2車輛在合流過程中出現(xiàn)了速度為零的情況,顯然在車流量增大后靠車輛自組織的協(xié)調(diào)合流已經(jīng)失效,車道2車輛發(fā)生了排隊現(xiàn)象,同時車輛的速度出現(xiàn)了大量不規(guī)則的波動情況,如圖7(a)所示,沒有協(xié)調(diào)控制的合流過程中車輛加速度大幅變化,車輛為獲得較高的通行效率采用了急加速和急減速行駛,最大減速度達到了-8.3 m/s2,影響乘車人的乘坐舒適性,對于同車道的后車跟馳行駛也會產(chǎn)生影響,增大了發(fā)生追尾事故的可能.如圖7(b)所示,車輛加速度變化范圍變小.
利用外部程序調(diào)用SUMO提供的TraCI接口,獲取車輛的實時信息,確定處于同一博弈對局中的兩輛車,將車輛的位置和速度信息帶入公式(1)、(2)和(3)求解出納什均衡狀態(tài),再通過TraCI將下一時刻的車輛速度和是否換道的駕駛策略發(fā)送并控制相應(yīng)車輛,經(jīng)協(xié)調(diào)控制后車輛的速度變化如圖6(b),車輛進入?yún)f(xié)同控制區(qū)域后速度明顯改變,部分車輛速度波動很小,接近勻速行駛或是勻加速行駛,個別車輛在某些時刻出現(xiàn)了速度為零的情況,但是并未對其他車輛通行效率造成影響.車輛加速度變化如圖7(b)所示,相比協(xié)調(diào)控制前,加速度的數(shù)值更多的集中在-1~2.6 m/s2,在當(dāng)前車輛出現(xiàn)急減速的情況,相鄰后車也立即采用了相同的急減速駕駛策略,并且最大減速度降低到-4.5 m/s2,降低了與后車發(fā)生追尾事故的可能.
圖6 車輛速度變化
圖7 車輛加速度變化
通行效率如表2所列,仿真時長為T,車道1和車道2的平均延誤時間分別為t1和t2、平均車速分別為v1和v2、平均車道占有率分別為O1和O2、平均排隊長度分別為l1和l2.
表2 車輛通行效率
3組仿真實驗中車輛均未發(fā)生碰撞,第3組仿真的50輛車用124個時間步最先通過了匝道合流區(qū)域,車道1與車道2的平均延誤時間相差8.26%、平均車速相差40.09%、平均車道占有率相差261.65%并且均未出現(xiàn)排隊現(xiàn)象;與第3組通行效率較接近的是第2組,用時129個時間步完成了實驗,其中車道1與車道2的平均延誤時間相差66.10%、平均車速相差40.80%、平均車道占有率相差55.08%.可以看出,應(yīng)用了博弈控制模型后,車道1與車道2中處于博弈對局的兩輛車在智能網(wǎng)聯(lián)環(huán)境下感知了對方收益情況,基于完全信息采取的駕駛行為策略達成了納什均衡狀態(tài),使得車道1與車道2的通行效率趨于均衡.
由于車輛加速、減速以及頻繁啟停對車輛運行油耗也會產(chǎn)生影響,實驗分別選取人類駕駛?cè)笋{駛車輛(1組)和智能網(wǎng)聯(lián)環(huán)境無人駕駛(2組)以及智能網(wǎng)聯(lián)環(huán)境博弈控制模型(3組)的合流過程進行對比,不同條件下車道1和車道2的累計油耗如表3所列.
表3 合流過程能量消耗
如表3,人類駕駛?cè)说能囕v自組織和智能網(wǎng)聯(lián)環(huán)境下車輛無控制合流過程,50輛車的油耗累計分別為1 746.99 ml和1 135.94 ml,而所提出的博弈控制模型中車輛整體油耗降低到1 065.97 ml,較1組和2組分別降低了38.98%和6.16%.
1)將博弈論原理應(yīng)用于高速公路匝道合流過程中微觀車輛控制,考慮安全因素和車輛通行效率構(gòu)建博弈收益矩陣,通過求解納什均衡狀態(tài)下的駕駛策略控制博弈對局中的車輛狀態(tài),通過SUMO仿真軟件驗證了博弈控制模型的高效性.
2)通過求解納什均衡的博弈控制模型比人類駕駛?cè)笋{駛車輛的自組織合流通行效率提高了27.49%,同時比智能網(wǎng)聯(lián)環(huán)境下無人駕駛車輛無控制合流通行效率提高了8.23%;加速車道和主線車道的占有率更加均衡,并且消除了排隊現(xiàn)象,降低了車輛間的相互干擾.
3)博弈控制模型選擇的換道時機在主線車輛配合下,車道2車輛實現(xiàn)順利變道,并且對主線車輛運行效率沒有明顯影響,合流過程車輛的速度和加速度變化更加平緩,提高了乘坐舒適性,相比人類駕駛車輛和智能網(wǎng)聯(lián)環(huán)境下無協(xié)同控制無人駕駛車輛油耗分別降低38.98%和6.16%.