劉樹(shù)青 張 行
(北京易華錄信息技術(shù)股份有限公司,北京100043)
快速路早晚高峰時(shí)段擁堵的情況時(shí)有發(fā)生,嚴(yán)重影響了出行效率和交通秩序。目前快速路入口匝道信號(hào)控制方案一般是人工提前設(shè)定的,無(wú)法根據(jù)主線或周邊擁堵情況進(jìn)行實(shí)時(shí)調(diào)整,對(duì)快速路的匝道信號(hào)控制方案進(jìn)行實(shí)時(shí)合理的調(diào)整,已成為城市管理的重要需求。
目前,國(guó)內(nèi)外學(xué)者對(duì)于快速路匝道信號(hào)控制方法的研究,主要可以分為多變量控制、目標(biāo)最優(yōu)控制和智能啟發(fā)式控制。其中,多變量控制代表性控制策略包括ALINEA算法[1]、METALINE算法[2]等。目標(biāo)最優(yōu)控制一般是建立描述系統(tǒng)運(yùn)行狀態(tài)的目標(biāo)函數(shù),通過(guò)尋求目標(biāo)函數(shù)的最優(yōu)解得出系統(tǒng)最佳控制策略。Bin Han等以減少匝道排隊(duì)延遲和降低匝道排隊(duì)長(zhǎng)度為目標(biāo)對(duì)匝道調(diào)節(jié)率進(jìn)行了研究,并通過(guò)模擬測(cè)試驗(yàn)證了該方法的有效性[3]。陳學(xué)文以快速路系統(tǒng)車(chē)輛總消耗時(shí)間為控制目標(biāo),建立快速路系統(tǒng)擁堵疏散控制模型,實(shí)現(xiàn)了快速路網(wǎng)絡(luò)整體優(yōu)化控制[4]。項(xiàng)喬君、禹奧業(yè)等發(fā)明了一種基于排隊(duì)長(zhǎng)度的城市快速路入口匝道控制系統(tǒng)及控制方法,通過(guò)迭代計(jì)算得到最終合理的綠信比[5];啟發(fā)式控制是通過(guò)制定啟發(fā)規(guī)則,根據(jù)交通狀態(tài)控制匝道信號(hào),代表性控制方法有SWARM算法[6]、CPSO-RBF-PID模型[7]等。然而,現(xiàn)有研究大多數(shù)以確定的匝道控制模型為主,模型中的參數(shù)確定難度較大,對(duì)模型在不同程度的主線擁堵場(chǎng)景下的表現(xiàn)考慮較少。
本文基于強(qiáng)化學(xué)習(xí)建立了快速路入口匝道控制模型,通過(guò)元胞自動(dòng)機(jī)模型構(gòu)建快速路仿真器,并利用歷史數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行訓(xùn)練和學(xué)習(xí),實(shí)現(xiàn)了快速路主線擁堵的動(dòng)態(tài)識(shí)別和疏導(dǎo),從而提升了快速路的交通控制水平。
快速路匝道信號(hào)控制是通過(guò)信號(hào)等對(duì)城市快速路的入口匝道進(jìn)行控制,本文設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的快速路入口匝道信號(hào)控制流程。
強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)的方法論之一,智能體通過(guò)“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過(guò)與環(huán)境交互獲得獎(jiǎng)賞行為,最終目標(biāo)是智能體獲得最大的獎(jiǎng)賞。在每一個(gè)計(jì)算循環(huán)中,將觀測(cè)到的交通檢測(cè)數(shù)據(jù)作為強(qiáng)化學(xué)習(xí)控制器的環(huán)境輸入,智能體根據(jù)規(guī)則輸出各信號(hào)燈當(dāng)前的動(dòng)作是開(kāi)啟還是關(guān)閉。同時(shí)根據(jù)環(huán)境數(shù)據(jù)計(jì)算快速路各路段上的擁堵情況,根據(jù)擁堵程度將智能體的獎(jiǎng)懲行為分為4個(gè)等級(jí):(1)輕微擁堵,獎(jiǎng)懲等級(jí)=-1;(2)擁堵,獎(jiǎng)懲等級(jí)=-2;(3)嚴(yán)重?fù)矶拢?jiǎng)懲等級(jí)=-3;(4)不擁堵,獎(jiǎng)懲等級(jí)=1。當(dāng)獎(jiǎng)懲等級(jí)為1時(shí),將擁堵記憶庫(kù)中的參數(shù)發(fā)送給控制機(jī),作為下一次判斷擁堵的條件。當(dāng)獎(jiǎng)懲等級(jí)為其他值時(shí),就基于當(dāng)前的擁堵情況輸出不同的信號(hào)控制策略。每一個(gè)計(jì)算循環(huán)的獎(jiǎng)懲等級(jí)、動(dòng)作、環(huán)境數(shù)據(jù)都會(huì)存入記憶庫(kù),用于計(jì)算下一個(gè)循環(huán)智能體損失函數(shù)的損失值。
強(qiáng)化學(xué)習(xí)模型中,智能體通過(guò)與環(huán)境交互獲取獎(jiǎng)勵(lì)值,從而動(dòng)態(tài)調(diào)整模型中的參數(shù)[8]。本文基于元胞自動(dòng)機(jī)模型構(gòu)建了快速路仿真器,以仿真器作為模型的交互環(huán)境,利用歷史數(shù)據(jù)對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練學(xué)習(xí)。
本文采用改進(jìn)的元胞傳輸模型[9](Modified Cell Transmission Model,MCTM),與元胞傳輸模型選取每個(gè)元胞內(nèi)的車(chē)輛數(shù)作為元胞狀態(tài)變量不同,改進(jìn)的元胞傳輸模型以元胞中的車(chē)輛密度作為狀態(tài)變量,這種改進(jìn)去除了元胞傳輸模型對(duì)于每個(gè)元胞長(zhǎng)度必須相等的限制。元胞長(zhǎng)度限制的取消使得道路的元胞劃分更加靈活,可以用更少的元胞來(lái)描述路網(wǎng)交通流,從而大大降低了元胞狀態(tài)變量的維數(shù)。
路網(wǎng)元胞可分為3種類(lèi)型:
(1)用于描述路段邊界交通需求的源元胞,如環(huán)形快速路的入口匝道元胞可看作是源元胞;
(2)用于接收其他元胞輸入車(chē)輛的阱元胞,如環(huán)形快速路中的出口匝道可稱(chēng)為“阱元胞”;
(3)既有輸入又有輸出的元胞稱(chēng)為“中間元胞”,如快速路中的主干道元胞。
當(dāng)中間元胞的輸入和輸出流量只取決于該元胞本身狀態(tài)時(shí),即若其上游元胞能充分提供其所需的車(chē)輛數(shù),下游元胞能充分接收其流出的車(chē)輛數(shù),則稱(chēng)之為“理想元胞”。
理想元胞的密度計(jì)算公式如下:
式中:qi,in(k)和qi,out(k)表示在第k個(gè)時(shí)間間隔進(jìn)入和駛出元胞i的交通流量,包括主路和進(jìn)、出口匝道的交通流;ρi(k+1)表示第k+1個(gè)時(shí)間間隔元胞i的密度。
為了對(duì)城市快速路主線、入口匝道、出口匝道進(jìn)行仿真建模,將元胞之間的連接方式分為3種,如圖1所示。其中簡(jiǎn)單連接方式對(duì)應(yīng)快速路主線上的路段仿真,融合連接方式對(duì)應(yīng)主線和入口匝道交匯處,分離連接方式對(duì)應(yīng)主線與出口匝道交匯處。
圖1 元胞連接方式
根據(jù)需要仿真的快速路道路長(zhǎng)度、出入口匝道位置、檢測(cè)器點(diǎn)位等信息,將元胞通過(guò)上述3種方式連接起來(lái)。由于快速路是雙向封閉的,因此在元胞建模時(shí),需要將快速路分為兩條道路進(jìn)行仿真。
道路路段元胞劃分的規(guī)則為:
(1)元胞長(zhǎng)度需滿足約束:元胞長(zhǎng)度需小于或等于仿真步長(zhǎng)和自由流速度的乘積;
(2)保證入口匝道分布在元胞的上游,出口匝道分布在元胞的下游;
(3)為充分利用微波點(diǎn)位數(shù)據(jù),盡量保證一個(gè)元胞中只包含一個(gè)微波點(diǎn)位。
元胞仿真器構(gòu)建好后,需要對(duì)仿真器的參數(shù)進(jìn)行設(shè)定和初始化,其中包括仿真模型參數(shù)和交通流參數(shù)。模型參數(shù)包括仿真步長(zhǎng)、元胞個(gè)數(shù)、元胞長(zhǎng)度、自由流速度、最大通行能力、臨界密度、擁堵波波速、阻塞密度。交通參數(shù)包括入口匝道需求流量和出口匝道分離比以及信號(hào)燈狀態(tài)。
根據(jù)全天00:00—24:00的交通量狀況進(jìn)行時(shí)段劃分,在不同時(shí)段根據(jù)歷史交通規(guī)律設(shè)置不同的輸入需求流量,使需求流量符合一定的歷史交通規(guī)律分布,并在該分布下隨機(jī)生成輸入需求流量,模擬器的輸入流量符合全天的交通流潮汐和平峰規(guī)律。
道路模擬器的元胞的平均速度是由速度模型計(jì)算得到的,采用分二段的模型進(jìn)行速度計(jì)算,基本思想是用兩種不同的曲線來(lái)分別擬合自由流和擁擠流。Edie模型的自由流采用Underwood模型,如公式(2)所示:
式中:uf表示自由流速度;Km為阻塞密度。
而擁擠流采用Greenberg模型,如公式(3)所示:
式中:um表示最大交通量的速度,即最佳速度;Km為阻塞密度。
仿真器的輸入是各元胞的流量、密度、入口匝道的信號(hào)燈狀態(tài)等數(shù)據(jù),輸出為駛?cè)牒婉偝龈髟拿芏群驮麅?nèi)平均速度。為了簡(jiǎn)化模型,量化各信號(hào)燈的實(shí)際控制效果,將所有元胞按照與信號(hào)燈之間的距離進(jìn)行聚類(lèi),聚類(lèi)的數(shù)目為入口匝道信號(hào)燈的個(gè)數(shù)。
根據(jù)搭建的仿真器,利用快速路檢測(cè)歷史數(shù)據(jù)對(duì)強(qiáng)化模型進(jìn)行訓(xùn)練。訓(xùn)練的基本流程如圖2所示。首先根據(jù)歷史檢測(cè)環(huán)境數(shù)據(jù),計(jì)算各元胞路段在k時(shí)刻的交通運(yùn)行情況,并與k-1時(shí)刻的運(yùn)行情況進(jìn)行對(duì)比,獲得學(xué)習(xí)過(guò)程中的獎(jiǎng)賞值。同時(shí),計(jì)算k時(shí)刻的擁堵開(kāi)始或消散情況,若元胞k時(shí)刻的交通運(yùn)行狀況判定為擁堵,則下發(fā)相應(yīng)的控制策略;否則,對(duì)強(qiáng)化學(xué)習(xí)模型中的權(quán)重參數(shù)進(jìn)行調(diào)整。
圖2 強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過(guò)程
本文參考《城市交通運(yùn)行狀況評(píng)價(jià)規(guī)范》(GB/T 33171—2016)關(guān)于交通運(yùn)行狀態(tài)的計(jì)算方法,通過(guò)計(jì)算各元胞在k時(shí)刻的行程時(shí)間比來(lái)判斷交通運(yùn)行狀態(tài)。各元胞在k-1時(shí)間間隔內(nèi)行程時(shí)間比TTIi,k-1計(jì)算如公式(4)所示:
式中:TTIi,k-1表示評(píng)價(jià)元胞i在k-1時(shí)間間隔內(nèi)行程時(shí)間比表示評(píng)價(jià)元胞i在k-1時(shí)間間隔內(nèi)所使用的平均行程時(shí)間;ti,k-1表示評(píng)價(jià)元胞i在k-1時(shí)間間隔內(nèi)自由流行程時(shí)間表示評(píng)價(jià)元胞i在k-1時(shí)間間隔內(nèi)所使用的平均行程速度;vi,k-1表示評(píng)價(jià)元胞i在k-1時(shí)間間隔內(nèi)自由流行速度。
特殊地,當(dāng)路段平均行程時(shí)間小于自由流行程時(shí)間時(shí),設(shè)定TTIi,k-1=1。
通過(guò)公式(5)將聚類(lèi)的各元胞路段行程時(shí)間比進(jìn)行加權(quán)平均,得到各信號(hào)燈控制的元胞道路的總行程時(shí)間比。其中,γi,k-1將元胞的路段長(zhǎng)度和流量之積作為各評(píng)價(jià)元胞權(quán)重系數(shù)。
根據(jù)表1得到元胞路段總交通運(yùn)行指數(shù)Ck。
表1 道路網(wǎng)行程時(shí)間比和城市交通運(yùn)行指數(shù)的推薦轉(zhuǎn)換關(guān)系
根據(jù)元胞路段k-1時(shí)段的交通運(yùn)行指數(shù),計(jì)算智能體k時(shí)刻的獎(jiǎng)懲值如公式(6)所示,在路段處于中度擁堵及以上狀態(tài)時(shí),智能體的獎(jiǎng)勵(lì)值不斷下降。
若Ck≥1.9,Ck-1≥1.9,Ck-2<1.9,Ck-3<1.9,認(rèn)定k時(shí)刻擁堵開(kāi)始。若Ck<1.9,Ck-1<1.9,Ck-2≥1.9,Ck-3≥1.9,則認(rèn)為擁堵消散,下發(fā)控制策略。本文中的控制策略是在提前預(yù)設(shè)好的多個(gè)方案中選擇其中一套,或者是將信號(hào)燈變?yōu)槌>G狀態(tài)。
在每一次擁堵形成到擁堵消散的緩堵周期,系統(tǒng)要根據(jù)各時(shí)間間隔k的Rk值、各時(shí)間間隔k的環(huán)境觀測(cè)量、各時(shí)間間隔k的控制策略,計(jì)算神經(jīng)網(wǎng)絡(luò)損失值,用于指導(dǎo)神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)學(xué)習(xí)調(diào)整。損失值的計(jì)算如公式(7)所示:
式中:loss為損失值;Rk為元胞在k時(shí)刻的獎(jiǎng)勵(lì)值;為k-1時(shí)段通過(guò)神經(jīng)網(wǎng)絡(luò)輸出的各元胞的控制策略動(dòng)作向量;y為經(jīng)過(guò)歸一化后的概率向量。
得到損失值后,通過(guò)深度學(xué)習(xí)框架TensorFlow獲得強(qiáng)化學(xué)習(xí)模型中神經(jīng)網(wǎng)絡(luò)各層參數(shù)的梯度,然后更新各層的參數(shù),完成一次學(xué)習(xí)過(guò)程。
天津市快速路是天津市重點(diǎn)工程,整體長(zhǎng)度共41 987 m。測(cè)試選取了快速路主路較擁堵的某處點(diǎn)位,選取某早高峰時(shí)段啟用入口匝道信號(hào)燈調(diào)節(jié)由輔道進(jìn)入主路的流量,并對(duì)測(cè)試入口下游500 m主路路段速度數(shù)據(jù)進(jìn)行分析。速度方面,開(kāi)啟控制當(dāng)日,在早高峰燈控時(shí)段,該下游主路路段平均速度為47.36 km/h,較上周同期速度44.22 km/h提升7.09%;流量方面,開(kāi)啟控制當(dāng)日,該下游主路路段每5 min平均車(chē)流量為540,較上周同一時(shí)段每5 min車(chē)流量460提升17.29%。
針對(duì)目前城市快速路早晚高峰擁堵的問(wèn)題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的快速路入口匝道信號(hào)控制方法。通過(guò)元胞自動(dòng)機(jī)建立快速路仿真器,在此基礎(chǔ)上根據(jù)歷史數(shù)據(jù)對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練學(xué)習(xí),模型采用交通運(yùn)行指數(shù)來(lái)計(jì)算訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值,并通過(guò)仿真器反饋?zhàn)詫W(xué)習(xí)調(diào)整模型權(quán)值。實(shí)驗(yàn)結(jié)果表明,測(cè)試的點(diǎn)位下游主線路段平均速度提升了7.09%。
在快速路發(fā)生持續(xù)擁堵時(shí),模型的控制策略具有一定局限性,且該場(chǎng)景下模型獎(jiǎng)勵(lì)值一直為負(fù),模型的收斂速度較慢。下一步將在模型中考慮控制策略的靈活性,深入研究交通運(yùn)行狀態(tài)對(duì)模型參數(shù)的影響,進(jìn)一步優(yōu)化完善模型。