夏新海XIAXinhai
廣州航海學(xué)院 港航管理學(xué)院,廣州 510725
School of Port and Shipping Management,Guangzhou Maritime University,Guangzhou 510725,China
目前城市路網(wǎng)交通擁擠問(wèn)題日益突出,而作為城市道路交通管理的核心部分,城市交通信號(hào)配時(shí)決策是實(shí)現(xiàn)城市道路交通流有效運(yùn)行的重要保障[1]。城市路網(wǎng)中各交叉口處的交通流是相互關(guān)聯(lián)和影響的(特別是在較高飽和度交通條件下)。因此為了更有效地進(jìn)行城市交通的交通信號(hào)配時(shí)決策,有必要引入?yún)f(xié)調(diào)機(jī)制。
國(guó)外強(qiáng)化學(xué)習(xí)在城市交通自適應(yīng)交通信號(hào)配時(shí)決策中應(yīng)用研究取得重要進(jìn)展。文獻(xiàn)[2-5]分別應(yīng)用多目標(biāo)混合多agent強(qiáng)化學(xué)習(xí)、基于細(xì)胞傳輸模型的強(qiáng)化學(xué)習(xí)、基于tile coding的Q-強(qiáng)化學(xué)習(xí)、基于節(jié)點(diǎn)樹的多agent強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行城市路網(wǎng)交通協(xié)調(diào)控制,但未深入引入直接交互機(jī)制。Mannion P[6-7]提出將啟發(fā)式預(yù)見性建議及并行計(jì)算融入到強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行交叉口的交通信號(hào)配時(shí)決策,但還存在計(jì)算復(fù)雜性的問(wèn)題,并且強(qiáng)調(diào)各個(gè)交叉口之間的獨(dú)立學(xué)習(xí)。雖然Arel I[8]、Medina J C[9]進(jìn)行的自適應(yīng)交通信號(hào)配時(shí)決策研究中分別考慮了相鄰交叉口的狀態(tài)、相對(duì)交通量、延誤、擁擠水平等信息,但是這些方法沒(méi)有包含任何外在的協(xié)調(diào)機(jī)制。Alvarez I[10]、Clempnera J B[11]利用馬爾科夫決策過(guò)程為交叉口交通信號(hào)配時(shí)決策進(jìn)行建模,但未融入強(qiáng)化學(xué)習(xí)。Darmoul S,Elkosantini S,Louati A等[12]在分層多agent系統(tǒng)框架下,通過(guò)與相鄰交叉口直接通訊和協(xié)調(diào),其應(yīng)用免疫網(wǎng)絡(luò)算法獲取交通擾動(dòng)相關(guān)知識(shí)。
國(guó)內(nèi)學(xué)者也已經(jīng)意識(shí)到自適應(yīng)交通信號(hào)配時(shí)決策中協(xié)調(diào)機(jī)制研究的重要性,取得了可喜的成果。首艷芳、徐健閩[13]通過(guò)引入群體動(dòng)力學(xué)來(lái)進(jìn)行交叉口群協(xié)調(diào)控制機(jī)制研究,但未結(jié)合強(qiáng)化學(xué)習(xí)研究。閆飛、田福禮、史忠科[14]研究了城市區(qū)域交通信號(hào)迭代學(xué)習(xí)控制策略,但未引入?yún)f(xié)調(diào)機(jī)制。戈軍、周蓮英[15]提出了一種基于SARSA(λ)的實(shí)時(shí)交通信號(hào)控制模型和算法,但沒(méi)有考慮相鄰交叉口的關(guān)聯(lián)性。Li Li[16]通過(guò)建立深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)強(qiáng)化學(xué)習(xí)的Q函數(shù),但也未考慮與相鄰交叉口的交通信號(hào)配時(shí)決策的協(xié)調(diào)。
綜上所述,目前對(duì)于自適應(yīng)交通信號(hào)配時(shí)決策中應(yīng)用強(qiáng)化學(xué)習(xí)存在如下問(wèn)題:
(1)城市交叉口自適應(yīng)交通信號(hào)配時(shí)決策中強(qiáng)化學(xué)習(xí)與協(xié)調(diào)機(jī)制結(jié)合研究還不夠深入。先前大部分的研究主要考慮獨(dú)立強(qiáng)化學(xué)習(xí),雖然少數(shù)學(xué)者考慮了兩級(jí)協(xié)調(diào),但協(xié)調(diào)機(jī)制不夠深入。(2)維數(shù)災(zāi)難問(wèn)題。雖然目前存在多agent強(qiáng)化學(xué)習(xí)方法,但遭遇維數(shù)災(zāi)難問(wèn)題,需要每個(gè)agent觀察整個(gè)系統(tǒng)的狀態(tài),這在運(yùn)輸網(wǎng)絡(luò)情況下是不可行的。本文在設(shè)計(jì)城市交通信號(hào)配時(shí)決策的獨(dú)立Q-強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上,通過(guò)引入交互協(xié)調(diào)機(jī)制進(jìn)行拓展,并通過(guò)仿真實(shí)驗(yàn)分析其有效性和收斂性。
Q強(qiáng)化學(xué)習(xí)是Watkins于1989年提出,是強(qiáng)化學(xué)習(xí)算法中應(yīng)用最為廣泛的并最有效的一種方法,其基本原理見文獻(xiàn)[17]。下面在Q-學(xué)習(xí)算法的基礎(chǔ)上構(gòu)建面向自適應(yīng)交通信號(hào)控制的獨(dú)立強(qiáng)化學(xué)習(xí)算法。
(1)交叉口交通狀態(tài)空間S
選擇信號(hào)周期C、各相位的綠燈時(shí)間gi作為狀態(tài)變量,以四相位交叉口為例,其相位為{東西直行右轉(zhuǎn),東西左轉(zhuǎn),南北直行右轉(zhuǎn),南北左轉(zhuǎn)},則S=(C,g1,g2,g3,g4)。
(2)交叉口信號(hào)控制動(dòng)作集A
針對(duì)交叉口的交通狀態(tài),以固定配時(shí)方案為初始方案,通過(guò)調(diào)整各相位的綠燈時(shí)間,形成對(duì)應(yīng)的信號(hào)控制動(dòng)作集。以4個(gè)相位控制的交叉口為例,設(shè)Δgi為第i相位的綠燈時(shí)間調(diào)整量,各個(gè)相位均可采取三種動(dòng)作,分別是增加綠燈時(shí)間2 s,保持不變,減少綠燈時(shí)間2 s,即 Δgi={+2 s,0 s,-2 s},則 A={(g1+Δg1,g2+Δg2,g3+Δg3,g4+Δg4)},并且A是離散的、有限的。
(3)獎(jiǎng)懲函數(shù)r(s,a)
這里,獎(jiǎng)懲函數(shù)采用消極回報(bào),即行為的車均延誤越大,得到的回報(bào)r(s,a)越大,則懲罰越大。根據(jù)周期時(shí)間的車均延誤與周期時(shí)間的比率來(lái)建立r(s,a)。
其中rt(s,a)為在狀態(tài)s下,時(shí)間步t采取行為a所獲得的獎(jiǎng)勵(lì);dtk為時(shí)間步t對(duì)應(yīng)的行為集A采取行為a的周期時(shí)間車均延誤;dt0為每一時(shí)間步t起始方案產(chǎn)生的周期時(shí)間車均延誤;C0、Ck分別為變化前后的周期時(shí)長(zhǎng)。
(4)算法流程
根據(jù)以上分析,設(shè)計(jì)算法如下:
①設(shè)置學(xué)習(xí)因子αt、折扣系數(shù)γ;
②令t=0,將所有的Q0(s0,a0)設(shè)為固定配時(shí)方案的車均延誤;
③重復(fù)每一時(shí)間步;
④選取初始狀態(tài)s0;
⑤根據(jù)策略,從狀態(tài)s0對(duì)應(yīng)的行為集A選擇一個(gè)行為at+1;
⑥執(zhí)行行為at+1,計(jì)算即時(shí)回報(bào)rt+1(見式(1)),轉(zhuǎn)到下一狀態(tài)st+1;
⑦這里以車均延誤最小為目標(biāo),使得Q值最小,采用下式更新Q函數(shù):
⑧ s←st+1,t←t+1;
⑨直到Q值由小變大,終止學(xué)習(xí),否則返回③。
本文第2章介紹的獨(dú)立強(qiáng)化學(xué)習(xí)算法中,交叉口交通信號(hào)控制agent在利用其局部狀態(tài)和局部行動(dòng)及方程(2)進(jìn)行獨(dú)立學(xué)習(xí)和決策時(shí),遭遇維數(shù)災(zāi)難問(wèn)題,即狀態(tài)空間隨著交叉口個(gè)數(shù)增加呈指數(shù)增長(zhǎng),因此引入直接交互機(jī)制,相鄰交叉口交通信號(hào)控制agent間直接交換配時(shí)動(dòng)作和狀態(tài),對(duì)獨(dú)立Q-強(qiáng)化學(xué)習(xí)算法進(jìn)行擴(kuò)展,從而提高相鄰交叉口間的交通信號(hào)協(xié)調(diào)配時(shí)決策的效率并增強(qiáng)其有效性。
(1)交叉口交通信號(hào)控制agent間的交互
每個(gè)交叉口交通信號(hào)控制agent在進(jìn)行本交叉口局部交通信號(hào)配時(shí)決策時(shí)均受到其他交叉口特別是相鄰交叉口局部交通信號(hào)配時(shí)決策的影響,因此交叉口交通信號(hào)控制agent間需要進(jìn)行狀態(tài)和動(dòng)作等信息的交互,交互過(guò)程見圖1,此交互環(huán)境屬于離散動(dòng)態(tài)交互。
(2)算法基本思想
交叉口交通信號(hào)控制agenti從隨機(jī)局部動(dòng)作(a*0i)開始,并與相鄰交叉口交通信號(hào)控制agenti交換動(dòng)作和狀態(tài)。對(duì)任意 j∈{1,2,…,|NBi|},交叉口交通信號(hào)控制agenti通過(guò)更新Q-值來(lái)學(xué)習(xí)同其相鄰的交叉口交通信號(hào)控制agentj的相應(yīng)(i,j)的最優(yōu)聯(lián)合動(dòng)作。根據(jù)當(dāng)前動(dòng)作集給定相鄰交叉口交通信號(hào)控制agent的動(dòng)作,每一交叉口交通信號(hào)控制agent利用下一狀態(tài)應(yīng)當(dāng)采取的動(dòng)作的值來(lái)更新Q-值。
圖1 交叉口交通信號(hào)控制agent間的交互過(guò)程
根據(jù)上述思路構(gòu)建的基于交互協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)算法流程如下:
(1)初始化:對(duì)每一交叉口交通信號(hào)控制agenti,i∈{1,2,…,N},及每一相鄰交叉口 j∈{1,2,…,|NBi|},初始化,,,。
(2)對(duì)于每一時(shí)間步k,及每一交叉口交通信號(hào)控制agenti,i∈{1,2,…,N},廣播當(dāng)前動(dòng)作。
(3)每一相鄰交叉口 j∈{1,2,…,|NBi|},接收動(dòng)作。
(4)觀察,及。
(5)更新αk。
(6)更新Qi,j。
(7)更新并確定。
交互協(xié)調(diào)學(xué)習(xí)中動(dòng)作的選擇是關(guān)鍵。在基于交互協(xié)調(diào)的強(qiáng)化學(xué)習(xí)方法中,交叉口交通信號(hào)控制agenti通過(guò)與相鄰交叉口交通信號(hào)控制agentj進(jìn)行直接交換策略來(lái)產(chǎn)生下一個(gè)配時(shí)動(dòng)作。交叉口交通信號(hào)控制agenti根據(jù)當(dāng)前配時(shí)動(dòng)作以及接收到的相鄰交叉口交通信號(hào)控制agentj的動(dòng)作計(jì)算其相對(duì)于相鄰交叉口交通信號(hào)控制agentj的效用Uc和最優(yōu)反應(yīng)策略的效用Ubr,見式(3)和式(4)。差值 (Ubr-Uc)表示一個(gè)收益值,這里稱為交互點(diǎn)Gain(i),見式(5)。交互點(diǎn)值反映交叉口交通信號(hào)控制agent間決定是否進(jìn)行交互的閾值。
交叉口交通信號(hào)控制agenti將其交互點(diǎn)值告知給相鄰交叉口交通信號(hào)控制agentj并接收到它們的交互點(diǎn)值。如果當(dāng)前周期交叉口交通信號(hào)控制agenti的交互點(diǎn)值比所有從相鄰交叉口交通信號(hào)控制agentj獲得的交互點(diǎn)值都大,即當(dāng)Gain(i)≥Gain(j),交叉口交通信號(hào)控制agenti就會(huì)將此配時(shí)動(dòng)作更新為最優(yōu)配時(shí)動(dòng)作,見式(6),并告知給相鄰交叉口交通信號(hào)控制agentj。
此過(guò)程一直重復(fù)直到所有相鄰的交叉口交通信號(hào)控制agentj改變它們的配時(shí)動(dòng)作為止。
以圖2路網(wǎng)為例來(lái)進(jìn)行交叉口間交通信號(hào)協(xié)調(diào)配時(shí)決策分析。車道長(zhǎng)度452 m,東西為主干道方向,自由車流速度50 km/h,南北向車流量qNS1=qSN1=705輛/h,qNS2=qSN2=903輛/h,qNS3=qSN3=902輛/h。
圖2 分析用到的路網(wǎng)
對(duì)于基于獨(dú)立Q-強(qiáng)化學(xué)習(xí)的交通信號(hào)協(xié)調(diào)控制算法,其每一交叉口交通信號(hào)控制agent采用Q-學(xué)習(xí)算法時(shí),僅僅考慮其局部狀態(tài)和動(dòng)作,其需要協(xié)調(diào)的車流方向由控制中心決定,僅當(dāng)位于干道的檢測(cè)器檢測(cè)到一個(gè)確定的交通模式才予以改變。以東西主干道為例,如果協(xié)調(diào)的車流為東向西方向車流(qEW),圖2中東向西方向車道上行駛的車輛期望不停車地通過(guò)干道。如果協(xié)調(diào)的車流為西向東車流(qWE),圖2中西向東車道上行駛的車輛獲得優(yōu)先權(quán)。為了簡(jiǎn)單起見,設(shè)東向西方向的車流量更大,控制中心最初決定這個(gè)方向的所有交通信號(hào)的協(xié)調(diào)。
4.2.1 車道車流密度分析
采用車道平均車流密度作為性能指標(biāo),其代表車輛的空間密集度。為了減少學(xué)習(xí)的狀態(tài)空間,降低計(jì)算復(fù)雜度,對(duì)于車流密度按定性信息處理,不同交通狀態(tài)對(duì)應(yīng)的交通密度值的定性描述見表1。
表1 不同交通狀態(tài)對(duì)應(yīng)的交通密度值的定性描述
對(duì)三種交通情況進(jìn)行分析,以東西方向?yàn)槔?,?duì)于情況(1),一個(gè)方向的車流量明顯大于另一個(gè)方向的車流量;對(duì)于情況(2),兩個(gè)方向車流量均為中等大??;對(duì)于情況(3),兩個(gè)方向車流量中等偏低,仿真分析結(jié)果見表2。
(1)東向西車流量(qEW)明顯比西向東車流量(qWE)大。qEW=1 088輛/h,qWE=170輛/h,其車流量分別對(duì)應(yīng)于表1中的密度區(qū)間D-4和D-2。
基于獨(dú)立強(qiáng)化學(xué)習(xí)的交通信號(hào)控制方法運(yùn)行的效果比較好,這是因?yàn)橐粋€(gè)方向的車流量總比反方向的車流量大,從而使得基于交互協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)沒(méi)有得到充分發(fā)揮。將利用獨(dú)立強(qiáng)化學(xué)習(xí)和基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)方法分別獲得的東向西車道的密度區(qū)間進(jìn)行比較,可以發(fā)現(xiàn)獨(dú)立強(qiáng)化學(xué)習(xí)得到的密度區(qū)間與基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)的相同,或者低一個(gè)區(qū)間。例如,對(duì)于車道3→2的平均密度,在獨(dú)立強(qiáng)化學(xué)習(xí)下是D-4,而在基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)下是D-5。
由于西向東的交通流流量qWE低,無(wú)論是獨(dú)立強(qiáng)化學(xué)習(xí)還是基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)都不可能對(duì)協(xié)調(diào)的性能進(jìn)行干擾。這是因?yàn)樵诜抡孢\(yùn)行過(guò)程中,西向東的交通流從來(lái)沒(méi)有要求優(yōu)先權(quán)。
(2)東西兩個(gè)方向車流量均為中等大小。qEW=1 088輛/h,qWE=332輛/h,兩者都對(duì)應(yīng)于表1中密度區(qū)間D-4。
由于兩個(gè)方向都表現(xiàn)為交通擁擠,交叉口交通信號(hào)控制agent必須處理兩個(gè)方向的交通協(xié)調(diào)的競(jìng)爭(zhēng)。因此,此時(shí)基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)更能體現(xiàn)其自適應(yīng)性。然而,基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)具有優(yōu)越性不僅僅是因?yàn)樗軌蛱幚斫徊婵诘木植拷煌ㄗ兓?,而且還因?yàn)樵谶@種方法下干道的總的通行能力增加了。
就東向西車道而言,基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)的性能與獨(dú)立強(qiáng)化學(xué)習(xí)的性能相比,兩者相同或者前者要更優(yōu)一個(gè)密度區(qū)間。當(dāng)比較西向東方向的車道時(shí),基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)的交通信號(hào)控制性能明顯地優(yōu)于獨(dú)立強(qiáng)化學(xué)習(xí)的交通信號(hào)控制方法。這是因?yàn)楠?dú)立強(qiáng)化學(xué)習(xí)方法未能給予交叉口的水平方向優(yōu)先權(quán),也就意味著協(xié)調(diào)的解除。在另一方面,基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)允許交叉口交通信號(hào)控制agent在必要情況下改變協(xié)調(diào)。
(3)相反兩個(gè)方向都具有中等偏低車流量。東向西的車流密度對(duì)應(yīng)區(qū)間為D-1,而西向東車流密度對(duì)應(yīng)區(qū)間為D-2。雖然兩個(gè)方向的車流量?jī)H僅是微小變化,但基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)的也比獨(dú)立強(qiáng)化學(xué)習(xí)運(yùn)行效果更好。這是由于車流在兩個(gè)方向相對(duì)偏小,交通流量相對(duì)自由地經(jīng)過(guò)干道,并且交叉口局部交通狀態(tài)變化不大。
綜合上述(1)~(3)三種情況可以看到,當(dāng)一個(gè)方向車流量明顯高于相反方向車流量的穩(wěn)定情況下,由于很少或者沒(méi)有交通沖突發(fā)生,獨(dú)立強(qiáng)化學(xué)習(xí)方法運(yùn)行效果更好(見情況(1))。然而,當(dāng)相反兩個(gè)方向的車流量幾乎相等的情景下,相對(duì)于基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)來(lái)說(shuō)獨(dú)立強(qiáng)化學(xué)習(xí)方法運(yùn)行效果較差。這是因?yàn)?,基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)方法具有一定的自適應(yīng)能力,能夠在很短時(shí)間內(nèi)處理交叉口局部交通變化,并且能允許交叉口交通信號(hào)控制agent在一定條件下改變協(xié)調(diào)。因此當(dāng)比較干道的每一個(gè)車道的平均密度時(shí),基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)的交通信號(hào)控制被證明更加有效。
表2 獨(dú)立強(qiáng)化學(xué)習(xí)和基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)車道車流密度分析
4.2.2 路網(wǎng)系統(tǒng)的性能分析
以整個(gè)路網(wǎng)系統(tǒng)的車均延誤和總等待排隊(duì)長(zhǎng)度為性能指標(biāo),在上述車流情況(2)下,即東西兩個(gè)方向都獲得一個(gè)中等大小車流量時(shí)候,比較固定配時(shí)、最大排隊(duì)優(yōu)先[18]、獨(dú)立強(qiáng)化學(xué)習(xí)、協(xié)調(diào)強(qiáng)化學(xué)習(xí)四種方法的性能,仿真運(yùn)行結(jié)果見圖3及圖4。其中固定配時(shí)東西主干道綠燈時(shí)間設(shè)置為70 s,支線方向綠燈時(shí)間設(shè)置為40 s??偟膩?lái)說(shuō)車均延誤、總等待排隊(duì)長(zhǎng)度均小于其他三種算法。經(jīng)過(guò)近1 000次迭代運(yùn)行后,其他三種算法性能明顯下降,于是容易產(chǎn)生交通擁擠問(wèn)題。此仿真結(jié)果表明基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)算法由于考慮相鄰交叉口的信號(hào)交互,能有效解決城市交通擁擠問(wèn)題。
圖3 路網(wǎng)系統(tǒng)車均延誤
圖4 路網(wǎng)總等待排隊(duì)長(zhǎng)度
收斂性分析能對(duì)算法的可靠性進(jìn)行評(píng)價(jià)。圖5給出了仿真過(guò)程中,三個(gè)交叉口的交通信號(hào)控制agent的交互點(diǎn)Gain值的變化。由于路徑定義的車流量不同,路網(wǎng)中三個(gè)交叉口交通信號(hào)控制agent的交互點(diǎn)Gain的行為是不同的。隨著仿真的運(yùn)行,交互點(diǎn)值的曲線出現(xiàn)一些波動(dòng),這是由每一交叉口交通信號(hào)控制agent的決策過(guò)程決定的。當(dāng)交叉口交通信號(hào)控制agent間決定合作時(shí),交互點(diǎn)值減少;但當(dāng)決定不合作時(shí),交互點(diǎn)值增加??偟膩?lái)說(shuō),運(yùn)行2 000步后,交互點(diǎn)值趨向穩(wěn)定。
圖5 交互點(diǎn)值隨時(shí)間變化曲線
對(duì)基于協(xié)調(diào)的強(qiáng)化學(xué)習(xí)算法和獨(dú)立強(qiáng)化學(xué)習(xí)進(jìn)行2 000次運(yùn)行后,表3給出基于協(xié)調(diào)的強(qiáng)化學(xué)習(xí)算法和獨(dú)立強(qiáng)化學(xué)習(xí)在兩個(gè)方向(東向西和西向東方向)都獲得一個(gè)大致相同車流量情況下的計(jì)算時(shí)間和收斂速度。相對(duì)于獨(dú)立強(qiáng)化學(xué)習(xí)方法,基于協(xié)調(diào)的強(qiáng)化學(xué)習(xí)算法始終加快收斂速度。每一交叉口交通信號(hào)控制agent進(jìn)行獨(dú)立學(xué)習(xí)時(shí),每一個(gè)交通信號(hào)控制agent面臨著一個(gè)運(yùn)動(dòng)目標(biāo)學(xué)習(xí)問(wèn)題,即此交通信號(hào)控制agent的最優(yōu)策略的變化受到其他交通信號(hào)控制agent的策略的影響。交通需求水平越高,由于交叉口交通信號(hào)控制agent之間進(jìn)行直接交互,基于協(xié)調(diào)的強(qiáng)化學(xué)習(xí)算法收斂加速性能越好。通過(guò)表3可以看出基于獨(dú)立的強(qiáng)化學(xué)習(xí)方法收斂速度更慢,需要更多的計(jì)算時(shí)間。
表3 計(jì)算時(shí)間和收斂速度
設(shè)計(jì)了交叉口交通信號(hào)進(jìn)行控制的獨(dú)立強(qiáng)化學(xué)習(xí)算法。在此基礎(chǔ)上,通過(guò)引入交互協(xié)調(diào)機(jī)制對(duì)獨(dú)立強(qiáng)化學(xué)習(xí)算法進(jìn)行拓展,即相鄰交叉口交通信號(hào)控制agent間直接交換狀態(tài)、配時(shí)動(dòng)作和交互點(diǎn)值,解決獨(dú)立強(qiáng)化學(xué)習(xí)算法存在的維數(shù)災(zāi)難問(wèn)題。通過(guò)仿真實(shí)驗(yàn)分析,當(dāng)相反兩個(gè)方向的車流量幾乎相等時(shí),基于交互協(xié)調(diào)的強(qiáng)化學(xué)習(xí)的控制效果明顯優(yōu)于獨(dú)立強(qiáng)化學(xué)習(xí)算法,協(xié)調(diào)更有效,并且基于交互協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)算法能加快收斂速度。交通需求水平越高,基于協(xié)調(diào)機(jī)制的強(qiáng)化學(xué)習(xí)算法收斂加速性能越好。本研究為將多agent強(qiáng)化學(xué)習(xí)應(yīng)用于干線和區(qū)域自適應(yīng)交通信號(hào)控制奠定理論基礎(chǔ)。
參考文獻(xiàn):
[1]Han Ke,Sun Yuqi,Liu Hongcheng,et al.A bi-level model of dynamic traffic signal control with continuum approximation[J].Transportation Research Part C:Emerging Technologies,2015,55:409-431.
[2]Khamis M A,Gomaa W.Adaptive multi-objective reinforcement learning with hybrid exploration for traffic signal control based on cooperative multi-agent framework[J].Engineering Applications of Artificial Intelligence,2014,29:134-151.
[3]Chanloha P,Chinrungrueng J,Usaha W,et al.Traffic signal control with cell transmission model using reinforcement learning for total delay minimisation[J].International Journal of Computers Communications&Control,2015,10(5):627-642.
[4]Abdoos M,Mozayani N,Bazzan A L C.Hierarchical control of traffic signals using Q-learning with tile coding[J].Applied Intelligence,2014,40(2):201-213.
[5]Zhu F,Aziz H M A,Qian X,et al.A junction-tree based learning algorithm to optimize network wide traffic control:A coordinated multi-agentframework[J].Transportation Research Part C Emerging Technologies,2015,1:1-33.
[6]Mannion P,Duggan J,Howley E.Learning traffic signal control with advice[C]//Proceedings of the Adaptive and Learning Agents Workshop,2015.
[7]Mannion P,Duggan J,Howley E.Parallel reinforcement learning for traffic signal control[J].Procedia Computer Science,2015:956-961.
[8]Arel I,Liu C,Urbanik T,et al.Reinforcement learningbased multi-agent system for network traffic signal control[J].IET Intelligent Transport Systems,2010,4(2):128-135.
[9]Medina J C,Benekohal R F.Q-learning and approximate dynamic programming for traffic control—A case study for an oversaturated network[C]//Transportation Research Board 91st Annual Meeting.Washington DC:Transportation Research Board,2012.
[10]Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach[C]//Proceedings of the 47th IEEE Conference on Decision and Control,2008:2168-2172.
[11]Clempnera J B,Poznyakb A S.Modeling the multi-traffic signal-control synchronization:A Markov chains game theory approach[J].Engineering Applications of Artificial Intelligence,2015,43(8):147-156.
[12]Darmoul S,Elkosantini S,Louati A,et al.Multi-agent immune networks to control interrupted flow at signalized intersections[J].Transportation Research Part C Emerging Technologies,2017,82:290-313.
[13]首艷芳,徐建閩.基于群體動(dòng)力學(xué)的協(xié)調(diào)控制子區(qū)劃分[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2013(4):77-82.
[14]閆飛,田福禮,史忠科.城市區(qū)域交通信號(hào)迭代學(xué)習(xí)控制策略[J].控制與決策,2015(5):71-75.
[15]戈軍,周蓮英.基于SARSA(λ)的實(shí)時(shí)交通信號(hào)控制模型[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(24):244-248.
[16]Li Li,Lv Yisheng,Wang Feiyue.Traffic signal timing via deep reinforcement learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254.
[17]Watkins C.Q-learning[J].Machine Learning,1992,8(3):279-292.
[18]Wunderlich R,Liu C,Elhanany I,et al.A novel signalscheduling algorithm with quality-of-service provisioning for an isolated intersection[J].IEEE Transactions on Intelligent Transportation Systems,2008,9(3):536-547.