趙佳文++喬春凱
摘 要:城市交通控制的核心是由交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)兩部分組成,實(shí)現(xiàn)在空間上對交通流進(jìn)行分流和在時(shí)間上對交通燈進(jìn)行動(dòng)態(tài)配時(shí)。文章設(shè)計(jì)基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)算法,從對系統(tǒng)整體性能的角度出發(fā)利用協(xié)同控制策略,更好地解決城市道路交通擁堵問題。
關(guān)鍵詞:交通燈控制;車輛誘導(dǎo);Q學(xué)習(xí);Sarsa學(xué)習(xí)
引言
針對我國城市道路交通的現(xiàn)狀,在交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)獨(dú)立實(shí)施的基礎(chǔ)上,以交通道路信息的協(xié)同為基礎(chǔ),從協(xié)同模式著手。
越來越多的學(xué)者致力于智能交通系統(tǒng)的研究,提出很多交通控制策略。Bell等人提出的交通燈控制與車輛誘導(dǎo)協(xié)同模型有低水平的數(shù)據(jù)共享方式、高層次的策略交互方式,主要考慮了數(shù)據(jù)信息的共享[1]。孫建平等人在基于Agent的理論上提出交通燈控制與車輛誘導(dǎo)協(xié)同模型,并對基于知識模型的多智能體交通控制進(jìn)行研究[2];龔 等人在對交通燈控制和車輛誘導(dǎo)分別進(jìn)行研究的基礎(chǔ)上,提出了融合算法來提高兩系統(tǒng)之間的協(xié)同效果,從而提高了交通系統(tǒng)的性能[3]。Mirchandani等人設(shè)計(jì)研究了交通燈控制與車輛誘導(dǎo)偏重式控制系統(tǒng),兩個(gè)系統(tǒng)在數(shù)據(jù)和策略實(shí)施上都進(jìn)行協(xié)同控制,更好的利用交通信息[4]。
在實(shí)際的交通控制策略中,交通燈控制策略和車輛誘導(dǎo)策略在信息產(chǎn)生、數(shù)據(jù)處理和策略實(shí)施等多個(gè)方面應(yīng)相互協(xié)同。交通控制系統(tǒng)主要采用的基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)算法來提升整體的交通控制系統(tǒng)的性能。
1 問題分析
1.1 多智能體
多智能體系統(tǒng)(MAS,Multi-Agent-System)是多個(gè)智能體組成的集合,它的目標(biāo)是將大而復(fù)雜的系統(tǒng)建設(shè)成小的、彼此互相通信和協(xié)調(diào)的,易于管理的系統(tǒng)。
1.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)過程中Agent判斷當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境在動(dòng)作的影響下發(fā)生變化,并反饋給Agent一個(gè)獎(jiǎng)懲值,Agent根據(jù)獎(jiǎng)懲值進(jìn)行下一個(gè)動(dòng)作的選擇,即Agent通過不斷試錯(cuò)與環(huán)境進(jìn)行交互獲得信息。
2 基于Q學(xué)習(xí)的交通燈控制策略
本文設(shè)計(jì)一種基于Q學(xué)習(xí)的自適應(yīng)交通燈控制策略。每個(gè)交通燈作為Q學(xué)習(xí)的Agent,Agent根據(jù)交叉口車道上車輛飽和度選擇交通燈綠燈時(shí)間作為Agent的動(dòng)作,車輛在交叉口處車道上的平均行駛時(shí)間作為Q學(xué)習(xí)的回報(bào)函數(shù)值。學(xué)習(xí)系統(tǒng)與環(huán)境不斷的交互,獲得反饋值并調(diào)整狀態(tài)到動(dòng)作的映射策略。
Q學(xué)習(xí)更新公式如下所示:
式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,R(s,a)即為動(dòng)作a作用于環(huán)境的反饋值。Q(s,a)為R(s,a)的累積值。Agent將根據(jù)系統(tǒng)的反饋值來進(jìn)行Q(s,a)的更新。
2.1 狀態(tài)描述
交通環(huán)境中的狀態(tài)一般是連續(xù)的,但強(qiáng)化學(xué)習(xí)卻是應(yīng)用在離散空間下的求解,所以需要把交叉口狀態(tài)進(jìn)行離散化。本文在離散化過程中,把0到1的之間的車輛飽和度合理的離散化為四個(gè)等級。
根據(jù)交叉口各方向車道的車輛飽和度進(jìn)行描述,對于有n個(gè)方向交叉口,其狀態(tài)描述為s(d1,d2,kdn),其狀態(tài)空間即為4n。其中,di表示第i個(gè)入口車道的車輛飽和度。
2.2 動(dòng)作選擇
本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下所示:
式中,A為交通燈的動(dòng)作集合,p[a|s]為交通燈在狀態(tài)s選擇動(dòng)作a的概率。?子為溫控參數(shù),溫控參數(shù)越大,不同Q值對應(yīng)的動(dòng)作選擇概率就越相近;溫控參數(shù)越小,Boltzman策略與貪婪策略越相似。
3 基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略
本文設(shè)計(jì)基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略。交通路網(wǎng)中的車輛是Sarsa學(xué)習(xí)的Agent,Agent利用Sarsa學(xué)習(xí)過程指導(dǎo)車輛進(jìn)行動(dòng)作選擇,即選擇下一條車道,Sarsa學(xué)習(xí)算法與環(huán)境交互的回報(bào)函數(shù)值為車輛在車道上的行駛時(shí)間。自學(xué)習(xí)系統(tǒng)不斷的與環(huán)境進(jìn)行交互,獲得反饋信息,從而修改狀態(tài)動(dòng)作之間的映射。
Sarsa算法的更新公式如下所示:
式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,Qd(s,k)是車輛從節(jié)點(diǎn)s出發(fā)經(jīng)過節(jié)點(diǎn)k到達(dá)終節(jié)點(diǎn)d的期望行駛時(shí)間。tsk即為Agent的動(dòng)作作用于環(huán)境的反饋值。Qd(s,k)的環(huán)境反饋值的累積值,Agent將根據(jù)環(huán)境實(shí)時(shí)的反饋值和歷史的數(shù)據(jù)信息來進(jìn)行Qd(s,k)的更新。
3.1 狀態(tài)描述
在對車輛進(jìn)行誘導(dǎo)時(shí),首選確定Agent的狀態(tài),才能獲得更好的誘導(dǎo)模式。決定車輛Agent狀態(tài)的參數(shù)主要有車輛所在的車道和車輛所在的交叉口。因?yàn)楸疚闹熊囕v的終點(diǎn)是某個(gè)信息節(jié)點(diǎn),所以把車輛所在的交叉口定義為車輛Agent的狀態(tài)。如果把車輛所在的車道定義為車輛Agent的狀態(tài),這么多狀態(tài)如果都進(jìn)行考慮,那么狀態(tài)空間會(huì)十分巨大,將會(huì)增大Sarsa學(xué)習(xí)算法的收斂難度。
3.2 動(dòng)作選擇
本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下:
式中,A為車輛的動(dòng)作集合,p[a|s]為車輛在狀態(tài)s選擇動(dòng)作a的
概率,?子為溫控參數(shù)。
4 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)協(xié)同策略
交通燈控制與車輛誘導(dǎo)協(xié)同問題實(shí)際上就是控制與交通流分配的協(xié)同問題,因此系統(tǒng)模型實(shí)際上就是交通燈控制模型與車輛誘導(dǎo)模型的協(xié)同模型。本文采用偏重交通燈控制方式的協(xié)同模型。
4.1 偏重交通燈控制方式
在偏重式協(xié)同下,交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)不是平等的關(guān)系,而是主從關(guān)系。以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制方式,就是偏重交通燈控制方式。
假設(shè)交通燈控制系統(tǒng)的優(yōu)化函數(shù)為C,保證交叉口處車輛延誤時(shí)間最??;車輛誘導(dǎo)系統(tǒng)的優(yōu)化函數(shù)為U,保證車道上車輛的行駛時(shí)間最小。
偏重交通燈控制方式:
R=arg(P)交通燈控制目標(biāo)函數(shù)最優(yōu);
s.t f(x)∈U車輛誘導(dǎo)目標(biāo)函數(shù)最優(yōu)。
在偏重交通燈控制方式中,交通燈控制系統(tǒng)是保證交叉口的延誤時(shí)間最小,緩解交叉口的擁堵現(xiàn)象。車輛誘導(dǎo)系統(tǒng)是保證車道上車輛的行駛時(shí)間最小,進(jìn)行動(dòng)態(tài)的交通流分配。從整體系統(tǒng)性能的角度出發(fā),協(xié)同控制下可以更好的確保行程時(shí)間的最小。
4.2 交通燈控制與車輛誘導(dǎo)協(xié)同模型
本文主要是以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制,車輛誘導(dǎo)系統(tǒng)每次更新過程后產(chǎn)生新的車輛控制方案時(shí)都會(huì)實(shí)時(shí)的報(bào)告給交通燈控制系統(tǒng),從而減少車輛到達(dá)目標(biāo)地點(diǎn)的行程時(shí)間。
車輛的行程時(shí)間包括車輛在車道上行駛時(shí)間和交叉口處的延誤時(shí)間,行駛時(shí)間是由基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略中所決定,而延誤時(shí)間主要取決于基于Q學(xué)習(xí)的交通燈控制策略。交通燈控制與車輛誘導(dǎo)的協(xié)同公式:
式中,C(x,t)為車輛到達(dá)終節(jié)點(diǎn)的行程時(shí)間。T(r)為車輛誘導(dǎo)系統(tǒng)決定的車輛行駛時(shí)間,T(q)為由交通燈控制系統(tǒng)決定的車輛延遲時(shí)間。車輛誘導(dǎo)系統(tǒng)和交通燈控制系統(tǒng)的偏重式協(xié)同過程,如圖1所示。
在交通燈控制系統(tǒng)中每個(gè)交通燈agent之間協(xié)同,優(yōu)化交通燈的配時(shí)。在車輛誘導(dǎo)系統(tǒng)中,車輛agent相互協(xié)同,優(yōu)化車輛路徑選擇。車輛的行駛時(shí)間和通過交通燈是的延誤時(shí)間分別受兩個(gè)系統(tǒng)影響。交通燈控制系統(tǒng)所決定的策略依賴于車輛誘導(dǎo)系統(tǒng)更新過程后產(chǎn)生新的車輛控制方案進(jìn)行制定,從而提高了整個(gè)交通系統(tǒng)的性能。
5 仿真實(shí)驗(yàn)及結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境
為了驗(yàn)證本文提出的交通控制策略的有效性和正確性,通過開源軟件SUMO仿真器[5]在如圖2所示路網(wǎng)上進(jìn)行仿真和實(shí)驗(yàn),通過java語言實(shí)現(xiàn),路網(wǎng)是美國佛蒙特州的部分路段。
5.2 仿真設(shè)置
仿真中設(shè)置的參數(shù)均為在進(jìn)行多次試驗(yàn)后所得到的經(jīng)驗(yàn)值,其中,交通燈控制策略中的Q學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.9,交通燈Agent動(dòng)作選擇策略中?子設(shè)為0.2。車輛誘導(dǎo)策略中的Sarsa學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.8。在仿真實(shí)驗(yàn)中,仿真器的時(shí)間步與現(xiàn)實(shí)生活中的時(shí)間秒數(shù)相對應(yīng),總的仿真器時(shí)間設(shè)為15000。
5.3 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)算法
從系統(tǒng)整體性能的角度出發(fā),利用基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略(SVIS)對基于最短路徑的車輛誘導(dǎo)系統(tǒng)的性能進(jìn)行提升,利用常見的Dijkstra算法的作為最短路徑算法(DVIS)。
本實(shí)驗(yàn)中,交通燈控制系統(tǒng)采用基于Q學(xué)習(xí)的交通燈控制策略(QTGCS)通燈進(jìn)行動(dòng)態(tài)配時(shí)。而交通燈控制系統(tǒng)的附屬系統(tǒng)車輛誘導(dǎo)系統(tǒng)由基于最短路徑的車輛誘導(dǎo)策略轉(zhuǎn)變?yōu)榛赟arsa學(xué)習(xí)的車輛誘導(dǎo)策略,并對性能進(jìn)行比較。
圖3和圖4分別顯示了DVIS與QTGCS協(xié)同系統(tǒng)、SVIS與QTGCS協(xié)同系統(tǒng)所統(tǒng)計(jì)的評價(jià)數(shù)據(jù)。
交通系統(tǒng)中交叉口處車輛數(shù)量如圖3所示。
實(shí)驗(yàn)結(jié)果表明,以基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略與以基于Dijkstra算法的車輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略相比提高了交通系統(tǒng)的控制效果、減少系統(tǒng)中車輛到達(dá)終節(jié)點(diǎn)的行駛時(shí)間,可以很好的利用路網(wǎng)中的實(shí)時(shí)信息,達(dá)到縮減交通系統(tǒng)中車輛行駛時(shí)間和車輛延遲時(shí)間的目的。
6 結(jié)束語
城市交通系統(tǒng)影響因素復(fù)雜,本文提出基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)算法。實(shí)驗(yàn)結(jié)果表明,通過該協(xié)同策略減少了路網(wǎng)中的車輛數(shù)量和車輛在交叉口的行駛時(shí)間,提升了交通系統(tǒng)的通行能力。
參考文獻(xiàn)
[1]Sheffi Y, Powell W B. Optimal Signal Settings over Transportation Networks[J].Journal of Transportation Engineering,1983,109(6):824-839.
[2]徐麗鮮.城市交通流誘導(dǎo)與控制一體化理論和模型研究[D].吉林工業(yè)大學(xué),吉林大學(xué),1999.
[3]龔 .城市交通誘導(dǎo)與控制的融合研究[D].北京科技大學(xué),2015.
[4]Li P, Mirchandani P, Zhou X. Solving simultaneous route guidance and traffic signal optimization problem using space-phase-time hypernetwork[J]. Transportation Research Part B Methodological, 2015, 81(1):103-130.
[5]Krajzewicz D, Erdmann J, Behrisch M, et al. Recent Development and Applications of SUMO - Simulation of Urban MObility[J]. International Journal on Advances in Systems & Measurements,2012, 3&4(3and4):128-138.
作者簡介:趙佳文(1991-),男,滿族,吉林省蛟河市,碩士,單位:沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫理論與信息系統(tǒng)。
喬春凱(1992-),男,漢族,遼寧省瓦房店市,碩士,單位:沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫理論與信息系統(tǒng)。