龍瓊 ,胡列格,張謹(jǐn)帆,周昭明,彭爍
(1. 湖南城市學(xué)院 土木工程學(xué)院,湖南 益陽(yáng),413000;2. 長(zhǎng)沙理工大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長(zhǎng)沙,410004)
隨著城市人口數(shù)量的不斷增長(zhǎng)和人們物質(zhì)生活水平的逐漸提高,機(jī)動(dòng)車保有量迅猛增長(zhǎng),進(jìn)而使道路交通需求急劇增加,交通擁堵問(wèn)題日益凸顯。針對(duì)交通擁堵問(wèn)題,僅僅通過(guò)加強(qiáng)交通基礎(chǔ)設(shè)施的建設(shè)是難以解決的,而根據(jù)實(shí)際交通狀況實(shí)時(shí)優(yōu)化交通信號(hào)控制方案是一種有效緩解交通擁堵的手段。交叉口作為城市交通網(wǎng)絡(luò)中的重要組成部分,是城市交通擁擠的主要發(fā)生地,所以,針對(duì)城市道路交叉口交通信號(hào)控制問(wèn)題開展研究,對(duì)于改善城市道路交通擁堵?tīng)顩r、提高道路通行能力、減少交通事故、減少交通環(huán)境污染等方面具有十分重要的現(xiàn)實(shí)意義。交通信號(hào)控制是調(diào)控路網(wǎng)交通流運(yùn)行的主要交通管理措施之一,應(yīng)體現(xiàn)安全、通暢、高效等多方面的控制意圖[1]。在優(yōu)化交通信號(hào)協(xié)調(diào)控制參數(shù)時(shí),需要考慮交通管理策略,權(quán)衡平均延誤時(shí)間、排隊(duì)長(zhǎng)度、通過(guò)流量等指標(biāo)[2-3],因此,交通信號(hào)控制問(wèn)題是一個(gè)考慮交通管理策略的多目標(biāo)優(yōu)化問(wèn)題。近年來(lái),采用多目標(biāo)優(yōu)化方法研究城市道路交通信號(hào)控制問(wèn)題已成為研究熱點(diǎn)。早期的多目標(biāo)優(yōu)化是Akcelik[4]在F-B 法的基礎(chǔ)上引入停車補(bǔ)償系數(shù),結(jié)合車輛延誤時(shí)間參數(shù),共同評(píng)價(jià)信號(hào)配時(shí)的優(yōu)化程度。Vincent 等[5]以TRANSYT 系統(tǒng)為對(duì)象,將延誤時(shí)間和停車次數(shù)轉(zhuǎn)換為燃油消耗指標(biāo),基于爬山法和遺傳算法對(duì)模型求解。常健等[6]建立了車輛排隊(duì)延誤和路段行程時(shí)間的加權(quán)線性組合優(yōu)化模型,求解獲得控制參數(shù),并定性地探討了權(quán)重系數(shù)與優(yōu)化目標(biāo)之間的變化關(guān)系。Zeng 等[7]基于元胞傳輸模型,模擬車流在道路交叉口的運(yùn)行規(guī)律,建立了以平均延誤和通行能力為優(yōu)化目標(biāo)的多目標(biāo)優(yōu)化模型,采用MOGA 多目標(biāo)遺傳算法進(jìn)行了模型求解。曹成濤等[8]引入交通控制飽和度約束,建立了以機(jī)動(dòng)車流的平均延誤、平均停車次數(shù)和總通過(guò)流量為優(yōu)化目標(biāo)的加權(quán)組合優(yōu)化模型,基于遺傳算法對(duì)模型進(jìn)行求解。高云峰等[1]以交叉口群為對(duì)象,建立了交通信號(hào)協(xié)調(diào)控制參數(shù)的多目標(biāo)優(yōu)化模型,基于非支配排序遺傳算法設(shè)計(jì)了相應(yīng)的多目標(biāo)優(yōu)化算法求解模型。但是,由于實(shí)際交通系統(tǒng)的復(fù)雜性和多變性,交通狀況難以精確描述,多目標(biāo)優(yōu)化模型往往通過(guò)簡(jiǎn)單加權(quán)來(lái)轉(zhuǎn)化為單目標(biāo)優(yōu)化模型進(jìn)行求解,忽略了交通管理者對(duì)交通流疏導(dǎo)的策略和意圖,因而,這類多目標(biāo)優(yōu)化模型往往難以適應(yīng)實(shí)際復(fù)雜多變的城市道路交通系統(tǒng)控制需求。為此,本文作者面向復(fù)雜多變的交通系統(tǒng)控制需求,充分考慮交通管理者對(duì)交通疏導(dǎo)的控制策略,基于模糊分析法(fuzzy analytic process,F(xiàn)AP)設(shè)計(jì)了一種城市道路交叉口信號(hào)控制多目標(biāo)優(yōu)化模型,同時(shí),考慮Q 學(xué)習(xí)算法具有快速收斂特性的同時(shí),無(wú)需過(guò)多顧及環(huán)境指標(biāo)的動(dòng)態(tài)變化,基于Q 學(xué)習(xí)算法對(duì)多目標(biāo)優(yōu)化模型進(jìn)行求解,從而實(shí)時(shí)產(chǎn)生考慮交通管理者策略的交叉口信號(hào)控制方案。
交叉口交通信號(hào)控制優(yōu)化模型的評(píng)價(jià)指標(biāo)一般為單位時(shí)間內(nèi)通過(guò)的車流量最大、車輛總延誤時(shí)間最短、車輛排隊(duì)長(zhǎng)度最短、車輛在交叉路口的平均停車次數(shù)最少等,控制模型根據(jù)交通控制目標(biāo)構(gòu)造評(píng)價(jià)函數(shù),結(jié)合交通管理者的控制意圖,對(duì)交叉口進(jìn)行優(yōu)化控制。以典型的平面十字交叉城市道路口為例,本文選用排隊(duì)長(zhǎng)度l、延誤時(shí)間d 和停車次數(shù)n 作為模型優(yōu)化評(píng)價(jià)指標(biāo),構(gòu)建綜合評(píng)價(jià)指標(biāo)函數(shù)為
值得說(shuō)明的是:在模型(1)中,排隊(duì)長(zhǎng)度l、延誤時(shí)間d 和停車次數(shù)n 的量綱不同,在實(shí)際操作過(guò)程中,需要經(jīng)過(guò)統(tǒng)一歸一化處理。同時(shí),在模型中,wj和 ρji體現(xiàn)了交通管理者對(duì)指標(biāo)和相位的重視程度,而交通管理者的認(rèn)識(shí)本身具有主觀性和模糊性,增加了模型求解的復(fù)雜程度。本文考慮引入模糊分析法(FAP)對(duì)這些權(quán)重系數(shù)進(jìn)行量化,從而簡(jiǎn)化交通管理者判斷交通優(yōu)化指標(biāo)相對(duì)重要性的復(fù)雜過(guò)程,解決交通指標(biāo)優(yōu)化排序過(guò)程中的一致性問(wèn)題,使優(yōu)化模型更好地反映交通管理者的控制需求。
實(shí)際問(wèn)題往往具有復(fù)雜性和模糊性,用模糊數(shù)表示判斷的結(jié)果能夠更好地反映事物的客觀本質(zhì)。因此,本文在權(quán)重確定過(guò)程中引入模糊數(shù)學(xué)理論,即應(yīng)用模糊分析法對(duì)交通優(yōu)化模型進(jìn)行權(quán)重確定。與一般方法相比,模糊分析法簡(jiǎn)化了人們判斷評(píng)價(jià)相對(duì)重要性的復(fù)雜程度,解決了權(quán)重確定過(guò)程中的一致性問(wèn)題。
基于模糊分析法進(jìn)行權(quán)重確定的基本過(guò)程是[9-10]:在構(gòu)建交叉口優(yōu)化模型的基礎(chǔ)上,以矩陣形式表達(dá)各單項(xiàng)優(yōu)化指標(biāo)的相對(duì)重要性,從而建立相應(yīng)的模糊矩陣:
其矩陣元素按如下的模糊邏輯確定:
對(duì)模糊矩陣F 進(jìn)行一致化處理,構(gòu)成模糊一致矩陣:
其中,rij按照如下方式確定:
然后進(jìn)行權(quán)重確定,即根據(jù)模糊一致矩陣計(jì)算對(duì)于交通管理者而言的指標(biāo)重要性相對(duì)權(quán)重(不含自身比較):
進(jìn)行歸一化后可得
基于上述思想,對(duì)于交叉口優(yōu)化模型(1),交通管理者根據(jù)交通管理策略,僅需確定排隊(duì)長(zhǎng)度l、延誤時(shí)間d 和停車次數(shù)n 等指標(biāo)的相對(duì)重要性,就可確定相應(yīng)的指標(biāo)權(quán)重wj(j=1, 2, 3)。同理,對(duì)于各優(yōu)化指標(biāo)在不同相位的權(quán)重系數(shù) ρji,亦可以通過(guò)類似方法確定,由此可以看出:基于模糊分析方法,交通管理者僅需兩兩比較優(yōu)化指標(biāo)的相對(duì)重要性,大大降低了交通管理者根據(jù)自身意圖來(lái)設(shè)置指標(biāo)權(quán)重的復(fù)雜程度,且該方法還能夠有效保證權(quán)重確定過(guò)程中的一致性問(wèn)題。
Q 學(xué)習(xí)算法最早在1989 年由Watkins 等提出[11],是模擬動(dòng)物學(xué)習(xí)行為的一種強(qiáng)化學(xué)習(xí)算法,該算法因操作簡(jiǎn)單且收斂性好而受到研究者的重視。Q 學(xué)習(xí)算法通過(guò)從環(huán)境中得到獎(jiǎng)懲的方法來(lái)獲得不同狀態(tài)下的最優(yōu)策略。Q 學(xué)習(xí)的積累回報(bào)函數(shù) Q (s , a)是指在狀態(tài)s 執(zhí)行完動(dòng)作a 后希望獲得的積累回報(bào),它取決于當(dāng)前的立即回報(bào)和期望的延時(shí)回報(bào)。
在Q 學(xué)習(xí)算法中,模型通過(guò)不斷反射學(xué)習(xí)優(yōu)化1個(gè)可以迭代計(jì)算的Q 函數(shù)提高學(xué)習(xí)能力,Q (s , a)函數(shù)的初始值可任意給定,其學(xué)習(xí)規(guī)則為[12]
式中:α ∈[ 0,1]為學(xué)習(xí)速率; γ ∈[ 0,1]為折扣因子;a為所有可供選擇的動(dòng)作的集合;r (s, a)為回報(bào)函數(shù)值;Qt(s ′, a′)為在下一個(gè)狀態(tài)s’時(shí)系統(tǒng)選擇任何行為a′的Q 函數(shù)值。
Q 學(xué)習(xí)算法不同于其他學(xué)習(xí)算法[13]的是不需要建立面向外部狀態(tài)環(huán)境變化的模型,適合于在線學(xué)習(xí)。近年來(lái),Q 學(xué)習(xí)在人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域取得了諸多研究成果,在此,本文采用Q 學(xué)習(xí)算法用于求解交叉口的信號(hào)控制優(yōu)化問(wèn)題。
根據(jù)交叉口模型(1),控制參數(shù)集和決策參數(shù)集可以分別表達(dá)為:
同時(shí),在實(shí)際交通信號(hào)控制中,信號(hào)燈時(shí)間通常以秒(s)為單位計(jì)時(shí),因而,控制參數(shù)集U 和決策參數(shù)集ΔU 均為有限可數(shù)集合。這給Q 學(xué)習(xí)算法的應(yīng)用帶來(lái)了方便。
根據(jù)模型(1),設(shè)計(jì)收益函數(shù)如下:
在權(quán)重系數(shù)wj和 ρji確定后,下面參照文獻(xiàn)[14]并作以改進(jìn),設(shè)計(jì)獲得相應(yīng)的交通信號(hào)控制策略。
2.2.1 初始控制參數(shù)
初始控制參數(shù)的確定依據(jù)
2.2.1 過(guò)程控制策略
在第k+1 個(gè)周期個(gè)控制周期,控制策略設(shè)計(jì)如下。
(1) 若Rk(u(k))<0,則說(shuō)明控制系統(tǒng)趨于收斂,交通狀況漸趨通暢,
(2) 若Rk(u(k)) >0,則說(shuō)明控制系統(tǒng)趨于發(fā)散,交通狀況漸趨惡化。令
若對(duì)所有相位i=1, 2, 3, 4,均有rki>0,則說(shuō)明交通流量逐漸增大而導(dǎo)致交通系統(tǒng)整體惡化,此時(shí),重新調(diào)整控制策略,依據(jù)下式
由此獲得Δu(k+1),從而可求得第k+1 個(gè)周期的控制量u(k+1)。與文獻(xiàn)[14]相比,本文在此引入了保守因子λ,避免了對(duì)交通惡化相位的過(guò)度反應(yīng),保證了漸趨通暢相位的收斂性。
(3) 若Rk(u(k))=0,則說(shuō)明交通整體狀況沒(méi)有發(fā)生變化,此時(shí),對(duì)應(yīng)的交叉口交通狀況是:部分相位惡化,部分相位向好(理論上存在所有相位交通狀況均沒(méi)有變化的情況),參照情況(2)進(jìn)行研究微調(diào)。
為了驗(yàn)證本文方法的有效性,以典型的十字交叉路口為例,針對(duì)如下2 種想定情況進(jìn)行仿真實(shí)驗(yàn),并與傳統(tǒng)的定時(shí)控制方法進(jìn)行對(duì)比。
(1) 情況1:不考慮交通管理策略。
在不考慮交通控制策略的情況下,交通管理者對(duì)各優(yōu)化指標(biāo)和相位無(wú)偏好,因此,在模型(1)中,權(quán)重系數(shù)取值為 w1=w2=w3=1/3,ρji=1/4(j=1, 2, 3;i=1, 2, 3, 4)。
(2) 情況2:考慮交通管理策略。
假設(shè)交通管理者面向大區(qū)域交通系統(tǒng)需求,設(shè)置其優(yōu)化指標(biāo)的相對(duì)重要性為:排隊(duì)長(zhǎng)度相對(duì)重要性>延誤時(shí)間相對(duì)重要性=停車次數(shù)相對(duì)重要性。
同時(shí),大區(qū)域交通環(huán)境要求優(yōu)先保障處于第1 和第2 相位的車輛通過(guò),同時(shí)兼顧第3 和第4 相位車輛,則相位相對(duì)重要性設(shè)置為:第1 相位相對(duì)重要性=第2相位相對(duì)重要性>第3 相位相對(duì)重要性=第4 相位相對(duì)重要性。
根據(jù)前面的權(quán)重系數(shù)確定方法,求得
取控制周期C=120 s,保守因子λ=0.9,在不同交通流量下獲得的仿真結(jié)果如圖1~3 所示。
從圖1~3 可以看出:本文所提出的多目標(biāo)優(yōu)化控制算法能夠較大幅度地縮短排隊(duì)長(zhǎng)度、延誤時(shí)間和減少停車次數(shù),與傳統(tǒng)定時(shí)控制方法相比具有明顯的優(yōu)勢(shì),這種優(yōu)勢(shì)隨著交通流量的增大更加明顯。
表1 所示為各種控制模型的各種具體控制結(jié)果。從表1 可以看出:在不同車流量條件下,采用本文方法能夠有效減小排隊(duì)長(zhǎng)度、延誤時(shí)間和停車次數(shù),大大提高了交通系統(tǒng)的運(yùn)行效率。特別地,根據(jù)情況2獲得的實(shí)驗(yàn)結(jié)果,與第3 和第4 相位相比,第1 和第2 相位更加通暢,尤其是在不同車流量下,第1 和第2相位的排隊(duì)長(zhǎng)度較短,較好地體現(xiàn)了交通管理者的控制意圖。
圖1 不同車流量條件下的排隊(duì)長(zhǎng)度對(duì)比Fig.1 Comparison of queue length at different traffic conditions
圖2 不同車流量條件下的延誤時(shí)間對(duì)比Fig.2 Comparison of delay time at different traffic conditions
圖3 不同車流量條件下的停車次數(shù)對(duì)比Fig.3 Comparison of number of parking at different traffic conditions
表1 不同車流量條件下的仿真結(jié)果比較Table 1 Comparision of simulation results at different traffic conditions
面向復(fù)雜多變的交通系統(tǒng)控制需求,基于模糊分析法設(shè)計(jì)了一種城市道路交叉口信號(hào)控制多目標(biāo)優(yōu)化模型,并基于Q 學(xué)習(xí)算法對(duì)多目標(biāo)優(yōu)化模型進(jìn)行求解,該方法具有如下特點(diǎn):
(1) 在建模過(guò)程中,充分考慮了交通管理者對(duì)交通疏導(dǎo)的控制策略,有利于保持與大區(qū)域交通環(huán)境的一致性。
(2) 引入模糊分析法確定優(yōu)化指標(biāo)權(quán)重系數(shù),簡(jiǎn)化了人們判斷評(píng)價(jià)相對(duì)重要性的復(fù)雜程度,解決了權(quán)重確定過(guò)程中的一致性問(wèn)題。
(3) 構(gòu)建了交叉口多目標(biāo)最優(yōu)模型,克服了以往優(yōu)化方法目標(biāo)單一的缺點(diǎn)。仿真結(jié)果表明該模型能夠兼顧多種優(yōu)化指標(biāo),獲得折中解。
(4) 基于Q 學(xué)習(xí)算法對(duì)多目標(biāo)優(yōu)化模型進(jìn)行求解,簡(jiǎn)化了求解過(guò)程,保證了求解結(jié)果的收斂性。
[1] 高云峰, 胡華, 韓皓, 等. 城市道路交叉口群信號(hào)協(xié)調(diào)控制多目標(biāo)優(yōu)化與仿真[J]. 中國(guó)公路學(xué)報(bào), 2012, 25(6): 129-135.GAO Yunfeng, HU Hua, HAN Hao. Multi-objective optimization and simulation of groups of intersections’ signal coordinate control[J]. China Journal of Highway and Transport,2012, 25(6): 129-135.
[2] DAI Yujie, ZHAO Dongbin. A traffic signal control algorithm for isolated intersections based on adaptive dynamic programming[C]// Proceedings of 2010 International Conference on Networking, Sensing and Control (ICNSC 2010). Chicago,USA, 2010: 255-260.
[3] Abdulhai B. Reinforcement learning for true adaptive traffic signal control[J]. ASCE Journal of Transportation Engineering,2003, 129(3) : 278-285.
[4] Akcelik R. Traffic signals: Capacity and timing analysis, ARR No.123[R]. Vermont South, Australia: ARRB Transport Research Ltd, 1981: 26-29.
[5] Vincent R A, Mitchell A I, Robertson D I. User guide of transport, Version 8, TRRL Report LR888[R]. Crowthorne, UK:Transport and Road Research Labortory, 1980: 356-361.
[6] 常健, 吳大為. 多目標(biāo)交叉口信號(hào)控制模型[J]. 大連理工大學(xué)學(xué)報(bào), 2000, 40(6): 653-656.CHANG Jian, WU Dawei. Multi-objective model of intersection signal control[J]. Journal of Dalian University of Technology,2000, 40(6): 653-656.
[7] Zeng J Q, Wang J J, Liu K, et al. CTM-MOGA based crossroad traffic signal control[J]. Journal of University of Science and Technology of China, 2005, 35(2): 284-290.
[8] 曹成濤, 徐建閩. 單交叉口交通多目標(biāo)控制方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(16): 20-22.CAO Chengtao, XU Jianmin. Multi-objective control method at single intersection[J]. Computer Engineering and Applications,2010, 46(16): 20-22.
[9] XU Runing, ZHAI Xiaoyan. Extention of the analytic hierarchy process in fuzzy environment[J]. Fuzzy Sets and Systems, 1992,52: 29-32.
[10] 汪培莊. 模糊集合論及其應(yīng)用[M]. 上海: 上??茖W(xué)技術(shù)出版社, 1986: 329-332.WANG Peizhuang. Fuzzy set theory and its applications[M].Shanghai: Shanghai Science and Technology Press, 1986:329-332.
[11] Watkins C, Dayan P. Technical note: Q-learning machine learning[M]. Kluwer Academic Publishers, Boston, 1992:279-292.
[12] 魏赟, 邵清. 基于Q-學(xué)習(xí)和粒子群算法的區(qū)域交通控制模型[J]. 系統(tǒng)仿真學(xué)報(bào), 2011, 23(10): 2108-2111.WEI Yun, SHAO Qing. Regional traffic control model based on Q-learning and particle swarm optimization[J]. Journal of System Simulation, 2011, 23(10): 2108-2111.
[13] 席燕輝, 葉志成, 彭輝. 一種基于自適應(yīng)粒子濾波的多層感知器學(xué)習(xí)算法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 44(4):1397-1402.XI Yanhui, YE Zhicheng, PENG Hui. An algorithm for MLPs training based on adaptive particle filter[J]. Journal of Central South University (Science and Technology), 2013, 44(4):1397-1402.
[14] 崔吉峰, 乞建勛, 楊尚東. 基于粒子群改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的組合預(yù)測(cè)模型及其應(yīng)用[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009,40(1): 190-194.CUI Jifeng, QI Jianxun, YANG Shangdong. Combined forecasting model based on BP improved by PSO and its application[J]. Journal of Central South University (Science and Technology), 2009, 40(1): 190-194.
[15] 馬躍峰, 王宜舉. 一種基于Q 學(xué)習(xí)的單路口交通控制方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2011, 41(24): 102-106.
[16] MA Yuefeng, WANG Yiju. A traffic control method for single intersection based on Q-learning algorithm[J]. Mathematics in Practice and Theory, 2011, 41(24): 102-106.