周 斌 ,吳曉東 ,馬東方 ,邱紅桐
(1.浙江大學(xué)海洋學(xué)院,浙江 舟山 316021;2.鵬城實(shí)驗室,廣東 深圳 518000;3.公安部交通管理科學(xué)技術(shù)研究所,江蘇 無錫 214151)
交通擁堵已成為影響城市環(huán)境和制約經(jīng)濟(jì)發(fā)展的嚴(yán)重瓶頸。隨著信息檢測技術(shù)和智能優(yōu)化技術(shù)的不斷發(fā)展,交通研究逐漸向智能化轉(zhuǎn)變,衍生了智能交通系統(tǒng)(ITS)。ITS的主要目標(biāo)是為出行者提供安全、高效和可靠的交通系統(tǒng),提高居民出行品質(zhì)。信號控制是ITS的重要組成部分,愈發(fā)受到研究者關(guān)注。按其控制策略,交通信號控制方法可分為定時控制、感應(yīng)控制、半驅(qū)動控制、綠波控制、區(qū)域靜態(tài)控制和區(qū)域動態(tài)控制等。一個完善的城市區(qū)域交通信號協(xié)調(diào)控制系統(tǒng)應(yīng)及時響應(yīng)交通需求,在線優(yōu)化配時方案,實(shí)現(xiàn)“適應(yīng)性”特征,如代表性的SCOOT[1]和 SCATS[2]等系統(tǒng)。然而,這些系統(tǒng)主要依靠線圈檢測的斷面數(shù)據(jù)推演離散化節(jié)點(diǎn)的狀態(tài)趨勢,進(jìn)而驅(qū)動優(yōu)化算法輸出執(zhí)行方案;這種優(yōu)化策略無法把控交通流的宏觀特性,致使控制效果欠佳。同時,城市交通系統(tǒng)具有很強(qiáng)的時變性、非線性、模糊性和不確定性,采用以多類理想假設(shè)為前提的傳統(tǒng)數(shù)學(xué)模型很難有效保障系統(tǒng)性能。
近年來,隨著新型傳感器的大規(guī)模部署,融合多視角和跨領(lǐng)域的各式交通傳感器數(shù)據(jù)引發(fā)了一系列互補(bǔ)性的創(chuàng)新和專用技術(shù)積累,為研究者和管理者提供了更加清晰地描述城市交通的動態(tài)信息,ITS的應(yīng)用環(huán)境正由少量、貧乏、少維度的模型驅(qū)動時代向海量、豐富、多維度的大數(shù)據(jù)時代轉(zhuǎn)變[3]。海量多源交通大數(shù)據(jù)對交通流的態(tài)勢推演提供了新的機(jī)遇,利用循環(huán)神經(jīng)網(wǎng)絡(luò)、圖網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)等可以充分挖掘網(wǎng)絡(luò)交通流的時空關(guān)聯(lián)模式,對于控制策略的選擇和方案優(yōu)化均起到了極大的正向作用。
同時,云端計算能力的提升使得利用機(jī)器學(xué)習(xí)技術(shù)直接從觀測數(shù)據(jù)中學(xué)習(xí)信號優(yōu)化決策已成為可能,無需對模型做出任何假設(shè);諸多研究者嘗試將模糊邏輯、神經(jīng)網(wǎng)絡(luò)、進(jìn)化算法和強(qiáng)化學(xué)習(xí)等人工智能方法應(yīng)用于信號優(yōu)化[4]。然而,典型的監(jiān)督學(xué)習(xí)并不適用于信號優(yōu)化決策,其原因在于信號控制系統(tǒng)應(yīng)遵循預(yù)定義的優(yōu)化規(guī)則和方案,且信號方案的優(yōu)化變量是連續(xù)變量,可行方案組合無法窮盡,致使沒有足夠的訓(xùn)練數(shù)據(jù)區(qū)分信號優(yōu)化策略的優(yōu)劣。相反,實(shí)際應(yīng)用中可以先采取行動而后改變信號方案,逐漸從結(jié)果中學(xué)習(xí)狀態(tài)和方案的關(guān)系。這種基于試錯的策略即為強(qiáng)化學(xué)習(xí)(RL)的核心思想[5]。從控制論的角度來看,RL可根據(jù)控制效果的反饋信息自主學(xué)習(xí)并優(yōu)化策略知識,是一種真正的閉環(huán)反饋控制。本質(zhì)上,RL系統(tǒng)首先根據(jù)當(dāng)前環(huán)境生成并執(zhí)行不同策略(如信號控制方案等),而后根據(jù)環(huán)境反饋學(xué)習(xí)并調(diào)整優(yōu)化策略;上述過程也揭示了傳統(tǒng)模型類優(yōu)化方法與RL方法之間顯著差異,即:在傳統(tǒng)信號控制中,優(yōu)化模型是靜態(tài)的;在RL中,模型是在真實(shí)環(huán)境中通過反復(fù)試驗動態(tài)學(xué)習(xí)的。
傳統(tǒng)的RL方法由于其基本范式為表格或簡單線性函數(shù),存在狀態(tài)空間小、僅適用于離散動作空間等問題。因此當(dāng)面向輸入包含圖像、視頻等高維度數(shù)據(jù)的復(fù)雜真實(shí)場景時,其任務(wù)往往具有較大的狀態(tài)空間和連續(xù)的動作空間,傳統(tǒng)的RL很難進(jìn)行處理。而深度強(qiáng)化學(xué)習(xí)(DRL)是深度學(xué)習(xí)(DL)與強(qiáng)化學(xué)習(xí)的結(jié)合[6],將狀態(tài)和動作當(dāng)做神經(jīng)網(wǎng)絡(luò)的輸入、輸出值,利用深度學(xué)習(xí)的強(qiáng)表征能力完成原始數(shù)據(jù)到動作的端對端映射。
DRL技術(shù)近幾年得到了迅猛發(fā)展,并促生了學(xué)術(shù)界和工業(yè)界對融合DRL技術(shù)以改善信號控制的興趣。本文首先全面回顧DRL方法在交通信號控制中的研究和應(yīng)用,討論基于DRL的交通信號控制前沿方法及優(yōu)缺點(diǎn),為進(jìn)一步研究該領(lǐng)域的新技術(shù)和新方法提供一定的思路參考。
為闡述RL在交通信號控制的應(yīng)用,本文首先簡要介紹RL的相關(guān)基本概念,而后介紹交通信號控制如何適應(yīng)RL設(shè)置。
RL是獨(dú)立于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的一類特殊學(xué)習(xí)模式,三者的主要范式如圖1所示。RL受行為心理學(xué)啟發(fā),主要關(guān)注智能體如何在環(huán)境中采取不同的行動,以最大限度的提高累積獎勵[7]。
圖1 機(jī)器學(xué)習(xí)分類圖
RL的整個系統(tǒng)架構(gòu)主要由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)、動作(Action)和獎勵(Reward)組成。智能體執(zhí)行某動作后,環(huán)境會轉(zhuǎn)換至一個新的狀態(tài),并根據(jù)狀態(tài)的變化給出上一動作的獎勵值(正獎勵或者負(fù)獎勵),其交互過程如圖2所示。其中,智能體根據(jù)環(huán)境信息構(gòu)建狀態(tài)的過程如下:
式中Ht代表從初始時刻到當(dāng)前時刻t為止,由每個時刻對環(huán)境的觀察On、智能體的行動An、環(huán)境反饋的獎勵Rt的所組成的序列;St代表時刻t的狀態(tài)函數(shù),由Ht決定。
隨后,智能體根據(jù)新的狀態(tài)和環(huán)境反饋獎勵,按照一定的策略執(zhí)行新的動作。其中獎勵根據(jù)下式不斷累計直到終止條件,即為累計回報:
式中Gt代表累計回報,Rt+n代表從當(dāng)前時刻t開始計算,第n個時刻的獎勵值,γ為折扣因子,用于表示當(dāng)前獎勵對未來長期累積回報的重要性。
上述過程為智能體和環(huán)境通過狀態(tài)、動作和獎勵進(jìn)行交互的方式,如圖2所示。通常,單智能體RL問題會被建模為馬爾可夫決策過程(MDP)<S,A,P,R,γ>,其中S,A,P,R,γ分別是狀態(tài)表示集、動作集、狀態(tài)轉(zhuǎn)移函數(shù)、獎勵函數(shù)和折扣因子。π是當(dāng)前智能體在狀態(tài)s下采取動作a的策略,表示智能體在當(dāng)前狀態(tài)下采取各個動作的方案:
圖2 RL交互示意圖
式中P為狀態(tài)轉(zhuǎn)移函數(shù),即在t時刻的狀態(tài)St下采取動作At后通過式(4)轉(zhuǎn)移到狀態(tài)St+1的概率。
智能體的最終目標(biāo)是尋找一個最佳的策略方案,使得累計回報最大化,策略可以通過如下狀態(tài)值函數(shù)式更新:
式中V(s)為狀態(tài)s下的值函數(shù)。
智能體狀態(tài)值函數(shù)迭代遵循貝爾曼方程,可以通過下式進(jìn)行簡化:
簡化后為:
式(7)中的Pπ和Rπ可以根據(jù)下式進(jìn)一步進(jìn)行展開:
展開后為:
進(jìn)一步明確了狀態(tài)值函數(shù)與當(dāng)前狀態(tài)與動作之間的關(guān)系。
RL的優(yōu)化目的是尋求最優(yōu)策略使得累積期望回報最大。以Q-learning[8]為代表的傳統(tǒng)RL方法利用表格或簡單線性函數(shù)的方式來估計狀態(tài)-動作值函數(shù),適用于狀態(tài)空間有限的情況。而實(shí)際的交通場景復(fù)雜多變,很容易導(dǎo)致狀態(tài)空間或動作空間劇增,產(chǎn)生“維數(shù)災(zāi)難”,致使表格或簡單線性函數(shù)的方式估計狀態(tài)-動作值函數(shù)存在很大的局限性。為解決這一問題,很多研究在強(qiáng)化學(xué)習(xí)中引入深度學(xué)習(xí)(DL),利用復(fù)雜、非線性、帶參數(shù)的深度神經(jīng)網(wǎng)絡(luò)來逼近強(qiáng)化學(xué)習(xí)中的狀態(tài)-動作值函數(shù),抽取高維數(shù)據(jù)的抽象特征,以實(shí)現(xiàn)降維。這種將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)聯(lián)合起來的方式稱為深度強(qiáng)化學(xué)習(xí)(DRL),其中的典型代表為谷歌旗下DeepMind公司提出的深度Q網(wǎng)絡(luò)(DQN)[9]。DRL很好地結(jié)合了DL的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,且根據(jù)其最優(yōu)策略的獲得方法可將DRL分為三類:值函數(shù)(Valuebased)、策略梯度(Policy Gradient)和值函數(shù)與策略梯度相結(jié)合的演員-評論家算法(Actor-Critic)。后面提及的關(guān)于交通結(jié)合RL的算法,如無特殊說明,均是基于DRL網(wǎng)絡(luò)。
在上述DRL基本概念的框架下,本節(jié)將重點(diǎn)解釋DRL與信號控制相結(jié)合的原理。在信號控制中,環(huán)境是道路上的交通狀況,智能體用于控制交通信號燈。在任意時刻t,環(huán)境向智能體發(fā)送當(dāng)前時刻的狀態(tài)st,狀態(tài)st包含當(dāng)前時刻的交通環(huán)境描述(如信號相位、車輛等待時間、車輛隊列長度、車輛位置等,通常忽略行人、非機(jī)動車輛等因素對交通的影響)。智能體將根據(jù)當(dāng)前時刻的狀態(tài)st和當(dāng)前優(yōu)化策略確定動作at;動作at將在環(huán)境中執(zhí)行,生成一個即時獎勵rt,其中獎勵可根據(jù)路口交通狀況和優(yōu)化目標(biāo)進(jìn)行不同的定義:
式中Gt為從當(dāng)前時刻一直到終止時刻的累計回報,即期望收益;rt+i為從當(dāng)前時刻往后第i個時刻的獎勵值。
并通過不斷優(yōu)化策略使式(11)中定義的期望收益最大化,進(jìn)而使得路口的擁堵最小化,其流程如圖3所示。
圖3 RL交通信號控制流程圖
此外,能否實(shí)現(xiàn)對解空間的全面搜索以及對自身經(jīng)驗的充分利用,是決定DRL能否取得最大累計回報的關(guān)鍵因素,在DRL中也被稱為探索和利用的平衡問題,主要由RL的決策機(jī)制決定。目前常用的決策機(jī)制有ε貪婪法和玻爾茲曼探索法。
在DRL框架下,信號控制存在如下三方面主要影響因素:
?狀態(tài)設(shè)計:交通狀態(tài)用以描述道路上的狀況,其指標(biāo)選擇應(yīng)充分反映當(dāng)前的交通環(huán)境。
?獎勵設(shè)計:由于DRL的目標(biāo)是最大化累積回報,根據(jù)式(1)的定義可知,獎勵的選擇決定了信號控制的傾向性,如通行效率最大、停車次數(shù)最少等。
?動作方案設(shè)計:不同的動作方案也會對交通信號控制策略性能產(chǎn)生影響。如果智能體的動作被定義為“要改變到哪個相位”,則相位相序?qū)⒈欢x為自適應(yīng)模式。
在最近的研究中,信號控制的狀態(tài)特征包括等待時間、隊列長度、車輛數(shù)量和當(dāng)前交通信號階段等要素,而隨著新型傳感器的逐步普及和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[10]的快速發(fā)展,道路上的車輛位置圖像也被作為狀態(tài)特征之一。典型的獎勵定義是隊列長度、等待時間和延遲時間等幾個分量的加權(quán)線性組合。而對于動作方案的設(shè)計則主要圍繞相位的切換和相位持續(xù)時長展開。后續(xù)我們將從狀態(tài)設(shè)計、獎勵設(shè)計和動作方案設(shè)計三個方面進(jìn)行詳細(xì)說明。
2.2.1 狀態(tài)設(shè)計
在任意時刻t,智能體接收一些環(huán)境信息的定量描述來構(gòu)造狀態(tài)空間,這些定量指標(biāo)包括:
■隊列長度。即車道上的等待車輛總數(shù)。目前不同的研究者對于車輛的“等待”狀態(tài)存在差異化定義。其中 Bakker等[11]、Kuyer等[12]將速度為 0 的車輛視為等待車輛,而Wei等[13]則將車速小于0.1 m/s的車輛視為等待車輛。
■ 等待時間。定義為車輛處于“等待”狀態(tài)的時間長度。不同研究者對于等待時間的開始時刻也有不同的定義。Wei等[13]、van等[14]認(rèn)為等待時間是從車輛上一次移動的最后一個時間戳開始到下一次移動的第一個時間戳結(jié)束,而 Bry 等[15]、Wiering等[16]則將車輛進(jìn)入路網(wǎng)作為起始節(jié)點(diǎn),累計疊加車輛在整個網(wǎng)絡(luò)上等待時間。
■延誤時間。通常被定義為實(shí)際行程時間與預(yù)期行駛時間(可用距離除以限速表示)的差值[13]。
■路網(wǎng)承載車輛數(shù)。通常被定義為車道上排隊車輛與行駛車輛之和[17-18]。
■行程速度。速度用來衡量車輛行駛狀況時受預(yù)先定義的速度限值影響很大。由于不同的車道具有差異化限速,大部分研究多采用比例的方式表征速度,即車輛實(shí)際速度與路段限速的比值[19-20]。
■相位與相位持續(xù)時間。相位信息通常通過預(yù)定義的相位索引來表示,并將其集成至狀態(tài)空間[14];相位持續(xù)時間定義為當(dāng)前相位從開始到當(dāng)前時刻的持續(xù)時間[15]。
■擁堵情況。一些研究將車道的擁塞情況融入狀態(tài)空間,提升對擁堵特征的有效學(xué)習(xí)[21-22]。車道擁堵可以定義為擁堵指標(biāo)(0表示不擁堵,1表示擁堵)或者量化的擁堵程度。
除了基于特征的值向量之外,近年來RL驅(qū)動的信號控制算法呈現(xiàn)出愈發(fā)復(fù)雜的狀態(tài)空間趨勢,典型代表是用圖像作為狀態(tài)的元素之一,期望更加全面的描述交通狀況,通常用類似圖像的狀態(tài)格式進(jìn)行表示[13-14,23],稱為離散流量狀態(tài)編碼(DTSE)。Mousavi等[23]、Garg等[24]認(rèn)為原始 RGB 圖像也可作為一種狀態(tài)表示方法,遵循與原始DQN[9]相同的處理方法。此外,也有研究基于交叉口的動態(tài)圖像提取車輛的位置、速度及混合加速度等信息,并結(jié)合信號相位組合形成多樣化狀態(tài)圖像[24-27]。
如此高維的學(xué)習(xí)通常需要大量的訓(xùn)練樣本,意味著訓(xùn)練智能體需要很長的時間。然而,高維數(shù)據(jù)下的智能體很難從狀態(tài)表示中提取有用信息,過長時間的學(xué)習(xí)不一定帶來性能提升。
2.2.2 獎勵設(shè)計
深度強(qiáng)化學(xué)習(xí)中的回報為一標(biāo)量值,是速度、延誤等交通數(shù)參數(shù)的加權(quán)值。從區(qū)域整體角度考慮,所有車輛的行駛時間最小化通常被選做信號控制的優(yōu)化目標(biāo),但卻很難直接作為獎勵參數(shù),其原因如下:1.車輛的行駛時間不僅受信號影響,還受其他因素的制約,如車輛的自由流速度等。2.當(dāng)信號控制器無法感知車輛目的地信息時,優(yōu)化網(wǎng)絡(luò)中所有車輛的行駛時間將變得異常困難。為此,獎勵函數(shù)通常被定義為排隊長度[13,28-29]、等待時長[13,30]、累積延誤[31]、速度[19]、車輛等待數(shù)[14]、通行量[17,32]、相位變化頻數(shù)[14]、事故發(fā)生數(shù)[13-14]和背壓系數(shù)[33]等部分或全部因素的調(diào)和加權(quán)值。
2.2.3 動作方案設(shè)計
強(qiáng)化學(xué)習(xí)算法在接收狀態(tài)信息后從所有可能的動作方案中選取一個最佳動作并加以執(zhí)行;采取的動作對強(qiáng)化學(xué)習(xí)的性能和效果有著決定性影響。依據(jù)相位相序切換機(jī)制的不同,最常見的動作優(yōu)化策略可分為自適應(yīng)式和固定順序式兩類。前者依據(jù)狀態(tài)變化從所有可能的動作方案中挑選最佳動作[34-36],后者先將相位相序按照一定結(jié)構(gòu)進(jìn)行排序,然后將優(yōu)化問題轉(zhuǎn)化為當(dāng)前綠燈否切換至下一相位的決策問題[14,16-17]。
此外,亦有學(xué)者以周期時長為基本優(yōu)化單位,在固定周期時長的前提下,同步優(yōu)化單周期內(nèi)所有相位階段的持續(xù)時間[18-19]。為減少交通狀態(tài)隨機(jī)擾動帶來方案的短時劇烈波動,可首先從歷史方案數(shù)據(jù)庫中篩選動作的候選持續(xù)時間,進(jìn)而通過環(huán)境、方案與回報的學(xué)習(xí)建立狀態(tài)與候選方案的匹配關(guān)系。
深度神經(jīng)網(wǎng)絡(luò)是DRL網(wǎng)絡(luò)中的重要組成部分,本小節(jié)對其進(jìn)行歸納總結(jié)。多層感知器,即標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)模型[37],是經(jīng)典的數(shù)據(jù)挖掘工具。由于交通控制的狀態(tài)空間包含圖像信息,因此需要采用包含核濾波器的多層感知器即卷積神經(jīng)網(wǎng)絡(luò)(CNN)[10];CNN一般由卷積層,匯聚層和全連接層組成,具有局部區(qū)域連接、權(quán)值共享、降采樣的結(jié)構(gòu)特點(diǎn)。然而,信號控制問題中的狀態(tài)空間維度很高,且圖像復(fù)雜,許多學(xué)者從均衡效率和功能的角度進(jìn)行了大量探索[38]。
交通流量及信號方案均為時序數(shù)據(jù),本身有很強(qiáng)的時間關(guān)聯(lián)性,將遞歸神經(jīng)網(wǎng)絡(luò)RNN融入基于DRL的信號控制中可以更好的挖掘信號方案之間的時序變化特征[39-41],減少因交通狀態(tài)隨機(jī)短時急劇波動而帶來信號方案的失穩(wěn)性[42-43]。此外,自動編碼器可以在低維子空間中智能學(xué)習(xí)高維輸入數(shù)據(jù)的編碼,并通過解碼重建輸入,自動清除輸入數(shù)據(jù)上的噪聲干擾,提高信號方案的魯棒性[44-45]。推薦對深度神經(jīng)網(wǎng)絡(luò)感興趣的讀者閱讀Alom等[46]的研究成果。
本節(jié)將重點(diǎn)介紹驗證信號控制策略性能的實(shí)驗設(shè)置:仿真軟件和仿真環(huán)境。
2.4.1 仿真軟件
信號控制策略的部署和測試成本高,勞動強(qiáng)度大。因此,在實(shí)地測試之前,利用交通仿真軟件模擬潛在應(yīng)用效果是一種有效的替代方案。信號控制的模擬往往涉及大量異構(gòu)場景,需要考慮車輛環(huán)境中一些特定的移動模型,包括車輛跟馳模型、換道模型和路徑選擇模型等。由于移動模型對仿真結(jié)果的影響很大,因此這些模型參數(shù)的設(shè)置必須盡可能接近真實(shí)情況。最早用于DRL的交通仿真軟件是基于Java開發(fā)的Green Light District(GLD)模擬器[47],可以很好地滿足車輛導(dǎo)航與信號控制的協(xié)同學(xué)習(xí)等需求。為適應(yīng)未來自動駕駛的迫切需求,德克薩斯大學(xué)奧斯汀分校開發(fā)了用于車輛混行情況下的The AutonomousIntersectionManagement(AIM)軟件[15];該軟件支持車輛導(dǎo)航、加速和減速等行為,并包含車輛尺寸在內(nèi)的微觀細(xì)節(jié)。目前最為流行的開源仿真軟件為Simulation Urban Mobility(SUMO)[48];該軟件使用Python與環(huán)境進(jìn)行交互,并允許用戶通過流量控制接口庫,模擬不同的交通對象,包括小汽車、公交車和行人,其仿真環(huán)境示例如圖4所示。同時,SUMO還允許從OpenStreetMap中導(dǎo)入真實(shí)的道路網(wǎng)絡(luò),可在網(wǎng)絡(luò)的任意位置設(shè)置駛?cè)腭傠x模塊。SUMO還支持其他高級計算框架,包括C++、JAVA等,可以快速適配各種應(yīng)用場景。在SUMO 的基礎(chǔ)上,CityFlow[49]針對大規(guī)模城市交通場景的MARL做了更好的適配,能夠多線程模擬城市級別的交通網(wǎng)絡(luò)運(yùn)行,大幅提升了仿真速率。其他還有一些仿真軟件如 AIMSUN[50]、Paramics[51]和VISSIM[52]等也可以支撐DRL下的信號控制優(yōu)化。
圖4 SUMO交通仿真模擬圖
交通系統(tǒng)是個復(fù)雜的動態(tài)系統(tǒng),且基于DRL的信號控制策略需要不斷與環(huán)境交互并實(shí)時作出決策,因此面向DRL的交通仿真軟件應(yīng)當(dāng)具備以下的條件:(1)可以結(jié)合二維或三維模型,真實(shí)且直觀地完成對于真實(shí)道路網(wǎng)絡(luò)的精細(xì)化模擬。(2)擁有軟件開發(fā)環(huán)境或編程接口,允許用戶通過C、C++、JAVA、Python等編程語言調(diào)用或控制對應(yīng)的交通對象,為信號機(jī)等智能交通設(shè)備等在環(huán)運(yùn)行提供可能性。(3)具有良好的數(shù)據(jù)處理和圖表可視化能力,并提供并行運(yùn)算功能,滿足大規(guī)模城市路網(wǎng)模擬需求。
2.4.2 仿真環(huán)境
仿真環(huán)境主要包括兩個層面,一是路網(wǎng)拓?fù)浣Y(jié)構(gòu),二是適配于生成路網(wǎng)的交通流數(shù)據(jù)集。
路網(wǎng)拓?fù)浣Y(jié)構(gòu)可表示為有向圖,其中節(jié)點(diǎn)代表交叉口,邊代表道路。大部分軟件采用文本格式的數(shù)據(jù)來描述諸如節(jié)點(diǎn)、路段等路網(wǎng)信息,也有如VISSIM、SUMO等少數(shù)軟件支持圖形輸入界面。路網(wǎng)節(jié)點(diǎn)的規(guī)模一般支持幾十個到上百個之間。但由于現(xiàn)實(shí)道路所要考慮的因素非常復(fù)雜,如車道位置、形狀和限速等,目前大部分研究均使用簡化版的人工模擬路網(wǎng)[19,53];部分使用真實(shí)路網(wǎng)的研究也會忽略如行人過街等過于復(fù)雜的因素[13,33]。因此,目前的軟件仿真與實(shí)地驗證還存在著不小差距。
在流量設(shè)置方面,對于車輛的配置有兩種普遍的方法:一種是基于輸入的交通流和轉(zhuǎn)向比例,該方法的車輛按照交通流的需求隨機(jī)分布在路網(wǎng)。另一種是基于OD和路徑選擇,車輛在OD之間被分配了固定的路徑。但上述兩種方案缺少對動態(tài)路徑選擇行為的考慮,尤其缺乏突發(fā)事件下出行者對路徑選擇行為的描述,致使仿真軟件很難真實(shí)再現(xiàn)實(shí)際交通流運(yùn)行。
在仿真環(huán)境運(yùn)行過程中,目前的主要軟件均支持動畫演示輸出和數(shù)據(jù)庫格式輸出,并可在運(yùn)行過程中通過信息接口實(shí)時獲取所需的交通信息,如行駛速度、行駛時間、擁堵情況、道路排隊長度、車輛沖突次數(shù)、尾氣排放量等。在將獲取的交通信息進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理的基礎(chǔ)上,根據(jù)DRL的優(yōu)化目標(biāo)進(jìn)行相應(yīng)的狀態(tài)和獎勵設(shè)計。
盡管研究者對基于DRL的交通信號優(yōu)化產(chǎn)生了極大的興趣并做出了很多努力,且到目前為止也取得了卓有成效的研究成果,但仍有許多重大挑戰(zhàn)和亟待解決的技術(shù)問題。
目前基于DRL的信號控制技術(shù)均基于仿真軟件,對一些安全性要素進(jìn)行了簡化處理。例如在回報函數(shù)中,事故等安全要素通常定義為一個很大的負(fù)值,但這種定義無法避免事故;同時,過大的負(fù)回報會導(dǎo)致學(xué)習(xí)模型無限傾向于局部方案,降低方案實(shí)施效果。因此,如何將風(fēng)險管理引入到目前的DRL體系中,使得DRL在物理環(huán)境中具有可接受的安全性是未來研究的一個重要方向。
不同的路網(wǎng)和交通流量條件往往會對最終的實(shí)驗結(jié)果帶來巨大的差異,然而目前在基于DRL的信號控制領(lǐng)域缺乏被行業(yè)廣泛認(rèn)可的標(biāo)準(zhǔn)環(huán)境和公開數(shù)據(jù)集。同時,目前許多基于DRL的方法缺乏與韋伯斯特、背壓等傳統(tǒng)的交通控制方法[54]的比較,在一定程度上減弱了基于DRL的方法可信度。因此,如何構(gòu)建一個標(biāo)準(zhǔn)的公開仿真平臺是未來研究的一個重要方向,該平臺需要滿足在路網(wǎng)層面接近真實(shí)交通物理環(huán)境,仿真交通流情況其數(shù)據(jù)集滿足城市交通流變化規(guī)律,同時提供包含傳統(tǒng)交通控制和基于DRL的信號控制的基準(zhǔn)方法。
現(xiàn)有研究普遍將獎勵定義為多個因素的線性加權(quán)組合,存在如下兩點(diǎn)問題:一是這些分布式的獎勵要素在交通流理論中并沒有直接聯(lián)系,不能保證最大限度的獎勵等同于網(wǎng)絡(luò)運(yùn)行效率最大化;二是調(diào)整這些要素的權(quán)重系數(shù)相當(dāng)棘手,且交通流運(yùn)行結(jié)果對這些參數(shù)高度敏感。雖然所有獎勵因素都與路網(wǎng)狀態(tài)及交通流運(yùn)行態(tài)勢有關(guān),但不同的加權(quán)組合會產(chǎn)生顯著性差異的結(jié)果。不幸的是,目前還沒有精確選擇這些權(quán)重基準(zhǔn)的方法或者策略。
狀態(tài)特征的細(xì)節(jié)優(yōu)化如同獎勵設(shè)計一樣,非常顯著的影響方案結(jié)果。在目前基于DRL的信號控制中,對狀態(tài)的數(shù)據(jù)格式?jīng)]有統(tǒng)一的規(guī)范,高度依賴于設(shè)備的原始輸出,帶來很大的數(shù)據(jù)處理工作,尤其是圖像類等高維數(shù)據(jù)的處理工作。因此,研究者需要關(guān)注不同硬件系統(tǒng)(如攝像機(jī)、環(huán)路檢測器、微波傳感器等)的數(shù)據(jù)形式,在數(shù)據(jù)部分可測和噪聲數(shù)據(jù)影響下設(shè)計狀態(tài)空間的表達(dá)方法。
同時,由于交通狀態(tài)特征高度依賴于傳感器、控制器等硬件的功能集成,如何及時識別偶發(fā)性設(shè)備故障、容忍某些部件故障、保障系統(tǒng)的魯棒性和穩(wěn)定性是另一個關(guān)鍵問題。
隨著自動駕駛與網(wǎng)聯(lián)車技術(shù)的不斷發(fā)展,車車之間的通信被引入智能交通系統(tǒng)。在此背景下需要針對信號燈、自動駕駛車輛等多個平臺采用統(tǒng)一的管理和自適應(yīng)控制策略,探索更加高效的車輛和信號燈協(xié)同模式;未來的交通控制可能會呈現(xiàn)如圖5所示的復(fù)雜趨勢。
圖5 RL交通信號控制流程圖
本文概述了基于深度強(qiáng)化學(xué)習(xí)的交通信號控制技術(shù),剖析了存在的主要問題及挑戰(zhàn)。首先以一些成熟的信號控制技術(shù)為引入,簡要介紹了強(qiáng)化學(xué)習(xí)的相關(guān)基本概念及深度強(qiáng)化學(xué)習(xí)技術(shù)。此外,以交通信號控制為需求牽引,探討了信號控制下的深度強(qiáng)化學(xué)習(xí)狀態(tài)空間、回報函數(shù)、動作空間等智能體單元的設(shè)計過程以及仿真實(shí)驗流程。最后,簡要討論了基于深度強(qiáng)化學(xué)習(xí)的交通信號控制方法所面臨的一些主要問題與挑戰(zhàn)。希望本文可為信號控制領(lǐng)域的研究人員和技術(shù)人員提供一定的參考。