胡小光 胡曉杰
摘 要:本文提出多通道的3D卷積預(yù)測(cè)網(wǎng)絡(luò)結(jié)合Double-DQN的配時(shí)控制策略,并將其與Deep-Q-learning、Q-learning進(jìn)行對(duì)比分析,進(jìn)行仿真實(shí)驗(yàn)。結(jié)果表明,多通道的3D卷積預(yù)測(cè)網(wǎng)絡(luò)結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning。
關(guān)鍵詞:智能交通信號(hào)配時(shí);3D卷積;深度強(qiáng)化學(xué)習(xí);多通道矩陣;Double-DQN
中圖分類號(hào):U491.54文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-5168(2021)16-0018-04
Abstract: In this paper, a multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy was proposed, which was compared with Deep-Q-Learning and Q-Learning. The results show that the control strategy of multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy is obviously better than Q-learning and Deep-Q-learning.
Keywords: traffic signal timing control;3D convolution neural network;deep reinforcement learning;multilevel network;Double-DQN
智能交通信號(hào)配時(shí)是一種緩解交通擁堵的有效手段。智能交通系統(tǒng)(Intelligent Transportation System,ITS)產(chǎn)生于20世紀(jì)60年代末70年代初。由于交通狀況是隨機(jī)的,可變性以及不確定性強(qiáng),因此,很難訓(xùn)練出適合的模型對(duì)交通信號(hào)進(jìn)行控制。強(qiáng)化學(xué)習(xí)的常見(jiàn)模型是標(biāo)準(zhǔn)的馬爾可夫決策過(guò)程(Markov Decision Process,MDP)。強(qiáng)化學(xué)習(xí)是一類重要的機(jī)器學(xué)習(xí)技術(shù),它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)最優(yōu)的控制決策[1]。交通信號(hào)控制領(lǐng)域很早就開(kāi)始運(yùn)用強(qiáng)化學(xué)習(xí)方法來(lái)解決交通控制問(wèn)題。隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的發(fā)展,它們被結(jié)合為深度強(qiáng)化學(xué)習(xí)用來(lái)估計(jì)[Q]值以代替復(fù)雜的[Q]值表。DeepMind團(tuán)隊(duì)將最新的AlphaGo論文發(fā)布在Nature上,使得深度強(qiáng)化學(xué)習(xí)算法受到多數(shù)研究人員的關(guān)注[2]。隨著交通路網(wǎng)的擴(kuò)大,道路信息變得復(fù)雜,對(duì)智能信號(hào)控制模型進(jìn)行優(yōu)化是探索智能交通的必經(jīng)之路。
1 控制模型
1.1 相位
相位是對(duì)交通信號(hào)控制的簡(jiǎn)單描述。一般情況下,相位越大,交通越容易擁堵。相位一代表南北方向允許通行(南北方向綠燈),東西方向等待(東西方向紅燈);相位二則與相位一相反。圖1是一個(gè)三岔口和一個(gè)四岔口的相位模型的相位一(三岔口可以右轉(zhuǎn)、四岔口南北方向綠燈)。信號(hào)時(shí)長(zhǎng)[g]是固定的,指相位持續(xù)的時(shí)間。當(dāng)前,相位信號(hào)時(shí)長(zhǎng)[g]結(jié)束后下一個(gè)相位自適應(yīng)選擇合適相位執(zhí)行下個(gè)信號(hào)時(shí)長(zhǎng)[g]。信號(hào)時(shí)長(zhǎng)[g]可以根據(jù)不同大小的仿真交通地圖更改,從而得到合適的信號(hào)時(shí)長(zhǎng)[g]。
1.2 強(qiáng)化學(xué)習(xí)控制模型
強(qiáng)化學(xué)習(xí)控制模型如圖2所示。交通燈控制智能體(Agent)通過(guò)實(shí)時(shí)地與環(huán)境進(jìn)行交互,在每個(gè)時(shí)間步[t],控制智能體(Agent)獲取到路網(wǎng)的狀態(tài)[St]和獎(jiǎng)勵(lì)[r],同時(shí)返回給路網(wǎng)一個(gè)最優(yōu)控制命令。
1.3 Double-DQN
在智能交通信號(hào)配時(shí)中,隨著時(shí)間的推動(dòng),Q-learning中建立復(fù)雜的[Q]值表變得尤其煩瑣。因此,需要訓(xùn)練一個(gè)價(jià)值神經(jīng)網(wǎng)絡(luò)Vnet來(lái)實(shí)時(shí)計(jì)算出預(yù)測(cè)[Q]值,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),路網(wǎng)的狀態(tài)[St]、動(dòng)作[a]和獎(jiǎng)勵(lì)[r]作為輸入。
為解決DQN中[Q]值過(guò)高估計(jì)的問(wèn)題,在Double-DQN里,不再是直接在目標(biāo)Q網(wǎng)絡(luò)里找各個(gè)動(dòng)作中最大值,而是先在當(dāng)前Q網(wǎng)絡(luò)中找出最大[Q]值對(duì)應(yīng)的動(dòng)作,然后利用這個(gè)選擇出來(lái)的動(dòng)作amax(S′j,w)在目標(biāo)網(wǎng)絡(luò)里面計(jì)算目標(biāo)[Q]值。研究結(jié)果表明:Q-learning、DQN兩種算法[3]在應(yīng)用過(guò)程中都有可能得到不符合實(shí)際情況的高動(dòng)作值。Double-DQN算法通過(guò)下列基本原理解決這一問(wèn)題:不再是直接在目標(biāo)Q網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中最大[Q]值,而是先在當(dāng)前Q網(wǎng)絡(luò)中先找出最大[Q]值對(duì)應(yīng)的動(dòng)作。
2 基于Double-DQN的交通信號(hào)控制算法
2.1 建立多個(gè)交叉感受野的路網(wǎng)模型
卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺(jué)機(jī)制構(gòu)建,可以進(jìn)行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計(jì)算量對(duì)格點(diǎn)化特征,例如,像素和音頻進(jìn)行學(xué)習(xí)、有穩(wěn)定的效果且對(duì)數(shù)據(jù)沒(méi)有額外的特征工程要求。本研究采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)路網(wǎng)進(jìn)行特征提取[4]。
因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸入是矩陣,所以研究者把收集到的路網(wǎng)狀態(tài)信息轉(zhuǎn)變?yōu)榫仃嚨男问剑鳛轭A(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的輸入,在收集道路信息時(shí)按照空間順序進(jìn)行移動(dòng)來(lái)收集道路特征。如圖3所示,將路網(wǎng)劃分成多個(gè)相互重疊的區(qū)域,不僅保證了不同區(qū)域之間的關(guān)聯(lián)性,并且保證了對(duì)路網(wǎng)感知的全局性。
2.2 路網(wǎng)狀態(tài)獲取
根據(jù)路網(wǎng)道路的車輛密度和車輛平均通過(guò)速度來(lái)刻畫(huà)狀態(tài)[St]。先將整個(gè)路網(wǎng)分成若干個(gè)相互重疊的區(qū)域,按照每個(gè)區(qū)域?qū)β肪W(wǎng)進(jìn)行遍歷和規(guī)范化,規(guī)范化后得到多通道的矩陣[C]。
2.3 車輛密度和車輛平均行駛速度計(jì)算
2.3.1 道路車輛密度[d]計(jì)算。假定在交通路網(wǎng)中各邊道路共計(jì)[q]條,各車道長(zhǎng)[long],有車輛[m]臺(tái),汽車長(zhǎng)設(shè)定為[vehicle_long],則路網(wǎng)車輛密度[d]計(jì)算公式為:
2.3.2 車輛平均行駛速度[ave_v]計(jì)算。假定在某一條道路上,道路長(zhǎng)度為[long],[tm]時(shí)間段內(nèi)通過(guò)此道路的車輛數(shù)為[m]臺(tái),則在時(shí)間段[tm]內(nèi)車輛的平均行駛速度計(jì)算公式為:
2.4 多通道的3D卷積預(yù)測(cè)網(wǎng)絡(luò)結(jié)合Double-DQN
3D卷積神經(jīng)網(wǎng)絡(luò)的輸入是通過(guò)堆疊多個(gè)連續(xù)的幀組成一個(gè)立方體,然后在立方體中運(yùn)用3D卷積核。與2D卷積神經(jīng)網(wǎng)絡(luò)相比,3D卷積神經(jīng)網(wǎng)絡(luò)更適合用于對(duì)時(shí)空特征的提取方面,這主要是因?yàn)?D卷積神經(jīng)網(wǎng)絡(luò)模型能更有效地建立時(shí)間相關(guān)數(shù)據(jù)模型[5]。本研究在收集路網(wǎng)狀態(tài)信息時(shí),收集3個(gè)連續(xù)的時(shí)間片段,且每一個(gè)時(shí)間片段均對(duì)路網(wǎng)進(jìn)行寬度優(yōu)先遍歷,分別收集每條道路中的四個(gè)交通狀態(tài)特征:流出車輛的密度、流入車輛的密度、流入道路車輛通過(guò)速度、流出道路車輛通過(guò)速度。這樣就可以得到12個(gè)道路狀態(tài)矩陣,如圖4所示,從而作為預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的輸入,在融合時(shí)間特征的基礎(chǔ)上收集多個(gè)通道的道路狀態(tài)特征,為神經(jīng)網(wǎng)絡(luò)的輸入做了重要的數(shù)據(jù)貢獻(xiàn)。
2.5 Inception模型在預(yù)測(cè)網(wǎng)絡(luò)中的應(yīng)用
受Inception V1、V2模型啟發(fā),在3D卷積神經(jīng)網(wǎng)絡(luò)中引進(jìn)了Inception V1、V2模型,引入1×1卷積核,以降低卷積運(yùn)算量,同時(shí)增加了網(wǎng)絡(luò)層數(shù),用多個(gè)小的卷積核代替某一個(gè)或多個(gè)大的卷積核,大大節(jié)省了網(wǎng)絡(luò)訓(xùn)練參數(shù)的個(gè)數(shù)。
2.5.1 Inception V2網(wǎng)絡(luò)模型。借鑒Inception V2模型,以感受野尺寸25為例,用兩個(gè)3×3的卷積核代替之前5×5的卷積核,擁有相同的感受野,可以節(jié)省網(wǎng)絡(luò)訓(xùn)練的參數(shù)個(gè)數(shù)。
之前的訓(xùn)練參數(shù):
式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個(gè)數(shù)。
改進(jìn)后訓(xùn)練參數(shù):
式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個(gè)數(shù)。
改進(jìn)后的網(wǎng)絡(luò)訓(xùn)練參數(shù)明顯減少,網(wǎng)絡(luò)深度加深,網(wǎng)絡(luò)的非線性映射和網(wǎng)絡(luò)的擬合能力增強(qiáng)。但是,Inception V2模型的缺點(diǎn)也很明顯,由于神經(jīng)網(wǎng)絡(luò)用兩個(gè)3×3的卷積核代替之前5×5的卷積核,使得卷積運(yùn)算量變大,加入Inception V2模型后卷積運(yùn)算量變大為3.6萬(wàn)。
2.5.2 解決預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)卷積運(yùn)算量過(guò)大問(wèn)題。為了解決因引入Inception V2模型使得卷積運(yùn)算量變大這一問(wèn)題,考慮在預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)中加入1×1卷積核。1×1卷積核有跨通道特征整合、特征通道的升維降維、降低卷積運(yùn)算量的作用。在本試驗(yàn)中以感受野尺寸25為例,在引入Inception V2模型的基礎(chǔ)上每?jī)蓪由窠?jīng)網(wǎng)絡(luò)中間加入6個(gè)1×1卷積核后使得原來(lái)的卷計(jì)算量由3.6萬(wàn)降低為2.5萬(wàn),在加深了網(wǎng)絡(luò)深度的基礎(chǔ)上盡可能地降低卷積運(yùn)算量。預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)如表1所示,共有8層神經(jīng)網(wǎng)絡(luò)(Conv1—Conv8)。
3 仿真試驗(yàn)
3.1 SUMO仿真試驗(yàn)
為了對(duì)Deep-Q-learning、Q-learning以及多通道的3D卷積結(jié)合Double-DQN配時(shí)控制策略性能進(jìn)行對(duì)比,研究者將三種控制策略同時(shí)分配在城市交通仿真系統(tǒng)(Simulation of Urban Mobility,SUMO)中,用SUMO系統(tǒng)模擬交通車輛的行駛,并記錄需要進(jìn)行對(duì)比的性能指標(biāo),從而得出結(jié)論。仿真試驗(yàn)的路網(wǎng)設(shè)定交叉口總計(jì)160個(gè),共有123個(gè)交叉口有紅綠燈,15個(gè)出車點(diǎn),15個(gè)收車點(diǎn)。試驗(yàn)分為2.5 s和5 s兩個(gè)流量級(jí)別,0 s自起點(diǎn)出發(fā),經(jīng)過(guò)特定間隔依序出發(fā)去向終點(diǎn),出車總時(shí)長(zhǎng)20 000 s。
3.2 仿真試驗(yàn)結(jié)果分析
本試驗(yàn)使用兩個(gè)指標(biāo)用來(lái)衡量Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的性能。其中,指標(biāo)一是車輛在10 s內(nèi)的平均等待時(shí)間,指標(biāo)二是當(dāng)前時(shí)刻全路網(wǎng)中的車輛總數(shù),這兩個(gè)衡量指標(biāo)都是越小代表控制策略性能越優(yōu)秀。圖6是在SUMO仿真環(huán)境下設(shè)置1、2級(jí)流量,Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的兩種性能指標(biāo)結(jié)果分析圖。
根據(jù)試驗(yàn)結(jié)果分析圖可知,多通道的3D卷積結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning這兩種控制策略。
參考文獻(xiàn):
[1]SUTTON R S,BATO A G.Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks,1998(5):1054.
[2]高思琦.基于深度強(qiáng)化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究[D].福州:福建工程學(xué)院,2019.
[3]MNIH V,KAVUKCUOGLU K, SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015(7540):529-533.
[4]尹璐.基于深度強(qiáng)化學(xué)習(xí)的交通燈配時(shí)優(yōu)化技術(shù)的研究[D].沈陽(yáng):沈陽(yáng)理工大學(xué),2020.
[5]DU T, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]//International Conference on Computer Vision. IEEE Computer Society,2015:4489-4497.