基于深度強化學(xué)習的道路信號燈控制算法

2021-11-19 08:17:38王偉光

計算機仿真 2021年10期

高航，王偉光

(1.濰坊醫(yī)學(xué)院臨床醫(yī)學(xué)院，山東濰坊 261053；2.山東管理學(xué)院智能工程學(xué)院，山東濟南 250037)

1 引言

道路十字路口是由進出車輛、十字路口、道路以及信號燈組成。其中，道路信號燈控制器使用相位，即表示允許特定動作信號燈的組合，來控制十字路口的車輛通行。基本上，一個道路信號控制策略可以解耦成任意給定時間的兩個連續(xù)決策，即下一個階段狀態(tài)和狀態(tài)持續(xù)時間。為此，各類策略與模型被提出來。其中，最簡單和最普遍的一種是固定時間、基于周期的道路信號控制模式，即通過一定的順序周期序顯示階段狀態(tài)，各周期中的每個階段都設(shè)以固定的、可能唯一的持續(xù)時間。但在實際應(yīng)用過程中，固定時間、基于周期的道路信號控制模式在遇到車流量大、早晚高峰便變得不適用，經(jīng)常處于半癱瘓狀態(tài)。

為此，需要一種道路信號燈自適應(yīng)控制，具備無環(huán)相位序列和動態(tài)相位持續(xù)時間，以適應(yīng)交十字路口復(fù)雜的交通狀況。各種各樣的方法與技術(shù)隨之被提出，例如文獻[1]針對傳統(tǒng)分布式自適應(yīng)交通信號控制協(xié)調(diào)效率受限，并且存在維數(shù)災(zāi)難問題，建立了城市區(qū)域交通信號控制系統(tǒng)模型，將其優(yōu)化問題建模為局部交叉口交通信號博弈協(xié)調(diào)控制，提出了一種基于交叉口交通信號控制agent局部信息博弈交互的學(xué)習算法，取得了更好的交通信號燈控制效果。文獻[2]針對目前道路信號控制中NS-BML模型只考慮現(xiàn)在瞬時密度而忽略歷史密度的問題，提出了一種記憶密度策略，從長時記憶密度策略和短時記憶密度策略兩個角度分析了該策略對曼哈頓式網(wǎng)絡(luò)的影響，從而有助于提高道路信號燈控制系統(tǒng)的運行效率。文獻[3]為解決城市交通路口擁堵問題，結(jié)合PFI車流運行特征，給出了信號控制策略，建立了優(yōu)化模型，明顯提升十字路口的運行效率。文獻[4]針對城市交通擁堵所帶來的嚴重危害性，基于平面交叉路口交通燈切換時間相對固定，惡劣天氣或發(fā)生交通事故時路口經(jīng)常發(fā)生交通堵塞的實際情況，提出了一種平面交叉口交通擁堵多方向交通燈運行時間自適應(yīng)算法，有助于提高車輛的通行效率。

為了滿足日益增長的交通需求，不僅需要通過擴大交通基礎(chǔ)設(shè)施來擴大交通能力，更重要的是優(yōu)化新交通工具的車隊或交通控制和管理，以提高交通能力。隨著互聯(lián)網(wǎng)技術(shù)和人工智能的快速發(fā)展，交通信號燈的智能管理已成為智能交通的熱點問題。

2 道路信號燈控制情況介紹

2.1 交通控制的基本參數(shù)

1)周期是指交通交叉口信號燈各階段輪流運行一次所需的時間，即從一個階段到下一個階段所需的時間，定義的符號為C[5-6]。信號周期是影響城市道路通行能力的關(guān)鍵因素，通常與道路流量有關(guān)。

2)相位

交叉路口的車輛經(jīng)常發(fā)生沖突，必須根據(jù)某些規(guī)則通過交叉路口。交通信號燈在一個或多個方向上引導(dǎo)交通流而不發(fā)生沖突。

3)綠信比

在一個信號周期內(nèi)，某相位通行時間(有效綠燈長度)與周期時間的比值就是綠信比，用λ表示如下式，其中周期長度為C，tGi第i的有效綠燈時間。

(1)

合理的綠信比是確保安全高效交通流的重要因素[7]。信號相位的綠信比越大，該階段的交通流效率越高，但會影響其他階段的交通流。因此，有必要平衡各相位的綠信比。

2.2 交通信號控制評估指標

交通標志管理評估指數(shù)旨在量化交通效率，而交通標志評估指數(shù)通?？芍苯佑米鹘徊婵谛盘柟芾碛媱?。為了優(yōu)化配時，選擇交叉點評估指標非常重要[8-9]。下文詳細解釋了每個指標的含義。

1)延誤

延誤是指給定時間段內(nèi)所有車輛的平均延誤，是交叉口最常用的評價指標。它反映了車輛使用過程中交通狀況、信號管理和其他干擾造成的時間浪費。

2)停車次數(shù)

當車輛通過交叉口時，由于紅燈或擁堵的影響，車輛將完全停止。車輛停得越多，產(chǎn)生的污染物質(zhì)越多，產(chǎn)生的噪音和油耗就越多，同時，道路車輛緊急停車很可能導(dǎo)致交通事故[10]。

3)通行能力

通行能力是指在實際道路條件下能夠通過車道的車輛總數(shù)。

4)旅行時間

旅行時間是指車輛通過該區(qū)域所需的時間。由于交通的動態(tài)性，車輛通過該區(qū)域所需的時間將根據(jù)實際交通狀況而變化[11-13]。例如，在路段擁堵時，車輛旅行時間很大，而在路段通行順暢時，車輛旅行時間較小。

2.3 Webster配時法

Webster配時法旨在將車輛延遲時間降至最低。它是城市交叉口最常用的信號管理方法。參見Webster配時法，主要包括車輛延遲、最佳循環(huán)時間和各階段的計時參數(shù)。

1)車輛延誤計算

Webster在1958年提出了Webster延遲模型，是世界上應(yīng)用最廣泛的手術(shù)延遲模型。將車輛延誤分為排隊延誤、常數(shù)延誤和隨機延誤。各路口車輛延誤表達式如下：

(2)

其中C是信號周期，綠信比入，當前相位的流量q，車道飽和度x。

2)最佳周期的計算

在具有n個相位的交叉口，根據(jù)公式(2)得到總的交叉口車輛延誤D的表達式為:

(3)

其中qi為第i相位的車流量，di是第i個相位的平均車輛延誤，要使得總的車輛延誤最小，因此將車輛延誤函數(shù)D對周期長度C求偏導(dǎo)，并令偏導(dǎo)數(shù)等于0，如下式:

(4)

然后經(jīng)過一系列的等價代換、簡化近似計算等復(fù)雜的數(shù)學(xué)推導(dǎo)，求得最佳信號周期CO如公式(5):

(5)

在最佳周期公式中，L是信號周期內(nèi)的總損失時間，計算公式如(6)，其中l(wèi)是相位信號的損失時間，信號的相位數(shù)是n，周期中的全紅時間AR.

L=nl+AR

(6)

而Y是各相位的臨界車道的交通流量比之和，如下式:

(7)

在每個信號相位中，都有一些道路可以通行。在這些道路上，臨界帶的交通流量比定義為臨界帶內(nèi)的流量與道路可通過的最大流量(飽和流量)之比。

3 強化學(xué)習理論模型

強化學(xué)習是人工智能的重要組成部分。它被認為是實現(xiàn)類人智能的關(guān)鍵因素，并吸引了許多著名研究人員和企業(yè)的注意。

如圖1所示，在強化學(xué)習框架中，有四個關(guān)鍵要素，其中主體是決策主體，狀態(tài)是主體的環(huán)境抽象，獎勵用于衡量當前戰(zhàn)略的質(zhì)量，在確認的情況下，代理首先監(jiān)控環(huán)境，從狀態(tài)接收信息，然后根據(jù)觀察到的信息(狀態(tài))給出決策(操作)；采取環(huán)境行動后，環(huán)境狀態(tài)發(fā)生變化，并為代理人的活動提供反饋(報酬)；代理人根據(jù)報酬值改變策略[14-15]。當保費為正值時，表示代理選擇的行動是正確的，并增加了選擇活動的可能性。相反，這表明代理人的決定是錯誤的，必須降低采取行動的可能性。學(xué)習旨在最大化累積獎勵，找到狀態(tài)知識和執(zhí)行活動的最佳映射，即學(xué)習最佳策略。與受控學(xué)習方法不同，驗證學(xué)習方法不需要手動記錄信息，而是基于智能體與環(huán)境交互所產(chǎn)生的數(shù)據(jù)，同時提供信息和培訓(xùn)，直到學(xué)習到最佳策略。

圖1 強化學(xué)習框架

4 基于PPO的單交叉口信號優(yōu)化控制算法設(shè)計

4.1 單交叉口信號控制的強化學(xué)習模型

可對單路口信號管理進行建模，以強化學(xué)習問題。如圖2所示，PPO算法是交叉口處的代理。代理在交叉口獲得道路空間，然后做出決策，即生成信號管理系統(tǒng)，并繼續(xù)優(yōu)化代理的決策能力，表示做出決策后將返還獎勵[16]。信號管理系統(tǒng)已經(jīng)實施。現(xiàn)在將詳細實施加強單路口信號管理網(wǎng)絡(luò)結(jié)構(gòu)的狀態(tài)、動作、獎勵功能和學(xué)習算法。

圖2 基于強化學(xué)習的單交叉口信號控制[11]

4.1.1 狀態(tài)空間

由于傳感器技術(shù)的發(fā)展，目前的城市道路上安裝了環(huán)路傳感器，可以實時獲取道路上的交通流模式。傳感器位于每個接入帶的入口和出口，以實時收集交通信息并將其加載到交叉口的控制中心。道路上的車輛數(shù)量和排隊長度。圖4交叉口有八條通道，該區(qū)域共設(shè)置了16個傳感器位置。因此，空間被定義為使用16個傳感器記錄的車輛平均速度，16個傳感器和8條道路登記的車輛數(shù)量。車輛隊列的長度和條件為40維向量。

4.1.2 動作空間

在交叉路口的智能體需要根據(jù)當前道路的狀態(tài)，去設(shè)計合適的相位和相位通行時間來指導(dǎo)車輛通行，從而最大化路口的通行能力。在傳統(tǒng)的信號控制方法中，交通燈執(zhí)行的相位順序是固定的，如依次執(zhí)行1，2，3，4相位，只調(diào)整執(zhí)行各個相位的的時間。固定相位順序的方法不能靈活的應(yīng)對變化的車流，而本文提出了一種不加相位限制的控制方法，各個相位之間可以任意切換。中本文的算法中將行動空間定義為交叉口的四個綠燈相位，在每一個時間間隔ΔT，智能體根據(jù)當前的狀態(tài)選擇一個動作，也就是一個信號相位。而且在信號控制的過程中我們考慮了不同相位切換時的安全性，需要用黃燈警示車輛。如果當前相位與下一執(zhí)行相位不同，則先執(zhí)行黃燈相位Ty秒(本文中設(shè)置的是3秒)，警示車輛交通燈將要切換相位，然后執(zhí)行選擇的相位，持續(xù)ΔT-Ty秒，如果相位不改變則繼續(xù)執(zhí)行當前相位ΔT秒。

4.1.3 獎勵函數(shù)

獎勵函數(shù)是評估上一階段在交叉口實施的系統(tǒng)的質(zhì)量。根據(jù)返回的獎勵值，智能體不斷增強決策能力。車輛等待時間越短，停車時間和駕駛時間越短，這就是為什么我們要設(shè)置溢價，即移動到選擇操作前后道路的累計等待時間。獎勵函數(shù)根據(jù)以下等式定義：

rt=Wt-1-Wt

(8)

(9)

4.1.4 PPO模型的網(wǎng)絡(luò)結(jié)構(gòu)

在本文中，單交叉口信號管理的PPO模型由兩個完全連接的神經(jīng)網(wǎng)絡(luò)表示，兩個神經(jīng)網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu)：參與者和關(guān)鍵。參與者和關(guān)鍵神經(jīng)網(wǎng)絡(luò)輸入是由交通模式數(shù)據(jù)組成的40維向量，車輛速度、車輛數(shù)量和車道長度，然后在三層上完全連接隱蔽層。三個隱藏層分別包含128、64和32個神經(jīng)元，隱藏層由Relu函數(shù)激活。對于參與者網(wǎng)絡(luò)，輸出為所有動作的概率值，因此最后一層為softmax層，輸出向量為4維，所有動作相加的概率為1；對于關(guān)鍵網(wǎng)絡(luò)，輸出是操作的分數(shù)，因此最后一層是完整的接口層，輸出向量是一維的。

4.2 基于PPO的單交叉口信號優(yōu)化控制算法

本文中設(shè)計的基于PPO的交叉口控制系統(tǒng)是一個閉環(huán)負反饋系統(tǒng)，如圖3所示。管理系統(tǒng)通過交通觀察模塊實時采集交通模式數(shù)據(jù)，然后評估交通參數(shù)，選擇下一個時段的相位系統(tǒng)，交通燈執(zhí)行相位系統(tǒng)。隨后，PPO網(wǎng)絡(luò)將根據(jù)監(jiān)控效果交替更新，這將提高智能體的決策能力。

圖3 單交叉口控制流程

本文設(shè)計了基于PPO的單交叉口信號控制算法。該設(shè)計算法可以自由改變相位，解決了信號優(yōu)化控制方法、固定周期相位序列和低工作速率綠燈時間的問題。每個階段的行程時間最短，即使在某些階段沒有車輛，也會在每個階段交替進行。為了提高相位變化期間的安全性，在算法步驟變化之前添加黃燈警告步驟。當從策略模型中獲得下一步系統(tǒng)時，它不是直接執(zhí)行的，而是評估階段系統(tǒng)是否已被修改。如果已更改，則必須先完成黃燈警告裝置，然后再實施系統(tǒng)。例如，如果第1階段已從代理處獲得三次，則第1階段將在30秒內(nèi)執(zhí)行，這樣大大提高了交叉口控制效率。

5 仿真分析

5.1 實驗平臺與仿真場景設(shè)計

5.1.1 實驗平臺

本文件中選擇的交通模擬程序為“Simulationof Urban Mobility”，簡稱為“SUMO”，是一種用于微型交通和多式聯(lián)運的開源模擬軟件。Sumo提供了一個交通控制接口，通過該接口可以實時監(jiān)控交通模擬并實現(xiàn)傳輸參數(shù)。Tra CI使用基于TCP的客戶端/服務(wù)器架構(gòu)，使用sumo模擬作為服務(wù)器，Python編寫的控制器是客戶端。

使用開源神經(jīng)框架pyfair以PPO算法的形式構(gòu)建神經(jīng)網(wǎng)絡(luò)，設(shè)計控制算法Python語言交通信號控制中心(服務(wù)器)，使用sumo simulation軟件simulation來模擬真實運行的道路網(wǎng)絡(luò)(客戶端)，并通過tra CL接口了解服務(wù)器和客戶之間的數(shù)據(jù)和命令傳輸。

5.1.2 單交叉口交通仿真場景設(shè)計

根據(jù)SUMO給出的說明，首先定義了路網(wǎng)的節(jié)點、邊緣和接口，并創(chuàng)建了路網(wǎng)的XML配置文件，打開網(wǎng)絡(luò)配置文件。每個方向有兩個入口點，一個穿過車道，另一個穿過左側(cè)車道。

本文的單交叉口仿真中用到的基本參數(shù)如下:

●道路長度:200m。

●傳感器位置:在每個入車道停車線后5m處和停車線后100m處各放置一個。

●車輛信息:車輛長度是5m，最高速度是13.9m/s，車輛之間的最小間距是2.5m，加速度是1m/s2，減速度是1m/s2。

5.2 仿真參數(shù)設(shè)置

5.2.1 路口流量設(shè)置

為了盡可能地模擬交叉口實際交通的時空特征，將交叉口劃分為四種交通流模式：低飽和、近飽和、過飽和不均勻負載模式，交通法規(guī)規(guī)定飽和流量設(shè)置為1800pcu/h，每個階段的最大飽和率之和由y確定。過飽和模式意味著Y>1；平衡負載意味著不同階段之間的流量非常高，某些方向的交通流量很高，而某些方向的交通流量則很少。

表1 四種交通流量模式設(shè)置(單位：pcu/h)

5.2.2 固定配時法相位方案和Webster配時法相位方案設(shè)置

固定時間方法意味著階段計劃輪流實施，每個階段的持續(xù)時間是固定的，與輪換的任何變化無關(guān)。在模擬中，第一階段、第二階段、第三階段和第四階段被設(shè)置為27s，各階段計劃之間的黃色燈光為3s。

Webster計時方法是使用Webster公式計算每個階段的行程時間，該公式與交通網(wǎng)絡(luò)收集的歷史交通數(shù)據(jù)相對應(yīng)。相位系統(tǒng)之間有一個黃色燈3s。根據(jù)Webster方法計算的每個流動模式的韋伯斯特階段計劃如表2所示：

表2 Webster配時法相位方案(單位：秒)

5.2.3 模型訓(xùn)練參數(shù)設(shè)置

基于PPO方法的交叉口信號優(yōu)化控制模型的訓(xùn)練參數(shù)設(shè)置如表3所示:

表3 訓(xùn)練參數(shù)設(shè)置

5.3 結(jié)果分析

5.3.1 基于強化學(xué)習單交叉信號控制效果評估

在對基于PPO模型的信號控制算法進行訓(xùn)練后，將單點信號控制的有效性與Webster方法和固定定時方法進行比較。車輛的平均停車時間和平均行程時間。圖4顯示了三種算法的控制效果比較。

如圖4(a)所示：在接近飽和、過飽和和不平衡負載的情況下，采用PPO算法的車輛在交叉口的平均等待時間最低，其次是Webster法，而不變計時法最差。PPO算法對減少交叉口車輛平均等待時間有明顯影響；在低飽和交通模式下，PPO算法的效果非常接近固定時間法，而等待時間Webster法比其他兩種方法要長得多。PPO算法與固定定時方法相似，且優(yōu)于固定定時方法。在圖4(b)停車次數(shù)效果對比中，除去不飽和流量模式，PPO算法可略微改善交叉口的平均車輛數(shù)量。在圖4(c)中，車輛行駛時間的比較與車輛平均等待時間的影響非常相似。在近飽和、過飽和和不平衡荷載條件下，PPO算法的效果優(yōu)于Webster方法，Webster方法優(yōu)于固定時間法；在低飽和模式下，PPO算法的效果接近于固定定時方法，而Webster方法消耗的車輛行駛時間最多?？筛鶕?jù)交叉口實時交通模式智能修改管理系統(tǒng)，可提高大多數(shù)交通方式的交通管理效率。當流量非常低時，Webster的優(yōu)化效果不如固定計時法，因為根據(jù)Webster公式計算的最佳時間，太小，且每一步的計時太小，導(dǎo)致通過交叉口的交通不完整，停車次數(shù)過多。

表5 三種算法的車輛平均停車次數(shù)(單位：次數(shù))

表6 三種算法的車輛平均車輛旅行時間比(單位：秒)

為了量化PPO算法的改善效果，表4至6計算了使用三種控制算法的車輛的平均等待時間、停車時間和平均行駛時間。平均等待時間分別為35.73%和54.07%，與Webster計時法相比分別減少了17.83%、19.86%和7.84%；就停車時間而言，與固定計時方法相比，PPO分別下降31.82%、32.16%和24.66%；比較車輛平均行駛時間，從固定時間中分別下降27.74%、28.17%和41.49%，改善效果非常明顯。

表4 三種算法的車輛平均等待時間比(單位：秒)

6 結(jié)束語

本文提出了一種基于PPO算法的交通信號管理方法，并在sumo仿真平臺上對不同的交通需求進行了測試。實驗結(jié)果表明，本文提出的交通信號管理方法與配時方法相比，具有更好的控制效果，能夠顯著減少交叉口排隊車輛的數(shù)量。該方法僅進行了仿真研究，未在實際場景中測試其控制效果；此外，本文中提出的方法在某些方面仍需改進。未來，有必要將應(yīng)用場景從簡單的單交叉口擴展到具有多個交叉口的復(fù)雜道路網(wǎng)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡