国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究

2015-04-19 08:40李志斌湯斗南
關(guān)鍵詞:匯流交通流瓶頸

段 薈,劉 攀,李志斌,湯斗南

(1.嘉興學(xué)院,浙江,嘉興 314211;2.東南大學(xué),南京 210096;3.加州大學(xué),伯克利 94720-1714)

基于強(qiáng)化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究

段 薈1,劉 攀*2,李志斌2,湯斗南3

(1.嘉興學(xué)院,浙江,嘉興 314211;2.東南大學(xué),南京 210096;3.加州大學(xué),伯克利 94720-1714)

為提高高速公路匯流瓶頸區(qū)的通行效率,本文結(jié)合強(qiáng)化學(xué)習(xí)無需建立模型,具有智能學(xué)習(xí)的特點(diǎn),對瓶頸區(qū)的可變限速策略進(jìn)行了優(yōu)化,首次提出了基于Q學(xué)習(xí)算法的可變限速控制策略.策略以最大化系統(tǒng)總流出車輛數(shù)為目標(biāo),通過遍歷交通流狀態(tài)集合,嘗試不同限速值序列進(jìn)行自適應(yīng)學(xué)習(xí).以真實(shí)路段交通流數(shù)據(jù)搭建了元胞傳輸模型仿真平臺,通過將其與無控制和基于反饋控制的可變限速策略進(jìn)行對比,對Q學(xué)習(xí)策略的控制效果進(jìn)行評價(jià).通行時(shí)間的降低和交通參數(shù)的變化表明,強(qiáng)化學(xué)習(xí)控制策略在提高匯流瓶頸區(qū)通行效率和改善交通流運(yùn)行狀況方面具有優(yōu)越性.

智能交通;可變限速;強(qiáng)化學(xué)習(xí);高速公路匯流瓶頸區(qū);Q學(xué)習(xí)算法

1 引 言

在高速公路系統(tǒng)中,匝道與主線連接路段是一個(gè)明顯的交通瓶頸[1].可變限速(Variable Speed Limits,VSL),作為一種有效緩解交通擁堵、提高通行效率的技術(shù)手段,已被廣泛應(yīng)用于高速公路入口匝道處.其核心思想為通過調(diào)節(jié)瓶頸區(qū)上游主線交通需求,將擁堵期進(jìn)入高速公路瓶頸區(qū)的車輛數(shù)控制在一定范圍內(nèi),來提高瓶頸區(qū)通行效率.在過去的研究中,學(xué)者們提出了基于最優(yōu)控制算法和反饋控制算法的可變限速控制策略[2-5].但由于復(fù)雜的程序計(jì)算,以及模型包含較多需要標(biāo)定的參數(shù),使其難以在工程中應(yīng)用.強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為一種高效的機(jī)器學(xué)習(xí)算法[6-8],由于具有無需建立環(huán)境模型,僅依據(jù)當(dāng)前狀態(tài)進(jìn)行自適應(yīng)學(xué)習(xí)的特點(diǎn),已被應(yīng)用于交通控制實(shí)踐領(lǐng)域,并取得了較好的控制效果[9-11].因此本文首次嘗試將強(qiáng)化學(xué)習(xí)算法與可變限速控制相結(jié)合,提出了基于Q學(xué)習(xí)算法的可變限速控制策略.

2 強(qiáng)化學(xué)習(xí)

2.1 強(qiáng)化學(xué)習(xí)原理

強(qiáng)化學(xué)習(xí)作為一種智能學(xué)習(xí)算法,在學(xué)習(xí)過程中,智能體(Agent)通過嘗試不同的動作選擇,并根據(jù)環(huán)境的反饋信號調(diào)整動作的評價(jià)值,來獲得最優(yōu)策略.在Agent與環(huán)境每一次交互過程中,接受環(huán)境狀態(tài)s的輸入,Agent選擇行為動作a作為對環(huán)境狀態(tài)的輸出,使環(huán)境狀態(tài)變遷到s’,同時(shí)Agent接受環(huán)境的獎懲信號r.Agent學(xué)習(xí)的目的是發(fā)現(xiàn)一系列的最優(yōu)動作集.使環(huán)境獲得最大的獎賞.強(qiáng)化學(xué)習(xí)具有下述特點(diǎn):①無需事先對交通參數(shù)進(jìn)行預(yù)測;②無需建立環(huán)境模型;③僅依據(jù)當(dāng)前交通狀態(tài)和行為動作進(jìn)行自適應(yīng)學(xué)習(xí);④便于進(jìn)行在線實(shí)施.

2.2 Q學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)中一個(gè)重要的里程碑就是由Watkins[12]提出的Q學(xué)習(xí)(QL)算法.它是一種與環(huán)境模型無關(guān),通過遍歷狀態(tài)—動作序列的估計(jì)值Q(s,a)來學(xué)習(xí)最優(yōu)動作的學(xué)習(xí)方法.由于其具有無需建立環(huán)境模型,并且在一定的條件下保證收斂的特點(diǎn),使其成為強(qiáng)化學(xué)習(xí)中應(yīng)用最為廣泛的一種算法.Q學(xué)習(xí)基本算法為

式中 S代表狀態(tài)集;A代表動作集;R代表每一狀態(tài)動作對的即時(shí)回報(bào).

Agent的目標(biāo)為最大化無限折扣后的累計(jì)獎賞值為

式中 γ是折扣系數(shù),定義了遠(yuǎn)期回報(bào)的重要度.

在Q學(xué)習(xí)中,Agent遍歷一系列時(shí)間步,在每個(gè)時(shí)間步中,其學(xué)習(xí)過程如下:

(1)觀察當(dāng)前狀態(tài) St;

(2)選擇并執(zhí)行一個(gè)動作at;

(3)得到下一個(gè)狀態(tài)St+1;

(4)收到一個(gè)立即強(qiáng)化信號Rt;

(5)按下式更新調(diào)整Q值:

(6)經(jīng)過無限次迭代直到Q值收斂,學(xué)習(xí)結(jié)束.

3 基于Q學(xué)習(xí)的可變限速控制策略

可變限速的核心思想即通過人為降低瓶頸區(qū)上游路段的限速值制造一個(gè)人造瓶頸,降低上游路段輸入瓶頸區(qū)的交通流量,使瓶頸區(qū)交通流保持在暢通狀態(tài),防止瓶頸區(qū)通行能力下降,從而提高整條路段的通行效率.可變限速路段主要由可變限速控制區(qū)和加速區(qū)兩部分(如圖1所示)組成.可變限速控制區(qū)作為可變限速的核心區(qū)域,通過設(shè)置該路段限速值,生成一個(gè)低流量、高密度的人造瓶頸區(qū),使其流出的流量等于下游瓶頸區(qū)通行能力.可變限速區(qū)長度應(yīng)確保車輛能從自由流速度穩(wěn)定減速到限速值.同時(shí)由于從可變限速區(qū)流出的車輛速度值較低,為消除通行能力狀態(tài)下車輛加速導(dǎo)致的通行能力下降,需要設(shè)置加速區(qū),確保車輛到達(dá)瓶頸區(qū)前完成從可變限速區(qū)限速值速度加速到瓶頸區(qū)通行能力所需的自由流速度.因此,可變限速控制即通過避免瓶頸區(qū)車輛排隊(duì)導(dǎo)致通行能力下降產(chǎn)生的額外延誤,提高通行效率.該技術(shù)提高通行效率的效果取決于瓶頸起始位置由于挽回車輛排隊(duì)導(dǎo)致的通行能力下降的幅度.

圖1 匯流區(qū)可變限速控制系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure of VSL controlled freeway merge area

本文的可變限速基本控制策略為:①依據(jù)歷史交通流數(shù)據(jù)標(biāo)定瓶頸通行能力下降幅度和下降時(shí)交通流閾值;②實(shí)時(shí)監(jiān)測瓶頸位置交通流運(yùn)行狀態(tài),判斷是否達(dá)到通行能力下降閾值;③如無通行能力下降,則進(jìn)入下一周期繼續(xù)檢測交通流狀態(tài);④如達(dá)到通行能力下降閾值,則啟動位于上游位置的可變限速控制,限速值的選取即通過Q學(xué)習(xí)算法計(jì)算得到.

為了提高基于Q學(xué)習(xí)算法的可變限速控制策略(QL-VSL)的學(xué)習(xí)效果,對Q學(xué)習(xí)系統(tǒng)中的關(guān)鍵要素(狀態(tài)、回報(bào)函數(shù)、動作選擇策略)的選取進(jìn)行了詳細(xì)的設(shè)計(jì).

(1)匯流瓶頸區(qū)交通狀態(tài)集.

由于Q學(xué)習(xí)時(shí)間會隨狀態(tài)數(shù)的增加成指數(shù)增長,因此,應(yīng)選取對交通流有重要影響的交通狀態(tài)參數(shù).本文選取了匯流瓶頸區(qū)主線下游交通流密度、主線上游交通流密度和入口匝道密度作為交通流狀態(tài)參數(shù).其示意圖如圖2所示.

圖2 Q學(xué)習(xí)策略匯流瓶頸區(qū)交通狀態(tài)參數(shù)示意圖Fig.2 Components of VSL controlled freeway segment

下游密度反映了瓶頸區(qū)的擁堵情況,是最為重要的QL-VSL狀態(tài)參數(shù).由于處于關(guān)鍵密度時(shí)瓶頸區(qū)流量最大,控制策略的目標(biāo)即維持下游密度在關(guān)鍵密度附近.上游密度則反映了主線上游的交通需求及擁堵向上游傳播的排隊(duì)長度.為了更全面反映瓶頸區(qū)交通狀態(tài),同時(shí)選取了匝道密度作為交通流狀態(tài)之一,它反映了匝道的交通需求狀態(tài)及對主線交通的影響.

(2)目標(biāo)函數(shù).

基于Q學(xué)習(xí)算法的可變限速策略選取系統(tǒng)的總行程時(shí)間為目標(biāo)函數(shù),其定義為

式中 s(t)表示t時(shí)刻從系統(tǒng)流出的交通量,由擁堵的程度決定;d(t)表示t時(shí)刻系統(tǒng)的交通需求,d(t)獨(dú)立于Agent的動作選擇,在TTT中為常量.忽略d(t),減少系統(tǒng)總行程時(shí)間即為最大化系統(tǒng)的總流出車輛數(shù).因此,回報(bào)函數(shù)應(yīng)根據(jù)下游密度進(jìn)行設(shè)置.

4 仿真設(shè)計(jì)

4.1 元胞傳輸模型仿真平臺

元胞傳輸模型(Cell Transmission Model, CTM)是Daganzo于1994年首先提出的[13],模型通過將路段劃分為具有相同性質(zhì)等距的小段(元胞),并將時(shí)間細(xì)分成相等的時(shí)間間隔(元胞長度等于每一小段時(shí)間間隔車輛以自由流行駛的距離)來模擬車輛運(yùn)行.在k時(shí)刻,系統(tǒng)的狀態(tài)由此時(shí)每一個(gè)元胞i中的車輛數(shù)ni(k)所給定.模型通過不斷更新元胞狀態(tài),反映不同交通流狀態(tài)的時(shí)空變化規(guī)律及排隊(duì)形成、消散、擁堵波的逆向傳播等交通流動力學(xué)特性.如圖3和圖4所示,本文的元胞傳輸模型是在基本傳輸模型的基礎(chǔ)上考慮了可變限速和通行能力下降進(jìn)行優(yōu)化得到的.

4.2 Q學(xué)習(xí)可變限速策略仿真

本文的Q學(xué)習(xí)可變限速策略是基于CTM仿真路段,通過狀態(tài)與動作的交互作用學(xué)習(xí)得到的.仿真路段(如圖5所示)為長10 km的四車道高速公路路段,并被劃分為10個(gè)等距的小段,每個(gè)路段長1 km,其中孤立匯流瓶頸區(qū)位于路段8處.關(guān)于可變限速區(qū)及加速區(qū)的長度設(shè)置應(yīng)能保證完成限速值與自由流速度的轉(zhuǎn)換過渡原則,由于本文的限速值變化范圍為[30,110]km/h,自由流速度為110 km/h,加速度取1 m/s2,因此兩區(qū)間長度均選取1 km滿足上述設(shè)置要求.為模擬匯流瓶頸區(qū)的交通運(yùn)行狀況,本文的參數(shù)標(biāo)定選取了美國加利福利亞州I5高速公路路段(PM39.77-PM45.31)的真實(shí)交通流數(shù)據(jù),并考慮了可變限速控制及通行能力下降因素.標(biāo)定后的主要參數(shù)值如表1所示.

圖3 基于可變限速控制的交通流運(yùn)行圖Fig.3 Fundamental diagram for mainline cells in the CTM

圖4 基于通行能力下降的交通流運(yùn)行圖Fig.4 Fundamental diagram for the bottleneck cell with capacity drop in the CTM

圖5 Q學(xué)習(xí)策略仿真路段Fig.5 Hypothetical motorway stretch

表1 基本交通參數(shù)的標(biāo)定值Table 1 Traffic parameters for calibration in CTM

為保證學(xué)習(xí)效果,本文的狀態(tài)劃分較細(xì).對于下游密度,共包含了50個(gè)取值.其中,在關(guān)鍵密度(16.3 veh/km/ln)附近,每隔0.5 veh/km/ln進(jìn)行選取,在自由流低密度和擁堵高密度附近,分別每隔1 veh/km/ln和1.5 veh/km/ln進(jìn)行選取.上游密度每隔1 veh/km/ln選取,共有30個(gè)取值.匝道密度每隔0.2 veh/km/ln選取,共有6個(gè)取值.進(jìn)行組合,狀態(tài)集中共包含50×30×6=9 000種狀態(tài).策略的動作為采取的限速值,限速值的取值從110 km/h到30 km/h,每隔10 km/h選取.為降低總行程時(shí)間,回報(bào)函數(shù)的獎懲值依據(jù)下游消散流率進(jìn)行設(shè)置:在關(guān)鍵密度附近附加額外獎勵值,在擁堵密度附近附加懲罰值,以使產(chǎn)生獎勵值高的動作策略被選擇的趨勢增加,反之,趨勢減弱.

仿真中,本文假設(shè)駕駛員對限速值遵從度為

100%.仿真周期時(shí)長為5 min,在每個(gè)控制周期時(shí)長內(nèi),交通需求為固定值以使學(xué)習(xí)轉(zhuǎn)化為確定性馬爾可夫問題.Q值根據(jù)下式進(jìn)行更新:

折減系數(shù)γ取值為0.8.在每個(gè)控制周期內(nèi),智能體(Agent)根據(jù)系統(tǒng)狀態(tài)(下游密度、上游密度、匝道密度)采取策略(限速值),之后智能體根據(jù)收到的獎勵值(正負(fù))不斷更新Q值,直到所有Q值不再變化,即Q值達(dá)到收斂為止.此時(shí),每種狀態(tài)下最大Q值所對應(yīng)的策略即為最優(yōu)策略.

4.3 Q學(xué)習(xí)可變限速策略效果評價(jià)

為更好地對Q學(xué)習(xí)策略的控制效果進(jìn)行評價(jià),將基于Q學(xué)習(xí)算法的可變限速策略與基于反饋控制算法的可變限速策略進(jìn)行了對比.反饋控制的核心思想為根據(jù)實(shí)際交通密度與流量,通過調(diào)節(jié)限速系數(shù)b(k)的值,使密度與流量維持在期望值附近.為使反饋控制呈現(xiàn)更好的控制效果,對模型中的參數(shù)進(jìn)行反復(fù)調(diào)試,選取了使總行程最小的模型參數(shù).其中,KI’=7,Kp’=30,KI=0.000 4.

圖6和圖7分別反映了仿真中穩(wěn)定和波動兩種交通需求下,無可變限速控制、基于反饋算法的可變限速控制與基于Q學(xué)習(xí)算法的可變限速控制下的密度、速度、流量、及限速值變化情況.

圖6 穩(wěn)定交通需求下可變限速策略對交通流的影響(情景1)Fig.6 Impacts of VSL control strategies on stable traffic operations(scenario 1)

仿真中穩(wěn)定交通需求下,當(dāng)不采取任何策略時(shí),交通流量在第0.4 h達(dá)到通行能力(6 956 veh/h),隨著到達(dá)流量繼續(xù)增加,在第0.5 h后,擁堵開始形成.由于通行能力下降,最大交通流量為6 480 veh/h.瓶頸區(qū)密度達(dá)到37.5 veh/km/ln,速度降到40 km/h.擁堵持續(xù)了大約2.4 h,直到仿真結(jié)束時(shí)擁堵才完全消散.基于反饋控制的可變限速策略阻止了瓶頸區(qū)交通擁堵的發(fā)生(如圖6(c)),瓶頸區(qū)交通流基本維持在自由流狀態(tài).基于Q學(xué)習(xí)的控制策略對瓶頸區(qū)交通運(yùn)行產(chǎn)生了相似的控制效果,但是與反饋控制策略相比,控制效果更為穩(wěn)定.在波動的交通需求下,兩種算法控制效果與穩(wěn)定需求下相似,同樣Q學(xué)習(xí)的結(jié)果更為穩(wěn)定.

基于Q學(xué)習(xí)算法與基于反饋算法的可變限速控制策略主要有兩點(diǎn)差異:①在瓶頸區(qū)擁堵形成階段,反饋控制首先采用較低的限速值以緩解產(chǎn)生的交通擁堵,然后逐漸提高限速值到最優(yōu)限速值,維持流率在最大通行能力附近.Q學(xué)習(xí)則始終維持限速值在最優(yōu)值附近波動.②當(dāng)交通需求較大時(shí),反饋控制的限速值隨交通量波動變化較頻繁,基于Q學(xué)習(xí)的限速值則隨交通狀態(tài)變化相對穩(wěn)定.這兩點(diǎn)差異產(chǎn)生的原因主要是由于Q學(xué)習(xí)算法具有防止擁堵產(chǎn)生的自適應(yīng)前饋控制能力,而反饋控制則具有一定的滯后性,在通行能力發(fā)生下降后,開始進(jìn)行限速的.同時(shí),由于反饋控制的限速值是基于模型得到的,對參數(shù)的變化較為敏感而處于不斷變化中.

圖7 波動交通需求下可變限速策略對交通流的影響(情景2)Fig.7 Impacts of VSL control strategies on noisy traffic operations(scenario 2)

控制策略對通行時(shí)間的影響如表2所示.穩(wěn)定和波動交通流情況下,兩種可變限速控制策略在減少總通行時(shí)間方面的控制效果顯著.同樣,Q學(xué)習(xí)策略對于降低通行時(shí)間具有更好的效果.

表2 可變限速策略對通行時(shí)間的影響Table 2 Effects of VSL control strategies on travel time

鑒于仿真得到的良好控制效果,下一步就是將基于Q學(xué)習(xí)的可變限速策略應(yīng)用于工程實(shí)踐,發(fā)揮可變限速控制與Q學(xué)習(xí)的潛力.系統(tǒng)的實(shí)現(xiàn)主要依賴于交通流檢測器數(shù)據(jù)和可變情報(bào)板,系統(tǒng)根據(jù)每個(gè)周期時(shí)間間隔(如每5 min)的速度、占有率等狀態(tài)數(shù)據(jù)進(jìn)行限速值動作選擇,根據(jù)輸出的交通流量計(jì)算回報(bào)值,基于這些輸入和輸出,學(xué)習(xí)得到最優(yōu)限速值,然后利用可變情報(bào)板將限速值發(fā)布給道路使用者.Q學(xué)習(xí)策略可以根據(jù)路段真實(shí)的交通情況進(jìn)行在線學(xué)習(xí),實(shí)時(shí)調(diào)整狀態(tài)—動作對的Q值函數(shù).通過這種在線學(xué)習(xí)方式,策略可以更好地適應(yīng)例如駕駛員遵從度等不確定因素對學(xué)習(xí)效果帶來的影響.

5 研究結(jié)論

結(jié)合強(qiáng)化學(xué)習(xí)和可變限速的特點(diǎn),本文首次提出了基于Q學(xué)習(xí)算法的可變限速控制策略.在對策略中的關(guān)鍵要素進(jìn)行了詳細(xì)設(shè)計(jì)后,利用元胞傳輸模型仿真平臺對策略的控制效果進(jìn)行了效果評價(jià).通行時(shí)間的降低和交通參數(shù)的變化表明,強(qiáng)化學(xué)習(xí)控制策略在提高匯流瓶頸區(qū)通行效率和改善交通流運(yùn)行狀況方面具有優(yōu)越性.由于本文是在假設(shè)駕駛員對限速的遵從度為100%的基礎(chǔ)上進(jìn)行的,在今后的研究中,應(yīng)注意考慮不同駕駛員對限速的實(shí)際遵從情況.并進(jìn)一步探討不同的參數(shù)選取及函數(shù)設(shè)置下,策略的學(xué)習(xí)控制效果.

[1]Cassidy M J,Rudjanakanoknad J.Increasing the capacity of an isolated merge by metering its onramp[J].Transportation Research Part B: Methodological,2005,39(10):896-913.

[2]Kang K P,Chang G L,Zou N.Optimal dynamic speedlimit control for highway work zone operations[J]. Transp.Res.Rec.,2004,1877:77-84.

[3]Hegyi A,Bart S D,Hellendoorn J P.Optimal coordination of variable speed limits to suppress shock waves[J].IEEE Trans.Intel.Transp.Syst.,2005,6(1): 102-112.

[4]Zhang J,Chang H,Ioannou P A.A simple roadway control system for freeway traffic[C].Minneapolis:Proc. American Control Conference,2006:4900–4905.

[5]Carlson R C,Papamichail I,Papageorgiou M.Local feedback-based mainstream traffic flow control on motorways using variable speed limits[C].Madeira Island,Portugal:13th International IEEE Annual Conference on Intelligent Transportation Systems,2010.

[6]Sutton R S,Barto A G.Reinforcement learning-an Introduction.[M].Cambridge,Massachusetts:MIT Press,1998.

[7]黃炳強(qiáng).強(qiáng)化學(xué)習(xí)方法及其應(yīng)用研究[D].上海交通大學(xué),2007.[HUANG B Q.Research on the reinforcement learning method and application[D].Shanghai Jiaotong University,2007.]

[8]虞靖靚.基于Q學(xué)習(xí)的Agent智能決策的研究與實(shí)現(xiàn)[D].合肥工業(yè)大學(xué),2005.[YU J L.The research and implementation of agent intelligent decision based on Q learning[D].HeFei University of Technology, 2005.]

[9]Rezaee K,Abdulhai B,Abdelgawad H.Self-learning adaptive ramp metering:analysis of design parameters on a test case in Toronto[C].Washington,D.C:92th Annual Meeting of TRB,2013.

[10]Veljanovska K,Bombol K M,Maher T.Reinforcement learning technique in multiple motorway access control strategy design[C].Intelligent Transport Systems(ITS) Preliminary Communication.Mar.19,2010.

[11]Abdulhai B,Pringle R,Karakoulas G J.Reinforcement learning for true adaptive traffic signal control[J]. ASCE Journal of Transportation Engineering.2003,129 (3):278-285.

[12]Watkins C,Dayan P.Q-learning.machine learning[J]. 1992,8(3-4):279-292.

[13]Daganzo C F.The cell transmission model-A dynamic representation of highway traffic consistent with the hydrodynamic theory[J].Transp.Res.B:Meth.,1994,28 (4):269-287.

Variable Speed Limit Control at Freeway Merge Bottlenecks Based on Reinforcement Learning 0

DUAN Hui1,LIU Pan2,LI Zhi-bin2,TANG Dou-nan3
(1.Jiaxing University,Jiaxing 314211,Zhejiang,China;2.Southeast University,Nanjing 210096,China; 3.University of California,Berkeley 94720-1714,USA)

To improve the efficiency of freeway merge bottleneck,this paper optimizes the bottleneck variable speed limit strategy.Considering the characteristics of reinforcement learning that it is modelingfree and intelligent learning,a QL-VSL control strategy that integrates the Q-learning(QL)algorithm in the VSL control is proposed for the first time.The goal of the strategy is to maximize the outflow vehicle,it is adaptive learning through traversing traffic flow states and taking different speed limits.The cell transmission model(CTM)calibrated with the real traffic data is used for the simulation.The effectiveness of the proposed QL-VSL control strategy is evaluated with no VSL control and the feedback VSL control in the simulation.The travel time reduction and traffic parameter changes show that the proposed QL-VSL control strategy outperforms in improving the traffic efficiency and traffic operations at freeway merge bottlenecks.

intelligent transportation;variable speed limit;reinforcement learning;freeway merge bottleneck;Q-learning

1009-6744(2015)01-0055-07

:U491

:A

2014-08-11

:2014-12-08錄用日期:2014-12-19

國家自然科學(xué)基金資助項(xiàng)目(51322810).

段薈(1988-),女,遼寧丹東人,助教. *

:panliu@hotmail.com

猜你喜歡
匯流交通流瓶頸
流域匯流計(jì)算方法在風(fēng)峪沙河段的應(yīng)用探討
突破霧霾治理的瓶頸
交通流隨機(jī)行為的研究進(jìn)展
路內(nèi)停車對交通流延誤影響的定量分析
突破瓶頸 實(shí)現(xiàn)多贏
基于ARM CortexM0的智能光伏匯流采集裝置設(shè)計(jì)及應(yīng)用
一種球載雷達(dá)匯流環(huán)設(shè)計(jì)
民營醫(yī)院發(fā)展瓶頸
含有光伏防反器的匯流方案在光伏系統(tǒng)中的應(yīng)用
如何渡過初創(chuàng)瓶頸期