顏罡趙斐然葉 鋒吳俊博游科友
(1.中車株洲電力機(jī)車有限公司,湖南株洲 412000;2.大功率交流傳動(dòng)電力機(jī)車系統(tǒng)集成國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖南株洲 412000;3.清華大學(xué)自動(dòng)化系,北京信息科學(xué)與技術(shù)國(guó)家研究中心,北京 100084)
隨著鐵路交通系統(tǒng)的迅速發(fā)展,高速、舒適的列車出行已成為人們迫在眉睫的需求.鐵路系統(tǒng)的可靠性和效率主要取決于自動(dòng)列車控制系統(tǒng).該系統(tǒng)中運(yùn)行著3個(gè)子系統(tǒng),分別是自動(dòng)列車監(jiān)控系統(tǒng)、自動(dòng)列車保護(hù)系統(tǒng)和自動(dòng)列車運(yùn)行(automatic train operation,ATO)系統(tǒng)[1].ATO系統(tǒng)是自動(dòng)列車控制系統(tǒng)的關(guān)鍵部分,用于控制列車運(yùn)行的各個(gè)階段,例如:自動(dòng)出發(fā)、加速、巡航、制動(dòng)、精確停車、站間臨時(shí)停車、自動(dòng)折返等[2].其中,ATO系統(tǒng)的定速控制是一個(gè)基本問題,即在變化的列車線路條件下將列車穩(wěn)定、快速地調(diào)節(jié)到給定速度.由于列車動(dòng)力學(xué)系統(tǒng)固有的模型不確定性,以及由天氣條件和列車線路條件引起的外部干擾[3-4],ATO系統(tǒng)的定速控制存在許多困難.其中,列車動(dòng)力學(xué)模型的參數(shù)和干擾在實(shí)際中是多種多樣的,并且很難用數(shù)據(jù)估計(jì).此外,鐵路路況條件隨列車的行駛而頻繁變化,例如,鐵路斜坡等,從而要求控制策略能夠適應(yīng)路況變化.
傳統(tǒng)的控制方法主要集中在時(shí)不變列車動(dòng)力學(xué)模型的定速控制問題上,如:魯棒控制[5]、最優(yōu)控制[6]、預(yù)測(cè)控制[7]和滑??刂芠2,8].文獻(xiàn)[6]提出了一種使用新的局部能量最小化原理的最優(yōu)控制方法,同時(shí)不考慮模型的不確定性和外部干擾.文獻(xiàn)[7]設(shè)計(jì)了一種預(yù)測(cè)滑移控制器以實(shí)現(xiàn)最大的加速度,而在分析中忽略了由復(fù)雜的列車線路狀況引起的外部干擾.文獻(xiàn)[5]提出了一種魯棒的控制方法來(lái)補(bǔ)償模型的不確定性,而沒有關(guān)注時(shí)變擾動(dòng)的影響.文獻(xiàn)[2]采用滑??刂破髟诰€估計(jì)動(dòng)力學(xué)模型的未知參數(shù),而無(wú)需分析隨時(shí)間變化的運(yùn)行條件.
基于模型的控制器要么需要精確的動(dòng)力學(xué)模型,要么需要時(shí)時(shí)估計(jì)未知參數(shù).而實(shí)際上,由于復(fù)雜的操作環(huán)境,很難對(duì)動(dòng)力學(xué)系統(tǒng)進(jìn)行精確建模.外部干擾和未建模的動(dòng)力學(xué)也給控制器的設(shè)計(jì)帶來(lái)了困難.因此,有必要用無(wú)模型的方法得到控制器.在這項(xiàng)工作中,本文通過(guò)強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)來(lái)學(xué)習(xí)控制器.RL旨在僅通過(guò)使用數(shù)據(jù)來(lái)解決馬爾可夫決策過(guò)程(Markov decision process,MDP)問題.注意到列車在運(yùn)行期間,諸如鐵路坡度之類的鐵路線條件一直在變化,這意味著列車動(dòng)力學(xué)模型本質(zhì)上是時(shí)變的,而基于RL的控制器僅適用于時(shí)不變模型.因此,無(wú)模型控制器必須能夠自適應(yīng)環(huán)境,即能夠在合理的時(shí)間段內(nèi)適應(yīng)變化的鐵路路況.為此,本文利用元學(xué)習(xí)框架來(lái)增強(qiáng)RL控制器在不同列車線路條件下的通用性,從而使其僅使用少量訓(xùn)練樣本即可適應(yīng)新的鐵路路況,這構(gòu)成了用于列車定速控制的元強(qiáng)化學(xué)習(xí)(Meta-RL)[9].RL已成功應(yīng)用于一些連續(xù)控制問題,包括自動(dòng)水下航行器(automatic unmanned vehicle,AUV)[10]、移動(dòng)機(jī)器人的路徑規(guī)劃[11]、基于視覺的機(jī)器人運(yùn)動(dòng)控制[12]等.文獻(xiàn)[13-14]研究了用于連續(xù)控制問題的Meta-RL,并在仿真環(huán)境中驗(yàn)證了其性能.
Meta-RL的目標(biāo)是學(xué)習(xí)一種初始的參數(shù)化控制策略(或策略),以使其僅通過(guò)學(xué)習(xí)少量樣本可以在新的RL任務(wù)上發(fā)揮最大的性能.元學(xué)習(xí)的基本思想是,策略中存在一個(gè)內(nèi)核表示形式,該形式廣泛適用于許多任務(wù),因此,對(duì)參數(shù)進(jìn)行微調(diào)就可以在新任務(wù)上產(chǎn)生良好的結(jié)果.為了將列車定速控制問題化為Meta-RL問題,本文將時(shí)不變環(huán)境下的學(xué)習(xí)任務(wù)定義為求解一個(gè)平穩(wěn)馬爾可夫決策過(guò)程MDP.對(duì)于定速控制問題來(lái)說(shuō),智能體依據(jù)策略采取行動(dòng),將其作為ATO系統(tǒng)的控制輸入,然后狀態(tài)根據(jù)動(dòng)力學(xué)模型改變,并觀察到當(dāng)前的損失函數(shù).本文根據(jù)系統(tǒng)的動(dòng)力學(xué)設(shè)計(jì)MDP的狀態(tài),并將損失函數(shù)定義為速度誤差和能耗的線性組合.通過(guò)適當(dāng)?shù)仉x散化列車線路路況,本文在解決一系列RL任務(wù)的情況下,建模了列車在變化路況下的定速控制問題.然后,采用元學(xué)習(xí)框架來(lái)學(xué)習(xí)自適應(yīng)控制器,該控制器能夠僅通過(guò)使用樣本來(lái)適應(yīng)新的MDP.本文通過(guò)仿真說(shuō)明,由Meta-RL學(xué)習(xí)的無(wú)模型控制器性能良好.
本文的主要貢獻(xiàn)概述如下:
1) 本文率先使用基于RL的控制器來(lái)解決ATO系統(tǒng)的定速控制問題;
2) 本文應(yīng)用元學(xué)習(xí)來(lái)訓(xùn)練自適應(yīng)控制器,使得該控制器能快速適應(yīng)變化的環(huán)境.
本文的其余部分組織如下:在第2節(jié)中,作者提出了ATO系統(tǒng)的定速控制問題;在第3節(jié),作者將定速控制問題建模為一系列平穩(wěn)MDP問題;第4節(jié)采用Meta-RL框架對(duì)MDP問題進(jìn)行求解并得到自適應(yīng)控制器;第5節(jié)對(duì)元強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了討論;第6節(jié)進(jìn)行了仿真以驗(yàn)證Meta-RL算法的有效性.
本節(jié)描述了列車控制系統(tǒng)和定速控制問題.
列車自動(dòng)控制系統(tǒng)旨在實(shí)現(xiàn)對(duì)列車的高效、準(zhǔn)確的控制.其由3個(gè)子系統(tǒng)組成,即ATO系統(tǒng),自動(dòng)列車監(jiān)管(automatic train supervision,ATS)系統(tǒng)和自動(dòng)列車保護(hù)(automatic train protection,ATP)系統(tǒng),請(qǐng)參見圖1.ATO系統(tǒng)在列車中起著至關(guān)重要的作用,它負(fù)責(zé)管理列車運(yùn)行的幾乎所有控制問題,例如:自動(dòng)離場(chǎng)、加速、巡航、制動(dòng)等.ATS系統(tǒng)與地面控制器一起提供了基于當(dāng)前運(yùn)行狀況的速度保護(hù)線,而ATP系統(tǒng)使用該保護(hù)線來(lái)限制ATO系統(tǒng).因此,ATO系統(tǒng)與其他兩個(gè)子系統(tǒng)一起工作,并在ATS系統(tǒng)與牽引或制動(dòng)控制設(shè)備之間建立連接.具體來(lái)說(shuō),ATO系統(tǒng)的定速控制負(fù)責(zé)在不同的負(fù)載和運(yùn)行條件下將列車的速度控制到目標(biāo)值.在鐵路條件發(fā)生變化時(shí),控制策略要求能夠快速適應(yīng)不斷變化的環(huán)境.
圖1 自動(dòng)列車控制系統(tǒng)Fig.1 ATS system
ATO系統(tǒng)的動(dòng)力學(xué)模型可以抽象如下:
其中:u表示控制輸入量,ξ表示外部干擾,χ表示ATO系統(tǒng)的狀態(tài)變量,n表示環(huán)境標(biāo)簽,N為標(biāo)簽數(shù)量.然而,精確的動(dòng)力學(xué)模型通常難以獲得,并且列車運(yùn)行期間環(huán)境會(huì)發(fā)生變化,增加了為ATO系統(tǒng)構(gòu)建自適應(yīng)控制器的難度.
通常,整條鐵路可以被分成許多段,每一段的列車路況條件基本相同.例如,鐵路坡度在列車一段沿線內(nèi)保持恒定.因此,本文可以為控制器收集足夠的樣本以適應(yīng)不斷變化的操作環(huán)境,得到一種數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)控制器.
這項(xiàng)工作的目的是設(shè)計(jì)一種無(wú)模型的元強(qiáng)化學(xué)習(xí)算法用于解決列車定速控制問題.該算法能學(xué)習(xí)一個(gè)自適應(yīng)控制器,其能夠在短時(shí)間內(nèi)適應(yīng)變化的環(huán)境.Meta-RL框架解決定速控制問題的優(yōu)勢(shì)至少包括:1)在實(shí)踐中很難獲得ATO系統(tǒng)的精確動(dòng)力學(xué)模型,而本文的算法不需要?jiǎng)恿W(xué)模型;2)作者將模型的不確定性和外部干擾視為環(huán)境的組成部分,因此減弱了他們的影響;3)Meta-RL學(xué)習(xí)的是自適應(yīng)控制器,該控制器可以在短時(shí)間內(nèi)適應(yīng)變化的鐵路環(huán)境.
在本節(jié)中,作者將列車定速控制問題建模為未知轉(zhuǎn)移概率的一系列平穩(wěn)MDP問題.
馬爾可夫性表示智能體的當(dāng)前狀態(tài)包含所有相關(guān)信息.滿足馬爾可夫性的強(qiáng)化學(xué)習(xí)任務(wù)稱為MDP.MDP 通過(guò)其4個(gè)組成部分來(lái)描述: 1)狀態(tài)空間S;2)動(dòng)作空間A;3) 損失函數(shù)c(s,a):S×A →R;4)轉(zhuǎn)移概率p(sk|s1,a1,...,sk-1,ak-1).馬爾可夫性可確保當(dāng)前狀態(tài)僅取決于最后一個(gè)狀態(tài)和動(dòng)作,即
MDP描述了智能體與環(huán)境交互的過(guò)程: 智能體在當(dāng)前狀態(tài)下sk采取行動(dòng)ak,然后和狀態(tài)轉(zhuǎn)移到了sk+1,同時(shí),返回?fù)p失函數(shù)ckc(sk,ak),如圖2所示.
圖2 馬爾可夫過(guò)程[15]Fig.2 MDP[15]
策略是從狀態(tài)空間S到動(dòng)作空間A的映射,即π:S →A.RL的目的是找到可以最小化長(zhǎng)期累積損失的最優(yōu)策略π,即
其中:P是策略空間,ck是單步損失,0<γ <1是折扣因子,用于衡量損失函數(shù)隨時(shí)間的衰減,H表示時(shí)間窗長(zhǎng)度.
為將列車的定速控制問題建模為MDP問題,需要合理定義MDP的4個(gè)元素.顯然,MDP的動(dòng)作應(yīng)當(dāng)被定義為ATO系統(tǒng)的控制輸入.因?yàn)檎鎸?shí)的動(dòng)力學(xué)模型難以獲得,假設(shè)MDP的轉(zhuǎn)移概率未知.因此,本文主要專注于設(shè)計(jì)MDP的狀態(tài)和損失函數(shù).
定速控制問題的目的是以最小的能量消耗將列車的速度控制到目標(biāo)速度vref.因此,損失函數(shù)可以定義如下,其中vk-vref表示速度誤差,驅(qū)動(dòng)力力u(k)衡量能量消耗.損失函數(shù)通過(guò)系數(shù)在兩個(gè)控制目標(biāo)之間進(jìn)行權(quán)衡.第k步的損失函數(shù)定義如下:
這里ρi,i {1,2}是正的常數(shù),vref指參考速度.
狀態(tài)設(shè)計(jì)的基本原則是狀態(tài)應(yīng)能夠充分地表達(dá)系統(tǒng).本文參考現(xiàn)有文獻(xiàn)中的動(dòng)力學(xué)模型[2],將MDP的狀態(tài)設(shè)計(jì)為
定義好狀態(tài)和損失函數(shù)后,可以用RL求解MDP問題.一般而言,RL僅適用于平穩(wěn)MDP,即MDP的單步轉(zhuǎn)移概率是時(shí)不變的.由于列車運(yùn)行期間環(huán)境的變化,實(shí)際情況并非如此.例如,山區(qū)的鐵路坡度和平均風(fēng)速不同于平地的鐵路坡度和風(fēng)速,這導(dǎo)致了ATO系統(tǒng)動(dòng)力學(xué)模型的變化.為此,本文將整個(gè)鐵路劃分為N個(gè)分段,以使每個(gè)分段內(nèi)的線路條件幾乎相同,對(duì)應(yīng)于一個(gè)平穩(wěn)的MDP,其轉(zhuǎn)移概率為pn(sk|sk-1,ak-1)1,2,...,N},如圖3所示.因此,本文將變化環(huán)境下的定速控制問題建模為一系列平穩(wěn)的MDP,進(jìn)而由Meta-RL框架解決.
圖3 整個(gè)鐵路分為N段并且在每個(gè)段中鐵路路況均相同F(xiàn)ig.3 The railway is divided into N segments
在本節(jié)中,本文介紹了元學(xué)習(xí)問題,并提出了用于列車定速控制的Meta-RL方法.
元強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)可以快速適應(yīng)新任務(wù)的策略.為此,該策略在元學(xué)習(xí)階段針對(duì)一組學(xué)習(xí)任務(wù)進(jìn)行了訓(xùn)練,使新任務(wù)的損失函數(shù)相對(duì)于策略參數(shù)的敏感度最大化.
考慮參數(shù)化策略π(a|s,θ),參數(shù)為θ.在元學(xué)習(xí)過(guò)程中,對(duì)策略進(jìn)行訓(xùn)練,使其能夠適應(yīng)大量任務(wù).任務(wù)被定義為
其中1,2,...,N},包含損失函數(shù)
初始狀態(tài)分布qi(s1),轉(zhuǎn)移概率pi(sk+1|sk,ak),時(shí)間窗長(zhǎng)度H.此處,損失函數(shù)LTi定義為采樣軌跡上的累積損失
RL任務(wù)Ti對(duì)應(yīng)于一個(gè)轉(zhuǎn)移概率pi(sk+1|sk,ak)不變的平穩(wěn)MDP.在元學(xué)習(xí)框架中,作者希望初始策略能夠自適應(yīng)從分布p(T)中采樣的任務(wù).因此,訓(xùn)練過(guò)程中,作者從p(T)中采樣任務(wù)p(Ti),然后將策略用于與此任務(wù)相對(duì)應(yīng)的MDP,獲得MDP的K條軌跡.進(jìn)而,根據(jù)這些軌跡用RL對(duì)策略進(jìn)行評(píng)估,用梯度下降法單步更新策略.對(duì)更新后的策略再次評(píng)估,得到的測(cè)試誤差用來(lái)訓(xùn)練初始策略參數(shù).實(shí)際上,元學(xué)習(xí)建立了初始策略的內(nèi)核表示形式,該策略廣泛適用于許多任務(wù).
對(duì)于列車定速控制問題,將整個(gè)鐵路劃分為N個(gè)分段,并且每個(gè)分段內(nèi)的運(yùn)行條件都認(rèn)為是相同的,對(duì)應(yīng)于一個(gè)平穩(wěn)MDP.因此,可以將整個(gè)鐵路列車的定速控制問題表述為一系列RL任務(wù).元學(xué)習(xí)通過(guò)從這些任務(wù)中隨機(jī)采樣以學(xué)習(xí)初始策略,并將整個(gè)任務(wù)作為訓(xùn)練集.當(dāng)列車在鐵路的新分段i上運(yùn)行時(shí)在線收集樣本以計(jì)算損失LTi,作為對(duì)適應(yīng)的反饋初始策略.
Meta-RL旨在通過(guò)元學(xué)習(xí)來(lái)學(xué)習(xí)初始策略,以便可以僅使用少量訓(xùn)練樣本來(lái)解決新任務(wù).這種方法背后的想法是,某些內(nèi)部表示形式比其他內(nèi)部表示形式更具可移植性,因此它們廣泛適用于p(Ti)中的所有任務(wù),而不是單個(gè)任務(wù)[13].本文旨在學(xué)習(xí)一種策略,其參數(shù)的微小變化將大大改善從p(Ti)采樣的任務(wù)的損失函數(shù).本文將基于梯度的學(xué)習(xí)用于此元學(xué)習(xí)過(guò)程,如圖4中所示.當(dāng)適應(yīng)到新任務(wù)Ti時(shí),策略參數(shù)θ變?yōu)?更新后的參數(shù)通過(guò)一步梯度下降得到
圖4 元學(xué)習(xí)算法的示意圖Fig.4 An illustration for meta learning
其中步長(zhǎng)α為衰減步長(zhǎng)或?yàn)槌?shù).初始策略參數(shù)θ通過(guò)優(yōu)化自適應(yīng)后的策略π()所對(duì)應(yīng)損失函數(shù)得到.該損失函數(shù)從分布p(T)采樣出的任務(wù)中可以計(jì)算出來(lái).具體來(lái)說(shuō),元學(xué)習(xí)的目標(biāo)是
元學(xué)習(xí)通過(guò)優(yōu)化初始策略參數(shù),以使在新任務(wù)上僅一步梯度下降即可在該任務(wù)上產(chǎn)生最好的效果.可以通過(guò)以下隨機(jī)梯度下降對(duì)初始策略參數(shù)進(jìn)行更新
這里β是元學(xué)習(xí)的步長(zhǎng).
對(duì)于定速控制問題,元學(xué)習(xí)要求列車在整條鐵路上運(yùn)行以收集樣本軌跡.在第i個(gè)分段中,智能體可以從初始策略θ進(jìn)行自適應(yīng)θ-α?θLTi(θ),并在同一段上測(cè)試調(diào)整后的策略,以獲取用于元學(xué)習(xí)的樣本.同時(shí),使用每個(gè)分段的所有采樣軌跡來(lái)完成元學(xué)習(xí),即學(xué)習(xí)初始策略.
但是,對(duì)于自適應(yīng)階段(3)和元學(xué)習(xí)階段(5)很難計(jì)算損失函數(shù)的梯度,因此本文利用策略梯度法來(lái)通過(guò)樣本近似梯度.
長(zhǎng)期累積損失函數(shù)取決于動(dòng)作的選擇和狀態(tài)的分布,因此很難針對(duì)θ寫出顯式表達(dá)式.幸運(yùn)的是,策略梯度定理[16]為本文提供了不涉及狀態(tài)分布μ導(dǎo)數(shù)的L(θ)梯度的解析表達(dá)式
這里分布μ是策略π下的分布,qπ(s,a)是從狀態(tài)s執(zhí)行a之后的損失函數(shù).隨機(jī)梯度通過(guò)下式計(jì)算這里Gk是長(zhǎng)期損失.這種更新規(guī)則基于一種蒙特拉洛算法REINFORCE[17],要求基于當(dāng)前策略的一段完整的軌跡{s1,a1,...,sH,aH}.
元學(xué)習(xí)(5)使用信賴域策略優(yōu)化法(TRPO)[18]更新.為節(jié)省空間,這里本文省略了TRPO的介紹.
綜上所述,本文提出了一種基于梯度的Meta-RL算法用于ATO系統(tǒng)的定速控制.通過(guò)求解一系列MDP,作者在變化的鐵路條件下對(duì)列車的定速控制問題進(jìn)行了建模.元強(qiáng)化學(xué)習(xí)能學(xué)習(xí)一個(gè)初始策略,該策略可以通過(guò)使用少量樣本來(lái)適應(yīng)新的MDP,而無(wú)需手動(dòng)重置其參數(shù).
本節(jié)討論元強(qiáng)化學(xué)習(xí)算法應(yīng)用到定速控制上的實(shí)現(xiàn)細(xì)節(jié).算法的仿真主要包含5個(gè)部分:仿真器、初始化、數(shù)據(jù)收集、神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及訓(xùn)練.
1) 本文的強(qiáng)化學(xué)習(xí)控制器不要求系統(tǒng)動(dòng)力學(xué)模型已知,但是需要一個(gè)仿真器以產(chǎn)生列車的系統(tǒng)輸入輸入數(shù)據(jù)(s,a,s',c).同時(shí),元學(xué)習(xí)要求已知任務(wù)的分布.這在列車定速控制中是很容易實(shí)現(xiàn)的.例如,假設(shè)鐵路的斜率在區(qū)間內(nèi)變化,將分布設(shè)置為該區(qū)間內(nèi)的均勻分布即可.
2) 初始化主要涉及策略神經(jīng)網(wǎng)絡(luò)的初始化.一般的強(qiáng)化學(xué)習(xí)算法還設(shè)計(jì)經(jīng)驗(yàn)池的初始化.經(jīng)驗(yàn)池可以是空的,或是存放從以往訓(xùn)練中保留下來(lái)的數(shù)據(jù).
3) 算法每次在一個(gè)任務(wù)中采樣前都會(huì)把狀態(tài)設(shè)置為某個(gè)初始狀態(tài).樣本會(huì)不斷收集并加入經(jīng)驗(yàn)池,以估計(jì)當(dāng)前任務(wù)中參數(shù)的梯度.在元學(xué)習(xí)階段,算法會(huì)從任務(wù)分布中隨機(jī)挑選任務(wù)進(jìn)行數(shù)據(jù)收集.
4) 在列車控制問題中,策略網(wǎng)絡(luò)設(shè)計(jì)為有兩個(gè)隱藏層的單輸入神經(jīng)元網(wǎng)絡(luò),每層有30個(gè)神經(jīng)元,ReLU函數(shù)用作激活函數(shù).由于實(shí)際中動(dòng)車組的最大牽引力約為300 kN,本文需要對(duì)策略網(wǎng)絡(luò)的輸出幅值進(jìn)行限制.為此,將輸出層設(shè)置為tanh函數(shù).ReLU函數(shù)和tanh函數(shù)的示意圖如圖5所示.神經(jīng)網(wǎng)絡(luò)示意圖如圖6所示.
圖5 左圖為ReLU函數(shù),右圖為tanh函數(shù)Fig.5 The left picture is ReLU function,and the right one is tahn function
圖6 策略網(wǎng)絡(luò)的結(jié)構(gòu)Fig.6 Structure of the policy network
5) 策略網(wǎng)絡(luò)的訓(xùn)練是算法的核心.元學(xué)習(xí)階段評(píng)估參數(shù)在經(jīng)過(guò)單步梯度下降之后的平均性能,據(jù)此進(jìn)行改進(jìn).參數(shù)的單步梯度下降可以通過(guò)一般的強(qiáng)化學(xué)習(xí)算法完成,本文中選擇的是TRPO算法.
注意,訓(xùn)練任務(wù)的數(shù)量N的大小對(duì)控制器的性能沒有明顯相關(guān)性.N增大,要學(xué)習(xí)的任務(wù)增多,故總樣本數(shù)量增大,訓(xùn)練時(shí)間更長(zhǎng),影響的是元學(xué)習(xí)階段所得初始策略的性能.但是,N增大后單步梯度下降的步長(zhǎng)也相應(yīng)改變,因此自適應(yīng)后所得策略性能不會(huì)有明顯變化.
在本節(jié)中,本文將通過(guò)仿真來(lái)驗(yàn)證Meta-RL算法的性能.作者首先描述了仿真用的自動(dòng)列車控制模型,然后通過(guò)元強(qiáng)化學(xué)習(xí)學(xué)習(xí)得到自適應(yīng)反饋控制器.最后,作者與線性二次控制器的結(jié)果進(jìn)行了對(duì)比,驗(yàn)證了自適應(yīng)控制器可以迅速適應(yīng)鐵路的新路況.
本文考慮一個(gè)經(jīng)典的ATO模型[2]用于驗(yàn)證作者的算法.請(qǐng)注意,此模型僅用于生成樣本以訓(xùn)練策略網(wǎng)絡(luò).系統(tǒng)動(dòng)力學(xué)方程為
這里co,cv和ca是系數(shù),p代表外界擾動(dòng),u是整輛列車的驅(qū)動(dòng)力.假設(shè)作者把整個(gè)鐵路分為N段,φn,n {1,2,...,N}表示每一段上的鐵路坡度.但是,式(6)中的參數(shù)無(wú)法準(zhǔn)確獲得,且由于未知原因(例如,線路條件和列車質(zhì)量)會(huì)在一定范圍內(nèi)變化.動(dòng)車組的最大牽引力約為300 kN.模型系數(shù)的值在表1中列出.
表1 動(dòng)力學(xué)參數(shù)Table 1 Dynamic parameters
Meta-RL算法在Linux系統(tǒng)中使用Python 3.6實(shí)現(xiàn).注意,仿真環(huán)境需要實(shí)現(xiàn)為離散時(shí)間模型.為此,使用前向Euler公式離散化ATO系統(tǒng)的動(dòng)力學(xué)模型.
在此,MDP的4個(gè)部分分別設(shè)計(jì)為:1)狀態(tài)skvk-vref;2)動(dòng)作為牽引力uk;3)損失函數(shù)為c(sk,uk)ρ1(vk -vref)2+ρ2u(k)2;4)轉(zhuǎn)移概率由列車動(dòng)力學(xué)模型(6)表示.在仿真中本文將軌道斜率作為環(huán)境標(biāo)簽n,即動(dòng)力學(xué)模型(6)隨著軌道斜率φn,n {1,2,...,N}而改變.離散系統(tǒng)的采樣時(shí)間為dt0.1 s.參數(shù)的擾動(dòng)范圍設(shè)置為表1中數(shù)值的5%,同時(shí)允許外界擾動(dòng)有5%的波動(dòng).由于動(dòng)車組的牽引力被限制為300 kN,本文設(shè)置軌道斜率從-2°到2°均勻變化,即任務(wù)分布p(T)為均勻分布.元強(qiáng)化學(xué)習(xí)算法設(shè)置如下.元學(xué)習(xí)的步長(zhǎng)β0.1,自適應(yīng)梯度更新的步長(zhǎng)為α0.5,每一個(gè)片段的長(zhǎng)度設(shè)置為H1000,用于訓(xùn)練的任務(wù)個(gè)數(shù)為30個(gè).元學(xué)習(xí)階段共進(jìn)行600次,即隨機(jī)采樣600次任務(wù)進(jìn)行元訓(xùn)練.自適應(yīng)階段采集樣本的時(shí)間窗長(zhǎng)度設(shè)置為30步,采樣10條軌跡.
列車定速控制問題的仿真結(jié)果如圖7和圖8所示.經(jīng)過(guò)600個(gè)訓(xùn)練步,本文獲得了策略的初始參數(shù).然后,從p(T)中隨機(jī)選擇一個(gè)任務(wù),對(duì)應(yīng)于鐵路坡度φn,并使用初始策略來(lái)控制列車fn(χk,uk,ξ).紅色虛線表示在Meta-RL學(xué)習(xí)的初始策略下獲得的速度軌跡.速度確實(shí)會(huì)很快收斂,但不會(huì)收斂到參考速度.這個(gè)結(jié)果是合理的,因?yàn)橛?xùn)練的初始策略在遇到新任務(wù)時(shí)需要一些樣本以進(jìn)行調(diào)整.為了收集這些樣本,列車在選定的鐵路坡度下遵循初始策略運(yùn)行.在將列車從40 m/s減速到20 m/s的實(shí)驗(yàn)中(圖7),本文設(shè)置了采樣軌跡的數(shù)量K10和采樣時(shí)間窗長(zhǎng)度H30,即適應(yīng)時(shí)間為30 s,與整個(gè)運(yùn)行周期相比,這是合理的.請(qǐng)注意,對(duì)于定速控制而言,初始策略下的這些采樣軌跡幾乎是相同的,這意味著能生成多個(gè)軌跡并將其復(fù)制以進(jìn)行梯度計(jì)算,進(jìn)一步減少采樣時(shí)間.藍(lán)線表明,按照調(diào)整后的策略,速度會(huì)迅速收斂到目標(biāo)值,而不會(huì)出現(xiàn)過(guò)沖.作者可以觀察到速度一直在微弱地振蕩,這是由于策略是由神經(jīng)網(wǎng)絡(luò)近似的.這兩個(gè)策略下的控制輸入軌跡如圖7和圖8所示.注意到由于輸出層為tanh函數(shù),神經(jīng)網(wǎng)絡(luò)的控制輸出很好地滿足了300 kN的限幅條件.
圖7 在初始策略以及自適應(yīng)后的策略控制下的輸入及速度軌跡Fig.7 The trajectories of input and velocity under the initial policy and adapted policy
圖8 在初始策略以及自適應(yīng)后的策略控制下的輸入及速度軌跡Fig.8 The trajectories of input and velocity under the initial policy and adapted policy
由于元強(qiáng)化學(xué)習(xí)基于最優(yōu)控制框架,接下來(lái),本文對(duì)列車進(jìn)行了基于模型的線性二次控制(LQR)作為對(duì)比.為此,將式(6)在v0處近似為線性模型
在這里,令A(yù)1-dt.cv/m,B-dt/m,wkdt((co+p)/m-gsinφn).由于線性二次控制無(wú)法估計(jì)當(dāng)前路況的斜率φn,令φn0.LQR控制器由下式給出
其中
l滿足vrefAvref+B(-Kvref+l)+dt.co/m以抵消外界噪聲的影響.設(shè)置Q1,R10-11.注意LQR控制器要求模型信息完全已知.為了滿足最大驅(qū)動(dòng)力的限制,本文將其控制輸入限制在300 kN以內(nèi).
LQR控制器的效果如圖9所示.可以看出,在兩條速度控制曲線中都存在明顯的靜差,即速度不能完全跟蹤參考速度.這是因?yàn)長(zhǎng)QR無(wú)法獲得當(dāng)前的路況信息,所以無(wú)法對(duì)軌道斜率帶來(lái)的誤差進(jìn)行補(bǔ)償.而且,LQR系統(tǒng)要求模型完全已知,這在實(shí)際中是很難滿足的.作為對(duì)比,本文提出的元強(qiáng)化學(xué)習(xí)控制器則不需要已知任何動(dòng)力學(xué)模型參數(shù).
圖9 應(yīng)用LQR后的控制效果Fig.9 The trajectories of input and velocity under LQR
為了展示元強(qiáng)化學(xué)習(xí)控制器的自適應(yīng)性能,測(cè)試列車以恒定速度要求經(jīng)過(guò)不同區(qū)段時(shí)的速度保持情況.仿真時(shí)間設(shè)定為300 s,自適應(yīng)時(shí)間為20 s,列車參考速度為10 m/s,在0~100 s,100~200 s及200~300 s區(qū)間內(nèi)的軌道斜率分別為0,1°以及2°.同時(shí),模擬列車的真實(shí)運(yùn)行情況,對(duì)系統(tǒng)矩陣A引入5%的標(biāo)準(zhǔn)高斯隨機(jī)噪聲以及外界擾動(dòng).元強(qiáng)化學(xué)習(xí)控制器下的速度變化曲線如圖10所示.可以看出列車在有擾動(dòng)以及參數(shù)噪聲的情況下開始時(shí)仍能快速控制到參考速度.在100 s以及200 s時(shí)刻進(jìn)入自適應(yīng)階段收集數(shù)據(jù),速度由于軌道斜率突變出現(xiàn)小幅度偏離,20 s后自適應(yīng)控制器即將速度調(diào)節(jié)到參考速度.最后,本文畫出了不同區(qū)間下列車的變速控制曲線,即在0~100 s,100~200 s及200~300 s區(qū)間內(nèi)的參考速度分別為10 m/s,20 m/s以及5 m/s,控制效果如圖11所示.同樣的,除了在軌道斜率突變的自適應(yīng)階段速度控制受到影響外,列車均可被很好地控制到參考速度.
圖10 不同斜率區(qū)間下的定速控制Fig.10 Velocity regulation under multiple railway segments
圖11 不同斜率區(qū)間下的變速控制Fig.11 Velocity tracking under multiple railway segments
本文提出了一種無(wú)模型的元強(qiáng)化學(xué)習(xí)控制框架,用于在變化的鐵路運(yùn)行條件下控制列車自動(dòng)運(yùn)行的速度.為此,作者將定速控制問題建模為一系列轉(zhuǎn)移概率未知的平穩(wěn)馬爾可夫決策過(guò)程MDP.在元學(xué)習(xí)框架下,本文提出了一種無(wú)模型的定速控制方法,能學(xué)習(xí)一種自適應(yīng)控制器,其在變化的環(huán)境下將列車的定速控制到目標(biāo)值.仿真驗(yàn)證了元強(qiáng)化學(xué)習(xí)的自適應(yīng)控制器的性能.
比定速控制問題更一般的情況是自動(dòng)列車運(yùn)行的速度跟蹤問題,其要求在時(shí)變鐵路條件下跟蹤速度軌跡.這將是未來(lái)的工作.