莫浩楠 楊中平 林 飛 王 玙 安星錕
(北京交通大學(xué)電氣工程學(xué)院 北京 100044)
隨著城市建設(shè)規(guī)模的不斷擴大,人們對軌道交通的需求越來越高,環(huán)境保護意識也不斷增強。由于有軌電車相比于電動客車具有載客量大、運行速度快、污染少等優(yōu)點,因此大力發(fā)展有軌電車將會緩解城市交通壓力,提高出行效率[1]。其中車載儲能的供電方式改善了城市景觀,提高了出行的安全性[2],然而單一的儲能元件難以滿足有軌電車在運行時能量和功率的全部需求,需要結(jié)合高能量密度和高功率密度的儲能元件進行混合儲能。
混合儲能系統(tǒng)需要提供有軌電車全部牽引能量以滿足其在運行過程中的速度需求,并且能夠充分吸收再生制動能量,實現(xiàn)能量循環(huán)利用。其中能量管理策略的設(shè)計至關(guān)重要,其首要任務(wù)是在滿足駕駛員需求功率前提下,實現(xiàn)對動力源功率優(yōu)化分配,使整車性能最佳。然而,實際駕駛工況的不確定性和擾動性極大地增加了能量管理策略的設(shè)計難度。為此,開發(fā)高效、適應(yīng)性強的能量管理策略是目前研究的關(guān)鍵問題。
近年來,針對混合儲能系統(tǒng)的能量管理策略有多種,主要分為兩大類:基于規(guī)則的能量管理策略和基于優(yōu)化的能量管理策略。其中,基于規(guī)則的能量管理策略分為邏輯閾值法[3-4]、比例法[5]、模糊控制法[6-7]等,主要通過系統(tǒng)需求功率及儲能系統(tǒng)的狀態(tài)進行判斷,從而做出實時的功率分配。該類方法由于控制邏輯簡單、實用性強、實時響應(yīng)快,在工程領(lǐng)域受到了廣泛的應(yīng)用。但控制邏輯的設(shè)定主要依據(jù)設(shè)計人員的工程經(jīng)驗,無法實現(xiàn)優(yōu)化控制,若規(guī)則設(shè)置不合理,則會降低系統(tǒng)的控制效果。
基于優(yōu)化的能量管理策略主要有全局優(yōu)化[8-10]和實時優(yōu)化[15-21]的策略。其中全局優(yōu)化的算法需提前獲知整個行駛工況,計算量大,無法直接應(yīng)用于實時控制系統(tǒng)。常見的做法是根據(jù)離線優(yōu)化的結(jié)果提取相應(yīng)的規(guī)則,轉(zhuǎn)換為在線的能量管理策略,或者通過結(jié)合駕駛工況識別和模型預(yù)測控制等技術(shù)提高能量管理策略的適用性。文獻[8-9]針對動態(tài)規(guī)劃優(yōu)化結(jié)果無法實時應(yīng)用的問題,從優(yōu)化結(jié)果提取相應(yīng)的規(guī)則,提出新的基于規(guī)則的能量管理策略。這種以離線指導(dǎo)在線的方法未考慮駕駛條件變化較大時對能量管理策略產(chǎn)生的影響。文獻[11-12]采用神經(jīng)網(wǎng)絡(luò)對駕駛工況進行實時識別,結(jié)合全局優(yōu)化算法的結(jié)果提取功率分配規(guī)則,并存儲于控制模塊中以供不同工況選擇。這種方法雖然對不同工況下的能量管理策略進行了優(yōu)化,但其優(yōu)化結(jié)果受限,不能實現(xiàn)準確控制。為了使得能量管理策略更加適應(yīng)當(dāng)前駕駛工況,文獻[13-14]引入了模型預(yù)測算法,將整個行駛工況內(nèi)的全局最優(yōu)問題轉(zhuǎn)換為預(yù)測時域內(nèi)的局部優(yōu)化問題,通過滾動優(yōu)化不斷更新預(yù)測時域內(nèi)未來行駛狀態(tài),獲得優(yōu)化結(jié)果。但這種方法很大程度上依賴對未來工況預(yù)測的精準性,并且不能得到全局最優(yōu)解。
目前,機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法已經(jīng)應(yīng)用到了混合儲能實時能量管理策略中。強化學(xué)習(xí)是一種機器學(xué)習(xí)算法,在機器人控制、交通運輸和運籌學(xué)等領(lǐng)域有著廣泛的應(yīng)用[15]。文獻[15-18]將強化學(xué)習(xí)應(yīng)用到求解插電式混合動力車輛的能量管理問題中。通過強化學(xué)習(xí)離線優(yōu)化結(jié)果對儲能系統(tǒng)進行實時控制,并較好地優(yōu)化了燃油經(jīng)濟性。強化學(xué)習(xí)對工況變化具有一定的魯棒性,但它的優(yōu)化性能只有在相似的工況中才能得到保證。文獻[19-21]引入了Kullback-Leibler偏異率,通過實時遞歸算法更新需求功率狀態(tài)轉(zhuǎn)移概率矩陣,開發(fā)基于強化學(xué)習(xí)的在線能量管理策略,使其更加適應(yīng)當(dāng)前駕駛工況,提高了能量管理策略的適用性和魯棒性。
由于有軌電車起停頻繁且系統(tǒng)功率等級高,通過在線更新強化學(xué)習(xí)策略的方法在有軌電車中受到限制。本文針對有軌電車的駕駛工況及大功率應(yīng)用場合,提出了基于工況識別的強化學(xué)習(xí)能量管理策略。
本文首先對有軌電車混合儲能系統(tǒng)進行介紹,根據(jù)實車駕駛歷史數(shù)據(jù)構(gòu)建了有軌電車駕駛工況;然后通過強化學(xué)習(xí)算法得到了不同駕駛工況下的能量管理策略,并采用改進的學(xué)習(xí)向量量化(Learning Vector Quantization,LVQ)神經(jīng)網(wǎng)絡(luò)對當(dāng)前的駕駛工況進行識別,有軌電車根據(jù)當(dāng)前識別的工況選擇相應(yīng)的最優(yōu)控制表實時做出決策;最后采用實車運行數(shù)據(jù)進行仿真與實驗,驗證了該策略的有效性及可行性。
對于混合儲能系統(tǒng)而言,不同的儲能元件通過不同的儲能方式連接到公共直流母線上,通過雙向DC-DC變換器控制不同的電壓等級之間的功率流動。由于鈦酸鋰電池安全性高、能量密度和功率密度兼具,超級電容充放電速度快、功率密度高且循環(huán)壽命長,為此,本文采用鈦酸鋰電池和超級電容進行混合儲能,由戴維南定理可知,儲能系統(tǒng)串并聯(lián)以后其等效電路模型依然不變,系統(tǒng)拓撲結(jié)構(gòu)如圖1所示。
圖1 混合儲能系統(tǒng)拓撲結(jié)構(gòu)Fig.1 Topology of hybrid energy storage system
該拓撲鈦酸鋰電池系統(tǒng)通過DC-DC并聯(lián)到直流母線,超級電容系統(tǒng)直接并聯(lián)到直流母線。鈦酸鋰電池功率可通過DC-DC直接控制,可以通過控制電池的充放電電流,延長其壽命周期,適用于以超級電容為主要供電的場合。其中,鈦酸鋰電池系統(tǒng)使用模型為一階模型,采用Arbin單體測試儀測得其單體開路電壓Vcbocv、內(nèi)阻Rcbo、極化電阻Rcbp隨荷電狀態(tài)(State of Charge,SOC)變化曲線如圖2所示。
圖2 Rcbo、Rcbp和Vcbocv隨SOC的變化曲線Fig.2 Rcbo,Rcbp and Vcbocv vs.SOC
鋰電池系統(tǒng)離散化的電流、極化電壓、外電壓和時間常數(shù)表達式為
式中,k為離散時間常數(shù);Ib為鋰電池系統(tǒng)電流;Δt為時間間隔;τ為時間常數(shù);Rbp、Cbp、Rbo分別為電池系統(tǒng)的極化電阻、極化電容、歐姆內(nèi)阻;Vbocv、Vb、Vbp分別為電池系統(tǒng)開路電壓、端電壓及極化電壓;Pb為鋰電池系統(tǒng)端的功率。
本文使用安時積分法計算鈦酸鋰電池系統(tǒng)荷電狀態(tài)SOC,表達式為
式中,Q0為鈦酸鋰電池系統(tǒng)總電荷量。
超級電容系統(tǒng)采用模型為內(nèi)阻阻值不變的串電阻模型。超級電容系統(tǒng)離散化的開路電壓、外電壓和電流表達式為
式中,Vscocv、Vsc分別為超級電容系統(tǒng)的開路電壓與端電壓;Isc為超級電容系統(tǒng)的電流;Rsc為超級電容系統(tǒng)內(nèi)阻;Csc為超級電容系統(tǒng)容值;Psc為超級電容系統(tǒng)端的功率。
采用電壓平方的關(guān)系表達超級電容系統(tǒng)的SOC,表達式為
式中,Vscocvmax為超級電容系統(tǒng)的額定電壓。
本文提取武漢東湖線有軌電車連續(xù)運行10天的數(shù)據(jù),包括工作日與周末。該數(shù)據(jù)從有軌電車車載監(jiān)測裝置中獲取,記錄有軌電車自出庫至回庫的全部運行狀態(tài),采樣頻率為1Hz。有軌電車運行時間為6:30~22:00,發(fā)車間隔約為6min,運行時長為15.5h。采用短行程分析法對有軌電車駕駛工況進行構(gòu)建。不同于非軌道交通車輛,有軌電車的運行路徑固定,且在運行時需遵循發(fā)車間隔、限速等要求,有較為明顯的規(guī)則性。定義有軌電車起點和終點的加速度和速度都為0的時刻之間的行程為短行程,如圖3所示。將數(shù)據(jù)處理后得到2 782個短行程。
圖3 短行程分割示意圖Fig.3 Schematic diagram of short stroke division
提取每段短行程的特征參數(shù),選取15個重要特征參數(shù)反映有軌電車短行程的運行信息,代表性特征值見表 1。定義低速vlow∈(0,20]km/h,中速vmid∈(20,40]km/h,高速vhigh>40km/h。
表1 代表性特征值Tab.1 Representative eigenvalue
為了消除單位不同帶來的影響,將原始特征參數(shù)進行標準化處理,并采用主成分分析法對標準化后的數(shù)據(jù)進行降維處理以減小數(shù)據(jù)重疊。選擇累積貢獻率達到80%以上前四個主成分代表原始變量。主成分貢獻率見表2。
表2 主成分貢獻率Tab.2 Principal component contribution rate
根據(jù)東湖線有軌電車的行駛狀況,可以將短行程片段劃分為三類,采用K均值聚類進行分析,其聚類結(jié)果及各工況特征參數(shù)見表3。
由表3可以看出,三種工況特征參數(shù)區(qū)分明顯,對各工況特征參數(shù)進行分析。工況一數(shù)目最少,平均運行速度、平均加速度和減速度絕對值、高速運行時間占比最高,稱為高速工況。工況二平均運行速度、平均加速度和減速度絕對值最低,低速運行時間占比高達86.18%,稱為低速工況。工況二特征參數(shù)介于工況一和工況三之間,稱為中速工況。
表3 工況聚類結(jié)果及特征值Tab.3 Working condition clustering results and eigenvalues
強化學(xué)習(xí)(Reinforcement Learning,RL)是一種自適應(yīng)最優(yōu)控制方法,其目的是在觀察和分析系統(tǒng)行為的基礎(chǔ)上,通過試錯學(xué)習(xí)作出最優(yōu)決策,以改進系統(tǒng)性能,得到的策略是狀態(tài)到動作的映射,與時間無關(guān),因而可以直接應(yīng)用到在線控制。對于混合動力有軌電車而言,運行過程中的牽引制動功率是一個隨機狀態(tài),這樣一個隨機過程滿足馬爾可夫性質(zhì),即從一個狀態(tài)轉(zhuǎn)移到另一狀態(tài)的概率只與當(dāng)前系統(tǒng)所處狀態(tài)有關(guān),與之前系統(tǒng)所處狀態(tài)無關(guān)。因此,混合動力有軌電車的能量管理問題本質(zhì)上是一個馬爾可夫決策過程(Markov Decision Process,MDP)。
有軌電車能量管理問題可以表示為在約束范圍內(nèi)最小化目標函數(shù)的約束優(yōu)化問題,目標函數(shù)選擇儲能系統(tǒng)的能量損失。
式中,Ploss為儲能系統(tǒng)總損耗;Pbloss為電池內(nèi)阻損耗;Pscloss為超級電容內(nèi)阻損耗;Pdcloss為DC-DC損耗。各系統(tǒng)損耗通過式(6)計算。
式中,ηdcdc為DC-DC轉(zhuǎn)換器的效率。
為了保證儲能系統(tǒng)工作在合理范圍內(nèi),能量管理問題受到以下約束條件的限制。
式中,SOCbmax和SOCbmin分別為電池系統(tǒng)荷電狀態(tài)的上、下限;SOCscmax和SOCscmin分別為超級電容系統(tǒng)荷電狀態(tài)的上、下限;Ibmax和Iscmax分別為電池和超級電容系統(tǒng)的最大放電電流;Ibmin和Iscmin分別為電池和超級電容系統(tǒng)最大充電電流。
基于強化學(xué)習(xí)能量管理策略的一個基本步驟是對列車運行過程中的需求功率進行建模。需求功率變化可以看作是一個平穩(wěn)的馬爾可夫過程,而需求功率狀態(tài)轉(zhuǎn)移概率矩陣可以通過式(8)最鄰近法和最大似然估計法計算。
式中,n為需求功率狀態(tài)數(shù)量;Pij為在一定速度下功率Pi到Pj的轉(zhuǎn)移概率;Nij為Pi到Pj的次數(shù);Ni為狀態(tài)Pi產(chǎn)生的總次數(shù)。
計算不同駕駛工況下的狀態(tài)轉(zhuǎn)移概率過程如圖4所示,根據(jù)1.2節(jié)構(gòu)建的三種駕駛工況提取狀態(tài)轉(zhuǎn)移概率。
圖4 不同工況狀態(tài)轉(zhuǎn)移概率計算過程Fig.4 Calculation process of state transition probability under different working conditions
對于有軌電車能量管理問題,選擇有軌電車運行速度、有軌電車功率需求、電池SOC和超級電容SOC作為狀態(tài)變量:st∈S= {V,Preq,SOCb,SOCsc}。電池輸出功率為決策變量:at∈A={Pbat}。即時獎勵定義為功率損耗的倒數(shù):rt∈R= {1 /Ploss(st,at)}。
基于強化學(xué)習(xí)的控制策略是一個從狀態(tài)到動作的映射函數(shù)π:S-A,當(dāng)π被用作一系列完整的決策策略時,狀態(tài)s的最優(yōu)值被定義為折扣回報函數(shù)的期望之和,即
式中,γ∈ [0,1]為折扣因子。
根據(jù)狀態(tài)轉(zhuǎn)移概率及貝爾曼最優(yōu)方程的定義,可以將式(9)改寫為
基于給定的最優(yōu)值函數(shù),可通過式(11)計算最優(yōu)策略。
對于狀態(tài)s和動作a所對應(yīng)的值函數(shù)可用Q來表示,即
在Q-learning算法中,Q值可以按照式(13)進行更新。
式中,n為迭代次數(shù);α為算法中的學(xué)習(xí)率,α∈ [0,1]。學(xué)習(xí)率越大收斂速度越快,但會導(dǎo)致過擬合問題。本文選擇的學(xué)習(xí)率為。
由于不同工況下的功率狀態(tài)轉(zhuǎn)移概率有較大差異,若直接依據(jù)歷史行駛數(shù)據(jù)構(gòu)建狀態(tài)轉(zhuǎn)移矩陣,會使系統(tǒng)控制性能下降,降低魯棒性。為使得能量管理策略能更加適應(yīng)有軌電車復(fù)雜駕駛工況,將具有相似的馬爾科夫鏈模型的駕駛工況進行歸類,并采用改進的LVQ神經(jīng)網(wǎng)絡(luò)進行工況識別,以規(guī)避駕駛工況變化較大時對能量管理策略的影響。如圖5所示,LVQ神經(jīng)網(wǎng)絡(luò)主要由輸入層、競爭層和線性輸出層組成,通過不斷訓(xùn)練輸入層和隱含層之間的權(quán)值進而獲得更好的分類結(jié)果。輸入層的15個輸入節(jié)點分別對應(yīng)行駛工況的15個特征參數(shù),競爭層選擇80個神經(jīng)元,線性輸出層神經(jīng)元個數(shù)為3,對應(yīng)著期望識別的三種工況。
圖5 LVQ神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)Fig.5 LVQ neural network training structure
由于LVQ 網(wǎng)絡(luò)的初始權(quán)值向量對網(wǎng)絡(luò)訓(xùn)練的影響很大,為了獲得良好的初始權(quán)值,提高網(wǎng)絡(luò)分類性能,本文采用粒子群算法對網(wǎng)絡(luò)初始權(quán)值進行優(yōu)化,目標函數(shù)為訓(xùn)練數(shù)據(jù)預(yù)測誤差。
式中,Ti為神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸出數(shù)據(jù);Yi為神經(jīng)網(wǎng)絡(luò)預(yù)測數(shù)據(jù);abs(·)為絕對值函數(shù)。
采用移動時間窗口的形式進行工況數(shù)據(jù)的更新,識別窗口T=120s,預(yù)測窗口Tf=20s。通過實時計算時間窗口T內(nèi)的工況特征參數(shù)進行工況識別,作為未來Tf窗口的駕駛工況。對東湖線某天一段時間內(nèi)的實車數(shù)據(jù)進行實時工況識別,識別結(jié)果如圖6所示。
圖6 工況在線識別結(jié)果Fig.6 Working condition online recognition result
由于采用移動窗口的形式進行工況識別,窗口內(nèi)的特征參數(shù)可能和當(dāng)前短行程的特征參數(shù)有一定的差異,使得識別結(jié)果出現(xiàn)一定的誤差,但由于不同工況特征參數(shù)差異較大,LVQ神經(jīng)網(wǎng)絡(luò)能夠大致識別工況類型。
基于工況識別的強化學(xué)習(xí)能量管理策略流程如圖7所示,主要包括離線優(yōu)化求解和在線實時控制兩個流程。在線實時控制時,通過截取時間窗內(nèi)的實際工況信息進行在線工況識別,有軌電車根據(jù)當(dāng)前識別工況、運行速度、需求功率及儲能系統(tǒng)SOC并結(jié)合該類工況下的最優(yōu)控制表實時輸出電池需要承擔(dān)的功率。
圖7 基于工況識別的強化學(xué)習(xí)能量管理策略建立流程Fig.7 Process of establishing RL energy management strategy based on working condition recognition
本文以東湖線實車駕駛工況,采用遍歷方法對混合儲能系統(tǒng)進行容量配置,得到滿足邊界條件的儲能系統(tǒng)參數(shù)見表4。
表4 儲能系統(tǒng)參數(shù)Tab.4 Energy storage device parameters
以工況一為例,圖8給出在速度為40km/h時強化學(xué)習(xí)算法中每500次迭代后的Q值平均誤差變化曲線。選擇折扣因子為0.9,并采用貪婪概率1-[1/lg(n/100+2.8)]進行動作選擇。在迭代初期,隨機選擇動作概率較大,主要選擇探索環(huán)境擴充樣本,隨著訓(xùn)練次數(shù)的上升,隨機選擇動作概率逐漸減小,經(jīng)過充分“試錯”學(xué)習(xí)之后,由探索環(huán)境狀態(tài)逐漸轉(zhuǎn)為利用知識狀態(tài)。當(dāng)?shù)螖?shù)為5 000萬次時,Q值平均誤差逐漸趨近于0,算法達到收斂。
圖8 每500次迭代Q值平均誤差Fig.8 Mean discrepancy of Q value per 500 iterations
圖9為在工況一條件下,速度為40km/h,不同需求功率等級下的動作變量變化情況。從圖中可以看到,鈦酸鋰電池輸出功率隨著鈦酸鋰電池SOCb、超級電容SOCsc和需求功率變化而變化,具有一定的變化趨勢,但無明顯的規(guī)則。當(dāng)系統(tǒng)牽引功率較小時主要由超級電容提供功率,且超級電容SOCsc較低時,電池提供較高功率。當(dāng)系統(tǒng)制動功率較小且超級電容SOCsc較高時,主要由電池吸收制動功率。當(dāng)系統(tǒng)牽引、制動功率較高時,由于電池額定功率限制,電池和超級電容分別承擔(dān)相應(yīng)的功率。
圖9 不同狀態(tài)下動作變量分布Fig.9 Distribution of action variables in different states
需要注意的是,由于有軌電車到站充電的過程不具有馬爾科夫性,由強化學(xué)習(xí)得到的能量管理策略只在有軌電車運行過程中使用,到站進行恒流充電,采用優(yōu)先超級電容充電策略。
以一條實車駕駛數(shù)據(jù)作為輸入條件,如圖10所示,來驗證工況識別的強化學(xué)習(xí)能量管理策略的優(yōu)化效果,其中充電站以500A恒流充電。
圖10 實車駕駛曲線-1Fig.10 Real vehicle driving curve -1
圖11為儲能系統(tǒng)功率分配曲線及SOC曲線,從中可以看出,由于鈦酸鋰電池系統(tǒng)SOC充足,制動功率基本都由超級電容系統(tǒng)吸收,且在牽引工況時,充分利用超級電容供電,減少了電池的使用,在一定程度上可以增加電池的使用壽命并降低儲能系統(tǒng)損耗。
圖11 儲能系統(tǒng)功率分配曲線及SOC變化曲線-1Fig.11 Energy storage system power distribution curve and SOC change curve -1
為進一步驗證基于工況識別的RL策略的有效性,將其與無工況識別的RL策略和基于規(guī)則的最優(yōu)比例法進行對比。
圖12a對三種策略超級電容的SOC 進行了對比。三種方法SOC軌跡均有差異,由于超級電容SOC使用范圍限制,其SOC都在0.4~1。可以看出基于RL的策略充分使用了超級電容。
圖12 三種策略下超級電容SOC及總能耗對比-1Fig.12 Comparison of super capacitor SOC and total energy consumption under three strategies -1
圖12b和圖12c對三種策略儲能系統(tǒng)能耗進行了對比。從儲能系統(tǒng)能耗分布來看,基于RL的策略電池內(nèi)阻損耗和DC-DC損耗都會減小,超級電容內(nèi)阻損耗會增加,但儲能系統(tǒng)總能耗都會減小。三種策略下儲能系統(tǒng)能耗對比見表5。從表5中可以看出,無工況識別的RL策略總能耗降低11.2%,有工況識別的RL策略總能耗降低了15.7%,均能減少儲能系統(tǒng)能量損失,提高系統(tǒng)效率??梢钥闯?,在進行強化學(xué)習(xí)離線優(yōu)化時,對有軌電車駕駛工況進行聚類分析,將具有相似馬爾科夫狀態(tài)轉(zhuǎn)移概率的工況歸為一類,可以得到更好的節(jié)能效果。
表5 三種能量管理策略下的儲能系統(tǒng)能耗對比-1Tab.5 Comparison of energy consumption of EMS under three energy management strategies -1
為充分驗證基于工況識別強化學(xué)習(xí)策略的適應(yīng)性,將求得的策略應(yīng)用于東湖線另外一條實際駕駛工況,其中充電站以1kA恒流充電,如圖13所示。
圖13 實車駕駛曲線-2Fig.13 Real vehicle driving curve -2
得到的基于工況識別的強化學(xué)習(xí)策略適應(yīng)性驗證工況的功率分配曲線及儲能系統(tǒng)SOC曲線如圖14所示。
圖14 儲能系統(tǒng)功率分配曲線及SOC變化曲線-2Fig.14 Energy storage system power distribution curve and SOC change curve -2
將適應(yīng)性驗證工況的三種能量管理策略進行對比,分別得到超級電容SOC曲線及儲能系統(tǒng)能耗,如圖15和表6所示。
圖15 三種策略下超級電容SOC對比-2Fig.15 State of charge of super capacitors comparison under three strategies -2
表6 三種能量管理策略下的儲能系統(tǒng)能耗對比-2Tab.6 Comparison of energy consumption of EMS under three energy management strategies -2
可以看到,適應(yīng)性驗證工況與原工況的仿真結(jié)果趨于一致。通過改變?nèi)N能量管理策略的驗證工況,得到基于工況識別的強化學(xué)習(xí)策略在不同工況下均優(yōu)于無工況識別強化學(xué)習(xí)策略及最優(yōu)比例法,從而說明強化學(xué)習(xí)算法對不同工況的適應(yīng)性。
為驗證基于工況識別的強化學(xué)習(xí)策略的在線決策的有效性及可行性,在如圖16a所示的90kW電池-超級電容混合儲能系統(tǒng)實驗平臺上進行實驗。實驗平臺的儲能系統(tǒng)基本參數(shù)見表7。
表7 混合儲能平臺參數(shù)Tab.7 Hybrid energy storage platform parameters
本實驗主要驗證混合儲能系統(tǒng)在不同工況下的強化學(xué)習(xí)能量管理策略的控制效果。設(shè)計驗證實驗接線如圖16b所示。上位機通過CAN通信,接收由電機通過DSP傳輸?shù)臄?shù)據(jù),輸入至Matlab軟件中進行工況在線識別,并通過強化學(xué)習(xí)已優(yōu)化出的最優(yōu)控制表進行在線決策,采用Python讀取功率分配結(jié)果,并通過CAN通信將指令傳回DSP,使混合儲能系統(tǒng)執(zhí)行充放電指令。上位機通過以太網(wǎng)-CAN轉(zhuǎn)換模塊輸出信號,與電池的BMS模塊所輸出的信息并聯(lián)在CAN總線上。
圖16 混合儲能實驗驗證平臺Fig.16 Hybrid energy storage experimental verification platform
以有軌電車實際運行數(shù)據(jù)作為輸入,由于實驗平臺功率等級的限制,對列車負載曲線進行等比例縮放處理,縮放后最大功率約為40kW,如圖17所示。
圖17 實驗輸入曲線-1Fig.17 Experimental input curve -1
以最優(yōu)比例法、無工況識別的強化學(xué)習(xí)策略及基于工況識別的強化學(xué)習(xí)策略依次進行實驗。所得電池、超級電容的電流曲線、超級電容的電壓曲線及母線電壓曲線如圖18所示。
圖18 三種策略下的實驗波形-1Fig.18 Three strategys experimental waveforms -1
采用另一條實際運行數(shù)據(jù)進行實驗驗證,如圖19,驗證強化學(xué)習(xí)策略對不同工況的適應(yīng)性。
圖19 實驗輸入曲線-2Fig.19 Experimental input curve -2
圖20 三種策略下的實驗波形-2Fig.20 Three strategys experimental waveforms -2
通過90kW樣機實驗可得,在混合儲能系統(tǒng)實際運行時,通過上位機向控制器實時發(fā)送指令,控制混合儲能系統(tǒng)動作,儲能系統(tǒng)能夠跟隨功率分配結(jié)果進行相應(yīng)充放電。由實驗波形可以看出,基于強化學(xué)習(xí)的能量管理策略能夠根據(jù)系統(tǒng)狀態(tài)做出實時決策,充分利用超級電容進行供電以減少系統(tǒng)損耗。通過加入對工況的在線識別過程,可提升在線決策過程中的控制效果,并滿足實時控制需求,實現(xiàn)工程應(yīng)用。
本文以有軌電車車載混合儲能系統(tǒng)為研究對象,由于需求功率的隨機性,將有軌電車的功率需求看做馬爾科夫過程,并考慮到駕駛工況變化較大時對能量管理策略的影響,提出了基于工況識別的強化學(xué)習(xí)能量管理策略。通過主成分分析及K均值聚類得到了高速、中速、低速三種駕駛工況,并得到不同工況下的功率狀態(tài)轉(zhuǎn)移概率。采用強化學(xué)習(xí)算法得到不同工況及速度下的電池功率的動作值,并通過改進的LVQ神經(jīng)網(wǎng)絡(luò)實時識別當(dāng)前的駕駛工況進而做出相應(yīng)的決策,使其能夠在相似工況中獲得更好的控制效果。與最優(yōu)比例法相比,該方法儲能系統(tǒng)總能耗降低了約15.7%,且比無工況識別的RL能量管理策略具有更好的節(jié)能效果。將本文的策略應(yīng)用于東湖線另外一條實際駕駛工況,驗證了基于工況識別的強化學(xué)習(xí)策略對不同工況的適應(yīng)性。通過90kW的實驗平臺進行模擬運行,驗證了本文提出的基于工況識別的強化學(xué)習(xí)策略的有效性,證明了該策略在工程應(yīng)用中的可行性。