王惠慶
MC-Q強(qiáng)化學(xué)習(xí)的PHEV能量管理策略
王惠慶
(長安大學(xué) 汽車學(xué)院,陜西 西安 710064)
插電式混合動(dòng)力汽車具有節(jié)能的特點(diǎn),而多動(dòng)力源之間的能量管理策略對(duì)混合動(dòng)力汽車能耗有很大的影響,故文章以一款在固定線路上運(yùn)行的串聯(lián)插電式混合動(dòng)力城市客車為例,基于以往的行駛工況,根據(jù)馬爾科夫理論,把需求功率隨時(shí)間的變化轉(zhuǎn)換為狀態(tài)轉(zhuǎn)移矩陣,用概率矩陣生成符合實(shí)際使用條件的隨機(jī)功率序列。建立Q強(qiáng)化學(xué)習(xí)模塊,使用得到的隨機(jī)功率序列進(jìn)行訓(xùn)練,實(shí)現(xiàn)城市客車能量分配的實(shí)時(shí)優(yōu)化控制。仿真結(jié)果表明,文章所提出的強(qiáng)化學(xué)習(xí)能量管理算法相比于規(guī)則控制算法能明顯的優(yōu)化能耗,對(duì)比動(dòng)態(tài)規(guī)劃全局優(yōu)化策略總能耗僅輕微增長,控制策略可實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。
插電式混合動(dòng)力汽車;能量管理;強(qiáng)化學(xué)習(xí);轉(zhuǎn)移概率矩陣
能量管理策略對(duì)插電式混合動(dòng)力汽車(Plug- in hybrid electric vehicle, PHEV)的能耗效率有很大的影響,各國研究人員已經(jīng)提出了很多的能量管理策略,包括基于規(guī)則的消耗-維持(Charge Depletion-Charge Sustaining, CD-CS)策略,基于全局優(yōu)化的動(dòng)態(tài)規(guī)劃和龐特里亞金最大化原理(Pontryagin's Maximum Principle, PMP)控制策略,和可實(shí)時(shí)應(yīng)用的等效燃油最小化策略等。近年來,針對(duì)強(qiáng)化學(xué)習(xí)的研究越來越多[1],而Q學(xué)習(xí)算法作為一種用于機(jī)器學(xué)習(xí),基于數(shù)據(jù)的與模型無關(guān)的強(qiáng)化學(xué)習(xí)算法,被越來越多用于混合動(dòng)力汽車的能量管理策略當(dāng)中[2]。但針對(duì)插電式混合動(dòng)力汽車強(qiáng)化Q學(xué)習(xí)算法的能量管理策略研究較少,而且強(qiáng)化學(xué)習(xí)要求的樣本量較大,使用實(shí)際工況很難訓(xùn)練出較好結(jié)果。
針對(duì)以上問題,本文基于一款固定路線運(yùn)行的插電式混合動(dòng)力城市客車,在傳統(tǒng)的Q學(xué)習(xí)算法的基礎(chǔ)上,用實(shí)測西安工況得到關(guān)于功率的馬爾科夫狀態(tài)轉(zhuǎn)移矩陣,生成隨機(jī)功率序列訓(xùn)練Q學(xué)習(xí)矩陣,得到MC-Q能量管理算法。最終實(shí)現(xiàn)針對(duì)插電式混合動(dòng)力汽車能量管理的實(shí)時(shí)控制,并把仿真結(jié)果與動(dòng)態(tài)規(guī)劃(Dynamic Programming, DP)算法和CD-CS算法相比較。
本文所選取的PHEV動(dòng)力系統(tǒng)結(jié)構(gòu)如圖1所示,發(fā)動(dòng)機(jī)和集成式智能啟動(dòng)驅(qū)動(dòng)(Integrated Starter Generator, ISG)電機(jī)共同組成發(fā)動(dòng)機(jī)驅(qū)動(dòng)型發(fā)電機(jī)(Engine Generator Unit, EGU)單元,與驅(qū)動(dòng)電機(jī)串聯(lián),把發(fā)動(dòng)機(jī)提供的機(jī)械能轉(zhuǎn)換為電能,驅(qū)動(dòng)車輛行駛,車輛可以通過外接電源為磷酸鐵鋰電池充電,該款車型整備質(zhì)量為13 500 kg,輪邊減速器減速比為13.9,采用雙電機(jī)驅(qū)動(dòng),單體電池電壓為3.2 V,電池總電壓為537.6 V,總?cè)萘繛?80 Ah。
圖1 PHEV動(dòng)力系統(tǒng)結(jié)構(gòu)
根據(jù)汽車?yán)碚撈囆旭偲胶夥匠蘙5],車輛縱向動(dòng)力學(xué)模型可以表示為
式中,為總質(zhì)量;為重力加速度;為滾動(dòng)阻力系數(shù);為車速;d為空氣阻力系數(shù);為車輛迎風(fēng)面積;為汽車旋轉(zhuǎn)質(zhì)量換算系數(shù);為加速度;t為傳動(dòng)系統(tǒng)機(jī)械效率;r為車輛行駛的需求功率。
車輛需求功率和電池輸出功率b和EGU輸出功率的egu關(guān)系為
對(duì)于發(fā)動(dòng)機(jī)和驅(qū)動(dòng)電機(jī),根據(jù)穩(wěn)態(tài)實(shí)驗(yàn)建模數(shù)據(jù),可以把它們的效率或者油耗表示為隨轉(zhuǎn)矩和轉(zhuǎn)速改變的函數(shù),它們的效率如圖2和圖3所示。
圖2 發(fā)動(dòng)機(jī)萬有特性圖
圖3 電機(jī)效率圖
本文依據(jù)實(shí)測得到的西安市城市工況,選擇了同一公交路線下同一時(shí)段不同日期測得的兩條速度譜,分別作為訓(xùn)練工況和測試工況,兩個(gè)工況的總長度都是140.15 km,速度譜如圖4所示。
圖4 仿真工況
相比于傳統(tǒng)的基于Q學(xué)習(xí)算法能量管理策略,本文所提出的MC-Q學(xué)習(xí)能量管理控制算法,創(chuàng)新點(diǎn)在于訓(xùn)練工況不是直接使用實(shí)測工況,而是把實(shí)測工況根據(jù)馬爾科夫理論轉(zhuǎn)換為概率轉(zhuǎn)移矩陣,依據(jù)得到的概率矩陣生成隨機(jī)工況序列,這樣可以在每一個(gè)訓(xùn)練循環(huán)當(dāng)中,使用符合目標(biāo)車輛實(shí)際使用情況,但又完全不同的需求功率序列進(jìn)行訓(xùn)練,大大豐富了樣本的復(fù)雜程度,防止訓(xùn)練結(jié)果過早的陷入局部收斂當(dāng)中。
根據(jù)選擇的測試工況,基于車輛的動(dòng)力學(xué)方程(1),可以計(jì)算出需求功率,而需求功率可以看成是一個(gè)馬爾科夫過程[1],后一時(shí)刻的功率只與當(dāng)前時(shí)刻有關(guān),與以往無關(guān)。對(duì)需求功率進(jìn)行離散化,用最大似然法和最鄰近法求轉(zhuǎn)移概率[2]
式中,N表示離散的需求功率從P轉(zhuǎn)移到P的次數(shù);而N表示需求功率P出現(xiàn)的總次數(shù);N為下一時(shí)刻狀態(tài)數(shù)量;得到的狀態(tài)轉(zhuǎn)移概率矩陣如圖5所示。
圖5 功率轉(zhuǎn)移概率矩陣
利用Matlab使用蒙特卡洛模擬法,基于得到的轉(zhuǎn)移概率矩陣,在每一輪訓(xùn)練之前生成與訓(xùn)練工況長度相等的隨機(jī)功率序列,用于訓(xùn)練強(qiáng)化學(xué)習(xí)值函數(shù),從而大大的豐富樣本量,改善訓(xùn)練結(jié)果。
Q學(xué)習(xí)是與環(huán)境無關(guān)的基于數(shù)值迭代的動(dòng)態(tài)規(guī)劃算法,把被控對(duì)象看成智能體,創(chuàng)建表示值函數(shù)的表,根據(jù)此時(shí)的狀態(tài),在表中找到所對(duì)應(yīng)最大值的最優(yōu)動(dòng)作,并計(jì)算得到下一時(shí)刻狀態(tài)s+1和與環(huán)境進(jìn)行交互得到的獎(jiǎng)勵(lì)值,之后對(duì)表進(jìn)行更新。Q學(xué)習(xí)算法的核心是構(gòu)建表,本文針對(duì)能量管理策略研究,以EGU單元輸出功率egu為控制變量,以需求功率r和電池荷電狀態(tài)為狀態(tài)變量
而值函數(shù)的更新公式如式(6)所示[4]
式中,為學(xué)習(xí)率,決定了此次訓(xùn)練的誤差有多少要被學(xué)習(xí),本文選擇0.012;是未來的獎(jiǎng)勵(lì)對(duì)現(xiàn)在的影響因子,越大表示越注重未來的利益,本文選擇0.9。
為了防止訓(xùn)練過早的陷入局部最優(yōu),使用貪心策略選擇動(dòng)作,智能體以1-的概率選擇最大化值的動(dòng)作,而以的概率選擇隨機(jī)動(dòng)作,開始訓(xùn)練時(shí)較大,之后不斷減小直到為0。
獎(jiǎng)勵(lì)函數(shù)是衡量每一步動(dòng)作優(yōu)劣的關(guān)鍵,PHEV能量管理的目的,是使綜合能耗最小化,所以使用的電耗成本和油耗成本組成目標(biāo)函數(shù),獎(jiǎng)勵(lì)函數(shù)為目標(biāo)函數(shù)的倒數(shù)[7]
式中,bat為電池實(shí)際消耗的功率,因?yàn)閮?nèi)阻的存在,實(shí)際消耗的功率要大于需求電池功率b;f為燃?xì)鈨r(jià)格,取3.7元/m3;e為電價(jià),取0.8元/kWh;為氣體密度,取0.717 kg/m3;為重力加速度;ref是期望末值,取0.3;為權(quán)重系數(shù),取1。
仿真過程中還要考慮動(dòng)力系統(tǒng)物理限制,如式(9)所示
式中,m為電機(jī)輸出轉(zhuǎn)速;m為電機(jī)輸出轉(zhuǎn)矩,max和min分別對(duì)應(yīng)了上下邊界。
最終,當(dāng)值平均誤差收斂到期望值,或達(dá)到最大訓(xùn)練循環(huán)后,訓(xùn)練結(jié)束,用得到的表對(duì)測試工況進(jìn)行能量分配仿真,得到最優(yōu)控制序列
CD-CS策略是一種根據(jù)工程師經(jīng)驗(yàn)提出的基于規(guī)則的控制策略[8],算法簡單,控制速度快,可以實(shí)現(xiàn)實(shí)時(shí)應(yīng)用,但因?yàn)椴呗赃^于簡單,能耗效果差。
具體的控制過程為,根據(jù)電池荷電狀態(tài)來控制發(fā)動(dòng)機(jī)的啟動(dòng)與停止,當(dāng)較高時(shí),發(fā)動(dòng)機(jī)關(guān)閉,所有的需求功率均由電池提供,直到電池的降低到最低閾值0.3,為了保證電池不要過放電,發(fā)動(dòng)機(jī)啟動(dòng),按照恒定的70 kW向外輸出功率,當(dāng)上升至設(shè)定的閾值上限0.35以后,發(fā)動(dòng)機(jī)關(guān)閉,功率繼續(xù)由電池提供。
動(dòng)態(tài)規(guī)劃算法理論上能夠得到全局最優(yōu)的控制效果,但是需要預(yù)先知道工況,所以無法實(shí)時(shí)應(yīng)用,本文使用先逆向求解,在正向?qū)?yōu)的方法來實(shí)現(xiàn)。結(jié)果用來評(píng)估提出的MC-Q算法的優(yōu)劣。
把電池作為狀態(tài)變量,離散化之后逆向求解每個(gè)時(shí)刻不同對(duì)應(yīng)的最優(yōu)控制變量egu,最后正向獲得最優(yōu)控制序列,逆向遞歸方程如式(11)所示。
式中,為當(dāng)前時(shí)刻;u為第個(gè)EGU功率點(diǎn);x為第個(gè)離散點(diǎn);為egu的集合;f(x.u)為當(dāng)前狀態(tài)變量為x且控制變量為u時(shí)得到的第+1步的;e為式(7)所示的目標(biāo)函數(shù);J(x)是為x時(shí)由第步到最后一步的累計(jì)最小成本。優(yōu)化過程同樣需要滿足如式(9)所示的物理約束。
圖6是仿真過程中每一輪循環(huán)后表與前一輪的偏差值,體現(xiàn)了訓(xùn)練的收斂過程,可以看出在前100輪循環(huán)中,表的差值快速下降,即模型快速趨于收斂,又因?yàn)橛?xùn)練工況是根據(jù)概率矩陣隨機(jī)生成的,所以表不會(huì)完全收斂,而是在較低的水平上下波動(dòng),防止了訓(xùn)練過早的陷入局部最優(yōu),豐富了訓(xùn)練結(jié)果。
圖6 Q表差值
基于前文給出的測試工況,分別使用CD-CS策略、DP策略和所提出的基于馬爾科夫鏈的Q強(qiáng)化學(xué)習(xí)(MC-Q)策略進(jìn)行仿真比較,初始值取0.9。變化曲線如圖7所示,EGU單元輸出功率如圖8所示,表1為三種控制策略的成本對(duì)比。
圖7 SOC變化曲線對(duì)比
圖8 EGU輸出功率
表1 不同策略能耗成本對(duì)比
從變化曲線可以看出,三種控制策略最終都達(dá)到了期望的最低值0.3左右,但路徑不同。結(jié)合圖5可知,三種控制策略能量的分配過程完全不同,而DP策略因?yàn)槭侨謨?yōu)化策略,理論上能得到最優(yōu)的能量分配結(jié)果,所以能耗成本最低。而本文所提出的MC-Q策略能耗明顯的優(yōu)于傳統(tǒng)的基于規(guī)則的CD-CS策略,總成本降低了8.1%,而相比DP策略總成本只略微增長也保持了線性下降,且可實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。
根據(jù)仿真結(jié)果可知,本文所提出的基于馬爾科夫鏈的Q強(qiáng)化學(xué)習(xí)能量管理算法,相比傳統(tǒng)基于規(guī)則的控制策略,在140 km的西安市城市工況下,可以使電耗和能耗組成的總成本降低8元,而相比動(dòng)態(tài)規(guī)劃得出的全局最優(yōu)結(jié)果,能耗成本只提升了1.9元,且具有一定的魯棒性,可以根據(jù)以往工況訓(xùn)練并且實(shí)現(xiàn)在固定線路上實(shí)時(shí)應(yīng)用,具有一定的推廣意義。
[1] 尹燕莉,張劉鋒,周亞偉,等.基于Q學(xué)習(xí)的純電動(dòng)重型商用車智能換擋控制策略研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2021,35(9):73-82.
[2] 解少博,劉通,李會(huì)靈,等.基于馬爾科夫鏈的并聯(lián)PHEB預(yù)測型能量管理策略研究[J].汽車工程,2018, 40(8):871-877,911.
[3] LIU T,WANG B,YANG C L.Online Markov Chain- based Energy Management for a Hybrid Tracked Vehicle with Speedy Q-learning[J],Energy,2018(7): 544-555.
[4] 劉騰.混合動(dòng)力車輛強(qiáng)化學(xué)習(xí)能量管理研究[D].北京:北京理工大學(xué),2017.
[5] 張劉鋒.基于強(qiáng)化學(xué)習(xí)的混合動(dòng)力系統(tǒng)智能化控制方法研究[D].重慶:重慶交通大學(xué),2021.
[6] 張盟陽.基于動(dòng)態(tài)規(guī)劃的PHEV能耗分析[J].汽車實(shí)用技術(shù),2021,46(16):130-133.
[7] 解少博,羅慧冉,張乾坤,等.智能網(wǎng)聯(lián)混合動(dòng)力車輛速度規(guī)劃的多目標(biāo)協(xié)同控制研究[J].汽車工程,2021, 43(7):953-961.
[8] 張思雨,史珊珊.PHEV能量管理策略研究[J].汽車實(shí)用技術(shù),2022,47(1):186-188.
Energy Management Strategy of PHEV Based on MC-Q Reinforcement Learning
WANG Huiqing
( School of Automotive Engineering, Chang’an University, Xi’an 710064, China )
The plug-in hybrid is energy efficient, and the energy management strategy among multiple power sources has a great impact on the energy consumption of hybrid vehicles.Taking a run on a fixed line series plug-in hybrid city bus as an example, based on the previous cycles, according to markov theory, the demand for power transformation along with the change of time for the state transition matrix, the random power sequence is generated by probability matrix. Module Q reinforcement learning and training, by using the random power sequenceto realize the energy distribution of the city bus real-time optimization control. Simulation results show that the proposed reinforcement learning energy management algorithm can significantly optimize energy consump- tion compared with the rule control algorithm, and can greatly improve the time efficiency compared with dynamic programming and other global optimization strategies, and realize real-time control.
Plug-in hybrid electric vehicle; Energy management; Reinforcement learning; Transition probability matrix
U469.7
A
1671-7988(2022)24-28-05
U469.7
A
1671-7988(2022)24-28-05
10.16638/j.cnki.1671-7988.2022.024.005
王惠慶(1997—),男,碩士研究生,研究方向?yàn)樾履茉雌嚹芰抗芾聿呗耘c控制算法,E-mail:2421353 871@qq.com。