賴晨光,龐玉涵,胡 博,楊小青,張?zhí)K男,黃志華
(1.重慶理工大學(xué) 汽車零部件制造及檢測技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 重慶 400054;2.重慶理工大學(xué) 車輛工程學(xué)院, 重慶 400054)
隨著社會(huì)和科技的發(fā)展,能源危機(jī)和環(huán)境污染問題日趨嚴(yán)重,在此環(huán)境下新能源汽車迅速發(fā)展[1]。混合動(dòng)力汽車是新能源汽車的一種,動(dòng)力系統(tǒng)包含2種或多種動(dòng)力裝置,最常見的組合是發(fā)動(dòng)機(jī)與電動(dòng)機(jī),在保障續(xù)航里程的同時(shí),還能減少油耗和降低排放[2]。
混合動(dòng)力汽車動(dòng)力系統(tǒng)的好壞主要取決于能量管理策略,好的能量管理策略能夠在滿足動(dòng)力性的前提下同時(shí)減少油耗。如圖1所示,目前的控制策略主要分為3種[3]:基于規(guī)則、基于優(yōu)化和基于學(xué)習(xí)?;谝?guī)則的控制策略是基于啟發(fā)式、直覺、人類專業(yè)知識(shí)或者數(shù)學(xué)模型而設(shè)計(jì)的,并且通常不需要預(yù)先定義的駕駛循環(huán)的先驗(yàn)知識(shí),但需要花費(fèi)大量的時(shí)間進(jìn)行人為調(diào)參,適用范圍受到行駛工況的限制,已有很多學(xué)者將其應(yīng)用于混合動(dòng)力汽車[4-6]?;趦?yōu)化的控制策略由于適應(yīng)好、調(diào)參簡單等特點(diǎn)受到諸多學(xué)者的關(guān)注。Serrao[7]對(duì)動(dòng)態(tài)規(guī)劃[8]、龐特里亞金最小原理[9]和等效能耗最小策略[10]3種已知的優(yōu)化算法進(jìn)行了比較分析。全局最優(yōu)的動(dòng)態(tài)規(guī)劃(dynamic programming,DP)由于需要知道全局信息才能求解,所以在實(shí)際應(yīng)用中存在一定的局限性,通常作為其他策略的比較基準(zhǔn)[11]。國內(nèi)外許多學(xué)者將龐特里亞金最小原理(Pontryagin’s minimum principle,PMP)應(yīng)用于混合動(dòng)力汽車能量管理問題上,均取得了不錯(cuò)的控制效果[12-14]。PMP解決的是離散問題,學(xué)者們?cè)诖嘶A(chǔ)上提出了等效能耗最小策略(equivalent consumption minimization strategy,ECMS),用于解決連續(xù)的問題[15]。隨著人工智能技術(shù)的發(fā)展,基于學(xué)習(xí)的方法也廣泛應(yīng)用于混合動(dòng)力汽車能量管理問題的研究。Liu等提出了基于Q-learning和Dyna算法的混合動(dòng)力車輛自適應(yīng)能量管理策略,并取得優(yōu)于基于規(guī)則能量管理策略的控制效果[16-17]。Sciarretta等[18]提出了一種基于深度強(qiáng)化學(xué)習(xí)的能量管理策略,可以學(xué)習(xí)直接從狀態(tài)中選擇動(dòng)作,而無需任何預(yù)測或預(yù)定義規(guī)則,并在仿真環(huán)境中驗(yàn)證策略在燃油經(jīng)濟(jì)性方面的有效性。
圖1 混合動(dòng)力汽車能量管理策略分類框圖
目前國內(nèi)外利用深度強(qiáng)化學(xué)習(xí)算法強(qiáng)大的自學(xué)習(xí)能力去優(yōu)化已有的控制策略的研究較少,往往是通過深度強(qiáng)化學(xué)習(xí)算法直接控制,但是控制效果不是很理想,需要大量的學(xué)習(xí)時(shí)間。李家曦等[19]利用DDPG算法直接調(diào)整ECMS的等效因子,取得了接近A-ECMS的控制結(jié)果,在油耗上也有所改善。陳渠等[20]將DP算法與機(jī)器學(xué)習(xí)相結(jié)合,提出了一種全新的控制策略,該策略的燃油經(jīng)濟(jì)性較基于規(guī)則的能量管理策略有明顯的提升。
基于上述的一些研究,結(jié)合深度強(qiáng)化學(xué)習(xí)算法與自適應(yīng)等效能耗最小策略,提出了基于DDPG微調(diào)的能量管理策略。利用DDPG考慮更完善的汽車狀態(tài)來微調(diào)A-ECMS輸出的等效因子,實(shí)現(xiàn)電池SOC保持,整車油耗降低。
P2構(gòu)型混合動(dòng)力汽車的電機(jī)、發(fā)動(dòng)機(jī)和變速器位于同一軸線上,通過對(duì)離合器與P2模塊的協(xié)同控制可以讓汽車在純發(fā)動(dòng)機(jī)、純電動(dòng)、能量回收、加速助力4種模式下工作。圖2為P2混合動(dòng)力汽車結(jié)構(gòu)示意圖。搭建整車仿真模型的參數(shù)如表1所示。
圖2 P2混合動(dòng)力汽車結(jié)構(gòu)示意圖
表1 整車及動(dòng)力部件參數(shù)
在給定車速v后,需求功率Prep由所需克服的道路滾動(dòng)阻力Ff、空氣阻力Fw、坡度阻力Fj、加速阻力Fi通過以下公式計(jì)算得到:
Prep=(Ff+Fw+Fi+Fj)v
(1)
(2)
式中:v為車速;m為車輛質(zhì)量;f為滾動(dòng)阻力系數(shù);α為道路的坡度;g為重力加速度;Cd為空氣阻力系數(shù);A為迎風(fēng)面積;δ為質(zhì)量系數(shù)。
混合動(dòng)力汽車的需求功率由發(fā)動(dòng)機(jī)和電池共同提供:
Prep=(Peng+Pbatηm)ηT
(3)
式中:Peng為發(fā)動(dòng)機(jī)輸出功率;Pbat為電池功率;ηm為電動(dòng)機(jī)效率;ηT為變速器和車軸的效率。
發(fā)動(dòng)機(jī)的燃料消耗與發(fā)動(dòng)機(jī)輸出扭矩Peng和發(fā)動(dòng)機(jī)轉(zhuǎn)速neng有關(guān),所以燃料消耗率表示為:
(4)
汽車發(fā)動(dòng)機(jī)在時(shí)間t內(nèi)的總油耗可由燃油消耗率積分得到:
(5)
電機(jī)作為電動(dòng)機(jī)時(shí),通過電池組供電與發(fā)動(dòng)機(jī)共同提供扭矩,輸出功率可以由輸出轉(zhuǎn)子端轉(zhuǎn)速和轉(zhuǎn)矩乘積決定;作為發(fā)電機(jī)時(shí),通過回收發(fā)動(dòng)機(jī)多余的輸出功率給電池組充電,發(fā)電功率由定子端電壓和電流乘積決定。
電動(dòng)狀態(tài)時(shí),電機(jī)轉(zhuǎn)矩Tmot與轉(zhuǎn)速ωn滿足:
(6)
發(fā)電狀態(tài)時(shí),電機(jī)轉(zhuǎn)矩Tmot與轉(zhuǎn)速ωn滿足:
Pmot=Tmot·ωn·ηm
(7)
采用容量為5.3 Ah的磷酸鐵鋰電池,整個(gè)電池組由72個(gè)單體電池串聯(lián)組成。忽略溫度對(duì)電池組的影響,使用內(nèi)阻建模的方法建立電池組模型。電池組輸出功率Pbat和輸出電壓Ubat為:
(8)
式中:Voc為開路電壓;rint為電池內(nèi)阻;Ibat為電池電流。由式(8)可知,當(dāng)電池組輸出功率已知時(shí),電池電流可表示為:
(9)
電池荷電狀態(tài)SOC是電池組的重要參數(shù),是電池所剩電量和電池總?cè)萘縌bat之比:
(10)
式中:Ibat為電池電流,本文選擇SOC作為能量管理問題中的狀態(tài)變量之一。聯(lián)立式(9)和(10)可得SOC微分,重新表示為:
(11)
為了保證部件的安全性和可靠性,整車動(dòng)力系統(tǒng)需要滿足相應(yīng)的物理約束,即發(fā)動(dòng)機(jī)與電機(jī)的輸出轉(zhuǎn)速、轉(zhuǎn)矩,SOC的變化范圍、電池功率應(yīng)該在約束范圍內(nèi)工作:
(12)
等效燃油消耗最小控制策略(equivalent consumption minimization strategies,ECMS)基于的理念:電量維持型的混合動(dòng)力汽車的電池初始SOC值和最終SOC值之間的差異非常小,相對(duì)于所使用的總能量可以忽略不計(jì),所以最終所有的能量消耗均來自燃油。電池等同于一個(gè)可逆的輔助油箱,消耗的電能終將通過發(fā)動(dòng)機(jī)的多余輸出功率補(bǔ)充回來。
ECMS的關(guān)鍵思想是,在放電過程中,等效燃油消耗可以與電能的使用聯(lián)系起來。未來(或過去)電能消耗可以等效為燃油消耗量,與當(dāng)前實(shí)際燃油消耗量求和可以得到瞬時(shí)等價(jià)燃油消耗。以功率的形式定義ECMS的瞬時(shí)成本:
Peqv(t)=Pfuel(t)+s(t)Pbatt(t)
(13)
式中:s(t)是等效因子,其作用是把電池的功率轉(zhuǎn)為等效的燃油功率。實(shí)際上,等效因子代表燃油轉(zhuǎn)化為電能的效率鏈,也是電能轉(zhuǎn)化為等效油耗的效率鏈,因此,它會(huì)隨著動(dòng)力系統(tǒng)的運(yùn)行條件而改變。根據(jù)等效因子是否會(huì)實(shí)時(shí)變化,將ECMS分為恒等效因子ECMS和A-ECMS。
恒等效因子ECMS將等效因子看作一個(gè)恒定的常數(shù),該常數(shù)往往是在離線實(shí)驗(yàn)中通過迭代發(fā)現(xiàn)最優(yōu)值求得。但是離線實(shí)驗(yàn)得到的等效因子往往只適用于一段工況或者同類型的各工況,沒辦法滿足混合動(dòng)力汽車復(fù)雜的行駛工況。
基于SOC反饋的A-ECMS是通過一個(gè)PID控制器根據(jù)SOC與SOC目標(biāo)值的差值來輸出一個(gè)可實(shí)時(shí)變化的等效因子,這是一種最常見的A-ECMS方法,如圖3所示。該種方法由于只單一地考慮SOC的變化,沒有考慮復(fù)雜工況的行駛需求以及汽車本身的狀態(tài),所以控制效果并不是很好,本文將利用DDPG算法對(duì)此控制策略進(jìn)行優(yōu)化探索。
圖3 基于PID的A-ECMS邏輯圖
強(qiáng)化學(xué)習(xí)主要應(yīng)用于控制領(lǐng)域,它的本質(zhì)是試錯(cuò)學(xué)習(xí),通過不斷地探索與環(huán)境交互獲取狀態(tài)和獎(jiǎng)勵(lì)來優(yōu)化自身的策略。從圖4中可以看出,在t時(shí)刻狀態(tài)St下,智能體根據(jù)已有的策略選取動(dòng)作At,環(huán)境在t+1時(shí)刻到達(dá)狀態(tài)St+1,同時(shí)反饋一個(gè)獎(jiǎng)勵(lì)Rt+1給智能體,通過此循環(huán)不斷優(yōu)化獎(jiǎng)勵(lì)值得到接近最優(yōu)的控制序列。
圖4 強(qiáng)化學(xué)習(xí)過程框圖
普通的強(qiáng)化學(xué)習(xí)是表格化動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì),通過與環(huán)境交互對(duì)狀態(tài)下采取動(dòng)作所獲得的獎(jiǎng)勵(lì)值進(jìn)行迭代,直至收斂。這種方法受到儲(chǔ)存空間、狀態(tài)與動(dòng)作的維度的限制,讓強(qiáng)化學(xué)習(xí)只能用于較為簡單的離散動(dòng)作控制。深度強(qiáng)化學(xué)習(xí)早在2015年就已經(jīng)被提出來了,谷歌Deepmind團(tuán)隊(duì)將其用于解決圍棋問題,在與人類的比賽上,成功擊敗人類頂級(jí)棋手,讓強(qiáng)化學(xué)習(xí)受到了學(xué)者們的廣泛關(guān)注[21-22]。如圖5所示,智能體動(dòng)作的選擇,以及評(píng)價(jià)動(dòng)作選取的優(yōu)劣都是通過神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)的,提高了算法的計(jì)算能力,為強(qiáng)化學(xué)習(xí)應(yīng)用于更加復(fù)雜的環(huán)境提供了基礎(chǔ)。
圖5 深度強(qiáng)化學(xué)習(xí)邏輯圖
2016年,在DQN算法的基礎(chǔ)上結(jié)合Actor-Critic和確定性策略梯度,谷歌Deepmind團(tuán)隊(duì)提出了DDPG算法,該算法可以在連續(xù)空間上進(jìn)行控制,動(dòng)作直接由神經(jīng)網(wǎng)絡(luò)輸出[23]。如圖6所示,DDPG算法總共有2套Actor-Critic網(wǎng)絡(luò),一套為評(píng)估網(wǎng)絡(luò),另一套為目標(biāo)網(wǎng)絡(luò)。
圖6 DDPG算法邏輯圖
Actor網(wǎng)絡(luò)目的是找出動(dòng)作A,令輸出的Q(S,A)最大化,Critic網(wǎng)絡(luò)是根據(jù)當(dāng)前的動(dòng)作A和狀態(tài)S計(jì)算出Q(S,A)。算法更新時(shí),智能體先凍結(jié)住目標(biāo)網(wǎng)絡(luò),從換環(huán)境獲得狀態(tài),通過評(píng)估網(wǎng)絡(luò)計(jì)算出Q值,同時(shí)也通過目標(biāo)網(wǎng)絡(luò)計(jì)算出Q′值,最小化Q和Q′的差值來更新評(píng)估網(wǎng)絡(luò)。當(dāng)智能體與環(huán)境交互經(jīng)過時(shí)間T之后,把評(píng)估網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)賦值給目標(biāo)網(wǎng)絡(luò)。
DDPG算法的偽代碼如下:
1: Randomly initialize critic networkQ(s,a|θQ) and actorμ(s|θμ) with weightsθQandθμ
2: Initialize target networkθ*andμ′ with weights
θQ←θQ,θμ←θμ
3: Initialize replay bufferR
4: for episode = 1 toMdo
5: Initialize a random processNfor action exploration
6: Receive initial observation state
7: fort= 1 toTdo
8: Select actionat=μ(st|θμ)+Ntaccording to the current policy and exploration noise
9: Execute actionatand observe rewardrtand observe new statest+1
10: Store transition (st,at,rt,st+1) inR
11: Sample a random mini-batch ofNtransitions (si,ai,ri,si+1) formR
12: Setyi=ri+γQ′(st+1,μ′(si+1|θμ)|θQ)
13: Update critic by minimizing the loss:
14: Update the actor policy using the sampled policy gradient:
▽?duì)圈苔?s|θμ)|si
15: Update the target networks:
θQ←τθQ+(1-τ)θQ
θμ←τθμ+(1-τ)θμ
16: end for
17: end for
A-ECMS根據(jù)電池SOC的實(shí)時(shí)變化對(duì)等效因子進(jìn)行實(shí)時(shí)地修改來控制發(fā)動(dòng)機(jī)與電機(jī)的輸出功率。但A-ECMS對(duì)汽車自身的狀態(tài)考慮較少,僅考慮了電池SOC的變化,所以本研究通過DDPG算法考慮汽車自身的狀態(tài)來獲得一個(gè)等效因子修正量,然后與PID控制器輸出的等效因子相加得到最終的等效因子來控制發(fā)動(dòng)機(jī)與電機(jī)的輸出功率,整個(gè)控制邏輯如圖7所示。從圖7中可以看出,基于DDPG微調(diào)的能量管理策略在考慮電池SOC的基礎(chǔ)上,增加了上一時(shí)刻的發(fā)動(dòng)機(jī)和電機(jī)的輸出扭矩和當(dāng)前時(shí)刻的需求扭矩。
圖7 基于DDPG微調(diào)的A-ECMS能量管理策略邏輯圖
結(jié)合文獻(xiàn)和源代碼的理解[19,24],搭建基于DDPG算法框架的部分超參數(shù),如表2。DDPG中神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖8,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均由輸入層、3個(gè)隱藏層、輸出層構(gòu)成,其中每一層隱藏層包含120個(gè)神經(jīng)元,神經(jīng)層之間均采用全連接。
表2 DDPG超參數(shù)
DDPG記憶庫需要存儲(chǔ)由當(dāng)前狀態(tài)St、該狀態(tài)下所執(zhí)行的動(dòng)作At、動(dòng)作執(zhí)行后得到的獎(jiǎng)勵(lì)Rt以及環(huán)境所達(dá)到的下一狀態(tài)St+1組成的一個(gè)四元組(St,At,Rt,St+1)。所以,接下來分別對(duì)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)進(jìn)行定義。
圖8 Actor和Critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
狀態(tài)St:混合動(dòng)力汽車的駕駛循環(huán)是連續(xù)變化的,所以為了更加準(zhǔn)確地描述混合動(dòng)力汽車的狀態(tài),狀態(tài)應(yīng)選擇連續(xù)變量。同時(shí),如何精確描述行駛狀態(tài)的變化具有很大的挑戰(zhàn)性,所以應(yīng)該選擇能夠定義混合動(dòng)力汽車的行駛周期狀態(tài)的狀態(tài)變量。本研究選取了6個(gè)狀態(tài)變量:電池SOC、PID控制器輸出的等效因子、汽車的需求扭矩、上一步的輸出動(dòng)作、上一步ECMS的電機(jī)和發(fā)動(dòng)機(jī)的扭矩控制量。選擇SOC作為狀態(tài)變量是因?yàn)楸狙芯康幕旌蟿?dòng)力汽車是電量維持型的混合動(dòng)力汽車,所以SOC與汽車油耗息息相關(guān),如何在電量與油耗之間找到最優(yōu)的平衡點(diǎn)是本研究的目的。選擇PID控制器輸出的等效因子、汽車的需求扭矩、上一步的輸出動(dòng)作、上一步ECMS的電機(jī)和發(fā)動(dòng)機(jī)的扭矩控制量作為狀態(tài)變量是為了更加準(zhǔn)確地描述混合動(dòng)力汽車當(dāng)前的狀態(tài),對(duì)等效因子的影響因素考慮更加完善,從而更加準(zhǔn)確地修正等效因子。
動(dòng)作At:通過DDPG控制根據(jù)汽車當(dāng)前的狀態(tài)對(duì)PID控制器輸出的等效因子施加一個(gè)修正量,從而讓ECMS控制器能夠更合理地分配發(fā)動(dòng)機(jī)電機(jī)輸出扭矩。
獎(jiǎng)勵(lì)Rt:獎(jiǎng)勵(lì)信號(hào)應(yīng)該與整個(gè)模型的優(yōu)化目標(biāo)高度相關(guān)。本研究的最終目的是在保持電池SOC的基礎(chǔ)上盡可能地減少油耗,所以本研究的獎(jiǎng)勵(lì)函數(shù)包含了電池SOC和油耗2個(gè)關(guān)注點(diǎn),獎(jiǎng)勵(lì)函數(shù)設(shè)置如下:
rt=exp(-0.7|et|-0.3|it|2)
(14)
式中:et是電池SOC與目標(biāo)值的差值;it是控制周期內(nèi)的燃油消耗量。經(jīng)過調(diào)整后,最終將et和it的系數(shù)設(shè)置為0.7與0.3。為了保證計(jì)算的高效性,采用高斯函數(shù)的形式對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行構(gòu)建,讓獎(jiǎng)勵(lì)值在(0,1)。
使用一臺(tái)搭載Windows 10專業(yè)版、64位操作系統(tǒng)、處理器為Intel(R) Core(TM) i5-10400F CPU @ 2.90 GHz、基帶RAM為32.0 GB的計(jì)算機(jī)完成計(jì)算任務(wù)。在Matlab/Simulink中搭建混合動(dòng)力汽車仿真模型,通過To Workspace建立數(shù)據(jù)輸出接口,而在Python端通過調(diào)用Matlab中的m文件控制混合動(dòng)力模型,以此循環(huán)交互完成仿真實(shí)驗(yàn)。
將FTP75循環(huán)工況作為DDPG算法的訓(xùn)練工況。FTP75工況是美國環(huán)保局在1975年提出來的,用于評(píng)估車輛的燃油經(jīng)濟(jì)性,分為冷啟動(dòng)、瞬態(tài)、熄火浸車、熱啟動(dòng)4個(gè)階段,全程平均車速25 km/h,最高車速91.2 km/h,全程用時(shí)2 474 s,如圖9所示。
圖9 FTP75循環(huán)工況車速曲線
當(dāng)算法訓(xùn)練收斂后,將使用NEDC循環(huán)工況進(jìn)行驗(yàn)證,該工況包含了市區(qū)和市郊2種工況,具有頻繁的加減速和啟停,還有持續(xù)的加速,也是目前中國正在使用的測試工況,如圖10所示。為了證明所提出控制策略的優(yōu)越性,將基于DDPG微調(diào)的A-ECMS能量管理策略同基于規(guī)則的ruler-based、深度強(qiáng)化學(xué)習(xí)(DDPG)、A-ECMS、動(dòng)態(tài)規(guī)劃(DP)4種能量管理策略分別在電池SOC和等效油耗上進(jìn)行分析比較。
圖10 NEDC循環(huán)工況車速曲線
圖11是DDPG與DDPG微調(diào)的能量管理策略學(xué)習(xí)曲線。從圖11中可以看出,2種控制策略均能通過前期的探索然后收斂,但是兩者在收斂回合數(shù)和收斂時(shí)的獎(jiǎng)勵(lì)均有所不同,具體細(xì)節(jié)如表3所示。
圖11 基于DDPG和DDPG微調(diào)的能量管理 策略學(xué)習(xí)曲線
表3 DDPG與DDPG微調(diào)學(xué)習(xí)曲線的細(xì)節(jié)
由表3可知,DDPG收斂時(shí)的回合數(shù)為40,DDPG微調(diào)收斂時(shí)的回合數(shù)為16,在訓(xùn)練時(shí)間上效率提升60%;同時(shí)DDPG微調(diào)收斂時(shí)的獎(jiǎng)勵(lì)值為308.6,相較于DDPG收斂時(shí)的獎(jiǎng)勵(lì)值在動(dòng)作優(yōu)化上提高了6.05%(選擇的動(dòng)作越好,所獲得獎(jiǎng)勵(lì)越高)。由此可知,將PID控制器的輸出動(dòng)作作為輸入狀態(tài)的DDPG微調(diào)的控制策略能夠花更短的訓(xùn)練時(shí)間得到更好的控制動(dòng)作序列。
從圖12可以看到,動(dòng)作的隨機(jī)選取概率隨著訓(xùn)練回合數(shù)的增加逐漸減小并趨近0。在訓(xùn)練的前期,由于初始化的神經(jīng)網(wǎng)絡(luò)參數(shù)基本相同,因此需要較大的概率去探索獲取更多有用經(jīng)驗(yàn),加快收斂速度。在訓(xùn)練的后期,因?yàn)楫?dāng)前智能體已經(jīng)學(xué)習(xí)到較好的策略,不適合使用較大的動(dòng)作探索,所以選擇較小的動(dòng)作探索。當(dāng)概率逐漸趨近于0時(shí),表示智能體所執(zhí)行的動(dòng)作基本上都是由DDPG控制器給出,但仍然有極小的隨機(jī)概率,所以導(dǎo)致獎(jiǎng)勵(lì)曲線在收斂后仍有小波動(dòng)。
圖12 訓(xùn)練過程中動(dòng)作隨機(jī)選取概率變化曲線
圖13是5種能量管理控制策略在FTP75工況上的SOC的變化曲線??梢钥闯?5種能量管理策略均能夠在一個(gè)工況結(jié)束后將SOC控制在目標(biāo)值附近。
圖13 不同能量管理策略在FTP75工況的 SOC變化曲線
從表4可以看出,5種能量管理策略的SOC終止值都不相同,因?yàn)椴煌刂撇呗栽诳刂茣r(shí)會(huì)選取不同的等效因子,所以導(dǎo)致控制策略對(duì)發(fā)動(dòng)機(jī)與電機(jī)的扭矩分配不同,最終導(dǎo)致了SOC的差異。從SOC變化曲線可以看出,DDPG微調(diào)十分接近最優(yōu)的動(dòng)態(tài)規(guī)劃曲線,SOC整體變化較為平緩,對(duì)電池有益。而基于規(guī)則和DDPG的SOC的變化較為劇烈,前者對(duì)電池的利用明顯沒有后者完善,電池一直在目標(biāo)值之下工作。
表4 不同能量管理策略在FTP75工況SOC曲線的特征參數(shù)
SOC曲線的差異主要在0~250 s(圖13黑色虛線方框)和800~1 350 s(圖13紅色虛線方框)。為了進(jìn)一步解釋SOC曲線的差異,通過導(dǎo)出5種控制策略的發(fā)動(dòng)機(jī)與電機(jī)扭矩分配圖來說明原因。從扭矩分配圖可知,基于規(guī)則的能量管理策略的發(fā)動(dòng)機(jī)多數(shù)情況下提供較小的扭矩,剩下的扭矩完全靠電機(jī)提供,這導(dǎo)致了整個(gè)工況過程中SOC均在目標(biāo)值之下。從圖14(a)黑色方框可以看到,這段時(shí)間內(nèi)幾乎全靠電機(jī)提供扭矩,對(duì)應(yīng)SOC在0~250 s和800~1 350 s的2次快速下降。圖14(d)中黑色方框里發(fā)動(dòng)機(jī)與電機(jī)的轉(zhuǎn)矩分配則解釋了800~1 350 s基于DDPG能量管理策略的SOC曲線連續(xù)2次快速下降。從圖14(a)-(e)可以看出,不同的能量管理策略對(duì)發(fā)動(dòng)機(jī)與電機(jī)扭矩分配存在較大的差別,DDPG微調(diào)的控制效果與動(dòng)態(tài)規(guī)劃十分接近。
圖14 不同能量管理策略的發(fā)動(dòng)機(jī)和電動(dòng)機(jī)扭矩分配曲線
圖15給出DDPG微調(diào)控制過程中實(shí)際的車速曲線,DDPG能夠很好地滿足汽車的動(dòng)力性要求,只有在最高車速附近時(shí)才與參考車速有一點(diǎn)差距,最大差值為0.79 m/s,與參考車速的均方誤差為0.03。
圖15 基于DDPG微調(diào)的能量管理策略的車速曲線
為了進(jìn)一步證明本研究提出的基于DDPG能量管理策略的優(yōu)異性,表5給出了5種控制策略在FTP75循環(huán)工況上的等效油耗。動(dòng)態(tài)規(guī)劃的等效油耗最低為7.61 L/100 km,本研究所提出的DDPG微調(diào)的等效油耗為7.62 L/100 km,十分接近最優(yōu)的動(dòng)態(tài)規(guī)劃,與基于規(guī)則的相比,油耗減少了7.07%,與基于A-ECMS和DDPG相比,油耗減少了0.52%。從表5可以看出,DDPG通過訓(xùn)練能夠取得與A-ECMS相近的控制結(jié)果,由于只保留了小數(shù)點(diǎn)后面兩位,但是實(shí)際結(jié)果是DDPG略微優(yōu)于A-ECMS。圖16給出不同能量管理策略的發(fā)動(dòng)機(jī)工作點(diǎn)圖。從圖中可以看出,基于規(guī)則的能量管理策略的發(fā)動(dòng)機(jī)大多數(shù)情況下工作在低扭矩高油耗區(qū)域?;贒DPG的能量管理策略與最優(yōu)的動(dòng)態(tài)規(guī)劃較為相似,發(fā)動(dòng)機(jī)多數(shù)情況下在高扭矩低油耗區(qū)域工作,而且發(fā)動(dòng)機(jī)的扭矩輸出比基于規(guī)則的輸出范圍更大。
表5 不同能量管理策略在FTP75工況的等效油耗
圖16 不同能量管理策略的發(fā)動(dòng)機(jī)工作點(diǎn)圖
通過將訓(xùn)練好的控制策略用于沒有接觸過的全新工況上對(duì)比控制結(jié)果,看是否能與訓(xùn)練的控制結(jié)果一樣來驗(yàn)證基于DDPG微調(diào)的能量管理策略的適用性。從圖17和表6可以看出,不同的能量管理策略在NEDC工況上的控制效果是不同的,但都能將SOC的終止值控制在目標(biāo)值附近。發(fā)動(dòng)機(jī)能長時(shí)間工作在高效區(qū)間,持續(xù)地加速和快速地制動(dòng)減速,控制策略頻繁使用發(fā)動(dòng)機(jī)提供扭矩,同時(shí)利用多余的扭矩和制動(dòng)能量給電池充電。
在等效油耗上,本研究提出的基于DDPG微調(diào)的能量管理策略在測試工況上一樣取得了優(yōu)異的省油效果。在NEDC工況上,基于DDPG微調(diào)等效油耗為7.74 L/100 km,與基于規(guī)則的比較油耗減少2.27%,與基于A-ECMS的相比油耗減少0.77%(見表7)。
圖17 不同能量管理策略在NEDC工況的SOC變化曲線
表6 不同能量管理策略在NEDC工況的SOC曲線特征參數(shù)
表7 不同能量管理策略在NEDC工況的等效油耗
在A-ECMS的基礎(chǔ)上結(jié)合DDPG控制算法考慮更為全面的汽車狀態(tài),搭建了基于DDPG微調(diào)的能量管理策略,先進(jìn)行了理論分析,然后通過仿真實(shí)驗(yàn)進(jìn)行驗(yàn)證。由訓(xùn)練過程可知,基于DDPG微調(diào)的能量管理策略可以在原有的強(qiáng)化學(xué)習(xí)的能量管理策略基礎(chǔ)上進(jìn)一步優(yōu)化發(fā)動(dòng)機(jī)和電機(jī)的輸出扭矩,優(yōu)化效果提升了6.05%,同時(shí)也能夠加快整個(gè)控制策略的收斂時(shí)間,效率提升了60%。在訓(xùn)練工況FTP75以及工況NEDC和FTP72上均取得了優(yōu)于基于規(guī)則和A-ECMS的控制結(jié)果,證明了深度強(qiáng)化學(xué)習(xí)可以與其控制策略結(jié)合并取得優(yōu)于原來的控制結(jié)果。通過將訓(xùn)練好的控制策略在不同工況上測試,從測試結(jié)果上可以得知,基于DDPG微調(diào)的能量管理策略能夠在保障優(yōu)異的控制結(jié)果的同時(shí)具備很好的可適用性。
本文的研究結(jié)果在混合動(dòng)力汽車的控制策略優(yōu)化上有參考意義,同時(shí)也對(duì)強(qiáng)化學(xué)習(xí)用于優(yōu)化其他控制策略或者結(jié)合提供了思路。后續(xù)將會(huì)通過第三軟件獲取交通信息、平均車流速度等信息優(yōu)化控制策略的控制效果。未來,在有條件的情況下,將進(jìn)行硬件在環(huán)驗(yàn)證和實(shí)車實(shí)驗(yàn)等。
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2022年5期