基于Q-learning的插電式混合動力汽車能量管理策略

2022-11-02 08:52田澤杰

汽車實用技術(shù) 2022年20期

田澤杰

（長安大學(xué) 汽車學(xué)院，陜西西安 710064）

插電式混合動力汽車（Plug-in Hybrid Electric Vehicle, PHEV）結(jié)合了傳統(tǒng)內(nèi)燃機(jī)汽車和純電動汽車的特點，在當(dāng)前環(huán)境污染和電池技術(shù)的限制下成為了最具發(fā)展?jié)摿Φ钠?。由于擁有多個能量源，所以PHEV能量管理策略的開發(fā)是影響整車動力性和經(jīng)濟(jì)性的核心技術(shù)。目前解決能量管理問題的措施有基于規(guī)則的方法，如：基于確定性規(guī)則和基于模糊控制策略；基于模型優(yōu)化的方法，如：動態(tài)規(guī)劃和龐特里亞金極值原理?；谀Ｐ蛢?yōu)化的方法考慮了整個行駛工況，通過數(shù)值計算得到全局最優(yōu)解，但不具備在線應(yīng)用的可能，只能作為一種對比的手段。

隨著人工智能技術(shù)的發(fā)展，一些智能算法，如：人工神經(jīng)網(wǎng)絡(luò)，強(qiáng)化學(xué)習(xí)等也得以應(yīng)用于PHEV能量管理策略。強(qiáng)化學(xué)習(xí)可以不依賴于系統(tǒng)模型，通過智能體和環(huán)境的交互產(chǎn)生的獎勵信號自主探索和學(xué)習(xí)到最優(yōu)策略。本文基于強(qiáng)化學(xué)習(xí)中具有代表性的Q-learning算法構(gòu)建了PHEV的能量管理策略，結(jié)果表明，此策略可以在有限的步驟中自主學(xué)習(xí)，并逼近全局最優(yōu)。

1 整車參數(shù)

本文所研究的PHEV為某款串聯(lián)結(jié)構(gòu)的西安市公交車，整車由兩個輪邊驅(qū)動電機(jī)驅(qū)動。能量源由動力電池和一款天然氣發(fā)動機(jī)與汽車啟動發(fā)電一體式電機(jī)（Integrated Starter and Generator, ISG）電機(jī)集成的輔助動力單元（Auxiliary Power Unit, APU）構(gòu)成。該款車型整備質(zhì)量為13 500 kg，輪邊主減速器傳動比為13.9，電池容量180 Ah，電池包由168個電壓為3.2 V的電池串聯(lián)組成，迎風(fēng)面積為8 m。其動力傳動結(jié)構(gòu)如圖1所示。

圖1 PHEV動力傳動結(jié)構(gòu)

1.1 驅(qū)動電機(jī)模型

驅(qū)動電機(jī)可以正轉(zhuǎn)產(chǎn)生驅(qū)動力也可以反轉(zhuǎn)進(jìn)行制動能量回收。對電機(jī)進(jìn)行仿真時，由實驗數(shù)據(jù)進(jìn)行插值擬合電機(jī)效率和電機(jī)轉(zhuǎn)速、電機(jī)轉(zhuǎn)矩之間對應(yīng)的關(guān)系。

式中，為電機(jī)效率；，為電機(jī)的轉(zhuǎn)矩和轉(zhuǎn)速。

1.2 APU單元模型

該APU單元與行駛車速不存在機(jī)械耦合關(guān)系，可以進(jìn)行獨立控制。為簡化整車控制難度，首先計算發(fā)動機(jī)和ISG電機(jī)組合供能時的最優(yōu)燃油消耗曲線，在仿真計算時，僅由功率便可以通過插值得到對應(yīng)的燃油消耗率。

式中，()為燃油消耗率；(()為APU單元功率。

1.3 電池模型

本文采用包括開路電壓和內(nèi)阻的等效電路模型對電池進(jìn)行建模，由電池荷電狀態(tài)（State Of Charge, SOC）插值計算開路電壓和電池內(nèi)阻，對應(yīng)的SOC狀態(tài)轉(zhuǎn)移可通過下式計算：

式中，為開路電壓；為電池等效內(nèi)阻；為電池容量；為電池功率。

1.4 需求功率模型

整車需求功率可通過車輛的縱向動力學(xué)模型計算，當(dāng)不考慮坡道阻力時，需求功率為

式中，為需求功率；為滾動阻力功率；為空氣阻力功率；為加速阻力功率；為車輛質(zhì)量；為重力加速度；為滾動阻力系數(shù)；為車速；為空氣阻力系數(shù)；為迎風(fēng)面積；為車輛旋轉(zhuǎn)質(zhì)量換算系數(shù)；為加速度。

2 基于Q-learning的能量管理策略

強(qiáng)化學(xué)習(xí)的核心就是指智能體產(chǎn)生動作和環(huán)境進(jìn)行不斷的交互，并通過環(huán)境實時反饋給智能體的獎勵信號，讓智能體自主學(xué)習(xí)在一個環(huán)境中的不同狀態(tài)到行為的映射關(guān)系。如圖2所示，基于這個映射關(guān)系而產(chǎn)生的序列化決策可以最大化獎勵信號。

圖2 智能體與環(huán)境的交互圖

強(qiáng)化學(xué)習(xí)可分為基于表格的傳統(tǒng)算法，如Q-learning、Sarsa算法和基于神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法，如深度Q網(wǎng)絡(luò)（Deep Q Network, DQN）、深度確定性策略梯度算法（Deep Deter- ministic Policy Gradient, DDPG）算法等。如圖2所示，一個標(biāo)準(zhǔn)的Q-learning算法包含智能體、環(huán)境、狀態(tài)、動作、獎勵、策略和狀態(tài)-動作值函數(shù)七個基本組成。

Q-learning的關(guān)鍵是建立一個狀態(tài)-動作價值表（,），存儲每一狀態(tài)下各動作的價值估計。不僅根據(jù)這個表來選擇動作，并且根據(jù)實時的環(huán)境反饋以及時序差分算法對該表進(jìn)行值函數(shù)的迭代更新，以期讓智能體獲得一個最大化未來總獎勵期望的策略。Q-learning算法的更新公式如下：

式中，表示學(xué)習(xí)率，其值越大，算法收斂的速度越快，但是過大容易造成結(jié)果的震蕩；表示衰減系數(shù)，介于0到1之間，用于在當(dāng)下獎勵和未來獎勵之間取得平衡，同時也保證了算法的收斂性；為當(dāng)前狀態(tài)下的即時回報；（,）為用于映射當(dāng)前動作到長期總獎勵的狀態(tài)-動作值函數(shù)。

本文基于Q-learning算法對插電式混合動力汽車能量管理策略進(jìn)行求解，目的是降低車輛總能耗，提高PHEV汽車的經(jīng)濟(jì)性。選取需求功率和電池SOC作為狀態(tài)變量，將發(fā)動機(jī)和ISG電機(jī)組成的APU單元提供的功率作為動作變量，則相應(yīng)的電池應(yīng)提供的功率為()=()-()，獎勵信號是與發(fā)動機(jī)實時燃油消耗率和當(dāng)前電池SOC相關(guān)的函數(shù)。目標(biāo)函數(shù)設(shè)定為帶有衰減的未來所有狀態(tài)的累計回報：

該插電式混合動力汽車能量管理的目標(biāo)是達(dá)到最優(yōu)的經(jīng)濟(jì)性，因此，把SOC和發(fā)動機(jī)瞬時消耗作為即時的反饋，將獎勵信號設(shè)置如下：

通過獎勵信號設(shè)置，保證電池的荷電狀態(tài)在0.3到0.7之間，使智能體在規(guī)定邊界之內(nèi)探索并使用更具有經(jīng)濟(jì)性的動作。

圖3展示了使用Q-learning算法求解該問題的偽代碼，其中的episode為一次設(shè)定的循環(huán)工況。

圖3 Q-learning求解過程偽代碼

偽代碼中，衰減系數(shù)取0.9，學(xué)習(xí)率=1/。選擇動作時的-greedy策略如下：

式中，=1/，為一時變的概率，保證在學(xué)習(xí)初期盡可能多的探索動作，并在學(xué)習(xí)后期盡可能多的去利用學(xué)習(xí)到的表。

3 仿真結(jié)果

考慮該插電式混合動力汽車的情況，將17次連續(xù)的中國典型城市公交循環(huán)（Chinese Type City Bus Circle, CCBC）工況作為一個完整的循環(huán)，以達(dá)到充分利用混合動力汽車的“混動”的優(yōu)勢。首先把狀態(tài)變量和動作變量離散，生成初始的表，并將每次循環(huán)初始SOC設(shè)定為0.7，基于狀態(tài)和表，根據(jù)貪婪策略在每一時間步選取動作，并及時更新表中對應(yīng)的狀態(tài)-動作值函數(shù)。隨著表的不斷迭代，最終會趨于收斂，設(shè)定循環(huán)次數(shù)N=18 000次。

表1 Q-learning能量管理策略結(jié)果

當(dāng)天然氣價格取3.7元/m，電價格為0.8 kWh時，圖4為每輪迭代下的循環(huán)總價格收斂情況。

圖4 總價格收斂過程

為驗證Q-learning算法在插電式混合動力汽車能量管理中的有效性，本文使用基于龐特里亞金極小值原理的方法來計算全局的最優(yōu)解。從圖5中SOC下降的情況可以看出，兩種算法在初始SOC均為0.7的條件下，最終SOC都到達(dá)了SOC下限0.3。在總行程接近100 km的循環(huán)下，基于Q-learning算法的結(jié)果只比全局最優(yōu)算法PMP貴1.57元，證明了基于Q-learning計算策略的有效性。并考慮到PMP算法對于協(xié)態(tài)變量的選取過于敏感，所以基于Q-learning得到的表策略有更強(qiáng)適用性與魯棒性。

圖5 Q-learning/PMP策略SOC下降圖

4 結(jié)論

本文針對一款串聯(lián)插電式混合動力汽車，設(shè)計一種基于Q-learning的能量管理策略。在連續(xù)17次CCBC工況下，相比于全局最優(yōu)算法PMP，結(jié)果僅貴出1.57元，表明了基于Q-learning算法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Q-learning的插電式混合動力 汽車能量管理策略