郭玉帆,沈世全,劉冠穎,2,古鴻吉,高 順
(1.昆明理工大學(xué) 交通工程學(xué)院, 昆明 650500;2.云南開放大學(xué) 公共基礎(chǔ)教學(xué)部, 昆明 650500)
隨著傳統(tǒng)燃油車保有量逐年增長,能源危機(jī)與環(huán)境污染兩大問題日趨嚴(yán)重。為了解決這些問題,車輛轉(zhuǎn)型勢在必行[1]。由于純電動汽車受限于電能存儲技術(shù),無法滿足長距離出行需求,燃料電池汽車成本昂貴且具有一定的安全隱患,在短期內(nèi)無法推廣應(yīng)用,而插電式混合動力汽車(plug-in hybrid electric vehicles,PHEV)作為汽車電動化轉(zhuǎn)型的過渡產(chǎn)物,相較于傳統(tǒng)燃油車,具有更好的節(jié)油效果,并且彌補了純電動汽車?yán)m(xù)航里程較短的難題,深受各車企的青睞[2]。
能量管理技術(shù)是根據(jù)混合動力系統(tǒng)各部件的狀態(tài)反饋和能量管理策略(energy management strategy,EMS),實現(xiàn)PHEV不同的動力源的最優(yōu)能量分配,滿足動力性的同時降低車輛的消耗,是影響PHEV系統(tǒng)性能的關(guān)鍵因素之一。因此,設(shè)計一個具有良好工況適應(yīng)性的EMS是改善PHEV燃油經(jīng)濟(jì)性的核心任務(wù)[3]。如圖1所示,目前PHEV能量管理策略的研究主要分為三大類:基于規(guī)則、基于優(yōu)化和基于學(xué)習(xí)[4]。其中基于規(guī)則的能量管理策略,主要通過設(shè)定相關(guān)參數(shù)閾值來實現(xiàn)對PHEV的有效控制,由于計算量小、復(fù)雜度適中、實時性強(qiáng)等優(yōu)點,在PHEV中得到了廣泛的應(yīng)用[5]?;谝?guī)則的策略主要依據(jù)專家經(jīng)驗制定,很難保證按照預(yù)先定義的規(guī)則獲得全局最優(yōu)策略。為解決上述問題,出現(xiàn)了基于優(yōu)化的方法,根據(jù)優(yōu)化能力大體可以分為全局優(yōu)化和實時優(yōu)化兩大類,極小值原理、動態(tài)規(guī)劃、模型預(yù)測控制和魯棒控制都是極具代表性的優(yōu)化策略[6]。全局優(yōu)化策略,雖可得出理論上最優(yōu)的控制效果,但需要獲取工況全局信息且計算負(fù)擔(dān)大,難以滿足PHEV的實時控制需求。實時優(yōu)化策略雖然彌補了這一缺點,但是沒有辦法達(dá)到全局最優(yōu),同時由于計算量大、適應(yīng)性較差限制了算法的實際應(yīng)用[7]。
圖1 能量管理控制策略分類框圖
自人工智能應(yīng)用于最優(yōu)控制領(lǐng)域以來,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種重要的智能算法,被廣泛用于PHEV能量管理優(yōu)化問題。Liu等[8]通過對幾種不同駕駛工況數(shù)值進(jìn)行模擬,證明了基于RL的能量管理的適應(yīng)性、優(yōu)化性和學(xué)習(xí)能力。Yang等[9]設(shè)計了一種基于雙重深度Q-learning(QL)的EMS,在不同初始值下都取得了良好的燃油經(jīng)濟(jì)性和令人滿意的電池荷電狀態(tài)保持性能。Ma等[10]通過使用深度確定性策略梯度算法為混合動力電動履帶車開發(fā)了一個在線EMS,其燃油經(jīng)濟(jì)性幾乎達(dá)到動態(tài)規(guī)劃的90%,同時顯著減少了計算時間。Tang等[11]開發(fā)了一種新穎的基于雙深度Q網(wǎng)絡(luò)學(xué)習(xí)(double-DQN)的EMS,結(jié)合基于規(guī)則的發(fā)動機(jī)啟停策略,控制車輛換擋和發(fā)動機(jī)節(jié)氣門的開度,實現(xiàn)混合動力汽車的多目標(biāo)優(yōu)化。Chen等[12]以一款功率分流式PHEV為研究對象,提出了一種基于雙Q學(xué)習(xí)(double-QL)能量管理策略,與其他策略相比,double-QL策略可以更好地限制電池的最大輸出功率,從而幫助PHEV獲得了更好的經(jīng)濟(jì)性能。
基于QL的能量管理策略兼顧了基于規(guī)則和基于優(yōu)化策略的優(yōu)點,被廣泛用于混合動力汽車的能量管理問題求解。然而,由于傳統(tǒng)的QL在更新Q函數(shù)時使用最大動作值作為最大期望動作值的近似值,造成了動作值的高估,導(dǎo)致QL在隨機(jī)環(huán)境中變現(xiàn)不佳。受此啟發(fā),雙Q學(xué)習(xí)算法對傳統(tǒng)QL算法進(jìn)行了改進(jìn),對每一個狀態(tài)使用2個Q函數(shù),并將Q函數(shù)的動作與其值解耦,避免傳統(tǒng)Q學(xué)習(xí)的高估問題;但是雙Q學(xué)習(xí)并不是完全無偏的,依舊存在低估偏差[13],因此又引入加權(quán)函數(shù),使2個Q函數(shù)之間存在一個線性關(guān)系,減少雙Q學(xué)習(xí)動作值低估發(fā)生的概率。在此基礎(chǔ)上,本文以一款PHEV為研究對象,設(shè)計了一種基于加權(quán)雙Q學(xué)習(xí)(weighted double Q-learning,WDQL)的能量管理控制策略,在PHEV的多個動力源之間進(jìn)行功率分配。最后,在Autonomie平臺上通過Matlab/Simulink搭建整車仿真模型,驗證了所提策略的燃油經(jīng)濟(jì)性和工況適應(yīng)性。
本文以豐田Prius功率分流式PHEV為研究對象,其結(jié)構(gòu)如圖2所示,整車主要部件包括2個電機(jī)、發(fā)動機(jī)、電池組、2個逆變器和行星齒輪組構(gòu)成,其中發(fā)動機(jī)與行星齒輪組中的行星架機(jī)械連接,電機(jī)2與太陽輪機(jī)械耦合,電池組與逆變器電連接,電機(jī)1與齒圈齒輪嚙合,關(guān)鍵部件的主要參數(shù)見表1所示。
圖2 功率分流PHEV的系統(tǒng)結(jié)構(gòu)示意圖
表1 整車關(guān)鍵部件主要參數(shù)
本文側(cè)重于對PHEV的經(jīng)濟(jì)性的研究,對整車的穩(wěn)定性和舒適性不做過多分析,因此當(dāng)行駛工況(v)已知時,需求功率Preq可以根據(jù)所克服的空氣阻力Fw、坡道阻力Fi、滾動阻力Ff和加速阻力Fj通過整車縱向動力學(xué)公式求得:
(1)
(2)
式中:Preq、Pbat、Peng和Pm分別為主減速器、電池組、發(fā)動機(jī)和電機(jī)的輸出功率;ηf、ηg和ηm分別表示主減速器、齒輪組和電機(jī)的傳遞效率;α1∈{-1,1} ,當(dāng)電機(jī)作為電動機(jī)為PHEV提供行駛動力時α1=-1,當(dāng)電機(jī)作為發(fā)電機(jī)給動力電池充電時α1=-1。
本文重點考慮發(fā)動機(jī)油耗的計算,在忽略發(fā)動機(jī)模糊的非線性時變動態(tài)特性的情況下,將發(fā)動機(jī)的瞬時油耗描述為一個映射關(guān)系,即發(fā)動機(jī)油耗模型是關(guān)于其轉(zhuǎn)速與扭矩的相關(guān)函數(shù):
(3)
(4)
當(dāng)發(fā)動機(jī)轉(zhuǎn)速和轉(zhuǎn)矩已知時,每t時刻的燃油消耗率可以通過圖4所示獲得。
圖3 發(fā)動機(jī)最優(yōu)工作曲線
圖4 發(fā)動機(jī)油耗MAP圖
電機(jī)作為PHEV的直接動力部件,具有至關(guān)重要的作用。當(dāng)電機(jī)作為電動機(jī)使用時,可以作為動力源為車輛提供前進(jìn)動力;當(dāng)汽車制動作為發(fā)電機(jī)使用時,能夠?qū)l(fā)動機(jī)剩余的能量和制動回收的能量存儲至電池組,從而為電池組補充電能。類似于發(fā)動機(jī),電機(jī)的轉(zhuǎn)矩、轉(zhuǎn)速和效率可以構(gòu)成電機(jī)效率MAP圖,如圖5所示。本文在進(jìn)行電機(jī)建模時,為了減少計算負(fù)擔(dān),沒有考慮熱效應(yīng)等因素對電機(jī)性能影響,電機(jī)的效率ηm、功率Pm和轉(zhuǎn)矩Tmot、轉(zhuǎn)速wmot之間的關(guān)系Ψm可以表示為:
(5)
圖5 電機(jī)效率MAPs
電池組在PHEV中充當(dāng)著能量存儲系統(tǒng)的角色,既可以回收來自電機(jī)轉(zhuǎn)動產(chǎn)生的能量,又可以輸出能量驅(qū)動汽車行駛。本文為了簡化分析,采用一階等效內(nèi)阻模型來描述電池組工作工程中的充放電特性,其電路如圖6所示。
圖6 電池組一階等效電路
根據(jù)等效電路模型,若忽略開路電壓動態(tài)變化,PHEV的電路關(guān)系可描述成電池功率的函數(shù):
Pbat(t)=Voc·Ibat(t)-rintIbat(t)2
(6)
式中:Pbat、Ibat、Voc分別為電池功率、電流和開路電壓;rint為電池內(nèi)阻。
從而得到電池組的電流函數(shù):
(7)
電池的荷電狀態(tài)(state of charge,SOC)作為EMS的主要控制參數(shù),既反映了電池電量使用情況,又影響著電池的內(nèi)阻,電壓和工作效率,本文通過安時積分法對電池SOC進(jìn)行估算:
(8)
式中:SOC0表示初始的荷電指數(shù);Qbat指電池總?cè)萘?Ah);若忽略溫度變化和電池老化的影響,Voc和rint隨電池SOC變化,如圖7所示。
圖7 電池開路電壓和內(nèi)阻變化曲線
PHEV的整車能量主要源于電池組提供的電能和發(fā)動機(jī)提供的燃油,已知行駛工況,在確保動力性的同時合理分配電池組和發(fā)動機(jī)之間的功率,使PHEV在行駛過程中的燃油消耗和電池電量消耗在一定程度維持均衡是PHEV能量管理控制策略的控制目標(biāo)[14]。PHEV的能量管理問題作為多目標(biāo)優(yōu)化問題,一般將其EMS簡化為非線性的離散系統(tǒng),其狀態(tài)方程f為:
x(t+1)=f(x(t),u(t),t)
t=0,1,2,…,T
(9)
式中:x(t)和u(t)分別為狀態(tài)變量和控制變量;T為行駛周期內(nèi)持續(xù)采樣時間。則WDQL策略中的性能優(yōu)化目標(biāo)函數(shù)J定義為:
ψ(ΔSOC(t)2]dt
(10)
式中:α和ψ是2個權(quán)重因子,通過調(diào)整2個參數(shù),EMS實現(xiàn)發(fā)動機(jī)和電池之間的最優(yōu)功率分配。根據(jù)PHEV的功率流關(guān)系,當(dāng)需求功率已知,電池組的功率輸出與發(fā)動機(jī)輸出功率相關(guān),因此可以把發(fā)動機(jī)瞬時油耗函數(shù)轉(zhuǎn)化為電池功率相關(guān)的函數(shù):
(11)
通過上述分析,在已知行駛工況的需求功率和車速的情況下,可以把電池組的輸出功率作為目標(biāo)函數(shù)的唯一控制量。此外,為了確保PHEV的正常運行,系統(tǒng)狀態(tài)必須滿足以下限制條件:
(12)
式中:下標(biāo)min和max表示各部件參數(shù)取值的系統(tǒng)臨界值,并且為了保持較小的電阻,電池的SOC維持在[0.3,0.9]。
加權(quán)雙Q學(xué)習(xí)算法是傳統(tǒng)QL的一種改進(jìn)算法,平衡了常規(guī)Q學(xué)習(xí)算法高估和雙Q學(xué)習(xí)算法的低估問題[13]。與傳統(tǒng)QL算法相比,WDQL算法使用2個Q函數(shù)(QU和QV)來選擇和評估動作,可以避免Q學(xué)習(xí)中動作值的高估;同時引入加權(quán)函數(shù)β,使2個Q函數(shù)之間存在某種線性關(guān)系,降低雙Q學(xué)習(xí)算法的低估偏差。與傳統(tǒng)的QL算法工作流程相似,如圖8所示,WDQL算法也是智能系統(tǒng)與所在環(huán)境連續(xù)交互,通過不斷地試錯,收集不同狀態(tài)下各種可能動作的獎勵。在學(xué)習(xí)過程中,首先智能體根據(jù)環(huán)境傳遞來的即時獎勵值的大小評估所選動作的優(yōu)劣,然后根據(jù)狀態(tài)-動作對更新Q函數(shù)(QU和QV),最后通過ε-貪婪算法選擇動作以獲得最大期望獎勵值。
圖8 加權(quán)雙Q學(xué)習(xí)策略控制過程框圖
本文設(shè)計一種基于WDQL算法的EMS,實現(xiàn)PHEV中電池和發(fā)動機(jī)之間最優(yōu)功率分配,減少PHEV燃油消耗。因此,本文選取需求功率Preq和電池SOC作為狀態(tài)變量,電池功率Pbat作為控制變量,將WDQL能量管理策略的變量空間設(shè)置為:
(13)
(14)
式中:α和ψ分別表示當(dāng)前時刻瞬時燃油和電池SOC的權(quán)重因子。加權(quán)雙Q學(xué)習(xí)在ε-貪婪算法作用下,WDQL有(1-ε)100%的概率會在QU(s,a)和QV(s,a)中選擇已知并且具有最大動作值的動作,以ε×100%的概率隨機(jī)選擇動作。通常ε設(shè)置成一個很小的值,在ε-貪婪算法的作用下加強(qiáng)了智能體的動作探索,避免了算法陷入局部最優(yōu)。
(15)
在WDQL算法中引入決定變量d和隨機(jī)變量b,其中,d=0.5、b∈(0,1),并使用2個變量的比較結(jié)果來選擇更新2個Q函數(shù)中的其中1個,Q函數(shù)更新規(guī)則如下:
(16)
在確定更新Q函數(shù)后,引入加權(quán)函數(shù)β使得WDQL在更新QU(s,a)和QV(s,a)時使用不同的δ值,加權(quán)參數(shù)β和最優(yōu)QU,WDQL函數(shù)表示為:
(17)
式中:a*和aL分別表示在下一個狀態(tài)s′下,值函數(shù)QU能取的最大價值函數(shù)值和最小價值函數(shù)值對應(yīng)的動作值;c是常數(shù);σ是學(xué)習(xí)率;γ是折價因子,用于平衡即時獎勵和延遲獎勵的重要性。從式(17)可以看出,WDQL使用一個QU(s,a)和QV(s,a)的線性組合來求取最優(yōu)QU,WDQL函數(shù)值。因此,QU,WDQL代表了對Q學(xué)習(xí)的高估和對雙Q學(xué)習(xí)的低估之間的權(quán)衡,這樣可以被認(rèn)為是對Q函數(shù)的無偏估計[13],類似的更新用于QV(s,a)。加權(quán)雙Q學(xué)習(xí)算法詳細(xì)的計算流程如下:
加權(quán)雙Q學(xué)習(xí)算法
1.初始化QU(s,a),QV(s,a),s,r,β(s,a)
2.設(shè)置學(xué)習(xí)率σ
3.For episode =1,Mdo
4.Fort=1,2,3,…,Tdo
5.運用ε-貪婪算法根據(jù)QU和QV選擇控制動作a
6.執(zhí)行動作a獲得即時獎勵r和下一狀態(tài)s′
7.選擇隨機(jī)數(shù)b來決定更新QU或者QV
8.ifb>0.5 then
9.a*=argmaxaQU(s′, ∶)
10.aL=arg minaQU(s′,∶)
12.δ(s,a)=r+γ[βUQU(s′,a*)+
(1-βU)QV(s′,a*)]-QU(s,a)
13.QU(s,a)=QU(s,a)+δ(s,a)σ
14.else ifb≤0.5 then
15.a*=argmaxaQV(s′,∶)
16.aL=argminaQV(s′,∶)
18.δ(s,a)=r+γ[βVQV(s′,a*)+
(1-βV)QU(s′,a*)]-QV(s,a)
19.QV(s,a)=QV(s,a)+δ(s,a)σ
20.end
21.s=s′
22.End
23.End
在PHEV的能量管理問題中,若想獲得良好的控制效果,檢測算法有效,需要驗證WDQL算法的收斂性。圖9為WDQL策略在以JC08、US06、LA92、RP05、SC03和WLTC 6個標(biāo)準(zhǔn)工況作為訓(xùn)練數(shù)據(jù)下的獎勵函數(shù)變化曲線??梢园l(fā)現(xiàn),隨著迭代次數(shù)的增加,單輪獎勵函數(shù)值也迅速增大,直到趨于穩(wěn)定,這說明基于WDQL的PHEV能量管理控制策略能夠以較快的速度收斂。
圖9 WDQL算法的獎勵函數(shù)曲線
為了評估所提控制策略的效果,將基于隨機(jī)動態(tài)規(guī)劃和基于規(guī)則的能量管理策略在工況HWFET、UDDS、NEDC和KM1下的效果與其作對比。測試工況對應(yīng)的速度曲線如圖10。
圖10 驗證工況車速曲線
隨機(jī)動態(tài)規(guī)劃(stochastic dynamic programming,SDP)是動態(tài)規(guī)劃和馬爾科夫決策的結(jié)合體,既有動態(tài)規(guī)劃解決全局最優(yōu)問題的優(yōu)點,又具備馬爾科夫求解隨機(jī)問題的優(yōu)勢。Lin等[15]針對一款并聯(lián)式混合動力汽車,提出了一種基于SDP策略的能量管理策略,仿真結(jié)果表明,SDP策略是一種僅次于動態(tài)規(guī)劃的全局次優(yōu)的能量管理策略。對于基于SDP算法的PHEV能量管理問題,依舊選取電池功率Pbat作為控制變量,最小累計油耗作為目標(biāo)函數(shù):
(18)
基于規(guī)則的能量管理策略是如今使用最普遍的EMS,本文選取一種放電-維持策略(charge depletion /chare sustaining,CD/CS)作為基準(zhǔn)策略。CD/CS策略是一種典型確定性規(guī)則策略,不需要提前預(yù)知未來工況,可以充分利用電池電能實現(xiàn)在線計算[16]。CD/CS策略由CD模式和CS模式2種模式組成,在CD階段,電池電量充足,電池是主要供能裝置,只有當(dāng)電池最大功率無法滿足汽車行駛所需功率時,發(fā)動機(jī)才會短暫啟動;當(dāng)電池SOC下降到預(yù)設(shè)閾值則進(jìn)入CS階段,發(fā)動機(jī)作為主要供能裝置,并對電池進(jìn)行補充充電,使電池SOC維持在閾值附近。CD/CS策略用數(shù)學(xué)公式描述為:
(19)
建立好各種控制策略以后,通過Autonomie對測試工況進(jìn)行仿真分析。圖11為3種控制策略在不同工況下的油耗表現(xiàn),可以看出,相比較于CD/CS策略,WDQL策略在各個工況下的油耗都呈現(xiàn)出不同程度的下降趨勢,且與SDP策略下的油耗相差不大。
圖12為不同策略在不同復(fù)合行駛工況下的SOC的變化曲線,可以看出,相比CD/CS策略,基于WDQL策略的工作狀態(tài)不再單純由電池SOC決定,而是控制策略根據(jù)最優(yōu)目標(biāo)函數(shù)來控制PHEV的發(fā)動機(jī)工作狀態(tài),頻繁調(diào)用發(fā)動機(jī)介入工作,輔助動力電池來共同驅(qū)動車輛,延遲了電池SOC下降到預(yù)設(shè)閾值的時間,使電池電量下降速率明顯降低,更好地控制電池的功率輸出,表明WDQL策略能夠?qū)㈦姵氐腟OC維持在一定范圍,從而降低汽車燃油消耗并減少尾氣排放。
圖11 復(fù)合工況的油耗曲線
圖12 SOC變化曲線
基于WDQL策略中的獎勵函數(shù)僅僅影響瞬時控制動作的選擇,使得在該策略下最終電池SOC具有相應(yīng)的偏差,為了使所提策略下的燃油經(jīng)濟(jì)性更有說服力,存在的SOC偏差將以能量守恒原則等效為燃油消耗量[6]。表3為CD/CS策略和WDQL策略在不同組合工況下的能耗。對比CD/CS策略,數(shù)據(jù)直觀地顯示出WDQL策略燃油經(jīng)濟(jì)性分別提高了5.66%、6.70%、6.99%和5.51%,證明了所提策略的有效性。SDP策略作為全局優(yōu)化策略,可以實現(xiàn)PHEV整車的最優(yōu)燃油經(jīng)濟(jì)性,由表4可以看出,基于WDQL的能量管理策略可以實現(xiàn)SDP策略的98%以上的燃油經(jīng)濟(jì)性,證明了所提策略的次優(yōu)性和對不同的駕駛循環(huán)工況具有良好的燃油經(jīng)濟(jì)性。
表3 CD/CS策略與WDQL策略燃油經(jīng)濟(jì)性
表4 SDP策略與WDQL策略燃油經(jīng)濟(jì)性
不同工況下各控制策略的發(fā)動機(jī)工作點如圖13所示??梢园l(fā)現(xiàn)SDP策略下,發(fā)動機(jī)的工作點幾乎完全在最優(yōu)工作曲線上,CD/CS策略由于發(fā)動機(jī)的頻繁啟動,工作點主要集中在低功率和較低功率的區(qū)間,而本文所提策略相比CD/CS策略,發(fā)動機(jī)的工作點軌跡明顯沿著最優(yōu)曲線上移,和SDP策略下發(fā)動機(jī)工作點軌跡接近,且由于WDQL策略的學(xué)習(xí)能力,發(fā)動機(jī)的啟停頻率明顯小于其他策略。這說明,所提策略能夠合理地分配發(fā)動機(jī)和電池的功率,緩解發(fā)動機(jī)工作在低轉(zhuǎn)矩、低效率工作區(qū)間的概率,從而提高了PHEV的燃油經(jīng)濟(jì)性。
圖13 發(fā)動機(jī)工作點在效率MAP上的對比
本文以PHEV為研究對象,提出了一種基于加權(quán)雙Q學(xué)習(xí)算法能量管理策略,該策略不僅可以平衡常規(guī)Q學(xué)習(xí)算法高估和雙Q學(xué)習(xí)算法的低估問題,還能提高PHEV燃油經(jīng)濟(jì)性。通過仿真分析,得出以下結(jié)論:
1) 基于加權(quán)雙Q學(xué)習(xí)的PHEV能量管理策略可以平衡常規(guī)Q學(xué)習(xí)算法高估和雙Q學(xué)習(xí)算法的低估問題,減少了隨機(jī)性的影響,在不同的工況下具良好的適應(yīng)性并可以實現(xiàn)較好的燃油經(jīng)濟(jì)性。
2) 基于加權(quán)雙Q學(xué)習(xí)的PHEV能量管理策略能夠使發(fā)動機(jī)避免在低效率區(qū)域工作,而更多工作在發(fā)動機(jī)高效率區(qū),從而有效提升發(fā)動機(jī)工作效率,降低了PHEV在運行過程中的燃油消耗。
3) 基于加權(quán)雙Q學(xué)習(xí)的PHEV能量管理策略可以延遲電池SOC下降到預(yù)定閾值的速度,更好地控制電池功率輸出,提高PHEV的燃油經(jīng)濟(jì)性。