国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合動力汽車深度強化學(xué)習(xí)分層能量管理策略

2024-05-15 15:27:08戴科峰胡明輝
重慶大學(xué)學(xué)報 2024年1期
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)動態(tài)規(guī)劃

戴科峰 胡明輝

摘要:為了提高混合動力汽車的燃油經(jīng)濟性和控制策略的穩(wěn)定性,以第三代普銳斯混聯(lián)式混合動力汽車作為研究對象,提出了一種等效燃油消耗最小策略(equivalent fuel consumption minimization strategy,ECMS)與深度強化學(xué)習(xí)方法(deep feinforcement learning,DRL)結(jié)合的分層能量管理策略。仿真結(jié)果證明,該分層控制策略不僅可以讓強化學(xué)習(xí)中的智能體在無模型的情況下實現(xiàn)自適應(yīng)節(jié)能控制,而且能保證混合動力汽車在所有工況下的SOC都滿足約束限制。與基于規(guī)則的能量管理策略相比,此分層控制策略可以將燃油經(jīng)濟性提高20.83%~32.66%;增加智能體對車速的預(yù)測信息,可進一步降低5.12%的燃油消耗;與沒有分層的深度強化學(xué)習(xí)策略相比,此策略可將燃油經(jīng)濟性提高8.04%;與使用SOC偏移懲罰的自適應(yīng)等效燃油消耗最小策略(A-ECMS)相比,此策略下的燃油經(jīng)濟性將提高5.81%~16.18%。

關(guān)鍵詞:混合動力汽車;動態(tài)規(guī)劃;強化學(xué)習(xí);深度神經(jīng)網(wǎng)絡(luò);等效燃油消耗

中圖分類號:U471.15????????? 文獻標(biāo)志碼:A?????????? 文章編號:1000-582X(2024)01-041-11

Deep reinforcement learning hierarchical energy management strategy for hybrid electric vehicles

DAI Kefeng, HU Minghui

(College of Mechanical and Vehicle Engineering, Chongqing University, Chongqing 400044, P. R. China)

Abstract: To improve the fuel economy and control strategy stability of hybrid electric vehicles (HEVs), with taking the third-generation Prius hybrid electric vehicle as the research object, a hierarchical energy management strategy is created by combining an equivalent fuel consumption minimization strategy (ECMS) with a deep reinforcement learning (DRL) method. The simulation results show that the hierarchical control strategy not only enables the agent in reinforcement learning to achieve adaptive energy-saving control without a model, but also ensures that the state of charge (SOC) of the hybrid vehicle meets the constraints under all operating conditions. Compared with the rule-based energy management strategy, this layered control strategy improves the fuel economy by 20.83% to 32.66%. Additionally, increasing the prediction information of the vehicle speed by the agent further reduces the fuel consumption by about 5.12%. Compared with the deep reinforcement learning strategy alone, this combined strategy improves fuel economy by about 8.04%. Furthermore, compared with the A-ECMS strategy that uses SOC offset penalty, the fuel economy is improved by 5.81% to 16.18% under this proposed strategy.

Keywords: hybrid vehicle; dynamic programming; reinforcement learning; deep neural networks; equivalent consumption minimization strategy

車輛傳動系統(tǒng)的電氣化是未來可持續(xù)發(fā)展中的重要環(huán)節(jié)。但就現(xiàn)階段而言,純電動汽車的電池技術(shù)還未實現(xiàn)突破;混合動力汽車(hybrid electric vehicle,HEV)的節(jié)油潛力也沒有得到充分發(fā)揮,設(shè)計良好的能量管理策略可以提高節(jié)油率。

混合動力汽車最優(yōu)能量管理的經(jīng)典數(shù)值計算方法有2種:一是基于系統(tǒng)模型的動態(tài)規(guī)劃(dynamic programming,DP);二是龐特里亞金極值原理(Pontryagins minimal principle,PMP)[1]。其中,DP近似求解哈密爾頓-雅可比-貝爾曼方程以得到最優(yōu)控制問題在離散時間的最優(yōu)解。DP需要獲得完整的駕駛工況信息且計算負荷高,因此現(xiàn)階段僅用DP的離線計算來導(dǎo)出控制規(guī)則[2]。等效燃油消耗最小策略(equivalent consumption minimization strategy,ECMS)是以PMP為理論基礎(chǔ)的一種實時優(yōu)化能量管理策略。它將全時域最優(yōu)控制問題轉(zhuǎn)化為了基于等效因子的瞬時優(yōu)化問題,在確定等效因子后,便于能量管理問題的實時求解[3-7]。對于不同的駕駛工況,合適的等效因子需要通過大量的離線仿真才能獲得,難以根據(jù)實際駕駛場景進行實時求解,因而ECMS實時效果差。

自人工智能進入最優(yōu)控制領(lǐng)域以來,深度強化學(xué)習(xí)(deep reinforcement learning,DRL)已經(jīng)成為了一種常用的控制策略,正在被廣泛地應(yīng)用于混合動力汽車的傳動系統(tǒng)控制[8-12]。Qi等[13]在能量管理中采用了深度q學(xué)習(xí),不僅可以解決傳統(tǒng)q學(xué)習(xí)中出現(xiàn)的“維數(shù)災(zāi)難”,而且證明了深度強化學(xué)習(xí)比q學(xué)習(xí)具有更好的燃油經(jīng)濟性。Zhang等[14]的研究表明,基于經(jīng)驗回放的深度q網(wǎng)絡(luò)在經(jīng)過充分訓(xùn)練后,即使在不熟悉的駕駛循環(huán)工況中,也能得到比動態(tài)規(guī)劃更好的燃油經(jīng)濟性。但是這些基于深度強化學(xué)習(xí)方法的能量管理策略會由于探索和環(huán)境擾動等不確定性因素,導(dǎo)致最終的控制策略不穩(wěn)定,從而無法在實車上直接使用。

ECMS策略可以將全局最優(yōu)問題轉(zhuǎn)化為瞬時優(yōu)化問題,簡化了能量管理問題的求解。考慮到在持續(xù)變化的工況中,難以獲取ECMS策略最佳等效因子的問題,綜合能量管理所需的控制策略特性,筆者提出了一種將深度強化學(xué)習(xí)算法和ECMS策略結(jié)合的分層控制策略。上層算法采用基于工況數(shù)據(jù)的深度強化學(xué)習(xí)方法來選擇最佳等效因子;下層算法基于等效燃油消耗最小的控制目標(biāo)來實現(xiàn)最優(yōu)功率分配。這種分層控制策略方法可以充分利用深度強化學(xué)習(xí)的探索性以及ECMS策略的魯棒性,從而提高混合動力汽車的燃油經(jīng)濟性和能量控制策略的穩(wěn)定性。

1 混合動力系統(tǒng)建模

強化學(xué)習(xí)的原理如圖1所示?;趶娀瘜W(xué)習(xí)的能量管理智能體學(xué)習(xí)過程為:1)在特定工況下,能量管理智能體生成動作作用于混合動力汽車的仿真模型;2)HEV環(huán)境計算狀態(tài)變化和獎勵函數(shù);3)智能體在交互中改進策略。本節(jié)將針對強化學(xué)習(xí)的交互仿真環(huán)境和混合動力系統(tǒng)進行建模。

1.1 車輛準(zhǔn)靜態(tài)模型

第三代Prius的傳動系統(tǒng)結(jié)構(gòu)如圖2所示。傳動系統(tǒng)包含3個驅(qū)動裝置,分別是發(fā)動機(ICE)、發(fā)電機(MG1)和驅(qū)動電動機(MG2);包含2個行星齒輪單元。符號S表示太陽輪,C表示行星架,R表示齒圈。發(fā)動機將單向離合器與第一行星架相連,然后依次連接第一齒圈、減速器和差速器,從而驅(qū)動車輛。發(fā)電機連接到第一行星排的太陽輪,調(diào)節(jié)發(fā)動機的轉(zhuǎn)速。驅(qū)動電動機與第二行星排的太陽輪連接,行星架C2是固定的,驅(qū)動電機經(jīng)過減速增扭后在齒圈處與發(fā)動機實現(xiàn)轉(zhuǎn)矩耦合。

根據(jù)驅(qū)動力與外部阻力平衡的力學(xué)原則[15],車輛的動力學(xué)模型表達式可以寫為

{(F_w=F_a+F_r+F_g+F_f,@F_a=mv ˙=ma,@F_r=1/2 ρAC_D v^2,@F_g=mgsin(α),@F_f=μ_r mgcos(α)。)┤?? (1)

式中:F_w為驅(qū)動力;F_a為慣性力;F_r為空氣阻力;F_g為坡度阻力;F_f為滾動阻力;a為加速度;ρ為空氣密度;A為迎風(fēng)面積;C_D為空氣阻力系數(shù);v為車輛相對速度;μ_r為滾動阻尼系數(shù)。整車的主要結(jié)構(gòu)參數(shù)如表1所示。

1.2 驅(qū)動部件模型

發(fā)動機的萬有特性圖與電動機的二維效率曲面圖分別如圖3(a)和圖3(b)所示。當(dāng)發(fā)動機的需求功率P_e小于500 W時,可以直接關(guān)閉發(fā)動機,相應(yīng)的油耗模型為

m ˙_fuel={(G(P_e)@0)┤ (,P_e>500;@,P_e≤500。)?? (2)

式中:m ˙_fuel表示燃油消耗率;G為插值查表的方法;P_e為發(fā)動機功率。對于電機而言,所需電機功率P_m則為

P_m={(T_m?ω_m/(G_m (T_m,ω_m))@T_m?ωm?G(T_m,ω_m))┤ (,P_m>0;@,Pm≤0。)????? (3)

式中:ω_m表示電機轉(zhuǎn)速;T_m表示電機扭矩。

1.3 電池模型

采用一階等效電路模型來描述鎳氫電池的動態(tài)特性,同時忽略溫度變化和電池老化的影響,電池的動態(tài)方程可以描述為

{(P_batt (t)=V_oc I_b (t)-r_int I_b 〖(t)〗^2,@I_b (t)=((V_oc-√(V_oc^2-4r_int P_m (t))))/(2r_int ),@x ˙_SOC=-(I_b (t))/Q_nom? 。)┤?? (4)

式中:P_batt、I_b分別指電池的功率、電流;V_oc為開路電壓;r_int為電池內(nèi)阻;Q_nom指電池標(biāo)稱容量;x_SOC表示電池的荷電狀態(tài)。完整的電池模型參數(shù)如表2所示。

2 深度強化學(xué)習(xí)分層能量管理策略

本節(jié)闡述了將深度強化學(xué)習(xí)和ECMS策略相結(jié)合的分層混聯(lián)HEV能量管理方法。

2.1 自適應(yīng)等效燃油消耗策略

Paganelli[16]在1999年引入了等效燃油消耗最小的啟發(fā)式方法來求解能量管理問題,該方法后來受到了廣泛應(yīng)用。該啟發(fā)式方法的核心思想為:在充電和放電過程中電能的使用與燃油消耗相關(guān)聯(lián),將電能消耗轉(zhuǎn)化為油耗,總的瞬時當(dāng)量油耗為

m ˙_(f,eqv) (t)=m ˙_f (t)+m ˙_ress (t), (5)

式中:m ˙_(f,eqv)表示等效當(dāng)量油耗,g/s;m ˙_f (t)為實際發(fā)動機燃油消耗量,g/s;m ˙_ress (t)電能消耗的等效油耗,g/s。

m ˙_ress (t)=(s(t))/Q_lhv? P_batt (t)=K_eq (t)?P_batt (t),?? (6)

式中:s(t)為虛擬燃油消耗因子;Q_lvh為汽油最低熱值,MJ/kg;P_batt為電池功率;K_eq (t)為等效因子。

在自適應(yīng)等效燃油消耗策略中,等效因子可以在駕駛工況中作為荷電狀態(tài)的函數(shù)進行不斷更新。這種自適應(yīng)的反饋調(diào)節(jié)可以很好地維持電池的荷電狀態(tài),但不能保證能量的最優(yōu)分配[17-18]。自適應(yīng)等效燃油消耗(adaptive-ECMS, A-ECMS)常用的等效因子懲罰函數(shù)為

p(x_SOC)=1-[(x_SOC (t)-x_SOCref)/((x_SOCmax-x_SOCmin)/2)]^a。? (7)

式中:x_SOCmax和x_SOCmin分別為電池荷電狀態(tài)的上限和下限。

圖4為不同冪取值下的荷電狀態(tài)偏移懲罰函數(shù)。

在已知等效因子的情況下,可采用式(8)直接搜索瞬時等效油耗最優(yōu)的發(fā)動機功率點,為

π(P_eng^*)=min┬(π∈Π) [m ˙_(f,eqv) (t)=m ˙_f (t)+K_eq (t)?P_b],????? (8)

式中:K_eq (t)=λ_DDPG?P(b_SOC)?F ?_C/η ?_t,λ_DDPG為需要學(xué)習(xí)得到的變量;P(b_SOC)表示在危險荷電狀態(tài)下的懲罰系數(shù),它是嵌入到仿真環(huán)境當(dāng)中的;F ?_C表示平均燃油消耗,取235 g/(kW·h);η ?_t=η ?_char?η ?_dis表示平均充電與平均放電效率,即電能轉(zhuǎn)換效率,取值0.7。

2.2 基于深度強化學(xué)習(xí)的等效因子獲取方法

2.2.1 深度強化學(xué)習(xí)算法框架

深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)可以實現(xiàn)能量管理中連續(xù)動作的輸出。該算法由2個獨立的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,是一種具有演員-評論家結(jié)構(gòu)的確定性策略梯度算法,用“演員”來選擇控制策略,用“評論家”來評估所采用的控制策略優(yōu)劣。

“評論家”網(wǎng)絡(luò)是基于最優(yōu)動作值函數(shù)Q^* (s,a)完成設(shè)計的。該動作值函數(shù)的遞推關(guān)系為貝爾曼方程

Q^* (s,a)=E┬(s^'~P) [r(s,a)+γ max┬(a^' ) Q^* (s^',a^')]Q^* (s,a)=E┬(s^' ), (9)

式中:r為獎勵;γ為折扣因子;s^'指從環(huán)境中采樣得到的下一時刻狀態(tài)。

若采用神經(jīng)網(wǎng)絡(luò)作為函數(shù)擬合器來逼近Q^* (s,a)函數(shù),那么就需要對參數(shù)?進行不斷地學(xué)習(xí)和改進。因此,可定義為貝爾曼均方誤差函數(shù):

(L(?,D)=E┬((s,a,r,s^',d)~) [(Q_? (s,a)-(r+γ(1-d)max┬(a^' ) Q_? (s^',a^' 〖)))〗^2]=@E┬((s,a,r,s^',d)~) [(Q_? (s,a)-(r+γ(1-d)Q_(?_target ) (s^',μ(s^' 〖))))〗^2]。)??? (10)

式(10)描述了參數(shù)化策略網(wǎng)絡(luò)對貝爾曼方程的逼近程度。“評論家”網(wǎng)絡(luò)更新的步驟為:先從經(jīng)驗池中采樣,得到轉(zhuǎn)移數(shù)據(jù)對(s,a,r,s^',d);然后調(diào)用Adam優(yōu)化器對式(10)進行優(yōu)化。

DDPG中的“演員”通過學(xué)習(xí)一個確定性策略μ(s|θ^μ)來將“評論家”的打分進行最大化,即最大化動作值函數(shù)Q_? (s,a)。式(11)表示網(wǎng)絡(luò)參數(shù)的變化,并使用梯度上升方法來更新。

Δθ=max┬θ? E┬(s~D) [Q_? (s,μ_θ (s))]。?? (11)

2.2.2 狀態(tài)空間

智能體與環(huán)境交互是基于狀態(tài)觀測完成的,環(huán)境為車輛仿真模型。在混合動力汽車能量管理問題中,智能體通常采用3個參數(shù)作為狀態(tài)量[10],即:車速v_veh、加速度a_veh和電池的荷電狀態(tài)x_SOC,為進一步降低燃油消耗,筆者增加了未來20 s的平均車速a_ave為狀態(tài)變量,狀態(tài)空間為

S_imp=[v_veh,a_veh,x_SOC v_ave]。???? (12)

2.2.3 動作空間

動作空間at為

a_t=λ_DDPG,? (13)

式中,λ_DDPG∈[0,1],為分層策略中上層算法輸出的歸一化參數(shù)。

2.2.4 獎勵函數(shù)

實時獎勵函數(shù)是深度強化學(xué)習(xí)算法的重要組成,它會直接影響深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。同時考慮到能量管理控制策略的目的是降低燃油消耗,提高車輛的燃油經(jīng)濟性,并且將電池荷電狀態(tài)x_SOC維持在安全范圍內(nèi),因此將實時獎勵Rt定義為

R_t=-∑_(t=0)^(T_f-1)?。??? (14)

獎勵函數(shù)由2部分組成:第一部分為m ˙_(fuel_t )瞬時燃油消耗率;第二部分是當(dāng)前時刻的電池荷電狀態(tài)與參考荷電狀態(tài)間的偏差,它代表了維持電池電量平衡的成本。C_1是荷電狀態(tài)偏移的懲罰因子,將其設(shè)置為常數(shù)。

2.3 分層策略算法的實現(xiàn)流程

ECMS的啟發(fā)式特性可以對能量管理的決策過程進行簡化,從而在一維的搜索空間下進行快速決策。但ECMS中的等效因子對于工況的變化較為敏感,如何確定最佳等效因子是ECMS方法中的難點。傳統(tǒng)的解決辦法是在標(biāo)準(zhǔn)工況下進行多次仿真,離線計算特定工況下的最佳等效因子并在實際運行過程中查表。這種方法不僅工作量巨大,而且在不同工況下的節(jié)油效果也相差較大。因此筆者提出了一種分層能量管理策略:上層采用無模型的強化學(xué)習(xí)方法——DDPG,通過學(xué)習(xí)的方法自適應(yīng)獲得最佳的等效因子;下層使用一維搜索來快速確定最佳的發(fā)動機功率。該策略算法的完整實現(xiàn)流程如圖5所示。

3 驗證與討論

為了驗證等效燃油消耗最小策略和深度強化學(xué)習(xí)方法相結(jié)合的分層能量管理策略,筆者在Python中搭建了系統(tǒng)的仿真環(huán)境。設(shè)置電池的充放電區(qū)間為20%~80%,并將分層策略與全局優(yōu)化DP算法、基于規(guī)則的控制策略(rule-based,RULE)和直接控制發(fā)動機功率的深度強化學(xué)習(xí)控制策略(power-DDPG,P-DDPG)分別進行了對比試驗。其中,分層策略(two level-DDPG,T-DDPG)可以分為三特征策略和四特征策略,分別簡寫為T3-DDPG和T4-DDPG。T4-DDPG在T3-DDPG的基礎(chǔ)上添加了未來車速信息作為第四特征量。最后采用重慶地區(qū)的實測工況作為測試集,來驗證此分層策略對于工況的適應(yīng)性。

3.1 算法參數(shù)設(shè)計與收斂分析

深度強化學(xué)習(xí)方法DDPG包含了4個深度神經(jīng)網(wǎng)絡(luò),2個值函數(shù)網(wǎng)絡(luò)(“評論家”)和2個策略網(wǎng)絡(luò)(“演員”)。4個神經(jīng)網(wǎng)絡(luò)均包含3層全連接隱藏層,寬度分別為256、128、64。訓(xùn)練過程的超參數(shù)設(shè)置見表3所示。

圖6為3種基于深度強化學(xué)習(xí)算法的智能體在NEDC工況下的訓(xùn)練過程。從圖中可以看出,相比于的P-DDPG算法,加入了ECMS底層算法的分層控制策略在不同種子設(shè)置下的表現(xiàn)更加穩(wěn)定,其中以T4-DDPG策略應(yīng)對擾動的穩(wěn)定性表現(xiàn)最好。從油耗上看,添加了未來20 s內(nèi)平均車速信息的T4-DDPG策略所對應(yīng)的燃油消耗最低,為3.65 L·(100 km)-1。

3.2 電池充放電荷電狀態(tài)軌跡分析

分層控制策略中,下層算法采用的是ECMS來實現(xiàn)最優(yōu)功率的分配,所以等效因子是下層算法的重要參數(shù)。針對傳統(tǒng)的常等效因子進行WLTC工況下的ECMS策略研究分析,得到如圖7所示的荷電狀態(tài)軌跡。從圖中不同常等效因子下對應(yīng)的荷電狀態(tài)軌跡可以看出,不論如何對常等效因子的數(shù)值進行調(diào)整,該方法在固定工況下的表現(xiàn)都會與DP相差較大,其表現(xiàn)不能達到令人滿意的水平,因此需要采用基于學(xué)習(xí)的策略對等效因子進行實時調(diào)整。

圖8為NEDC工況下的T3-DDPG策略、T4-DDPG策略和A-ECMS策略的等效因子的學(xué)習(xí)情況。從圖中可以看出,A-ECMS策略下的等效因子經(jīng)過荷電狀態(tài)偏移矯正后,一直維持在一個較高的水平,導(dǎo)致用電成本較高。而無論是三參數(shù)還是四參數(shù)的智能體,在平均車速較低的工況中會給電能一個較小的等效因子,用電成本更低。所以車輛傾向于使用電能,因而在低速區(qū)使用純電模式。當(dāng)平均車速較高時,智能體傾向于輸出更高的等效因子,導(dǎo)致用電的成本增加;在此時采用發(fā)動機和電池的混合驅(qū)動模式更佳。而隨著車速進一步提高,電量的成本進一步升高,與此同時發(fā)動機的功率會變得更高。相較于T3-DDPG策略,添加了未來車速信息的T4-DDPG策略表現(xiàn)出更好的魯棒性,對于車速變化較大的場景,它能夠降低等效因子的抖震。

圖9為分層控制策略和其他控制策略在雙NEDC工況下電池荷電狀態(tài)的變化曲線。從圖中可以看出,基于規(guī)則的控制策略隨著驅(qū)動功率的突然增加,其荷電狀態(tài)有較為明顯的波動;而P-DDPG策略在雙NEDC工況下,發(fā)生了電池荷電狀態(tài)超出預(yù)設(shè)范圍的情況,大量的低功率路段,導(dǎo)致了智能體在工況中學(xué)習(xí)策略失敗;對于A-ECMS策略而言,由于增加了一個等效因子對荷電狀態(tài)的偏移校正系數(shù),可以將電池荷電狀態(tài)維持在預(yù)設(shè)范圍;表現(xiàn)最好的是T4-DDPG分層策略,其荷電狀態(tài)軌跡與基于DP策略的性能表現(xiàn)最為吻合。

3.3 能量管理策略節(jié)油效果分析

為了驗證分層控制策略的節(jié)油效果,筆者在大量標(biāo)準(zhǔn)工況下進行了仿真分析。圖10為不同工況下各控制策略的油耗表現(xiàn)。從圖中可以看出,T4-DDPG策略的節(jié)油效果與動態(tài)規(guī)劃的節(jié)油效果最為接近的。與P-DDPG相比,T4-DDPG策略將燃油經(jīng)濟性提高了3.05%~8.22%;與基于規(guī)則的能量管理策略相比,T4-DDPG將燃油經(jīng)濟性提升了20.83%~32.66%;與A-ECMS相比,T4-DDPG策略將燃油經(jīng)濟性提高了5.81%~16.18%。

為了驗證該分層控制策略對未知工況的適應(yīng)性,筆者采用重慶地區(qū)的實測道路工況作為所提出策略的測試集。測試集中由于實測的車速信息存在噪聲,所以對其進行滑動平均和濾波處理。處理后的測試工況數(shù)據(jù)集如圖11所示。

圖12為分層控制策略在實際道路工況下的表現(xiàn),紅色曲線為測試表現(xiàn),藍色曲線為訓(xùn)練表現(xiàn)。其中基于標(biāo)準(zhǔn)工況訓(xùn)練得到的T4-DDPG策略在此實測工況下的百公里油耗為4.04 L,基于標(biāo)準(zhǔn)工況訓(xùn)練得到的T4-DDPG策略在實際道路的百公里油耗為3.98 L,兩者差值很小。綜上所述,該分層控制策略對未知工況的適應(yīng)性較強,可適用于不同的工況。

4 結(jié)束語

分層控制策略不僅可以解決傳統(tǒng)ECMS策略中等效因子難以確定的問題,而且還能解決深度強化學(xué)習(xí)方法中由于探索和干擾帶來的不穩(wěn)定性問題。在多種標(biāo)準(zhǔn)工況下的仿真結(jié)果表明,該分層控制策略中的智能體能夠?qū)W習(xí)到一個良好的控制策略,在所有工況下車輛的電池荷電狀態(tài)都能滿足約束條件。除此以外,筆者所提出的分層控制策略算法具有無模型的特性,所以能夠遷移至其他構(gòu)型的混合動力汽車進行能量管理策略的開發(fā)。最后,仿真結(jié)果進一步表明了經(jīng)過大量工況訓(xùn)練后的智能體對各種不同的未知工況具有較強的適應(yīng)性,使得該分層控制策略具有非常重要的實際應(yīng)用價值。

參考文獻

[1]? Onori S, Serrao L, Rizzoni G. Hybrid electric vehicles: energy management strategies[M]. London: Springer London, 2016.

[2]? Scordia J, Renaudin M D, Trigui R, et al. Global optimisation of energy management laws in hybrid vehicles using dynamic programming[J]. International Journal of Vehicle Design, 2005, 39(4): 349.

[3]? Liu J M, Peng H E. Control optimization for a power-split hybrid vehicle[C]//2006 American Control Conference. IEEE, 2006: 6.

[4]? Musardo C, Rizzoni G, Guezennec Y, et al. A-ECMS: an adaptive algorithm for hybrid electric vehicle energy management[J]. European Journal of Control, 2005, 11(4/5): 509-524.

[5]? Serrao L, Onori S, Rizzoni G. ECMS as a realization of Pontryagins minimum principle for HEV control[C]//2009 American Control Conference. IEEE, 2009: 3964-3969.

[6]? Rezaei A. An optimal energy management strategy for hybrid electric vehicles[D]. Houghton, Michigan: Michigan Technological University, 2017.

[7]? Sun C, Sun F C, He H W. Investigating adaptive-ECMS with velocity forecast ability for hybrid electric vehicles[J]. Applied Energy, 2017, 185: 1644-1653.

[8]? Hu X S, Liu T, Qi X W, et al. Reinforcement learning for hybrid and plug-In hybrid electric vehicle energy management: recent advances and prospects[J]. IEEE Industrial Electronics Magazine, 2019, 13(3): 16-25.

[9]? Zhao P, Wang Y Z, Chang N, et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles[C]//2018 23rd Asia and South Pacific Design Automation Conference (ASP-DAC). IEEE, 2018: 196-202.

[10]? Lian R, Peng J, Wu Y, et al. Rule-interposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle[J]. Energy, 2020, 197: 117297.

[11]? Hu Y E, Li W M, Xu K, et al. Energy management strategy for a hybrid electric vehicle based on deep reinforcement learning[J]. Applied Sciences, 2018, 8(2): 187.

[12]? Wang Y, Tan H C, Wu Y K, et al. Hybrid electric vehicle energy management with computer vision and deep reinforcement learning[J]. IEEE Transactions on Industrial Informatics, 2021, 17(6): 3857-3868.

[13]? Qi X W, Luo Y D, Wu G Y, et al. Deep reinforcement learning-based vehicle energy efficiency autonomous learning system[C]//2017 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2017: 1228-1233.

[14]? Zhang Z D, Zhang D X, Qiu R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2019, 6(1): 213-225.

[15]? 余志生. 汽車?yán)碚揫M]. 5版. 北京: 機械工業(yè)出版社, 2009.

Yu Z S. Automobile theory[M]. 5th ed. Beijing: China Machine Press, 2009.(in Chinese)

[16]? Paganelli G. Conception et commande dune cha?ne de traction pour véhicule hybride parallèle thermique et électrique[D]. Famars: Université de Valenciennes, 1999.

[17]? Paganelli G. A general formulation for the instantaneous control of the power split in charge-sustaining hybrid electric vehicles[C]// Proceedings of AVEC 2000, 5th Int. Symp. on Advanced Vehicle Control. 2000.

[18]? Onori S, Serrao L, Rizzoni G. Adaptive equivalent consumption minimization strategy for hybrid electric vehicles[C]//Proceedings of ASME 2010 Dynamic Systems and Control Conference. IEEE, 2011: 499-505.

(編輯? 詹燕平)

猜你喜歡
深度神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)動態(tài)規(guī)劃
試論基于深度神經(jīng)網(wǎng)絡(luò)的汽車車型識別問題
基于強化學(xué)習(xí)的在線訂單配送時隙運能分配
論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
智能交通車流自動導(dǎo)引系統(tǒng)
深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
基于深度神經(jīng)網(wǎng)絡(luò)的身份識別研究
ACM—ICPC競賽趣味學(xué)習(xí)系統(tǒng)設(shè)計
大學(xué)生經(jīng)濟旅游優(yōu)化設(shè)計模型研究
中國市場(2016年33期)2016-10-18 14:23:52
基于深度學(xué)習(xí)的目標(biāo)反饋識別系統(tǒng)
天等县| 乐陵市| 高要市| 临洮县| 永川市| 彭泽县| 富平县| 瑞安市| 黔西县| 台东市| 丹阳市| 齐河县| 枣庄市| 崇信县| 尚志市| 青浦区| 宁蒗| 永靖县| 临泉县| 当涂县| 普陀区| 即墨市| 河西区| 哈巴河县| 石林| 黄冈市| 汽车| 新田县| 讷河市| 甘孜县| 马边| 莱芜市| 南木林县| 灌南县| 烟台市| 博白县| 长治县| 穆棱市| 苗栗县| 茶陵县| 昆山市|