齊春陽,宋傳學(xué),宋世欣,靳立強,王 達,肖 峰
(1.吉林大學(xué),汽車仿真與控制國家重點實驗室,長春 130022;2.吉林大學(xué)汽車工程學(xué)院,長春 130022;3.吉林大學(xué)機械與航空航天工程學(xué)院,長春 130022)
混合動力汽車的主要目標(biāo)是提高動力系統(tǒng)的效率和降低燃料消耗。在給定動力系統(tǒng)配置的情況下,影響混合動力汽車油耗的最重要因素是發(fā)動機和電氣系統(tǒng)之間的功率分配比。能量管理策略(energy management strategy,EMS)是混合動力汽車的關(guān)鍵技術(shù)之一,需要在滿足電力需求的約束下協(xié)調(diào)發(fā)動機和電氣系統(tǒng)之間的功率分配。對于同一車型,同一行駛周期,不同能量管理策略對應(yīng)的油耗相差20%[1]。因此,研究混合動力汽車的能量管理策略具有重要意義。在混合動力汽車能量管理策略的研究過程中,研究者將大部分的控制策略主要分為3 類:(1)基于規(guī)則;(2)基于優(yōu)化;(3)基于學(xué)習(xí)。其中,基于規(guī)則又可以分為確定性規(guī)則和模糊性規(guī)則;基于優(yōu)化可以分為全局優(yōu)化和瞬時優(yōu)化?;谝?guī)則的能量管理策略需要制定控制規(guī)則來確定不同驅(qū)動模式下的能源分布情況[2]?;谝?guī)則的方法優(yōu)點在于,規(guī)則制度很容易開發(fā),并且可以應(yīng)用在實施控制系統(tǒng)中。但是規(guī)則的開發(fā)非常需要經(jīng)驗豐富的專家工程師的知識。與基于規(guī)則的能量管理策略相比,全局優(yōu)化算法調(diào)整的參數(shù)優(yōu)于確定性規(guī)則。近幾年,基于學(xué)習(xí)的方法越來越受到研究者們的關(guān)注。其中,強化學(xué)習(xí)方法能夠解決與實時優(yōu)化方法相關(guān)的任務(wù)得到了大家的青睞。強化學(xué)習(xí)智能體根據(jù)累計的獎勵能夠在不同狀態(tài)下采取適應(yīng)的行動。重慶理工大學(xué)的龐玉涵[3]提出了一種分層機構(gòu)的強化學(xué)習(xí)方法,為能量管理策略提供了新思路。北京理工大學(xué)的劉騰[4]從強化學(xué)習(xí)算法出發(fā),探索了以強化學(xué)習(xí)為基礎(chǔ)的能量管理策略在最優(yōu)性、自適應(yīng)性和學(xué)習(xí)能力下的優(yōu)化,并將強化學(xué)習(xí)算法深入到實時優(yōu)化過程中,為實時性的強化學(xué)習(xí)算法提供了思路。重慶大學(xué)的唐小林等[5]提出一種基于深度值網(wǎng)絡(luò)算法的能量管理策略,實現(xiàn)深度強化學(xué)習(xí)對發(fā)動機與機械式無級變速器的多目標(biāo)協(xié)同控制。Li 等[6]提出了一種利用優(yōu)先級經(jīng)驗重放機制改進DQN(deep Qnetwork)模型。Chaoui 等[7]提出了一種基于強化學(xué)習(xí)的方法,用于平衡具有多個電池的電動汽車電池的荷電狀態(tài),該方法可以延長電池壽命并減少電池的頻繁維護。
另外,強化學(xué)習(xí)狀態(tài)之間有很強的相關(guān)性,會不同程度影響學(xué)習(xí)效果。Liu 等[8]將基于 GPS 得到的行程信息與強化學(xué)習(xí)算法結(jié)合,在狀態(tài)變量中加入剩余行駛里程,仿真結(jié)果顯示取得了良好的優(yōu)化效果。Liu 等[9]提出一種應(yīng)用數(shù)據(jù)來驅(qū)動的算法,并且成功用于能量管理策略中,實現(xiàn)了良好的節(jié)油性能。在基于強化學(xué)習(xí)的能量管理策略中,強化學(xué)習(xí)獎勵函數(shù)設(shè)定的問題經(jīng)常會被忽略。獎勵函數(shù)通常是主觀的和經(jīng)驗的,它不容易客觀地描述專家的意圖,也不能保證給定的獎勵函數(shù)會導(dǎo)致最優(yōu)的駕駛策略。在混合動力能量管理控制策略問題中,獎勵函數(shù)的不同直接會導(dǎo)致訓(xùn)練方向的改變。直觀地說,電池與發(fā)動機的參數(shù)決定訓(xùn)練的方向是發(fā)動機最優(yōu)油耗還是電池的最優(yōu)狀態(tài),獎勵函數(shù)的設(shè)定摻雜了過多的人為因素。深度強化學(xué)習(xí)是智能體與環(huán)境的不斷交互學(xué)習(xí)的結(jié)果,通過不斷交互、不斷更新策略來最大化累計獎勵值。獎勵值作為智能體更新策略的關(guān)鍵,設(shè)計獎勵值時更需要具有客觀理論依據(jù),獎勵函數(shù)的設(shè)計關(guān)乎到整個訓(xùn)練網(wǎng)絡(luò)的方向。針對以上問題,本文提出了一種逆強化學(xué)習(xí)方法,通過反向推導(dǎo)權(quán)重參數(shù)并校準(zhǔn)正向強化學(xué)習(xí)算法來優(yōu)化能量管理。逆強化學(xué)習(xí)算法的目標(biāo)是構(gòu)造一個關(guān)于狀態(tài)的獎勵函數(shù)的特征向量,并通過收集合理的專家呈現(xiàn)軌跡來學(xué)習(xí)最優(yōu)獎勵函數(shù)的權(quán)重向量。這種方法能夠描述專家策略,克服經(jīng)驗設(shè)計的隨機性質(zhì)。
混合動力汽車的結(jié)構(gòu)可以理解為能量通路與控制端口之間的連接關(guān)系,它也是一個較為復(fù)雜的系統(tǒng),而且具有很強的非線性特性?;旌蟿恿ζ嚨南到y(tǒng)具有多變性,它是將多個非線性系統(tǒng)耦合而成的,建立非常精確的數(shù)學(xué)模型是極其困難的,所以更加需要統(tǒng)一的建模方法。在混合動力汽車構(gòu)型研發(fā)中,較為基本的方法是基于模型的方法。本文中針對某款混聯(lián)混合動力汽車展開研究,車型的結(jié)構(gòu)如圖1 所示。行星齒輪機構(gòu)與驅(qū)動電機平行布置,行星齒輪機構(gòu)行星架通過減振器連接至發(fā)動機端,太陽輪連接到發(fā)電機MG1,齒圈通過齒輪連接到MG2和輸出軸。此外,發(fā)動機與減振器之間有一個單向離合器,即便發(fā)動機反轉(zhuǎn)時也能及時自鎖。當(dāng)進行能量管理的模擬仿真時,需要依托仿真軟件構(gòu)建整車的動力學(xué)模型,還需要從整車各個部件的建模入手分別建模,主要包括電機模型、發(fā)動機模型、電池模型、變速器模型、車輪模型、駕駛員模型等,相關(guān)部件的基本參數(shù)如表1所示。
表1 本文研究對象參數(shù)
圖1 本文車輛研究對象
在很多基于強化學(xué)習(xí)的能量管理策略當(dāng)中,獎勵函數(shù)的優(yōu)化準(zhǔn)則為在SOC 值變化范圍相同下,燃油消耗盡可能的低,盡可能延長電池壽命,發(fā)動機工作在最優(yōu)燃油區(qū)間。對于強化學(xué)習(xí)獎勵函數(shù)還存在實驗性的調(diào)參,獎勵函數(shù)的構(gòu)造通常具備主觀經(jīng)驗性,不容易客觀地描述專家意圖,從而不能保證在給定獎勵函數(shù)下智能體能學(xué)習(xí)出最優(yōu)的駕駛策略。以下,列舉了很多優(yōu)秀的強化學(xué)習(xí)能量管理策略方法中獎勵函數(shù)的設(shè)定[10-23]。
式中:r表示各個文獻中的獎 勵函數(shù)符號;為在不同的文獻中所表示的燃油消耗率;ΔSOC表示電池SOC變化范圍;α表示發(fā)動機燃油消耗的權(quán)重參數(shù);β和ε表示獎勵函數(shù)中電池的權(quán)重參數(shù);fuel(t)表示t時刻的燃油消耗量;SOC(t)表示t時刻的SOC值;elec(t)表示t時刻的電能消耗量;SOCref表示電池初始SOC值;表示時刻τ時SOC值變化的平方;SOCmin表示最低的SOC值要求;SOCmax表示最高的SOC值要求。
一個合理的獎勵函數(shù)不僅可以加速訓(xùn)練過程,同時可以使得策略優(yōu)化的過程更加穩(wěn)定。從上述的獎勵函數(shù)表達式可以明確雖然能量管理強化學(xué)習(xí)方法的優(yōu)化方式不同,但是基本符合以下表達式:
式中參數(shù)α與β是維持燃油消耗率與SOC 維持關(guān)系的線性權(quán)重。指定這樣的加權(quán)函數(shù)優(yōu)點在于能夠直接使用具有標(biāo)準(zhǔn)化的強化學(xué)習(xí)算法,但是這也直接導(dǎo)致了在訓(xùn)練開始之前就需要確定權(quán)重,這對于能量管理問題是極其困難的。一方面,獎勵函數(shù)需要偏重于SOC維持基本功能,經(jīng)常會表現(xiàn)的較為保守,不能充分利用電池緩沖。另一方面,受限于目標(biāo)任務(wù),多目標(biāo)任務(wù)的不同參數(shù)也無法確定。另外,在這些研究中,發(fā)動機和電池之間權(quán)衡的主觀因素是不可避免的。強化學(xué)習(xí)是尋求累積獎勵期望最大化的最優(yōu)策略,而這種獎勵方程的設(shè)置通常是人為或環(huán)境提供的?;旌蟿恿ζ嚟h(huán)境下的強化學(xué)習(xí)任務(wù)過于復(fù)雜,而人為設(shè)計的獎勵函數(shù)過于困難,且具有較高的主觀性和實效性。獎勵函數(shù)設(shè)置的不同導(dǎo)致了最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫剟睿瑥娀瘜W(xué)習(xí)算法很難收斂。接下來,詳細(xì)闡述本文提出的逆向強化學(xué)習(xí)參數(shù)確定方法。
一般來說,在正向強化學(xué)習(xí)中,以發(fā)動機最佳工作點與電池最佳SOC變化之間的差異為優(yōu)化目標(biāo)來訓(xùn)練網(wǎng)絡(luò)。相反,本章提出一種逆向強化學(xué)習(xí)的方法,探索其最優(yōu)的參數(shù)匹配。與正向強化學(xué)習(xí)不同,在逆向強化學(xué)習(xí)中,需要利用發(fā)動機和電池的最佳狀態(tài)來推導(dǎo)權(quán)重系數(shù)。首先將車輛作為強化學(xué)習(xí)環(huán)境,輸入為從原始的行駛循環(huán)變?yōu)榘l(fā)動機最優(yōu)工作點和電池最優(yōu)工作狀態(tài)。隨后,將電池和發(fā)動機作為強化學(xué)習(xí)的兩個智能體,通過反向強化學(xué)習(xí)得到兩個智能體的權(quán)系數(shù)來指導(dǎo)智能體的行為。在本文當(dāng)中,正向強化學(xué)習(xí)是作為逆向強化學(xué)習(xí)的一個驗證過程。所以正向強化學(xué)習(xí)與逆向強化學(xué)習(xí)的狀態(tài)空間與動作空間保持一致,這樣正向強化學(xué)習(xí)更容易驗證本文的算法。狀態(tài)空間與動作空間如下:
其中,狀態(tài)空間S由發(fā)動機轉(zhuǎn)矩T、發(fā)動機轉(zhuǎn)速n和電池SOC值組成,強化學(xué)習(xí)的動作值A(chǔ)由發(fā)動機需求功率Pre確定。
在本文中,逆向強化學(xué)習(xí)與正向強化學(xué)習(xí)的獎勵函數(shù)都應(yīng)符合如下公式:
其中,Enginerweight與Batteryreweight就是本文利用逆向強化學(xué)習(xí)方法客觀的確定其權(quán)重系數(shù)。
本文逆向強化學(xué)習(xí)的流程主要分為如下4 個部分:第1 部分表示發(fā)動機和電池的最佳狀態(tài),對于發(fā)動機而言是最佳工作點,對于電池而言是保持電池SOC 值的合理穩(wěn)定,最大化電池壽命,并輸入到第2部分中循環(huán)訓(xùn)練得到參數(shù)權(quán)重系數(shù);第2 部分是逆向強化學(xué)習(xí)的算法框架,定義最大熵逆向強化學(xué)習(xí);第3 部分表示強化學(xué)習(xí)環(huán)境,將參數(shù)輸入到環(huán)境中;第4 部分是強化學(xué)習(xí)DQN 算法。第1、2 部分結(jié)構(gòu)如圖2(a)所示,圖2(b)顯示的是第3、4 部分的具體構(gòu)成。
綜上,該算法的具體流程如下:基于專家軌跡和強化學(xué)習(xí)基礎(chǔ),確定獎勵函數(shù)為狀態(tài)和動作的函數(shù)。然后,將新的權(quán)重系數(shù)輸入到獎勵函數(shù)中,輸出到第3 部分進行正向強化學(xué)習(xí)。在該逆向強化學(xué)習(xí)算法中,將發(fā)動機和電池視作多智能體結(jié)構(gòu),以最佳狀態(tài)輸入到強化學(xué)習(xí)網(wǎng)絡(luò)中。合理的獎勵函數(shù)可以加快訓(xùn)練,獲得更加穩(wěn)定的策略優(yōu)化進程,能量管理策略也會趨向于更穩(wěn)定的方向訓(xùn)練。在逆向強化學(xué)習(xí)中,可以把獎勵函數(shù)看做是狀態(tài)值與權(quán)重系數(shù)相乘的結(jié)果,表達式如下:
式中:i表示分量數(shù);r(si,ai)表示(si,ai)狀態(tài)動作的獎勵值;fi表示獎勵函數(shù)第i個特征分量;θi表示獎勵函數(shù)權(quán)重向量第i個特征分量;d表示獎勵函數(shù)中特征向量的個數(shù),在本研究中,采用雙智能體強化學(xué)習(xí)結(jié)構(gòu),電池和發(fā)動機雙代理,所以d取值為2。
在強化學(xué)習(xí)能量管理策略中,專家策略很難用表達式表達。從發(fā)動機出發(fā),專家策略是使得發(fā)動機在最佳工作點附近工作;從電池出發(fā),專家策略是使得電池SOC變化在合理的范圍之內(nèi)。所以本節(jié)通過逆向強化學(xué)習(xí)的方式探索電池與發(fā)動機之間的權(quán)重系數(shù)。逆向強化學(xué)習(xí)的方法為最大熵逆向強化學(xué)習(xí)。強化學(xué)習(xí)在面對環(huán)境中隨機因素時,雙智能體會產(chǎn)生不同的專家軌跡。首先,定義一個最佳能量管理控制策略的軌跡ξ:
這條軌跡的獎勵函數(shù)記為r(ξ):
在面對能量管理策略任務(wù)時,環(huán)境是具有不確定性的隨機因素,所以肯定會存在多條專家軌跡,記為m,專家的特征期望為
在最大熵理論當(dāng)中,具備最大熵分布的模型是最優(yōu)模型,對于能量管理控制策略的問題,在已知發(fā)動機最優(yōu)工作點和電池最優(yōu)SOC變化范圍的情況下,利用最大熵模型就可以得到獎勵函數(shù)的參數(shù)值。最大熵優(yōu)化問題可以表示為
式中p(ξi|θ)表示在參數(shù)θ下,發(fā)生軌跡ξi的概率。最大熵逆強化學(xué)習(xí)的軌跡概率可以表示為
在最大熵逆向強化學(xué)習(xí)中,混合動力能量管理的專家軌跡出現(xiàn)的概率越大,說明訓(xùn)練學(xué)習(xí)到的獎勵函數(shù)越能反映出混合動力汽車能量管理任務(wù)隱含的分布。初始化的優(yōu)化目標(biāo)為最大化專家軌跡的概率分布:
式中fueldemo為專家演示軌跡,也是混合動力汽車最佳發(fā)動機工作點,通常將原始優(yōu)化問題轉(zhuǎn)化為最小化問題。優(yōu)化目標(biāo)變?yōu)樽钚』瘬p失函數(shù)J(θ)。
其中,優(yōu)化目標(biāo)為
式中:rθ(si,ai)表示當(dāng)前狀態(tài)動作的獎勵值;π(aj|sj)表示當(dāng)前狀態(tài)動作對(si,ai)出現(xiàn)的概率。
由于匹配的函數(shù)采用的是能量管理策略抽樣軌跡擬合,因此可以用梯度法得到全局最優(yōu)解。關(guān)于優(yōu)化函數(shù)J(θ),用獎勵函數(shù)的權(quán)重θr求導(dǎo):
最終,依據(jù)上式可以學(xué)習(xí)到獎勵函數(shù)的全局最優(yōu)解。根據(jù)優(yōu)化后的θr參數(shù),可以推導(dǎo)出當(dāng)前的獎勵函數(shù)rθ(si,ai),并將求解得到的獎勵函數(shù)作為前向強化學(xué)習(xí)的優(yōu)化目標(biāo),更新當(dāng)前策略,直到獎勵函數(shù)更新小于給定的閾值。用最大熵逆強化學(xué)習(xí)獲得獎勵函數(shù)權(quán)重的偽代碼如表2所示。
在圖3 中,藍線表示最佳發(fā)動機運行曲線。在求解獎勵值權(quán)重的過程中,考慮到數(shù)據(jù)量過大,占用了較高的計算成本,所以將發(fā)動機map 圖劃分為528 個區(qū)域,每個區(qū)域由一個10×10 矩陣組成。到達每個矩陣內(nèi)的工作點的獎勵值的權(quán)重作為該矩陣的權(quán)重值。如果存在多個工作點,則計算各工作點權(quán)值的平均值作為矩陣的獎勵權(quán)值。由于其他區(qū)域的獎勵值并不高,因而將獎勵值的權(quán)重分別標(biāo)記在藍色最優(yōu)曲線上。通過逆強化學(xué)習(xí)算法得到了發(fā)動機油耗的加權(quán)系數(shù)。圖4顯示了電池SOC變化時電池內(nèi)阻和電動勢的變化。從圖4 中可以看出:電池SOC 在0.2-0.8之間工作,可獲得穩(wěn)定的電動勢;電池內(nèi)阻在0.3-0.7 范圍內(nèi)較低,這個范圍的效率較高,即SOC在0.3-0.7 范圍內(nèi)設(shè)置為電池的最佳狀態(tài)。經(jīng)過正則化后得到的權(quán)系數(shù)如圖5 所示。權(quán)重系數(shù)結(jié)果如式(31)所示。
圖5 正則化后的加權(quán)系數(shù)
從圖5可以看出:在R1-R16區(qū)間(R1-R16區(qū)間具體對應(yīng)轉(zhuǎn)速參見圖3)內(nèi),發(fā)動機轉(zhuǎn)速n為1 000 r/min,發(fā)動機代理的加權(quán)系數(shù)為0.45,電池代理的加權(quán)系數(shù)為0.55;在其他區(qū)間中,發(fā)動機代理的加權(quán)系數(shù)為0.6,電池代理的加權(quán)系數(shù)為0.4。
式中:Enginerweight代表發(fā)動機代理的加權(quán)系數(shù);Batteryreweight代表電池代理的加權(quán)系數(shù)。
利用上節(jié)中得到的獎勵函數(shù)參數(shù)值,本節(jié)從油耗值、SOC 變化值以及動力源轉(zhuǎn)矩變化3 種典型特征驗證該權(quán)重值的優(yōu)越性。將車輛的初始狀態(tài)設(shè)置為:油箱處于最大儲油容量的狀態(tài)和初始SOC 值為0.65。本文的訓(xùn)練工況 是CLTC,IM240、FTP75、WVUINTER 和JN1015。圖6 顯示了新建的行駛工況,并將其作為本文的測試工況,表3 顯示了在終值SOC大致相同的情況下,5個典型駕駛周期和新建工況中強化學(xué)習(xí)算法和具有更新的權(quán)重系數(shù)的強化學(xué)習(xí)算法之間的比較。其中對比值表示逆向強化學(xué)習(xí)算法對應(yīng)強化學(xué)習(xí)基礎(chǔ)算法的油耗值減少率。
圖6 新建工況圖
為了更加直觀地顯示燃油消耗,圖7顯示出5種典型工況的發(fā)動機油耗直方圖,并且使用逆向強化學(xué)習(xí)權(quán)重值作為訓(xùn)練方向,從結(jié)果看出油耗明顯低于其他兩種算法。Q 學(xué)習(xí)(Q-learning)算法是提出時間很早的一種異策略的時序差分學(xué)習(xí)方法;DQN則是利用神經(jīng)網(wǎng)絡(luò)對 Q-learning 中的值函數(shù)進行近似,并針對實際問題作出改進的方法;而DDPG(deep deterministic policy gradient)則可以視為DQN(deep Q-network)對連續(xù)型動作預(yù)測的一個擴展。DQN 與DDPG 都是強化學(xué)習(xí)的經(jīng)典算法,本文以這兩個算法為基準(zhǔn)進行對比。DQN-IRL(deep Qnetwork-inverse reinforcement learning)表示擁有逆向參數(shù)的DQN 算法,DDPG-IRL(deep deterministic policy gradient-inverse reinforcement learning)表示擁有逆向參數(shù)的DDPG算法。
圖7 發(fā)動機油耗直方圖
圖8 顯示了5 種訓(xùn)練工況的獎勵值變化,工況1到工況5 分別是CLTC、IM240、FTP75、WVUINTER、JN1015。從圖中可以看出各個算法都朝著最大獎勵值的方向穩(wěn)步推進,最終達到平滑。另外,圖9 揭示了在測試工況下,DQN、DQN-IRL、DDPG、DDPGIRL的SOC值變化曲線,可以看出所有4種算法都處于較低的內(nèi)阻和較高的電池效率區(qū)間,從而也證實了強化學(xué)習(xí)算法在解決能量管理問題方面的優(yōu)越性。虛線代表IRL 算法,與另外兩種經(jīng)典算法對比,SOC值的波動較小,在同等使用時間下,電池的使用壽命會更長。
圖8 獎勵價值趨勢圖
圖9 4種算法的SOC變化曲線
圖10 和圖11 分別顯示了以DQN 算法為例擁有逆向參數(shù)前后的發(fā)動機轉(zhuǎn)矩、MG1 轉(zhuǎn)矩、MG2 轉(zhuǎn)矩變化,可見添加逆向強化學(xué)習(xí)參數(shù)后,發(fā)動機起停次數(shù)減少,MG1與MG2轉(zhuǎn)矩變化平穩(wěn)。
圖10 DQN算法發(fā)動機轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對比
圖11 DDPG算法下發(fā)動機轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對比
為了評估本文所提出的能量管理策略的實際應(yīng)用潛力,實施并分析了硬件在環(huán)實驗。如圖12 所示,實驗系統(tǒng)由混合動力模型、駕駛員操作系統(tǒng)、虛擬場景系統(tǒng)、傳感器系統(tǒng)、ubuntu RT 系統(tǒng)和車輛控制單元組成。虛擬場景系統(tǒng)為駕駛員提供了真實的駕駛環(huán)境,使其接近真實的駕駛體驗,還可以通過數(shù)據(jù)交互為駕駛員提供豐富的交通環(huán)境信息、道路信息和地理位置信息,以支持交通能量管理策略的研究和測試。在虛擬場景系統(tǒng)中,道路信息和地理位置信息是非常重要的。通過這些信息,駕駛員可以了解自己當(dāng)前所處的位置和行駛方向,以及周圍的道路狀況、車流量等信息。此外,交通環(huán)境信息也非常重要,例如交通信號燈、車輛速度、行駛方向等信息,這些信息可以為駕駛員提供實時的交通情況,幫助其做出正確的駕駛決策。數(shù)據(jù)交互也是虛擬場景系統(tǒng)的一個重要特點。通過數(shù)據(jù)交互,虛擬場景系統(tǒng)可以與其他系統(tǒng)進行信息交換,例如車輛控制系統(tǒng)、交通信號控制系統(tǒng)等,以實現(xiàn)交通能量管理策略的研究和測試。同時,數(shù)據(jù)交互還可以支持多車協(xié)同駕駛和交通模擬等功能,增強虛擬場景系統(tǒng)的實用性和可擴展性。車輛控制系統(tǒng)的主要作用是實施所提出的策略并將控制參數(shù)輸出到執(zhí)行。駕駛員的操作信息全部反饋給轉(zhuǎn)向系統(tǒng),而車速狀態(tài)信息和機電系統(tǒng)的狀態(tài)由實時仿真系統(tǒng)提供。
圖12 硬件在環(huán)實驗系統(tǒng)構(gòu)成
集成系統(tǒng)如圖13 所示。本文的硬件在環(huán)平臺是課題組自研的硬件設(shè)備,其中,下位機是ubuntu RT 系統(tǒng),上位機是自研的場景系統(tǒng)。ubuntu RT 系統(tǒng)采用的是amd Ryzen5 處理器,6700XT顯卡。在圖13 中,將數(shù)據(jù)檢測系統(tǒng)與駕駛員操作系統(tǒng)相結(jié)合,駕駛員操作系統(tǒng)顯示在駕駛員下方?;诂F(xiàn)有配置和技術(shù)條件,利用CAN 通信技術(shù)實現(xiàn)數(shù)據(jù)交互,實時獲取轉(zhuǎn)向盤角度、加速度和制動踏板數(shù)據(jù)。然后將數(shù)據(jù)輸入車輛控制單元(VCU)。
圖13 集成系統(tǒng)和駕駛員操作系統(tǒng)
為了進一步驗證本文逆向強化學(xué)習(xí)能量管理策略,本節(jié)在4.1 節(jié)構(gòu)建的硬件在環(huán)設(shè)備基礎(chǔ)之上進行驗證實驗。圖14 表示在該硬件在環(huán)設(shè)備上運行的一段實際工況,表4 顯示了原始的DQN/DDPG 算法與本文算法在HIL 硬件在環(huán)測試下的油耗對比結(jié)果,在初始SOC值與終止SOC值變化大致的前提下,可以看出具有本文權(quán)重值的強化學(xué)習(xí)算法油耗值較低。
表4 仿真數(shù)據(jù)與HIL數(shù)據(jù)在燃油消耗方面的對比
圖14 硬件在環(huán)場景中運行的工況
圖15 和圖16 顯示了電池SOC 值在仿真測試與HIL 測試中的變化范圍,黑線表示在離線仿真情況下的電池SOC 變化,紅色線表示在HIL 下的電池SOC 值變化。從圖中可以看出在實時策略下,兩種策略都可以保持良好的電量范圍,電池的性能和狀態(tài)也在較佳的狀態(tài),電池性能正常,可以提高整體的生態(tài)駕駛策略的可靠性和穩(wěn)定性,確保系統(tǒng)順暢運行。圖17 與圖18 分別顯示了DQN 算法和DDPG 算法與DQN-IRL 算法和DDPG-IRL 算法在該硬件在環(huán)環(huán)境下的發(fā)動機轉(zhuǎn)矩、發(fā)電機MG1 轉(zhuǎn)矩、電動機MG2 轉(zhuǎn)矩的變化對比圖。藍色線代表發(fā)動機轉(zhuǎn)矩,橙色線代表MG1轉(zhuǎn)矩,灰色線代表MG2轉(zhuǎn)矩。從圖中可以看出,具有逆向強化學(xué)習(xí)參數(shù)的算法發(fā)動機轉(zhuǎn)矩優(yōu)化明顯,減少了發(fā)動機起停。
圖15 HIL下DQN算法的SOC值變化
圖16 HIL下DDPG算法的SOC值變化
圖17 HIL下DQN與DQN-IRL轉(zhuǎn)矩對比
圖18 HIL下DDPG與DDPG-IRL轉(zhuǎn)矩對比
本文對混合動力汽車能量管理策略的獎勵值函數(shù)展開研究。強化學(xué)習(xí)的智能體與環(huán)境交互的引導(dǎo)方向是由獎勵函數(shù)決定的。然而,目前的獎勵功能設(shè)計仍然存在缺陷。逆向強化學(xué)習(xí)是一種從演示中學(xué)習(xí)的特殊形式,它試圖從提供的例子中估計馬爾可夫決策過程的獎勵函數(shù)。獎勵函數(shù)通常被認(rèn)為是對任務(wù)最簡潔的描述。在簡單的應(yīng)用中,獎勵函數(shù)可能是已知的,或從系統(tǒng)的性質(zhì)中很容易推導(dǎo)出來,并應(yīng)用到學(xué)習(xí)過程中。在大多數(shù)強化學(xué)習(xí)能量管理策略中,獎勵函數(shù)的設(shè)計具有主觀性和經(jīng)驗性,很難客觀地描述專家的意圖,發(fā)動機和電池之間的權(quán)衡不可避免地存在主觀因素。但是,在給定的獎勵函數(shù)下,該條件不能保證智能體學(xué)習(xí)到最優(yōu)駕駛策略。另外,混合動力汽車環(huán)境下的強化學(xué)習(xí)任務(wù)過于復(fù)雜,而人為設(shè)計的獎勵函數(shù)過于困難且高度主觀和經(jīng)驗。獎勵函數(shù)設(shè)置的不同會導(dǎo)致最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫剟?,強化學(xué)習(xí)算法很難收斂。針對這些問題,本文提出了一種基于逆向強化學(xué)習(xí)的能量管理策略,獲取專家軌跡下的獎勵函數(shù)權(quán)值,并用于指導(dǎo)發(fā)動機智能體和電池智能體的行為。該方法的主要過程是利用逆強化學(xué)習(xí)得到的權(quán)重系數(shù)對獎勵函數(shù)進行修正,并根據(jù)最新的獎勵函數(shù)輸入正向強化學(xué)習(xí)任務(wù)。最后,將修正后的權(quán)值重新輸入到正向強化學(xué)習(xí)訓(xùn)練中。從油耗值、SOC 變化曲線、獎勵訓(xùn)練過程以及動力源轉(zhuǎn)矩等方面,表明該算法具有一定的優(yōu)勢。本文的主要成果總結(jié)如下:
(1)從電池荷電狀態(tài)的變化值來看,荷電狀態(tài)的變化區(qū)間處于電池效率高、內(nèi)阻低的區(qū)域,燃油消耗處于較低水平;
(2)逆向強化學(xué)習(xí)獲取的獎勵參數(shù)結(jié)果是分段式的;
(3)在強化學(xué)習(xí)訓(xùn)練過程中,獎勵值穩(wěn)步向最大方向前進,最終達到平穩(wěn)狀態(tài),訓(xùn)練有效。