基于逆強化學(xué)習(xí)的混合動力汽車能量管理策略研究*

2023-11-09 03:56齊春陽宋傳學(xué)宋世欣靳立強

汽車工程 2023年10期

齊春陽，宋傳學(xué)，宋世欣，靳立強，王達，肖峰

（1.吉林大學(xué)，汽車仿真與控制國家重點實驗室，長春 130022；2.吉林大學(xué)汽車工程學(xué)院，長春 130022；3.吉林大學(xué)機械與航空航天工程學(xué)院，長春 130022）

前言

混合動力汽車的主要目標(biāo)是提高動力系統(tǒng)的效率和降低燃料消耗。在給定動力系統(tǒng)配置的情況下，影響混合動力汽車油耗的最重要因素是發(fā)動機和電氣系統(tǒng)之間的功率分配比。能量管理策略（energy management strategy，EMS）是混合動力汽車的關(guān)鍵技術(shù)之一，需要在滿足電力需求的約束下協(xié)調(diào)發(fā)動機和電氣系統(tǒng)之間的功率分配。對于同一車型，同一行駛周期，不同能量管理策略對應(yīng)的油耗相差20%［1］。因此，研究混合動力汽車的能量管理策略具有重要意義。在混合動力汽車能量管理策略的研究過程中，研究者將大部分的控制策略主要分為3 類：（1）基于規(guī)則；（2）基于優(yōu)化；（3）基于學(xué)習(xí)。其中，基于規(guī)則又可以分為確定性規(guī)則和模糊性規(guī)則；基于優(yōu)化可以分為全局優(yōu)化和瞬時優(yōu)化?；谝?guī)則的能量管理策略需要制定控制規(guī)則來確定不同驅(qū)動模式下的能源分布情況［2］?；谝?guī)則的方法優(yōu)點在于，規(guī)則制度很容易開發(fā)，并且可以應(yīng)用在實施控制系統(tǒng)中。但是規(guī)則的開發(fā)非常需要經(jīng)驗豐富的專家工程師的知識。與基于規(guī)則的能量管理策略相比，全局優(yōu)化算法調(diào)整的參數(shù)優(yōu)于確定性規(guī)則。近幾年，基于學(xué)習(xí)的方法越來越受到研究者們的關(guān)注。其中，強化學(xué)習(xí)方法能夠解決與實時優(yōu)化方法相關(guān)的任務(wù)得到了大家的青睞。強化學(xué)習(xí)智能體根據(jù)累計的獎勵能夠在不同狀態(tài)下采取適應(yīng)的行動。重慶理工大學(xué)的龐玉涵［3］提出了一種分層機構(gòu)的強化學(xué)習(xí)方法，為能量管理策略提供了新思路。北京理工大學(xué)的劉騰［4］從強化學(xué)習(xí)算法出發(fā)，探索了以強化學(xué)習(xí)為基礎(chǔ)的能量管理策略在最優(yōu)性、自適應(yīng)性和學(xué)習(xí)能力下的優(yōu)化，并將強化學(xué)習(xí)算法深入到實時優(yōu)化過程中，為實時性的強化學(xué)習(xí)算法提供了思路。重慶大學(xué)的唐小林等［5］提出一種基于深度值網(wǎng)絡(luò)算法的能量管理策略，實現(xiàn)深度強化學(xué)習(xí)對發(fā)動機與機械式無級變速器的多目標(biāo)協(xié)同控制。Li 等［6］提出了一種利用優(yōu)先級經(jīng)驗重放機制改進DQN（deep Qnetwork）模型。Chaoui 等［7］提出了一種基于強化學(xué)習(xí)的方法，用于平衡具有多個電池的電動汽車電池的荷電狀態(tài)，該方法可以延長電池壽命并減少電池的頻繁維護。

另外，強化學(xué)習(xí)狀態(tài)之間有很強的相關(guān)性，會不同程度影響學(xué)習(xí)效果。Liu 等［8］將基于 GPS 得到的行程信息與強化學(xué)習(xí)算法結(jié)合，在狀態(tài)變量中加入剩余行駛里程，仿真結(jié)果顯示取得了良好的優(yōu)化效果。Liu 等［9］提出一種應(yīng)用數(shù)據(jù)來驅(qū)動的算法，并且成功用于能量管理策略中，實現(xiàn)了良好的節(jié)油性能。在基于強化學(xué)習(xí)的能量管理策略中，強化學(xué)習(xí)獎勵函數(shù)設(shè)定的問題經(jīng)常會被忽略。獎勵函數(shù)通常是主觀的和經(jīng)驗的，它不容易客觀地描述專家的意圖，也不能保證給定的獎勵函數(shù)會導(dǎo)致最優(yōu)的駕駛策略。在混合動力能量管理控制策略問題中，獎勵函數(shù)的不同直接會導(dǎo)致訓(xùn)練方向的改變。直觀地說，電池與發(fā)動機的參數(shù)決定訓(xùn)練的方向是發(fā)動機最優(yōu)油耗還是電池的最優(yōu)狀態(tài)，獎勵函數(shù)的設(shè)定摻雜了過多的人為因素。深度強化學(xué)習(xí)是智能體與環(huán)境的不斷交互學(xué)習(xí)的結(jié)果，通過不斷交互、不斷更新策略來最大化累計獎勵值。獎勵值作為智能體更新策略的關(guān)鍵，設(shè)計獎勵值時更需要具有客觀理論依據(jù)，獎勵函數(shù)的設(shè)計關(guān)乎到整個訓(xùn)練網(wǎng)絡(luò)的方向。針對以上問題，本文提出了一種逆強化學(xué)習(xí)方法，通過反向推導(dǎo)權(quán)重參數(shù)并校準(zhǔn)正向強化學(xué)習(xí)算法來優(yōu)化能量管理。逆強化學(xué)習(xí)算法的目標(biāo)是構(gòu)造一個關(guān)于狀態(tài)的獎勵函數(shù)的特征向量，并通過收集合理的專家呈現(xiàn)軌跡來學(xué)習(xí)最優(yōu)獎勵函數(shù)的權(quán)重向量。這種方法能夠描述專家策略，克服經(jīng)驗設(shè)計的隨機性質(zhì)。

1 混合動力汽車系統(tǒng)方案

混合動力汽車的結(jié)構(gòu)可以理解為能量通路與控制端口之間的連接關(guān)系，它也是一個較為復(fù)雜的系統(tǒng)，而且具有很強的非線性特性?；旌蟿恿ζ嚨南到y(tǒng)具有多變性，它是將多個非線性系統(tǒng)耦合而成的，建立非常精確的數(shù)學(xué)模型是極其困難的，所以更加需要統(tǒng)一的建模方法。在混合動力汽車構(gòu)型研發(fā)中，較為基本的方法是基于模型的方法。本文中針對某款混聯(lián)混合動力汽車展開研究，車型的結(jié)構(gòu)如圖1 所示。行星齒輪機構(gòu)與驅(qū)動電機平行布置，行星齒輪機構(gòu)行星架通過減振器連接至發(fā)動機端，太陽輪連接到發(fā)電機MG1，齒圈通過齒輪連接到MG2和輸出軸。此外，發(fā)動機與減振器之間有一個單向離合器，即便發(fā)動機反轉(zhuǎn)時也能及時自鎖。當(dāng)進行能量管理的模擬仿真時，需要依托仿真軟件構(gòu)建整車的動力學(xué)模型，還需要從整車各個部件的建模入手分別建模，主要包括電機模型、發(fā)動機模型、電池模型、變速器模型、車輪模型、駕駛員模型等，相關(guān)部件的基本參數(shù)如表1所示。

表1 本文研究對象參數(shù)

圖1 本文車輛研究對象

2 逆向強化學(xué)習(xí)方法獎勵函數(shù)參數(shù)匹配

2.1 基于強化學(xué)習(xí)方法的管理策略參數(shù)分析

在很多基于強化學(xué)習(xí)的能量管理策略當(dāng)中，獎勵函數(shù)的優(yōu)化準(zhǔn)則為在SOC 值變化范圍相同下，燃油消耗盡可能的低，盡可能延長電池壽命，發(fā)動機工作在最優(yōu)燃油區(qū)間。對于強化學(xué)習(xí)獎勵函數(shù)還存在實驗性的調(diào)參，獎勵函數(shù)的構(gòu)造通常具備主觀經(jīng)驗性，不容易客觀地描述專家意圖，從而不能保證在給定獎勵函數(shù)下智能體能學(xué)習(xí)出最優(yōu)的駕駛策略。以下，列舉了很多優(yōu)秀的強化學(xué)習(xí)能量管理策略方法中獎勵函數(shù)的設(shè)定［10-23］。

式中：r表示各個文獻中的獎勵函數(shù)符號；為在不同的文獻中所表示的燃油消耗率；ΔSOC表示電池SOC變化范圍；α表示發(fā)動機燃油消耗的權(quán)重參數(shù)；β和ε表示獎勵函數(shù)中電池的權(quán)重參數(shù)；fuel(t)表示t時刻的燃油消耗量；SOC(t)表示t時刻的SOC值；elec(t)表示t時刻的電能消耗量；SOCref表示電池初始SOC值；表示時刻τ時SOC值變化的平方；SOCmin表示最低的SOC值要求；SOCmax表示最高的SOC值要求。

一個合理的獎勵函數(shù)不僅可以加速訓(xùn)練過程，同時可以使得策略優(yōu)化的過程更加穩(wěn)定。從上述的獎勵函數(shù)表達式可以明確雖然能量管理強化學(xué)習(xí)方法的優(yōu)化方式不同，但是基本符合以下表達式：

式中參數(shù)α與β是維持燃油消耗率與SOC 維持關(guān)系的線性權(quán)重。指定這樣的加權(quán)函數(shù)優(yōu)點在于能夠直接使用具有標(biāo)準(zhǔn)化的強化學(xué)習(xí)算法，但是這也直接導(dǎo)致了在訓(xùn)練開始之前就需要確定權(quán)重，這對于能量管理問題是極其困難的。一方面，獎勵函數(shù)需要偏重于SOC維持基本功能，經(jīng)常會表現(xiàn)的較為保守，不能充分利用電池緩沖。另一方面，受限于目標(biāo)任務(wù)，多目標(biāo)任務(wù)的不同參數(shù)也無法確定。另外，在這些研究中，發(fā)動機和電池之間權(quán)衡的主觀因素是不可避免的。強化學(xué)習(xí)是尋求累積獎勵期望最大化的最優(yōu)策略，而這種獎勵方程的設(shè)置通常是人為或環(huán)境提供的?；旌蟿恿ζ嚟h(huán)境下的強化學(xué)習(xí)任務(wù)過于復(fù)雜，而人為設(shè)計的獎勵函數(shù)過于困難，且具有較高的主觀性和實效性。獎勵函數(shù)設(shè)置的不同導(dǎo)致了最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫剟睿瑥娀瘜W(xué)習(xí)算法很難收斂。接下來，詳細(xì)闡述本文提出的逆向強化學(xué)習(xí)參數(shù)確定方法。

2.2 逆向強化學(xué)習(xí)能量管理策略任務(wù)

一般來說，在正向強化學(xué)習(xí)中，以發(fā)動機最佳工作點與電池最佳SOC變化之間的差異為優(yōu)化目標(biāo)來訓(xùn)練網(wǎng)絡(luò)。相反，本章提出一種逆向強化學(xué)習(xí)的方法，探索其最優(yōu)的參數(shù)匹配。與正向強化學(xué)習(xí)不同，在逆向強化學(xué)習(xí)中，需要利用發(fā)動機和電池的最佳狀態(tài)來推導(dǎo)權(quán)重系數(shù)。首先將車輛作為強化學(xué)習(xí)環(huán)境，輸入為從原始的行駛循環(huán)變?yōu)榘l(fā)動機最優(yōu)工作點和電池最優(yōu)工作狀態(tài)。隨后，將電池和發(fā)動機作為強化學(xué)習(xí)的兩個智能體，通過反向強化學(xué)習(xí)得到兩個智能體的權(quán)系數(shù)來指導(dǎo)智能體的行為。在本文當(dāng)中，正向強化學(xué)習(xí)是作為逆向強化學(xué)習(xí)的一個驗證過程。所以正向強化學(xué)習(xí)與逆向強化學(xué)習(xí)的狀態(tài)空間與動作空間保持一致，這樣正向強化學(xué)習(xí)更容易驗證本文的算法。狀態(tài)空間與動作空間如下：

其中，狀態(tài)空間S由發(fā)動機轉(zhuǎn)矩T、發(fā)動機轉(zhuǎn)速n和電池SOC值組成，強化學(xué)習(xí)的動作值A(chǔ)由發(fā)動機需求功率Pre確定。

在本文中，逆向強化學(xué)習(xí)與正向強化學(xué)習(xí)的獎勵函數(shù)都應(yīng)符合如下公式：

其中，Enginerweight與Batteryreweight就是本文利用逆向強化學(xué)習(xí)方法客觀的確定其權(quán)重系數(shù)。

本文逆向強化學(xué)習(xí)的流程主要分為如下4 個部分：第1 部分表示發(fā)動機和電池的最佳狀態(tài)，對于發(fā)動機而言是最佳工作點，對于電池而言是保持電池SOC 值的合理穩(wěn)定，最大化電池壽命，并輸入到第2部分中循環(huán)訓(xùn)練得到參數(shù)權(quán)重系數(shù)；第2 部分是逆向強化學(xué)習(xí)的算法框架，定義最大熵逆向強化學(xué)習(xí)；第3 部分表示強化學(xué)習(xí)環(huán)境，將參數(shù)輸入到環(huán)境中；第4 部分是強化學(xué)習(xí)DQN 算法。第1、2 部分結(jié)構(gòu)如圖2（a）所示，圖2（b）顯示的是第3、4 部分的具體構(gòu)成。

綜上，該算法的具體流程如下：基于專家軌跡和強化學(xué)習(xí)基礎(chǔ)，確定獎勵函數(shù)為狀態(tài)和動作的函數(shù)。然后，將新的權(quán)重系數(shù)輸入到獎勵函數(shù)中，輸出到第3 部分進行正向強化學(xué)習(xí)。在該逆向強化學(xué)習(xí)算法中，將發(fā)動機和電池視作多智能體結(jié)構(gòu)，以最佳狀態(tài)輸入到強化學(xué)習(xí)網(wǎng)絡(luò)中。合理的獎勵函數(shù)可以加快訓(xùn)練，獲得更加穩(wěn)定的策略優(yōu)化進程，能量管理策略也會趨向于更穩(wěn)定的方向訓(xùn)練。在逆向強化學(xué)習(xí)中，可以把獎勵函數(shù)看做是狀態(tài)值與權(quán)重系數(shù)相乘的結(jié)果，表達式如下：

式中：i表示分量數(shù)；r(si，ai)表示(si，ai)狀態(tài)動作的獎勵值；fi表示獎勵函數(shù)第i個特征分量；θi表示獎勵函數(shù)權(quán)重向量第i個特征分量；d表示獎勵函數(shù)中特征向量的個數(shù)，在本研究中，采用雙智能體強化學(xué)習(xí)結(jié)構(gòu)，電池和發(fā)動機雙代理，所以d取值為2。

在強化學(xué)習(xí)能量管理策略中，專家策略很難用表達式表達。從發(fā)動機出發(fā)，專家策略是使得發(fā)動機在最佳工作點附近工作；從電池出發(fā)，專家策略是使得電池SOC變化在合理的范圍之內(nèi)。所以本節(jié)通過逆向強化學(xué)習(xí)的方式探索電池與發(fā)動機之間的權(quán)重系數(shù)。逆向強化學(xué)習(xí)的方法為最大熵逆向強化學(xué)習(xí)。強化學(xué)習(xí)在面對環(huán)境中隨機因素時，雙智能體會產(chǎn)生不同的專家軌跡。首先，定義一個最佳能量管理控制策略的軌跡ξ：

這條軌跡的獎勵函數(shù)記為r(ξ)：

在面對能量管理策略任務(wù)時，環(huán)境是具有不確定性的隨機因素，所以肯定會存在多條專家軌跡，記為m，專家的特征期望為

在最大熵理論當(dāng)中，具備最大熵分布的模型是最優(yōu)模型，對于能量管理控制策略的問題，在已知發(fā)動機最優(yōu)工作點和電池最優(yōu)SOC變化范圍的情況下，利用最大熵模型就可以得到獎勵函數(shù)的參數(shù)值。最大熵優(yōu)化問題可以表示為

式中p(ξi|θ)表示在參數(shù)θ下，發(fā)生軌跡ξi的概率。最大熵逆強化學(xué)習(xí)的軌跡概率可以表示為

在最大熵逆向強化學(xué)習(xí)中，混合動力能量管理的專家軌跡出現(xiàn)的概率越大，說明訓(xùn)練學(xué)習(xí)到的獎勵函數(shù)越能反映出混合動力汽車能量管理任務(wù)隱含的分布。初始化的優(yōu)化目標(biāo)為最大化專家軌跡的概率分布：

式中fueldemo為專家演示軌跡，也是混合動力汽車最佳發(fā)動機工作點，通常將原始優(yōu)化問題轉(zhuǎn)化為最小化問題。優(yōu)化目標(biāo)變?yōu)樽钚』瘬p失函數(shù)J(θ)。

其中，優(yōu)化目標(biāo)為

式中：rθ(si，ai)表示當(dāng)前狀態(tài)動作的獎勵值；π(aj|sj)表示當(dāng)前狀態(tài)動作對(si，ai)出現(xiàn)的概率。

由于匹配的函數(shù)采用的是能量管理策略抽樣軌跡擬合，因此可以用梯度法得到全局最優(yōu)解。關(guān)于優(yōu)化函數(shù)J(θ)，用獎勵函數(shù)的權(quán)重θr求導(dǎo)：

最終，依據(jù)上式可以學(xué)習(xí)到獎勵函數(shù)的全局最優(yōu)解。根據(jù)優(yōu)化后的θr參數(shù)，可以推導(dǎo)出當(dāng)前的獎勵函數(shù)rθ(si，ai)，并將求解得到的獎勵函數(shù)作為前向強化學(xué)習(xí)的優(yōu)化目標(biāo)，更新當(dāng)前策略，直到獎勵函數(shù)更新小于給定的閾值。用最大熵逆強化學(xué)習(xí)獲得獎勵函數(shù)權(quán)重的偽代碼如表2所示。

3 逆向強化學(xué)習(xí)參數(shù)確定結(jié)果分析

3.1 逆向強化學(xué)習(xí)獎勵函數(shù)權(quán)重確定

在圖3 中，藍線表示最佳發(fā)動機運行曲線。在求解獎勵值權(quán)重的過程中，考慮到數(shù)據(jù)量過大，占用了較高的計算成本，所以將發(fā)動機map 圖劃分為528 個區(qū)域，每個區(qū)域由一個10×10 矩陣組成。到達每個矩陣內(nèi)的工作點的獎勵值的權(quán)重作為該矩陣的權(quán)重值。如果存在多個工作點，則計算各工作點權(quán)值的平均值作為矩陣的獎勵權(quán)值。由于其他區(qū)域的獎勵值并不高，因而將獎勵值的權(quán)重分別標(biāo)記在藍色最優(yōu)曲線上。通過逆強化學(xué)習(xí)算法得到了發(fā)動機油耗的加權(quán)系數(shù)。圖4顯示了電池SOC變化時電池內(nèi)阻和電動勢的變化。從圖4 中可以看出：電池SOC 在0.2-0.8之間工作，可獲得穩(wěn)定的電動勢；電池內(nèi)阻在0.3-0.7 范圍內(nèi)較低，這個范圍的效率較高，即SOC在0.3-0.7 范圍內(nèi)設(shè)置為電池的最佳狀態(tài)。經(jīng)過正則化后得到的權(quán)系數(shù)如圖5 所示。權(quán)重系數(shù)結(jié)果如式（31）所示。

圖5 正則化后的加權(quán)系數(shù)

從圖5可以看出：在R1-R16區(qū)間（R1-R16區(qū)間具體對應(yīng)轉(zhuǎn)速參見圖3）內(nèi)，發(fā)動機轉(zhuǎn)速n為1 000 r/min，發(fā)動機代理的加權(quán)系數(shù)為0.45，電池代理的加權(quán)系數(shù)為0.55；在其他區(qū)間中，發(fā)動機代理的加權(quán)系數(shù)為0.6，電池代理的加權(quán)系數(shù)為0.4。

式中：Enginerweight代表發(fā)動機代理的加權(quán)系數(shù)；Batteryreweight代表電池代理的加權(quán)系數(shù)。

3.2 正向強化學(xué)習(xí)

利用上節(jié)中得到的獎勵函數(shù)參數(shù)值，本節(jié)從油耗值、SOC 變化值以及動力源轉(zhuǎn)矩變化3 種典型特征驗證該權(quán)重值的優(yōu)越性。將車輛的初始狀態(tài)設(shè)置為：油箱處于最大儲油容量的狀態(tài)和初始SOC 值為0.65。本文的訓(xùn)練工況是CLTC，IM240、FTP75、WVUINTER 和JN1015。圖6 顯示了新建的行駛工況，并將其作為本文的測試工況，表3 顯示了在終值SOC大致相同的情況下，5個典型駕駛周期和新建工況中強化學(xué)習(xí)算法和具有更新的權(quán)重系數(shù)的強化學(xué)習(xí)算法之間的比較。其中對比值表示逆向強化學(xué)習(xí)算法對應(yīng)強化學(xué)習(xí)基礎(chǔ)算法的油耗值減少率。

圖6 新建工況圖

為了更加直觀地顯示燃油消耗，圖7顯示出5種典型工況的發(fā)動機油耗直方圖，并且使用逆向強化學(xué)習(xí)權(quán)重值作為訓(xùn)練方向，從結(jié)果看出油耗明顯低于其他兩種算法。Q 學(xué)習(xí)（Q-learning）算法是提出時間很早的一種異策略的時序差分學(xué)習(xí)方法；DQN則是利用神經(jīng)網(wǎng)絡(luò)對 Q-learning 中的值函數(shù)進行近似，并針對實際問題作出改進的方法；而DDPG（deep deterministic policy gradient）則可以視為DQN（deep Q-network）對連續(xù)型動作預(yù)測的一個擴展。DQN 與DDPG 都是強化學(xué)習(xí)的經(jīng)典算法，本文以這兩個算法為基準(zhǔn)進行對比。DQN-IRL（deep Qnetwork-inverse reinforcement learning）表示擁有逆向參數(shù)的DQN 算法，DDPG-IRL（deep deterministic policy gradient-inverse reinforcement learning）表示擁有逆向參數(shù)的DDPG算法。

圖7 發(fā)動機油耗直方圖

圖8 顯示了5 種訓(xùn)練工況的獎勵值變化，工況1到工況5 分別是CLTC、IM240、FTP75、WVUINTER、JN1015。從圖中可以看出各個算法都朝著最大獎勵值的方向穩(wěn)步推進，最終達到平滑。另外，圖9 揭示了在測試工況下，DQN、DQN-IRL、DDPG、DDPGIRL的SOC值變化曲線，可以看出所有4種算法都處于較低的內(nèi)阻和較高的電池效率區(qū)間，從而也證實了強化學(xué)習(xí)算法在解決能量管理問題方面的優(yōu)越性。虛線代表IRL 算法，與另外兩種經(jīng)典算法對比，SOC值的波動較小，在同等使用時間下，電池的使用壽命會更長。

圖8 獎勵價值趨勢圖

圖9 4種算法的SOC變化曲線

圖10 和圖11 分別顯示了以DQN 算法為例擁有逆向參數(shù)前后的發(fā)動機轉(zhuǎn)矩、MG1 轉(zhuǎn)矩、MG2 轉(zhuǎn)矩變化，可見添加逆向強化學(xué)習(xí)參數(shù)后，發(fā)動機起停次數(shù)減少，MG1與MG2轉(zhuǎn)矩變化平穩(wěn)。

圖10 DQN算法發(fā)動機轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對比

圖11 DDPG算法下發(fā)動機轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對比

4 硬件在環(huán)實驗驗證

4.1 硬件在環(huán)實驗臺搭建

為了評估本文所提出的能量管理策略的實際應(yīng)用潛力，實施并分析了硬件在環(huán)實驗。如圖12 所示，實驗系統(tǒng)由混合動力模型、駕駛員操作系統(tǒng)、虛擬場景系統(tǒng)、傳感器系統(tǒng)、ubuntu RT 系統(tǒng)和車輛控制單元組成。虛擬場景系統(tǒng)為駕駛員提供了真實的駕駛環(huán)境，使其接近真實的駕駛體驗，還可以通過數(shù)據(jù)交互為駕駛員提供豐富的交通環(huán)境信息、道路信息和地理位置信息，以支持交通能量管理策略的研究和測試。在虛擬場景系統(tǒng)中，道路信息和地理位置信息是非常重要的。通過這些信息，駕駛員可以了解自己當(dāng)前所處的位置和行駛方向，以及周圍的道路狀況、車流量等信息。此外，交通環(huán)境信息也非常重要，例如交通信號燈、車輛速度、行駛方向等信息，這些信息可以為駕駛員提供實時的交通情況，幫助其做出正確的駕駛決策。數(shù)據(jù)交互也是虛擬場景系統(tǒng)的一個重要特點。通過數(shù)據(jù)交互，虛擬場景系統(tǒng)可以與其他系統(tǒng)進行信息交換，例如車輛控制系統(tǒng)、交通信號控制系統(tǒng)等，以實現(xiàn)交通能量管理策略的研究和測試。同時，數(shù)據(jù)交互還可以支持多車協(xié)同駕駛和交通模擬等功能，增強虛擬場景系統(tǒng)的實用性和可擴展性。車輛控制系統(tǒng)的主要作用是實施所提出的策略并將控制參數(shù)輸出到執(zhí)行。駕駛員的操作信息全部反饋給轉(zhuǎn)向系統(tǒng)，而車速狀態(tài)信息和機電系統(tǒng)的狀態(tài)由實時仿真系統(tǒng)提供。

圖12 硬件在環(huán)實驗系統(tǒng)構(gòu)成

集成系統(tǒng)如圖13 所示。本文的硬件在環(huán)平臺是課題組自研的硬件設(shè)備，其中，下位機是ubuntu RT 系統(tǒng)，上位機是自研的場景系統(tǒng)。ubuntu RT 系統(tǒng)采用的是amd Ryzen5 處理器，6700XT顯卡。在圖13 中，將數(shù)據(jù)檢測系統(tǒng)與駕駛員操作系統(tǒng)相結(jié)合，駕駛員操作系統(tǒng)顯示在駕駛員下方?；诂F(xiàn)有配置和技術(shù)條件，利用CAN 通信技術(shù)實現(xiàn)數(shù)據(jù)交互，實時獲取轉(zhuǎn)向盤角度、加速度和制動踏板數(shù)據(jù)。然后將數(shù)據(jù)輸入車輛控制單元（VCU）。

圖13 集成系統(tǒng)和駕駛員操作系統(tǒng)

4.2 硬件在環(huán)數(shù)據(jù)結(jié)果分析

為了進一步驗證本文逆向強化學(xué)習(xí)能量管理策略，本節(jié)在4.1 節(jié)構(gòu)建的硬件在環(huán)設(shè)備基礎(chǔ)之上進行驗證實驗。圖14 表示在該硬件在環(huán)設(shè)備上運行的一段實際工況，表4 顯示了原始的DQN/DDPG 算法與本文算法在HIL 硬件在環(huán)測試下的油耗對比結(jié)果，在初始SOC值與終止SOC值變化大致的前提下，可以看出具有本文權(quán)重值的強化學(xué)習(xí)算法油耗值較低。

表4 仿真數(shù)據(jù)與HIL數(shù)據(jù)在燃油消耗方面的對比

圖14 硬件在環(huán)場景中運行的工況

圖15 和圖16 顯示了電池SOC 值在仿真測試與HIL 測試中的變化范圍，黑線表示在離線仿真情況下的電池SOC 變化，紅色線表示在HIL 下的電池SOC 值變化。從圖中可以看出在實時策略下，兩種策略都可以保持良好的電量范圍，電池的性能和狀態(tài)也在較佳的狀態(tài)，電池性能正常，可以提高整體的生態(tài)駕駛策略的可靠性和穩(wěn)定性，確保系統(tǒng)順暢運行。圖17 與圖18 分別顯示了DQN 算法和DDPG 算法與DQN-IRL 算法和DDPG-IRL 算法在該硬件在環(huán)環(huán)境下的發(fā)動機轉(zhuǎn)矩、發(fā)電機MG1 轉(zhuǎn)矩、電動機MG2 轉(zhuǎn)矩的變化對比圖。藍色線代表發(fā)動機轉(zhuǎn)矩，橙色線代表MG1轉(zhuǎn)矩，灰色線代表MG2轉(zhuǎn)矩。從圖中可以看出，具有逆向強化學(xué)習(xí)參數(shù)的算法發(fā)動機轉(zhuǎn)矩優(yōu)化明顯，減少了發(fā)動機起停。

圖15 HIL下DQN算法的SOC值變化

圖16 HIL下DDPG算法的SOC值變化

圖17 HIL下DQN與DQN-IRL轉(zhuǎn)矩對比

圖18 HIL下DDPG與DDPG-IRL轉(zhuǎn)矩對比

5 結(jié)論

本文對混合動力汽車能量管理策略的獎勵值函數(shù)展開研究。強化學(xué)習(xí)的智能體與環(huán)境交互的引導(dǎo)方向是由獎勵函數(shù)決定的。然而，目前的獎勵功能設(shè)計仍然存在缺陷。逆向強化學(xué)習(xí)是一種從演示中學(xué)習(xí)的特殊形式，它試圖從提供的例子中估計馬爾可夫決策過程的獎勵函數(shù)。獎勵函數(shù)通常被認(rèn)為是對任務(wù)最簡潔的描述。在簡單的應(yīng)用中，獎勵函數(shù)可能是已知的，或從系統(tǒng)的性質(zhì)中很容易推導(dǎo)出來，并應(yīng)用到學(xué)習(xí)過程中。在大多數(shù)強化學(xué)習(xí)能量管理策略中，獎勵函數(shù)的設(shè)計具有主觀性和經(jīng)驗性，很難客觀地描述專家的意圖，發(fā)動機和電池之間的權(quán)衡不可避免地存在主觀因素。但是，在給定的獎勵函數(shù)下，該條件不能保證智能體學(xué)習(xí)到最優(yōu)駕駛策略。另外，混合動力汽車環(huán)境下的強化學(xué)習(xí)任務(wù)過于復(fù)雜，而人為設(shè)計的獎勵函數(shù)過于困難且高度主觀和經(jīng)驗。獎勵函數(shù)設(shè)置的不同會導(dǎo)致最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫剟?，強化學(xué)習(xí)算法很難收斂。針對這些問題，本文提出了一種基于逆向強化學(xué)習(xí)的能量管理策略，獲取專家軌跡下的獎勵函數(shù)權(quán)值，并用于指導(dǎo)發(fā)動機智能體和電池智能體的行為。該方法的主要過程是利用逆強化學(xué)習(xí)得到的權(quán)重系數(shù)對獎勵函數(shù)進行修正，并根據(jù)最新的獎勵函數(shù)輸入正向強化學(xué)習(xí)任務(wù)。最后，將修正后的權(quán)值重新輸入到正向強化學(xué)習(xí)訓(xùn)練中。從油耗值、SOC 變化曲線、獎勵訓(xùn)練過程以及動力源轉(zhuǎn)矩等方面，表明該算法具有一定的優(yōu)勢。本文的主要成果總結(jié)如下：

（1）從電池荷電狀態(tài)的變化值來看，荷電狀態(tài)的變化區(qū)間處于電池效率高、內(nèi)阻低的區(qū)域，燃油消耗處于較低水平；

（2）逆向強化學(xué)習(xí)獲取的獎勵參數(shù)結(jié)果是分段式的；

（3）在強化學(xué)習(xí)訓(xùn)練過程中，獎勵值穩(wěn)步向最大方向前進，最終達到平穩(wěn)狀態(tài)，訓(xùn)練有效。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡