国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Markov 鏈與Q-Learning算法的超輕度混動(dòng)汽車模型預(yù)測(cè)控制

2022-01-13 05:16:06尹燕莉馬永娟周亞偉王瑞鑫馬什鵬黃學(xué)江張?chǎng)涡?/span>
關(guān)鍵詞:車速時(shí)域轉(zhuǎn)矩

尹燕莉,馬永娟,周亞偉,王瑞鑫,詹 森,馬什鵬,黃學(xué)江,張?chǎng)涡?/p>

(1.重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院,重慶400074,中國(guó);2.包頭北奔重型汽車有限公司,包頭014000,中國(guó))

隨著環(huán)境與節(jié)能問題的日益突出,混合動(dòng)力汽車(hybrid electric vehicle,HEV)因其獨(dú)特的結(jié)構(gòu)能達(dá)到節(jié)能、低排放的特點(diǎn),成為當(dāng)今最具有實(shí)際開發(fā)意義的新能源汽車[1-2]。能量管理控制策略是決定混合動(dòng)力汽車燃油經(jīng)濟(jì)性和排放的關(guān)鍵技術(shù),其主要包括基于規(guī)則[3-7]及基于優(yōu)化(瞬時(shí)優(yōu)化、全局優(yōu)化)的策略。其中,基于規(guī)則的控制策略簡(jiǎn)單,容易實(shí)現(xiàn),但未考慮工況的動(dòng)態(tài)變化。瞬時(shí)優(yōu)化控制策略[8-10]執(zhí)行效率高,能夠保證在每一個(gè)步長(zhǎng)內(nèi)是最優(yōu),但無法確保在整個(gè)行駛工況內(nèi)的最優(yōu)。全局優(yōu)化控制策略能夠保證整個(gè)行駛工況內(nèi)整車性能的最優(yōu)[11-14],但行駛工況必須提前獲知,且該算法程序復(fù)雜,運(yùn)算量大,無法單獨(dú)實(shí)現(xiàn)車輛的實(shí)時(shí)控制。

為了更好地實(shí)現(xiàn)混合動(dòng)力汽車的能量管理,近年來國(guó)內(nèi)外一些學(xué)者利用模型預(yù)測(cè)控制(model predictive control, MPC)的先進(jìn)性,基于其基本原理預(yù)測(cè)車輛在未來時(shí)間域內(nèi)的行駛狀態(tài),并根據(jù)預(yù)測(cè)信息優(yōu)化混合動(dòng)力汽車轉(zhuǎn)矩分配。該控制策略既能克服瞬時(shí)優(yōu)化控制策略不能實(shí)現(xiàn)全局最優(yōu)的弊端,又能解決全局優(yōu)化控制策略程序復(fù)雜、計(jì)算量大的問題。

目前針對(duì)MPC能量管理策略,國(guó)內(nèi)外學(xué)者根據(jù)其基本原理從預(yù)測(cè)模型、求解方式兩個(gè)不同實(shí)現(xiàn)要素方面對(duì)其進(jìn)行深入研究。

基于不同預(yù)測(cè)模型的MPC能量管理策略主要是指采用不同的模型來預(yù)測(cè)未來的工況信息。有學(xué)者將未來預(yù)測(cè)時(shí)域內(nèi)的工況信息描述為呈指數(shù)變化形式,然后優(yōu)化求解實(shí)現(xiàn)功率分配[12,15]。該預(yù)測(cè)方式簡(jiǎn)單,易于實(shí)現(xiàn),但其基于固定的數(shù)學(xué)模型,將實(shí)際工況的變化過于理論化,無法準(zhǔn)確預(yù)測(cè)車輛的動(dòng)力需求。基于此,趙韓等[16]提出利用Markov模型預(yù)測(cè)車輛需求轉(zhuǎn)矩的方法。在此基礎(chǔ)上,錢立軍等[17]將加速度的變化視為一個(gè)具有Markov性質(zhì)的隨機(jī)過程,考慮到實(shí)際工況的不確定性,使預(yù)測(cè)準(zhǔn)確性得到改善。SUN用神經(jīng)網(wǎng)絡(luò)對(duì)車速進(jìn)行預(yù)測(cè),實(shí)現(xiàn)能量?jī)?yōu)化分配[18-19]。上述預(yù)測(cè)方式均基于標(biāo)準(zhǔn)循環(huán)工況或本車歷史工況數(shù)據(jù),一旦更換整車工況信息,適應(yīng)性就變差,預(yù)測(cè)結(jié)果準(zhǔn)確性變差。近幾年隨著智能交通系統(tǒng)及車聯(lián)網(wǎng)技術(shù)的發(fā)展,預(yù)測(cè)信息的獲取也越來越多元化[20-22],預(yù)測(cè)結(jié)果也越準(zhǔn)確。

根據(jù)預(yù)測(cè)模型獲取的未來工況信息,結(jié)合不同算法對(duì)其進(jìn)行滾動(dòng)優(yōu)化求解。動(dòng)態(tài)規(guī)劃算法(dynamic programming, DP)采用多階段決策來進(jìn)行尋優(yōu),能夠獲得全局最優(yōu)的優(yōu)化結(jié)果,大多數(shù)學(xué)者采用DP對(duì)預(yù)測(cè)信息進(jìn)行優(yōu)化求解[23-24],但該求解方式計(jì)算復(fù)雜,存在計(jì)算量大,運(yùn)行時(shí)間長(zhǎng)等問題。秦大同等利用二次規(guī)劃(quadratic programming , QP)算法進(jìn)行求解來改善計(jì)算量大的問題[25-26],但QP不適合求解大規(guī)模的非線性問題,且穩(wěn)定性有待提高。也有學(xué)者利用其他優(yōu)化算法如廣義最小殘差方法[27-28]、龐特里亞金極小值原理[29-30]等對(duì)動(dòng)力源需求轉(zhuǎn)矩進(jìn)行求解,能夠保證實(shí)時(shí)性,但算法本身也存在一定的局限性。本文采用的Q-Learning算法來實(shí)現(xiàn)優(yōu)化求解,它是一種有效的智能算法,優(yōu)化求解時(shí)既能提高計(jì)算效率又能獲得局部最優(yōu)解,近年來被逐漸應(yīng)用于混合動(dòng)力汽車,用來解決能量管理的問題[31-34]。

本文以一款超輕度混合動(dòng)力汽車為研究對(duì)象,提出一種基于Markov鏈與Q-Learning算法的模型預(yù)測(cè)控制策略。通過建立多步Markov模型預(yù)測(cè)未來的加速度變化過程,計(jì)算得到未來的需求功率;采用Q-Learning算法對(duì)需求功率進(jìn)行優(yōu)化求解,將離線優(yōu)化和在線應(yīng)用很好地結(jié)合,通過不斷地與環(huán)境產(chǎn)生互動(dòng)獲得即時(shí)回報(bào)以探索獲得最低燃油消耗時(shí)所對(duì)應(yīng)的最優(yōu)轉(zhuǎn)矩分配序列;將該最優(yōu)序列的第1個(gè)控制量施加給車輛,實(shí)現(xiàn)反饋優(yōu)化。

1 超輕度混合動(dòng)力汽車模型

1.1 整車結(jié)構(gòu)與組成

本文以一款并聯(lián)結(jié)構(gòu)的超輕度混合動(dòng)力汽車為研究對(duì)象,其主要由發(fā)動(dòng)機(jī)、電動(dòng)機(jī)、電池、回流式無級(jí)變速器等主要部件構(gòu)成。電池組連接電動(dòng)機(jī)輸出電能轉(zhuǎn)矩,離合器將發(fā)動(dòng)機(jī)與電動(dòng)機(jī)相連接,實(shí)現(xiàn)轉(zhuǎn)矩耦合。該車使用回流式無級(jí)變速器作為傳動(dòng)機(jī)構(gòu),具有速比變化范圍大、傳動(dòng)效率高以及低轉(zhuǎn)速高承載能力的特點(diǎn)。發(fā)動(dòng)機(jī)和電池可以單獨(dú)驅(qū)動(dòng)車輛行駛,制動(dòng)時(shí),電動(dòng)機(jī)又可用作發(fā)電機(jī)回收制動(dòng)能量為電池充電。結(jié)構(gòu)簡(jiǎn)圖如圖1所示,整車主要參數(shù)如表1所示:

表1 整車主要參數(shù)

1.2 需求功率模型

混合動(dòng)力汽車在行駛過程中克服阻力所需要的功率,即需求功率,由滾動(dòng)阻力、空氣阻力以及加速阻力產(chǎn)生的功率組成,這里忽略坡度阻力。車輛在任意工況下的整車需求功率如式(1)所示:

其中:Preq為車輛行駛需求功率;m為整車質(zhì)量;g為重力加速度;f,CD,δ分別代表車輛的輪胎滾動(dòng)阻力系數(shù)、空氣阻力系數(shù)、旋轉(zhuǎn)質(zhì)量換算系數(shù);A為迎風(fēng)面積;v為車速;dv/dt為車輛加速度。

1.3 發(fā)動(dòng)機(jī)模型

發(fā)動(dòng)機(jī)是混合動(dòng)力汽車的主要?jiǎng)恿υ?,其轉(zhuǎn)矩分配以及耗油量對(duì)整車燃油經(jīng)濟(jì)性有著重要的影響。通過試驗(yàn)獲得不同轉(zhuǎn)速、節(jié)氣門開度下的發(fā)動(dòng)機(jī)轉(zhuǎn)矩?cái)?shù)據(jù),建立以發(fā)動(dòng)機(jī)轉(zhuǎn)速和節(jié)氣門開度為輸入、轉(zhuǎn)矩為輸出的數(shù)學(xué)模型,如圖2所示。

1.4 電動(dòng)機(jī)模型

超輕度混合動(dòng)力汽車的電動(dòng)機(jī)既可以單獨(dú)驅(qū)動(dòng)車輛,也可以在制動(dòng)時(shí)作為發(fā)電機(jī)回收制動(dòng)能量給電池充電。電機(jī)功率可以表示為:

其中:Pm為電動(dòng)機(jī)功率;Tm為電動(dòng)機(jī)轉(zhuǎn)矩;nm為電動(dòng)機(jī)轉(zhuǎn)速;ηm為電動(dòng)機(jī)效率,是電動(dòng)機(jī)轉(zhuǎn)矩和轉(zhuǎn)速的函數(shù)。通過對(duì)電動(dòng)機(jī)及其控制系統(tǒng)進(jìn)行性能測(cè)試,得到電動(dòng)機(jī)的實(shí)驗(yàn)數(shù)據(jù),然后擬合實(shí)驗(yàn)數(shù)據(jù),可得到電動(dòng)機(jī)轉(zhuǎn)矩與轉(zhuǎn)速的關(guān)系如圖3所示。

1.5 電池模型

電池組作為超輕度混合動(dòng)力汽車的另一個(gè)動(dòng)力來源,其主要功用相當(dāng)于“蓄水池”。在驅(qū)動(dòng)工況時(shí)釋放電能驅(qū)動(dòng)車輛行駛;在制動(dòng)時(shí)回收制動(dòng)能量存儲(chǔ)電能,本文要求電池能量在整個(gè)行駛工況中要保持平衡。不考慮溫度變化和電池壽命的影響,建立電池的電動(dòng)勢(shì)和內(nèi)阻模型。

其中:Esoc表示當(dāng)前狀態(tài)下的電動(dòng)勢(shì),E0表示電池電動(dòng)常數(shù)擬合系數(shù),SOC是電池的荷電狀態(tài)。

其中,Rsoc表示當(dāng)前狀態(tài)下的內(nèi)阻;δ0表示內(nèi)阻隨電流變化的補(bǔ)償系數(shù);R0表示電池的內(nèi)阻常數(shù);λi表示擬合系數(shù)。

電池的SOC是剩余電量與電池容量的比值,其值隨著車輛運(yùn)行狀態(tài)的改變而改變。電池SOC的計(jì)算公式如下:

其中:I表示電池的電流;Qbat表示電池容量;Pbat表示電池功率。

2 基于Markov鏈與Q-Learning算法的模型預(yù)測(cè)控制(MPC)

從數(shù)學(xué)與控制理論的層面來看,混合動(dòng)力汽車的能量管理策略問題可以歸屬于一個(gè)受限制性條件約束的非線性動(dòng)態(tài)最優(yōu)化控制問題。MPC將復(fù)雜的優(yōu)化問題劃分為有限預(yù)測(cè)時(shí)域內(nèi)的數(shù)學(xué)規(guī)劃問題并分區(qū)域求解,提高計(jì)算效率的同時(shí)還能獲得局部最優(yōu)解。

MPC的控制原理為在每一個(gè)采樣時(shí)刻,都遵循3個(gè)步驟:預(yù)測(cè)系統(tǒng)未來動(dòng)態(tài)—求解優(yōu)化問題—解的第1個(gè)元素作用于系統(tǒng)[35],在下一個(gè)時(shí)刻,將測(cè)量的實(shí)際輸出值與參考值作比較后修正預(yù)測(cè)模型,重新進(jìn)行求解,重復(fù)進(jìn)行上述步驟滾動(dòng)求解優(yōu)化問題,直到預(yù)測(cè)時(shí)域結(jié)束。滾動(dòng)優(yōu)化,就是在每一時(shí)刻,優(yōu)化過程是從該時(shí)刻到預(yù)測(cè)時(shí)域的范圍內(nèi),在下一時(shí)刻時(shí),優(yōu)化范圍會(huì)同時(shí)向前滾動(dòng)一個(gè)采樣時(shí)段,每一時(shí)刻的控制量也隨優(yōu)化時(shí)段向前更新。

本文將Markov鏈與Q-Learning算法相結(jié)合構(gòu)建了超輕度混合動(dòng)力汽車模型預(yù)測(cè)控制模型,其主要包括3個(gè)部分,如圖4所示。

1) 預(yù)測(cè)模型?;贓CE_EUDC+UDDS標(biāo)準(zhǔn)循環(huán)工況數(shù)據(jù),采用Markov鏈方法,獲取加速度轉(zhuǎn)移概率矩陣模型,從而預(yù)測(cè)出下一時(shí)刻的加速度。同時(shí),在每一時(shí)刻,將當(dāng)前時(shí)刻的實(shí)際工況數(shù)據(jù)作為預(yù)測(cè)模型的輸入對(duì)未來的工況數(shù)據(jù)進(jìn)行預(yù)測(cè)。

2) 滾動(dòng)優(yōu)化。在預(yù)測(cè)時(shí)域內(nèi),建立以燃油經(jīng)濟(jì)性為目標(biāo)的整車優(yōu)化模型,根據(jù)獲取的未來工況數(shù)據(jù),采用Q-Learning算法求解該時(shí)域內(nèi)的轉(zhuǎn)矩優(yōu)化問題。即在k時(shí)刻獲得預(yù)測(cè)區(qū)間[k,k+p]內(nèi)的最優(yōu)控制序列[Tm(k),Tm(k+ 1|k),Tm(k+ 2|k),…],然后在k+ 1時(shí)刻獲得預(yù)測(cè)區(qū)間[k+ 1,k+p+ 1]內(nèi)的最優(yōu)控制序列[Tm(k+ 1),Tm(k+ 2|k+ 1),Tm(k+ 3|k+ 1),…],依此類推,即為滾動(dòng)優(yōu)化過程。

3) 反饋校正。獲得預(yù)測(cè)時(shí)域的優(yōu)化控制序列后,僅將預(yù)測(cè)時(shí)域第一個(gè)控制量Tm(k)施加給車輛,從而產(chǎn)生控制輸出量。在下一個(gè)采樣k+ 1時(shí)刻,以車輛實(shí)際測(cè)量輸出值v(k+ 1) 、a(k+ 1)作為反饋信息,重新預(yù)測(cè)系統(tǒng)未來輸出并求解優(yōu)化問題。通過閉環(huán)反饋校正,不斷修正系統(tǒng)的預(yù)測(cè)值,可減小系統(tǒng)不確定性對(duì)控制性能的影響,從而提高系統(tǒng)的控制精度和魯棒性。

2.1 基于馬爾可夫鏈的預(yù)測(cè)模型

2.1.1 Markov鏈理論

在一個(gè)控制系統(tǒng)中,給定當(dāng)前狀態(tài)信息的情況下,過去的信息(即當(dāng)時(shí)以前的歷史狀態(tài))對(duì)于預(yù)測(cè)將來的信息(即當(dāng)時(shí)以后的未來狀態(tài))是無關(guān)的,把這種無關(guān)性質(zhì)稱為Markov性,把用來描述具有Markov性質(zhì)離散時(shí)間的狀態(tài)與狀態(tài)之間的轉(zhuǎn)移過程,稱為Markov鏈。即在某個(gè)起始狀態(tài)下,按照狀態(tài)轉(zhuǎn)移概率得到的可能的狀態(tài)序列。

在車輛的實(shí)際行駛過程中,汽車的加速度能夠準(zhǔn)確地描述行駛過程中的加速、減速等駕駛行為,且未來某一時(shí)刻的加速度變化與歷史狀態(tài)信息無關(guān),只與當(dāng)前時(shí)刻的加速度變化信息相關(guān),具有Markov性,因此本文選取加速度作為狀態(tài)量對(duì)未來的駕駛信息進(jìn)行預(yù)測(cè)。

2.1.2 基于Markov鏈的加速度轉(zhuǎn)移概率矩陣模型

Markov預(yù)測(cè)模型可分為單步預(yù)測(cè)模型及多步預(yù)測(cè)模型。單步預(yù)測(cè)模型即在統(tǒng)計(jì)加速度變化信息時(shí)只記錄每個(gè)當(dāng)前時(shí)刻到下一時(shí)刻的加速度轉(zhuǎn)移概率,對(duì)應(yīng)于每個(gè)當(dāng)前時(shí)刻只能得到一個(gè)轉(zhuǎn)移概率矩陣;多步預(yù)測(cè)模型是需要記錄每個(gè)當(dāng)前時(shí)刻到未來任一時(shí)刻的加速度轉(zhuǎn)移概率,對(duì)應(yīng)于每個(gè)當(dāng)前時(shí)刻有多個(gè)轉(zhuǎn)移概率矩陣。采用單步預(yù)測(cè),會(huì)造成預(yù)測(cè)誤差的累積,且由于預(yù)測(cè)步長(zhǎng)較小,加速度變化較相差不大,會(huì)使得預(yù)測(cè)加速度與實(shí)際行駛過程中的加速度偏差較大,影響預(yù)測(cè)時(shí)域內(nèi)的優(yōu)化結(jié)果。而多步預(yù)測(cè)加速度發(fā)生轉(zhuǎn)移的概率比較分散,更能準(zhǔn)確地模擬實(shí)際駕駛行為,能夠減小預(yù)測(cè)誤差,獲得比較準(zhǔn)確的加速度預(yù)測(cè)結(jié)果。綜合以上分析,本文選取多步Markov預(yù)測(cè)模型。具體步驟如下:

將ECE_EUDC與UDDS工況結(jié)合作為樣本工況來提取車速及加速度數(shù)據(jù)。采樣步長(zhǎng)取1 s,工況最高車速為120 km/h,車速離散間隔為5 km/h;工況最大加速度為1.5 m/s2,工況最小加速度為-1.5 m/s2,加速度離散間隔為0.1 m/s2。將車速及加速度按離散間隔離散成式(8)的形式。

假設(shè)當(dāng)前時(shí)刻為k,記錄在每一時(shí)刻,當(dāng)前時(shí)刻車速及加速度到預(yù)測(cè)時(shí)域p(p= 1,2,3,…,p)內(nèi)任意時(shí)刻的車速及加速度變化信息,即可獲得每一離散的車速z下,加速度由當(dāng)前時(shí)刻的狀態(tài)i轉(zhuǎn)移到下一時(shí)刻狀態(tài)j的次數(shù)Si,j,由式(9)計(jì)算得到該車速下加速度由i轉(zhuǎn)移的總次數(shù)Si。

利用最大似然估計(jì)法(式10)計(jì)算獲得每一離散車速下加速度的轉(zhuǎn)移概率。每一個(gè)離散車速值下都會(huì)對(duì)應(yīng)p個(gè)加速度轉(zhuǎn)移概率矩陣,這些轉(zhuǎn)移概率矩陣即所建立的多步Markov預(yù)測(cè)模型,對(duì)相應(yīng)時(shí)長(zhǎng)的加速度進(jìn)行預(yù)測(cè)。

其中,Pz,i,j為當(dāng)前離散車速z下,加速度由i轉(zhuǎn)移到j(luò)的概率。

通過以上步驟,計(jì)算出車速為35 km/h時(shí)加速度的多步轉(zhuǎn)移概率矩陣模型,如圖5所示,由圖5可以看出,當(dāng)預(yù)測(cè)步長(zhǎng)較小時(shí),加速度轉(zhuǎn)移概率較為集中,呈對(duì)角線分布;隨著預(yù)測(cè)步長(zhǎng)的增加,加速度的轉(zhuǎn)移概率由分布集中轉(zhuǎn)變?yōu)榉稚②厔?shì),且步長(zhǎng)越長(zhǎng),這種趨勢(shì)越明顯。這是因?yàn)轭A(yù)測(cè)步長(zhǎng)較小時(shí),加速度變化相差不大,而隨著步長(zhǎng)的增加,加速度變化的情況就越隨機(jī),進(jìn)行轉(zhuǎn)移的可能性就越多,加速度轉(zhuǎn)移概率就越分散。

2.1.3 基于Markov鏈的車速預(yù)測(cè)模型

基于上述建立的多步Markov預(yù)測(cè)模型,結(jié)合當(dāng)前時(shí)刻k的車速v(k)及加速度a(k)作為轉(zhuǎn)移概率矩陣的輸入,選取概率最大的加速度值作為下一時(shí)刻k+1的實(shí)際加速度值a(k+ 1),由式(11)計(jì)算得到下一時(shí)刻的車速值v(k+ 1)。在k+ 1時(shí)刻及未來有限時(shí)刻重復(fù)此過程即可獲得預(yù)測(cè)時(shí)域內(nèi)的全部車速及加速度信息。

下一時(shí)刻車速計(jì)算如式(11)所示

利用建立的多步Markov模型,在不同預(yù)測(cè)時(shí)域下分別對(duì)車速進(jìn)行預(yù)測(cè),選用均方根誤差對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),其計(jì)算方法如式(12)所述。

其中:R(k)為k時(shí)刻預(yù)測(cè)時(shí)域內(nèi)的均方根誤差,v(k+ i)為k時(shí)刻循環(huán)工況的實(shí)際車速,vnp(k+ i)為k時(shí)刻預(yù)測(cè)得到的車速,np為預(yù)測(cè)時(shí)域,Re為整個(gè)循環(huán)工況內(nèi)總的均方根誤差,L為循環(huán)工況的總時(shí)長(zhǎng)。Re的值越小,說明預(yù)測(cè)車速與實(shí)際車速之間的差距越小,預(yù)測(cè)結(jié)果越準(zhǔn)確。

車速為35 km/h時(shí),基于多步Markov預(yù)測(cè)模型在不同預(yù)測(cè)時(shí)長(zhǎng)下進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果的均方根誤差見表2,預(yù)測(cè)效果圖見圖6。

表2 多步Markov不同預(yù)測(cè)時(shí)域的均方根誤差

從圖6可以看出,在預(yù)測(cè)步長(zhǎng)較小時(shí),預(yù)測(cè)車速與實(shí)際車速變化軌跡幾乎重合,這說明預(yù)測(cè)車速能夠很好地追隨工況車速,預(yù)測(cè)誤差較??;預(yù)測(cè)時(shí)域越長(zhǎng)時(shí),預(yù)測(cè)車速與實(shí)際車速變化軌跡偏差增大。表2中不同預(yù)測(cè)時(shí)域下的Re值也驗(yàn)證了這一預(yù)測(cè)情況。這是由于在實(shí)際行駛過程中,車速變化受到駕駛員駕駛習(xí)慣及周圍駕駛環(huán)境等諸多因素的影響,車速變化過程隨機(jī)性很強(qiáng),難免存在預(yù)測(cè)誤差;再者,采用Markov模型對(duì)車速及加速度進(jìn)行預(yù)測(cè),會(huì)存在誤差的累積。

2.2 基于Q-Learning算法的滾動(dòng)優(yōu)化模型

2.2.1 滾動(dòng)優(yōu)化模型

基于Markov鏈加速度預(yù)測(cè)模型獲取預(yù)測(cè)時(shí)域內(nèi)的加速度信息之后,需要優(yōu)化求解獲得該時(shí)域內(nèi)的最優(yōu)控制序列,保證局部控制性能最優(yōu)。該優(yōu)化過程是特定時(shí)域內(nèi)的滾動(dòng)優(yōu)化,是反復(fù)在線進(jìn)行的。即在每一個(gè)采樣時(shí)刻,結(jié)合目標(biāo)函數(shù)求解該時(shí)刻及預(yù)測(cè)時(shí)域內(nèi)的最優(yōu)指標(biāo)值,在下一采樣時(shí)刻,優(yōu)化范圍向前推動(dòng)。滾動(dòng)優(yōu)化示意圖如圖7所示,在當(dāng)前k時(shí)刻,假設(shè)預(yù)測(cè)時(shí)域?yàn)閜,求出預(yù)測(cè)范圍k~k+p內(nèi)的最優(yōu)控制序列[u(k),u(k+ 1 /k),u(k+ 2 /k),…,u(k+p/k)];在k+ 1時(shí)刻,采用相同的方法求出新的預(yù)測(cè)范圍k+ 1~k+p+1內(nèi)的最優(yōu)控制序列[u(k+ 1),u(k+ 2 /k+ 1),…,u(k+p+ 1 /k+ 1)],以此類推,直到預(yù)測(cè)時(shí)域結(jié)束,即為滾動(dòng)優(yōu)化過程。

目前,采用模型預(yù)測(cè)控制解決能量管理問題時(shí)大都使用動(dòng)態(tài)規(guī)劃算法(DP)來實(shí)施優(yōu)化求解。DP采用逆向搜索,正向?qū)?yōu)的迭代搜索方式,求解多階段決策問題,來獲得預(yù)測(cè)時(shí)域內(nèi)的全局最優(yōu)解。但DP求解時(shí)計(jì)算量大,運(yùn)行速度較慢,難以實(shí)現(xiàn)實(shí)時(shí)控制,且不適用于求解具有多個(gè)狀態(tài)量的優(yōu)化問題。因此,本文采用Q-Learning算法實(shí)施優(yōu)化求解。

Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)方法中一種由數(shù)據(jù)驅(qū)動(dòng)的表格型智能算法,由于它基于數(shù)據(jù)不斷地進(jìn)行“試錯(cuò)”學(xué)習(xí)來尋優(yōu),相較于動(dòng)態(tài)規(guī)劃算法的多階段決策的尋優(yōu)過程,可以有效減小計(jì)算復(fù)雜度,提高計(jì)算效率,在處理復(fù)雜的多狀態(tài)量系統(tǒng)優(yōu)化時(shí)有明顯的優(yōu)勢(shì)。

2.2.2 Q-Learning算法概述

Q-Learning算法由有限狀態(tài)集S、有限動(dòng)作集A、狀態(tài)的概率轉(zhuǎn)移矩陣P、回報(bào)函數(shù)r和折扣因子γ五要素組成。該算法以控制系統(tǒng)為智能體,除控制系統(tǒng)外為環(huán)境,控制變量為動(dòng)作。該算法針對(duì)狀態(tài)-動(dòng)作值函數(shù)Q(s, a)進(jìn)行迭代更新,智能體需要不斷探索環(huán)境來尋找最優(yōu)Q(s, a)值所對(duì)應(yīng)的動(dòng)作策略。

Q-Learning算法的原理為:在當(dāng)前k時(shí)刻,智能體從環(huán)境中獲取當(dāng)前時(shí)刻的狀態(tài)s,利用ε-greedy策略選擇合適的動(dòng)作a作用于環(huán)境,獲得當(dāng)前狀態(tài)-動(dòng)作對(duì)的立即回報(bào)r,同時(shí)產(chǎn)生k+ 1時(shí)刻狀態(tài)st+ 1,并評(píng)估回報(bào)以此來更新狀態(tài)-動(dòng)作值函數(shù)Q(s, a)值。智能體探索環(huán)境的過程也稱為學(xué)習(xí)的過程,經(jīng)過不斷的迭代學(xué)習(xí),直至Q(s, a)表收斂,利用貪婪策略(greedy策略),選擇每一狀態(tài)對(duì)應(yīng)最大獎(jiǎng)勵(lì)的動(dòng)作,最終獲得所有狀態(tài)的最優(yōu)控制策略。

2.2.3 Q-Learning求解優(yōu)化控制問題

超輕度混合動(dòng)力汽車的優(yōu)化問題求解就是解決車輛的轉(zhuǎn)矩分配問題。根據(jù)預(yù)測(cè)獲得的加速度結(jié)合式(1)求出預(yù)測(cè)時(shí)域內(nèi)的需求功率,采用Q學(xué)習(xí)算法進(jìn)行優(yōu)化求解。首先,計(jì)算出預(yù)測(cè)時(shí)域內(nèi)每一離散車速下的需求功率轉(zhuǎn)移概率矩陣;其次,選取預(yù)測(cè)時(shí)域內(nèi)電池荷電狀態(tài)SOC、需求功率Preq為狀態(tài)變量,電動(dòng)機(jī)轉(zhuǎn)矩Tm為控制(動(dòng)作)變量,以整車燃油消耗量最小為優(yōu)化目標(biāo),建立優(yōu)化模型,獲得預(yù)測(cè)時(shí)域內(nèi)燃油消耗量最小所對(duì)應(yīng)的最優(yōu)轉(zhuǎn)矩分配序列。

根據(jù)Q-Learning算法原理,按以下步驟來求解預(yù)測(cè)時(shí)域內(nèi)的車輛轉(zhuǎn)矩分配問題。

1) 選取預(yù)測(cè)時(shí)域內(nèi)電池荷電狀態(tài)SOC、需求功率Preq為狀態(tài)變量,電動(dòng)機(jī)轉(zhuǎn)矩Tm為動(dòng)作變量。

2) 確定目標(biāo)函數(shù)和約束條件

通過等效因子將電池能量變化等效為燃油消耗,構(gòu)建以整車等效燃油消耗量最小為目標(biāo)的回報(bào)函數(shù),將最小累積回報(bào)的期望作為目標(biāo)函數(shù)。

其中:k~k+np為預(yù)測(cè)時(shí)域,Jk為預(yù)測(cè)時(shí)域內(nèi)的優(yōu)化目標(biāo),通過求解累積回報(bào)的期望得到。Q*k(s, a)是最優(yōu)的狀態(tài)-動(dòng)作值函數(shù),γ為折扣因子,r為狀態(tài)-動(dòng)作的立即回報(bào)。

回報(bào)函數(shù)包含燃油消耗量與電能的等效燃油消耗量之和,同時(shí),為了維持SOC的平衡,在回報(bào)函數(shù)中加入了SOC懲罰函數(shù)。

其中:r(s, a)表示當(dāng)前狀態(tài)與動(dòng)作的回報(bào)函數(shù),mfuel為當(dāng)前狀態(tài)與動(dòng)作的發(fā)動(dòng)機(jī)燃油消耗量,me為電能等效燃油能量,β為權(quán)重系數(shù),SOCref為SOC的參考值。

為了保護(hù)電池,防止其過充或過放,需將電池的SOC限定在參考范圍內(nèi)。在優(yōu)化過程中,轉(zhuǎn)矩、轉(zhuǎn)速等因素也會(huì)對(duì)優(yōu)化結(jié)果造成干擾,因此,在預(yù)測(cè)時(shí)域k~k+np對(duì)相關(guān)變量做如下約束:

其中:ne(k)表示k時(shí)刻的發(fā)動(dòng)機(jī)轉(zhuǎn)速;ne_max(k)、ne_min(k)為k時(shí)刻發(fā)動(dòng)機(jī)轉(zhuǎn)速的最大、最小值;Tm(k)為k時(shí)刻的電動(dòng)機(jī)轉(zhuǎn)矩;Tm_max(k)、Tm_min(k)為k時(shí)刻電機(jī)轉(zhuǎn)矩的最大、最小值;Te(k)為k時(shí)刻的發(fā)動(dòng)機(jī)轉(zhuǎn)矩;Te_max(k)、Te_min(k)為k時(shí)刻發(fā)動(dòng)機(jī)轉(zhuǎn)矩的最大、最小值;Pm(k)為k時(shí)刻電動(dòng)機(jī)功率;Pm_max(k)、Pe_min(k)為k時(shí)刻電機(jī)功率的最大、最小值;Pe(k)為k時(shí)刻發(fā)動(dòng)機(jī)功率;Pe_max(k)、Pe_min(k)為k時(shí)刻發(fā)動(dòng)機(jī)功率的最大、最小值;SOC()為k時(shí)刻電池的荷電狀態(tài)SOC。

3) 初始化狀態(tài)動(dòng)作值函數(shù)Q(s, a),設(shè)置探索率ε、學(xué)習(xí)率α、折扣因子γ等參數(shù)以及迭代次數(shù)N。

4) 基于構(gòu)建的目標(biāo)函數(shù),根據(jù)當(dāng)前k時(shí)刻的狀態(tài)s,利用ε-greedy策略(式17)探索預(yù)測(cè)時(shí)域np內(nèi)的動(dòng)作a(Tm(k+ 1 /k,Tm(k+ 2 /k),…,Tm(k+p/k)))與環(huán)境進(jìn)行交互,產(chǎn)生新的狀態(tài)s′,同時(shí)獲得當(dāng)前狀態(tài)-動(dòng)作對(duì)的立即回報(bào)r。

5) 基于greedy策略評(píng)估回報(bào)以此來選擇對(duì)應(yīng)最小狀態(tài)-動(dòng)作值函數(shù)Q(s′, a′)的動(dòng)作a′,通過公式(18)更新狀態(tài)-動(dòng)作值函數(shù)Q(s, a)值。

6) 迭代循環(huán)優(yōu)化,根據(jù)設(shè)置的閾值0.01判斷相鄰迭代次數(shù)的策略是否收斂,策略收斂后,計(jì)算整車等效燃油消耗量。

7) 判斷是否達(dá)到迭代次數(shù)N,若是,迭代循環(huán)結(jié)束,選擇目標(biāo)函數(shù)最優(yōu)所對(duì)應(yīng)的策略作為最優(yōu)策略,也就是最優(yōu)的轉(zhuǎn)矩分配序列;否則,繼續(xù)迭代。

2.3 反饋校正模型

根據(jù)2.2節(jié)的滾動(dòng)優(yōu)化過程可以獲得當(dāng)前k時(shí)刻的最佳電機(jī)轉(zhuǎn)矩分配序列[Tm(k),Tm(k+ 1 /k),…,Tm(k+np/k)],在實(shí)際控制中,只將最優(yōu)轉(zhuǎn)矩序列的第1個(gè)值Tm(k)作用于車輛。在k+ 1時(shí)刻,首先檢測(cè)車輛的實(shí)際車速及加速度輸出值,刷新預(yù)測(cè)模型,對(duì)未來有限時(shí)域內(nèi)的車輛加速度進(jìn)行重新預(yù)測(cè),基于更新的預(yù)測(cè)值重新優(yōu)化轉(zhuǎn)矩分配。在每一個(gè)時(shí)刻都重復(fù)上述3個(gè)步驟,直到預(yù)測(cè)時(shí)域結(jié)束,即可獲得預(yù)測(cè)時(shí)域內(nèi)的最優(yōu)轉(zhuǎn)矩分配序列。

綜上所述,采用模型預(yù)測(cè)控制方法求解超輕度混合動(dòng)力汽車的能量管理問題就是在預(yù)測(cè)時(shí)域內(nèi),在每一時(shí)刻都重復(fù)“預(yù)測(cè)模型-滾動(dòng)優(yōu)化-反饋校正”3個(gè)步驟,即可獲得最優(yōu)的轉(zhuǎn)矩分配,具體流程如圖8所示。

3 仿真結(jié)果分析

基于MATLAB/Simulink平臺(tái),構(gòu)建Markov鏈+ Q-Learning整車控制策略模型,以ECE_EUDC、UDDS標(biāo)準(zhǔn)循環(huán)工況為仿真試驗(yàn)工況數(shù)據(jù),選取預(yù)測(cè)時(shí)域p為5 s , 仿真步長(zhǎng)為0.01 s,SOC初始值為0.6進(jìn)行仿真分析,通過仿真得到電機(jī)/發(fā)動(dòng)機(jī)轉(zhuǎn)矩分配序列及動(dòng)力電池SOC變化情況。

為更直觀了解電機(jī)轉(zhuǎn)矩及發(fā)動(dòng)機(jī)轉(zhuǎn)矩的最優(yōu)分配,在離散車速為35km/h的情況下進(jìn)行仿真,得到每對(duì)狀態(tài)-動(dòng)作對(duì)對(duì)應(yīng)下的最優(yōu)動(dòng)作策略,如圖9、 圖10所示。從圖中可以看出,SOC對(duì)轉(zhuǎn)矩分配影響不大,而需求功率的變化對(duì)轉(zhuǎn)矩分配有重要的影響。當(dāng)需求功率Preq較大時(shí),車輪處的轉(zhuǎn)矩由發(fā)動(dòng)機(jī)提供,汽車一般運(yùn)行在純發(fā)動(dòng)機(jī)模式;反之,電動(dòng)機(jī)轉(zhuǎn)矩足以提供車輪需求轉(zhuǎn)矩,汽車則運(yùn)行在純電動(dòng)機(jī)模式。這是因?yàn)镼學(xué)習(xí)算法在優(yōu)化狀態(tài)的動(dòng)作時(shí),不同車速下的轉(zhuǎn)矩分配同時(shí)受到整車燃油經(jīng)濟(jì)性與動(dòng)力部件參數(shù)的約束,不同的轉(zhuǎn)矩分配影響整車的工作模式。

針對(duì)不同離散車速,可以獲得需求功率、電池SOC所對(duì)應(yīng)的發(fā)動(dòng)機(jī)轉(zhuǎn)矩和電動(dòng)機(jī)轉(zhuǎn)矩MAP圖。采用插值可得到相應(yīng)的優(yōu)化解。為驗(yàn)證本文提出的Markov鏈 + Q-Learning的能量管理策略的有效性,將仿真結(jié)果與Markov鏈 + DP的能量管理策略進(jìn)行對(duì)比。

分別從發(fā)動(dòng)機(jī)、電動(dòng)機(jī)輸出轉(zhuǎn)矩,動(dòng)力電池SOC變化曲線,燃油消耗量,仿真時(shí)間這些方面對(duì)Markov鏈 + Q-Learning、Markov鏈+DP控制策略進(jìn)行對(duì)比分析。

圖11 a表示ECE_EUDC+UDDS工況數(shù)據(jù)圖,圖11b-圖11d分別表示2種控制策略獲得的發(fā)動(dòng)機(jī)轉(zhuǎn)矩分配、電動(dòng)機(jī)轉(zhuǎn)矩分配和SOC軌跡曲線。從圖11b和圖11c可以看出,兩種策略的發(fā)動(dòng)機(jī)轉(zhuǎn)矩曲線接近,電動(dòng)機(jī)轉(zhuǎn)矩分配有差別,主要因?yàn)?,電能的變化發(fā)生于純電動(dòng)模式和行車充電模式,Markov鏈 + Q-Learning控制策略中等效因子對(duì)這些模式下的電動(dòng)機(jī)轉(zhuǎn)矩進(jìn)行了調(diào)整。對(duì)應(yīng)到圖11d中,Markov鏈 + DP控制策略的SOC終止值為0.598 6,ΔSOC = 0.001 4;Markov鏈 +Q-Learning控制策略的SOC終止值為0.598 7,ΔSOC= 0.001 3。與Markov鏈 + DP控制策略相比,Markov鏈 + Q-Learning控制策略的SOC變化量減少7.1%。

圖12 顯示了兩種控制策略下發(fā)動(dòng)機(jī)和電動(dòng)機(jī)的工作點(diǎn)。從圖中可看出,兩種控制策略下發(fā)動(dòng)機(jī)基本工作在最小燃油消耗率曲線上,電動(dòng)機(jī)大部分工作點(diǎn)位于0.7~0.95的高效率區(qū)間內(nèi),說明本文所提出的Markov鏈 + Q-Learning的控制策略具有良好的控制效果。

ECE_EUDC+UDDS循環(huán)工況總行駛里程為22.92 km,Markov鏈 + Q-Learning 和 Markov鏈 + DP 這2種控制策略的百公里燃油消耗量分別為5.370 2 L和5.160 5 L。與Markov鏈 + DP的控制策略相比較,本文所提控制策略的整車等效燃油消耗量提高了3.9%。主要原因是DP和Q學(xué)習(xí)算法存在本質(zhì)上的區(qū)別。DP算法在選擇動(dòng)作時(shí)是進(jìn)行多階段決策獲得預(yù)測(cè)時(shí)域內(nèi)全局最優(yōu)的動(dòng)作序列;而Q學(xué)習(xí)算法在選擇動(dòng)作時(shí),通過ε-greedy策略盡可能地探索所有動(dòng)作,更新狀態(tài)-動(dòng)作的Q值,獲得預(yù)測(cè)時(shí)域內(nèi)最優(yōu)的動(dòng)作序列,因?yàn)棣盘剿髀适歉鶕?jù)經(jīng)驗(yàn)設(shè)定的值,所以得到的動(dòng)作序列是全局次優(yōu),動(dòng)作的選擇會(huì)影響整車的燃油經(jīng)濟(jì)性。Markov鏈 + DP控制策略,采用多階段決策來獲得最優(yōu)的轉(zhuǎn)矩分配,在決策過程中計(jì)算目標(biāo)函數(shù),當(dāng)所有階段迭代完成后才更新策略。通過離線運(yùn)行出數(shù)值表,數(shù)值表在線插值,仿真在線運(yùn)行時(shí)間為10 s; 本文提出的Markov鏈 + Q-Learning控制策略,在優(yōu)化時(shí)將時(shí)域狀態(tài)轉(zhuǎn)化為空間域,在優(yōu)化狀態(tài)的轉(zhuǎn)矩分配過程中,迭代更新Q表的同時(shí),策略也隨時(shí)更新,仿真在線運(yùn)行時(shí)間為6 s,最大程度提高了程序運(yùn)行效率,提高了實(shí)時(shí)性。

4 結(jié) 論

提出基于Markov鏈與Q-Learning的能量管理控制策略。選用ECE_EUDC+UDDS標(biāo)準(zhǔn)循環(huán)工況數(shù)據(jù)為樣本數(shù)據(jù)構(gòu)建多步Markov模型對(duì)預(yù)測(cè)時(shí)域內(nèi)的加速度進(jìn)行預(yù)測(cè),獲得準(zhǔn)確的預(yù)測(cè)結(jié)果;采用Q-Learning算法對(duì)預(yù)測(cè)信息進(jìn)行滾動(dòng)優(yōu)化求解;施加第1個(gè)控制量給車輛,實(shí)現(xiàn)反饋控制。

基于Matlab/Simulink平臺(tái),構(gòu)建ECE_EUDC+UDDS整車仿真模型。將仿真結(jié)果與Markov鏈 + DP控制策略進(jìn)行對(duì)比,驗(yàn)證了該策略的有效性。Markov鏈 + DP控制策略對(duì)比,所提策略動(dòng)力電池SOC變化量減少7.1%,變化較為平穩(wěn),在保證燃油經(jīng)濟(jì)性基本保持一致的前提下,仿真時(shí)長(zhǎng)縮短了4 s,驗(yàn)證了該策略的適應(yīng)性。

本文將控制理論與Q-Learning算法有效結(jié)合,實(shí)現(xiàn)了超輕度混合動(dòng)力汽車良好的優(yōu)化控制效果,在提高計(jì)算效率的同時(shí),能夠確保整車的燃油經(jīng)濟(jì)性。

猜你喜歡
車速時(shí)域轉(zhuǎn)矩
基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
卷取機(jī)轉(zhuǎn)矩控制技術(shù)優(yōu)化卷形
四川冶金(2018年1期)2018-09-25 02:39:26
2012款奔馳R300車修改最高車速限制
基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
容錯(cuò)逆變器直接轉(zhuǎn)矩控制策略
基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
基于時(shí)域波形特征的輸電線雷擊識(shí)別
基于分級(jí)變頻的高轉(zhuǎn)矩軟起動(dòng)器
北京現(xiàn)代途勝車車速表不工作
兩車直角碰撞車速計(jì)算方法及應(yīng)用
淮滨县| 迁西县| 尼木县| 泾川县| 扎囊县| 阿城市| 柯坪县| 林甸县| 新绛县| 广平县| 甘南县| 浪卡子县| 内江市| 大庆市| 从化市| 昌黎县| 凉城县| 洛阳市| 神木县| 平顶山市| 宽甸| 阳泉市| 崇左市| 棋牌| 沙河市| 湘西| 温宿县| 巫山县| 儋州市| 阜宁县| 乌苏市| 丘北县| 通山县| 上犹县| 杭州市| 扎兰屯市| 延边| 阿尔山市| 唐山市| 怀化市| 峨山|