沈國輝,趙榮生,董曉,邢強(qiáng),陳中,袁浩,耿愛國,劉紀(jì)民
(1.南瑞集團(tuán)有限公司,南京211106;2. 北京科東電力控制系統(tǒng)有限責(zé)任公司,北京100194;3. 國網(wǎng)電動汽車服務(wù)有限公司,北京 100053;4. 東南大學(xué)電氣工程學(xué)院,南京210096)
隨著“碳中和和碳達(dá)峰”能源變革的逐步推進(jìn),人們越來越關(guān)注環(huán)境的健康和可持續(xù)性發(fā)展[1 - 2]。電動汽車(electric vehicle, EV)依據(jù)其綠色、低碳、環(huán)保等優(yōu)點(diǎn),將逐漸取代傳統(tǒng)內(nèi)燃機(jī)汽車,成為智慧電網(wǎng)和綠色城市的重要組成部分[3 - 4]。然而隨著電動汽車用戶的激增,其動態(tài)行駛行為與隨機(jī)充電行為必然與城市電網(wǎng)和交通路網(wǎng)產(chǎn)生耦合交互[5 - 6]。因此,為了降低電動汽車車主出行成本以及提高交通電氣化網(wǎng)絡(luò)運(yùn)行效率[7 - 8],融合“車-站-網(wǎng)”多交互信息與人工智能技術(shù)[4]制定電動汽車充電導(dǎo)航策略,將為充電設(shè)施規(guī)劃、配網(wǎng)經(jīng)濟(jì)運(yùn)行以及車網(wǎng)友好互動提供重要指導(dǎo)[9 - 10]。
目前,國內(nèi)外已有許多學(xué)者提出了充電導(dǎo)航策略引導(dǎo)電動汽車進(jìn)行有序充電。針對理論驅(qū)動建模策略,文獻(xiàn)[11]考慮實(shí)時電價信息對電動汽車充電行為決策的影響,通過微觀交通模型設(shè)計(jì)了充電導(dǎo)航系統(tǒng)。文獻(xiàn)[12]則基于充電需求信息與充電站(charging station, CS)能量信息,通過動態(tài)演化分析為車主規(guī)劃充電路徑與推薦充電站。文獻(xiàn)[13]則綜合分析了電網(wǎng)與交通信息的實(shí)時動態(tài)特征,建立了“車-網(wǎng)-路”融合的充電站推薦模型。進(jìn)一步地,一些研究則從數(shù)據(jù)驅(qū)動層面提出充電引導(dǎo)方法,文獻(xiàn)[14]對網(wǎng)約車出行軌跡信息進(jìn)行數(shù)據(jù)挖掘與融合建模,建立了電動汽車充電導(dǎo)航模型。文獻(xiàn)[15 - 16]設(shè)計(jì)問卷調(diào)查采集車主出行信息,通過行為偏好分析為車主制定最優(yōu)充電計(jì)劃。另外,這些工作將人工智能技術(shù)引入到電動汽車充電控制領(lǐng)域,文獻(xiàn)[17 - 18]從物理和電氣連接構(gòu)建了電氣交通網(wǎng)耦合架構(gòu),利用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)方法為車輛進(jìn)行充電導(dǎo)航。文獻(xiàn)[19]運(yùn)用DRL方法分析了不確定條件下電動汽車的充放電控制問題,采用能量邊界模型表征充放電行為。文獻(xiàn)[20]基于競爭深度Q網(wǎng)絡(luò)結(jié)構(gòu),提出了電動汽車充電控制方法,協(xié)同優(yōu)化充電資源和新能源發(fā)電資源。
雖然上述方法剖析了電動汽車充電導(dǎo)航和控制的本質(zhì),但依舊存在如下幾個問題:1)傳統(tǒng)建模思路缺乏采用真實(shí)交互信息刻畫電動汽車動態(tài)特征。2)基于數(shù)據(jù)驅(qū)動建模方法無法實(shí)現(xiàn)實(shí)時優(yōu)化調(diào)度且面臨海量數(shù)據(jù)的計(jì)算壓力。3)現(xiàn)有DRL引導(dǎo)策略在城市級運(yùn)營數(shù)據(jù)的挖掘和算法綜合性能的評估方面仍有待完善。綜上,為了解決上述方法的不足,本文考慮電動汽車行駛與充電過程的信息交互特征與人工智能方法求解復(fù)雜問題的適應(yīng)性[21 - 22],提出一種基于多信息交互與深度強(qiáng)化學(xué)習(xí)的電動汽車充電導(dǎo)航策略。首先,采用數(shù)據(jù)驅(qū)動方法對“電動汽車集群優(yōu)化儲能云平臺”的數(shù)據(jù)進(jìn)行建模挖掘,得到電動汽車出行所需的行駛與充電信息、城市充電站信息以及動態(tài)交通路網(wǎng)信息。其次,運(yùn)用DRL方法求解多目標(biāo)優(yōu)化的電動汽車充電導(dǎo)航問題,將挖掘得到“車-站-網(wǎng)”實(shí)時信息作為深度Q網(wǎng)絡(luò)(deep Q-network, DQN)的狀態(tài)輸入,并通過DQN的動作執(zhí)行為車主推薦合適充電站與規(guī)劃充電路徑。最后,設(shè)計(jì)不同仿真實(shí)驗(yàn)場景,驗(yàn)證所提方法的實(shí)施效果。
本文依托“電動汽車集群優(yōu)化儲能云平臺”[23],該平臺可以實(shí)時監(jiān)控接入的電動汽車動態(tài)行駛信息與充電信息,并獲取管轄范圍內(nèi)充電站的實(shí)時運(yùn)行情況,數(shù)據(jù)平臺界面如圖1所示。
圖1 電動汽車集群優(yōu)化儲能云平臺
首先,本文選擇電動汽車相關(guān)的數(shù)據(jù)進(jìn)行數(shù)理統(tǒng)計(jì)與建模挖掘,接入平臺電動汽車數(shù)據(jù)格式如表1所示。
表1 電動汽車數(shù)據(jù)格式
為了消除數(shù)據(jù)采集和通信產(chǎn)生的誤差以及提高后續(xù)數(shù)據(jù)建模的準(zhǔn)確性,采取作者原有研究工作相同的數(shù)據(jù)預(yù)處理方法對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、坐標(biāo)轉(zhuǎn)換、地圖匹配以及數(shù)據(jù)可視化顯示。限于篇幅,具體步驟可參考文獻(xiàn)[14]。
經(jīng)去噪的數(shù)據(jù)被映射到采用WGS- 84坐標(biāo)系編碼的地圖上,則每條電動汽車行駛與充電信息表示如式(1)所示。
Ωi={pi,1,pi,2,…,pi,m,…,pi,n}
(1)
式中:Ωi為第i輛電動汽車的行程軌跡數(shù)據(jù)集,i=1,2,…,Ne,Ne為電動汽車的數(shù)量。其中,pi,m=(xi,yi,tg,et,vt),xi,yi,tg,et,vt分別第i輛電動汽車在第m條行程軌跡的經(jīng)度坐標(biāo)、緯度坐標(biāo)、即時時間戳、時刻t的即時荷電狀態(tài)(state of charge, SOC)以及時刻t的即時速度。
由于數(shù)據(jù)體量較為龐大,為了降低數(shù)據(jù)處理的維度,本文選擇南京市城市范圍為經(jīng)度(東經(jīng)):118.741 2 °—118.824 9 °,緯度(北緯):32.023 4 °—32.063 3 °范圍內(nèi)接入的367輛電動汽車在3個月內(nèi)產(chǎn)生的24 647條數(shù)據(jù)進(jìn)行分析,圖2給出了采用Datamap軟件繪制的所選城區(qū)范圍內(nèi)車輛起止位置分布圖。
圖2 電動汽車起止位置分布
其次,篩選出該區(qū)域范圍內(nèi)接入平臺的運(yùn)營充電站,充電站的數(shù)據(jù)格式如表2所示。該區(qū)域范圍內(nèi)的充電站信息表示如式(2)所示。
表2 充電站數(shù)據(jù)格式
Ψk={Rk,1,Rk,2,…,Rk,r,…,Rk,s}
(2)
式中:Ψk為第k個城市充電站的數(shù)據(jù)集,k=1,2,…,Nc,Nc為充電站的數(shù)量。其中,Rk,r=(ta,ts,td,sc,ωt),ta,ts,td,sc,ωt分別為第r個訂單到站時間、開始時間、結(jié)束時間、充電電量以及充電費(fèi)用,r=1,2,…,Ns,Ns為訂單的數(shù)量。
進(jìn)一步,采用Datamap軟件對所選區(qū)域范圍內(nèi)分布的14個充電站在某一時段的訂單數(shù)量進(jìn)行統(tǒng)計(jì),充電站的地理位置和訂單數(shù)量如圖3所示。其中顏色越深表示充電站的充電訂單數(shù)量越多。
圖3 各充電站某一時段訂單分布
最后,在電動汽車與充電站信息獲取基礎(chǔ)上,為了準(zhǔn)確描述電動汽車路徑規(guī)劃與充電行駛行為,采用圖論分析[13]法對該區(qū)域范圍內(nèi)的交通路網(wǎng)(traffic network, TN)進(jìn)行建模。
(3)
式中:G為交通路網(wǎng)拓?fù)?;V為交通路網(wǎng)節(jié)點(diǎn)集合;E為交通路網(wǎng)路段集合;T為時間序列集合;W為動態(tài)路段路阻集合,即表示城市路網(wǎng)動態(tài)交通信息;vi為第i個交通節(jié)點(diǎn);vij為交通節(jié)點(diǎn)vi和vj之間的路段;s為時間序列的數(shù)量;wt,ij為t時刻路段vij的路阻。
進(jìn)一步地,采取作者原有的研究方法[24],綜合考慮城市道路路阻可由路段阻抗Rvij(t)和節(jié)點(diǎn)阻抗Cvi(t)構(gòu)成,因此,動態(tài)交通路網(wǎng)信息如式(4)所示。限于篇幅,具體推導(dǎo)過程和路網(wǎng)基本參數(shù)可參見文獻(xiàn)[19]。
(4)
式中:wij(t)為道路實(shí)時路阻;S為城市交通路況飽和度;R1vij(t)、R2vij(t)分別為00.6對應(yīng)的節(jié)點(diǎn)阻抗。
針對電動汽車充電導(dǎo)航問題的多主體互動性質(zhì),本節(jié)分別考慮電動汽車車主、充電站以及交通路網(wǎng)多方利益作為綜合目標(biāo)進(jìn)行優(yōu)化分析。
(5)
約束條件:
(6)
(7)
(8)
(9)
(10)
(11)
式中:Ce為路程能耗花費(fèi);Cs為充電站充電費(fèi)用;Tw為充電站等待時間;Tt為路程通行時間;π為單位時間成本費(fèi)用;δij為路段決策變量,δij=1表示車輛選擇交通節(jié)點(diǎn)vi行駛到節(jié)點(diǎn)vj,δij=0表示該路段未被選擇;φk為充電站決策變量,φk=1表示充電站k分配給車主,否則為0;εm為單位里程耗電量[10];ωe為車輛平均充電電價;dij為車輛從節(jié)點(diǎn)vi到節(jié)點(diǎn)vj行駛里程;Ep為車輛電池容量;ee為車輛充電結(jié)束時的SOC值;ωt為充電站充電電價;tr,a、tr,s為第r個訂單到站時間和開始充電時間;tr,s-tr,a為第r個訂單充電等待的時間;Nk,s為充電等待的訂單數(shù)量;to,g為車輛起點(diǎn)的時間戳。
由上式可知,多目標(biāo)的電動汽車充電導(dǎo)航是一個混合整數(shù)非線性問題。該問題的求解可以采用大M方法轉(zhuǎn)換成混合整數(shù)線性規(guī)劃問題,運(yùn)用Gurobi、Cplex以及Lingo等求解器求解。但上述所提傳統(tǒng)方法均為離線運(yùn)算且面對實(shí)際動態(tài)拓?fù)渚W(wǎng)絡(luò)運(yùn)算耗時較長。
針對上述不足,本文引入DRL方法對電動汽車充電導(dǎo)航問題進(jìn)行建模求解。強(qiáng)化學(xué)習(xí)是智能體對真實(shí)環(huán)境的探索與利用,通過反復(fù)的試錯得到高獎勵值,從而選擇執(zhí)行高回報(bào)值的動作。強(qiáng)化學(xué)習(xí)中每一個狀態(tài)的改變,都只與前一個狀態(tài)和智能體選擇的動作有關(guān),而與前面的動作無關(guān)(即滿足馬爾科夫性),這種滿足馬爾科夫性的強(qiáng)化學(xué)習(xí)定義為馬爾科夫決策過程(Markov decision process, MDP)。
而電動汽車充電導(dǎo)航問題中電動汽車作為智能體通過感知動態(tài)交通路網(wǎng)環(huán)境,通過對充電狀態(tài)以及行駛狀態(tài)的獎勵值進(jìn)行評價,依次選擇執(zhí)行動作直至結(jié)束。因此,上述過程符合馬爾科夫鏈的相關(guān)定義。進(jìn)一步,為了解決智能體對整個動態(tài)交通路網(wǎng)的狀態(tài)感知與學(xué)習(xí)中存在的維數(shù)災(zāi)難問題,采用深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)方法相結(jié)合的深度Q網(wǎng)絡(luò)(DQN)方法[15]進(jìn)行求解。因此,具體基于MDP過程的電動汽車充電導(dǎo)航建模過程如下。
2.2.1 狀態(tài)
考慮到電動汽車智能體的多信息交互特征,將電動汽車的行駛特性與充電特性作為狀態(tài)空間集合:
st={xi,yi,et,Ce,Cs,πTw,πTt}
(12)
2.2.2 動作
智能體根據(jù)系統(tǒng)狀態(tài)選擇所要執(zhí)行的動作,因此,將充電站分配作為智能體的動作空間,智能體根據(jù)所分配的充電站進(jìn)行路徑規(guī)劃導(dǎo)航:
at=k,k∈Nc
(13)
2.2.3 獎勵值
根據(jù)電動汽車是否抵達(dá)充電站進(jìn)行電能補(bǔ)給,將獎勵值分為行駛途中獎勵與到站后獎勵:
(14)
2.2.4 動作-值函數(shù)
電動汽車車主根據(jù)不同策略選擇執(zhí)行相應(yīng)動作,因此動作-值函數(shù)Qψ(s,a)用來計(jì)算累積獎勵:
(15)
式中:γ為折扣因子,表示智能體對長期回報(bào)和短期回報(bào)的折衷權(quán)衡;Εψ為策略ψ的期望計(jì)算函數(shù)。
進(jìn)一步,電動汽車充電導(dǎo)航的目的是在所有可行性策略中找到最優(yōu)策略ψ*求得最優(yōu)動作-值函數(shù)Q*(s,a), 使得獎勵值最大化:
(16)
針對最優(yōu)動作-值函數(shù)Q*(s,a)的求解,引入基于查表方式的Q-Learning方法[16],通過Bellman方程迭代更新動作值函數(shù)逼近最優(yōu)動作值函數(shù),迭代過程和最優(yōu)動作表示如式(17)—(18)所示。
Q(s,a)=Q(s,a)+β(r+γ(s′,a′)-Q(s,a))
(17)
(18)
式中:β為學(xué)習(xí)率;s′、a′分別為下一個狀態(tài)的狀態(tài)和動作。
為了消除Q-Learning方法求解高維狀態(tài)空間和動作空間連續(xù)性的不足,DQN方法通過構(gòu)建兩個網(wǎng)絡(luò)結(jié)構(gòu)與輸出維度相同的深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN),即估值網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)對動作-價值函數(shù)進(jìn)行擬合,輸出每個動作的近似價值。圖4給出了DQN方法訓(xùn)練過程示意圖,由圖4可知DQN具體訓(xùn)練步驟如下。
圖4 DQN方法架構(gòu)
1)采用DNN作為估值網(wǎng)絡(luò)進(jìn)行Q值的估計(jì):
Q(s,a)≈Q(s,a|θ)
(19)
式中θ為估值網(wǎng)絡(luò)參數(shù)。
2)構(gòu)建相同DNN架構(gòu)的目標(biāo)網(wǎng)絡(luò)作為估值網(wǎng)絡(luò)的“標(biāo)簽”指導(dǎo)估值網(wǎng)絡(luò)進(jìn)行參數(shù)更新,且每訓(xùn)練N步,將估值網(wǎng)絡(luò)的參數(shù)完全復(fù)制給目標(biāo)網(wǎng)絡(luò):
(20)
3)在Q值中使用均方差(mean square error, MSE)定義DQN的損失函數(shù):
(21)
4)計(jì)算損失函數(shù)中關(guān)于參數(shù)θ的梯度:
(22)
5)最后,對式(22)使用隨機(jī)梯度下降方法[16]更新參數(shù),完成整個算法的訓(xùn)練任務(wù)。
本文所提的電動汽車充電導(dǎo)航框架如圖5所示。
圖5 電動汽車充電導(dǎo)航框架
首先,對“電動汽車集群優(yōu)化儲能云平臺”采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理得到建模所需的電動汽車行駛、充電信息以及城市充電站信息;
其次,對上述所得的電動汽車、充電站以及動態(tài)城市路網(wǎng)信息進(jìn)行數(shù)據(jù)挖掘與數(shù)據(jù)建模,采用起止矩陣(origin destination, OD)方法為電動汽車抽樣分配行駛特性與充電特性參數(shù)模擬車輛全天候出行軌跡[19],并將“車-站-網(wǎng)”多信息交互作為深度神經(jīng)網(wǎng)絡(luò)的狀態(tài)輸入;
最后,運(yùn)用DQN方法對電動汽車充電導(dǎo)航問題進(jìn)行求解,將電動汽車的能耗與時間耗時指標(biāo)作為獎勵值,通過動作-值函數(shù)的評估將最優(yōu)充電作為動作空間推薦給智能體執(zhí)行,并以分配的充電站為目標(biāo)進(jìn)行路徑規(guī)劃[10],完成整個充電導(dǎo)航任務(wù)。
本節(jié)設(shè)計(jì)不同的實(shí)驗(yàn)場景驗(yàn)證所提方法的實(shí)施效果,實(shí)驗(yàn)參數(shù)設(shè)置如下:引入100輛電動私家車進(jìn)行充電模擬,電池容量Ep設(shè)置為36 kWh,初始SOC服從正態(tài)N(0.8,0.1),充電結(jié)束時的SOC值ee服從N(0.85,0.3),單位時間成本費(fèi)用π為6.15元[25],充電站充電電價ωt為2.5 元;DQN網(wǎng)參數(shù)絡(luò)θ包括6個輸入層、512個隱藏層以及3個輸出層,學(xué)習(xí)率β為0.99,訓(xùn)練步數(shù)N為20,訓(xùn)練回合為200次。在服務(wù)器配置CPU R93950X、GPU RTX2080TI、RAM 32GB以及仿真軟件MATLAB 2020b環(huán)境中進(jìn)行實(shí)驗(yàn)驗(yàn)證。
首先,圖6給出了本文基于DQN方法充電導(dǎo)航策略訓(xùn)練過程的每回合的獎勵值,訓(xùn)練時長為3.58 h。由圖6可知,算法在整個200回合的訓(xùn)練中,在初始階段智能體不斷從環(huán)境中進(jìn)行試錯學(xué)習(xí),該階段獎勵值求解過程存在較為明顯的振蕩現(xiàn)象,隨后在中期到最終后期階段求解過程逐漸趨于穩(wěn)定收斂。其中,在初始的前50回合中由于DQN采用ε-greedy策略在訓(xùn)練初期ε設(shè)定值為0.90,以較大地概率鼓勵智能體對環(huán)境進(jìn)行探索,因此獎勵值波動較為明顯,該階段平均獎勵均值為-125.38 元。在50—160回合階段,ε值下降到0.5,智能通過對環(huán)境的前期探索積累了一定的“經(jīng)驗(yàn)”,因此更好的利用環(huán)境狀態(tài)累計(jì)更多的獎勵值,該階段平均獎勵值為-50.23元。而在160—200回合,智能體對環(huán)境的探索可以學(xué)習(xí)到最優(yōu)策略,此時ε值下降到0.02,智能體能夠取得最高的獎勵值,平均為-31.55 元。
圖6 DQN算法訓(xùn)練過程
其次,為了評估所提方法的泛化能力,將所選區(qū)域交通路況的飽和度S分別設(shè)定為暢通、緩行和嚴(yán)重?fù)矶聽顟B(tài),通過改變動態(tài)交通信息獲得不同的實(shí)驗(yàn)樣本數(shù)據(jù),驗(yàn)證算法對不同信息環(huán)境下的適應(yīng)能力,不同道路通行狀態(tài)下獎勵值如圖7所示。
圖7 不同道路通行狀態(tài)下的獎勵值
由圖7可知,整體上,在不同道路通行狀況下,DQN方法通過200次訓(xùn)練均可以獲得穩(wěn)定收斂的獎勵值。而道路交通狀況為暢通條件下,城市道路通行路阻較小,路徑搜索與策略學(xué)習(xí)難度較低,因此算法訓(xùn)練時長最少,為3.08 h。隨著道路交通狀況變得趨于飽和,增加了算法的搜索與學(xué)習(xí)負(fù)擔(dān),因此,道路緩行狀況下耗時為3.88 h,嚴(yán)重?fù)矶聴l件下耗時為4.45 h。另外,道路為暢通條件時,車主路程耗時較小,最終收斂獎勵值約為-42.56 元,比緩行和嚴(yán)重?fù)矶聴l件下分別低15.56%和46.56%。
然后,在算法泛化能力驗(yàn)證基礎(chǔ)上,本節(jié)設(shè)計(jì)算法魯棒性能的驗(yàn)證實(shí)驗(yàn)。具體實(shí)驗(yàn)場景設(shè)置為:仿真回合設(shè)計(jì)為180次,每隔60次回合改變各充電站電價。其中充電站電價1為CS1~CS5的電價,充電站電價2為CS6~CS10的電價,充電站電價3為CS11~CS14的電價。不同充電站電價條件下的獎勵值如圖8所示。
圖8 不同充電站電價條件下的獎勵值
由圖8可知,整體上隨著仿真回合的增加,算法得到的獎勵值逐漸趨于穩(wěn)定,收斂在-47.56元附近。而仿真回合在第60次和120次時充電站電價發(fā)生驟變,相對應(yīng)的獎勵值在第61次和第121次回合均發(fā)生驟降跌落,說明算法具有很好的實(shí)時跟蹤性能。另外,在第61次回合時,獎勵值跌落幅度為-103.32元,而第121次回合,跌落幅度為-78.55元。表明隨著訓(xùn)練次數(shù)的增加,算法的實(shí)時跟蹤性能逐步提高。
最后,為了與本文所提電動汽車充電導(dǎo)航策略進(jìn)行對比,引入距離最短(shortest length path, SLP)與時間最短(shortest time path, STP)兩種基本策略[13]為車主進(jìn)行充電引導(dǎo)。其中,SLP和STP方法分別為車主以路程距離最短和路程耗時最少為目標(biāo)進(jìn)行導(dǎo)航,即基于DRL建模方法中僅將獎勵值更改為路程距離和路程耗時,其余條件不變。圖9給出了某一車輛在同一起訖點(diǎn)采用不同導(dǎo)航策略全天的行駛路徑。
圖9 不同導(dǎo)航策略的行駛路徑
由圖9可知,車主采用上述3種導(dǎo)航策略一共得到8條行駛路徑,其中3種方法共同搜索到第6條路徑,說明路徑6為距離最短路程。而本文方法和STP方法為動態(tài)導(dǎo)航策略,在規(guī)劃目標(biāo)中均考慮了行程耗時的動態(tài)目標(biāo),可以根據(jù)不同時段行程時間動態(tài)調(diào)整搜索結(jié)果,因此搜索到多條行駛路徑,而SLP方法僅以行程距離最短為目標(biāo),為靜態(tài)導(dǎo)航策略,因此僅得到一條行駛路徑。
進(jìn)一步,圖10給出了全部車輛分別采用3種策略在200次訓(xùn)練的總時間成本(行程時間與等待時間總和)的平均累積值。
圖10 不同導(dǎo)航策略的總時間成本
此外,表3給出了不同導(dǎo)航策略的行駛與充電評價指標(biāo)的具體值。結(jié)合圖10和表3可知,前40次回合訓(xùn)練中,各方法處在探索初期,算法所利用的環(huán)境信息來制定尋優(yōu)策略有限。因此各方法的總的時間成本相近,隨著訓(xùn)練回合的增加,算法探索-利用環(huán)境信息的能力逐漸成熟,因此,根據(jù)獎勵機(jī)制制定的差異,各導(dǎo)航方法所花費(fèi)的總時間成本逐漸顯現(xiàn),SLP策略方法所花費(fèi)的時間成本最多,平均比STP多32.45%,比本文策略多27.89%,其中在第142 回合時各策略的總時間成本差值最大。
表3 不同導(dǎo)航策略評價指標(biāo)對比
針對具體評價指標(biāo),STP方法和SLP方法各自優(yōu)化目標(biāo)為最少時間和最短路程,行程時間花費(fèi)最少的為STP方法,行程距離最少的為SLP方法。另外,由于STP方法為了追求行程耗時較少,存在一定的繞路現(xiàn)象,車輛所行駛的路程最多,比本文方法超出29.33%,比SLP方法超出74.39%。充電費(fèi)用與行程距離成正比,因此采取STP方法同樣讓車主花費(fèi)更多的充電費(fèi)用。雖然,本文方法在各單項(xiàng)指標(biāo)(行程時間、行程距離以及充電費(fèi)用)中并非最優(yōu)解,但本文方法綜合考慮了行程能耗與時間耗時為獎勵值讓智能體訓(xùn)練學(xué)習(xí)執(zhí)行動作,因此在等待時間以及綜合評價指標(biāo)上獲得了最優(yōu)值。
本文針對電動汽車行駛與充電過程中的多信息交互特性以及實(shí)際交通路網(wǎng)中充電調(diào)度的復(fù)雜性。對實(shí)際電動汽車監(jiān)控平臺數(shù)據(jù)進(jìn)行建模挖掘,并綜合考慮電動汽車-充電站-交通路網(wǎng)的融合信息,建立了基于深度強(qiáng)化學(xué)習(xí)方法的電動汽車充電導(dǎo)航模型,通過多場景仿真實(shí)驗(yàn)得到如下結(jié)論。
所提策略充分利用了現(xiàn)有電動汽車實(shí)際運(yùn)營數(shù)據(jù),通過建模挖掘得到電動汽車行駛與充電所需的全部參數(shù)信息。且采用實(shí)測數(shù)據(jù)驅(qū)動建模得到的“車-站-網(wǎng)”信息更能生動刻畫電網(wǎng)系統(tǒng)和交通系統(tǒng)的運(yùn)行特征。
通過分析電動汽車充電導(dǎo)航過程的馬爾可夫鏈相關(guān)性,將交互信息作為深度網(wǎng)絡(luò)的狀態(tài)輸入空間,運(yùn)用DQN算法求解該多目標(biāo)規(guī)劃問題。通過算法的探索學(xué)習(xí),訓(xùn)練回合次數(shù)的合理設(shè)置可以提高算法的收斂程度。改變環(huán)境的數(shù)據(jù)與信息對算法的泛化能力與魯棒性影響較小。相較于單目標(biāo)導(dǎo)航策略,本文的多信息交互的多目標(biāo)導(dǎo)航策略可以使車主的綜合利益最優(yōu)。
盡管如此,限于篇幅本文沒有對電動汽車監(jiān)控平臺采集的全部數(shù)據(jù)進(jìn)行挖掘。在下一步工作中,電動汽車全數(shù)據(jù)鏈的建模分析可以繼續(xù)研究完善。由于采用實(shí)際城市路網(wǎng)作為交通拓?fù)洌梢酝ㄟ^改進(jìn)DRL算法來提高對復(fù)雜網(wǎng)絡(luò)的計(jì)算效率。此外,基于所提的充電導(dǎo)航策略,可以進(jìn)一步評估聚集充電對電網(wǎng)和交通網(wǎng)的影響。