于海東,劉文彬,文祥宇
(國網(wǎng)山東省電力公司電力科學(xué)研究院,山東 濟(jì)南 250003)
隨著城市空氣污染、化石能源短缺等問題日趨凸顯,電動汽車的推廣在全國多個城市受到廣泛重視。電動汽車的大量普及對配電網(wǎng)安全穩(wěn)定運行具有雙重影響,一方面無序充電會降低電能質(zhì)量并造成線路、變壓器過載等一系列問題[1],但另一方面充電負(fù)荷的時空靈活性有助于風(fēng)電等可再生能源的消納[2]。相比其他類型電動汽車,電動出租車更具有出行密度高、出行路線不固定的特點,其充電行為應(yīng)急性強,充電負(fù)荷時空分布高度隨機,預(yù)測難度大。
針對電動汽車充電負(fù)荷預(yù)測已有較多研究。文獻(xiàn)[3-4]通過挖掘充電站運行數(shù)據(jù)預(yù)測未來短期內(nèi)充電負(fù)荷,未考慮電動汽車作為移動用電負(fù)荷的時空轉(zhuǎn)移特性。文獻(xiàn)[5-6]對電動汽車每日出行的各個環(huán)節(jié)進(jìn)行概率建模,然后基于蒙特卡洛法仿真車輛行為。文獻(xiàn)[7]在蒙塔卡洛法基礎(chǔ)上補充系統(tǒng)動力學(xué)模型預(yù)測未來電動私家車保有量及充電負(fù)荷。文獻(xiàn)[8]基于更具隨機性的時刻出行概率模型計算充電負(fù)荷。文獻(xiàn)[9]采用多智能體理論研究了電動汽車的電價響應(yīng)機制。文獻(xiàn)[10]采用卡口監(jiān)控數(shù)據(jù),基于馬爾可夫鏈建立各路段轉(zhuǎn)移概率模型,求解穩(wěn)態(tài)交通流量及充電負(fù)荷。文獻(xiàn)[11]采用馬爾可夫決策過程模擬車輛行駛過程中的路徑選擇。然而,上述研究主要面向家用電動汽車,其時空行為模型并不適用于電動出租車。
目前針對電動出租車充電行為分析及負(fù)荷預(yù)測的研究相對較少。文獻(xiàn)[12]采用時間間隔系數(shù)表征電動出租車相鄰兩次充電行為的時間間隔,并通過時間間隔系數(shù)推導(dǎo)每次充電起始荷電狀態(tài)的概率分布。文獻(xiàn)[13]采用網(wǎng)格劃分,定義各個交通小區(qū)在城市空間內(nèi)的地理位置,根據(jù)出行需求生成概率與出行吸引概率生成電動出租車乘用需求。
在前文提到的諸多電動汽車負(fù)荷預(yù)測相關(guān)文獻(xiàn)中,大多假設(shè)低于某閾值時車輛在當(dāng)前停留地點進(jìn)行充電,不能反映駕駛?cè)顺潆姏Q策的復(fù)雜性。尤其是電動出租車充電隨機性極強,主觀假設(shè)充電判據(jù)往往不能得到可信的負(fù)荷預(yù)測結(jié)果。文獻(xiàn)[14]制定了駕駛?cè)诵睦淼娇斐涓怕手g的轉(zhuǎn)換規(guī)則,引入云模型以體現(xiàn)駕駛?cè)藳Q策的隨機性與模糊性,但僅考慮了電量對充電決策的影響。文獻(xiàn)[15]引入馬爾可夫決策過程模擬電動汽車用戶充電行為,設(shè)置用戶滿意度指標(biāo)作為充電判據(jù),通過求解貝爾曼方程得到最優(yōu)充電決策,但計算量較大,求解難度高。
綜上,提出一種以強化學(xué)習(xí)為核心的電動出租車充電行為模擬及負(fù)荷預(yù)測方法。首先借鑒交通領(lǐng)域的重力模型,考慮不同行駛里程下出租車出行需求占比,建立電動出租車出行時空行為概率模型。然后,采用強化學(xué)習(xí)模擬駕駛?cè)嗽趯嶋H運營中不斷積累經(jīng)驗形成合理充電習(xí)慣的過程。定義電動出租車充電決策問題的狀態(tài)空間和動作空間,構(gòu)建強化學(xué)習(xí)環(huán)境,提出基于單位時間凈收益與單位電量凈成本的獎勵值函數(shù)。最后,通過蒙特卡洛法仿真大量電動出租車出行及充電行為,形成合理的充電策略,并以此作為充電判據(jù)進(jìn)行負(fù)荷預(yù)測。
采用強化學(xué)習(xí)實現(xiàn)電動出租車充電負(fù)荷預(yù)測,其總體框架如圖1 所示。強化學(xué)習(xí)考慮智能體與環(huán)境的交互問題,智能體在特定的環(huán)境中運行,智能體對環(huán)境的感知稱為狀態(tài);智能體通過動作反饋給環(huán)境,當(dāng)執(zhí)行某一種動作后,通過環(huán)境背后暗含的轉(zhuǎn)移概率使得狀態(tài)發(fā)生改變;環(huán)境會根據(jù)潛在的獎勵值模型反饋給智能體一個獎賞,智能體運行的核心目的是盡可能地實現(xiàn)獎賞的最大化。
圖1 電動出租車充電負(fù)荷預(yù)測總體框架
針對電動出租車負(fù)荷預(yù)測問題,智能體指電動出租車,環(huán)境指出租車出行時空行為概率模型。狀態(tài)包括時間、空間、電量等可影響車輛充電決策的感知信息,動作是駕駛?cè)藢κ欠癯潆姾统涠嗌匐姷臎Q定。上述動作作用域出租車出行時空行為模型,更新時間、空間、電量,并且可通過載客收益及充電費用等因素對智能體進(jìn)行獎賞,指導(dǎo)充電策略的進(jìn)一步更新。策略是由狀態(tài)到動作的映射關(guān)系,采用Q值表來表示這種映射關(guān)系,Q值反映在某種狀態(tài)下采用某種動作產(chǎn)生的潛在遠(yuǎn)期收益,Q值高的動作相對更優(yōu)。選取蒙特卡洛(Monte Carlo,MC)、單步回溯(State?Action?Reward?State?Action,SARSA)及多步回溯算法SARSA(λ)這3 種Q值更新算法[16],比較在出租車充電負(fù)荷預(yù)測問題上的訓(xùn)練速度與效果。
依據(jù)重力模型計算各交通小區(qū)間的出行流量。重力模型類比牛頓萬有引力定律,認(rèn)為由交通小區(qū)i到交通小區(qū)j的出行流量與交通小區(qū)i的出行發(fā)生量及交通小區(qū)j的出行吸引量成正比,而與交通小區(qū)i、j之間的交通阻抗成反比[17],如式(1)和式(2)所示。
式中:fij為由交通小區(qū)i到交通小區(qū)j的出行流量;Oi為交通小區(qū)i的出行需求發(fā)生量;Dj為交通小區(qū)j的出行需求吸引量;Rij為交通小區(qū)i、j之間的交通阻抗,一般可取為交通小區(qū)間距離dij的γ 級冪函數(shù);α1、α2、Kijt為待定系數(shù),其中α1、α2可根據(jù)經(jīng)驗在0.5~1.0 范圍內(nèi)取值,后續(xù)算例參考文獻(xiàn)[6],取α1=α2=1;Kijt的取值進(jìn)一步考慮了時間、區(qū)域功能類別(住宅區(qū)H、工作區(qū)W、商業(yè)區(qū)S)對出行量的影響[18]。
采用由出行距離決定的隸屬度函數(shù)[19]計算各交通小區(qū)間居民選擇出租車進(jìn)行出行的概率,如式(3)所示。
式中:pij為從交通小區(qū)i前往交通小區(qū)j的居民選擇搭乘出租車概率;pmax為不同里程下居民選擇出租車進(jìn)行出行的最大概率;dpeak為居民選擇出租車進(jìn)行出行的概率最大時對應(yīng)的出行里程;β1、β2為模型參數(shù)。參考國內(nèi)大中型城市出租車行程距離分布,可取Pmax=0.4,dpeak=7.6,β1=0.3,β2=1.4。
載客目的地由乘客決定,因此其概率分布滿足始發(fā)地交通小區(qū)居民出行目的地空間分布特性。若行程始發(fā)地所在路段兩側(cè)交通小區(qū)分別為i1與i2,則目的地落在交通小區(qū)k的概率如式(4)所示。
出租車尋客時間與出租車附近交通小區(qū)當(dāng)前時段出行需求密度有關(guān)。一般來說,可以認(rèn)為單位時間某交通小區(qū)生成的出行需求數(shù)量滿足泊松分布,那么時間上相鄰的兩次出行需求間的時間間隔滿足指數(shù)分布,進(jìn)而出租車尋客時間近似滿足指數(shù)分布,如式(5)所示。
式中:tse為出租車尋客時間;λse為指數(shù)分布參數(shù),λse與泊松分布參數(shù)相對應(yīng),表示單位時間某事件平均發(fā)生次數(shù),因此λse可表示單位時間生成的出租車用車需求數(shù)量。
根據(jù)前述模型確定出租車載客行程起止點后,假設(shè)車輛按最短路徑行駛??紤]到各路段交通流量及通行能力差異,本文通過美國聯(lián)邦公路局函數(shù)(Bureau of Public Road,BPR)對車輛通行時間進(jìn)行建模,如式(6)所示。
式中:ti為通過某路段所需要的時間;ti0為該路段自由通行時間;Q為該路段此時交通流量;C為該路段通行能力;a、b為模型待定參數(shù),建議取值a=0.15,b=4[20]。
計及時間、空間、電量3 方面要素,對狀態(tài)空間進(jìn)行定義。
在時間要素方面,以2 h 為粒度劃分時間,即一日內(nèi)時間維度共分為12 種狀態(tài)?,F(xiàn)行公共充電樁多采用分時定價策略以實現(xiàn)電力負(fù)荷削峰填谷,因此充電電價與時間直接關(guān)聯(lián)。此外用車需求密度也呈現(xiàn)明顯的時間分布特性,因此時間要素對充電決策有著顯著影響。
在空間要素方面,受制于Q值表規(guī)模,狀態(tài)空間中對空間位置的描述不可能十分精確??紤]車輛當(dāng)前所處交通小區(qū)功能類別,簡要劃分為住宅區(qū)H、工作區(qū)W、商業(yè)區(qū)Y 這3 類,如某路段兩側(cè)可能分屬不同類型交通小區(qū),設(shè)定優(yōu)先級順序為Y、H、W。車輛目前位置到最近充電站的距離將直接決定前往充電站的時間成本,因此其對充電決策有著重要影響,將車輛目前位置到最近充電站的距離分為小于3 km、3~8 km、大于8 km 這3 檔。綜合以上兩方面因素,空間維度共劃分為3×3=9種狀態(tài)。
電量要素方面,根據(jù)電池荷電狀態(tài)(State of Charge,SOC)S劃分為6 種狀態(tài):S<15%、15%≤S<30%、30%≤S<45%、45%≤S<60%、60%≤S<75%及S≥75%。
綜上,總狀態(tài)空間包含的狀態(tài)數(shù)量N=12×9×6=648。
共定義5種動作:“不充電”、“慢速充電至60%”、“慢速充電至90%”、“快速充電至60%”及“快速充電至90%”。這樣,綜合狀態(tài)空間與動作空間,共有648×5=3240種可能的狀態(tài)—動作組合。
獎勵值的定義是構(gòu)建針對出租車充電決策的強化學(xué)習(xí)算法需要解決的關(guān)鍵問題。不同的獎勵值定義方式將顯著影響出租車充電決策問題的學(xué)習(xí)效果,合理定義獎勵值函數(shù)是強化學(xué)習(xí)算法能否反映現(xiàn)實中駕駛?cè)藳Q策過程的關(guān)鍵所在。
3.2.1 載客過程
載客過程中駕駛?cè)丝偸窍M诒M可能短的時間里賺取盡可能多的錢,也就是實現(xiàn)單位時間凈收益(式(7))的最大化。
式中:R'trip為某次載客行程的單位時間凈收益;Ptrip為載客收入;cpower為電動出租車平均單位時間電耗成本;Ttrip為此次載客行程時間;fSOC為反映里程焦慮而引入的低電量懲罰項;μ為懲罰因子,取值原則是在不影響單位時間載客收益最大化這一訓(xùn)練目標(biāo)的前提下,盡可能避免過低電量的出現(xiàn),通過觀察多次仿真試驗結(jié)果選擇合理取值。
為避免極端值對訓(xùn)練結(jié)果的影響,將單位時間凈收益進(jìn)行歸一化,如式(9)所示。
式中:R'trip1與R'trip2分別為載客行程單位時間凈收益滿意閾值與不滿意閾值,可通過調(diào)研出租車駕駛?cè)耸杖胨讲⒊怨ぷ鲿r間進(jìn)行估計。對原始獎勵值R'trip進(jìn)行限幅,使之保持在-1~1。
3.2.2 充電過程
充電過程中駕駛?cè)丝偸窍M诒M可能低的費用補充盡可能多的電量,也就是實現(xiàn)單位SOC 充電成本(式(10))最小化。
式中:Dch為充電電價;Cb為動力電池容量;Sch為此次充電補充的SOC;Tch為包括驅(qū)車前往充電站在內(nèi)的整個充電過程時間花費;Etaxi為電動出租車平均單位時間經(jīng)濟(jì)效益。
同樣對單位SOC 充電成本進(jìn)行歸一化,如式(11)所示。
式中:R'ch2與R'ch1分別為充電行為單位SOC 成本滿意閾值與不滿意閾值。對獎勵值進(jìn)行限幅,使之保持在-1~1。
以基于強化學(xué)習(xí)的充電行為決策為核心,采用蒙特卡洛法仿真大量出租車出行與充電行為,并預(yù)測充電負(fù)荷,其流程如圖2所示。
圖2 電動出租車充電負(fù)荷預(yù)測流程
充電行為決策學(xué)習(xí)環(huán)節(jié)可分為外循環(huán)與內(nèi)循環(huán)。外循環(huán)模擬一輛電動出租車在一日內(nèi)的運行,該周期可稱為“回合”(episode),每回合開始時對時間、位置狀態(tài)進(jìn)行隨機抽樣,設(shè)定初始SOC,然后進(jìn)入內(nèi)循環(huán)。
內(nèi)循環(huán)指車輛完成一次載客行為或者充電一次,該周期稱為“步”(Step)。每一步中首先根據(jù)當(dāng)前狀態(tài)及策略確定動作。如果不充電,根據(jù)式(5)計算尋客時間,根據(jù)式(4)對載客出行目的地進(jìn)行抽樣。確定目的地坐標(biāo)點后,沿最短路徑前往目的地,根據(jù)BPR 函數(shù)對各個路段的通行時間與平均速度進(jìn)行計算,更新時間與電量。到達(dá)目的地后采用式(7)—式(9)計算獎勵值,更新Q值及充電策略并進(jìn)入下一步。如果充電,前往距離最近的充電站,執(zhí)行既定的充電模式與目標(biāo)電量,按照式(10)—式(11)計算獎勵值,更新Q值及充電策略并進(jìn)入下一步。
充電負(fù)荷計算環(huán)節(jié)仍然執(zhí)行前述外循環(huán)與內(nèi)循環(huán),但將充電策略固定為學(xué)習(xí)環(huán)節(jié)最終結(jié)果,不再進(jìn)行獎勵值計算及Q值更新。
在圖3 所示的某規(guī)劃區(qū)中仿真電動出租車行駛及充電行為,以說明前文所建立的充電負(fù)荷預(yù)測模型有效性。
圖3 算例交通網(wǎng)絡(luò)示意圖
電動出租車動力電池容量為48 kWh,快充功率60 kW,慢充功率14 kW;車輛初始SOC 設(shè)定為90%??紤]到車輛工作時間的多樣性,按一定比例分為短班制與長班制,具體設(shè)置如表1 所示。出租車計費標(biāo)準(zhǔn)設(shè)為:3 km 以內(nèi)收取起步價14 元,超過3 km 但低于10 km 的部分,按3 元/km 計費,超過10 km 的部分按3.6元/km計費。
表1 車輛工作時間設(shè)置
強化學(xué)習(xí)相關(guān)參數(shù)方面,學(xué)習(xí)因子α=0.1,折扣率γ=0.95,衰退系數(shù)λ=0.95。每當(dāng)Q值表發(fā)生更新時,采用Q值跟蹤法[18]動態(tài)更新相應(yīng)狀態(tài)-動作組合概率,導(dǎo)出新的充電策略。
電動出租車平均單位時間電耗成本cpower=5元/h,單位時間凈收益滿意閾值R'trip1=60元/h,不滿意閾值R'trip2=36 元/h,電動出租汽車平均單位時間經(jīng)濟(jì)效益Etaxi=42元/h;單位電量充電成本滿意閾值R'ch2為1.67 元/kWh;計及分時電價,設(shè)置充電費用如表2 所示;單位電量充電成本不滿意閾值R'ch1為3.33元/kWh;懲罰因子μ=0.1;初始策略為:當(dāng)且僅當(dāng)車輛SOC低于15%時執(zhí)行動作“快速充電至90%”,其他情況均執(zhí)行動作“不充電”。
表2 分時充電電價設(shè)置
分別采用MC、SARSA 及SARSA(λ)3 種算法對充電行為策略進(jìn)行學(xué)習(xí)。由于現(xiàn)實中駕駛?cè)顺潆姏Q策最根本的目的在于實現(xiàn)收益最大化,因此以下以單日載客總收入減去充電總支出得到的凈收益反映學(xué)習(xí)效果,結(jié)果如圖4所示。圖中每一點表示近5 000回合凈收益平均值,減小隨機性以便對比訓(xùn)練效果。
圖4 Q值更新算法收斂性能比較
3種算法均在迭代過程中不斷優(yōu)化充電策略,提高單日凈收益。MC 方法收斂速度最慢,在圖中展示的1.1×105回合中未見收斂;SARSA 算法的單日凈收益在7×104~8×104回合存在一段停滯,可能收斂于局部最優(yōu)解,而后又經(jīng)歷探索過程逐漸離開,在9×104回合處基本收斂,平均單日凈收益約820 元;SARSA(λ)算法經(jīng)歷約4.5×104回合后基本收斂,平均單日凈收益約826 元。SARSA(λ)算法在收斂速度上優(yōu)于SARSA 算法及MC 方法,訓(xùn)練結(jié)果略微優(yōu)于SARSA算法。
SARSA(λ)算法相對最優(yōu),以下負(fù)荷預(yù)測結(jié)果均來自SARSA(λ)算法經(jīng)歷105回合獲得的充電行為策略。在不更新策略的情況下再進(jìn)行10 000回合(即仿真10 000輛電動出租車行駛及充電行為),獲得的各充電站負(fù)荷曲線如圖5所示。
圖5 日充電負(fù)荷曲線
各充電站充電負(fù)荷時間分布特性較為一致,峰谷差異顯著。04:00—10:00 時段電量充足且電價較高,充電負(fù)荷整體較低;10:00—14:00 為平時段電價,14:00—16:00 雖然為電價高峰但車輛經(jīng)長時間運營電量整體較低,因此10:00—16:00 總體呈現(xiàn)負(fù)荷午高峰;22:00 之后進(jìn)入電價低谷,同時大量電動出租車完成一天的工作,需要補充電量以備次日運營,因此22:00—次日02:00 呈現(xiàn)充電負(fù)荷晚高峰;午高峰到晚高峰之間的時段,車輛基本不需要再額外充電,因此16:00—22:00 充電負(fù)荷較低。不同充電站充電負(fù)荷總量有一定差異。位于中心城區(qū)的充電站2 充電負(fù)荷最高,日用電量為5.84×105kWh;位于次中心城區(qū)的充電站3 次之,日用電量為4.14×105kWh;位于周邊城區(qū)的充電站1 充電需求最低,日用電量為3.96×105kWh。
電價對充電決策的引導(dǎo)得到了有效反映。例如,在夜間電價低谷時段出現(xiàn)了充電負(fù)荷晚高峰,而07:00—10:00 的電價高峰限制了充電行為。但另一方面,續(xù)航能力限制導(dǎo)致14:00—16:00 時段出現(xiàn)大量剛性充電需求,目前的電價設(shè)置無法規(guī)避該時段充電負(fù)荷高峰。
為縮減時間成本,日間電動出租車相對偏好快充,但由于快充費用較高,慢充仍有一定的吸引力。06:00—20:00 期間快慢充負(fù)荷比例為1.35:1。夜間大量車輛結(jié)束工作,充電時間充裕,充電負(fù)荷以慢充為主。隨著車輛續(xù)航性能的提升,日間充電需求將進(jìn)一步降低,夜間慢充負(fù)荷會不斷提升。
將車輛做出充電決策時所處的狀態(tài)(時間、位置、SOC)稱為充電需求點。從負(fù)荷預(yù)測結(jié)果中隨機抽取760 次充電行為,其充電需求點空間分布如圖6所示??拷潆娬荆ǎ?.5,9)、(7.5,9)、(9,3))的位置充電需求相對密集;中心及次中心城區(qū)充電需求較為密集,而周邊城區(qū)充電需求相對稀疏;3 類功能區(qū)充電需求密度差異不明顯。
圖6 充電需求點空間分布
將充電行為判據(jù)替換為文獻(xiàn)[12]所述的快慢充概率云模型(以下簡稱“云模型”),在相同的交通網(wǎng)絡(luò)和相同的車輛行為特性參數(shù)下進(jìn)行負(fù)荷預(yù)測,對比本文所提出的強化學(xué)習(xí)方法,結(jié)果如圖7 所示。兩種方法預(yù)測所得到的日充電負(fù)荷時間分布、快慢充需求比例相近,但是云模型未反映出夜間(22:00—次日02:00)慢充偏好較高的特點。
圖7 總充電負(fù)荷曲線對比
將車輛做出“充電”動作時的SOC 狀態(tài)劃分為6個區(qū)間,對比各個區(qū)間內(nèi)車輛到最近的充電站的平均距離,結(jié)果如表3 所示。強化學(xué)習(xí)方法中,隨SOC下降充電行駛距離延長,說明該方法可以綜合反映電量與空間位置對充電決策的影響。云模型則不能充分反映SOC與充電行駛距離的相關(guān)性。
表3 不同SOC區(qū)間車輛充電平均行駛距離
計算兩種方法仿真得到的車輛單日凈收益,其均值與標(biāo)準(zhǔn)差如表4 所示。強化學(xué)習(xí)方法可以實現(xiàn)相對更高的收益水平,因此更接近于理性人的充電決策。
表4 單日凈收益對比 單位:元
考慮到電動出租車出行活動的高度隨機性與充電決策考量因素的多元性,提出了基于強化學(xué)習(xí)的電動出租車快、慢充日負(fù)荷曲線預(yù)測方法。
采用強化學(xué)習(xí)模擬駕駛?cè)嗽陂L期運營中逐漸形成合理充電習(xí)慣的過程,綜合考慮了時間、空間、電量3 方面因素,能夠反映駕駛?cè)藢嶋H充電決策過程的復(fù)雜性。
在強化學(xué)習(xí)過程中,提出了一種基于單位時間載客收益及單位電量充電成本的獎勵值計算方法,使得充電決策以單位時間效益最大化為導(dǎo)向,更加符合實際駕駛?cè)诵袨檫壿嫛?/p>
后續(xù)研究可引入神經(jīng)網(wǎng)絡(luò),采用深度Q網(wǎng)絡(luò)等方法對強化學(xué)習(xí)算法性能進(jìn)行完善與提升;考慮雨雪天、交通擁堵等特殊情況下的客戶滿意度,將其納入學(xué)習(xí)目標(biāo);將該方法應(yīng)用于城市路網(wǎng),分析計算成本并進(jìn)一步評估本方法在大中型城市復(fù)雜路網(wǎng)條件下的可行性。