胡杰 , , ,楊光宇 , , ,何陳 , , ,朱雪玲 , ,
(1.武漢理工大學(xué) 現(xiàn)代汽車零部件技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430070;2.武漢理工大學(xué) 汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,武漢 430070;3.新能源與智能網(wǎng)聯(lián)車湖北工程技術(shù)研究中心,武漢 430070)
為提倡生態(tài)文明與綠色出行,新能源公交車的應(yīng)用日益廣泛,準(zhǔn)確預(yù)估新能源公交車交通能耗不僅可以保證新能源公交車安全、可靠的運(yùn)行,還可為后續(xù)的充電需求測(cè)算、生態(tài)軌跡規(guī)劃和電池參數(shù)匹配等方面奠定研究基礎(chǔ)。
國(guó)內(nèi)外對(duì)電動(dòng)車能耗相關(guān)已有一定研究,主要分為3 個(gè)方向:其一是通過(guò)分析電池的充放電效率、開(kāi)路電壓、等效電阻等特性,使用MATLAB、Simulink 等軟件,建立電池模型和車輛能耗模型進(jìn)行仿真分析[1-2],其二是根據(jù)車輛過(guò)去一段時(shí)間的行駛狀態(tài)、電池剩余容量及電量消耗率建立數(shù)學(xué)模型進(jìn)行能耗預(yù)測(cè)[3-4],其三是由數(shù)據(jù)驅(qū)動(dòng)的,從多維度對(duì)車輛、電池、工況等參數(shù)進(jìn)行研究,使用大數(shù)據(jù)、統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)的方法預(yù)測(cè)能耗[5-9]。第一種方向基于實(shí)驗(yàn)室條件,但實(shí)車運(yùn)行時(shí)電化學(xué)反應(yīng)迅速,工況復(fù)雜多變,這種方式過(guò)于理想化,很難用于實(shí)車能耗預(yù)測(cè),第二、第三種方向基于測(cè)量的實(shí)車數(shù)據(jù)建立預(yù)測(cè)模型,但能耗影響因素眾多,數(shù)據(jù)采集困難,因此目前大都方案只對(duì)少部分因素作針對(duì)研究,預(yù)測(cè)的準(zhǔn)確度也存在不足。
因此,為能充分考慮各種能耗影響因素,對(duì)實(shí)車能耗進(jìn)行準(zhǔn)確的預(yù)測(cè),本文基于1/15 Hz 的低頻北京市51 路公交車的運(yùn)行數(shù)據(jù),提出一種基于數(shù)據(jù)驅(qū)動(dòng)的能耗預(yù)測(cè)方法,構(gòu)建包括電池信息、時(shí)間信息、行駛工況和駕駛行為信息等6 類特征,建立駕駛行為評(píng)價(jià)體系,對(duì)工況片段進(jìn)行聚類后分別建立引入注意力機(jī)制的LSTM 能耗預(yù)測(cè)模型,最終實(shí)現(xiàn)了對(duì)能耗的準(zhǔn)確預(yù)測(cè)。
本文所用數(shù)據(jù)內(nèi)容可包括國(guó)標(biāo)GB/T 32960-2016 中提供的所有可用數(shù)據(jù)。車輛類型為北京10 輛51 路新能源公交車,數(shù)據(jù)采集時(shí)間跨度為2020 年5 月1 日至2021 年5 月1 日,采樣周期為15 s,共采集10 輛車共688 萬(wàn)余條數(shù)據(jù),數(shù)據(jù)信息如表1 所示。
表1 數(shù)據(jù)采集表Tab.1 Data collection form
新能源公交車的能耗預(yù)測(cè)流程如圖1 所示。首先對(duì)數(shù)據(jù)集內(nèi)的異常值和缺失值進(jìn)行預(yù)處理,然后根據(jù)擬定的規(guī)則將數(shù)據(jù)劃分為行程片段與工況片段,接著基于工況片段構(gòu)建電池、時(shí)間、行駛工況、駕駛行為等六類特征,最后根據(jù)對(duì)工況聚類的結(jié)果構(gòu)建基于注意力機(jī)制的LSTM 能耗預(yù)測(cè)面模型,并與傳統(tǒng)LSTM、LGBM 等模型進(jìn)行對(duì)比分析。
圖1 基于注意力機(jī)制的LSTM 能耗預(yù)測(cè)Fig.1 Energy consumption prediction based on attention mechanism LSTM
在實(shí)車運(yùn)行中,傳感器因技術(shù)缺陷或使用環(huán)境等因素將導(dǎo)致部分?jǐn)?shù)據(jù)的延遲、報(bào)錯(cuò)或者缺失,使收集到的數(shù)據(jù)發(fā)生異常,例如停車充電時(shí)車速大于0,車輛狀態(tài)標(biāo)記為4(無(wú)意義)或車輛熄火后一段時(shí)間后總電流和車速才降為0。因此需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理以免除異常數(shù)據(jù)或缺失數(shù)據(jù)的影響。
原始數(shù)據(jù)中還存在一定程度的缺失現(xiàn)象,本文對(duì)大段數(shù)據(jù)整行缺失的情況作刪除處理,一些能夠根據(jù)某些邏輯關(guān)系進(jìn)行填補(bǔ)的如總電流、SOC 等直接進(jìn)行填補(bǔ),不能的則利用皮爾遜相關(guān)系數(shù)法確定與被填補(bǔ)特征相關(guān)性系數(shù)最高的5 個(gè)特征,然后使用隨機(jī)森林算法填充進(jìn)行聯(lián)合填補(bǔ),填補(bǔ)完成后使用五折交叉驗(yàn)證的方式驗(yàn)證準(zhǔn)確度,結(jié)果如表2所示。
表2 隨機(jī)森林填補(bǔ)結(jié)果Tab.2 The results of filling with random forests
原始數(shù)據(jù)中含有大量無(wú)用或異常數(shù)據(jù),先剔除掉一部分無(wú)用數(shù)據(jù),有助于提高數(shù)據(jù)的預(yù)處理效率,還能為后續(xù)的能耗分析與預(yù)測(cè)提供便利。將包含行駛、停車充電以及停車靜止3 種工況的片段稱為一個(gè)完整的行程片段,具體劃分規(guī)則如下:1)車輛狀態(tài)不變;2)充電狀態(tài)不變;3)前后數(shù)據(jù)時(shí)間差小于240 s。劃分后數(shù)據(jù)樣本量小于20 條的片段,分析的意義不大且占用計(jì)算資源,對(duì)其作刪除處理。
新能源公交車的運(yùn)行路徑固定,但受部分路段路況或交通流量影響,車輛行駛速度慢且駕駛員需要頻繁進(jìn)行加速或制動(dòng)操作,將導(dǎo)致車輛能耗劇烈升高。為考慮不同道路工況的能耗差異,根據(jù)速度、加速度的周期性變化規(guī)律、結(jié)合道路信息,將行程片段按里程值劃分為5 個(gè)小片段,并將之稱為工況片段。
圖2 為經(jīng)緯度、速度和加速度變化趨勢(shì)圖,其中為方便分析,將經(jīng)緯度歸一化后畫在一張圖中,工況片段劃分情況如圖中虛線所示。按里程值劃分的工況片段能一定程度上體現(xiàn)行程片段內(nèi)部的差異性,為分析行駛工況、駕駛行為提供了極大的便利,但也存在主觀性與不準(zhǔn)確性,后文將對(duì)這些工況片段進(jìn)一步處理。
圖2 速度和加速度隨著經(jīng)緯度變化圖Fig.2 Variation of velocity and acceleration with latitude and longitude
電池是電動(dòng)車的全部能量來(lái)源,電池電量的變化能直接反映能量的消耗量,是重要的能耗預(yù)測(cè)特征。本文通過(guò)安時(shí)積分法計(jì)算當(dāng)前電池容量,計(jì)算公式為
電池內(nèi)部的化學(xué)反應(yīng)與溫度、放電電流大小強(qiáng)烈相關(guān),如低溫環(huán)境下電池內(nèi)阻增大,在放電電流相同時(shí),內(nèi)阻的焦耳熱增加,此時(shí)電池的能量利用效率降低,可用容量減少,即通過(guò)安時(shí)積分法計(jì)算得到的剩余電量并不代表真實(shí)的剩余電量,為保證能耗預(yù)測(cè)精度,需要對(duì)電池容量進(jìn)行修正。根據(jù)文獻(xiàn)[10]中所述的流程及公式將電池容量值修正至25 ℃與標(biāo)準(zhǔn)電流時(shí)的容量值。修正過(guò)程如下:
式中:T為該片段平均溫度;CT為溫度修正系數(shù);CI為電流修正系數(shù);C和C1分別為修正前、后的電池容量值。
如圖3 所示為車輛某連續(xù)3 天的能耗變化趨勢(shì),可見(jiàn)新能源公交車的能耗具有強(qiáng)烈的時(shí)間周期性和漸變性,有必要對(duì)時(shí)間信息進(jìn)行深入挖掘。
圖3 新能源公交車能耗變化趨勢(shì)Fig.3 The change trend of new energy bus energy consumption
直接將代表時(shí)間的字符串或類別特征輸入模型往往學(xué)習(xí)不到時(shí)間周期的共性特點(diǎn),因此本文提出時(shí)鐘循環(huán)編碼,既能保證能耗隨時(shí)間變化的周期性的漸變性,又能避免獨(dú)熱編碼帶來(lái)的維度爆炸。本文使用時(shí)鐘循環(huán)編碼構(gòu)建季度、周數(shù)、天數(shù)、該天第幾小時(shí)、第幾刻鐘等6 種數(shù)值型特征,使用獨(dú)熱編碼構(gòu)建是否高峰期、周末、節(jié)假日3 種類別型特征。如圖4 所示為該天第i個(gè)小時(shí)表示方法, 首先,將特征的數(shù)值范圍首尾相接變成圓形,將數(shù)值范圍等間距地排列在圓上,在圓心處建立坐標(biāo)系,此時(shí),圓上任何數(shù)據(jù)點(diǎn)均可通過(guò)二維坐標(biāo)來(lái)表示。
圖4 第 i 個(gè)小時(shí)的式中循環(huán)編碼表示方法Fig.4 Clock cycle-coded representation of the i hour
式中:因51 路新能源公交車運(yùn)行時(shí)間為早5:30 至晚23:00,因此n=19;ti表示第i個(gè) 小時(shí);xi、yi分別表示當(dāng)前第i個(gè) 小時(shí)的x軸 、y軸時(shí)鐘循環(huán)編碼。此時(shí)僅通過(guò)二維坐標(biāo)便可表示任意范圍的數(shù)據(jù)中的每個(gè)點(diǎn),極大減少了特征空間,有助于提升模型的性能。
不同的天氣條件對(duì)車輛的能耗也有巨大的影響,如雨天霧霾時(shí)行車緩慢、冬夏季節(jié)車內(nèi)空調(diào)開(kāi)啟,都將顯著增加車輛能耗[11-12]。本文使用爬蟲(chóng)技術(shù),獲取北京市每天每小時(shí)的溫度、濕度和風(fēng)速信息構(gòu)建環(huán)境特征。
為研究新能源公交車在不同的道路交通情況下行駛工況對(duì)能耗的影響[13-14],本文提出一種基于箱線圖確定工況閾值的方法構(gòu)建行駛工況特征。箱線圖能反映數(shù)據(jù)分布的中心位置、散布范圍和離散程度。如圖5 所示為加速度箱線圖,以加速度絕對(duì)值的90 百分位數(shù)區(qū)分急加(減)速。
圖5 加速度90 百分位箱線圖Fig.5 90th percentile box of acceleration
以同樣的方法統(tǒng)計(jì)高、中、低、勻、怠速時(shí)長(zhǎng)、等待時(shí)長(zhǎng)與占行程片段的比例,以及等時(shí)間間隔內(nèi)加減速的次數(shù)等,如此構(gòu)成行駛工況信息特征。
根據(jù)相關(guān)研究成果可知駕駛員的操作特性與車輛能耗強(qiáng)烈相關(guān)[15-16],駕駛特性可以利用踏板開(kāi)度等信息進(jìn)行研究。因本文數(shù)據(jù)為采集頻率為1/15 hz的低頻數(shù)據(jù),無(wú)法直接且準(zhǔn)確地描述駕駛員的操作行為,對(duì)分析駕駛行為與能耗的內(nèi)在聯(lián)系造成困難,因此,除構(gòu)建基本駕駛行為特征如踏板平均狀態(tài)、加速踏板變化率、踏板保持率等,本文提出一種基于熵權(quán)法的駕駛行為評(píng)價(jià)體系,以評(píng)分的方式較為宏觀地分析各小片段內(nèi)的駕駛行為信息,彌補(bǔ)低頻數(shù)據(jù)難以對(duì)駕駛行為作準(zhǔn)確描述的缺點(diǎn)。
熵權(quán)法[17]的核心思想是利用信息熵計(jì)算各指標(biāo)的權(quán)值。本文選取與能耗的皮爾遜相關(guān)性系數(shù)最大的8 項(xiàng)指標(biāo),包括速度變化率方差、急加速比、急減速比、踏板保持率、急踩踏板比、怠速比、勻速比、高速比,利用熵權(quán)法計(jì)算各指標(biāo)權(quán)重,最終得到各工況片段駕駛行為得分。熵權(quán)法駕駛行為評(píng)價(jià)體系建立過(guò)程如下:
式中:i=1,2,···,5;j=1,2,···,12;為第i個(gè)工況片段中第j個(gè)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后的值,根據(jù)與能耗的正負(fù)相關(guān)性選擇具體公式;yi j為第i個(gè)工況片段中第j個(gè)指標(biāo)的比重;ej為第j個(gè) 指標(biāo)的信息熵;K=1/lnm為常數(shù);aj為最終第j個(gè)指標(biāo)的權(quán)值;
駕駛行為評(píng)價(jià)指標(biāo)權(quán)值如表3 所示。
表3 駕駛行為指標(biāo)權(quán)值Tab.3 Index weights of driving behavior
最終第i個(gè)工況片段的駕駛行為得分xi為
無(wú)用的特征不僅占用大量計(jì)算資源,還會(huì)降低模型性能,因此需要進(jìn)行特征篩選。本文使用基尼系數(shù)作為評(píng)價(jià)指標(biāo),剔除冗余特征。
式中:mgni為第m個(gè)特征的基尼系數(shù);k為特征個(gè)數(shù);pmk為節(jié)點(diǎn)m中k類別所占比例。
選取特征貢獻(xiàn)度較大的前30 個(gè)特征作為特征庫(kù)如表4 所示。因特征數(shù)量較多,表4 中僅對(duì)特征作簡(jiǎn)要說(shuō)明。
表4 特征庫(kù)Tab.4 Feature list
因特征維度眾多,時(shí)間因素、工況因素繁雜,模型的學(xué)習(xí)難度增大。為提高模型預(yù)測(cè)效果,本文對(duì)這5 小段工況片段進(jìn)一步聚類,對(duì)每類分別構(gòu)建一個(gè)子預(yù)測(cè)模型,各子預(yù)測(cè)模型預(yù)測(cè)值相加即為最終的能耗預(yù)測(cè)結(jié)果。
隨數(shù)據(jù)維度的上升,數(shù)據(jù)點(diǎn)空間密度越來(lái)越高,數(shù)據(jù)與數(shù)據(jù)之間的距離開(kāi)始趨向于一個(gè)相同的值,此時(shí)基于距離的聚類方法開(kāi)始失效,直接將上述所有特征輸入聚類算法中得到的聚類效果很差。為避免維度災(zāi)難, K-means 的輸入僅包括速度、加速度變化率及標(biāo)準(zhǔn)差、駕駛行為評(píng)分以及環(huán)境信息共7 維,聚類效果由輪廓系數(shù)評(píng)價(jià)。
對(duì)某樣本p來(lái)說(shuō),輪廓系數(shù)計(jì)算方法為
式中:a(p) 為樣本p到同簇其他樣本的平均距離,a(p) 越小即樣本p的簇內(nèi)不相似度越小;b(p)為樣本i到其他簇所有樣本點(diǎn)的平均距離,b(p)越大即簇間不相似度越大;s(p) 為樣本p的輪廓系數(shù),s(p)越接近1,說(shuō)明樣本聚類越合理。
通過(guò)計(jì)算可知k=4 時(shí),輪廓系數(shù)最大,此時(shí)聚類結(jié)果輪廓圖如圖6 所示,圖中虛線為輪廓系數(shù)均值。
圖6 輪廓系數(shù)圖Fig.6 Silhouette Coefficient
長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種特殊的RNN,能有效避免后者梯度消失和梯度爆炸等問(wèn)題,且在時(shí)間序列中具有良好的表現(xiàn),而新能源公交車的運(yùn)營(yíng)時(shí)間、路程固定,具有很強(qiáng)的時(shí)空周期性,因此構(gòu)建適合解決這類問(wèn)題的LSTM 能耗預(yù)測(cè)模型。
雖然LSTM 在解決長(zhǎng)時(shí)間序列問(wèn)題時(shí)能通過(guò)細(xì)胞狀態(tài)存儲(chǔ)歷史信息,達(dá)到較好的效果,但因LSTM 的輸入序列一致,導(dǎo)致模型不能區(qū)分長(zhǎng)時(shí)間序列中各種特征的重要性程度,將在一定程度上忽略某些關(guān)鍵信息。本文引入注意力機(jī)制[18],通過(guò)對(duì)神經(jīng)元分配不同的權(quán)重概率,使模型能選擇并學(xué)習(xí)到重要信息,有助于提高建模性能。注意力機(jī)制的結(jié)構(gòu)簡(jiǎn)圖如圖7 所示。
圖7 中,H1,H2,···,HN,為隱藏層;s1,s2,···,sN為注意力得分;G1,G2,···,GN為注意力權(quán)值。相似度得分si(Hi,q) 、 注意力權(quán)值Gi及最終輸出向量計(jì)算方式如下:
式中:q為最后一個(gè)隱藏層輸出狀態(tài);d為輸入信息的維度;si為第i個(gè) 隱藏層與q的 相似度得分;Gi為第i層注意力權(quán)值;c為注意力機(jī)制層的輸出向量;vi為隱藏層狀態(tài)。
最終構(gòu)建的模型結(jié)構(gòu)如圖8 所示。
為探討聚類和注意力機(jī)制對(duì)模型建模效果的影響,分組進(jìn)行5-fold 交叉驗(yàn)證并評(píng)估效果,評(píng)價(jià)指標(biāo)選用平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)。結(jié)果如表5 所示。
表5 LSTM 模型效果對(duì)比Tab.5 Comparison of LSTM model effects
結(jié)果顯示:LSTM 神經(jīng)網(wǎng)絡(luò)的建模效果遠(yuǎn)好于LGBM、XGBoost 等模型,與此同時(shí),聚類后分別建模和注意力機(jī)制的應(yīng)用均能顯著提升模型效果,說(shuō)明本文提出方法有效,最終的LSTM 能耗預(yù)測(cè)模型平均絕對(duì)百分比誤差為2.1%,均方根誤差為0.015,如圖9、圖10 所示的為最終預(yù)測(cè)模型評(píng)價(jià)指標(biāo)的分布。
圖9 測(cè)試集平均絕對(duì)百分比誤差圖Fig.9 MAPE of test sets
圖10 測(cè)試集均方誤差圖Fig.10 RMSE of test sets
本文深入分析基于工況片段劃分的多源信息如電池信息、時(shí)間信息和行駛工況及駕駛行為信息等,建立熵權(quán)法駕駛行為評(píng)價(jià)體系彌補(bǔ)低頻數(shù)據(jù)評(píng)估困難的問(wèn)題,將工況進(jìn)行聚類以提高各類特征與復(fù)雜多變的運(yùn)行工況的關(guān)聯(lián)度以提升模型預(yù)測(cè)效果。本文構(gòu)建的引入注意力機(jī)制的LSTM 能耗預(yù)測(cè)模型能在長(zhǎng)時(shí)間序列中捕捉關(guān)鍵能耗影響因素,顯著提升了預(yù)測(cè)精度。經(jīng)5-fold 交叉驗(yàn)證以及其他傳統(tǒng)模型的對(duì)比分析,最終預(yù)測(cè)模型效果優(yōu)秀,其測(cè)試集平均絕對(duì)百分比誤差為2.1%,均方根誤差為0.015,最終實(shí)現(xiàn)了新能源公交車能耗的準(zhǔn)確預(yù)測(cè)。