帥春燕,楊芳,歐陽鑫,許庚
(昆明理工大學(xué),交通工程學(xué)院,昆明650500)
自1995年起,電動(dòng)自行車在國(guó)內(nèi)的發(fā)展趨于成熟穩(wěn)定,2018年電動(dòng)自行車的社會(huì)保有量達(dá)到2.5 億輛,成為居民短途出行的重要交通工具。隨著外賣行業(yè)的興起,電動(dòng)自行車成為外賣騎手的主要交通工具。為規(guī)范電動(dòng)車的市場(chǎng)和使用,規(guī)定電動(dòng)自行車的最大重量為55 kg[1],限制了電池的容量,使得單塊電池的最遠(yuǎn)運(yùn)行距離不超過60 km。因此,產(chǎn)生了電動(dòng)自行車的充、換電需求,相對(duì)充電而言,換電具有耗時(shí)短,速度快的優(yōu)點(diǎn),能滿足突發(fā)出行需求。大量的換電企業(yè)應(yīng)運(yùn)而生,例如,易換電、閃開來電、騎士換電、小綠人、張飛充電、易而充、哈嘍換電及電小美等。合理地對(duì)換電柜進(jìn)行選址并準(zhǔn)確地預(yù)測(cè)換電需求是換電企業(yè)發(fā)展的關(guān)鍵,因此,本文研究四川成都某大型換電企業(yè)的換電柜分布,以及換電訂單量的變化情況,以劃分區(qū)域的形式,采用整合移動(dòng)平均自回歸模型,即ARIMA[2]模型預(yù)測(cè)各區(qū)域的換電訂單量。對(duì)比支持向量回歸(SVR)[3]、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[4]、反向傳播神經(jīng)網(wǎng)絡(luò)(BP)[5]等模型,探討ARIMA模型在換電需求預(yù)測(cè)上的適用性,其結(jié)果為換電企業(yè)合理布局換電柜,投放電池量提供數(shù)據(jù)支撐。
ARIMA模型由于能夠獲取時(shí)間序列的線性關(guān)系和周期關(guān)系,被廣泛應(yīng)用于時(shí)間序列預(yù)測(cè),例如,水文地理、網(wǎng)絡(luò)流量、客流量、運(yùn)量、價(jià)格、需求、負(fù)荷、流感趨勢(shì)等方面。在研究數(shù)據(jù)的周期性、季節(jié)性方面,XU 等[6]研究道路交通狀態(tài)變化的周期性,建立ARIMA 模型,較好地預(yù)測(cè)實(shí)時(shí)路況。MILENKOVIE等[7]研究高鐵月度客流量的季節(jié)性,使用SARIMA模型實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè),誤差較小。艾欣等[8]使用ARIMA模型根據(jù)歷史電價(jià)預(yù)測(cè)未來電價(jià),以輔助制定競(jìng)價(jià)策略。SAHAI 等[9]針對(duì)新型冠狀病毒COVID_19感染病例數(shù)據(jù),建立ARIMA模型,較好地預(yù)測(cè)COVID_19 的變化趨勢(shì)。在研究時(shí)間序列突變性方面,白麗等[10]研究突發(fā)性大客流的特征,提出ARIMA模型與回歸模型結(jié)合,有效預(yù)測(cè)短期突變客流。
由于現(xiàn)有的換電柜布局不合理,導(dǎo)致?lián)Q電訂單量嚴(yán)重不均衡,大量的換電柜使用率低。為優(yōu)化換電柜布局,本文提出采用K-means聚類算法對(duì)換電柜進(jìn)行聚類,在聚類基礎(chǔ)上,按區(qū)域采用ARIMA模型預(yù)測(cè)換電需求。
K-means聚類是一種無監(jiān)督式學(xué)習(xí),將數(shù)據(jù)集{x(1),…,x(m)} 劃分為k簇:C={C1,…,Ci,…,Ck} 。計(jì)算k簇聚類質(zhì)心{o1,o2,…,ok},oi∈R(n),i=1,…,k的 位置:,其中,x為樣本點(diǎn),有m個(gè)。根據(jù)歐氏距離計(jì)算數(shù)據(jù)點(diǎn)和質(zhì)心的距離,再重新歸類,采用目標(biāo)函數(shù):最小化劃分類別。分類以后更新簇中的質(zhì)心位置,重復(fù)計(jì)算和更新,直到質(zhì)心位置不變。
構(gòu)建ARIMA模型前需要進(jìn)行時(shí)間序列平穩(wěn)性檢驗(yàn)以及白噪聲檢驗(yàn)。通常采用擴(kuò)展迪基-福勒檢驗(yàn)(Augmented Dickey-Fuller Test,ADF),也稱單位根檢驗(yàn)和The Ljung-Box檢驗(yàn)來檢驗(yàn)平穩(wěn)性和白噪聲。只有在滿足自協(xié)方差平穩(wěn)條件時(shí),才能使用ARIMA模型。
若{xt,t=0,±1,±2,…} 為零均值平穩(wěn)序列,其中t為時(shí)間點(diǎn),令εt是均值為0,方差為σ2ε的平穩(wěn)白噪聲,且滿足
則稱xt是階數(shù)為p,q的自回歸移動(dòng)平均序列,即ARMA(p,q)。φ1,…,φp和θ1,…,θq分別為序列和噪聲的系數(shù)。AR(p)為自回歸模型,p為自回歸項(xiàng)數(shù);MA(q)為移動(dòng)平均模型,q為移動(dòng)平均項(xiàng)數(shù)。當(dāng)q=0 時(shí),為AR(p)序列;當(dāng)p=0 時(shí),為MA(q)序列。若對(duì)ARMA(p,q)模型作d階差分,得到ARIMA(p,d,q),且
簡(jiǎn)寫為
式中:隨機(jī)序列WN 是獨(dú)立高斯分布;參數(shù)p,d,q通常采用AIC 準(zhǔn)則(Akaike Information Criterion)確定。
本文數(shù)據(jù)采用某大型換電企業(yè)在四川成都4個(gè)月的電動(dòng)自行車換電訂單量。已有換電柜1252個(gè),對(duì)原始換電柜位置進(jìn)行K-means 聚類,選取800,600,400,200 類作聚類對(duì)比,通過4 個(gè)類別的訂單熱力圖對(duì)比,且考慮到外賣騎手對(duì)換電時(shí)間、距離的容忍程度,換電站的覆蓋面積,選擇400類,并在400 類基礎(chǔ)上優(yōu)化得到370 類,每一類視為1個(gè)站點(diǎn)。在成都市中心區(qū)域的分布如圖1所示。
圖1(a)、(b)以1000 m 為半徑(r)的每個(gè)圓形區(qū)域包含每個(gè)站點(diǎn)的換電柜,在站點(diǎn)密集的區(qū)域,通過均衡訂單調(diào)整重疊區(qū)域內(nèi)的訂單到相應(yīng)區(qū)域;圖1(c)為聚類前的換電柜熱力圖分布,分布不均;圖1(d)為聚類后,換電柜的數(shù)量大大減少,換電柜訂單的熱力圖更均衡,說明單個(gè)柜的使用率得到提高,整體的使用率更高,可以降低換電柜的投放量和電池的投放量,從而降低換電企業(yè)的成本。
圖1 成都市換電站服務(wù)區(qū)分布Fig.1 Chengdu electrical changing station service area distribution map
將各站點(diǎn)按照平均每小時(shí)的訂單量(時(shí)均訂單量)量級(jí)劃分為大量級(jí)(30,60]單·h-1,35個(gè)站點(diǎn);中量級(jí)(10,30]單·h-1,106個(gè)站點(diǎn);小量級(jí)(0,10]單·h-1,229 個(gè)站點(diǎn),占62%。根據(jù)時(shí)均訂單量,排序得到370個(gè)站點(diǎn)的訂單分布,如圖2所示。
圖2 370個(gè)站點(diǎn)每小時(shí)的平均訂單量分布Fig.2 Distribution of average hourly orders at 370 sites
按訂單量級(jí)的大小,抽取30%的站點(diǎn)(大量級(jí)11 個(gè),中量級(jí)32 個(gè),小量級(jí)69 個(gè)),以1 h 為時(shí)間間隔,取連續(xù)40 d的數(shù)據(jù)對(duì)訂單量進(jìn)行短時(shí)預(yù)測(cè)。
(1)平均絕對(duì)百分比誤差(MAPE)為
(2)平均絕對(duì)誤差(MAE)為
(3)均方根誤差(RMSE)為
(4)準(zhǔn)確率(Accuracy)為
(5)決定系數(shù)(R2)為
式中:Ys為s時(shí)刻對(duì)應(yīng)的換電訂單量真實(shí)值;為s時(shí)刻對(duì)應(yīng)的換電訂單量預(yù)測(cè)值;為s時(shí)刻對(duì)應(yīng)的換電訂單量真實(shí)值的平均值;n為預(yù)測(cè)的時(shí)刻個(gè)數(shù)。評(píng)價(jià)指標(biāo)中eMAPE、eMAE、eRMSE計(jì)算模型的誤差,eAccuracy、eR2衡量模型預(yù)測(cè)的精度和擬合度。
ARIMA時(shí)間序列模型建模包括:平穩(wěn)性檢驗(yàn)、白噪聲檢驗(yàn)以及參數(shù)的確定。以23 號(hào)站點(diǎn)40 d,960 h的換電訂單為例,說明建模過程。
(1)平穩(wěn)性檢驗(yàn)
時(shí)序數(shù)據(jù)的平穩(wěn)性檢驗(yàn)采用ADF檢驗(yàn),如表1所示。
ADF 單位根檢驗(yàn)中Test Statistic 為檢驗(yàn)統(tǒng)計(jì)量,表1中ADF 檢驗(yàn)統(tǒng)計(jì)量為-2.434819,明顯高于3 個(gè)顯著性水平下的臨界值,且P-value 顯著大于0.05,說明該序列存在單位根,可以判定23 號(hào)站點(diǎn)為不平穩(wěn)序列,訂單時(shí)序如圖3所示。
表1 ADF檢驗(yàn)結(jié)果Table 1 ADF inspection result
圖3 23號(hào)站點(diǎn)不平穩(wěn)時(shí)序圖及差分圖Fig.3 Unsteady timing sequence and difference diagram of No.23 station
觀察到換電訂單量的時(shí)序圖無明顯趨勢(shì)性,直接對(duì)非平穩(wěn)序列做差分處理,默認(rèn)先做一階差分處理,平穩(wěn)后不用再次差分。一階差分結(jié)果如表2所示。
表2 一階差分ADF檢驗(yàn)結(jié)果Table 2 ADF test results of first order difference
ADF 統(tǒng)計(jì)量為-34.049950,小于1%顯著性水平下的臨界值-3.437360,單位根不存在,一階差分結(jié)果顯示為平穩(wěn)序列。
(2)白噪聲檢驗(yàn)
檢測(cè)序列不是白噪聲具有研究意義。差分序列的白噪聲檢驗(yàn)結(jié)果如表3所示。
表3 白噪聲檢驗(yàn)結(jié)果Table 3 White noise test results
2階滯后數(shù)以后P-value顯著小于0.05,判定為平穩(wěn)非白噪聲序列,可以進(jìn)行時(shí)間序列建模。經(jīng)過平穩(wěn)性檢驗(yàn)的平穩(wěn)序列共有30 個(gè)站,其中某個(gè)站平穩(wěn)序列時(shí)序如圖4所示。
圖4 平穩(wěn)序列時(shí)序Fig.4 Stationary sequence diagram
確定模型的p,d,q參數(shù)可以通過觀察平穩(wěn)序列的自相關(guān)圖和偏自相關(guān)圖進(jìn)行模型的定階。由于人為定階存在誤差,無法選擇最優(yōu)階數(shù),故采用AIC準(zhǔn)則自動(dòng)定階。
為驗(yàn)證ARIMA模型在短時(shí)訂單量預(yù)測(cè)上的有效性,本文選取AR(Autoregressive model)、MA(Moving Average model)、LSTM(Long Short-Term Memory)、SVR(Support Vector Regression)、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)比較[11]。其中,自回歸AR 和滑動(dòng)平均MA 模型,是ARIMA 的子模型,屬于線性模型。支持向量回歸SVR 模型通過核函數(shù)將低維空間的數(shù)據(jù)映射到高維空間中,并對(duì)支持向量進(jìn)行回歸擬合,實(shí)現(xiàn)預(yù)測(cè)。BP 神經(jīng)網(wǎng)絡(luò)通過反向傳播誤差實(shí)現(xiàn)參數(shù)尋優(yōu)。LSTM 是應(yīng)用于時(shí)序預(yù)測(cè)的深度神經(jīng)網(wǎng)絡(luò),通過多個(gè)門進(jìn)行控制,獲取輸入數(shù)據(jù)之間的長(zhǎng)、短時(shí)時(shí)序依賴。為公平起見,上述6個(gè)模型均經(jīng)過了參數(shù)尋優(yōu)。分別對(duì)非突變的換電訂單數(shù)據(jù)作預(yù)測(cè)。模型參數(shù)設(shè)置如表4所示,各模型模擬結(jié)果如圖5所示。
表4 模型超參數(shù)Table 4 Model hyperparameter
圖5 各模型指標(biāo)匯總Fig.5 Summary diagram of each model index
隨著訂單量級(jí)變小,模型擬合度和精度下降;ARIMA模型在各個(gè)量級(jí)上的預(yù)測(cè)效果均優(yōu)于其他模型。
進(jìn)一步,比較ARIMA 模型和LSTM、SVR、BP模型在換電柜擴(kuò)容,導(dǎo)致?lián)Q電訂單量突變,波動(dòng)較大的情況下的預(yù)測(cè)性能,對(duì)提取出所有訂單量突變的71,135,168站點(diǎn)進(jìn)行實(shí)驗(yàn)。其中71號(hào)訂單突變站點(diǎn)的模型預(yù)測(cè)如圖6所示。
圖6中:LSTM、SVR和BP模型預(yù)測(cè)能力變差,誤差增大,ARIMA 模型能夠適應(yīng)突變趨勢(shì)。這主要是因?yàn)锳RIMA模型采用前面有限個(gè)數(shù)據(jù)預(yù)測(cè)后一個(gè)數(shù)據(jù),適用于周期性和線性特征的數(shù)據(jù);而SVR、LSTM 和BP 模型基于所有數(shù)據(jù)去尋找最優(yōu)超平面或模型的超參數(shù),故對(duì)突變數(shù)據(jù)敏感,預(yù)測(cè)性能下降。
圖6 訂單突變曲線及4個(gè)模型局部預(yù)測(cè)Fig.6 Order mutation curve and its four model local prediction diagrams
為解決神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)需求量較大的問題,并且驗(yàn)證是否因數(shù)據(jù)量原因?qū)е翷STM、BP 和SVR 模型預(yù)測(cè)效果差。提取突變訂單量數(shù)據(jù)由40 d擴(kuò)展到80 d。模型實(shí)驗(yàn)結(jié)果如表5所示。
表5 突變訂單量實(shí)驗(yàn)結(jié)果Table 5 Experimental results of mutation orders
面對(duì)突變數(shù)據(jù),SVR、LSTM、BP模型的預(yù)測(cè)效果不佳,在擴(kuò)大數(shù)據(jù)量之后,依然未能解決預(yù)測(cè)效果的問題。證明突變數(shù)據(jù)會(huì)影響SVR 模型的最優(yōu)超平面尋找,LSTM和BP模型因記憶了突變之前數(shù)據(jù)的權(quán)重,以后的每一次預(yù)測(cè)都會(huì)受到突變的影響。
綜上,換電訂單在時(shí)序上具有很強(qiáng)的線性和周期性特征,換電訂單量受到短期訂單量的影響更大,且短期內(nèi)的變化具有平穩(wěn)性,ARIMA模型能夠有效地預(yù)測(cè)換電訂單。
預(yù)測(cè)效果較好的4個(gè)模型如圖7所示。
圖7 4個(gè)模型預(yù)測(cè)Fig.7 Four model prediction diagrams
ARIMA模型的預(yù)測(cè)曲線和真實(shí)值曲線基本一致,對(duì)訂單量的峰值比較敏感。進(jìn)一步,使用ARIMA 模型對(duì)余下的70%站點(diǎn)進(jìn)行擬合預(yù)測(cè),結(jié)果如表6所示。
表6 ARIMA模型預(yù)測(cè)結(jié)果匯總Table 6 Summary table of time series ARIMA model results
所有站點(diǎn)的eAccuracy和eR2都在0.75 以上。說明ARIMA模型對(duì)換電訂單量的預(yù)測(cè)適配度很好。訂單量級(jí)變小,模型預(yù)測(cè)的精度也隨之降低。
隨著電動(dòng)自行車使用規(guī)范的出臺(tái),外賣行業(yè)的興盛,換電需求的增大,對(duì)換電訂單的預(yù)測(cè)可以優(yōu)化換電服務(wù),節(jié)約換電成本。本文根據(jù)換電訂單數(shù)據(jù)的特征,采用K-means 聚類方法聚類數(shù)據(jù),提出基于ARIMA 模型的區(qū)域換電需求預(yù)測(cè),并比較了AR、MA、ARIMA、LSTM、BP、SVR 模型的短時(shí)預(yù)測(cè)性能。發(fā)現(xiàn),訂單量量級(jí)的大小會(huì)影響預(yù)測(cè)精度,同時(shí),換電量在時(shí)序上更多表現(xiàn)為線性和周期性,換電訂單量受短期訂單量的影響更大,且短期內(nèi)的變化具有平穩(wěn)性,這也是ARIMA 模型比其他非線性模型具有更高的預(yù)測(cè)精度和更低錯(cuò)誤的原因。