秦 進(jìn),胡 冉,毛成輝,小 虎,徐光明
(中南大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長沙 410075)
客流預(yù)測可為鐵路運(yùn)輸企業(yè)的運(yùn)輸組織相關(guān)決策提供科學(xué)的數(shù)據(jù)支撐,尤其是高速鐵路(以下簡稱“高鐵”)日客流量預(yù)測,更是優(yōu)化和調(diào)整列車開行方案、鐵路客運(yùn)產(chǎn)品和客運(yùn)營銷策略的重要依據(jù)。近年來,鐵路客流預(yù)測方法也一直都是領(lǐng)域內(nèi)相關(guān)學(xué)者和工程師的研究熱點(diǎn)之一,并先后基于灰色預(yù)測法、時(shí)間序列法、支持向量機(jī)法和神經(jīng)網(wǎng)絡(luò)等方法,提出系列預(yù)測方法,同時(shí)還發(fā)現(xiàn)多種方法組合的預(yù)測模型,在預(yù)測精度和收斂速度等方面具有更好的表現(xiàn)[1]。
目前對于鐵路客運(yùn)量預(yù)測的研究中,汪志紅等[2]提出建立適應(yīng)中國鐵路客運(yùn)量的三時(shí)段春節(jié)季節(jié)調(diào)整的ARIMA(autoregressive integrated moving average model)預(yù)測模型。錢名軍等[3]提出將基于SARIMA(seasonal ARIMA)結(jié)合廣義自回歸條件異方差的組合預(yù)測模型,得出其預(yù)測性能優(yōu)于單一SARIMA預(yù)測模型的結(jié)論。隨著機(jī)器學(xué)習(xí)的發(fā)展,更多研究以神經(jīng)網(wǎng)絡(luò)為主要預(yù)測模型。王卓等[4]采用加入動(dòng)量因子的方法,提出鐵路客運(yùn)量長期預(yù)測的改進(jìn)BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型,該模型精度高于單一BP預(yù)測模型。Tsai等[5]提出利用集成神經(jīng)網(wǎng)絡(luò)預(yù)測鐵路短期客流,用不同的模型處理不同的輸入,得到的輸出誤差比傳統(tǒng)的多層感知器低。汪健雄等[6]以出日月趨勢特征、日月周期性特征、春運(yùn)-暑運(yùn)特征和假期特征作為模型的輸入變量,建立雙層次的BP神經(jīng)網(wǎng)絡(luò)模型。吳華穩(wěn)等[7]利用徑向基神經(jīng)網(wǎng)絡(luò)(RBF)對鐵路日客貨運(yùn)量進(jìn)行混沌預(yù)測。馮冰玉等[8]則提出在RBF神經(jīng)網(wǎng)絡(luò)前后分別增加灰化層和白化層,該方法通過增加原始數(shù)據(jù)規(guī)律性提高預(yù)測精度。史峰等[9]利用變分模態(tài)分解和遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行高鐵日??瓦\(yùn)量的預(yù)測。魏堂建等[10]設(shè)計(jì)日期和節(jié)假日標(biāo)簽并作為輸入的一部分構(gòu)建雙層平行小波神經(jīng)網(wǎng)絡(luò)高鐵日客運(yùn)量中期預(yù)測。李潔等[11]利用LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)預(yù)測高鐵短期客流,并分析了參數(shù)對模型的影響。滕靖等[12]利用粒子群算法優(yōu)化的LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測城際短期客流。我國鐵路客運(yùn)量的預(yù)測研究向神經(jīng)網(wǎng)絡(luò)等方法靠攏,且最新的研究方法更多基于LSTM神經(jīng)網(wǎng)絡(luò)。也有學(xué)者提出考慮數(shù)據(jù)趨勢、數(shù)據(jù)預(yù)處理和優(yōu)化參數(shù)的組合預(yù)測方法。
在我國高鐵運(yùn)營中,乘客購票大多數(shù)為點(diǎn)到點(diǎn)的提前購票,其購票產(chǎn)生的原因一般僅與日期及其出行需求有關(guān),而乘客的出行需求則更多地與出發(fā)地和到達(dá)地有關(guān),同時(shí)呈現(xiàn)出時(shí)間上的周期性特征。因此目前的客流預(yù)測研究較多依賴于對時(shí)間序列預(yù)測有較優(yōu)效果的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent netural network,RNN)及其變體模型,而注意力機(jī)制的使用更多是在提取時(shí)間特征方面或者為人工神經(jīng)網(wǎng)絡(luò)預(yù)測后的數(shù)據(jù)賦予權(quán)重。以transformer[13]為例的注意力機(jī)制模型在序列到序列問題上取得較大突破,Informer[14]模型改進(jìn)了其計(jì)算復(fù)雜度并使其適用于時(shí)間序列問題。本文將舍棄RNN且完全依托注意力機(jī)制的Informer模型引入高鐵客流的預(yù)測中。同時(shí),針對高鐵日客運(yùn)量的周期性變化特征,利用可挖掘高鐵運(yùn)量內(nèi)生模態(tài)特征的經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)算法進(jìn)行數(shù)據(jù)預(yù)處理,有利于提高Informer的預(yù)測效率,從而提出基于EMD和注意力機(jī)制Informer的高鐵日客運(yùn)量組合預(yù)測方法。此外,本文對京滬高鐵線路客運(yùn)量和各OD客運(yùn)量進(jìn)行單獨(dú)的數(shù)據(jù)分解、模型訓(xùn)練和模型預(yù)測,使得線路和OD的內(nèi)在客運(yùn)量特征可以在深度學(xué)習(xí)中得到充分的挖掘,預(yù)測效果更具有合理性。
EMD方法是由Huang等[15]提出的一種非線性非平穩(wěn)自適應(yīng)信號(hào)處理方法,該方法能夠根據(jù)數(shù)據(jù)的局部特征時(shí)間尺度,將信號(hào)序列自適應(yīng)地分解成為有限的、數(shù)量較少的若干個(gè)中心頻率不同的固有模態(tài)函數(shù)IMF(intrinsic mode function)。相比其他方法,EMD分解方法擁有無需設(shè)定子序列數(shù)量、操作簡單和分解效果好等獨(dú)特優(yōu)勢,因此在序列分解問題中得到廣泛運(yùn)用。在高鐵客流數(shù)據(jù)的規(guī)律分析中,EMD可用來挖掘原始OD客流數(shù)據(jù)在不同時(shí)間尺度下的內(nèi)在周期性特征和整體客流趨勢。
EMD分解必須滿足以下兩個(gè)基本條件:①在整個(gè)數(shù)據(jù)集中,極值點(diǎn)的數(shù)量和過零點(diǎn)的數(shù)量必須相等或最多相差1;②由局部極大值定義的包絡(luò)線和由局部極小值定義的包絡(luò)線的均值在任意點(diǎn)處均為0。EMD的過程就是從原始數(shù)據(jù)序列x(t)中提取IMF的篩選過程,算法步驟如下[15]:
Step1準(zhǔn)備原始數(shù)據(jù)序列x(t),設(shè)置迭代次數(shù)n=1。
Step2識(shí)別x(t)中的所有局部極值,包括最小值emin,n(t)和最大值emax,n(t)。
Step3使用三次樣條線生成所有局部極大emax,n(t)的上包絡(luò)線和所有局部極小emin,n(t)的下包絡(luò)線。
Step4計(jì)算emax,n(t)和emin,n(t)的均值mn(t),生成均值的包絡(luò)線為
(1)
Step5計(jì)算時(shí)間序列數(shù)據(jù)x(t)與mn(t)的差值。定義固有模態(tài)函數(shù)hn(t)為
hn(t)=x(t)-mn(t)
(2)
Step6檢查hn(t)是否滿足前面提及的兩個(gè)基本條件。如果是,則定義cn(t)=hn(t)為數(shù)據(jù)序列x(t)的第n個(gè)IMF,并更新原始數(shù)據(jù)x(t)為
x(t)←x(t)-hn(t)
(3)
否則,使用hn(t)替換x(t):x(t)←hn(t)。
Step7若當(dāng)殘差變成單調(diào)函數(shù)、常數(shù)值或只有一個(gè)極值的函數(shù)而不能再提取IMF時(shí),算法終止,輸出n和所有IMF,并計(jì)算rn(t)=x(t)-hn(t);否則,n←n+1,并返回Step2。
由此,原始數(shù)據(jù)序列x(t)分解成n個(gè)分量和一個(gè)殘數(shù)rn(t),即原始數(shù)據(jù)序列x(t)可表示為
(4)
篩選得到的每個(gè)IMF,從高頻到低頻排列,均描述原始時(shí)間序列數(shù)據(jù)中的某種局部特征。
注意力機(jī)制(attention mechanism)是人工智能深度學(xué)習(xí)方法中最常用的算法機(jī)制之一,最初由Bahdanau等[16]提出,用于處理序列到序列問題的模型,它在傳統(tǒng)的“編碼器-解碼器”框架上引入概率分布,獲取各輸入數(shù)據(jù)在輸入序列中的影響度,并且作用到解碼器上獲得輸出數(shù)據(jù)。在注意力機(jī)制的實(shí)現(xiàn)普遍依賴于RNN的背景下,Vaswani等[13]舍棄掉RNN而提出完全基于注意力機(jī)制的Transformer模型,Transformer模型結(jié)構(gòu)見圖1,其中自注意力機(jī)制(self-attention)和多頭注意力機(jī)制(multi-head attention)是該模型的核心組成成分。
圖1 Transformer模型結(jié)構(gòu)
Transformer模型的提出,最初是為了處理序列到序列中的語言翻譯問題,因此模型的輸入和輸出部分具有極高的復(fù)雜度,難以應(yīng)用于時(shí)間序列的預(yù)測。為解決該難題,Zhou等[14]剔除原Transformer模型中專屬語言翻譯的數(shù)據(jù)位置編碼等功能,對原模型中的編碼器和解碼器構(gòu)造進(jìn)行了相應(yīng)的改進(jìn),構(gòu)建能適用于時(shí)間序列的預(yù)測模型,即Transformer模型的變形體——Informer模型,Informer模型結(jié)構(gòu)見圖2。
圖2 Informer模型結(jié)構(gòu)
為了解決自注意力機(jī)制中概率分布具有潛在的稀疏性的問題,在Informer模型中提出概率稀疏性的自注意力機(jī)制(ProbSparse self-attention)[14],即
(5)
在原始的Self-attention中,每個(gè)關(guān)鍵向量都對所有查詢向量進(jìn)行處理,而ProbSparse Self-attention允許每個(gè)關(guān)鍵向量只處理有限個(gè)占主導(dǎo)地位的查詢向量,這大幅減少了對查詢向量的處理數(shù),有效降低了計(jì)算的時(shí)間復(fù)雜度和空間復(fù)雜度。
相對Transformer模型,Informer在編碼器提出自注意力蒸餾機(jī)制,利用最大池化和ELU激活函數(shù)處理兩個(gè)ProbSparse Self-attention層之間的連接(圖2的藍(lán)色梯形部分),自注意力蒸餾機(jī)制的主要作用是在其中去除冗余的數(shù)據(jù),只傳輸注意力層中高影響度的關(guān)鍵信息,進(jìn)一步縮短計(jì)算時(shí)間。
Informer的解碼器由兩個(gè)相同的多頭注意力層組成,其輸入向量為
(6)
針對高鐵日??瓦\(yùn)量的預(yù)測問題,構(gòu)建EMD-Informer組合預(yù)測模型。采用EMD分解高鐵日??瓦\(yùn)量數(shù)據(jù),能夠獲取涵蓋線路或OD內(nèi)在特征及周期特征的子序列,有利于Informer模型更高效地挖掘數(shù)據(jù)間的內(nèi)在聯(lián)系,從而提高訓(xùn)練效率和預(yù)測精度?;谠摻M合預(yù)測模型,提取高鐵客運(yùn)量的歷史數(shù)據(jù)作為預(yù)測輸入數(shù)據(jù),構(gòu)建常用的單步預(yù)測和更貼近高鐵運(yùn)輸生產(chǎn)計(jì)劃的超前預(yù)測的數(shù)據(jù)結(jié)構(gòu),制定模型參數(shù)的選擇參考規(guī)則。
本文所提出的高鐵日??瓦\(yùn)量的EMD-Informer的組合預(yù)測模型,結(jié)構(gòu)框架見圖3。
圖3 EMD-Informer組合模型結(jié)構(gòu)框架
考慮未經(jīng)標(biāo)準(zhǔn)化處理的變量往往會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練失敗,對輸入數(shù)據(jù)集的連續(xù)型變量的數(shù)據(jù)項(xiàng)進(jìn)行最大-最小歸一化處理,可加快網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度下降速度[18]。為加快模型訓(xùn)練效率,首先選擇對數(shù)據(jù)序列進(jìn)行最大-最小歸一化變換處理,即
(7)
式(7)將數(shù)據(jù)歸一化到[0,1]之間,在預(yù)測結(jié)束時(shí)對數(shù)據(jù)進(jìn)行反歸一化處理即可得到最終的預(yù)測值,即
(8)
另外,EMD-Informer模型中選取均方誤差(mean square error,MSE)作為損失函數(shù)Loss,即
(9)
由此,EMD-Informer組合模型的具體計(jì)算步驟,可描述如下:
Step1準(zhǔn)備客運(yùn)數(shù)據(jù)序列集合。
Step2使用經(jīng)驗(yàn)?zāi)B(tài)分解方法EMD對數(shù)據(jù)進(jìn)行序列分解,得到n個(gè)固有模態(tài)分量IMF。
Step3對數(shù)據(jù)集分組,對各分量進(jìn)行歸一化處理后,以前80%數(shù)據(jù)為訓(xùn)練集,后20%數(shù)據(jù)為測試集。
Step4根據(jù)確定好的輸入步長和超參數(shù)組合,輸入訓(xùn)練集數(shù)據(jù)到Informer模型中,模型在編碼器自注意力板塊中學(xué)習(xí)訓(xùn)練各數(shù)據(jù)在序列中的重要度,向前反饋到解碼器中,以損失函數(shù)判定訓(xùn)練程度。測試集輸入到完成訓(xùn)練的Informer模型中,獲得各個(gè)分量的預(yù)測序列,并進(jìn)行反歸一化處理。
Step5將預(yù)測獲得的m個(gè)預(yù)測序列進(jìn)行求和重構(gòu)
高鐵日常客運(yùn)量數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù),模型采用滑動(dòng)時(shí)間窗口的方式獲取輸入數(shù)據(jù)和輸出數(shù)據(jù),進(jìn)行高鐵日??瓦\(yùn)量的單步預(yù)測和超前預(yù)測。
單步預(yù)測是最常見的時(shí)間序列預(yù)測形式,具體為,若算法輸入第1天到第l天的高鐵運(yùn)量數(shù)據(jù)為{x1,x2,…,xl},則輸出結(jié)果為第l+1天的預(yù)測客運(yùn)量yl+1。
在高鐵日常客運(yùn)量預(yù)測的應(yīng)用實(shí)景中,由于客運(yùn)量預(yù)測值是鐵路運(yùn)輸企業(yè)開展未來一段時(shí)間內(nèi)列車運(yùn)輸組織工作的重要支撐,因此僅針對歷史數(shù)據(jù)后一天客流的單步預(yù)測,在實(shí)際應(yīng)用中會(huì)受到一定的限制。為了滿足鐵路運(yùn)輸組織計(jì)劃性的提前量需求,同樣需要提前相應(yīng)時(shí)間段進(jìn)行未來某天客運(yùn)量的預(yù)測,即還需要基于歷史客票數(shù)據(jù)進(jìn)行提前若干天的跨期預(yù)測。
在既有研究中,對未來某時(shí)刻客運(yùn)量的預(yù)測,可以采用滾動(dòng)預(yù)測方法[17],也可以直接采用當(dāng)前真實(shí)的歷史數(shù)據(jù)進(jìn)行超前預(yù)測[18]。考慮滾動(dòng)預(yù)測存在不斷積累和放大預(yù)測誤差的可能性,這里選擇后一種超前預(yù)測方式,即當(dāng)算法輸入第1天到第l天的客運(yùn)數(shù)據(jù){x1,x2,…,xl},則輸出結(jié)果為第l+s+1天的預(yù)測客運(yùn)量yl+s+1。單步預(yù)測實(shí)際可以認(rèn)為是提前量為1d的超前預(yù)測,即此時(shí)s=0。
為了獲得EMD-Informer方法在不同提前天數(shù)下的預(yù)測有效性,在算例的超前預(yù)測中,根據(jù)EMD分量的顯著周期,將分別設(shè)定s=3、7d,即分別提前4、8d進(jìn)行預(yù)測,并對預(yù)測結(jié)果進(jìn)行計(jì)算與分析。
基于深度學(xué)習(xí)的預(yù)測模型在開始預(yù)測前,需要設(shè)置相關(guān)的超參數(shù),合理的超參數(shù)設(shè)置可以使模型得到更好的訓(xùn)練和預(yù)測效果。超參數(shù)設(shè)置方法主要包括人工調(diào)參、網(wǎng)格搜索和優(yōu)化算法調(diào)參3種,其中網(wǎng)格搜索是獲取最優(yōu)超參數(shù)的傳統(tǒng)方法,但其搜索計(jì)算時(shí)間往往較長[19],優(yōu)化算法調(diào)參則更適用于復(fù)雜問題的大空間搜索尋優(yōu)[19]。
本文所提出的預(yù)測模型中,涉及的超參數(shù)主要為輸入步長、訓(xùn)練次數(shù)和批次大小,多頭注意力的頭數(shù)等超參數(shù),其中輸入步長一般和數(shù)據(jù)序列的周期性保持一致。本文后續(xù)將結(jié)合人工調(diào)參和網(wǎng)格搜索兩種方法的優(yōu)點(diǎn),計(jì)算確定適用于高鐵日客運(yùn)量組合預(yù)測的超參數(shù)合理取值范圍,形成高效的超參數(shù)設(shè)置規(guī)則。
為了驗(yàn)證所提出的EMD-Informer模型在不同維度和不同數(shù)據(jù)集中的預(yù)測效果,根據(jù)2016年8月1日至2017年7月31日共365d的京滬高鐵客票數(shù)據(jù),提取了京滬高鐵全線以及包括一個(gè)長區(qū)間(北京南—上海虹橋)和3個(gè)短區(qū)間(北京南—廊坊、南京南—鎮(zhèn)江南、蘇州北—無錫東)的全年日常客運(yùn)量,共9個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集均包含365個(gè)數(shù)據(jù),時(shí)間單位為d。預(yù)測時(shí)將分別選取數(shù)據(jù)集中前10個(gè)月(303d)的數(shù)據(jù)作為訓(xùn)練集,后2個(gè)月(62d)的數(shù)據(jù)作為測試集。京滬高鐵線路示意圖及實(shí)驗(yàn)OD區(qū)間見圖4。
圖4 京滬高鐵線路示意圖及實(shí)驗(yàn)OD區(qū)間
算例的計(jì)算和分析,均基于Windows10操作系統(tǒng)和Python3.7平臺(tái),并以深度學(xué)習(xí)框架Tensorflow和Keras人工神經(jīng)網(wǎng)絡(luò)庫作為運(yùn)行開發(fā)環(huán)境。
為評(píng)價(jià)預(yù)測模型性能,通常采用平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE),其值分別為
同時(shí),為進(jìn)一步驗(yàn)證EMD-Informer預(yù)測模型的性能,還將選擇單一Informer模型、EMD-LSTM組合模型、單一LSTM神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)、SARIMA等其他5種預(yù)測模型進(jìn)行同步預(yù)測,并進(jìn)行對比分析。
以京滬高鐵全線客運(yùn)量為研究對象,使用EMD分解方法,可以得到高鐵日客流量的模式分解結(jié)果,見圖5。
圖5 京滬高鐵全線客運(yùn)量EMD分解結(jié)果
由圖5可知,原始的京滬高鐵日??瓦\(yùn)量經(jīng)過EMD被分解成7個(gè)分量(IMF1~I(xiàn)MF7),觀察其特征可發(fā)現(xiàn):相對其他EMD分量,IMF1~I(xiàn)MF3的平均周期要更為明顯,分別約為3、7、14d,依次體現(xiàn)了高鐵日常旅客運(yùn)輸量的整體趨勢、周波動(dòng)趨勢和半月波動(dòng)趨勢。另外,IMF7為殘差序列,描述了原始客運(yùn)量數(shù)據(jù)序列的總體趨勢。
預(yù)測結(jié)果的精度和穩(wěn)定性,是衡量預(yù)測方法性能的重要指標(biāo)。而預(yù)測模型中超參數(shù)的具體設(shè)置,都會(huì)對模型的預(yù)測精度會(huì)造成一定的影響[20]。對于所提出的高鐵日客運(yùn)量EMD-Informer預(yù)測模型,需要重點(diǎn)確定輸入步長、訓(xùn)練次數(shù)、批次大小和多頭注意力的頭數(shù)等參數(shù)的優(yōu)化設(shè)置,本小節(jié)結(jié)合高鐵日客運(yùn)量特征和Informer的模型特點(diǎn),給出所提出組合模型的超參數(shù)設(shè)置規(guī)則。
3.2.1 輸入步長
根據(jù)高鐵日常客運(yùn)量數(shù)據(jù)的基本特征,其整體趨勢和周波動(dòng)趨勢最主要的客運(yùn)量數(shù)據(jù)特征,在短期預(yù)測中可將模型的輸入步長選擇范圍設(shè)置為4~14d,有助于模型在較完整的數(shù)據(jù)輸入中挖掘其周期特征。在實(shí)驗(yàn)中針對每個(gè)步長值,都在將其他超參數(shù)設(shè)置中等水平的基礎(chǔ)上,獨(dú)立進(jìn)行11次實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)預(yù)測結(jié)果進(jìn)行誤差分析,見表1。
表1 不同輸入步長實(shí)驗(yàn)結(jié)果
不同步長設(shè)置下,每次實(shí)驗(yàn)的平均絕對百分比誤差MAPE箱形圖見圖6,其上下短橫線分別表示最大值和最小值,箱體表示75%的數(shù)據(jù)集中于此,箱體中的點(diǎn)表示11次實(shí)驗(yàn)的平均誤差。
圖6 不同輸入步長實(shí)驗(yàn)誤差箱型圖
分析以上實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn):隨著輸入步長的增加,預(yù)測誤差也呈現(xiàn)增大的趨勢;從平均誤差的角度看,當(dāng)輸入步長為7、13、14 d時(shí),其誤差相對較小,說明完整周期輸入有助于提高模型精度;從訓(xùn)練模型的計(jì)算時(shí)間上看,輸入步長的增加會(huì)帶來訓(xùn)練時(shí)間的增加,但其增加幅度有限;MAPE方差體現(xiàn)了多次預(yù)測實(shí)驗(yàn)的穩(wěn)定性,其值越小表示越穩(wěn)定,當(dāng)輸入步長為4、8、9 d時(shí),MAPE方差最小;從穩(wěn)定性來看,通過箱型圖可以發(fā)現(xiàn)輸入步長為7 d時(shí),多次實(shí)驗(yàn)的預(yù)測誤差波動(dòng)是最小的,可以認(rèn)為其具有最優(yōu)的穩(wěn)定性。
總結(jié)地看,當(dāng)輸入步長為7 d時(shí),模型的預(yù)測誤差最小,而MAPE方差屬于中等偏優(yōu)水平,穩(wěn)定性也相對處于較優(yōu)水平。該輸入步長與高鐵日客運(yùn)量的周波動(dòng)趨勢相符。因此,本文將預(yù)測方法的輸入步長參數(shù)設(shè)置為7 d。
3.2.2 訓(xùn)練次數(shù)和批次大小
訓(xùn)練次數(shù)和批次大小會(huì)直接影響模型預(yù)測的計(jì)算效率。在充分的預(yù)實(shí)驗(yàn)下,結(jié)合Informer模型較強(qiáng)的學(xué)習(xí)效率(在幾乎所有數(shù)據(jù)集中,訓(xùn)練次數(shù)在8次后損失函數(shù)值基本穩(wěn)定),考慮將模型的訓(xùn)練次數(shù)范圍設(shè)為4~10次,將批次范圍設(shè)為1~10,并通過實(shí)驗(yàn)觀察其不同組合下的規(guī)律,為超參數(shù)設(shè)置規(guī)則提供實(shí)驗(yàn)支撐。根據(jù)前面的實(shí)驗(yàn),設(shè)定輸入步長為7 d,不同的訓(xùn)練次數(shù)和批次大小分別進(jìn)行了10次實(shí)驗(yàn),收集其實(shí)驗(yàn)數(shù)據(jù)取誤差平均,實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 不同訓(xùn)練次數(shù)和批次大小下實(shí)驗(yàn)誤差
根據(jù)以上實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn):當(dāng)批次為1~5時(shí),模型的預(yù)測誤差,隨訓(xùn)練次數(shù)的增加呈現(xiàn)無規(guī)律波動(dòng)的現(xiàn)象,但是總體處于較大水平;當(dāng)批次設(shè)置為6~10時(shí),模型的預(yù)測誤差隨訓(xùn)練次數(shù)的增加呈現(xiàn)先減小后波動(dòng)的趨勢,且相較批次為1~5時(shí)的誤差,此時(shí)的預(yù)測誤差得到極其明顯的改善。
為了進(jìn)一步確定訓(xùn)練次數(shù)和批次大小,可結(jié)合批次在6~10時(shí)的訓(xùn)練時(shí)間進(jìn)行綜合考慮,相關(guān)情況如圖8所示。
圖8 不同訓(xùn)練次數(shù)下批次在6~10時(shí)的實(shí)驗(yàn)誤差及時(shí)間
由圖8可知:模型的訓(xùn)練時(shí)間隨著批次的增加而減小,隨著訓(xùn)練次數(shù)的增加而增加。在訓(xùn)練批次和訓(xùn)練次數(shù)分別為(10,8)、(10,9)和(6,9)時(shí),分別得到相對最低的三組預(yù)測誤差,分別為2.25%、2.26%和2.27%,但6個(gè)訓(xùn)練批次所需的訓(xùn)練時(shí)間,則遠(yuǎn)高于10個(gè)訓(xùn)練批次。
根據(jù)以上分析,為了得到較高的預(yù)測效率,在預(yù)測結(jié)果誤差相差不大的情況下,本文選擇設(shè)置訓(xùn)練次數(shù)為8、批次大小為10。
據(jù)此得到結(jié)論和超參數(shù)設(shè)置建議:一定批次下,在訓(xùn)練次數(shù)為8次或9次時(shí),可以得到最佳預(yù)測精度;批次的選取范圍可以鎖定在6~10次,根據(jù)效率選取最佳的超參數(shù)組合。
3.2.3 多頭注意力機(jī)制頭數(shù)
針對多頭注意力機(jī)制,基于已經(jīng)設(shè)置的超參數(shù),分別設(shè)置頭數(shù)為1~10時(shí)進(jìn)行計(jì)算分析,具體預(yù)測結(jié)果見表2。
表2 不同注意力機(jī)制頭數(shù)下實(shí)驗(yàn)誤差
由表2可知,當(dāng)注意力的頭數(shù)為8時(shí),預(yù)測結(jié)果的誤差最小,因此可將多頭注意力機(jī)制的頭數(shù)確定為8頭。
由此,根據(jù)上述的計(jì)算分析,EMD-Informer模型的全部超參數(shù)設(shè)置見表3。
表3 EMD-Informer預(yù)測模型參數(shù)設(shè)置
本節(jié)利用數(shù)據(jù)集中的后2個(gè)月(62 d)數(shù)據(jù)進(jìn)行測試分析,同時(shí)與其他5種預(yù)測模型的預(yù)測結(jié)果進(jìn)行比較分析。其他相關(guān)預(yù)測模型的參數(shù)設(shè)置如下:①單一Informer模型,參數(shù)設(shè)置和EMD-Informer組合預(yù)測模型相同;②EMD-LSTM組合模型,隱藏層節(jié)點(diǎn)數(shù)為64,訓(xùn)練次數(shù)為100次,訓(xùn)練批次為2,其他參數(shù)設(shè)置與①相同;③單一LSTM神經(jīng)網(wǎng)絡(luò),其他參數(shù)設(shè)置與②相同;④BP神經(jīng)網(wǎng)絡(luò),激活函數(shù)為Sigmoid函數(shù),其他參數(shù)設(shè)置與③相同。
3.3.1 單步預(yù)測結(jié)果分析
針對京滬高鐵全線客運(yùn)量的單步預(yù)測,6種模型的客運(yùn)量預(yù)測結(jié)果與真實(shí)客運(yùn)量的對比分析見圖9,不同預(yù)測模型的預(yù)測結(jié)果誤差見表4。
表4 單步預(yù)測誤差及多模型對比
圖9 京滬高鐵全線客運(yùn)量單步預(yù)測結(jié)果及多模型對比
由圖9、表4可知:相對其他5種預(yù)測模型,EMD-Informer模型的預(yù)測值與真實(shí)值的誤差最小。以京滬高鐵全線客運(yùn)量為例,EMD-Informer預(yù)測結(jié)果的誤差僅為2.25%,與單一Informer、LSTM、EMD-LSTM組合模型、BP神經(jīng)網(wǎng)絡(luò)和SARIMA模型相比,其預(yù)測精度分別增加了2.35%、1.92%、3.41%、3.91%和10.63%。而在選取的OD流量預(yù)測中,EMD-Informer的誤差幾乎都是最小的,僅有上海虹橋到北京南的預(yù)測誤差高于EMD-LSTM模型,但相差極小,僅為0.28%。
以北京南—廊坊為例,針對計(jì)算得到的OD對客運(yùn)量的預(yù)測值,與真實(shí)值進(jìn)行對比分析,具體情況見圖10。
圖10 北京南—廊坊客運(yùn)量的預(yù)測結(jié)果及多模型對比
以北京南—廊坊為例,由圖10可知,EMD-Informer方法和其他對比模型相比,具有較好的預(yù)測精度。進(jìn)一步地比較EMD-Informer和EMD-LSTM的預(yù)測結(jié)果,可以發(fā)現(xiàn)EMD-Informer方法在峰值和谷值中具有更好的預(yù)測效果。由此可見,在單步預(yù)測中,相對既有方法,EMD-Informer方法具有相對更優(yōu)的預(yù)測精度。
3.3.2 超前預(yù)測結(jié)果分析
在分別為4、8 d的提前期設(shè)定下,使用前面提及的6種預(yù)測模型,對京滬高鐵全線客運(yùn)量和選定OD對客運(yùn)量進(jìn)行超前預(yù)測,結(jié)果見表5。
表5 超前預(yù)測誤差對比分析
從提前時(shí)間看,當(dāng)提前時(shí)間為4、8 d時(shí),相對于單一Informer模型等其他5種預(yù)測模型,EMD-Informer超前預(yù)測結(jié)果的精度明顯一直保持較高水平;但是隨著提前天數(shù)的增加,所有預(yù)測模型的預(yù)測結(jié)果精度普遍都會(huì)隨之降低。從預(yù)測對象上看,京滬高鐵全線客運(yùn)量相對其他OD對客運(yùn)量,組織范圍較大,屬于大顆粒度的預(yù)測對象。一般而言,預(yù)測對象的顆粒度越大,預(yù)測的準(zhǔn)確率就越高。這也是在預(yù)測結(jié)果中,京滬高鐵全線客運(yùn)量預(yù)測精度一定程度高于其他OD對日??瓦\(yùn)量預(yù)測的原因。
從以上分析可以發(fā)現(xiàn),針對不同提前天數(shù)的超前預(yù)測,相對其他預(yù)測模型,EMD-Informer的預(yù)測進(jìn)度普遍更優(yōu),這就說明本文提出的EMD-Informer預(yù)測模型,對高鐵日??瓦\(yùn)量的超前預(yù)測同樣也具有較好的應(yīng)用效果。
本文根據(jù)高鐵日??瓦\(yùn)量數(shù)據(jù)的內(nèi)生特征,將完全基于注意力機(jī)制的新穎模型——Informer引入高鐵日常客運(yùn)量預(yù)測問題中,并提出在Informer預(yù)測前對數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)的思路,構(gòu)建了高速鐵路日??瓦\(yùn)量的EMD-Informer組合預(yù)測方法。EMD分解能得到顯示其不同周期特征的內(nèi)生分量序列,各數(shù)據(jù)集分解得到的子序列也蘊(yùn)含了對應(yīng)的線路和OD特征。基于注意力機(jī)制的Informer模型能挖掘線路客運(yùn)量的變化特征并且不斷訓(xùn)練更新各數(shù)據(jù)在各模態(tài)分量中的影響度,繼而分別對各模態(tài)分量進(jìn)行預(yù)測和重構(gòu),從而得到高鐵日??瓦\(yùn)量的最終預(yù)測值。
基于京滬高鐵全年365 d的歷史客票數(shù)據(jù),提取了京滬高鐵全線和4個(gè)OD對的日??瓦\(yùn)量,在大量預(yù)實(shí)驗(yàn)的基礎(chǔ)下制定了模型超參數(shù)的設(shè)置規(guī)則,利用該規(guī)則進(jìn)行了多組計(jì)算分析實(shí)驗(yàn),在綜合考慮預(yù)測精度和效率下確定了模型最優(yōu)超參數(shù)組合,并在此基礎(chǔ)上進(jìn)行了高速鐵路日??瓦\(yùn)量的單步預(yù)測和超前預(yù)測的預(yù)測實(shí)驗(yàn)和計(jì)算分析。實(shí)驗(yàn)結(jié)果表明:在單步運(yùn)量預(yù)測中,本方法的預(yù)測平均絕對百分比誤差MAPE分別低至2.25%和4.69%,明顯優(yōu)于其他5種預(yù)測模型。在超前預(yù)測中,MAPE分別低至3.54%和6.02%,雖相比單步預(yù)測而言誤差精度有所增加,但仍明顯優(yōu)于其他5種模型。說明本組合預(yù)測模型在高鐵日??瓦\(yùn)量預(yù)測問題中有一定的優(yōu)越性。