施雪蓉 王寵惠 劉東杰 張瀟 張博
(甘肅農(nóng)業(yè)大學(xué) 甘肅省蘭州市 730070)
城市軌道交通技術(shù)的飛速發(fā)展給人口基數(shù)不斷增大的城市提供了一個較為合理的出行方案。但也存在一些問題:一方面,由于需求與供給能力的不均衡性,在城市軌道交通網(wǎng)絡(luò)上常會造成難以預(yù)見的客流擁塞狀況,給地鐵的安全運營帶來極大的挑戰(zhàn);另一方面,城市交通擁堵問題逐漸成為制約經(jīng)濟發(fā)展的重要影響因子,因此以地鐵為代表的城市軌道交通系統(tǒng)得到了極大的發(fā)展空間。它可以為各個站點提供合理依據(jù)來分配人力物力,從而便捷市民的出行,或者為應(yīng)對突發(fā)事件提供有效保障。例如今年年初突發(fā)的疫情事件,我們就可以通過分析預(yù)測得知某一站在某一時段內(nèi)的人流量,從而設(shè)立相對合理的防疫點和防疫工作人員。預(yù)測客流可以為未來軌道交通和城市的規(guī)劃建設(shè)提供可行的數(shù)據(jù)支持。
長期和短期記憶網(wǎng)絡(luò)(通常稱為" LSTM")是存在長期學(xué)習(xí)依賴關(guān)系的RNN 的一種,是為了解決長期依賴問題而被提出的。LSTM 的重中之重就是神經(jīng)元的所處的狀態(tài),上水平線包含在整個結(jié)構(gòu)的內(nèi)部。它的狀態(tài)類似于一個運輸帶。其線性作用非常小且運用于整個結(jié)構(gòu)。運輸帶上的數(shù)據(jù)易于傳播且狀態(tài)不會隨之變化。如圖1所示。
Sigmod 層輸出0~1 之間的數(shù)字,描述了一個神經(jīng)元有多少信息能夠通過。輸出"0":"所有不能通過";輸出"1":"全部允許通過"。一個深度模型有三個用于保護和控制神經(jīng)元狀態(tài)的門限。
為了控制存儲單元狀態(tài)c 中的信息量設(shè)計了兩個門:遺忘門(forget gate)與輸入門(input gate)。為了便于演示,許多文檔都添加了一個名為"候選門"的門。
本文以天津市地鐵9 號線塘沽站客流為例進行客流預(yù)測分析
首先,原始的AFC(自動票價收集系統(tǒng))乘客流量數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理后轉(zhuǎn)換為一維時間序列,可以通過BPNN,LSTM 和RF神經(jīng)網(wǎng)絡(luò)直接進行訓(xùn)練。然后從時間維度分析天津地鐵客流數(shù)據(jù),以了解天津地鐵客流的分布特征。然后構(gòu)建三種神經(jīng)網(wǎng)絡(luò):BPNN(反向傳播神經(jīng)網(wǎng)絡(luò)),LSTM(長期短期記憶)和RF(隨機森林)來分析和調(diào)整數(shù)據(jù),最后將三種模型比較分析,選出相對優(yōu)于其他模型的LSTM 預(yù)測模型,基于網(wǎng)格搜索算法確定LSTM 模型的最優(yōu)超參數(shù)組合。最后以塘沽站客流為例,利用LSTM 模型對客流數(shù)據(jù)進行預(yù)測,并對預(yù)測結(jié)果進行分析。
表1:AFC 數(shù)據(jù)字段注釋
表2:LSTM 模型超參數(shù)取值
表3:各項指數(shù)具體數(shù)值
圖1:LSTM 核心構(gòu)造
2.1.1 客流量數(shù)據(jù)預(yù)處理
圖2:LSTM 模型結(jié)構(gòu)圖
圖3:BPNN 預(yù)測周五進站
圖4:BPNN 預(yù)測周五出站
圖5:BPNN 預(yù)測周天進站
2.1.1.1 模型原理(以LSTM 為例)
圖6:BPNN 預(yù)測周天出站
圖7:LSTM 預(yù)測周五進站
圖8:LSTM 預(yù)測周五出站
圖9:LSTM 預(yù)測周天進站
該模型擅長處理時間序列數(shù)據(jù),因此在數(shù)據(jù)預(yù)處理之后,將AFC 數(shù)據(jù)建模為一維時間序列數(shù)據(jù)。常見的時間序列預(yù)測方案主要包括單步預(yù)測,多步預(yù)測和滾動預(yù)測:單步預(yù)測,使用前n 個歷史數(shù)據(jù){x1,...} Xn-1} xn}來預(yù)測下一個數(shù)據(jù) Xn +1;多步預(yù)測,在預(yù)測m 個數(shù)據(jù){Xn 十l,...,xn +1}之后,使用前n 個歷史數(shù)據(jù){x}}...}J(n_}} Xn};滾動預(yù)測,下一個將Xn+1,隨著新的歷史數(shù)據(jù)繼續(xù)用于預(yù)測;從預(yù)測效果的角度來看,單步預(yù)測的準確性要高于多步預(yù)測和滾動預(yù)測的準確性。地鐵客流的單步預(yù)測方法為了進行預(yù)測,將預(yù)測步驟n 用作模型的超參數(shù)。本節(jié)采用網(wǎng)格搜索算法來選擇最優(yōu)的超參數(shù)參數(shù)組合。
2.1.1.2 AFC 數(shù)據(jù)預(yù)處理
AFC 數(shù)據(jù)部分字段注釋如表1所示 AFC 數(shù)據(jù)字段注釋,分別包含了進站和出站的站名、線路、時間等字段:
原始的AFC 數(shù)據(jù)是天津地鐵各個線路在從星期一至星期六選擇的任意一天的全日客流數(shù)據(jù)。過濾從06:00:00 到24:00:00 的每日客流數(shù)據(jù)作為訓(xùn)練集。預(yù)測客流時,必須在特定時間間隔內(nèi)指定客流數(shù)據(jù)。此部分以五分鐘為間隔對客流量計數(shù)和預(yù)測。由于在同一天的不同時間,客流值相差很大,因此需要對客流數(shù)據(jù)進行歸一化,將客流數(shù)據(jù)映射到規(guī)定范圍內(nèi)處理,再用于模型訓(xùn)練??紤]到地鐵的實際運行,按站點比按線路預(yù)測客流更具研究性。因此,本節(jié)以天津地鐵9 號線塘沽站的客流數(shù)據(jù)為例,通過模型進行訓(xùn)練和預(yù)測。原始AFC 數(shù)據(jù)不能直接用于訓(xùn)練BPNN,LSTM 和RF 模型。數(shù)據(jù)必須先進行預(yù)處理,然后才能用于模型訓(xùn)練。
圖10:LSTM 預(yù)測周天出站
圖11:RF 預(yù)測周五進站
圖12:RF 預(yù)測周五出站
圖13:RF 預(yù)測周天進站
圖14:RF 預(yù)測周天出站
為了將原始AFC 數(shù)據(jù)建模為一維時間序列數(shù)據(jù),BPNN,LSTM 和RF 模型用于訓(xùn)練和預(yù)測。需要經(jīng)過以下數(shù)據(jù)預(yù)處理:
(1)過濾06:00:00 至24:00:00 的客流記錄,為了使開始和結(jié)束的客流時間與地鐵的實際運營時間保持一致,根據(jù)原始AFC 數(shù)據(jù)中的OD_Entry_Tm(入站時間)字段,從06:00:00 統(tǒng)一過濾AFC客流到24:00:00 數(shù)據(jù)。
(2)過濾9 號線塘沽站客流數(shù)據(jù),根據(jù)原始數(shù)據(jù)中的ODEntry-Line-ID 和OD-Entry-Station-ID(傳入站名ID)字段,過濾出9號線客流數(shù)據(jù),并計算出特定線路的客流數(shù)據(jù)。
(3)每隔五分鐘計算一次客流數(shù)量。五分鐘的間隔不僅可以確保模型預(yù)測的準確性,還可以體現(xiàn)出客流的變化。為了便于統(tǒng)計客流,將原始AFC 數(shù)據(jù)中的字符串時間轉(zhuǎn)換為整數(shù)時間,以分鐘為單位。
(4)歸一化原始數(shù)據(jù)。通常需要對時間序列數(shù)據(jù)的預(yù)測進行歸一化。將客流數(shù)據(jù)歸一化到相同范圍內(nèi)可以使模型盡快收斂,并提高預(yù)測效果。本節(jié)采用最小最大歸一化方法,將天津地鐵客流量原始數(shù)據(jù)歸一化到0 到1 范圍內(nèi)。式中X 為樣本值,Xmin 為所有樣本的最小值,Xmax 為所有樣本的最大值:
(5)劃分訓(xùn)練集和測試集。訓(xùn)練集用于模型訓(xùn)練階段,以探索數(shù)據(jù)之間的潛在關(guān)系;測試集用于測試階段,以評估模型的有效性。測試集和訓(xùn)練集彼此獨立,需要分開。
2.1.2 天津地鐵客流量數(shù)據(jù)分析
通過對原始AFC 數(shù)據(jù)的預(yù)處理,對天津地鐵客流數(shù)據(jù)進行詳細分析,以了解天津地鐵客流在時間維度上的分布特征,為后續(xù)的模型訓(xùn)練奠定基礎(chǔ)??紤]到工作日和非工作日之間的客流變化存在一定偏差,因此將數(shù)據(jù)集分為兩部分(即周一至周四和周一至周六)進行研究。本節(jié)將首先對它們的客流分布進行分析,并觀察其分布差異。
周一到周四與周一到周六客流量分布對比:以5 分鐘為時間間隔,整理得出天津地鐵9 號線塘沽站在周一到周四和周一到周六的客流分布情況,然后分別就進出站客流分布規(guī)律進行分析。
由圖2-1、圖2-2、圖2-3、圖2-4 可以看出,天津地鐵9 號線塘沽站客流量一天之內(nèi)存在較為明顯的早晚高峰,整體存在周期性變化。
通過應(yīng)用大數(shù)據(jù)分析技術(shù)對抽油機懸點載荷進行了研究,依據(jù)現(xiàn)場實際生產(chǎn)數(shù)據(jù)確定出了抽油機最優(yōu)懸點載荷利用率為67%,基于最優(yōu)懸點載荷利用率可以進行適當(dāng)?shù)膮?shù)調(diào)整及抽油機選型,從而實現(xiàn)抽油機低能耗高效運行,延長收油機使用年限并現(xiàn)場調(diào)平衡50井次,調(diào)沖程、沖速62井次,優(yōu)化設(shè)計標柱197次,年節(jié)電26.55×104kWh。
2.2.1 以LSTM 模型為例搭建
LSTM 模型建立過程:
在構(gòu)建過程中,LSTM 模型通常包含4 層結(jié)構(gòu):
(1)輸入層;
(2)LSTM 層;
(3)全連接層;
(4)輸出層。
在建立LSTM 模型時,要指定損失函數(shù)。
地鐵客流預(yù)測是一個回歸問題,對比絕對值損失函數(shù)和平方損失函數(shù),發(fā)現(xiàn)后者會放大真實值和估計值之間的距離,并懲罰較大的偏差誤差。因此,在LSTM 模型的構(gòu)建中選擇平方損失函數(shù)。
由于LSTM 深度神經(jīng)網(wǎng)絡(luò)模型更復(fù)雜且具有許多參數(shù),因此很容易在訓(xùn)練過程中過度擬合。如圖2所示。
2.2.2 LSTM 模型基于網(wǎng)格搜索算法調(diào)參
在本文中,歸一化數(shù)據(jù)的MAE 指數(shù)用于評估模型在網(wǎng)格搜索中的性能,并比較LSTM 和傳統(tǒng)機器學(xué)習(xí)模型的效果。如表2所示。
上一部分的分析表明,天津地鐵的客流數(shù)據(jù)在周一至周四以及周一至周六的分布上有很大差異。因此,使用網(wǎng)格搜索算法來找到模型的最佳超參數(shù)組合。將平均絕對誤差用作評估指標,并且按照從小到大的順序排列誤差。從網(wǎng)格搜索結(jié)果中,我們可以看到,從周一到周四,當(dāng)訓(xùn)練次數(shù)、批處理數(shù)量、LSTM 層中神經(jīng)元的數(shù)量以及步長為24、8 和4 時,LSTM 深度神經(jīng)網(wǎng)絡(luò)的性能最佳。基于這四個最佳超參數(shù)值,將構(gòu)建一個LSTM 模型來預(yù)測周一至周四的客流數(shù)據(jù)。
結(jié)果如圖3、圖4、圖5、圖6所示。
結(jié)果如圖7、圖8、圖9、圖10所示。
結(jié)果如圖11、圖12、圖13、圖14所示。
模型訓(xùn)練初期采用兩個數(shù)據(jù)集(即周一到周四的數(shù)據(jù)預(yù)測周五的客流量和周一到周六的數(shù)據(jù)預(yù)測周天數(shù)據(jù))放入模型進行預(yù)測比對,因為模型具有一定學(xué)習(xí)性,可以忽略隨機因素的影響,因此選擇周一到周六的數(shù)據(jù)作為最終訓(xùn)練數(shù)據(jù)集,得出模型規(guī)律以便于對將來的數(shù)據(jù)做出預(yù)測。
上述三種模型均用到如下指標:MAE、RMSE、MAPE、R2。以周天出站的預(yù)測結(jié)果為例,各項指標具體數(shù)值如表3所示。
對于MAE 指標來說,數(shù)值大小與預(yù)測值的誤差成正比;RMSE 是指均方根誤差,它用來衡量觀測值和真實值之間的偏差,數(shù)值大小與偏差值成正比;MAPE 是指平均絕對百分比誤差,數(shù)值大小與預(yù)測值的誤差成正比,當(dāng)預(yù)測值與真實值完全吻合時它的值為0,即為完美模型;R2為擬合優(yōu)度,最大值為1,值越接近1 說明擬合程度越好。
由數(shù)據(jù)模型預(yù)測圖和和項指標精確數(shù)值進行對比分析,得出結(jié)論:利用網(wǎng)格搜索算法查找模型的最優(yōu)超參數(shù)組合確定LSTM 為最優(yōu)訓(xùn)練模型。
本研究首先進行數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)轉(zhuǎn)換為一維時間序列數(shù)據(jù),用于對BPNN、LSTM、RF 模型進行訓(xùn)練。然后從時間維度上對地鐵客流量數(shù)據(jù)進行分析,主要研究了周一到周四和周一到周六的客流量分布差異和周期性變化規(guī)律根據(jù)訓(xùn)練數(shù)據(jù)結(jié)果以及數(shù)據(jù)的學(xué)習(xí)性確定周一到周六的客流量為最佳訓(xùn)練數(shù)據(jù)。進而搭建BPNN、LSTM、RF 深度神經(jīng)網(wǎng)絡(luò)模型,利用網(wǎng)格搜索算法查找模型的最優(yōu)超參數(shù)組合確定LSTM 為最優(yōu)訓(xùn)練模型。最后以天津地鐵9 號線塘沽站的進站客流為例,使用LSTM 深度神經(jīng)網(wǎng)絡(luò)模型對地鐵客流進行預(yù)測,并對預(yù)測結(jié)果進行分析。由預(yù)測數(shù)據(jù)可知,直觀分析得到LSTM 模型在周一到周六上,有較高的預(yù)測精度。由平均絕對誤差隨著訓(xùn)練迭代次數(shù)增加的變化趨勢可知,LSTM 模型能更快速學(xué)習(xí)到在周一到周六時,客流量數(shù)據(jù)的變化規(guī)律。由預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的對比可以得到,LSTM 模型在預(yù)測周一到周六的客流數(shù)據(jù)時,預(yù)測曲線更加平滑。
隨著我國近幾年現(xiàn)代化建設(shè)的不斷發(fā)展,信息化和智能技術(shù)作用的領(lǐng)域越來越廣泛,而城市軌道交通更是衡量城市經(jīng)濟發(fā)展的重要指標。它的發(fā)展更應(yīng)該借助于這些新興技術(shù)(例如大數(shù)據(jù)技術(shù)、云計算、物聯(lián)網(wǎng)等)來完善自己的體系架構(gòu),謀求全方位高水平建設(shè)。在“軌道交通+數(shù)字經(jīng)濟”引領(lǐng)數(shù)字科技的新風(fēng)向下,城市軌道發(fā)展、“云票務(wù)”、大力推進地下隱蔽資源開發(fā)等項目?!薄熬氉鳌钡牡罔F商業(yè)資源、地下“黃金走廊”、“地上”、“云經(jīng)濟”為城市經(jīng)濟發(fā)展注入了新的血液。