謝 俏 葉紅霞
(廣州地鐵集團有限公司, 510330, 廣州//第一作者, 工程師)
隨著城市軌道交通網(wǎng)絡(luò)格局的逐步形成,網(wǎng)絡(luò)客流規(guī)模持續(xù)攀升,運營壓力日益凸顯。運營管理部門需要提前掌握節(jié)假日期間客流量的變化趨勢,以制定和實施合適的運營管理及客流組織計劃[1]。因此,需要利用數(shù)據(jù)挖掘技術(shù),深入剖析節(jié)假日客流特征規(guī)律,精準(zhǔn)地預(yù)測節(jié)假日期間網(wǎng)絡(luò)客流分布狀態(tài)和趨勢。
常用的進出站客流量預(yù)測方法分為線性預(yù)測方法和非線性預(yù)測方法。線性預(yù)測方法包括時間序列模型[2-3]、卡爾曼濾波模型[4-5]等,由于它們的理論基礎(chǔ)是線性估計模型,當(dāng)客流呈現(xiàn)非線性、隨機性等特征時,模型的預(yù)測性能逐漸變差。
非線性預(yù)測方法包括非參數(shù)回歸[6-8]、神經(jīng)網(wǎng)絡(luò)模型[9-12]、支持向量機[13-14]等,非線性預(yù)測方法理論上更加符合客流非線性、不平穩(wěn)等復(fù)雜特征的場景。非參數(shù)回歸主要依賴歷史數(shù)據(jù)描述因變量和自變量之間的關(guān)系,尋找歷史數(shù)據(jù)與當(dāng)前點相似的“近鄰”,把當(dāng)前的狀態(tài)描述為一個過去某種狀態(tài)的“近鄰狀態(tài)”,并用這些近鄰預(yù)測下一時刻值,模型對歷史數(shù)據(jù)的要求較高,且需要大量歷史數(shù)據(jù)以從中提取有用信息。神經(jīng)網(wǎng)絡(luò)模型存在局部最優(yōu)、過擬合等弊端,且對樣本量要求高,樣本較少時,預(yù)測性能會大大降低。支持向量機與神經(jīng)網(wǎng)絡(luò)相比,其突出優(yōu)點是依據(jù)結(jié)構(gòu)風(fēng)險最小化原則進行學(xué)習(xí),可以在預(yù)測精度和推廣能力之間尋找折中點,再加上核函數(shù)的巧妙利用,較好地解決了小樣本、非線性、維數(shù)災(zāi)難、過學(xué)習(xí)及局部最優(yōu)等問題。
節(jié)假日期間地鐵的進出站客流是一種不穩(wěn)定的并隱含著大量動態(tài)特征的非線性、非平穩(wěn)時間序列,客流規(guī)律較為復(fù)雜,不易捕捉其特征,且存在數(shù)據(jù)量樣本較少的情況??紤]上述節(jié)假日客流特征,本文選取支持向量機模型對節(jié)假日期間進出站客流進行預(yù)測。
為對進出站客流進行較好的預(yù)測,需要充分挖掘進出站客流的規(guī)律,下文以廣州地鐵2014—2017年國慶假期期間各站點的進出站客流量的歷史數(shù)據(jù)進行特征分析。
考慮2014—2016年國慶假期的放假安排相同,假期均為10月1—7日共7天時間,而2017年國慶假期為10月1—8日共8天時間(10月4日為中秋節(jié)),為了合理統(tǒng)計國慶假期的客流規(guī)律,對2017年的國慶假期進行壓縮,將國慶假期的第四天和第五天客流量的平均值作為第四天的,第六天、第七天、第八天的客流量分別作為第五天、第六天和第七天的,通過該方法建立了2014—2017年國慶假期客流數(shù)據(jù)的歷史數(shù)據(jù)庫。
通過分析2014—2017年國慶假期各車站的進出站客流量數(shù)據(jù)可知,節(jié)日期間各站每天的進出站客流量與節(jié)日期間的平均進出站客流量的比例是基本穩(wěn)定的。以西村站為例,如圖1所示,西村站2014—2017年國慶假期中平均進出站客流量與每天進出站量的比例較為穩(wěn)定。
a) 進站客流量比例
b) 出站客流量比例
圖1 西村站國慶假期每日進出站客流量與節(jié)日期間平均進出站客流量的比例
此外,按車站分類建模有利于將規(guī)律相近的車站放在一起,便于機器學(xué)習(xí)規(guī)律,從而提高預(yù)測精度。節(jié)假日期間的出行者以休閑娛樂、購物、旅游等為出行目的居多,因此商業(yè)區(qū)、景點區(qū)等附近的地鐵站的進出站客流量驟增,而辦公區(qū)等附近的地鐵站的進出站客流量則減少。同時市區(qū)車站、郊區(qū)車站的進出站客流量也呈現(xiàn)出不同的特征?;诖?,在預(yù)測過程中將地鐵車站分為商業(yè)或景點類、市區(qū)站其他類、郊區(qū)站其他類。
根據(jù)上一節(jié)對國慶假期期間車站進出站客流變化規(guī)律特征的研究,發(fā)現(xiàn)節(jié)假日期間每天進出站客流量與平均進出站客流量的比例較為穩(wěn)定。因此,對于節(jié)假日期間的客流預(yù)測,本文構(gòu)建節(jié)假日期間平均進出站客流量預(yù)測模型??紤]到節(jié)假日期間乘客出行較為自由,無論是出行時間分布,還是出行目的都表現(xiàn)出與平常日不同的特征,因此,建立節(jié)假日期間平均進出站客流量預(yù)測模型時,不僅要考慮歷史節(jié)假日期間客流量均值與歷史平常日進出站客流量之間的關(guān)系,而且要考慮歷年節(jié)假日期間平均進出站客流量的特征?;诖耍P偷妮斎脒x取為:① 歷史某一年節(jié)假日前的平常日進出站客流量(包括節(jié)假日前2個月的工作日、周六周日日均進出站客流量);② 歷史某一年節(jié)假日期間的平均進出站客流量;③ 歷史次年節(jié)假日前的平常日進出站客流量(括節(jié)假日前2個月的工作日、周六周日日均進出站客流量)。模型的輸出選取為:歷史次年節(jié)假日期間的平均進出站客流量。
在預(yù)測過程中將分別針對每類站點建立進出站客流量預(yù)測模型,預(yù)測流程如下:
Step 1: 準(zhǔn)備模型的輸入、輸出歷史數(shù)據(jù)。
Step 3:選取最小二乘支持向量機(LSSVM)的核函數(shù)。由于徑向基函數(shù)的應(yīng)用范圍最廣,可以直觀反映2個數(shù)據(jù)的距離,因此本研究選取徑向基函數(shù)作為核函數(shù)。
Step 4:應(yīng)用十折交叉驗證法選擇正則化參數(shù)C和核參數(shù)σ2。
Step6:根據(jù)Step5生成的預(yù)測函數(shù)預(yù)測未來年節(jié)假日的客流值,并對預(yù)測誤差進行評價分析;如果誤差較大則返回Step1,重新調(diào)整模型輸入和LSSVM參數(shù)再進行預(yù)測。
其中,正則化參數(shù)C的初始值設(shè)為100,尋優(yōu)范圍設(shè)置為[e-1,e10];核參數(shù)σ2的初始值設(shè)為0.1,尋優(yōu)范圍設(shè)置為[e-3,e8];誤差函數(shù)選取的是估計值與真實值的均方誤差,當(dāng)前后2次尋優(yōu)的均方誤差的減小量小于10-3時,結(jié)束尋優(yōu)。預(yù)設(shè)誤差要根據(jù)樣本數(shù)據(jù)的特征而定。進出站客流量預(yù)測流程如圖2所示。
圖2 進出站客流量預(yù)測流程
確定模型框架后,根據(jù)所預(yù)測的節(jié)假日歷年數(shù)據(jù),標(biāo)定預(yù)測模型的參數(shù)。支持向量機模型所需標(biāo)定的參數(shù)包括:正則化參數(shù)C和核參數(shù)σ2。在實際應(yīng)用中,一般采用十折交叉驗證法對參數(shù)進行標(biāo)定。
以2014—2017年國慶假期的客流量歷史數(shù)據(jù)為例,進行模型參數(shù)標(biāo)定,標(biāo)定結(jié)果如表1所示。計算中先以2014—2016年國慶假期的客流量為歷史數(shù)據(jù),并將正則化參數(shù)C的初始值設(shè)為100,核參數(shù)σ2的初始值設(shè)為0.1,采用十折交叉驗證法,計算2017年國慶假期客流量的預(yù)測值;然后將預(yù)測值與實際值進行對比后,修正正則化參數(shù)C和核參數(shù)σ2后,再次進行預(yù)測;迭代執(zhí)行上述步驟,直到預(yù)測值與實際值誤差小于10-3。此外,考慮到在實際應(yīng)用中,可能存在無法滿足誤差小于10-3條件的情況,因此將迭代次數(shù)限定為100次;當(dāng)無法滿足誤差條件時,則以100次參數(shù)標(biāo)定結(jié)果中,預(yù)測值與實際值誤差最小的一套參數(shù)作為最佳參數(shù)。
然后,對各類模型的樣本集進行訓(xùn)練,以各類車站進站客流量的訓(xùn)練擬合效果為例進行說明,如圖3所示,各類車站進站客流量預(yù)測模型的訓(xùn)練擬合效果均較好。
表1 各類車站模型的最佳正則化參數(shù)C和核參數(shù)σ2
a) 商業(yè)類或景點類車站
b) 其他類(市區(qū)站)
c) 其他類(郊區(qū)站)圖3 各類車站進站客流量的訓(xùn)練擬合效果圖
為了檢驗?zāi)P偷念A(yù)測效果,本文以2014—2016年國慶假期的客流數(shù)據(jù)進行訓(xùn)練,生成預(yù)測函數(shù),進而預(yù)測2017年國慶假期的進站客流量,并與實際值相比較,分析模型的預(yù)測效果。圖4為各站點國慶假期平均進站客流量的預(yù)測值與真實值的對比圖。
由圖4可見,散點(實際值)大都集中在45°線(預(yù)測值)上,說明各個車站國慶假期平均進站客流量的預(yù)測結(jié)果較好。對各類車站國慶假期平均進出站客流量預(yù)測的平均相對誤差百分比進行統(tǒng)計,結(jié)果如表3所示。
圖4 各車站國慶假期平均進站客流量的 預(yù)測值與實際值對比表2 國慶假期各類車站的客流預(yù)測平均相對誤差
車站類型預(yù)測誤差/%進站客流量預(yù)測出站客流量預(yù)測商業(yè)類或景點類7.705.43其他類(市區(qū)站)1.496.44其他類(郊區(qū)站)1.785.20
從表2可以看出,基于支持向量機建立的國慶假期平均進出站客流量模型的預(yù)測效果較好。進而,基于國慶假期平均進出站客流量的預(yù)測值、各車站每天進出站客流量與國慶假期客流量均值的比例數(shù)據(jù)庫,預(yù)測2017年國慶假期七天各站點的進出站客流量。每天的客流預(yù)測平均相對誤差百分比如表3所示。
表3 2017年國慶假期各車站客流預(yù)測平均相對誤差
從表3可以看出,預(yù)測效果較好。進一步說明了基于該比例數(shù)據(jù)庫分別預(yù)測各節(jié)假日每天的進出站客流量是可行的。同理,可以建立節(jié)假日前一天各類車站的模型,預(yù)測節(jié)假日前一天各車站的進出站客流量。
本文以城市軌道交通進出站客流為研究對象,通過研究分析節(jié)假日期間進出站客流特征,對車站類別進行合理劃分。然后,對模型的輸入與輸出樣式進行研究,并基于歷史數(shù)據(jù)確定樣本集,計算預(yù)測模型的最佳正則化參數(shù)和核參數(shù),分別構(gòu)建適用于節(jié)假日進出站客流預(yù)測的支持向量機模型。最后,基于所構(gòu)建的支持向量機模型,以2014—2016年的國慶假期客流歷史數(shù)據(jù),預(yù)測了2017年國慶假期各車站的進出站客流量,并通過與實際數(shù)據(jù)進行對比分析,檢驗了預(yù)測模型的精度。結(jié)果顯示,該模型預(yù)測的進出站客流量的絕對百分比誤差在8%以下,由此表明該模型具有較高的精度,可以為城市軌道交通運營組織管理工作提供重要的決策依據(jù)。