趙春風(fēng)
摘要 機(jī)場是區(qū)域經(jīng)濟(jì)社會發(fā)展的重要引擎,而旅客吞吐量是衡量機(jī)場開放與活躍程度的重要標(biāo)志,也是指導(dǎo)機(jī)場科學(xué)制定運(yùn)營計(jì)劃的重要指標(biāo),因此有必要對機(jī)場旅客吞吐量進(jìn)行預(yù)測。文章通過分析用于機(jī)場旅客吞吐量預(yù)測所需的多源數(shù)據(jù)構(gòu)成、采集方法及數(shù)據(jù)項(xiàng),提出了多源數(shù)據(jù)處理流程,構(gòu)建了旅客吞吐量預(yù)測框架,通過多源數(shù)據(jù)技術(shù)和相關(guān)算法,設(shè)計(jì)了旅客吞吐量預(yù)測、決策和統(tǒng)計(jì)查詢等預(yù)測系統(tǒng)的功能模塊,最后結(jié)合祿口機(jī)場近五年的旅客吞吐量數(shù)據(jù),對提出的方法與系統(tǒng)進(jìn)行驗(yàn)證,結(jié)果表明預(yù)測誤差小于3%,表現(xiàn)出良好的預(yù)測效果。
關(guān)鍵詞 旅客吞吐量;預(yù)測;多源數(shù)據(jù)
中圖分類號 TP311.13文獻(xiàn)標(biāo)識碼 A文章編號 2096-8949(2024)08-0005-04
0 引言
南京祿口國際機(jī)場作為江蘇省省會機(jī)場,2019年旅客年吞吐量均突破3 000萬人次,發(fā)展勢頭良好。然而據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,江蘇省人口占華東地區(qū)的20%,而民航客運(yùn)量僅占12%,民航發(fā)展水平低于華東地區(qū)平均水平。南京祿口機(jī)場是我國重要的交通樞紐之一,如何合理預(yù)測其吞吐量并進(jìn)行精準(zhǔn)管理,對于優(yōu)化航班安排與資源配置、提升旅客體驗(yàn)至關(guān)重要。近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展與成熟,為海量數(shù)據(jù)分析提供了基礎(chǔ),開展基于多源數(shù)據(jù)的分析與預(yù)測工作成為可能[1-4]。該研究旨在依托大數(shù)據(jù)技術(shù),設(shè)計(jì)一種先進(jìn)、適用的機(jī)場旅客吞吐量預(yù)測方法和系統(tǒng),為進(jìn)一步提升祿口機(jī)場運(yùn)輸管理水平提供支撐。
1 數(shù)據(jù)來源分析
1.1 數(shù)據(jù)來源構(gòu)成
機(jī)場樞紐作為城市交通的重要節(jié)點(diǎn),集聚了多種不同的交通方式,可將客流數(shù)據(jù)分為私家車數(shù)據(jù)、出租車(含網(wǎng)約車)數(shù)據(jù)、公交車數(shù)據(jù)、地鐵數(shù)據(jù)、高鐵數(shù)據(jù)等。同時(shí)不同種類的數(shù)據(jù)具有不同的信息來源,具體數(shù)據(jù)詳見表1。
在表1數(shù)據(jù)來源方式中,票務(wù)和閘機(jī)數(shù)據(jù)的記錄結(jié)構(gòu)和形式相對簡單,多為出行行為的起訖點(diǎn)記錄、出行時(shí)間記錄和少量的出行者屬性記錄,而手機(jī)信令數(shù)據(jù)、公路卡口視頻監(jiān)控?cái)?shù)據(jù)、公交卡刷卡數(shù)據(jù)、收費(fèi)站數(shù)據(jù)、衛(wèi)星定位數(shù)據(jù)等具有信息量豐富、信息記錄形式多樣、信息處理方式復(fù)雜等特點(diǎn),因此主要對這五種數(shù)據(jù)采集技術(shù)進(jìn)行分析。
1.2 手機(jī)信令數(shù)據(jù)采集
手機(jī)信令數(shù)據(jù)是移動(dòng)通信網(wǎng)絡(luò)滿足自身運(yùn)行需要而生成和記錄的數(shù)據(jù),其主要依賴于移動(dòng)通信網(wǎng)絡(luò)基站和移動(dòng)平臺,即手機(jī)與基站之間的信息交互。手機(jī)信令數(shù)據(jù)可分為主動(dòng)行為數(shù)據(jù)和被動(dòng)行為數(shù)據(jù)兩種:主動(dòng)行為數(shù)據(jù)是手機(jī)用戶使用手機(jī)進(jìn)行了短信收發(fā)、撥打電話等行為而產(chǎn)生的信令數(shù)據(jù);被動(dòng)行為數(shù)據(jù)是在手機(jī)用戶本身并未對手機(jī)進(jìn)行任何操作時(shí),由于跨越基站所覆蓋位置區(qū)或基站定期更新信令源位置所產(chǎn)生的信令數(shù)據(jù)[5]。手機(jī)信令記錄產(chǎn)生的原理如圖1所示。
手機(jī)信令數(shù)據(jù)本身包含的信息眾多,在交通應(yīng)用方面通常包括采集時(shí)間、空間位置等數(shù)據(jù),其原始數(shù)據(jù)記錄如表2所示。
由于無線信號和傳輸系統(tǒng)的不穩(wěn)定性,會產(chǎn)生大量無效冗余數(shù)據(jù)、噪聲數(shù)據(jù)、漂移數(shù)據(jù)等,因此,在使用手機(jī)信令數(shù)據(jù)進(jìn)行相關(guān)的交通分析之前,需要通過噪聲數(shù)據(jù)剔除、數(shù)據(jù)空間位置匹配等方法對原始數(shù)據(jù)進(jìn)行加工處理,最終得到可用于分析的數(shù)據(jù)源。
1.3 公路卡口視頻監(jiān)控?cái)?shù)據(jù)采集
由于人工智能技術(shù)快速發(fā)展及GPU服務(wù)器算力顯著提升,可從視頻中自動(dòng)提取動(dòng)態(tài)交通信息,作為客流分析的來源之一。視頻監(jiān)控系統(tǒng)經(jīng)過機(jī)器學(xué)習(xí)之后,可識別的交通信息如表3所示。
1.4 公交卡刷卡數(shù)據(jù)采集
公交IC卡數(shù)據(jù)已成為交通客流分析的有效數(shù)據(jù)源,主要包括卡號、刷卡時(shí)間、乘坐車號和線路等字段。不同的卡號代表不同的乘客,根據(jù)卡號信息查找乘客一天的刷卡次數(shù),從而確定乘客換乘或者二次出行信息。刷卡時(shí)間即乘客上車時(shí)間,根據(jù)線路上某具體車輛的運(yùn)營調(diào)度信息以及線路站點(diǎn)順序,依據(jù)刷卡時(shí)間來判斷乘客的上車站點(diǎn)[6]。
1.5 收費(fèi)站數(shù)據(jù)采集
南京祿口機(jī)場高速公路設(shè)置一處主線收費(fèi)站,其產(chǎn)生的收費(fèi)流水?dāng)?shù)據(jù)主要包括收費(fèi)站編號、出入口時(shí)間、通行卡號、收費(fèi)車道號、車型、流水號、收費(fèi)金額等字段,如表4所示。可通過關(guān)聯(lián)與相關(guān)性挖掘、分類與回歸、聚類分析、離群點(diǎn)分析等方式對高速公路收費(fèi)流水進(jìn)行描述性和預(yù)測性挖掘,作為祿口機(jī)場客流分析的依據(jù)。
1.6 衛(wèi)星定位數(shù)據(jù)采集
通過安裝在公交車、出租車(含網(wǎng)約車)的衛(wèi)星定位裝置,獲取車輛運(yùn)行過程中的位置、速度、方向等信息,根據(jù)這些數(shù)據(jù)分析車輛到達(dá)或離開祿口機(jī)場的狀態(tài),進(jìn)而估計(jì)旅客出行行為和數(shù)量。如表5所示,顯示了公交車、出租車(含網(wǎng)約車)的衛(wèi)星定位數(shù)據(jù)字段。
2 預(yù)測系統(tǒng)設(shè)計(jì)
2.1 數(shù)據(jù)質(zhì)量優(yōu)化提升
首先需要依據(jù)祿口機(jī)場覆蓋區(qū)域確定數(shù)據(jù)采集范圍,以便精確獲取對預(yù)測有直接貢獻(xiàn)的數(shù)據(jù),進(jìn)而提高算法模型精度;其次需要對采集的多源數(shù)據(jù)進(jìn)行融合處理,剔除冗余數(shù)據(jù),綜合得到用于統(tǒng)計(jì)旅客數(shù)量的特征數(shù)據(jù)。對于同一個(gè)人擁有多部手機(jī)的情況,還需要結(jié)合位置與時(shí)間信息,通過關(guān)聯(lián)時(shí)空軌跡判斷真實(shí)的旅客信息,將多部手機(jī)的信令數(shù)據(jù)轉(zhuǎn)化為同一條旅客出行數(shù)據(jù)。該研究提出的多源數(shù)據(jù)優(yōu)化處理流程如圖2所示。
2.2 預(yù)測框架與流程
祿口機(jī)場旅客吞吐量預(yù)測系統(tǒng)由數(shù)據(jù)采集與處理、預(yù)測輸出等模塊組成[7-8]。其中,數(shù)據(jù)采集與處理模塊負(fù)責(zé)與旅客相關(guān)的數(shù)據(jù)采集及清洗處理,同時(shí),引入酒店、氣象、節(jié)假日等數(shù)據(jù),作為控制因素,調(diào)節(jié)預(yù)測結(jié)果,以此提升預(yù)測模型的適應(yīng)性;預(yù)測輸出模塊主要用于輸出預(yù)測旅客吞吐量,為應(yīng)用業(yè)務(wù)系統(tǒng)提供決策數(shù)據(jù)。預(yù)測系統(tǒng)的基本框架與流程如圖3所示。
數(shù)據(jù)采集與處理:由于現(xiàn)場存在環(huán)境干擾、設(shè)備誤差等客觀因素,將會產(chǎn)生具有毛刺特征的異常數(shù)據(jù),因此系統(tǒng)集成了中位值、算術(shù)平均、遞推平均、加權(quán)平均、一階滯后等數(shù)據(jù)濾波算法,對采集到的數(shù)據(jù)進(jìn)行分析與處理,為后續(xù)預(yù)測工作提供可靠的數(shù)據(jù)源。
預(yù)測輸出:基于機(jī)器學(xué)習(xí)算法對歷史數(shù)據(jù)進(jìn)行分析和建模,并對算法模型進(jìn)行優(yōu)化,預(yù)測機(jī)場旅客吞吐量,分析旅客吞吐量變化規(guī)律和趨勢,通過可視化工具呈現(xiàn)預(yù)測與分析結(jié)果。
2.3 預(yù)測算法原理
時(shí)間序列預(yù)測算法是一種定量的回歸預(yù)測方法,運(yùn)用過去的時(shí)間序列數(shù)據(jù)統(tǒng)計(jì)分析,推測出事物的發(fā)展趨勢??紤]由于偶然因素而產(chǎn)生的隨機(jī)波動(dòng)影響,需要對數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)而開展數(shù)據(jù)統(tǒng)計(jì)分析和未來趨勢預(yù)測。該研究基于Prophet時(shí)間序列預(yù)測算法對祿口機(jī)場旅客流量進(jìn)行預(yù)測分析。
y(t)=g(t)+s(t)+h(t)+εt (1)
式中,g(t)——趨勢變化函數(shù),用來分析時(shí)間序列中非周期性的變化;s(t)——季節(jié)周期項(xiàng),一般以年或以周為單位;h(t)——節(jié)假日項(xiàng),表示節(jié)假日因素造成的影響變化;εt——誤差項(xiàng),表示突發(fā)事件的影響,通常為高斯噪聲。
由于該研究中以年為單位預(yù)測,故暫不考慮節(jié)假日項(xiàng),并結(jié)合季節(jié)周期性影響模型,則Prophet模型為:
(2)
式中,P——時(shí)間序列周期長度,該研究中P取值為365,可對年度數(shù)據(jù)進(jìn)行周期效應(yīng)估計(jì)。原始數(shù)據(jù)經(jīng)過格式轉(zhuǎn)換、異常值處理之后得到標(biāo)準(zhǔn)化后的客流量數(shù)據(jù),將其代入構(gòu)建的Prophet模型進(jìn)行訓(xùn)練,按非周期性變化的趨勢項(xiàng)、季節(jié)周期項(xiàng)對模型進(jìn)行分解和訓(xùn)練,根據(jù)訓(xùn)練結(jié)果進(jìn)一步優(yōu)化模型,以提升模型預(yù)測的精確度。
2.4 預(yù)測系統(tǒng)功能設(shè)計(jì)
預(yù)測系統(tǒng)的核心功能包括旅客吞吐量預(yù)測、預(yù)測決策、統(tǒng)計(jì)查詢?nèi)糠?。其中,旅客吞吐量預(yù)測主要是結(jié)合多源數(shù)據(jù),依托上述預(yù)測框架和預(yù)測流程,自動(dòng)生成吞吐量數(shù)據(jù);預(yù)測決策是依據(jù)旅客吞吐量預(yù)測數(shù)據(jù),制訂輔助決策計(jì)劃;統(tǒng)計(jì)查詢是依據(jù)旅客吞吐量預(yù)測數(shù)據(jù)和預(yù)測決策數(shù)據(jù),生成統(tǒng)計(jì)查詢報(bào)表。預(yù)測系統(tǒng)功能如圖4所示。
(1)旅客吞吐量預(yù)測:依據(jù)獲取的多源出行數(shù)據(jù),并結(jié)合氣象、酒店住宿等數(shù)據(jù),預(yù)測機(jī)場旅客吞吐量,其功能包括旅客年吞吐量、旅客月吞吐量、旅客日吞吐量、旅客節(jié)假日吞吐量、旅客特殊條件吞吐量。
(2)預(yù)測決策:依托旅客吞吐量預(yù)測,并結(jié)合祿口機(jī)場管理規(guī)則及約束條件,系統(tǒng)自動(dòng)建模生成決策模型,輸出預(yù)測決策數(shù)據(jù),其功能包括生產(chǎn)計(jì)劃決策、資金計(jì)劃決策、安保計(jì)劃決策、保養(yǎng)計(jì)劃決策、地面交通決策。
(3)統(tǒng)計(jì)查詢:依托旅客吞吐量預(yù)測和決策結(jié)果,并結(jié)合祿口機(jī)場生產(chǎn)管理業(yè)務(wù)需求,實(shí)現(xiàn)預(yù)測一張圖、旅客吞吐量查詢、預(yù)測決策查詢、統(tǒng)計(jì)分析報(bào)表、打印輸出等功能。
3 預(yù)測有效性驗(yàn)證
南京祿口機(jī)場旅客吞吐量預(yù)測系統(tǒng)的主要作用是為機(jī)場管理決策提供依據(jù),因此,需要對預(yù)測系統(tǒng)的有效性進(jìn)行驗(yàn)證,預(yù)測誤差可作為評價(jià)預(yù)測系統(tǒng)有效性的重要指標(biāo)。利用該研究提出的方法和系統(tǒng),預(yù)測南京祿口機(jī)場最近五年的旅客吞吐量,并將預(yù)測結(jié)果與中國民用航空局每年發(fā)布的《全國民用運(yùn)輸機(jī)場生產(chǎn)統(tǒng)計(jì)公報(bào)》數(shù)據(jù)進(jìn)行對比,以此分析預(yù)測值與真實(shí)值的誤差。該文選取平均絕對誤差(MAE)、相對百分比誤差(MAPE)、對稱平均絕對百分比誤差(SMAPE)三個(gè)指標(biāo)進(jìn)行評價(jià)。預(yù)測結(jié)果的各項(xiàng)評價(jià)指標(biāo)值如表6所示,從表中可以得出,祿口機(jī)場旅客吞吐量預(yù)測結(jié)果的評價(jià)指標(biāo)MAPE與SMAPE均小于3%,各項(xiàng)誤差值均在實(shí)際需求可接受的合理范圍內(nèi),驗(yàn)證了該文方法的有效性。
4 結(jié)語
機(jī)場旅客吞吐量預(yù)測對于機(jī)場合理安排調(diào)度任務(wù)、提升機(jī)場管理與服務(wù)水平具有重要作用。該文分析了用于機(jī)場旅客吞吐量預(yù)測的多源數(shù)據(jù)構(gòu)成與采集方法,提出了數(shù)據(jù)質(zhì)量優(yōu)化思路,通過研究旅客吞吐量預(yù)測架與流程,設(shè)計(jì)了南京祿口機(jī)場旅客吞吐量預(yù)測系統(tǒng),并結(jié)合歷史真實(shí)吞吐量數(shù)據(jù),對預(yù)測結(jié)果進(jìn)行驗(yàn)證,結(jié)果表明該文提出的預(yù)測方法與系統(tǒng)能夠較好地預(yù)測機(jī)場旅客吞吐量。由于旅客出行行為受多種復(fù)雜因素的交叉影響,如飛機(jī)準(zhǔn)點(diǎn)率、票價(jià)等因素,因此,在下一步的研究工作中,還將引入這些因素對模型進(jìn)行完善,以期進(jìn)一步提升預(yù)測模型的魯棒性。
參考文獻(xiàn)
[1]顧凱. 大數(shù)據(jù)技術(shù)在智慧機(jī)場領(lǐng)域的應(yīng)用研究[J]. 軟件工程, 2021(5): 59-62.
[2]關(guān)華, 王麗娟, 程宇, 等. 機(jī)場客源大數(shù)據(jù)應(yīng)用研究與設(shè)計(jì)[J]. 電腦編程技巧與維護(hù), 2020(9): 96-98.
[3]?;? 大數(shù)據(jù)時(shí)代下的機(jī)場旅客數(shù)據(jù)價(jià)值挖掘[J]. 綜合運(yùn)輸, 2015(11): 90-93+133.
[4]楊飛, 徐平, 張卓劍, 等. 大數(shù)據(jù)時(shí)代下機(jī)場客戶關(guān)系分析與實(shí)施模式研究[J]. 電子商務(wù), 2014(9): 16-17.
[5]姚海芳, 劉云溪, 劉勁松. 基于手機(jī)信令大數(shù)據(jù)的機(jī)場腹地識別算法研究[J]. 地理與地理信息科學(xué), 2021(2): 77-83.
[6]馬美蓮. 基于大數(shù)據(jù)視角的機(jī)場短時(shí)客流量時(shí)空分布研究[D]. 深圳:深圳大學(xué), 2018.
[7]吉向東. 基于大數(shù)據(jù)技術(shù)的智慧機(jī)場管理平臺的設(shè)計(jì)與研究[J]. 信息系統(tǒng)工程, 2020(7): 40-41.
[8]柏玉鋒. 大數(shù)據(jù)技術(shù)在智慧機(jī)場中的典型應(yīng)用場景研究[J]. 智能建筑, 2019(2): 67-70.