羅甘
摘要;機(jī)場(chǎng)客流量時(shí)空分布對(duì)于機(jī)場(chǎng)基礎(chǔ)設(shè)施布置、人員安排、廣告投放具有重要影響,如何合理利用資源是機(jī)場(chǎng)管理人員一大難題,本文以廣州白云機(jī)場(chǎng)數(shù)萬(wàn)離港旅客在機(jī)場(chǎng)留下百萬(wàn)級(jí)的數(shù)據(jù)記錄為基礎(chǔ),預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的客流量分布情況。通過(guò)對(duì)數(shù)據(jù)的預(yù)處理與詳細(xì)深入的分析,選取了一定數(shù)量的特征值建立模型。本文選擇使用均值模型和時(shí)間序列模型作為主要的預(yù)測(cè)模型,來(lái)對(duì)未來(lái)該時(shí)間段進(jìn)行預(yù)測(cè),對(duì)未來(lái)一段時(shí)間內(nèi)得到客流量進(jìn)行預(yù)測(cè),最終得到一個(gè)較為優(yōu)于傳統(tǒng)均值模型的預(yù)測(cè)結(jié)果。
【關(guān)鍵詞】數(shù)據(jù)清洗 python 特征值 均值模型 時(shí)間序列模型
機(jī)場(chǎng)擁有巨大的旅客吞吐量,與巨大的人員流動(dòng)相對(duì)應(yīng)的則是巨大的服務(wù)壓力。安防、安檢、突發(fā)事件應(yīng)急、值機(jī)、行李追蹤等機(jī)場(chǎng)服務(wù)都希望能夠預(yù)測(cè)未來(lái)的旅客吞吐量,并據(jù)此提前調(diào)配人力物力,更好的為旅客服務(wù)。隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展以及原始數(shù)據(jù)的積累,以客流量時(shí)空分布預(yù)測(cè)為核心的交通智能誘導(dǎo)技術(shù)越來(lái)越成為未來(lái)智能交通的熱點(diǎn)問(wèn)題之一。
本文以廣州白云機(jī)場(chǎng)每天數(shù)萬(wàn)離港旅客在機(jī)場(chǎng)留下百萬(wàn)級(jí)的客流數(shù)據(jù)為基礎(chǔ),根據(jù)原始數(shù)據(jù)中的連接Wi-Fi AP (Access Point)的人數(shù)表、航班排班表、機(jī)場(chǎng)登機(jī)口區(qū)域表、機(jī)場(chǎng)Wi-Fi接入點(diǎn)坐標(biāo)表及安檢旅客過(guò)關(guān)人數(shù)表中的數(shù)據(jù)通過(guò)算法來(lái)構(gòu)建未來(lái)3小時(shí)機(jī)場(chǎng)客流量預(yù)測(cè)模型。本研究項(xiàng)目通過(guò)構(gòu)造均值模型與時(shí)間序列模型對(duì)廣東白云機(jī)場(chǎng)人流量的預(yù)測(cè),以實(shí)現(xiàn)提高資源利用率、增大機(jī)場(chǎng)運(yùn)行效率的效果。
1 均值模型的建立
均值一方差模型是由H M. Markowitz(哈里·馬科維茨)在1952年提出的風(fēng)險(xiǎn)度量模型。在期初,他購(gòu)買(mǎi)一些證券,然后在期末賣出。那么在期初他要決定購(gòu)買(mǎi)哪些證券以及資金在這些證券上如何分配,也就是說(shuō)投資者需要在期初從所有可能的證券組合中選擇一個(gè)最優(yōu)的組合。這時(shí)投資者的決策目標(biāo)有兩個(gè):盡可能高的收益率和盡可能低的不確定性風(fēng)險(xiǎn)。最好的目標(biāo)應(yīng)是使這兩個(gè)相互制約的目標(biāo)達(dá)到最佳平衡。由此建立起來(lái)的投資模型即為均值.方差模型。
基于本題,為了使預(yù)期效果與實(shí)際情況相符合,盡可能的規(guī)避一些誤差,達(dá)到最終想要的合理預(yù)測(cè)結(jié)果,本文通過(guò)建立均值模型來(lái)估計(jì)。每天的人員流動(dòng)量都存在一定的差距,而直接將所有去除異常之后的日子取均值并是不特別好的策略,這樣的策略存在較大的誤差。此外,對(duì)于本題本文認(rèn)為機(jī)場(chǎng)的排班信息比較固定,登機(jī)口位置以及各種基礎(chǔ)設(shè)施位置是固定的,所以機(jī)場(chǎng)內(nèi)的人員流動(dòng)也存在一定的規(guī)律性。
首先,本文統(tǒng)計(jì)了機(jī)場(chǎng)內(nèi)所有的Wi-FiAP個(gè)數(shù),以及每個(gè)Wi-Fi AP所在的位置,在綜合了樓層信息與登機(jī)口信息后,結(jié)合數(shù)據(jù)探索階段所整理的數(shù)據(jù),建立均值模型。在此,本文假設(shè)機(jī)場(chǎng)下午3點(diǎn)至6點(diǎn)的人流總量應(yīng)當(dāng)與當(dāng)天這個(gè)時(shí)刻之前的人流量存在一定的關(guān)系,所以本文提取了上午6點(diǎn)到下午3點(diǎn)這一時(shí)間段的數(shù)據(jù)作為人流量的參考值。最后依據(jù)這部分?jǐn)?shù)據(jù)和之前去除異常后多天該時(shí)間段的數(shù)據(jù)來(lái)對(duì)下午3點(diǎn)到6點(diǎn)機(jī)場(chǎng)客流量分布進(jìn)行預(yù)測(cè)。
2 時(shí)間序列模型的建立
在生產(chǎn)和科學(xué)研究中,對(duì)某一個(gè)或一組變量x(t)進(jìn)行觀察測(cè)量,將在一系列時(shí)刻tl,t2,…,tn(t為自變量)按照時(shí)間次序排列,并用于解釋變量和相互關(guān)系的數(shù)學(xué)表達(dá)式。 而ARMA模型是時(shí)間序列模型下的一個(gè)種類,ARMA模型的全稱是自回歸移動(dòng)平均(auto regression moving average)模型,它是目前最常用的擬合平穩(wěn)序列的模型,它又可細(xì)分為AR模型(auto regression model)、MA模型(moving average model)和ARMA模型(autoregression moving average model)三大類。 ARMA模型是根據(jù)平穩(wěn)隨機(jī)時(shí)間序列模型推導(dǎo)出來(lái)的。首先一個(gè)普通的隨機(jī)時(shí)間序列模型是這樣的: 它表達(dá)的意思就是預(yù)測(cè)值Xt是由過(guò)去值Xt-n以及隨機(jī)擾動(dòng)項(xiàng)決定的。如果隨機(jī)擾動(dòng)項(xiàng)是白噪聲,即μ=ε,那么我們就得到這么一個(gè)式子: 這里的ψ就是具體成過(guò)去值的系數(shù),而這個(gè)式子就是上面所描述的AR模型。但如果這個(gè)隨機(jī)擾動(dòng)項(xiàng)不是白噪聲而是一個(gè)移動(dòng)平均過(guò)程,也就是說(shuō): 其中θ是q介白噪聲的系數(shù),這個(gè)式子就是MA模型。那么,我們把MA模型式子代入原來(lái)的式子就是這么樣子: 這個(gè)就是時(shí)間序列模型ARMA模型。它主要刻畫(huà)了一個(gè)時(shí)間序列可以由它的自身過(guò)去值和滯后值來(lái)解釋,同時(shí)它又是平穩(wěn)的,即不會(huì)隨著時(shí)間的變化來(lái)改變。由于這個(gè)特性,凡事符合條件的事件我們都用這個(gè)模型來(lái)預(yù)測(cè)未來(lái)的值。 在引入時(shí)間序列模型之前,我們發(fā)現(xiàn)了一個(gè)問(wèn)題,如果只用均值模型一種模型來(lái)預(yù)測(cè),數(shù)值就會(huì)在3點(diǎn)這個(gè)時(shí)間點(diǎn)出現(xiàn)斷點(diǎn),這個(gè)時(shí)間點(diǎn)的前后平均客流量差距過(guò)大,但是在這段時(shí)間內(nèi),客流量成周期性變化而且與時(shí)間推移無(wú)關(guān),因此這個(gè)時(shí)間段完美契合了使用ARMA模型進(jìn)行分析和預(yù)測(cè)的條件??紤]到人們?cè)跈C(jī)場(chǎng)移動(dòng)具有連續(xù)性的特征,我們提出使用時(shí)間序列模型中的ARMA模型,對(duì)預(yù)測(cè)進(jìn)行進(jìn)一步的修正與改進(jìn)。 3 實(shí)驗(yàn)與結(jié)果分析 3.1 數(shù)據(jù)預(yù)處理 首先對(duì)得到的白云機(jī)場(chǎng)五個(gè)表格的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,刪除或者修補(bǔ)錯(cuò)誤數(shù)據(jù)或者臟數(shù)據(jù),以提高后期我們模型建立的效率。
對(duì)數(shù)據(jù)表格中的時(shí)間信息轉(zhuǎn)化為pandas能解析的數(shù)據(jù)并存入Time數(shù)組中,并將五個(gè)表格按照設(shè)計(jì)程序的格式重新提取整合,最終達(dá)到處理好的數(shù)據(jù)表格。并將處理好的數(shù)據(jù)按照列的順序存入新表中。
3.2 問(wèn)題分析
經(jīng)過(guò)初步的分析,乘客在機(jī)場(chǎng)值機(jī)、安檢、候機(jī)、行李提取等行為會(huì)對(duì)人流量分布有所影響,此外一些基礎(chǔ)設(shè)施的安排也會(huì)影響客流量分布,比如超市、餐飲、衛(wèi)生間的位置等。
首先我們將這些乘客的行為信息以及機(jī)場(chǎng)的物理地址信息相結(jié)合,將所有可能考慮到的因素作為特征值,建立對(duì)應(yīng)的模型進(jìn)行預(yù)測(cè)。后通過(guò)實(shí)踐發(fā)現(xiàn)機(jī)場(chǎng)復(fù)雜的地理位置信息較難總結(jié)出一個(gè)或多個(gè)合適的特征,并且特征值越多并不能保證模型越精準(zhǔn)。
經(jīng)分析發(fā)現(xiàn)特征值數(shù)量過(guò)多會(huì)造成預(yù)測(cè)效果的降低,此外,飛機(jī)起飛、到達(dá)、歷史信息,機(jī)場(chǎng)位置信息,時(shí)間信息等具有上千種特征值,無(wú)法一一分析。所以通過(guò)降低分析維度,使用主要的影響因素作為特征值,對(duì)該模型進(jìn)行建立。
通過(guò)初步的問(wèn)題分析,得出下面重要信息:
(1)機(jī)場(chǎng)每天的排班表基本穩(wěn)定,用戶在機(jī)場(chǎng)內(nèi)的行走模式也基本穩(wěn)定;
(2)時(shí)間序列具有一定程度的連續(xù)性,下午三點(diǎn)至六點(diǎn)的情況會(huì)一定程度延續(xù)此前幾小時(shí)的情況;
(3)機(jī)場(chǎng)位置信息固定,所以根據(jù)Wi-Fi點(diǎn)所存儲(chǔ)的信息來(lái)作為主要預(yù)測(cè)數(shù)據(jù)表。
3.3 模型建立
基于以上兩點(diǎn)情況,通過(guò)兩個(gè)基本模型來(lái)涵蓋所列出的主要特征值,從而解決該問(wèn)題,分別為時(shí)間序列模型、均值模型。
模型建立的過(guò)程是一個(gè)比較復(fù)雜的過(guò)程,首先我們嘗試著將數(shù)據(jù)轉(zhuǎn)化成圖片,這樣有利于直觀的分析數(shù)據(jù)變化的趨勢(shì)。在圖中,我們發(fā)現(xiàn)機(jī)場(chǎng)人流量的變化是周期性變化,尤其在下午3點(diǎn)到6點(diǎn)。因此,我們先打算用均值模型處理這一部分?jǐn)?shù)據(jù),在這一過(guò)程中,我們還將標(biāo)準(zhǔn)差大于90%或者小于10%的數(shù)據(jù)剔除。
通過(guò)GetTimeSeries(Wi-Fi APTag)函數(shù),提取出特定的Wi-Fi AP時(shí)間序列數(shù)據(jù),以及每十分鐘的平均連接數(shù)。如下所示。
我們以Wi-Fi AP El-lA-l
在得到相應(yīng)的數(shù)據(jù)后,我們考慮到某些天會(huì)出現(xiàn)異常數(shù)據(jù),所以我們需要將這些異常天數(shù)以及該天下的數(shù)據(jù)剔除,而我們的剔除策略是對(duì)每天特定時(shí)間的數(shù)據(jù)求均值和標(biāo)準(zhǔn)差,然后將均值與標(biāo)準(zhǔn)差落在10%分位數(shù)以下和90%分位數(shù)以上的日子去除。
通過(guò)設(shè)置兩個(gè)較為接近的均值模型函數(shù),只在一些參數(shù)根據(jù)具體的登機(jī)口、公共服務(wù)設(shè)施等因素的影響有所不同。通過(guò)對(duì)比組的設(shè)置,使得最后在誤差分析挑選模型時(shí),可以多一個(gè)更好的選擇。
在函數(shù)Do_ARMA()中,我們是直接調(diào)用statsmodel包中的ARMA對(duì)象來(lái)自動(dòng)生成ARMA模型。擬合出來(lái)的結(jié)果非常滿意,所以我們不再繼續(xù)做調(diào)整。實(shí)際上,很多時(shí)候要考慮數(shù)據(jù)的平穩(wěn)性處理,擬合后的差分分離,但在這個(gè)案例中我們并不需要做那么多,因?yàn)榻o的數(shù)據(jù)非常完美。
我們可以看到利用ARMA模型擬合的結(jié)果是近乎完美的。除此之外,我們通過(guò)計(jì)算標(biāo)準(zhǔn)差,協(xié)方差等數(shù)學(xué)方法來(lái)評(píng)估這個(gè)模型,在本案例中,也是非常貼切的。
3.4 模型融合
通過(guò)上述步驟后,我們已經(jīng)整合出了三個(gè)基本模型,而這三個(gè)模型單獨(dú)使用去預(yù)測(cè)所有的Wi-Fi AP效果必然不好,每個(gè)Wi-Fi AP都有自己最適合的模型,所以我們通過(guò)對(duì)前一周每天下午3點(diǎn)到6點(diǎn)的數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算每個(gè)Wi-Fi AP在每個(gè)模型上的平均誤差,讓每個(gè)Wi-Fi AP挑選誤差最小的那個(gè)模型進(jìn)行預(yù)測(cè)。數(shù)據(jù)有缺失的情況,所有模型中包含了蠻多的異常處理部分。
在將數(shù)據(jù)處理過(guò)后,我們將先前求取的兩個(gè)均值模型imitatel和imitate2分別與時(shí)間序列模型ARMA融合,下列代碼是融合的過(guò)程。通過(guò)使用ARMA來(lái)修正imitatel和imitate2中的數(shù)據(jù)。該函數(shù)中,Wi-Fi APTag是Wi-Fi的編號(hào),Train Time表示訓(xùn)練集使用的數(shù)據(jù)范圍,PredictTime表示未來(lái)預(yù)測(cè)時(shí)長(zhǎng),Rario Dict存儲(chǔ)著每個(gè)Wi-FiAP點(diǎn)的誤差調(diào)整。
4 結(jié)論
至此,我們一共可以使用四種模型(imitatel, imitate2, DO_ARMA,Combine)對(duì)不同的Wi-Fi AP未來(lái)客流量進(jìn)行預(yù)測(cè)。我們對(duì)第一個(gè)Wi-Fi AP點(diǎn)的預(yù)測(cè),可以看出隨著傍晚臨近,客流量是增多的。這與我們?nèi)粘S^察也是相吻合的。
根據(jù)以上數(shù)據(jù)分析評(píng)估公式,我們對(duì)我們的模型進(jìn)行了誤差分析,發(fā)現(xiàn)模型的誤差率在百分之五以內(nèi),對(duì)于第一次做數(shù)據(jù)分析與預(yù)測(cè)的我們來(lái)說(shuō)已經(jīng)是非常好的成績(jī)了。
參考文獻(xiàn)
[1][美]埃里克·馬瑟斯(EricMatthes).Python編程從入門(mén)到實(shí)踐[M].人民郵電出版社,2016: 3-60.
[2][挪]MarkLutz,Python編程[M].中國(guó)電力出版社,2014: 5-80.
[3]王立柱.時(shí)間序列模型及預(yù)測(cè)[M].科學(xué)出版社,2018: 16-90.