李蕙萱,吳瑞溢
(黎明職業(yè)大學(xué) 通識(shí)教育學(xué)院,福建 泉州 362000)
隨著我國(guó)城鎮(zhèn)化進(jìn)程的加快以及城市道路交通問(wèn)題的不斷惡化,越來(lái)越多的城市將發(fā)展以地鐵為主的城市軌道交通作為解決城市交通問(wèn)題的主要手段[1]。 地鐵具有節(jié)能環(huán)保、干擾少以及客流運(yùn)輸效率高等優(yōu)點(diǎn),是我國(guó)城市軌道交通中運(yùn)用最廣泛的鐵路系統(tǒng)種類。 但是,我國(guó)目前也面臨這因城市地鐵建設(shè)起步較晚,地鐵站客流量預(yù)測(cè)準(zhǔn)確率低的問(wèn)題,這會(huì)直接導(dǎo)致交通資源的浪費(fèi)以及地鐵運(yùn)營(yíng)管理的混亂[2]。 因此,對(duì)城市地鐵客流量預(yù)測(cè)問(wèn)題進(jìn)行具有重要的現(xiàn)實(shí)意義。
在大數(shù)據(jù)時(shí)代,社會(huì)生活和發(fā)展的方方面面都在發(fā)生顛覆性的轉(zhuǎn)變。 特別是在交通領(lǐng)域,因?yàn)榻煌ù髷?shù)據(jù)具有體量大、種類多、價(jià)值豐富等特征,其在智慧城市建設(shè)背景下,通過(guò)相互作用和關(guān)聯(lián)為城市交通管理提供更大的可能,并且從以往雜亂無(wú)章的管理方式中解脫出來(lái)。 交通大數(shù)據(jù)應(yīng)用的關(guān)鍵是數(shù)據(jù)關(guān)聯(lián)性研究,即將城市交通與其它因素的相互關(guān)聯(lián)屬性挖掘出來(lái),從而提高數(shù)據(jù)本身的應(yīng)用價(jià)值[3]。 比如,天氣狀況因素和城市交通擁堵程度的具有直接相關(guān)性,通過(guò)利用大數(shù)據(jù)分析對(duì)交通數(shù)據(jù)進(jìn)行處理,挖掘出兩者之間的關(guān)系,從而為交通管理、引導(dǎo)和規(guī)劃提供數(shù)據(jù)支撐,這也是本文研究基于大數(shù)據(jù)分析的城市地鐵站客流量預(yù)測(cè)的出發(fā)點(diǎn)。
針對(duì)地鐵站客流量預(yù)測(cè)的問(wèn)題,相關(guān)學(xué)者進(jìn)行了很多研究。 比如,包磊通過(guò)建立灰色模型和馬爾科夫鏈來(lái)對(duì)列車下一站實(shí)際客流量進(jìn)行預(yù)測(cè),實(shí)時(shí)客流量預(yù)測(cè)準(zhǔn)確率較高[4]。 唐秋生和程鵬等提出一種基于GSO-BPNN 算法的地鐵站客流量預(yù)測(cè)模型,與BP 網(wǎng)絡(luò)預(yù)測(cè)模型相比,GSO-BPNN 預(yù)測(cè)模型有更好的收斂速度和穩(wěn)定性[5]。 熊燕采用多元線性回歸法對(duì)節(jié)假日前北京軌道客運(yùn)量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果和真實(shí)值相比擬合度較高,但是線性回歸算法沒有考慮交互效應(yīng)和非線性的因果關(guān)系,會(huì)對(duì)建模精度產(chǎn)生不利影響[6]。
黃廷輝等以時(shí)間、道路狀況以及天氣狀況等特征參數(shù)為基礎(chǔ),通過(guò)建立DUTP-GBDT 模型來(lái)預(yù)測(cè)實(shí)時(shí)交通流,準(zhǔn)確率較高[7]。 許敏等提出一種基于改進(jìn)的支持向量機(jī)算法來(lái)對(duì)繁忙機(jī)場(chǎng)高峰航班流量進(jìn)行預(yù)測(cè),該算法在短期實(shí)時(shí)預(yù)測(cè)和長(zhǎng)期趨勢(shì)預(yù)測(cè)中都可以獲得較高的預(yù)測(cè)精度[8]。 文中受此啟發(fā),分別采用基于XGboost(extreme gradient boosting)和支持向量回歸機(jī)(support vector regression,SVR)預(yù)測(cè)模型,并利用天氣狀況等特征參數(shù)對(duì)某大城市地鐵站客流量進(jìn)行預(yù)測(cè),借助交叉驗(yàn)證、高偏差擬合、高方差過(guò)擬合以及特征歸一等方法對(duì)模型參數(shù)進(jìn)行優(yōu)化以提高預(yù)測(cè)準(zhǔn)確率,最后通過(guò)計(jì)算機(jī)仿真驗(yàn)證算法有效性。
XGBoost 的全稱為Extreme Gradient Boosting,是GBDT 的一種高效實(shí)現(xiàn),其是由陳天奇博士提出的[9]。
GBDT 是一種迭代決策樹算法,由多棵決策樹組成,即所有決策樹的累加結(jié)果就是最終解。 采用GBDT 解決回歸預(yù)測(cè)問(wèn)題首先要生成回歸決策樹,即遞歸地構(gòu)建回歸二叉決策樹的過(guò)程,應(yīng)用平方誤差最小化原則[10]。
假設(shè)訓(xùn)練數(shù)據(jù)集合如式(1)所示
其中X 為輸入變量,Y 為連續(xù)輸出變量。
分別對(duì)應(yīng)每個(gè)回歸決策樹特征空間的一個(gè)劃分以及劃分單元上的輸出值, 回歸樹模型如(2)式所示
其中Rm是被劃分的輸入空間的每個(gè)單元,cm是代表每個(gè)單元上固定的輸出值。
這里通過(guò)啟發(fā)式方法對(duì)輸入空間進(jìn)行劃分,選擇第j 個(gè)變量x(j)和對(duì)應(yīng)取值s 分別作為切分變量與切分點(diǎn),并定義兩個(gè)區(qū)域
因?yàn)閱卧猂m上cm的最優(yōu)值cmbest是Rm上所有輸入實(shí)例xi對(duì)應(yīng)輸出yi的平均值,采用式(4)和式(5)尋找最優(yōu)切分變量j 和最優(yōu)切分點(diǎn)s。
輸入變量X,找到最優(yōu)的切分變量j 以及對(duì)應(yīng)的值s 構(gòu)成(j,s),將輸入空間劃分為兩個(gè)區(qū)域,按上述劃分過(guò)程繼續(xù)對(duì)每個(gè)區(qū)域進(jìn)行劃分。 當(dāng)停止條件滿足時(shí),回歸決策樹生成完畢。
采用平方誤差來(lái)表示回歸決策樹的預(yù)測(cè)誤差,如式(6)所示,平方誤差最小時(shí)對(duì)應(yīng)每個(gè)單元的最優(yōu)解。
提升(boosting)方法是一種常用的統(tǒng)計(jì)學(xué)習(xí)算法,在數(shù)據(jù)挖掘中應(yīng)用十分廣泛且能取得較好結(jié)果,其迭代多棵決策樹來(lái)共同決策。 因?yàn)楸疚挠懻摰氖腔貧w預(yù)測(cè)問(wèn)題,所以提升樹采用回歸樹作為基本分類器[11]。
回歸提升樹fM(x)采用如式(7)~(9)所示的前向分步算法得到。
其中,第m 步模型是由前一步模型fm-1(x)以及通過(guò)擬合殘差學(xué)習(xí)的回歸決策樹疊加得到的殘差采用式(6)的平方誤差。 平方誤差損失函數(shù)與當(dāng)前模型擬合數(shù)據(jù)殘差,分別如(10)式和(11)式所示,兩式聯(lián)立得到回歸決策樹,最后利用式(9)的加法模型即可得到回歸提升樹。
梯度提升算法(gradient boosting)可以簡(jiǎn)化優(yōu)化過(guò)程,提高擬合速度。 Gradient boosting 是Freid-Man 在2000 年提出的,其利用的是當(dāng)前模型中損失函數(shù)的負(fù)梯度值G 作為提升樹算法中的殘差的近似值,進(jìn)而擬合一棵回歸樹[12]。
XGBoost 算法是在損失函數(shù)中加入正則化項(xiàng),對(duì)整體求最優(yōu)解后再以此權(quán)衡損失函數(shù)的下降和模型的復(fù)雜程度,從而避免過(guò)度擬合?;鶎W(xué)習(xí)為決策回歸樹時(shí),而正則化項(xiàng)與樹的葉子節(jié)點(diǎn)的數(shù)量T與葉子節(jié)點(diǎn)的值有關(guān)。
在算法公式推導(dǎo)中,GBDT 只利用了一階導(dǎo)數(shù)信息,而XGBoost 卻對(duì)損失函數(shù)做了二階的泰勒展開,其精度就更高。 XGBoost 在計(jì)算樹節(jié)點(diǎn)分裂求增益的過(guò)程中做了如下三點(diǎn)改進(jìn):
(1) 在剪枝過(guò)程中,用閾值的設(shè)置來(lái)限制樹的生成,
(2) 用系數(shù)的設(shè)置來(lái)對(duì)葉子節(jié)點(diǎn)值做平滑,防止過(guò)擬合;
(3)一種分裂節(jié)點(diǎn)尋找近似算法的實(shí)現(xiàn),用于加速和減小內(nèi)存消耗,即首先采取百分位法選取幾個(gè)可能的分割點(diǎn),然后從中根據(jù)計(jì)算公式找出最佳分割點(diǎn)。
支持向量機(jī)(SVM)通過(guò)將低維樣本空間無(wú)法線性處理的樣本集轉(zhuǎn)化到高維特征空間中的線性超平面實(shí)現(xiàn)線性處理,并采用核函數(shù)的展開定理大大簡(jiǎn)化了計(jì)算復(fù)雜度,因而被廣泛應(yīng)用在分類、回歸問(wèn)題中。 SVR 是Vladimir N.Vapnik 在1996 年首次提出的,其是SVM 在回歸問(wèn)題應(yīng)用分支。
SVR 采用了支持向量的思想,利用拉格朗日乘子式來(lái)對(duì)數(shù)據(jù)進(jìn)行回歸分析。 其中,支持向量(support vector)是訓(xùn)練數(shù)據(jù)集的樣本點(diǎn)與分離超平面距離最近的樣本點(diǎn)的實(shí)例。
假定一個(gè)特征空間的訓(xùn)練數(shù)據(jù)集
其中,xi∈X=Rn,yi∈Y={+1,-1},i=1,2,…,N, xi為第 i 個(gè)特征向量,yi為類標(biāo)記。 轉(zhuǎn)化低維的回歸問(wèn)題為高維特征空間,如(13)式和(14)式所示
式(13)表示回歸函數(shù)和實(shí)際訓(xùn)練點(diǎn)之間的函數(shù)間隔,其表示回歸預(yù)測(cè)的正確性及準(zhǔn)確率。 將一定誤差范圍外的邊界點(diǎn)作為模型確定的支持向量,范圍內(nèi)的點(diǎn)都作為模型上的點(diǎn)。 為了解決某些想本店不知能滿足函數(shù)間隔不小于1 的邊界條件的問(wèn)題,引入松弛變量ζi≥0,同時(shí)對(duì)每個(gè)松弛變量支付一個(gè)代價(jià),得到新的支持向量回歸表達(dá)式,如式(15)和式(16)所示:
其中,式(15)中的C 為懲罰參數(shù),其作用是平衡函數(shù)間隔和誤分類點(diǎn)的個(gè)數(shù),根據(jù)實(shí)際問(wèn)題做調(diào)整。式(16)的兩個(gè)不等式約束是去掉絕對(duì)值的結(jié)果,如式(17)和(18)所示。
約束最優(yōu)化問(wèn)題經(jīng)常是利用拉格朗日的對(duì)偶性(Lagrange duality),將原始問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題從而來(lái)得到原始的解。 現(xiàn)引入拉格朗日乘子,得到拉格朗日乘子式如(19)式所示
式中,C=a1i+u1iand C=a2i+u2i因?yàn)槔窭嗜粘俗?a1i≥0,a2i≥0。所以 0≤a1i,a2i≤C,又 g1i和 g2i不能同時(shí)存在,所以 a1i×a2i=0,因此支持向量回歸的同柔性邊界 KKT 條件達(dá)成了,如式(20)-(22)所示
將得到的支持向量帶入求解得問(wèn)題最優(yōu)解,如式(23)所示
由此求得回歸方程,如式(24)所示
SVR 采用核函數(shù)技巧,通過(guò)非線性變換將非線性問(wèn)題轉(zhuǎn)換為線性問(wèn)題來(lái)進(jìn)行求解。 核函數(shù)的定義:設(shè)X 是輸入空間(歐式空間Rn的子集或離散集合),又設(shè)H 為特征空間(希爾伯特空間),如果存在一個(gè)從 X 到 H 的映射 φ(x),使得對(duì)所有 x,z∈X,函數(shù) K(x,z)滿足條件 K(x,z)=φ(x)·φ(z),則稱 K(x,z)為核函數(shù),φ(x)為映射函數(shù),其中,φ(x)·φ(z)為 φ(x)與 φ(z)的內(nèi)積。因?yàn)橹苯佑?jì)算 K(x,z)比較容易,所以在預(yù)測(cè)問(wèn)題中,只定義K(x,z),而不具體定義φ(x),在特征空間中隱式的進(jìn)行學(xué)習(xí)。
文中的地鐵站客流量流預(yù)測(cè)問(wèn)題采用多項(xiàng)式核函數(shù)(polynomial kernel function),如式(25)所示
對(duì)應(yīng)的支持向量機(jī)是一個(gè)p 次多項(xiàng)式回歸器。 因此,回歸決策函數(shù)就如(26)式所示
影響地鐵站客流量的因素有很多種,包括天氣狀況,周末節(jié)假日,大型活動(dòng)事件以及政策影響等,其中天氣狀況對(duì)交通的影響是直接且立竿見影的,地鐵站客流量不例外,其對(duì)天氣呈現(xiàn)出高敏感性。 因此,文中主要研究的是天氣狀況,日期以及是否有重大活動(dòng)對(duì)地鐵站客流量的影響,具體主要包括是否下雨,空氣濕度,風(fēng)向等。
文中選取的是某大城市2011 年5 月份采集的某地?cái)?shù)十個(gè)地鐵站的客流數(shù)據(jù)和天氣狀況特征。在訓(xùn)練之前,對(duì)數(shù)據(jù)進(jìn)行特征歸一化處理,這樣做的目的是面對(duì)多維特征問(wèn)題時(shí),相近的特征尺度可以幫助預(yù)測(cè)算法更快地收斂。特別是對(duì)于SVR 模型,分布范圍較大或較小的數(shù)據(jù)會(huì)對(duì)模型參數(shù)產(chǎn)生比較大的影響,除非原始各維特征的分布范圍就比較接近,否則必須進(jìn)行歸一化處理。具體的預(yù)處理方法是正太標(biāo)準(zhǔn)化處理[13],將所有特征的尺度都盡量縮放到-1 到1 之間,如式(27)所示:
其中:xn是特征數(shù)據(jù)的平均值;Sn是特征數(shù)據(jù)的標(biāo)準(zhǔn)差。
同時(shí)對(duì)一些非連續(xù)特征進(jìn)行獨(dú)熱編碼,如是否下雨、該站是否有重大活動(dòng)以及在一周中的星期幾等特征,
將建立的模型和實(shí)際數(shù)據(jù)進(jìn)行擬合。 當(dāng)模型復(fù)雜度偏低時(shí),擬合誤差就會(huì)較大,即高偏差欠擬合,對(duì)此可通過(guò)增加模型復(fù)雜度來(lái)解決。 比如,采用高階模型(預(yù)測(cè))或是引進(jìn)更多的特征(分類)等就可避免此類問(wèn)題產(chǎn)生。而當(dāng)模型復(fù)雜度偏高并且訓(xùn)練數(shù)據(jù)過(guò)少時(shí),就會(huì)引起測(cè)試誤差變大,即高方差過(guò)擬合,對(duì)此就需要降低模型的復(fù)雜度,比如加上正則懲罰項(xiàng),增加訓(xùn)練數(shù)據(jù)等。
文中采用交叉驗(yàn)證的方法來(lái)解決模型訓(xùn)練過(guò)程中高偏差或者高方差問(wèn)題。 交叉驗(yàn)證(cross validation)是由Seymour Geisser 提出的一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集的實(shí)用方法,也叫循環(huán)估計(jì)(rotation estimation)。 其工作原理是將部分原始數(shù)據(jù)作為訓(xùn)練集,其余為驗(yàn)證集,用驗(yàn)證集來(lái)檢驗(yàn)通過(guò)訓(xùn)練集得到的模型從而評(píng)價(jià)模型性能[14],為了降低驗(yàn)證結(jié)果的可變性,將原始數(shù)據(jù)集進(jìn)行多次劃分以得到多組互補(bǔ)子集從而進(jìn)行多次交叉驗(yàn)證。 交叉驗(yàn)證不僅考慮了模型建立的訓(xùn)練誤差,同時(shí)也考慮了泛化誤差。
交叉驗(yàn)證主要有Hold-Out Method,K-fold Cross Validation (K-CV) 以及Leave-One-Out Cross Validation(LOO-CV)三種方法。 Hold-Out Method 只用將原始數(shù)據(jù)集進(jìn)行簡(jiǎn)單的分組,方法復(fù)雜度低且方便實(shí)際應(yīng)用,但是效果較差,因?yàn)殡S機(jī)分組會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生較大的影響,而且會(huì)造成原始數(shù)據(jù)的重復(fù)使用或漏用。 LOO-CV 可以使幾乎所有原始數(shù)據(jù)都參與訓(xùn)練而沒有隨機(jī)性,這樣建立的模型更接近實(shí)際情況并增加預(yù)測(cè)可靠性,但是原始數(shù)據(jù)集數(shù)據(jù)量過(guò)大會(huì)增加模型建立的計(jì)算復(fù)雜度。本文的客流量預(yù)測(cè)模型采用K-CV 交叉驗(yàn)證法,將原始數(shù)據(jù)集均分成n 組,每個(gè)數(shù)據(jù)子集分別做一次驗(yàn)證集,其余的n-1 組子集數(shù)據(jù)作為訓(xùn)練集,利用n 個(gè)模型的最終驗(yàn)證集的預(yù)測(cè)準(zhǔn)確率的均值來(lái)評(píng)估模型性能指標(biāo)從而有效的避免過(guò)擬合和欠擬合[15]。
(1)評(píng)價(jià)系數(shù)
樣本數(shù)據(jù)為N,設(shè)定yi(i=1,2…,N)為地鐵進(jìn)站客流量的實(shí)測(cè)值,fi(i=1,2…,N)為模型對(duì)人流量的預(yù)測(cè)值。 主要通過(guò)下面兩個(gè)指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
其中決定系數(shù)反映了決策制和期望值的接近程度,即模型對(duì)變量的描述能力。 0<R2≤1,R2的值越接近1 表示模型的對(duì)變量的預(yù)測(cè)能力越強(qiáng)。
(2)數(shù)據(jù)選取和描述
選取某大城市總共465 個(gè)地鐵站,從2011 年5 月1 日到2011 年5 月30 日以分鐘為間隔的所有進(jìn)站客流量,如圖1 所示。
(3)數(shù)據(jù)劃分和特征選取:
首先對(duì)總體數(shù)據(jù)進(jìn)行初步的分析,單獨(dú)分析某一特征對(duì)進(jìn)站人流的影響,如圖2 所示,以星期幾為橫坐標(biāo)繪制出人流的變化曲線。
圖1 某大城市地鐵站進(jìn)站客流量
可以看到星期對(duì)人流的影響是很明顯的,在周五和周六的的人流量明顯少于其他幾天,同樣觀察得到是否雨天、是否重大活動(dòng)等離散變量對(duì)人流的影響也很顯著。 于是考慮將上述變量作為建模特征,并在數(shù)據(jù)預(yù)處理中對(duì)以上非連續(xù)特征進(jìn)行獨(dú)熱編碼。
初步觀察連續(xù)特征(所在小時(shí)、平均溫度、平均濕度等)對(duì)入站人流量的影響,如圖3 所示,以小時(shí)數(shù)為橫坐標(biāo)繪制出人流的變化曲線圖。
圖2 星期-進(jìn)站人流曲線
圖3 小時(shí)-進(jìn)站人流曲線
最后經(jīng)過(guò)觀察每一變量對(duì)人流量的影響,最終選擇建模的特征有:地鐵站編號(hào)、星期幾、小時(shí)、平均溫度、平均氣壓、平均濕度、是否重大活動(dòng)、是否有雨、是否有霧、七天前此刻的人流。
為方便模型調(diào)參以及模型檢驗(yàn),把所有數(shù)據(jù)按照9∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集,訓(xùn)練集采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行訓(xùn)練和調(diào)參,以達(dá)到較好的擬合效果,最后用驗(yàn)證集來(lái)檢測(cè)模型性能。
(4)基本的線性回歸模型預(yù)測(cè)
首先建立基本的線性回歸模型,以某一時(shí)刻的所有特征為訓(xùn)練樣本帶入線性回歸式中
通過(guò)求導(dǎo)公式得到參數(shù)的梯度下降更新方程
經(jīng)過(guò)200 次的梯度下降訓(xùn)練,在測(cè)試集中得到的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果如圖4 所示。
藍(lán)色曲線是實(shí)際的人流量,黃色的是線性回歸模型預(yù)測(cè)的結(jié)果,可以看到預(yù)測(cè)擬合的效果不是很理想,對(duì)此分析,原因可能是可能是欠擬合(高偏差),則需要提供更多的訓(xùn)練數(shù)據(jù);或者是過(guò)擬合(高方差),則考慮增加預(yù)測(cè)模型的復(fù)雜度。 為了進(jìn)一步分析模型誤差的問(wèn)題,通過(guò)交叉驗(yàn)證的方法,將訓(xùn)練集按照5∶1 的比例作為新的訓(xùn)練集和交叉驗(yàn)證集,畫出隨著樣本數(shù)增加模型的性能分別在訓(xùn)練集和交叉驗(yàn)證集上的表現(xiàn)圖,分別對(duì)應(yīng)平均誤差和決定系數(shù)兩個(gè)評(píng)價(jià)參數(shù),學(xué)習(xí)曲線如圖5 所示。
圖4 線性回歸預(yù)測(cè)與實(shí)際對(duì)比
圖5 線性回歸模型學(xué)習(xí)曲線
可以看到無(wú)論對(duì)于平均誤差還是決定系數(shù),驗(yàn)證集和訓(xùn)練集的評(píng)價(jià)指標(biāo)已經(jīng)基本接近,可以判斷線性回歸預(yù)測(cè)模型是屬于高偏差欠擬合的狀態(tài),因此為進(jìn)一步提高預(yù)測(cè)精度,需要使用更復(fù)雜的非線性預(yù)測(cè)模型,如SVR 和XGBoost。
針對(duì)數(shù)據(jù)特征的關(guān)系,使用的SVR 模型核函數(shù)為RBF 核函數(shù),此模型受參數(shù)的影響很大,利用交叉驗(yàn)證的方法,尋找最優(yōu)的錯(cuò)誤項(xiàng)的懲罰參數(shù)C 和學(xué)習(xí)率ε。 得到C=10000,ε=0.08。 對(duì)比測(cè)試集中的預(yù)測(cè)值和實(shí)際值,如圖6。
最后使用XGBoost 的方法,作為提升(boosting)方法的一種,XGBoost 不斷的訓(xùn)練迭代擬合當(dāng)前樹模型的殘差。 利用交叉驗(yàn)證的方法,尋找的最優(yōu)模型參數(shù):最大樹深 max_depth = 11,min_child_weight=2,樣本隨機(jī)采樣率subsample = 0.8,得到的預(yù)測(cè)結(jié)果與實(shí)際對(duì)比如圖7。
圖6 SVR 預(yù)測(cè)與實(shí)際對(duì)比
圖7 XGboost 預(yù)測(cè)與實(shí)際對(duì)比
表1 可以看到相比最基本的線性回歸模型,SVR 和XGBoost 的模型的預(yù)測(cè)性能都有很大的提高,其中XGBoost 的效果最好,但是同時(shí)XGBoost 的模型也最復(fù)雜,調(diào)參和訓(xùn)練過(guò)程更加耗時(shí),SVR作為一種調(diào)參簡(jiǎn)單易于訓(xùn)練的基本模型也有其優(yōu)勢(shì)。
表1 評(píng)價(jià)系數(shù)對(duì)比
交通大數(shù)據(jù)具有體量大、種類多、價(jià)值豐富等特征,其在智慧城市建設(shè)背景下,通過(guò)相互作用和關(guān)聯(lián)為城市交通管理提供更大的可能,并且從以往雜亂無(wú)章的管理方式中解脫出來(lái)。 交通大數(shù)據(jù)應(yīng)用的關(guān)鍵是數(shù)據(jù)關(guān)聯(lián)性研究,文中對(duì)地鐵站交通與天氣因素的相互關(guān)聯(lián)屬性進(jìn)行分析挖掘。
文中基于某大城市地鐵站客流量統(tǒng)計(jì)大數(shù)據(jù)以及天氣狀況(如雨天、霧天、平均溫度以及平均濕度等)等特征構(gòu)建了XGBoost 和SVR 的地鐵站客流量模型,采用特征歸一化進(jìn)行數(shù)據(jù)預(yù)處理和交叉驗(yàn)證的方法調(diào)整模型參數(shù)來(lái)提高建模精度。 驗(yàn)證結(jié)果表明,梯度提升決策樹和支持向量機(jī)兩種模型的地鐵客流量均取得了較好的預(yù)測(cè)效果,預(yù)測(cè)準(zhǔn)確率分別為82.5%和54.5%,均優(yōu)于傳統(tǒng)的預(yù)測(cè)模型。