国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GS-XGBoost的共享單車(chē)需求預(yù)測(cè)分析研究

2023-11-14 08:05周海權(quán)
現(xiàn)代計(jì)算機(jī) 2023年17期
關(guān)鍵詞:需求預(yù)測(cè)單車(chē)氣象

周海權(quán),陳 超,王 捷

(四川輕化工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,宜賓 644000)

0 引言

隨著綠色出行倡議的提出,共享單車(chē)作為許多人短、中距離出行的首選[1],為人們提供一種健康、環(huán)境友好的出行解決方案,然而共享單車(chē)規(guī)模的擴(kuò)大、用戶的增多也引發(fā)了許多問(wèn)題[2-3]。

首先存在的問(wèn)題就是“亂”,共享單車(chē)具有隨停隨用的特點(diǎn),可能導(dǎo)致單車(chē)亂停亂放,影響城市交通的秩序;其次存在的問(wèn)題是“浪費(fèi)”,過(guò)多的投放可能造成極大的浪費(fèi),背離了節(jié)約資源的初衷;最后就是存在地區(qū)單車(chē)分布“不均勻”的問(wèn)題,尤其是在用車(chē)高峰期,導(dǎo)致用戶借車(chē)?yán)щy、體驗(yàn)差等問(wèn)題[4-6]。

針對(duì)以上存在的問(wèn)題,許多科研人員對(duì)共享單車(chē)需求做出了預(yù)測(cè),給單車(chē)調(diào)度的人員帶來(lái)科學(xué)的指導(dǎo),解決共享單車(chē)分布不均勻、用戶借車(chē)難、體驗(yàn)差等問(wèn)題。焦志倫等[7]提出了以各種常見(jiàn)的機(jī)器學(xué)習(xí)模型對(duì)共享單車(chē)需求進(jìn)行預(yù)測(cè),得出了機(jī)器學(xué)習(xí)中的隨機(jī)森林模型與決策樹(shù)的迭代對(duì)共享單車(chē)的預(yù)測(cè)結(jié)果有提升,使其結(jié)果更加精確的結(jié)論。楊軍等[8]提出相比隨機(jī)森林更加精確的BP 神經(jīng)網(wǎng)絡(luò)算法,該算法對(duì)共享單車(chē)需求的預(yù)測(cè)準(zhǔn)確率有所提高,提出基于BP 神經(jīng)網(wǎng)絡(luò)算法的共享單車(chē)需求預(yù)測(cè),并基于Logistic 函數(shù)、Idenliey 函數(shù)、Tanh 函數(shù)、Relu 函數(shù)對(duì)共享單車(chē)需求預(yù)測(cè)進(jìn)行對(duì)比,結(jié)果表明精度最高的模型為T(mén)anh函數(shù)下的BP神經(jīng)網(wǎng)絡(luò)模型。苗曉峰等[9]提出一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與時(shí)間空間結(jié)合的方法,對(duì)不同類(lèi)型站點(diǎn)的共享單車(chē)進(jìn)行需求預(yù)測(cè),并與BP、HA 神經(jīng)網(wǎng)絡(luò)和GBDT等模型的預(yù)測(cè)結(jié)果進(jìn)行比較。實(shí)驗(yàn)數(shù)據(jù)表明,加入時(shí)間、空間等特征后在借車(chē)、還車(chē)數(shù)據(jù)量波動(dòng)比較大的站點(diǎn)預(yù)測(cè)的效果更好。徐長(zhǎng)興等[10]提出了基于Stacking策略與其他傳統(tǒng)機(jī)器學(xué)習(xí)模型的組合預(yù)測(cè)模型,并和單一的機(jī)器學(xué)習(xí)模型進(jìn)行了對(duì)比,結(jié)果表明組合預(yù)測(cè)模型的平均絕對(duì)百分比誤差下降了9.1%。喬少杰等[11]提出了一種基于站點(diǎn)聚類(lèi)的共享單車(chē)的需求預(yù)測(cè),通過(guò)構(gòu)建單車(chē)轉(zhuǎn)移網(wǎng)絡(luò)計(jì)算站點(diǎn)的活躍度,充分考慮站點(diǎn)聚合到一個(gè)聚簇之間,給出最佳的簇中心,使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練并與許多傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,共享單車(chē)需求模型預(yù)測(cè)性能得到顯著提升。

極限梯度提升(XGBoost)是一種高效的集成學(xué)習(xí)方法,現(xiàn)在廣泛應(yīng)用于大氣污染預(yù)測(cè)、光伏預(yù)測(cè)、房?jī)r(jià)預(yù)測(cè)等領(lǐng)域[12-13]。為了進(jìn)一步提升模型的預(yù)測(cè)能力,本文提出基于網(wǎng)格搜素優(yōu)化XGBoost的預(yù)測(cè)模型GS-XGBoost,利用網(wǎng)格搜索優(yōu)化算法進(jìn)行超參數(shù)調(diào)優(yōu),使XGBoost 的性能達(dá)到最佳,以此為基礎(chǔ)構(gòu)建實(shí)驗(yàn),實(shí)驗(yàn)表明GS-XGBoost 預(yù)測(cè)模型對(duì)共享單車(chē)需求的預(yù)測(cè)有著更好的預(yù)測(cè)結(jié)果。

1 理論部分

1.1 XGGBBoooosst算法

XGBoost 屬于Boost 算法家族中的一員,是在GBDT基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn)的,基本思想通過(guò)多個(gè)簡(jiǎn)單的弱分類(lèi)器,構(gòu)建出準(zhǔn)確率很高的強(qiáng)分類(lèi)器,每一步都產(chǎn)生一個(gè)弱預(yù)測(cè)模型,然后加權(quán)累加到總模型中,每一步的弱預(yù)測(cè)模型依據(jù)損失函數(shù)的梯度方向,這樣若干步以后就逼近損失函數(shù)局部最小值的目標(biāo)。

1.2 基于網(wǎng)格搜索算法優(yōu)化的XGBBoooosstt的構(gòu)建

1.2.1 網(wǎng)格搜索算法(GirdSearrcchhCCVV)

網(wǎng)格搜索算法(GirdSearchCV)可以拆分為兩部分,即網(wǎng)格搜索和交叉驗(yàn)證,網(wǎng)格搜素參數(shù)與交叉驗(yàn)證類(lèi)似于算法中的窮舉算法;枚舉去搜索的是超參數(shù),即在指定的參數(shù)范圍內(nèi),按步長(zhǎng)依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,在所有的參數(shù)中找到精確率最高的參數(shù)。參數(shù)值的各種排列組合自動(dòng)選擇出模型的最優(yōu)參數(shù)組合,自動(dòng)調(diào)參的機(jī)制就是利用交叉驗(yàn)證法來(lái)支持的,最常用的為K 折交叉驗(yàn)證,最常見(jiàn)的K 取值為10,每次劃分時(shí),在不同的數(shù)據(jù)集進(jìn)行訓(xùn)練、測(cè)試、評(píng)估,得到的評(píng)估結(jié)果取平均值即可。

1.2.2 GS-XGBBoooosstt的構(gòu)建過(guò)程

步驟1:對(duì)共享單車(chē)數(shù)據(jù)集進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行拼接、異常值處理、歸一化等。

步驟2:將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,首先進(jìn)行XGBoost 模型建模,采用XGBoost 對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型用測(cè)試集進(jìn)行驗(yàn)證對(duì)比,記錄預(yù)測(cè)的評(píng)估指標(biāo)值。

步驟3:用網(wǎng)格搜索優(yōu)化的XGBoost 建模,即GS-XGBoost,基本步驟和XGBoost 建模是一致的,但是要列舉出XGBoost重要的參數(shù)排列組合的網(wǎng)格,然后基于一種評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行打分,交叉驗(yàn)證出評(píng)分最高的參數(shù)。

2 需求影響因素分析

2.1 時(shí)間與氣象數(shù)據(jù)可視化

本文以一個(gè)小時(shí)為單位對(duì)芝加哥2019 年的騎行數(shù)據(jù)進(jìn)行分析,統(tǒng)計(jì)結(jié)果如圖1所示,記錄了全年用戶總的騎行次數(shù),出現(xiàn)了兩個(gè)明顯的峰值,分別是7~9 點(diǎn)和17~18 點(diǎn),這正好對(duì)應(yīng)了大多數(shù)人的上下班時(shí)間,可以推斷出共享單車(chē)的主要用戶是上班族,由圖1分析出單車(chē)的使用存在早晚高峰,也分析出使用人群上班通勤居多。對(duì)于通勤就需要考慮群體的工作日和非工作日的需求差異,從圖2可以看出,工作日和非工作日的騎行存在較大的差異,也符合現(xiàn)實(shí)的生活。通過(guò)上述的分析,在后續(xù)的共享單車(chē)需求預(yù)測(cè)時(shí),可以將工作日和非工作日作為新特征進(jìn)行構(gòu)建,進(jìn)一步提高預(yù)測(cè)精度。

圖1 每天騎行需求量分布圖

圖2 工作日、非工作日騎行需求量分布圖

除了時(shí)間因素的影響,氣象因素對(duì)出現(xiàn)的影響也很大,主要影響因素為氣溫、壓強(qiáng)、風(fēng)速,氣溫和風(fēng)速可以隱含用溫度來(lái)分析,圖3反映的是壓強(qiáng)對(duì)騎行次數(shù)的影響,754~765 mmHg下騎行次數(shù)分布最多。圖4所示為溫度對(duì)騎行次數(shù)的影響,當(dāng)溫度在0℃以下時(shí),騎行次數(shù)顯著降低,最佳的騎行溫度為17~27℃,此時(shí)的騎行次數(shù)最多,也符合人體最舒適的溫度18~25℃。

圖3 壓強(qiáng)對(duì)騎行次數(shù)的影響

圖4 溫度對(duì)騎行次數(shù)的影響

2.2 特征因素分析

為進(jìn)一步明確時(shí)間因素和氣象因素對(duì)共享單車(chē)使用的影響,對(duì)表1的八個(gè)影響因素及共享單車(chē)需求量采用Pearson 相關(guān)系數(shù)來(lái)衡量相關(guān)性程度,計(jì)算公式如下所示。

表1 影響因素描述

利用Pearson 計(jì)算影響因素與需求量之間的相關(guān)性,計(jì)算結(jié)果如表2所示。

表2 影響因素與共享單車(chē)需求的相關(guān)系數(shù)

由表2可見(jiàn),影響因素與共享單車(chē)需求之間均呈現(xiàn)正相關(guān)關(guān)系,其中時(shí)間因素中小時(shí)對(duì)共享單車(chē)的需求影響最大,氣象因素中溫度對(duì)共享單車(chē)的需求影響最大。

3 模型預(yù)測(cè)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

3.1.1 數(shù)據(jù)集來(lái)源

研究所用的數(shù)據(jù)集分為共享單車(chē)使用數(shù)據(jù)集和氣象數(shù)據(jù)集,其中共享單車(chē)的數(shù)據(jù)集來(lái)自于美國(guó)芝加哥地區(qū)共享單車(chē)官方網(wǎng)站(https://divvybikes.com/)2019 年騎行數(shù)據(jù),研究的范圍為全天;氣象數(shù)據(jù)集為來(lái)自于氣象數(shù)據(jù)網(wǎng)(https://rp5.ru/)的每小時(shí)氣象數(shù)據(jù),主要有溫度、壓強(qiáng)、風(fēng)速等。

3.1.2 數(shù)據(jù)預(yù)處理

首先以時(shí)間為媒介將氣象數(shù)據(jù)集和共享單車(chē)使用數(shù)據(jù)集拼接起來(lái),然后填補(bǔ)缺失值,刪除冗余值,進(jìn)行歸一化,并劃分訓(xùn)練集和測(cè)試集,公式如下:

3.2 模型評(píng)價(jià)指標(biāo)

常見(jiàn)的用來(lái)評(píng)價(jià)模型好壞的指標(biāo)有三個(gè):分別是MSE、MAE和R2,MSE計(jì)算的是預(yù)測(cè)值與真實(shí)值距離的平方和;MAE代表的是平均絕對(duì)誤差,是目標(biāo)值和預(yù)測(cè)值之差的絕對(duì)值之和;R2的分子部分表示真實(shí)值與預(yù)測(cè)值平方差之和,計(jì)算公式公式如下:

3.3 預(yù)測(cè)結(jié)果對(duì)比分析

本文采用五折交叉驗(yàn)證的網(wǎng)格搜索對(duì)XGBoost的超參數(shù)進(jìn)行優(yōu)化,即GS-XGBoost,對(duì)XGBoost的幾個(gè)重要的參數(shù)進(jìn)行調(diào)整、迭代,選擇出最佳準(zhǔn)確率的參數(shù),重要的參數(shù)有n_estimators、max_depth、min_child_weight、subsample、colsample_bytree、gamma、reg_alpha、reg_lambda。

如圖5 所示,各參數(shù)不同的值得到不同的模型分?jǐn)?shù),對(duì)應(yīng)R2分?jǐn)?shù)最大的值即為其最佳超參數(shù)。

圖5 不同參數(shù)的取值范圍對(duì)應(yīng)的R2變化曲線

實(shí)驗(yàn)表明,經(jīng)過(guò)參數(shù)調(diào)整n_estimators 的取值為750,max_depth 的取值為5,min_child_weight 的取值為4,gamma 的取值為0.1,subsample 的取值為0.8,colsample_bytree 的取值為0.6,reg_alpha 的取值為0.3,reg_lambda 的取值為1,分別對(duì)應(yīng)的R2的最大值。

為了進(jìn)一步驗(yàn)證GS-XGBoost 模型的性能,將其與默認(rèn)參數(shù)的XGBoost 模型、SVR 模型、KNN 模型,以及隨機(jī)森林模型進(jìn)行對(duì)比,其預(yù)測(cè)模型的MSE、MAE和R2見(jiàn)表3。

表3 模型各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果對(duì)比

從實(shí)驗(yàn)結(jié)果可以看出,GS-XGBoost 對(duì)比其他四種模型擁有更低的MSE和MAE,以及更高的R2,并且相比于傳統(tǒng)的XGBoost預(yù)測(cè)模型,其MSE下降了0.0414,MAE下降了0.0262,R2上升了0.0174,表明GS-XGBoost 的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果更為接近,具有更好的模型泛化性,擁有更準(zhǔn)確的預(yù)測(cè)結(jié)果。

4 結(jié)語(yǔ)

本文針對(duì)共享單車(chē)需求預(yù)測(cè)問(wèn)題,使用GS-XGBoost 模型對(duì)傳統(tǒng)的XGBoost 的改進(jìn),找出最佳的超參數(shù),該模型結(jié)合時(shí)間因素和氣象因素對(duì)共享單車(chē)需求進(jìn)行預(yù)測(cè),通過(guò)實(shí)驗(yàn)與其他傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,結(jié)果表明基于GS-XGBoost 模型的預(yù)測(cè)結(jié)果擁有更低的MAE和MSE,以及更高的R2,能更為準(zhǔn)確地對(duì)共享單車(chē)的需求進(jìn)行預(yù)測(cè)。

猜你喜歡
需求預(yù)測(cè)單車(chē)氣象
基于貝葉斯最大熵的電動(dòng)汽車(chē)充電需求預(yù)測(cè)
氣象樹(shù)
共享單車(chē)為什么在國(guó)外火不起來(lái)
《內(nèi)蒙古氣象》征稿簡(jiǎn)則
飛吧,單車(chē)
大國(guó)氣象
美麗的氣象奇觀
對(duì)惡意破壞共享單車(chē)行為要“零容忍”
共享單車(chē)(外四首)
基于計(jì)算實(shí)驗(yàn)的公共交通需求預(yù)測(cè)方法