蔡夢琴 王艷敏 柯文娟 石志穎
【摘 要】從地鐵站、公交站等到目的地的“最后一公里”的問題,一直困擾著人們。共享單車的爆發(fā)式增長與“放養(yǎng)式”發(fā)展帶來了一系列問題,引起了社會各界的廣泛關(guān)注。文章基于南京市共享單車借還數(shù)據(jù),利用線性判別分析、k-近鄰、貝葉斯判別分析、隨機森林、支持向量機等方法構(gòu)建不同區(qū)域共享單車需求波動趨勢預(yù)測模型,基于模型預(yù)測結(jié)果,為南京市共享單車區(qū)域管理提供建議。
【關(guān)鍵詞】共享單車;判別分析;支持向量機;隨機森林;需求預(yù)測
【中圖分類號】U491.225 【文獻標識碼】A 【文章編號】1674-0688(2021)12-0076-03
1 研究意義
共享單車平穩(wěn)、有序、健康、綠色、持續(xù)發(fā)展的關(guān)鍵是實現(xiàn)供需平衡,即共享單車的投放比與用戶的需求度相匹配。用戶的需求是一個動態(tài)的變化過程,受多種因素影響,故通過對各個因素進行分析,用戶需求可呈現(xiàn)出一定的可預(yù)測性。動態(tài)調(diào)整共享單車區(qū)域投放數(shù)量,降低運營成本、協(xié)調(diào)資源、提升用戶體驗、增強服務(wù)質(zhì)量,對共享單車行業(yè)的可持續(xù)發(fā)展具有重大意義。
關(guān)于共享單車的需求預(yù)測,國內(nèi)外學(xué)者已進行了大量研究。例如,宋鵬等[1]構(gòu)建了基于不同核函數(shù)支持向量機的共享單車需求預(yù)測模型,并進行仿真模擬。蘇影[2]以北京市摩拜單車的出行數(shù)據(jù)為基礎(chǔ),使用K-means聚類法對共享單車的投放區(qū)域進行了劃分,并利用Xgboost算法對各區(qū)域內(nèi)共享單車用戶需求進行動態(tài)預(yù)測,建立了共享單車動態(tài)調(diào)配優(yōu)化模型,得到動態(tài)調(diào)配方案。焦志倫等[3]探討了共享單車短期(基于小時)需求預(yù)測的主要影響因素,并對不同模型的預(yù)測效果進行比較分析。史越[4]分析了共享單車需求特征,提出了共享單車調(diào)度網(wǎng)絡(luò)構(gòu)建方法,建立了共享單車需求量預(yù)測模型,并進行了實例研究。
基于此,本課題以南京市為例,調(diào)查與研究共享單車的需求波動,分析預(yù)測共享單車供需之間存在的問題,了解供需不平衡的原因,從而提出具有針對性、可操作性的解決對策,以促進共享單車長久發(fā)展。
2 共享單車需求預(yù)測的基本原理與方法
2.1 共享單車需求現(xiàn)狀和波動分析
自行車共享世界地圖網(wǎng)站曾對世界范圍內(nèi)的自行車規(guī)劃進行統(tǒng)計,結(jié)果顯示,截至2019年底中國自行車共享項目已投放約47萬輛公共自行車,全球排第一位。
基于南京市2019年3月18—24日共享單車需求數(shù)據(jù)繪制共享單車借還數(shù)據(jù)折線圖(如圖1所示)。
由此可以看出,共享單車的需求具有明顯的時空特征和呈周期性變化。上午9時為集體早高峰時期,下午6~7時為集體晚高峰時期,晚7時以后共享單車需求量整體下降。共享單車白天的需求量明顯大于夜晚,同時存在高峰期和低谷期,呈現(xiàn)兩個波峰、兩個波谷,需求波動變化特點顯著。
2.2 共享單車需求波動影響因素理論分析
共享單車是當前人們重要的出行方式之一,影響共享單車需求的因素有很多,比如時間、季節(jié)、天氣、溫度、風速及節(jié)假日等,都對共享單車的需求產(chǎn)生影響。
3 基于判別分析的共享單車需求波動趨勢預(yù)測模型的構(gòu)建與應(yīng)用
3.1 分類結(jié)果的評價指標
分類算法通過預(yù)測變量可以很好地將類別進行分離,混淆矩陣匯總了正確分類和錯誤分類的數(shù)量,當數(shù)據(jù)量足夠大,并且兩個類別都不稀少時,這種估計是可靠的。
對于分類效果的評估,使用幾種常用的預(yù)測精度測算指標(見表1)。
定義錯誤率:
FN+(1)
準確率:
TP+(2)
召回率:
reall==(3)
精準率:
precision=(4)
F1得分(使用調(diào)和平均結(jié)合召回率和精度的指標):
F1=(5)
其中,P為精準率,R為召回率。
3.2 數(shù)據(jù)選取及樣本分析
選取2019年3月18—24日的南京市共享單車需求量作為樣本數(shù)據(jù)(如圖2所示)。
計算樣本數(shù)據(jù)的描述性統(tǒng)計量:樣本總量為5 040個,樣本均值為311.467 658 7,標準差為291.425 311 5,樣本最小值為0,最大值為1 208,下四分位數(shù)為510,上四分位數(shù)為31,可得出共享單車需求量離散程度較高。從分布形狀來看,計算得到選取樣本的偏度為0.714 939,峰度為-0.509 132,可得出共享單車需求量數(shù)據(jù)呈現(xiàn)右偏分布,并且數(shù)據(jù)分布比標準正態(tài)分布平坦。
3.3 預(yù)測結(jié)果分析
分別利用線性判別分析(LDA)、k-近鄰(k-NN)、貝葉斯(Bayes)判別、隨機森林(Random forest)、支持向量機(SVM)對一周內(nèi)的共享單車需求波動趨勢進行預(yù)測。
3.3.1 訓(xùn)練集與測試集結(jié)果分析
在每個樣本區(qū)間內(nèi)將80%的數(shù)據(jù)劃分為訓(xùn)練集,20%的數(shù)據(jù)劃分為測試集,利用Python軟件進行仿真。我們給出上述5種判別分析算法在一周期的樣本區(qū)間內(nèi)訓(xùn)練集預(yù)測精度指標和測試集預(yù)測精度指標的對照結(jié)果(如3圖所示)。
由圖3可以看到,運用5種判別分析算法預(yù)測共享單車需求波動趨勢,在訓(xùn)練集上的預(yù)測精度指標均優(yōu)于測試集上的預(yù)測精度指標,這是符合常理的。
3.3.2 5種預(yù)測模型測試集結(jié)果比較分析
評價一個預(yù)測模型的優(yōu)劣主要看其在測試集上的預(yù)測精度指標,對共享單車的需求量的預(yù)測結(jié)果進行分析,得到基于5種預(yù)測模型的預(yù)測精度指標對比結(jié)果(如圖4所示)。
對5種預(yù)測模型進行對比,模型預(yù)測精度按從高到低依次排序:從測試集正確率角度來看,隨機森林>貝葉斯判別>k-近鄰>LDA>SVM;從測試集精確度角度來看,隨機森林>LDA>k-近鄰>貝葉斯判別分析>SVM;從測試集召回率角度來看,5種預(yù)測模型預(yù)測精度從高到低依次排序為SVM>隨機森林>貝葉斯判別分析>LDA>k-近鄰;從測試集F1角度來看,隨機森林>k-近鄰>SVM>LDA>貝葉斯判別分析;從5個精度指標的平均值角度來看,隨機森林>SVM>k-近鄰>貝葉斯判別分析>LDA;從預(yù)測模型的穩(wěn)定性角度來看,5種預(yù)測模型預(yù)測結(jié)果穩(wěn)定性程度從高到低依次為k-近鄰、LDA、隨機森林、貝葉斯判別分析、SVM。
因此綜合來看,隨機森林預(yù)測模型預(yù)測精度最高且預(yù)測結(jié)果的穩(wěn)定性較好,得到如下結(jié)論:隨機森林預(yù)測模型在共享單車需求量預(yù)測方面具有最好的效果。
4 研究結(jié)論及預(yù)測結(jié)果
4.1 研究結(jié)論
本文在對共享單車的需求波動特征進行系統(tǒng)梳理的基礎(chǔ)上,針對共享單車的需求波動趨勢預(yù)測問題,把樣本分為2個部分,80%為訓(xùn)練集,20%為測試集,分別構(gòu)建LDA分析、k-近鄰、貝葉斯判別分析、隨機森林、SVM 5種預(yù)測模型。對得到的預(yù)測結(jié)果,分別利用訓(xùn)練集的正確率、精確度、召回率、F1值,以及測試集的正確率、精確度、召回率、F1值等預(yù)測結(jié)果精度指標進行分析,得到如下結(jié)論。
(1)對比5種預(yù)測模型在共享單車的需求波動特征訓(xùn)練集和測試集上的預(yù)測結(jié)果,5種預(yù)測模型整體預(yù)測效果表現(xiàn)良好。
(2)在預(yù)測共享單車的需求波動時,SVM預(yù)測模型預(yù)測精度最高且具有最小的預(yù)測波動性,隨機森林預(yù)測模型具有次高的預(yù)測精度且預(yù)測結(jié)果的穩(wěn)定性較好,但SVM 模型易出現(xiàn)過擬合現(xiàn)象。因此得到如下結(jié)論:在預(yù)測共享單車的需求波動時,隨機森林預(yù)測模型在預(yù)測共享單車的需求波動趨勢預(yù)測方面效果最好。
4.2 隨機森林預(yù)測及結(jié)論分析
4.2.1 模型建立
將時間、共享單車需求量作為輸入變量,下一個星期的共享單車需求量作為輸出變量,建立隨機森林的預(yù)測模型,使用pycharm運行,得出下一個星期的共享單車需求量。
4.2.2 模型求解分析
運行代碼得出圖像如圖5所示。
由圖5可知,2019年3月25—31日的共享單車預(yù)測的需求波動規(guī)律相同,相比3月18—24日的共享單車需求量下降的趨勢,3月25—31日在上午9時左右達到第一次需求高峰時期、下午6~7時達到第二次需求高峰時期,但是整體高峰、低峰及平峰時期的共享單車需求量都比上一個星期少,由此得出下一個星期的共享單車需求量下降。通過對實際數(shù)據(jù)進行分析得出,理論結(jié)果與實際相符。
參 考 文 獻
[1]宋鵬,黃同愿,劉渝橋.基于SVM的共享單車需求預(yù)測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2019(7):187-
194.
[2]蘇影.基于數(shù)據(jù)分析的共享單車動態(tài)調(diào)配優(yōu)化研究[D].北京:北京交通大學(xué),2019.
[3]焦志倫,金紅,劉秉鐮,等.大數(shù)據(jù)驅(qū)動下的共享單車短期需求預(yù)測——基于機器學(xué)習(xí)模型的比較分析[J].商業(yè)經(jīng)濟與管理,2018(8):16-25,35.
[4]史越.共享單車需求預(yù)測及調(diào)度方法研究[D].北京:北京交通大學(xué),2019.