国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的共享單車需求預測

2019-08-17 07:39黃同愿劉渝橋
關鍵詞:需求預測小波單車

宋 鵬,黃同愿,劉渝橋

(1.重慶市住房公積金管理中心, 重慶 401121; 2.重慶理工大學 兩江人工智能學院, 重慶 401135;3.四川大學 計算機學院, 成都 610044)

1 概述

共享單車是指在公共場所不固定使用者的自行車單車共享分時租賃服務,它的出現(xiàn)開啟了共享經濟的時代,解決了城市內“最后一公里”的問題,既解決了資源閑置又方便出行。然而,隨著規(guī)模擴大、用戶增多,各種問題和瓶頸也接踵而至。

首當其沖的是“亂”,共享單車隨用隨取、隨停隨還,但這一特點導致它在發(fā)展的過程中出現(xiàn)亂停亂放現(xiàn)象也只是時間問題,對城市空間的管理以及城市的美化造成了極大的困擾;緊隨其后的是“費”,共享單車的初衷是共用共享、經濟節(jié)約,但一味的擴張、過多的投放量造成了極大的浪費,背離了共享經濟的初衷,必然導致后繼發(fā)展無力;最后是“不均”,共享單車營運是基于廣大用戶,具有顯著的流動性,城市是一個大的場景,各個區(qū)域的單車分布常常出現(xiàn)不均的情況,有的區(qū)域人多車少,有的區(qū)域人少車多,用戶體驗不佳。

要想解決共享單車“亂”與“費”的困局、突破“不均”的枷鎖,實現(xiàn)共享單車平穩(wěn)、有序、健康、綠色、可持續(xù)發(fā)展,根本上是實現(xiàn)供需平衡,即共享單車的投放與用戶的需求相適應、相匹配。而用戶的需求是一個動態(tài)的過程,會隨著各種因素變化而變化,故通過對各因素的分析,用戶需求可呈現(xiàn)一定的可預測性,動態(tài)調整共享單車區(qū)域投放數(shù)量、協(xié)調資源、智能調度,降低運營成本、提高用戶體驗、增強服務質量,對共享單車行業(yè)的可持續(xù)發(fā)展具有重大意義。

共享單車需求預測具有重要意義、良好前景、深遠影響,并且根據(jù)研究現(xiàn)狀,結合已有數(shù)據(jù)進行需求預測具有可行性,許多學者和研究人員在這個研究方向上做出了不懈的努力。

2016年,黃同愿等[1為了對股票價格進行預測,采用了支持向量機以及人工神經網絡進行對比仿真實驗,并通過不同支持向量機核函數(shù)的對比構造了效果較好的預測模型,在一定程度上實現(xiàn)了股票價格的預測。

2017年,張建寬等[2]采用支持向量機以及最小二乘支持向量機預測股票價格的漲跌,并通過實驗仿真證實了支持向量機在股票價格預測場景上預測的可行性,具有較穩(wěn)定的預測效果。

2018年,成波[3]通過機器學習機制進行了校園網絡故障診斷的研究,彌補了傳統(tǒng)方式在故障診斷、自學習能力方面不強的短板,為網絡故障的及時、準確定位提供了重要的支撐保障。

通過這些學者以及研究人員的研究可以看出:在由數(shù)據(jù)支持的預測場景中,采用支持向量機可以達到預測分析目的,因此基本確定了通過支持向量機構建預測模型進行共享單車需求預測的研究路線。

2 需求預測研究理論基礎

2.1 共享單車需求預測實現(xiàn)的原理

共享單車的需求受到各種因素如時間、季節(jié)、節(jié)假日、天氣、溫度、濕度、風速等左右和影響。在一天的時間中,共享單車白天的需求明顯大于夜晚,同時又存在早晚高峰,同天中呈現(xiàn)雙波峰、兩波谷,波段變化的顯著特點;在全年不同季節(jié),又呈春秋兩季高、夏冬兩季低的分布態(tài)勢;同時受其他因素擾動,最終形成迥異的時序需求,具有較大的研究意義。結合各因素數(shù)據(jù)與需求的關系,可以建立行之有效的預測模型,并不斷利用現(xiàn)有數(shù)據(jù)對模型進行訓練與優(yōu)化,強化凸顯數(shù)據(jù)與需求的關系,有效預測后續(xù)需求變化,得出真正需求,做到先知先覺。在實際應用過程中,不僅僅需實現(xiàn)預測,還需盡可能提高預測的準確率以及縮短預測消耗時間,增強時效性與精準性,原理如圖1所示。

圖1 共享單車需求預測原理

2.2 共享單車需求預測實現(xiàn)的步驟

由已知數(shù)據(jù)關系來預測后續(xù)數(shù)據(jù)關系,實現(xiàn)預測的原理,非常符合支持向量機的應用場景,故采用支持向量機來實現(xiàn)預測切實可行。一般地,支持向量機進行預測的實現(xiàn)步驟有4個,依次是數(shù)據(jù)處理(消噪、歸一化、訓測分類)、模型訓練(訓練數(shù)據(jù))、模型測試(測試數(shù)據(jù))、預測實用,是一個動態(tài)遞進的關系。基礎是已知數(shù)據(jù)集,是整個預測過程實現(xiàn)和不斷完善的動力,模型的訓練和測試是實現(xiàn)預測的具體過程,實際應用是預測的結果輸出與價值實現(xiàn),具體實現(xiàn)步驟如圖2所示。

2.3 共享單車需求預測常用算法

由需求預測步驟以及實現(xiàn)原理可知:要想得到更好的預測效果,就必須在每一個步驟、每一個環(huán)節(jié)上采用適合數(shù)據(jù)以及應用場景的算法,如降低數(shù)據(jù)噪聲的小波消噪算法、降低數(shù)據(jù)維度的主成分分析算法、構建預測模型的支持向量機算法。

2.3.1小波消噪

數(shù)據(jù)信號都存在或多或少的噪聲數(shù)據(jù),一方面增加了數(shù)據(jù)體量,增加復雜度、影響時效性;另一方面又對模型構建產生擾動,降低準確率,干擾穩(wěn)定性,數(shù)據(jù)噪聲是一切基于數(shù)據(jù)進行分析過程中首要克服的困難。小波消噪實際上通過短波實現(xiàn)噪音消除,首先對含噪聲信號進行小波變換,然后對變換得到的小波系數(shù)進行某種處理,以去除其中包含的噪聲,最終對處理后的小波系數(shù)進行小波逆變換,得到去噪后的信號[4]。實質上是在小波母函數(shù)伸縮和平移版本所展成的函數(shù)空間中,根據(jù)提出的衡量準則,尋找對原信號的最佳逼近,以完成原信號和噪聲信號的區(qū)分,這一過程實際上就是低通濾波,是一種保留信號特征的低通濾波,不是單純去掉信號,而是尋求信號特征與整體逼近的折中,如圖3為小波消噪原理圖。

2.3.2主成分分析

主成分分析運用統(tǒng)計方法,將存在相關性的變量轉換為不相關的變量。當變量之間具有相關性時,可以認為是對最終結果信息有重疊的影響,會加大后續(xù)分析的復雜性,太過冗余。而主成分分析將具有相關性的變量通過數(shù)學手段變換后進行刪除,重新構造盡可能少的不相關的新變量,同時使這些變量對最終的結果依然具有原來的影響。而根據(jù)共享單車運營數(shù)據(jù)的特點可以發(fā)現(xiàn),主成分分析算法十分適用[5]。

2.3.3支持向量機

支持向量機是一種以結構風險最小化為基礎的凸二次優(yōu)化問題算法,不像以經驗風險最小化原理為基礎的算法一樣得到局部最優(yōu)解,得到的極值解都是全局最優(yōu)解。支持向量機(SVM)是由Vapnik于1992年提出的一種機器學習方法,對于解決小樣本、高維數(shù)、非線性以及局部最優(yōu)解等問題有著顯著效果[6]。

支持向量機的基本思想是通過一個非線性映射,將數(shù)據(jù)集映射到高維特征空間,并在該空間內回歸擬合。

非線性映射函數(shù)表達式為:

根據(jù)表達式可以看出:只需考慮K(xi,xj)=φ(xi)·φ(xj),則K(xi,yj)為核函數(shù),運用不同的核函數(shù)構建的模型具有不同的性能,對不同情況的數(shù)據(jù)具有不同的處理能力。由于支持向量機對非線性數(shù)據(jù)進行分析處理時,往往會通過核函數(shù)映射將非線性數(shù)據(jù)轉化為線性數(shù)據(jù),因此數(shù)據(jù)的復雜度直接決定了核函數(shù)的種類,核函數(shù)的種類又直接影響了最終模型的性能,故而核函數(shù)的選取要根據(jù)數(shù)據(jù)的復雜度及所需達到的分析程度來決定。

核函數(shù)的準確性受自身參數(shù)的影響,設置不同的核參數(shù)會不同程度地影響最終模型的性能,因此在參數(shù)的選取上需要有依據(jù),可以采用較科學的選優(yōu)方式對參數(shù)進行訓練,得到最適合數(shù)據(jù)分析的參數(shù),構建性能最佳的模型[7]。

通過對數(shù)據(jù)以及實際研究需求進行分析,機器學習可以有效構建共享單車需求預測模型,并通過大量數(shù)據(jù)進行訓練,不斷優(yōu)化模型,使需求預測更加準確和迅速。支持向量機可用來構建預測模型,并通過對比基于不同核函數(shù)的支持向量機構建的預測模型從而得到最佳預測模型,并應用于實際中,而需求預測效果主要體現(xiàn)在預測準確率及預測分析消耗時間。

3 數(shù)據(jù)處理

原始數(shù)據(jù)集為某共享單車品牌在某個區(qū)域內需求情況,包含時間、季節(jié)、節(jié)假日、工作日、天氣、實際溫度、體感溫度、濕度、風速、未注冊用戶租借數(shù)、已注冊用戶租借數(shù)、總租借數(shù),共計十二維數(shù)據(jù),數(shù)據(jù)集記錄了由2016年1月起到2017年12月中每個月1號到19號的共享單車運營數(shù)據(jù),其中每日從0點到23點進行24次數(shù)據(jù)記錄,共計10 886條數(shù)據(jù)。

第1列到12列分別為:

datetime:時間

season:季節(jié),1=春,2=夏,3=秋,4=冬

holiday:節(jié)假日,0:否,1:是

workingday:工作日,0:否,1:是

weather:天氣,1:晴天,2:陰天,3:小雨或小雪,4:惡劣天氣(大雨、冰雹、暴風雨或者大雪)

temp:實際溫度,℃

atemp:體感溫度,℃

humidity:濕度,相對濕度

windspeed:風速

casual:未注冊用戶租借數(shù)量

registered:注冊用戶租借數(shù)量

count:總租借數(shù)量

根據(jù)時序序列對整個數(shù)據(jù)集中共享單車的需求進行刻畫,如圖4所示。

由圖4可知:由于每天以及每年的需求量波動類似,呈現(xiàn)周期性、逐年遞增的變化態(tài)勢,根據(jù)這一特性可以將由日期和時間構成的數(shù)據(jù)列進行量化,去除日期,將0∶00—23∶00轉化為0—23,方便后續(xù)模型構建,訓練優(yōu)化。

數(shù)據(jù)集橫向一行為一條數(shù)據(jù),一列為一個數(shù)據(jù)屬性,根據(jù)訓練及測試的要求,以及總的數(shù)據(jù)集體量,可以把10 886條數(shù)據(jù)的前8 583條劃分為訓練集,剩余的2 303條劃分為測試集,既有足夠的數(shù)據(jù)進行模型訓練和優(yōu)化,又有足夠的測試數(shù)據(jù)對模型的有效性進行充分驗證。

3.1 消噪

消除數(shù)據(jù)集無效、異常數(shù)據(jù)稱為數(shù)據(jù)的消噪,數(shù)據(jù)消噪可以減少噪聲數(shù)據(jù)對整個預測模型的擾動,有利于降低模型復雜度,提高預測精度以及降低預測運行時間,強化預測效率,是開始構建模型前應該而且必須進行的步驟。數(shù)據(jù)集含有10 886條數(shù)據(jù),數(shù)據(jù)最小間隔為1 h,在整體圖形上細節(jié)顯示較為明顯,當某個時刻數(shù)據(jù)出現(xiàn)異常時,勢必會影響數(shù)據(jù)的連續(xù)性與科學性,最終作用在預測模型上,產生負面影響。

針對共享單車數(shù)據(jù)的特點,選擇較為科學的小波消噪方法,修剪細節(jié),突出趨勢,保證數(shù)據(jù)的連續(xù)性與科學性[8]。

小波消噪實際上通過短波實現(xiàn)噪音消除,首先對含噪聲信號進行小波變換,然后對變換得到的小波系數(shù)進行某種處理,以去除其中包含的噪聲,最終對處理后的小波系數(shù)進行小波逆變換,得到去噪后的信號,仿真結果如圖5所示。

圖5 數(shù)據(jù)集小波消噪圖

由圖5可以看出:數(shù)據(jù)大體趨勢沒有發(fā)生改變,基本上實現(xiàn)了強化整體、弱化細節(jié)的作用,對于預測模型的構建具有一定的促進作用。

3.2 降維

通過收集到的原始數(shù)據(jù)可以看出:用來進行共享單車需求預測的原始數(shù)據(jù)有12個屬性,同時屬性間并不獨立,相互關聯(lián)影響,具有特征屬性多、相關性強的特點,不利于需求的預測[9]。屬性多即維數(shù)高,相關性強即冗余多,屬性冗余會對分析運算產生干擾,大大增加預測時間及模型復雜度,而屬性的關聯(lián)又會降低模型的可靠性,導致結果不理想,甚至分析失敗。因此,必須精簡特征屬性,降低相關性,這是研究的需要,也是實際情況的選擇,最終目的就是得到既能承載數(shù)據(jù)包含的大部分信息又盡可能多地降低屬性個數(shù),削減數(shù)據(jù)間關聯(lián)度,降低數(shù)據(jù)的維度,否則分析的難度太大,復雜度過高,分析時間太長[10]。

通過對數(shù)據(jù)集進行主成分分析仿真,方差貢獻率及累計方差貢獻率如圖6所示。

圖6 主成分分析結果

通過累計方差貢獻率以及閾值0.85可以將原除去需求標簽以外的11維數(shù)據(jù)集降維為7維數(shù)據(jù)集,設7維分別為y1~y7,并通過特征向量與原數(shù)據(jù)集11維x1~x11對原數(shù)據(jù)集進行重構,則

y1=-0.279x1+0.616 2x2-0.407 3x3-

0.258x4-0.028 7x5-0.105 3x6-

0.121 8x7-0.011x8+0.520 8x9+

0.105 3x10-0.028 6x11

y2=-0.087 1x1+0.337 0x2+0.677 1x3+

0.405 5x4-0.120 5x5+0.051 2x6+

0.029 7x7-0.074 5x8+0.360 9x9-

0.314 6x10+0.056 4x11

y3=0.357 5x1+0.483 2x2+0.035 4x3+

0.029 2x4-0.160 9x5-0.340 1x6-

0.319 6x7+0.064 3x8-0.471 8x9+

0.025x10+0.406 9x11

y4=0.420 2x1-0.032 3x2+0.113 2x3-

0.051 6x4+0.768 4x5-0.075 1x6-

0.086 6x7+0.232 2x8+0.333 5x9+

0.071 5x10+0.181 8x11

y5=0.098 3x1-0.032x2-0.584 8x3+

0.736 1x4+0.051 3x5+0.055 2x6+

0.051 4x7-0.043 8x8+0.081 4x9-

0.242 4x10+0.172 7x11

y6=0.270 1x1-0.383 2x2+0.010 9x3-

0.0463x4-0.285 8x5-0.311 8x6-

0.329 9x7-0.547 6x8+0.399 6x9+

0.117 4x10+0.129 9x11

y7=0.265 7x1+0.161 6x2+0.013 5x3-

0.041 1x4-0.136 7x5+0.483 8x6+

0.4797x7-0.231x8+0.068 5x9+

0.455 5x10+0.3913x11

3.3 歸一化

通過消噪及降維處理后,由于數(shù)據(jù)各屬性之間的量級不同,會造成屬性間的差異,量級大的數(shù)據(jù)屬性會對預測模型產生大的影響,量級小的數(shù)據(jù)屬性則對預測模型沒有太大的影響,不符合實際情況,需要使每個數(shù)據(jù)屬性對最終預測結果有著同等重要的影響,故需要統(tǒng)一各屬性量級,消除量級差異帶來的巨大偏差。

將樣本進行歸一化處理,遵循的公式為[11]:

式中:xi為屬性中的第i個樣本數(shù)據(jù);xmax和xmin為屬性的最大值和最小值。

圖7為10 886行,7列的數(shù)據(jù)集,每1行都可與需求構成關聯(lián)式,用以不斷訓練預測模型。

4 基于支持向量機的預測模型

根據(jù)數(shù)據(jù)集樣本以及實際應用場景,對于共享單車需求預測可采用支持向量機構建模型,但由于采用不同核函數(shù)的支持向量機性能各異,會影響預測模型效果,因此需要分別基于不同核函數(shù)進行仿真實驗,選擇效果最佳的模型。

圖7 歸一化前后效果對比

4.1 支持向量機與核函數(shù)

支持向量機預測實際上是通過映射函數(shù)將非線性的數(shù)據(jù)樣本映射到高維空間,然后回歸擬合,構建模型,實現(xiàn)預測,而映射的函數(shù)、映射空間不同,構建的模型不同,預測的效果也不一,則需要構建多種模型,選取效果最好的模型[12]。

支持向量機的預測過程主要思想就是把原來的低維數(shù)非線性問題轉化成更高維數(shù)的線性問題,從而便于求解,并且由于高維特征空間是通過核函數(shù)來定義和表示的,所以核函數(shù)能決定SVM模型的可靠性,影響最終效果。同時,核函數(shù)的學習過程是通過在線性子空間中計算來解決全局高維數(shù)問題的,類似于分治的思想,并未增加算法的復雜性。

核函數(shù)的選取非常重要,常見的核函數(shù)有[13]:線性函數(shù)K(xi,x)=xi·x;多項式核函數(shù)K(xi,x)=(xi·x+1)d;徑向基核函數(shù)K(xi,x)=exp(-(x-xi)/σ2);多層感知器函數(shù)K(xi,x)=tanh(kxi·x+θ)。

4.2 基于不同核函數(shù)的支持向量機預測模型

由支持向量機的原理可知:核函數(shù)為映射高維空間的法則,不同核函數(shù)造成了不同實際情況下支持向量機模型性能的區(qū)別,要選取符合實際情況的核函數(shù),還需要從實際出發(fā),分別進行實驗,通過對比最終確定。

為選取適當核函數(shù)進行預測,分別用不同核函數(shù)進行仿真對比,如圖8、9、10所示。

圖8 基于線性核函數(shù)的SVM預測結果對比

圖9 基于多項式核函數(shù)的SVM預測結果對比

圖10 基于徑向基核函數(shù)的SVM預測結果對比

線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)三者SVM預測模型的效果對比見表1、2。

表1 各類型核函數(shù)預測模型效果對比

根據(jù)統(tǒng)計學經驗,將預測的效果進行量化,設平均相對誤差率為acc,預測模型得到的預測數(shù)值向量為YC[i],原始數(shù)值向量為YS[i],測試集樣本數(shù)量為n,則平均相對誤差率acc可以表示為

由上式可以看出:平均相對誤差率表示預測值相對于真實值的偏離百分比代數(shù)和的平均值,可以客觀反映預測的效果,將仿真實驗構建的各個預測模型的預測結果進行計算,得到表2。

由平均相對誤差率定義可知:當數(shù)值較小時,表示預測值與真實值的誤差越小,預測值整體越接近真實值,預測效果越佳;當數(shù)值較大時,表示預測值與真實值的誤差越大,預測值整體效果不佳,達不到預測的要求。

表2 需求預測模型誤差率對比

由圖8、9、10以及表1可知:當以徑向基核函數(shù)為支持向量機核函數(shù)時,構建的預測模型均方差最低,只有0.001 672,平方相關系數(shù)最高,有0.968 051,預測需求數(shù)值與實際需求數(shù)值基本上相當,表明該核函數(shù)下的模型最為精準,且這個預測過程耗時只有4.650 7 s,而其他兩種核函數(shù)構成的支持向量機預測模型效果均不如徑向基核函數(shù),尤其是多項式效果比較差,而線性核函數(shù)稍弱于徑向基核函數(shù)。

根據(jù)表2中的誤差率可以看出:基于徑向基核函數(shù)的SVM預測模型效果最好。綜上所述,最終根據(jù)實驗仿真效果,選定基于徑向基核函數(shù)的SVM預測模型進行最終共享單車需求預測。

5 結束語

支持向量機對于分類和預測具有良好的效果,而共享單車的需求預測對于解決共享單車資源浪費、發(fā)展瓶頸、營運規(guī)劃等現(xiàn)存問題具有重要意義,通過現(xiàn)有數(shù)據(jù)結合支持向量機可以有效預測共享單車需求。同時,由于是通過數(shù)據(jù)訓練得到的模型,所以預測結果更加貼近真實情況,更具有實際應用意義。主成分分析及小波消噪算法的引入對預測過程具有促進作用,對于降低模型復雜度、縮減預測消耗時間、提升時效性都具有顯著效果。

通過支持向量機構建的回歸預測模型仿真實驗,模型的精確性、時效性、可靠性較好,適合基于當前數(shù)據(jù)集的需求預測,堅持以數(shù)據(jù)為基礎、以模型為準繩、以需求為目標,逐步優(yōu)化、不斷訓練、反復測試,以期獲得更高的預測精準度。支持向量機構建的預測模型可以實現(xiàn)精準的需求預測,模型的構建是基于總數(shù)為10 886組的數(shù)據(jù)集,是在較小區(qū)域、不長時間、較小流動的情況下收集的數(shù)據(jù),后續(xù)在擴大數(shù)據(jù)范圍、增大輻射區(qū)域、提升數(shù)據(jù)波動的情況下依然有待考證以及繼續(xù)優(yōu)化,需要繼續(xù)探討在更大量數(shù)據(jù)、更復雜情況、更多樣場景下的應用。

猜你喜歡
需求預測小波單車
基于多小波變換和奇異值分解的聲發(fā)射信號降噪方法
共享單車為什么在國外火不起來
構造Daubechies小波的一些注記
飛吧,單車
基于MATLAB的小波降噪研究
基于改進的G-SVS LMS 與冗余提升小波的滾動軸承故障診斷
對惡意破壞共享單車行為要“零容忍”
共享單車(外四首)
基于計算實驗的公共交通需求預測方法
基于灰色理論的山東省能源需求預測及分析
广丰县| 崇州市| 东山县| 吴川市| 清丰县| 汉寿县| 金乡县| 浮梁县| 石林| 龙泉市| 涪陵区| 定襄县| 枣阳市| 镇雄县| 盐池县| 杭锦旗| 嘉荫县| 南漳县| 资中县| 深水埗区| 鸡东县| 黄山市| 临汾市| 甘谷县| 若尔盖县| 全州县| 永春县| 固阳县| 清原| 建阳市| 杂多县| 辉县市| 凌源市| 班戈县| 瑞安市| 巴青县| 玉田县| 东海县| 宁城县| 嘉义市| 宝鸡市|