摘 要:本文在相關(guān)網(wǎng)站是選取了相同時(shí)間段內(nèi)的30輛車(chē),對(duì)相關(guān)數(shù)據(jù)進(jìn)行了預(yù)處理,選取了以擁堵時(shí)間比例作為因變量,一方面單獨(dú)以司機(jī)自身的疲勞駕駛分析,一方面以行駛路程、轉(zhuǎn)向次數(shù)、平均速度以及行駛時(shí)間時(shí)間為影響變量。針對(duì)已經(jīng)整合好的車(chē)輛作為訓(xùn)練集初步建立了基于擁堵時(shí)間的多元線性預(yù)測(cè)模型,然后通過(guò)各指標(biāo)間的多重共線性與顯著性分析,進(jìn)一步建立了非線性逐步回歸作為擁堵時(shí)間預(yù)測(cè)模型。并進(jìn)行兩兩誤差分析對(duì)比,預(yù)測(cè)效果對(duì)比后確定了更為精確的逐步回歸預(yù)測(cè)模型,并對(duì)此提出了該模型優(yōu)缺點(diǎn)以及推廣。
關(guān)鍵詞:數(shù)據(jù)預(yù)處理;非線性逐步回歸;定性與定量分析
一、問(wèn)題分析框架
依據(jù)原始數(shù)據(jù)選取在相同時(shí)間段內(nèi)的30輛車(chē),以擁堵時(shí)間比例作為因變量,依據(jù)特征指標(biāo)的選取原則以行駛路程、轉(zhuǎn)向次數(shù)、平均速度、以及時(shí)間為影響變量。取部分車(chē)輛作為訓(xùn)練集初步建立了多元線性方程,然后進(jìn)行各指標(biāo)間的多重共線性與顯著性分析,進(jìn)行逐步回歸進(jìn)行影響汽車(chē)擁堵的重要指標(biāo)變量得到逐步回歸后的方程。再依據(jù)剩下的部分車(chē)輛數(shù)據(jù)作為測(cè)試集,利用由此得到的擁堵時(shí)間逐步回歸方程得到的預(yù)測(cè)結(jié)果與測(cè)試集因變量進(jìn)行對(duì)比,分析該車(chē)輛擁堵時(shí)間預(yù)測(cè)模型的誤差與均方差,以此得到更加精確的擁堵時(shí)間預(yù)測(cè)模型。
二、問(wèn)題重述
在導(dǎo)航軟件中,行程時(shí)間的估計(jì)往往是一個(gè)重要的功能?,F(xiàn)有的導(dǎo)航軟件往往通過(guò)安裝該軟件的出租車(chē)或其他車(chē)輛來(lái)獲取實(shí)時(shí)GPS數(shù)據(jù)以確定當(dāng)前的道路狀況。在交通嚴(yán)重堵塞的情況下,對(duì)車(chē)速的估計(jì)是不準(zhǔn)確的。
問(wèn)題是如何預(yù)測(cè)交通堵塞的時(shí)間?請(qǐng)收集現(xiàn)有數(shù)據(jù),建立一個(gè)更準(zhǔn)確的模型來(lái)解決這個(gè)問(wèn)題。
三、符號(hào)說(shuō)明
四、模型假設(shè)
(1)假設(shè)擁堵時(shí)間不受天氣因素的影響;
(2)假設(shè)我們所選取的主要的影響指標(biāo)是能大程度概括汽車(chē)安全駕駛行為的;
(3)假設(shè)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后刪除的異常數(shù)據(jù)對(duì)總體數(shù)據(jù)的影響是不計(jì)的。
五、模型準(zhǔn)備
數(shù)據(jù)預(yù)處理:對(duì)于 50 輛車(chē)的預(yù)處理,我們采用對(duì)數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。在這里發(fā)現(xiàn)車(chē)輛左右轉(zhuǎn)向燈幾乎在數(shù)據(jù)中都為零,我們對(duì)這一異常值進(jìn)行了著重處理,利用每一輛車(chē)的方向角,我們制定了轉(zhuǎn)向標(biāo)準(zhǔn)并且結(jié)合經(jīng)緯度在地圖中對(duì)其進(jìn)行了驗(yàn)證,發(fā)現(xiàn)在地圖上的明顯道路轉(zhuǎn)彎處基本和所處理的異常值符合。
(1)在對(duì)車(chē)輛軌跡處理中,我們?cè)趯?duì)應(yīng)的坐標(biāo)下,不同車(chē)輛不同程度上都出現(xiàn)了軌跡偏離現(xiàn)象。我們采用均值濾器進(jìn)行軌跡數(shù)據(jù)異常處理以及清洗。由于車(chē)輛傳感器帶來(lái)的噪聲,所以車(chē)聯(lián)網(wǎng)收集的數(shù)據(jù)并不精確。
(2)對(duì)于異常數(shù)據(jù)處理:通過(guò)對(duì)初始數(shù)據(jù)的整理,發(fā)現(xiàn)在行駛路程為0的情況下,仍然存在著行駛時(shí)間不為0的情況,將此數(shù)據(jù)進(jìn)行刪除。
(3)對(duì)于車(chē)輛轉(zhuǎn)向的數(shù)據(jù)處理:通過(guò)GPS返回的數(shù)據(jù),我們依據(jù)車(chē)輛方向角的變化統(tǒng)計(jì)出車(chē)輛是否進(jìn)行了轉(zhuǎn)向。
六、模型建立
(1)內(nèi)在因素分析:疲勞駕駛處理
疲勞駕駛是駕駛?cè)俗陨淼男袨椋矔?huì)對(duì)交通擁堵造成內(nèi)在的因素,我們?nèi)∏岸v車(chē)進(jìn)行分析??砂l(fā)現(xiàn),駕駛者的疲勞駕駛程度與擁堵率是顯著正相關(guān)的,即代表駕駛者的本身內(nèi)在因素也影響著擁堵時(shí)間的變化。
經(jīng)求解,對(duì)其進(jìn)行t檢驗(yàn),判斷總體P_Value,但這并不能說(shuō)明回歸方程中的每一項(xiàng)都是顯著的,也不能說(shuō)明各項(xiàng)之間完全非共線。
觀察每個(gè)變量的方差膨脹因子VIF,均小于5,即經(jīng)過(guò)問(wèn)題一處理后的因子完全不存在共線性。然后觀察每個(gè)指標(biāo)的P_Value,各個(gè)影響擁堵時(shí)間的特征指標(biāo)都大于0.05,是不顯著的。在這里我們選取行駛路程和轉(zhuǎn)向次數(shù)等這四個(gè)不顯著的因子,取其次數(shù)都為二,然后進(jìn)行逐步回歸分析。
逐步回歸:
步驟1:對(duì)我們所選取的5個(gè)回歸自變量分別同因變量y(擁堵時(shí)間率)建立多元非線性回歸模型。
計(jì)算變量Xi,相應(yīng)的回歸系數(shù)的 F檢驗(yàn)統(tǒng)計(jì)量的值,記為,,取f其中的最大值。
對(duì)給定的顯著性水平,記相應(yīng)的臨界值為,,則將Xi引入回歸模型,記I1為選入變量指標(biāo)集合。
步驟2:建立因變量Y與自變量子集的二元回歸模型(即此回歸模型的回歸元為二元的),共有4個(gè)。計(jì)算變量的回歸系數(shù) F檢驗(yàn)的統(tǒng)計(jì)量值,記為,選其中最大者,記為,對(duì)應(yīng)自變量標(biāo)記為i2。
對(duì)給定的顯著性水平,記相應(yīng)的臨界值為,則變量引入回歸模型。否則,終止變量引入過(guò)程。
步驟3:考慮因變量對(duì)變量子集的回歸重復(fù)步驟2。
依此方法重復(fù)進(jìn)行,每次從未引入回歸模型的自變量中選取一個(gè),直到經(jīng)檢驗(yàn)沒(méi)有變量引入為止。
不難發(fā)現(xiàn),在進(jìn)行擁堵時(shí)間的預(yù)測(cè)上,逐步回歸分析模型相對(duì)線性預(yù)測(cè)模型更加吻合真實(shí)數(shù)據(jù)。
經(jīng)過(guò)對(duì)比:誤差在逐步回歸中得到了明顯改善,提高了該預(yù)測(cè)模型的精確性。
最終得到關(guān)于擁堵時(shí)間的預(yù)測(cè)模型:
七、模型推廣與改進(jìn)
(1)對(duì)于數(shù)據(jù)預(yù)處理過(guò)程中壞值的數(shù)據(jù)記錄,我們可以通過(guò)問(wèn)題建立的擁堵時(shí)間預(yù)測(cè)逐步回歸方程加以求解,完善問(wèn)題中的數(shù)據(jù)樣本,提高模型的可靠性。
(2)按照實(shí)際情況可知,天氣因素必然會(huì)對(duì)擁堵時(shí)間產(chǎn)生一定影響。但是模型中并沒(méi)有體現(xiàn)這一因素,可能受到其同類(lèi)因素的干擾導(dǎo)致顯著性不明顯。
參考文獻(xiàn)
[1]李琦.基于多源數(shù)據(jù)的交通狀態(tài)監(jiān)測(cè)與預(yù)測(cè)方法研究[D].吉林大學(xué),2013年6月.
[2]David Hand,Heikki Mnnila.Padhraic Smyth數(shù)據(jù)挖掘原理[M].張銀奎,廖麗,宋俊等譯.機(jī)械工業(yè)出版社,中信出版社,2004
作者簡(jiǎn)介
張靜茹(1999—),女,漢族,山東泰安市,本科,研究方向:農(nóng)業(yè)APP設(shè)計(jì)與研發(fā)。