秦 佳
數(shù)據(jù)挖掘技術(shù)在公路交通管理系統(tǒng)中的應(yīng)用研究
秦 佳
介紹了用于預(yù)測決策的回歸分析方法,進行預(yù)測決策數(shù)據(jù)挖掘模型設(shè)計,并用公路交通管理系統(tǒng)中違章數(shù)據(jù)進行驗證,得出較優(yōu)的用于公路交通管理預(yù)測決策的數(shù)據(jù)挖掘模型。
數(shù)據(jù)挖掘;預(yù)測決策;回歸分析
數(shù)據(jù)挖掘作為數(shù)據(jù)倉庫技術(shù)的重要應(yīng)用,利用一系列方法,從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識,并對數(shù)據(jù)進行深層分析、挖掘,為企業(yè)提供綜合性分析決策信息。實現(xiàn)數(shù)據(jù)共享,統(tǒng)一分析平臺的數(shù)據(jù)環(huán)境,為高質(zhì)量的決策提供堅實的數(shù)據(jù)基礎(chǔ)。
公路交通管理系統(tǒng)是在原闖紅燈抓拍系統(tǒng)的基礎(chǔ)上,對抓拍的圖片進行后臺管理的系統(tǒng),擴展了對于監(jiān)測不按導(dǎo)向車道行駛、停車壓線、超速等各種違法行為的綜合管理。利用數(shù)據(jù)挖掘技術(shù),對交通違規(guī)車輛數(shù)據(jù)進行分析和處理,初步實現(xiàn)交通違規(guī)車輛管理的分析和管理預(yù)測功能。
利用回歸分析的方法,進行數(shù)據(jù)挖掘,建立包括時間變量在內(nèi)的線性回歸模型。預(yù)測時,輸入任意的時間和自變量,利用回歸模型對目標(biāo)進行預(yù)測。
影響交通管理的因素很多,主要體現(xiàn)在闖紅燈、酒后駕車、無證駕駛、超載、上下班高峰時間、主要地段車流量、路況、天氣等方面。為了優(yōu)化模型,便于數(shù)據(jù)的處理,使之更加貼近實際情況。
采用多元線性回歸的方法建立公路交通管理預(yù)測模型,利用四元線性回歸方程,分析影響因素與公路交通管理預(yù)測之間的線性關(guān)系,從而簡化分析過程,提高系統(tǒng)預(yù)測和決策能力?,F(xiàn)將闖紅燈(rtrl_id)、酒后駕車(drunk driving_id)、上下班高峰時間(time_id)、天氣(climate_id)這四個影響因素作為自變量,利用回歸輸出的連續(xù)變量,用于公路交通管理的預(yù)測。
為了保證數(shù)據(jù)的一致性、有效性和層次性,要有統(tǒng)一數(shù)據(jù)的來源,為數(shù)據(jù)挖掘做準(zhǔn)備。采用某市交通綜合信息數(shù)據(jù)倉庫,作為公路交通管理預(yù)測模型的數(shù)據(jù)來源。利用OLAP技術(shù),將不同的多個點的 POS 系統(tǒng)數(shù)據(jù)及不同類型的數(shù)據(jù),從數(shù)據(jù)庫系統(tǒng)中抽取、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫。在建立好的數(shù)據(jù)倉庫中,將系統(tǒng)網(wǎng)絡(luò)中記錄著來自不同地段的交通基本數(shù)據(jù)(交通的基本信息和車輛的違章細節(jié))集中在一起,作為源數(shù)據(jù),其數(shù)據(jù)類型可為Access、Oracle、SQL Server 及文本文件等。
針對不同的預(yù)測影響因子,對數(shù)據(jù)進行最細粒度的匯總和加工,形成面向多個層面的新的、詳細的數(shù)據(jù)和層匯總數(shù)據(jù),在保證系統(tǒng)運行穩(wěn)定的前提下,使得預(yù)測的主題完善、豐富。而在數(shù)據(jù)倉庫中,存儲的是以季度或月為粒度的當(dāng)前基本數(shù)據(jù)和歷史基本數(shù)據(jù),就要對其按日為粒度作為預(yù)測數(shù)據(jù)的基礎(chǔ),再用于數(shù)據(jù)挖掘。
數(shù)據(jù)預(yù)處理的方法:在事實表中的rtrl_id、drunk driving_id、time_id、climate_id,利用 SQL Server 2000 中建立的 DTS 包,將時間維表與之相關(guān)聯(lián),進行轉(zhuǎn)換處理,提取出所需的時間單位用于預(yù)測模型的計算。
3.1多元線性回歸模型。
設(shè)研究對象受多個因素x1,x2,x3…,xm(自變量)影響,各影響因素與預(yù)測目標(biāo)y(因變量)的關(guān)系是線性的,則其多元回歸線性模型為:
yi=β0+β1xi1+β2βi2+…+βmxim+εi(i=1,2,…,n)
(1)
式中:
yi,xim——預(yù)測目標(biāo)和影響因素的第i組觀測值;
εi——第i組觀測值對yi的隨機誤差;
β0,β1,…,βm——m+1個待估計的回歸參數(shù)。
在多元線性回歸模型中,做如下假設(shè):①y與xj(j=1,2,…,m)之間滿足線性關(guān)系;②xj是確定性變量,且在兩個自變量或多個自變量之間存在線性關(guān)系;③隨機誤差ε服從正態(tài)分布,且ε~N(0,σ2)。
其矩陣形式為:
Y=XB+ε
(2)
式中:
(3)
3.2模型檢驗。
為了判斷多元線性回歸模型所反映的各變量之間的關(guān)系形式是否符合客觀實際,引入的因素是否有效,在將模型用于實際預(yù)測前,需對模型進行檢驗。常用的檢驗方法有R檢驗、F檢驗和t檢驗。
1)R檢驗:R稱為復(fù)相關(guān)系數(shù)或全相關(guān)系數(shù),R的計算公式為:
(4)
R說明x1~xm這一組影響因素與y的相關(guān)程度。利用R進行判別時,根據(jù)回歸模型的自由度n-m和給定的顯著性水平α,從相關(guān)系數(shù)臨界值表中查出臨界值Rα(n-m),若R≥Rα(n-m),表明模型的自變量和因變量間線性相關(guān)關(guān)系顯著,檢驗通過,模型可用于預(yù)測;若R 2)檢驗:用來檢驗整個回歸系數(shù)是否有意義,F(xiàn)的計算公式是: (5) 式中:m——影響因素的個數(shù); n——統(tǒng)計資料的個數(shù)。 F服從第一自由度為m-1,第二自由度為n-m的F分布,給定顯著水平α,查F分布表得Fα(m-1,n-m),如果F>Fα(m-1,n-m),則認為這一組回歸系數(shù)有意義,可以利用所建立的多元線性回歸預(yù)測模型進行預(yù)測;否則認為這一組回歸系數(shù)無意義,所建立的多元回歸模型不成立。 3)t檢驗:R檢驗和F檢驗都是將所有的自變量作為一個整體,來檢驗它們與因變量y的相關(guān)程度以及回歸效果,而t檢驗則是用來對每個回歸系數(shù)是否有意義進行的檢驗。 (6) Cjj—矩陣(X' X)-1主對角線上的第j個元素。 若|tj|>tα/2(n-m),說明xj對y有顯著影響,可用于預(yù)測,反之,說明xj對y無顯著影響,應(yīng)刪除該影響因素,調(diào)整回歸模型。 為了驗證四元線性回歸公路交通管理預(yù)測模型的可行性,選取某市2008—2009年兩年的數(shù)據(jù),按月匯總后的公路管理信息。將2008年數(shù)據(jù)用于建模,2009年數(shù)據(jù)作為模擬數(shù)據(jù),分6組用于評估預(yù)測的正確率。利用Matlab7.0編程分析實現(xiàn)公路管理預(yù)測模型的數(shù)據(jù)挖掘,分別用 R 檢驗、F 檢驗和 t 檢驗法進行模型評估,結(jié)果表明模型合格。并采用平均絕對百分比誤差 MAPE 來評估預(yù)測的精確性,預(yù)測結(jié)果見表1。 (7) 式中:yi——第i期實際值; fi——第i期預(yù)測值。 表1 預(yù)測結(jié)果 一個評價預(yù)測精度的參考標(biāo)準(zhǔn)認為,平均絕對百分比誤差在 20%~50%之間的為可行預(yù)測,高于50%的為良好預(yù)測。通過對線性回歸預(yù)測模型的驗證,總的平均百分比誤差為42.86%,說明此模型用來進行公路交通管理預(yù)測是可行的。但還存在以下不足: (1)回歸分析方法只是用靜止的觀點描述各變量之間的因果關(guān)系,而沒有考慮現(xiàn)實交通活動的動態(tài)發(fā)展。 (2)交通的需求往往是由許多因素綜合決定的,但不可能對所有因素進行建模,而只能考慮其中的一部分,這就已經(jīng)存在著誤差。 [1]徐國祥. 統(tǒng)計預(yù)測與決策[M]. 上海財經(jīng)大學(xué)出版社,2001. [2]包翠蓮,開小明. MATLAB 語言在多元線性回歸中的應(yīng)用[J]. 安徽教育學(xué)院學(xué)報,2005, (3):23. [3]李海宏. 基于企業(yè)數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)挖掘工具的實現(xiàn)[D]. 四川大學(xué),2003. [4]王艷輝,王卓,賈利民等. 鐵路客運量數(shù)據(jù)挖掘預(yù)測方法及應(yīng)用研究[J]. 鐵道學(xué)報,2004, (5):26 . OnApplicationofDataMiningTechnologyinHighwayTrafficManagementSystem Qin Jia The paper introduced the regression analysis method used in the expectation and decision-making. The model the data being used in decision-making is designed. The testing and checking of the rules and regulations has been made and the data mining model applied to the highway traffic management system has been found out . data mining;forecast and decision;regression analysis ClassNo.:TP311.131DocumentMark:A 孔祥春 鄭英玲) 秦佳,碩士,講師,雞西大學(xué)電氣與信息工程系,黑龍江·雞西。郵政編碼:158100 1672-6758(2010)06-0040-2 TP311.131 A4 模型的評估與分析