涂小萌,陳強(qiáng)國(guó)
(武漢大學(xué) 計(jì)算機(jī)學(xué)院 國(guó)家多媒體軟件工程研究中心,湖北 武漢430072)
基于ARIMA-LSSVM混合模型的犯罪時(shí)間序列預(yù)測(cè)*
涂小萌,陳強(qiáng)國(guó)
(武漢大學(xué) 計(jì)算機(jī)學(xué)院 國(guó)家多媒體軟件工程研究中心,湖北 武漢430072)
對(duì)犯罪時(shí)間序列的預(yù)測(cè)對(duì)幫助公安部門更好地掌握犯罪動(dòng)態(tài),實(shí)現(xiàn)智能犯罪發(fā)現(xiàn)具有重大意義。針對(duì)犯罪時(shí)間序列預(yù)測(cè)的計(jì)算需求,結(jié)合真實(shí)犯罪數(shù)據(jù)集,提出了ARIMA-LSSVM混合模型。該模型通過(guò)ARIMA預(yù)測(cè)出時(shí)間序列的線性部分,通過(guò)PSO優(yōu)化的LSSVM模型預(yù)測(cè)非線性部分,以對(duì)序列進(jìn)行充分?jǐn)M合,最后通過(guò)混合算法計(jì)算最終結(jié)果。使用此混合模型達(dá)到了精準(zhǔn)的預(yù)測(cè)效果,證明了模型的有效性。
犯罪時(shí)間序列;相空間重構(gòu);滑動(dòng)自回歸平均模型;后向傳播神經(jīng)網(wǎng)絡(luò);PSO-LSSVM
高復(fù)雜度、樣本數(shù)據(jù)規(guī)模的持續(xù)增長(zhǎng)是時(shí)間序列的兩大特點(diǎn)[1]。時(shí)間序列預(yù)測(cè)算法是從傳統(tǒng)的以ARIMA模型為核心的線性預(yù)測(cè)算法發(fā)展到以機(jī)器學(xué)習(xí)算法為核心的非線性預(yù)測(cè)算法。線性預(yù)測(cè)算法能夠以較低的計(jì)算復(fù)雜度獲得較為理想的運(yùn)算結(jié)果,非線性預(yù)測(cè)算法能夠很好地逼近任意復(fù)雜度的非線性函數(shù)。而組合預(yù)測(cè)算法針對(duì)同一時(shí)間序列,結(jié)合線性和非線性模型的優(yōu)點(diǎn),可以獲得更佳預(yù)測(cè)效果。
組合預(yù)測(cè)方法由J.M.Bates和 C.WJ.Granger在 1969年首次提出,并廣泛應(yīng)用于各個(gè)領(lǐng)域。如ARIMA模型和SVM算法的組合在預(yù)測(cè)股票走勢(shì)時(shí),預(yù)測(cè)精度與單一模型相比有明顯提高[2]。利用粒子群算法優(yōu)化的 BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,結(jié)合ARIMA和GM灰色預(yù)測(cè)的三個(gè)模型的組合預(yù)測(cè)也證明了其有效性與精確性[3-4]。ARIMA和BP的組合方案被應(yīng)用于海洋流速、城市交通客流量的預(yù)測(cè)中[5-6]。
時(shí)間序列預(yù)測(cè)屬于對(duì)時(shí)間序列規(guī)律的總結(jié)歸納,是犯罪數(shù)據(jù)挖掘的重要應(yīng)用之一[7-8]。在犯罪預(yù)測(cè)領(lǐng)域,國(guó)內(nèi)外學(xué)者進(jìn)行了一系列研究。如對(duì)犯罪預(yù)測(cè)的研究方法的探索[9];通過(guò)相空間重構(gòu)針對(duì)時(shí)間序列進(jìn)行重構(gòu),并使用基于粒子群(Particle Swarm Optimized,PSO)優(yōu)化的最小二乘支持向量機(jī) LSSVM建立犯罪趨勢(shì)預(yù)測(cè)模型[10];使用 SVD算法對(duì)犯罪時(shí)間序列進(jìn)行分解及預(yù)測(cè)[11]等,但單一模型預(yù)測(cè)的精度還有待改善。基于此,如何對(duì)犯罪時(shí)間序列進(jìn)行精確和高效的預(yù)測(cè)成為一個(gè)重要的研究課題。本文提出的混合模型利用ARIMA、LSSVM和組合預(yù)測(cè)法的優(yōu)勢(shì),對(duì)微軟公共犯罪數(shù)據(jù)集進(jìn)行建模與預(yù)測(cè)。通過(guò)仿真實(shí)驗(yàn)得出結(jié)論,ARIMA-LSSVM混合模型與常用的ARIMA-BP混合模型相比,預(yù)測(cè)精確度有明顯提高。
對(duì)于高維時(shí)間序列數(shù)據(jù),在建模之前需對(duì)序列預(yù)先進(jìn)行相空間重構(gòu)PSR處理。
首先對(duì)長(zhǎng)度為N的原始時(shí)間序列 Xt={x1,x2,…,xN}進(jìn)行處理,得到延遲序列 Y(t):
其中,τ稱為延遲算子或采樣算子,m稱為嵌入的維度。
然后建立Y(t)到Y(jié)(t+T)的映射函數(shù)關(guān)系:
其中,Y(t)為原始序列,YF(t+T)為預(yù)測(cè)序列,et為典型噪聲因子。
由式(2)可得:
因此預(yù)測(cè)結(jié)果可以表示為:
ARIMA(Autoregressive Integrated Moving Average Model)模型表達(dá)式為ARIMA(p,d,q)。其中d代表差分次數(shù),p和q分別代表自回歸和移動(dòng)平均系數(shù)。
模型定義如下:
其中,Φ1Φ2…Φp為自回歸系數(shù),Θj(j=1,…,q)為移動(dòng)平均系數(shù)。ut為獨(dú)立高斯噪聲項(xiàng),ut~N(0,σ2)。
引入延遲算子(B):
模型簡(jiǎn)化為:
若xt為非平穩(wěn)序列,通過(guò)差分得到平穩(wěn)序列 zt:
其中,d為差分次數(shù)。
最小二乘支持向量機(jī)LSSVM是結(jié)構(gòu)最小化風(fēng)險(xiǎn)函數(shù)為二次損失函數(shù)的支持向量機(jī)。
支持向量機(jī)分類器的表達(dá)式為:
其中,k=1,…,N;ω為權(quán)重值,b為結(jié)構(gòu)風(fēng)險(xiǎn)規(guī)則。xk為輸入模式,yk為輸出。φ為將輸入數(shù)據(jù)映射到高維特征空間的非線性映射。εk為誤差變量。
對(duì)于最小二乘支持向量機(jī),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,優(yōu)化問(wèn)題為:
其中,γ>0,為正則化參數(shù)。
根據(jù)Karush-Kuhn-Tucker(KKT)條件和Mercer條件,LSSVM的優(yōu)化問(wèn)題轉(zhuǎn)化為求解線性方程,最后得到方程:
其中,Ψ=φ(xk)Tφ(xl),k,l=1,2,…,N。
LSSVM的核函數(shù)徑向基RBF核:
其中,σ為核寬度。RBF內(nèi)核適用于大多數(shù)預(yù)測(cè)問(wèn)題,且效率高,處理速度快。使用粒子群優(yōu)化算法PSO優(yōu)化的LSSVM比傳統(tǒng) LSSVM具有更好的分類效果[12]。
混合模型包括一個(gè)線性模型和一個(gè)或多個(gè)非線性模型。混合模型Zt可以表示為:
其中,Lt和Nt分別為混合模型的線性和非線性成分。
然后用非線性模型LSSVM對(duì)殘差序列進(jìn)行建模:
其中,f(·)為非線性函數(shù),εt-n為 t-n時(shí)刻的殘差,△t為隨機(jī)誤差。
Granger的實(shí)驗(yàn)證明混合模型要取得最優(yōu)預(yù)測(cè)效果,成員模型應(yīng)該是次優(yōu)的[13]。ARIMA模型在短期預(yù)測(cè)中預(yù)測(cè)誤差較小[14],混合模型首先利用 ARIMA獲取較為精確的預(yù)測(cè)序列,與原序列相減得到殘差序列。殘差序列對(duì)應(yīng)于ARIMA無(wú)法解釋的非線性規(guī)律,然后使用LSSVM模型對(duì)非線性部分進(jìn)行建模與預(yù)測(cè)。最后將兩部分的結(jié)果相加得到混合模型最終預(yù)測(cè)結(jié)果。算法框架圖如圖1所示。
圖1 算法框架圖
5.1數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集為 1993年~2009年美國(guó)警方記錄在案的犯罪數(shù)據(jù)[15],實(shí)驗(yàn)環(huán)境為SPSS16.0和MatlabR2011a。
5.2預(yù)測(cè)模型的評(píng)判標(biāo)準(zhǔn)
使用如下統(tǒng)計(jì)量檢驗(yàn)?zāi)P偷臄M合效果和預(yù)測(cè)效果:
其中,Zt、分別為真實(shí)值和預(yù)測(cè)值。MSE和MAPE分別為均方誤差和平均絕對(duì)百分比誤差。n為預(yù)測(cè)樣本個(gè)數(shù)。eMSE和 eMAPE值越小,表明模型的預(yù)測(cè)精度越高。
5.3預(yù)測(cè)模型的參數(shù)選擇
ARIMA模型的參數(shù)根據(jù)自相關(guān)函數(shù)圖ACF和偏自相關(guān)函數(shù)圖PACF進(jìn)行選擇。LSSVM模型使用RBF核函數(shù)和二維柵格搜索方法尋找最優(yōu)核參數(shù)。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為3-10-5-1。
5.4實(shí)驗(yàn)方案
首先對(duì)模型ARIMA、GM、BP、LSSVM進(jìn)行時(shí)間序列建模,計(jì)算其預(yù)測(cè)誤差,結(jié)果見表1。
表1 單一模型的相對(duì)誤差和平均絕對(duì)誤差
結(jié)果表明,ARIMA、BP、LSSVM 3種算法的誤差較小。綜合建模和預(yù)測(cè)效果,選取ARIMA、LSSVM、BP作為對(duì)比模型。
然后使用本文提出的 ARIMA-LSSVM混合模型進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果對(duì)比如圖2所示。橫坐標(biāo)表示時(shí)間序列的序列號(hào)K,縱坐標(biāo)表示對(duì)應(yīng)時(shí)刻的犯罪數(shù)據(jù)。K= 12,13,14時(shí)曲線對(duì)應(yīng)于 2007~2009年的預(yù)測(cè)值。算法預(yù)測(cè)參數(shù)對(duì)比見表2。
圖2 預(yù)測(cè)結(jié)果對(duì)比圖
表2 算法預(yù)測(cè)參數(shù)對(duì)比
實(shí)驗(yàn)結(jié)果表明,ARIMA-LSSVM對(duì)犯罪時(shí)間序列的預(yù)測(cè)誤差 MAPE遠(yuǎn)小于其他預(yù)測(cè)模型,預(yù)測(cè)準(zhǔn)確度也較高。由于單一的線性模型或者非線性模型預(yù)測(cè)具有不穩(wěn)定性,而本文選取的模型充分考慮了時(shí)間序列的平穩(wěn)和非平穩(wěn)性,使預(yù)測(cè)容納更多隱含信息,結(jié)合模型的優(yōu)勢(shì),大大提高了預(yù)測(cè)的穩(wěn)定性和精確性,預(yù)測(cè)的結(jié)果更有實(shí)際意義。
本文使用ARIMA-LSSVM混合模型對(duì)犯罪時(shí)間序列進(jìn)行組合預(yù)測(cè),結(jié)果表明與ARIMA-BP混合模型相比,該模型對(duì)小樣本的犯罪時(shí)間序列具有更高的預(yù)測(cè)精度和有效性。本文屬于針對(duì)時(shí)間信息的歸納與推測(cè),而結(jié)合空間信息和時(shí)間信息的時(shí)空分析與預(yù)測(cè)更能體現(xiàn)犯罪數(shù)據(jù)之間的緊密聯(lián)系,分析結(jié)果包含更多信息,是未來(lái)進(jìn)一步的研究方向。
[1]何書元.應(yīng)用時(shí)間序列分析[M].北京:北京大學(xué)出版社,2004:185-229.
[2]Pai Pingfeng,Lin Chih-Sheng.A hybrid ARIMA and support vector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.
[3]崔吉峰,乞建勛,楊尚東.基于粒子群改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的組合預(yù)測(cè)模型及其應(yīng)用[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,40(1):190-194.
[4]單銳,王淑花,李玲玲,等.基于ARIMA,BP神經(jīng)網(wǎng)絡(luò)與GM的組合模型[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào):自然科學(xué)版,2012,31(1):118-122.
[5]董世超.基于 ARIMA-BP神經(jīng)網(wǎng)絡(luò)模型海流流速預(yù)測(cè)研究[J].中國(guó)科技信息,2014(2):86-88.
[6]劉杰.城市交通樞紐短期客流量的組合預(yù)測(cè)模型[J].交通信息與安全,2014(2):41-44.
[7]Fu Tak-chung.A review on time series data mining[C]. Engineering Applications of Artificial Intelligence,2011,24 (1):164-181.
[8]Yu Chung-Hsien.Crime forecasting using data mining techniques[C].Data Mining Workshops(ICDMW),2011 IEEE 11th International Conference on.IEEE,2011:779-786.
[9]黃超,李繼紅.犯罪預(yù)測(cè)的方法[J].江蘇警官學(xué)院學(xué)報(bào),2011,26(1):107-110.
[10]王少軍.時(shí)間序列預(yù)測(cè)的可重構(gòu)計(jì)算研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[11]JIANG Q,BARRICARTE J J S.A crime rate forecast and decomposition method[J].International Journal of Criminology and Sociological Theory,2011,4(2):648-656.
[12]ALWEE R,SHAMSUDDIN S M,SALLEHUDDIN R. Hybrid support vector regression and autoregressive integrated moving average models improved by particle swarm optimization for property crime rates forecasting with economic indicators[J].The Scientific World Journal,2013 (1):951475.
[13]Yearly time series(1993-2012),provided by Eurostat(website)[DB/CD].https://datamarket.com/data/set/1c05/crimes-recorded-by-the-police#!ds=1c05!vwx=6:6fwj= 3.6.a.11.19&display=l.
[14]陳昌和,李清海,張衍國(guó),等.爐排-循環(huán)床復(fù)合垃圾焚燒爐燃燒過(guò)程模型[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(5):832-835.
[15]Yang Xiaoguang.An empirical study on stock price based on ARIMA model[C].International Conference on Logistics Engineering,Management and Computer Science,LEMCS,2014:273-276.
A hybrid ARIMA-LSSVM model for crime time series forecast
Tu Xiaomeng,Chen Qiangguo
(National Engineering Research Center for Multimedia Software,Computer School,Wuhan University,Wuhan 430072,China)
Forecasting the time series of crime can help public security department better grasp the criminal dynamic and has a great significance in realizing intelligent crime detection.Specific to the computing need of the prediction of crime time series, combining real crime dataset,a hybrid ARIMA-LSSVM model is put forward.This model utilizes ARIMA model predicting the linear component of series and PSO optimized LSSVM model predicting the nonlinear component to fully fitting the series,and computes the final result by using the hybrid algorithm.The great efficiency and accuracy are reached,which proves the validity of the model.
crime time series;phase space reconstruction(PSR);autoregressive integrated moving average(ARIMA);back propagation neural network(BP);PSO-LSSVM
P391;D917.9
A
0258-7998(2015)02-0160-03
10.16157/j.issn.0258-7998.2015.02.040
湖北省重大科技創(chuàng)新計(jì)劃項(xiàng)目(2013AAA020)
2014-12-08)
涂小萌(1992-),女,碩士研究生,主要研究方向:數(shù)據(jù)庫(kù)技術(shù)與數(shù)據(jù)分析。
陳強(qiáng)國(guó)(1975-),通信作者,男,講師,碩士研究生,主要研究方向:安防應(yīng)急信息系統(tǒng),E-mail:chenqg@whu.edu. cn。