曹 霽
(南京森林警察學(xué)院基礎(chǔ)部,江蘇 南京 210000)
伴隨著大數(shù)據(jù)時(shí)代的到來,全國各級公安機(jī)關(guān)系統(tǒng)都已基本建立較為完備的犯罪事件數(shù)據(jù)庫,各類犯罪事件的發(fā)生情況和相關(guān)信息都記錄在內(nèi)。但目前關(guān)于這些數(shù)據(jù)更多集中在簡單的應(yīng)用,如查詢、統(tǒng)計(jì)和簡單的分析等。隨著社會(huì)形勢和科技的快速發(fā)展,公安機(jī)關(guān)對犯罪行為的治理早已不僅僅只局限于“治理”,對犯罪現(xiàn)象進(jìn)行系統(tǒng)研究,“預(yù)防”犯罪行為的產(chǎn)生更是公安機(jī)關(guān)的迫切需要。如何利用這些已有的數(shù)據(jù),通過對過去犯罪數(shù)據(jù)的分析,預(yù)測未來一段時(shí)期內(nèi)犯罪事件類型、數(shù)量的變化情況,從而為警力配置和犯罪事件的預(yù)防提供科學(xué)的參考依據(jù),以便更加充分地利用有限的警力資源提高出警效率、精準(zhǔn)打擊犯罪行為,更好地保護(hù)人民群眾的生命和財(cái)產(chǎn)安全,都是非常有必要和意義來進(jìn)行研究的。
時(shí)間序列分析是概率統(tǒng)計(jì)學(xué)科中應(yīng)用性較廣的一個(gè)分支,它廣泛應(yīng)用于金融經(jīng)濟(jì)、氣象水文、信號處理、機(jī)械振動(dòng)等實(shí)際問題中,是一個(gè)具有相當(dāng)高的實(shí)用價(jià)值的應(yīng)用研究領(lǐng)域。時(shí)間序列分析能夠充分利用原時(shí)間序列的各項(xiàng)數(shù)據(jù),運(yùn)算速度快,對模型參數(shù)有動(dòng)態(tài)確定的能力,是一種非常好的短期預(yù)測方法。[1]所謂的時(shí)間序列,指的是同一種現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成的一組數(shù)字序列。觀察這組時(shí)間序列在過去的變化規(guī)律,推斷其以后可能的變化趨勢,從而對該現(xiàn)象的未來進(jìn)行預(yù)測,就是時(shí)間序列分析法。
近年來有關(guān)時(shí)間序列分析在公安數(shù)據(jù)處理中的主要研究主要分為如下三個(gè)方面:
(一)從社會(huì)犯罪的特征出發(fā),探討社會(huì)犯罪統(tǒng)計(jì)的意義,討論犯罪時(shí)間序列分析的意義與方法,提出這一領(lǐng)域的研究方向。代表性論文為國務(wù)院特殊津貼享有者、遼寧警察學(xué)院何平教授的《關(guān)于社會(huì)犯罪統(tǒng)計(jì)理論與時(shí)間序列分析的研究》。該論文為何平教授在意大利佛羅倫薩大學(xué)講學(xué)的內(nèi)容節(jié)選,詳細(xì)系統(tǒng)地講述了犯罪統(tǒng)計(jì)學(xué)理論的理論來源和特點(diǎn),并對犯罪時(shí)間序列分析的研究進(jìn)行了展望。[2]
(二)利用時(shí)間序列分析對具體案件類型的增長趨勢進(jìn)行預(yù)測。如同濟(jì)大學(xué)法學(xué)院單勇、阮重駿發(fā)表的《基于X11方法的盜竊犯罪時(shí)間序列分析》,發(fā)現(xiàn)了溫州市龍灣區(qū)的盜竊類犯罪的時(shí)間分布規(guī)律與季節(jié)變化;由國家“十二五”科技支撐計(jì)劃項(xiàng)目資助的,中國人民公安大學(xué)的陳鵬、趙鵬、瞿珂的《基于時(shí)間序列模型的110警情數(shù)據(jù)預(yù)測研究》;沈齊、范馨月在中國刑警學(xué)院學(xué)報(bào)上發(fā)表的《季節(jié)性ARIMA接警量預(yù)測模型在警情分析中的應(yīng)用》;浙江警察學(xué)院教師韓一士、范英盛、李國軍、鄭滋椀的《基于ARIMA模型的通訊網(wǎng)絡(luò)詐騙犯罪增長趨勢分析——以浙江省衢州市為例》;湖南大學(xué)法學(xué)院屈茂輝、郝士銘《基于ARMA模型的我國財(cái)產(chǎn)類犯罪人數(shù)預(yù)測研究》等等。
(三)通過改進(jìn)時(shí)間序列模型或者利用更加先進(jìn)的統(tǒng)計(jì)分析軟件來更加精確地預(yù)測犯罪態(tài)勢。例如北京工業(yè)大學(xué)的黃娜、何涇沙、孫靖超、朱娜斐的《基于改進(jìn)LSTM網(wǎng)絡(luò)的犯罪態(tài)勢預(yù)測方法》;南京審計(jì)大學(xué)鐘飚、袁夢佳發(fā)表在中國人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版)上的《犯罪時(shí)間序列預(yù)測分析方法研究——以CrimeStat軟件為例》;武漢大學(xué)涂小萌、陳強(qiáng)國發(fā)表在北大核心期刊電子技術(shù)應(yīng)用上的《基于ARIMA-LSSVM混合模型的犯罪時(shí)間序列預(yù)測》;上海交通大學(xué)曾偉華的碩士論文《基于ARMA模型的犯罪事件預(yù)測分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》等等。[3]
目前,利用時(shí)間序列分析的方法在公安數(shù)據(jù)處理方面的應(yīng)用的研究趨勢是充分利用已有的數(shù)據(jù),通過改進(jìn)算法,采用更加先進(jìn)的數(shù)據(jù)處理手段,更準(zhǔn)確、更有效、誤差性更小地預(yù)測犯罪發(fā)展趨勢。下面以故意傷害案件為例,在《中國第三產(chǎn)業(yè)統(tǒng)計(jì)年鑒》上我們可以查到2006—2019年公安機(jī)關(guān)受理故意傷害案件數(shù),2020年的數(shù)據(jù)尚未查到,我們將在這些歷史數(shù)據(jù)的基礎(chǔ)上,構(gòu)建ARMA模型,并對2020—2025年的公安機(jī)關(guān)受理故意傷害案件數(shù)進(jìn)行預(yù)測。
ARMA模型即自回歸滑動(dòng)平均模型,它是模型參量法高分辨率譜分析方法之一。這種方法是研究平穩(wěn)隨機(jī)過程有理譜的典型方法,是研究時(shí)間序列的重要方法。[4]由自回歸模型(簡稱AR模型)與移動(dòng)平均模型(簡稱MA模型)為基礎(chǔ)“混合”構(gòu)成。但它比AR模型法與MA模型法有較精確的譜估計(jì)及較優(yōu)良的譜分辨率性能,但其參數(shù)估算比較繁瑣。在市場研究中常用于長期追蹤資料的研究,如:Panel研究中,用于消費(fèi)行為模式變遷研究;在零售研究中,用于具有季節(jié)變動(dòng)特征的銷售量、市場規(guī)模的預(yù)測等。
ARMA模型參數(shù)估計(jì)的方法很多。如果模型的輸入序列{u(n)}與輸出序列{a(n)}均能被測量時(shí),則可以用最小二乘法估計(jì)其模型參數(shù),這種估計(jì)是線性估計(jì),模型參數(shù)能以足夠的精度估計(jì)出來。
許多譜估計(jì)中,僅能得到模型的輸出序列{x(n)},這時(shí),參數(shù)估計(jì)是非線性的,難以求得ARMA模型參數(shù)的準(zhǔn)確估值。[5]從理論上推出了一些ARMA模型參數(shù)的最佳估計(jì)方法,但它們存在計(jì)算量大和不能保證收斂的缺點(diǎn)。因此工程上提出次最佳方法,即分別估計(jì)AR和MA參數(shù),而不像最佳參數(shù)估計(jì)中那樣同時(shí)估計(jì)AR和MA參數(shù),從而使計(jì)算量大大減少。
所謂的ARMA(p,q)序列指的是:設(shè){Xt,t=0,±1,±2,…}是零均值平穩(wěn)序列,若滿足,其中為零均值、方差為的平穩(wěn)白噪聲,則稱為階數(shù)p,q的自回歸移動(dòng)平均序列,簡稱ARMA(p,q)序列。接下來我們將逐步完成ARMA模型的構(gòu)建及預(yù)報(bào),先開始檢測序列的平穩(wěn)性。[7]
一個(gè)平穩(wěn)的時(shí)間序列可以極大地減少需要分析的隨機(jī)變量的個(gè)數(shù),并相對增加了待估參數(shù)的樣本容量,達(dá)到降低分析難度和提高估計(jì)精度的目的。檢驗(yàn)序列平穩(wěn)性的方法很多,在這里我們采用Daniel檢驗(yàn)。
假設(shè)時(shí)間序列樣本為 χ1,χ2,…χn,其順序統(tǒng)計(jì)量為χ(1),χ(2),…χ(n),若χi=χ(k),則稱Ri=k為χi在樣本中的秩。對于二維變量 (t,Rt),t=1,2,…,n計(jì)算其Spearman相關(guān)系數(shù),并構(gòu)造統(tǒng)計(jì)量。作假設(shè)檢驗(yàn)如下:
H0:序列Xt平穩(wěn);H1:序列Xt非平穩(wěn)。
在該部分,我們將利用AIC準(zhǔn)則,判斷該序列是屬于AR(p)、MA(q),或者ARMA(p,q)模型,并確定階數(shù) p,q。[6]
表1 AIC值結(jié)果
比較可得當(dāng)p=2,q=2,時(shí),AIC值最小,因此我們選用ARMA(2,2)模型進(jìn)行擬合。利用MATLAB軟件建立模型并進(jìn)行預(yù)測,得到的模型為。
利用MATLAB中的lbqtest程序?qū)M合殘差進(jìn)行Ljung-Box檢驗(yàn),檢驗(yàn)結(jié)果h=0,說明殘差序列為白噪聲序列,不存在還未提取的信息,模型通過檢驗(yàn)。
對已知數(shù)據(jù)上述預(yù)測模型的相對誤差,見表2。
表2 模型檢驗(yàn)結(jié)果
可以看出該模型的預(yù)測精度是較高的。
利用forecast程序預(yù)測未來五年公安機(jī)關(guān)受理故意傷害案件數(shù)億次,見表3。
表3 預(yù)測結(jié)果
時(shí)間序列分析是定量預(yù)測方法之一。它包括一般統(tǒng)計(jì)分析(如自相關(guān)分析,譜分析等),統(tǒng)計(jì)模型的建立與推斷,以及關(guān)于時(shí)間序列的最優(yōu)預(yù)測、控制與濾波等內(nèi)容。經(jīng)典的統(tǒng)計(jì)分析都假定數(shù)據(jù)序列具有獨(dú)立性,而時(shí)間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。后者實(shí)際上是對離散指標(biāo)的隨機(jī)過程的統(tǒng)計(jì)分析,所以又可看作是隨機(jī)過程統(tǒng)計(jì)的一個(gè)組成部分。它可以在充分利用歷史數(shù)據(jù)的基礎(chǔ)上,簡單、快速地預(yù)測在未來較短時(shí)間內(nèi)數(shù)據(jù)的變化趨勢,預(yù)測精度高,便于掌握,具有非常廣泛的應(yīng)用領(lǐng)域。
根據(jù)過去幾年公安機(jī)關(guān)受理的故意傷害案件數(shù),利用時(shí)間序列分析來預(yù)測未來幾年公安機(jī)關(guān)受理故意傷害案件數(shù),可以協(xié)助公安機(jī)關(guān)制定更加有效的犯罪防范對策,有效防范相關(guān)犯罪行為的發(fā)生,這是一件非常有意義的工作。