魏 東, 張?zhí)斓t*, 冉義兵
(1.北京建筑大學(xué)電氣與信息工程學(xué)院, 北京 100044; 2.北京市科學(xué)技術(shù)委員會建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100044)
隨著經(jīng)濟(jì)改革的日趨深入,各類犯罪數(shù)量居高不下,犯罪手段與規(guī)模也在迅速發(fā)展。各類案事件犯罪(如網(wǎng)絡(luò)犯罪、吸毒販毒、搶劫盜竊、沖突糾紛、電信詐騙等)整體呈現(xiàn)出“高發(fā)低破”的態(tài)勢[1]。例如,近幾年犯罪量呈小幅下降趨勢的毒品犯罪案引發(fā)的社會問題仍不可小覷。據(jù)中華人民共和國最高人民法院發(fā)布的2020年司法數(shù)據(jù)顯示,2020年中國共破獲毒品犯罪案件量高達(dá)6萬余起,繳獲毒品量超過55 t,捕獲犯罪嫌疑人9萬余名,相較于2019年分別下降了22.9%、14.8%和18.6%,但毒品犯罪勢態(tài)仍較為泛濫。與此同時,犯罪類型結(jié)構(gòu)隨著時代革新也在逐漸發(fā)生變化。目前以互聯(lián)網(wǎng)、電信等為媒介的非接觸性犯罪正逐漸增多,傳統(tǒng)犯罪加速向網(wǎng)絡(luò)空間蔓延。據(jù)統(tǒng)計(jì),2020年中國檢察機(jī)關(guān)起訴涉嫌網(wǎng)絡(luò)犯罪14.2萬人,同比上升47.9%[2]。網(wǎng)絡(luò)犯罪案件作案手段多樣,犯罪形式隱蔽,特別是利用網(wǎng)絡(luò)實(shí)施的詐騙和賭博犯罪持續(xù)高發(fā),據(jù)司法數(shù)據(jù)顯示,30%以上的網(wǎng)絡(luò)犯罪案件涉及詐騙罪及非法買賣、盜竊、販毒等多類案件,使犯罪防控工作面臨著新的挑戰(zhàn)[3]。
“日常活動理論”是古典犯罪學(xué)中的一種理論[4],該理論將引致犯罪的要素歸為三項(xiàng):具有犯罪動機(jī)的人、適合的目標(biāo)及犯罪監(jiān)管力的缺乏,當(dāng)同時滿足這三要素時,將造成犯罪發(fā)生在特定區(qū)域的概率增加。為解決犯罪和恐怖活動防控問題,中外多個研究機(jī)構(gòu)正在開展犯罪行為預(yù)測方面的研究,從而構(gòu)建犯罪預(yù)測模型。犯罪預(yù)測模型是在建立犯罪歷史數(shù)據(jù)間關(guān)聯(lián)性的基礎(chǔ)上,充分汲取罪犯及受害人提供的信息[5],實(shí)時采集和分析視頻監(jiān)控[6]、通信、網(wǎng)絡(luò)等各類數(shù)據(jù),通過數(shù)據(jù)處理和機(jī)器學(xué)習(xí)等算法將犯罪從發(fā)生到發(fā)展的全過程進(jìn)行還原復(fù)現(xiàn),從而達(dá)到全面反應(yīng)犯罪趨勢的效果。因此,犯罪預(yù)測模型具有巨大的應(yīng)用價值和研究價值。
為此,主要回顧了目前中外犯罪案事件建模和預(yù)測領(lǐng)域的研究成果,在全面綜述案事件預(yù)測系統(tǒng)領(lǐng)域的最新研究成果的基礎(chǔ)上,歸納整理了預(yù)測各類案件所選取的特征屬性,分類分析了不同特征適用的建模方法,并對比了其預(yù)測性能的優(yōu)劣勢,通過系統(tǒng)論述現(xiàn)有研究成果中對犯罪信息的利用及處理方法方面存在的理論與技術(shù)挑戰(zhàn),對未來研究方向進(jìn)行了展望。
犯罪預(yù)測可根據(jù)警方的不同需求分為宏觀預(yù)測和微觀預(yù)測兩類。宏觀預(yù)測主要為公安機(jī)關(guān)制定各類政策以及統(tǒng)籌規(guī)劃服務(wù),而微觀預(yù)測則通過案事件預(yù)測的手段,為特定時間和特定地點(diǎn)內(nèi)的警力資源分配調(diào)控,以及為決策人員提供數(shù)據(jù)支持服務(wù)[7]。案事件預(yù)測方法主要分為兩大類:一類是傳統(tǒng)分析方法,指的是將犯罪數(shù)據(jù)按照嫌疑人特征、時間特征、犯罪地點(diǎn)特征等進(jìn)行數(shù)量統(tǒng)計(jì)比較,并結(jié)合犯罪學(xué)理論相關(guān)方法進(jìn)行分析和預(yù)測。傳統(tǒng)分析方法多采用關(guān)聯(lián)規(guī)則挖掘算法實(shí)現(xiàn),通過支持度和置信度進(jìn)行規(guī)則的篩選[8];另一類是經(jīng)驗(yàn)?zāi)P头?,指的是基于機(jī)器學(xué)習(xí)的方法,訓(xùn)練模型模仿人類決策策略進(jìn)行預(yù)測,通過分析時間、位置、車輛、地址、物理特征和財(cái)產(chǎn)等因素,基于決策樹[9]、神經(jīng)網(wǎng)絡(luò)[10]、支持向量機(jī)[11-12],以及針對犯罪預(yù)測研究的自適應(yīng)調(diào)整[13]等算法進(jìn)行建模,并實(shí)現(xiàn)線下犯罪預(yù)測;此外,對于線上犯罪,犯罪關(guān)聯(lián)[14]、聚類[15]和用于研究網(wǎng)絡(luò)平臺犯罪文本信息的非結(jié)構(gòu)化數(shù)據(jù)情緒分析[16]等算法能夠進(jìn)行網(wǎng)絡(luò)犯罪行為預(yù)測,并揭示利用互聯(lián)網(wǎng)傳播非法信息或惡意代碼的網(wǎng)絡(luò)罪犯身份。
傳統(tǒng)分析法在判斷犯罪案情時,通常需要借助數(shù)據(jù)統(tǒng)計(jì)、統(tǒng)計(jì)比較、關(guān)聯(lián)規(guī)則分析等方法。傳統(tǒng)分析法在犯罪決策時所涉及的犯罪學(xué)和統(tǒng)計(jì)學(xué)方法如圖1所示。
圖1 傳統(tǒng)分析法犯罪決策所涉及內(nèi)容Fig.1 The contents involved in crime decision by traditional analysis method
但在實(shí)踐過程中發(fā)現(xiàn),犯罪案件的形成往往受到各方面因素的共同作用,而傳統(tǒng)分析方法無法做到實(shí)時統(tǒng)籌分析各類影響因素對犯罪的影響及其相互間的作用,從而影響預(yù)測效果。如海量實(shí)時更新的數(shù)據(jù)無法做到即時采集及歸納整合、預(yù)測對象不可控、無法準(zhǔn)確預(yù)測犯罪等[17]。因此,在大數(shù)據(jù)時代傳統(tǒng)分析法不適合廣泛使用,需要借助經(jīng)驗(yàn)分析法進(jìn)行改進(jìn)更新[18]。
經(jīng)驗(yàn)分析法,是以偵查人員的經(jīng)驗(yàn)知識為基礎(chǔ),以機(jī)器學(xué)習(xí)算法為手段,建立犯罪預(yù)測系統(tǒng)[19],其核心是在建立犯罪數(shù)據(jù)間關(guān)聯(lián)性的基礎(chǔ)上進(jìn)行數(shù)據(jù)信息的預(yù)測[20]。經(jīng)驗(yàn)分析法能夠評估復(fù)雜的異質(zhì)數(shù)據(jù),通過逐步將一線執(zhí)法人員的經(jīng)驗(yàn)和犯罪學(xué)理論轉(zhuǎn)化為機(jī)器可處理的特征,能夠更有效地利用專家經(jīng)驗(yàn),從而提高預(yù)測準(zhǔn)確性[21]。
如圖2所示,經(jīng)驗(yàn)分析法的研究方向主要分為兩類,即經(jīng)驗(yàn)?zāi)P秃蜁r空模型,前者側(cè)重于對犯罪特征及相關(guān)屬性進(jìn)行研究,后者則重點(diǎn)分析連鎖犯罪案發(fā)地點(diǎn)及整個時間軸之間的聯(lián)系。
圖2 經(jīng)驗(yàn)分析法分類Fig.2 Empirical analysis classification
犯罪預(yù)測系統(tǒng)可對所收集到的數(shù)據(jù)進(jìn)行研判,如表1[22-29]所示,并預(yù)測出犯罪熱點(diǎn)地區(qū),從而能夠指導(dǎo)公安機(jī)關(guān)分配更多的警力資源來應(yīng)對該地區(qū)潛在犯罪高發(fā)的風(fēng)險。
表1 常用犯罪特征選取[22-29]Table1 Selection of common criminal characteristics[22-29]
隨著預(yù)測系統(tǒng)在公安日常工作中的快速普及,犯罪預(yù)測建模已然是近幾年的研究熱點(diǎn)。指揮官利用時間、地形、氣候及周圍環(huán)境因素對犯罪發(fā)生的可能性進(jìn)行預(yù)測,并將警務(wù)預(yù)測分析與實(shí)踐進(jìn)行有機(jī)結(jié)合至關(guān)重要。Anneleen等[30]證明了兩周一次與每月一次的晝夜預(yù)測差異對最終的預(yù)測性能有決定性的影響。因此,模型需要根據(jù)應(yīng)用背景的具體情況來調(diào)整特定的方法。
對于經(jīng)驗(yàn)?zāi)P投?,在利用基本犯罪特?如作案人特征、人口屬性及社會條件等)的前提下,將其按照引入新特征的不同分為融合基本地理特征模型[31]和媒體網(wǎng)絡(luò)信息模型[32]兩大類。研究人員多采用有監(jiān)督學(xué)習(xí)方法建立此類模型,有監(jiān)督學(xué)習(xí)在訓(xùn)練集中識別事物并尋找規(guī)律后,為測試樣本中的數(shù)據(jù)加標(biāo)簽并使用所得規(guī)律進(jìn)行識別[33]。經(jīng)驗(yàn)?zāi)P图蠢矛F(xiàn)有的經(jīng)驗(yàn)知識來識別犯罪事件,無需利用模型尋找數(shù)據(jù)集中的規(guī)律性,因此使用有監(jiān)督學(xué)習(xí)便可達(dá)到預(yù)測目的[34]。
犯罪場所論與邊界帶理論認(rèn)為,作案人思維中由住所位置、工作(或?qū)W校)地點(diǎn)和商業(yè)購物消費(fèi)圈構(gòu)成的三角區(qū)域的犯罪地圖,是其選擇作案場所的重要依據(jù)[35]?;诘乩硖卣鞯姆椒▽W⒂谧靼傅攸c(diǎn)周圍環(huán)境以及氣候等環(huán)境因素,對案件發(fā)生的概率進(jìn)行預(yù)測[36]?,F(xiàn)有基于地理特征分析預(yù)測犯罪的模型,主要以警用地理信息系統(tǒng)(police geographic information system,PGIS)、犯罪地理目標(biāo)模型(criminal geographic targeting,CGT)及其衍生模型為代表。
PGIS將空間關(guān)系納入犯罪預(yù)測時,現(xiàn)有成果往往利用PGIS,在建模時適用空間自相關(guān)方法進(jìn)行犯罪數(shù)據(jù)的聚類和回歸分析,最終得出犯罪案件或犯罪主體及客體的分布聚集性熱點(diǎn)地帶[37]。然而,城市犯罪數(shù)據(jù)的非高斯分布和多重共線性特征,導(dǎo)致傳統(tǒng)PGIS處理后的犯罪信息覆蓋率及數(shù)據(jù)精度較低,為解決該問題Wang等[38]利用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)模型量化特征參數(shù)對犯罪的影響。此外,為了服務(wù)于不同的警種任務(wù),研究人員仍需在PGIS系統(tǒng)基礎(chǔ)上進(jìn)行多功能開發(fā)。如連環(huán)犯罪事件,作案人會在重復(fù)性犯罪行為中顯露其思維定勢,產(chǎn)生犯罪行為的類似性[39],而傳統(tǒng)PGIS系統(tǒng)缺乏考慮其關(guān)聯(lián)性。
CGT是一種基于地理信息系統(tǒng)的時空分析方法,根據(jù)犯罪地點(diǎn)或其相關(guān)地點(diǎn)在時空分布上存在的規(guī)律,分析推斷出最有可能發(fā)生下次犯罪的位置。方嘉良等[14]利用此模型預(yù)測連環(huán)案件嫌疑人落腳點(diǎn),并在此基礎(chǔ)上采用分段距離遞減函數(shù)模擬罪犯行為路徑,在此基礎(chǔ)上采用灰色關(guān)聯(lián)分析方法[40]對犯罪系統(tǒng)發(fā)展事態(tài)進(jìn)行定量描述。李新光[10]以CGT為基礎(chǔ),結(jié)合模糊反向傳播(back pro-pagation,BP)神經(jīng)網(wǎng)絡(luò)和元啟發(fā)式算法,將作案環(huán)境分為3個模糊集,將搜索區(qū)域面積增加到優(yōu)化前的3倍的同時命中率提高了至少6%以上。
而天氣因素作為基本地理因素常被研究人員所忽略。研究發(fā)現(xiàn)暴力犯罪的發(fā)生概率與氣溫呈正線性關(guān)系,從而證明了天氣因素,尤其是溫度特征,是導(dǎo)致罪犯產(chǎn)生犯罪行為的重要影響因素之一[41]。從歷史犯罪數(shù)據(jù)分布來看,某些時間節(jié)點(diǎn)會導(dǎo)致犯罪數(shù)量趨勢出現(xiàn)或大或小的波動。Sherry等[42]采用自助抽樣法調(diào)用線性回歸,并利用Box-Cox變換對異方差進(jìn)行校正,分析日常犯罪數(shù)據(jù)發(fā)生率,研究結(jié)果證實(shí),引入天氣屬性可以提高模型短期預(yù)測能力,并指出各類犯罪率均依賴于一年之中的特殊時間點(diǎn),如節(jié)假日和工作日。
隨著社交網(wǎng)絡(luò)用戶數(shù)量的快速增長,數(shù)據(jù)平臺中積累了廣泛的信息資源,這些數(shù)據(jù)隱藏的信息可能會促使犯罪的生成,或暴露犯罪意圖及動機(jī)[43-44]。對于犯罪預(yù)測而言,研究人員能夠通過不同的社交平臺獲取特定公共群體的數(shù)據(jù)來提高模型的預(yù)測能力。用于犯罪預(yù)測的社交媒體數(shù)據(jù)主要從Twitter平臺數(shù)據(jù)集中獲取,公開的人群數(shù)據(jù)可以指導(dǎo)預(yù)測犯罪率的變化趨勢。利用Twitter推文預(yù)測犯罪事件的流程如圖3[16]所示。
圖3 利用Twitter預(yù)測犯罪事件的流程[16]Fig.3 The process of using Twitter to predict criminal events[16]
Twitter數(shù)據(jù)中的文本內(nèi)容可以顯露出發(fā)言人積極與消極程度,從而探索犯罪趨勢。因此,Johan等[45]基于Twitter上每日訂閱的文本內(nèi)容,采用OpinionFinder測量積極和消極情緒的程度,然后利用格蘭杰因果關(guān)系分析情緒狀態(tài)對犯罪行為的影響,并采用自組織模糊神經(jīng)網(wǎng)絡(luò)方法建立模型,使得犯罪系統(tǒng)預(yù)測準(zhǔn)確率高達(dá)86.7%,證實(shí)了情緒可以深刻地影響一個人的行為和決策。同樣,Chen等[46]利用文本分析方法研究犯罪預(yù)測,選擇結(jié)合歷史犯罪記錄進(jìn)行核密度估計(jì)(kernel density estimation, KDE),并通過邏輯回歸模型得出較熱天氣環(huán)境下,消極的評論文字容易引發(fā)暴躁情緒,導(dǎo)致暴力犯罪發(fā)生較為頻繁。Wang等[16]考慮到圍繞網(wǎng)絡(luò)社交媒體環(huán)境中的興趣點(diǎn),使用語義角色標(biāo)注(semantic role labeling, SRL)的自然語言處理技術(shù)(natural language processing, NLP),對Twitter中的推文內(nèi)容進(jìn)行自動分析理解,結(jié)合隱狄利克雷分配模型(latent dirichlet allocation, LDA)識別、提取事件中的突出主題,并在該主題上建立線性回歸模型,研究人員通過搜索與正面意見和負(fù)面意見高度相關(guān)的話題,能夠檢測出與情緒極性相關(guān)的犯罪活動。網(wǎng)絡(luò)信息數(shù)據(jù)中描述了犯罪事件的細(xì)節(jié),Das等[47]開發(fā)了一種增量式監(jiān)督學(xué)習(xí)技術(shù),動態(tài)地進(jìn)行在線分類和統(tǒng)計(jì)分析,幫助執(zhí)法機(jī)構(gòu)在實(shí)際工作中針對不同案件類型制定犯罪預(yù)防戰(zhàn)略。
犯罪模式理論認(rèn)為,犯罪者通常選擇他們自己最熟悉的地域,作為自己犯罪活動空間的一部分,而不是冒險進(jìn)入未知的領(lǐng)域,并且,往往犯罪發(fā)生的時間和空間存在緊密聯(lián)系[48],這就是犯罪所具有的近似重復(fù)特性。為了獲得有效的犯罪預(yù)測模型,并對每一種數(shù)據(jù)特征進(jìn)行分析,研究人員引入深度學(xué)習(xí)方法利用多個計(jì)算模型對這些種類繁多的數(shù)據(jù)進(jìn)行處理,對于彼此之間存在關(guān)系的數(shù)據(jù),生成更高層次的知識表示模型[49]。以犯罪學(xué)為基礎(chǔ)的時空特征如表2[50]所示。
表2 以犯罪學(xué)為基礎(chǔ)的時空特征[50]Table 2 A spatio-temporal feature based on criminology[50]
此外,在犯罪學(xué)研究中明確提到[51],犯罪不應(yīng)該被認(rèn)作隨機(jī)事件,其發(fā)生會受到一些周期性因素的影響,從而使犯罪具有周期性。犯罪時空模型在學(xué)習(xí)分析離散案件點(diǎn)的各類因子間隔長度的基礎(chǔ)上,深入探究案件點(diǎn)間內(nèi)部時空自相關(guān)性,進(jìn)而優(yōu)化基礎(chǔ)模型缺乏分析犯罪近似重復(fù)屬性的不足。時空模型專注于對連環(huán)犯罪的整個案件鏈進(jìn)行研究分析,以精準(zhǔn)抓取鏈?zhǔn)装讣?,?shí)現(xiàn)下一個犯罪案發(fā)生的時間地點(diǎn)預(yù)測,從而可幫助公安機(jī)關(guān)對應(yīng)分配警力資源,達(dá)到高效防控的目的。
總體來說,從時空角度將犯罪預(yù)測模型進(jìn)行分類,可分為四類:①單從時間或空間角度進(jìn)行分析預(yù)測;②分別從時間和空間進(jìn)行預(yù)測,并組合結(jié)果;③將事件和空間作為獨(dú)立變量共同作為輸入?yún)?shù)建立模型;④利用時空序列方法挖掘數(shù)據(jù)建立模型。第一種分類往往結(jié)合其他屬性進(jìn)行建模(見第3節(jié)),②、③類通常采用聚類方法建立模型,而相較于前3種,④類則利用時空序列模型更好地顧及了時空自相關(guān)性和時空異質(zhì)性(見4.2節(jié))。
4.2.1 時空聚類分析方法原理
時空聚類分析對于揭示犯罪的變化規(guī)律、發(fā)展趨勢及本質(zhì)特征具有至關(guān)重要的意義[52],其旨是一個無監(jiān)督分類的過程,其根據(jù)相似性準(zhǔn)則將時空犯罪案事件劃分成一系列較為均勻的時空簇,如圖4[53]所示,同一簇內(nèi)犯罪案事件的相似度要盡可能大于不同簇間的相似度,從而分析時空緯度中案件與案件間的相互作用,能夠準(zhǔn)確識別犯罪時空近似重復(fù)模式[54],并確定出控制和預(yù)防犯罪發(fā)生的最佳點(diǎn),能夠?yàn)楣矙C(jī)關(guān)警力部署工作提供有力依據(jù)。在研究自相關(guān)性顯著的連環(huán)犯罪案件類型時,該類模型性能表現(xiàn)突出。
圖4 2016年犯罪時空簇示例[53]Fig.4 Examples of crime clusters in 2016[53]
4.2.2 時空聚類分析方法的應(yīng)用
對在數(shù)據(jù)預(yù)處理階段構(gòu)建時空交互多維框架,是犯罪時空聚類分析的常用方法[55],將空間密度聚類在時空域上進(jìn)行擴(kuò)展,其采用密度作為犯罪案件間相似性的度量標(biāo)準(zhǔn),將時空簇定義為一系列被低密度噪聲分割的高密度連通區(qū)域。隨著城市中兩個區(qū)域地理距離的增加,區(qū)域間在一定時間段內(nèi)的犯罪差異有增大的趨勢,采用時空鄰近域估計(jì)時空犯罪案事件的密度。同時,框架中可以根據(jù)需求選擇不同的時間顆粒,如小時、日、周、月等。時空聚類框架工作流程如圖5[56]所示。
ht為基于不同時間顆粒單位下設(shè)定的時間間隔長度圖5 時空聚類框架的工作流程[56]Fig.5 The workflow of the spatio-temporal clustering framework[56]
針對不同警務(wù)應(yīng)用,研究人員將預(yù)處理所得時空數(shù)據(jù)輸入到對應(yīng)算法模型中。為研究犯罪地圖中各個位置上的熱點(diǎn)屬性,Pukhtoon等[39]按犯罪持續(xù)時間長短細(xì)分為長期熱點(diǎn)和動態(tài)熱點(diǎn),結(jié)合長短期的核密度估計(jì),發(fā)現(xiàn)了長期熱點(diǎn)是熱點(diǎn)地圖的主要組成部分。針對研究盜竊案時空熱點(diǎn)分布規(guī)律和形成問題,李欣竹等[8]將模擬退火的遺傳算法引入到犯罪時空框架中,并通過交叉變異的方法篩選出案發(fā)時空分布密集性較高的區(qū)域,最后采用時空熱點(diǎn)矩陣法對分布成因進(jìn)行了關(guān)聯(lián)規(guī)則的結(jié)果分析。Chandra等[57]利用動態(tài)時間規(guī)整(dynamic time warping, DTW)和Minkowski參數(shù)模型的方法,在不同犯罪地點(diǎn)的不同犯罪序列中尋找相似的犯罪趨勢,并將這些信息用于預(yù)測未來犯罪趨勢。在此基礎(chǔ)上,Li等[58]證明了DTW用于度量連環(huán)案件特征相似性的優(yōu)勢,并結(jié)合信息熵方法精確識別相似的犯罪行動及犯罪對象特征,從而獲取全面的作案過程相似性特征。
4.3.1 時空序列分析方法原理
西方環(huán)境犯罪學(xué)中“二八定律(80/20 Rule)”指出,將近80%的犯罪通常發(fā)生在很小的一塊地區(qū)或時間段內(nèi),且僅與20%的作案者或案件相關(guān)[59],這說明犯罪熱點(diǎn)分布及形成存在規(guī)律性和關(guān)聯(lián)性,該研究基于犯罪熱點(diǎn)形成特點(diǎn)及時空序列規(guī)律,得到完整的犯罪鏈預(yù)測模型。公安機(jī)關(guān)根據(jù)時空序列規(guī)律,在犯罪將要發(fā)生的區(qū)域,加強(qiáng)巡邏工作,重點(diǎn)部署警力資源,達(dá)到精準(zhǔn)防控犯罪的目的。
當(dāng)定量的時間序列在空間上存在相互影響時[60-61],表明這些時間序列具有時空依賴性,便可稱為時空序列[30],時空序列混合預(yù)測建模過程如圖6所示。
圖6 時空序列混合模型的建模流程圖Fig.6 Modeling flow chart of spatio-temporal sequence hybrid model
通常犯罪歷史數(shù)據(jù)中都有犯罪時間點(diǎn)及地點(diǎn)的記錄,所以可以用時空序列的方法進(jìn)行分析,避免單獨(dú)分析時間特征和空間特征后再進(jìn)行結(jié)果的組合而帶來的在時空域中結(jié)果不適用的可能性[62]。犯罪案事件除了自相關(guān)性外,還具有時空異質(zhì)性和時空尺度依賴特性。其中,時空異質(zhì)性表示犯罪時空變量的統(tǒng)計(jì)特征隨時間和空間的演變而變化的;而時空尺度特性表示犯罪時空數(shù)據(jù)在不同的時空粒度上所遵循的規(guī)律及表征不盡相同,利用上述特性探尋犯罪規(guī)律。在時空序列方法建模過程中,時空數(shù)據(jù)在大尺度上表現(xiàn)出犯罪區(qū)域性的總變化,受系統(tǒng)性的大范圍因素影響;而在小尺度上,受局部變異的隨機(jī)因素影響,可以捕捉到犯罪細(xì)節(jié)信息;同時兼顧犯罪時空數(shù)據(jù)在這兩種尺度上的變化特征,全面地綜合時空維度中數(shù)據(jù)局部和整體兩個層次的特征漸變規(guī)律[63]。
犯罪時空序列在兩類空間尺度下可表示為
(1)
(2)
4.3.2 時空序列分析方法的應(yīng)用
現(xiàn)有的犯罪時空序列預(yù)測建模方法大多是在傳統(tǒng)時間建模的基礎(chǔ)上,結(jié)合犯罪數(shù)據(jù)的時空典型的時空序列分析方法有時空自相關(guān)移動平均模型、長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)及其衍生方法。
時間循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM模型常用于城市網(wǎng)格化管理預(yù)測案件數(shù)量,對此陳欒杰等[22]分別采用Box-Jenkins、Auto-ARIMA和LSTM 3種模型進(jìn)行實(shí)驗(yàn)對比,發(fā)現(xiàn)LSTM模型預(yù)測精度較為平穩(wěn),可調(diào)節(jié)參數(shù)多利于優(yōu)化。LSTM模型能夠較好地預(yù)測日盜竊犯罪數(shù)量的變化趨勢,但其對數(shù)量波動較大時段的預(yù)測效果不佳[64]。因此,黃娜等[65]提出了一種基于改進(jìn)LSTM的犯罪態(tài)勢預(yù)測模型,在預(yù)測過程中利用實(shí)際數(shù)據(jù)自動修正網(wǎng)絡(luò),與依賴先前時間步長的預(yù)測值進(jìn)行滾動預(yù)測方法相比,預(yù)測結(jié)果的均方根誤差平均值降低了57.33。
時空自相關(guān)移動平均模型是一個線性模型,劉美霖等[66]針對其只能對平穩(wěn)的時空序列進(jìn)行建模的不足,從算法結(jié)構(gòu)入手,結(jié)合神經(jīng)網(wǎng)絡(luò)預(yù)測犯罪變化趨勢,該混合模型處理了傳統(tǒng)STARMA模型數(shù)據(jù)的不平穩(wěn)性[67],添加了非線性功能,從而提高了模型擬合的精準(zhǔn)性,并且預(yù)測時間單位可根據(jù)實(shí)際需求及時進(jìn)行調(diào)整[68-69]。從優(yōu)化線性函數(shù)角度入手,王尚北等[70]基于樣本數(shù)據(jù)驅(qū)動的空間權(quán)重矩陣建立方法,將建立空間權(quán)重矩陣轉(zhuǎn)換為求解位置系數(shù)方程,以非線性函數(shù)代替線性組合,從而彌補(bǔ)了時空自相關(guān)移動平均模型的不足之處。劉宵婧等[71]將地理加權(quán)回歸(geographically weighted regression, GWR)和時空自相關(guān)移動平均模型結(jié)合,綜合考慮訪問時空分異特征對地區(qū)檢測點(diǎn)相應(yīng)時間的影響,并描述其時空趨勢。
現(xiàn)階段,研究人員致力于通過機(jī)器學(xué)習(xí)算法建立預(yù)測模型,如表3所示,分析大量與案件有關(guān)的數(shù)據(jù),預(yù)測下一次犯罪或犯罪活動將在何處發(fā)生,這些研究主要集中在兩個方面:利用歷史數(shù)據(jù)判斷案件的因果關(guān)系并結(jié)合決策人員經(jīng)驗(yàn)建模(即經(jīng)驗(yàn)?zāi)P?,以及基于時間空間的發(fā)展變化規(guī)律建模(即時空模型)。警務(wù)預(yù)測模型在實(shí)際應(yīng)用時,可以根據(jù)不同的側(cè)重方向從多個視角對犯罪行為進(jìn)行多維度的預(yù)測,使犯罪預(yù)測系統(tǒng)達(dá)到靈活應(yīng)用的目的,從而有針對性地指導(dǎo)警務(wù)工作。
表3 建模方法對比及未來優(yōu)化方向Table 3 Modeling method comparison and future optimization direction
在大數(shù)據(jù)背景下,數(shù)據(jù)的范圍不僅在橫向上聚攏,也在縱向上逐漸深化,執(zhí)法機(jī)構(gòu)利用數(shù)據(jù)分析和建模技術(shù)來預(yù)防及應(yīng)對犯罪比以往任何時候都重要。由于網(wǎng)絡(luò)電信犯罪擁有隱蔽性和智能性的優(yōu)勢變得日益猖獗,對該類犯罪行為進(jìn)行預(yù)測將是未來的重要研究方向。同時,目前國際形勢復(fù)雜,有組織的暴力和恐怖主義有抬頭的趨勢,研究人員應(yīng)利用移動設(shè)備和定位技術(shù)收集現(xiàn)代城市數(shù)據(jù),精準(zhǔn)預(yù)測犯罪軌跡,為犯罪分析研究提供新視角。
當(dāng)前的中外研究還存在一些共性問題,主要體現(xiàn)在以下幾點(diǎn)。
(1)對于低人口密度地區(qū)的犯罪預(yù)測模型,研究人員普遍采用超集成算法進(jìn)行建模,決策規(guī)則依賴于數(shù)據(jù)驅(qū)動,而缺乏理論解釋性,因此不適用于測試個體特征對預(yù)測性能的影響。在未來研究無監(jiān)督學(xué)習(xí)的領(lǐng)域中,可以進(jìn)一步探索高度不平衡分類的其他方法,如奇異值探測和離群點(diǎn)檢測,此類方法不受離群值的影響,在觀測中檢測異常是研究的重點(diǎn)。
(2)對于研究樣本數(shù)量級較小的犯罪類型,由于數(shù)據(jù)限制無法以年為單位進(jìn)行時空分析,隨著時間的推移,犯罪趨勢變化小。例如仇恨犯罪,在未來的研究中可以額外考慮添加種族、經(jīng)濟(jì)和社會變量來擴(kuò)充樣本容量,使用離散全球網(wǎng)格系統(tǒng)(discrete global grid system, DGGS)將仇恨犯罪的點(diǎn)級數(shù)據(jù)引入數(shù)據(jù)框架中相關(guān)聯(lián)后采用空間回歸分析方法[74]。
(3)研究人員對網(wǎng)絡(luò)平臺數(shù)據(jù)的利用普遍拘泥于標(biāo)記詞性和情緒主題建模方面,而缺少對網(wǎng)絡(luò)平臺數(shù)據(jù)文本內(nèi)容的分析,在未來研究中,研究人員可以嘗試深度挖掘文本的語義進(jìn)而提高預(yù)測模型的性能,例如,可通過分析推文的述詞論元結(jié)構(gòu)來提取案件信息和案件參與者。未來可以將成熟的新聞分析程序應(yīng)用于Twitter文本,研究Twitter內(nèi)部的各種網(wǎng)絡(luò)結(jié)構(gòu)(如follower-followee和@-mentions)[43]等。同時,該方法也可以應(yīng)用于其他微博類網(wǎng)絡(luò)平臺,如新浪、騰訊、網(wǎng)易等。
(4)在犯罪相關(guān)性分析中,為保證分析的全面性,研究人員可能會選擇較多特征作為模型輸入,這會導(dǎo)致分析過程的難度和復(fù)雜性增加。由于犯罪概率與其影響因子間具有一定的相關(guān)系數(shù),因此在未來的研究中,可以嘗試?yán)弥鞒煞址治龇╗75]在保證盡可能多的保留原始變量所反映的信息的前提下,用較少的新變量代替原變量。