杜益虹 劉世華,2
(1.溫州職業(yè)技術(shù)學(xué)院 信息技術(shù)系,浙江 溫州325035;2.浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州310023)摘 要:國(guó)內(nèi)能夠指導(dǎo)基層公安機(jī)關(guān)工作的犯罪微觀預(yù)測(cè)研究甚少.基于Logistic回歸模型構(gòu)建了一個(gè)犯罪概率預(yù)測(cè)模型,對(duì)模型指標(biāo)體系選取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練等關(guān)鍵問題進(jìn)行了重點(diǎn)研究,并進(jìn)行了理論檢驗(yàn)和實(shí)證分析證明.
?
基于Logistic回歸的犯罪概率預(yù)測(cè)研究
杜益虹1劉世華1,2
(1.溫州職業(yè)技術(shù)學(xué)院信息技術(shù)系,浙江溫州325035;2.浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江杭州310023)摘要:國(guó)內(nèi)能夠指導(dǎo)基層公安機(jī)關(guān)工作的犯罪微觀預(yù)測(cè)研究甚少.基于Logistic回歸模型構(gòu)建了一個(gè)犯罪概率預(yù)測(cè)模型,對(duì)模型指標(biāo)體系選取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練等關(guān)鍵問題進(jìn)行了重點(diǎn)研究,并進(jìn)行了理論檢驗(yàn)和實(shí)證分析證明.
犯罪預(yù)測(cè);犯罪概率;Logistic回歸
目前,我國(guó)正處于公安信息化和“情報(bào)信息主導(dǎo)警務(wù)”深入發(fā)展的關(guān)鍵時(shí)期.在整個(gè)“情報(bào)主導(dǎo)警務(wù)”的工作模式中,犯罪情報(bào)的分析研判是一個(gè)核心環(huán)節(jié)[1],犯罪預(yù)測(cè)則是其中的重中之重.
國(guó)外對(duì)于犯罪預(yù)測(cè)的研究主要采取實(shí)證的方法,通過調(diào)查、數(shù)據(jù)收集、分析、歸納,得出重要的相關(guān)因子,從而揭示犯罪發(fā)生的規(guī)律[2].其多數(shù)偏重微觀預(yù)測(cè)領(lǐng)域并與地理信息結(jié)合起來,對(duì)民警日常工作起到了良好的輔助作用.
我國(guó)犯罪預(yù)測(cè)研究起步較晚,已有對(duì)犯罪預(yù)測(cè)的研究多偏重于“大而全”的宏觀預(yù)測(cè)和長(zhǎng)期預(yù)測(cè),對(duì)短期微觀預(yù)測(cè)重視不夠,并且很多只是一些定性研究或個(gè)人主觀經(jīng)驗(yàn)總結(jié)[3].而短期微觀預(yù)測(cè)是大量基層警務(wù)部門所需要的情報(bào),用戶更多更廣泛,對(duì)推動(dòng)情報(bào)主導(dǎo)警務(wù)有著更為重要的作用[4].
犯罪微觀預(yù)測(cè)主要有累犯預(yù)測(cè)和犯前預(yù)測(cè)[5].重點(diǎn)人員的犯前預(yù)測(cè)和管控歷來是公安工作的一大重點(diǎn),如何在現(xiàn)有警力的基礎(chǔ)上對(duì)大量重點(diǎn)人員進(jìn)行有針對(duì)性地管控,始終是困擾各地公安機(jī)關(guān)的一大難題.
本文提出了一種基于Logistic回歸分析的犯罪嫌疑概率預(yù)測(cè)模型,該模型通過對(duì)一線公安部門已抓獲的犯罪人員的屬性信息和活動(dòng)軌跡等歷史數(shù)據(jù)進(jìn)行清理轉(zhuǎn)換,然后采用Delphi專家分析法和特征提取方法提取出犯罪預(yù)測(cè)的主要技術(shù)指標(biāo),最后采用Logistic回歸分析法構(gòu)建出犯罪嫌疑概率預(yù)測(cè)模型.
該模型將公安情報(bào)信息部門采集的情報(bào)進(jìn)行分析后,能夠得出某個(gè)人犯某種罪的概率,且根據(jù)概率值大小排序,給出某類案件最有可能犯罪的人員名單等信息,以指導(dǎo)公安機(jī)關(guān)的警力部署,提高出警效率和質(zhì)量.
通過該預(yù)測(cè)模型構(gòu)建的智能系統(tǒng)能定期自動(dòng)篩選出一批值得重點(diǎn)懷疑的對(duì)象進(jìn)行重點(diǎn)管控,無疑會(huì)減輕基層民警工作的壓力和減少工作部署的盲目性,從而在一定程度上解決我國(guó)基層警力嚴(yán)重不足的問題.目前該模型在某區(qū)公安情報(bào)信息中心得到了應(yīng)用,并協(xié)助當(dāng)?shù)毓矙C(jī)關(guān)抓獲了數(shù)名重要的犯罪嫌疑人.
早在1928年,美國(guó)芝加哥大學(xué)E·W·伯吉斯教授對(duì)伊利諾斯州三個(gè)矯正機(jī)構(gòu)所假釋的三千名罪犯所作的釋后研究,設(shè)計(jì)了假釋成敗的關(guān)聯(lián)表,形成了伯吉斯犯罪預(yù)測(cè)法.1950年美國(guó)哈佛大學(xué)教授格盧克夫婦提出了格盧克少年犯罪早期預(yù)測(cè)法.近幾十年來,回歸分析、博弈論、人工智能、神經(jīng)網(wǎng)絡(luò)、群集智能、灰色理論、數(shù)據(jù)挖掘等技術(shù)在犯罪預(yù)測(cè)中得到廣泛的應(yīng)用,2010年,美國(guó)警察開始使用一套投資超過110億元的“犯罪預(yù)測(cè)”軟件[6].該軟件可以通過測(cè)定目標(biāo)對(duì)象的臉部特征、言行舉止、個(gè)人經(jīng)歷、社會(huì)關(guān)系、習(xí)慣嗜好、結(jié)交圈子等,來精確測(cè)定哪些是犯罪嫌疑人,幫助警方提前預(yù)警.
學(xué)術(shù)上,Hsincbun[7]利用聚類分析,識(shí)別具有相似犯罪行為的犯罪嫌疑人.Ma[8]等人為了發(fā)現(xiàn)大量案件數(shù)據(jù)集中作案特征相似的案件,提出了兩階段的聚類算法AK-Modes,首先使用信息增益率(IGR)計(jì)算與該犯罪嫌疑人相關(guān)的案件的作案特征的屬性權(quán)值,然后將重新設(shè)定好權(quán)值的屬性利用聚類算法運(yùn)行得到相似的案件集合.Bruin[9]等人開發(fā)了一個(gè)用于決策犯罪嫌疑人行為趨勢(shì)變化的工具,主要考慮了犯罪類別、犯罪頻率、持續(xù)時(shí)間、嚴(yán)重程度這四個(gè)因素,并應(yīng)用新的距離度量公式計(jì)算嫌疑人個(gè)體之間的相似程度,從而實(shí)現(xiàn)聚類的效果.Jin[10]等人從已知的犯罪嫌疑人員信息表以及其犯罪程度,采用決策樹算法對(duì)嫌疑人犯罪風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè).Xu[11]利用社會(huì)關(guān)系網(wǎng)絡(luò)分析,通過構(gòu)建由犯罪嫌疑人之間的角色和關(guān)系組成的社會(huì)關(guān)系網(wǎng)絡(luò),分析該網(wǎng)絡(luò)可挖掘出的關(guān)鍵人物以及犯罪團(tuán)伙等.LDing[12-13]等人首先開發(fā)了LETS((Law Enforcement Tactical System)和Relation Finder的社會(huì)網(wǎng)絡(luò)分析系統(tǒng),并在此基礎(chǔ)之上提出了“PerpSearch”的嫌疑人預(yù)測(cè)系統(tǒng),該系統(tǒng)綜合考慮包括犯罪地點(diǎn)、犯罪類型、嫌疑人的外形描述等犯罪信息.由于國(guó)家安全和技術(shù)保密等原因,國(guó)內(nèi)無法直接利用其成果.
國(guó)內(nèi)犯罪預(yù)測(cè)研究多為經(jīng)驗(yàn)預(yù)測(cè),進(jìn)入21世紀(jì)后才逐步采用了數(shù)理分析的方法,目前主要采用的有回歸分析法、灰色系統(tǒng)理論分析法、最優(yōu)組合分析法等[14].如魏智遠(yuǎn)采用三元法對(duì)刑事案件進(jìn)行了非線性回歸分析[15];韋立華、朱德林提出了犯罪預(yù)測(cè)的動(dòng)態(tài)回歸分析方法[16];劉曉娟、高連生等采用灰色系統(tǒng)理論的分析方法對(duì)刑事案件進(jìn)行了動(dòng)態(tài)分析[17];李明等采用優(yōu)化組合預(yù)測(cè)方法對(duì)犯罪量進(jìn)行了動(dòng)態(tài)預(yù)測(cè)[18];黃超等人對(duì)影響盜竊案件的結(jié)構(gòu)因素的重要度進(jìn)行分析,提出了事故樹預(yù)測(cè)方法[19].但國(guó)內(nèi)這些犯罪預(yù)測(cè)研究多偏重于宏觀領(lǐng)域,為決策者提供某地區(qū)某時(shí)段某類案件的發(fā)展趨勢(shì),對(duì)基層民警的工作指導(dǎo)意義不明顯.
本文采用Logistic回歸分析方法來構(gòu)建一個(gè)犯罪嫌疑概率預(yù)測(cè)模型,此模型主要解決以下三個(gè)問題:指標(biāo)體系選取問題;特征指標(biāo)的量化、數(shù)值化等數(shù)據(jù)預(yù)處理問題;模型訓(xùn)練構(gòu)建問題.
2.1指標(biāo)體系選取
犯罪微觀預(yù)測(cè)系統(tǒng)需要詳細(xì)分析每一種高發(fā)且容易重犯的犯罪行為的歷史數(shù)據(jù),細(xì)究每項(xiàng)數(shù)據(jù)在其犯罪結(jié)果的占比情況,剔除離散的數(shù)據(jù),挑選幾項(xiàng)關(guān)鍵影響因子組成該類犯罪行為的判斷元素.
我們采用Dephi法收集了公安各部門專家的實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),并通過對(duì)獲取的數(shù)據(jù)資料進(jìn)行了數(shù)理統(tǒng)計(jì)分析,得出可用于統(tǒng)計(jì)和預(yù)測(cè)的數(shù)據(jù)包括人員的屬性信息,活動(dòng)軌跡信息和前科記錄信息三大類.每類信息中包含若干指標(biāo),如人員屬性中的性別、年齡、民族、職業(yè)等,具體如圖1所示.
圖1 犯罪嫌疑概率預(yù)測(cè)模型的指標(biāo)體系
2.2指標(biāo)數(shù)據(jù)預(yù)處理
從公安部門獲得的原始數(shù)據(jù)來源各異,表示方式也不同,還有很多字段值缺失,為了保證模型的可靠性和效率,必須對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,主要的處理工作包括如下幾類.
(1)數(shù)值化賦值
數(shù)值化賦值一般對(duì)采集數(shù)據(jù)中的活動(dòng)軌跡等數(shù)據(jù)采用連續(xù)函數(shù)進(jìn)行轉(zhuǎn)換和歸集,同時(shí)也可結(jié)合部分?jǐn)?shù)據(jù)統(tǒng)計(jì)信息對(duì)采集的一至多項(xiàng)離散數(shù)據(jù)進(jìn)行數(shù)值化賦值.
對(duì)于活動(dòng)軌跡和前科記錄中的時(shí)間特征,根據(jù)越是近期發(fā)生的軌跡越有參考意義,故采用如下連續(xù)函數(shù)作為時(shí)間轉(zhuǎn)換函數(shù):
(1)
其中t為軌跡發(fā)生的時(shí)間(前科以年為單位,工作以月為單位,生活以天為單位),t0為當(dāng)前時(shí)間.比如對(duì)象盜竊前科記錄的時(shí)間在半年之前,則這條前科軌跡記錄可賦值為:p=e-0.5=0.61,而如果是1年前,則p=e-1=0.37.
當(dāng)數(shù)據(jù)表中有多條軌跡記錄時(shí),可采用多次累積的方法以體現(xiàn)其重要性,即采用公式(2)進(jìn)行累加計(jì)算:
(2)
其中km為專家設(shè)定的放大系數(shù), m為前科軌跡條數(shù).比如對(duì)象有兩次盜竊前科,記錄時(shí)間在半年和一年之前,則其前科記錄賦值為:1.5x(e-0.5+e-1)=1.47.
對(duì)于有后驗(yàn)統(tǒng)計(jì)概率的特征變量,如旅館入住時(shí)段、網(wǎng)吧入住時(shí)段,根據(jù)統(tǒng)計(jì)可知一些罪犯的入住旅館高危時(shí)段,比如23∶00-24∶00時(shí)段內(nèi)盜竊犯罪分子入住該旅館的歷史統(tǒng)計(jì)數(shù)據(jù)為30%,非犯罪分子為5%,這個(gè)時(shí)段即為盜竊罪犯高危入住時(shí)段.其賦值采用如下公式近似表示:
(3)
其中k1(t)為該案件類型該時(shí)段內(nèi)犯罪分子入住旅館的比例,k2(t)為該案件類型該時(shí)段內(nèi)正常非犯罪的人入住旅館的比例.則上述高危時(shí)段記錄入住記錄的賦值為:k1=0.3, k2=0.05,μ=e0.3-0.05=1.28
其他字段的賦值可采用類似函數(shù)處理.
(2)數(shù)據(jù)歸約
數(shù)據(jù)歸約的策略主要有數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層.
對(duì)于維歸約可采用下述的共線性檢測(cè)或主成分分析等其他屬性選擇方法進(jìn)行指標(biāo)篩選.對(duì)于如年齡這樣的字段,由于原始數(shù)據(jù)中是按每1歲進(jìn)行統(tǒng)計(jì)的,在Logistic分析中對(duì)犯罪概率的預(yù)測(cè)沒有必要精確到一歲,因此可以將其分為幾個(gè)大的年齡段,如年齡可分為少年、青年、中年、老年等幾組即可.
(3)缺失值處理
數(shù)據(jù)采集的缺失幾乎是不可避免的,公安情報(bào)信息中的數(shù)據(jù)缺失現(xiàn)象尤為嚴(yán)重,據(jù)統(tǒng)計(jì),對(duì)于個(gè)人信息的采集,有些數(shù)據(jù)的缺失率達(dá)到60%以上,而對(duì)于任何數(shù)據(jù)分析、數(shù)據(jù)挖掘、評(píng)估決策系統(tǒng)而言,數(shù)據(jù)缺失都將對(duì)系統(tǒng)效能產(chǎn)生負(fù)面影響.
缺失值處理一直是數(shù)據(jù)分析與數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究難題,目前常見的處理方法有簡(jiǎn)單丟棄、插補(bǔ)和不處理三種方法.將含有缺失值的記錄簡(jiǎn)單丟棄通常在樣本數(shù)據(jù)量較大而缺失值較少的情況下使用;不處理缺失值直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘,這類方法通常在貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)中可用,但對(duì)于很多的模型都將影響到模型的準(zhǔn)確性和可用性.插補(bǔ)是目前缺失值處理中最常用的方法,其具體算法也非常多,根據(jù)數(shù)據(jù)模型的不同,可以采用人工填充、特殊值/缺省值填充、眾數(shù)/均值填充、熱卡填充以及其他眾多的統(tǒng)計(jì)和數(shù)據(jù)挖掘算法來進(jìn)行填充,如回歸法、關(guān)聯(lián)規(guī)則法、極大似然法、EM算法、MCMC算法、C&RT算法、多重插補(bǔ)法、Gibbs抽樣法等.
對(duì)犯罪預(yù)測(cè)模型構(gòu)建中所采用的數(shù)據(jù)集,根據(jù)各字段性質(zhì)和缺失狀況不同,主要采用人工填充、特殊值填充、關(guān)聯(lián)規(guī)則填充和C&RT算法填充幾種,如對(duì)于人員身份(缺失19.82%)、婚姻狀況(缺失0.3%)、從事職業(yè)(缺失9.11%)等分類數(shù)據(jù),直接采用一個(gè)“未知”類別進(jìn)行填充;而對(duì)于高危時(shí)段上網(wǎng)次數(shù)、高危時(shí)段住宿次數(shù)、前科次數(shù)等,缺失比例達(dá)到67.6%~85.5%,對(duì)于缺失數(shù)據(jù)我們只能當(dāng)成是未發(fā)生這些敏感事件,缺失值直接賦值為“0”.而對(duì)于民族數(shù)據(jù),由于知道其籍貫地,針對(duì)不同籍貫地其屬于不同民族的概率不一樣,如來自西藏的人屬于藏族的居多,因此可根據(jù)關(guān)聯(lián)填充民族為“藏族”.
2.3Logistic回歸模型
Logistic回歸模型是一種廣義線性模型[20],廣泛應(yīng)用于流行病學(xué)的疾病預(yù)測(cè)和經(jīng)濟(jì)預(yù)測(cè)領(lǐng)域.最典型的應(yīng)用如通過病患者的各種屬性和癥狀,預(yù)測(cè)出患者得某種病的概率是多少.而這種狀況與犯罪微觀預(yù)測(cè)中通過嫌犯的各類屬性和活動(dòng)信息(類似疾病癥狀)來預(yù)測(cè)其犯罪的概率多少是基本相同的,因此,我們可以利用Logistic回歸模型來預(yù)測(cè)犯罪概率.
設(shè)因變量Y是一個(gè)二分類變量,其取值為Y=1(表示犯罪)和Y=0(表示不犯罪).
影響Y取值的m個(gè)自變量分別為X1,X2,…,Xm.在m個(gè)自變量(即暴露因素)作用下陽性結(jié)果(即犯罪)發(fā)生的條件概率為
(4)
采用Logistic變換,令logit(P)= ln[P/(1-P)],則Logistic 回歸模型為:
(5)
經(jīng)數(shù)學(xué)變換后,logistic回歸模型可表示為:
(6)
其中,β0為常數(shù)項(xiàng),β1,β2,…βm為偏回歸系數(shù).
令Z=β0+β1X1+β2X2+…+βmXm,則Z與P之間關(guān)系的logistic曲線如圖2所示.
圖2 Logistic回歸模型曲線
從圖中可看出,當(dāng)Z趨于+∞時(shí),P值漸進(jìn)于1;當(dāng)Z趨于-∞時(shí),P值漸進(jìn)于0;P值的變化在0~1之間并且隨Z值的變化以點(diǎn)(0,0.5)為中心成對(duì)稱S形變化.
2.4犯罪概率預(yù)測(cè)的Logistic回歸模型構(gòu)建
采用公安部門采集的747條嫌犯記錄,其中犯罪的記錄有377條,對(duì)照組無犯罪的記錄370條,通過數(shù)值填充、缺失值處理、數(shù)據(jù)歸約與轉(zhuǎn)換等預(yù)處理過程,去除掉帶明顯錯(cuò)誤的極值或離群值的記錄,剩余701條記錄作為訓(xùn)練集.
數(shù)據(jù)處理和Logistic建模采用IBM SPSS Modeler17.0軟件平臺(tái).訓(xùn)練處理流程如圖3所示.
模型訓(xùn)練采用簡(jiǎn)單的二項(xiàng)式進(jìn)入法(Enter)簡(jiǎn)單模式訓(xùn)練法,經(jīng)訓(xùn)練分析,模型最終選定了文化程度、從事職業(yè)、關(guān)系人前科次數(shù)、民族、前科類型、高危時(shí)段上網(wǎng)次數(shù)、高危時(shí)段入住次數(shù)、年齡、婚姻狀況、身高等12個(gè)指標(biāo)參數(shù)作為預(yù)測(cè)變量.預(yù)測(cè)變量的重要性如圖4所示.
從模型訓(xùn)練過程可以看出,因變量?jī)?nèi)部編碼與原始編碼一致,自變量如民族、前科類型、從事職業(yè)、文化程度等名義變量進(jìn)行了分類變量的編碼轉(zhuǎn)換,如圖5所示.
經(jīng)過13次迭代運(yùn)算,模型參數(shù)逐漸收斂到穩(wěn)定值,于是我們得到最終模型參數(shù).由于篇幅和保密原因,最終獲得的模型公式不具體列出,參數(shù)截取部分如圖6所示.
利用最終的logistic 模型,可以對(duì)因變量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果分類表如表1所示.從表1可以看出,嫌疑指數(shù)中觀測(cè)值為0的359條記錄中,預(yù)測(cè)值有334個(gè)0和25個(gè)1,預(yù)測(cè)正確率為93%,觀測(cè)值為1的342條記錄中,預(yù)測(cè)值有325個(gè)1,17個(gè)0,正確率為95%,整體預(yù)測(cè)正確率為94%,預(yù)測(cè)正確率達(dá)到相當(dāng)高的水平,說明模型具有良好的實(shí)用性.
圖3 SPSS Modeler中Logistic回歸模型訓(xùn)練流程
圖4 模型中使用的預(yù)測(cè)變量重要性
圖5 自變量分類變量編碼示例
圖6 公式中的部分變量參數(shù)
表1最終模型的預(yù)測(cè)分類表
observedPredicted嫌疑指數(shù)01PercentageCorrectStep1嫌疑指數(shù)03342593.011732595.0OverallPercentage94.
2.5模型的檢驗(yàn)
針對(duì)步驟、模塊和模型開展模型系數(shù)的綜合性檢驗(yàn).表2的模型系數(shù)的混合檢驗(yàn)給出了卡方值及其相應(yīng)的自由度、顯著性指標(biāo)即Sig值.取顯著性水平0.05,考慮到自由度數(shù)目df=55,可計(jì)算出卡方臨界值為73.31,當(dāng)前卡方值765.773遠(yuǎn)大于臨界值,檢驗(yàn)通過.
表2模型系數(shù)的混合檢驗(yàn)
Chi-squaredfSigStep1Step765.77355.000Block765.77355.000Model765.77355.000
表3的模型摘要(Modle Summary)給出最大似然平方的對(duì)數(shù)、Cox-Snell 擬合優(yōu)度以及Nagelkerke 擬合優(yōu)度值,最大似然平方的對(duì)數(shù)值(-2loglikelihood=205.607)用于檢驗(yàn)?zāi)P偷恼w性擬合效果,該值在理論上服從卡方分布,上面給出的卡方臨界值為73.31,因此,最大似然對(duì)數(shù)值檢驗(yàn)通過.
表3模型摘要
Step-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1205.603a.665.886
似然比函數(shù)的自然對(duì)數(shù)值對(duì)樣品數(shù)目很敏感,作為補(bǔ)充和參照,我們需要Hosmer-Lemeshow 檢驗(yàn).如表4,取顯著性水平0.05,考慮到自由度數(shù)目df=8,計(jì)算得臨界值為15.507,作為Hosmer-Lemeshow檢驗(yàn)的卡方值4.730<15.507,檢驗(yàn)通過.
表4模型的Hosmer-Lemeshow 檢驗(yàn)
StepChi-squaredfSig.14.3518.824
在實(shí)戰(zhàn)應(yīng)用中,采用上述獲得的Logistic回歸分析模型開發(fā)了一個(gè)預(yù)測(cè)軟件,對(duì)犯罪信息進(jìn)行預(yù)測(cè)打分,根據(jù)得分的高低來預(yù)測(cè)其犯盜竊罪的概率,其中得分值超過0.5的認(rèn)為有可能犯罪.通過對(duì)計(jì)算出來的概率進(jìn)行排序并結(jié)合人工篩查,對(duì)排名較高的嫌疑人進(jìn)行重點(diǎn)查控,指導(dǎo)公安機(jī)關(guān)抓獲犯罪嫌疑人數(shù)名.
本文利用上述模型對(duì)新采集的93條記錄數(shù)據(jù)(其中犯罪記錄74條,未犯罪記錄19條)進(jìn)行了預(yù)測(cè)驗(yàn)證分析,結(jié)果正確率達(dá)到97.85%,只有2條記錄預(yù)測(cè)錯(cuò)誤,且兩條記錄均來自未犯罪記錄中誤判為有犯罪傾向(一條得分0.656,一條為0.986).
從實(shí)驗(yàn)檢驗(yàn)結(jié)果和實(shí)戰(zhàn)效果來看,本文基于Logistic回歸分析構(gòu)建的犯罪概率預(yù)測(cè)模型預(yù)測(cè)準(zhǔn)確度高,對(duì)公安部門提高犯罪打擊的針對(duì)性有一定的指導(dǎo)作用.
本文采用Logistic回歸分析方法來構(gòu)建一個(gè)犯罪嫌疑概率預(yù)測(cè)模型.通過實(shí)證數(shù)據(jù)分析可知,模型具有一定的實(shí)戰(zhàn)指導(dǎo)意義.
模型構(gòu)建中的主要難點(diǎn)在于采集的原始數(shù)據(jù)有限,且數(shù)據(jù)采集質(zhì)量較差,本文通過一定的手段對(duì)數(shù)據(jù)進(jìn)行修正、轉(zhuǎn)換和填充.同時(shí),由于數(shù)據(jù)采集的限制和模型構(gòu)建過程中的數(shù)學(xué)檢驗(yàn),模型構(gòu)建之初通過專家分析出來的所有指標(biāo)并未全部使用上.關(guān)于測(cè)試數(shù)據(jù)集得出的較好的結(jié)果,有可能有一定的巧合成分,我們所采集的犯罪數(shù)據(jù)可能會(huì)有一定的同質(zhì)性傾向.
實(shí)戰(zhàn)中,隨著犯罪數(shù)據(jù)的增加,所建立的模型需要進(jìn)一步的改進(jìn)和學(xué)習(xí),通過反饋進(jìn)行指標(biāo)調(diào)整和重新訓(xùn)練.
[1]馬忠洪.我國(guó)犯罪情報(bào)分析研判研究述評(píng)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011(4):75-83.
[2]李繼紅,黃超.中外犯罪預(yù)測(cè)比較研究[J].學(xué)理論,2010(29):155-156.
[3]趙軍.我國(guó)犯罪預(yù)測(cè)及其研究的現(xiàn)狀、問題與發(fā)展趨勢(shì)--對(duì)”中國(guó)知網(wǎng)”的內(nèi)容分析[J].湖南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011(5):155-160.
[4]王欣.治安預(yù)測(cè)方法與技術(shù)比較研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(3):29-35.
[5]陳岳.試論犯罪的微觀預(yù)測(cè)[J].法律學(xué)習(xí)與研究,1990(01):44-46.
[6]預(yù)防犯罪并非天方夜譚教授開發(fā)軟件助預(yù)知犯罪[EB/OL].中國(guó)新聞網(wǎng),2010,http://www.chinanews.com/fz/2010/10-20/2599938.shtml
[7]HSINCBUN C, WINGYAN C, JENNIFER J X. Crim data mining: a general framework and some examples[J]. IEEE Computer, 2004,50-60.
[8]LIANHANG MA,YEFANG CHEN,HAO HUANG. AK-Modes: A weighted clustering algorithm for finding similar case subsets[C]. 2010 International Conference on Intelligent Systems and Knowledge Engineering, 2010, 218 - 223.
[9]J S BRUIN, T KCOCX, W A KOSTERS, et al. Data Mining Approches to Criminal Career Analysis[C]. Proceedings of the Sixth International Conference on Data Mining, 2006, 171-177.[10]JIN G,QIAN J,QIAN J, et al. A Forecasting Model of Crime-risk Using Data-mining Based on Decision-tree[J]. Computer Engineering, 2003,183-185.[11]XU J, CHEN H. Criminal network analysis and visualization[J]. Communications of the ACM, 2005, 107-111.[12]L. DING, DANASTEIL, MATTHEW HUDNALL, et al. PerpSearch: An Integrated Crime Detection System[C]. IEEE International Conference on Intelligence and Security Informatics, 2009, 161-163[13]L DING, B DIXON. Using an Edge-dual Graph and k-connectivity to Identify Strong Connections in Social Networks[C]. in Proc. ACM SE 2008,Auburn, AL, US, 2008.
[14]黃超,李繼紅.犯罪預(yù)測(cè)的方法[J].江蘇警官學(xué)院學(xué)報(bào),2011(1):107-110.
[15]魏智遠(yuǎn).刑事犯罪回歸分析與數(shù)量預(yù)測(cè)[J].公安大學(xué)學(xué)報(bào),1993(1):47-51.
[16]韋立華,朱德林.犯罪預(yù)測(cè)動(dòng)態(tài)回歸分析方法[J].江蘇警官學(xué)院學(xué)報(bào),2004(3):24-27.
[17]劉小娟,高連生.灰色系統(tǒng)理論在犯罪動(dòng)態(tài)預(yù)測(cè)中的應(yīng)用[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2005(1):44-48.
[18]李明,薛安榮,王富強(qiáng),等.犯罪量動(dòng)態(tài)優(yōu)化組合預(yù)測(cè)方法[J].計(jì)算機(jī)工程,2011,37(17):274-278.
[19]黃超,李繼紅.盜竊案件的事故樹分析[J].江蘇警官學(xué)院學(xué)報(bào),2010(3):135-141.
[20][美]斯科特梅納德ScottMenard.應(yīng)用logistic回歸分析[M].第二版.李俊秀譯.上海:格致出版社,2012.
(責(zé)任編輯王海雷)
The Crime Probability Prediction Based on Logistic Regression
Du Yihong1Liu Shihua1,2
(1.Department of Information Technology, Wenzhou Vocational & Technical College, Wenzhou, Zhejiang 325035;2. College of Computer Science & Technology, Zhejiang University of Technology, Hangzhou, Zhejiang 310012)
There is little research on the crime prediction which can guide the work of grass-root public security bureau. Grounded on the logistic regression model, the paper attempts to construct a prediction model of crime probability by studying such key issues as the selection of index system of the model, the preprocessing of the data and the training in accordance with the model, etc. The model is theoretically tested and empirically verified.
crime prediction; crime probability; logistic regression
2016-06-01
浙江省教育廳科研計(jì)劃項(xiàng)目(Y201329845)
杜益虹(1966-),女,浙江紹興人,副教授,高級(jí)工程師,主要研究方向?yàn)樾畔⒐芾?
10.16169/j.issn.1008-293x.k.2016.08.05
DF792.6;TP301.6
A
1008-293X(2016)08-0024-07