国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的犯罪人慣犯身份預(yù)測分析和識別

2018-11-02 07:00:50曾昭龍胡嘯峰張學(xué)軍
中國刑警學(xué)院學(xué)報 2018年5期
關(guān)鍵詞:慣犯元組犯罪人

陳 鵬 曾昭龍 胡嘯峰 張學(xué)軍

(中國人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院 北京 102600)

1 前言

隨著公安信息化建設(shè)的不斷推進(jìn),犯罪預(yù)測已經(jīng)成為當(dāng)前公安機(jī)關(guān)開展精準(zhǔn)打擊和有效治理的重要工具。而在實(shí)現(xiàn)過程上,犯罪預(yù)測也經(jīng)歷了從定性到定量,從簡單到復(fù)雜的過程??偟膩砜?,犯罪預(yù)測的發(fā)展大致可以分為兩個主要階段,第一個階段主要是以案件數(shù)量的時序預(yù)測為主,即根據(jù)案件的歷史數(shù)據(jù)來預(yù)測未來短期內(nèi)犯罪數(shù)量的變動趨勢,在方法上主要以灰色模型[1]、自回歸滑動平均[2]、馬爾可夫鏈[3]、BP神經(jīng)網(wǎng)絡(luò)[4]、支持向量機(jī)等工具為主[5],這種預(yù)測由于偏重于事件的發(fā)生概率,因此,主要應(yīng)用于巡邏巡控、防范防控等典型的公安勤務(wù)指揮等業(yè)務(wù)層面。近年來,隨著大數(shù)據(jù)分析在公安工作中的應(yīng)用不斷深入,犯罪預(yù)測從第一階段發(fā)展到第二階段,即從事件預(yù)測向個體預(yù)測轉(zhuǎn)變[6-8],尤其是基于個體特征的犯罪人風(fēng)險預(yù)測得到了更多的重視,這種預(yù)測由于能夠?qū)崿F(xiàn)對個人的身份和行為進(jìn)行精準(zhǔn)刻畫,因此,適用于更加具體的業(yè)務(wù)場景,如治安重點(diǎn)人員犯罪風(fēng)險分析、犯罪人特征識別等。

在公安工作中,慣犯群體是相較于其他犯罪人危害性更大的一類主體,其主要特點(diǎn)為犯罪人員在短時間內(nèi)以一定形式反復(fù)從事同一類犯罪活動,由于慣犯群體在短時間內(nèi)頻繁作案會推高一個區(qū)域的發(fā)案量,嚴(yán)重危害社會安全秩序等特點(diǎn),因此,具有更大的危害性,一直以來是公安機(jī)關(guān)重點(diǎn)打擊的對象。傳統(tǒng)的慣犯群體特征分析和預(yù)測研究主要是從犯罪人特征描述的角度進(jìn)行,即利用犯罪學(xué)、心理學(xué)和社會學(xué)等基本理論,利用人格分析、心理測量等手段研究犯罪人的社會、心理和人格等影響因素特征,進(jìn)而在此基礎(chǔ)上開展犯罪人行為分析等工作[9-11]。這種研究的理論性較強(qiáng),方法以偏定性化的調(diào)查和心理分析為主,因此,適用于對慣犯群體的特征畫像與犯罪行為解釋,但在公安信息化環(huán)境下犯罪人員慣犯身份的快速判定這一實(shí)戰(zhàn)性較強(qiáng)的應(yīng)用中實(shí)用性比較有限。另一方面,近年來利用機(jī)器學(xué)習(xí)方法開展犯罪人的身份特征分析已經(jīng)成為犯罪人預(yù)測的一個新的發(fā)展方向,一些研究人員利用Probit、支持向量機(jī)等分類算法對犯罪人的身份進(jìn)行了一定的分析實(shí)驗(yàn)[12-13],但這些工作的主要目標(biāo)為實(shí)現(xiàn)犯罪人員身份特征的精準(zhǔn)預(yù)測,其結(jié)果可解釋性和應(yīng)用性較差。因此,對于公安偵查工作來說,基于現(xiàn)有的公安數(shù)據(jù)資源提出一種分析效率高、應(yīng)用性能較好的慣犯人員身份識別方法具有很重要的現(xiàn)實(shí)意義。對此,本文從公安偵查工作的現(xiàn)實(shí)需求出發(fā),以現(xiàn)有的公安偵查數(shù)據(jù)資源為基礎(chǔ),研究一種基于機(jī)器學(xué)習(xí)的犯罪人慣犯身份特征的快速識別方法,為刑事偵查和犯罪人員鑒別等工作提供技術(shù)手段支持。

2 犯罪人慣犯身份特征的預(yù)測分析原理

2.1 犯罪人慣犯身份特征的預(yù)測分析流程

隨著公安信息化的快速發(fā)展,公安部門掌握了人、地、物、事等大量的基礎(chǔ)信息資源,其中在犯罪人員的數(shù)據(jù)資源方面就包括了犯罪人的生物、社會、關(guān)系、行為等多種信息類型。目前,在公安偵查工作領(lǐng)域一個很重要的業(yè)務(wù)應(yīng)用是偵查訊問,即如何根據(jù)犯罪人本身的相關(guān)信息快速判斷其身份特征以便為下一階段的工作提供偵查方向,而對于慣犯群體來說偵查重點(diǎn)就是根據(jù)犯罪人的一些基本屬性判斷其屬于慣犯的可能性。對此,根據(jù)公安數(shù)據(jù)資源現(xiàn)狀及機(jī)器學(xué)習(xí)分類預(yù)測的基本原理,提出如圖所示的慣犯群體的預(yù)測分析流程。其中原始的數(shù)據(jù)為分析對象的一些基本信息,對于犯罪人預(yù)測分析來說,主要的信息可以分為三大類,即目標(biāo)對象的生物屬性信息(如性別、年齡等)、社會屬性信息(如學(xué)歷、職業(yè)等)和行為屬性信息(如違法行為和前科記錄),在原始數(shù)據(jù)的基礎(chǔ)上可以根據(jù)如下流程開展慣犯群體的身份特征識別工作:

(1)對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,去除無效或缺失數(shù)據(jù),再根據(jù)目標(biāo)對象的三類重點(diǎn)信息定義進(jìn)行數(shù)據(jù)抽取,以此作為分析預(yù)測的自變量。

(2)對目標(biāo)對象的屬性信息變量進(jìn)行數(shù)據(jù)歸約化,即把屬性特征中具有相近或相似性的數(shù)據(jù)項(xiàng)進(jìn)行合并,然后按照屬性信息變量的類別定義相應(yīng)的標(biāo)簽,對數(shù)據(jù)信息進(jìn)行標(biāo)簽化。

(3)對標(biāo)簽化后的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù),利用機(jī)器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)集進(jìn)行分類訓(xùn)練,構(gòu)造預(yù)測分類器,最后應(yīng)用分類器對預(yù)測數(shù)據(jù)集開展實(shí)際的預(yù)測分析,并得到預(yù)測結(jié)果。

圖 慣犯群體的預(yù)測分析框架

2.2 基于二項(xiàng)邏輯回歸的犯罪人慣犯身份特征預(yù)測分類實(shí)現(xiàn)

在分類器的選擇上,本文選取二項(xiàng)邏輯回歸分類算法來構(gòu)造犯罪人慣犯身份特征識別模型。二項(xiàng)邏輯回歸分類是一種基于統(tǒng)計(jì)學(xué)習(xí)的經(jīng)典分類算法,能夠解決數(shù)據(jù)線性不可分等復(fù)雜類問題,適用性較好,因此,常用于二分類預(yù)測和判別問題分析。此外,相較于其他分類算法,二項(xiàng)邏輯回歸的另一個優(yōu)勢在于能夠發(fā)現(xiàn)分類問題中的危險性因素,即對分類問題具有較大影響性的變量因素,因此,二項(xiàng)邏輯回歸分類結(jié)果具有良好的可解釋性。

現(xiàn)令犯罪人慣犯身份特征識別問題為二分類問題,則目標(biāo)對象的屬性信息為x,且,其慣犯身份分別用0和1表示,其中0表示目標(biāo)對象不是慣犯,1表示目標(biāo)對象為慣犯,則分類結(jié)果可以由條件概率分布P(Y|X)表示,其表達(dá)式為如下形式:

采用極大似然估計(jì)法對模型的參數(shù)進(jìn)行估計(jì),設(shè):

則似然函數(shù)為:

對數(shù)似然函數(shù)為:

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)概況

以某市2016年街面盜竊、扒竊、入室盜竊三類案件的犯罪嫌疑人數(shù)據(jù)作為案例,進(jìn)行犯罪人群體的慣犯身份特征預(yù)測分析。根據(jù)犯罪類型定義,街面盜竊為偷竊街面機(jī)動車、沿街門店財(cái)物的犯罪行為,扒竊是在公共空間非法盜取他人隨身攜帶財(cái)物的犯罪行為,入室盜竊為進(jìn)入他人室內(nèi)盜取財(cái)物的犯罪行為。三類案件的初始數(shù)據(jù)分別為1461、316、361條,經(jīng)過去重及刪除缺失項(xiàng)后三類案件的有效數(shù)量分別為937、201、276條。

三類案件的屬性及相關(guān)變量如表1所示。其中,犯罪人的分類學(xué)習(xí)目標(biāo)被設(shè)定為是否為慣犯,即“是”和“否”兩類。在分類變量的選擇上,主要選取了犯罪人的性別、年齡、文化程度、是否有吸毒史等。其中性別和年齡為犯罪人的生物屬性,文化程度為社會屬性,是否有吸毒史為其行為屬性。在變量的標(biāo)簽化方面,除了性別與是否有吸毒史為典型的二值變量以外,年齡屬于連續(xù)型變量,文化程度屬于多值型變量。為了便于分類分析,對變量進(jìn)行歸約化處理。根據(jù)各個屬性特征變量下犯罪人的數(shù)量分布,將文化程度分為小學(xué)以下、初中和高中以上等三個類別,將年齡分為20歲以下、20-29歲、30-39歲和40歲以上等四個類別。

3.2 預(yù)測評價

應(yīng)用二項(xiàng)邏輯回歸算法對三類案件數(shù)據(jù)集進(jìn)行分類預(yù)測,其中模型參數(shù)采用梯度下降法進(jìn)行估計(jì),模型檢測采用交叉驗(yàn)證法,分別進(jìn)行2-10折驗(yàn)證。檢驗(yàn)完成后,計(jì)算相應(yīng)的精度、召回率和AUC值。令P為正元組數(shù)量,N為負(fù)元組數(shù)量,TP為實(shí)際是正元組而被分類為正元組的數(shù)量;TN為實(shí)際是負(fù)元組而被分類為負(fù)元組的數(shù)量;FP為實(shí)際為負(fù)元組但被誤分類為正元組的數(shù)量;FN為實(shí)際是正元組但被誤分類為負(fù)元組的數(shù)量。則精度定義為:

表1 犯罪人的屬性特征變量名稱及標(biāo)簽化處理

AUC為接受者操作特征曲線(ROC)下方的面積。ROC曲線中的橫坐標(biāo)為假陽性率,縱坐標(biāo)為真陽性率,即召回率。如果模型的分類效果越好,AUC越接近1,如果模型為隨機(jī)猜測,則AUC等于0.5。本文定義慣犯為正元組,初犯為負(fù)元組。為便于兩個模型進(jìn)行比較,引入F1-Measure度量方法。F1表示為精度和召回率的調(diào)和平均值,能夠綜合反映模型在分類預(yù)測準(zhǔn)確性上的效果,其定義式為:

3.3 結(jié)果分析

表2為三類案件分別經(jīng)過2-10折交叉檢驗(yàn)的計(jì)算結(jié)果。從結(jié)果中可以看到,在三類案件中,街面盜竊案件的二項(xiàng)邏輯回歸分類效果最好,其分類精度平均值達(dá)到了0.698,召回率平均值為0.735,AUC平均值為0.716;其次為入室盜竊類案件,其分類精度平均值達(dá)到了0.634,召回率平均值為0.644,AUC平均值為0.682;相比之下,扒竊類案件的分類效果則相對較低,其分類精度平均值達(dá)到了0.624,召回率平均值為0.627,AUC平均值為0.651。由此可見,利用犯罪人的性別、年齡、文化程度和吸毒史等屬性特征能夠?qū)T犯群體實(shí)現(xiàn)較好的分類預(yù)測。

為進(jìn)一步驗(yàn)證二項(xiàng)邏輯回歸模型的有效性,將二項(xiàng)邏輯回歸分類預(yù)測的結(jié)果與隨機(jī)森林模型得到的結(jié)果進(jìn)行對比。應(yīng)用隨機(jī)森林模型和二項(xiàng)邏輯回歸模型對三類案件犯罪人進(jìn)行分類預(yù)測,結(jié)果如表3所示。由表中數(shù)據(jù)可見,對于街面盜竊和入室盜竊兩類案件,二項(xiàng)邏輯回歸與隨機(jī)森林模型的分類效果比較接近,但二項(xiàng)邏輯回歸要略好于隨機(jī)森林方法,但對于扒竊案件,二項(xiàng)邏輯回歸的分類效果則要明顯好于隨機(jī)森林模型。

表2 三類案件犯罪人的分類預(yù)測準(zhǔn)確率

表3 基于隨機(jī)森林和二項(xiàng)邏輯回歸的分類效果對比

在統(tǒng)計(jì)分類準(zhǔn)確率的基礎(chǔ)上,進(jìn)一步統(tǒng)計(jì)各類案件的二項(xiàng)邏輯回歸分類OR值。OR值即優(yōu)勢比,指的是數(shù)據(jù)組中二分類組數(shù)量的比值除以對照組中二分類組數(shù)量的比值。一般將OR值與1進(jìn)行對比,如果變量的OR值大于1,則該變量對分類結(jié)果具有顯著性影響。三類案件的二項(xiàng)邏輯回歸分類的OR值如表4所示。從中可見,街面盜竊案件中犯罪人有三類特征變量的OR值大于1,依次為文化程度在小學(xué)以下,年齡在40歲以上和30-39歲之間,即符合這些特征的犯罪人屬于慣犯的可能性要大于初犯。對于扒竊類案件,OR值最為顯著的變量為有吸毒史,達(dá)到了17.3以上,即有吸毒史的犯罪人屬于慣犯的可能性是此人屬于初犯的可能性的17倍多,其次分別為年齡在40歲以上、文化程度在小學(xué)以下、性別為男性。對于入室盜竊案件,OR值大于1的特征變量有5個,其中最為顯著的變量為年齡在40歲以上,其次分別為年齡在30-39歲之間、文化程度在小學(xué)以下、有吸毒史和文化程度為初中。

4 結(jié)論

隨著公安信息化的快速發(fā)展,如何利用已有公安數(shù)據(jù)資源實(shí)現(xiàn)犯罪人身份特征的快速、準(zhǔn)確識別和分析已成為公安偵查工作的迫切需求。本文針對慣犯這一特殊犯罪人群體,利用犯罪人的生物屬性、社會屬性和行為屬性等多類信息資源,提出了一種基于機(jī)器學(xué)習(xí)的犯罪人慣犯身份特征識別預(yù)測模型。通過以某市的街面盜竊、扒竊、入室盜竊三類案件的犯罪人特征數(shù)據(jù)作為實(shí)驗(yàn)案例,利用該模型和二項(xiàng)邏輯回歸分類算法對犯罪人的慣犯特征進(jìn)行了分類預(yù)測。分析結(jié)果表明,二項(xiàng)邏輯回歸模型能夠得到較好的分類預(yù)測效果,并且在分類預(yù)測的精度和召回率上要好于隨機(jī)森林方法,特別是二項(xiàng)邏輯回歸模型通過計(jì)算OR值給出了對預(yù)測結(jié)果影響較大的危險性特征變量集,其結(jié)論具有較好的可解釋性和外延性,對公安偵查工作有著較高的實(shí)用價值。

表4 三類案件犯罪人的分類OR值

猜你喜歡
慣犯元組犯罪人
Python核心語法
電腦報(2021年14期)2021-06-28 10:46:22
執(zhí)紀(jì)量紀(jì)應(yīng)劃清“初、累、慣”
清風(fēng)(2020年5期)2020-09-10 07:22:44
和諧人際關(guān)系的構(gòu)建與犯罪人的再社會化
新華月報(2019年24期)2019-09-10 07:22:44
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
基于減少檢索的負(fù)表約束優(yōu)化算法
減刑假釋實(shí)行申請制之倡導(dǎo)
未成年犯罪人的刑罰制度分析
尋找石像
論未成年犯罪人的矯治
商(2015年6期)2015-05-30 21:02:25
智斗慣犯
屏南县| 林周县| 望江县| 商都县| 亳州市| 久治县| 长武县| 郓城县| 宕昌县| 隆回县| 连南| 饶平县| 高雄县| 阳曲县| 分宜县| 忻城县| 金堂县| 民乐县| 房产| 密山市| 东辽县| 五河县| 砀山县| 南康市| 丰原市| 宜川县| 昌宁县| 安丘市| 邵阳县| 阿勒泰市| 盐边县| 永清县| 迭部县| 涿州市| 醴陵市| 镇坪县| 太白县| 娄烦县| 苗栗县| 泾阳县| 永德县|