邱明月 王新猛 唐松澤
摘要:為了分析野生動植物案件的犯罪特征與隱形犯罪規(guī)律,填補關聯(lián)規(guī)則分析在野生動植物案件中的應用空白,本文基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘方法對典型的野生動植物案件的犯罪行為進行分析。通過分析森林公安信息化案件的相關因素與犯罪行為之間的關聯(lián)特征等,為森林公安信息化建設提供數(shù)據(jù)參考與建議。
關鍵字:關聯(lián)規(guī)則;野生動植物案件;Apriori;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)29-0029-03
1 研究背景
隨著世界人口的增長,資源的承載能力越來越弱,資源的利用和保護的矛盾日益尖銳,導致人類與自然的沖突呈多發(fā)態(tài)勢。野生動植物的非法貿(mào)易日益猖獗,嚴重破壞了野生動植物資源,且嚴重影響到生物多樣性和資源安全。隨著信息化發(fā)展,野生動植物犯罪行為也開始呈現(xiàn)出信息化和多樣化態(tài)勢。在大數(shù)據(jù)時代,對于案件的犯罪行為分析與研判不僅可以基于以往的辦案經(jīng)驗,還應當結合數(shù)據(jù)挖掘等大數(shù)據(jù)處理技術,對野生動植物信息化案件進行精準分析,為打擊野生動植物犯罪行為提供科學的參考。
關聯(lián)規(guī)則作為數(shù)據(jù)挖掘算法的一種,近年來被廣泛應用于犯罪預防、打擊犯罪和警力部署等公安決策支持領域。閆密巧等基于某市110報警數(shù)據(jù)庫中的大量公交扒竊案件信息,對具有相似性的,特征明顯的警情進行時空特征的關聯(lián)分析。由分析的規(guī)則得出,某路段的頻繁案發(fā)時間,以及作案較少的路段和時間段【1】。張亞洲通過梳理搶劫案件的相關特征,運用Apriori算法對犯罪特征進行關聯(lián)規(guī)則挖掘,分析歸納了某市搶劫犯罪行為的關聯(lián)特征【2】。許陽泉通過改進的Apriori算法,研究特定區(qū)域侵財類犯罪案件特點。測試的結果表明,改進的算法有明顯的優(yōu)勢,且驗證了得到的關聯(lián)規(guī)則在實際公安工作中的可行性【3】。張浩明針對違法犯罪涉嫌人員的檔案內(nèi)容,對犯罪程度和客觀因素之間進行關聯(lián)規(guī)則分析,并由數(shù)據(jù)仿真實驗得出一定數(shù)量的關聯(lián)規(guī)則。馮卓慧通過采用約簡算法和Apriori關聯(lián)算法對監(jiān)獄的刑釋人員進行再犯罪的規(guī)律挖掘,并得出盜竊罪前科、年齡小、文化程度低和刑期短是再犯罪的主要特征【4】。由以上關聯(lián)規(guī)則在犯罪規(guī)律分析的應用可以看出,關聯(lián)規(guī)則在犯罪預測,犯罪規(guī)律分析得到了科學有效的應用,為相關部門提供了一定的決策支持【5】。在當前研究文獻中,將數(shù)據(jù)挖掘算法應用到野生動植物案件的相關研究較少。本文基于典型的信息化野生動植物案例,對野生動植物案件的相關因素與犯罪行為進行關聯(lián)規(guī)則挖掘,為森林公安提供可參考的辦案思路與建議。
2 關聯(lián)規(guī)則
2.1關聯(lián)規(guī)則的基本概念
關聯(lián)規(guī)則是指從事務數(shù)據(jù)庫、關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性,即所謂的關聯(lián)規(guī)則。關聯(lián)規(guī)則主要反映事物之間的關聯(lián)性,即在大量的數(shù)據(jù)集中,發(fā)現(xiàn)數(shù)據(jù)中沒有直接體現(xiàn)的潛在關聯(lián)性或相關性。如果兩個事物之間存在關聯(lián),就可以利用關聯(lián)分析通過一個事物來預測另外一個事物【6】。關聯(lián)規(guī)則常以[A→B]的形式表示,其中[A]與[B]是2個互斥的項集,常用的關聯(lián)規(guī)則度量包括支持度、置信度和提升度。
2.2 支持度、置信度和提升度
2.3 Apriori算法
Apriori算法是關聯(lián)規(guī)則中最經(jīng)典的挖掘算法,是Agrawal R、Imielinski.T等人在1994年第20屆大型數(shù)據(jù)庫國際會議上提出的【7】。該算法的實際運算過程分為2個階段:首先識別出所有滿足最小支持度閾值的項集;然后根據(jù)滿足最小置信度閾值的項集來創(chuàng)建規(guī)則。
本文通過Apriori算法,對野生動植物案件的犯罪行為進行關聯(lián)規(guī)則分析,具體的算法流程如圖1所示。Apriori算法的主要實現(xiàn)步驟如下:
(1) 設定最小支持度和最小置信度,通過全掃描動植物案件的數(shù)據(jù)庫, 對每個項進行計數(shù),產(chǎn)生候選項集C1。
(2) 判斷每個項集的支持度是否大于最小支持度,以此收集滿足最小支持度計數(shù)的項, 形成頻繁1-項集合并記作L1 ,否則將其視為第一次剪枝。
(3) 執(zhí)行L1 與自身的“連接”以產(chǎn)生候選2-項集合, 以產(chǎn)生L2的超集,記作C2。然后掃描C2的項集,如果某候選2-項(集)的1-項子(集)不在L1中, 則該候選2-項(集)也不可能是頻繁的, 將其從C2 中刪除, 實現(xiàn)第二次剪枝。
(4) 以L2 自身“連接”形成C3,如此下去,直到找到包含所有特征屬性項的頻繁k-項集合。最后,產(chǎn)生強關聯(lián)規(guī)則。
在上述的步驟(3)中,找出C2時用到的原理是:若某個項集是頻繁的,那么其所有子集也必定是頻繁的。所以,若某個項集的子集不是頻繁項集,則此項集也不可能是頻繁的,應該被剪枝剔除。
3 Apriori算法在野生動植物案件中的應用
3.1數(shù)據(jù)處理
本文的數(shù)據(jù)來源是從各地森林公安機關收集的70份森林公安信息化破案材料。相關材料包含案例介紹、辦案過程中信息化手段應用情況和案例點評等部分。本文從中提取有效信息,并對文本和相關信息進行數(shù)值化處理,以便更好地將數(shù)據(jù)應用到后續(xù)的關聯(lián)規(guī)則分析中。在去除無效數(shù)據(jù),對相關數(shù)據(jù)進行數(shù)據(jù)預處理后,得到了整理后的數(shù)據(jù)。
本文從案件、人、物品、時間、空間這五個方面對森林公安信息化案件的相關變量進行歸類總結。按照案件(案件性質(zhì)、案件類型、案件來源),人(犯罪嫌疑人個數(shù)、犯罪嫌疑人性別、年齡、文化程度、職業(yè)、民族、戶籍、有無外號、是否有前科劣跡、是否知曉其犯罪、作案動機),物品(涉及野生動物的種類數(shù)、涉及野生動物的種類、對應數(shù)量或質(zhì)量、對應保護級別、有無對應隱語、涉案金額、野生動物來源),空間(上家所在地、野生動物的去向、下家所在地、交易方式、聯(lián)絡方式、作案地點、發(fā)案地點),時間(發(fā)案時間、結案時間、破案時長)這五大因素對所有案件的相關信息進行梳理。
除了以上五大要素外,針對森林公安的信息化案件偵破手段,本文還對森林公安的破案方式進行分析研究。具體的森林公安信息化偵破手段相關因素包括:確定嫌疑人身份、確定位置、抓獲嫌疑人方式、確定關系人方式、確定證據(jù)、警務綜合平臺、基礎信息平臺、大情報平臺、通訊設備監(jiān)控、通訊設備監(jiān)聽、網(wǎng)上排查、監(jiān)控嫌疑人網(wǎng)絡通訊、監(jiān)控視頻、銀行記錄查詢、車輛查詢、秘密跟蹤、摸底排查、外圍偵查、蹲守、活動軌跡分析、審訊、化妝偵查、現(xiàn)場勘查、邊控、網(wǎng)上追緝、陣地控制、巡線追蹤、秘密力量等。
根據(jù)以上相關因素對所有卷宗進行梳理后,得到了大量的動物、植物以及其他森林公安案件的相關數(shù)據(jù)。根據(jù)已破的野生動植物信息化案件的各類案件信息數(shù)據(jù)進行梳理,截取部分數(shù)據(jù)預覽如表1所示。
3.2 Apriori算法應用結果分析
通過Apriori算法對整理后的森林公安信息化案例數(shù)據(jù)進行分析挖掘。設定最小支持度為20%,最小置信度為60%。運行關聯(lián)規(guī)則Apriori算法程序后,由置信度的值由高到低排列得到的部分實驗結果如表2所示。
對于以上挖掘到的強關聯(lián)規(guī)則,需要對結果進行分析。由表2的部分關聯(lián)規(guī)則結果可知,按置信度排名1和2的強關聯(lián)規(guī)則為:交易方式=3(面對面交易)→破案時長=0(不到一個月);交易方式=3(面對面交易)∩野生動植物來源=1(從上家處獲取)→破案時長=0(不到一個月)。這兩條規(guī)則的支持度均為22.7%,置信度均為65.5%,且規(guī)則提升度為4.2大于1。由提升度可知,交易方式為面對面交易和野生動植物來源為上家對破案時長小于1個月有促進作用,即上家在與下家交易野生動植物時,公安機關可以很快從面對面交易的過程中發(fā)現(xiàn)破案線索,獲得情報、了解作案地點后,便于當場抓獲人(雙方犯罪嫌疑人)、物(直接證據(jù)—野生動物)、事(雙方違法交易),快速偵破案件。
按置信度排名3和4的強關聯(lián)規(guī)則為:聯(lián)絡方式=1(網(wǎng)絡平臺)→破案時長=1(大于一個月);聯(lián)絡方式=1(網(wǎng)絡平臺)∩野生動植物來源=1(從上家處獲?。瓢笗r長=1(大于一個月)。這兩條規(guī)則的支持度均為21.1%,置信度均為62.7%,且規(guī)則提升度為3.9大于1。由提升度可知,聯(lián)絡方式為網(wǎng)絡平臺和野生動植物來源為上家對破案時長大于1個月有促進作用,即上家在與下家交易野生動植物時,由于網(wǎng)絡平臺具有一定隱蔽性,不利于公安機關發(fā)現(xiàn)破案線索,同時難以取得有效的電子證據(jù),所以花費的破案時間較長。
按置信度排名5和6的強關聯(lián)規(guī)則為:交易方式=3(面對面交易)∩野生動物去向=2(下家)∩野生動植物來源=1(從上家處獲?。瓢笗r長=0(不到一個月);交易方式=3(面對面交易)∩野生動物去向=2(下家)→破案時長=0(不到一個月)。這兩條規(guī)則的支持度均為21.1%,置信度均為62.7%,且規(guī)則提升度為4.1大于1。與強關聯(lián)規(guī)則1和2類似,在上家與下家進行面對面交易時,公安機關可以迅速從上家與下家的交易細節(jié)中偵查線索,進而快速對案件進行偵破。
按置信度排名7和8的強關聯(lián)規(guī)則為:交易方式=1(利用快遞)→破案時長=1(大于一個月);交易方式=1(利用快遞)∩野生動植物來源=1(從上家處獲?。瓢笗r長=1(大于一個月)。這兩條強規(guī)則的支持度為26.1%,規(guī)則置信度為60.5%,規(guī)則提升度為3.5。因為提升度為3.5大于1,所以交易方式為快遞交易且野生動植物來源為上家對破案時長大于1個月有促進作用,即上家在與下家交易野生動植物時,公安機關難以從快遞交易的過程中發(fā)現(xiàn)破案線索,所以花費的破案時間較長。這類案件抓獲犯罪嫌疑人的方式以當場抓獲人(單方犯罪嫌疑人)、物(直接證據(jù)—野生植物)為主,由于通常只抓獲單方犯罪嫌疑人,因此要抓獲上家需要進一步偵查,相比于交易方式為面對面的,交易方式為快遞要耗費更多的時間。
4 結論與探討
本文通過分析全國森林公安信息化已破案例,對案例信息進行數(shù)據(jù)處理,并運用Aprior算法對森林公安信息化案件中的各類因素進行關聯(lián)分析,從而挖掘潛在的犯罪規(guī)律,對野生動植物案件的相關犯罪行為進行分析。通過以上研究,初步得出以下研究結論:
一是通過Aprior算法挖掘出的有效強規(guī)則發(fā)現(xiàn),森林公安在基于面對面交易的野生動植物案件中,在獲得相關情報后能夠快速偵破案件
二是在以網(wǎng)絡平臺為基礎的野生動植物買賣案件中,由于網(wǎng)絡平臺的隱蔽性,不利于發(fā)現(xiàn)線索,導致破案時間較長
三是在基于快遞交易的野生動植物相關案件中,森林公安難以從快遞交易中發(fā)現(xiàn)有效線索,從而導致案件破獲時間較長
所以,建議森林公安機關加大對網(wǎng)絡平臺以及快遞交易等野生動植物買賣渠道的監(jiān)控,有效監(jiān)管以被動化為主動,提高對野生動植物相關案件的偵破效率,從而有效打擊各類破壞森林和野生動植物資源的違法犯罪活動,為保衛(wèi)生態(tài)建設做出貢獻。
參考文獻:
[1] 閆密巧,過仲陽,任浙豪.基于聚類關聯(lián)規(guī)則的公交扒竊犯罪時空分析[J].華東師范大學學報(自然科學版),2017(03):145-152.
[2] 張亞洲.改進型Apriori算法在犯罪關聯(lián)分析中的應用[J].無線互聯(lián)科技,2013(09):148-149.
[3]許陽泉.改進型Apriori算法在犯罪關聯(lián)分析中的應用[J].軟件導刊,2013,12(11):68-70.
[4] 馮卓慧,馮前進.基于關聯(lián)規(guī)則的再犯罪特征分析[J].浙江理工大學學報(社會科學版),2017,38(01):57-60.
[5] 杜威,鄒先霞.增量關聯(lián)規(guī)則挖掘算法在犯罪行為中的應用研究[J].中國人民公安大學學報(自然科學版),2011,17(02):56-58.
[6] 白潔,田瑞麗,張學軍.Apriori 算法在用戶特性關聯(lián)分析中的應用[J].計算機與網(wǎng)絡,2016,42(12):70-72.
[7] 湯毅平.基于Apriori算法的重新犯罪關聯(lián)規(guī)則挖掘[J].指揮信息系統(tǒng)與技術,2016,7(03):91-95.
【通聯(lián)編輯:光文玲】