国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于顯露模式挖掘的反恐情報(bào)分類對比分析

2020-08-13 07:24李勇男
現(xiàn)代情報(bào) 2020年5期
關(guān)鍵詞:數(shù)據(jù)挖掘邊界

摘 要:[目的/意義]利用顯露模式挖掘?qū)Σ煌悇e的涉恐情報(bào)數(shù)據(jù)集進(jìn)行分析,可以發(fā)現(xiàn)那些對反恐工作有參考價(jià)值的差異信息。[方法/過程]根據(jù)反恐工作的需求和顯露模式的特點(diǎn),通過修改經(jīng)典方法中的數(shù)據(jù)預(yù)處理、目標(biāo)事務(wù)集生成、最大邊界壓縮、非交集屬性特征分離等步驟,使其更適用于反恐情報(bào)的快速分析。[結(jié)果/結(jié)論]在頻繁項(xiàng)集挖掘的基礎(chǔ)上,顯露模式可以發(fā)現(xiàn)一些反恐情報(bào)的多組屬性聚合規(guī)律用于分類,更快速的為反恐預(yù)警提供數(shù)據(jù)參考。

關(guān)鍵詞:反恐情報(bào);數(shù)據(jù)挖掘;顯露模式;邊界

DOI:10.3969/j.issn.1008-0821.2020.05.004

〔中圖分類號〕G259;D631 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號〕1008-0821(2020)05-0027-06

Research on Contrastive Classification of Counter Terrorism

Intelligence Based on Application of Emerging Pattern

Li Yongnan

(Peoples Public Security University of China,Beijing 100038,China)

Abstract:[Purpose/Significance]It offered valuable intelligence with remarkable difference for counter terrorism to analyze terror related data sets in different categories using emerging pattern mining.[Method/Process]According to the needs and characteristics of data mining system of counter terrorism,several steps in the classical method were modified such as data preprocessing,generation of objective transactions,compression of Largeborder and stripping attributes of non-intersection,so as to make it more adaptable to the needs of intelligence analysis.[Result/Conclusion]On the basis of mining frequent itemsets,emerging pattern could find the merging rules of multiple attributes to provide data references for early warning of counter terrorism.

Key words:counter terrorism intelligence;data mining;emerging pattern;border

近年來,受到暴力恐怖勢力、民族分裂勢力、宗教極端勢力等“三股勢力”影響,我國發(fā)生了多起暴力恐怖襲擊事件,造成了一定的社會(huì)影響,對國家安全風(fēng)險(xiǎn)防范能力提出了挑戰(zhàn)。為有效打擊恐怖主義活動(dòng),我國自2016年1月1日起施行《中華人民共和國反恐怖主義法》[1]。充分發(fā)揮情報(bào)的引領(lǐng)作用是提升反恐工作能力的重要環(huán)節(jié)[2]。大數(shù)據(jù)時(shí)代的到來使得各種犯罪的打擊模式發(fā)生了巨大變化,利用大數(shù)據(jù)技術(shù)挖掘涉恐情報(bào)信息,進(jìn)而實(shí)現(xiàn)全景反恐和預(yù)測反恐是時(shí)代的必然選擇。

利用數(shù)據(jù)挖掘技術(shù)對海量涉恐?jǐn)?shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)涉恐情報(bào)信息服務(wù)于反恐預(yù)警,優(yōu)化反恐資源配置已經(jīng)是一種較為普遍的反恐手段[3]。在反恐?jǐn)?shù)據(jù)挖掘中,反恐情報(bào)分類分析是其中一種重要的方法類別。較為常用的分類方法包括決策樹分類、樸素貝葉斯分類、神經(jīng)網(wǎng)絡(luò)分類、K-近鄰分類、基于關(guān)聯(lián)規(guī)則的分類、支持向量機(jī)分類等。此外,有一類用于發(fā)現(xiàn)不同數(shù)據(jù)集規(guī)律變化的模式挖掘方法即顯露模式挖掘也可以用于數(shù)據(jù)集分類。每一種分類方法都有其較為適用的樣本集和應(yīng)用場景,它們彼此之間可以相互補(bǔ)充和借鑒。

目前,國內(nèi)外已經(jīng)有了一些利用決策樹、貝葉斯以及神經(jīng)網(wǎng)絡(luò)等方法研究反恐情報(bào)分類的研究,但是還沒有發(fā)現(xiàn)研究顯露模式在反恐情報(bào)分析中應(yīng)用的文獻(xiàn)。在中國知網(wǎng)、萬方等中文文獻(xiàn)數(shù)據(jù)庫中,以“顯露模式”和“反恐”為關(guān)鍵詞檢索發(fā)現(xiàn)沒有相關(guān)的文獻(xiàn)。在谷歌學(xué)術(shù)搜索中,以“Emerging Pattern”和“Counter Terrorism”為關(guān)鍵詞檢索,包含關(guān)鍵詞的只有2篇文獻(xiàn),分別是關(guān)于自適應(yīng)復(fù)雜網(wǎng)絡(luò)分析[4]和反恐預(yù)測模型[5]方向。在這兩篇文獻(xiàn)中,“Emerging Pattern”是表示“恐怖活動(dòng)的傷亡率在上升”或“一種未出現(xiàn)的模型”,與本文的定義并不相同。而關(guān)于反恐情報(bào)分類分析的文獻(xiàn)主要包括基于余弦距離的分類[6]、決策樹分類[7]、貝葉斯分類[8-9]、支持向量機(jī)分類[10]、神經(jīng)網(wǎng)絡(luò)分類[11]等。利用顯露模式對反恐情報(bào)進(jìn)行分析,可以聚合多個(gè)模式同時(shí)考慮多組屬性進(jìn)行分類,提高分類的準(zhǔn)確率,是對反恐情報(bào)分類分析的一種有益的補(bǔ)充。本文將根據(jù)我國反恐情報(bào)數(shù)據(jù)的特點(diǎn)研究顯露模式挖掘在反恐情報(bào)分析中的應(yīng)用。

1 顯露模式挖掘

1.1 對比模式和顯露模式簡介

對比模式是指“能夠描述兩類或多類樣本中的對比信息”,主要用于識(shí)別不同類別樣本數(shù)據(jù)集中的數(shù)據(jù)特征[12]。對比模式挖掘是指在一定的約束條件下發(fā)現(xiàn)這些對比特征的過程,發(fā)現(xiàn)的特征用模式表示[13]。對比模式挖掘目前主要用于電力供應(yīng)預(yù)測分析、基因組檢測分析、網(wǎng)絡(luò)社區(qū)分析、文本和圖像分類以及商業(yè)領(lǐng)域的購物籃商品頻繁項(xiàng)集對比分析。

常用的對比模式挖掘方法包括顯露模式挖掘[14]、最小區(qū)分子序列挖掘[15]、具有間隙約束的序列模式挖掘[16]、帶有間隔約束的Top-k對比模式挖掘[17]等。其中顯露模式是最基礎(chǔ)也是最常用的一種對比模式。顯露模式的支持度在不同數(shù)據(jù)集分類之間有明顯差異,經(jīng)常與其他的挖掘方法組合進(jìn)行集成挖掘。這種模式能夠發(fā)現(xiàn)不同數(shù)據(jù)集之間的支持度顯著變化,很好的實(shí)現(xiàn)多組屬性之間的分類效果。因其具有良好的區(qū)分能力,同時(shí)較容易在線性時(shí)間內(nèi)被挖掘出來[18],非常適合捕捉目標(biāo)類和非目標(biāo)類上多組屬性的差異,尤其適合“布爾型”數(shù)據(jù)的分類。例如區(qū)分一組人員“是”或“不是”涉恐人員,所以顯露模式的挖掘方法對反恐情報(bào)分析非常有借鑒意義。本文將研究顯露模式挖掘在反恐情報(bào)分析中的應(yīng)用。

1.2 顯露模式的基本概念

顯露模式是指那些從數(shù)據(jù)集D′到數(shù)據(jù)集D的支持度發(fā)生很大變化的項(xiàng)集X,X可以捕捉到目標(biāo)類以及非目標(biāo)類在多個(gè)屬性之間的區(qū)別。本文用到的關(guān)于顯露模式的基本概念如下[19]:

1)支持度:表示項(xiàng)集X在樣本數(shù)據(jù)集中的計(jì)數(shù)與總樣本計(jì)數(shù)的比值,本文中主要用到項(xiàng)集X在類C中的支持度,形如Supc(X)=Countc(X)|C|,支持度可以表示顯露模式在對應(yīng)數(shù)據(jù)集中的覆蓋范圍。

2)增長率:用來描述兩個(gè)數(shù)據(jù)集D′和D支持度的差異,形如GR(X,D′,D)。其定義有3種不同的情況:當(dāng)SupD′(X)=SupD(X)=0時(shí),GR(X,D′,D)=0;當(dāng)SupD′(X)=0且SupD(X)≠0,GR(X,D′,D)=∞;否則,GR(X,D′,D)=SupD(X)/SupD′(X)。增長率能夠表示項(xiàng)集X支持度改變的程度,可以反映出顯露模式的區(qū)分能力。

3)增長率閾值:定義為ρ>1,用于篩選顯露模式。

4)顯露模式:如果項(xiàng)集X從數(shù)據(jù)集D′到D的增長率GR(X,D′,D)≥ρ,則稱X是從數(shù)據(jù)集D′到D的顯露模式,能夠有效捕捉數(shù)據(jù)集之間的顯著差異。

5)邊界Border:形如〈L,R〉,符號L和R都是項(xiàng)集的集合,其中集合L表示左邊界,集合R表示右邊界,左邊界集合L中的所有元素是右邊界集合R中元素的子集,R中的元素是L中元素的超集。邊界的概念是用于在挖掘流程中表示集合的最小和最大集合構(gòu)成的區(qū)間,顯然每一個(gè)樣本數(shù)據(jù)集都可以表示為邊界的形式,L為最短項(xiàng)集集合,R為最長項(xiàng)集集合。

6)最大邊界LargeBorder:給定一個(gè)正數(shù)α,所有支持度大于或者等于α的項(xiàng)集的集合表示為Largeα(X),Largeα(X)的邊界即為最大邊界LargeBorderα(X),其左邊界集合為空集,右邊界集合為最長模式集。這一概念在顯露模式挖掘中作為參數(shù)使用。

1.3 顯露模式挖掘經(jīng)典方法的流程

顯露模式挖掘的經(jīng)典方法是使用HORIZON-MINER方法和MBD_LLBORDER方法組合來發(fā)現(xiàn)顯露模式,其基本流程可描述如下[20]:

1)收集基礎(chǔ)樣本數(shù)據(jù)集,完成數(shù)據(jù)預(yù)處理,并將連續(xù)屬性進(jìn)行離散化處理,得到兩組數(shù)據(jù)分別可以對應(yīng)某個(gè)二元屬性的類別,例如顯露模式挖掘中的經(jīng)典例子“毒蘑菇類”和“可食用蘑菇類”。

2)輸入支持度的閾值參數(shù)θ<1,增長率閾值參數(shù)ρ>1,計(jì)算另一個(gè)支持度閾值參數(shù)δ=θ/ρ。

3)根據(jù)支持度閾值篩選得到兩組事務(wù)集T={T1,T2,…,Tn}和S={S1,S2,…,Sm}。

4)利用HORIZON-MINER方法分別得到兩組樣本集的最大邊界LargeBorderθ(T)和LargeBorderθ(S)。

5)將以上兩個(gè)最大邊界參數(shù)作為輸入?yún)?shù)利用MBD_LLBORDER方法找出所有在T中支持度大于或者等于閾值θ,且在S中支持度小于或者等于δ的項(xiàng)集集合,輸出一組邊界〈Li,Ri〉(i=1,…,k)即為滿足條件(增長率大于ρ)的顯露模式集合。在MBD_LLBORDER的執(zhí)行過程中需要循環(huán)調(diào)用BORDER-DIFF方法來獲取目標(biāo)事務(wù)集和非目標(biāo)事務(wù)集的笛卡爾積。

6)輸出這組邊界的集合即為顯露模式集作為分類區(qū)分標(biāo)準(zhǔn)。

2 反恐情報(bào)中的顯露模式挖掘分析

2.1 反恐情報(bào)分析中對顯露模式經(jīng)典方法的修改

顯露模式應(yīng)用于反恐情報(bào)分析,本質(zhì)上是在樣本數(shù)據(jù)集中找出一組屬性特征值組合,可以在增量數(shù)據(jù)中發(fā)現(xiàn)明顯的涉恐人員數(shù)據(jù),或者排除明顯的非涉恐人員數(shù)據(jù)。為了提高篩選重點(diǎn)人員的效率,宜采用快速找出涉恐人員的方式,即將涉恐人員數(shù)據(jù)作為目標(biāo)類,非涉恐人員數(shù)據(jù)作為非目標(biāo)類。對于經(jīng)典方法的修改主要體現(xiàn)在第一、三、四、五步。

1)第一步數(shù)據(jù)預(yù)處理的修改。在實(shí)際的反恐情報(bào)分析工作中,已經(jīng)可以根據(jù)統(tǒng)計(jì)方法或者其他數(shù)據(jù)挖掘方法掌握一些非常明顯的涉恐屬性特征,這些涉恐屬性特征可以直接作為已知量用于篩選數(shù)據(jù),這樣可以大量壓縮無關(guān)數(shù)據(jù),提高反恐情報(bào)分析的效率。例如,根據(jù)國家網(wǎng)信辦2014年的報(bào)告,我國的恐怖分子幾乎都觀看或收聽過暴恐音頻及視頻[21]。因此,在數(shù)據(jù)預(yù)處理時(shí),所有的數(shù)據(jù)都可以利用已知的這類屬性特征進(jìn)一步壓縮樣本事務(wù)集,提高分析效率。在《識(shí)別宗教極端活動(dòng)(75種具體表現(xiàn))基礎(chǔ)知識(shí)》[22]、兩高兩部于2018年5月印發(fā)的《關(guān)于辦理恐怖活動(dòng)和極端主義犯罪案件適用法律若干問題的意見》、2018年10月9日發(fā)布的“新疆維吾爾自治區(qū)實(shí)施《中華人民共和國反恐怖主義法》辦法”[23]、2019年3月發(fā)布的《新疆的反恐、去極端化斗爭與人權(quán)保障》白皮書[24]等文獻(xiàn)中還包含了大量的這類已知屬性特征可以用于壓縮數(shù)據(jù)量。此外,這些已知涉恐特征項(xiàng)還可以用于在第五步中分離目標(biāo)類和非目標(biāo)類的非交集特征數(shù)據(jù)。

2)第三步目標(biāo)事務(wù)集生成的修改。反恐情報(bào)的數(shù)據(jù)挖掘分析是一個(gè)綜合的方法體系,各種方法互為補(bǔ)充才能覆蓋更多的情報(bào)信息,其中的關(guān)聯(lián)分析中包括頻繁項(xiàng)集挖掘、強(qiáng)關(guān)聯(lián)規(guī)則挖掘、頻繁子圖挖掘[25]、頻繁序列模式挖掘、頻繁軌跡模式挖掘等。海量數(shù)據(jù)中的涉恐人員特征是相對固定的,顯露模式挖掘可以在頻繁項(xiàng)集挖掘的基礎(chǔ)上進(jìn)行,即第三步在生成涉恐人員組別的頻繁項(xiàng)集時(shí),直接引用已知的多種高支持度頻繁項(xiàng)集作為目標(biāo)類別事務(wù)集,提高反恐情報(bào)分析的效率,高支持度(例如可取閾值β>90%)的頻繁項(xiàng)集則可以在關(guān)聯(lián)分析時(shí)利用頻繁模式樹[26]或者先驗(yàn)原理[27]獲得??紤]第四步分析過程的便利,在原始涉恐?jǐn)?shù)據(jù)獲取高支持度頻繁項(xiàng)集時(shí)宜采用先驗(yàn)原理。

3)第四步中目標(biāo)事務(wù)集最大邊界LargeBorder挖掘的修改。在第四步HORIZON-MINER方法的最大邊界LargeBorder挖掘中,其要實(shí)現(xiàn)的功能就是將事務(wù)集中所有是其他項(xiàng)集子集的項(xiàng)集刪除掉,只保留全部的最大項(xiàng)集,產(chǎn)生最大邊界LargeBorder的右邊界集合。在利用先驗(yàn)原理挖掘涉恐活動(dòng)特征頻繁項(xiàng)集的過程中,所有的(k+1)-項(xiàng)集(k>0)都是由兩個(gè)k-項(xiàng)集合并得到的,為了顯露模式挖掘的便利性,可以在這一步直接單獨(dú)存儲(chǔ)一組LargeBorder項(xiàng)集集合,即每生成一個(gè)頻繁(k+1)-項(xiàng)集,則將其對應(yīng)的頻繁k-項(xiàng)集從LargeBorder項(xiàng)集集合中刪除,這樣僅在關(guān)聯(lián)分析時(shí)增加了很小的存儲(chǔ)開銷,第四步中只需要對非涉恐人員的事務(wù)集進(jìn)行最大邊界LargeBorder挖掘。

4)第五步中挖掘顯露模式方式的修改。在循環(huán)調(diào)用BORDER-DIFF時(shí),需要不斷計(jì)算目標(biāo)事務(wù)集和非目標(biāo)事務(wù)集的笛卡爾積,不同于一般的顯露模式挖掘過程,在反恐情報(bào)分析中涉恐人員數(shù)據(jù)和非涉恐人員數(shù)據(jù)的屬性特征只在一部分特征上會(huì)有交集,而另一部分特征是幾乎沒有交集的。無交集的特征例如涉恐人員穿極端化服飾,非涉恐人員不穿極端化服飾;有交集的特征例如身高、收入、職業(yè)等屬性的不同值。因此可以根據(jù)反恐情報(bào)分析的經(jīng)驗(yàn),提前將一部分無交集的屬性特征分離出來,進(jìn)一步減少數(shù)據(jù)量,在使用MBD_LLBORDER方法挖掘顯露模式的過程中只考慮那些可能有交集的屬性特征。而那些非交集屬性特征是我們已掌握的先驗(yàn)知識(shí),無需再通過顯露模式挖掘來獲取。

2.2 基于顯露模式挖掘的反恐情報(bào)對比分析流程

綜上所述,如圖1所示,本文設(shè)計(jì)的反恐情報(bào)分析中的顯露模式挖掘流程如下:

1)收集涉恐基礎(chǔ)數(shù)據(jù)集,除了完成常規(guī)的數(shù)據(jù)預(yù)處理[28],還利用一些已知統(tǒng)計(jì)數(shù)據(jù)或者相關(guān)文獻(xiàn)中的確定性屬性特征進(jìn)一步壓縮數(shù)據(jù)量,最后將這些數(shù)據(jù)集分為涉恐人員數(shù)據(jù)和非涉恐人員數(shù)據(jù)兩組。

2)設(shè)定頻繁項(xiàng)集支持度的閾值參數(shù)θ<1(要求滿足小于已知涉恐人員事務(wù)集的高支持度閾值β),增長率閾值參數(shù)ρ>1,計(jì)算另一個(gè)閾值參數(shù)δ=θ/ρ。

圖1 基于顯露模式挖掘的反恐情報(bào)對比分析流程

3)涉恐人員的事務(wù)集T={T1,T2,…,Tn}為已知量直接在完成頻繁項(xiàng)集挖掘分析后從數(shù)據(jù)庫中提取,而非涉恐人員的事務(wù)集S={S1,S2,…,Sm}則以δ=θ/ρ為最小支持度閾值為條件專門進(jìn)行一輪挖掘提取。

4)LargeBorderθ(T)為已知量,利用HORIZON-MINER方法分別得到非涉恐人員的最大邊界項(xiàng)集集合LargeBorderθ(S)。

5)分離目標(biāo)事務(wù)集和非目標(biāo)事務(wù)集中的非交集屬性。將分離后的兩個(gè)最大邊界T′和S′作為輸入?yún)?shù)利用MBD_LLBORDER方法找出所有在T′中支持度大于或者等于閾值θ,且在S′中支持度小于或者等于δ的項(xiàng)集集合。MBD_LLBORDER方法輸出最后的一組邊界〈L′i,R′i〉(i=1,…,k)即為滿足條件的顯露模式集合。

6)輸出這組邊界的集合即為顯露模式集作為反恐情報(bào)分類區(qū)分標(biāo)準(zhǔn)。

3 反恐情報(bào)中的顯露模式挖掘示例

本文的主要貢獻(xiàn)在于修改了顯露模式挖掘經(jīng)典方法中的數(shù)據(jù)預(yù)處理、目標(biāo)事務(wù)集生成、最大邊界壓縮、非交集屬性特征分離等步驟。其中數(shù)據(jù)預(yù)處理主要利用先驗(yàn)知識(shí)壓縮數(shù)據(jù),較為簡單無需進(jìn)一步描述,本節(jié)將以示例詳細(xì)描述其他修改的步驟。對于其他未修改步驟感興趣的讀者可參閱本文引用的相關(guān)文獻(xiàn)。

3.1 第三步目標(biāo)事務(wù)集的獲取及第四步最大邊界壓縮示例

在反恐情報(bào)的關(guān)聯(lián)分析中,以大于顯露模式挖掘目標(biāo)事務(wù)集支持度閾值θ的一個(gè)較高的閾值β為參數(shù),利用先驗(yàn)原理挖掘目標(biāo)事務(wù)集。在挖掘過程中,直接利用其特點(diǎn)獲取所有滿足條件的最大邊界LargeBorder,則第四步只需考慮非目標(biāo)事務(wù)集的最大邊界LargeBorder即可。

筆者在前期工作中已經(jīng)研究了利用先驗(yàn)原理進(jìn)行反恐情報(bào)頻繁項(xiàng)集挖掘的詳細(xì)流程[27],本節(jié)僅說明如何通過這一過程直接獲取涉恐人員事務(wù)集最大邊界LargeBorder的結(jié)果。在生成頻繁項(xiàng)集集合的過程中,維護(hù)一個(gè)涉恐人員事務(wù)集最大邊界LargeBorder右界集合。以生成頻繁4-項(xiàng)集為例,必須由兩個(gè)滿足條件的頻繁3-項(xiàng)集生成,且這兩個(gè)頻繁3-項(xiàng)集的前兩個(gè)項(xiàng)必須相同。例如頻繁3-項(xiàng)集{觀看暴恐視頻,私制炸藥,囤積刀具}和{觀看暴恐視頻,私制炸藥,囤積高壓鍋},合并后為候選4-項(xiàng)集{觀看暴恐視頻,私制炸藥,囤積刀具,囤積高壓鍋},如果該候選4-項(xiàng)集不滿足條件則刪除,最大邊界LargeBorder右界集合不變;如果滿足條件則其為頻繁4-項(xiàng)集,此時(shí)在最大邊界LargeBorder右界集合中僅保留該頻繁4-項(xiàng)集,生成它的兩個(gè)頻繁3-項(xiàng)集屬于其子集從右界集合中刪除。

理論上講,非目標(biāo)事務(wù)集即非涉恐人員事務(wù)集也可以通過這種方式獲取最大邊界LargeBorder的結(jié)果。但是在其他反恐情報(bào)關(guān)聯(lián)分析中,一般無需挖掘非涉恐人員數(shù)據(jù)的頻繁項(xiàng)集,顯然無法在其他反恐情報(bào)挖掘分析方法的基礎(chǔ)上直接獲取基礎(chǔ)數(shù)據(jù),因此仍然按照顯露模式經(jīng)典方法中的流程進(jìn)行。

3.2 第五步MBD_LLBORDER方法交集參數(shù)的分離示例

如前文所述,根據(jù)反恐情報(bào)分析的經(jīng)驗(yàn)已知涉恐人員與非涉恐人員數(shù)據(jù)之間有部分特征是幾乎沒有交集的,為減少M(fèi)BD_LLBORDER方法的開銷,這部分無交集數(shù)據(jù)直接不輸入MBD_LLBORDER方法參與運(yùn)算。在挖掘出的顯露模式集合中,也只需要我們之前不知道的屬性特征集組合作為其他分類方法的補(bǔ)充。例如,目標(biāo)事務(wù)集即涉恐人員事務(wù)集T的右邊界集合為{T1{使用極端化標(biāo)志飾品,觀看極端化書籍,職業(yè)為小商販,教育程度為高中},T2{使用極端化標(biāo)志飾品,教育程度為高中,中產(chǎn)階級,青年},T3{使用極端化標(biāo)志飾品,觀看極端化書籍,身高偏高,城市居民,購買管制刀具}};而非涉恐人員事務(wù)集S的右邊界集合為{S1{中產(chǎn)階級,名下有機(jī)動(dòng)車,抵制暴恐音視頻,無神論者},S2{身高偏高,購買管制刀具,抵制暴恐音視頻,無神論者}}。已知“使用極端化標(biāo)志飾品”、“觀看極端化書籍”為涉恐人員專有的屬性特征,“抵制暴恐音視頻”、“無神論者”為非涉恐人員專有的屬性特征。則在第五步開始前,首先將這些專有屬性特征即非交集屬性特征分離,目標(biāo)事務(wù)集T′右邊界集合為{T′1{職業(yè)為小商販,教育程度為高中},T′2{教育程度為高中,中產(chǎn)階級,青年},T′3{身高偏高,城市居民,購買管制刀具}};非目標(biāo)人員事務(wù)集S′右邊界集合為{S′1{中產(chǎn)階級,名下有機(jī)動(dòng)車},S′2{身高偏高,購買管制刀具}}。

3.3 分離非交集特征后的顯露模式分類示例

在獲取顯露模式后,即可直接利用相關(guān)事務(wù)集對增量數(shù)據(jù)進(jìn)行分類。類似決策樹分類、樸素貝葉斯分類、最近鄰分類等方法在反恐情報(bào)分類建模完成后,對增量人員數(shù)據(jù)進(jìn)行分類時(shí)仍然需要多個(gè)步驟的對比或者計(jì)算,而使用顯露模式則可以直接利用顯露模式一步式判斷是否屬于目標(biāo)類。例如,如果挖掘出的事務(wù)集X{購買管制刀具,身高偏高,體重偏重}滿足顯露模式的條件,雖然其中沒有包含那些已知的明顯涉恐的項(xiàng),但是根據(jù)挖掘結(jié)果,只要某條待分類的增量人員數(shù)據(jù)實(shí)例中包含該顯露模式X,則仍然可以判斷這名人員有很大可能屬于涉恐人員。

4 結(jié) 語

本文研究了顯露模式挖掘在反恐情報(bào)分類對比分析中的應(yīng)用。顯露模式可以發(fā)現(xiàn)那些兩組對立數(shù)據(jù)集(即某一布爾型屬性值相異的兩組數(shù)據(jù)集)之間支持度變化比較大的項(xiàng)集,這些項(xiàng)集的集合非常有利于涉恐情報(bào)數(shù)據(jù)的分類,可以建立比較精確的分類器,進(jìn)而根據(jù)分類結(jié)果優(yōu)化反恐資源配置,提高反恐工作的針對性和成效。本文根據(jù)我國反恐情報(bào)數(shù)據(jù)的特點(diǎn),對經(jīng)典顯露模式挖掘方法中的數(shù)據(jù)預(yù)處理、目標(biāo)事務(wù)集生成、最大邊界壓縮、非交集屬性特征分離等步驟進(jìn)行了修改,使其更適用于反恐情報(bào)數(shù)據(jù)的對比分析,該方法與筆者前期研究的其他反恐情報(bào)分類方法可以相互補(bǔ)充,期望本文的工作可以為反恐情報(bào)海量數(shù)據(jù)的分類分析提供一定的參考。

參考文獻(xiàn)

[1]中華人民共和國反恐怖主義法[N].人民日報(bào), 2015-12-28,(7).

[2]張曉多.廉長剛——以情報(bào)主導(dǎo)反恐 提升反恐處突實(shí)戰(zhàn)水平[J].警察技術(shù),2016,(6):22-24.

[3]莫豪文.數(shù)據(jù)挖掘方法在反恐預(yù)警中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2017.

[4]Fellman P V,Wright R.Modeling Terrorist Networks,Complex Systems at the Mid-range[J].arXiv Preprint arXiv:1405.6989,2014.

[5]Lazaroff M,Snowden D.Anticipatory Models for Counter-Terrorism[M].Emergent Information Technologies and Enabling Policies for Counter-Terrorism,2005:51-73.

[6]郭璇,吳文輝,肖治庭,等.基于深度學(xué)習(xí)和公開來源信息的反恐情報(bào)挖掘[J].情報(bào)理論與實(shí)踐,2017,40(9):135-139.

[7]李勇男.信息增益決策樹在反恐情報(bào)分析中的應(yīng)用研究[J].情報(bào)科學(xué),2018,36(4):80-84.

[8]Singh S,Verma S,Tiwari A,et al.A Novel Way to Classify Passenger Data Using Nave Bayes Algorithm(A Real Time Anti-terrorism Approach)[C]//Next Generation Computing Technologies(NGCT),2016 2nd International Conference on.IEEE,2016:312-316.

[9]李勇男.貝葉斯理論在反恐情報(bào)分類分析中的應(yīng)用研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(10):9-14.

[10]Agarwal S,Sureka A.Using Knn and Svm Based One-class Classifier for Detecting Online Radicalization on Twitter[C]//International Conference on Distributed Computing and Internet Technology.Springer,Cham,2015:431-442.

[11]Ahmadi N,Akbarizadeh G.Hybrid Robust Iris Recognition Approach Using Iris Image Pre-processing,Two-dimensional Gabor Features and Multi-layer Perceptron Neural Network/PSO[J].IET Biometrics,2017,7(2):153-162.

[12]魏芹雙.對比模式挖掘研究進(jìn)展[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017,(1):44,46.

[13]李安亞,王少妮.對比模式挖掘研究進(jìn)展[J].科研信息化技術(shù)與應(yīng)用,2017,8(5):66-73.

[14]段磊,唐常杰,楊寧,等.基于顯露模式的對比挖掘研究及應(yīng)用進(jìn)展[J].計(jì)算機(jī)應(yīng)用,2012,32(2):304-308.

[15]Ji X,Bailey J,Dong G.Mining Minimal Distinguishing Subsequence Patterns with Gap Constraints[J].Knowledge & Information Systems,2007,11(3):259-286.

[16]Wang X,Duan L,Dong G,et al.Efficient Mining of Density-Aware Distinguishing Sequential Patterns with Gap Constraints[J].2014,8421:372-387.

[17]楊皓,段磊,胡斌,等.帶間隔約束的Top-k對比序列模式挖掘[J].軟件學(xué)報(bào),2015,26(11):2994-3009.

[18]張麗.基于Boosting技術(shù)的顯露模式集成分類算法[D].長沙:湖南大學(xué),2011.

[19]張維.共享顯露模式的挖掘算法研究[D].長沙:湖南大學(xué),2013.

[20]魏芳.基本顯露模式的挖掘算法[D].鄭州:鄭州大學(xué),2005.

[21]李休休.社交媒體上的恐怖活動(dòng)研究[D].上海:華東政法大學(xué),2016.

[22]新疆統(tǒng)一戰(zhàn)線.識(shí)別宗教極端活動(dòng)(75種具體表現(xiàn))基礎(chǔ)知識(shí)[EB/OL].http://www.xjtzb.gov.cn/2017-06/19/c_1121167461.htm,2019-03-18.

[23]新疆維吾爾自治區(qū)實(shí)施《中華人民共和國反恐怖主義法》辦法[N].新疆日報(bào)(漢),2018-10-10,(5).

[24]《新疆的反恐、去極端化斗爭與人權(quán)保障》白皮書[J].中國宗教,2019,(3):12-19.

[25]李勇男.基于子圖模式的反恐情報(bào)關(guān)聯(lián)圖集分析[J].現(xiàn)代情報(bào),2019,39(7):37-43.

[26]李勇男,梅建明.基于頻繁模式樹的涉恐情報(bào)關(guān)聯(lián)分析[J].情報(bào)科學(xué),2017,35(9):141-145,152.

[27]李勇男,梅建明.先驗(yàn)原理在涉恐情報(bào)分析中的應(yīng)用研究[J].情報(bào)雜志,2017,36(8):23-26.

[28]李勇男,梅建明,秦廣軍.反恐情報(bào)分析中的數(shù)據(jù)預(yù)處理研究[J].情報(bào)科學(xué),2017,35(11):103-107,113.

(責(zé)任編輯:陳 媛)

猜你喜歡
數(shù)據(jù)挖掘邊界
拓展閱讀的邊界
探索太陽系的邊界
意大利邊界穿越之家
論中立的幫助行為之可罰邊界
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
“偽翻譯”:“翻譯”之邊界行走者
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
思考新邊界