楊黎霞,許茂增,陳仁祥
(1.重慶交通大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 重慶 400074; 2.重慶廣播電視大學(xué) 管理學(xué)院, 重慶 400052;3.重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院, 重慶 400074)
當(dāng)前,恐怖襲擊正在成為影響國(guó)際安全的重要風(fēng)險(xiǎn)源,交通襲擊事件頻繁發(fā)生[1]。交通工具是一種非常容易獲得的非常規(guī)武器,常被恐怖分子用來(lái)進(jìn)行恐怖活動(dòng)[2]。據(jù)全球恐怖主義數(shù)據(jù)庫(kù)[3]統(tǒng)計(jì)數(shù)據(jù)可知目前交通襲擊采用最多的攻擊方式是轟炸/爆炸,在爆炸發(fā)生后,應(yīng)快速將現(xiàn)場(chǎng)封鎖,進(jìn)行搜爆和排爆工作,以防止二次爆炸引起更大的人員傷亡和損失,同時(shí)對(duì)爆炸現(xiàn)場(chǎng)進(jìn)行分區(qū)管理和制定疏散計(jì)劃直至醫(yī)學(xué)救援團(tuán)隊(duì)到來(lái)[4]。生化襲擊也曾被用來(lái)襲擊人員密集的交通系統(tǒng),如:“日本東京地鐵沙林毒氣案”[5-6]。而該襲擊方式的救援與爆炸襲擊的應(yīng)急救援有較大差別,生化襲擊具有隱蔽性、擴(kuò)散性和傳染性。一旦生化襲擊發(fā)生需要快速鎖定攻擊物,針對(duì)不同攻擊物采用對(duì)應(yīng)的疏散和隔離措施[7-8],同時(shí)需要對(duì)疾病疫情進(jìn)行追溯[9]。由此可見(jiàn),不同的交通襲擊方式需要采用的應(yīng)急救援是不一樣的,需要的救援物資也有所差別[10-11]。為了不造成社會(huì)資源的浪費(fèi),需要在交通襲擊發(fā)生時(shí)快速準(zhǔn)確進(jìn)行識(shí)別,啟動(dòng)相應(yīng)的應(yīng)對(duì)預(yù)案。
1970—2017年,全球恐怖主義數(shù)據(jù)庫(kù)(Global Terrorism Database,GTD)[3]收錄了來(lái)自12個(gè)地區(qū)221個(gè)國(guó)家發(fā)生的182 438起恐怖襲擊事件信息,其中攻擊目標(biāo)為交通系統(tǒng)有8500條數(shù)據(jù)。2008—2017年10年間該數(shù)據(jù)庫(kù)收錄了2 806條交通襲擊數(shù)據(jù),接近過(guò)去48 a收錄總量的三分之一[12]。近年來(lái)交通襲擊頻繁發(fā)生使得數(shù)據(jù)量大幅增加,同時(shí),與恐怖襲擊事件相關(guān)的大量信息被收集和存儲(chǔ),恐怖襲擊事件統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)出大容量、高維度和多樣化的特點(diǎn)。GTD中收錄的每條恐怖襲擊事件最多會(huì)有135條屬性對(duì)其進(jìn)行詮釋,如何在大數(shù)據(jù)背景下分析這些屬性之間復(fù)雜的內(nèi)部關(guān)系,從而快速、高效和智能的識(shí)別交通襲擊事件攻擊類型,為更合理的配置交通襲擊防御資源提供數(shù)據(jù)和理論支撐,成為交通反恐中的關(guān)鍵問(wèn)題。
目前,已有學(xué)者就恐怖襲擊攻擊方式分類進(jìn)行了研究。如:Nizamani等[13]基于2001—2008年GTD的文本數(shù)據(jù),對(duì)比分析了決策樹(shù)、樸素貝葉斯和支持向量機(jī)3種分類方法,研究結(jié)果表明支持向量機(jī)能達(dá)到合理的準(zhǔn)確率但是運(yùn)行時(shí)間太長(zhǎng),樸素貝葉斯雖速度快而準(zhǔn)確率低,決策樹(shù)的綜合表現(xiàn)更好,分類識(shí)別率能達(dá)到83%。Sivaraman等[14]針對(duì)恐怖襲擊方式分類提出基于多分類器的集成決策樹(shù)算法,利用GTD數(shù)據(jù)進(jìn)行實(shí)例分析,結(jié)果表明:該算法比單一決策樹(shù)算法的準(zhǔn)確率有顯著提高。肖圣龍等[15]為了提高社會(huì)安全事件分類訓(xùn)練速度,將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)分發(fā)到多個(gè)主機(jī)同時(shí)進(jìn)行訓(xùn)練,提出了一種基于Spark平臺(tái)的分布式神經(jīng)網(wǎng)絡(luò)分類算法。已有研究工作取得了較好效果,同時(shí)也有不足之處:目前已有的算法主要從攻擊方式諸多屬性中人工提取特征后利對(duì)攻擊方式進(jìn)行識(shí)別,其將特征提取與模式識(shí)別分步進(jìn)行,而特征提取與模式識(shí)別均有多種方法,兩者相對(duì)獨(dú)立、匹配程度難以評(píng)價(jià),從而影響識(shí)別結(jié)果的準(zhǔn)確性。同時(shí),部分方法需要人工提取特征,受制于人的專業(yè)背景,智能化不夠,也難以實(shí)現(xiàn)大數(shù)據(jù)下攻擊方式的高效、準(zhǔn)確識(shí)別。面對(duì)大數(shù)據(jù)在模型訓(xùn)練方面,雖然可以利用Spark平臺(tái)加快計(jì)算速度,但在表征屬性和攻擊方式之間的復(fù)雜映射關(guān)系時(shí)分布式神經(jīng)網(wǎng)絡(luò)這種淺層模型的識(shí)別能力及泛化性能均顯不足。
交通襲擊攻擊方式與諸多屬性相關(guān),且各屬性與攻擊方式類別間呈現(xiàn)出非線性,增大了識(shí)別的挑戰(zhàn)性。近年來(lái),深度學(xué)習(xí)采用一系列的非線性變換,從原始數(shù)據(jù)中提取由低層到高層、由具體到抽象的結(jié)構(gòu)性特征,是通過(guò)模擬人類大腦的學(xué)習(xí)過(guò)程,構(gòu)建深層次網(wǎng)絡(luò)模型,最終提升分類精度[16]。為此,本文提出了基于深度學(xué)習(xí)的交通襲擊攻擊方式識(shí)別方法,利用加噪自動(dòng)編碼深度神經(jīng)網(wǎng)絡(luò)(denoising auto-encoder deep neural network,DAEDNN)從多樣化的交通襲擊事件統(tǒng)計(jì)數(shù)據(jù)中自動(dòng)學(xué)習(xí)提取出各類攻擊方式特征,并利用微調(diào)將攻擊方式特征學(xué)習(xí)與模式識(shí)別融為一體,實(shí)現(xiàn)攻擊方式的智能識(shí)別。
圖1 自編碼的模型結(jié)構(gòu)示意圖
編碼過(guò)程可表示為[18]
h=fθ(x)=Sf(Wx+b)
(1)
式中:θ、W、b、Sf分別為編碼網(wǎng)絡(luò)參數(shù)集合、權(quán)重矩陣、偏置向量和解碼網(wǎng)絡(luò)的激活函數(shù),其中θ={W,b};W是d′×d維的權(quán)重矩陣;Sf一般采用sigmoid和tanh兩種激活函數(shù)。解碼過(guò)程可表示為
(2)
式中:θ′、W′、b′、Sg分別為編碼網(wǎng)絡(luò)參數(shù)集、權(quán)值矩陣、偏置向量和解碼器的激活函數(shù),其中θ′=(W′,b′);W′為d×d′維的權(quán)值矩陣,且W′=WT;Sg一般采用線性函數(shù)和sigmoid兩種激活函數(shù)。
自編碼的訓(xùn)練過(guò)程是通過(guò)在訓(xùn)練樣本集D上尋找參數(shù)θ和θ′的最小化重構(gòu)誤差,重構(gòu)誤差表達(dá)式為
(3)
式中,L為重構(gòu)誤差函數(shù),常用交叉熵?fù)p失函數(shù)或平方誤差函數(shù),本文采用平方誤差函數(shù),表示為
(4)
首先依照二項(xiàng)隨機(jī)噪聲qD分布對(duì)樣本x(d)加入隨機(jī)噪聲,獲得含噪樣本x′(d),其表達(dá)式為
(5)
然后通過(guò)優(yōu)化以下目標(biāo)函數(shù)完成加噪自編碼的訓(xùn)練
(6)
加噪自動(dòng)編碼機(jī)(denoising auto-encoder,DAE)通過(guò)添加噪聲進(jìn)行編碼重構(gòu),可以減少隨機(jī)因素對(duì)提取攻擊方式特征的影響,提升模型的魯棒性和特征提取能力。
DAEDNN是將多個(gè)DAE用無(wú)監(jiān)督的方法層層堆疊形成深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),其前一層DAE的輸出作為后一層DAE的輸入,如圖2所示。本文在對(duì)DAEDNN進(jìn)行預(yù)訓(xùn)練時(shí)采用逐層貪婪訓(xùn)練法,預(yù)訓(xùn)練的過(guò)程如下:
1) 訓(xùn)練第一層的DAE時(shí)采用無(wú)監(jiān)督方法,原始輸入的最小化重構(gòu)誤差即為其輸出,其表達(dá)式為
(7)
式中,θ1為DAE1的參數(shù)集合,θ={W1,b1}。
圖2 DNN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
2) 以上一層DAE隱藏層作為下一層DAE的輸入,訓(xùn)練下一層DAE:
(8)
3) 重復(fù)2),直到所有DAE訓(xùn)練完畢;
4) 為下一步有監(jiān)督微調(diào)做準(zhǔn)備,需要把最后一層隱藏層的輸出作為分類層的輸入,攻擊方式類別數(shù)作為分類神經(jīng)元個(gè)數(shù)。
將多個(gè)DAE連接起來(lái),建立起加噪深度神經(jīng)網(wǎng)絡(luò),每一層所學(xué)到的特征就是數(shù)據(jù)特征不同階表達(dá)。對(duì)DNN參數(shù)進(jìn)行微調(diào)時(shí)需在DNN最后加入具有分類功能的輸出層,DNN的輸出其表達(dá)式為
(9)
式中,設(shè)輸出層的參數(shù)為θN+1,xm的交通襲擊攻擊方式類別為dm,通過(guò)最小化φDNN(Θ)來(lái)完成DNN的微調(diào):
(10)
式中,Θ為DNN的參數(shù)集,且Θ=(θ1,θ2,…,θN+1)。
經(jīng)過(guò)微調(diào)的DNN優(yōu)化了對(duì)交通襲擊攻擊方式信息的特征表示,將攻擊方式特征學(xué)習(xí)與攻擊方式分類融為一體,實(shí)現(xiàn)攻擊方式的智能識(shí)別。
本文提出了基于深度學(xué)習(xí)的交通襲擊攻擊方式智能識(shí)別方法,該方法有機(jī)的融合了無(wú)監(jiān)督學(xué)習(xí)和將監(jiān)督微調(diào),同時(shí)結(jié)合了深度學(xué)習(xí)的優(yōu)勢(shì)和交通襲擊事件大容量、高維度和多樣化的數(shù)據(jù)特性,可同時(shí)完成大數(shù)據(jù)情形下交通恐怖事件特征自適應(yīng)提取和攻擊方式智能識(shí)別,將特征學(xué)習(xí)與模式識(shí)別融為一體,識(shí)別流程如圖3所示。
圖3 識(shí)別流程框圖
該算法實(shí)現(xiàn)主要包括:
1) 樣本獲取與預(yù)處理。從GTD中篩選出交通襲擊事件,對(duì)篩選出的數(shù)據(jù)進(jìn)行填充后進(jìn)行歸一化處理,使其取值范圍為[0,1],以其作為訓(xùn)練樣本和測(cè)試樣本;
2) 預(yù)訓(xùn)練。構(gòu)建加噪加噪自編碼深度神經(jīng)網(wǎng)絡(luò),包括設(shè)置每層神經(jīng)元個(gè)數(shù),DAE的數(shù)量N,加噪比例等網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。輸入訓(xùn)練樣本,將上一個(gè)DAE的輸出作為下一個(gè)DAE的輸入逐層的訓(xùn)練N個(gè)DAE,直到所有DAE訓(xùn)練完畢;
3) 有監(jiān)督微調(diào)。設(shè)置輸出層神經(jīng)元個(gè)數(shù)為攻擊方式的類別數(shù),對(duì)預(yù)訓(xùn)練得到的參數(shù)通過(guò)輸入有標(biāo)簽訓(xùn)練樣本進(jìn)行微調(diào),微調(diào)后的網(wǎng)絡(luò)參數(shù)作為最終的網(wǎng)絡(luò)參數(shù)。
4) 輸出智能識(shí)別結(jié)果。輸入測(cè)試樣本,輸出結(jié)果。
本文數(shù)據(jù)來(lái)源于GTD,由于該數(shù)據(jù)庫(kù)收集時(shí)間跨度大、恐怖襲擊事件描述的復(fù)雜性等諸多因素,致使其數(shù)據(jù)具有不完整、描述重復(fù)、不規(guī)范、數(shù)據(jù)異常等問(wèn)題。在輸入DAEDNN進(jìn)行訓(xùn)練前,需對(duì)其進(jìn)行預(yù)處理,包括:
1) 數(shù)據(jù)篩選。從屬性targtype1中篩選與交通相關(guān)數(shù)據(jù)。篩選數(shù)據(jù)按攻擊方式分類統(tǒng)計(jì),如表1所示。
表1 攻擊方式分類統(tǒng)計(jì)信息
2) 數(shù)據(jù)預(yù)處理。GTD中恐怖襲擊事件每條含有135個(gè)屬性,其中部分屬性解釋量小、重復(fù)定義、數(shù)據(jù)缺失嚴(yán)重,需對(duì)部分屬性剔除[20]。保留屬性包括eventid,iyear,imonth,iday,extended等35個(gè)。
3) 數(shù)據(jù)填補(bǔ)。保留屬性仍有部分?jǐn)?shù)據(jù)缺失,根據(jù)不同屬性的特點(diǎn),采用相應(yīng)處理方法對(duì)缺失值進(jìn)行填補(bǔ)。如:利用水經(jīng)注萬(wàn)能地圖將屬性latitude,longitude進(jìn)行填補(bǔ);用targtype1中各類的子類中被襲頻率最高的類來(lái)填補(bǔ)targsubtype1中的空白;
4) 數(shù)據(jù)轉(zhuǎn)換。需要將字符串和日期型的數(shù)據(jù)轉(zhuǎn)換成數(shù)值型。本文將字符串和日期型的屬性通過(guò)Excel透視表排序,其序號(hào)作為該屬性的一個(gè)映射值,讓其作為輸入的源數(shù)據(jù)[15]。
5) 數(shù)據(jù)規(guī)范化。不同屬性有不同的量綱,數(shù)值間差別較大。在此采用離差標(biāo)準(zhǔn)化法進(jìn)行數(shù)據(jù)規(guī)范化處理,將數(shù)值映射到[0,1]間,便于深度神經(jīng)網(wǎng)絡(luò)的輸入。轉(zhuǎn)換公式為:
(11)
式中,max為樣本數(shù)據(jù)最大值; min為樣本數(shù)據(jù)最小值。
在DAEDNN特征學(xué)習(xí)時(shí)確定DAE層數(shù)非常關(guān)鍵,通常情況下,DAE層數(shù)越多網(wǎng)絡(luò)結(jié)構(gòu)越深特征學(xué)習(xí)效果會(huì)越好,但這又會(huì)加大網(wǎng)絡(luò)訓(xùn)練的難度。本文通過(guò)多次試驗(yàn)后設(shè)置參數(shù)為:DAE的深度神經(jīng)網(wǎng)絡(luò)中含3層DAE,對(duì)應(yīng)的神經(jīng)元個(gè)數(shù)是35-19-35,19-15-19,15-10-15,分類層神經(jīng)元個(gè)數(shù)與攻擊方式識(shí)別類別相同為8,加入噪聲比例為20% GTD收錄攻擊方式為9種類型,其中1類為unknown。由于未知攻擊類型有可能是其他8種類型中的某一類,因此在其特征提取的時(shí)候可能干擾其他類別,故在做試驗(yàn)時(shí)剔除了該類數(shù)據(jù)。對(duì)于編號(hào)為1、5、8的3種攻擊方式,由于樣本數(shù)過(guò)少不利于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,在原來(lái)樣本基礎(chǔ)上增加適當(dāng)?shù)脑肼暫髮颖緮?shù)量進(jìn)行擴(kuò)展。所增加噪聲的標(biāo)準(zhǔn)差相對(duì)于原始樣本標(biāo)準(zhǔn)差倍數(shù)k=0.1~0.2,以使加噪后的樣本相對(duì)于原樣本差異明顯又不至于被噪聲湮沒(méi)。以此原則,取k=0.1對(duì)編號(hào)1類擴(kuò)展1倍使其樣本量為170,取k=0.1和k=0.2對(duì)編號(hào)5、8類擴(kuò)展2倍使其樣本量分別為150和156。
對(duì)每類攻擊方式分別隨機(jī)抽取70個(gè)樣本作為訓(xùn)練樣本,剩下樣本中隨機(jī)抽取70個(gè)作為測(cè)試樣本。模型訓(xùn)練完成后,得出交通襲擊攻擊方式識(shí)別的結(jié)果,所提方法的識(shí)別準(zhǔn)確率如表2所示(隨機(jī)抽取10次,即共做10次試驗(yàn),識(shí)別結(jié)果進(jìn)行平均)。
同時(shí),應(yīng)用主成分分析方法分析所提出方法對(duì)原始數(shù)據(jù)進(jìn)行自學(xué)習(xí)得到的特征,選取所得到前3個(gè)主分量作為特征向量,圖4為特征提取結(jié)果示意圖,觀察圖4,所學(xué)習(xí)的特征聚集性非常好,各攻擊方式之間區(qū)分明顯,說(shuō)明了所提方法可以有效自動(dòng)學(xué)習(xí)提取攻擊方式的特征。
表2 幾種算法的準(zhǔn)確率
圖4 特征提取結(jié)果示意圖
本文算法與決策樹(shù)算法[13]、集成決策樹(shù)算法[14]和分布式神經(jīng)網(wǎng)絡(luò)分類算法(DNNC)[15]的計(jì)算結(jié)果如圖5和表2所示。
圖5 不同方法結(jié)果直方圖
觀察圖5和表2。決策樹(shù)算法每次只用一個(gè)屬性進(jìn)行分叉,沒(méi)有考慮各屬性見(jiàn)的隱含關(guān)系,所以導(dǎo)致其準(zhǔn)確率平均值最低,僅74.14%,且對(duì)不同的攻擊類型準(zhǔn)確率波動(dòng)非常大(對(duì)“劫持人質(zhì)(綁架)”準(zhǔn)確率達(dá)到93.63%,而對(duì)“轟炸/爆炸”只有42.46%),各類型準(zhǔn)確率的標(biāo)準(zhǔn)差是17.28%,說(shuō)明其對(duì)不同攻擊類型的識(shí)別穩(wěn)定性差;集成決策樹(shù)算法相對(duì)于單一決策樹(shù)算法準(zhǔn)確率有提高(平均值為81.80%),但其仍然忽略了各屬性間的隱含關(guān)系準(zhǔn)確率不高,且各攻擊類型的準(zhǔn)確率波動(dòng)也大(標(biāo)準(zhǔn)差達(dá)到12.38%);DNNC方法考慮到了不同屬性間的隱含關(guān)系,其準(zhǔn)確率平均值比決策樹(shù)算法和集成決策樹(shù)算法都有提高為89.22%,各攻擊類型識(shí)別準(zhǔn)確率波動(dòng)減小(標(biāo)準(zhǔn)差為5.48%),但其屬于淺層神經(jīng)網(wǎng)絡(luò)模型,相對(duì)于本文所提DAEDNN方法相比,學(xué)習(xí)特征能力不足,所以準(zhǔn)確率低于所提方法。
本文所提方法DAEDNN算法平均準(zhǔn)確率達(dá)到94.86%,較決策樹(shù)算法、集成決策樹(shù)算法和分布式神經(jīng)網(wǎng)絡(luò)算法在攻擊方式智能識(shí)別時(shí)的準(zhǔn)確率總體具有明顯優(yōu)勢(shì),比決策樹(shù)算法、集成決策樹(shù)算法和DNNC算法分別提升了20.72%、13.06%和5.64%。這是因?yàn)镈AEDNN通過(guò)深度網(wǎng)絡(luò)關(guān)聯(lián)各個(gè)屬性,在每層之間進(jìn)行變換,能自動(dòng)學(xué)習(xí)提取出各屬性與被識(shí)別目標(biāo)之間的關(guān)系,將特征提取與模式識(shí)別融為一體。同時(shí),DAEDNN相對(duì)于DNNC網(wǎng)絡(luò)層數(shù)更深,可以學(xué)習(xí)得到更深層次的特征,特征學(xué)習(xí)提取效果更佳,提升到更高的準(zhǔn)確率。另一方面,DAEDNN使得網(wǎng)絡(luò)的魯棒性更好,各攻擊類型識(shí)別準(zhǔn)確率波動(dòng)值相對(duì)于前3種方法最小,僅為3.50%。
1) 本文提出利用加噪自編碼深度神經(jīng)網(wǎng)絡(luò)從大容量與多樣化的交通襲擊事件統(tǒng)計(jì)數(shù)據(jù)中自動(dòng)學(xué)習(xí)提取恐怖襲擊特征和識(shí)別攻擊方式識(shí)別。
2) 所構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)通過(guò)添加噪聲進(jìn)行編碼重構(gòu),從而減少隨機(jī)因素對(duì)提取共計(jì)方式特征的影響,提升了特征提取能力。
3) 本文采用GTD的數(shù)據(jù)進(jìn)行了驗(yàn)證,同時(shí)與決策樹(shù)算法、集成決策樹(shù)算法和DNNC算法進(jìn)行了對(duì)比分析,結(jié)果表明所提方法在攻擊方式智能識(shí)別時(shí)準(zhǔn)確率有所提升,同時(shí)具有良好的特征自提取能力。
4) 本文為交通襲擊攻擊方式智能識(shí)別提供了一種新的思路和方法。