国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的全球恐怖主義數(shù)據(jù)庫數(shù)據(jù)分析

2019-07-05 11:20李永群應萬明袁飛韓玉春
經(jīng)濟數(shù)學 2019年2期
關鍵詞:恐怖襲擊數(shù)據(jù)挖掘

李永群 應萬明 袁飛 韓玉春

摘 要 運用數(shù)據(jù)挖掘的方法,對全球恐怖主義數(shù)據(jù)庫(以下簡稱GTD)進行了量化分析.建立了基于KNN鄰近算法的恐怖襲擊事件量化分級模型和基于Kmeans聚類算法的恐怖襲擊事件分類模型.此外,對近三年來恐怖襲擊事件發(fā)生的主要原因、時空特性、蔓延特性以及級別分布規(guī)律進行了分析.最后,基于建立的模型和分析結(jié)論,對未來全球和某些重點地區(qū)的反恐態(tài)勢進行了預測分析,給出了具有針對性的建議.

關鍵詞 應用統(tǒng)計數(shù)學;恐怖襲擊;數(shù)據(jù)挖掘;KNN;Kmeans

中圖分類號 F063.3; O213?????????? 文獻標識碼 A

Data Analysis of GTD Based on Data Mining

LI Yongqun1, YING Wanming2, YUAN Fei3,HAN? Yuchun3

(1.College of Mathematics and Econometrics, Hunan University, Changsha, Hunan 410082, China;

2.College of Finance and Statistics, Hunan University, Changsha, Hunan 410082, China;

3.College of Electrical and Information Engineering, Hunan University, Changsha, Hunan 410082, China)

Abstract Use data mining methods to investigate the Global Terrorism Database (GTD). Quantitative grading model based on KNN algorithm and classification model based on Kmeans clustering algorithm about terrorist attacks are established respectively. Furthermore, the main reasons, time and space characteristics, spread features and level distributions of terrorist attacks in the past three years are studied and analyzed. According to this papers models and conclusions, the global and some key regions antiterrorism situations in the future are researched and judged, and recommendations for the fight against? terrorism are given.

Key words applied statistical mathematics;terrorist attack; data mining; KNN; Kmeans

1 引 言

恐怖襲擊是指極端分子或組織人為制造的、針對但不僅限于平民及民用設施的、不符合國際道義的攻擊行為.它不僅具有極大的殺傷性與破壞力,能直接造成巨大的人員傷亡和財產(chǎn)損失,而且還給人們帶來巨大的心理壓力,造成一定程度的社會動蕩,妨礙正常的工作與生活秩序,進而極大地阻礙經(jīng)濟的發(fā)展.如“9.11”事件,遇難者總數(shù)高達2996人,給美國及全球經(jīng)濟帶來巨大震蕩及損失.

自從20世紀90年代以來,尤其是2001年美國“9.11”事件之后,反恐形勢日益嚴峻.恐怖主義是人類的共同威脅,打擊恐怖主義是每個國家都應該承擔的責任.各國政府及聯(lián)合國等國際組織也不斷加強合作,采取多種手段和措施防范和打擊一切形式的恐怖主義.恐怖分子策劃實施的每一次襲擊,雖然表面上看具有偶然性,但也是經(jīng)過預謀和計劃的.所以,對恐怖襲擊事件相關數(shù)據(jù)的深入分析和挖掘有助于加深人們對恐怖主義的認識,為反恐防恐提供有價值的信息支持.

當前,有關數(shù)據(jù)挖掘方法在恐怖襲擊領域中的研究和應用越來越受到專家學者的關注和重視.在識別恐怖分子方面,鐘磊(2014)[1]針對傳統(tǒng)算法的不足,提出了基于人工免疫算法和網(wǎng)絡信息的潛在恐怖分子挖掘方法,該方法能對潛在的恐怖分子進行準確的識別.吳紹忠(2016)[2]提出將聚類分析應用到反恐情報分析中,從而發(fā)現(xiàn)和識別潛在的恐怖分子或恐怖組織.扈翔(2017)[3]研究了樸素貝葉斯算法與K-means算法在反恐情報分析中的應用.在恐怖襲擊預警方面,戰(zhàn)兵和韓銳(2015)[4]將隱馬爾科夫模型與貝葉斯網(wǎng)絡相結(jié)合,實現(xiàn)了對可能發(fā)生的恐怖襲擊事件的預測.傅子洋等(2016)[5]基于貝葉斯網(wǎng)絡,建立了恐怖襲擊預警模型,為反恐行動提供了有效的預警信息.在恐怖襲擊風險預測與評估方面,龔偉志等(2015)[6]提出了基于大數(shù)據(jù)分析的恐怖襲擊風險預測方法.項寅(2018)[7]利用遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡構(gòu)建了恐怖襲擊風險的預測模型,并利用GTD中的數(shù)據(jù)驗證了模型的預測準確性.劉明輝(2018)[8]運用K-means聚類對民航系統(tǒng)恐怖主義風險進行了評估,實驗結(jié)果表明該方法的評估結(jié)果比較可靠.

美國馬里蘭大學的專家學者搜集并構(gòu)建的全球恐怖主義數(shù)據(jù)庫(Global Terrorism Database, GTD)記錄了1970年至2017年全球發(fā)生的恐怖襲擊事件(數(shù)據(jù)庫網(wǎng)址:https://www.start.umd.edu/gtd/).以2018年全國研究生數(shù)學建模競賽C題為背景,基于GTD數(shù)據(jù)庫的部分信息(1998年~2017年),主要解決了以下三個問題.

1)建立量化分級模型,根據(jù)危害程度對恐怖襲擊事件分級,并列出近二十年來危害程度最高的十大恐怖襲擊事件.

2)針對2015、2016年發(fā)生的、尚未有組織或個人宣稱負責的恐怖襲擊事件,依據(jù)事件特征,將可能是同一個恐怖組織或個人制造的恐怖襲擊事件歸為一類,從而為進一步確定恐怖襲擊事件的制造者提供了幫助.

3)通過分析近三年來恐怖襲擊事件發(fā)生的主要原因、時空特性、蔓延特性、級別分布等規(guī)律,進而分析下一年全球或某些重點地區(qū)的反恐態(tài)勢,并給出有針對性的反恐建議.

2 量化分級模型的建立與求解

由于恐怖襲擊事件的危害性不僅取決于人員傷亡和經(jīng)濟損失這兩個方面,還與發(fā)生的時機、地域、針對的對象等諸多因素有關,因而采用災難性事件的主觀分級方法難以形成統(tǒng)一標準.對GTD中的數(shù)據(jù)進行數(shù)據(jù)挖掘,建立基于數(shù)據(jù)分析的量化分級模型,將GTD給出的事件危害程度從高到低分為一至五級,并列出近二十年來危害程度最高的十大恐怖襲擊事件.

2.1 數(shù)據(jù)預處理

GTD數(shù)據(jù)庫中記錄了1998年~2017年全球共發(fā)生114183起恐怖襲擊事件,每一起事件有134個特征變量,數(shù)據(jù)量極大.在進行事件分級之前,需要對數(shù)據(jù)進行預處理.首先,刪除變量缺失值太多的事件,然后選取特征變量用于建立分級模型.考慮到每起恐怖襲擊事件對應有134個特征變量,且變量分為數(shù)值型變量、文本型變量及分類型變量三類,不可能將所有變量作為輸入特征用于分級.因此,在考慮人員傷亡、經(jīng)濟損失、發(fā)生地域等與事件危害性緊密相關的主要變量后,刪除無關的變量.

2.2 基于KNN鄰近算法的量化分級模型

恐怖襲擊事件的危害性不僅與其造成的人員傷亡和經(jīng)濟損失有關,事件發(fā)生的地域及針對的對象也會對危害程度產(chǎn)生影響.在經(jīng)過數(shù)據(jù)預處理后,選擇死亡總數(shù)(nkill)、受傷總數(shù)(nwound)、財產(chǎn)損害程度(propextent)、城市(city)及超出國際人道主義法律范圍(crit3)這5個變量作為描述恐怖襲擊事件危害性的代理特征變量.根據(jù)每個變量對恐怖襲擊危害性影響的重要程度,分配給不同變量以不同的權(quán)重,從而可以得到不同恐怖襲擊事件危害性的描述.按照危害性的大小從高到低將GTD中所有事件的危害程度分為一至五級.選取80%的事件作為訓練集樣本,20%的事件作為測試集樣本,采用K-鄰近分類算法(KNearest Neighbor,以下簡稱KNN)對上述的分級進行訓練和測試,建立基于危害性大小的恐怖襲擊事件的量化分級模型.

KNN是一種比較成熟的算法,是數(shù)據(jù)挖掘分類方法之一,算法簡單,易于實現(xiàn).其核心思想是:如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別,那么該樣本也屬于這個類別,并且與這個類別上樣本的特征相似.

2.3 模型的求解

在KNN算法中,K值的確定至關重要,K值的不同會對分類結(jié)果產(chǎn)生很大的影響.通過Python編程,分別取不同的K值進行訓練,得到最優(yōu)取值為1,此時恐怖襲擊測試集樣本的分級準確率達到了95%,這表明此時的量化分級模型具有比較好的分級效果.基于此模型給出了近二十年來危害程度最高的十大恐怖事件編號(按危害性從高低排序):201406150063、200109110004、200109110005、201408090071、201406100042、201710140002、200403210001、201408200027、201612100011、201408150057.從級別來看,這十起事件均為一級恐怖襲擊事件.

3 恐怖襲擊事件制造者的確定

GTD中有多起恐怖襲擊事件尚未確定作案者,需要確定隱藏的恐怖分子.不管某一恐怖襲擊事件的制造者是個人還是組織,其襲擊的時間、地點、目標等事件特征總會存在相似性和聯(lián)系.因此,將同一個恐怖組織或個人在不同時間、不同地點多次作案的多起案件聯(lián)系起來統(tǒng)一進行偵查,必將有利于找到事件的制造者.基于此分析,可以采用聚類算法,對2015年和2016年發(fā)生的、尚未有組織或個人宣稱負責的恐怖事件進行分類,每一類即對應一個未知的恐怖組織或個人.

3.1 數(shù)據(jù)預處理

在對案件進行分類之前,先對數(shù)據(jù)進行預處理.在2015年和2016年發(fā)生的恐怖襲擊事件中,首先選擇claimed變量值為0的事件,確定了22746起沒有確定制造者的恐怖襲擊事件.然后刪除其中變量缺失值太多的事件.最后,根據(jù)能反映嫌疑人和事件特征的原則,選取月(imonth)、日(iday)、國家(country)、地區(qū)(region)、政治、經(jīng)濟、宗教或社會目標(crit1)、意圖脅迫、恐嚇或煽動更多群眾(crit2)、超出國際人道主義法律范圍(crit3)、自殺式襲擊(suicide)、攻擊類型(attacktype1)、目標/受害者類型(targtype1)、目標/受害者子類型(targsubtype1)、目標/受害者的國籍(natlty1)、第一可疑/涉嫌犯罪集團(guncertain1)、武器類型(weaptype1)、武器子類型(weapsubtype1)、國際后勤(INT_LOG)、國際意識形態(tài)(INT_IDEO)、國際雜類(INT_MISC)這18個變量用于建立事件分類模型.

3.2 基于Kmeans聚類算法恐怖襲擊制造者的確定

猜你喜歡
恐怖襲擊數(shù)據(jù)挖掘
歐洲之恐:歐洲可以迅速撲滅恐怖襲擊,但仍做不到防患于未然
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
巴黎恐怖襲擊已致至少129人死亡
英國警戒級別提到“次高”
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究