国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DNA數(shù)據(jù)庫數(shù)據(jù)挖掘應(yīng)用研究

2015-08-29 10:06:32
刑事技術(shù) 2015年5期
關(guān)鍵詞:強(qiáng)奸數(shù)據(jù)挖掘案件

劉 冰

(公安部物證鑒定中心, 北京 100038)

專題研究:法醫(yī)遺傳學(xué)

DNA數(shù)據(jù)庫數(shù)據(jù)挖掘應(yīng)用研究

劉 冰

(公安部物證鑒定中心, 北京 100038)

始建于2003年的全國公安機(jī)關(guān)DNA數(shù)據(jù)庫目前已聚集了大量數(shù)據(jù)信息,除DNA分型等技術(shù)數(shù)據(jù)外,還包括犯罪的時(shí)間、空間、類別、手段以及涉案人員的地域、民族、行為等多個(gè)維度的海量數(shù)據(jù)。將數(shù)據(jù)挖掘引入DNA數(shù)據(jù)庫的應(yīng)用,通過分類、估計(jì)、預(yù)測、相關(guān)性分組、關(guān)聯(lián)規(guī)則、聚類分析等方法,可以實(shí)現(xiàn)對DNA數(shù)據(jù)庫中DNA分型、人員背景和行為、案件特征等復(fù)雜類型數(shù)據(jù)的進(jìn)一步挖掘。本文采用聚類分析的方

法醫(yī)遺傳學(xué);DNA數(shù)據(jù)庫;數(shù)據(jù)挖掘;聚類分析

當(dāng)今社會(huì),隨著快速的變革各種危機(jī)事件的發(fā)生頻率不斷提高,人類社會(huì)逐漸進(jìn)入了一個(gè)“風(fēng)險(xiǎn)社會(huì)”。風(fēng)險(xiǎn)社會(huì)的本質(zhì)特征是“不確定性”,即對風(fēng)險(xiǎn)難以進(jìn)行有效預(yù)測與控制。公共安全作為社會(huì)發(fā)展與文明進(jìn)步的重要前提條件,風(fēng)險(xiǎn)的防控是其面臨的主要課題。大數(shù)據(jù)能夠讓人們掌握到前所未有的全面信息,在對其進(jìn)行有效處理的基礎(chǔ)上更為準(zhǔn)確地發(fā)現(xiàn)事物發(fā)展的規(guī)律。在大數(shù)據(jù)環(huán)境下,不確定性的消除具備了真正的可能性[1]。始建于2003年的全國公安機(jī)關(guān)DNA數(shù)據(jù)庫(以下簡稱“DNA數(shù)據(jù)庫”)目前已聚集了大量公共安全領(lǐng)域中的數(shù)據(jù)信息,除DNA分型等技術(shù)數(shù)據(jù)外,還包括犯罪的時(shí)間、空間、類別、手段以及涉案人員的地域、民族、行為等多個(gè)維度的海量數(shù)據(jù)[2]。隨著公共安全治理的實(shí)際需求不斷增長,上述數(shù)據(jù)還處于快速累積和持續(xù)增長中。目前,我國DNA數(shù)據(jù)庫的主要優(yōu)勢和用途在于人的個(gè)體識(shí)別,主要應(yīng)用模式是基于短串聯(lián)重復(fù)序列(short tandem repeat,STR)數(shù)據(jù)的完全匹配和親緣關(guān)系檢索[3]。顯然,這一應(yīng)用模式還沒有充分發(fā)掘DNA數(shù)據(jù)庫的數(shù)據(jù)價(jià)值:(1)在未形成基于DNA分型數(shù)據(jù)的個(gè)體識(shí)別匹配結(jié)果時(shí),大量的案件、物證、人員的相關(guān)數(shù)據(jù)信息處于沉寂狀態(tài);(2)受限于目前DNA數(shù)據(jù)庫匹配結(jié)果的表現(xiàn)形式(一般呈兩個(gè)樣品一對一的形式),數(shù)據(jù)庫匹配結(jié)果(包括有關(guān)的案件、人員等信息)的應(yīng)用往往是孤立而不是關(guān)聯(lián)的。

上個(gè)世紀(jì)80年代,數(shù)據(jù)挖掘(data mining)被提出。作為數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(knowledge-discovery in databases,KDD)中的一個(gè)步驟,數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中通過算法搜索發(fā)現(xiàn)隱含在其中的概念、規(guī)則、規(guī)律、模式等有用的知識(shí)。利用上述知識(shí),改進(jìn)工作方法,提高工作效率,實(shí)現(xiàn)數(shù)據(jù)庫在原設(shè)計(jì)目的以外的增值,獲取最大效益。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘目前已成為商業(yè)、科研、工業(yè)、行政管理等領(lǐng)域的熱點(diǎn),得到廣泛應(yīng)用。數(shù)據(jù)挖掘是信息發(fā)展到一定程度的必然產(chǎn)物,是利用積累數(shù)據(jù)的一個(gè)高級(jí)階段[4]。

目前,DNA數(shù)據(jù)庫從數(shù)據(jù)總量和覆蓋程度兩個(gè)方面已經(jīng)達(dá)到一個(gè)可觀的程度。以案件信息為例:2011~2013年,DNA數(shù)據(jù)庫共采集了超過30萬起刑事案件的相關(guān)數(shù)據(jù),雖然總體僅覆蓋同期公安機(jī)關(guān)立案刑事案件數(shù)量[5,6]的1.8%,但是殺人、強(qiáng)奸等類案的平均覆蓋率卻高達(dá)79.25%和40.53%(見表1)。將數(shù)據(jù)挖掘引入DNA數(shù)據(jù)庫的應(yīng)用,通過分類(classification)、估計(jì)(estimation)、預(yù)測(prediction)、相關(guān)性分組(affinity grouping)、關(guān)聯(lián)規(guī)則(association rules)、聚類分析(clustering analysis)等方法,可以實(shí)現(xiàn)對DNA數(shù)據(jù)庫中DNA分型、人員背景和行為、案件特征等復(fù)雜類型數(shù)據(jù)的進(jìn)一步挖掘。從數(shù)據(jù)結(jié)構(gòu)來看,DNA數(shù)據(jù)庫已經(jīng)具備在以下幾個(gè)方面深入應(yīng)用的可能:(1)高發(fā)、高危犯罪與時(shí)間、空間、人群等維度的動(dòng)態(tài)關(guān)系分析;(2)典型犯罪行為在時(shí)空中的分布呈現(xiàn)、演化及預(yù)測;(3)人個(gè)體遺傳信息與行為規(guī)律相關(guān)性模式分析。顯然,上述應(yīng)用已經(jīng)突破傳統(tǒng)觀念中DNA數(shù)據(jù)庫在刑事偵查中的應(yīng)用模式,在對DNA數(shù)據(jù)庫的功能要求呈現(xiàn)多警種、多部門、多角度、多領(lǐng)域、復(fù)雜化趨勢的今天,顯然具有不可估量的價(jià)值。本文采用聚類分析的方法,對DNA數(shù)據(jù)庫中2011~2014年間采集的數(shù)據(jù),從犯罪的時(shí)間、空間、類別等維度進(jìn)行了初步分析,為我國今后DNA數(shù)據(jù)庫的數(shù)據(jù)挖掘進(jìn)行嘗試。

表1 DNA數(shù)據(jù)庫中4類案件數(shù)量與同期公安機(jī)關(guān)立案情況比較(2011~2013年)Table1 Status of cases (murder, robbery, theft, rape) in the national DNA database and the concurrent fi les of public security organs (2011~2013)

1 DNA數(shù)據(jù)庫數(shù)據(jù)的初步挖掘分析

此次分析,包括數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和聚類分析。數(shù)據(jù)審查階段使用描述性統(tǒng)計(jì)分析技術(shù)進(jìn)行頻數(shù)分析,檢查統(tǒng)計(jì)字段的字段類型,記錄有效值、缺失值或空值個(gè)數(shù);數(shù)據(jù)清理段對數(shù)據(jù)審查過程中出現(xiàn)的缺失值或空值等異常數(shù)據(jù)進(jìn)行忽略處理;數(shù)據(jù)轉(zhuǎn)換階段對原始數(shù)據(jù)重新分類,對變量和日期數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。聚類分析使用的是基于分類的半監(jiān)督聚類方法。

1.1 DNA數(shù)據(jù)庫4類案件數(shù)據(jù)分析

2011~2014年,DNA數(shù)據(jù)庫采集了超過45萬起刑事案件的相關(guān)數(shù)據(jù)。以市(地)為地域劃分的最小單位,在對這些數(shù)據(jù)中殺人、搶劫、盜竊、強(qiáng)奸等4類案件進(jìn)行分析后,可見:

(1)4類案件在國內(nèi)的分布具有不同的特點(diǎn)(見圖1)。根據(jù)分析結(jié)果殺人、強(qiáng)奸案件的分布高度的一致,2011~2014年DNA數(shù)據(jù)庫中兩類案件排在前20位的城市完全相同,僅個(gè)別城市的排位有所差異。城市的地理分布呈一帶一點(diǎn)狀,一帶從東北(黑龍江、吉林、遼寧)、華北(河北、山東)、華中(河南)至西南(陜西、云南、貴州、四川)地區(qū),一點(diǎn)主要在華南地區(qū)(廣東)。搶劫、盜竊類案件主要分布在沿海省份。DNA數(shù)據(jù)庫中搶劫案件排在前10位的城市中有8個(gè)位于天津、浙江、福建、廣東等4?。ㄊ校?,案件數(shù)量占到同期同類案件的25.70%;盜竊案件排在前10位的城市中有8個(gè)位于上述4?。ㄊ校讣?shù)量占到31.00%。

(2)對于某一類案件而言,其地域分布具有相當(dāng)程度的時(shí)間穩(wěn)定性(見圖2)。2011~2014年,4類案件的基本分布格局并沒有發(fā)生顯著變化。以殺人案件為例,2011~2014年,DNA數(shù)據(jù)庫中廣州、成都、保定、邯鄲、畢節(jié)、西安、南陽、六盤水、煙臺(tái)、曲靖、唐山、遵義等12個(gè)城市的殺人案件始終排在前20位,年度間殺人案件分布的變化也主要發(fā)生在省內(nèi)和鄰省之間。

(3)在分析了2011~2014年48個(gè)月的案件數(shù)據(jù)后可見,不同類案件由于其發(fā)案特點(diǎn)的不同,發(fā)案數(shù)量的地域分布格局的變化特點(diǎn)也有差異:對于職業(yè)性特征明顯的盜竊類案件,其分布格局基本不存在季節(jié)性變化(見圖3上),顯示出犯罪人群的流動(dòng)性并不強(qiáng)烈;對于偶發(fā)性特征較高的殺人類案件,其分布格局的季節(jié)性變化較大(見圖3下),但變化仍以省內(nèi)或鄰省地理位置臨近的城市之間為主,推測與人口的流動(dòng)性相關(guān)。

圖1 基于DNA數(shù)據(jù)庫的4類案件(殺人、搶劫、盜竊、強(qiáng)奸)的地域分布分析(2011~2014年)。Fig.1 Geographical distribution of 4 kinds of crime (murder, robbery, theft, rape) in the national DNA database (2011~2014)

圖2 基于DNA數(shù)據(jù)庫的殺人、搶劫、盜竊、強(qiáng)奸案件地域分布分析(2011~2014年)Fig.2 Geographical distribution of murder, robbery, theft and rape cases in the national DNA database (2011~2014)

圖3 基于DNA數(shù)據(jù)庫的殺人盜竊案件地域分布分析(2014年1、4、7、10月)Fig.3 Geographical distribution of theft and murder cases in the national DNA database in Jan., Apr., Jul., Oct., 2014

(4)在分析了DNA數(shù)據(jù)庫中案件數(shù)量排序前20位的城市,2011~2014年中48個(gè)月的案件數(shù)據(jù)后可見,對于單一城市而言,一方面DNA數(shù)據(jù)庫中4類案件的數(shù)量變化與季節(jié)無明顯相關(guān)性,月份之間的數(shù)量波動(dòng)也無明顯的規(guī)律(見圖4、圖5);另一方面殺人、強(qiáng)奸2類案件數(shù)量的時(shí)間分布曲線卻呈現(xiàn)高度的相關(guān)性(見圖6)。橫向比較處于華北、華東和西南的天津、廣州、成都3個(gè)城市,顯示這一特點(diǎn)也并不受城市所處地域的影響。

圖4 天津、廣州、成都4類案件(殺人、搶劫、盜竊、強(qiáng)奸)的時(shí)間分布分析(2011年1月~2014年12月)Fig.4 Time distribution of 4 kinds of crime (murder, robbery, theft, rape) in the city of Tianjin, Guangzhou and Chengdu (2011.01~2014.12)

圖5 廣州市4類案件的時(shí)間分布分析(殺人、搶劫、盜竊、強(qiáng)奸)(2011~2014年)Fig.5 Time distribution of 4 kinds of crime (murder, robbery, theft, rape) in Guangzhou (2011~2014)

圖6 天津、廣州、成都?xì)⑷恕?qiáng)奸案件的時(shí)間分布曲線(2011年1月~2014年12月)Fig.6 Time distribution curve of murder and rape occurred in the city of Tianjin, Guangzhou and Chengdu (2011.01~2014.12)

1.2 DNA數(shù)據(jù)庫違法犯罪人員分析

2011~2014年,DNA數(shù)據(jù)庫采集了超過2000萬違法犯罪人員的相關(guān)數(shù)據(jù)。以市(地)為地域劃分的最小單位,對其中采集原因?yàn)闅⑷?、搶劫、盜竊、強(qiáng)奸4類涉案人員數(shù)據(jù)進(jìn)行分析后,得出:

(1)4類涉案人員的戶籍地分布雖然具有不同的特點(diǎn)(見圖7),但主要位于東北、華北和西南地區(qū)各省份。從圖1可發(fā)現(xiàn):殺人、強(qiáng)奸2類案件,在東北、華北和西南地區(qū)基本上呈涉案人員本地化的特點(diǎn),但在廣東省外地人口作案的特征十分明顯;搶劫、盜竊2類案件,在案件高發(fā)的沿海各省份(天津、浙江、福建、廣東),絕大部分呈現(xiàn)外地人口作案的特征。

(2)對于盜竊、搶劫類案件而言,其涉案人員戶籍地分布具有一定程度的時(shí)間穩(wěn)定性。而涉殺人、搶劫類案件人員并無此特征(見圖8)。數(shù)據(jù)分析,2011~2014年,隨著盜竊類案件數(shù)量上升,涉案人員大幅度增加,涉案人員的來源地并沒有顯著變化,顯示此類犯罪涉案人群具有很強(qiáng)的地域性,可通過同鄉(xiāng)、宗族、朋友或家族等關(guān)系快速擴(kuò)大(見圖8)。

1.3 DNA數(shù)據(jù)庫違法犯罪人員重復(fù)采集情況分析

圖7 基于DNA數(shù)據(jù)庫的涉4類案件人員(殺人、搶劫、盜竊、強(qiáng)奸)的戶籍地分布分析(2011~2014年)Fig.7 Residence distribution of 4 kinds of offenders (murder, robbery, theft, rape) in the national DNA database (2011~2014)

2011~2014年,DNA數(shù)據(jù)庫通過完全匹配的比對模式,共生成超過100萬條通報(bào)。這其中,有“物證-人員”的匹配,也有“人員-人員”的匹配。在對上述通報(bào)信息和同期采集的人員數(shù)據(jù)進(jìn)行清洗和綜合數(shù)據(jù)分析后,可見:

(1)根據(jù)人員身份證信息進(jìn)行的人員查重分析,2011~2014年DNA數(shù)據(jù)庫中人員數(shù)據(jù)的重復(fù)采集率為3.39%(見表2)。不同涉案人員的重復(fù)采集率有所不同,以詐騙類犯罪最高,為4.55%(見圖9)。被重復(fù)采集的樣本中,重復(fù)采集2次的占92.89%,采集超過10次的占0.55%(見表3)。

(2)根據(jù)DNA信息進(jìn)行的人員查重分析,2011~2014年DNA數(shù)據(jù)庫采集的人員數(shù)據(jù)中,有3.3萬人使用了多個(gè)身份被重復(fù),約占被采集人員總數(shù)的0.16%。其中,使用2個(gè)身份的占此類人員的97.53%,使用超過10個(gè)身份的占0.03%(見表4)。

2 DNA數(shù)據(jù)庫數(shù)據(jù)挖掘的SWOT分析

SWOT(strengths,weaknesses,opportunities, threats)分析,也稱態(tài)勢分析,1971年由Kenneth R.Andrews在《公司戰(zhàn)略概念》中首次提出,20 世紀(jì)80年代又由Heinz Weihrich發(fā)展。SWOT分析,就是將與研究對象密切相關(guān)的各種主要內(nèi)部優(yōu)勢(strength)、劣勢(weakness)和外部的機(jī)會(huì)(opportunity)和威脅(threats)等,通過調(diào)查列舉出來,并依照矩陣形式排列,然后用系統(tǒng)分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應(yīng)的結(jié)論,運(yùn)用這種方法,有利于人們對組織所處情景進(jìn)行全面、系統(tǒng)、準(zhǔn)確地研究,有助于管理者和決策者制定較正確的發(fā)展戰(zhàn)略和計(jì)劃,以及與之相應(yīng)的發(fā)展計(jì)劃或?qū)Σ摺1疚膶NA數(shù)據(jù)庫數(shù)據(jù)挖據(jù)應(yīng)用進(jìn)行了如下分析(見圖10)。

3 結(jié) 語

圖8 基于DNA數(shù)據(jù)庫的涉殺人、搶劫、盜竊、強(qiáng)奸案件戶籍地分布分析(2011~2014年)Fig.8 Residence distribution of 4 kinds of offenders (murder, robbery, theft, rape case) in the national DNA database (2011~2014)

本文對DNA數(shù)據(jù)庫的數(shù)據(jù)挖掘,受到基礎(chǔ)數(shù)據(jù)條件的限制,上述分析還存在諸多不足:(1)由于各種原因,DNA數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量非常不均衡。如早期的數(shù)據(jù)大量存在非法字段;由于歷史原因,江蘇、上海等地的數(shù)據(jù)很多數(shù)據(jù)項(xiàng)在國家?guī)熘袨榭盏?。雖然選取的2011~2014年的數(shù)據(jù)在整體質(zhì)量上已經(jīng)高于其他數(shù)據(jù),但仍存在一定比例的臟數(shù)據(jù)。(2)由于不同省份間DNA實(shí)驗(yàn)室的建設(shè)情況存在較大的差異,數(shù)據(jù)采集節(jié)點(diǎn)、數(shù)據(jù)數(shù)量的分布呈現(xiàn)東高西低的大致特征,因此分析中使用數(shù)據(jù)的覆蓋率和代表性地區(qū)性差異明顯。如西藏、青海、甘肅、寧夏的數(shù)據(jù)采集節(jié)點(diǎn)密度和數(shù)據(jù)數(shù)量要低于廣東、浙江等省份。(3)DNA檢驗(yàn)技術(shù)的差異也會(huì)影響分析的結(jié)果,某些案件的數(shù)據(jù)可能因DNA實(shí)驗(yàn)室不具備特殊生物檢材的檢驗(yàn)?zāi)芰Χ茨懿杉健#?)聚類中采用的分類原則還有可改進(jìn)的地方。如將天津(直轄市)、廣州(省會(huì)市)、成都(省會(huì)市)與邯鄲、駐馬店等城市作為同等級(jí)別的城市進(jìn)行分析是否恰當(dāng)還值得商榷。(5)缺乏與外部數(shù)據(jù),特別是相關(guān)專業(yè)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)的比較分析。如果進(jìn)行此類工作,則可以在對分析結(jié)果驗(yàn)證的同時(shí),得出更深層次的情報(bào)產(chǎn)品。

表2 DNA數(shù)據(jù)庫人員樣本的重復(fù)采集情況(2011~2014年)Table2 The offenders resampled in the national DNA database (2011~2014)

表3 DNA數(shù)據(jù)庫人員樣本的重復(fù)采集次數(shù)(2011~2014年)Table3 The repetitious times of offenders resampled in the national DNA database (2011~2014)

表4 DNA數(shù)據(jù)庫使用多身份被采集人員的統(tǒng)計(jì)(2011~2014年)Table4 Statistics of resampled offenders with multiple IDs in the national DNA database (2011~2014)

目前,DNA數(shù)據(jù)庫的建設(shè)發(fā)展已經(jīng)進(jìn)入關(guān)鍵節(jié)點(diǎn),很多傳統(tǒng)的觀念和模式已經(jīng)面臨挑戰(zhàn):(1)除刑事偵查工作以外,整個(gè)公共安全行業(yè)對DNA數(shù)據(jù)庫的服務(wù)需求不斷增長。作為需求導(dǎo)向的信息系統(tǒng),DNA數(shù)據(jù)庫以DNA數(shù)據(jù)應(yīng)用為主體的單一應(yīng)用模式已經(jīng)難于滿足這一變化。(2)作為資源型的數(shù)據(jù)庫,DNA數(shù)據(jù)庫具有先天的擴(kuò)張屬性。而其用戶具有二元屬性,既是數(shù)據(jù)的提供者也是信息產(chǎn)品的使用者。因此在提供穩(wěn)定高質(zhì)量信息產(chǎn)品的同時(shí),不斷提升系統(tǒng)的附加價(jià)值和吸引力,是保證數(shù)據(jù)庫規(guī)模持續(xù)增長的前提。(3)分布式的數(shù)據(jù)應(yīng)用模式對現(xiàn)有DNA數(shù)據(jù)庫的組織形式提出挑戰(zhàn),充分顯示和發(fā)揮數(shù)據(jù)集中管理的優(yōu)勢,是維護(hù)現(xiàn)有DNA數(shù)據(jù)庫體系和模式主導(dǎo)地位,確保DNA技術(shù)健康發(fā)展,為公共安全工作提供優(yōu)質(zhì)高效服務(wù)的保證。數(shù)據(jù)挖掘是一個(gè)具有廣闊應(yīng)用前景和富有挑戰(zhàn)性的新興技術(shù),將其引入DNA數(shù)據(jù)庫的管理和應(yīng)用是信息化社會(huì)開放思維的體現(xiàn),也是DNA數(shù)據(jù)庫面向挑戰(zhàn),不斷自我完善和發(fā)展的一種選擇。

圖9 不同涉案人員樣本的重復(fù)采集情況(2011~2014年)Fig.9 The crime-different offenders resampled in the national DNA database (2011~2014)

本文的工作是希望從新的角度拓展人們看待DNA數(shù)據(jù)庫的視野。隨著DNA數(shù)據(jù)庫整體發(fā)展,從廣度上可以不斷拓展數(shù)據(jù)覆蓋范圍,增加數(shù)據(jù)總量;從深度上可以通過技術(shù)標(biāo)準(zhǔn)和規(guī)范管理,實(shí)現(xiàn)數(shù)據(jù)的汰弱留強(qiáng)。作為目前唯一實(shí)現(xiàn)全國實(shí)時(shí)網(wǎng)絡(luò)化運(yùn)行的生物特征識(shí)別數(shù)據(jù)庫,DNA數(shù)據(jù)庫人員身份精確識(shí)別的特征和不斷增長的數(shù)據(jù)體量,使得其從基層DNA實(shí)驗(yàn)室和管理系統(tǒng)獲取數(shù)據(jù)的能力不斷加強(qiáng)。通過數(shù)據(jù)挖掘,聯(lián)機(jī)分析處理(online analytical processing,OLAP)等相對成熟的信息化手段,本文中的一些嘗試以及更多的分析模式可以在動(dòng)態(tài)條件和更深層次得以實(shí)現(xiàn),如基于人員、案件背景信息分析的典型犯罪行為在時(shí)空中的分布呈現(xiàn)、演化及預(yù)測,基于DNA和身份信息查重的高危人群與時(shí)間、空間等維度的動(dòng)態(tài)關(guān)系分析和預(yù)警等。其情報(bào)產(chǎn)品的實(shí)時(shí)性,可靠性,特別是對人員個(gè)體識(shí)別的精準(zhǔn)屬性,將充分展示DNA數(shù)據(jù)庫在犯罪規(guī)律研究、犯罪動(dòng)態(tài)分析、公共安全管理決策等領(lǐng)域應(yīng)用的潛力和價(jià)值。

圖10 DNA數(shù)據(jù)庫數(shù)據(jù)挖掘應(yīng)用的SWOT分析Fig.1 0 Data mining by SWOT analysis into the national DNA database

[1] 張春艷.大數(shù)據(jù)時(shí)代的公共安全治理[J].國家行政學(xué)院學(xué)報(bào),2014,5:100-104.

[2] 劉冰.基于數(shù)據(jù)庫數(shù)據(jù)分析的DNA證據(jù)作用評(píng)價(jià)[J].刑事技術(shù),2015,40(3):199-203.

[3] 劉冰.現(xiàn)階段我國DNA數(shù)據(jù)庫發(fā)展的幾個(gè)關(guān)鍵問題[J].刑事技術(shù),2015,40(4):318-323.

[4] 徐守軍,高波,甄蓓,等.數(shù)據(jù)挖掘技術(shù)在科研管理中應(yīng)用前景初探[J].中華醫(yī)學(xué)科研管理雜志,2005,18(4):214-216.

[5] 中華人民共和國國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒-2013 [M].北京:中國統(tǒng)計(jì)出版社,2013.

[6] 中華人民共和國國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒-2014 [M].北京:中國統(tǒng)計(jì)出版社,2014.

引用本文格式:劉冰.DNA數(shù)據(jù)庫數(shù)據(jù)挖掘應(yīng)用研究 [J].刑事技術(shù), 2015,40(5): 345-352.

Data Mining of the National DNA Database

LIU Bing
(Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China)

ABATRACT: Until present, China national DNA database has already gathered tens of millions of data, including not only the DNA profi les but also a large amount of information related to the time, space, means, type of the committed crime and the residence, nationality, individual behavior of the suspect.With the growing needs of public security, the data are still in rapid accumulation and growth.From 2011 to 2013, the database collected relevant data covering over 79.25% of murder and 40.53% of rape cases fi led.Currently, the main use of the DNA database is personal identifi cation, not fully tapping its data value.Data mining can provide assistance in conceptual formation and accuracy, exploration on regularity and pattern,modeling and the other useful knowledge.Using the methods of classification, estimation, prediction, affinity grouping,association rules and cluster analysis, data mining can fulfi ll a deep analysis of the intricate data in the DNA database, like the DNA profiles, the relevant information of cases, the background and behaviors of individual suspects.By resorts of cluster analysis, this paper attempts to obtain a preliminary analysis at multiple dimensions of time, space, type of crime.The analyzed data covered over 0.45 million criminal cases, 20 million individuals and 1 million matched reports, which were collected and produced in the past four years.The analysis is made up of three parts: the distribution of four kinds of crime (murder, robbery, theft, rape); the residence distribution of the offenders involved into the four kinds of crime; the situation of offenders resampled in the national DNA database.This study also carried out a SWOT (strengths, weaknesses, opportunities,threats) analysis on the application of data mining in the national DNA database.Data mining is an emerging technology of wide prospect.Its usage into the management and application of the national DNA database conforms to the open-mindedness of the information society, in favor of the improvement and development of the database itself.However, the above analysis is not perfect due to the limitations of underlying conditions.Through the combined application of the established means of data mining plus online analytical processing (OLAP), the attempts hereof can be continuously elevated along with the other analyses under dynamic and deep-reaching conditions.Therefore, the criminal time and space distribution will be defi ned more clearly, evolution and prediction of typical crime given more timely based on the personal and crime background, and the dynamics and early detection of high-risk criminal groups tracked more tightly with the DNA hunting and ID checking.Ideally, the DNA database can provide real-time, reliable and accuracy-high personal identifi cation intelligence, showing its particular potential and value in the study of criminal pattern and dynamics, public security management decision and other involved aspects.

forensic genetics; DNA database; data mining; clustering analysis法,對DNA數(shù)據(jù)庫中2011~2014年采集的數(shù)據(jù)信息從犯罪的時(shí)間、空間、類別等維度進(jìn)行了初步分析,共超過45萬起刑事案件、超過2000萬個(gè)違法犯罪人員和超過100萬條通報(bào)。包括:殺人、搶劫、盜竊、強(qiáng)奸等4類案件的時(shí)間、空間分布;數(shù)據(jù)庫中4類涉案人員的地域分布情況分析;數(shù)據(jù)庫人員重復(fù)采集情況分析等。文章同時(shí)對DNA數(shù)據(jù)庫應(yīng)用數(shù)據(jù)挖掘技術(shù)做了SWOT分析。雖然受到基礎(chǔ)數(shù)據(jù)條件的限制,上述分析還存在諸多不足,但是數(shù)據(jù)挖掘是一個(gè)具有廣闊應(yīng)用前景和富有挑戰(zhàn)性的新興技術(shù),將其引入DNA數(shù)據(jù)庫的管理和應(yīng)用中是信息化社會(huì)開放思維的體現(xiàn),也是DNA數(shù)據(jù)庫面對挑戰(zhàn),不斷自我完善和發(fā)展的一種選擇。隨著DNA數(shù)據(jù)庫的數(shù)據(jù)總量的增長、數(shù)據(jù)覆蓋范圍的擴(kuò)大和數(shù)據(jù)質(zhì)量的提高,通過數(shù)據(jù)挖掘,聯(lián)機(jī)分析處理等相對成熟的信息化手段,文中的分析模式可以在動(dòng)態(tài)條件下和更深層次中實(shí)現(xiàn),如基于人員、案件背景信息分析的典型犯罪行為在時(shí)空中的分布呈現(xiàn)、演化及預(yù)測,基于DN A和身份信息查重的高危人群與時(shí)間、空間等維度的動(dòng)態(tài)關(guān)系分析和預(yù)警等。DNA數(shù)據(jù)庫數(shù)據(jù)挖掘的情報(bào)產(chǎn)品所具有的實(shí)時(shí)性、可靠性,特別是人員身份識(shí)別的識(shí)別精準(zhǔn)性,使其在犯罪規(guī)律研究、犯罪動(dòng)態(tài)分析、公共安全管理決策等領(lǐng)域具有特殊的潛力和價(jià)值。

10.16467/j.1008-3650.2015.05.001

中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(No.2013JB019)

劉 冰(1974—),男,黑龍江齊齊哈爾人,副主任法醫(yī)師,碩士,研究方向?yàn)榉ㄡt(yī)遺傳學(xué)。 E-mail: liubing@cifs.gov.cn

DF795.2

A

1008-3650(2015)05-0345-08

2015-07-23

猜你喜歡
強(qiáng)奸數(shù)據(jù)挖掘案件
一起放火案件的調(diào)查:火災(zāi)案件中的“神秘來電”
水上消防(2021年4期)2021-11-05 08:51:36
強(qiáng)奸何以為惡?
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
“左腳丟鞋”案件
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
HD Monitor在泉廈高速拋灑物案件中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
3起案件 引發(fā)罪與非罪之爭
強(qiáng)奸犯罪之輪奸及既未遂問題辨析
搬起石頭砸自己腳:男子持刀戴面具 回家強(qiáng)奸老婆
海峽姐妹(2014年2期)2014-02-27 15:08:46
沙坪坝区| 梁山县| 横山县| 乳山市| 安溪县| 长葛市| 梧州市| 大名县| 洱源县| 叙永县| 大同县| 从江县| 广宗县| 铁力市| 陇南市| 襄樊市| 闵行区| 闽侯县| 泽普县| 唐海县| 灵璧县| 凤城市| 维西| 赫章县| 荣昌县| 温州市| 嘉祥县| 河曲县| 拜城县| 安岳县| 六安市| 策勒县| 神农架林区| 陆河县| 浮梁县| 丰宁| 东源县| 西和县| 礼泉县| 东城区| 阿坝|