趙華珍
河南警察學(xué)院
數(shù)據(jù)挖掘技術(shù)及其在刑偵工作中的應(yīng)用分析
趙華珍
河南警察學(xué)院
本文首先對數(shù)據(jù)挖掘技術(shù)和刑偵工作中關(guān)聯(lián)規(guī)則的應(yīng)用問題進(jìn)行了簡要介紹,從而探討了數(shù)據(jù)挖掘技術(shù)在刑偵工作中應(yīng)用存在的問題,并在新犯罪敏感性和權(quán)重參數(shù)基礎(chǔ)上對Apriori算法進(jìn)行了優(yōu)化,希望對提升數(shù)據(jù)挖掘技術(shù)在刑偵工作中的應(yīng)用效率起到促進(jìn)作用。
數(shù)據(jù)挖掘技術(shù);刑偵工作;應(yīng)用
近年來,信息技術(shù)以日新月異的速度飛快發(fā)展,給人們的工作及生活帶來了極大的轉(zhuǎn)變,現(xiàn)階段,相關(guān)領(lǐng)域也加大了對信息技術(shù)的研發(fā)力度,在人工智能以及數(shù)據(jù)庫的研發(fā)過程中,數(shù)據(jù)挖掘技術(shù)受到了廣泛關(guān)注,現(xiàn)階段將這一技術(shù)同刑偵工作進(jìn)行緊密的結(jié)合,從而有效提升刑偵工作效率至關(guān)重要。然而,目前我國刑偵工作中對數(shù)據(jù)挖掘技術(shù)的應(yīng)用還處于初級階段,因此還存在一定缺陷,在這種情況下,有針對性的采取有效措施彌補(bǔ)數(shù)據(jù)挖掘技術(shù)在刑偵工作中應(yīng)用的不足具有重要意義。
(一)數(shù)據(jù)挖掘技術(shù)
Data Mining即數(shù)據(jù)挖掘,通常也被稱之為KnowledgeDiscovery in Database,指的是在對知識以及內(nèi)容進(jìn)行研究的過程中,從數(shù)據(jù)庫中進(jìn)行提取,而這些知識實際上是具有一定潛在可利用功能的,同時也具有隱含的性質(zhì),在知識提取過程中,可以通過多種形式,如模式、規(guī)律以及概念等[1]。在對數(shù)據(jù)進(jìn)行儲存的過程中,主要應(yīng)用的是數(shù)據(jù)庫管理系統(tǒng),而數(shù)據(jù)分析是以機(jī)器學(xué)習(xí)法為主的,從而對海量數(shù)據(jù)背后所隱藏的知識進(jìn)行挖掘,以上兩者充分的融合就是數(shù)據(jù)挖掘技術(shù)產(chǎn)生的基礎(chǔ)。
(二)刑偵工作中關(guān)聯(lián)規(guī)則的應(yīng)用問題
首先,傳統(tǒng)的Apriori算法,敏感性在新項目中的體現(xiàn)相對較低。由于在記錄犯罪行為的過程中,是一個不斷更新的過程,在傳統(tǒng)犯罪行為消失而新的犯罪行為產(chǎn)生的過程中,數(shù)據(jù)庫中的內(nèi)容產(chǎn)生不間斷更新,這一過程很容易造成一定的變化產(chǎn)生于項目之間的關(guān)聯(lián)中,而關(guān)聯(lián)規(guī)則不斷創(chuàng)新。在傳統(tǒng)Apriori算法中,這一現(xiàn)象被忽視,即新的項目增加基礎(chǔ)上,在對支持度在不同項目集中的體現(xiàn)進(jìn)行求解的過程中,基數(shù)總是以整個數(shù)據(jù)庫中的犯罪行為記錄為主,這種現(xiàn)象同關(guān)聯(lián)規(guī)則挖掘具有明顯的沖突,也就是說在對其進(jìn)行應(yīng)用的過程中,無法對新產(chǎn)生的頻繁項目集進(jìn)行及時的發(fā)現(xiàn),因此也就無法對關(guān)聯(lián)規(guī)則進(jìn)行有效的更新。
其次,傳統(tǒng)的Apriori算法應(yīng)用中對不同項的重要性產(chǎn)生了忽略。該算法對數(shù)據(jù)庫中被分析的對象產(chǎn)生的規(guī)律進(jìn)行了分析,而完全忽略了不同項應(yīng)用過程中重要性具有差別這一特點,因此在對這些項展開研究的過程中,它們被一致視為擁有相同的價值。這一現(xiàn)象的產(chǎn)生,經(jīng)常性造成部分出現(xiàn)率低、價值較高的項被忽略。在對傳統(tǒng)的Apriori算法進(jìn)行應(yīng)用的過程中,分析公安犯罪行為常常導(dǎo)致對重要情節(jié)的忽視,而這些重要的情節(jié)通常會對社會產(chǎn)生嚴(yán)重的危害,也是惡性犯罪行為的代表。
(一)新犯罪敏感性基礎(chǔ)上的Apriori優(yōu)化算法
權(quán)重參數(shù)基礎(chǔ)上優(yōu)化Apriori算法,主要意圖是促使敏感性在新犯罪行為中得以提升。對頻發(fā)項目集算法的改進(jìn)是優(yōu)化Apriori算法的主要途徑。
當(dāng)1≤α≤∞時,將參數(shù)α引入舊數(shù)據(jù)集當(dāng)中,有助于對頻繁項目集的發(fā)現(xiàn),如果頻繁項目集擁有不小于最小支持度同α的比值,則應(yīng)當(dāng)?shù)玫奖A?,?dāng)心的數(shù)據(jù)集在數(shù)據(jù)庫中產(chǎn)生,此時對最小支持度同α的比值小于支持度的頻繁項目集進(jìn)行充分的考慮,同時還包含現(xiàn)階段所增加的數(shù)據(jù)集,在不斷增大的數(shù)據(jù)庫規(guī)模的背景下,相對穩(wěn)定狀態(tài)將產(chǎn)生于項目增加的狀態(tài)當(dāng)中,如果最小支持度同α的比值小于部分頻繁項目集的支持度,那么對這一頻繁項目集進(jìn)行掃描過程中所需的時間一定小于對整個數(shù)據(jù)集的掃描時間,從而能夠有效提升頻繁項目集發(fā)現(xiàn)的效率[2]。
(二)權(quán)重參數(shù)基礎(chǔ)上的Apriori優(yōu)化算法
權(quán)重參數(shù)基礎(chǔ)上優(yōu)化Apriori算法,主要意圖是在對權(quán)重參數(shù)應(yīng)用以后,從而促使不同犯罪行為性質(zhì)的衡量可以對不同的權(quán)值進(jìn)行利用,從而對支持度函數(shù)進(jìn)行設(shè)定,并從中將重大犯罪行為之間的關(guān)聯(lián)規(guī)則進(jìn)行深入挖掘。
假設(shè)集合X取值范圍為[x1,x2,……xr],它屬于21,并且,xi屬于I,i的取值為1至r;在對項集X的權(quán)值進(jìn)行表示的過程中,應(yīng)用Wx,其取值屬于[0,1][3]。此時,當(dāng)X為單個的項,那么可以在基集產(chǎn)生以后對其權(quán)展開賦值,反之,它的權(quán)值應(yīng)當(dāng)在各項中進(jìn)行獲得。由此可見,在對某個函數(shù)進(jìn)行利用的基礎(chǔ)上,可以對項的權(quán)值在項集X權(quán)值中的體現(xiàn)進(jìn)行計算,相關(guān)函數(shù)關(guān)系如下:Wx=F(Wx1,Wx2……,Wxr),在權(quán)值定義以后,變可以定義支持度函數(shù):f(X)= Wx。numTids(x)/numTids(φ)。
綜上所述,刑偵工作方法隨著時代的發(fā)展也發(fā)生了重大變化,現(xiàn)階段,信息網(wǎng)絡(luò)偵查成為刑偵工作中的關(guān)鍵。隨著信息技術(shù)同刑偵工作融合的程度越來越深,人們意識到數(shù)據(jù)挖掘技術(shù)在這一工作中的重要功能,然而,我國在這一方面的研究還處于初級階段,現(xiàn)有的刑偵工作在對數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用的過程中還存在一定缺陷,鑒于此,本文在對數(shù)據(jù)挖掘技術(shù)和Apriori算法中的缺陷展開了探討,并有針對性的提出了優(yōu)化Apriori算法的途徑,希望對我國刑偵工作效率和質(zhì)量的提升起到促進(jìn)作用。
[1]張震.數(shù)據(jù)挖掘技術(shù)分析及其在高校管理決策中的應(yīng)用[J].遠(yuǎn)程教育雜志,2015,06:32-35+62.
[2]張乾.數(shù)據(jù)挖掘技術(shù)分析及其在高等學(xué)校教務(wù)管理中的應(yīng)用[J].經(jīng)濟(jì)師,2014,07:103-104.
[3]高燕飛,陳俊杰.試析計算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運用[J].內(nèi)蒙古師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2015,04:44-46.