薛亞龍,劉梓濘(寧夏警官職業(yè)學院,寧夏 銀川 750021)
隨著云計算、人工智能、物聯(lián)網(wǎng)等智慧驅(qū)動創(chuàng)新科學技術(shù)的不斷前進發(fā)展,各種海量復雜且具有離群性、動態(tài)性、層次性的混合動態(tài)性數(shù)據(jù)呈現(xiàn)出指數(shù)級的數(shù)量猛增。通過深入挖掘與分析這些混合動態(tài)性數(shù)據(jù)聚類之間的潛在關(guān)聯(lián)數(shù)理關(guān)系,對于促進社會各行業(yè)領域的發(fā)展具有重要的預測和指導價值。混合動態(tài)性數(shù)據(jù)在給社會發(fā)展帶來惠利的同時,也給數(shù)據(jù)化犯罪情勢的生存與發(fā)展提供了必要性的“土壤”。混合動態(tài)性數(shù)據(jù)不僅包括結(jié)數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)而且還包括符號型數(shù)據(jù)、圖像型數(shù)據(jù)等動態(tài)性數(shù)據(jù)源,造成傳統(tǒng)動態(tài)性數(shù)據(jù)情報偵查過程中往往出現(xiàn)數(shù)據(jù)缺失碎片過多、模糊優(yōu)勢關(guān)系差值較少、數(shù)據(jù)聚類質(zhì)量純度不高等偵查錯誤?;诖耍牖旌蟿討B(tài)性數(shù)據(jù)情報偵查方法研究范式。這不僅促使偵查人員能夠提升對混合動態(tài)性數(shù)據(jù)關(guān)聯(lián)聚類加權(quán)系數(shù)和優(yōu)先屬性的閾值預設,而且還能夠幫助其提高對不同混合動態(tài)性數(shù)據(jù)之間漸近正態(tài)性和相合性地挖掘與分析,從而能夠幫助其快速有效地轉(zhuǎn)變傳統(tǒng)情報偵查思維模式和拓展創(chuàng)新情報偵查的新方法,最終實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查方法的應然價值和實然效果。
在智慧驅(qū)動創(chuàng)新科學技術(shù)背景的引領下,大量復雜指數(shù)級的涉案混合動態(tài)性數(shù)據(jù)被存儲和積累,其中往往隱藏著與涉案犯罪情勢具有各種潛在關(guān)聯(lián)數(shù)理關(guān)系的價值情報,對案件情報偵查預測和決策具有重要的關(guān)鍵性作用。如何對這些涉案混合動態(tài)性數(shù)據(jù)展開高效的關(guān)聯(lián)聚類挖掘與分析,已成為智慧驅(qū)動創(chuàng)新科學技術(shù)時代現(xiàn)代情報偵查領域內(nèi)迫切急需解決的重要任務。在混合動態(tài)性數(shù)據(jù)情報偵查應用過程中,偵查人員不管是對混合動態(tài)性數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)預處理、數(shù)據(jù)倉庫存儲還是其平臺設計、流程模型構(gòu)建以及數(shù)據(jù)關(guān)聯(lián)聚類算法應用等,都是建立在混合動態(tài)性數(shù)據(jù)情報偵查的內(nèi)涵與屬性基礎之上。顯然,將混合動態(tài)性數(shù)據(jù)與現(xiàn)代情報偵查工作互相融合而形成新的情報偵查方法即混合動態(tài)性數(shù)據(jù)情報偵查方法,這不僅是混合動態(tài)性數(shù)據(jù)在社會各領域行業(yè)所應用發(fā)展的必然趨勢,而且還是傳統(tǒng)情報偵查工作自身變革轉(zhuǎn)型的內(nèi)在本質(zhì)應然要求,更是預防和打擊犯罪情勢數(shù)據(jù)化生存與發(fā)展態(tài)勢的迫切實然應對選擇。因此,在智慧驅(qū)動創(chuàng)新科學技術(shù)新時代下,應該賦予混合動態(tài)性數(shù)據(jù)情報偵查新的內(nèi)涵與屬性。
混合動態(tài)性數(shù)據(jù)挖掘與分析任務主要是通過數(shù)據(jù)清洗、數(shù)據(jù)預處理、數(shù)據(jù)集成、數(shù)據(jù)倉庫存儲以及數(shù)據(jù)關(guān)聯(lián)規(guī)則構(gòu)建和數(shù)據(jù)聚類算法應用等流程模型所實現(xiàn),是機器學習、數(shù)據(jù)模式識別、數(shù)據(jù)挖掘等領域最為重要的研究內(nèi)容之一。[1]依據(jù)對混合動態(tài)性數(shù)據(jù)挖掘與分析的不同流程模型,混合動態(tài)性數(shù)據(jù)挖掘與分析應用方法主要包括支持向量機的SVM 算法、決策樹C4.5 算法、KNN 近鄰算法、隨機森林RF 算法以及樸素貝葉斯NB 算法等。[2]在對混合動態(tài)性數(shù)據(jù)進行預處理挖掘流程中,一般都是基于混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)距離、數(shù)據(jù)路徑以及數(shù)據(jù)相鄰系數(shù)的相似度等而構(gòu)建其存儲的數(shù)據(jù)倉庫模型;在其關(guān)聯(lián)聚類分析流程中,主要通過確定混合動態(tài)性數(shù)據(jù)的測試樣本與所需挖掘分析全部混合動態(tài)性數(shù)據(jù)關(guān)聯(lián)聚類模型之間的數(shù)據(jù)相鄰系數(shù)相似度,進而為采取行為預測和決策提供數(shù)據(jù)情報的支持保障。同時,不同混合動態(tài)性數(shù)據(jù)在被采取關(guān)聯(lián)聚類后的頻繁項目集中并不是處于孤立的狀態(tài),各個混合動態(tài)性數(shù)據(jù)之間依然存在一定程度的關(guān)聯(lián)性,而且在混合動態(tài)性數(shù)據(jù)挖掘與分析的平臺設計、流程模型構(gòu)建等也蘊含著各種潛在的關(guān)聯(lián)數(shù)理關(guān)系。[3]
隨著人們對混合動態(tài)性數(shù)據(jù)挖掘與分析應用的要求越來越高,更多的關(guān)聯(lián)聚類算法被引入其中。例如,Thiago 等提出一種基于虛擬網(wǎng)絡的高層次混合動態(tài)性數(shù)據(jù)聚類算法。該算法是通過在虛擬網(wǎng)絡中對各種混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)聚集系數(shù)、數(shù)據(jù)路徑同質(zhì)性以及隱藏數(shù)據(jù)結(jié)構(gòu)拓撲性等數(shù)據(jù)關(guān)聯(lián)的挖掘和聚類,從而將混合動態(tài)性數(shù)據(jù)的隱藏數(shù)據(jù)結(jié)構(gòu)拓撲性與其物理屬性互相交互和互相融合的一種智能關(guān)聯(lián)聚類算法;[4]Jiang 等從混合動態(tài)性數(shù)據(jù)局部挖掘模式關(guān)聯(lián)類別化分類的性能差異角度出發(fā),提出基于混合動態(tài)性數(shù)據(jù)之間數(shù)據(jù)加權(quán)權(quán)重系數(shù)的一種自動聚集編碼的關(guān)聯(lián)聚類算法;[5]還有學者以混合動態(tài)性數(shù)據(jù)表示的集成一致性函數(shù)為設計方法,提出諸如基于特征轉(zhuǎn)換、標簽對齊、相似性度量、數(shù)據(jù)圖論等混合動態(tài)性數(shù)據(jù)挖掘與分析應用算法。[6]顯而易見,將不同關(guān)聯(lián)聚類算法應用于混合動態(tài)性數(shù)據(jù)的挖掘與分析時除了考慮其數(shù)據(jù)節(jié)點、數(shù)據(jù)距離、數(shù)據(jù)路徑等物理屬性之外,還需要進一步考慮不同混合動態(tài)性數(shù)據(jù)之間數(shù)據(jù)相鄰加權(quán)系數(shù)等拓撲結(jié)構(gòu)關(guān)系,從而實現(xiàn)混合動態(tài)性數(shù)據(jù)挖掘與分析應用的關(guān)聯(lián)聚類性和優(yōu)質(zhì)性。基于此,結(jié)合混合動態(tài)性數(shù)據(jù)挖掘與分析的不同關(guān)聯(lián)聚類算法和現(xiàn)代情報偵查工作的應然價值導向需求,作者認為,混合動態(tài)性數(shù)據(jù)情報偵查的內(nèi)涵為:偵查人員采取時間序列算法、量子進化算法、K-prototypes聚類算法、數(shù)據(jù)表示聚類集成算法等混合動態(tài)性數(shù)據(jù)應用算法,通過對數(shù)據(jù)簇類中心、數(shù)據(jù)頻繁項目集、數(shù)據(jù)相鄰加權(quán)系數(shù)以及數(shù)據(jù)隸屬度等混合動態(tài)性數(shù)據(jù)特征的挖掘與分析,幫助偵查人員快速有效獲取其與涉案犯罪情勢之間隱藏的內(nèi)在各種關(guān)聯(lián)數(shù)理關(guān)系,從而實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的一種新型現(xiàn)代數(shù)據(jù)情報偵查方法。
1.混合動態(tài)性數(shù)據(jù)情報偵查的粗糙集屬性。1982 年波蘭數(shù)學家Zdzislaw Pawlak 提出一種挖掘與分析模糊和不確定數(shù)據(jù)的數(shù)學理論即粗糙集理論。[7]該理論經(jīng)過40 多年的不斷完善和發(fā)展,逐漸地被應用于數(shù)據(jù)集成、數(shù)據(jù)挖掘、數(shù)據(jù)控制、數(shù)據(jù)決策等行業(yè)數(shù)據(jù)領域。隨著智慧驅(qū)動創(chuàng)新科學技術(shù)的不斷前進和發(fā)展,混合動態(tài)性數(shù)據(jù)在所有社會數(shù)據(jù)中的作用和價值也越來越突顯,從而使粗糙集理論成為混合動態(tài)性數(shù)據(jù)最為重要的屬性之一?;旌蟿討B(tài)性數(shù)據(jù)情報偵查方法作為混合動態(tài)性數(shù)據(jù)和現(xiàn)代情報偵查工作兩者互相融合的時代產(chǎn)物,也必然具有粗糙集的重要屬性?;旌蟿討B(tài)性數(shù)據(jù)情報偵查的粗糙集屬性是由不同混合動態(tài)性數(shù)據(jù)的上下近似區(qū)域而構(gòu)成的一個粗糙數(shù)據(jù)變量,每個混合動態(tài)性數(shù)據(jù)的加權(quán)閾值都是單一值并且已被獲知,要求偵查人員必須用動態(tài)性數(shù)據(jù)等價關(guān)系的數(shù)據(jù)系數(shù)來挖掘分析?;旌蟿討B(tài)性數(shù)據(jù)情報偵查的粗糙集屬性是挖掘與分析涉案不同混合動態(tài)性數(shù)據(jù)的重要理論基礎和前提,也是幫助偵查人員將混合動態(tài)性數(shù)據(jù)倉庫構(gòu)建劃分為邊界混合動態(tài)性數(shù)據(jù)、正域混合動態(tài)性數(shù)據(jù)以及負域混合動態(tài)性數(shù)據(jù)的屬性根據(jù)?;旌蟿討B(tài)性數(shù)據(jù)情報偵查的粗糙集屬性是建立在對涉案不同混合動態(tài)性數(shù)據(jù)源的分類模式基礎之上,可以將此處的分類模式理解為在涉案特定數(shù)據(jù)犯罪規(guī)則倉庫中的不同混合動態(tài)性數(shù)據(jù)之間的等價關(guān)系。依據(jù)混合動態(tài)性數(shù)據(jù)情報偵查的粗糙集屬性價值,一方面,偵查人員可以利用已構(gòu)建的混合動態(tài)性數(shù)據(jù)情報偵查犯罪行為與非犯罪行為規(guī)則庫對涉案數(shù)據(jù)倉庫中表現(xiàn)不精確或不確定的各種混合動態(tài)性數(shù)據(jù)進行數(shù)據(jù)近似類別的歸納和統(tǒng)計;另一方面,偵查人員還可以依據(jù)其粗糙集屬性對混合動態(tài)性數(shù)據(jù)情報偵查過程中數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)預處理、數(shù)據(jù)決策等流程模型進行檢查和驗證。混合動態(tài)性數(shù)據(jù)情報偵查的粗糙集屬性具體包含兩個方面特性:第一,混合動態(tài)性數(shù)據(jù)情報偵查的離散性。偵查人員將經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成且存儲在數(shù)據(jù)倉庫中的不同混合動態(tài)性數(shù)據(jù)采取數(shù)據(jù)連續(xù)屬性閾值的離散化技術(shù)處理,使其快速有效地形成混合動態(tài)性數(shù)據(jù)情報偵查的決策和預測指向表。第二,混合動態(tài)性數(shù)據(jù)情報偵查的屬性約簡性。如果在上述的決策和預測指向表中存在諸如離群數(shù)據(jù)、異常數(shù)據(jù)等具有冗余性的不同動態(tài)性數(shù)據(jù),那么就應該將這些數(shù)據(jù)及時有效地進行檢測和刪除,快速獲取到具有典型代表有效的涉案混合動態(tài)性數(shù)據(jù)。所以,偵查人員應該全面掌握混合動態(tài)性數(shù)據(jù)情報偵查的粗糙集屬性,這不僅有利于實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查流程的簡便化效果,而且還有利于使混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的應用結(jié)果更加精確和高效。
2.混合動態(tài)性數(shù)據(jù)情報偵查的多尺度屬性。在數(shù)據(jù)研究對象中的多尺度是指數(shù)據(jù)測量單位,變量指的是統(tǒng)計學測量尺度基準的衡量數(shù)據(jù),數(shù)據(jù)固有屬性為數(shù)據(jù)挖掘過程中的尺度測量。[8]在混合動態(tài)性數(shù)據(jù)情報偵查應用過程中,偵查人員依據(jù)涉案不同混合動態(tài)性數(shù)據(jù)的特征選擇屬性,將數(shù)據(jù)倉庫中范疇相同或相似的混合動態(tài)性數(shù)據(jù)組建成屬性集,然后通過該屬性集構(gòu)建混合動態(tài)性數(shù)據(jù)的偏序結(jié)構(gòu)。同時,偵查人員在此基礎上進一步明確不同混合動態(tài)性數(shù)據(jù)的內(nèi)涵體系分層且形成和實現(xiàn)對涉案混合動態(tài)性數(shù)據(jù)的結(jié)構(gòu)劃分,從而使混合動態(tài)性數(shù)據(jù)情報偵查具有典型的多尺度屬性特征?;旌蟿討B(tài)性數(shù)據(jù)情報偵查的多尺度屬性主要包含兩個方面:一方面,混合動態(tài)性數(shù)據(jù)的偏序多尺度屬性,即指混合動態(tài)性數(shù)據(jù)中的數(shù)據(jù)時序、數(shù)據(jù)幅度、數(shù)據(jù)路徑、數(shù)據(jù)粒度等具有多尺度屬性;另一方面,混合動態(tài)性數(shù)據(jù)的內(nèi)涵體系多尺度屬性,主要包括混合動態(tài)性數(shù)據(jù)的概念、類型、特點以及衡量能力等具有多尺度屬性。顯然,混合動態(tài)性數(shù)據(jù)情報偵查的多尺度屬性不僅包括不同混合動態(tài)性數(shù)據(jù)之間相鄰的加權(quán)權(quán)重多尺度屬性,而且還包含混合動態(tài)性數(shù)據(jù)基本的內(nèi)涵體系多尺度屬性。從實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的應然價值而言,偵查人員能夠利用其多尺度屬性創(chuàng)建數(shù)據(jù)倉庫中不同的混合動態(tài)性數(shù)據(jù)頻繁項目子集,從而依據(jù)涉案犯罪情勢的發(fā)展態(tài)勢而采取對不同混合動態(tài)性數(shù)據(jù)的類別劃分和數(shù)據(jù)粒度項目集的構(gòu)建。在整個混合動態(tài)性數(shù)據(jù)情報偵查的應用過程中,偵查人員依據(jù)其多尺度的屬性可以將涉案混合動態(tài)性數(shù)據(jù)多尺度數(shù)據(jù)結(jié)構(gòu)表示為混合動態(tài)性數(shù)據(jù)倉庫、混合動態(tài)性數(shù)據(jù)表空間、混合動態(tài)性數(shù)據(jù)索引段以及混合動態(tài)性數(shù)據(jù)區(qū)間和混合動態(tài)性數(shù)據(jù)模塊等(見圖1)。
圖1 混合動態(tài)性數(shù)據(jù)多尺度數(shù)據(jù)結(jié)構(gòu)表示
3.混合動態(tài)性數(shù)據(jù)情報偵查的網(wǎng)絡多屬性。混合動態(tài)性數(shù)據(jù)情報偵查的網(wǎng)絡多屬性建立在對數(shù)值型數(shù)據(jù)、符號型數(shù)據(jù)、文本型數(shù)據(jù)以及圖片型數(shù)據(jù)等各種混合動態(tài)性數(shù)據(jù)的特征選擇挖掘與分析基礎之上,偵查人員通過構(gòu)建犯罪行為與非犯罪行為的貝葉斯關(guān)聯(lián)規(guī)則和采取不同的關(guān)聯(lián)聚類算法,進而幫助其能夠快速準確地發(fā)現(xiàn)和尋找隱藏在不同混合動態(tài)性數(shù)據(jù)之間且與涉案犯罪情勢具有關(guān)聯(lián)性的各種數(shù)理關(guān)系。傳統(tǒng)數(shù)據(jù)情報偵查方法主要是依據(jù)數(shù)據(jù)爬蟲、設置TCP/IP 協(xié)議棧、數(shù)據(jù)布局分配等數(shù)據(jù)屬性對不同數(shù)據(jù)展開挖掘與分析,從而完成傳統(tǒng)數(shù)據(jù)關(guān)聯(lián)聚類的流程構(gòu)建和算法應用,偵查人員在進行情報偵查預測和決策時往往出現(xiàn)數(shù)據(jù)缺失碎片過多、數(shù)據(jù)聚類質(zhì)量純度不高等偵查錯誤。在智慧驅(qū)動創(chuàng)新科學技術(shù)的新時代,混合動態(tài)性數(shù)據(jù)情報偵查的網(wǎng)絡多屬性卻給偵查人員開展其情報偵查預測和決策提供了邏輯的理論基礎。從混合動態(tài)性數(shù)據(jù)情報偵查應用的實際效果角度而言,混合動態(tài)性數(shù)據(jù)情報偵查的多網(wǎng)絡屬性主要包含兩個方面內(nèi)容:第一,混合動態(tài)性數(shù)據(jù)存儲結(jié)構(gòu)的網(wǎng)絡多屬性。首先,偵查人員采用貝葉斯的關(guān)聯(lián)聚類算法對涉案混合動態(tài)性數(shù)據(jù)的網(wǎng)格分塊區(qū)域進行劃分調(diào)度,將特征選擇融合度相同和相似的不同混合動態(tài)性數(shù)據(jù)選入數(shù)據(jù)倉庫構(gòu)建的候選區(qū),對其進行歸納和統(tǒng)計使其形成混合動態(tài)性數(shù)據(jù)情報偵查應用的數(shù)據(jù)聚類中心集。然后,采用熵函數(shù)的混合動態(tài)性數(shù)據(jù)聚類算法對數(shù)據(jù)聚類中心集進行分布式的數(shù)據(jù)概率重組,分別獲取到混合動態(tài)性數(shù)據(jù)情報偵查應用的數(shù)據(jù)標準差值和目標樣本數(shù)據(jù)庫。最后,根據(jù)混合動態(tài)性數(shù)據(jù)情報偵查流程的參數(shù)設置閾值,采用混合動態(tài)性數(shù)據(jù)的均衡配置和信道轉(zhuǎn)換的方法而實現(xiàn)對其動態(tài)存儲結(jié)構(gòu)的重建,從而使混合動態(tài)性數(shù)據(jù)的存儲結(jié)構(gòu)具有網(wǎng)絡多屬性的范疇。第二,混合動態(tài)性數(shù)據(jù)特征融合的網(wǎng)絡多屬性。在混合動態(tài)性數(shù)據(jù)存儲結(jié)構(gòu)網(wǎng)絡多屬性的基礎上,偵查人員采用數(shù)據(jù)特征快速收斂的技術(shù)方法構(gòu)建混合動態(tài)性數(shù)據(jù)情報偵查的隨機數(shù)據(jù)檢驗模型,通過利用混合動態(tài)性數(shù)據(jù)灰度特征選擇的組合方法,幫助偵查人員及時地獲取和更新涉案犯罪行為與非犯罪行為的規(guī)則庫參量變化條件,即可形成具有網(wǎng)絡多屬性的分布矩陣混合動態(tài)性數(shù)據(jù)特征融合。因此,混合動態(tài)性數(shù)據(jù)情報偵查的網(wǎng)絡多屬性對提高混合動態(tài)性數(shù)據(jù)的挖掘準確性和關(guān)聯(lián)聚類性具有關(guān)鍵性的重要價值。
目前,偵查人員對不同涉案數(shù)據(jù)源的控制和管理主要是通過采取通信密碼技術(shù)中的非對稱加密算法和對稱加密算法而實現(xiàn)。其中非對稱加密算法數(shù)據(jù)安全系數(shù)高但數(shù)據(jù)收斂速度耗時大,不合適對指數(shù)級海量的混合動態(tài)性數(shù)據(jù)進行挖掘與分析;而對稱加密算法盡管具有運算的高效性但存在加解密鑰相同的現(xiàn)象,導致安全系數(shù)的全面下降。[9]顯然,非對稱加密算法和對稱加密算法均無法應用于混合動態(tài)性數(shù)據(jù)情報偵查的特殊場景?;诖?,結(jié)合混合動態(tài)性數(shù)據(jù)情報偵查挖掘與分析應用中涉及數(shù)據(jù)管理安全、準確高效性能、預測和決策精確、情報偵查價值需求等綜合因素考慮,作者認為,偵查人員可以采用包括混合動態(tài)性數(shù)據(jù)情報偵查驗證子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查安全管理子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查權(quán)限認證子系統(tǒng)等綜合功能的混合動態(tài)性數(shù)據(jù)情報偵查平臺設計方案(見圖2)。
圖2 混合動態(tài)性數(shù)據(jù)情報偵查的平臺設計方案
依據(jù)混合動態(tài)性數(shù)據(jù)情報偵查的平臺設計方案可知,其包括混合動態(tài)性數(shù)據(jù)情報偵查驗證子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查安全管理子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查權(quán)限認證子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查可視化子系統(tǒng)、混合動態(tài)性數(shù)據(jù)情報偵查研判分析子系統(tǒng)以及混合動態(tài)性數(shù)據(jù)情報偵查個性設置子系統(tǒng)等六個子系統(tǒng)。第一,混合動態(tài)性數(shù)據(jù)情報偵查驗證子系統(tǒng)。該系統(tǒng)是整個混合動態(tài)性數(shù)據(jù)情報偵查平臺設計的支撐系統(tǒng),主要包括偵查人員的登錄驗證模塊和密鑰管理模塊,通過與其它子系統(tǒng)的互相交互進而完成動態(tài)性數(shù)據(jù)情報偵查應用的訪問控制和用戶管理。第二,混合動態(tài)性數(shù)據(jù)情報偵查安全管理子系統(tǒng)。該系統(tǒng)是混合動態(tài)性數(shù)據(jù)情報偵查平臺設計的數(shù)據(jù)管理倉庫,主要包括權(quán)限使用模塊、通信加密模塊、傳輸控制模塊、檢查驗證模塊以及倉庫存儲模塊和更新替換模塊等,其作用是與混合動態(tài)性數(shù)據(jù)情報偵查可視化子系統(tǒng)和混合動態(tài)性數(shù)據(jù)情報偵查研判分析子系統(tǒng)之間實現(xiàn)情報偵查業(yè)務的互相交互。第三,混合動態(tài)性數(shù)據(jù)情報偵查權(quán)限認證子系統(tǒng)。該系統(tǒng)主要包括登錄認證和數(shù)據(jù)密鑰管理等,其作用是根據(jù)案件偵查情勢發(fā)展對情報偵查需求導向的變化及時與混合動態(tài)性數(shù)據(jù)情報偵查驗證子系統(tǒng)實現(xiàn)登錄認證、混合密鑰分配等權(quán)限共享和認證更新。第四,混合動態(tài)性數(shù)據(jù)情報偵查可視化子系統(tǒng)。該系統(tǒng)主要包括對涉案各種混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)解密、數(shù)字地圖、數(shù)據(jù)統(tǒng)計以及數(shù)據(jù)管理等功能。第五,混合動態(tài)性數(shù)據(jù)情報偵查研判分析子系統(tǒng)。該系統(tǒng)功能主要包括對涉案混合動態(tài)性數(shù)據(jù)的研判設置、研判處理、研判歷史以及研判預測等,其目的是為混合動態(tài)性數(shù)據(jù)情報偵查預測與決策提供數(shù)據(jù)支持和數(shù)據(jù)響應。第六,混合動態(tài)性數(shù)據(jù)情報偵查個性設置子系統(tǒng)。該系統(tǒng)主要包括個人配置、傳輸設置、權(quán)限變更、動態(tài)管理等功能,其主要作用是為偵查人員進行數(shù)據(jù)下載模塊、數(shù)據(jù)校對模塊、數(shù)據(jù)驗證碼模塊等提供數(shù)據(jù)校對修正的數(shù)據(jù)保障。
在混合動態(tài)性數(shù)據(jù)挖掘與分析應用過程中,往往存在倉庫構(gòu)建的非全面性、規(guī)則設計的模糊性、數(shù)據(jù)集成的隨機性以及指標評價的非精確性等突出問題。如果偵查人員仍然采取傳統(tǒng)情報偵查的評價體系方法,那么就會造成所挖掘分析出來的關(guān)聯(lián)數(shù)理關(guān)系與客觀犯罪情勢的發(fā)展存在一定的差異性,甚至還會導致部分偵查預測和決策出現(xiàn)偵查錯誤或陷入偵查僵局。同時,在混合動態(tài)性數(shù)據(jù)情報偵查的挖掘與分析應用過程中,偵查人員還無法直接對涉案不同的混合動態(tài)性數(shù)據(jù)進行綜合評價。為了更好地實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的應然價值和實然效果,在考慮混合動態(tài)性數(shù)據(jù)適配性和情報偵查情勢動態(tài)性的綜合基礎之上,提出和引入符合預防、打擊數(shù)據(jù)化犯罪情勢生存與發(fā)展的混合動態(tài)性數(shù)據(jù)情報偵查的指標加權(quán)系數(shù)。
為解決對混合動態(tài)性數(shù)據(jù)的量化運算問題,Shannon 從熱力學角度提出“混合動態(tài)性數(shù)據(jù)熵權(quán)”的概念?;旌蟿討B(tài)性數(shù)據(jù)熵權(quán)不僅可以被應用于對不同混合動態(tài)性數(shù)據(jù)離散程度的挖掘與分析,而且還可以通過利用多維混合動態(tài)性數(shù)據(jù)的適合權(quán)重系數(shù)而提高其關(guān)聯(lián)聚類的應用效果。[10]混合動態(tài)性數(shù)據(jù)熵權(quán)和關(guān)聯(lián)聚類在情報偵查中的內(nèi)在關(guān)系為:相同混合動態(tài)性數(shù)據(jù)構(gòu)成的聚類簇比異同混合動態(tài)性數(shù)據(jù)所構(gòu)成聚類簇的熵權(quán)閾值要小。反之,如果相同混合動態(tài)性數(shù)據(jù)被數(shù)據(jù)倉庫構(gòu)建到不同的聚類簇中,那么其熵權(quán)閾值就會增大。在混合動態(tài)性數(shù)據(jù)情報偵查的應用過程中,混合動態(tài)性數(shù)據(jù)的類型復雜性和特征數(shù)量性與其熵權(quán)閾值的系數(shù)呈正相關(guān)關(guān)系。顯然,將混合動態(tài)性數(shù)據(jù)熵權(quán)的閾值引入到混合動態(tài)性數(shù)據(jù)情報偵查的指標加權(quán)系數(shù)之中,可以幫助偵查人員實現(xiàn)對涉案混合動態(tài)性數(shù)據(jù)特征的定量差異距離的挖掘分析。
在實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的關(guān)聯(lián)聚類應用中,混合動態(tài)性數(shù)據(jù)之間的差異距離系數(shù)與其特征的分類型具有負相關(guān)關(guān)系。從混合動態(tài)性數(shù)據(jù)的內(nèi)涵屬性而言,不同混合動態(tài)性數(shù)據(jù)的熵權(quán)閾值也反映了其在混合動態(tài)性數(shù)據(jù)情報偵查中的應用價值權(quán)重系數(shù)。偵查人員可以根據(jù)涉案混合動態(tài)性數(shù)據(jù)特征的分類型性質(zhì)不同,利用混合動態(tài)性數(shù)據(jù)熵權(quán)閾值的差異性而計算其在整個混合動態(tài)性數(shù)據(jù)情報偵查應用價值中的權(quán)重系數(shù),從而達到提升混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的實然效果。例如,偵查人員可以利用涉案混合動態(tài)性數(shù)據(jù)特征中聚類相對頻率、簇間分布路徑、相異度差異數(shù)等不同分類型性質(zhì),實現(xiàn)對混合動態(tài)性數(shù)據(jù)的關(guān)聯(lián)聚類特征期望值、路徑差異度分布、離散距離概率等的運算與挖掘。
為了實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的應然價值,偵查人員可以采取歐氏數(shù)據(jù)距離算法完成對涉案各種混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)集成、數(shù)據(jù)清洗等流程模型。這不僅能夠幫助偵查人員降低關(guān)聯(lián)聚類算法的復雜度和耗時量,而且還能夠提升混合動態(tài)性數(shù)據(jù)情報偵查預測和決策應用的客觀性和精確性。從引入和采取量化加權(quán)相異度系數(shù)的情報偵查應用價值而言,主要包含兩個方面的內(nèi)容:一方面,量化的混合動態(tài)性數(shù)據(jù)相異度系數(shù)。在對涉案不同混合動態(tài)性數(shù)據(jù)進行量化相異度時,偵查人員可以采用無量綱化和有量同驅(qū)化的數(shù)據(jù)處理技術(shù),從而尋找和發(fā)現(xiàn)隱藏在聚類簇中混合動態(tài)性數(shù)據(jù)相異度系數(shù)的最小閾值和最大閾值。另一方面,加權(quán)的混合動態(tài)性數(shù)據(jù)相異度系數(shù)。首先,預設混合動態(tài)性數(shù)據(jù)情報偵查的聚類簇表示為D={Xi,1 ≤i ≤N},其中聚類簇有N 個混合動態(tài)性數(shù)據(jù)對象,每個混合動態(tài)性數(shù)據(jù)都具有M維加權(quán)特征(P 維表示分類型加權(quán)特征,M-P維表示數(shù)值型加權(quán)特征)。然后,將M-P 維混合動態(tài)性數(shù)據(jù)當作一個完整的數(shù)據(jù)向量進行數(shù)據(jù)倉庫構(gòu)建,在該數(shù)據(jù)倉庫中再以P 維混合動態(tài)性數(shù)據(jù)為加權(quán)系數(shù)構(gòu)建犯罪行為的關(guān)聯(lián)聚類規(guī)則。最后,使用N 個P 維混合動態(tài)性數(shù)據(jù)和N+1 個M-P 維混合動態(tài)性數(shù)據(jù)對其加權(quán)的混合動態(tài)性數(shù)據(jù)相異度系數(shù)展開計算和統(tǒng)計。量化加權(quán)相異度系數(shù)不僅能夠幫助偵查人員及時高效地尋找和發(fā)現(xiàn)混合動態(tài)性數(shù)據(jù)相異度系數(shù)的最小閾值和最大閾值,而且還能夠幫助其進一步提升對P 維和M-P 維混合動態(tài)性數(shù)據(jù)相異度系數(shù)挖掘的精確性和聚類性。
為了提升混合動態(tài)性數(shù)據(jù)情報偵查應用的實然效果價值,偵查人員可以采取MSQEA 聚類算法對涉案原始的混合動態(tài)性數(shù)據(jù)情報源進行聚類挖掘分析,并將聚類后的混合動態(tài)性數(shù)據(jù)中心樣本作為檢查和驗證的重要依據(jù)。顯然,混合動態(tài)性數(shù)據(jù)的聚類中心數(shù)量對是否實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的應然價值和實然效果具有直接性的關(guān)聯(lián)關(guān)系。如果混合動態(tài)性數(shù)據(jù)的聚類中心數(shù)量預設過大,那么就會降低混合動態(tài)性數(shù)據(jù)情報偵查應用的聚類效果和價值;反之,則會增加混合動態(tài)性數(shù)據(jù)情報偵查應用的聚類成本和收斂耗時量?;诖?,作者認為,偵查人員可以將混合動態(tài)性數(shù)據(jù)的聚類中心數(shù)量閾值預設為[0.2~0.9]之間,其中混合動態(tài)性數(shù)據(jù)的聚類步長為0.1。設置科學合理的聚類比例效果加權(quán)系數(shù)能夠有效地避免或降低在混合動態(tài)性數(shù)據(jù)情報偵查中出現(xiàn)欠擬合或過擬合等突出聚類算法問題。同時,為了檢驗和修正混合動態(tài)性數(shù)據(jù)的聚類中心數(shù)量閾值等聚類比例效果加權(quán)系數(shù)的科學合理性,偵查人員還可以采取MSQEA 聚類算法中的CS 聚類驗證算法和RS 聚類驗證算法進行綜合研判。因此,科學合理有效預設聚類比例效果的加權(quán)系數(shù),不僅幫助偵查人員避免或降低出現(xiàn)錯誤型和冗余型混合動態(tài)性數(shù)據(jù)的概率,而且還能夠及時高效地提升混合動態(tài)性數(shù)據(jù)情報偵查應用的聚類精度,從而起到解決混合動態(tài)性數(shù)據(jù)聚類重疊和聚類析取等問題的價值作用。
在實際的混合動態(tài)性數(shù)據(jù)情報偵查應用過程中,偵查人員需要處理海量復雜的數(shù)值型、文本型、圖片型以及分類型等混合動態(tài)性數(shù)據(jù)情報源。傳統(tǒng)數(shù)據(jù)情報偵查的流程一般包含數(shù)據(jù)情報搜集、數(shù)據(jù)情報控制、數(shù)據(jù)情報存儲、數(shù)據(jù)情報分析以及數(shù)據(jù)情報應用等具體流程。采取傳統(tǒng)數(shù)據(jù)情報偵查的流程來處理涉案不同混合動態(tài)性數(shù)據(jù)源往往會出現(xiàn)以下突出問題:第一,破壞了混合動態(tài)性數(shù)據(jù)的初始結(jié)構(gòu),造成數(shù)據(jù)轉(zhuǎn)換后的各種指標加權(quán)系數(shù)出現(xiàn)降維現(xiàn)象;第二,缺失了動態(tài)性數(shù)據(jù)隱藏的相異度系數(shù),導致無法真實有效反映混合動態(tài)性數(shù)據(jù)聚類簇的聚類中心數(shù)量閾值;第三,混合動態(tài)性數(shù)據(jù)的各種加權(quán)閾值較大,挖掘與分析應用的偏差系數(shù)也較大;第四,混合動態(tài)性數(shù)據(jù)的粗糙集、多尺度、網(wǎng)絡多等屬性容易降低混合動態(tài)性數(shù)據(jù)情報偵查挖掘與分析應用的高效性。顯然,傳統(tǒng)數(shù)據(jù)情報偵查流程已難以適應對各種混合動態(tài)性數(shù)據(jù)情報源展開挖掘與分析?;诖?,結(jié)合混合動態(tài)性數(shù)據(jù)情報源的結(jié)構(gòu)特征和混合動態(tài)性數(shù)據(jù)情報偵查的應然價值導向需求,作者認為,混合動態(tài)性數(shù)據(jù)情報偵查的流程模型應該包括數(shù)據(jù)預處理流程模塊、數(shù)據(jù)特征選擇流程模塊、數(shù)據(jù)聚類挖掘流程模塊、數(shù)據(jù)算法選擇流程模塊以及數(shù)據(jù)結(jié)果驗證修正流程模塊等五個方面(見圖3)。
圖3 混合動態(tài)性數(shù)據(jù)情報偵查的流程模型構(gòu)建
數(shù)據(jù)預處理流程模塊是混合動態(tài)性數(shù)據(jù)情報偵查流程的起點和基礎,主要包括對混合動態(tài)性數(shù)據(jù)情報源進行的數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)約簡等。首先,數(shù)據(jù)集成。數(shù)據(jù)集成主要是通過人機智能的方式進行,任務包括統(tǒng)一混合動態(tài)性數(shù)據(jù)情報源結(jié)構(gòu),將其分為時間型混合動態(tài)性數(shù)據(jù)、空間型混合動態(tài)性數(shù)據(jù)、時空型混合動態(tài)性數(shù)據(jù)等方面,并將經(jīng)過數(shù)據(jù)集成后的動態(tài)性數(shù)據(jù)情報源進行數(shù)據(jù)倉庫構(gòu)建。其次,數(shù)據(jù)清理。數(shù)據(jù)清理包括三個具體步驟即增加空缺混合動態(tài)性數(shù)據(jù)存儲、去除重復混合動態(tài)性數(shù)據(jù)記錄以及混合動態(tài)性數(shù)據(jù)的離群點檢測,主要將數(shù)據(jù)倉庫中的各種重復數(shù)據(jù)、空缺數(shù)據(jù)、離群數(shù)據(jù)進行挖掘和清除,以便提高混合動態(tài)性數(shù)據(jù)情報偵查挖掘與分析應用的精確性和高效性。再次,數(shù)據(jù)轉(zhuǎn)換。根據(jù)不同混合動態(tài)性數(shù)據(jù)情報偵查挖掘算法的不同需求,偵查人員需要對經(jīng)過數(shù)據(jù)清理后的各種混合動態(tài)性數(shù)據(jù)依據(jù)數(shù)據(jù)差標準化、數(shù)據(jù)比值標準化、數(shù)據(jù)差值標準化等數(shù)據(jù)標準進行不同數(shù)據(jù)轉(zhuǎn)換。最后,數(shù)據(jù)約簡。數(shù)據(jù)約簡主要包括混合動態(tài)性數(shù)據(jù)分區(qū)約簡、混合動態(tài)性數(shù)據(jù)數(shù)值約簡、混合動態(tài)性數(shù)據(jù)維度約簡三部分,這三部分數(shù)據(jù)約簡既沒有互相依賴性也沒有固定的前后實施順序,只需偵查人員每次在數(shù)據(jù)約簡之前在數(shù)據(jù)倉庫中提取被數(shù)據(jù)轉(zhuǎn)換后的混合動態(tài)性數(shù)據(jù)情報源即可。
混合動態(tài)性數(shù)據(jù)情報源不僅是一個含量大、指數(shù)增長快、變化動態(tài)的數(shù)據(jù)頻繁項目集,而且其數(shù)據(jù)特征也會隨著數(shù)據(jù)化犯罪情勢生存的發(fā)展態(tài)勢而改變。為了提升混合動態(tài)性數(shù)據(jù)情報偵查的關(guān)聯(lián)聚類效果,可以將混合動態(tài)性數(shù)據(jù)情報源的頻繁項目集表示為A={X1,X2,X3,...,Xn},且集中每個混合動態(tài)性數(shù)據(jù)的閾值屬性都是具有獨立性。如果混合動態(tài)性數(shù)據(jù)的聚類閾值符合Xi∈A,那么該混合動態(tài)性數(shù)據(jù)的數(shù)量(S)屬性就屬于聚類簇Ai={X1i,X2i,X3i,...,Xsi}的頻繁項目集。反之,當缺失某混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)特征時,偵查人員則需要重新選擇質(zhì)量和精確度高的數(shù)據(jù)特征來代替。結(jié)合混合動態(tài)性數(shù)據(jù)情報源頻繁項目集和其聚類閾值的關(guān)聯(lián)關(guān)系,作者認為,數(shù)據(jù)特征選擇流程模塊具體可以分為以下步驟:首先,數(shù)據(jù)性能加強?;旌蟿討B(tài)性數(shù)據(jù)情報源具有突出的分離性和緊致性特點,一方面,混合動態(tài)性數(shù)據(jù)測量的分離性越高,那么其被聚類的質(zhì)量就越高;反之,則被聚類的質(zhì)量就越低。另一方面,混合動態(tài)性數(shù)據(jù)測量的緊致性越低,那么其被聚類的效果就越強;反之,則被聚類的效果就越弱。偵查人員可以采取二維代價矩陣的矩陣算法來同步存儲和數(shù)據(jù)倉庫構(gòu)建運算混合動態(tài)性數(shù)據(jù)的分離性和緊致性,促使在聚類的過程中其數(shù)據(jù)性能能夠得到全面加強。其次,冗余特征移除。偵查人員可以采取冗余分析和關(guān)聯(lián)分析的數(shù)據(jù)特征選擇方法,依據(jù)混合動態(tài)性數(shù)據(jù)頻繁項目集中關(guān)聯(lián)規(guī)則來尋找和挖掘部分異常的混合動態(tài)性數(shù)據(jù),按照數(shù)據(jù)特征子集等級分割的序列標準進而完成部分混合動態(tài)性數(shù)據(jù)冗余特征的移除。再次,數(shù)據(jù)屬性權(quán)重的確定。混合動態(tài)性數(shù)據(jù)情報源是分類型、數(shù)值型、文字型、圖片型等混合動態(tài)性數(shù)據(jù)的結(jié)合體,不同類型混合動態(tài)性數(shù)據(jù)在混合動態(tài)性數(shù)據(jù)情報偵查中的權(quán)重系數(shù)亦不一樣。經(jīng)過冗余特征移除之后,偵查人員需要進一步確定不同混合動態(tài)性數(shù)據(jù)的屬性權(quán)重。最后,相異度指標系數(shù)。偵查人員可以將混合動態(tài)性數(shù)據(jù)情報偵查中的相異度指標系數(shù)表示為MDIS ≤A,C ∪D,B,F(xiàn) >,如果其相異度指標系數(shù)的閾值為Ck={C1,C2,C3,...,Ck}(k ≥2),那么就表示混合動態(tài)性數(shù)據(jù)的相異度指標系數(shù)為M=C ∪D(其中C=Anum∪Acat),從而為后續(xù)進行數(shù)據(jù)聚類挖掘提供算法的參數(shù)支持。
數(shù)據(jù)聚類挖掘流程模塊是混合動態(tài)性數(shù)據(jù)情報偵查流程模塊的重要核心組成部分,可以將其具體分為三個步驟:首先,模糊相關(guān)性融合處理。根據(jù)混合動態(tài)性數(shù)據(jù)情報偵查對聚類中心數(shù)量閾值的預設要求,偵查人員可以采取聚類尋優(yōu)算法而獲得混合動態(tài)性數(shù)據(jù)情報源的多維數(shù)據(jù)結(jié)構(gòu),進而運算并計算混合動態(tài)性數(shù)據(jù)進行聚類的關(guān)聯(lián)規(guī)則庫和粗糙數(shù)據(jù)頻繁項目集。同時,結(jié)合混合動態(tài)性數(shù)據(jù)情報偵查的區(qū)域聚類挖掘與分析算法,進一步幫助偵查人員獲取到其模糊聚類中心數(shù)量閾值的預設空間矩陣,并對混合動態(tài)性數(shù)據(jù)的模糊聚類采取具有相關(guān)性的數(shù)據(jù)融合處理,從而實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的模糊聚類效果和數(shù)據(jù)優(yōu)化調(diào)度要求。其次,數(shù)據(jù)聚類輸出。偵查人員在前面對混合動態(tài)性數(shù)據(jù)情報偵查源進行模糊相關(guān)性融合處理的基礎上,依據(jù)其分類屬性而展開模擬神經(jīng)網(wǎng)絡的混合動態(tài)性數(shù)據(jù)聚類模型構(gòu)建。結(jié)合混合動態(tài)性數(shù)據(jù)情報偵查源的神經(jīng)元系數(shù)和標量數(shù)據(jù)序列兩者之間的關(guān)聯(lián)關(guān)系,在其輸出層即可獲得其加權(quán)的學習系數(shù)。一方面,偵查人員可以采取分組類別檢測的方法對標有加權(quán)系數(shù)的混合動態(tài)性數(shù)據(jù)進行分段聚類檢測;另一方面,還可以采取多層神經(jīng)的聚類算法得到混合動態(tài)性數(shù)據(jù)情報偵查源的神經(jīng)網(wǎng)絡數(shù)據(jù)聚類和其聚類的邊值收斂系數(shù),從而促使在混合動態(tài)性數(shù)據(jù)情報偵查應用中完成和實現(xiàn)數(shù)據(jù)聚類的結(jié)果輸出。最后,數(shù)據(jù)聚類挖掘模型。為了全面提升混合動態(tài)性數(shù)據(jù)情報偵查聚類的高效性和優(yōu)質(zhì)性,偵查人員可以采取基于分類型和數(shù)值型混合度量算法的數(shù)據(jù)聚類挖掘模型即D(Xi,Uj)=Dn+WlDc,其中Dn代表分類型的混合動態(tài)性數(shù)據(jù),而Dc代表數(shù)值型的混合動態(tài)性數(shù)據(jù),Uj則代表混合動態(tài)性數(shù)據(jù)中聚類中心j 的特征選擇向量,Wl代表混合動態(tài)性數(shù)據(jù)的不同指標加權(quán)系數(shù)。偵查人員可以通過以上數(shù)據(jù)聚類挖掘模型來完成和實現(xiàn)對各種涉案混合動態(tài)性數(shù)據(jù)情報偵查源的聚類挖掘,從而得到更加客觀和精確的混合動態(tài)性數(shù)據(jù)情報偵查預測與決策。
數(shù)據(jù)算法選擇流程模塊在混合動態(tài)性數(shù)據(jù)情報偵查應用中具有承上啟下的銜接作用,它是數(shù)據(jù)聚類挖掘流程模塊的延伸和拓展,更是數(shù)據(jù)結(jié)果驗證修正流程模塊的基礎和條件。依據(jù)數(shù)據(jù)算法選擇流程模塊的應用價值作用,可以將其具體分為三個步驟:首先,算法模式影響力。在混合動態(tài)性數(shù)據(jù)情報偵查挖掘與分析過程中,每個混合動態(tài)性數(shù)據(jù)對其所起的價值作用也各不相同。有的混合動態(tài)性數(shù)據(jù)的價值作用呈現(xiàn)負相關(guān),而有的則具有正相關(guān)的決定性價值作用。同時,大部分混合動態(tài)性數(shù)據(jù)的分布具有非均勻性,任何一個混合動態(tài)性數(shù)據(jù)在相對數(shù)據(jù)距離范圍內(nèi)都會被不同的其他混合動態(tài)性數(shù)據(jù)所圍繞。基于此,偵查人員可以實際關(guān)聯(lián)聚類效果為切入點,以數(shù)據(jù)節(jié)點和數(shù)據(jù)路徑的距離密集度為中心對不同混合動態(tài)性數(shù)據(jù)在整個混合動態(tài)性數(shù)據(jù)情報偵查算法中的模式影響力進行測算和評估。其次,算法性能指標。為了提升和實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查應用的高效性和精確性,作者認為,偵查人員可以采用指標聚類精度的AC 值來對其進行算法性能指標的評估即其中:NUM+代表被數(shù)據(jù)倉庫構(gòu)建到聚類簇中混合動態(tài)性數(shù)據(jù)的數(shù)量閾值,而AC 則代表聚類簇中正確的混合動態(tài)性數(shù)據(jù)數(shù)量占所有涉案動態(tài)性數(shù)據(jù)情報偵查源的比值。顯然,指標聚類精度的AC值越大,那么混合動態(tài)性數(shù)據(jù)情報偵查應用的高效性和精確性也就越高。最后,算法精度對比。偵查人員可以利用不同的關(guān)聯(lián)聚類算法對每個混合動態(tài)性數(shù)據(jù)采取至少20 次以上的指標聚類精度AC 的測算,尤其對數(shù)值型、分類型、混合型等混合動態(tài)性數(shù)據(jù)的相異度系數(shù)給予充分的運算和評估。通過發(fā)現(xiàn)和獲取不同混合動態(tài)性數(shù)據(jù)情報偵查算法之間的精度對比與差異,全面提高混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的客觀性和準確性。
首先,評價標準。為了檢驗混合動態(tài)性數(shù)據(jù)情報偵查應用算法的科學性和有效性,作者認為,偵查人員可以采取內(nèi)外互相結(jié)合的評價標準。其中:內(nèi)部的評價標準為CUM 一種,而外部的評價標準包括PR、AC、ARI、RE、NMI五 種。PR、AC、ARI、RE、NMI 和CUM 內(nèi) 外評價標準的參數(shù)閾值越大,就說明混合動態(tài)性數(shù)據(jù)情報偵查的關(guān)聯(lián)聚類實然效果越好,也證明其預測和決策更加科學和有效。其次,仿真應用。從提升混合動態(tài)性數(shù)據(jù)情報偵查的應用性能而言,偵查人員可以采取Matlab 模型的仿真實驗。例如,偵查人員可以從數(shù)據(jù)倉庫中選取分類屬性閾值12、訓練集120 以及數(shù)據(jù)距離1600 的不同混合動態(tài)性數(shù)據(jù)進行數(shù)據(jù)特征關(guān)聯(lián)聚類的測試,通過對混合動態(tài)性數(shù)據(jù)特征的模糊相關(guān)性閾值、神經(jīng)網(wǎng)絡模型的改進以及分類構(gòu)建等互相融合和互相重組,經(jīng)過該仿真應用最終能夠歸納與對比其應用情報偵查預測和決策的準確率、偏差率。再次,結(jié)果分析。結(jié)果混合動態(tài)性數(shù)據(jù)情報偵查的仿真應用之后,就需要對其結(jié)果展開挖掘分析。例如,將數(shù)值型、分類型、混合型的動態(tài)性數(shù)據(jù)分別存儲到混合動態(tài)性數(shù)據(jù)情報偵查的應用結(jié)果IScr、ISly、ISwi之中,偵查人員經(jīng)過對其算法應用結(jié)果分析即可得知:GRC 算法適合于數(shù)值型的混合動態(tài)性數(shù)據(jù),LOF 算法適合于分類型的混合動態(tài)性數(shù)據(jù),而NGOD 算法則適合于混合型的混合動態(tài)性數(shù)據(jù)等。最后,反饋修正。偵查人員通過混合動態(tài)性數(shù)據(jù)情報偵查挖掘與分析出與涉案犯罪情勢具有內(nèi)在關(guān)聯(lián)性的各種數(shù)理關(guān)系之后,必然會將其應用到具體的情報偵查預測和決策之中,在應用過程中或結(jié)束后會及時地對其進行反饋修正。如果應用的結(jié)果與涉案犯罪情勢具有相符合性,出現(xiàn)有利于偵查情勢發(fā)展的情報偵查預測和決策,那么就證明其具有客觀性和準確性。反之,則需要偵查人員及時地對其進行反饋和修正,進而對混合動態(tài)性數(shù)據(jù)情報偵查的數(shù)據(jù)加權(quán)閾值系數(shù)、流程模型構(gòu)建以及關(guān)聯(lián)聚類算法等及時進行檢查和修正,從而實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查的應然價值和實然效果。
盡管已有很多關(guān)于混合動態(tài)性數(shù)據(jù)挖掘與分析的算法被提出和引入,但是現(xiàn)有的算法主要基于混合動態(tài)性數(shù)據(jù)情報源的數(shù)據(jù)節(jié)點、數(shù)據(jù)距離、數(shù)據(jù)路徑以及數(shù)據(jù)密度、數(shù)據(jù)相似度等方法,造成在傳統(tǒng)混合動態(tài)性數(shù)據(jù)挖掘與分析算法中往往會出現(xiàn)數(shù)據(jù)缺失碎片過多、模糊優(yōu)勢關(guān)系差值較少、數(shù)據(jù)聚類質(zhì)量純度不高等突出問題。因此,結(jié)合混合動態(tài)性數(shù)據(jù)的粗糙集、多尺度、網(wǎng)絡多等內(nèi)涵屬性和現(xiàn)代情報偵查工作要求的智能性、聯(lián)動性、合成性等應然需求,在智慧驅(qū)動創(chuàng)新科學技術(shù)新時代應該賦予混合動態(tài)性數(shù)據(jù)情報偵查應用新的算法。這不僅是解決傳統(tǒng)混合動態(tài)性數(shù)據(jù)算法中出現(xiàn)數(shù)據(jù)缺失碎片過多、模糊優(yōu)勢關(guān)系差值較少、數(shù)據(jù)聚類質(zhì)量純度不高等突出問題的迫切需求,而且還是預防和打擊數(shù)據(jù)化犯罪情勢生存與發(fā)展態(tài)勢應對措施的必然選擇。
時間序列預測算法主要是基于對混合動態(tài)性數(shù)據(jù)情報源中的數(shù)據(jù)日志挖掘以及通過當前數(shù)據(jù)和歷史數(shù)據(jù)而展開預測的一種算法,具有典型代表性的有人工神經(jīng)網(wǎng)絡算法、支持向量回歸機算法以及基因表達式編程算法等三種方法。
1.人工神經(jīng)網(wǎng)絡算法。人工神經(jīng)網(wǎng)絡算法是仿生學和智能算法有機融合的典型代表,在算法中加入大量數(shù)據(jù)神經(jīng)元且按照運算規(guī)模而將數(shù)據(jù)神經(jīng)元劃分為不同的層次。[11]從對混合動態(tài)性數(shù)據(jù)情報偵查應用的效果而言,偵查人員可以將混合動態(tài)性數(shù)據(jù)情報源構(gòu)建為輸入層、隱含層、輸出層三個數(shù)據(jù)倉庫,任何兩層之間的數(shù)據(jù)神經(jīng)元均存在關(guān)聯(lián)性的數(shù)理關(guān)系。例如,以輸出層和隱含層為例。偵查人員可以將該兩層的數(shù)據(jù)神經(jīng)元關(guān)系表達為其中Wij就表示隱含層第i 個混合動態(tài)性數(shù)據(jù)神經(jīng)元輸出到輸出層第j 個混合動態(tài)性數(shù)據(jù)神經(jīng)元閾值的權(quán)重加權(quán)系數(shù)。顯然,任何兩層之間的權(quán)重加權(quán)系數(shù)都是通過采取不同的梯度降維混合動態(tài)性數(shù)據(jù)算法而挖掘獲得。如果偵查人員將j(θ)預設為該算法中輸入層中第n 個混合動態(tài)性數(shù)據(jù)神經(jīng)元的網(wǎng)絡偏差函數(shù),那么該混合動態(tài)性數(shù)據(jù)的權(quán)重加權(quán)系數(shù)矩陣即可表示為:,而就是其經(jīng)過人工神經(jīng)網(wǎng)絡算法而獲得混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的關(guān)聯(lián)數(shù)理關(guān)系閾值。誠然,人工神經(jīng)網(wǎng)絡算法中的梯度降維算法主要適用于規(guī)模較小的涉案混合動態(tài)性數(shù)據(jù)情報源挖掘與分析應用。當其規(guī)模較大時,偵查人員只需要采取人工神經(jīng)網(wǎng)絡算法的梯度升維算法即可。
2.支持向量回歸機算法。支持向量回歸機算法是一種以支持向量機邏輯訓練的監(jiān)督型混合動態(tài)性數(shù)據(jù)算法,通過非線性數(shù)據(jù)轉(zhuǎn)換方式將涉案混合動態(tài)性數(shù)據(jù)從低維的數(shù)據(jù)倉庫映射到高維的數(shù)據(jù)倉庫之中,然后在高維的數(shù)據(jù)倉庫中對其進行線性回歸關(guān)聯(lián)性的挖掘與分析。支持向量回歸算法的過程可表示為F(x)=aw(x)+b,且w:r →t 和a ∈t,其 中a=[a1,a2,a3,...,am]t表示為映射到m 數(shù)據(jù)倉庫中不同混合動態(tài)性數(shù)據(jù)的特征選擇權(quán)重加權(quán)系數(shù),而b 則為混合動態(tài)性數(shù)據(jù)的預設閾值。顯然,在混合動態(tài)性數(shù)據(jù)情報偵查的挖掘與分析應用過程中,偵查人員通過采取支持向量回歸機算法對其進行時間序列混合動態(tài)性數(shù)據(jù)的線性挖掘分析,從而實現(xiàn)對混合動態(tài)性數(shù)據(jù)中涉及時間數(shù)據(jù)關(guān)聯(lián)數(shù)理關(guān)系的研判和預測。
3.基因表達式編程算法?;虮磉_式編程算法是從遺傳算法中演變和發(fā)展起來的一種新型仿生學數(shù)據(jù)挖掘算法,主要依據(jù)不同混合動態(tài)性數(shù)據(jù)基因染色體的形成機制而對其通過數(shù)據(jù)“染色體”的方式重新進行編程和構(gòu)建。[12]根據(jù)涉案混合動態(tài)性數(shù)據(jù)情報源的不同類型和屬性,偵查人員可以利用不同混合動態(tài)性數(shù)據(jù)在數(shù)據(jù)集成或數(shù)據(jù)倉庫構(gòu)建過程中進行數(shù)據(jù)突變、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)融合以及數(shù)據(jù)復制等數(shù)據(jù)“染色體”變化方式,通過采取對混合動態(tài)性數(shù)據(jù)淘汰篩選模式重新選擇頻繁項目數(shù)據(jù)集的子集數(shù)據(jù)“染色體”,進而全面提升混合動態(tài)性數(shù)據(jù)情報偵查應用的挖掘思路和算法性能。
針對涉案混合動態(tài)性數(shù)據(jù)不同權(quán)重加權(quán)系數(shù)的預設閾值問題,偵查人員可以采取混合動態(tài)性數(shù)據(jù)的量子進化算法。量子進化算法又被稱為QEA 算法,屬于將進化算法和量子理論兩者互相融合、互相交互的一種新型智能混合動態(tài)性數(shù)據(jù)算法。[13]量子進化算法采取通過量子比特的方式來挖掘與分析涉案不同混合動態(tài)性數(shù)據(jù)的概率幅閾值,促使其能夠被快速有效地融合和疊加,進而幫助偵查人員高效地解決混合動態(tài)性數(shù)據(jù)情報偵查過程中的模糊優(yōu)勢關(guān)系差值較少等復雜問題。在混合動態(tài)性數(shù)據(jù)情報偵查的量子進化算法過程中,每個不同頻繁項目數(shù)據(jù)集都是由數(shù)個具有量子比特特征的混合動態(tài)性數(shù)據(jù)所構(gòu)成。偵查人員可以用0 和1 來表示集中混合動態(tài)性數(shù)據(jù)的概率幅閾值y,即其閾值可以表示為0 或1 也或0 與1 的中間。同時,偵查人員還可以提前將涉案混合動態(tài)性數(shù)據(jù)情報源的長度閾值預設為n,數(shù)據(jù)倉庫中的頻繁項目數(shù)據(jù)集表示為m,而第t 個頻繁項目數(shù)據(jù)集中的混合動態(tài)性數(shù)據(jù)的量子種群即可被表示為Q因此,為了實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的最優(yōu)實際效果,量子進化算法具體可以分為以下步驟:第一步,將t 的初始值設為0,且第t 個頻繁項目數(shù)據(jù)集中的混合動態(tài)性數(shù)據(jù)的量子種群表示為第二步,將頻繁項目數(shù)據(jù)集中不同混合動態(tài)性數(shù)據(jù)的量子比特概率幅表示為。如果混合動態(tài)性數(shù)據(jù)的概率幅閾值那么與其相對應的量子比特值為0。反之,則為1。顯然,混合動態(tài)性數(shù)據(jù)的概率幅閾值與其量子比特值呈正相關(guān)的數(shù)理關(guān)系。第三步,依據(jù)第二步的算法結(jié)果,需要對每個涉案混合動態(tài)性數(shù)據(jù)采取適應度的分析和評估。偵查人員選取適應度最優(yōu)的涉案混合動態(tài)性數(shù)據(jù)作為量子進化算法中的最佳局部參考標準,然后將其與頻繁項目集合中所有的混合動態(tài)性數(shù)據(jù)進行比較,并對繼續(xù)發(fā)現(xiàn)和尋找到的最佳局部參考標準進行統(tǒng)計和更新,直到滿足混合動態(tài)性數(shù)據(jù)情報偵查量子進化算法的終止條件為止。第四步,根據(jù)第三步量子進化算法對涉案混合動態(tài)性數(shù)據(jù)適應度分析和評估的最終結(jié)果,偵查人員對混合動態(tài)性數(shù)據(jù)的量子種群及時進行更新和運算。第五步,設t=t+1,返回第二步。量子進化算法具有使涉案不同混合動態(tài)性數(shù)據(jù)能夠進行互相融合和疊加的功能作用,促使頻繁項目數(shù)據(jù)集中各種混合動態(tài)性數(shù)據(jù)都能夠被不斷地層層關(guān)聯(lián)聚類。所以,量子進化算法不僅能夠幫助偵查人員降低對數(shù)據(jù)收斂速度的耗時,而且還能夠提升混合動態(tài)性數(shù)據(jù)情報偵查的精確度。
數(shù)據(jù)表示聚類算法主要原理為:首先,偵查人員通過T 次K-Means 聚類算法對涉案各種混合動態(tài)性數(shù)據(jù)進行數(shù)據(jù)集成,并將其作為混合動態(tài)性數(shù)據(jù)挖掘的符號型屬性依據(jù)。其次,將剩余的混合動態(tài)性數(shù)據(jù)與數(shù)據(jù)集成的符號型混合數(shù)據(jù)互相融合,采用K-Prototypes 聚類算法獲得第T 次聚類后新的符號型混合動態(tài)性數(shù)據(jù)集合。再次,將新的符號型混合動態(tài)性數(shù)據(jù)代替以前舊的并通過Q 次循環(huán)聚類算法而獲得更優(yōu)質(zhì)的混合動態(tài)性數(shù)據(jù)基聚類。最后,將用數(shù)據(jù)表示最后獲取的混合動態(tài)性數(shù)據(jù)最小的聚類集成作為混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的依據(jù)。基于此,數(shù)據(jù)表示聚類算法在混合動態(tài)性數(shù)據(jù)情報偵查中的具體應用步驟為:第一步,將經(jīng)過T 次K-Means 聚類算法所形成的數(shù)據(jù)結(jié)果作為對混合動態(tài)性數(shù)據(jù)進行挖掘與分析的符號型屬性依據(jù),并將其與原來剩余的混合動態(tài)性數(shù)據(jù)進行互相融合和互相結(jié)合使其形成新的混合動態(tài)性數(shù)據(jù)情報源。第二步,在形成新的混合動態(tài)性數(shù)據(jù)情報源中尋找和選取K 個聚類樣本作為其進行聚類中心初始的數(shù)據(jù)倉庫模型。第三步,在該聚類中心初始的數(shù)據(jù)倉庫模型中對每個混合動態(tài)性數(shù)據(jù)樣本的相異性進行歸納和統(tǒng)計,并將數(shù)據(jù)節(jié)點、數(shù)據(jù)距離以及數(shù)據(jù)路徑等數(shù)據(jù)權(quán)重加權(quán)系數(shù)相同或相似的混合動態(tài)性數(shù)據(jù)進行數(shù)據(jù)聚類,使其形成不同的混合動態(tài)性數(shù)據(jù)頻繁項目數(shù)據(jù)集。第四步,再次對每個混合動態(tài)性數(shù)據(jù)頻繁項目數(shù)據(jù)集進行計算和挖掘,如果混合動態(tài)性數(shù)據(jù)的聚類類型屬于數(shù)值型,那么就取其全部數(shù)據(jù)閾值的平均值;相反,如果聚類類型屬于符號型,那么則需要取出現(xiàn)概率最多混合動態(tài)性數(shù)據(jù)閾值的平均值。第五步,循環(huán)第三步和第四步,直到每個混合動態(tài)性數(shù)據(jù)樣本的聚類屬性不再出現(xiàn)差異性為止。第六步,將第二步到第五步的數(shù)據(jù)表示聚類算法循環(huán)T 次,將聚類和獲取后的新混合動態(tài)性數(shù)據(jù)結(jié)果不斷替換原來第一步中的聚類樣本。第七步,將第六步循環(huán)Q 次數(shù)據(jù)表示聚類算法以后,在其聚類矩陣結(jié)果中挖掘與分析出作為進行混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的應用依據(jù)。在混合動態(tài)性數(shù)據(jù)情報偵查應用的過程中,數(shù)據(jù)表示聚類算法的核心功能在于既能夠保證混合動態(tài)性數(shù)據(jù)聚類矩陣結(jié)果和其聚類初始中心數(shù)據(jù)屬性的一致性,又能夠保證各混合動態(tài)性數(shù)據(jù)原始數(shù)據(jù)結(jié)構(gòu)屬性和其頻繁項目數(shù)據(jù)集屬性的一致性,從而促使其通過循環(huán)的數(shù)據(jù)表示聚類算法而提高混合動態(tài)性數(shù)據(jù)情報偵查應用的聚類性和關(guān)聯(lián)性。
針對傳統(tǒng)數(shù)據(jù)情報偵查過程中存在關(guān)聯(lián)效果質(zhì)量低、數(shù)據(jù)聚類質(zhì)量純度不高以及算法耗時較長等突出問題,提出和引入一種基于三支決策理論的三支決策混合采樣算法。一方面,三支決策混合采樣算法能夠幫助偵查人員剔除或降低關(guān)聯(lián)低密度低混合動態(tài)性數(shù)據(jù)的出現(xiàn)率,提高對混合動態(tài)性數(shù)據(jù)關(guān)聯(lián)密度高的挖掘率;另一方面,還能夠幫助偵查人員解決混合動態(tài)性數(shù)據(jù)情報偵查應用算法耗時較長等相關(guān)問題,從而幫助偵查人員提高混合動態(tài)性數(shù)據(jù)情報偵查應用算法的高效性和創(chuàng)新變革其新思路、新途徑?;诖?,作者認為,偵查人員在混合動態(tài)性數(shù)據(jù)情報偵查應用過程中可以將三支決策混合采樣算法具體分為以下具體步驟:第一步,混合動態(tài)性數(shù)據(jù)歸一化處理。為了避免或降低由于涉案各種混合動態(tài)性數(shù)據(jù)之間預設閾值、采樣取值范圍、數(shù)據(jù)關(guān)聯(lián)結(jié)構(gòu)屬性等差異性而造成出現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查預測和決策的偏差現(xiàn)象,偵查人員可以采取數(shù)據(jù)極差轉(zhuǎn)換法、數(shù)據(jù)比例轉(zhuǎn)換法等混合動態(tài)性數(shù)據(jù)集成算法來降低或消除不同混合動態(tài)性數(shù)據(jù)之間的差異性,將不同混合動態(tài)性數(shù)據(jù)的屬性在特定關(guān)聯(lián)聚類區(qū)域內(nèi)進行數(shù)據(jù)歸一化處理,從而幫助其提高混合動態(tài)性數(shù)據(jù)情報偵查應用算法的相比較性和數(shù)理關(guān)系關(guān)聯(lián)的可行性。第二步,混合動態(tài)性數(shù)據(jù)離散化清洗。根據(jù)混合動態(tài)性數(shù)據(jù)被數(shù)據(jù)歸一化處理后數(shù)據(jù)集成相同或異同的區(qū)域?qū)傩裕瑐刹槿藛T需要采取數(shù)據(jù)路徑等距聚類的算法對其進行離散化的數(shù)據(jù)清洗。第三步,混合動態(tài)性數(shù)據(jù)等價歸類。采取二元函數(shù)運算挖掘使混合動態(tài)性數(shù)據(jù)實現(xiàn)數(shù)據(jù)的?;垲愄幚?,促使偵查人員得到具有等價屬性的混合動態(tài)性數(shù)據(jù)歸類。第四步,混合動態(tài)性數(shù)據(jù)三支等價?;瘎澐帧8鶕?jù)第三步對混合動態(tài)性數(shù)據(jù)等價歸類的結(jié)果,偵查人員按照三支決策算法將其劃分為三種類型即正等價混合動態(tài)性數(shù)據(jù)、不確定等價混合動態(tài)性數(shù)據(jù)以及負等價混合動態(tài)性數(shù)據(jù)。當混合動態(tài)性數(shù)據(jù)為較少類別時,屬于正等價混合動態(tài)性數(shù)據(jù);當混合動態(tài)性數(shù)據(jù)為多數(shù)類別和少數(shù)類別混合時,屬于不確定等價混合動態(tài)性數(shù)據(jù);當混合動態(tài)性數(shù)據(jù)都是多數(shù)類別時,則屬于負等價混合動態(tài)性數(shù)據(jù)。第五步,負等價混合動態(tài)性數(shù)據(jù)欠采樣。負等價混合動態(tài)性數(shù)據(jù)主要包括大量多數(shù)類別的混合動態(tài)性數(shù)據(jù),如果將負等價混合動態(tài)性數(shù)據(jù)全部進行刪除,那么就會必然降低混合動態(tài)性數(shù)據(jù)情報偵查的高效性。顯然,如果負等價混合動態(tài)性數(shù)據(jù)僅包含唯一類別的混合動態(tài)性數(shù)據(jù)時,那么其需要被直接保存即可;反之,如果包含不同類別的混合動態(tài)性數(shù)據(jù)時,則需要計算不同類別混合動態(tài)性數(shù)據(jù)之間數(shù)據(jù)路徑的距離,以最小數(shù)據(jù)路徑距離的類別混合動態(tài)性數(shù)據(jù)為采樣標準,將其余的與其進行互相合并和融合而形成新的類別混合動態(tài)性數(shù)據(jù)。第六步,不確定等價混合動態(tài)性數(shù)據(jù)欠采樣。由于不確定等價混合動態(tài)性數(shù)據(jù)既包括多數(shù)類別的混合動態(tài)性數(shù)據(jù)又包括少數(shù)類別的混合動態(tài)性數(shù)據(jù),造成偵查人員難以對其進行聚類劃分。鑒于此,偵查人員可以采取SMOTE 算法對全部不確定等價混合動態(tài)性數(shù)據(jù)重新進行采樣,使其形成符合案件情報偵查新的不確定等價混合動態(tài)性數(shù)據(jù)。第七步,三支等價混合動態(tài)性數(shù)據(jù)的合并。在第一步至第六步的基礎上,將最新形成的等價混合動態(tài)性數(shù)據(jù)、不確定等價混合動態(tài)性數(shù)據(jù)以及負等價混合動態(tài)性數(shù)據(jù)采取兩兩互相融合的合并方式,最終形成對案件情報偵查具有關(guān)聯(lián)數(shù)理關(guān)系的混合動態(tài)性數(shù)據(jù)項目集。
海明密度峰值聚類算法是以二進制函數(shù)運算方式對涉案混合動態(tài)性數(shù)據(jù)情報源的屬性重新進行編碼,然后對經(jīng)過編碼后的不同混合動態(tài)性數(shù)據(jù)采取海明密度峰值的挖掘與分析方法,并根據(jù)不同混合動態(tài)性數(shù)據(jù)的屬性而預設其不同的權(quán)重加權(quán)系數(shù),從而幫助偵查人員挖掘分析出與涉案犯罪情勢具有關(guān)聯(lián)性的各種數(shù)理關(guān)系。就對涉案不同混合動態(tài)性數(shù)據(jù)的個體密度、局部密度的峰值相似度挖掘而言,可以將海明密度峰值聚類算法具體分為以下步驟:第一步,編碼混合動態(tài)性數(shù)據(jù)集。若混合動態(tài)性數(shù)據(jù)情報源中包括n 個類別樣本,那么其數(shù)據(jù)集即為X={x1,x2,x3,...,xn}。然后以二進制函數(shù)運算方式對全部涉案混合動態(tài)性數(shù)據(jù)情報源進行編碼,如果將混合動態(tài)性數(shù)據(jù)的第R個屬性AR 的編碼長度預設為LR,那么AR 屬性混合動態(tài)性數(shù)據(jù)的編碼空間即為BR={0,1}LR,且其屬性為顯然,雖然不同屬性混合動態(tài)性數(shù)據(jù)的編碼長度各不相同,但相同屬性混合動態(tài)性數(shù)據(jù)的編碼長度則為互相一致。第二步,測算混合動態(tài)性數(shù)據(jù)的海明距離。依據(jù)混合動態(tài)性數(shù)據(jù)的二進制編碼方式,可以將其海明距離HR(xi,xj)表示為其中,表示混合動態(tài)性數(shù)據(jù)xi在類別為AR聚類屬性中第l 個的編碼海明距離。第三步,預設混合動態(tài)性數(shù)據(jù)權(quán)重加權(quán)系數(shù)。在混合動態(tài)性數(shù)據(jù)情報偵查的應用過程中,不同混合動態(tài)性數(shù)據(jù)的權(quán)重加權(quán)系數(shù)會產(chǎn)生不同的情報偵查預測和決策結(jié)果。如果混合動態(tài)性數(shù)據(jù)的權(quán)重加權(quán)系數(shù)閾值越大,那么其對情報偵查的價值作用也就越大。所以,偵查人員此時應該根據(jù)不同混合動態(tài)性數(shù)據(jù)所包含情報偵查價值的大小而給其預設權(quán)重加權(quán)系數(shù),促使對其挖掘與分析更加具有精確性。第四步,計算不同混合動態(tài)性數(shù)據(jù)之間的海明距離度量。混合動態(tài)性數(shù)據(jù)情報源主要包括數(shù)值型、符號型、類別型、文字型等類型的混合動態(tài)性數(shù)據(jù),其數(shù)據(jù)路徑的距離離散值主要在(0,1)之間,往往忽略了對無序型混合動態(tài)性數(shù)據(jù)關(guān)聯(lián)數(shù)理關(guān)系的挖掘和聚類。鑒于此,偵查人員需要采取歐式距離的聚類算法挖掘和計算不同混合動態(tài)性數(shù)據(jù)之間的海明距離度量,盡量消除或降低無序型混合動態(tài)性數(shù)據(jù)情報偵查價值的漏缺率。第五步,混合動態(tài)性數(shù)據(jù)的海明密度峰值聚類挖掘。偵查人員采取DPC 算法利用混合動態(tài)性數(shù)據(jù)的數(shù)據(jù)密度來構(gòu)建混合動態(tài)性數(shù)據(jù)情報偵查應用的決策圖,這不但能夠消除或避免由于不規(guī)則、無序等異常混合動態(tài)性數(shù)據(jù)給情報偵查預測和決策所造成的認知偏差,而且還能夠降低噪聲型、孤立型等混合動態(tài)性數(shù)據(jù)對混合動態(tài)性數(shù)據(jù)情報偵查應用的影響和制約。海明密度峰值聚類算法的優(yōu)勢主要是利用二進制函數(shù)對不同混合動態(tài)性數(shù)據(jù)進行重新編碼,提升不同類別屬性混合動態(tài)性數(shù)據(jù)的轉(zhuǎn)換性和融合性,降低和避免由于偵查人員主觀方面原因造成的認知偏差性,通過截斷混合動態(tài)性數(shù)據(jù)的參數(shù)特征選擇和構(gòu)建其情報偵查決策圖,從而提升了混合動態(tài)性數(shù)據(jù)情報偵查應用的客觀性和準確性。
模糊優(yōu)勢數(shù)據(jù)聚類算法是在基于QRD 算法基礎上,通過利用混合動態(tài)性數(shù)據(jù)的模糊優(yōu)勢關(guān)聯(lián)而挖掘其不同數(shù)理關(guān)系占優(yōu)度的一種聚類算法。偵查人員利用模糊優(yōu)勢數(shù)據(jù)聚類算法還可以挖掘與分析不同屬性和類別混合動態(tài)性數(shù)據(jù)的聚類簇閾值相關(guān)問題。如果涉案的混合動態(tài)性數(shù)據(jù)呈現(xiàn)出復雜性、海量性、動態(tài)性等特點,那么就可以采取模糊優(yōu)勢數(shù)據(jù)聚類算法而實現(xiàn)降低耗時速度和提升關(guān)聯(lián)聚類的實際效果。假設涉案混合動態(tài)性數(shù)據(jù)情報源的數(shù)據(jù)集為U,其中符號型混合動態(tài)性數(shù)據(jù)的數(shù)量為m 個,而數(shù)值型混合動態(tài)性數(shù)據(jù)的數(shù)量為n 個。首先,將該數(shù)據(jù)集劃分為兩個子頻繁項目數(shù)據(jù)集,且分別對應混合動態(tài)性數(shù)據(jù)的符號型子頻繁項目數(shù)據(jù)集和數(shù)值型子頻繁項目數(shù)據(jù)集。其次,偵查人員利用涉案不同混合動態(tài)性數(shù)據(jù)之間模糊優(yōu)勢關(guān)聯(lián)的數(shù)理關(guān)系,先對符號型的混合動態(tài)性數(shù)據(jù)進行關(guān)聯(lián)聚類挖掘與分析,再對數(shù)值型混合動態(tài)性數(shù)據(jù)進行關(guān)聯(lián)聚類的挖掘與分析。最后,挖掘與分析后的符號型和數(shù)值型混合動態(tài)性數(shù)據(jù)按照其聚類初始中心閾值的大小依次進行排序,將混合動態(tài)性數(shù)據(jù)聚類初始中心閾值最小的模糊優(yōu)勢關(guān)聯(lián)占優(yōu)度預設為0.5,而其他混合動態(tài)性數(shù)據(jù)的模糊優(yōu)勢關(guān)聯(lián)占優(yōu)度則通過公式而計算獲得。在混合動態(tài)性數(shù)據(jù)情報偵查的應用過程中,模糊優(yōu)勢數(shù)據(jù)聚類算法的具體步驟為:第一步,將涉案的各種混合動態(tài)性數(shù)據(jù)情報源按照屬性與類別的不同劃分為符號型的混合動態(tài)性數(shù)據(jù)和數(shù)值型的混合動態(tài)性數(shù)據(jù)兩部分。第二步,將符號型屬性的混合動態(tài)性數(shù)據(jù)相進行關(guān)聯(lián)聚類的挖掘與分析。第三步,依據(jù)混合動態(tài)性數(shù)據(jù)的特征選擇需求價值不同,利用公式對所有數(shù)值型混合動態(tài)性數(shù)據(jù)的模糊優(yōu)勢關(guān)聯(lián)占優(yōu)度展開計算和歸類,第四步,將按照第二步、第三步所獲取全部混合動態(tài)性數(shù)據(jù)的聚類初始中心進行重新數(shù)據(jù)倉庫構(gòu)建和組合,清除所有空白型、異常型、過樣型等離群動態(tài)性數(shù)據(jù),并且重新計算和挖掘不同混合動態(tài)性數(shù)據(jù)之間的模糊優(yōu)勢關(guān)聯(lián)占優(yōu)度。第五步,檢驗和修正混合動態(tài)性數(shù)據(jù)。預設涉案所有混合動態(tài)性數(shù)據(jù)的聚類簇數(shù)量為K,如果已挖掘獲取聚類簇的數(shù)目大于或小于K,那么需要偵查人員不斷反復地對其進行互相融合和關(guān)聯(lián)聚類,直到混合動態(tài)性數(shù)據(jù)的聚類簇數(shù)量等于K 為止。第六步,運算挖掘和輸出所有涉案混合動態(tài)性數(shù)據(jù)之間模糊優(yōu)勢關(guān)聯(lián)的占優(yōu)度,從而為混合動態(tài)性數(shù)據(jù)情報偵查的聚類性和穩(wěn)定性提供模糊優(yōu)勢關(guān)聯(lián)占優(yōu)度的數(shù)據(jù)保障。
綜上所述,混合動態(tài)性數(shù)據(jù)情報偵查方法是智慧驅(qū)動創(chuàng)新科學技術(shù)時代的一種新型現(xiàn)代數(shù)據(jù)情報偵查方法,包括時間序列預測算法、量子進化算法、數(shù)據(jù)表示聚類算法、三支決策混合采樣算法、海明密度峰值聚類算法、模糊優(yōu)勢數(shù)據(jù)聚類算法等多種混合動態(tài)性數(shù)據(jù)情報偵查方法,不同的混合動態(tài)性數(shù)據(jù)情報偵查方法都有著不同的算法優(yōu)勢?;诖?,引入混合動態(tài)性數(shù)據(jù)情報偵查方法的研究范式。以混合動態(tài)性數(shù)據(jù)情報偵查的內(nèi)涵與屬性為研究邏輯起點,提出混合動態(tài)性數(shù)據(jù)情報偵查的平臺設計,探討混合動態(tài)性數(shù)據(jù)情報偵查的指標加權(quán)系數(shù),構(gòu)建混合動態(tài)性數(shù)據(jù)情報偵查的流程模型,并對混合動態(tài)性數(shù)據(jù)情報偵查的應用算法展開探究,這不僅促使偵查人員提升對混合動態(tài)性數(shù)據(jù)關(guān)聯(lián)聚類加權(quán)系數(shù)和優(yōu)先屬性的閾值預設,而且還能夠提高對不同混合動態(tài)性數(shù)據(jù)之間漸近正態(tài)性和相合性的挖掘與分析,從而實現(xiàn)混合動態(tài)性數(shù)據(jù)情報偵查方法的應然價值和實然效果。