国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合密度聚類綜合算法的工業(yè)經(jīng)濟數(shù)據(jù)庫異常信息檢測

2022-07-07 07:49
關鍵詞:離群分類器聚類

王 健

(唐山市熱力集團有限公司,河北 唐山 063000)

引言

現(xiàn)代社會的發(fā)展已經(jīng)離不開網(wǎng)絡化與數(shù)字化,很多企業(yè)為了獲取有價值的工業(yè)經(jīng)濟數(shù)據(jù)庫資源企圖通過非法的手段來獲取到相應的信息。因此,數(shù)據(jù)庫安全已經(jīng)成為社會各界發(fā)展當初普遍重視的問題。然而在傳統(tǒng)意識中,人們往往疏忽系統(tǒng)內部的防范而只注重系統(tǒng)外部的入侵。由此可見,研究數(shù)據(jù)庫系統(tǒng)內部攻擊的檢測方法更具價值性。本文試圖找到區(qū)別于針對操作系統(tǒng)和計算機網(wǎng)絡的傳統(tǒng)檢測方法的新型檢測法,即針對數(shù)據(jù)庫系統(tǒng)的檢測方法[1]。

1 工業(yè)經(jīng)濟數(shù)據(jù)庫異常檢測方法

早期檢測方法,主要有:通過挖掘數(shù)據(jù)間的依賴性從中找到不符合常態(tài)性依賴的異常檢測的方法中,Kamra從中找到通過尋求并拒絕偏離于交互用戶正常配置的一種方法。而佛吉亞則是利用用戶所融合的信息源以及信度產生的更新頻率而尋找到異常的一種檢測方法。這些方法固然能夠解決一些問題,然而錯誤率較高,不能做到精準檢測。

很多學者將深入學習以及機器學習等理論方法,用于數(shù)據(jù)庫的異常檢測。然而,該種方法建模過程較復雜且實時更新速度慢。后來斯奈等人又提出將關聯(lián)規(guī)則以及聚類分析運用到檢測數(shù)據(jù)庫方法中來。布德等人則提出,將學習分類器系統(tǒng)以及神經(jīng)網(wǎng)絡應用到數(shù)據(jù)庫的入侵檢測,但最終所提出的密度聚類檢測方法則更加符合數(shù)據(jù)庫中用戶的行為特征,特別是對于異常化的檢測形態(tài),能夠比較穩(wěn)定檢測樣本。但值得注意的是,在應用密度聚類檢測方法的同時,對于做監(jiān)測的樣板也會因為聚類不穩(wěn)定而出現(xiàn)檢測誤差[2]。

集成學習方法,在近年來已被應用于數(shù)據(jù)庫的異常檢測當中。它的檢測性能較為穩(wěn)定,準確率較高。很多學者為了將其進一步完善而將改進后的決策樹作為集成學習方法的補充,目的就是為了進一步提升檢測的準確率。

通過以上分析,傳統(tǒng)的數(shù)據(jù)庫異常檢測方法,方法單一且準確率較低,所以,利用密度聚類與集成學習的數(shù)據(jù)庫異常檢測方法能夠更為精準地對數(shù)據(jù)庫情況進行檢測。

2 算法解析

2.1 OPTICS算法

該方法是一種較為獨立的密度聚類算法,它是在原有的基于密度空間聚類的計算方法所做出的進一步改進,能實現(xiàn)對不同密度的聚類結構分析,其方法便是通過有序的排列創(chuàng)設出任意一種密度的聚類[3]。

該方法的計算核心切中于簇序的排列,以及聚類臨近領域的半徑值范圍,在這個范圍中至少會有其他對象,這時的領域值ε便會通過任意的對象p,而求得所容納的對象數(shù)量。其中,最為關鍵的便是核心距離以及可達距離兩個閾值范圍。有了這兩個數(shù)據(jù),便能計算得出與之相關的聚類簇排序,該方法是通過排序而得出對于數(shù)據(jù)結構的一種聚類觀察方法。

2.2 局部離群因子

利用樣本中點在局部中所分布的狀態(tài),以及它與離群之間的距離程度,所運用到的檢測方法,是基于密度的離群狀態(tài)而得出的。在數(shù)據(jù)庫中,每一個聚點因為離群產生一定的分布,這個大小會界定在與數(shù)值1之間的關系性上。當該距離大于1時,則將被認定為離群因子,小于1,則為正常點。該方法通常會結合聚類方法來計算得出離群點,進而得出局部離群因子。

3 工業(yè)經(jīng)濟數(shù)據(jù)庫異常檢測方案構建

3.1 檢測流程設計

工業(yè)經(jīng)濟數(shù)據(jù)庫異常檢測方法是以融合密度聚類方法與集成學習而形成的綜合性異常檢測法,具體檢測流程如圖1所示。主要過程包括數(shù)據(jù)預處理、訓練、學習模型構建以及異常檢測[4]。

通過圖1可知,首先要進行數(shù)據(jù)預處理。該方法主要為了能夠提取用戶的行為特征值,并將其處理為界定于0~1之間的數(shù)據(jù)型數(shù)據(jù),便于通過聚類與集成學習綜合方法所便于使用。其次是訓練。現(xiàn)在的目的是為了得到不同規(guī)模的訓練數(shù)據(jù)包。這樣在密度聚類方法中便可計算得出相應的模型,已取得先驗知識。再通過聚類方法分析便能得到簇的數(shù)據(jù)。對于未能形成簇的數(shù)據(jù),則可通過集成學習模型來做后續(xù)處理。再有,學習模型構建。在該模型構建的過程中,可采用個別分類器,將原有的數(shù)據(jù)模型通過集成學習的方法組合形成新的模型,并對其特征進行分類計算及對所得到的結果實施特征性存儲。最后是檢測。將新的用戶與數(shù)據(jù)庫中所存儲的特征庫數(shù)據(jù)進行匹配,進而檢測用戶行為的異常與否。

3.2 數(shù)據(jù)預處理

數(shù)據(jù)只有經(jīng)過預處理,才可進一步的分析,利用元組來描述用戶的行為。這些描述的元素包括用戶的標識以及查詢的類型和相應的語句條數(shù)等各種元素信息。這些信息會經(jīng)過密度計類以及集成學習進行數(shù)值處理,然后進行統(tǒng)一性轉化。具體的處理方式包括:對于連續(xù)性數(shù)據(jù)要保持數(shù)據(jù)的原面貌;對于離散型、非數(shù)值型數(shù)據(jù),則通過所建立的全局散列表來分析數(shù)據(jù),從中得出映射值,該映射值同一元素,只能擁有一個映射值;對于元組型數(shù)據(jù)首先要對整體數(shù)值進行映射,才能對元組本身進行數(shù)值映射。

3.3 訓練

在訓練階段,通過融合密度聚類方法以及集成學習數(shù)據(jù)分析的方法來對數(shù)據(jù)進行檢驗。首先利用OPTICS 算法分別對最大值與最小值進行聚類,在最小值當中運用聚類的方法得出先驗知識。它通過參數(shù)的輸入計算得出該數(shù)據(jù)值與可達核心部分的距離,并進行輸入,然后通過不同的公式方法得出可到達的距離值并轉換為排序方式,進而得出數(shù)據(jù)點。這些數(shù)據(jù)點會形成聚類簇,再結合運用局部離群因子的計算方法而求得點距離群程度[5]。

3.4 學習模型

習模型包含了多個個體分類器,以組合成集成學習模型整體感應器。它包括分類器、決策數(shù)以及多層感知器等。在學習模型中所進行各個分類器的測試,最終通過學習模型中的投票方式來獲取到分類結果,這樣能夠大大提升測試的精準性。此外,也可通過迭代修正測試數(shù)據(jù)集權重的方式,來減少誤差。具體如圖2所示。

3.5 異常檢測

對于以往階段所檢測到的正常用戶信息進行特征提取,并將其錄入到正常行為記錄表當中。同樣對于異常行為特征的信息,則需保存到異常行為記錄表當中。這些不同的數(shù)據(jù)信息,分別會將與新用戶進行相應的匹配。未能匹配成功的數(shù)據(jù)或對于新的數(shù)據(jù)則由集成學習模塊進行處理。具體如圖3所示。

4 仿真實驗分析

4.1 測試數(shù)據(jù)集

為了能使實驗所進行的測試數(shù)據(jù)準確,依據(jù)以往學者所提出的數(shù)據(jù)生成原理而擬定生成實驗所需要的測試數(shù)據(jù)集。首先構建生成用于實驗所用的符合高斯分布的數(shù)據(jù)產生模擬器,并將用戶的行為數(shù)據(jù)信息進行檢測。對于用戶中的正常行為或異常行為,則通過不同的記錄方式進行模擬。用戶的正常行為會通過隨機的方式來創(chuàng)建簇中心。而異常的行為則會利用課題中產生的模擬器來創(chuàng)建更加分散的數(shù)據(jù)信息[6]。這些信息會由多個二維數(shù)據(jù)構成數(shù)據(jù)集合點,具體如圖4所示。

4.2 實驗結果

利用設計的模擬器產生的30 000條工業(yè)經(jīng)濟測試數(shù)據(jù)集而形成。在所進行測試的數(shù)據(jù)集中,每一條記錄都含有7個屬性元組。并標有所對應的“正?!被颉爱惓!睒撕灐Mㄟ^分析得知密度聚類對于研究方案中的數(shù)據(jù)有著非常重要的影響,它的分類主要有相應的參數(shù)所推斷的結果而形成對用戶的數(shù)據(jù)信息正常與否的檢測測試。所測試的結果顯示利用密度計類的檢測方法,對于數(shù)據(jù)信息的聚集效果是比較顯著的。具體如圖5所示。

通過圖5與圖4的數(shù)據(jù)分析可以得知融合密度聚類與集成學習工業(yè)經(jīng)濟數(shù)據(jù)庫異常方法檢測所形成的模擬器,對于數(shù)據(jù)分析有著較高的精準度。這種復合型模擬器的檢測方法是利用于個體分類器的聚集所形成它與個體分類器相比在性能上有著較大幅度的提高。有了密度聚類與集成學習的綜合性組合,誤報率明顯有所下降,這也可作為檢測系統(tǒng)的最主要策略。

5 結語

基于密度聚類與集成學習的工業(yè)經(jīng)濟數(shù)據(jù)庫異常檢測方法對于用戶的數(shù)據(jù)預處理以及收集構建用戶行為特征等聚類算法等,都能進行精準性分析。并可以此為特征創(chuàng)建用戶行為特征庫,以用于用戶行為正常與否的檢測,通過數(shù)據(jù)行為的測試可以得出該方案對于檢測用戶的異常行為有著較高的精準度,因此值得推廣。

猜你喜歡
離群分類器聚類
一種基于鄰域粒度熵的離群點檢測算法
離群動態(tài)性數(shù)據(jù)情報偵查方法研究
基于K-means聚類的車-地無線通信場強研究
基于深度優(yōu)先隨機森林分類器的目標檢測
一種相似度剪枝的離群點檢測算法
基于差異性測度的遙感自適應分類器選擇
基于高斯混合聚類的陣列干涉SAR三維成像
候鳥
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
基于改進的遺傳算法的模糊聚類算法