国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊孤立森林算法的多維數(shù)據(jù)異常檢測方法*

2020-06-18 09:08:08汪旭祥
關(guān)鍵詞:森林因素算法

李 倩 韓 斌 汪旭祥

(江蘇科技大學(xué) 鎮(zhèn)江 212000)

1 引言

所謂異常,即為一種具有不同數(shù)據(jù)特征的數(shù)據(jù)模式,該模式有別于正常情況,基于這種異常情況的研究與分析就稱之為異常檢測技術(shù)[1~4]。近年來,國內(nèi)外研究學(xué)者不斷研究探索提出了許多異常檢測的算法,主要包括基于統(tǒng)計(jì)的模型,基于距離的模型,基于線性變換的模型,基于非線性變換的模型等。丁潔等[5]提出了一種基于相關(guān)系數(shù)的異常行為檢測方法,該方法借助于自相關(guān)系數(shù),研究并實(shí)現(xiàn)了基于自相關(guān)模型的異常行為自動(dòng)檢測系統(tǒng),擁有較強(qiáng)的擴(kuò)展性。文獻(xiàn)[6]結(jié)合基于成分分裂的增量學(xué)習(xí)方法,采用局部貝葉斯模型選擇方法進(jìn)行高斯混合模型訓(xùn)練。提出了一種基于高斯混合模型的異常檢測算法(LVBGMMS),該算法針對(duì)EM算法以及貝葉斯模型選擇方法的弊端進(jìn)行改進(jìn)。李海林等[7]提出一種基于頻繁模式發(fā)現(xiàn)的異常檢測方法,利用符號(hào)化的時(shí)間序列找出原有序列中的頻繁模式,最后根據(jù)最長公共子序列匹配方法度量頻繁模式與當(dāng)前新增加時(shí)間序列數(shù)據(jù)之間的相似度,找出新增數(shù)據(jù)的異常模式,解決了傳統(tǒng)異常片段檢測方法在處理增量式時(shí)間序列時(shí)效率低下的問題。然而上述的這些方法大都基于正常模型,是針對(duì)正常數(shù)據(jù)的一種優(yōu)化方法,因此,存在一定的誤報(bào)情況,即將正常數(shù)據(jù)識(shí)別為異常數(shù)據(jù)或不能全部識(shí)別出異常數(shù)據(jù)。

孤立森林算法由文獻(xiàn)[8]首次提出,該算法是由大量的樹組成,這里稱作iTree,最后的結(jié)果則是綜合各個(gè)iTree的結(jié)果。然而iTree樹又有別于決策樹,就是一個(gè)完全隨機(jī)的過程,因此構(gòu)建的過程也較為簡單。與所有現(xiàn)有方法基本不同,孤立森林算法[9]是純粹基于孤立的概念檢測異常,而不依賴于任何距離或密度度量,放棄了對(duì)正常數(shù)據(jù)建模的過程,通過構(gòu)建的iTree樹顯示地找出異常數(shù)據(jù),并通過限制樹的深度來提高算法效率。由于在使用孤立森林算法[10~11]時(shí)大部分的訓(xùn)練樣本是不需要被孤立的,并且能夠在不隔離所有正常點(diǎn)的情況下使用部分模型,因此利用一個(gè)小樣本容量的數(shù)據(jù)集就可以構(gòu)建模型。然而對(duì)于待測的樣本而言,在檢測過程中需要遍歷森林中的每一棵樹,得到一個(gè)平均路徑的長度,再進(jìn)行異常分?jǐn)?shù)值的計(jì)算,但由于每次都是隨機(jī)選取屬性進(jìn)行建樹的,而每個(gè)樣本數(shù)據(jù)對(duì)于隨機(jī)選取的屬性的異常程度又是不同的,所以顯然這種做法存在一些問題。

基于上述問題,本文在孤立森林算法中引入了隸屬度函數(shù)的概念,利用模糊綜合評(píng)價(jià)的方法對(duì)待測數(shù)據(jù)進(jìn)行綜合評(píng)判,提出了一種基于模糊孤立森林算法的多維數(shù)據(jù)異常檢測方法。該方法通過挑選一些有價(jià)值的屬性對(duì)其分別建樹組成孤立森林,再對(duì)每一維屬性的檢測結(jié)果進(jìn)行隸屬度判斷,并與模糊矩陣進(jìn)行模糊運(yùn)算得到最終評(píng)價(jià)結(jié)果,最后通過對(duì)實(shí)際校園一卡通的異常檢測實(shí)驗(yàn),驗(yàn)證了其有效性。

2 模糊孤立森林算法

2.1 孤立森林算法

利用孤立森林算法進(jìn)行異常檢測分為兩個(gè)階段[12]:第一個(gè)訓(xùn)練階段,使用訓(xùn)練集的子樣本構(gòu)建隔離樹;第二個(gè)測試階段,通過隔離樹傳遞測試實(shí)例,以獲得每個(gè)測試樣本的異常值。

1)訓(xùn)練階段

在訓(xùn)練階段,通過遞歸地劃分給定的訓(xùn)練集,直到實(shí)例被孤立或達(dá)到一個(gè)特定的樹高,從而得到部分模型。樹的高度限制I是隨機(jī)的,按次抽樣大小設(shè)置大約是樹的平均高度即I=ceiling(log2),然而我們只研究低于平均值的數(shù)據(jù)點(diǎn),因?yàn)檫@些點(diǎn)更有可能是異常的。

假設(shè)從n個(gè)樣本數(shù)據(jù)的數(shù)據(jù)集,從數(shù)據(jù)集中無放回抽樣得到個(gè)數(shù)據(jù)樣本X={x1,…,xn},并且服從M變量分布,構(gòu)建一棵iTree時(shí),在樣本中選擇一個(gè)特征值,在其最值區(qū)間選擇一個(gè)屬性q和一個(gè)分割p,遞歸地劃分X,直到滿足下列終止條件:

(1)樹的高度達(dá)到限制值(從算法效率角度出發(fā),iTree在算法里限制了高度為log2(n));

(2)|X|=1;

(3)樣本X中所有的數(shù)據(jù)相同;

不斷循環(huán)上述方法,隨機(jī)選擇的不同樣本訓(xùn)練得到多個(gè)iTree樹,訓(xùn)練階段就完成了,即可對(duì)待測數(shù)據(jù)進(jìn)行預(yù)測。

2)預(yù)測階段

將測試數(shù)據(jù)x從根節(jié)點(diǎn)穿過iTree進(jìn)行遍歷,直到達(dá)到葉子節(jié)點(diǎn),其中遍歷過程中的路徑長度記作h(x),即從根節(jié)點(diǎn),經(jīng)過中間節(jié)點(diǎn),到達(dá)葉子節(jié)點(diǎn)的邊數(shù)。由于iTrees與二叉樹或BST有一個(gè)等價(jià)的結(jié)構(gòu),因此外部節(jié)點(diǎn)終止的平均高度h(x)的估計(jì)值與在BST中搜索失敗的值相同,我們可以借鑒BST的分析方法來估計(jì)其平均路徑長度。BST中不成功搜索的路徑長度為

其中H(k)是諧波數(shù)可以被一個(gè)估計(jì)值表示,即H(k)=ln(k)+ξ,ξ為歐拉常數(shù),為0.5772156649。

由于c(n)是給定n的路徑長度的平均值,我們用它來規(guī)范h(x)。則我們定義測試數(shù)據(jù)的異常分?jǐn)?shù)為

2.2 模糊孤立森林算法

模糊綜合評(píng)價(jià)[13~14]是一種基于模糊數(shù)學(xué)的綜合評(píng)價(jià)方法,具體來說,模糊綜合評(píng)判就是利用模糊數(shù)學(xué)以及模糊關(guān)系合成原理,將一些難以量化表達(dá)、難以確定邊界的因素以定量的形式表達(dá)出來,因此可以從多角度對(duì)待評(píng)價(jià)的事物進(jìn)行隸屬等級(jí)情況的綜合評(píng)判。

在本文中用該方法對(duì)孤立森林算法進(jìn)行了優(yōu)化,即對(duì)孤立森林的異常檢測分?jǐn)?shù)值不進(jìn)行異常判斷,而是將孤立森林算法檢測結(jié)果進(jìn)行隸屬度判斷再利用算子與模糊矩陣進(jìn)行模糊計(jì)算得到最終評(píng)價(jià)結(jié)果。模糊綜合評(píng)價(jià)的具體步驟如下:

1)確定評(píng)價(jià)對(duì)象的因素集U,ui為評(píng)價(jià)因素,m為評(píng)價(jià)因素的個(gè)數(shù):

2)確定評(píng)價(jià)因素的評(píng)語集合V,vi為各種可能的評(píng)價(jià)結(jié)果,n為評(píng)價(jià)結(jié)果的總個(gè)數(shù):

3)進(jìn)行單因素評(píng)價(jià)。一般來說,為了研究評(píng)價(jià)對(duì)象與評(píng)語集合V的隸屬關(guān)系,在構(gòu)造了等級(jí)模糊子集后,需要對(duì)因素集里的每一個(gè)因素ui定量化,即從單因素的角度對(duì)各等級(jí)的模糊子集做隸屬度判斷。本文采用的是專家估計(jì)法,由專家根據(jù)評(píng)判等級(jí)對(duì)評(píng)價(jià)對(duì)象進(jìn)行打分,最后統(tǒng)計(jì)打分結(jié)果,并組成模糊關(guān)系矩陣:

其中模糊向量rij(i=1,2,…,m,j=1,2,…n)表示某個(gè)待評(píng)價(jià)對(duì)象的因素集U中評(píng)價(jià)因素ui對(duì)評(píng)語集合V中,各種可能的評(píng)價(jià)結(jié)果vj的隸屬程度。即利用rij來描述一個(gè)評(píng)價(jià)對(duì)象在某個(gè)因素ui的表現(xiàn)。

4)確定評(píng)價(jià)因素的模糊隸屬度[16~17]。由于各因素在綜合評(píng)價(jià)中的重要程度不同,需要對(duì)每一個(gè)因素ui進(jìn)行一個(gè)隸屬度的判斷,并組成一個(gè)集合T記作ti(i=1,2,…,m)且ti≥0,∑ti=1,T就表示所有單因素的隸屬度組成的一個(gè)模糊集合。本文將采用孤立森林算法的異常分?jǐn)?shù)值,經(jīng)歸一化后得到的值S'作為模糊集合的值,即5)多因素模糊評(píng)價(jià)[17~18]。利用M( )·,⊕ 算子將模糊集合T與模糊關(guān)系矩陣R進(jìn)行計(jì)算,得到各待評(píng)價(jià)對(duì)象的模糊綜合評(píng)價(jià)結(jié)果向量B:

6)模糊綜合評(píng)價(jià)結(jié)果分析。將等級(jí)看作一種相對(duì)位置,并用秩表示,通常為“1,2,3,…,m”,使其連續(xù)化。最后利用向量B中對(duì)應(yīng)的分量與對(duì)應(yīng)分量所對(duì)應(yīng)的各等級(jí)的秩進(jìn)行求和,從而得到待評(píng)價(jià)對(duì)象的相對(duì)位置:

其中,k為待定系數(shù)(k=1或2)目的是防止bj較大時(shí)對(duì)結(jié)果產(chǎn)生影響。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文的實(shí)驗(yàn)數(shù)據(jù)采用的是實(shí)際校園一卡通的消費(fèi)數(shù)據(jù),該數(shù)據(jù)記錄了2017年8月至12月校園一卡通的消費(fèi)情況,共計(jì)1136653條。其中,包含了學(xué)生和教職工的學(xué)號(hào)/工號(hào)、一卡通號(hào),以及在校使用一卡通卡消費(fèi)時(shí)的時(shí)間、地點(diǎn)、每一次的消費(fèi)金額、交易計(jì)數(shù)、收支功能、設(shè)備ID、設(shè)備流水以及期初余額和期末余額等信息。由于本次實(shí)驗(yàn)是針對(duì)學(xué)生展開的,所以在異常檢測之前對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理,去掉了一些無關(guān)信息,例如教職工工號(hào)、設(shè)備流水等。同時(shí),又利用統(tǒng)計(jì)學(xué)增加了一些學(xué)生在校的消費(fèi)情況統(tǒng)計(jì),最后提取出一些有價(jià)值的屬性對(duì)其分別建樹,具體的實(shí)驗(yàn)基本步驟如下:

1)第一步:創(chuàng)建iForest;

2)第二步:計(jì)算所有待測樣本的異常分?jǐn)?shù)值;

3)第三步:利用模糊孤立森林算法進(jìn)行模糊綜合評(píng)價(jià);

4)第四步:實(shí)驗(yàn)驗(yàn)證。

孤立森林算法有兩個(gè)輸入?yún)?shù)分別為子采樣大小Ψ和樹的數(shù)目t。其中,子采樣大小Ψ控制訓(xùn)練數(shù)據(jù)的大小,因?yàn)楫?dāng)Ψ無限增加時(shí),會(huì)增加處理時(shí)間并且需要更大的內(nèi)存,并不能獲得較好的檢測性能,因此當(dāng)取樣度較小時(shí),孤立方法效果最好,本文采用Ψ=100作為實(shí)驗(yàn)值。樹t的數(shù)量控制集成的大小,因?yàn)槁窂介L度通常會(huì)在t=100之前收斂,所以本文使用t=100作為實(shí)驗(yàn)值。對(duì)于孤立森林算法中二叉樹劃分的閾值本文則選取的是每組數(shù)據(jù)的均方差。

3.2 數(shù)據(jù)異常影響因素指標(biāo)

對(duì)一卡通數(shù)據(jù)異常進(jìn)行模糊綜合評(píng)判[19],主要考慮兩個(gè)方面:判斷數(shù)據(jù)是否存在異常的評(píng)價(jià)因素,即判斷某一學(xué)生在校期間是否存在異常行為的評(píng)價(jià)因素和產(chǎn)生異常的程度。本文主要以經(jīng)過孤立森林算法處理后的六個(gè)方面的學(xué)生消費(fèi)行為為主要評(píng)價(jià)因素,建立在校學(xué)生產(chǎn)生異常行為的指標(biāo)體系,異常程度也根據(jù)實(shí)際情況分為四大類。評(píng)價(jià)指標(biāo)如圖1。

由此可見,評(píng)價(jià)因素集U為U={單次消費(fèi)金額,日消費(fèi)總額,周消費(fèi)方差,月消費(fèi)方差,日正常教學(xué)活動(dòng)期間消費(fèi)頻次,日早晨八點(diǎn)前消費(fèi)頻次},評(píng)價(jià)因素的評(píng)語集V為V={特別異常,異常,較為異常,正常},分配給各等級(jí)的秩為{4,3,2,1}。通過對(duì)辦公室老師以及任課老師的調(diào)查問卷的統(tǒng)計(jì)和歸一化后,我們得到的模糊矩陣為

圖1 在校學(xué)生產(chǎn)生異常行為指標(biāo)

3.3 實(shí)驗(yàn)驗(yàn)證

通過實(shí)驗(yàn),我們得到了實(shí)際校園一卡通數(shù)據(jù)的模糊綜合評(píng)價(jià)的結(jié)果,并對(duì)結(jié)果進(jìn)行了降序排序,根據(jù)結(jié)果分布情況按照比例分配,將前10%判斷為特別異常,35%為異常,45%為較為異常,10%為正常,如圖2所示。為了驗(yàn)證本文所提出的模糊孤立森林異常檢測算法的準(zhǔn)確性,隨機(jī)抽取了一百位學(xué)生進(jìn)行回訪調(diào)查,根據(jù)了解有的學(xué)生因?yàn)樯眢w的原因需要在校看病買藥所以導(dǎo)致了單次消費(fèi)過高,有的學(xué)生確實(shí)存在逃課的行為,有的學(xué)生不愛吃早飯因此每天早晨八點(diǎn)前消費(fèi)次數(shù)較少,有的學(xué)生已經(jīng)申請(qǐng)了走讀所以在校的消費(fèi)行為較少。由此根據(jù)調(diào)查結(jié)果的統(tǒng)計(jì)情況,計(jì)算出本文所提的算法準(zhǔn)確率為90%,達(dá)到了不錯(cuò)的檢測效果。

圖2 模糊孤立森林算法異常檢測結(jié)果圖

4 結(jié)語

針對(duì)原有的孤立森林算法采用的是隨機(jī)選取屬性的方法進(jìn)行建樹,最后綜合各個(gè)樹的結(jié)果進(jìn)行異常判斷,而忽略了每一條數(shù)據(jù)對(duì)于所選取的屬性異常程度是不同的這一問題。本文提出了一種基于模糊孤立森林的異常檢測方法,在原有的基礎(chǔ)上引入了模糊的概念。利用隸屬度函數(shù),從多維度出發(fā),將數(shù)據(jù)相對(duì)于屬性的隸屬度考慮進(jìn)去,對(duì)孤立森林的結(jié)果進(jìn)行了隸屬度的判斷,最后與由評(píng)價(jià)對(duì)象和評(píng)語集的隸屬度關(guān)系組成的模糊矩陣進(jìn)行模糊計(jì)算,得到一個(gè)綜合評(píng)價(jià)的結(jié)果。該方法從多角度對(duì)待測樣本進(jìn)行了一個(gè)模糊綜合評(píng)判,使得檢測的標(biāo)準(zhǔn)更加的全面、更加的合理化,檢測的結(jié)果更加準(zhǔn)確,因此達(dá)到了較好的實(shí)驗(yàn)效果。

猜你喜歡
森林因素算法
解石三大因素
中國寶玉石(2019年5期)2019-11-16 09:10:20
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
哈Q森林
哈Q森林
哈Q森林
一種改進(jìn)的整周模糊度去相關(guān)算法
短道速滑運(yùn)動(dòng)員非智力因素的培養(yǎng)
哈Q森林
长沙县| 乌兰察布市| 申扎县| 库尔勒市| 兴义市| 安顺市| 沂源县| 临汾市| 民丰县| 那坡县| 司法| 从江县| 玛沁县| 松原市| 厦门市| 新龙县| 东乡| 三门峡市| 于田县| 大邑县| 桐梓县| 陆河县| 沙洋县| 赣州市| 沈阳市| 静宁县| 保山市| 太仓市| 娱乐| 巨野县| 班玛县| 克山县| 喀什市| 桦川县| 绥宁县| 繁昌县| 昭通市| 应用必备| 双城市| 拜泉县| 宜兴市|