国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合采樣策略的改進(jìn)隨機(jī)森林不平衡數(shù)據(jù)分類算法

2019-08-17 07:59鄭建華劉雙印賀超波符志強(qiáng)
關(guān)鍵詞:決策樹分類器森林

鄭建華,劉雙印,賀超波,符志強(qiáng)

(1.仲愷農(nóng)業(yè)工程學(xué)院 信息科學(xué)與技術(shù)學(xué)院, 廣州 510225;2.廣東省高校智慧農(nóng)業(yè)工程技術(shù)研究中心, 廣州 510225)

1 研究背景

分類是機(jī)器學(xué)習(xí)中的一種重要手段,常見的分類算法有樸素貝葉斯算法、決策樹、KNN、支持向量機(jī)等?,F(xiàn)有的分類算法通常假定數(shù)據(jù)集中各類別的樣本數(shù)基本相等,即數(shù)據(jù)集是平衡的,但現(xiàn)實(shí)中如網(wǎng)絡(luò)入侵檢測(cè)[1]、金融欺詐[2]、醫(yī)療診斷[3]中異常類數(shù)量非常少,正常類數(shù)量非常多,即數(shù)據(jù)集是不平衡的。傳統(tǒng)分類算法以降低總體分類誤差為目標(biāo)。為了提高分類的整體精度,分類器會(huì)減少對(duì)少數(shù)類的關(guān)注,偏向多數(shù)類,使少數(shù)類的分類性能下降[4]。假設(shè)數(shù)據(jù)集不平衡比例為99∶1(即多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量之比),則即使分類器將所有的樣本都看作是多數(shù)類,整體分類精度依然可以達(dá)到99%,但是這樣顯然不是一個(gè)好的分類效果,因此傳統(tǒng)的分類算法難以滿足不平衡數(shù)據(jù)的分類要求[5]。

近年來,大量學(xué)者對(duì)于不平衡數(shù)據(jù)分類問題提出許多解決方案,主要集中在以下類型[6]:改變數(shù)據(jù)分布和算法層面改進(jìn)。

在改變數(shù)據(jù)分布方面,各種過采樣算法和欠采樣算法一直是研究熱點(diǎn)和重點(diǎn),典型的有SMOTE、Safe-level SMOTE、ADASYN[7]、Borderline-SMOTE、SOMO[8]、MAHAKIL[9]等過采樣算法,以及NearMiss、Tomek Links、隨機(jī)欠采樣技術(shù)(RUS)等欠采樣算法。對(duì)于過采樣,需要生成新樣本,如果數(shù)據(jù)集不平衡比例過大,則需要生成較多新樣本從而容易導(dǎo)致分類器過擬合。對(duì)于欠采樣,由于需要舍棄大量多數(shù)類樣本,因此分類器并沒有能學(xué)習(xí)到所有的樣本特征,容易導(dǎo)致在測(cè)試集上分類效果不好[6]。特別是當(dāng)不平衡比例較大時(shí),不管何種采樣技術(shù),其弊端更加明顯。

算法層面上的改進(jìn)主要有代價(jià)敏感方法[10],其核心思想是對(duì)不同類的分類錯(cuò)誤賦予不同的代價(jià),對(duì)原本是少數(shù)類而被誤分為多數(shù)類的樣本賦予更高的誤分代價(jià),但是精準(zhǔn)確定錯(cuò)誤分類的代價(jià)因子是一個(gè)難點(diǎn)[11]。

算法層面上的改進(jìn)的另一種方式是集成學(xué)習(xí)。集成學(xué)習(xí)是使用某種規(guī)則把多個(gè)學(xué)習(xí)器進(jìn)行組合,獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法,常用的集成方法主要有Bagging和Boosting。將集成學(xué)習(xí)應(yīng)用于不平衡數(shù)據(jù)處理時(shí),主要有代價(jià)敏感的集成分類算法和數(shù)據(jù)處理的集成分類算法[12]兩大類。由于代價(jià)函數(shù)不容易定義,只能主觀給出,因此基于數(shù)據(jù)處理的集成分類算法是廣大學(xué)者的研究重點(diǎn),其可分為以下幾種類型:① 過采樣與Boosting結(jié)合。如Chawla等[13]將SMOTE與AdaBoostM2結(jié)合構(gòu)建了SMOTEBoost算法,這種結(jié)合方式是在每一輪迭代中采用過采樣算法生成部分少數(shù)類樣本,但問題在于每輪的訓(xùn)練樣本集并非平衡。② 欠采樣與Boosting結(jié)合。如Seiffert等[14]提出的RUSBoost 算法是在AdaBoost算法的迭代過程中采用RUS算法從多數(shù)類中隨機(jī)選擇樣本,為每次迭代構(gòu)建一個(gè)平衡的數(shù)據(jù)集,這種模式可取得較好的效果。③ 過采樣與Bagging結(jié)合。這種模式主要是對(duì)少數(shù)類樣本過采樣從而實(shí)現(xiàn)整體數(shù)據(jù)平衡,如Wang S等[15]提出的基于隨機(jī)過采樣的OverBagging算法和基于SMOTE過采樣的SMOTEBagging算法。④ 欠采樣和Bagging結(jié)合。這種模式主要是對(duì)多數(shù)類樣本欠采樣實(shí)現(xiàn)數(shù)據(jù)集平衡,但是如前所述,欠采樣策略可能忽略有用的多數(shù)類樣本,造成分類結(jié)果的不精確。⑤ 混合采樣與Bagging結(jié)合。為了避免單一采樣方式的不足,張明等[16]針對(duì)少數(shù)類樣本采用SMOTE過采樣,為多數(shù)類樣本設(shè)計(jì)了一種欠采樣方法,從而構(gòu)建平衡訓(xùn)練數(shù)據(jù)集,然后再采用Bagging集成學(xué)習(xí)方式。

除上述方式外,EasyEnsemble[17]是一種同時(shí)融合Bagging和Boosting的混合集成分類算法,其基本思想是隨機(jī)采樣生成多數(shù)類樣本的若干個(gè)與少數(shù)類樣本數(shù)相等的子集,每個(gè)多數(shù)類樣本子集和少數(shù)類樣本構(gòu)成若干個(gè)“平衡數(shù)據(jù)包”,然后采用AdaBoost算法訓(xùn)練生成若干個(gè)基分類器,最后進(jìn)行集成。

集成學(xué)習(xí)是一種有效的學(xué)習(xí)方法,但是現(xiàn)有基于數(shù)據(jù)處理的集成策略除欠采樣與Boosting結(jié)合外,其他4種均存在一定不足,如采用Bagging集成方式時(shí),是對(duì)原始整體數(shù)據(jù)集做過采樣、欠采樣或者混合采樣,從而形成平衡數(shù)據(jù)集,這樣處理并沒有解決過采樣或者欠采樣帶來的不足,特別是對(duì)于不平衡比例較大的數(shù)據(jù)集效果不佳。而對(duì)于過采樣與Boosting結(jié)合方式,實(shí)際上每一輪迭代過程中數(shù)據(jù)并不是平衡的,并且整個(gè)迭代過程需要生成大量少數(shù)類樣本。

針對(duì)現(xiàn)有不平衡數(shù)據(jù)分類算法的不足,本文提出一種基于混合采樣策略的改進(jìn)隨機(jī)森林不平衡數(shù)據(jù)分類算法。該方法以隨機(jī)森林作為基礎(chǔ)分類算法,對(duì)隨機(jī)森林中的每棵子樹采用小量過采樣和欠采樣的混合采樣策略生成平衡的訓(xùn)練子集,通過提升每棵子樹訓(xùn)練子集的差異性來提高隨機(jī)森林中基分類器的多樣性,最終達(dá)到提升集成分類器分類效果的目的。最后在多種公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比本文方法與其他不平衡分類算法的分類性能。

2 隨機(jī)森林理論

隨機(jī)森林是Leo Breiman[18]提出的以決策樹為基分類器的一個(gè)集成學(xué)習(xí)分類模型,它通過自助法(bootstrap)重采樣技術(shù)從原始數(shù)據(jù)集中有放回地重復(fù)隨機(jī)抽取有差異的n個(gè)樣本生成新的訓(xùn)練樣本集合訓(xùn)練決策樹,重復(fù)以上步驟,并將生成的多棵決策樹集成。隨機(jī)森林實(shí)際上是采用Bagging集成策略對(duì)多棵決策樹的集成,而測(cè)試數(shù)據(jù)的分類結(jié)果按各決策樹結(jié)果投票多少形成的分?jǐn)?shù)而定,采用隨機(jī)森林的方式主要是通過降低估計(jì)的偏差和方差來提高預(yù)測(cè)的精準(zhǔn)性。目前隨機(jī)森林算法被廣泛用于各種應(yīng)用領(lǐng)域[19-20]。算法過程為:

1) 通過自助法重采樣技術(shù)從訓(xùn)練集中有放回地隨機(jī)采樣選擇n個(gè)樣本;

2) 從特征集中選擇d個(gè)特征,利用這d個(gè)特征和1)中所選擇的n個(gè)樣本建立決策樹;

3) 不斷重復(fù)步驟1)和2),直至生成所需的Ntree棵決策樹,形成隨機(jī)森林;

4) 對(duì)于測(cè)試數(shù)據(jù),經(jīng)過每棵樹決策判斷,最后投票確認(rèn)分到哪一類。

隨機(jī)森林算法具有以下優(yōu)點(diǎn):

1) 各子樹的訓(xùn)練相對(duì)獨(dú)立,效率較高;

2) 各子樹都選擇部分樣本及部分特征,一定程度上避免了過擬合,受噪聲影響較小;

3) 由于各子樹都是部分選擇特征,因此適用于高維特征情況。

考慮到隨機(jī)森林算法在處理非平衡數(shù)據(jù)集上表現(xiàn)不佳[21],馬海榮等[22]采用隨機(jī)森林模型進(jìn)行預(yù)訓(xùn)練,然后根據(jù)投票熵與基于樣本特征參數(shù)的廣義歐幾里得距離逐步構(gòu)建訓(xùn)練集,以此方式處理不平衡數(shù)據(jù)集。但是該方法需要通過多次迭代不斷添加訓(xùn)練樣本,效率較低。

3 基于混合采樣隨機(jī)森林不平衡數(shù)據(jù)分類算法

3.1 隨機(jī)森林子樹的混合采樣策略機(jī)理

提高基分類器的多樣性是Bagging集成學(xué)習(xí)算法獲得較好性能的關(guān)鍵因素[23]。經(jīng)典的隨機(jī)森林模型中,每棵樹應(yīng)用重采樣技術(shù)和隨機(jī)選擇不同特征[18]以保證基分類器的多樣性。但是面對(duì)不平衡數(shù)據(jù)集時(shí),因?yàn)槊恳蛔訕錁颖痉植寂c原始數(shù)據(jù)集的樣本分布仍然一致,故經(jīng)典的隨機(jī)森林模型仍然難以勝任。當(dāng)前研究者主要還是對(duì)原始整體訓(xùn)練集進(jìn)行過采樣或者欠采樣以構(gòu)造平衡訓(xùn)練集,比如文獻(xiàn)[24-25]通過SMOTE對(duì)原始整體數(shù)據(jù)進(jìn)行過采樣,構(gòu)建一個(gè)平衡的訓(xùn)練集,然后將該訓(xùn)練集再應(yīng)用到隨機(jī)森林模型中。但是這種處理模式仍未擺脫過采樣或者欠采樣帶來的不足,特別是當(dāng)不平衡比例較大時(shí),如果采用過采樣則過擬合較嚴(yán)重,如果采用欠采樣則丟失的信息較多,分類準(zhǔn)確性都會(huì)下降。

對(duì)于隨機(jī)森林算法,基分類器的多樣性將決定最終分類效果,也是隨機(jī)森林泛化性能比較好的主要原因,為此本文不針對(duì)整體訓(xùn)練數(shù)據(jù)集進(jìn)行平衡處理,而是對(duì)隨機(jī)森林中的每一棵子樹采用混合采樣策略來構(gòu)建不同的平衡訓(xùn)練子集,以此提高基分類器的多樣性,從而提升分類器效果。為了保證每棵樹訓(xùn)練子集的差異性,本文做兩點(diǎn)處理:① 引入過采樣因子,該因子采用隨機(jī)方式生成,保證每棵子樹的訓(xùn)練子集大小不完全一致,但須注意該因子不能太大,以避免生成太多的新樣本;② 引入隨機(jī)欠采樣,使得每棵子樹的多數(shù)類樣本不一致。通過這兩種措施可以保證每棵子樹的訓(xùn)練子集的差異性。而過采樣和欠采樣除了被本文作為數(shù)據(jù)平衡處理的手段外,同時(shí)成為保證不同子樹訓(xùn)練子集差異的重要手段。

3.2 基于混合采樣策略的改進(jìn)隨機(jī)森林分類算法設(shè)計(jì)

基于以上混合采樣策略,本文設(shè)計(jì)了改進(jìn)隨機(jī)森林分類算法,算法流程如圖1所示。算法分為訓(xùn)練階段和測(cè)試階段。在訓(xùn)練階段,將原來的自助法(bootstrap)重采樣技術(shù)替換為本文提出的混合采樣策略,混合采樣策略為每棵子樹生成平衡訓(xùn)練子集,然后再用該子集生成不剪枝的多棵決策樹。在測(cè)試階段,直接用訓(xùn)練階段得到的各決策樹判斷測(cè)試數(shù)據(jù)的結(jié)果,最終采用投票方式確定最終分類結(jié)果。

本算法除了具有經(jīng)典隨機(jī)森林算法的優(yōu)點(diǎn)外,還具有以下特點(diǎn):

1) 采用較小的過采樣因子能避免生成大量少數(shù)類樣本,使算法能適用于不平衡比例較高的場(chǎng)合。

2) 隨機(jī)過程采樣因子和隨機(jī)欠采樣方法的引入使得不同子樹訓(xùn)練數(shù)據(jù)集不一致,進(jìn)一步提升了基分類器的多樣性。

訓(xùn)練和測(cè)試過程算法偽代碼如下:

輸入:1、 訓(xùn)練集

S={(x1,y1),(x2,y2),…,(xm,ym)}

2、待測(cè)試樣本

3、隨機(jī)森林子樹個(gè)數(shù)Ntree

輸出:1、集成分類器H(x),測(cè)試數(shù)據(jù)結(jié)果

算法過程:

統(tǒng)計(jì)數(shù)據(jù)集特征:

n表示少數(shù)類樣本數(shù)量,p表示多數(shù)類樣本數(shù)量,整個(gè)訓(xùn)練集數(shù)量m=n+p。

Fori= 1,2,3,…,Ntree

1) 生成平衡的訓(xùn)練子集

① 隨機(jī)生成過采樣因子α

② 采用過采樣算法生成nα個(gè)少數(shù)類樣本,合并原有的n個(gè)少數(shù)類樣本,構(gòu)成新的少數(shù)類樣本集合;

③ 采用隨機(jī)欠采樣算法,從p個(gè)多數(shù)類樣本里隨機(jī)采樣n(1+α)個(gè)樣本,構(gòu)成新的多數(shù)類樣本集合;

④ 將步驟②和步驟③得到的樣本進(jìn)行融合、混洗后得到新的平衡訓(xùn)練子集Si。

2) 使用Si生成一棵不剪枝的樹Hi

② 在每個(gè)節(jié)點(diǎn)從d個(gè)特征中選擇基于式(2)得到的最小基尼指數(shù)的特征作為分裂特征

(1)

其中D表示當(dāng)前數(shù)據(jù)集。

(2)

D1和D2分別表示特征f將D劃分的左右2個(gè)子集。

③ 分裂直到樹生長(zhǎng)到最大

輸出: 子樹的集合{Hi,i=1,2,….Ntree}

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

本文選擇CART決策樹(CTree)、ADASYN+決策樹(ADASYNTree)、SMOTEENN+決策樹(SmoteENNTree)、EasyEnsemble、ADASYNBoost、RUSBoost、隨機(jī)森林(RF)、ADASYN +隨機(jī)森林方法(ADASYNRF)、SMOTE+RUS+隨機(jī)森林(SRRF)9種不同的不平衡數(shù)據(jù)處理模式分類算法作為本文對(duì)照算法。

其中:① CART決策樹代表了不做任何數(shù)據(jù)處理的分類器算法;② ADASYN+決策樹(ADASYNTree)代表了對(duì)于原始數(shù)據(jù)集采用某種過采樣算法得到平衡數(shù)據(jù)集,然后再將平衡數(shù)據(jù)集應(yīng)用到?jīng)Q策樹算法,這種模式被廣泛應(yīng)用,主要差別是所應(yīng)用的過采樣算法不一致,本文主要選擇ADASYN作為過采樣算法;③SMOTEENN+決策樹(SmoteENNTree)主要是首先采用SMOTE進(jìn)行過采樣,然后再應(yīng)用EditedNearestNeighbours算法進(jìn)行欠采樣,達(dá)到去除噪聲目的,這代表了對(duì)數(shù)據(jù)集進(jìn)行混合采樣處理,然后再進(jìn)行分類處理模式;④ EasyEnsemble代表了混合集成策略;⑤ ADASYNBoost代表了在Boosting集成迭代的過程中采用ADASYN過采樣算法進(jìn)行平衡處理模式;⑥ RUSBoost表示在Boosting集成迭代的過程中采用RUS隨機(jī)欠采樣算法進(jìn)行平衡處理模式;⑦ Random Forest是不做任何處理的隨機(jī)森林算法;⑧ ADASYN+隨機(jī)森林方法(ADASYNRF)代表對(duì)原始整體數(shù)據(jù)集進(jìn)行平衡處理,再采用隨機(jī)森林算法進(jìn)行分類處理模式;⑨ SMOTE+RUS+隨機(jī)森林(SRRF)代表對(duì)原始整體數(shù)據(jù)集進(jìn)行過采樣和欠采樣混合采樣平衡處理,再應(yīng)用到隨機(jī)森林分類處理模式;⑩ 在本文所提出的混合采樣策略中,過采樣采用ADASYN算法,欠采樣采用RUS算法,算法簡(jiǎn)寫為ARIRF(ADASYN RUS Improved Random Forest)。另外,在過采樣時(shí),用過采樣因子α來控制少數(shù)類樣本生成數(shù)量。為研究過采樣因子對(duì)分類結(jié)果的影響,本文設(shè)定α為固定值和在某個(gè)區(qū)間取隨機(jī)值兩種模式。

4.2 評(píng)價(jià)指標(biāo)

對(duì)于二分類,一般使用總的準(zhǔn)確率作為評(píng)價(jià)指標(biāo),但對(duì)于不平衡數(shù)據(jù)集的分類性能評(píng)價(jià),總的精確率并不合適。在實(shí)際應(yīng)用中,對(duì)于不平衡數(shù)據(jù)往往更關(guān)注少數(shù)類分類的準(zhǔn)確率和召回率,故本文選擇G-mean和AUC作為衡量算法性能的評(píng)價(jià)指標(biāo)。

本文假設(shè)少數(shù)類是負(fù)類,并傾向于關(guān)注負(fù)類的性能指標(biāo),負(fù)類的準(zhǔn)確率和召回率分別表示為(各值含義參考表1混淆矩陣所列):

(3)

(4)

Kubat[26]提出的G-mean是一種魯棒性較好的不平衡數(shù)據(jù)分類方法的評(píng)價(jià)指標(biāo),其定義如下:

(5)

G-mean綜合表示了正類、負(fù)類召回率情況,只有二者召回率值都高時(shí),G-mean值才會(huì)高,表明分類器性能較好。

AUC:ROC受試者工作特征曲線描述了分類器在不同判別閾值時(shí)的分類性能,在實(shí)際應(yīng)用中常用ROC曲線與坐標(biāo)軸圍成的區(qū)域面積AUC值表示分類器性能優(yōu)劣,AUC值越大,則分類器的預(yù)測(cè)性能越好。

4.3 實(shí)驗(yàn)數(shù)據(jù)集

為了評(píng)估本論文所設(shè)計(jì)算法,選擇UCI和LIBSVM中具有不同實(shí)際應(yīng)用背景的13組公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),具體信息如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)集

4.4 實(shí)驗(yàn)過程與結(jié)果

為增加實(shí)驗(yàn)結(jié)果的客觀性,所有實(shí)驗(yàn)采用十折交叉驗(yàn)證得到結(jié)果,最后用10次測(cè)試結(jié)果的平均值作為1次十折交叉驗(yàn)證的結(jié)果。

4.4.1過采樣因子取固定值分類性能影響

本文主要通過過采樣因子和隨機(jī)欠采樣來保證隨機(jī)森林子樹訓(xùn)練子集的差異性。為了觀察不同大小過采樣因子對(duì)分類性能的影響,實(shí)驗(yàn)將所有子樹的過采樣因子都取為固定相同值,然后逐步改變過采樣因子大小,分別取值為0.2、0.5、1、1.5、2、2.5、 3、3.5、4,測(cè)試不同數(shù)據(jù)集在不同過采樣因子下的G-mean值,測(cè)試結(jié)果如圖2所示。圖2顯示:對(duì)于當(dāng)過采樣因子為0.2且G-mean值為0.75左右的數(shù)據(jù)集,G-mean值隨著過采樣因子增加而減小,這說明生成樣本太多造成了數(shù)據(jù)集的過擬合;對(duì)于當(dāng)過采樣因子為0.2且G-mean大于0.8的數(shù)據(jù)集,G-mean隨著過采樣因子增加雖然具有遞減趨勢(shì),但是變動(dòng)比較小,同時(shí)也出現(xiàn)了libras_move數(shù)據(jù)集在過采樣因子取值為3.5時(shí) G-mean值變大的情況。

圖2 過采樣因子取固定值分類性能

以上結(jié)果表明:不同數(shù)據(jù)集對(duì)過采樣因子的敏感性不一樣,多數(shù)數(shù)據(jù)集對(duì)應(yīng)的G-mean值隨過采樣因子增大而減小,但是也有少數(shù)數(shù)據(jù)集對(duì)應(yīng)的G-mean值隨過采樣因子增大出現(xiàn)增大或者減小的不規(guī)則變化趨勢(shì)。圖2中“l(fā)etter_img”數(shù)據(jù)集對(duì)應(yīng)的G-mean值比較大,隨過采樣因子增大而變化不大。圖2中“scene”數(shù)據(jù)集對(duì)應(yīng)的G-mean值較小,對(duì)過采樣因子敏感,隨過采樣因子增大而明顯變小。圖2中“l(fā)ibras_move”數(shù)據(jù)集對(duì)應(yīng)的G-mean值對(duì)過采樣因子的變化則呈現(xiàn)不規(guī)則變化趨勢(shì)。造成這種現(xiàn)象的原因是這3個(gè)數(shù)據(jù)集的數(shù)據(jù)分布不一致,代表了3種典型的數(shù)據(jù)分布情況,3個(gè)數(shù)據(jù)集的二維分布如圖3所示。從圖3(a)表示的letter_img數(shù)據(jù)二維分布情況可以發(fā)現(xiàn):正類和負(fù)類邊界非常明顯,這種數(shù)據(jù)集的可分類性好,G-mean值高,達(dá)到0.98(見表3),當(dāng)過采樣時(shí)新生成的負(fù)樣本也都是標(biāo)準(zhǔn)負(fù)樣本,因此過采樣因子增加時(shí)G-mean值變化不大。圖3(b)表示的scene數(shù)據(jù)集數(shù)據(jù)二維分布是一種典型的正類和負(fù)類數(shù)據(jù)重疊情況[12],在這種分布情況下數(shù)據(jù)集的G-mean值比較低,當(dāng)過采樣時(shí)新生成的負(fù)樣本難以保證屬于標(biāo)準(zhǔn)負(fù)樣本,因此過采樣因子越大則出錯(cuò)概率越大,故G-mean值隨過采樣因子增大而減小。圖3(c)表示的libras_move數(shù)據(jù)集的數(shù)據(jù)二維分布中負(fù)類樣本呈現(xiàn)多個(gè)小的分離項(xiàng)[12]。這種分布數(shù)據(jù)集情況較為復(fù)雜,圖3(c)的1、2號(hào)圈中的負(fù)樣本與正樣本重疊較少,而3、4號(hào)圈中負(fù)樣本與正樣本重疊較多,因此當(dāng)過采樣時(shí),如果依據(jù)1號(hào)圈的負(fù)樣本來生成新負(fù)樣本,則新生成的負(fù)樣本基本為標(biāo)準(zhǔn)負(fù)樣本,有助于減小整體數(shù)據(jù)集的不平衡性,此時(shí)G-mean值會(huì)增加,但是如果依據(jù)4號(hào)圈的負(fù)樣本來生成新負(fù)樣本,則新生成的負(fù)樣本可能出錯(cuò)概率較大,此時(shí)G-mean值會(huì)減少。故當(dāng)過采樣因子增加時(shí),需要采樣的樣本較多,G-mean值的變化則呈現(xiàn)不規(guī)則變化趨勢(shì)。假如過采樣時(shí)都選擇1號(hào)圈,則G-mean值增加明顯。因此,對(duì)于這種不規(guī)則變化的數(shù)據(jù)集可以通過參數(shù)調(diào)整來選擇最優(yōu)的過采樣因子。

4.4.2過采樣因子取隨機(jī)值分類性能影響(大范圍)

本小節(jié)實(shí)驗(yàn)主要測(cè)試不同子樹取不同過采樣因子的情況,取值方式是在一定范圍內(nèi)取隨機(jī)值。實(shí)驗(yàn)測(cè)試了取值范圍從0.5~0.8到0.5~2.9的變化情況,實(shí)驗(yàn)測(cè)試結(jié)果如圖4所示。圖4(b)放大顯示了G-mean值大于0.85時(shí)的數(shù)據(jù)集測(cè)試結(jié)果。從圖4(a)可以發(fā)現(xiàn):過采樣因子取值范圍越大,過采樣因子的值就可能越大,G-mean值整體有遞減趨勢(shì),特別對(duì)于G-mean值小于0.8的情況。這是因?yàn)镚-mean值比較小,說明該數(shù)據(jù)集的少數(shù)類噪聲比較多,比較難以區(qū)分,如果過采樣因子變大,則生成的樣本屬于噪聲的可能性更大,導(dǎo)致分類出錯(cuò)。而當(dāng)G-mean值比較大,則說明該數(shù)據(jù)集可分性比較好,生成的少數(shù)類樣本同樣具有較好的可分性,因此過采樣因子對(duì)G-mean值影響不大。圖4(b)進(jìn)一步顯示:對(duì)于libras_move數(shù)據(jù)集,當(dāng)過采樣因子變化時(shí),G-mean值呈現(xiàn)不規(guī)則變化,對(duì)于此類的數(shù)據(jù)集則需要進(jìn)行參數(shù)調(diào)優(yōu)。

圖3 3個(gè)數(shù)據(jù)集的二維分布圖

圖4 過采樣因子取一定范圍內(nèi)隨機(jī)值時(shí)的分類性能(大范圍)(部分)

4.4.3過采樣因子取隨機(jī)值分類性能影響(小范圍)

本小節(jié)實(shí)驗(yàn)測(cè)試了當(dāng)過采樣因子取隨機(jī)值,但取值范圍在小范圍內(nèi)變化時(shí)的情況,其中取值范圍分別是0.2~0.5,0.5~0.8,0.8~1.1,1.1~1.4。實(shí)驗(yàn)測(cè)試結(jié)果如圖5所示。

圖5 過采樣因子取一定范圍內(nèi)隨機(jī)值時(shí)的分類性能(小范圍)

結(jié)果表明:scene對(duì)過采樣因子最為敏感,除了scene、solar_flare、mammography三個(gè)數(shù)據(jù)集外,其他數(shù)據(jù)集特別是對(duì)于G-mean值在0.9以上的數(shù)據(jù)集,在不同的過采樣因子范圍變化時(shí)G-mean值變化比較小。對(duì)比圖4和圖5,可以發(fā)現(xiàn)過采樣因子在小范圍內(nèi)變化,且取值較小時(shí)有利于保證結(jié)果的穩(wěn)定性。

4.4.4不同算法實(shí)驗(yàn)結(jié)果比較

通過以上實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):過采樣生成樣本容易導(dǎo)致分類算法過擬合,特別是當(dāng)數(shù)據(jù)集可分性較差時(shí),過擬合現(xiàn)象越來越嚴(yán)重。選擇較小的過采樣因子或者采用較小的過采樣因子范圍有助于得到較為穩(wěn)定的分類算法。同時(shí),考慮到不同數(shù)據(jù)分布的數(shù)據(jù)集對(duì)過采樣因子的敏感性不一致,因此本文采用過采樣因子為0.2,以及0.2~0.5、0.5~0.8的分類算法與其他分類算法進(jìn)行比較。表3展示了13個(gè)數(shù)據(jù)集下9種對(duì)比算法和本文算法在不同參數(shù)下的G-mean值結(jié)果。結(jié)果表明:當(dāng)過采樣因子參數(shù)最佳時(shí)(ARIRF_max),本文算法在13個(gè)數(shù)據(jù)集中的9個(gè)數(shù)據(jù)集取得最優(yōu)結(jié)果,在3個(gè)數(shù)據(jù)集上取得第2名的結(jié)果。表4展示了AUC的評(píng)測(cè)結(jié)果,結(jié)果表明:當(dāng)過采樣因子參數(shù)最佳時(shí),本文提出的算法在13個(gè)數(shù)據(jù)集中有10個(gè)取得最優(yōu)結(jié)果,在2個(gè)數(shù)據(jù)集上取得第2名的結(jié)果。以上結(jié)果說明,本文提出的算法相比傳統(tǒng)的分類算法可獲得更好的分類性能。

由于與其他研究者所采用的數(shù)據(jù)集不完全一致,因此難以直接與一些最新的研究成果對(duì)比。王莉等[27]提出的NIBoost算法結(jié)合代價(jià)敏感和過采樣技術(shù),使得最終訓(xùn)練出來的強(qiáng)分類器對(duì)不平衡數(shù)據(jù)集有較好分類性能,在與本文一致的ecoli數(shù)據(jù)集上,NIBoost算法得到的AUC值為0.888 8,但是本文提出的算法可以達(dá)到0.912,較NIBoost算法提升達(dá)2.61%。

表3 G-mean實(shí)驗(yàn)結(jié)果

表4 AUC實(shí)驗(yàn)結(jié)果

表3、4同時(shí)表明:CTree 在letter_imgs和optical_digits數(shù)據(jù)集上取得了較好的結(jié)果,但是該算法在scene、oil、abalone_19又取得了最差的結(jié)果,這說明了該算法非常不穩(wěn)定。而另外兩個(gè)對(duì)比算法RUSBoost和EasyEnsemble表現(xiàn)出較為穩(wěn)定的結(jié)果,特別在oil數(shù)據(jù)集上分別取得最優(yōu)結(jié)果和次優(yōu)的結(jié)果。Galar[11]指出RUSBoost在其測(cè)試的眾多集成算法里雖然最簡(jiǎn)單,但取得的效果最好。而本文提出的算法則相對(duì)于RUSBoost有全面的提升,比如在libras_move數(shù)據(jù)集上,RUSBoost的AUC值為0.87,而本文提出的算法AUC值為0.929,提升達(dá)6.78%。在abalone_19數(shù)據(jù)集上,本文提出的算法在AUC性能上也提升達(dá)6.42%,僅在oil和ozone_level數(shù)據(jù)集上劣于RUSBoost算法。

5 結(jié)論

為提高不平衡數(shù)據(jù)的分類算法性能,本文從數(shù)據(jù)分布入手,基于隨機(jī)森林算法,提出了過采樣與欠采樣的混合采樣策略。在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得以下結(jié)論:

1)本文提出的算法采用較小的過采樣因子同樣可以取得較好的分類效果,有利于將該算法應(yīng)用于不平衡比例較大的數(shù)據(jù)集。

2)與9種對(duì)照算法相比,本文提出的算法在對(duì)比AUC值時(shí)獲得10個(gè)最優(yōu)結(jié)果,在對(duì)比Gmean值時(shí)獲得9個(gè)最優(yōu)結(jié)果。

本文算法優(yōu)于RUSBoost說明了過采樣的必要性,但是如何在不引入噪聲的情況下生成真正的少數(shù)類樣本仍是一個(gè)難點(diǎn)問題。目前生成的對(duì)抗網(wǎng)絡(luò)在圖像生成領(lǐng)域取得巨大成功,因此在后期可以嘗試將生成對(duì)抗網(wǎng)絡(luò)引入到不平衡數(shù)據(jù)集的少數(shù)類樣本生成中,提高生成樣本質(zhì)量。其次,在大數(shù)據(jù)時(shí)代,對(duì)于高維大規(guī)模不平衡數(shù)據(jù)集如何提高其分類性能目前研究不多,這也將是后期的一個(gè)主要研究方向。

猜你喜歡
決策樹分類器森林
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
基于實(shí)例的強(qiáng)分類器快速集成方法
哈Q森林
哈Q森林
哈Q森林
基于決策樹的出租車乘客出行目的識(shí)別
哈Q森林
基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動(dòng)標(biāo)注
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用