董宏成,文志云,3,萬(wàn)玉輝 ,晏飛揚(yáng)
(1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué)通信新技術(shù)應(yīng)用研究中心,重慶 400065;3.重慶信科設(shè)計(jì)有限公司,重慶 401121)
不平衡分類(lèi)問(wèn)題在醫(yī)學(xué)診斷[1]、機(jī)器故障檢測(cè)[2]、軟件缺陷預(yù)測(cè)[3]和計(jì)算機(jī)視覺(jué)[4]等領(lǐng)域得到了廣泛的應(yīng)用。與類(lèi)不平衡學(xué)習(xí)相關(guān)的問(wèn)題是,標(biāo)準(zhǔn)方法通常將大多數(shù)正類(lèi)樣本錯(cuò)誤地歸類(lèi)為負(fù)類(lèi)樣本。對(duì)于以上應(yīng)用來(lái)說(shuō),少數(shù)類(lèi)樣本的檢測(cè)更加重要,因此如何更加準(zhǔn)確地檢測(cè)出這類(lèi)稀有樣本已經(jīng)成為當(dāng)前機(jī)器學(xué)習(xí)研究者面臨的挑戰(zhàn)之一[5]。
近年來(lái),針對(duì)類(lèi)不平衡學(xué)習(xí)問(wèn)題涌現(xiàn)出了大量的研究,研究人員也給出了很多解決方法,這些方法概括起來(lái)可以分為3類(lèi):(1)改進(jìn)訓(xùn)練數(shù)據(jù)集的不平衡分布(數(shù)據(jù)層面上的方法),例如采用上采樣方法、下釆樣方法和混合采樣等對(duì)原始數(shù)據(jù)集進(jìn)行處理,目的是使類(lèi)分布更加平衡;(2)改進(jìn)經(jīng)典算法(算法層面方法):對(duì)當(dāng)前比較成熟的分類(lèi)器算法,采用優(yōu)化參數(shù)、對(duì)各類(lèi)樣本賦予不同的錯(cuò)分代價(jià)[6]、設(shè)計(jì)面向不平衡數(shù)據(jù)集的新算法等手段。例如,基于代價(jià)敏感的支持向量機(jī)[7]和極限學(xué)習(xí)機(jī)ELM(Extreme Learning Machine)[8 - 12];(3)結(jié)合數(shù)據(jù)層面和算法層面的方法:首先采用合適的采樣方法對(duì)數(shù)據(jù)集進(jìn)行平衡處理得到多個(gè)平衡數(shù)據(jù)集,然后再訓(xùn)練相應(yīng)的分類(lèi)器進(jìn)行集成學(xué)習(xí),例如DPBag(Density Peaks Bagging)算法[13]。
極限學(xué)習(xí)機(jī)ELM在分類(lèi)問(wèn)題上已經(jīng)成為世界各國(guó)研究人員的研究熱點(diǎn)。研究人員大量的實(shí)踐表明,ELM對(duì)于不平衡數(shù)據(jù)分類(lèi)問(wèn)題具有較強(qiáng)的優(yōu)越性,其改進(jìn)思想主要包括與采樣技術(shù)的結(jié)合和對(duì)自身算法的改進(jìn)2方面。例如,Vong等人[14]將 ELM 與隨機(jī)過(guò)采樣技術(shù)ROS(Random Over Sampling)相結(jié)合提出了ROS-ELM算法,但是由于隨機(jī)過(guò)采樣是隨機(jī)復(fù)制少數(shù)類(lèi)樣本使類(lèi)分布達(dá)到平衡,容易導(dǎo)致過(guò)擬合。Sun 等人[15]則將SMOTE(Synthetic Minority Over-sampling TEchnique)算法[16]引入到 ELM 集成學(xué)習(xí)框架中,提出了SMOTE-ELM算法并用于企業(yè)生命周期預(yù)測(cè)。于化龍[17]將ELM與隨機(jī)欠采樣RUS(Random Under Sampling)相結(jié)合,和其它ELM算法對(duì)比雖然可提升少數(shù)類(lèi)樣本識(shí)別精度但提升效果并不明顯。上述算法均采用了單一的采樣技術(shù),未考慮到樣本的不平衡程度及樣本內(nèi)部的分布情況,無(wú)法解決樣本噪聲及類(lèi)內(nèi)不平衡問(wèn)題,導(dǎo)致噪聲被誤分為少數(shù)類(lèi)樣本,并且適用場(chǎng)景過(guò)于局限,對(duì)不同平衡程度的數(shù)據(jù)集依然存在分類(lèi)效果不明顯甚至效率低下的問(wèn)題。
針對(duì)上述算法存在的問(wèn)題,本文提出了一種基于密度峰值聚類(lèi)DPC(Clustering by fast search and find of Density Peaks)的重采樣技術(shù)結(jié)合ELM的不平衡數(shù)據(jù)分類(lèi)算法DPCR-ELM(imbalanced data classification algorithm based on DPC clustering Resampling combined with ELM)。
Alex等人[18]于2014年提出了一種新的聚類(lèi)算法——密度峰值聚類(lèi)DPC(Clustering by fast search and find of Density Peaks)算法。相比于其它聚類(lèi)算法,該算法有以下優(yōu)勢(shì):(1)可以發(fā)現(xiàn)任意形狀的簇并且可高效處理高維數(shù)據(jù);(2)算法簡(jiǎn)單,不需要迭代計(jì)算,耗時(shí)少;(3)能夠高效進(jìn)行樣本分配和發(fā)現(xiàn)噪聲點(diǎn),適用于大規(guī)模數(shù)據(jù)的聚類(lèi)分析。對(duì)于每個(gè)樣本xi,由樣本的局部密度ρi和該點(diǎn)到更大局部密度的樣本的最小距離δi2個(gè)量來(lái)表示,相應(yīng)的計(jì)算方法如式(1)~式(4)所示:
(1)
(2)
δi=minj:ρi<ρjdij
(3)
λi=ρiδi
(4)
其中,dij表示樣本xi與樣本xj之間的距離,dc為輸入的截?cái)嗑嚯x,本文選取dij升序排序后的1%或2%的分位數(shù)作為dc的值,并且由式(1)和式(2)可以看出,樣本點(diǎn)xi的局部密度ρi表示以dc為半徑的圓內(nèi)樣本的個(gè)數(shù)。ρi越小表示該樣本點(diǎn)周?chē)较∈瑁接锌赡艹蔀檫吔琰c(diǎn),ρi越大表示該樣本點(diǎn)周?chē)矫芗?,越靠近集群中心。λi為聚類(lèi)中心選擇的一個(gè)衡量標(biāo)準(zhǔn),λi越大,表示樣本xi的2個(gè)屬性值都很大,xi越有可能成為聚類(lèi)中心點(diǎn)。
根據(jù)DPC算法的原理,δi值和ρi值能很好地反映樣本點(diǎn)在分布集群中所處的位置,其生成的決策圖可方便用戶去除噪聲樣本和選取聚類(lèi)中心點(diǎn),圖1和圖2分別展示了原始數(shù)據(jù)分布圖及其生成的決策圖。
Figure 1 Original data distribution圖1 原始的數(shù)據(jù)分布
Figure 2 ρ_δ decision diagram based on DPC圖2 基于DPC的ρ_δ決策圖
根據(jù)圖2所示決策圖來(lái)分析圖1可知,樣本26~28被視為噪聲點(diǎn)或離群點(diǎn),因?yàn)樗鼈兌歼h(yuǎn)離大部分樣本,以dc為半徑的圓內(nèi)樣本的個(gè)數(shù)只有一個(gè)。因此,本文定義樣本局部密度ρ=1的點(diǎn)為噪聲點(diǎn)或離群點(diǎn),這樣的點(diǎn)在采樣之前會(huì)被去除。
ELM是一種廣義的單隱層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)中所有的隱層節(jié)點(diǎn)參數(shù)都是隨機(jī)生成的,輸出權(quán)值采用批量最小二乘學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,ELM具有訓(xùn)練誤差和輸出權(quán)的范數(shù)最小的特點(diǎn)。其次ELM的學(xué)習(xí)算法簡(jiǎn)單有效,不需要在隱層中迭代調(diào)整,在學(xué)習(xí)速度極快的情況下也具有良好的泛化能力,已被廣泛應(yīng)用于各種分類(lèi)問(wèn)題中。ELM基本原理簡(jiǎn)述如下:
給定一組N個(gè)訓(xùn)練數(shù)據(jù)D(xi,ti),i=1,…,N,即輸入和期望輸出分別為xi=[xi1,xi2,…,xin]T∈Rn和ti=[ti1,ti2,…,tim]T∈Rm,其中n和m分別為特征維度和輸出層的維數(shù)。因此,隱層輸出矩陣為:
(5)
其中,wi和bi為隱層節(jié)點(diǎn)的輸入權(quán)重和隱層偏置,G為隱層的激活函數(shù),L為隱層的節(jié)點(diǎn)數(shù)。
輸出權(quán)重β可通過(guò)求解式(6)所示的目標(biāo)優(yōu)化函數(shù)得到:
(6)
其中,ξi是第i個(gè)訓(xùn)練樣本的訓(xùn)練誤差向量,C是正則化因子,‖β‖2是分離超平面的參數(shù),‖ξi‖2是誤差平方和。H(xi)為輸入樣本xi的隱層輸出函數(shù),ti為訓(xùn)練xi的類(lèi)別標(biāo)記。求解以上目標(biāo)函數(shù)可得隱層與輸出層之間的輸出權(quán)向量,β表示為:
(7)
其中,T為訓(xùn)練樣本的目標(biāo)矩陣。
進(jìn)而得到ELM的決策輸出如式(8)所示:
(8)
其中,signh(x)為隱層激活函數(shù),也叫做特征映射函數(shù)。由該式可以得到對(duì)應(yīng)樣本xi的輸出向量f(xi)=[f1(xi),…,fm(xi)],進(jìn)一步可以得出xi的預(yù)測(cè)標(biāo)號(hào)label(xi)=argmaxfk(xi),k=1,…,m。由于本文主要研究的是二分類(lèi)問(wèn)題,所以m取值為2,具體的分類(lèi)模型如圖3所示。
Figure 3 ELM classification model圖3 ELM的分類(lèi)模型
根據(jù)采樣技術(shù)與ELM分類(lèi)算法相結(jié)合的思想,本文提出了基于DPC聚類(lèi)采樣結(jié)合ELM的不平衡數(shù)據(jù)DPCR-ELM分類(lèi)算法,該算法考慮了分類(lèi)模型的效率問(wèn)題,根據(jù)數(shù)據(jù)集不平衡程度進(jìn)行相應(yīng)的處理。算法流程如圖4所示。
Figure 4 Flow chart of DPCR-ELM algorithm圖4 DPCR-ELM的算法流程圖
該算法首先判斷不平衡數(shù)據(jù)集的不平衡比率,即R=Nmax/Nmin,其中Nmax和Nmin分別為多數(shù)類(lèi)樣本和少數(shù)類(lèi)樣本的數(shù)量,本文設(shè)置不平衡閾值為9(實(shí)驗(yàn)所用公共數(shù)據(jù)集標(biāo)準(zhǔn)劃分)來(lái)判斷使用何種采樣方法。若R>9,表明數(shù)據(jù)集十分不平衡,少數(shù)類(lèi)樣本相對(duì)于多數(shù)類(lèi)樣本來(lái)說(shuō)是很稀少的,如果采用經(jīng)典的SMOTE過(guò)采樣方法生成(Nmax-Nmin)個(gè)少數(shù)類(lèi)樣本會(huì)加大數(shù)據(jù)集的訓(xùn)練量,增加分類(lèi)器的時(shí)間復(fù)雜度,還會(huì)出現(xiàn)過(guò)度擬合現(xiàn)象。因此,本文通過(guò)采用DPC聚類(lèi)算法對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,并根據(jù)聚類(lèi)后各個(gè)樣本的ρ值和β值選取少數(shù)類(lèi)邊界(即稀疏域)樣本集,對(duì)選取的少數(shù)類(lèi)簇邊界樣本集采用經(jīng)典的SMOTE過(guò)采樣方法自適應(yīng)地合成確定數(shù)目的少數(shù)類(lèi)樣本。對(duì)于R≤9的不平衡數(shù)據(jù)集,其少數(shù)類(lèi)樣本數(shù)量相對(duì)多數(shù)類(lèi)樣本不再那么稀少,ELM分類(lèi)算法足以識(shí)別出大部分少數(shù)類(lèi)樣本,因此本文提出的算法只對(duì)多數(shù)類(lèi)樣本進(jìn)行欠采樣,去除一些冗余的樣本,選取更具代表性的多數(shù)類(lèi)樣本。對(duì)于不平衡比率較大的數(shù)據(jù)集(R>9)來(lái)說(shuō),此類(lèi)數(shù)據(jù)集因?yàn)闇p少了對(duì)少數(shù)類(lèi)樣本過(guò)采樣的步驟,并且未對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),節(jié)省了算法的時(shí)間開(kāi)銷(xiāo)。
DPCR-ELM分類(lèi)算法主要包括樣本平衡處理和ELM算法分類(lèi)2部分。在樣本平衡處理部分,本文受DPC聚類(lèi)原理的啟發(fā),提出了一種能夠有效平衡2類(lèi)樣本的重采樣方法。
樣本平衡處理部分主要包括多數(shù)類(lèi)樣本處理和少數(shù)類(lèi)樣本處理,處理過(guò)程分別如算法1和算法2所示,其中算法2借鑒了文獻(xiàn)[19]的采樣思想,并對(duì)其進(jìn)行了改進(jìn),因?yàn)槲墨I(xiàn) [19]的算法需要對(duì)少數(shù)類(lèi)樣本進(jìn)行聚類(lèi),復(fù)雜度會(huì)很高,還會(huì)破壞原始樣本的類(lèi)分布,因此本文根據(jù)DPC聚類(lèi)的原理尋找少數(shù)類(lèi)集群邊界樣本,不需要復(fù)雜的聚類(lèi);然后在邊界樣本周?chē)铣筛嗟臉颖?,解決類(lèi)內(nèi)不平衡問(wèn)題,保持少數(shù)類(lèi)樣本原始分布的同時(shí)提高ELM分類(lèi)對(duì)邊界區(qū)域樣本的識(shí)別度。
算法1多數(shù)類(lèi)樣本集的欠采樣
輸入:多數(shù)類(lèi)樣本集Smax,欠采樣系數(shù)α。
輸出:采用后的多數(shù)類(lèi)樣本集S′max。
步驟1應(yīng)用DPC聚類(lèi)的原理計(jì)算每個(gè)多數(shù)類(lèi)樣本的ρ、δ和λ值。
步驟2去除離群點(diǎn)和噪聲點(diǎn):
選取局部密度ρi=1的點(diǎn)為離群點(diǎn)或噪聲點(diǎn),因?yàn)棣裪=1,表示該點(diǎn)與所有點(diǎn)之間的距離大于截?cái)嗑嚯xdc,遠(yuǎn)離了所有樣本。
步驟3計(jì)算樣本權(quán)重:根據(jù)式(4)計(jì)算剩余樣本的λi值作為采樣權(quán)重并進(jìn)行降序排列。
步驟4根據(jù)權(quán)重進(jìn)行采樣系數(shù)為α的樣本采樣得到采樣后的多數(shù)類(lèi)樣本集S′max。
算法2少數(shù)類(lèi)樣本集的過(guò)采樣
輸入:少數(shù)類(lèi)樣本集Smin,過(guò)采樣系數(shù)β。
輸出:少數(shù)類(lèi)過(guò)采樣樣本集S′min。
步驟1根據(jù)式(1)~式(3)計(jì)算每個(gè)樣本點(diǎn)xi的局部密度ρi以及xi到具有更大局部密度的點(diǎn)的最小距離δi。
步驟2去除ρi=1的樣本,即噪聲點(diǎn)或離群點(diǎn)。
步驟3根據(jù)式(9)計(jì)算每個(gè)樣本點(diǎn)xi的采樣權(quán)重wi:
(9)
其中,Nmin為去除噪聲后少數(shù)類(lèi)樣本的數(shù)量,從式(9)中可以發(fā)現(xiàn),若樣本的ρi值越小,即周?chē)较∈?,越有可能為邊界樣本,其采樣?quán)重越大,樣本的ρi值越大,即周?chē)矫芗?,越靠近中心點(diǎn),其采樣權(quán)重越小。
步驟4計(jì)算要合成的樣本數(shù)目:
N=(N′max-Nmin)×β
(10)
其中,N′max為算法1處理過(guò)后的多數(shù)類(lèi)樣本數(shù)量,β為取值在0~1的過(guò)采樣系數(shù)。當(dāng)β=1時(shí),表示過(guò)采樣后的正負(fù)類(lèi)樣本絕對(duì)平衡。
步驟5計(jì)算每個(gè)樣本需要合成的樣本數(shù):
Ni=N×wi
(11)
步驟6對(duì)簇邊界樣本xi進(jìn)行SMOTE采樣合成對(duì)應(yīng)的Ni個(gè)樣本,合成樣本的計(jì)算方式如式(12)所示:
x′i=xi+rand(0,1)×(xi-s)
(12)
其中,xi為進(jìn)行采樣的邊界樣本,s為xi的一個(gè)鄰近樣本,可根據(jù)xi的鄰近距離δi來(lái)隨機(jī)選擇,x′i為合成的樣本。合成的樣本加入到樣本集Snew中。
步驟7生成少數(shù)類(lèi)過(guò)采樣集S′min:S′min=Smin+Snew。
算法1可以有效去除噪聲和異常值,其次利用樣本的λi值作為抽樣權(quán)值,方便了代表性樣本的選擇,因?yàn)闃颖绢?lèi)簇邊界點(diǎn)的ρ值比簇中心周?chē)c(diǎn)的ρ值小,δ值比簇中心周?chē)c(diǎn)的δ值大,簇中心周?chē)c(diǎn)的情況則剛好與之相反,通過(guò)對(duì)λ值降序采樣可確保簇中心點(diǎn)被選取的情況下還可以隨機(jī)選取到邊界點(diǎn)以及簇中心周邊點(diǎn),保留了原始數(shù)據(jù)的分布特性。算法2考慮了類(lèi)內(nèi)樣本不平衡及噪聲的影響,使用式(9)計(jì)算過(guò)采樣的權(quán)重不影響原始的類(lèi)分布同時(shí)還保證了邊界樣本具有更大的過(guò)采樣權(quán)重,因?yàn)檫吔鐦颖靖菀妆诲e(cuò)誤分類(lèi)。其次,采用SMOTE算法避免了合成重疊樣本,保證了采樣的合理性。
算法3DPCR-ELM分類(lèi)算法
輸入:不平衡數(shù)據(jù)集S,測(cè)試數(shù)據(jù)集V,欠采樣率α,過(guò)采樣率β。
輸出:重新采樣數(shù)據(jù)集S′,ELM分類(lèi)器的預(yù)測(cè)目標(biāo)。
步驟1將不平衡數(shù)據(jù)集S劃分為少數(shù)類(lèi)樣本集Smin和多數(shù)類(lèi)樣本集Smax,確定樣本不平衡比率R。
步驟2利用算法1對(duì)多數(shù)類(lèi)樣本集Smax進(jìn)行處理,得到數(shù)據(jù)集S′max。
如果R> 9繼續(xù)執(zhí)行以下步驟,否則轉(zhuǎn)到步驟4。
步驟3利用算法2對(duì)少數(shù)類(lèi)樣本集Smin進(jìn)行處理,得到數(shù)據(jù)集S′min。
步驟4合成重采樣平衡數(shù)據(jù)集S′:
(13)
步驟5訓(xùn)練ELM分類(lèi)模型:
(1)將平衡數(shù)據(jù)集S′輸入圖3所示的ELM分類(lèi)模型進(jìn)行訓(xùn)練。
2)利用測(cè)試數(shù)據(jù)集V對(duì)ELM分類(lèi)器進(jìn)行測(cè)試,預(yù)測(cè)其分類(lèi)準(zhǔn)確率和少數(shù)類(lèi)樣本識(shí)別率。
傳統(tǒng)分類(lèi)器采用的分類(lèi)準(zhǔn)則是整體分類(lèi)準(zhǔn)確率和錯(cuò)誤率[20],但是這些分類(lèi)準(zhǔn)則不適用不平衡分類(lèi)問(wèn)題。二分類(lèi)的分類(lèi)性能評(píng)價(jià)標(biāo)準(zhǔn)通常建立在表1所示的混淆矩陣基礎(chǔ)上,由表1中4個(gè)量可以表示幾種常用的分類(lèi)性能指標(biāo),計(jì)算方式如式(14)~式(17)所示:
(14)
(15)
(16)
(17)
其中,F-Measure是查準(zhǔn)率Precision和查全率Recall的調(diào)和平均,當(dāng)兩者大小相當(dāng)時(shí)F-Measure較大,G-mean指標(biāo)為正精度和負(fù)精度的幾何平均,用于評(píng)估感應(yīng)偏差的程度,較大的G-mean值表明分類(lèi)器對(duì)正負(fù)類(lèi)的分類(lèi)效果較好。為了更加全面評(píng)價(jià)本文算法的分類(lèi)性能,本文選用F-Measure和G-mean作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。
Table 1 Confusion matrix of binary classification problem
本文實(shí)驗(yàn)的硬件環(huán)境:Intel(R) Core (TM) i5-6200U CPU@2.40 GHz,內(nèi)存為8 GB,Windows 10 64位操作系統(tǒng)以及Matlab2018編譯環(huán)境。
本文選用KEEL數(shù)據(jù)庫(kù)中的8個(gè)二分類(lèi)不平衡數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn)對(duì)比和性能測(cè)試,選取規(guī)則盡可能考慮了樣本數(shù)量和不平衡樣本比率的多樣性,以驗(yàn)證本文算法在不同平衡程度數(shù)據(jù)集上的分類(lèi)適用性。具體數(shù)據(jù)集信息如表2所示。
Table 2 Data sets details
為了有效評(píng)價(jià)本文所提DPCR-ELM分類(lèi)算法的分類(lèi)性能,實(shí)驗(yàn)將其與ELM、ROS-ELM、RUS-ELM和SMOTE-ELM分類(lèi)算法進(jìn)行比較。另外,本文將平衡處理后的數(shù)據(jù)集進(jìn)行10倍交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果取10次平均值以保證實(shí)驗(yàn)結(jié)果的公平性。對(duì)于實(shí)驗(yàn)參數(shù)的設(shè)定,ELM均使用Sigmoid 函數(shù)作為隱層節(jié)點(diǎn)激活函數(shù),隱層節(jié)點(diǎn)數(shù)L取值為訓(xùn)練樣本的個(gè)數(shù)。本文所采用的過(guò)采樣率和欠采樣率均設(shè)為0.8,以保證處理樣本后的正負(fù)樣本相對(duì)平衡,SMOTE算法的K近鄰個(gè)數(shù)設(shè)為5,DPC聚類(lèi)截?cái)嗑嚯xdc的選取至關(guān)重要,將其設(shè)置為最常用的前dij升序排序后的前1%或2%的分位數(shù)。
本文進(jìn)行了大量的實(shí)驗(yàn),得出了分類(lèi)結(jié)果,表3和表4分別展示了5種算法在8個(gè)數(shù)據(jù)集上的F-Measure值和G-Mean值,表中的值越大表示算法的分類(lèi)效果越好(最大值使用粗體字表示),能識(shí)別出更多的少數(shù)類(lèi)樣本。為了更加清楚地展示本文所提算法的分類(lèi)效果,展示算法的綜合性能,圖5給出了5種算法在8個(gè)數(shù)據(jù)集上的F-Measure和G-Mean平均值的折線圖。
Table 3 F-Measure values of DPCR-ELM algorithm and other algorithms
由表3可以看出,對(duì)于大多數(shù)數(shù)據(jù)集,除數(shù)據(jù)集vehicle0和ecoli3之外,DPCR-ELM算法的F-Measure值均優(yōu)于其他算法的,在數(shù)據(jù)集vehicle0和ecoli3上,SMOTE-ELM算法的性能優(yōu)于本文算法的性能,這是由于樣本的分布相對(duì)均衡,本文算法在對(duì)多數(shù)類(lèi)樣本處理時(shí)選擇的欠采樣率過(guò)低導(dǎo)致小部分代表性樣本被丟棄所引起的。對(duì)于其他數(shù)據(jù)集,特別是對(duì)于不平衡程度較高的數(shù)據(jù)集,本文所提算法具有最高的F-Measure值,提升效果最為明顯,其中,在數(shù)據(jù)集yeast5上提升最高,相比于ELM算法和次優(yōu)的SMOTE-ELM算法,F(xiàn)-Measure值分別提升了15.09%和2.55%,充分說(shuō)明了本文算法在采樣過(guò)程中使用DPC聚類(lèi)進(jìn)行采樣的合理性。
Table 4 G-Mean values of DPCR-ELM algorithm and other algorithms
Figure 5 Average G-Mean and F-Measure values of different algorithms on 8 data sets圖5 不同算法在8個(gè)數(shù)據(jù)集上的平均G-Mean值和F-Measure值
由表4可以看出,除數(shù)據(jù)集abalone9-18之外,DPCR-ELM算法的G-mean值均優(yōu)于其他算法的。其次,由圖5可以看出,本文算法在8個(gè)數(shù)據(jù)集上的分類(lèi)平均值(F-Measure和G-Mean)均大于其他算法的,這是因?yàn)槠渌惴ㄔ诓蓸舆^(guò)程中未考慮到樣本的類(lèi)內(nèi)不平衡以及多數(shù)類(lèi)樣本中噪聲的影響,導(dǎo)致合成的少數(shù)類(lèi)樣本不合理以及噪聲被ELM錯(cuò)誤分類(lèi),本文提出的采樣方法有效解決了這2個(gè)問(wèn)題,所提算法確實(shí)可以提升少數(shù)類(lèi)樣本的分類(lèi)精度以及具有較好的適用性。從圖5還可以看出,未對(duì)數(shù)據(jù)集進(jìn)行平衡處理的ELM算法的F-Measure平均值和G-Mean平均值均低于其他算法的,驗(yàn)證了ELM結(jié)合采樣技術(shù)這一思想的合理性。
本文提出的采樣方法涉及到欠采樣率和過(guò)采樣率2個(gè)參數(shù),并且提出的DPCR-ELM算法也是根據(jù)不平衡比率來(lái)進(jìn)行采樣的,因此為了驗(yàn)證采樣率對(duì)本文算法的影響,選取了數(shù)據(jù)量較大且不平衡比率小于9的vehicle0數(shù)據(jù)集和不平衡比率大于9的winequality-red4數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。采樣率的選取為[0.5,1]。對(duì)于不平衡比率大于9的winequality-red-4數(shù)據(jù)集,合成的少數(shù)類(lèi)樣本數(shù)量根據(jù)欠采樣后的樣本數(shù)量來(lái)確定,2個(gè)采樣系數(shù)有著必然的聯(lián)系。因此為了保證處理后的正負(fù)樣本相對(duì)平衡,將2個(gè)值設(shè)為同樣大小來(lái)討論采樣率對(duì)算法的影響。圖6和圖7分別給出了不同采樣率在vehicle0數(shù)據(jù)集和winequality-red-4數(shù)據(jù)集上的F-Measure值和G-Mean值。
Figure 6 F-Measure and G-Mean values of different sampling rates on vehicle0 data set圖6 不同采樣率下在vehicle0數(shù)據(jù)集上的G-Mean值和F-Measure值
Figure 7 F-Measure and G-Mean values of different sampling rates on winequality-red4 data set圖7 不同采樣率下在winequality-red-4數(shù)據(jù)集上的G-Mean值和F-Measure值
從圖6和圖7可以看出,當(dāng)采樣率取0.8時(shí),ELM的分類(lèi)效果最好,其次,當(dāng)采樣率小于0.7或大于0.8時(shí),F(xiàn)-Measure值和G-Mean值有所下降,其原因?yàn)楫?dāng)采樣率較小時(shí),會(huì)導(dǎo)致多數(shù)類(lèi)樣本的重要信息丟失和少數(shù)類(lèi)合成樣本不足,使ELM得不到充分的訓(xùn)練,當(dāng)采樣率過(guò)大時(shí),會(huì)導(dǎo)致多數(shù)類(lèi)噪聲無(wú)法去除以及少數(shù)類(lèi)樣本出現(xiàn)過(guò)擬合的現(xiàn)象。因此,選擇合適的采樣率,DPCR-ELM分類(lèi)算法的F-Measure值和G-Mean值才會(huì)有所提升。其次,由最佳采樣率可知,本文改進(jìn)的重采樣方式確實(shí)能夠有效去除多數(shù)類(lèi)的冗余樣本,并且合成的少數(shù)樣本數(shù)量并非絕對(duì)的,減少了訓(xùn)練樣本的數(shù)量,能夠有效提升ELM分類(lèi)算法的效率。因此,對(duì)于數(shù)據(jù)量較大場(chǎng)景,本文提出的DPCR-ELM算法分類(lèi)效果會(huì)更佳。
類(lèi)別不平衡是分類(lèi)問(wèn)題中最重要的數(shù)據(jù)挑戰(zhàn)之一。為了解決少數(shù)類(lèi)樣本的分類(lèi)精度不高的問(wèn)題,本文提出并評(píng)估了一種基于DPC聚類(lèi)的重采樣結(jié)合ELM的不平衡數(shù)據(jù)分類(lèi)算法。根據(jù)數(shù)據(jù)集不平衡程度來(lái)選擇多數(shù)類(lèi)代表性樣本和創(chuàng)建屬于少數(shù)類(lèi)的合成樣本,在對(duì)多數(shù)類(lèi)樣本選取時(shí)考慮了噪聲的影響,有效解決了噪聲誤判的問(wèn)題,在對(duì)少數(shù)類(lèi)樣本合成時(shí)考慮了類(lèi)內(nèi)不平衡的影響,根據(jù)聚類(lèi)后找到每個(gè)集群的邊界樣本進(jìn)行合成,解決了合成樣本分布不均的問(wèn)題。其次,利用ELM算法在平衡數(shù)據(jù)集上的分類(lèi)優(yōu)勢(shì),提升了分類(lèi)效率。利用KEEL數(shù)據(jù)庫(kù)中的不平衡數(shù)據(jù)集對(duì)算法進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明了本文算法的有效性和適用性。由于本文算法只是針對(duì)二分類(lèi)問(wèn)題進(jìn)行討論,未來(lái)的工作將對(duì)多分類(lèi)問(wèn)題進(jìn)一步展開(kāi)研究,以便更加有效適應(yīng)實(shí)際生活中的不平衡數(shù)據(jù)多分類(lèi)問(wèn)題。