王萌鐸,續(xù)欣瑩,閻高偉,史麗娟,郭 磊
(太原理工大學(xué)電氣與動(dòng)力工程學(xué)院,太原 030024)
在故障診斷、金融詐騙[1-3]等分類任務(wù)中,數(shù)據(jù)分布通常是不平衡的,類別分布極端時(shí)就會(huì)形成不平衡數(shù)據(jù)集。由于少數(shù)類別的數(shù)據(jù)數(shù)量相對(duì)較少,對(duì)準(zhǔn)確率的影響也相對(duì)較?。?]。在處理不平衡數(shù)據(jù)集時(shí),目標(biāo)識(shí)別模型受數(shù)據(jù)自身分布制約學(xué)習(xí)到的多數(shù)類類別特征更多且忽視了少數(shù)類別。數(shù)據(jù)類別分布不平衡現(xiàn)象制約了模型對(duì)少數(shù)類別目標(biāo)的識(shí)別性能[5-6]。
針對(duì)不平衡數(shù)據(jù),ZHANG 等[7]提出一種使用新保角函數(shù)擴(kuò)展最優(yōu)間隔分布機(jī)(Optimal-margin Distribution Machine,ODM)核矩陣以提高特征空間可分性的不平衡分類方法(Kernel Modified ODM,KMODM)。ZHU 等[8]提出一種類權(quán)重隨機(jī)森林(Class Weights Random Forest,CWsRF)算法,用于處理醫(yī)學(xué)數(shù)據(jù)的不平衡分類。SUN 等[9]提出一種加權(quán)過采樣的深度自編碼器(Weighted Minority Oversampling Deep Auto-encoder,WMODA),用于檢測實(shí)際旋轉(zhuǎn)機(jī)械過程中的故障。KHAN 等[10]提出一種代價(jià)敏感深度神經(jīng)網(wǎng)絡(luò)(Cost-Sensitive Deep Neural Network,CS-DNN),用于自動(dòng)學(xué)習(xí)多數(shù)和少數(shù)類的魯棒特征表示。
由于類別分布不平衡數(shù)據(jù)會(huì)制約模型分類性能,因此為提升模型的不平衡處理能力,采用組合模型的方式增強(qiáng)算法對(duì)少數(shù)類別數(shù)據(jù)的特征提取能力。AdaBoost 作為一種高效集成學(xué)習(xí)方法,是提升分類模型不平衡數(shù)據(jù)分類能力的重要手段之一[11-12],通過調(diào)整樣本權(quán)重和弱分類器權(quán)值,將弱分類器組集成為一個(gè)強(qiáng)分類器。
寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)結(jié)構(gòu)簡單且分類精度較高[13]。BLS 系統(tǒng)模型結(jié)構(gòu)為數(shù)據(jù)提取稀疏特征后輸入隨機(jī)向量函數(shù)鏈接神經(jīng)網(wǎng)絡(luò)(Random Vector Functional Link Neural Network,RVFLNN)的單層可橫向擴(kuò)展網(wǎng)絡(luò)[14]。BLS 模型相比深度網(wǎng)絡(luò)模型[10]訓(xùn)練時(shí)間短、易于訓(xùn)練與再訓(xùn)練[15]。大量實(shí)驗(yàn)結(jié)果表明,標(biāo)準(zhǔn)的BLS 容易受數(shù)據(jù)集自身分布的影響,改進(jìn)的BLS 模型相繼被提出。XU 等[16]提出一種用于預(yù)測多元時(shí)間序列的R-BLS(Recurrent BLS)模型。CHU 等[17]采用加權(quán)方式提升了BLS 模型對(duì)有噪聲和異常值工業(yè)非線性數(shù)據(jù)的預(yù)測能力。BLS-CCA 與CNN 的級(jí)聯(lián)模型[18]提升了系統(tǒng)對(duì)多模態(tài)數(shù)據(jù)的分類能力。徐鵬飛等[19-20]基于加權(quán)極限學(xué)習(xí)機(jī)(Weighted Extreme Learning Machine,WELM),提出一種有效的DDbCs-BLS 模型處理不平衡數(shù)據(jù),該模型的本質(zhì)是在訓(xùn)練樣本上增加一個(gè)額外的權(quán)重,以得到更好的分類邊界線位置,以改善BLS 性能。
為進(jìn)一步提升BLS 的不平衡數(shù)據(jù)處理能力,本文提出一種可實(shí)現(xiàn)權(quán)重動(dòng)態(tài)更新的集成加權(quán)寬度學(xué)習(xí)系統(tǒng)(Weighted Broad Learning System,WBLS),在KKT 條件下,分析比較BLS 與WBLS 的優(yōu)化過程,在誤差項(xiàng)上添加對(duì)角矩陣權(quán)重,降低訓(xùn)練誤差,提升分類性能。將WBLS 集成到AdaBoost 模型中,通過基分類器WBLS 數(shù)據(jù)權(quán)重的訓(xùn)練實(shí)現(xiàn)WBLS 權(quán)重的動(dòng)態(tài)更新,獲得更符合數(shù)據(jù)分布特征的權(quán)重,并將所有基分類器加權(quán)集成為一個(gè)具備不平衡數(shù)據(jù)識(shí)別能力的新模型AdaBoost-WBLS。
本節(jié)將簡要介紹標(biāo)準(zhǔn)BLS 結(jié)構(gòu)。與深度學(xué)習(xí)模型不同,BLS 是特征橫向排布模型,本質(zhì)是將數(shù)據(jù)提取稀疏特征后輸入隨機(jī)向量函數(shù)鏈接神經(jīng)網(wǎng)絡(luò)。
當(dāng)輸入數(shù)據(jù)為X∈Ru×ν的矩陣形式時(shí),可表示為X=[x1,x2,…,xu]T。BLS 通過稀疏特征映射得到映射特征層Zm,可表示如下:
其中:Wk、βk是隨機(jī)生成的權(quán)重和偏差;φ是非線性激活函數(shù);N1是特征層節(jié)點(diǎn)數(shù);N2是特征層數(shù)。
映射提取到的特征可作為RVFLNN 層的輸入,再經(jīng)特征選擇后得到N3維的增強(qiáng)特征層Zel,可表示如下:
映射特征層與增強(qiáng)特征層橫向擴(kuò)展為平層寬度特征A,如式(3)所示。通過鏈接權(quán)重W分配不同大小的權(quán)值進(jìn)行輸出,如式(4)所示。最終模型的目標(biāo)輸出為Y=[y1,y2,…,yu]T。
BLS 的鏈接權(quán)重W是通過嶺回歸的優(yōu)化方式快速求得。嶺回歸是一種快速求解偽逆的方法,本文中其對(duì)應(yīng)的目標(biāo)函數(shù)和計(jì)算公式分別如式(5)和式(6)所示:
在處理實(shí)際數(shù)據(jù)集時(shí),多數(shù)據(jù)集都存在不同程度的類別不平衡現(xiàn)象。文獻(xiàn)[3,14]提供了為淺層網(wǎng)絡(luò)添加敏感損失權(quán)重的方法來處理不平衡數(shù)據(jù),以實(shí)現(xiàn)類間再平衡。與文獻(xiàn)[14]的權(quán)重形式不同,權(quán)值矩陣可采用對(duì)角矩陣形式,將權(quán)重添加到數(shù)據(jù)所對(duì)應(yīng)特征上,采用這種權(quán)重形式使模型可以與AdaBoost 結(jié)合。
式(5)與極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[14]等單層網(wǎng)絡(luò)最小化訓(xùn)練誤差、最大化類間距離的過程相似。與LS-SVM 的優(yōu)化方式相似,本節(jié)基于KKT 條件[15],對(duì)BLS 與WBLS 約束條件下的凸函數(shù)進(jìn)行優(yōu)化。通過比較推導(dǎo)結(jié)果,分析所添加對(duì)角權(quán)重Wp在BLS 模型中的作用。
BLS 在輸入數(shù)據(jù)X∈Ru×ν中提取到的寬度特征表示為A,寬度特征對(duì)輸出的鏈接權(quán)重矩陣表示為W。與WELM[10-11]等模型的優(yōu)化過程類似,BLS 的優(yōu)化過程可表示如下:
式(8)可簡化如下:
其中:Y=[y1,y2,…,yu]T是模型的目標(biāo)輸出;λ是模型的正則化項(xiàng)參數(shù),抑制模型的過擬合,也是影響模型性能的重要參數(shù);ξ=[ξ1,ξ2,…,ξu]T是模型的預(yù)測誤差。
在KKT 條件下,BLS模型的優(yōu)化過程可表示如下:
其中:αi是xi的特征映射對(duì)應(yīng)的Lagrange 乘子。
WBLS 的L2 范數(shù)凸優(yōu)化目標(biāo)可表示如下:
式(14)可簡化如下:
根據(jù)KKT 理論,WBLS 優(yōu)化過程可等價(jià)表示如下:
對(duì)比BLS 與WBLS 在KKT 條件下的優(yōu)化結(jié)果的式(13)和式(19)可知,輸入數(shù)據(jù)添加的權(quán)重Wp是在模型的誤差項(xiàng)上,且所加權(quán)重與Lagrange 乘子αi成反比。對(duì)比式(11)與式(17)可知,在WBLS 中αi又與輸入數(shù)據(jù)所映射的特征層A共同決定了鏈接權(quán)重W。由此可得,權(quán)重Wp改變了不同數(shù)據(jù)特征的比重。
添加的權(quán)重有多種形式,文獻(xiàn)[5]采用將敏感損失權(quán)重添加到所對(duì)應(yīng)的數(shù)據(jù)層面。本節(jié)直接采用對(duì)角矩陣權(quán)重,Wp計(jì)算公式如下:
其中,i=1,2,…,u;#(pi)表示第i個(gè)數(shù)據(jù)所屬類別的數(shù)據(jù)量;AVG(pi)表示平均類別的數(shù)據(jù)量。
為提升BLS 模型對(duì)不平衡數(shù)據(jù)的識(shí)別能力,上文從理論上分析了在BLS 的誤差項(xiàng)上添加權(quán)重的作用。為進(jìn)一步提升模型對(duì)于少數(shù)類的識(shí)別能力,將WBLS 集成到AdaBoost.M1 框架中,以獲得更符合數(shù)據(jù)分布特征的權(quán)重形式。
AdaBoost 是一種高效集成學(xué)習(xí)方法[21],主要思想是在訓(xùn)練空間上生成一個(gè)分布D,初始分配每個(gè)訓(xùn)練樣本的權(quán)值為1/u,其中u為訓(xùn)練樣本個(gè)數(shù)。利用迭代訓(xùn)練基分類器,動(dòng)態(tài)更新分類器的權(quán)重,并根據(jù)多數(shù)投票規(guī)則將基分類器集成為一個(gè)強(qiáng)分類器。本文的基分類器是WBLS,其將T個(gè)基分類器迭代訓(xùn)練,從而集成為一個(gè)分類能力更強(qiáng)的分類器AdaBoost-WBLS。
在AdaBoost 原始框架中,訓(xùn)練樣本的分布權(quán)值是通過動(dòng)態(tài)迭代實(shí)現(xiàn)對(duì)基分類器的權(quán)重更新。在WBLS 處理不平衡數(shù)據(jù)時(shí),添加權(quán)重Wp可抑制少數(shù)類樣本的誤差,提升分類器對(duì)少數(shù)類的識(shí)別能力。本文將WBLS 集成到AdaBoost,實(shí)現(xiàn)了對(duì)權(quán)重Wp的動(dòng)態(tài)更新,可獲得更合理的權(quán)重形式。與文獻(xiàn)[5]的加權(quán)方式不同,本文權(quán)重采用對(duì)角矩陣形式Wp=diag(),僅在不同數(shù)據(jù)對(duì)應(yīng)的特征上添加一維常數(shù)的權(quán)重。
與傳統(tǒng)Boosting 類模型集成過程不同,當(dāng)模型輸出數(shù)據(jù)的類別數(shù)為j時(shí),本文對(duì)AdaBoost-WBLS的集成過程進(jìn)行如下改進(jìn):
1)在傳統(tǒng)的AdaBoost 模型中,第1 個(gè)基分類器的起始數(shù)據(jù)的權(quán)重通常選用1/u,而本文采用特殊起始權(quán)重1/(j×Wp)。這種將類別數(shù)據(jù)引入模型初始化過程的方式,可增加模型的類別信息,提升AdaBoost-WBLS 對(duì)少數(shù)類樣本的識(shí)別效率與識(shí)別能力。權(quán)重初始化公式如下:
其中:i=1,2,…,u。
2)在傳統(tǒng)Boosting 類模型中,集成學(xué)習(xí)過程是對(duì)所有訓(xùn)練樣本之間進(jìn)行歸一化迭代處理,而本文模型采用在類別內(nèi)部歸一化的方法,以達(dá)到提升類間平衡度的目的,即分布權(quán)值Dt(xi),i=1,2,…,u對(duì)不同類別分別累加,依次更新。更新公式如下:
算法1AdaBoost-WBLS 算法
輸入訓(xùn)練集P={(x1,y1),(x1,y1),…,(xu,yu)},迭代次數(shù)(即BLS 基分類器個(gè)數(shù))T
為驗(yàn)證AdaBoost-WBLS性能,將其分別與Boosting類、BLS 類模型進(jìn)行消融實(shí)驗(yàn)研究,之后與KMODM[7]、CWsRF[8]、WMODA[9]、CS-DNN[10]這4 種不平衡分類模型進(jìn)行對(duì)比研究。實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng),8 GB內(nèi)存,Intel Core i7 6500 CPU,編程環(huán)境為Matlab 2016b。采用輸出形式,共輸出j個(gè)類別,在輸出類別的位置上設(shè)置為1,其余位置均設(shè)置為-1。
映射特征層節(jié)點(diǎn)數(shù)、特征層數(shù)、增強(qiáng)節(jié)點(diǎn)層數(shù)、正則化參數(shù)取值范圍分別為N1=10、N2∈{1,3,…,21}、N3∈{1,10,20,…,500}、λ∈{2-40,2-39,…,20,…,220}。
引入不平衡率(Imbalance Ratio,IR),評(píng)價(jià)不同的不平衡數(shù)據(jù)集中數(shù)據(jù)的分布形式。在二分類中IR的計(jì)算公式如下:
其中:#(minority)、#(majority)分別表示數(shù)據(jù)集中多數(shù)類與少數(shù)類的樣本數(shù)。
在多分類中IR 的計(jì)算公式如下:
在對(duì)數(shù)據(jù)進(jìn)行分類時(shí),準(zhǔn)確率是分類任務(wù)常用的評(píng)價(jià)指標(biāo),但是在不平衡分類任務(wù)中,使用準(zhǔn)確率作為評(píng)價(jià)模型性能的唯一指標(biāo),不能準(zhǔn)確表征模型對(duì)少數(shù)類的分類能力。以二分類為例,在一些極端的分布中,少數(shù)類與多數(shù)類的比例可能達(dá)到99∶1,模型即使不具備對(duì)少數(shù)樣本的分類能力,依然可以得到較高的準(zhǔn)確率,但此時(shí)的全局準(zhǔn)確率不能用于評(píng)價(jià)其對(duì)于少數(shù)類的識(shí)別能力。因此,本文還選用G-mean 評(píng)價(jià)指標(biāo)來評(píng)價(jià)不平衡數(shù)據(jù)的分類結(jié)果。
在二分類中,將少數(shù)類作為正樣本(+1),多數(shù)類作為負(fù)樣本(-1),則二分類混淆矩陣如表1 所示。
表1 二分類混淆矩陣Table 1 Binary confusion matrix
在表1 中,TTP為正樣本被分類為正確類的統(tǒng)計(jì)量,F(xiàn)FP為負(fù)樣本被分類為正樣本的統(tǒng)計(jì)量,F(xiàn)FN為正樣本被分類為負(fù)樣本的統(tǒng)計(jì)量,TTN為負(fù)樣本被分類為正確類的統(tǒng)計(jì)量。
準(zhǔn)確率(Accuracy)表示所有樣本的準(zhǔn)確識(shí)別率,計(jì)算公式如下:
召回率(Recall)表示正樣本(少數(shù)類)的識(shí)別率,計(jì)算公式如下:
特異率(Specificity)表示負(fù)樣本(多數(shù)類)的識(shí)別率,計(jì)算公式如下:
G-mean 值表示各類別識(shí)別率的幾何平均值。在二分類任務(wù)中,G-mean 是召回率與特異率的幾何平均值,計(jì)算公式如下:
在多分類任務(wù)中,分類目標(biāo)數(shù)大于2。此時(shí),G-mean采用一對(duì)多(One-Against-All,OAA)的統(tǒng)計(jì)方式,分別計(jì)算各類別的識(shí)別準(zhǔn)確率,再求整體G-mean。當(dāng)有j個(gè)類別時(shí),G-mean 計(jì)算公式如下:
選取UCI 數(shù)據(jù)庫中15 個(gè)不平衡數(shù)據(jù)集作為消融實(shí)驗(yàn)與對(duì)比實(shí)驗(yàn)對(duì)象。數(shù)據(jù)集具體情況如表2 所示,其中,12 個(gè)數(shù)據(jù)集是二分類數(shù)據(jù)集,3 個(gè)數(shù)據(jù)集是多分類數(shù)據(jù)集,不平衡率分布范圍為0.007 6~0.912 8。Abalone 數(shù)據(jù)集與Yeast 數(shù)據(jù)集為生物數(shù)據(jù)集,前者通過物理測量預(yù)測鮑魚的年齡,后者可對(duì)核蛋白和非核蛋白的核定位信號(hào)進(jìn)行判別分析。New-thyroid 為甲狀腺疾病數(shù)據(jù)集,Glass、Vehicle 與Satimage 數(shù)據(jù)集為普通分類數(shù)據(jù)集。
表2 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置Table 2 Setting of experimental dataset
本文對(duì)寬度學(xué)習(xí)模型中的正則化參數(shù)λ進(jìn)行實(shí)驗(yàn)討論。在相關(guān)研究中,參數(shù)λ通常采用固定值λ=2-30。因此,通過實(shí)驗(yàn)分析不平衡數(shù)據(jù)處理時(shí),參數(shù)λ變化對(duì)實(shí)驗(yàn)結(jié)果的影響。
實(shí)驗(yàn)對(duì)象為不平衡數(shù)據(jù)集Glass4,N1、N2和N3分別選取10、20 和500,使參數(shù)λ成為唯一變量。實(shí)驗(yàn)參考了大量研究對(duì)λ的取值方式,選取取值范圍為λ∈{2-40,2-39,…,20,…,220}。通過實(shí)驗(yàn)對(duì)比了BLS、g=1時(shí)W1-BLS 和g=0.618 時(shí)W2-BLS 的G-mean 結(jié)果,如圖1 所示。
圖1 Glass4 數(shù)據(jù)集上隨λ 變化的G-meanFig.1 G-mean when λ varies on the Glass4 dataset
根據(jù)實(shí)驗(yàn)結(jié)果可知,在λ從2-40變化到220的過程中,G-mean 值基本呈現(xiàn)先上升后下降的趨勢。當(dāng)λ逐漸增大時(shí),會(huì)達(dá)到最優(yōu)的G-mean。當(dāng)繼續(xù)增大時(shí),模型將會(huì)出現(xiàn)過擬合現(xiàn)象,導(dǎo)致G-mean 值迅速降低。根據(jù)對(duì)比可知,在BLS 內(nèi)添加形如Wp=diag()的權(quán)重,不僅可以提升模型的G-mean 峰值,而且相對(duì)提高了模型的穩(wěn)定性。
3.4.1 Boosting 類模型實(shí)驗(yàn)驗(yàn)證
本文設(shè)計(jì)一種將WBLS 作為基分類器并在AdaBoost 框架中嵌入WBLS 以提升不平衡數(shù)據(jù)分類性能的優(yōu)化方法。設(shè)置N1、N2、N3、λ分別為10、20、500、220。AdaBoost-WBLS 與DDbCs-BLS 等加權(quán)寬度學(xué)習(xí)模型的最大不同點(diǎn)在于:基于AdaBoost 模型可以實(shí)現(xiàn)自動(dòng)更新訓(xùn)練樣本所添加的權(quán)值。在AdaBoost 中,分布權(quán)重是訓(xùn)練樣本的重要性表征。在訓(xùn)練過程中,被錯(cuò)誤分類的樣本通過獲得相比較被正確分類樣本更大的分布權(quán)重以提升其重要性。因此,本文采用訓(xùn)練樣本所添加的分布權(quán)值Wp作為AdaBoost-WBLS 中的訓(xùn)練樣本對(duì)應(yīng)的權(quán)值。
在Yeast1vs7 數(shù)據(jù)集上,對(duì)AdaBoost-WBLS 與傳統(tǒng)Boosting 框架的BLS 迭代過程中G-mean 的變化情況進(jìn)行比較,結(jié)果如圖2 所示。由圖2 可知,AdaBoost-WBLS 模型的G-mean 曲線上升更快,獲取最優(yōu)基分類的迭代次數(shù)更少,穩(wěn)定性更強(qiáng),并且峰值更高,表明了學(xué)習(xí)到的特征更豐富。
圖2 Yeast1vs7 數(shù)據(jù) 集上AdaBoost-WBLS 與Boosting-BLS 模型的G-meanFig.2 G-mean of AdaBoost-WBLS and Boosting-BLS model on Yeast1vs7 dataset
在5個(gè)數(shù)據(jù)集上對(duì)Boosting-WELM、AdaBoost-WELM、Boosting-WBLS、AdaBoost-WBLS這4種Boosting模型進(jìn)行性能對(duì)比,G-mean結(jié)果如表3所示,Accuracy結(jié)果如表4所示,其中Boosting-WELM 和AdaBoost-WELM 模型的結(jié)果引自文獻(xiàn)[3]。BLS參數(shù)通過網(wǎng)格搜索設(shè)置為最優(yōu)參數(shù),其中,λ為正則化參數(shù),L為網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)。
比較表3、表4中AdaBoost-WBLS與Boosting-WBLS模型結(jié)果可以看出:前者在多數(shù)數(shù)據(jù)集上的G-mean 都相對(duì)更高,且具有相對(duì)較高的Accuracy;在Yeast3 數(shù)據(jù)集上G-mean 高0.90 個(gè)百分點(diǎn),Accuracy 基本相等;在Yeast6 數(shù)據(jù)集上G-mean 高5.17 個(gè)百分 點(diǎn),Accuracy 下降了0.98 個(gè)百分點(diǎn);在Abalone19 數(shù)據(jù)集上G-mean高1.75 個(gè)百分點(diǎn),Accuracy 卻下降了3.25 個(gè)百分點(diǎn),這說明AdaBoost-WBLS 模型更關(guān)注少數(shù)類,而Boosting-WBLS 模型更關(guān)注多數(shù)類的總體準(zhǔn)確率。比較表3、表4 中AdaBoost-WBLS、Boosting-WELM與AdaBoost-WELM 模型結(jié)果可以得出,在經(jīng)過網(wǎng)格搜索得出最佳參數(shù)后,BLS 模型具有更高的Gmean 與Accuracy。
表3 Boosting 類相關(guān)模型消融實(shí)驗(yàn)的G-meanTable 3 G-mean of Boosting-related model ablation experiments
表4 Boosting 類相關(guān)模型消融實(shí)驗(yàn)的AccuracyTable 4 Accuracy of Boosting-related model ablation experiments
3.4.2 BLS 類模型實(shí)驗(yàn)驗(yàn)證
在6 個(gè)二分類數(shù)據(jù)集上比較了AdaBoost-WBLS、BLS、DDbCs-BLS 模型的G-mean 與Accuracy,結(jié)果如表5、表6 所示。由表5、表6 可以看出:與BLS 模型相比,AdaBoost-WBLS模型的G-mean結(jié)果均得到了改善,在Yeast3數(shù)據(jù)集上AdaBoost-WBLS 模型提升了9.31個(gè)百分點(diǎn),在Vehicle1 數(shù)據(jù)集上提升了2.38 個(gè)百分點(diǎn);與DDbCs-BLS[19]模型相比,AdaBoost-WBLS 模型的G-mean 在Yeast1 數(shù)據(jù)集上高出3.67 個(gè)百分點(diǎn),在Vehicle2 數(shù)據(jù)集上提高了0.8 個(gè)百分點(diǎn)。由此可見,本文提出的不平衡數(shù)據(jù)分類方法在結(jié)合Boosting模型后,提升了集成模型的局部泛化能力。
表5 BLS 類相關(guān)模型消融實(shí)驗(yàn)的G-meanTable 5 G-mean of Boosting-related model ablation experiments %
表6 BLS 類相關(guān)模型消融實(shí)驗(yàn)的AccuracyTable 6 Accuracy of Boosting-related model ablation experiments %
在Vehicle0、Vehicle3、Yeast3 等3 個(gè)二分類與New-thyriod、Vehicle、Satimage等3個(gè)多分類數(shù)據(jù)集上對(duì) 比AdaBoost-WBLS 與KMODM[7]、CWsRF[8]、WMODA[9]、CS-DNN[10]模型的不平衡數(shù)據(jù)分類性能。G-mean結(jié)果如表7所示。由表7可以看出,AdaBoost-WBLS 的G-mean 明顯高于其他4 種模型,在Vehicle0數(shù)據(jù)集上比KMODM 模型高出3.74 個(gè)百分點(diǎn),在New-thyriod 數(shù)據(jù)集上比CWsRF 模型高出3.09 個(gè)百分點(diǎn),在Satimage 數(shù)據(jù)集上比WMODA 模型高出4.36 個(gè)百分點(diǎn),在Vehicle 數(shù)據(jù)集上比CS-DNN 模型高出1.15 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了AdaBoost-WBLS 模型通過多個(gè)加權(quán)BLS 組合成的新分類器可有效處理不平衡數(shù)據(jù)。
表7 對(duì)比實(shí)驗(yàn)的G-meanTable 7 G-mean of contrast experiments %
Accuracy 結(jié)果如表8 所示,可以看出相比其他4 種模型,AdaBoost-WBLS 模型的Accuracy 相對(duì)較高。在New-thyriod 數(shù)據(jù)集上比WMODA 模型高出4.65 個(gè)百分點(diǎn),達(dá)到100%。可見,AdaBoost-WBLS 模型在提升對(duì)少數(shù)類識(shí)別能力的同時(shí),具有較高的識(shí)別精度。
表8 對(duì)比實(shí)驗(yàn)的AccuracyTable 8 Accuracy of contrast experiments %
本文研究旨在通過集成AdaBoost 與WBLS 提升BLS 的不平衡數(shù)據(jù)集處理能力?;贙KT 條件推導(dǎo)驗(yàn)證了WBLS 的有效性。將加權(quán)寬度學(xué)習(xí)的數(shù)據(jù)特征與AdaBoost 中分類器的權(quán)重結(jié)合,在算法層面進(jìn)行AdaBoost 與BLS 的融合。在AdaBoost-WBLS 集成初始化時(shí),WBLS 采用基于類別信息的權(quán)重,使基分類器具有先驗(yàn)類別信息并且模型更快收斂。在迭代訓(xùn)練過程中,對(duì)WBLS 基分類器數(shù)據(jù)權(quán)重的更新方式進(jìn)行調(diào)整。對(duì)不同類別數(shù)據(jù)對(duì)應(yīng)的權(quán)重采用不同的正則化準(zhǔn)則,使權(quán)值具有更高的類間區(qū)分度,同時(shí)顯著提升模型的訓(xùn)練效率。實(shí)驗(yàn)結(jié)果表明,AdaBoost-WBLS 模型相比同類模型在二分類與多分類數(shù)據(jù)集上G-mean 均有顯著提升,準(zhǔn)確率較高,且具有較好的不平衡數(shù)據(jù)的處理能力。下一步將使用集成BLS 的AdaBoost 模型,解決多模態(tài)數(shù)據(jù)分類等問題。