孟 蕓, 王 喆(華東理工大學(xué)計(jì)算機(jī)科學(xué)與工程系,上海 200237)
矩陣型多類代價(jià)敏感分類器模型
孟 蕓, 王 喆
(華東理工大學(xué)計(jì)算機(jī)科學(xué)與工程系,上海 200237)
目前大部分分類器都是以分類正確率來衡量性能,這種評(píng)價(jià)標(biāo)準(zhǔn)都是基于理想情況下所有錯(cuò)誤分類代價(jià)都是相同的。但實(shí)際生活中往往不同的錯(cuò)誤分類會(huì)帶來不同的損失,因此代價(jià)敏感學(xué)習(xí)成為模式識(shí)別中一個(gè)熱點(diǎn)研究領(lǐng)域。本文將代價(jià)敏感思想與矩陣型學(xué)習(xí)機(jī)相結(jié)合,提出了一個(gè)矩陣型多類代價(jià)敏感分類器模型。通過與其他分類器在常用數(shù)據(jù)集上的對比實(shí)驗(yàn)證明,該方法降低了錯(cuò)誤分類代價(jià),提高了少數(shù)類或代價(jià)高類別的分類正確率,并可以在有效次內(nèi)收斂,是一個(gè)有效且實(shí)用的方法。
模式識(shí)別;代價(jià)敏感;分類器設(shè)計(jì)
分類器設(shè)計(jì)是機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域重要的一部分。目前大多數(shù)分類模型都側(cè)重于使用分類正確率來衡量一個(gè)算法的性能,并默認(rèn)這種評(píng)價(jià)標(biāo)準(zhǔn)都是基于所有錯(cuò)誤分類代價(jià)是相同的。但是實(shí)際生活中的分類問題,數(shù)據(jù)錯(cuò)誤分類代價(jià)往往不相等[1-2]。比如,在門禁系統(tǒng)的家庭成員識(shí)別問題上,將一個(gè)家庭成員識(shí)別錯(cuò)誤使其不能進(jìn)入引起的代價(jià)遠(yuǎn)遠(yuǎn)小于將一個(gè)不屬于家庭成員的陌生人誤識(shí)別使其進(jìn)入房屋帶來的損失。對于這類錯(cuò)誤分類代價(jià)不同的情況,如在信用卡欺詐檢測、醫(yī)療、網(wǎng)絡(luò)入侵檢測等領(lǐng)域,僅使用傳統(tǒng)的代價(jià)不敏感分類器并不能達(dá)到很好的分類效果[3]。而代價(jià)敏感學(xué)習(xí)的目標(biāo)就是通過最小化錯(cuò)誤分類總代價(jià)做出最優(yōu)決策,因此,將代價(jià)敏感思想引入到分類器設(shè)計(jì)中具有十分深遠(yuǎn)的意義[4]。
本文提出了一種新型的代價(jià)敏感學(xué)習(xí)模型——矩陣型多類代價(jià)敏感分類器(Cs Mc Mat MHKS),實(shí)驗(yàn)表明,該方法與矩陣型多類代價(jià)不敏感的Mc Mat MHKS分類器相比,有效地降低了錯(cuò)誤分類總代價(jià)并提高了少數(shù)類的分類正確率。
1.1代價(jià)敏感研究現(xiàn)狀
代價(jià)敏感學(xué)習(xí)方法是機(jī)器學(xué)習(xí)中的一種新方法,不同于傳統(tǒng)分類方法盡可能降低錯(cuò)誤分類率,它主要是將各類不同的誤分代價(jià)引進(jìn)到分類決策中以降低錯(cuò)誤分類的總體代價(jià)[3-5]。目前,代價(jià)敏感學(xué)習(xí)算法的研究主要集中在以下幾個(gè)方面:
(1)基于重采樣的方法,也叫重構(gòu)訓(xùn)練集的方法。根據(jù)代價(jià)矩陣改變原始樣本分布重構(gòu)訓(xùn)練集,再結(jié)合一種基于最小錯(cuò)誤率的分類方法進(jìn)行訓(xùn)練并分類[6]。通過不同的采樣方法,如過采樣、欠采樣或者兩者結(jié)合的形式[7]將分布不平衡的訓(xùn)練數(shù)據(jù)調(diào)整為均勻分布的數(shù)據(jù)。過采樣是通過隨機(jī)復(fù)制或者其他方式生成少數(shù)類樣本,改變訓(xùn)練集樣本中的分布,達(dá)到樣本類別的均衡,也可以根據(jù)代價(jià)信息過采樣樣本。過采樣的缺點(diǎn)是會(huì)增加額外的信息或噪聲,不一定能達(dá)到一個(gè)較好的結(jié)果。欠采樣既也是改變訓(xùn)練集眾數(shù)據(jù)分布使各類樣本達(dá)到平衡,與過采樣不同的是,它通過降低低代價(jià)樣本數(shù)目來達(dá)到目的,同時(shí),這種方式會(huì)損失一部分可能攜帶重要信息的樣本,對分類造成不必要的影響。而混合采樣則是把兩者結(jié)合起來以求更佳效果的方法,實(shí)驗(yàn)證明,混合采樣繼承了過采樣與欠采樣的優(yōu)點(diǎn),又盡量避免了它們的缺點(diǎn),已被廣泛采用。
(2)基于對分類結(jié)果的后處理,即按照傳統(tǒng)學(xué)習(xí)方法學(xué)習(xí)一個(gè)分類模型,然后對分類結(jié)果按照貝葉斯風(fēng)險(xiǎn)理論進(jìn)行調(diào)整,以達(dá)到損失最小。較為著名的MetaCost方法[8]是一個(gè)將普通分類器轉(zhuǎn)化為代價(jià)敏感分類器的最普遍方法,它不依賴于所使用的具體分類器,對分類算法不作改變,經(jīng)過多次取樣,把訓(xùn)練集分為多個(gè)子模型訓(xùn)練多個(gè)分類器,綜合各個(gè)分類器給出的分類結(jié)果估計(jì)樣本的后驗(yàn)概率,再計(jì)算錯(cuò)誤分類總代價(jià)[9-10],根據(jù)最小代價(jià)修改類標(biāo)號(hào)。MetaCost方法主要有兩個(gè)方面的缺點(diǎn):一是對訓(xùn)練集進(jìn)行重新標(biāo)記,再利用數(shù)據(jù)集來反映代價(jià)敏感性的有效性還需進(jìn)一步驗(yàn)證[1];二是不能準(zhǔn)確地對后驗(yàn)概率進(jìn)行估計(jì)。
(3)直接構(gòu)造一個(gè)代價(jià)敏感的學(xué)習(xí)模型或者修改已有的分類算法,將代價(jià)的影響嵌入到?jīng)Q策的過程[10-11]。最常用的方法有可以直接處理樣本權(quán)重的決策樹、代價(jià)敏感人工神經(jīng)網(wǎng)絡(luò)和代價(jià)敏感支持向量機(jī)等[12-14]。如神經(jīng)網(wǎng)絡(luò),有多種方法可以使神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為代價(jià)敏感算法,如得到測試樣的后驗(yàn)概率,再使用貝葉斯風(fēng)險(xiǎn)決策,或者改變輸出層每次迭代時(shí)的輸出,使其代價(jià)敏感等。文獻(xiàn)[15-16]用指數(shù)形式表示的極值問題替換用符號(hào)函數(shù)表示的錯(cuò)誤分類代價(jià)極值問題,結(jié)合遞推得到了可以直接應(yīng)用于多分類問題的代價(jià)敏感學(xué)習(xí)的AdaBoost算法。
1.2矩陣型多類分類模型
面向矩陣的修正Ho-Kashyap分類器(Mat MHKS)[17]是一種可以直接處理矩陣模式的分類器,目前這個(gè)方法僅基于兩類情況設(shè)計(jì),在多分類問題上使用“一對一”策略實(shí)現(xiàn),時(shí)間復(fù)雜度較大。矩陣型多類分類器Mc Mat MHKS是一種直接多類矩陣型分類器[18],在實(shí)際的多類分類問題上,傳統(tǒng)的二元分類器將多類分類問題分解成多個(gè)兩類分類子問題,通過綜合各個(gè)子分類器的分類結(jié)果得出最終決策,而Mc Mat MHKS則是直接得出最后的分類結(jié)果,相比于傳統(tǒng)的兩類分類方法,直接法與矩陣化思想的結(jié)合,在保持了數(shù)據(jù)分類精度的同時(shí)也降低了分類的時(shí)間復(fù)雜度。
本文中代價(jià)矩陣的設(shè)置采用常用的基于類別的代價(jià)敏感,即每一類樣本被錯(cuò)誤分類所帶來的代價(jià)相等,而不同類別之間不相等[19-20]。假設(shè)C(i,j)為代價(jià)矩陣,行表示類別,列表示預(yù)測類別,Cij表示第i類樣本被錯(cuò)誤分類為第j類樣本的代價(jià)。為了方便計(jì)算,對每一樣本采用以式(1)表示的這一類樣本被錯(cuò)誤分類的代價(jià),這一類的每個(gè)樣本被錯(cuò)誤分類的代價(jià)相同[5,13,21],即
Mc Mat MHKS的判別函數(shù)如下:
單純地把樣本代價(jià)嵌入判別函數(shù)使代價(jià)參與決策面偏移,經(jīng)實(shí)驗(yàn)證明結(jié)果會(huì)根據(jù)代價(jià)的設(shè)置不同而比較隨機(jī)。現(xiàn)設(shè)計(jì)加入樣本權(quán)重系數(shù),其與樣本錯(cuò)誤分類代價(jià)成反比,如式(3)所示。即當(dāng)一類樣本被分錯(cuò)的風(fēng)險(xiǎn)對總體分類結(jié)果影響較大時(shí),可能會(huì)過擬合,我們試圖減小各樣本錯(cuò)誤分類誤差在總體中的比重來均衡各樣本對分類結(jié)果的總體貢獻(xiàn),以期獲得分類代價(jià)和推廣能力能達(dá)到一種平衡[1,5-6]。
根據(jù)公式以及代價(jià)矩陣為每一樣本設(shè)置權(quán)重系數(shù),同一類別的樣本權(quán)重系數(shù)相同[22]。對于判別函數(shù)式(2),可以通過轉(zhuǎn)換為最小化總分類風(fēng)險(xiǎn)求得判別函數(shù)中權(quán)向量的最優(yōu)解。
Cs Mc Mat MHKS的準(zhǔn)則函數(shù)由經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)兩部分組成。
其中加入權(quán)重系數(shù)ω后的經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp計(jì)算如下:
正則化風(fēng)險(xiǎn)Rreg計(jì)算如下:
式中:r為正則化系數(shù);S1和S2是兩個(gè)單位矩陣,S1=(d1+1)Id1×d1,S2=(d2+1)Id2×d2。
可以看出,當(dāng)所有樣本錯(cuò)誤分類代價(jià)相同時(shí),由式(3)可知,Ci/Cj=1。同時(shí)各樣本權(quán)重系數(shù)比例一致,ωi=ωj,即當(dāng)系數(shù)都為1時(shí),判別函數(shù)式(2)就是代價(jià)不敏感的Mc Mat MHKS,因此本文方法也是對Mc Mat MHKS的擴(kuò)展。
將式(5)、式(6)代入到式(4)可以得到
在分類器最終決策階段,假設(shè)一個(gè)訓(xùn)練數(shù)據(jù)(Ai,yi),把它判為第j類,應(yīng)當(dāng)滿足式(10)。
Cs Mc Mat MHKS算法步驟如下:
(1)根據(jù)樣本每一類別樣本數(shù)目,設(shè)置代價(jià)矩陣C;根據(jù)式(3)設(shè)置樣本的權(quán)重系數(shù)ωi,同一類別樣本的權(quán)重系數(shù)相同。
3.1實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)過程中,代價(jià)矩陣是自定義的,為了證明不同代價(jià)矩陣情況下算法的有效性,設(shè)置了兩種不同的代價(jià)矩陣進(jìn)行實(shí)驗(yàn)。本文采用的數(shù)據(jù)集來自UCI基準(zhǔn)數(shù)據(jù)集[23]中常用的兩個(gè)平衡數(shù)據(jù)集Banana和Water,以及不平衡數(shù)據(jù)集Breast Cancer Wisconsin (BCW)、Ionosphere和Ecoli。表1示出了各數(shù)據(jù)集的具體相關(guān)信息,表2示出了具體的代價(jià)設(shè)置。
表1 數(shù)據(jù)集具體信息Table 1 Information of the datasets
實(shí)驗(yàn)中設(shè)定數(shù)據(jù)集中的一半數(shù)據(jù)用于訓(xùn)練,另一半用于測試。正則化系數(shù)來自集合{10-3,10-2,10-1,1,10,102}。對比算法來自同一分類器家族,分別是本文方法Cs Mc Mat MHKS、Cost-blind Mc Mat MHKS、面向矩陣的修正Ho-Kashyap分類器(Mat MHKS)和修正Ho-Kashyap分類器(MHKS)[17]。針對UCI數(shù)據(jù)形式,同時(shí)也將向量型樣本轉(zhuǎn)換成多個(gè)矩陣型數(shù)據(jù)并從中選擇最優(yōu)的表示形式。例如BCW樣本維度為10,則轉(zhuǎn)化為矩陣形式有1×10,2×5,5×2和10×1共4種,其他數(shù)據(jù)集進(jìn)行同樣處理。因數(shù)據(jù)集不同,每個(gè)對應(yīng)的預(yù)設(shè)代價(jià)矩陣也不相同,遵循的基本規(guī)則是不平衡數(shù)據(jù)集中少數(shù)類樣本被錯(cuò)誤分類代價(jià)高于多數(shù)類樣本代價(jià),而平衡數(shù)據(jù)集中根據(jù)類別可隨機(jī)自定義。實(shí)驗(yàn)過程中,采用10輪Monte Carlo交叉驗(yàn)證(MCCV)[24],即每一個(gè)參數(shù)重復(fù)10次實(shí)驗(yàn),最終求得平均值,以保證實(shí)驗(yàn)的準(zhǔn)確度。MCCV與一般的交叉驗(yàn)證不同的是,每次循環(huán)它從整個(gè)數(shù)據(jù)集中無放回的選擇數(shù)據(jù)構(gòu)建訓(xùn)練集,剩余的做測試集,這樣能夠保證訓(xùn)練測試集都是有變化的并且每個(gè)劃分不重復(fù)。MCCV能夠避免訓(xùn)練規(guī)模過大,減少過擬合,因此,選用MCCV來驗(yàn)證本文方法的穩(wěn)定性和可信性。對于不平衡數(shù)據(jù)集,單純的分類正確率并不能很好地評(píng)估分類器性能,因此在不平衡數(shù)據(jù)集上采用了常用的G-means[25]作為評(píng)價(jià)標(biāo)準(zhǔn)。
表2 各數(shù)據(jù)集對應(yīng)錯(cuò)誤分類代價(jià)比例設(shè)置的代價(jià)矩陣(第1類/第2類/…/第n類)Table 2 Settings of cost matrix on the datasets(Costclass1/ Costclass2/…/Costclass n)
其中:Ri表示每一類的分類正確率;k表示類別總數(shù)。
3.2實(shí)驗(yàn)結(jié)果
表3和表4示出了代價(jià)敏感Cs Mc Mat MHKS (Cs)、代價(jià)不敏感Cost-blind Mc Mat MHKS(Cb)、Mat MHKS和MHKS在4個(gè)數(shù)據(jù)集Banana、Water、BCW和Ionosphere上的實(shí)驗(yàn)結(jié)果,評(píng)價(jià)指標(biāo)包括分類總代價(jià)SumCost、G-means、分類正確率,并列出了達(dá)到最優(yōu)結(jié)果時(shí)對應(yīng)的矩陣表示形式和正則化系數(shù)r的值,其中分類總代價(jià)最低的算法數(shù)據(jù)用黑體表示,G-means最高的值以下劃線標(biāo)出。圖1示出了Cs與Cb在Ecoli數(shù)據(jù)集上各類別的分類正確率對比結(jié)果。
本文在Banana和Ecoli數(shù)據(jù)集上對式(7)進(jìn)行了收斂性分析,收斂曲線如圖2所示。圖2中橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示目標(biāo)函數(shù)的對數(shù)值。
表3 第1種代價(jià)矩陣下Cs,Cb,Mat MHKS,MHKS在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of Cs,Cb,Mat MHKS and MHKS on Banana,Water,BCW and Ionosphere
表4 第2種代價(jià)矩陣下Cs,Cb,Mat MHKS,MHKS在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of Cs,Cb,Mat MHKS and MHKS on Banana,Water,BCW and Ionosphere
圖1 Cs和Cb在Ecoli上每一類對應(yīng)的分類正確率Fig.1 Accuracy of Cs Mc Mat MHKS and Cost-blind Mc Mat MHKS on Ecoli classes
圖2 Cs在Banana和Ecoli上的收斂曲線Fig.2 Convergence analysis of Cs Mc Mat MHKS on Banana and Ecoli
3.3實(shí)驗(yàn)結(jié)果分析
從表3和表4中可以看出:
(1)本文方法在大部分?jǐn)?shù)據(jù)集上與代價(jià)不敏感的Mc Mat MHKS、Mat MHKS和MHKS相比達(dá)到了最小錯(cuò)誤分類總代價(jià),尤其是當(dāng)樣本類別之間的代價(jià)比例差別變大時(shí),效果更為明顯。例如,Banana數(shù)據(jù)集在第1種代價(jià)比為1/2時(shí),本文方法與最大錯(cuò)誤分類代價(jià)之差為10.80,而在第2種代價(jià)比為1/5時(shí),本文方法與最大錯(cuò)誤分類代價(jià)之差為54。實(shí)驗(yàn)數(shù)據(jù)充分證明了代價(jià)敏感方法與其他方法相比,尤其是與代價(jià)不敏感原型相比,在降低分類總代價(jià)方面的有效性。
(2)針對不平衡數(shù)據(jù)集BCW和Ionosphere的G-means評(píng)價(jià)指標(biāo),本文方法明顯好于Mc Mat MHKS,并且優(yōu)于或者與Mat MHKS、MHKS相當(dāng)。例如表4中,在Ionosphere上的G-means值約為Mc Mat MHKS的兩倍。G-means值的提高表明代價(jià)敏感模型在少數(shù)類或者代價(jià)高的類別上的分類正確率有提升。
(3)從實(shí)驗(yàn)數(shù)據(jù)上看,矩陣形式不盡相同。有的在向量型數(shù)據(jù)上表現(xiàn)良好,有的在矩陣型數(shù)據(jù)上表現(xiàn)良好。這充分說明,針對最原始的向量型數(shù)據(jù)進(jìn)行不同的矩陣變換是十分必要的。
(4)從圖1中可以看到,Cs Mc Mat MHKS在Ecoli除第7、8類因僅有一個(gè)測試樣本而數(shù)量太少影響不大外,其他多數(shù)類與少數(shù)類上的分類正確率均有所提高。
(5)從圖2中可以看到本文方法均在有效次內(nèi)收斂,證明了該算法具有較好的學(xué)習(xí)效率。
針對大多數(shù)實(shí)際問題中不同的分類會(huì)帶來不同的損失,本文將代價(jià)敏感思想和相較于傳統(tǒng)向量型學(xué)習(xí)機(jī)有更優(yōu)性能的矩陣型學(xué)習(xí)機(jī)相結(jié)合,提出了矩陣型多類代價(jià)敏感分類器Cs Mc Mat MHKS。與代價(jià)不敏感的原型以及同一家族的分類器在數(shù)據(jù)集上的對比實(shí)驗(yàn)證明,本文方法可以有效降低錯(cuò)誤分類總代價(jià)并提高分類器在少數(shù)類或者代價(jià)較高類別上的分類正確率,且可以快速收斂。實(shí)驗(yàn)證明,本文方法有著較優(yōu)的分類性能,是一個(gè)有效且實(shí)用的模型。
[1] ZHANG Yin,ZHOU Zhihua.Cost-sensitive face recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(10):1758-1769.
[2] 葉志飛,文益民,呂寶糧.不平衡分類問題研究綜述[J].智能系統(tǒng)學(xué)報(bào),2009,4(2):148-156.
[3] 楊明,尹軍梅,吉根林.不平衡數(shù)據(jù)分類方法綜述[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2009,8(4):7-12.
[4] LI YUFENG,KWOK JAMES T,ZHOU Zhihua.Costsensitive semi-supervised support vector machine[C]// Proceedings of the National Conference on Artificial Intelligence.Atlanta,Georgia,USA:DBLP,2010:500-505.
[5] SAHARE M,GUPTA H.A review of multi-class classification for imbalanced data[J].International Journal of Advanced Computer Research,2012,2(3):160-164.
[6] 谷瓊,袁磊,寧彬,等.一種基于重取樣的代價(jià)敏感學(xué)習(xí)算法[J].計(jì)算機(jī)工程與科學(xué),2011,33(9):130-135.
[7] 程險(xiǎn)峰,李軍,李雄飛.一種基于欠采樣的不平衡數(shù)據(jù)分類算法[J].計(jì)算機(jī)工程,2011,37(13):147-149.
[8] DOMINGOS P.Metacost:A general method for making classifiers cost-sensitive[C]//Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA:ACM,1999:155-164.
[9] 凌曉峰,SHENG VICTOR S.代價(jià)敏感分離器的比較研究[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1203-1211.
[10] 閆明松,周志華.代價(jià)敏感分類算法的實(shí)驗(yàn)比較[J].模式識(shí)別與人工智能,2006,18(5):628-635.
[11] 王瑞.針對類別不平衡和代價(jià)敏感分類問題的特征選擇和分類算法[D].合肥:中國科學(xué)技術(shù)大學(xué),2013.
[12] 程學(xué)云,吉根林,凌霄漢.基于SVM的多類代價(jià)敏感學(xué)習(xí)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2007,6(4):79-82.
[13] 李剛.代價(jià)敏感的支持向量機(jī)監(jiān)督學(xué)習(xí)研究[D].南京:南京師范大學(xué),2007.
[14] ZHOU Zhihua,ZHANG Minling,HUANG Shengjun,et al. Multi-instance multi-label learning[J].Artificial Intelligence,2012,176(1):2291-2320.
[15] 付忠良.多分類問題代價(jià)敏感AdaBoost算法[J].自動(dòng)化學(xué)報(bào),2011,37(8):973-983.
[16] 付忠良.多標(biāo)簽代價(jià)敏感分類集成學(xué)習(xí)算法[J].自動(dòng)化學(xué)報(bào),2014,40(6):1075-1085.
[17] CHEN Songcan,WANG Zhe,TIAN Yongjun.Matrixpattern-oriented Ho-Kashyap classifier with regularization learning[J].Pattern Recognition,2005,40(5):1533-1543.
[18] WANG Zhe,MENG Yun,ZHU Yujin,et al.Mc Mat MHKS:A direct multi-class matrixized learning machine[J]. Knowledge-Based Systems,2015,88:184-194.
[19] 李勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1287-1291.
[20] RAUDYS S,RAUDYS A.Pairwise costs in multiclass perceptrons[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1324-1328.
[21] LU Jiwen,ZHOU Xiuzhuang,TAN Yap-Peng,et al.Costsensitive semi-supervised discriminant analysis for face recognition[J].IEEE Transactions on Information Forensics and Security,2012,7(3):944-953.
[22] TING Kaiming.An instance-weighting method to induce costsensitive trees[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(3):659-665.
[23] ASUNCION A,NEWMAN D.UCI machine learning repository[D].California:University of California Irvine of Information and Computer,2007:148-156.
[24] XU Qingsong,LIANG Yizeng.Monte Carlo cross validation [J].Chemometrics and Intelligent Laboratory Systems,2001,56(1):1-11.
[25] WANG Shuo,YAO Xin.Multiclass imbalance problems:Analysis and potential solutions[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42 (4):1119-1130.
Matrixized Multi-class Cost Sensitive Classification Mode
MENG Yun, WANG Zhe
(Department of Computer Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)
At present,most of the classifiers are evaluated by classification accuracy,which assumes that all the misclassification costs are the same.Actually,different misclassification may bring different loss.Therefore,the cost sensitive learning has been becoming a hot research area in pattern recognition.By combining the cost sensitive and matrixized learning thoughts,this paper proposes a matrixized multi-class cost sensitive classification mode.The experimental results on the data show that the proposed method can reduce the classification costs and improve the classification accuracy of the minority or higher cost classes. Meanwhile,the proposed method has a better convergence,which illustrates the effectiveness and practice of the proposed method.
pattern recognition;cost sensitive;classifier design
TP391
A
1006-3080(2016)01-0119-06 DOI:10.14135/j.cnki.1006-3080.2016.01.019
2015-05-07
國家自然科學(xué)基金面上項(xiàng)目(61272198);上海市教育委員會(huì)科研創(chuàng)新項(xiàng)目(14ZZ054);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金
孟 蕓(1990-),女,河北保定人,碩士生,研究方向?yàn)槟J阶R(shí)別。E-mail:mengyun_aijia@126.com
王 喆,E-mail:wangzhe@ecust.edu.cn