米愛(ài)中,陸 瑤
河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000
多分類器集成的目的是為了獲得更好的識(shí)別性能,在該項(xiàng)技術(shù)的研究過(guò)程中,可以很輕松地獲取大量分類器集合并通過(guò)某種手段進(jìn)行融合。但是這種做法存在一些弊端:首先隨著分類器數(shù)量的增加勢(shì)必會(huì)加大存儲(chǔ)空間與運(yùn)行時(shí)間的消耗;其次是經(jīng)過(guò)研究發(fā)現(xiàn),當(dāng)分類器數(shù)量過(guò)大時(shí),反而會(huì)由于分類器間差異度的減小而降低識(shí)別率[1]。因此分類器的選擇成為集成學(xué)習(xí)的重要研究方向之一,即從大量的分類器集合中挑選出具有一定差異度與準(zhǔn)確率的分類器參與集成。
通常研究人員認(rèn)為集成若干完全一致的分類器是無(wú)意義的,所選擇的分類器需要具有一定的差異性、獨(dú)立性與互補(bǔ)性[2]。目前比較流行的集成學(xué)習(xí)算法Bagging采用Bootstrap方法擾動(dòng)訓(xùn)練集,導(dǎo)致生成的分類器集合具有一定的差異。而另一種適用較為廣泛的集成學(xué)習(xí)算法Adaboost則采用一種權(quán)重分配機(jī)制串行生成具有一定差異度的分類器集合。諸多理論與實(shí)驗(yàn)證明集成算法相較于單分類器能夠體現(xiàn)出更優(yōu)的分類性能,這是由于基分類器的差異導(dǎo)致在目標(biāo)判別時(shí)可進(jìn)行互補(bǔ),進(jìn)而提升識(shí)別率[3]。然而缺點(diǎn)是隨著分類器數(shù)量的增多,Adaboost會(huì)產(chǎn)生更大的時(shí)間開(kāi)銷,而B(niǎo)agging則會(huì)產(chǎn)生部分冗余的分類器導(dǎo)致不必要的空間開(kāi)銷。因此一些學(xué)者開(kāi)始進(jìn)行基于差異性度量的分類器選擇研究,即在保障分類精度的基礎(chǔ)上去除冗余分類器,節(jié)約存儲(chǔ)空間。目前基于差異性度量的分類器選擇研究主要有兩個(gè)方向:
(1)以一種成對(duì)差異性度量方法作為標(biāo)準(zhǔn)的分類器選擇,如Li等人[4]提出的DREP(diversity regularized ensemble pruning)算法是根據(jù)分類器兩兩之間的差異度進(jìn)行排序后選擇差異度較大的若干個(gè)分類器參與集成。該方法雖然在一些數(shù)據(jù)集上得到了證明并且有效地降低了集成規(guī)模,但是仍有一些不足的地方:首先是僅考慮一種差異性度量方法,并且該方法的選擇會(huì)影響排序結(jié)果;其次是排序時(shí)起始分類器的選擇問(wèn)題,不同的起始分類器會(huì)產(chǎn)生不同的排序;最后是該算法需要人為指定選擇分類器的個(gè)數(shù)。
(2)以一類的差異性度量方法作為選擇標(biāo)準(zhǔn),如Cavalcanti等人[5]提出的DivP方法是將5種成對(duì)差異性度量方法加權(quán)組合后作為分類器選擇標(biāo)準(zhǔn),依據(jù)該標(biāo)準(zhǔn)將分類器集合分為若干組,并從中選擇準(zhǔn)確率最高的一組參與集成。該算法雖然有效度量了分類器的差異度,但是仍然局限于一類的差異性度量方法,并且將分類器分組后僅以準(zhǔn)確率作為各組分類器的篩選標(biāo)準(zhǔn),并未考慮各組的整體差異度,因此可能會(huì)導(dǎo)致所選擇的分類器集合并不是最佳的一組。
針對(duì)以上問(wèn)題,本文將成對(duì)與非成對(duì)差異性度量方法結(jié)合考慮,提出一種新的分類器選擇方法。本文方法主要由兩部分組成:(1)基于成對(duì)差異性度量的分類器分組。首先基于成對(duì)差異性度量公式計(jì)算得差異度矩陣,將差異度矩陣以一定方式轉(zhuǎn)換為鄰接矩陣后通過(guò)圖的形式表示分類器的關(guān)系,即將分類器分組問(wèn)題轉(zhuǎn)換為圖著色問(wèn)題,然后運(yùn)用基于遺傳算法的圖著色方法將圖的頂點(diǎn)(分類器)進(jìn)行動(dòng)態(tài)著色分組。(2)以5種非成對(duì)差異性度量方法作為評(píng)價(jià)指標(biāo),建立基于信息熵[6]的評(píng)價(jià)體系。計(jì)算各組分類器集合的權(quán)值,并選擇最佳的一組分類器集合參與最終的集成。通過(guò)實(shí)驗(yàn)分析本文方法與差異性度量、分類器規(guī)模的關(guān)系,并與目前流行的分類器集成方法進(jìn)行對(duì)比。
本文組織結(jié)構(gòu)如下:第2章介紹成對(duì)差異性度量的相關(guān)知識(shí),并給出一種基于遺傳算法的分類器分組方法;第3章建立一個(gè)基于信息熵的評(píng)價(jià)體系;第4章進(jìn)行算法的收斂性分析;第5章給出實(shí)驗(yàn)結(jié)果與性能分析;第6章總結(jié)全文并展望未來(lái)的工作。
本文采用同質(zhì)類型的(homogeneous)[7]基分類器,基于Bagging技術(shù),通過(guò)Bootstrap方法擾動(dòng)訓(xùn)練集,生成規(guī)模為L(zhǎng)的分類器集合。為了度量L個(gè)分類器間的差異性采用成對(duì)差異性度量方法,并通過(guò)整體取均值得到分類器集合的差異度。
目前常用的成對(duì)差異性度量方法有Q統(tǒng)計(jì)法(Q-statistic)、相關(guān)系數(shù)法(correlation coefficient)、雙錯(cuò)法(double-fault)、不一致度量(disagreement)等[8]。
(1)Q統(tǒng)計(jì)法
(2)相關(guān)系數(shù)法
(3)雙錯(cuò)法
(4)不一致度量
其中,Nij表示第i個(gè)分類器與第j個(gè)分類器的共同分類結(jié)果;N11與N00表示分類器ij均分類正確或錯(cuò)誤;N10表示分類器i正確,分類器j錯(cuò)誤;N01表示分類器i錯(cuò)誤,分類器j正確。
結(jié)合成對(duì)差異性度量公式進(jìn)行基分類器兩兩之間的差異度計(jì)算,生成L×L的成對(duì)差異度矩陣,如式(5)所示:
其中,div是對(duì)稱矩陣,主對(duì)角線di,j(i=j)表示分類器與自身的差異度,由于分類器與自身的差異度最小,因此在計(jì)算分類器集合整體差異度時(shí)并不將此考慮在內(nèi)。
本文方法給出的差異度矩陣的轉(zhuǎn)換方式分兩步進(jìn)行,其中轉(zhuǎn)換閾值設(shè)置為集合的整體差異度:
(1)根據(jù)L個(gè)分類器的差異度矩陣div,計(jì)算得L個(gè)分類器集合的整體差異度為:
(2)根據(jù)整體差異度D,構(gòu)造一個(gè)L×L的鄰接矩陣H,其中:
以6個(gè)分類器為例,假設(shè)式(6)為根據(jù)Q統(tǒng)計(jì)法計(jì)算得到的6個(gè)分類器集合的成對(duì)差異度矩陣,差異度的范圍是[0,1],差異度值越接近0代表差異度越大。通過(guò)計(jì)算得到該集合整體差異度為D=0.5。
將該成對(duì)差異度矩陣轉(zhuǎn)換為鄰接矩陣后如式(7)所示,需要注意的是主對(duì)角線元素為0,因?yàn)榉诸惼髯陨聿荒芘c自身相連接。
根據(jù)該鄰接矩陣H可以畫(huà)出如圖1所示的無(wú)向圖G。
Fig.1 Undirected graph G created from adjacency matrix圖1 鄰接矩陣轉(zhuǎn)換為無(wú)向圖G
圖1中圓圈內(nèi)標(biāo)號(hào)表示1~6號(hào)分類器,由此將分類器以無(wú)向圖中的一個(gè)節(jié)點(diǎn)表示,通過(guò)邊連接的分類器差異度較小。為了盡可能多地選擇出差異度較大的分類器集合,并比較其各自的集成性能,引入了圖論中的著色算法。
圖的著色問(wèn)題(graph coloring problem,GCP)[9-10]是圖論研究中的經(jīng)典問(wèn)題之一。圖G=(V,E)的一個(gè)v頂點(diǎn)著色是指用v種顏色對(duì)圖G進(jìn)行著色的一種分配方案,若該方案使相鄰頂點(diǎn)顏色不同,則稱著色正常,滿足此方案的最小顏色數(shù)稱為圖G的色數(shù)。如圖2所示,即為圖1中無(wú)向圖G的一種著色方案,該無(wú)向圖的色數(shù)為3。
Fig.2 One coloring scheme for graph G圖2 圖G的一種著色方案
但是顯然圖2并不是唯一的著色方案,假設(shè)依舊以 Red、Blue、Green 3種顏色進(jìn)行著色,Red(1,3)、Blue(2,6)、Green(4,5)同樣也滿足著色條件,即分類器1、3一組著紅色,分類器2、6一組著藍(lán)色,分類器4、5一組著綠色。為了得到滿足要求的不同的著色方案(即得到不同的分類器分組方式),本文基于遺傳算法給出了解決方式,之所以選擇遺傳算法是由于該算法具有良好的魯棒性、并行性,并且隨著該算法理論的不斷完善,利用遺傳算法解決圖著色問(wèn)題是當(dāng)前的一個(gè)熱點(diǎn)[11-12]。
假設(shè)集合中的分類器個(gè)數(shù)為L(zhǎng),每個(gè)分類器代表無(wú)向圖G的一個(gè)頂點(diǎn),對(duì)于每種著色方案x,對(duì)應(yīng)一條染色體x1,x2,…,xL,其中xi(xi=1,2,…,k)代表所著的顏色,k為最小的著色個(gè)數(shù)。
2.3.1 適應(yīng)度函數(shù)
由于k種顏色且長(zhǎng)度為L(zhǎng)的染色體子空間規(guī)模為kL,當(dāng)集合中分類器個(gè)數(shù)較多時(shí)會(huì)使得算法效率較低,因此本文將隨機(jī)產(chǎn)生染色體的編碼方案。根據(jù)圖G中節(jié)點(diǎn)的排列給出一種著色方案,并更新節(jié)點(diǎn)排序,更新規(guī)則是同顏色的節(jié)點(diǎn)按顏色編號(hào)依次排列。更新后序列的著色數(shù)小于等于原序列,從而找到該節(jié)點(diǎn)序列中的局部極小的次優(yōu)解。最終根據(jù)遺傳算法在次優(yōu)解空間中尋找最優(yōu)解。
本文方法不指定顏色數(shù)k,希望分類器集合動(dòng)態(tài)分組,即自適應(yīng)地找到最小顏色數(shù)k。若k種顏色下有M種著色方案,則將分類器分為kM組。因此適應(yīng)度函數(shù)的設(shè)計(jì)為:
其中,wi為每個(gè)節(jié)點(diǎn)的權(quán)值,沒(méi)有特殊情況均設(shè)為是著色序列的最大顏色數(shù),采用該適應(yīng)度函數(shù)得出的就是無(wú)向圖G的顏色數(shù)k。
2.3.2 交叉算子
本文交叉算子采用部分匹配交叉法[13],假設(shè)染色體x=(x1,x2,…,xL)與y=(y1,y2,…,yL)是參與雜交的父代個(gè)體。隨機(jī)產(chǎn)生交叉區(qū)域[m,n],使其變成x=(x1…ym…yn…xL)與y=(y1…xm…xn…yL)。然后確定xm~xn與ym~yn之間的映射關(guān)系xm→xm′,xm→xn′,ym→ym′,yn→yn′。利用映射得到新的合法染色體x=(x1′…ym…yn…xL′)與y=(y1′…xm…xn…yL′),即包括圖中所有頂點(diǎn)且不重復(fù)。如父代染色體(1,2,3,4,5,6)與(5,3,6,1,2,4)的交叉過(guò)程如圖3所示。
Fig.3 Process of chromosome crossing圖3 染色體交叉流程
2.3.3 變異算子
x=(x1…xm…xn…xL)以等概率隨機(jī)選取兩個(gè)基因位m和n,然后交換該位置的基因值,交換后的染色體記為x′=(x1…xn…xm…xL)。如染色體(1,2,4,3,5,6)選取兩個(gè)變異位2和5,變異結(jié)果為(1,5,4,3,2,6)。
通過(guò)該手段避免算法陷入局部最優(yōu)解,并且這種換位變異執(zhí)行簡(jiǎn)單,有利于種群多樣性。
根據(jù)著色結(jié)果得到了不同的分類器分組方式,為了從中選出最佳的一組作為最終參與集成的分類器集合,針對(duì)基分類器子集建立了一個(gè)基于信息熵的評(píng)價(jià)體系,并將非成對(duì)差異性度量作為本次評(píng)價(jià)的重要指標(biāo)。
常用的非成對(duì)差異性度量方法有KW方差(M1)、Kappa度量(M2)、熵度量(M3)、難度度量(M4)、廣義多樣性度量(M5)[14]。將其作為評(píng)價(jià)的5項(xiàng)指標(biāo),分別針對(duì)不同子集進(jìn)行度量計(jì)算,并建立一個(gè)非成對(duì)度量矩陣Ndiv?;诸惼髯蛹痺1,w2,…,wk的非成對(duì)度量矩陣如式(8)所示。
由于不同差異性度量方法的計(jì)算不同并且正負(fù)值的含義不同,因此接下來(lái)要對(duì)該矩陣進(jìn)行標(biāo)準(zhǔn)化處理,即Ndiv=|Ndiv|,將差異性度量計(jì)算的絕對(duì)值轉(zhuǎn)換為相對(duì)值。并對(duì)正負(fù)指標(biāo)分別進(jìn)行標(biāo)準(zhǔn)化處理:
然后根據(jù)標(biāo)準(zhǔn)化后的差異度矩陣,計(jì)算各指標(biāo)下第j個(gè)子集所占的比重:
其中,i=1,2,…,5,j=1,2,…,k。
接下來(lái)計(jì)算各非成對(duì)差異性度量方法的熵值:
其中λ=1/ln(k)>0,滿足
最終根據(jù)權(quán)重計(jì)算各分類器子集的綜合得分:
根據(jù)最終評(píng)分選出最佳的一組分類器子集作為最終的集成對(duì)象。
由于本文方法是基于遺傳算法的著色分組,因此需要進(jìn)行收斂性分析。
定義1若任意兩個(gè)個(gè)體x和y,并且其關(guān)系為P{M°C(x)=y}>0,其中M°C(x)表示染色體x經(jīng)過(guò)交叉和變異產(chǎn)生的個(gè)體,則稱x和y是可達(dá)的。
引理1當(dāng)遺傳算法的可行域中任意兩個(gè)個(gè)體是相互可達(dá)時(shí),且種群序列P(0),P(1),…,P(t)單調(diào),則遺傳算法以概率1收斂到全局最優(yōu)解。
證明假設(shè)染色體x參與雜交的概率Pa,染色體a是x雜交變異產(chǎn)生的任一后代,b是a局部搜索得到的新后代,b被選上參與變異的概率為Pc。
則由x雜交變異得到y(tǒng)的概率為P{M°C(x)=是從xi產(chǎn)生yi的概率,因此得到y(tǒng)由x變異可達(dá),因此該算法是收斂的。 □
本次實(shí)驗(yàn)從UCI數(shù)據(jù)庫(kù)中選取了樣本數(shù)范圍為32~6 435的8組數(shù)據(jù)集,如表1所示。分類器的學(xué)習(xí)算法選用了不穩(wěn)定的決策樹(shù)(decision tree)15],該算法會(huì)由于訓(xùn)練集的微小變化而改變。然后基于Bagging技術(shù)擾動(dòng)訓(xùn)練集生成50~150個(gè)分類器集合。并且實(shí)驗(yàn)采用5重交叉驗(yàn)證,以3∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,驗(yàn)證集的存在是為了分析基于信息熵的評(píng)價(jià)體系。最后本次所選用的集成規(guī)則為投票法,其主要原因是這一規(guī)則無(wú)需訓(xùn)練,并且也是目前多數(shù)文獻(xiàn)研究中所采用的方法[16]。
Table 1 Experimental data information表1 實(shí)驗(yàn)數(shù)據(jù)信息
本次實(shí)驗(yàn)平臺(tái)為Matlab R2014a,所用的基分類器均來(lái)自PRTools(http://www.prtools.org)工具箱。
本次實(shí)驗(yàn)結(jié)合控制變量法分4步進(jìn)行。首先分別分析影響集成效果的因素,然后給出合理化建議,最后與當(dāng)前流行的集成方法進(jìn)行對(duì)比。
5.2.1 分析成對(duì)差異性度量方法
當(dāng)使用不同成對(duì)差異性度量方法時(shí)得到不同的差異度矩陣,因此轉(zhuǎn)換的鄰接矩陣有所區(qū)別,再利用遺傳算法進(jìn)行圖著色時(shí)可能會(huì)得到不同的結(jié)果。
本次實(shí)驗(yàn)以目前流行的4種成對(duì)差異性度量方法(Q統(tǒng)計(jì)法、相關(guān)系數(shù)法、雙錯(cuò)法、不一致度量)為標(biāo)準(zhǔn),結(jié)果如表2所示,準(zhǔn)確率最高的數(shù)值用加粗標(biāo)記。
Table 2 Ensemble results of different diversity measures表2 不同差異性度量方法的集成結(jié)果
本次實(shí)驗(yàn)的參數(shù):初始基分類器規(guī)模為100。
從表2可以看出,本文方法雖然在不同差異性度量標(biāo)準(zhǔn)下均可以獲得較好的分類效果,但是在大多數(shù)數(shù)據(jù)集下,以Q統(tǒng)計(jì)法作為度量標(biāo)準(zhǔn)時(shí)可以獲得相對(duì)更好的集成準(zhǔn)確率。其次是雙錯(cuò)法、相關(guān)系數(shù)法與不一致度量。
為了更好地比較這幾種度量方法,分別計(jì)算不同度量方法選擇出的分類器個(gè)數(shù),以10次實(shí)驗(yàn)的平均值為最終結(jié)果,如圖4所示。
Fig.4 Number of classifiers in different datasets圖4 數(shù)據(jù)集的分類器個(gè)數(shù)
由圖4可以看出,無(wú)論使用哪種差異性度量方法,選擇出分類器的個(gè)數(shù)都隨著數(shù)據(jù)集樣本數(shù)的增加而增加。通過(guò)縱向?qū)Ρ瓤梢钥闯觯@4種度量方法中雙錯(cuò)法相較于其他方法選擇出的分類器個(gè)數(shù)較多,其次是Q統(tǒng)計(jì)法、相關(guān)系數(shù)法、不一致度量。結(jié)合表2的集成準(zhǔn)確率可以看出,Q統(tǒng)計(jì)法能在保障集成精度的同時(shí),盡可能地相對(duì)減小集成規(guī)模,因此可以優(yōu)先以Q統(tǒng)計(jì)法作為成對(duì)差異性度量標(biāo)準(zhǔn)。
5.2.2 分析集成規(guī)模與結(jié)果
分類器的規(guī)模是影響集成效果的因素之一。為了分析當(dāng)分類器規(guī)模發(fā)生變化時(shí),本文方法對(duì)集成結(jié)果產(chǎn)生的影響,本次實(shí)驗(yàn)首先基于Bagging生成了3種規(guī)模(50,100,150)大小的基分類器集合,并使用本文方法進(jìn)行選擇性集成,將最終集成結(jié)果與Bagging(Bag)直接集成進(jìn)行對(duì)比,如表3所示。
本次實(shí)驗(yàn)參數(shù):成對(duì)差異性度量方法為Q統(tǒng)計(jì)法。
由表3可以看出,當(dāng)分類器規(guī)模為50、100、150的情況下,在8組數(shù)據(jù)集中本文方法相較于Bagging的集成準(zhǔn)確率平均提升1.57%、1.98%、1.62%,其中分類器規(guī)模為100時(shí)的提升效果最高。
Table 3 Ensemble results on different scales表3 不同規(guī)模時(shí)的集成結(jié)果
5.2.3 分析基于信息熵的評(píng)價(jià)體系
本文提出的基于信息熵的評(píng)價(jià)體系是將5種非成對(duì)差異性度量方法動(dòng)態(tài)加權(quán),計(jì)算各組分類器綜合得分,并根據(jù)評(píng)分情況進(jìn)行挑選。為詳細(xì)分析該評(píng)價(jià)體系,首先分別以每種非成對(duì)差異性度量方法為標(biāo)準(zhǔn)進(jìn)行分類器集合的選擇,結(jié)果如表4所示。
Table 4 Ensemble results of different non-pairwise diversity measures表4 不同非成對(duì)差異性度量方法的集成結(jié)果
本次實(shí)驗(yàn)參數(shù):集成規(guī)模為100,成對(duì)差異性度量方法為Q統(tǒng)計(jì)法。
由表4可以看出,除Ionosphere數(shù)據(jù)集,由本文方法所選出的分類器集合的集成效果均好于以單個(gè)非成對(duì)差異性度量方法為標(biāo)準(zhǔn)進(jìn)行挑選的分類器集合。
但是目前僅是從分類器差異性的角度進(jìn)行考慮,接下來(lái)要從準(zhǔn)確率的角度進(jìn)行實(shí)驗(yàn)。首先將著色分組后的各集合分別對(duì)驗(yàn)證集進(jìn)行識(shí)別,將準(zhǔn)確率最高的一組分類器集合與通過(guò)評(píng)價(jià)體系選出的分類器集合針對(duì)測(cè)試集進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果如圖5所示。
Fig.5 Accuracy and evaluation system圖5 準(zhǔn)確率與評(píng)價(jià)體系
由圖5可以看出,兩種分類器集合的選擇方法均擁有較高的識(shí)別精度,這是由于本文方法中的基于遺傳算法的著色分組合理地將差異性較大的分類器挑選出來(lái)。通過(guò)評(píng)價(jià)體系選出的集合與直接選出針對(duì)驗(yàn)證集準(zhǔn)確率最高的集合在最終集成效果上非常相似,這是由于在實(shí)驗(yàn)過(guò)程中,兩種選擇方法有時(shí)選出的分類器集合是相同的。但是通過(guò)評(píng)價(jià)體系選出的分類器集成效果仍有一定的提升,因此也證明了針對(duì)驗(yàn)證集分類效果良好的分類器集合不一定對(duì)測(cè)試集分類效果最好。通過(guò)差異性與準(zhǔn)確率兩個(gè)角度進(jìn)行的實(shí)驗(yàn)均證明本文提出的基于信息熵的評(píng)價(jià)體系具有一定可行性。
5.2.4 分析集成方法
上述實(shí)驗(yàn)中已經(jīng)針對(duì)影響集成效果的因素分別進(jìn)行了分析,接下來(lái)將本文方法與目前比較流行的4種集成方法Bagging(Bag)、Adaboost(Ada)、DREP[3]、DivP[4]進(jìn)行比較。
本次實(shí)驗(yàn)的參數(shù):集成規(guī)模為100,本文方法與DREP算法的成對(duì)差異性度量方法選擇為Q統(tǒng)計(jì)法,DivP算法為默認(rèn)參數(shù),集成規(guī)則均為投票法。實(shí)驗(yàn)結(jié)果如圖6所示。
Fig.6 Performance comparison of ensemble methods圖6 集成方法的性能比較
由圖6可以看出,除Ionosphere數(shù)據(jù)集下本文方法的表現(xiàn)力略遜色于DivP算法,大多數(shù)數(shù)據(jù)集下本文方法與目前流行的集成算法相比,均接近或者超過(guò)其識(shí)別精度。本文方法與DivP算法的主要區(qū)別在于DivP算法以準(zhǔn)確率作為各組分類器的篩選標(biāo)準(zhǔn),而本文方法則是以準(zhǔn)確率與差異度建立了一種評(píng)價(jià)體系作為各組分類器集合的篩選標(biāo)準(zhǔn)。事實(shí)證明大多數(shù)數(shù)據(jù)集下本文提出的方法具有一定的可行性。
選擇出具有一定差異度的分類器集合是獲得良好集成效果的前提之一。本文將成對(duì)與非成對(duì)差異性度量方法結(jié)合提出了一種新的分類器選擇方法,并分析該方法以不同成對(duì)差異性度量作為標(biāo)準(zhǔn)、不同分類器規(guī)模下的集成效果,將該方法與目前流行的若干種集成方法進(jìn)行對(duì)比分析,最終得到了有一定指導(dǎo)意義的結(jié)論。
此外本文方法有待改進(jìn)的地方主要有兩點(diǎn):(1)分類器著色分組過(guò)程中,差異度矩陣轉(zhuǎn)換鄰接矩陣時(shí)的閾值設(shè)置可以進(jìn)行改進(jìn),本文的閾值是采用整體差異度的平均值,后續(xù)研究也可嘗試其他設(shè)置方式。(2)本文的圖著色方法是基于遺傳算法提出的,后續(xù)也可以嘗試模擬退火或蟻群算法等啟發(fā)式算法。因此擬將算法根據(jù)這兩部分進(jìn)行分析與改進(jìn),以提升分類器集成精度。