劉漢明,劉趙發(fā),鄭金萍,胡聲洲
(贛南師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,江西 贛州 341000)
有監(jiān)督的機(jī)器學(xué)習(xí)目標(biāo)是利用訓(xùn)練集學(xué)習(xí)一個(gè)穩(wěn)定且在各個(gè)方面表現(xiàn)都較好的分類模型,但實(shí)際情況往往不理想,大多數(shù)時(shí)候我們得到的可能是有偏模型(弱監(jiān)督模型).組合方法(Ensemble Learning,也譯為“集成學(xué)習(xí)”)就是組合多個(gè)弱監(jiān)督模型以期得到一個(gè)更好、更全面的強(qiáng)監(jiān)督模型.其潛在的思想是利用多個(gè)弱分類器糾正某個(gè)弱分類器得到的錯(cuò)誤預(yù)測,以達(dá)到減小方差(如Bagging[1])、偏差(如ADBOOST[2])或改進(jìn)預(yù)測(如Stacking[3])的目的.Bagging(Bootstrap aggregating)是Leo Breiman于1996提出的一種機(jī)器學(xué)習(xí)算法,它在改善弱分類器的穩(wěn)定性和精度上有著重要的價(jià)值.已被成功地應(yīng)用于多種形式的隨機(jī)森林[4-7]、體外藥物敏感性預(yù)測[8]、生物標(biāo)記選擇與分類[9]及同種型概率估計(jì)[10]等研究.Bagging能夠提高分類器的穩(wěn)定性[1]并改善其統(tǒng)計(jì)功效[11],同時(shí),它在含噪數(shù)據(jù)中,對模型的過擬合也不敏感[12].不過,Bagging的重抽樣技術(shù)使得它通常要消耗比較多的算法時(shí)間,在大數(shù)據(jù)挖掘中表現(xiàn)不夠理想.
Liu等在保持Bagging算法良好性能的前提下,對Bagging加以改進(jìn),提出了一種改進(jìn)的Bagging組合方法mBagging(modified Bagging)[13-14],并利用最大信息系數(shù)(Maximal Information Coefficeint, MIC)[15]作為基分類器進(jìn)行組合,應(yīng)用于全基因組關(guān)聯(lián)研究(Genome-wide Association Study, GWAS),取得了較好的效果.作者的仿真實(shí)驗(yàn)表明,mBagging的算法時(shí)間僅為Bagging的20%,統(tǒng)計(jì)功效提高了15%,同時(shí)假陽率也降為Bagging的69%[13-14].明顯優(yōu)于作為對比算法的PLINK[16]、BEAM[17]和BoNB[9].
現(xiàn)有工作已經(jīng)證明,組合分類器的預(yù)測能力通常比單個(gè)分類器好得多[11].mBagging是對Bagging的一種改進(jìn),其核心思想是,在對原訓(xùn)練集重抽樣時(shí),改變Bagging方法抽樣后的訓(xùn)練集與測試集個(gè)數(shù)相同的做法,讓抽樣所得的袋內(nèi)數(shù)據(jù)集(訓(xùn)練集)個(gè)數(shù)遠(yuǎn)小于袋外數(shù)據(jù)集(測試集).其算法思想可以簡單地用下式表示[13-14]:
(1)
顯然,若Bt=Bv,則式(1)表示了Bagging的算法復(fù)雜度.mBagging的改進(jìn)之處就是令Bt 一般來說,組合方法通常采用“投票”法來生成x投至類j的權(quán)重Q(x,j),并使用該權(quán)重作為重要性度量以組合分類器[4].不過,“投票”法的分類錯(cuò)誤率會隨測試集個(gè)數(shù)的增加而增大[18].隨機(jī)森林則采用“百分增量”的重要性度量以克服此不足.其做法是在測試集中加入“噪聲”以測試重要性度量所表示的誤分類率的變化[4].考慮到這種加入的“噪聲”可能過強(qiáng)而影響算法的性能.mBagging定義了一種新的重要性度量[13-14] (2) 其中,x、xs分別是分類器所有可能的得分和測試集屬性“替代”后的得分,x0則是“替代”前的得分.所謂“替代”就是把測試集中隨機(jī)選取的第i個(gè)屬性值用隨機(jī)選取的第j(j≠i)個(gè)屬性值替換. 我們以GWAS研究中SNP(Single Nucleotide Polymorphism)挖掘?yàn)槔?,利用PLINK工具集,采用參數(shù)OR(Odds Ratio)等于1.1~2.0(步長0.1)、MAF(Minor Allele Frequency)為 0.05~0.50(步長0.05)生成了500個(gè)獨(dú)立的仿真數(shù)據(jù)集.每個(gè)數(shù)據(jù)集包含對照與病例實(shí)例各1 000和990個(gè)疾病無關(guān)SNP及10個(gè)疾病風(fēng)險(xiǎn)SNP. 皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)[19]廣泛用于度量2個(gè)變量之間的相關(guān)程度,它由Karl Pearson從Francis Galton在19世紀(jì)80年代提出的一個(gè)相似卻又稍有不同的設(shè)想演變而來.PCC具有簡單、運(yùn)算速度快的顯著優(yōu)點(diǎn),但缺點(diǎn)也很明顯——它只用于度量變量間的線性相關(guān)程度.由于GWAS的表型與SNP之間幾乎不存在線性相關(guān),PCC直接應(yīng)用于GWAS研究中是一種弱分類器,所以,利用Bagging組合PCC是一個(gè)很好的選擇.事實(shí)上,如果Bagging組合強(qiáng)分類器,則其性能不僅可能無法改善,反而可能退化[1, 11-12]. 使用mBagging組合PCC分類器,并采用上述參數(shù),分析了500個(gè)仿真數(shù)據(jù)集,最后對“替代”結(jié)果作Wilcoxon檢驗(yàn)得到P值,并對P值作Bonferroni校正.利用校正后的P值以0.05為閾值計(jì)算各方法的統(tǒng)計(jì)功效(Power)和假陽率(False Positive Rate, FPR).統(tǒng)計(jì)功效的計(jì)算結(jié)果如圖1所示,mBagging、Bagging(抽樣次數(shù)400)、Bagging(抽樣次數(shù)20)的中位數(shù)分別是0.90、0.70、0.10.兩種方法的FPR結(jié)果如圖2,各方法對應(yīng)的FPR中位數(shù)分別是0.010、0、0. 圖1 mBagging與Baggging的統(tǒng)計(jì)功效 圖2 mBagging與Baggging的假陽率(左側(cè)是mBagging、中間和右側(cè)的是Bagging) 實(shí)驗(yàn)硬件平臺是Intel Core i3-4170 CPU(3.70 GHz)、4GB內(nèi)存、集成顯卡,軟件平臺Windows 7 x86(單線程).2種方法的運(yùn)行時(shí)間見表1. 表1 算法的計(jì)算時(shí)間a(ms/數(shù)據(jù)集) a除數(shù)據(jù)文件讀取時(shí)間外的總時(shí)間; b參數(shù)Bt=Bv=400的Bagging; c參數(shù)Bt=Bv=20的Bagging. 從圖1可以看出,mBagging方法的統(tǒng)計(jì)功效明顯優(yōu)于兩種不同抽樣數(shù)的Bagging方法,高達(dá)0.9.但圖2的FPR中位數(shù)顯示mBagging弱于Bagging,與Liu等的實(shí)驗(yàn)結(jié)果不同,這是因?yàn)樗麄儾捎玫氖桥c本研究不同的基分類器,且通過實(shí)驗(yàn)找到mBagging和Bagging 2種方法的最佳抽樣數(shù)后進(jìn)行比較實(shí)驗(yàn).不過,雖然我們的實(shí)驗(yàn)沒使用最佳抽樣數(shù),但mBagging的FPR也僅僅0.01,說明它的優(yōu)勢還是比較明顯.另外,表1顯示mBagging方法的算法時(shí)間僅為采用參數(shù)Bt=Bv=400的Bagging的一半不到,說明Bt Bagging算法可以通過增加抽樣數(shù)方法來提高基分類器的性能,但是,隨著訓(xùn)練集的增加,過擬合的現(xiàn)象隨之加重[20],特別是對于海量的大數(shù)據(jù)來說,這種情況更為突出[4].mBagging減少了訓(xùn)練集個(gè)數(shù),從而降低了過擬合的風(fēng)險(xiǎn);同時(shí),它又增加了測試集個(gè)數(shù),為提高訓(xùn)練后分類器的檢驗(yàn)精度帶來了可能. mBagging通過調(diào)整訓(xùn)練集與測試集的個(gè)數(shù)平衡了統(tǒng)計(jì)功效、FPR和算法時(shí)間,取得較好的效果,為組合方法應(yīng)用于大數(shù)據(jù)挖掘提供了很好的借鑒.我們通過實(shí)驗(yàn)的方法驗(yàn)證了mBagging的可行性,但沒有為mBagging和Bagging方法對PCC的組合尋找最佳抽樣數(shù),這是今后需要進(jìn)一步完善之處.3 基于皮爾遜相關(guān)系數(shù)的mBagging實(shí)驗(yàn)
3.1 數(shù)據(jù)
3.2 皮爾遜相關(guān)系數(shù)
4 實(shí)驗(yàn)結(jié)果
4.1 統(tǒng)計(jì)功效與假陽率
4.2 算法運(yùn)行時(shí)間
5 討論