周博文,皋 軍
(1.江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212032;2.鹽城工學(xué)院 信息工程學(xué)院,江蘇 鹽城 224000)
神經(jīng)網(wǎng)絡(luò)算法因其強(qiáng)大的性能被廣泛應(yīng)用,但也存在明顯不足:一個(gè)大型的神經(jīng)網(wǎng)絡(luò)模型往往需要調(diào)試大量參數(shù),調(diào)參工作耗時(shí)耗力,而且對(duì)訓(xùn)練模型使用的數(shù)據(jù)有一定數(shù)量要求。Zhou 等[1]提出的深度森林(Deep Forest,DF)模型能在一定程度上緩解上述問(wèn)題。
但是,傳統(tǒng)模型由于自身的限制而存在不足:①在多粒度掃描階段,需轉(zhuǎn)換的特征子集是按滑動(dòng)窗口依次選取,顯然第一維的特征只被掃描到一次,第二維的特征被掃描到兩次……樣本后端的特征同理,所以傳統(tǒng)模型在此階段未充分得到待轉(zhuǎn)換的特征子集,在一定程度上忽略了樣本兩端特征。假如兩端特征很重要,則無(wú)法充分利用[2];②級(jí)聯(lián)階段只將上一層級(jí)生成的類概率向量作為強(qiáng)化特征,忽視了之前生成的類概率向量,并且強(qiáng)化特征的差異性有限,最后求結(jié)果時(shí)又僅是簡(jiǎn)單的求和求平均,使得較低準(zhǔn)確率的子分類器和較高準(zhǔn)確率的子分類器具有相同權(quán)重,沒(méi)有重視分類器的權(quán)重對(duì)后續(xù)產(chǎn)生的類概率影響,一定程度上降低了模型性能。
深度森林及其改進(jìn)模型因其強(qiáng)魯棒性和方便性被應(yīng)用在多個(gè)領(lǐng)域。文獻(xiàn)[2]提出了深度堆疊森林,隨機(jī)抽取特征子集進(jìn)行特征轉(zhuǎn)換,并且對(duì)二分類任務(wù)去除冗余特征,將其應(yīng)用在檢測(cè)軟件缺陷任務(wù)中,但不能保證選中的特征子集中恰恰包含重要度大的特征;文獻(xiàn)[3]提出雙視角、深層掃描結(jié)構(gòu),效仿人眼關(guān)注一張圖片時(shí)的情形,把圖像中心點(diǎn)作為基準(zhǔn),根據(jù)圖片周圍區(qū)域與中心點(diǎn)之間的距離賦予不同的關(guān)注度,距離越小則權(quán)重越大,將其用于檢測(cè)火焰;文獻(xiàn)[4]指出傳統(tǒng)深度森林模型在級(jí)聯(lián)過(guò)程中,級(jí)聯(lián)特征本身的有效性會(huì)不斷退化,從而導(dǎo)致分類性能波動(dòng),作者把這種現(xiàn)象稱為疏通連貫性。提出一種全級(jí)聯(lián)方法,將每層的特征向量級(jí)聯(lián)到原始特征中;文獻(xiàn)[5]認(rèn)為全級(jí)聯(lián)方法加大了時(shí)間和空間開(kāi)銷,故在此基礎(chǔ)上繼續(xù)改進(jìn),對(duì)之前每層生成的類向量求和取平均值,并且引入Ad?aBoost 思想,不再關(guān)注每個(gè)文本,而是關(guān)注每個(gè)特征,改進(jìn)后的算法應(yīng)用在情感分類任務(wù)上;文獻(xiàn)[6]將RPN 候選區(qū)域網(wǎng)絡(luò)并入深度森林模型中實(shí)現(xiàn)船體目標(biāo)檢測(cè)任務(wù);文獻(xiàn)[7]改進(jìn)了深度森林處理小樣本生物數(shù)據(jù)能力,首先使用不同組的數(shù)據(jù)訓(xùn)練并集成模型,校正誤差,給不同的特征賦予不同權(quán)重,而且自動(dòng)確定決策樹(shù)參數(shù),算法有效實(shí)現(xiàn)了癌癥分類;文獻(xiàn)[8]提出隱語(yǔ)義模型結(jié)合深度森林構(gòu)造隱式融合特征并增加級(jí)聯(lián)子分類器的差異性,將其應(yīng)用在人力資源推薦任務(wù)中;文獻(xiàn)[9]為了解決深度森林在不平衡數(shù)據(jù)中的弊端,提出OSEEN-gcFore 算法,解決了原模型在多數(shù)類樣本中的過(guò)度學(xué)習(xí)問(wèn)題并應(yīng)用在用戶流失預(yù)測(cè)中;文獻(xiàn)[10]通過(guò)特征融合代替細(xì)粒度掃描并在級(jí)聯(lián)過(guò)程中自動(dòng)改變樣本權(quán)重,將改進(jìn)模型應(yīng)用在近紅外光譜分類中;文獻(xiàn)[11]提出加權(quán)的深度森林,對(duì)子分類器中的子樹(shù)投票機(jī)制做出改進(jìn),給準(zhǔn)確率高的子樹(shù)賦予更大權(quán)重;文獻(xiàn)[12]通過(guò)在多粒度掃描部分增加深度結(jié)構(gòu),將轉(zhuǎn)換后的特征與原始特征級(jí)聯(lián),結(jié)合傳統(tǒng)的目標(biāo)檢測(cè)方法執(zhí)行小目標(biāo)檢測(cè)任務(wù);文獻(xiàn)[13-17]將傳統(tǒng)深度森林算法應(yīng)用在不同任務(wù)中。
由于深度森林的子分類器是隨機(jī)森林和完全隨機(jī)森林,且子分類器是根據(jù)最優(yōu)劃分特征屬性對(duì)樣本進(jìn)行分類的,故可以先通過(guò)隨機(jī)森林計(jì)算特征重要度。理論上原始特征向量中較重要的特征轉(zhuǎn)換出的類概率作為新特征時(shí)也應(yīng)具有重要的參考價(jià)值,所以從兩個(gè)階段改進(jìn):①針對(duì)忽視樣本兩端信息問(wèn)題,提出一種特征重排序的掃描方法,重要特征盡量集中在中部,保證可以被多次利用,避免了文獻(xiàn)[2]抽取特征過(guò)于隨機(jī)的問(wèn)題;級(jí)聯(lián)階段為了重視每層的類概率向量及特征差異性,選取之前生成的類概率之差作為增強(qiáng)向量,這樣可以使每次級(jí)聯(lián)的增強(qiáng)特征都與上層保持差異,一定程度上緩解了網(wǎng)絡(luò)退化現(xiàn)象;②遵循“好而不同”的集成思想,引入線性邏輯回歸分類器,增加分類器的差異性。最后的投票階段加入softmax 層,根據(jù)每個(gè)分類器的準(zhǔn)確率來(lái)賦予不同的權(quán)重。
深度森林模型和神經(jīng)網(wǎng)絡(luò)算法類似,通過(guò)多級(jí)多層結(jié)構(gòu)進(jìn)行非線性映射來(lái)提高模型的表征學(xué)習(xí)能力和泛化能力。第一階段,多粒度掃描森林可以將原始的樣本特征進(jìn)行特征轉(zhuǎn)換,并重組成為更加有效的特征,進(jìn)而提高第二階段級(jí)聯(lián)森林的分類能力。原始的樣本經(jīng)過(guò)不同大小窗口的掃描生成更加豐富多樣的特征子集,特征子集作為輸入進(jìn)入分類器,產(chǎn)生對(duì)應(yīng)的類概率向量,將其作為新的特征拼接成為級(jí)聯(lián)森林的輸入,過(guò)程如圖1、圖2 所示。
Fig.1 Multi-granularity scanning image data圖1 多粒度掃描圖像數(shù)據(jù)
Fig.2 Multi-granularity scanning sequence data圖2 多粒度掃描序列數(shù)據(jù)
假如圖像數(shù)據(jù)大小為n×n,那么首先會(huì)按照m×m尺寸大小選擇子窗口,從而生成(n-m+1)2個(gè)子窗口;接著把每個(gè)子窗口分別送入一個(gè)隨機(jī)森林和一個(gè)完全隨機(jī)森林。若任務(wù)是c分類的話,每個(gè)窗口就會(huì)生成一個(gè)c維的類概率向量,總共就會(huì)生成2(n-m+1)2個(gè)類向量。將這些向量拼接,成為一個(gè)1×2c(n-m+1)2的輸入向量,相當(dāng)于把n×n的圖像數(shù)據(jù)轉(zhuǎn)換成1×2c(n-m+1)2的序列數(shù)據(jù)。
序列數(shù)據(jù)的轉(zhuǎn)換與圖像數(shù)據(jù)類似。假若數(shù)據(jù)是1×n,先按照1×m的窗口滑動(dòng)選取子特征集,產(chǎn)生n-m+1 個(gè)窗口,類似圖像掃描會(huì)產(chǎn)生2(n-m+1)個(gè)類概率向量,拼接成為一個(gè)1×2c(n-m+1)的序列數(shù)據(jù)。
級(jí)聯(lián)階段通過(guò)引入增強(qiáng)特征來(lái)提高表征學(xué)習(xí)能力,其輸入是經(jīng)過(guò)多粒度掃描階段轉(zhuǎn)換后的概率特征,若是低維數(shù)據(jù),也可直接將原始特征作為輸入。進(jìn)入每層的訓(xùn)練層,通過(guò)交叉驗(yàn)證來(lái)訓(xùn)練分類器,以此避免過(guò)擬合現(xiàn)象。然后驗(yàn)證當(dāng)前層的分類準(zhǔn)確率。若層數(shù)達(dá)到了最大值或者準(zhǔn)確率在預(yù)先設(shè)定的層數(shù)閾值內(nèi)未提升,則停止進(jìn)入下一層級(jí)。在對(duì)測(cè)試集數(shù)據(jù)進(jìn)行驗(yàn)證時(shí),會(huì)級(jí)聯(lián)到訓(xùn)練層數(shù)最高的一層停止,并把最后一層每個(gè)分類器生成的類概率向量求和取平均,根據(jù)投票結(jié)果預(yù)測(cè)最終類別。假如多粒度掃描階段轉(zhuǎn)換后的特征是m維向量,且是c分類任務(wù),那么首先經(jīng)過(guò)隨機(jī)森林和完全隨機(jī)森林產(chǎn)生4c維的類概率向量,后續(xù)層的輸入為原始特征與4c維特征級(jí)聯(lián),共m+4c維。級(jí)聯(lián)階段如圖3 所示。
Fig.3 Cascade forest圖3 級(jí)聯(lián)森林
不難發(fā)現(xiàn),原始深度森林模型在多粒度掃描階段一定程度上忽視了邊緣數(shù)據(jù)特征,若樣本是n維數(shù)據(jù),選取子特征集的窗口大小為m,m>2,則首先被選中的特征子集是從第一維到第m維,接下來(lái)被選中的是從第二維到第m+1 維……顯而易見(jiàn),第一維的特征只被掃描了一次,第二維的特征被掃描了兩次,樣本后端的特征同樣面臨這個(gè)問(wèn)題。只有從第m維到第n-m+1 維,每一維的特征才能夠被充分選中并且進(jìn)行特征轉(zhuǎn)換。級(jí)聯(lián)森林在特征向量更新時(shí),每一層得到的新特征有限,僅考慮到了一層的類概率向量,且在首次級(jí)聯(lián)后,后續(xù)的特征差異性較小,表征學(xué)習(xí)能力得不到有效提高,且在投票階段忽略了子分類器的權(quán)重。RFDF 從兩個(gè)階段分別做出改進(jìn),首先通過(guò)特征重排序?qū)吘墧?shù)據(jù)加以重視,然后考慮到多層的類概率向量并加強(qiáng)差異,增大子分類器的差異性,在投票階段引入soft?max 層來(lái)根據(jù)準(zhǔn)確率賦予子分類器不同的權(quán)重。
傳統(tǒng)的深度森林模型在多粒度掃描階段進(jìn)行特征轉(zhuǎn)換時(shí),由于模型自身的局限性,不可避免地會(huì)忽略樣本兩端所攜帶的部分信息。在窗口掃描過(guò)程中,兩端信息不能被充分提取,無(wú)法轉(zhuǎn)換成類向量,從而使含有邊緣特征的部分子集被忽略,從而造成轉(zhuǎn)換不充分問(wèn)題。若被忽略的邊緣特征可轉(zhuǎn)換出較有效的新特征,同時(shí)這個(gè)更加具有參考價(jià)值的新特征只出現(xiàn)一次,則明顯會(huì)對(duì)生成的概率向量產(chǎn)生一定影響。同時(shí),隨著級(jí)聯(lián)森林層數(shù)的增加,影響逐漸變大,最終導(dǎo)致分類結(jié)果出現(xiàn)偏差。若樣本的重要特征存在于數(shù)據(jù)兩端,那么理論上,由此轉(zhuǎn)換生成的新特征也會(huì)有較大的重要度。文獻(xiàn)[2]通過(guò)隨機(jī)抽樣來(lái)解決這一問(wèn)題,使每個(gè)特征有同樣的機(jī)會(huì)被選中,但是也不能保證隨機(jī)抽取得到的特征子集包含較大重要度的特征,還會(huì)由于每次隨機(jī)抽到的特征不同造成分類準(zhǔn)確率的起伏不定。如果特征屬性很多而抽取的特征有限,就會(huì)使模型不夠穩(wěn)定,隨機(jī)性較大,因此提出特征重新排序的方法應(yīng)對(duì)此問(wèn)題。由于深度森林模型的基本組件是隨機(jī)森林和完全隨機(jī)森林,都是根據(jù)基尼指數(shù)來(lái)劃分特征屬性,而隨機(jī)森林的feature_importances_函數(shù)也是根據(jù)基尼指數(shù)來(lái)計(jì)算數(shù)據(jù)樣本每個(gè)特征的重要度,因而可使用此函數(shù)挑選出原始樣本中較重要的特征并將其盡量放在樣本中間,使重要特征被多次選中并轉(zhuǎn)換出具有較大重要度的新特征,提高生成新特征的質(zhì)量,構(gòu)建出較有效的新特征屬性。由于圖像和語(yǔ)音等數(shù)據(jù)特征之間彼此存在著密切聯(lián)系,若進(jìn)行特征重排序必定會(huì)打破原有特征之間的關(guān)聯(lián),起到相反的作用,故此算法不太適用于特征之間有關(guān)系的數(shù)據(jù)。具體方法如圖4 所示。
Fig.4 Reorder scan forest圖4 重排序掃描森林
首先通過(guò)隨機(jī)森林分類器自帶的封裝函數(shù)feature_im?portances 來(lái)判定數(shù)據(jù)樣本中每個(gè)特征的重要程度,然后根據(jù)特征屬性的重要度進(jìn)行重新排序,將重要度較高的特征盡可能地放到中間,使其能被多個(gè)特征子集包含,這樣就提高了特征子集轉(zhuǎn)換出的對(duì)應(yīng)準(zhǔn)確率,換言之在一定程度上提高了轉(zhuǎn)換出的特征質(zhì)量,為后續(xù)的級(jí)聯(lián)打下基礎(chǔ)。
傳統(tǒng)的深度森林模型在進(jìn)行特征更新時(shí),僅僅選取在前一個(gè)層級(jí)生成的類概率向量作為增強(qiáng)特征,未考慮到之前每一個(gè)層級(jí)生成的類概率向量,沒(méi)有給予這些類概率向量足夠的重視,文獻(xiàn)[5]稱此問(wèn)題為疏通連貫性。為了防止信息削弱就級(jí)聯(lián)之前每一層的類概率向量,但是隨之引發(fā)的問(wèn)題也很明顯:隨著層次的深入增加了額外的空間開(kāi)銷,降低了模型的運(yùn)行效率,而且在最終的投票階段依然是默認(rèn)每個(gè)子分類器具有相同的權(quán)重,對(duì)各分類器的結(jié)果簡(jiǎn)單求和取平均。為解決此問(wèn)題,提出一種加權(quán)級(jí)聯(lián)森林,首先在選擇增強(qiáng)特征時(shí),為了進(jìn)一步加強(qiáng)級(jí)聯(lián)新特征的差異性,防止網(wǎng)絡(luò)性能退化,算法會(huì)選取之前層次類概率的差作為增強(qiáng)的特征和原始特征級(jí)聯(lián),并且加入不同于樹(shù)形分類器的邏輯回歸分類器,加大了子分類器之間的差異;其次在匯總最終結(jié)果時(shí)引入softmax 層對(duì)分類器賦予不同的權(quán)重。原始賦值見(jiàn)式(1):
改進(jìn)后見(jiàn)式(2):
其中,Ci(i=1,2,……,n)為子分類器權(quán)重,yi(i=1,2,……,n)是子分類器產(chǎn)生的類概率,Ci計(jì)算公式見(jiàn)式(3):
其中Zi是當(dāng)前分類器的準(zhǔn)確度,要確保概率和相加為1。
算法1 加權(quán)級(jí)聯(lián)森林
Xs(i-1,…,0)代表(i-1)層概率向量減去之前每層向量的差,得到的概率差作為增強(qiáng)特征。第0 層的輸入是多粒度森林輸出,第1 層的輸入是第0 層的輸出和原始向量的拼接。從第2 層起,拼接前會(huì)求出與之前層的概率差,作為新的特征向量與原始向量拼接,進(jìn)行特征更新。當(dāng)模型的層數(shù)達(dá)到預(yù)先設(shè)置的閾值或準(zhǔn)確率無(wú)明顯提高時(shí)則停止生成下一層。投票時(shí)自動(dòng)調(diào)整權(quán)重,過(guò)程如圖5 所示。
算法2 完整RFDF
訓(xùn)練階段:
Fig.5 Weighted cascade forest圖5 加權(quán)級(jí)聯(lián)森林
高維數(shù)據(jù)集為二分類任務(wù)影評(píng)數(shù)據(jù)Imdb[18]數(shù)據(jù)集,人工數(shù)據(jù)集Madelon[19]數(shù)據(jù)集;低維數(shù)據(jù)集選擇收入預(yù)測(cè)數(shù)據(jù)Adult[20],二分類;字母識(shí)別數(shù)據(jù)Letter[21],二十六分類;酵母菌種類預(yù)測(cè)數(shù)據(jù)Yeast[22],十分類,數(shù)據(jù)劃分比例為0.8 和0.2。由于原數(shù)據(jù)集過(guò)大,故實(shí)驗(yàn)選擇部分?jǐn)?shù)據(jù),如表1所示。
Table 1 Data sets used in the experiment表1 實(shí)驗(yàn)所用數(shù)據(jù)集
目前有多種深度森林改進(jìn)算法,文獻(xiàn)[2]和文獻(xiàn)[3]對(duì)第一階段改進(jìn),但后者僅對(duì)于處理圖像數(shù)據(jù)時(shí)作出改進(jìn),適用性有限,故本文的對(duì)比實(shí)驗(yàn)選擇文獻(xiàn)[2]中提出的算法參與對(duì)比實(shí)驗(yàn)。高維數(shù)據(jù)集對(duì)比實(shí)驗(yàn)4 種算法,分別是DF 算法、文獻(xiàn)[2]、文獻(xiàn)[5]以及RFDF 算法。低維數(shù)據(jù)無(wú)須多粒度掃描。文獻(xiàn)[2]和文獻(xiàn)[4]的算法在級(jí)聯(lián)階段改進(jìn)方法相同,僅在二分類任務(wù)時(shí)有所不同,故本實(shí)驗(yàn)在低維數(shù)據(jù)集上的算法共4 種,分別為DF 算法、文獻(xiàn)[4]、文獻(xiàn)[5]的算法以及RFDF。
為了得到更好的排序效果,避免偶然性,在計(jì)算特征重要度時(shí)進(jìn)行20 次計(jì)算,取交集特征,而且訓(xùn)練數(shù)據(jù)的樣本量在可接受范圍內(nèi),所以實(shí)驗(yàn)選取所有訓(xùn)練數(shù)據(jù)來(lái)計(jì)算特征屬性的重要度。高維數(shù)據(jù)實(shí)驗(yàn)包括50 棵子樹(shù),隨機(jī)森林隨機(jī)選取的特征數(shù)為√d(d 為特征數(shù)量)。公平起見(jiàn),實(shí)驗(yàn)采用與傳統(tǒng)模型同樣的窗口設(shè)置,數(shù)據(jù)集的窗口大小分別為d/4、d/8、d/16,且文獻(xiàn)[2]模型每次抽取的窗口大小和抽取窗口次數(shù)都應(yīng)與傳統(tǒng)深度森林模型相同。多粒度掃描森林中,隨機(jī)森林和完全隨機(jī)森林個(gè)數(shù)為1,3 折交叉驗(yàn)證;低維數(shù)據(jù)級(jí)聯(lián)森林中,每層包含2 個(gè)隨機(jī)森林、2 個(gè)完全隨機(jī)森林和一個(gè)邏輯回歸分類器,隨機(jī)森林包括100 棵子樹(shù),數(shù)據(jù)均采用5 折交叉驗(yàn)證。窗口設(shè)置如表2 所示。
Table 2 High-dimensional data set window size表2 高維數(shù)據(jù)集窗口大小
計(jì)算機(jī)配置如下:軟件環(huán)境為Windows 10 系統(tǒng)下的Python3.5,Intel(R)Pentium(R)Gold G5400,3.70GHz,8GB內(nèi)存。
4.4.1 高維數(shù)據(jù)結(jié)果
高維數(shù)據(jù)原始樣本的特征重要度分布如圖6、圖7所示。
Fig.6 Imdb data feature importance(Ⅰ)圖6 Imdb 數(shù)據(jù)特征重要度(一)
Fig.7 Madelon data feature importance(Ⅰ)圖7 Madelon 數(shù)據(jù)特征重要度(一)
從圖6、圖7 中可直觀地看出,Imdb 數(shù)據(jù)集較重要的特征大多數(shù)集中在后面部分,Madelon 數(shù)據(jù)集中特征重要度分布不均,兩端同樣有少許較重要特征。在經(jīng)過(guò)特征重排序后樣本的特征重要度分布如圖8、圖9 所示。
Fig.8 Imdb data feature importance(Ⅱ)圖8 Imdb 數(shù)據(jù)特征重要度(二)
Fig.9 Madelon data feature importance(Ⅱ)圖9 Madelon 數(shù)據(jù)特征重要度(二)
圖8、圖9 表明,經(jīng)過(guò)排序之后,較重要的樣本數(shù)據(jù)特征被盡可能地排在了中間部分。
Fig.10 Comparison of the accuracy of Imdb data圖10 Imdb 數(shù)據(jù)準(zhǔn)確率對(duì)比
Fig.11 Comparison of the accuracy of Madelon data圖11 Madelon 數(shù)據(jù)準(zhǔn)確率對(duì)比
圖10、圖11 表明,Imdb 數(shù)據(jù)集在傳統(tǒng)深度森林模型上的準(zhǔn)確率約為49.67%,文獻(xiàn)[2]模型上的準(zhǔn)確率約為47.83%,文獻(xiàn)[4]模型上的準(zhǔn)確率約為49.92%,所提算法最高可達(dá)51.63%;Madelon 數(shù)據(jù)集在傳統(tǒng)深度森林模型上的準(zhǔn)確率約為60.50%,文獻(xiàn)[2]模型上的準(zhǔn)確率約為59.34%,文獻(xiàn)[4]模型上的準(zhǔn)確率約為60.83%;所提算法最高可達(dá)67.34%。文獻(xiàn)[2]算法的準(zhǔn)確率較低,究其原因是因?yàn)殡S機(jī)抽取模型特征,數(shù)據(jù)樣本維數(shù)越多模型的隨機(jī)性就會(huì)越大,對(duì)模型的影響也越大,進(jìn)而導(dǎo)致模型的準(zhǔn)確率起伏不定。RFDF 算法將較重要特征放在中間,增加了其在特征子集中出現(xiàn)的次數(shù),一定程度上提高了新特征質(zhì)量,文獻(xiàn)[4]和傳統(tǒng)算法基本持平的原因在于二者在掃描階段時(shí)方法相同,故轉(zhuǎn)換的特征向量也基本相同,所以模型性能提高有限。
4.4.2 低維數(shù)據(jù)結(jié)果
圖12-圖14 為低維數(shù)據(jù)結(jié)果。
Fig.12 Accuracy of Adult data圖12 Adult 數(shù)據(jù)的準(zhǔn)確率
Fig.13 Accuracy of Letter data圖13 Letter 數(shù)據(jù)的準(zhǔn)確率
Fig.14 Accuracy of Letter data圖14 Yeast 數(shù)據(jù)的準(zhǔn)確率
圖12-圖14 表明,低維數(shù)據(jù)集在4 種算法上的準(zhǔn)確度基本持平,約為86.26%、86.32%、86.23%、86.43%;Letter 數(shù)據(jù)集在4 種算法上的準(zhǔn)確度約為97.31%,97.38%,97.45%,97.44%;Yeast 數(shù)據(jù)集在4 種算法上的準(zhǔn)確度約為61.62%,61.58%,61.28%,61.61%,并且波動(dòng)較大,主要原因是此數(shù)據(jù)集的特征維數(shù)較少,并且訓(xùn)練樣本不夠多;大量實(shí)驗(yàn)發(fā)現(xiàn),傳統(tǒng)DF 在原始特征和類概率首次拼接時(shí),準(zhǔn)確率會(huì)得到較明顯提升。深入之后的層級(jí)總體呈現(xiàn)下降趨勢(shì),出現(xiàn)網(wǎng)絡(luò)退化現(xiàn)象;而RFDF 由于加大了特征差異以及引入加權(quán)思想,故一定程度上緩解了此現(xiàn)象。準(zhǔn)確率最高的層數(shù)如表3 所示。
Table 3 Number of layers with the highest accuracy表3 準(zhǔn)確率最高的層數(shù)
實(shí)驗(yàn)結(jié)果顯示,傳統(tǒng)的深度森林模型平均第2 層最準(zhǔn)確,文獻(xiàn)[4]的模型平均為3 層,文獻(xiàn)[5]算法平均為2.3 層,RFDF 平均為2.3 層。由此可知,對(duì)于低維數(shù)據(jù),4 種改進(jìn)模型性能都較高,文獻(xiàn)[4]的算法收斂略慢。總體來(lái)說(shuō),低維數(shù)據(jù)自身的維數(shù)較少,特征不夠有效,不能較準(zhǔn)確地對(duì)相似數(shù)據(jù)進(jìn)行有效分類。實(shí)驗(yàn)結(jié)果如表4、表5 所示。
Table 4 High-dimensional data experiment results表4 高維數(shù)據(jù)實(shí)驗(yàn)結(jié)果 (%)
Table 5 Low-dimensional data experiment results表5 低維數(shù)據(jù)實(shí)驗(yàn)結(jié)果 (%)
針對(duì)傳統(tǒng)深度森林算法在兩個(gè)階段的不足分別進(jìn)行改進(jìn),提出一種特征重排序的加權(quán)深度森林。首先將重要度較大的特征屬性盡量排在中間部分,增加重要特征被選中的次數(shù),以此轉(zhuǎn)換出質(zhì)量較高的新特征;級(jí)聯(lián)時(shí)加入邏輯回歸分類器,提高分類器的差異性,然后把概率類向量的差值作為增強(qiáng)特征,使新特征的差異性進(jìn)一步增大,并在最終投票時(shí)引入softmax 層來(lái)根據(jù)子分類器的準(zhǔn)確率自動(dòng)調(diào)整權(quán)值。在數(shù)據(jù)集上的實(shí)驗(yàn)證明,此方法一定程度上能夠提高深度森林模型性能。但是模型也存在不足,如在多粒度掃描森林之前會(huì)首先計(jì)算數(shù)據(jù)樣本的特征重要度并且重新排序,這無(wú)疑增加了時(shí)空復(fù)雜度;對(duì)于低維數(shù)據(jù)模型性能提高有限。后續(xù)將在如何降低掃描階段的時(shí)空復(fù)雜度以及如何更有效地提高模型處理低維數(shù)據(jù)的準(zhǔn)確度上展開(kāi)研究。