国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙德里安深度森林

2020-08-25 07:32賀一笑
關(guān)鍵詞:蒙德里安層數(shù)級(jí)聯(lián)

賀一笑 龐 明 姜 遠(yuǎn)

(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023)(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心(南京大學(xué)) 南京 210023)(heyx@lamda.nju.edu.cn)

深度學(xué)習(xí)使得算法模型能夠?qū)W得逐層抽象的數(shù)據(jù)表示[1].目前,大多數(shù)深度學(xué)習(xí)模型都是基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的,即可以通過反向傳播訓(xùn)練的多層參數(shù)化可微模塊[2].近年來,深度神經(jīng)網(wǎng)絡(luò)在與圖像和語音相關(guān)的任務(wù)中取得了巨大的成功[3-5].

文獻(xiàn)[2]認(rèn)為,深度學(xué)習(xí)成功的關(guān)鍵在于逐層的處理、模型內(nèi)的特征變換和足夠的模型復(fù)雜度.由此提出了深度森林的一種具體實(shí)現(xiàn)gcForest[6],它同時(shí)滿足上述3個(gè)條件,而基于不可微的模塊搭建,驗(yàn)證了深度學(xué)習(xí)不僅僅是深度神經(jīng)網(wǎng)絡(luò).gcForest由決策樹森林組成.和深度神經(jīng)網(wǎng)絡(luò)相比,它不依賴于反向傳播進(jìn)行訓(xùn)練,其模型復(fù)雜度可以根據(jù)訓(xùn)練數(shù)據(jù)自動(dòng)確定,同時(shí)超參數(shù)少,而且對(duì)于不同超參數(shù)的設(shè)置和在不同的數(shù)據(jù)集上都有著穩(wěn)健的性能表現(xiàn).

考慮到在很多動(dòng)態(tài)環(huán)境的實(shí)際應(yīng)用中,會(huì)不斷接收到新的訓(xùn)練樣本,增量學(xué)習(xí)引起了廣泛的關(guān)注[7-10].不過gcForest的訓(xùn)練過程要求所有訓(xùn)練數(shù)據(jù)預(yù)先給出,如果后續(xù)獲得了新的訓(xùn)練數(shù)據(jù),gcForest無法直接更新模型,而定期重新訓(xùn)練gcForest會(huì)帶來昂貴的訓(xùn)練時(shí)間開銷.因此我們希望設(shè)計(jì)可以增量訓(xùn)練的深度森林.

盡管蒙德里安森林有很多優(yōu)點(diǎn),但有2個(gè)問題阻礙了其性能的進(jìn)一步提高.首先,蒙德里安森林始終基于原始特征進(jìn)行學(xué)習(xí),我們發(fā)現(xiàn)向森林中添加更多蒙德里安樹并不是提高準(zhǔn)確率的有效方法.其次,由于劃分選擇獨(dú)立于樣本標(biāo)記,所以當(dāng)無關(guān)特征較多時(shí),蒙德里安森林會(huì)選擇大量的無關(guān)特征用于劃分,而導(dǎo)致其預(yù)測(cè)性能不理想.

本工作中,我們提出了蒙德里安深度森林(Mondrian deep forest,MDF),它以一種級(jí)聯(lián)的方式集成了蒙德里安森林,使其既有深度森林的預(yù)測(cè)準(zhǔn)確性,又有蒙德里安森林增量學(xué)習(xí)的能力.本文的主要貢獻(xiàn)有2個(gè)方面:

1) 使用蒙德里安森林的級(jí)聯(lián)搭建蒙德里安深度森林,級(jí)聯(lián)的每層接收原始特征和前一層輸出的變換后特征作為輸入.同時(shí)進(jìn)一步提出了一種自適應(yīng)機(jī)制,通過調(diào)整原始特征和變換后特征的權(quán)重進(jìn)一步提升性能.蒙德里安深度森林不僅提升了多個(gè)數(shù)據(jù)集上的預(yù)測(cè)性能,同時(shí)也改善了蒙德里安森林無法處理大量無關(guān)特征的問題;

2) 首次將深度森林拓展到增量學(xué)習(xí)的設(shè)定中,有效降低了深度森林在每次接收到新樣本后的訓(xùn)練時(shí)間.蒙德里安深度森林取得了和定期重新訓(xùn)練的gcForest有競(jìng)爭(zhēng)力的預(yù)測(cè)準(zhǔn)確率,同時(shí)訓(xùn)練速度提升了一個(gè)數(shù)量級(jí).

1 相關(guān)工作

1.1 深度森林

深度森林是一種非神經(jīng)網(wǎng)絡(luò)的深度模型,其中g(shù)cForest[6]是第1個(gè)深度森林模型.gcForest有著級(jí)聯(lián)森林結(jié)構(gòu),級(jí)聯(lián)的每層由多個(gè)決策樹森林組成,包括隨機(jī)森林[15]和完全隨機(jī)森林[16].其中的每個(gè)決策樹森林輸出它估計(jì)的類別分布,形成類概率向量.這些類概率向量作為增廣特征,和原始輸入特征拼接在一起,共同輸入下一層.級(jí)聯(lián)每增加新的一層,可通過交叉驗(yàn)證估計(jì)整個(gè)級(jí)聯(lián)的性能.如果沒有達(dá)到要求的性能提升,則終止訓(xùn)練過程.因此,深度森林可以自動(dòng)確定級(jí)聯(lián)層數(shù),即根據(jù)數(shù)據(jù)自動(dòng)確定模型復(fù)雜度.

在實(shí)際應(yīng)用中,已將gcForest在一個(gè)工業(yè)分布式機(jī)器學(xué)習(xí)平臺(tái)上實(shí)現(xiàn),并用于某大型企業(yè)的現(xiàn)實(shí)世界非法套現(xiàn)檢測(cè),其性能表現(xiàn)超過了包括深度神經(jīng)網(wǎng)絡(luò)在內(nèi)的其他方法[17].理論方面,文獻(xiàn)[18]將深度森林重新形式化為加性模型的形式,并從間隔理論的角度為深度森林提供了一種新的理解方式.此外,文獻(xiàn)[19]和文獻(xiàn)[20]分別將深度森林拓展至多示例和多標(biāo)記的學(xué)習(xí)問題并取得了好的效果.

1.2 蒙德里安森林

在蒙德里安樹中,各節(jié)點(diǎn)的劃分選擇不依賴于數(shù)據(jù)標(biāo)記,這使其區(qū)別于絕大多數(shù)的決策樹森林.在蒙德里安樹的每個(gè)節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)內(nèi)數(shù)據(jù)在各維度上的范圍隨機(jī)采樣得到劃分維度和劃分點(diǎn).同時(shí)蒙德里安樹的每個(gè)節(jié)點(diǎn)與一個(gè)分裂時(shí)間對(duì)應(yīng).這樣的劃分機(jī)制和分裂時(shí)間機(jī)制使得蒙德里安樹能夠高效地更新.當(dāng)一個(gè)新的訓(xùn)練樣本出現(xiàn),根據(jù)其與節(jié)點(diǎn)內(nèi)已有數(shù)據(jù)的相對(duì)位置,蒙德里安樹可以在3種方式中選擇:1) 在當(dāng)前劃分之上引入一個(gè)更高層次的劃分;2) 更新當(dāng)前劃分的范圍使其包含新出現(xiàn)的訓(xùn)練樣本;3) 將當(dāng)前葉節(jié)點(diǎn)劃分為2個(gè)子節(jié)點(diǎn).也就是說,蒙德里安樹可以對(duì)整棵樹的結(jié)構(gòu)進(jìn)行修改,而其他增量隨機(jī)森林只能更新葉節(jié)點(diǎn)[11-12].對(duì)于一個(gè)測(cè)試樣本,一棵蒙德里安樹輸出各標(biāo)記上的預(yù)測(cè)分布.蒙德里安森林是多個(gè)獨(dú)立訓(xùn)練的蒙德里安樹的集成,它的輸出是其中各棵樹的預(yù)測(cè)值的平均.

此外,蒙德里安森林還被應(yīng)用于大規(guī)?;貧w任務(wù)中[21].文獻(xiàn)[22]中得到了關(guān)于蒙德里安森林的一致性的理論結(jié)果,在隨機(jī)森林的理論方面有所推進(jìn).

2 蒙德里安深度森林

本節(jié)我們提出了蒙德里安深度森林,它將增量學(xué)習(xí)的能力融入了級(jí)聯(lián)森林的結(jié)構(gòu)中.

2.1 級(jí)聯(lián)森林結(jié)構(gòu)

蒙德里安深度森林具有級(jí)聯(lián)森林的結(jié)構(gòu),級(jí)聯(lián)的每一層含有多個(gè)蒙德里安森林,它們的輸入是經(jīng)過前面的級(jí)聯(lián)層處理后的特征信息,并將經(jīng)過該層處理后的特征信息輸出給下一層.

(1)

假設(shè)每層只有一個(gè)蒙德里安森林,那么第t層ht(·)的輸出,也即ft(·)的輸出,是一個(gè)類概率向量(p1,p2,…,pC).h1的輸入是原始特征x,而后每一層ht的輸入是原始特征x和前一層輸出的變換后特征ft-1(x)拼接成的向量.我們稱ft-1(x)為增廣特征,如果每層含有多個(gè)蒙德里安森林,那么多個(gè)類概率向量會(huì)被拼接在一起共同作為增廣特征.注意到與gcForest不同,這里我們引入自適應(yīng)因子α來調(diào)整原始特征和增廣特征的權(quán)重.

如圖1所示,假設(shè)有3個(gè)類要預(yù)測(cè),那么對(duì)于每個(gè)樣本,每個(gè)蒙德里安森林將輸出一個(gè)3維的類概率向量.假設(shè)級(jí)聯(lián)的每一層含有6個(gè)蒙德里安森林,那么下一層在接收原始輸入特征的同時(shí)還將接收3×6=18維增廣特征.

Fig. 1 Illustration of the model structure of Mondrian deep forest圖1 蒙德里安深度森林結(jié)構(gòu)

(2)

參考gcForest為了降低過擬合風(fēng)險(xiǎn)所采取的做法,我們使用交叉驗(yàn)證來生成類概率向量[2].與此同時(shí),交叉驗(yàn)證的準(zhǔn)確率可以用來估計(jì)級(jí)聯(lián)增長(zhǎng)至當(dāng)前層的預(yù)測(cè)性能.如果新增長(zhǎng)的層數(shù)沒有帶來一定的性能提升,那么訓(xùn)練過程將自動(dòng)終止.這樣蒙德里安深度森林自動(dòng)確定了級(jí)聯(lián)層數(shù)T,也即實(shí)現(xiàn)了自適應(yīng)地根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整模型復(fù)雜度.

在一棵決策樹中,每個(gè)內(nèi)部節(jié)點(diǎn)j對(duì)應(yīng)于一個(gè)劃分(δj,ξj),其中δj∈{1,2,…,D}表示劃分維度,ξj表示該維度上的劃分點(diǎn).令Rl(j)和Rr(j)表示2個(gè)子節(jié)點(diǎn),一個(gè)劃分的定義為

(Rl(j)={x|xδj≤ξj},
Rr(j)={x|xδj>ξj}.)

(3)

對(duì)于每個(gè)節(jié)點(diǎn)j,令jd和ujd分別表示節(jié)點(diǎn)j中訓(xùn)練數(shù)據(jù)沿維度d的最小值和最大值,并計(jì)算沿各維度d的數(shù)據(jù)范圍rjd=ujd-jd.在蒙德里安樹中,以正比于節(jié)點(diǎn)內(nèi)數(shù)據(jù)在各維度上范圍rjd的概率采樣得到劃分維度δj,即

(4)

其中,Pr表示概率.

換句話說,某維度上的數(shù)據(jù)范圍越大,該維度就越有可能被選為劃分維度.通過歸一化數(shù)據(jù)集可使得各維度在初始時(shí)有相等的概率被選為劃分特征.而后從[jδj,ujδj]中均勻采樣得到劃分點(diǎn)ξj.可以看出,劃分選擇是不依賴于樣本標(biāo)記的,當(dāng)無關(guān)特征的比例很大時(shí),每個(gè)劃分選中有用特征的概率很低,這使得蒙德里安森林無法處理含有大量無關(guān)特征的數(shù)據(jù)集.

在蒙德里安深度森林中,每層接收前一層輸出的類概率向量作為增廣特征,通過級(jí)聯(lián)結(jié)構(gòu)逐層提升準(zhǔn)確率.更進(jìn)一步,我們?cè)诩?jí)聯(lián)結(jié)構(gòu)中引入了自適應(yīng)機(jī)制來平衡原始特征和增廣特征的權(quán)重,從而防止了增廣特征被大量無關(guān)原始特征淹沒,改善了蒙德里安森林在處理無關(guān)特征方面的不足.

我們提出了一種自適應(yīng)機(jī)制,通過自適應(yīng)因子α,在隨機(jī)采樣劃分特征的過程中調(diào)整增廣特征和原始輸入特征的權(quán)重.假設(shè)增廣特征的維數(shù)是D′,那么和原始特征拼接后的總維數(shù)為D+D′.則選中某個(gè)原始輸入特征作為劃分特征的概率為

(5)

選中某個(gè)增廣特征的概率為

(6)

自適應(yīng)因子α是一個(gè)可調(diào)參數(shù),其設(shè)置方式有多種可能性.比如,可以逐層增大或者減小,或者每一層根據(jù)不同設(shè)置下的交叉驗(yàn)證準(zhǔn)確率自適應(yīng)地決定.本文采用一種簡(jiǎn)單的平衡策略,即對(duì)每個(gè)數(shù)據(jù)集,設(shè)置固定的自適應(yīng)因子α=D/D′,則:

Pr(δj∈{1,2,…,D})=
Pr(δj∈{D+1,D+2,…,D+D′}).

(7)

也就是說,算法在隨機(jī)采樣劃分特征時(shí),選中原始特征和選中增廣特征的概率相同,可以較為均衡地結(jié)合二者的信息.第3節(jié)中展示了這樣簡(jiǎn)單的設(shè)置方式在不同數(shù)據(jù)集上有穩(wěn)定的好的表現(xiàn).

2.2 批量訓(xùn)練和增量訓(xùn)練

圖1展示了蒙德里安深度森林的模型結(jié)構(gòu).級(jí)聯(lián)森林結(jié)構(gòu)共有T′層,但僅前T層在預(yù)測(cè)時(shí)被激活.這里的T根據(jù)2.1節(jié)中描述的方式在訓(xùn)練過程中自適應(yīng)地確定.在批量訓(xùn)練的設(shè)定下,T′=T.

在增量訓(xùn)練的設(shè)定中,數(shù)據(jù)隨時(shí)間分批到達(dá),目標(biāo)是用新獲得的訓(xùn)練數(shù)據(jù)及時(shí)對(duì)模型進(jìn)行更新,使模型充分利用已有的訓(xùn)練數(shù)據(jù)以期達(dá)到盡可能好的預(yù)測(cè)性能.深度森林gcForest[6]是一個(gè)批量學(xué)習(xí)模型.而對(duì)于蒙德里安深度森林,通過逐層更新其中的蒙德里安森林,可以更新整個(gè)級(jí)聯(lián)結(jié)構(gòu).加上動(dòng)態(tài)的對(duì)于有效層數(shù)的調(diào)整,我們得到了一個(gè)增量版本的蒙德里安深度森林.它可以從相對(duì)簡(jiǎn)單的模型開始,隨著獲得更多的訓(xùn)練數(shù)據(jù)逐步增加模型復(fù)雜度以提升性能.

(8)

算法1描述了蒙德里安深度森林的增量訓(xùn)練過程.當(dāng)接收到第1批訓(xùn)練數(shù)據(jù)S1時(shí),從零開始訓(xùn)練一個(gè)蒙德里安深度森林.設(shè)估計(jì)的最優(yōu)層數(shù)是T,考慮到隨著訓(xùn)練數(shù)據(jù)的增加可能需要更高的模型復(fù)雜度,我們?cè)赥層之后訓(xùn)練額外的T+層,它們暫時(shí)不參與預(yù)測(cè),屬于未激活的級(jí)聯(lián)層,則級(jí)聯(lián)的總層數(shù)為T′=T+T+,如圖1所示.當(dāng)獲得新的訓(xùn)練數(shù)據(jù)Sk(k>1)時(shí),我們逐層更新蒙德里安森林.在更新過程中,全部T′層都被更新.同時(shí),當(dāng)前批訓(xùn)練樣本的交叉驗(yàn)證準(zhǔn)確率隨層數(shù)的變化趨勢(shì)可用于決定是否激活更多的級(jí)聯(lián)層用于預(yù)測(cè).

在批量訓(xùn)練的設(shè)定下,算法1中的第1批訓(xùn)練數(shù)據(jù)S1即包含了全部訓(xùn)練數(shù)據(jù),模型不需要進(jìn)行更新,將預(yù)訓(xùn)練備用層數(shù)T+設(shè)為0,即得到了蒙德里安深度森林的批量版本.

算法1.蒙德里安深度森林.

輸出:蒙德里安深度森林模型gk.

① 初始化:val0=0,T′=;

② fork∈{1,2,…,K} do

③ 接收新到來的一批樣本Sk;

④t=1;

⑤ whilet≤min(Tmax,T′) do

⑧ 計(jì)算交叉驗(yàn)證的準(zhǔn)確率valt;

⑨ ifk=1∧T′=∧valt≤valt-1then

⑩T=t-1;T′=T+T+; /*用第1批訓(xùn)練數(shù)據(jù)確定層數(shù)*/

3 實(shí) 驗(yàn)

我們提出的蒙德里安深度森林(MDF)是一種可以進(jìn)行增量學(xué)習(xí)的深度森林,本節(jié)我們將MDF與蒙德里安森林(MF)和gcForest進(jìn)行比較.根據(jù)文獻(xiàn)[13],在線隨機(jī)森林方法ORF-Denil[11]和ORF-Saffari[12]性能接近,而MF和ORF-Saffari相比,訓(xùn)練時(shí)間短并且準(zhǔn)確率更高,因此我們將MF作為基線方法.而gcForest是一種批量訓(xùn)練的深度森林,它能夠在多種任務(wù)上達(dá)到非常優(yōu)秀的性能表現(xiàn)[2,6],我們將使用它的準(zhǔn)確率和訓(xùn)練時(shí)間作為參考.實(shí)驗(yàn)中,我們首先驗(yàn)證了MDF的分類準(zhǔn)確率顯著優(yōu)于MF,并且和gcForest很接近,接著展示了MDF增量訓(xùn)練的過程,對(duì)不同的方法在增量學(xué)習(xí)過程中的測(cè)試準(zhǔn)確率和訓(xùn)練時(shí)間進(jìn)行了比較.

3.1 實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集

對(duì)所有數(shù)據(jù)集,MDF使用相同的級(jí)聯(lián)結(jié)構(gòu),具體來說,每層含有6個(gè)蒙德里安森林,每個(gè)森林含有20棵蒙德里安樹.每個(gè)森林輸出的類概率向量由3折交叉驗(yàn)證生成,交叉驗(yàn)證的準(zhǔn)確率被用于估計(jì)級(jí)聯(lián)增長(zhǎng)至各層數(shù)時(shí)的預(yù)測(cè)性能.如果某層后續(xù)3層的性能估計(jì)沒有提升則訓(xùn)練過程終止,取該層作為輸出層.在MDF的增量設(shè)定中,我們令T+=3,也就是說,隨著訓(xùn)練數(shù)據(jù)的增加,MDF預(yù)測(cè)時(shí)的激活層數(shù)可以自適應(yīng)地增加至多3層.作為對(duì)比的MF采用了120棵樹和2 000棵樹的配置,后文分別用MF120和MF2000表示.作為對(duì)比的gcForest采用和MDF同等的實(shí)驗(yàn)配置,即每層由3個(gè)隨機(jī)森林和3個(gè)完全隨機(jī)森林組成,每個(gè)森林含有20棵樹,級(jí)聯(lián)層數(shù)的確定方式也和MDF相同.在增量訓(xùn)練的實(shí)驗(yàn)中,考慮到MDF是基于文獻(xiàn)[13]的Python版本的MF搭建的,我們自己實(shí)現(xiàn)了Python版本的隨機(jī)森林和完全隨機(jī)森林,基于它們搭建了gcForest以便于比較訓(xùn)練時(shí)間.

MF含有2個(gè)超參數(shù).考慮到實(shí)驗(yàn)的可比性,我們使用和文獻(xiàn)[13]相同的設(shè)置.具體來說,一個(gè)是生長(zhǎng)期限λ,我們令λ=使得該參數(shù)不會(huì)限制蒙德里安樹的深度.另一個(gè)是層次規(guī)范化穩(wěn)定過程[23]中的參數(shù)γ,令γ=10D,其中D表示特征維數(shù).MDF中作為基本單元的MF和作為對(duì)比方法的MF120和MF2000都使用上述的參數(shù)設(shè)置.此外,MDF還含有額外的參數(shù)α,參考2.1節(jié),我們令α=DD′,其中D′表示增廣特征的維數(shù).

實(shí)驗(yàn)使用和文獻(xiàn)[13]相同的數(shù)據(jù)集,即USPS,SATIMAGE,LETTER和DNA[24].并參照文獻(xiàn)[13]的做法,抽取DNA數(shù)據(jù)集中的第61~120維特征生成DNA60數(shù)據(jù)集,這是因?yàn)镸F無法處理大量的無關(guān)特征,所以需要選取最相關(guān)的60維特征.但我們同時(shí)保留了原本的DNA數(shù)據(jù)集,以展示MDF可以處理含有無關(guān)特征的數(shù)據(jù)集.我們使用和文獻(xiàn)[13]相同的訓(xùn)練集測(cè)試集劃分,具體信息如表1所示:

Table 1 Dataset Information表1 數(shù)據(jù)集信息

3.2 批量設(shè)定下的實(shí)驗(yàn)結(jié)果

我們比較了MDF和MF120,MF2000,gcForest的性能,表2中展示了在每個(gè)數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn)得到的測(cè)試準(zhǔn)確率的均值和標(biāo)準(zhǔn)差,括號(hào)中是級(jí)聯(lián)結(jié)構(gòu)的平均層數(shù).注意到MF120等價(jià)于我們實(shí)驗(yàn)設(shè)置下的一層MDF,而MF2000含有比MDF更多的樹,即有更高的模型復(fù)雜度.表格中用加粗字體標(biāo)注了每個(gè)數(shù)據(jù)集上平均準(zhǔn)確率最高的結(jié)果.

比較表2中MF120和MF2000的性能,我們發(fā)現(xiàn)增加樹的棵數(shù)難以提升準(zhǔn)確率.而MDF的測(cè)試準(zhǔn)確率在5個(gè)數(shù)據(jù)集上均顯著優(yōu)于MF120和MF2000,這說明搭建深度模型是有效的提升性能的方式.與此同時(shí),根據(jù)MDF在5個(gè)數(shù)據(jù)集上的平均層數(shù),算得分別平均用了792,420,528,456,1 248棵樹.也就是說,MDF使用比MF2000更少的樹達(dá)到了更好的預(yù)測(cè)性能.如果把蒙德里安樹看作基本的結(jié)構(gòu)單元,則實(shí)驗(yàn)結(jié)果驗(yàn)證了搭建深度模型是比搭建更寬的模型更為有效的提升性能的方式.

Table 2 Mean Test Accuracy (%) and Standard Deviation表2 批量設(shè)定下的測(cè)試準(zhǔn)確率(%)均值和標(biāo)準(zhǔn)差

MDF訓(xùn)練過程中交叉驗(yàn)證準(zhǔn)確率和測(cè)試準(zhǔn)確率隨層數(shù)的變化如圖2所示.虛線表示訓(xùn)練時(shí)交叉驗(yàn)證的準(zhǔn)確率隨層數(shù)的變化情況,橫坐標(biāo)顯示至根據(jù)交叉驗(yàn)證準(zhǔn)確率估計(jì)的最優(yōu)級(jí)聯(lián)層數(shù),可以看到在有效層數(shù)內(nèi)交叉驗(yàn)證準(zhǔn)確率逐層上升,不同數(shù)據(jù)集最終確定的級(jí)聯(lián)層數(shù)不同.實(shí)線展示了測(cè)試集上的準(zhǔn)確率,其變化趨勢(shì)與交叉驗(yàn)證準(zhǔn)確率大致相同,因此,根據(jù)數(shù)據(jù)自動(dòng)確定模型復(fù)雜度是有效的.

Fig. 2 Cross-validation and test accuracy at each layer of MDF圖2 MDF交叉驗(yàn)證和測(cè)試準(zhǔn)確率隨層數(shù)的變化

從表2中我們還可以看出,在同等配置下,MDF有著和gcForest接近的預(yù)測(cè)性能,其中在USPS,SATIMAGE,LETTER這3個(gè)數(shù)據(jù)集上MDF準(zhǔn)確率超過了gcForest.文獻(xiàn)[6]中指出,易于調(diào)參是gcForest相對(duì)于深度神經(jīng)網(wǎng)絡(luò)的重要優(yōu)勢(shì),gcForest可以使用同樣的級(jí)聯(lián)結(jié)構(gòu)在多種任務(wù)中達(dá)到好的性能表現(xiàn).而MDF和gcForest同為深度森林,盡管MDF增加了自適應(yīng)機(jī)制,也可以使用固定的設(shè)置策略,在不同數(shù)據(jù)集上都達(dá)到好的結(jié)果.

3.2.1 自適應(yīng)因子的影響

表3中將α=DD′的MDF與α=1的MDF進(jìn)行了10次測(cè)試準(zhǔn)確率的對(duì)比,這里α=1時(shí)等價(jià)于令MDF的自適應(yīng)機(jī)制不起作用.可以看到,在4個(gè)數(shù)據(jù)集上,設(shè)置α=DD′的MDF平均測(cè)試準(zhǔn)確率高于α=1的MDF.而在DNA60數(shù)據(jù)集上,盡管不使用自適應(yīng)機(jī)制的MDF平均測(cè)試準(zhǔn)確率更高,但它們并沒有顯著的區(qū)別.因此,將自適應(yīng)因子設(shè)置為DD′的方式雖然簡(jiǎn)單,但在實(shí)驗(yàn)中是比較有效的.

Table 3 Test Accuracy of MDF with Different Adaptive Factors表3 使用不同自適應(yīng)因子的MDF測(cè)試準(zhǔn)確率對(duì)比 %

圖3中以DNA數(shù)據(jù)集為例,對(duì)比了不同自適應(yīng)因子設(shè)置下訓(xùn)練時(shí)交叉驗(yàn)證準(zhǔn)確率和測(cè)試準(zhǔn)確率隨層數(shù)的變化情況,為便于比較,統(tǒng)一了橫縱坐標(biāo)軸的范圍.在α=1,α=5和α=20這3種設(shè)置中,α=1時(shí)算法主要依賴原始特征,無法得到有效的性能提升,一直在較低的準(zhǔn)確率徘徊.α=20時(shí)算法最為依賴增廣特征,可以看到前2層的性能提升非常明顯,但很快準(zhǔn)確率便停止增長(zhǎng).α=5時(shí)算法能夠在前5層都維持較為穩(wěn)定的增長(zhǎng)幅度,最終達(dá)到較高的準(zhǔn)確率.因此,自適應(yīng)因子α的設(shè)置比較關(guān)鍵,過大或過小都不利于最終達(dá)到很好的性能.我們注意到,對(duì)于實(shí)驗(yàn)設(shè)定下的DNA數(shù)據(jù)集,DD′=10,但α=5時(shí)的MDF性能最好,其10次平均測(cè)試準(zhǔn)確率為92.53%.因此,雖然設(shè)置α=DD′常常可以得到很好的性能,但最優(yōu)的α取值和具體的數(shù)據(jù)有關(guān),若進(jìn)行調(diào)參可能可以達(dá)到更好的性能.

Fig. 3 Cross-validation and test accuracy of MDF on DNA using different adaptive factors圖3 在DNA數(shù)據(jù)集上使用不同自適應(yīng)因子時(shí)MDF交叉驗(yàn)證和測(cè)試準(zhǔn)確率隨層數(shù)的變化情況

3.2.2 處理無關(guān)特征

文獻(xiàn)[13]指出,MF幾乎無法處理DNA數(shù)據(jù)集,因?yàn)槠浜写罅繜o關(guān)特征.而MDF因?yàn)槠渲饘犹幚砗妥赃m應(yīng)機(jī)制,有效地提升了性能.

Fig. 4 The influence of increasing irrelevant features on the predictive performance of MF and MDF圖4 無關(guān)特征的增加對(duì)于MF和MDF預(yù)測(cè)性能的影響

3.3 增量設(shè)定下的實(shí)驗(yàn)結(jié)果

考慮到MF2000中樹的棵數(shù)超過MDF,我們將MF2000作為基線方法來和MDF比較.同時(shí),為了比較增量訓(xùn)練的MDF和批量訓(xùn)練的gcForest的性能,我們?cè)趃cForest的實(shí)驗(yàn)中存儲(chǔ)當(dāng)前獲得的全部訓(xùn)練數(shù)據(jù),每當(dāng)有新的訓(xùn)練數(shù)據(jù)到來,把已有的訓(xùn)練數(shù)據(jù)和新的訓(xùn)練數(shù)據(jù)合并,重新訓(xùn)練一個(gè)gcForest.訓(xùn)練數(shù)據(jù)被分為81小批,其中第1批包含20%的訓(xùn)練數(shù)據(jù),剩余訓(xùn)練數(shù)據(jù)被等分至后續(xù)80批中,每一批訓(xùn)練數(shù)據(jù)到來時(shí)MDF和MF都會(huì)進(jìn)行更新,gcForest進(jìn)行重新訓(xùn)練,分別記錄累計(jì)的更新或重新訓(xùn)練的時(shí)間.

圖5展示了測(cè)試準(zhǔn)確率的變化情況,每10個(gè)小批記錄一次.圖5(a)~(e)的上層圖展示了測(cè)試準(zhǔn)確率隨訓(xùn)練樣本數(shù)的變化情況,可以看出,在USPS,SATIMAGE,DNA60和DNA數(shù)據(jù)集上,給定相同的訓(xùn)練樣本數(shù),MDF的測(cè)試準(zhǔn)確率都明顯好于MF2000.圖5(a)~(e)的下層圖展示了測(cè)試準(zhǔn)確率隨訓(xùn)練時(shí)間的變化情況.在USPS數(shù)據(jù)集上,gcForest沒有在106s內(nèi)完成訓(xùn)練,因此未在圖中展示.可以看出,在訓(xùn)練時(shí)間上MDF與MF2000接近,比定期重新訓(xùn)練的gcForest快一個(gè)數(shù)量級(jí).值得注意的是,增量訓(xùn)練的MDF有著與定期重新訓(xùn)練的gcForest接近的測(cè)試準(zhǔn)確率,甚至在USPS,SATIMAGE,LETTER數(shù)據(jù)集上還略好于gcForest.

Fig. 5 Results on various datasets in the incremental setting圖5 增量設(shè)定下在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

圖6對(duì)比了自適應(yīng)增加有效層數(shù)與固定有效層數(shù)的MDF測(cè)試準(zhǔn)確率隨訓(xùn)練樣本數(shù)的變化情況.可以看出,在USPS,SATIMAGE,LETTER和DNA60數(shù)據(jù)集上,激活更多的級(jí)聯(lián)層可以明顯提升性能,由此說明了動(dòng)態(tài)調(diào)整有效層數(shù)的作用.

Fig. 6 The effect of adaptively increasing the number of active layers圖6 自適應(yīng)增加有效層數(shù)的作用

4 討 論

深度森林gcForest在級(jí)聯(lián)結(jié)構(gòu)中同時(shí)使用了隨機(jī)森林和完全隨機(jī)森林2種基本模塊以提升多樣性,因?yàn)樵诩蓪W(xué)習(xí)中,要得到一個(gè)好的集成,基學(xué)習(xí)器應(yīng)當(dāng)盡可能準(zhǔn)確,同時(shí)有盡量高的多樣性[25].然而,蒙德里安深度森林僅使用蒙德里安森林作為基學(xué)習(xí)器,仍然達(dá)到了和gcForest接近的準(zhǔn)確率.從蒙德里安樹的訓(xùn)練過程可以看出,蒙德里安森林有著和完全隨機(jī)森林接近的隨機(jī)性,又有著接近隨機(jī)森林的準(zhǔn)確率,這使得蒙德里安森林可以用于搭建同質(zhì)深度森林.

在批量訓(xùn)練和增量訓(xùn)練下得到的蒙德里安森林的預(yù)測(cè)精度是相同的[13].而增量訓(xùn)練的蒙德里安深度森林的預(yù)測(cè)精度要略低于其批量訓(xùn)練版本.這是因?yàn)樵缦鹊竭_(dá)的訓(xùn)練樣本對(duì)應(yīng)的類概率向量已經(jīng)被用于訓(xùn)練后續(xù)的級(jí)聯(lián)層,隨著新的訓(xùn)練數(shù)據(jù)的到達(dá),每一層蒙德里安森林都被更新,但是與先前樣本對(duì)應(yīng)的舊的類概率向量已經(jīng)造成的影響不會(huì)被更正.不過,蒙德里安深度森林的性能仍然比蒙德里安森林好許多.

注意到gcForest較高的內(nèi)存和時(shí)間開銷約束了大模型的訓(xùn)練,文獻(xiàn)[26]提出了置信度篩選的方法,將高置信度的樣本直接傳遞到最后一級(jí),而不是遍歷所有層級(jí),同時(shí)每層的模型復(fù)雜度逐漸增加,由此將gcForest的時(shí)間和空間開銷降低了一個(gè)數(shù)量級(jí).蒙德里安深度森林未來也有可能借鑒類似的方法以降低訓(xùn)練的時(shí)間和空間開銷,從而可以搭建更大規(guī)模的模型以進(jìn)一步提升預(yù)測(cè)性能.

5 總 結(jié)

本文提出了蒙德里安深度森林.它是可以增量學(xué)習(xí)的深度森林模型,每當(dāng)獲得新的訓(xùn)練數(shù)據(jù),它可以基于當(dāng)前模型進(jìn)行更新,以提升性能,而不需要重新訓(xùn)練.與此同時(shí),它以蒙德里安森林為基本單元,但能夠通過級(jí)聯(lián)森林結(jié)構(gòu)和自適應(yīng)機(jī)制逐層提升預(yù)測(cè)性能,并且克服了蒙德里安森林易被無關(guān)特征干擾的問題,達(dá)到了和gcForest接近的準(zhǔn)確率.蒙德里安深度森林保持了深度森林超參數(shù)少且性能魯棒的優(yōu)點(diǎn),并且模型復(fù)雜度可以在訓(xùn)練過程中根據(jù)數(shù)據(jù)自動(dòng)確定.增量設(shè)定下的實(shí)驗(yàn)表明,蒙德里安深度森林比定期重新訓(xùn)練的gcForest快一個(gè)數(shù)量級(jí),并且達(dá)到了與之接近的預(yù)測(cè)準(zhǔn)確率.

猜你喜歡
蒙德里安層數(shù)級(jí)聯(lián)
一種中間電容諧振型級(jí)聯(lián)雙向DC-DC變換器
鈾濃縮廠級(jí)聯(lián)系統(tǒng)核安全分析
實(shí)現(xiàn)級(jí)聯(lián)形狀回歸方法對(duì)視線追蹤
淺探鋪設(shè)土工格柵技術(shù)在軟土路基加固處理中的運(yùn)用
通過絞車鋼絲繩計(jì)算井深
蒙德里安作品五幅[荷蘭]
帶蒙德里安一起回家
帶蒙德里安一起回家
風(fēng)格派的巔峰
住在哪一層
宣化县| 巫溪县| 沙田区| 额敏县| 汉中市| 克东县| 天峨县| 嘉荫县| 册亨县| 香港 | 沿河| 镇巴县| 武清区| 闽清县| 永清县| 昌黎县| 花莲市| 奉化市| 长汀县| 阜南县| 北安市| 呼伦贝尔市| 德昌县| 洱源县| 兰考县| 辽中县| 石河子市| 始兴县| 时尚| 梅州市| 三都| 舒城县| 石屏县| 抚顺市| 大方县| 涿州市| 靖宇县| 仁怀市| 遵义市| 石棉县| 甘洛县|