董 帥,申 情,張雄濤
(1.湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000;2.湖州學(xué)院 理工學(xué)院,浙江 湖州 313000)
近年來,深度學(xué)習(xí)在理論研究和實際應(yīng)用中取得了突破性進展[1].深度網(wǎng)絡(luò)通過不斷堆疊網(wǎng)絡(luò)單元來模擬大腦的層次化認(rèn)知規(guī)律,具備出色的模型性能.Hinton指出,擁有大量隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力[2].隨著數(shù)據(jù)計算能力和存儲容量的顯著提升,深度網(wǎng)絡(luò)如CNN[3]、DBN[4]在多個應(yīng)用領(lǐng)域得到廣泛運用.但此類深度算法大多為基于梯度的算法,在機器學(xué)習(xí)任務(wù)中往往會受限于冗長的訓(xùn)練過程,也常常涉及復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和繁多的參數(shù)設(shè)置等一系列問題.而極限學(xué)習(xí)機(Extreme Learning Machine,ELM)[5-6]因結(jié)構(gòu)簡單、學(xué)習(xí)速度極快、人工代價小和泛化能力良好,在生物醫(yī)學(xué)、計算機視覺、故障診斷等領(lǐng)域得到廣泛應(yīng)用[7].區(qū)別于深度網(wǎng)絡(luò),ELM只包含單個隱含層,且隱層參數(shù)通過隨機初始化產(chǎn)生,輸出權(quán)值由偽逆計算求解得出.但ELM仍然無法規(guī)避淺層網(wǎng)絡(luò)的局限性,難以發(fā)掘原始數(shù)據(jù)中所承載的大量隱含價值,從而導(dǎo)致重要信息流失.
Kasun等將自編碼器與極限學(xué)習(xí)機結(jié)合,提出基于ELM自編碼器(ELM AutoEncoder,ELM-AE)的深層模型,并在深層架構(gòu)中引入ELM-AE作為基本構(gòu)建單元[8].Zhou等針對大規(guī)模的復(fù)雜數(shù)據(jù),提出一種堆疊結(jié)構(gòu)的深度ELM模型,其以串聯(lián)方式組合多個小規(guī)模ELM網(wǎng)絡(luò)[9].將數(shù)據(jù)中的有用信息進行有效融合,這對高性能的機器學(xué)習(xí)模型至關(guān)重要[10].但上述深度ELM模型未能充分利用層間所學(xué)的知識.與現(xiàn)有的深度集成方法不同[11-12],本文基于ELM提出一種易于實施、快速訓(xùn)練的深度棧式分類器.
在ELM中,原始輸入被映射到ELM的隨機特征空間中,最后通過求解一個線性系統(tǒng)得到輸出.相比其他機器學(xué)習(xí)算法,ELM能以更快的速度、更優(yōu)的泛化性能、更簡潔的網(wǎng)絡(luò)架構(gòu)和更少的人工干預(yù)完成學(xué)習(xí)任務(wù).ELM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network architecture of ELM
對給定的N個不同的輸入樣本,xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,g(·)為激活函數(shù),n為輸入層節(jié)點數(shù),L為隱層節(jié)點數(shù),m為輸出層節(jié)點數(shù).ELM網(wǎng)絡(luò)的數(shù)學(xué)模型可表示為:
(1)
其中,wi=[wi1,wi2,…,win]T為輸入權(quán)重,βi=[βi1,βi2,…,βim]T為輸出權(quán)重,bi為第i個神經(jīng)元閾值.整個模型可改寫為矩陣的緊湊形式:
Hβ=T.
(2)
其中,H為隱含層的輸出矩陣,在矩陣中第i列的值為隱含層第i個神經(jīng)元的對應(yīng)輸出;β和T分別為輸出權(quán)值矩陣和ELM的期望標(biāo)簽矩陣.
上述線性系統(tǒng)的最小范數(shù)最小二乘解為:
(3)
其中,H?為H的廣義逆矩陣.
(4)
其中,N為所有子網(wǎng)絡(luò)的集合.
本文提出的新型深度棧式網(wǎng)絡(luò)FT-DSELM,在維持經(jīng)典ELM分類器優(yōu)秀特性的基礎(chǔ)上,利用堆疊泛化理論[15-17]實現(xiàn)深度學(xué)習(xí).棧式結(jié)構(gòu)兼具ELM的實時響應(yīng)能力和深度網(wǎng)絡(luò)的深度表征能力,并以ELM分類器作為基礎(chǔ)模塊,大大縮短了深度網(wǎng)絡(luò)的訓(xùn)練時間,降低了深度模型的計算復(fù)雜度.深度學(xué)習(xí)理論與極限學(xué)習(xí)機結(jié)合而成的棧式ELM架構(gòu),不僅能加快深度模型的學(xué)習(xí)進程,還能有效探索數(shù)據(jù)承載的豐富知識,并改善原始特征表達.與現(xiàn)有的基于深層堆疊的ELM方法不同[18-19],F(xiàn)T-DSELM不僅保持了原始ELM的網(wǎng)絡(luò)架構(gòu),而且在更新數(shù)據(jù)空間的同時不會使原始數(shù)據(jù)的結(jié)構(gòu)發(fā)生過多改變.
每個子ELM分類器引入dropout思想,降低了隱層規(guī)模,加速了訓(xùn)練過程.若ELM的隱節(jié)點設(shè)置不當(dāng),則會導(dǎo)致資源消耗巨大、過擬合等問題.dropout有著強大的理論和生物學(xué)基礎(chǔ),在理論上被認(rèn)為是自適應(yīng)正則化,已被證明是一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效途徑.因此,根據(jù)dropout理論[20],可利用防止特征檢測器的協(xié)同適應(yīng)來緩解過度擬合問題.首先,初始化一個規(guī)模相對較大的ELM網(wǎng)絡(luò),通過dropout隨機剔除若干個隱層節(jié)點,從而在一定程度上減少此類過擬合問題;然后,在構(gòu)建每個子ELM分類器時,根據(jù)均勻分布生成L維的0-1向量,并按照生成的0-1向量對隱層節(jié)點進行刪除.在集成學(xué)習(xí)思想中,分類器集成的關(guān)鍵是基礎(chǔ)分類器的多樣性表現(xiàn)[21].當(dāng)多個基礎(chǔ)分類器在部分樣本分類任務(wù)上存在誤差多樣性時,多個基礎(chǔ)模塊間往往能夠優(yōu)劣互補.經(jīng)典的ELM隱層參數(shù)通過隨機初始化生成,而dropout會使每個子ELM分類器的隱層各不相同,從而有效地增強棧式模型的集成多樣性.
圖2為深度棧式ELM知識增強的總體框架.假定FT-DSELM的最終深度(子模塊數(shù)目)為D,知識生成過程闡釋如下.在起始層的子模塊中,樣本實際輸出矩陣的形式可表示為:
(5)
其中,m為輸出節(jié)點數(shù),N為樣本數(shù).
從起始層的棧層開始,執(zhí)行ELM的學(xué)習(xí)流程,生成第一層子模塊的決策信息;將該決策信息視作輔助的增強知識,并擴充至原始數(shù)據(jù)集,從而生成增強數(shù)據(jù);融合后的增強數(shù)據(jù)為更高層子模塊提供輸入.
圖2 深度棧式網(wǎng)絡(luò)框架Fig.2 The architecture of the deep stacking network
下面闡述第d(1 與首個子分類器中的工作流程相同,求出實際輸出矩陣Yd.根據(jù)式(3),該矩陣計算和矩陣可表示為: (6) (7) 為方便起見,定義矩陣P1為原始輸入,并將其作為起始層的輸入數(shù)據(jù);Ad為第d個子分類器學(xué)習(xí)到的增強特征;D為最終棧式結(jié)構(gòu)中子分類器的個數(shù).從起始層的子模塊到最終決策級別的子模塊,各個棧層輸入數(shù)據(jù)的規(guī)則可表示為: P1=P1,P2=[P1|A1], ?Pd=[P1|Ad-1], ? PD=[P1|AD-1]. (8) 考慮到當(dāng)前子模塊的測試效果優(yōu)于緊鄰的前一子模塊,在d層后將繼續(xù)堆疊更多子模塊.而第D層子模塊的建立,標(biāo)志著新型深度棧式網(wǎng)絡(luò)構(gòu)建的完成. FT-DSELM是以ELM作為基本模塊構(gòu)建的一種快速訓(xùn)練,且與源數(shù)據(jù)空間始終保持一致的棧式結(jié)構(gòu).高層模塊將從低層學(xué)得的知識作為新的特征,并將其添加到原始特征中,以強化網(wǎng)絡(luò)的分類性能.傳統(tǒng)的深度網(wǎng)絡(luò)模型,在多重隱含層上所抽象出的中間特征與原始數(shù)據(jù)的特征并不相同,通常很難去通俗地解釋中間特征的意義.但在本文的棧式結(jié)構(gòu)中,每一層棧層的輸入都基于原始空間,因此源數(shù)據(jù)的全部特征信息得以完整保留.棧式結(jié)構(gòu)中的數(shù)據(jù)空間始終是由原始特征信息和增強特征信息構(gòu)成的,因而具有明確的物理意義.根據(jù)堆疊泛化原理,對任何作用在該增強數(shù)據(jù)集上的子分類器,其分類性能普遍高于原始數(shù)據(jù)集的結(jié)果.增強特征激發(fā)了深度棧式ELM更強的分類潛能.利用更新樣本空間方式,前層的學(xué)習(xí)結(jié)果對后續(xù)層的學(xué)習(xí)可起到良好的引導(dǎo)作用.FT-DSELM在后續(xù)多模塊中將原始輸入空間的流形分離,以堆疊的方式更好地實現(xiàn)樣本的線性可分. 本文提出的FT-DSELM學(xué)習(xí)算法見表1. 表1 FT-DSELM學(xué)習(xí)算法 為驗證新型深度棧式ELM的有效性,本文通過數(shù)值實驗進行算法的性能比較.實驗數(shù)據(jù)集選自加州大學(xué)歐文分校的UCI數(shù)據(jù)庫,見表2.表2涵蓋了數(shù)據(jù)集的樣本數(shù)目、特征維度和類別數(shù). 表2 所用數(shù)據(jù)集的詳細信息 本實驗采用的數(shù)據(jù)集需要歸一化處理.在各個數(shù)據(jù)集中隨機選取80%的樣本作為訓(xùn)練集,剩余的作為測試集.實驗所用的性能評估指標(biāo)包括分類準(zhǔn)確率和執(zhí)行時間.所有實驗均在MATLAB 2019a軟件平臺上完成,電腦配置為64位的Windows 10操作系統(tǒng),CPU配置為Intel(R) Core(TM) i5-9400 2.90 GHz,內(nèi)存為8 GB. 本文選取主流的深度學(xué)習(xí)算法和集成學(xué)習(xí)算法作為對比算法,其中包括DBN、SAE、Adaboost和Bagging.兩種深度算法都從DeepLearnToolbox工具箱中直接調(diào)用,代碼通過MATLAB實現(xiàn).在小規(guī)模數(shù)據(jù)集上,深度算法的隱層單元數(shù)取值范圍為[10∶10∶40],Epoch和Batchsize分別在[10∶10∶40]和[20∶10∶50]范圍內(nèi)進行搜索.在大規(guī)模數(shù)據(jù)集上,深度算法的隱層單元數(shù)取值范圍為[30∶10∶50],Epoch和Batchsize分別在[40∶10∶60]和[60∶10∶100]范圍內(nèi)尋找最佳參數(shù).兩種集成學(xué)習(xí)算法都需要考慮子分類器的數(shù)量.針對前5個數(shù)據(jù)集通過網(wǎng)格搜索在[2∶1∶6]中選取參數(shù),剩余的數(shù)據(jù)集通過網(wǎng)格搜索從[10∶1∶20]中確定參數(shù).本文提出的棧式結(jié)構(gòu)深度設(shè)置為D=6. 對比經(jīng)典的深度算法DBN、SAE,集成算法Adaboost、Bagging,以及FT-DSELM的分類精度和標(biāo)準(zhǔn)差,結(jié)果見表3.FT-DSELM知識增強后的分類性能見表4. 表3 所有對比算法在UCI數(shù)據(jù)集上的分類準(zhǔn)確率 表4 FT-DSELM知識經(jīng)增強后的分類性能 實驗結(jié)果表明:FT-DSELM通過知識增強策略,可在大部分?jǐn)?shù)據(jù)集上獲得良好的分類表現(xiàn);在CHE、NUR數(shù)據(jù)集上,深度棧式ELM的表現(xiàn)不如DBN,這也證實了傳統(tǒng)的深度網(wǎng)絡(luò)之強大.結(jié)合表4可知:在NUR數(shù)據(jù)集上,F(xiàn)T-DSELM具有較強的性能,且很好地提煉了原始數(shù)據(jù)中的知識;在RIN和ONL數(shù)據(jù)集上,F(xiàn)T-DSELM的分類表現(xiàn)遜色于深度方法SAE;在ONL和CHE數(shù)據(jù)集上,相比淺層ELM,F(xiàn)T-DSELM具有顯著的改善效果,基本可以獲得與傳統(tǒng)深度算法持平的性能;在RIN和NUR數(shù)據(jù)集上,盡管知識的增量學(xué)習(xí)策略是有效的,但新型的棧式結(jié)構(gòu)與傳統(tǒng)的深度算法間仍存在一定的性能差距. 圖3為FT-DSELM的訓(xùn)練和測試準(zhǔn)確率及隱層單元數(shù)目,其中ELM的隱層單元數(shù)目通過尋優(yōu)確定.下面以數(shù)據(jù)集MON為例,研究FT-DSELM隨著增強特征逐級融合而產(chǎn)生的性能變化. MON是一個包含7個特征的數(shù)據(jù)集,在第一層子ELM中的輸入即為7維的源空間輸入.除首個子分類器外,其余所有子分類器的輸入構(gòu)成均基于源輸入空間和前一層的增強知識.在MON數(shù)據(jù)集上,首個子分類器的測試準(zhǔn)確率為78.07%,經(jīng)過多重的知識增強后,之后幾層的分類準(zhǔn)確率分別為 80.37%、81.42%、81.97%、82.35%、82.60%.在相鄰模塊間,測試性能的改善程度分別為2.3%、1.05%、0.55%、0.38%、0.25%.可見,在堆疊一定層數(shù)后,增益逐漸降低至較低水平.考慮之后堆疊棧層的性能增益明顯過低,因此不再執(zhí)行更多的特征融合操作.FT-DSELM起始層的分類準(zhǔn)確率不如Bagging算法,但在經(jīng)過棧式結(jié)構(gòu)的逐層特征融合和知識增強后,其最終的分類精度優(yōu)于Bagging集成算法. 圖3 深度棧式網(wǎng)絡(luò)在數(shù)據(jù)集上的準(zhǔn)確率和隱層單元數(shù)Fig.3 Comparison of FT-DSELM results for accuracy and hidden units for each dataset 一般而言,F(xiàn)T-DSELM消耗的時間代價會隨著棧層數(shù)目的增加而不斷增加.隨著子模塊數(shù)量的增多,準(zhǔn)確率不斷提升,但當(dāng)增強效果相對飽和、準(zhǔn)確率非常接近時,再持續(xù)引入子模塊,性能反而可能下降.由此表明,準(zhǔn)確率與時間代價之間需要取得良好的折衷.這也是本文棧式結(jié)構(gòu)設(shè)置為6層的原因. 3種深度算法DBN、SAE和FT-DSELM的時間消耗如圖4所示.實驗結(jié)果表明,F(xiàn)T-DSELM為深度學(xué)習(xí)提供了一種有效的快速訓(xùn)練深度分類器.基于淺層ELM,知識增強策略可充分利用多模塊的分類知識,有效地改善FT-DSELM的分類性能.在保證一定準(zhǔn)確率的基礎(chǔ)上,本文提出的方法有利于縮短算法的執(zhí)行時間,加快隱含知識的深層學(xué)習(xí).因此,F(xiàn)T-DSELM的訓(xùn)練速度遠快于傳統(tǒng)的基于迭代微調(diào)的深度算法,并具有極佳的時間效率. 圖4 3種深度算法在時間開銷上的對比Fig.4 Comparison of three deep algorithms in time cost 本文提出了一種基于快速訓(xùn)練的深度棧式極限學(xué)習(xí)機.利用棧式泛化原理深度堆疊多重ELM子分類器,在棧式結(jié)構(gòu)中不斷重構(gòu)輸入空間.重構(gòu)的數(shù)據(jù)空間由兩部分組成:原始特征信息和增強特征信息.兩種信息有助于解開源輸入空間的流形結(jié)構(gòu).在每一層棧層中,通過dropout改善棧式架構(gòu)的集成多樣性來降低每個子ELM的隱層規(guī)模.基于UCI數(shù)據(jù)集的實驗表明,F(xiàn)T-DSELM是一種高效的深度分類器,其訓(xùn)練速度遠快于傳統(tǒng)的深度模型,在保證分類精度的基礎(chǔ)上,能夠以極快的速度挖掘原始數(shù)據(jù)中的隱含知識,獲得較好的分類性能.如何實現(xiàn)FT-DSELM棧式結(jié)構(gòu)的并行化,并將其應(yīng)用到實際的大規(guī)模數(shù)據(jù)問題中,這是下一步需要研究的重點.2.2 算法流程
3 實驗與分析
3.1 實驗數(shù)據(jù)集
3.2 參數(shù)設(shè)置
3.3 結(jié)果分析
4 結(jié) 語