基于棧式結(jié)構(gòu)的深度極限學(xué)習(xí)機

2022-05-30 01:19張雄濤

湖州師范學(xué)院學(xué)報 2022年4期

董帥，申情，張雄濤

(1.湖州師范學(xué)院信息工程學(xué)院，浙江湖州 313000；2.湖州學(xué)院理工學(xué)院，浙江湖州 313000)

近年來，深度學(xué)習(xí)在理論研究和實際應(yīng)用中取得了突破性進展[1].深度網(wǎng)絡(luò)通過不斷堆疊網(wǎng)絡(luò)單元來模擬大腦的層次化認(rèn)知規(guī)律，具備出色的模型性能.Hinton指出，擁有大量隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力[2].隨著數(shù)據(jù)計算能力和存儲容量的顯著提升，深度網(wǎng)絡(luò)如CNN[3]、DBN[4]在多個應(yīng)用領(lǐng)域得到廣泛運用.但此類深度算法大多為基于梯度的算法，在機器學(xué)習(xí)任務(wù)中往往會受限于冗長的訓(xùn)練過程，也常常涉及復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和繁多的參數(shù)設(shè)置等一系列問題.而極限學(xué)習(xí)機(Extreme Learning Machine,ELM)[5-6]因結(jié)構(gòu)簡單、學(xué)習(xí)速度極快、人工代價小和泛化能力良好，在生物醫(yī)學(xué)、計算機視覺、故障診斷等領(lǐng)域得到廣泛應(yīng)用[7].區(qū)別于深度網(wǎng)絡(luò)，ELM只包含單個隱含層，且隱層參數(shù)通過隨機初始化產(chǎn)生，輸出權(quán)值由偽逆計算求解得出.但ELM仍然無法規(guī)避淺層網(wǎng)絡(luò)的局限性，難以發(fā)掘原始數(shù)據(jù)中所承載的大量隱含價值，從而導(dǎo)致重要信息流失.

Kasun等將自編碼器與極限學(xué)習(xí)機結(jié)合，提出基于ELM自編碼器(ELM AutoEncoder,ELM-AE)的深層模型，并在深層架構(gòu)中引入ELM-AE作為基本構(gòu)建單元[8].Zhou等針對大規(guī)模的復(fù)雜數(shù)據(jù)，提出一種堆疊結(jié)構(gòu)的深度ELM模型，其以串聯(lián)方式組合多個小規(guī)模ELM網(wǎng)絡(luò)[9].將數(shù)據(jù)中的有用信息進行有效融合，這對高性能的機器學(xué)習(xí)模型至關(guān)重要[10].但上述深度ELM模型未能充分利用層間所學(xué)的知識.與現(xiàn)有的深度集成方法不同[11-12]，本文基于ELM提出一種易于實施、快速訓(xùn)練的深度棧式分類器.

1 基礎(chǔ)知識

1.1 極限學(xué)習(xí)機理論

在ELM中，原始輸入被映射到ELM的隨機特征空間中，最后通過求解一個線性系統(tǒng)得到輸出.相比其他機器學(xué)習(xí)算法，ELM能以更快的速度、更優(yōu)的泛化性能、更簡潔的網(wǎng)絡(luò)架構(gòu)和更少的人工干預(yù)完成學(xué)習(xí)任務(wù).ELM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.

圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network architecture of ELM

對給定的N個不同的輸入樣本，xi=[xi1,xi2,…,xin]T∈Rn，ti=[ti1,ti2,…,tim]T∈Rm，g(·)為激活函數(shù)，n為輸入層節(jié)點數(shù)，L為隱層節(jié)點數(shù)，m為輸出層節(jié)點數(shù).ELM網(wǎng)絡(luò)的數(shù)學(xué)模型可表示為：

(1)

其中，wi=[wi1,wi2,…,win]T為輸入權(quán)重，βi=[βi1,βi2,…,βim]T為輸出權(quán)重，bi為第i個神經(jīng)元閾值.整個模型可改寫為矩陣的緊湊形式：

Hβ=T.

(2)

其中，H為隱含層的輸出矩陣，在矩陣中第i列的值為隱含層第i個神經(jīng)元的對應(yīng)輸出；β和T分別為輸出權(quán)值矩陣和ELM的期望標(biāo)簽矩陣.

上述線性系統(tǒng)的最小范數(shù)最小二乘解為：

(3)

其中，H?為H的廣義逆矩陣.

1.2 dropout思想

(4)

其中，N為所有子網(wǎng)絡(luò)的集合.

2 新型深度棧式ELM模型

2.1 FT-DSELM網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的新型深度棧式網(wǎng)絡(luò)FT-DSELM，在維持經(jīng)典ELM分類器優(yōu)秀特性的基礎(chǔ)上，利用堆疊泛化理論[15-17]實現(xiàn)深度學(xué)習(xí).棧式結(jié)構(gòu)兼具ELM的實時響應(yīng)能力和深度網(wǎng)絡(luò)的深度表征能力，并以ELM分類器作為基礎(chǔ)模塊，大大縮短了深度網(wǎng)絡(luò)的訓(xùn)練時間，降低了深度模型的計算復(fù)雜度.深度學(xué)習(xí)理論與極限學(xué)習(xí)機結(jié)合而成的棧式ELM架構(gòu)，不僅能加快深度模型的學(xué)習(xí)進程，還能有效探索數(shù)據(jù)承載的豐富知識，并改善原始特征表達.與現(xiàn)有的基于深層堆疊的ELM方法不同[18-19]，F(xiàn)T-DSELM不僅保持了原始ELM的網(wǎng)絡(luò)架構(gòu)，而且在更新數(shù)據(jù)空間的同時不會使原始數(shù)據(jù)的結(jié)構(gòu)發(fā)生過多改變.

每個子ELM分類器引入dropout思想，降低了隱層規(guī)模，加速了訓(xùn)練過程.若ELM的隱節(jié)點設(shè)置不當(dāng)，則會導(dǎo)致資源消耗巨大、過擬合等問題.dropout有著強大的理論和生物學(xué)基礎(chǔ)，在理論上被認(rèn)為是自適應(yīng)正則化，已被證明是一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效途徑.因此，根據(jù)dropout理論[20]，可利用防止特征檢測器的協(xié)同適應(yīng)來緩解過度擬合問題.首先，初始化一個規(guī)模相對較大的ELM網(wǎng)絡(luò)，通過dropout隨機剔除若干個隱層節(jié)點，從而在一定程度上減少此類過擬合問題；然后，在構(gòu)建每個子ELM分類器時，根據(jù)均勻分布生成L維的0-1向量，并按照生成的0-1向量對隱層節(jié)點進行刪除.在集成學(xué)習(xí)思想中，分類器集成的關(guān)鍵是基礎(chǔ)分類器的多樣性表現(xiàn)[21].當(dāng)多個基礎(chǔ)分類器在部分樣本分類任務(wù)上存在誤差多樣性時，多個基礎(chǔ)模塊間往往能夠優(yōu)劣互補.經(jīng)典的ELM隱層參數(shù)通過隨機初始化生成，而dropout會使每個子ELM分類器的隱層各不相同，從而有效地增強棧式模型的集成多樣性.

圖2為深度棧式ELM知識增強的總體框架.假定FT-DSELM的最終深度(子模塊數(shù)目)為D，知識生成過程闡釋如下.在起始層的子模塊中，樣本實際輸出矩陣的形式可表示為：

(5)

其中，m為輸出節(jié)點數(shù)，N為樣本數(shù).

從起始層的棧層開始，執(zhí)行ELM的學(xué)習(xí)流程，生成第一層子模塊的決策信息；將該決策信息視作輔助的增強知識，并擴充至原始數(shù)據(jù)集，從而生成增強數(shù)據(jù)；融合后的增強數(shù)據(jù)為更高層子模塊提供輸入.

圖2 深度棧式網(wǎng)絡(luò)框架Fig.2 The architecture of the deep stacking network

下面闡述第d(1

與首個子分類器中的工作流程相同，求出實際輸出矩陣Yd.根據(jù)式(3)，該矩陣計算和矩陣可表示為：

(6)

(7)

為方便起見，定義矩陣P1為原始輸入，并將其作為起始層的輸入數(shù)據(jù)；Ad為第d個子分類器學(xué)習(xí)到的增強特征；D為最終棧式結(jié)構(gòu)中子分類器的個數(shù).從起始層的子模塊到最終決策級別的子模塊，各個棧層輸入數(shù)據(jù)的規(guī)則可表示為：

P1=P1,P2=[P1|A1], ?Pd=[P1|Ad-1], ?

PD=[P1|AD-1].

(8)

考慮到當(dāng)前子模塊的測試效果優(yōu)于緊鄰的前一子模塊，在d層后將繼續(xù)堆疊更多子模塊.而第D層子模塊的建立，標(biāo)志著新型深度棧式網(wǎng)絡(luò)構(gòu)建的完成.

FT-DSELM是以ELM作為基本模塊構(gòu)建的一種快速訓(xùn)練，且與源數(shù)據(jù)空間始終保持一致的棧式結(jié)構(gòu).高層模塊將從低層學(xué)得的知識作為新的特征，并將其添加到原始特征中，以強化網(wǎng)絡(luò)的分類性能.傳統(tǒng)的深度網(wǎng)絡(luò)模型，在多重隱含層上所抽象出的中間特征與原始數(shù)據(jù)的特征并不相同，通常很難去通俗地解釋中間特征的意義.但在本文的棧式結(jié)構(gòu)中，每一層棧層的輸入都基于原始空間，因此源數(shù)據(jù)的全部特征信息得以完整保留.棧式結(jié)構(gòu)中的數(shù)據(jù)空間始終是由原始特征信息和增強特征信息構(gòu)成的，因而具有明確的物理意義.根據(jù)堆疊泛化原理，對任何作用在該增強數(shù)據(jù)集上的子分類器，其分類性能普遍高于原始數(shù)據(jù)集的結(jié)果.增強特征激發(fā)了深度棧式ELM更強的分類潛能.利用更新樣本空間方式，前層的學(xué)習(xí)結(jié)果對后續(xù)層的學(xué)習(xí)可起到良好的引導(dǎo)作用.FT-DSELM在后續(xù)多模塊中將原始輸入空間的流形分離，以堆疊的方式更好地實現(xiàn)樣本的線性可分.

2.2 算法流程

本文提出的FT-DSELM學(xué)習(xí)算法見表1.

表1 FT-DSELM學(xué)習(xí)算法

3 實驗與分析

3.1 實驗數(shù)據(jù)集

為驗證新型深度棧式ELM的有效性，本文通過數(shù)值實驗進行算法的性能比較.實驗數(shù)據(jù)集選自加州大學(xué)歐文分校的UCI數(shù)據(jù)庫，見表2.表2涵蓋了數(shù)據(jù)集的樣本數(shù)目、特征維度和類別數(shù).

表2 所用數(shù)據(jù)集的詳細信息

本實驗采用的數(shù)據(jù)集需要歸一化處理.在各個數(shù)據(jù)集中隨機選取80%的樣本作為訓(xùn)練集，剩余的作為測試集.實驗所用的性能評估指標(biāo)包括分類準(zhǔn)確率和執(zhí)行時間.所有實驗均在MATLAB 2019a軟件平臺上完成，電腦配置為64位的Windows 10操作系統(tǒng)，CPU配置為Intel(R) Core(TM) i5-9400 2.90 GHz，內(nèi)存為8 GB.

3.2 參數(shù)設(shè)置

本文選取主流的深度學(xué)習(xí)算法和集成學(xué)習(xí)算法作為對比算法，其中包括DBN、SAE、Adaboost和Bagging.兩種深度算法都從DeepLearnToolbox工具箱中直接調(diào)用，代碼通過MATLAB實現(xiàn).在小規(guī)模數(shù)據(jù)集上，深度算法的隱層單元數(shù)取值范圍為[10∶10∶40]，Epoch和Batchsize分別在[10∶10∶40]和[20∶10∶50]范圍內(nèi)進行搜索.在大規(guī)模數(shù)據(jù)集上，深度算法的隱層單元數(shù)取值范圍為[30∶10∶50]，Epoch和Batchsize分別在[40∶10∶60]和[60∶10∶100]范圍內(nèi)尋找最佳參數(shù).兩種集成學(xué)習(xí)算法都需要考慮子分類器的數(shù)量.針對前5個數(shù)據(jù)集通過網(wǎng)格搜索在[2∶1∶6]中選取參數(shù)，剩余的數(shù)據(jù)集通過網(wǎng)格搜索從[10∶1∶20]中確定參數(shù).本文提出的棧式結(jié)構(gòu)深度設(shè)置為D=6.

3.3 結(jié)果分析

對比經(jīng)典的深度算法DBN、SAE，集成算法Adaboost、Bagging，以及FT-DSELM的分類精度和標(biāo)準(zhǔn)差，結(jié)果見表3.FT-DSELM知識增強后的分類性能見表4.

表3 所有對比算法在UCI數(shù)據(jù)集上的分類準(zhǔn)確率

表4 FT-DSELM知識經(jīng)增強后的分類性能

實驗結(jié)果表明：FT-DSELM通過知識增強策略，可在大部分?jǐn)?shù)據(jù)集上獲得良好的分類表現(xiàn)；在CHE、NUR數(shù)據(jù)集上，深度棧式ELM的表現(xiàn)不如DBN，這也證實了傳統(tǒng)的深度網(wǎng)絡(luò)之強大.結(jié)合表4可知：在NUR數(shù)據(jù)集上，F(xiàn)T-DSELM具有較強的性能，且很好地提煉了原始數(shù)據(jù)中的知識；在RIN和ONL數(shù)據(jù)集上，F(xiàn)T-DSELM的分類表現(xiàn)遜色于深度方法SAE；在ONL和CHE數(shù)據(jù)集上，相比淺層ELM，F(xiàn)T-DSELM具有顯著的改善效果，基本可以獲得與傳統(tǒng)深度算法持平的性能；在RIN和NUR數(shù)據(jù)集上，盡管知識的增量學(xué)習(xí)策略是有效的，但新型的棧式結(jié)構(gòu)與傳統(tǒng)的深度算法間仍存在一定的性能差距.

圖3為FT-DSELM的訓(xùn)練和測試準(zhǔn)確率及隱層單元數(shù)目，其中ELM的隱層單元數(shù)目通過尋優(yōu)確定.下面以數(shù)據(jù)集MON為例，研究FT-DSELM隨著增強特征逐級融合而產(chǎn)生的性能變化.

MON是一個包含7個特征的數(shù)據(jù)集，在第一層子ELM中的輸入即為7維的源空間輸入.除首個子分類器外，其余所有子分類器的輸入構(gòu)成均基于源輸入空間和前一層的增強知識.在MON數(shù)據(jù)集上，首個子分類器的測試準(zhǔn)確率為78.07%，經(jīng)過多重的知識增強后，之后幾層的分類準(zhǔn)確率分別為 80.37%、81.42%、81.97%、82.35%、82.60%.在相鄰模塊間，測試性能的改善程度分別為2.3%、1.05%、0.55%、0.38%、0.25%.可見，在堆疊一定層數(shù)后，增益逐漸降低至較低水平.考慮之后堆疊棧層的性能增益明顯過低，因此不再執(zhí)行更多的特征融合操作.FT-DSELM起始層的分類準(zhǔn)確率不如Bagging算法，但在經(jīng)過棧式結(jié)構(gòu)的逐層特征融合和知識增強后，其最終的分類精度優(yōu)于Bagging集成算法.

圖3 深度棧式網(wǎng)絡(luò)在數(shù)據(jù)集上的準(zhǔn)確率和隱層單元數(shù)Fig.3 Comparison of FT-DSELM results for accuracy and hidden units for each dataset

一般而言，F(xiàn)T-DSELM消耗的時間代價會隨著棧層數(shù)目的增加而不斷增加.隨著子模塊數(shù)量的增多，準(zhǔn)確率不斷提升，但當(dāng)增強效果相對飽和、準(zhǔn)確率非常接近時，再持續(xù)引入子模塊，性能反而可能下降.由此表明，準(zhǔn)確率與時間代價之間需要取得良好的折衷.這也是本文棧式結(jié)構(gòu)設(shè)置為6層的原因.

3種深度算法DBN、SAE和FT-DSELM的時間消耗如圖4所示.實驗結(jié)果表明，F(xiàn)T-DSELM為深度學(xué)習(xí)提供了一種有效的快速訓(xùn)練深度分類器.基于淺層ELM，知識增強策略可充分利用多模塊的分類知識，有效地改善FT-DSELM的分類性能.在保證一定準(zhǔn)確率的基礎(chǔ)上，本文提出的方法有利于縮短算法的執(zhí)行時間，加快隱含知識的深層學(xué)習(xí).因此，F(xiàn)T-DSELM的訓(xùn)練速度遠快于傳統(tǒng)的基于迭代微調(diào)的深度算法，并具有極佳的時間效率.

圖4 3種深度算法在時間開銷上的對比Fig.4 Comparison of three deep algorithms in time cost

4 結(jié) 語

本文提出了一種基于快速訓(xùn)練的深度棧式極限學(xué)習(xí)機.利用棧式泛化原理深度堆疊多重ELM子分類器，在棧式結(jié)構(gòu)中不斷重構(gòu)輸入空間.重構(gòu)的數(shù)據(jù)空間由兩部分組成：原始特征信息和增強特征信息.兩種信息有助于解開源輸入空間的流形結(jié)構(gòu).在每一層棧層中，通過dropout改善棧式架構(gòu)的集成多樣性來降低每個子ELM的隱層規(guī)模.基于UCI數(shù)據(jù)集的實驗表明，F(xiàn)T-DSELM是一種高效的深度分類器，其訓(xùn)練速度遠快于傳統(tǒng)的深度模型，在保證分類精度的基礎(chǔ)上，能夠以極快的速度挖掘原始數(shù)據(jù)中的隱含知識，獲得較好的分類性能.如何實現(xiàn)FT-DSELM棧式結(jié)構(gòu)的并行化，并將其應(yīng)用到實際的大規(guī)模數(shù)據(jù)問題中，這是下一步需要研究的重點.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡