張國(guó)令,王曉丹,李 睿,來(lái) 杰,向 前
(空軍工程大學(xué) 防空反導(dǎo)學(xué)院,西安 710051)
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[1]是一種簡(jiǎn)單高效的單隱層前饋神經(jīng)網(wǎng)絡(luò)(Single Hidden Layer Feedforward Neural Network,SLFN)算法。ELM網(wǎng)絡(luò)的輸入權(quán)重和隱層偏置均為隨機(jī)生成,輸出權(quán)值則通過(guò)求解最小化平方損失函數(shù)得到,能夠有效解決傳統(tǒng)SLFN算法收斂速度慢、容易產(chǎn)生局部最優(yōu)解的問(wèn)題。ELM因?qū)崿F(xiàn)簡(jiǎn)單、訓(xùn)練速度快和泛化性能好等特點(diǎn),現(xiàn)已被廣泛應(yīng)用于語(yǔ)音識(shí)別[2]、故障診斷[3-4]、生物醫(yī)學(xué)[5-6]、計(jì)算機(jī)視覺(jué)[7-8]等多個(gè)領(lǐng)域。
大量研究表明,ELM隨機(jī)確定輸入權(quán)值和隱層偏置,能夠提高整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)速度,但是隱層參數(shù)的隨機(jī)賦值使得ELM比傳統(tǒng)基于調(diào)優(yōu)的學(xué)習(xí)算法需要更多的隱層節(jié)點(diǎn)。然而,過(guò)多的隱層節(jié)點(diǎn)容易減弱隱含層的稀疏性,產(chǎn)生冗余節(jié)點(diǎn),增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,降低算法分類(lèi)準(zhǔn)確率[9-10]。對(duì)此,研究者采用群體智能優(yōu)化方法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,以提高整體性能。文獻(xiàn)[9]通過(guò)引入差分進(jìn)化算法提出E-ELM算法,利用交叉算子和差分變異并通過(guò)動(dòng)態(tài)調(diào)整整個(gè)種群得到最優(yōu)的輸入權(quán)值和隱層偏置,從而使網(wǎng)絡(luò)結(jié)構(gòu)更為緊湊。文獻(xiàn)[10]引入粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法對(duì)ELM隱層節(jié)點(diǎn)參數(shù)進(jìn)行調(diào)整,提出PSO-ELM算法,通過(guò)編碼將輸入權(quán)值和隨機(jī)偏置設(shè)為待優(yōu)化的粒子,根據(jù)PSO原理得到全局最優(yōu)值,以提升ELM的整體性能。采用群體智能優(yōu)化隱層節(jié)點(diǎn)參數(shù)改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),可提高ELM算法的泛化能力和穩(wěn)定性,但同時(shí)也增加了計(jì)算復(fù)雜度,在處理大規(guī)模高維數(shù)據(jù)集時(shí)性能較差。
研究表明,通過(guò)將ELM拓展到深度學(xué)習(xí)領(lǐng)域,可以在處理大規(guī)模高維數(shù)據(jù)時(shí)降低深層網(wǎng)絡(luò)的計(jì)算復(fù)雜度,減少訓(xùn)練時(shí)間。文獻(xiàn)[11]提出的ELM-AE算法結(jié)合極限學(xué)習(xí)機(jī)和自編碼器的優(yōu)勢(shì),具有良好的特征表達(dá)能力和分類(lèi)性能。文獻(xiàn)[12]通過(guò)改進(jìn)ELM-AE提出的判別圖正則化極限學(xué)習(xí)機(jī)自編碼器GELM-AE,能夠提取更抽象的高層特征,提高網(wǎng)絡(luò)模型的整體性能。文獻(xiàn)[13]通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和ELM相結(jié)合,提出CNN2ELM集成學(xué)習(xí)框架,提高了識(shí)別人臉圖像年齡的魯棒性。
棧式降噪稀疏自編碼器(stacked Denoising Sparse Auto-Encoder,sDSAE)是一種改進(jìn)的自編碼器深度學(xué)習(xí)模型,其中稀疏性約束的加入使網(wǎng)絡(luò)結(jié)構(gòu)得到優(yōu)化,能夠更好地提取數(shù)據(jù)的深層特征,而去噪處理則降低了噪聲干擾,增強(qiáng)了算法魯棒性。本文將sDSAE與ELM相結(jié)合,提出sDSAE-ELM算法,利用sDSAE產(chǎn)生ELM的輸入權(quán)值和隱層偏置,以解決ELM輸入權(quán)重和隱層偏置隨機(jī)賦值導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、魯棒性弱的問(wèn)題,同時(shí)保留ELM訓(xùn)練速度快的優(yōu)勢(shì)。
ELM是一種具有快速學(xué)習(xí)能力的SLFN算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of ELM
(1)
其中,wi=[wi1,wi2,…,win]T為n個(gè)輸入層節(jié)點(diǎn)與第i個(gè)隱層節(jié)點(diǎn)之間的輸入權(quán)值向量,bi為第i個(gè)隱層節(jié)點(diǎn)偏置值,g(·)是隱層節(jié)點(diǎn)的激活函數(shù),βi=[βi1,βi2,…,βim]T為第i個(gè)隱層節(jié)點(diǎn)與m個(gè)輸出層節(jié)點(diǎn)之間的輸出權(quán)值向量。令h(x)=[g1(x),g2(x),…,gl(x)]表示輸入數(shù)據(jù)x的隱層輸出,用H=[hT(x1),hT(x2),…,hT(xN)]T表示數(shù)據(jù)樣本在隱層的輸出矩陣,即:
(2)
令T=[t1,t2,…,tN]T表示樣本的目標(biāo)輸出,則該系統(tǒng)矩陣表達(dá)式為:
Hβ=T
(3)
(4)
通常情況下,隱層節(jié)點(diǎn)數(shù)l小于訓(xùn)練樣本數(shù)N。因此,對(duì)β求解得到:
(5)
其中,H?表示H的Moore-Penrose(MP)廣義逆,此解具有唯一性,可使網(wǎng)絡(luò)訓(xùn)練誤差達(dá)到最小值。β具體表達(dá)式為:
(6)
(7)
其中,I為單位矩陣,C為正則化系數(shù)。
ELM的學(xué)習(xí)過(guò)程如算法1所示。
算法1ELM
輸出輸出權(quán)重β
步驟1隨機(jī)生成輸入權(quán)值ωi和隱層偏置bi。
步驟2根據(jù)式(2)計(jì)算隱層輸出矩陣H。
步驟3據(jù)式(7)計(jì)算輸出權(quán)重β。
傳統(tǒng)的自動(dòng)編碼器(AE)對(duì)輸入數(shù)據(jù)的重構(gòu)能力有限,提取數(shù)據(jù)特征的能力較差[15]。在自編碼器的基礎(chǔ)上添加稀疏性約束得到稀疏自編碼器(SAE),即迫使大多數(shù)隱層節(jié)點(diǎn)置0,少數(shù)隱層節(jié)點(diǎn)不為0,網(wǎng)絡(luò)更加稀疏,從而具有良好的調(diào)節(jié)能力,使得模型與人腦的學(xué)習(xí)過(guò)程更相似,有利于提取更具代表性的特征,提高算法分類(lèi)準(zhǔn)確率[16]。降噪稀疏自編碼器(DSAE)是在SAE基礎(chǔ)上,對(duì)原始樣本數(shù)據(jù)進(jìn)行退化處理,其目的在于排除噪聲干擾,更好地重構(gòu)原始輸入,增強(qiáng)算法的魯棒性[17-18]。DSAE網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 DSAE網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of DSAE
稀疏編碼和解碼過(guò)程的計(jì)算公式分別如式(8)和式(9)所示:
(8)
y=f(h)=sf(w′h+b′)
(9)
(10)
采用相對(duì)熵(KL)的方法進(jìn)行稀疏懲罰,如式(11)所示:
(11)
DSAE屬于淺層網(wǎng)絡(luò),學(xué)習(xí)能力有限,而棧式降噪稀疏自編碼器(sDSAE)由多個(gè)DSAE堆棧而成,其以前一隱層輸出作為后一隱層輸入,逐層訓(xùn)練,在處理高維大數(shù)據(jù)集時(shí)整體性能優(yōu)于淺層網(wǎng)絡(luò)。但sDSAE的性能取決于網(wǎng)絡(luò)的層數(shù)和節(jié)點(diǎn)數(shù),網(wǎng)絡(luò)層數(shù)并非越多越好,層數(shù)太多容易引起梯度彌散現(xiàn)象,也會(huì)訓(xùn)練過(guò)擬合[17]。因此,本文設(shè)置2層sDSAE網(wǎng)絡(luò)。
ELM在訓(xùn)練過(guò)程中隨機(jī)生成輸入權(quán)值和隱層偏置,為得到理想的分類(lèi)效果,往往需要產(chǎn)生大量的隱含層節(jié)點(diǎn),而過(guò)多的隱含層節(jié)點(diǎn)會(huì)導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,影響整體的學(xué)習(xí)性能。為避免ELM中出現(xiàn)過(guò)多的隨機(jī)冗余節(jié)點(diǎn),本文利用sDSAE獲取輸入數(shù)據(jù)的特征表達(dá),通過(guò)加入稀疏性限制使網(wǎng)絡(luò)可以學(xué)到輸入數(shù)據(jù)中更優(yōu)的結(jié)構(gòu)特征,從而更好地描述輸入數(shù)據(jù),為ELM提供所需的輸入權(quán)值和隱層偏置,更有利于ELM進(jìn)行分類(lèi)。
理論上,sDSAE-ELM算法比ELM算法能夠獲得更優(yōu)的輸入權(quán)值和隱層偏置。一方面,sDSAE-ELM算法利用sDSAE具有稀疏化的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)原始輸入數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,將得到的輸入權(quán)值和隱層偏置分別作為sDSAE-ELM算法的輸入權(quán)值和隱層偏置,其包含了輸入數(shù)據(jù)的相關(guān)特征信息,有利于發(fā)掘更本質(zhì)的高級(jí)抽象特征,對(duì)數(shù)據(jù)重構(gòu)和算法整體性能有促進(jìn)作用,而ELM算法的輸入權(quán)值和隱層偏置隨機(jī)賦值,與輸入數(shù)據(jù)無(wú)關(guān),對(duì)數(shù)據(jù)重構(gòu)和算法整體性能沒(méi)有促進(jìn)作用;另一方面,sDSAE-ELM算法通過(guò)sDSAE產(chǎn)生極限學(xué)習(xí)機(jī)的輸入權(quán)值與隱層偏置,克服了ELM因隱含層參數(shù)隨機(jī)賦值產(chǎn)生冗余節(jié)點(diǎn)、降低算法分類(lèi)準(zhǔn)確率的弊端。此外,sDSAE-ELM算法優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示,其對(duì)原始輸入數(shù)據(jù)進(jìn)行退化處理,從而有效消除噪聲的干擾,增強(qiáng)魯棒性。
圖3 sDSAE-ELM網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of sDSAE-ELM
sDSAE-ELM訓(xùn)練過(guò)程的具體步驟如下:
步驟1對(duì)原始輸入x進(jìn)行預(yù)處理。依據(jù)上文所述,利用梯度下降法訓(xùn)練DSAE1,得到第一隱含層的輸出h1和網(wǎng)絡(luò)參量w1、b1。h1是對(duì)原始輸入數(shù)據(jù)和網(wǎng)絡(luò)參數(shù)的高度抽象結(jié)果,由于對(duì)原始輸入進(jìn)行過(guò)退化處理以及對(duì)網(wǎng)絡(luò)添加稀疏性約束,因此更能體現(xiàn)輸入數(shù)據(jù)的本質(zhì)特征,算法魯棒性更強(qiáng),并且當(dāng)原始輸入維數(shù)較高時(shí),還能起到降低數(shù)據(jù)維度的作用。
步驟2利用梯度下降法訓(xùn)練DSAE2以確定ELM的參數(shù)。相比于傳統(tǒng)的學(xué)習(xí)算法,ELM不僅學(xué)習(xí)速度更快,而且分類(lèi)性能更優(yōu)。然而,與基于調(diào)優(yōu)的學(xué)習(xí)算法相比,由于其輸入權(quán)值和隱層偏置產(chǎn)生的隨機(jī)性,ELM需要更多的隱層節(jié)點(diǎn)。此過(guò)程同步驟1,得到第一隱含層的輸出h2和網(wǎng)絡(luò)參量w2、b2。其中,w2作為ELM的輸入權(quán)值,b2作為ELM的隱層偏置,輸出矩陣為h2。此步驟能夠克服ELM隨機(jī)生成隱層參數(shù)的問(wèn)題,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高模型的穩(wěn)定性。
步驟3利用ELM進(jìn)行分類(lèi),輸入數(shù)據(jù)為h1,輸入權(quán)值和隱層偏置分別為w2和b2,隱層輸出矩陣為h2,根據(jù)式(6)求得輸出權(quán)重。
sDSAE-ELM學(xué)習(xí)過(guò)程如算法2所示。
算法2sDSAE-ELM
輸出輸出權(quán)重β
步驟1對(duì)原始輸入x進(jìn)行預(yù)處理和退化處理。訓(xùn)練DSAE1,得到第一隱含層的輸出h1以及網(wǎng)絡(luò)參數(shù)w1、b1。
步驟2輸入h1,訓(xùn)練DSAE2,得到第二隱含層的輸出h2以及最優(yōu)網(wǎng)絡(luò)參數(shù)w2、b2。
步驟3將h1、w2和b2分別作為ELM的輸入、輸入權(quán)值和隱含偏置,ELM的隱層輸出為h2,根據(jù)式(7)計(jì)算得到β。
本文實(shí)驗(yàn)環(huán)境為Matlab R2017b,計(jì)算機(jī)配置為Intel?CoreTMi7-4790 CPU 3.60 GHz,16 GB RAM。
sDSAE-ELM屬于深度學(xué)習(xí)算法,在處理高維含噪數(shù)據(jù)時(shí)具有較好的泛化性能和魯棒性。為此,本文選用MNIST、USPS、Fashion-MNIST和Convex 4個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),詳細(xì)描述如表1所示。
在網(wǎng)絡(luò)隱含層加入稀疏性約束,可使模型模擬人腦的學(xué)習(xí)過(guò)程,其中少數(shù)節(jié)點(diǎn)被激活,多數(shù)處于抑制狀態(tài),保證了數(shù)據(jù)在網(wǎng)絡(luò)中的有效傳遞。同時(shí),稀疏性約束的加入也可優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高模型的整體性能。
3.2.1 稀疏性約束對(duì)分類(lèi)準(zhǔn)確率的影響
為分析加入稀疏性約束對(duì)分類(lèi)準(zhǔn)確率的影響,本節(jié)比較加入不同程度稀疏性約束的sDSAE-ELM算法在MNIST數(shù)據(jù)及其加噪數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率,稀疏性參數(shù)分別取0.00、0.01、0.05、0.10、0.15、0.20,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為784-350-1600-10,其他參數(shù)設(shè)置為:激活函數(shù)選擇sigmoid函數(shù),學(xué)習(xí)速率α取0.5,退化率v取0.2,訓(xùn)練集特征提取10次,稀疏懲罰權(quán)重η取0.04,系數(shù)C取1×105。實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4可以看出,對(duì)于加入不同程度高斯白噪聲的MNIST數(shù)據(jù),與不加入稀疏性約束的網(wǎng)絡(luò)(稀疏性參數(shù)ρ取0)相比,加入稀疏性約束的sDSAE-ELM均具有更好的分類(lèi)準(zhǔn)確率,原因在于稀疏網(wǎng)絡(luò)學(xué)到的特征表達(dá)能更好地描述輸入數(shù)據(jù),更有利于ELM進(jìn)行分類(lèi)。此外還可以看出,稀疏性參數(shù)取值不同,得到的分類(lèi)準(zhǔn)確率也不同,當(dāng)ρ取0.05時(shí),分類(lèi)準(zhǔn)確率達(dá)到最優(yōu),當(dāng)ρ取值過(guò)大或過(guò)小時(shí),分類(lèi)準(zhǔn)確率有所下降,說(shuō)明對(duì)于同一的數(shù)據(jù)而言,網(wǎng)絡(luò)不夠稀疏或過(guò)于稀疏都不利于特征提取,不能得到較高的分類(lèi)準(zhǔn)確率。
3.2.2 稀疏性約束對(duì)特征提取效果的影響
本節(jié)對(duì)sDSAE-ELM的隱含層進(jìn)行可視化處理,比較分析加入不同稀疏性約束對(duì)網(wǎng)絡(luò)特征提取效果的影響。選取MNIST數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,其他參數(shù)設(shè)置與3.2.1節(jié)一致。稀疏性參數(shù)ρ分別取0.00、0.01、0.05、0.20時(shí)的隱含層可視化結(jié)果如圖5所示。
圖5 不同ρ取值下的隱含層可視化結(jié)果Fig.5 Hidden layer visualization results underdifferent values of ρ
從圖5可以看出,當(dāng)ρ=0.05時(shí),隱層可視化結(jié)果較未添加稀疏性約束情況下的更清晰獨(dú)立,并且結(jié)構(gòu)性更強(qiáng),這是因?yàn)樘砑酉∈杓s束的網(wǎng)絡(luò)具有稀疏性,能夠?qū)W到數(shù)據(jù)更本質(zhì)的結(jié)構(gòu)特征,該特征表達(dá)能更好地描述輸入數(shù)據(jù)。由此可見(jiàn),稀疏性約束的加入使得sDSAE-ELM具有更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),有利于后續(xù)的分類(lèi)工作。此外還可以看出,當(dāng)ρ=0.01和ρ=0.20時(shí),隱層可視化結(jié)果均不如ρ=0.05時(shí)清晰可見(jiàn),這說(shuō)明網(wǎng)絡(luò)具有最優(yōu)稀疏程度,當(dāng)ρ過(guò)大時(shí),網(wǎng)絡(luò)稀疏性不足,網(wǎng)絡(luò)復(fù)雜無(wú)法提取到更優(yōu)異的高級(jí)抽象特征,當(dāng)ρ過(guò)小時(shí),網(wǎng)絡(luò)過(guò)于稀疏,提取的特征不完整,無(wú)法代表輸入數(shù)據(jù)的完整特征,因此,預(yù)提取到數(shù)據(jù)的高級(jí)抽象特征,稀疏性參數(shù)ρ必須取值在合理范圍內(nèi)。
sDSAE-ELM對(duì)原始樣本數(shù)據(jù)進(jìn)行退化處理,其目的在于消除噪聲干擾,提取更本質(zhì)的特征,從而提高模型的魯棒性。為驗(yàn)證sDSAE-ELM具有良好的魯棒性,本節(jié)設(shè)置實(shí)驗(yàn)如下:對(duì)MNIST數(shù)據(jù)集加入不同比例的高斯白噪聲,比較其分類(lèi)準(zhǔn)確率。為增強(qiáng)說(shuō)服力,分別在稀疏性參數(shù)ρ取0.03、0.05、0.07的情況下進(jìn)行10次實(shí)驗(yàn),結(jié)果取平均值,其他參數(shù)設(shè)置與3.2.1節(jié)一致。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 加噪MNIST數(shù)據(jù)集中的分類(lèi)準(zhǔn)確率對(duì)比Fig.6 Comparison of classification accuracies inMNIST datdset with noise
從圖6可以看出,在加入一定高斯白噪聲的情況下,分類(lèi)準(zhǔn)確率只有略微下降,變化幅度不超過(guò)1%,這表明含有一定噪聲的數(shù)據(jù)不會(huì)顯著影響sDSAE-ELM的分類(lèi)準(zhǔn)確率。該算法具有很強(qiáng)的魯棒性和穩(wěn)定性,是因?yàn)槠鋵?duì)原始含噪數(shù)據(jù)進(jìn)行了退化處理,在對(duì)輸入數(shù)據(jù)進(jìn)行稀疏編碼的同時(shí)還具有降噪功能。通過(guò)加入數(shù)據(jù)退化過(guò)程,sDSAE能夠提取到更具魯棒性的高級(jí)抽象特征,為極限學(xué)習(xí)機(jī)提供輸入權(quán)值與隱層偏置,從而增強(qiáng)算法魯棒性和抗噪能力。
為驗(yàn)證sDSAE-ELM算法在處理高維含噪數(shù)據(jù)時(shí)的綜合性能,本節(jié)實(shí)驗(yàn)將ELM、PCA-ELM[19]、ELM-AE[15]、DAE-ELM[20]以及sDSAE-ELM在多個(gè)數(shù)據(jù)集上進(jìn)行性能對(duì)比。分別使用MNIST、USPS、Fashion-MNIST和Convex原始數(shù)據(jù)集,以及在其基礎(chǔ)上進(jìn)行如下加噪操作的數(shù)據(jù)集共16個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù):1)添加服從N(0,0.01)的高斯白噪聲;2)添加密度為0.1的椒鹽噪聲;3)添加服從N(0,0.01)的高斯白噪聲+密度為0.1的椒鹽噪聲。
為保證實(shí)驗(yàn)的準(zhǔn)確性和高效性(訓(xùn)練時(shí)間短),實(shí)驗(yàn)采用小批量數(shù)據(jù)模式,各數(shù)據(jù)集批量大小為100。為保證對(duì)比實(shí)驗(yàn)的可信性,ELM、PCA-ELM、ELM-AE、DAE-ELM、sDSAE-ELM的網(wǎng)絡(luò)結(jié)構(gòu)盡可能相似,分別設(shè)置為X-1600-Y、X-1600-Y、X-350-1600-Y、X-350-1600-Y、X-350-1600-Y。PCA-ELM取前200維。DAE-ELM部分參數(shù)設(shè)置如下:激活函數(shù)選擇sigmoid函數(shù),學(xué)習(xí)速率α取0.5,退化率v取0.2,訓(xùn)練集特征提取10次。sDSAE-ELM參數(shù)設(shè)置如下:稀疏性參數(shù)數(shù)ρ取0.05,稀疏懲罰權(quán)重η取0.04,系數(shù)C取1×105,其余參數(shù)設(shè)置同DAE-ELM。不同算法的分類(lèi)性能比較如表2所示,其中最優(yōu)結(jié)果加粗表示。
表2 5種算法的分類(lèi)準(zhǔn)確率對(duì)比Table 2 Comparison of classification accuracies of five algorithms %
從表2可以看出:與ELM算法相比,sDSAE-ELM的分類(lèi)準(zhǔn)確率在原始MNIST數(shù)據(jù)集中提升了2.41%,在加噪MNIST數(shù)據(jù)中平均提升了6.33%;在原始USPS數(shù)據(jù)集提升了1.03%,在加噪U(xiǎn)SPS數(shù)據(jù)集中平均提升了4.28%;在原始Fashion-MNIST數(shù)據(jù)集中提升了0.62%,在加噪Fashion-MNIST數(shù)據(jù)集平均提升了3.26%;在Convex數(shù)據(jù)集中提升了15.44%,在加噪Convex數(shù)據(jù)集中平均提升了20.68%。原因在于sDSAE能夠提取輸入數(shù)據(jù)的高級(jí)抽象特征,為ELM提供輸入數(shù)據(jù)、輸入權(quán)值和隱層偏置,從而解決ELM隱層參數(shù)隨機(jī)賦值的問(wèn)題,因此,sDSAE-ELM具有較其他算法更高的分類(lèi)準(zhǔn)確率。同時(shí)還可以看出,在處理加噪數(shù)據(jù)集時(shí),sDSAE-ELM分類(lèi)準(zhǔn)確率提升更明顯,這是由于sDSAE-ELM對(duì)原始輸入進(jìn)行了退化處理,從而削弱了噪聲的干擾,因此其具有較強(qiáng)的魯棒性和抗噪能力。
同時(shí)由表2數(shù)據(jù)可知,無(wú)論數(shù)據(jù)集是否加噪,sDSAE-ELM的分類(lèi)準(zhǔn)確率均高于PCA-ELM,原因在于PCA-ELM僅是保留部分重要特征,沒(méi)有得到數(shù)據(jù)的深層特征,而sDSAE-ELM從數(shù)據(jù)中提取的是高級(jí)抽象特征,更能體現(xiàn)數(shù)據(jù)的本質(zhì)。而個(gè)別數(shù)據(jù)集上PCA-ELM分類(lèi)準(zhǔn)確率更優(yōu),這可能是在刪減特征時(shí)將噪聲一并刪去的原因。
ELM-AE、DAE-ELM、sDSAE-ELM都屬于深層神經(jīng)網(wǎng)絡(luò),而sDSAE-ELM展現(xiàn)出更優(yōu)的性能,原因在于其具有優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu):稀疏性約束的加入使得網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程更類(lèi)似于人腦的學(xué)習(xí)過(guò)程,在進(jìn)行學(xué)習(xí)時(shí),只有少量的神經(jīng)元被激活,多數(shù)處于抑制狀態(tài)[21];同時(shí)降噪規(guī)則的加入,則能夠有效防止過(guò)擬合問(wèn)題,提高算法的魯棒性和泛化能力。
本文通過(guò)將sDSAE與ELM相結(jié)合,提出一種新的深度學(xué)習(xí)算法sDSAE-ELM,利用sDSAE提取數(shù)據(jù)更具代表性的深層抽象特征,為ELM提供輸入權(quán)值與隱層偏置,克服ELM隱層參數(shù)隨機(jī)賦值導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、魯棒性較弱的不足,同時(shí)保留ELM運(yùn)算速度快的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,與ELM、PCA-ELM、ELM-AE等算法相比,本文算法具有優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)和較強(qiáng)的魯棒性,在高維數(shù)據(jù)集上分類(lèi)準(zhǔn)確率更高。由于在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)隱含層數(shù)及隱層節(jié)點(diǎn)數(shù)的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果影響較大,因此后續(xù)將研究如何合理確定隱含層數(shù)和隱層節(jié)點(diǎn)數(shù),進(jìn)一步提高算法的分類(lèi)性能。