陳 媛,陳曉云
福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116
近年來,因深度學(xué)習(xí)(Deep Learning,DL)在許多困難的學(xué)習(xí)任務(wù)(例如語音識(shí)別[1-2]、目標(biāo)檢測(cè)[3-4]和圖像分類[5-6])上都表現(xiàn)出色,因此受到各領(lǐng)域研究人員的廣泛關(guān)注。典型的深度學(xué)習(xí)架構(gòu)包括深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[7]、堆疊式自動(dòng)編碼器(Stacked Autoencoder,SAE)[8]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[9-10]可用于特征提取任務(wù),訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)或深層網(wǎng)絡(luò)。深度網(wǎng)絡(luò)的性能優(yōu)于傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò),單層前饋神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(Support Vector Machines,SVM),但存在學(xué)習(xí)速度慢的問題。極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[11]是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),同傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法相比,它不僅學(xué)習(xí)速度快,還能找到全局最優(yōu)解。就學(xué)習(xí)效率而言,ELM 不僅是具有最小人為干擾的網(wǎng)絡(luò)模型,還具有精度高和學(xué)習(xí)速度快等優(yōu)點(diǎn)。鑒于ELM 的高效率,一些研究人員致力于研究如何將ELM集成到通用深度學(xué)習(xí)框架中。Kasun 等人[12]應(yīng)用ELM進(jìn)行自編碼,提出了極限學(xué)習(xí)機(jī)自動(dòng)編碼器(Extreme Learning Machine Autoencoder,ELM-AE)特征表示方法,對(duì)ELM-AE 的隱層輸出進(jìn)行聚類。Ding 等人[13]將ELM-AE 應(yīng)用到 US-ELM 中提出 US-EF-ELM 算法,把ELM-AE 得到的特征作為US-ELM 的隱層輸出,再利用US-ELM 進(jìn)行降維。受到多層感知機(jī)(Multilayer Perceptron,MLP)理論的啟發(fā),Tang 等人[14]通過使用ELM-AE 進(jìn)行特征表示和提取,將ELM 擴(kuò)展到了多層ELM(ML-ELM)。Li 等人[15]將稀疏性和鄰域理論整合到ELM-AE中逐層提取數(shù)據(jù)的深層特征,提出了一種基于稀疏和鄰域保留的深度極限學(xué)習(xí)機(jī)(SNP-DELM)。Wei 等人[16]基于深度置信網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī),提出一種新的入侵檢測(cè)方法,有效提高入侵檢測(cè)識(shí)別率和運(yùn)行效率。Kong等人[17]將深度卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)組合成DCELM模型,很好地融合了DCNN更好的特征提取能力和更快的ELM訓(xùn)練速度。
為了提高現(xiàn)有機(jī)器學(xué)習(xí)模型的性能,具有局部數(shù)據(jù)一致性的學(xué)習(xí)受到了研究人員的廣泛關(guān)注。PCA[16]是最經(jīng)典的線性降維方法,以最大化投影散度為目標(biāo),但未考慮樣本間的近鄰結(jié)構(gòu)關(guān)系。局部保持投影(Locality Preserving Projections,LPP)[18]、近鄰保持嵌入(Neighborhood Preserving Embedding,NPE)[19]、拉普拉斯特征映射(Laplacian Eigenmaps,LE)[20]是幾種常用的技術(shù),能夠使得降維后的數(shù)據(jù)保持原數(shù)據(jù)的近鄰結(jié)構(gòu),然而可能會(huì)導(dǎo)致信息的丟失。而ELM-AE 以全局特征為主可以避免信息丟失但未考慮數(shù)據(jù)的固有流形結(jié)構(gòu)(即在原始空間中較近的數(shù)據(jù)點(diǎn)在新空間中應(yīng)盡可能靠近)。為了更好地刻畫局部特征,本文在ELM-AE上增加流形正則項(xiàng),并用近鄰表示來學(xué)習(xí)樣本之間相似性,提出了一種基于流形的極限學(xué)習(xí)機(jī)自動(dòng)編碼器(Manifold-based Extreme Learning Machine autoencoder,M-ELM),通過這種方式保持?jǐn)?shù)據(jù)的近鄰結(jié)構(gòu)并使模型學(xué)習(xí)得到的樣本相似度更具有數(shù)據(jù)自適應(yīng)性。
本文將對(duì)極限學(xué)習(xí)機(jī)自動(dòng)編碼器(ELM-AE)進(jìn)行擴(kuò)展,為了便于理解所提出的算法,本章簡(jiǎn)要對(duì)ELM-AE的基本思想和功能及流形正則化的思想進(jìn)行介紹。
極限學(xué)習(xí)機(jī)自動(dòng)編碼器(ELM-AE)[12]是基于ELM的一種無監(jiān)督學(xué)習(xí)算法,且ELM-AE 的輸出等于ELMAE 的輸入,其分為兩個(gè)階段。ELM-AE 的結(jié)構(gòu)框架如圖1所示。在第一個(gè)階段,對(duì)于無標(biāo)簽的原始樣本數(shù)據(jù)集X=[x1,x2,…,xn]T∈Rn×m,隱層神經(jīng)元將X映射到nh維特征空間。根據(jù)樣本維數(shù)m和隱含層神經(jīng)元數(shù)nh的大小,ELM-AE可以使用三種不同的結(jié)構(gòu)表示提取的特征:(1)當(dāng)m >nh時(shí),即輸入神經(jīng)元的數(shù)量大于隱含層中神經(jīng)元的數(shù)量,此時(shí)為壓縮結(jié)構(gòu),在這種情況下ELMAE從比輸入數(shù)據(jù)空間維數(shù)低的隱含層特征空間中捕獲特征;(2)當(dāng)m <nh時(shí),即輸入神經(jīng)元的數(shù)量小于隱含層中神經(jīng)元的數(shù)量,此時(shí)為稀疏結(jié)構(gòu),在這種情況下ELMAE從比輸入數(shù)據(jù)空間維數(shù)高的隱含層特征空間中捕獲特征;(3)當(dāng)m=nh時(shí),即輸入神經(jīng)元的數(shù)量等于隱含層中神經(jīng)元的數(shù)量,此時(shí)為等維結(jié)構(gòu),輸入數(shù)據(jù)空間的維數(shù)與隱含層特征空間的維數(shù)相同。ELM-AE 隱含層的輸出即:
其中g(shù)為激勵(lì)函數(shù),常用的激勵(lì)函數(shù)如Sigmoid 函數(shù)。則網(wǎng)絡(luò)的輸出為:
在第二階段,ELM-AE需要通過預(yù)測(cè)誤差的平方損失更新輸出權(quán)重β,ELM-AE的目標(biāo)函數(shù)為:
其中第一項(xiàng)是控制模型復(fù)雜度的正則項(xiàng),C是誤差的懲罰系數(shù),β∈Rnh×m為隱節(jié)點(diǎn)到輸出節(jié)點(diǎn)的權(quán)重矩陣,H(X)為以下矩陣:
目標(biāo)函數(shù)左右兩邊對(duì)β求導(dǎo),令導(dǎo)數(shù)等于0,即得到問題的解。上述問題的解分為兩種情況,當(dāng)樣本數(shù)大于隱含層神經(jīng)元數(shù)時(shí),解得:
當(dāng)樣本數(shù)小于隱含層神經(jīng)元數(shù)時(shí),H的列數(shù)將多于行數(shù),直接解式(1)~(3)不僅需要更多的內(nèi)存開銷,而且會(huì)出現(xiàn)矩陣不可逆的情況。為了解決這個(gè)問題,根據(jù)文獻(xiàn)[21]的方法,令β=H(X)Tα(α∈Rn×m),解得:
β負(fù)責(zé)學(xué)習(xí)從特征空間到輸入數(shù)據(jù)的轉(zhuǎn)換。給定輸入數(shù)據(jù)X,在nh維空間中獲得Xnew=XβT的表示形式。隨后,可以使用Xnew替換聚類和嵌入任務(wù)中的原始數(shù)據(jù),使用k-means算法對(duì)獲得的新數(shù)據(jù)Xnew進(jìn)行聚類。
圖1 ELM-AE的結(jié)構(gòu)示意圖
流形正則化的思想是在將隱含層投影到輸出層時(shí)對(duì)原始樣本點(diǎn)相距較近的近鄰點(diǎn)施加較大的懲罰,使得投影后的樣本點(diǎn)保持近鄰關(guān)系。通過最小化目標(biāo)函數(shù):
即可使數(shù)據(jù)的近鄰結(jié)構(gòu)得以保持。wij為樣本xi和xj的相似度,定義為:
其中,Nk(xi)表示xi的k近鄰。最小化目標(biāo)函數(shù)可化為矩陣形式:
其中,tr(?)表示矩陣的跡,L=D-W為拉普拉斯矩陣,D是對(duì)角陣,。
流形正則化利用高斯函數(shù)計(jì)算樣本之間的相似度,高斯函數(shù)用到距離測(cè)度,難以避免地也存在高維空間中測(cè)度“集中現(xiàn)象”,可能造成樣本點(diǎn)間高斯相似性度量的類區(qū)分性隨著維數(shù)增加而減弱,進(jìn)而影響算法性能。為了更好地刻畫樣本的相似性,使其具有數(shù)據(jù)自適應(yīng)性,根據(jù)文獻(xiàn)[22],將每個(gè)數(shù)據(jù)點(diǎn)xi表示為其近鄰樣本的線性組合,即:
其中Z為表示系數(shù)矩陣且當(dāng)xj?Nk(xi)時(shí)Zji=0,并使用(|Zij|+|Zji|)/2 來度量樣本xi和xj之間的相似度。文獻(xiàn)[23]已經(jīng)證明在假設(shè)子空間是獨(dú)立的情況下,通過最小化Z的某些范數(shù),可以保證Z具有塊對(duì)角結(jié)構(gòu),在數(shù)學(xué)上被形式化為以下優(yōu)化問題:
為了確保相似度越高的樣本投影后距離越近,將流形正則化中的樣本相似度矩陣W用Z進(jìn)行學(xué)習(xí),將式(7)與式(11)結(jié)合得到:
其中第二項(xiàng)和第三項(xiàng)用于自適應(yīng)的學(xué)習(xí)原空間中樣本的相似度。通過上式,使得樣本之間的相似度學(xué)習(xí)具有數(shù)據(jù)自適應(yīng)性。
ELM-AE 不僅學(xué)習(xí)速度快,還能找到全局最優(yōu)解,但未考慮數(shù)據(jù)的固有流形結(jié)構(gòu),因此本文對(duì)ELM-AE進(jìn)行改進(jìn)。為了更好地刻畫樣本的局部特征且使樣本的相似度矩陣具有數(shù)據(jù)自適應(yīng)性,在ELM-AE目標(biāo)函數(shù)中增加流形正則項(xiàng),并用相似度學(xué)習(xí)自適應(yīng)地學(xué)習(xí)原空間中樣本的相似度,將模型(3)與模型(12)進(jìn)行結(jié)合,且為避免平凡解,引入約束(H(X)β)TH(X)β=I,得到M-ELM的目標(biāo)函數(shù)為:
其中,κ,λ,ρ和θ為參數(shù),第一項(xiàng)是控制模型復(fù)雜度的正則項(xiàng),第二項(xiàng)為誤差損失項(xiàng),第三項(xiàng)為流形正則項(xiàng),第四項(xiàng)和第五項(xiàng)用于自適應(yīng)地學(xué)習(xí)原空間中樣本的相似度。
上述目標(biāo)函數(shù)有兩個(gè)變量β和Z,為求解模型,采用ALS 算法進(jìn)行解決。首先固定β,更新Z,目標(biāo)函數(shù)為:
又每個(gè)xi相互獨(dú)立,則:
其中當(dāng)xj∈Nk(xi)時(shí),A(xi):j=xj;否則A(xi):j=0。令上述目標(biāo)函數(shù)一階導(dǎo)數(shù)為0,得到:
其次固定Z,更新β,目標(biāo)函數(shù)為:
令W=(Z+ZT)/2,則目標(biāo)函數(shù)可化為矩陣形式:
其中,tr(?)表示矩陣的跡,L=D-W為拉普拉斯矩陣,D是對(duì)角陣,。
類似于ELM-AE,上述問題有兩種情況的解。當(dāng)樣本數(shù)大于隱含層神經(jīng)元數(shù)時(shí),解得:
當(dāng)樣本數(shù)小于隱含層神經(jīng)元數(shù)時(shí),令β=H(X)Tα,解得:
其中[C]ii=κ,i=1,2,…,n。
β負(fù)責(zé)從特征空間到輸入數(shù)據(jù)的轉(zhuǎn)換,給定輸入數(shù)據(jù)X,在nh維空間中獲得Xnew=XβT的表示形式。隨后,可以使用Xnew替換聚類和嵌入任務(wù)中的原始數(shù)據(jù),最后將得到的新的樣本矩陣通過k-means 算法聚成K類。具體算法如下:
算法M-ELM Algorithm for clustering
本章將研究M-ELM 的特征提取能力,并與PCA、LPP、NPE、LE 和ELM-AE 五種方法進(jìn)行比較。實(shí)驗(yàn)選用 6 個(gè)公開數(shù)據(jù)集:UCI 數(shù)據(jù)集 IRIS、BCI 競(jìng)賽 II 數(shù)據(jù)集 IIb 中的 Session 10 和 Session 11、BCI 競(jìng)賽 III 數(shù)據(jù)集II 中的Subject A 訓(xùn)練集、基因表達(dá)數(shù)據(jù)集DLBCL、Prostate0 和Colon。其中BCI 數(shù)據(jù)集需要進(jìn)行預(yù)處理:研究表明,C3、Cz、C4、Fz、P3、Pz、P4、PO7、PO8 和Oz 電極對(duì)實(shí)驗(yàn)中的BCI 數(shù)據(jù)集的特征提取和分類效果較好[24],因此對(duì) BCI 競(jìng)賽 II 數(shù)據(jù)集,選取該 10 個(gè)電極通道每輪行或列刺激后600 ms的腦電數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)并進(jìn)行0.5~30 Hz的巴特沃斯濾波;對(duì)BCI競(jìng)賽III數(shù)據(jù)集,選取相同10個(gè)電極通道每輪行或列刺激后1 s的腦電數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)并進(jìn)行0.1~20 Hz的巴特沃斯濾波。數(shù)據(jù)集的描述如表1所示。
表1 用于聚類的數(shù)據(jù)集
為了評(píng)估每種算法的特征表示能力,本文在實(shí)驗(yàn)中采用聚類準(zhǔn)確率(Accuracy,ACC)作為聚類評(píng)價(jià)指標(biāo)。ACC計(jì)算公式表示為:
其中,n為樣本數(shù),si和ri為真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。δ(si,map(ri)) 表示當(dāng)si=map(ri) 時(shí),δ=1 ,否則δ=0 。map(ri)將聚類得到的類標(biāo)簽映射成與樣本數(shù)據(jù)自帶的類標(biāo)簽等價(jià)的類標(biāo)簽。
實(shí)驗(yàn)采用PCA、LPP、NPE、LE、ELM-AE五種方法與本文方法進(jìn)行比較,所有方法均用MATLAB 2018b 編程實(shí)現(xiàn)。實(shí)驗(yàn)中,每個(gè)數(shù)據(jù)集超參數(shù)λ、ρ、θ和κ均選自指數(shù)序列{10-3,10-1,…,103},激勵(lì)函數(shù)均采用Sigmoid函數(shù)。LPP、NPE和LE使用相同的相似度矩陣,近鄰數(shù)均設(shè)為5。每種算法獨(dú)立選擇嵌入空間的維數(shù),將數(shù)據(jù)分別投影到21,22,…,n維。該實(shí)驗(yàn)以特征提取后樣本的k-means聚類準(zhǔn)確率作為衡量標(biāo)準(zhǔn)。為減少k-means選取初始中心的隨機(jī)性,實(shí)驗(yàn)取10 次聚類準(zhǔn)確率的平均值作為各自方法的最終準(zhǔn)確率,并選取最優(yōu)結(jié)果進(jìn)行展示,結(jié)果如表2所示。
表2 聚類準(zhǔn)確率 %
由表2 可以看出相較于 ELM-AE 算法,M-ELM 算法的聚類準(zhǔn)確率更高,這說明M-ELM 引入流形正則項(xiàng)保證了彼此接近的原始數(shù)據(jù)在輸出空間中將更接近,并利用近鄰線性表示學(xué)習(xí)相似度矩陣能更好地表示原始數(shù)據(jù)的結(jié)構(gòu)特征。M-ELM算法對(duì)比LE算法,不僅保持了樣本的局部信息,還獲得了原始樣本的主要特征,考慮了樣本的全局信息,聚類準(zhǔn)確率更高。M-ELM 算法在6 個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于PCA、LPP 和NPE 算法,因相較于這些線性降維方法,M-ELM 采用了非線性激活函數(shù)。對(duì)于基因表達(dá)數(shù)據(jù)集,非線性特征提取方法總體要優(yōu)于線性特征提取方法,而在非平穩(wěn)腦電數(shù)據(jù)集上,線性和非線性特征提取方法各有千秋。相較于所有對(duì)比方法,M-ELM既是非線性映射,又考慮了局部信息和原始樣本的全局信息,且在進(jìn)行特征提取的同時(shí)對(duì)相似度矩陣進(jìn)行了學(xué)習(xí),具有數(shù)據(jù)自適應(yīng)性,能夠提取更合適的特征,聚類效果更優(yōu)。
UCI 數(shù)據(jù)IRIS 用于直觀地顯示M-ELM 的低維投影,將屬于同一簇的數(shù)據(jù)聚在一起。IRIS數(shù)據(jù)集由四個(gè)維度和三個(gè)類別組成,分別代表名為sentosa、versicolor和verginica的鳶尾花物種。為了展示M-ELM算法的性能,分別用PCA、LPP、NPE、LE、ELM-AE和M-ELM這6種方法將IRIS數(shù)據(jù)集投影到2維空間,不同方法投影的每個(gè)簇的分布可視化結(jié)果如圖2所示。
由圖2可以看出用PCA、LPP、NPE和ELM-AE方法能夠?qū)RIS數(shù)據(jù)第一類樣本較好地分離,少部分第二類和第三類樣本重疊。而LE方法雖能將第一類樣本較好地分離,但第二類和第三類樣本完全重疊。與這幾種方法相比,本文方法的可分性最好,其能夠使IRIS數(shù)據(jù)不同類樣本的重疊程度最低,且投影后每一簇的分布寬度要小于其他方法,使投影后同類樣本更集中,聚集程度最高。
目前,ELM模型主要用于有監(jiān)督分類或回歸問題,本文對(duì)ELM模型推廣到無監(jiān)督特征提取問題上進(jìn)行了進(jìn)一步研究,提出基于流形的極限學(xué)習(xí)機(jī)自編碼特征表示算法M-ELM。它將ELM-AE 與流形的思想相結(jié)合,同時(shí)考慮數(shù)據(jù)的局部信息和全局信息,并進(jìn)行了相似度矩陣的學(xué)習(xí)提高數(shù)據(jù)自適應(yīng)性,與PCA、LPP、NPE、LE和ELM-AE 相比,M-ELM 具有更強(qiáng)的特征提取能力。數(shù)據(jù)可視化實(shí)驗(yàn)和在6 個(gè)數(shù)據(jù)集上的聚類實(shí)驗(yàn)結(jié)果表明,M-ELM具有比其他對(duì)比方法更好的性能,但如何有效地選擇參數(shù)是本文之后需要繼續(xù)探究的方向。
圖2 不同算法下IRIS數(shù)據(jù)集二維可視化