謝群輝 陳松燦
(南京航空航天大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,南京,211106)
線性判別分析(Linear discriminant analysis,LDA)是一種流行的有監(jiān)督數(shù)據(jù)降維和可視化工具,廣泛用于模式識別和機(jī)器學(xué)習(xí)等各個領(lǐng)域[1-2];它最大化類間散度的同時最小化類內(nèi)散度,提取數(shù)據(jù)特征,將高維投影到2~3維即獲得可視化,能更直觀理解和探索潛在的數(shù)據(jù)結(jié)構(gòu)[3],有利于其后續(xù)的分類算法獲得更好的泛化性能。判別分析可分為線性型和非線性型兩大類,上述提及的LDA[4]是線性型的代表之一,而傳統(tǒng)的非線性判別方法主要包括神經(jīng)網(wǎng)絡(luò)和核方法,如核LDA(Kernel linear discriminant analysis,KLDA)[5],流形判別分析[6],(深度)神經(jīng)網(wǎng)絡(luò)[7-8]和深度判別分析[9]等。其中KLDA采用核函數(shù)將輸入樣本映射到高維特征空間,而后利用LDA進(jìn)行線性分類。而神經(jīng)網(wǎng)絡(luò)(Neural network,NN)則通過多層結(jié)構(gòu)的非線性變換將輸入映射到輸出空間以實現(xiàn)非線性判別。盡管NN缺乏核方法那樣的簡潔表示方式,但NN所具有的分布并行特點和其對連續(xù)函數(shù)的萬能逼近性使其獲得了廣泛應(yīng)用。事實上,基于NN的判別分析可追溯到1995年Mao和Jain的先驅(qū)性工作[10],即神經(jīng)網(wǎng)絡(luò)判別分析方法(Neural networks discriminant analysis,NNDA),該工作促發(fā)了眾多非線性化分類和可視化研究。目前該文被引數(shù)已超680次,并在1996年獲得了IEEE TNN期刊年度最佳論文獎[11]。然而,與其他多層前向網(wǎng)絡(luò)訓(xùn)練類似,NNDA存在優(yōu)化收斂速度慢、易陷入局部最小、且因網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜易導(dǎo)致過擬合等問題。1999年由Scholkopft等[12]提出的KLDA,利用核技巧避免了NNDA復(fù)雜的優(yōu)化。相對NNDA,其判別投影僅需通過求解一廣義特征值方程即可獲得解析解,不僅快速而且學(xué)習(xí)性能優(yōu)良,因而受到廣泛關(guān)注和應(yīng)用,該工作目前的引用數(shù)已超2 240次。
然而傳統(tǒng)的KLDA在學(xué)習(xí)過程中存在數(shù)據(jù)的可伸縮性問題[13],當(dāng)數(shù)據(jù)量增加到一定規(guī)模后,算法所學(xué)得的判別方向復(fù)雜度與訓(xùn)練樣本數(shù)成線性增長,這在常規(guī)計算資源上已難以勝任相應(yīng)的學(xué)習(xí)。相比KLDA的這種復(fù)雜性,本文所提出的ENDA算法本身只線性于隱節(jié)點數(shù),而獨立于訓(xùn)練樣本數(shù),在現(xiàn)實應(yīng)用中,隱節(jié)點數(shù)通常比訓(xùn)練樣本數(shù)要小很多。因此,當(dāng)實驗數(shù)據(jù)規(guī)模變大時,在保證分類性能的前提下,ENDA計算成本比KLDA更小。另一方面,近年來的眾多研究表明[14],對傳統(tǒng)NN(如卷積網(wǎng)絡(luò))的深化學(xué)習(xí)能大大提升圖像分類[8]、語音識別[15]和自然語言處理[16]等的識別性能,由此也促發(fā)了對NNDA向深度化學(xué)習(xí)[17]的研究,在對NNDA的跟蹤研究發(fā)現(xiàn),此類研究主要有兩大趨勢:(1)網(wǎng)絡(luò)變大變深的深度學(xué)習(xí);(2)限于常規(guī)計算資源的加速化(例如典型ELM)極速學(xué)習(xí)。然而深度學(xué)習(xí)的成功往往需付出高昂的代價,是因為:(1)深度學(xué)習(xí)需要學(xué)習(xí)大量參數(shù),樣本少了很易“過擬合”,數(shù)據(jù)大小成為其性能提升的關(guān)鍵[18];(2)模型復(fù)雜化需要龐大的計算資源和巨大的時間開銷。而“沒有免費午餐定理”告訴人們:算法的優(yōu)劣必須針對具體的學(xué)習(xí)任務(wù),其有效性必須考慮“偏好”問題,結(jié)果是:(1)時間開銷大和計算資源缺乏,即難以在常規(guī)計算資源下完成深度學(xué)習(xí);(2)所需要的大數(shù)據(jù)的標(biāo)記涉及昂貴的人力和物力等問題。 綜上所述,當(dāng)數(shù)據(jù)規(guī)模達(dá)不到深度學(xué)習(xí)要求的情況下(在機(jī)器學(xué)習(xí)UCI儲存數(shù)據(jù)庫公布的348個數(shù)據(jù)集當(dāng)中,296個數(shù)據(jù)集的主要樣本例數(shù)集中在50 000個以下,約占85%),如何在常用PC計算資源下進(jìn)行更有效的學(xué)習(xí)變得更有意義和更加緊迫,所以筆者更偏重于NN加速化的研究。在保證分類性能的前提下,ENDA能迅速處理這類常規(guī)數(shù)據(jù)的分類任務(wù),與傳統(tǒng)NNDA不同是因為其利用了快速、可靠的隨機(jī)映射。
最新研究表明[19]使用隨機(jī)投影的簡單NN與人類學(xué)習(xí)具有很大相關(guān)性和相似魯棒性。因此也為10年前采用此原理的極速學(xué)習(xí)機(jī)(Extreme learning machine,ELM)提供了認(rèn)知原理上的解釋,盡管ELM被提出以來得到了廣泛關(guān)注,并已在特征學(xué)習(xí)、分類、回歸和聚類[20]等方面獲得了一系列拓展,但就筆者所知,還未有對NNDA相應(yīng)的ELM改造。本文基于這一事實,對NNDA進(jìn)行極速化,構(gòu)建出一種極速非線性判別分析方法(Extreme nonlinear discriminant analysis,ENDA),使其兼具NNDA的萬能逼近能力和KLDA能解析獲得全局最優(yōu)解的快速性。最后在UCI機(jī)器學(xué)習(xí)庫真實數(shù)據(jù)集上進(jìn)行實驗,結(jié)果顯示ENDA比KLDA和NNDA具有更優(yōu)的分類性能。
極限學(xué)習(xí)機(jī)ELM[21]是一種特殊單隱層前向神經(jīng)網(wǎng)絡(luò)(Single-hidden layer feedforward neural networks,SLFN),由Huang等人于2004年提出,目前已獲得了1 180多次引用。不同于SLFN傳統(tǒng)梯度下降學(xué)習(xí)算法,ELM隨機(jī)產(chǎn)生輸入層到隱層權(quán)重和偏置,克服SLFN反復(fù)迭代計算導(dǎo)致的收斂慢、且不能保證全局最優(yōu)解等問題。在優(yōu)化隱節(jié)點和輸出節(jié)點的權(quán)重上,ELM采用正則化最小二乘法快速求得閉合解[22]。ELM由輸入層,隱層和輸出層3層網(wǎng)絡(luò)組成,其中隱節(jié)點常用非線性激活函數(shù)。典型的非線性激活函數(shù)包括Sigmoid函數(shù)、高斯函數(shù)和徑向基函數(shù)。不失一般性,這里采用式(1)中的Sigmoid函數(shù)作為隱層神經(jīng)元的激活函數(shù)
(1)
ELM不僅有速度上優(yōu)勢,更重要的是理論上也證明了其具有與SLFN同樣的對非線性分段連續(xù)函數(shù)的萬能逼近能力[23]。其學(xué)習(xí)過程可視為兩步:(1)確定網(wǎng)絡(luò)NN隱層的神經(jīng)元數(shù),隨機(jī)設(shè)置輸入權(quán)重和偏差;(2)確定網(wǎng)絡(luò)權(quán)重。在特征空間中通過使訓(xùn)練誤差平方和最小解析求得輸出權(quán)重的最小范數(shù)解,達(dá)到優(yōu)化輸出權(quán)重的目的。ELM除了快速外還能實現(xiàn)對不同類型數(shù)據(jù)的分析,并已漸漸成為一種新型的快速學(xué)習(xí)范式。
(2)
(3)
(4)
(5)
式中βi=[βi1,βi2,…,βim]T為輸出權(quán)重。因此最終優(yōu)化問題式(4)可重寫為
(6)
(7)
式中I為單位矩陣。利用式(7)可快速計算B[22]。ELM從理論和經(jīng)驗上獲得了性能保證[24]。借助其思想,擬對由Mao和Jain所提出的NNDA進(jìn)行極速化改造,建立ENDA模型。
Mao等人的NNDA屬于淺層網(wǎng)絡(luò),其目標(biāo)是學(xué)習(xí)非線性降維,但其遺傳了SLFN的訓(xùn)練慢、易陷于局部最優(yōu)的缺點。同時基于深度學(xué)習(xí)思想實現(xiàn)的多層ELM[25-26],能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的建模,盡管能獲得比深度網(wǎng)絡(luò)相對快的訓(xùn)練,但對本文所要處理的數(shù)據(jù)規(guī)模仍顯得“大材小用”,偏離了傳統(tǒng)ELM簡單易解的特性。本文目的在于極速化NNDA ,使ENDA在常規(guī)計算設(shè)施上能處理比NNDA更大規(guī)模的數(shù)據(jù)集,同時繼承了ELM能解析求解的優(yōu)點。ENDA網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,具體分兩步:(1)隨機(jī)生成NN的輸入層連接權(quán)重和偏置,構(gòu)成了一個隨機(jī)映射,結(jié)果使模型具有簡單快速性;(2)視隱層輸出為新形成的訓(xùn)練數(shù)據(jù),用LDA準(zhǔn)則優(yōu)化進(jìn)輸出層連接權(quán)重,同時可用于可視化。同ELM求解一樣,不僅無局部最小,并且能快速解析求得全局閉合最優(yōu)解,最后形成一個新的判別特征空間,而后用所獲特征對目標(biāo)進(jìn)行分類。由于采用了隨機(jī)非線性變換和后續(xù)的判別優(yōu)化,使ENDA對數(shù)據(jù)有著自適應(yīng)性和期望的分類性能。
圖1 ENDA網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure of ENDA Network
(8)
(9)
(10)
(11)
(12)
然后對其進(jìn)行判別分析求解,最大化J(W)等價于求解如下廣義特征問題,即
SbW=λSwW
(13)
算法1ENDA算法
步驟2計算ENDA的隱層輸出hi(通過式(2));
實驗環(huán)境如下:MATLAB2013a,Intel(R) CoreTMi5-3470 CPU @3.20 GHz,16.0 GB內(nèi)存,64位Win10操作系統(tǒng)。 如表1所示,實驗所用數(shù)據(jù)為UCI(http://archive.ics.uci.edu/ml/)數(shù)據(jù)集。實驗前需對數(shù)據(jù)進(jìn)行了歸一化,然后將處理后的數(shù)據(jù)作為ENDA的輸入進(jìn)行訓(xùn)練。為了驗證模型的有效性,將ENDA算法與NNDA,KLDA,ELM算法進(jìn)行了比較分析,為公平起見,NNDA,ELM與ENDA的隱層節(jié)點參數(shù)相同,統(tǒng)一使用K近鄰算法(K-Nearest Neighbor),分別對NNDA,KLDA和ENDA進(jìn)行分類。實驗過程中參數(shù)K采用10折交叉驗證。
表1 UCI數(shù)據(jù)集
為驗證ENDA模型的非線性特征學(xué)習(xí)能力,實驗中隨機(jī)抽取UCI的4組數(shù)據(jù)集通過模型投影到二維空間進(jìn)行可視化,結(jié)果如圖2~5所示。
圖2 Wine數(shù)據(jù)集的可視化Fig.2 Wine dataset visualized by three algorithms
圖3 Segment數(shù)據(jù)集的可視化Fig.3 Segment dataset visualized by three algorithms
圖4 Waveform3數(shù)據(jù)集的可視化Fig.4 Waveform3 dataset visualized by three algorithms
圖5 Pen-Digits數(shù)據(jù)集的可視化Fig.5 Pen-Digits dataset visualized by three algorithms
由圖2~5可以觀察到樣本分別經(jīng)過NNDA,ENDA和KLDA方法投影二維投影空間后的效果:數(shù)據(jù)經(jīng)過投影之后都具有最大的分離度,其中ENDA和KLDA投影分類效果更直觀有效。同時實驗結(jié)果表明對數(shù)據(jù)線性不可分問題,非線性變換是一個強(qiáng)大的方法。
在隱節(jié)點參數(shù)設(shè)置相同情況下,NNDA不僅花費的訓(xùn)練時間更長,而且投影出來效果分離程度并不明顯,如圖4,5所示,其原因有:(1)NNDA最后隱層到輸出層訓(xùn)練權(quán)重并沒有充分利用;(2)NNDA為避免扭曲嚴(yán)重,以線性函數(shù)替代Sigmoid函數(shù)。在圖4,5中,隨著數(shù)據(jù)規(guī)模和特征屬性逐漸復(fù)雜情況下,ENDA,KLDA比NNDA分類投影后數(shù)據(jù)分開,抽取特征更明顯。ENDA與KLDA投影效果差別不大,但KLDA的不足表現(xiàn)在對數(shù)據(jù)集規(guī)模較大樣本,計算時間和空間復(fù)雜度變大。綜上所述ENDA可作為一種極速且穩(wěn)定的可視化工具,其原理簡單直觀,通過可視化可以更加了解數(shù)據(jù)的內(nèi)在特性,同時在判別分析時提取最大特征,不僅降低數(shù)據(jù)中的不相關(guān)和冗余信息,同時有利于數(shù)據(jù)的后續(xù)分類。
對KLDA,NNDA,ELM和ENDA這4種相關(guān)算法進(jìn)行實驗對比,NNDA,ELM和ENDA隱層節(jié)點設(shè)置為相同參數(shù),采用統(tǒng)計測試集數(shù)據(jù)分類的錯誤率和時間進(jìn)行對比分析。實驗結(jié)果為10次測試結(jié)果平均值和標(biāo)準(zhǔn)差,如表2所示。其中錯誤率公式為
表2 錯誤率和耗時比較
表2中*代表溢出,性能較好結(jié)果用粗體標(biāo)出。雖然ELM是4種方法里最快速的,但ENDA的分類性能相比ELM得到很大提升。從綜合情況看,當(dāng)數(shù)據(jù)規(guī)模逐漸變大的情況下,ENDA算法始終表現(xiàn)出較好分類精度和快速性。分析原因如下:(1)實驗中發(fā)現(xiàn)NNDA需要訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)權(quán)重和偏置,導(dǎo)致學(xué)習(xí)效率低、開銷大; NNDA雙隱層網(wǎng)絡(luò)結(jié)構(gòu)致使參數(shù)增多,而ENDA通過隨機(jī)映射簡化了模型結(jié)構(gòu),只需要優(yōu)化LDA層權(quán)重,就可以達(dá)到比NNDA更好的效果。(2)NNDA不僅時間花費巨大,而性能并沒有得到改善,從表2中ENDA和NNDA分類結(jié)果可以看出,ENDA性能更優(yōu)。由于NNDA在最后一個隱層到輸出層訓(xùn)練出的權(quán)重并沒發(fā)揮訓(xùn)練作用,而且NNDA為了防止變形嚴(yán)重用線性函數(shù)替代了Sigmoid函數(shù),導(dǎo)致學(xué)習(xí)效果不理想。
從表2中耗時結(jié)果可看出,ENDA比KLDA計算更快速。隨著數(shù)據(jù)集規(guī)模增大,除了Wine數(shù)據(jù)集外,ENDA的表現(xiàn)明顯,準(zhǔn)確性更高。這是因為KLDA隱節(jié)點數(shù)與訓(xùn)練樣本數(shù)呈線性關(guān)系(計算復(fù)雜度為N3),需要計算N×N大小的核矩陣,而ENDA只與隱節(jié)點數(shù)的大小呈線性關(guān)系,只需計算N×L大小的核矩陣,而隱節(jié)點參數(shù)L通常遠(yuǎn)小于N,當(dāng)數(shù)據(jù)規(guī)模變大時,KLDA計算成本較高甚至溢出,而ENDA則表現(xiàn)出更好的可伸縮性。
綜上所述,ENDA比NNDA,KLDA更具有極速性,這充分表明隨機(jī)映射在不影響分類性能前提下大幅度降低了NN的復(fù)雜性。與KLDA不同的是,ENDA,NNDA,ELM都充分發(fā)揮了NN的萬能逼近能力,而ENDA不僅強(qiáng)化了隨機(jī)映射,而且能保證全局最優(yōu)解析解,使學(xué)習(xí)更加迅速和魯棒。
本文探討了LDA三種非線性化方法。受隨機(jī)映射啟發(fā),將NNDA進(jìn)行改造,提出ENDA算法,避免了NNDA需要迭代的調(diào)整權(quán)重和易陷入局部最優(yōu)等問題,并且具有KLDA的全局最優(yōu)特性,同時又避免了KLDA對樣本依賴的影響,使其更具極速性和魯棒性。
由于ENDA隨機(jī)設(shè)置權(quán)重和偏置帶來的不穩(wěn)定性,很容易聯(lián)想到集成的學(xué)習(xí)方法,利用對樣本數(shù)據(jù)進(jìn)行重采樣技術(shù)[27-28]加強(qiáng)分類器泛化性能,對于同質(zhì)或異質(zhì)個體學(xué)習(xí)器集成學(xué)習(xí),可使整個模型決策更加智能化。通常對產(chǎn)生的個體學(xué)習(xí)器進(jìn)行集成的學(xué)習(xí)算法涉及稀疏修剪或多樣性的度量相關(guān)[29]。多樣性度量能確保信息完整性,而稀疏化建立原則是在不使用更多的個體學(xué)習(xí)器的情況下就能達(dá)到剪枝的目的。Yin等人[30]提出同時結(jié)合稀疏正則化和多樣性度量這兩種方法用于凸二次規(guī)劃求解,極大地改進(jìn)了集成泛化性能,并有利于大規(guī)模數(shù)據(jù)的并行分布式表示[31-32],具有很好的擴(kuò)展性,這將是下一步研究內(nèi)容。
參考文獻(xiàn):
[1] 杜海順, 張平, 張帆. 一種基于雙向 2DMSD 的人臉識別方法[J]. 數(shù)據(jù)采集與處理, 2010, 25(3): 369-372.
Du Haishun, Zhang Ping, Zhang Fan. Face recognition method based on bidirectional two-dimensional maximum scatter difference[J].Journal of Data Acquisition and Processing, 2010, 25(3): 369-372.
[2] 牛璐璐, 陳松燦, 俞璐. 線性判別分析中兩種空間信息嵌入方法之比較[J]. 計算機(jī)科學(xué), 2014, 41(2): 49-54.
Niu Lulu, Chen Songcan, Yu Lu. Comparison between two approaches of embedding spatial information into linear discriminant analysis[J]. Computer Science, 2014, 41(2): 49-54.
[3] Zhang X Y, Huang K, Liu C L. Feature transformation with class conditional decorrelation[C]//2013 IEEE 13th International Conference on Data Mining. Dallas, Texas:IEEE,2013:887-896.
[4] Izenman A J. Linear discriminant analysis[M].New York:Springer, 2013: 237-280.
[5] Baudat G, Anouar F. Generalized discriminant analysis using a kernel approach[J]. Neural Computation, 2000, 12(10): 2385-2404.
[6] Wang R, Chen X. Manifold discriminant analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2009, CVPR 2009. Anchorage, Alaska: IEEE, 2009: 429-436.
[7] Stuhlsatz A, Lippel J, Zielke T. Feature extraction with deep neural networks by a generalized discriminant analysis[J]. Neural Networks and Learning Systems, IEEE Transactions on, 2012, 23(4): 596-608.
[8] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[9] Wu L, Shen C, Hengel A V D. Deep linear discriminant analysis on fisher networks: A hybrid architecture for person reidentification[J]. Pattem Recognition, 2016,65:238-250.
[10] Mao J, Jain A K. Artificial neural networks for feature extraction and multivariate data projection[J]. Neural Networks, IEEE Transactions on, 1995, 6(2): 296-317.
[11] Hassoun M H. 1996 IEEE transactions on neural networks outstanding paper award[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1996(4): 802-802.
[12] Scholkopft B, Mullert K R. Fisher discriminant analysis with kernels[J]. Neural Networks for Signal Processing IX, 1999,1:1.
[13] Cai D, He X, Han J. Speed up kernel discriminant analysis[J]. The VLDB Journal, 2011, 20(1): 21-33.
[14] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv Preprint arXiv, 2013:1312.6229.
[15] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J].IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[16] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12: 2493-2537.
[17] Huang G B, Wang D H, Lan Y. Extreme learning machines:A survey[J]. International Journal of Machine Learning and Cybernetics, 2011, 2(2): 107-122.
[18] Hu G, Peng X, Yang Y, et al. Frankenstein: Learning deep face representations using small data[J]. IEEE Trans Image Process,2017,27(1):293-303.
[19] Arriaga R I, Rutter D, Cakmak M, et al. Visual categorization with random projection[J]. Neural Computation, 2015, 27(10): 2132.
[20] 劉金勇, 鄭恩輝, 陸慧娟. 基于聚類和微粒群優(yōu)化的基因選擇方法[J]. 數(shù)據(jù)采集與處理, 2014, 29(1):83-89.
Liu Jinyong, Zheng Enhui, Lu Huijuan. Gene selection based on clustering method and particle swarm optimazition[J].Journal of Data Acquisition and Processing, 2014, 29(1):83-89.
[21] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: A new learning scheme of feedforward neural networks[C]∥Proc IJCNN.Budapest, Hungary:[s.n.],2004(2):985-990.
[22] Tang J, Deng C, Huang G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821.
[23] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1): 489-501.
[24] Huang G B. What are extreme learning machines? Filling the gap between frank rosenblatt′s dream and John von neumann′s puzzle[J]. Cognitive Computation, 2015, 7(3): 263-278.
[25] Tang J, Deng C, Huang G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks & Learning Systems, 2016, 27(4):809-821.
[26] Kasun L L C, Zhou H, Huang G B, et al. Representational learning with ELMs for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31-34.
[27] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.
[28] Schapire R E, Freund Y, Bartlett P, et al. Boosting the margin: A new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1998, 26(5): 1651-1686.
[29] Kuncheva L I, Whitaker C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy[J]. Machine Learning, 2003, 51(2): 181-207.
[30] Yin X C, Huang K, Yang C, et al. Convex ensemble learning with sparsity and diversity[J]. Information Fusion, 2014, 20: 49-59.
[31] Wang H, He Q, Shang T, et al. Extreme learning machine ensemble classifier for large-scale data[C]//Proceedings of ELM-2014. Singapore: Springer International Publishing, 2015: 151-161.
[32] Van Heeswijk M, Miche Y, Oja E, et al. GPU-accelerated and parallelized ELM ensembles for large-scale regression[J]. Neurocomputing, 2011, 74(16): 2430-2437.