孫浩藝,王傳美,丁義明
(武漢理工大學(xué)理學(xué)院,武漢 430070)
(*通信作者電子郵箱wchuanmei@163.com)
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是在2004年由新加坡南洋理工大學(xué)教授黃廣斌提出的一種全新單隱藏層前饋神經(jīng)網(wǎng)(Single-hidden Layer Feedforward Neural Network,SLFN)[1],極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型分為三層,即輸入層、隱藏層和輸出層。輸入層實(shí)現(xiàn)了接收外部環(huán)境的輸入變量的功能;隱藏層內(nèi)有激活函數(shù)主要用于實(shí)現(xiàn)計(jì)算、識別等功能;輸出層則用于輸出結(jié)果。ELM 從理論上證明了當(dāng)SLFN的隱藏層激活函數(shù)無限可微時(shí),其學(xué)習(xí)能力與輸入權(quán)重和偏置等參數(shù)選取無關(guān),即可以隨機(jī)選擇輸入層權(quán)重和偏置[2],無需反向調(diào)節(jié)參數(shù)。極限學(xué)習(xí)機(jī)屬于一次完成型算法,能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制,拓寬了極限學(xué)習(xí)機(jī)的應(yīng)用范圍[3]。
ELM 算法自提出就以結(jié)構(gòu)簡單、學(xué)習(xí)速度快和具有良好的泛化性能著稱。對ELM 算法的改進(jìn)研究,主要圍繞超限學(xué)習(xí)機(jī)的誤差、泛化性和穩(wěn)定性,包括對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,輸入層權(quán)重與偏置的確定,隱藏層神經(jīng)元的個(gè)數(shù)及顯隱性表達(dá),激活函數(shù)的選擇等。
在數(shù)據(jù)預(yù)處理方面,對于有噪聲的或丟失的數(shù)據(jù),Man等[4]提出了對噪聲數(shù)據(jù)性能的極限學(xué)習(xí)機(jī)FIR-ELM(Finite Impulse Response ELM)模型,其中輸入權(quán)值是基于有限脈沖響應(yīng)濾波器分配的,將隱藏層作為預(yù)處理層,增強(qiáng)了模型的魯棒性。Yu 等[5]研究了缺失數(shù)據(jù)的ELM 回歸問題,提出了一種Tikhonov 正則化最優(yōu)剪枝極限學(xué)習(xí)機(jī)TROP-ELM(Tikhonov Regularization Optimally Pruned ELM),缺失值由傳統(tǒng)均值替換,再采用高斯函數(shù)從輸入的數(shù)據(jù)中隨機(jī)選取中心,計(jì)算距離矩陣來得到隱藏層輸出矩陣,從而處理缺失數(shù)據(jù)問題。
為了提高ELM 的網(wǎng)絡(luò)結(jié)構(gòu)的緊湊性,其中一種想法是以動(dòng)態(tài)方式訓(xùn)練ELM,即在訓(xùn)練過程中生長、修剪或替換隱藏的神經(jīng)元。Huang等[6]提出的增量ELM(Incremental ELM,I-ELM),可以從候選池中選擇新添加的隱藏神經(jīng)元,并且僅添加適當(dāng)?shù)纳窠?jīng)元。Yang 等[7]提出了雙向ELM(Bidirectional ELM,B-ELM)的快速增量ELM,以降低傳統(tǒng)ELM 的網(wǎng)絡(luò)規(guī)模。Zhang 等[8]提出了自適應(yīng)ELM(Adaptive Growth ELM,AG-ELM)中,隱藏層的大小可能會在訓(xùn)練過程的任何步驟中增加、減少或保持不變。隨后Deng 等[9]提出的兩階段ELM 算法即將ELM 和留一法(Leave-One-Out,LOO)交叉驗(yàn)證與逐步構(gòu)建過程集成在一起,該過程可以自動(dòng)確定網(wǎng)絡(luò)的大小,并提高了由ELM構(gòu)建的模型的緊湊性。
為了提高ELM 中輸出權(quán)值的穩(wěn)定性。Wang 等[10]證明,對于某些激活函數(shù)(如徑向基函數(shù)(Radial Basis Function,RBF)),總會存在輸入權(quán)重,使得映射矩陣H屬于全列秩或全行秩,于是提出了一種有效的輸入權(quán)重選擇算法來代替ELM中的隨機(jī)特征映射,從而提高了輸出權(quán)重求解的穩(wěn)定性。Yuan 等[11]基于H的條件以不同的方式求解輸出權(quán)重:列滿秩、行滿秩、列和行都不是滿秩的。這樣與傳統(tǒng)的ELM 相比,以更穩(wěn)定的方式計(jì)算輸出權(quán)重。綜上對ELM 的改進(jìn),都與輸出矩陣H相關(guān),數(shù)據(jù)預(yù)處理相關(guān)的輸入X、輸入權(quán)重wi和偏置bi,在經(jīng)過隱藏層后為H的列,神經(jīng)元節(jié)點(diǎn)數(shù)即為H的行,輸出權(quán)重的求解也與H相關(guān),說明了挑選和改進(jìn)輸出矩陣H的必要性。
本文基于ELM 算法中隱藏層到輸出層存在的誤差,細(xì)致地分析了ELM 誤差,發(fā)現(xiàn)誤差來源于隱藏層輸出矩陣求解廣義逆矩陣的過程。為了進(jìn)一步縮小算法誤差,探尋與算法誤差相關(guān)的合適目標(biāo)矩陣和穩(wěn)定指標(biāo),通過實(shí)驗(yàn)確定了目標(biāo)矩陣H?H的L21 范數(shù)與ELM 的誤差呈線性相關(guān),根據(jù)此現(xiàn)象引入Gaussian濾波對目標(biāo)矩陣進(jìn)行降噪處理,使目標(biāo)矩陣的L21范數(shù)改變,來達(dá)到優(yōu)化ELM算法的目的。
極限學(xué)習(xí)機(jī)是一種單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(SLFN),由輸入層、隱藏層和輸出層組成,且由于輸入權(quán)重和偏差的隨機(jī)性,隱藏層到輸出層為線性輸出,相較于SLFN 不存在輸出偏置,故極限學(xué)習(xí)機(jī)的結(jié)構(gòu)如圖1所示。
圖1 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of ELM network
對于N個(gè)任意不同的樣本(xi,ti)∈Rn× Rm,具有L個(gè)隱藏節(jié)點(diǎn)和激活函數(shù)g(x)的SLFN在數(shù)學(xué)上模型為:
其中:wi=[wi1,wi2,…,win]T是連接第i個(gè)隱藏節(jié)點(diǎn)和輸入節(jié)點(diǎn)的輸入權(quán)值;βi=[βi1,βi2,…,βim]是連接第i個(gè)隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)的輸出權(quán)值;bi為第i個(gè)隱藏節(jié)點(diǎn)的偏置。
當(dāng)β=[β1,β2,…,βL]T,T=[t1,t2,…,tN]T和
則式(2)可以簡化為:
其中:H稱為神經(jīng)網(wǎng)絡(luò)的隱藏層輸出矩陣。因?yàn)樵贓LM中,當(dāng)激活函數(shù)g(x)無限可微時(shí),輸入權(quán)重wi和偏置bi可以被隨機(jī)確定[1]。此時(shí)ELM的優(yōu)化模型如下:
對于任意一個(gè)m×n矩陣A,若存在n×m矩陣G滿足下列Moore-Penrose方程:
則稱G為A的Moore-Penrose 廣義逆矩陣,記為A?。其中A*表示A的轉(zhuǎn)置共軛矩陣。
矩陣的范數(shù),是將一定的矩陣空間建立為賦范向量空間時(shí)為矩陣裝備的范數(shù)。矩陣的范數(shù)能反映矩陣的某一種數(shù)值特征,故根據(jù)定義的不同,存在L1 范數(shù)、F 范數(shù)(L2 范數(shù))、列和范數(shù)、核范數(shù)、L21范數(shù)、L12范數(shù)等[12]。
L1 范數(shù)為矩陣所有元素的絕對值之和,能夠描述該矩陣的稀疏性,定義為:
F 范數(shù)(L2 范數(shù))為矩陣的歐氏范數(shù),即矩陣所有元素的平方和的算術(shù)平方根,定義為:
列和范數(shù)(1-范數(shù))是將矩陣每列取絕對值求和,然后選出數(shù)值最大的那個(gè)值,定義為:
核范數(shù)是矩陣奇異值的和,定義為:
L21 范數(shù)定義為,對于矩陣W,先求每一行向量的2-范數(shù)(即每個(gè)元素的平方和再開平方根),再對生成的列向量求其1-范數(shù)(即各元素的絕對值之和),故公式為:
L12 范數(shù)同L21 范數(shù)的思想,對于矩陣W,先求每一列向量的1-范數(shù),再對生成的行向量求其2-范數(shù),故公式為:
Gaussian 濾波是一種線性平滑濾波,適用于消除高斯噪聲,廣泛應(yīng)用于圖像處理的減噪過程。Gaussian 濾波就是對數(shù)據(jù)矩陣整體進(jìn)行加權(quán)平均的過程,每一個(gè)元素,都由其本身和鄰域內(nèi)的其他元素值經(jīng)過加權(quán)平均后得到[13]下面的二維高斯分布:
ELM 算法流程是訓(xùn)練集輸入為X和輸出為T時(shí),在激活函數(shù)g(x)無限可微的前提下,可隨機(jī)地確定輸入權(quán)重w和偏置b,產(chǎn)生相對應(yīng)的隱藏層輸出矩陣H,經(jīng)過輸出權(quán)重β得到對應(yīng)輸出值,故在訓(xùn)練集中,每完成一次ELM 算法,就會產(chǎn)生一組參數(shù)X、T、w、b、H、β和ε,且一一對應(yīng),故進(jìn)行N次ELM訓(xùn)練后,可由誤差這一指標(biāo)得到N次實(shí)驗(yàn)中最優(yōu)的一組ELM參數(shù)。
在分析ELM 算法誤差ε時(shí),發(fā)現(xiàn)式(4)可以進(jìn)一步簡化為:
其中:E為單位矩陣。由式(16)知ELM 算法的誤差來源于輸出矩陣H及廣義逆矩陣Η?,而且在ELM中訓(xùn)練集的大小遠(yuǎn)大于隱藏層神經(jīng)元節(jié)點(diǎn)數(shù),故H為奇異矩陣,只存在廣義逆。故推斷ELM 算法的誤差來源于生成隱藏層輸出矩陣的廣義逆矩陣Η?的過程。式(16)也表明在同一個(gè)訓(xùn)練集時(shí),誤差即為矩陣H?H到單位矩陣的距離。根據(jù)此距離的大小可挑選出對應(yīng)訓(xùn)練誤差小的輸出矩陣H,需要一個(gè)指標(biāo)來衡量矩陣H?H到單位矩陣的距離,即需確定一個(gè)目標(biāo)矩陣和指標(biāo)來建立與ELM 誤差的關(guān)系。根據(jù)此發(fā)現(xiàn),設(shè)計(jì)了如圖2 所示的ELM算法優(yōu)化流程。
圖2 ELM算法優(yōu)化流程Fig.2 Optimization flowchart of ELM algorithm
基于ELM算法的優(yōu)化流程,設(shè)計(jì)實(shí)驗(yàn)步驟如下:
步驟1 分析誤差與輸出矩陣H的關(guān)系。如式(16)所示,ε誤差和輔助矩陣H?H與單位矩陣的距離大小相關(guān)。
步驟2 探尋合適的目標(biāo)矩陣。在觀察輔助矩陣H?H到單位矩陣的距離時(shí),由Moore-Penrose 廣義逆矩陣的定義[13]得H?H=H?HH?H=H?HH?HH?H=…,目標(biāo)矩陣可能為H?H,H?H的平方或者H?H的開方。選擇和(H?H)2、(H?H)3、(H?H)5、(H?H)7共9個(gè)備選目標(biāo)矩陣。
步驟3 確定穩(wěn)定的指標(biāo)。在觀察目標(biāo)矩陣到單位矩陣的距離時(shí),即要求目標(biāo)矩陣的對角線元素接近于1,其他元素接近0,故引入范數(shù)這一指標(biāo)來探尋與誤差的存在的關(guān)系,包括L1范數(shù)、F范數(shù)(L2范數(shù))、列和范數(shù)、核范數(shù)、L21范數(shù)、L12范數(shù)等。
步驟4 應(yīng)用Gaussian 濾波進(jìn)行降噪處理。針對目標(biāo)矩陣進(jìn)行降噪處理,因目標(biāo)矩陣的指標(biāo)與算法誤差存在相關(guān)性,故通過改進(jìn)目標(biāo)矩陣的方式來降低算法誤差。
實(shí)驗(yàn)平臺為Intel i7-8550U 1.8 GHz,16 GB 內(nèi)存和1 TB 硬盤的筆記本,實(shí)驗(yàn)在Windows 10 系統(tǒng)上用Matlab2017(b)實(shí)現(xiàn)[14]。
基于隱藏層輸出矩陣的ELM 算法優(yōu)化旨在展現(xiàn)算法運(yùn)算過程中所發(fā)現(xiàn)的隱藏層輸出矩陣生成其廣義逆矩陣H?的過程,擬通過實(shí)驗(yàn)確定目標(biāo)矩陣和穩(wěn)定指標(biāo)與誤差是否存在線性關(guān)系。設(shè)計(jì)如下4步實(shí)驗(yàn):
實(shí)驗(yàn)1 分析誤差與輸出矩陣H的關(guān)系;
實(shí)驗(yàn)2 探尋合適的目標(biāo)矩陣;
實(shí)驗(yàn)3 確定穩(wěn)定的指標(biāo);
實(shí)驗(yàn)4 應(yīng)用Gaussian濾波進(jìn)行算法優(yōu)化。
本文的訓(xùn)練集為服從均勻分布下隨機(jī)產(chǎn)生500 組數(shù)據(jù),包括輸入X、輸入噪聲σ、輸出T,如表1所示。
表1 訓(xùn)練集生成Tab.1 Training set generation
因ELM 在激活函數(shù)g(x)無限可微的前提下,可隨機(jī)地確定輸入權(quán)重w和偏置b,產(chǎn)生相對應(yīng)的隱藏層輸出矩陣H。故其中激活函數(shù)g(x)的選擇也是算法重要的一步,常用的有如表2所示的三種激活函數(shù)[1]。
表2 激活函數(shù)列表Tab.2 List of activation functions
3.2.1 分析誤差的來源及結(jié)果
ELM 誤差存在于隱藏層到輸出層的過程,其中由輸出矩陣H與輸出T求輸出權(quán)重時(shí),需計(jì)算廣義逆矩陣Η?,誤差就此產(chǎn)生。引入ELM 運(yùn)算過程中產(chǎn)生的H?H為輔助矩陣,若輸出矩陣為非奇異矩陣,H-1Η=E,推測輔助矩陣應(yīng)更接近單位陣,產(chǎn)生的ELM 算法誤差較小。輸出矩陣H的行和列分別對應(yīng)神經(jīng)元節(jié)點(diǎn)數(shù)和訓(xùn)練集大小。
設(shè)計(jì)實(shí)驗(yàn)如下,在確定H?H的列(訓(xùn)練集大?。?×500(以表1 中第1 組為例),調(diào)節(jié)H?H的行(神經(jīng)元節(jié)點(diǎn)數(shù))的大小來記錄對應(yīng)的ELM 算法誤差,選用Sin激活函數(shù),以50次實(shí)驗(yàn)為一組,循環(huán)100次取均值,得到數(shù)據(jù)如表3所示。
表3 神經(jīng)元節(jié)點(diǎn)數(shù)與誤差關(guān)系Tab.3 Relation between neuron node number and error
從表3 可看出,最小誤差和平均誤差都是隨神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)的增加而減小,故輸出矩陣H的變化影響著誤差的變化。
進(jìn)一步實(shí)驗(yàn),選擇最小誤差對應(yīng)的參數(shù)組,同時(shí)調(diào)節(jié)神經(jīng)元節(jié)點(diǎn)數(shù)大小,觀察輔助矩陣H?H到單位矩陣的距離,得到圖3所示的不同節(jié)點(diǎn)對應(yīng)的H?H矩陣數(shù)值三維圖。
從圖3 可看出,當(dāng)節(jié)點(diǎn)數(shù)分別為50、100、200 和499 時(shí),對應(yīng)矩陣的對角線元素值在0.1、0.2、0.4和1.0上下浮動(dòng),相對應(yīng)的誤差也減小。這說明誤差的大小與輔助矩陣H?H與單位矩陣的距離相關(guān),可根據(jù)矩陣H?H到單位矩陣距離的大小來挑選訓(xùn)練誤差小的輸出矩陣H。根據(jù)實(shí)驗(yàn)1中發(fā)現(xiàn)的現(xiàn)象,下一步就需要引入指標(biāo)來衡量矩陣H?H到單位矩陣的距離,通過實(shí)驗(yàn)確定與單位矩的距離更小的目標(biāo)矩陣,進(jìn)一步分析與誤差的關(guān)系。
圖3 不同節(jié)點(diǎn)數(shù)(50、100、200、499)對應(yīng)的H?H矩陣數(shù)值三維圖Fig.3 Numerical three-dimensional diagram of H?H matrix corresponding to different node numbers(50,100,200,499)
3.2.2 探尋合適的目標(biāo)矩陣及結(jié)果分析
為了探尋合適的目標(biāo)矩陣,由輔助矩陣H?H和Moore-Penrose 廣義逆矩陣的定義,發(fā)現(xiàn)目標(biāo)矩陣可能為H?H,和(H?H)2、(H?H)3、(H?H)5、(H?H)7等??赡艿闹笜?biāo)有L1 范數(shù)、F 范數(shù)、1 范數(shù)(列和范數(shù))、2 范數(shù)(譜范數(shù))和核范數(shù)等,并進(jìn)行關(guān)聯(lián)分析,多個(gè)目標(biāo)矩陣和多個(gè)指標(biāo)的關(guān)聯(lián)如圖4所示。
圖4 多個(gè)目標(biāo)矩陣與多個(gè)指標(biāo)的關(guān)聯(lián)圖Fig.4 Correlation diagram of multiple target matrices and multiple indices
研究的對象是目標(biāo)矩陣到單位矩陣的距離,暫選定能較好表示矩陣數(shù)值特征的L1范數(shù)為指標(biāo),通過實(shí)驗(yàn)初選目標(biāo)矩陣。進(jìn)行如下實(shí)驗(yàn),在同一個(gè)輸入X為1×500 的訓(xùn)練集(以表1 中組別1~4 為例),訓(xùn)練集生成函數(shù)為T=+e,以50次實(shí)驗(yàn)為一組,循環(huán)100次取均值,實(shí)驗(yàn)結(jié)果見表4與圖5。
在表4 的12 組對比實(shí)驗(yàn)中,采用控制變量法來初選目標(biāo)矩陣,其中自變量有訓(xùn)練集的噪聲區(qū)間、訓(xùn)練集的生成函數(shù)、激活函數(shù)等,因變量為算法的誤差和備選目標(biāo)矩陣H?H,和(H?H)2、(H?H)3、(H?H)5、(H?H)7的L1 范數(shù)。圖5 中誤差與備選目標(biāo)矩陣的L1 范數(shù)存在線性關(guān)系,即為后續(xù)實(shí)驗(yàn)確定了方向。
表4 誤差與備選目標(biāo)矩陣的L1范數(shù)的相關(guān)性分析Tab.4 Correlation analysis of error and L1-norm of alternative target matrices
圖5 一次實(shí)驗(yàn)中備選的9個(gè)目標(biāo)矩陣的L1范數(shù)與算法誤差的相關(guān)性Fig.5 L1-norm of 9 alternative target matrices and algorithm error
根據(jù)相關(guān)系數(shù)的絕對值大于0.600 000 和每組實(shí)驗(yàn)中的相關(guān)系數(shù)絕對值最大這兩個(gè)原則,計(jì)數(shù)投票出了排序前三的初選目標(biāo)矩陣H?H、(H?H)3和(H?H)7,擬引入與目標(biāo)矩陣相關(guān)的更多指標(biāo)來進(jìn)一步實(shí)驗(yàn),包括L1 范數(shù)、F 范數(shù)(L2 范數(shù))、列和范數(shù)、核范數(shù)、L21范數(shù)、L12范數(shù)這6個(gè)指標(biāo)。
3.2.3 確定穩(wěn)定的指標(biāo)及結(jié)果分析
根據(jù)實(shí)驗(yàn)2 的結(jié)果,擬采用與誤差的相關(guān)系數(shù)最佳的穩(wěn)定指標(biāo)來反向確定3 個(gè)備選目標(biāo)矩陣中的最優(yōu)目標(biāo)矩陣,為了說明誤差與目標(biāo)矩陣范數(shù)指標(biāo)的線性相關(guān)這一現(xiàn)象的穩(wěn)定性,增加對比實(shí)驗(yàn)到48 組,表5 為3 個(gè)備選矩陣中H?H的6 種范數(shù)與算法誤差的相關(guān)分析結(jié)果。
上述實(shí)驗(yàn)中,對3 個(gè)備選目標(biāo)矩陣中H?H的6 個(gè)范數(shù)指標(biāo)進(jìn)行了對比實(shí)驗(yàn),為了得到一個(gè)穩(wěn)定的指標(biāo),對每一個(gè)目標(biāo)矩陣進(jìn)行48組實(shí)驗(yàn)并記錄數(shù)據(jù)。表5中誤差與L21范數(shù)的相關(guān)系數(shù)絕對值大于0.600 000 的在48 組中有29 組,大于0.800 000 的14 組。3 個(gè)備選矩陣中(H?H)3和(H?H)7同樣進(jìn)行48組實(shí)驗(yàn),得到數(shù)據(jù)計(jì)算其6個(gè)范數(shù)指標(biāo)數(shù)據(jù)(取絕對值后再平均),如表6所示。在18個(gè)指標(biāo)中發(fā)現(xiàn)H?H的L21范數(shù)為最穩(wěn)定的指標(biāo),其48 組實(shí)驗(yàn)的絕對數(shù)均值為0.613 300 的最佳相關(guān)系數(shù)。
表5 目標(biāo)矩陣為H?H的6個(gè)范數(shù)指標(biāo)的48組對比實(shí)驗(yàn)數(shù)據(jù)Tab.5 Forty-eight sets of comparative experimental data for six norm indices and target matrix H?H
表6 三個(gè)備選目標(biāo)矩陣與指標(biāo)絕對值的均值的關(guān)系表Tab.6 Correlation table of 3 alternative target matrices and absolute average indices
3.2.4 應(yīng)用Gaussian濾波進(jìn)行算法優(yōu)化及結(jié)果分析
確定了與ELM 算法誤差呈線性相關(guān)的是目標(biāo)矩陣H?H的L21范數(shù)后,根據(jù)線性相關(guān)性和矩陣范數(shù)的性質(zhì),提出采用Gaussian 濾波對目標(biāo)矩陣進(jìn)行降噪處理[15],通過降低H?H的L21 范數(shù),從而達(dá)到降低ELM 算法誤差的目的。具體應(yīng)用Gaussian 濾波的步驟是:①將目標(biāo)矩陣H?HN×N(N為樣本數(shù))的對角線元素提出得到矩陣DN×N,再將余下的目標(biāo)矩陣非對角線元素按序拉伸為行矩陣;②應(yīng)用一維Gaussian 濾波優(yōu)化行矩陣后,重新排列得到優(yōu)化矩陣GN×N;③將優(yōu)化矩陣GN×N的對角線元素替換為原對角線元素矩陣DN×N,得到優(yōu)化后的目標(biāo)矩陣。聯(lián)系算法實(shí)驗(yàn)1 分析誤差的來源及結(jié)果,設(shè)計(jì)如上的優(yōu)化步驟,是為了在保持目標(biāo)矩陣H?H的對角元素值不變,優(yōu)化非對角元素值,此時(shí)降低了H?H的L21范數(shù),達(dá)到縮小目標(biāo)矩陣H?H與單位矩陣的偏差的目的。
圖6 和圖7 分別為目標(biāo)矩陣H?H的L21 范數(shù)與算法誤差呈負(fù)相關(guān)和正相關(guān)時(shí)的變化曲線,曲線表示初始數(shù)據(jù),散點(diǎn)圖表示濾波后的數(shù)據(jù)。圖7 中正相關(guān)時(shí),通過采用Gaussian 濾波優(yōu)化了目標(biāo)矩陣H?H使其L21 范數(shù)降低,從而達(dá)到了減小算法誤差的目的。
圖6 濾波前后誤差對比圖、濾波前后L21范數(shù)對比圖和濾波后誤差與矩陣L21范數(shù)的關(guān)系圖(負(fù)相關(guān))Fig.6 Diagrams of error comparison before and after filtering,L21-norm comparison before and after filtering and error and matrix L21-norm correlation after filtering(negative correlation)
圖7 濾波前后誤差對比圖、濾波前后L21范數(shù)對比圖和濾波后誤差與矩陣L21范數(shù)的關(guān)系圖(正相關(guān))Fig.7 Diagrams of error comparison before and after filtering,L21-norm comparison before and after filtering and error and matrix L21-norm correlation after filtering(positive correlation)
本文是基于ELM 的隱藏層輸出矩陣H對算法誤差進(jìn)行優(yōu)化。在ELM 的中,訓(xùn)練集的大小遠(yuǎn)大于隱藏層神經(jīng)元節(jié)點(diǎn)數(shù),故其對應(yīng)行列產(chǎn)生的輸出矩陣H為奇異矩陣,需生成對應(yīng)的Moore-Penrose 廣義逆矩陣Η?來求解輸出權(quán)重β,分析得出廣義逆矩陣Η?的誤差造成了ELM 算法的誤差。根據(jù)廣義逆的定義和輔助矩陣推測目標(biāo)矩陣為H?H,H?H的平方或者H?H的開方和誤差指標(biāo)為目標(biāo)矩陣的范數(shù),設(shè)計(jì)實(shí)驗(yàn)得出目標(biāo)矩陣H?H的L21 范數(shù)與ELM 誤差呈線性相關(guān),最后通過應(yīng)用Gaussian 濾波優(yōu)化目標(biāo)矩陣H?H使其L21 范數(shù)改變,達(dá)到減小算法誤差的目的。
ELM 作為一次完成型算法,需要多次訓(xùn)練后來挑選出好的輸出矩陣H,每個(gè)輸出矩陣H對應(yīng)的訓(xùn)練誤差都存在改進(jìn)的空間[16]。實(shí)驗(yàn)選用了輔助矩陣H?H,在考慮優(yōu)化矩陣H?H到單位矩陣的距離時(shí),應(yīng)用了Gaussian濾波對H?H進(jìn)行優(yōu)化,能較好地降低誤差。還可以研究基于Lasso回歸、演化算法等其他方法進(jìn)行矩陣優(yōu)化。本文研究表明對于ELM 算法,通過對目標(biāo)矩陣H?H等與輸出矩陣H相關(guān)的優(yōu)化,或者直接對輸出矩陣H的優(yōu)化實(shí)驗(yàn),均存在進(jìn)一步降低訓(xùn)練誤差的可能。