李文靜 李治港 喬俊飛
人工神經(jīng)網(wǎng)絡(luò)是受生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而設(shè)計出來的一種數(shù)學(xué)計算模型,具有良好的容錯能力、萬能的逼近特性以及優(yōu)越的自適應(yīng)和自學(xué)習(xí)功能[1],同時具備高速并行處理信息的結(jié)構(gòu)[2],可以解決復(fù)雜的工程問題.這些優(yōu)點使得人工神經(jīng)網(wǎng)絡(luò)成為當(dāng)今最成功的人工智能模型之一[3],已廣泛地應(yīng)用于眾多領(lǐng)域,如非線性系統(tǒng)建模[4-5]、數(shù)據(jù)挖掘[6-7]、計算機視覺[8-9]和自然語言處理[10-11]等.
1998 年,Watts 等[12]發(fā)現(xiàn)許多生物網(wǎng)絡(luò)、社會網(wǎng)絡(luò)介于隨機網(wǎng)絡(luò)和規(guī)則網(wǎng)絡(luò)之間,其拓撲結(jié)構(gòu)呈現(xiàn)出稀疏特性,且具有較大的聚類系數(shù)和較短的平均路徑長度,并將其定義為小世界網(wǎng)絡(luò).隨著人們對生物神經(jīng)網(wǎng)絡(luò)研究的深入,借助彌散張量成像、磁共振腦功能成像等技術(shù),研究者發(fā)現(xiàn)生物神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)和功能上均呈現(xiàn)出小世界屬性[13-15].研究表明,生物神經(jīng)網(wǎng)絡(luò)較短的平均路徑長度可以加快信息在網(wǎng)絡(luò)中的傳播速度,較大的聚類系數(shù)能夠增加網(wǎng)絡(luò)的容錯能力[16].盡管人工神經(jīng)網(wǎng)絡(luò)通過構(gòu)建大量節(jié)點(神經(jīng)元)之間的相互連接模擬人腦的信息處理方式,但是其拓撲結(jié)構(gòu)及功能與生物神經(jīng)網(wǎng)絡(luò)仍相去甚遠.
近年來,已有很多學(xué)者嘗試將小世界屬性引入人工神經(jīng)網(wǎng)絡(luò)設(shè)計中,旨在提高人工神經(jīng)網(wǎng)絡(luò)的信息處理及容錯能力.前饋神經(jīng)網(wǎng)絡(luò)(Feedforward neural network,FNN)由于結(jié)構(gòu)簡單靈活[17],且可以以任意精度逼近任一連續(xù)函數(shù)[18-19],在模式識別、函數(shù)逼近等方面得到廣泛應(yīng)用[20-21].目前,基于FNN的小世界神經(jīng)網(wǎng)絡(luò)設(shè)計得到越來越多的關(guān)注.Simard 等[22]以多層感知器為基礎(chǔ)模型,建立了一種多層前饋小世界神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)小世界神經(jīng)網(wǎng)絡(luò)比規(guī)則網(wǎng)絡(luò)和隨機網(wǎng)絡(luò)有更快的學(xué)習(xí)速度和更高的精度.Li 等[23]探究了重連概率對小世界神經(jīng)網(wǎng)絡(luò)性能的影響,發(fā)現(xiàn)重連概率在0.1 附近時,網(wǎng)絡(luò)收斂速度最快.可見,將小世界屬性融入人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計能夠提升網(wǎng)絡(luò)的收斂速度和泛化能力.基于此,小世界神經(jīng)網(wǎng)絡(luò)已廣泛地應(yīng)用到智能控制[24-25]、風(fēng)力預(yù)測[26]、醫(yī)療診斷[27-28]、污水處理[29-30]等多個領(lǐng)域,取得了良好的效果.
小世界神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)直接影響著網(wǎng)絡(luò)的性能.目前,構(gòu)造小世界神經(jīng)網(wǎng)絡(luò)的方法主要包括Watts-Strogatz (WS)[12]和Newman-Watts (NW)[31]兩種方式.WS 型前饋小世界神經(jīng)網(wǎng)絡(luò)通過在FNN 上以一定概率隨機斷開相鄰層連接再進行隨機跨層重連實現(xiàn)小世界網(wǎng)絡(luò)構(gòu)建,而NW 型前饋小世界神經(jīng)網(wǎng)絡(luò)則是通過在FNN 上直接隨機跨層加邊進行小世界網(wǎng)絡(luò)構(gòu)造.從網(wǎng)絡(luò)的構(gòu)造方式可以看出,WS 型小世界神經(jīng)網(wǎng)絡(luò)相比NW 型小世界神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)更加稀疏,因此得到更多學(xué)者的關(guān)注.在WS 方式構(gòu)造的基礎(chǔ)上,不少學(xué)者通過改進其斷開或重連策略實現(xiàn)構(gòu)造方式的優(yōu)化.例如,李小虎等[32]對隨機斷開連接加以限制,即禁止斷開最后一個隱含層與輸出層之間的連接,以防止孤立神經(jīng)元的產(chǎn)生.王爽心等[33]提出基于層連優(yōu)化的小世界神經(jīng)網(wǎng)絡(luò)的改進算法,引入了同層節(jié)點重連的策略,改善了小世界神經(jīng)網(wǎng)絡(luò)聚類系數(shù)偏低的問題,并且發(fā)現(xiàn)輸入層和輸出層直接相連會造成網(wǎng)絡(luò)性能下降.此外,近年來研究學(xué)者在WS 構(gòu)造方式的基礎(chǔ)上對網(wǎng)絡(luò)進行稀疏化,以進一步提高網(wǎng)絡(luò)的泛化性能.Guo等[34]提出了一種基于E-信息熵的剪枝算法用于稀疏化WS 型前饋小世界神經(jīng)網(wǎng)絡(luò),在一定程度上改善了因網(wǎng)絡(luò)結(jié)構(gòu)過大而出現(xiàn)過擬合的問題.Li 等[30]利用節(jié)點的Katz 中心性衡量網(wǎng)絡(luò)中節(jié)點的重要性,刪除不重要的節(jié)點使網(wǎng)絡(luò)結(jié)構(gòu)更加緊湊,同時提高了網(wǎng)絡(luò)的泛化性能.盡管以上研究通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)提升了網(wǎng)絡(luò)性能,但是在WS 型構(gòu)造方式中,網(wǎng)絡(luò)的隨機跨層重連是在隨機斷開相鄰層間連接的基礎(chǔ)上實現(xiàn)的,而連接斷開的隨機性可能會導(dǎo)致網(wǎng)絡(luò)重要信息丟失,在一定程度上影響網(wǎng)絡(luò)的建模精度.
針對以上問題,本文提出一種基于突觸鞏固機制[35-36]的前饋小世界神經(jīng)網(wǎng)絡(luò)(Feedforward smallworld neural network based on synaptic consolidation,FSWNN-SC).首先,使用正則化方法對FNN進行預(yù)訓(xùn)練,基于突觸鞏固機制選擇性斷開網(wǎng)絡(luò)連接;其次,設(shè)計小世界網(wǎng)絡(luò)重連規(guī)則,同時實現(xiàn)網(wǎng)絡(luò)的稀疏化,并采用梯度下降學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò);最后,通過4 個UCI 基準數(shù)據(jù)集和2 個真實數(shù)據(jù)集進行模型性能測試,并使用Wilcoxon 符號秩檢驗[37]對實驗結(jié)果進行顯著性分析.
前饋神經(jīng)網(wǎng)絡(luò),又稱多層感知器,采用級聯(lián)方式連接實現(xiàn)信息的前向傳導(dǎo),其結(jié)構(gòu)由輸入層、隱含層和輸出層組成,如圖1 (以4 層為例)所示.假設(shè)FNN 共包含L層,使用X表示輸入數(shù)據(jù),yl(1≤l≤L)表示第l層輸出,FNN 各層功能及表示詳述如下.
圖1 前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 The architecture of feedforward neural network
1)輸入層.輸入層將輸入數(shù)據(jù)導(dǎo)入FNN,該層神經(jīng)元激活函數(shù)常采用線性的,以得到數(shù)據(jù)的原始特征.若輸入數(shù)據(jù)為n維,即X=[x1,x2,···,xn]T,則輸入層包含n個神經(jīng)元,其中第i個神經(jīng)元的輸出為
2)隱含層.FNN 包含至少一層隱含層,通過激活函數(shù)實現(xiàn)該層輸入數(shù)據(jù)的非線性映射,激活函數(shù)采用sigmoid 函數(shù),因其導(dǎo)數(shù)便于計算而廣泛使用.FNN 第l(1<l<L)層(即第l-1 個隱含層)的第j個神經(jīng)元的輸出為
3)輸出層.輸出層是隱含層輸出的集成,該層激活函數(shù)常采用線性的,進而實現(xiàn)對隱含層的線性加權(quán),輸出層神經(jīng)元個數(shù)視系統(tǒng)問題而定.以含有一個輸出神經(jīng)元的FNN 為例,其輸出為
1998 年,Watts 等[12]發(fā)現(xiàn)生物、技術(shù)和社交等網(wǎng)絡(luò)的連接方式介于規(guī)則網(wǎng)絡(luò)的“規(guī)則”和隨機網(wǎng)絡(luò)的“無序”之間,具有較大的聚類系數(shù)和較短的特征路徑長度等特征,將其定義為小世界網(wǎng)絡(luò).圖論是描述網(wǎng)絡(luò)特征的重要工具,網(wǎng)絡(luò)可以看作一個無向圖,由節(jié)點和邊組成,則網(wǎng)絡(luò)的平均聚類系數(shù)AC和平均最短路徑長度AL可由式(4)和式(5)計算得到
其中,N是網(wǎng)絡(luò)中的節(jié)點數(shù);Di是節(jié)點i的度,即節(jié)點i的相鄰節(jié)點數(shù),則Di(Di-1)/2 表示這些相鄰節(jié)點理論最多連接數(shù)量;而Ei是這些相鄰節(jié)點的實際連接數(shù)量;lij表示節(jié)點i到節(jié)點j的最短距離.當(dāng)網(wǎng)絡(luò)的聚類系數(shù)遠大于隨機網(wǎng)絡(luò)的聚類系數(shù),且特征路徑長度接近于隨機網(wǎng)絡(luò)時,即AC ?ACrand且AL ≈ALrand時,該網(wǎng)絡(luò)具有小世界屬性.因此,定義小世界網(wǎng)絡(luò)屬性指標為
當(dāng)網(wǎng)絡(luò)滿足η>1 時,該網(wǎng)絡(luò)為小世界網(wǎng)絡(luò)[38].
對于前述前饋神經(jīng)網(wǎng)絡(luò),其連接遵循一定的規(guī)則,即相鄰層之間為全連接結(jié)構(gòu),同一層內(nèi)神經(jīng)元之間無連接且不存在跨層連接.因此,對任一神經(jīng)元,其近鄰神經(jīng)元之間不存在邊,由式(4)可得網(wǎng)絡(luò)聚類系數(shù)為0.通過在前饋神經(jīng)網(wǎng)絡(luò)規(guī)則連接的基礎(chǔ)上進行隨機跨層重連,可生成小世界神經(jīng)網(wǎng)絡(luò)[30,32-34].相對于規(guī)則前饋神經(jīng)網(wǎng)絡(luò),小世界神經(jīng)網(wǎng)絡(luò)由于存在跨層連接,其聚類系數(shù)始終大于0,且由于位于不同層的兩個神經(jīng)元之間的最短路徑減小使得其特征路徑長度減小.相對于完全隨機網(wǎng)絡(luò),小世界神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)含有隨機網(wǎng)絡(luò)的“無序”特性,使其特征路徑長度接近于完全隨機網(wǎng)絡(luò)的特征路徑長度,同時小世界神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)仍然保留一定的“規(guī)則”連接,這使得小世界神經(jīng)網(wǎng)絡(luò)的聚類系數(shù)遠大于完全隨機網(wǎng)絡(luò)的聚類系數(shù),因此具備小世界屬性.
在生物神經(jīng)網(wǎng)絡(luò)中,突觸是神經(jīng)細胞之間的連接,也是細胞間信息傳遞的“橋梁”.研究表明,突觸具有可塑性,可以自主調(diào)節(jié)其連接強度,突觸的形態(tài)和功能可發(fā)生較為持久的改變.當(dāng)學(xué)習(xí)特定任務(wù)時,有些突觸興奮性會增強,有些會被抑制,這就是突觸鞏固機制[39].突觸鞏固的實現(xiàn)依賴突觸的長時程增強(Long-term potentiation,LTP)[40]和長時程抑制(Long-term depression,LTD)[41].如果兩個神經(jīng)元之間存在持久的信息傳遞,LTP 將加強它們之間的突觸連接;如果兩個神經(jīng)元之間的信息傳遞弱且呈間歇性,LTD 會抑制其間突觸連接.因此,突觸鞏固機制可以選擇性地增強和削弱特定的突觸.如圖2 所示,圖2(a)是神經(jīng)元與突觸模型,圖2(b)展示了突觸鞏固機制作用下突觸的變化.其中,粗線表示重要的突觸在突觸鞏固的作用下會增強其連接強度(LTP),而虛線表示不重要的突觸在突觸鞏固作用下會消失(LTD).
圖2 突觸鞏固Fig.2 Synaptic consolidation
研究者通過模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)特征和突觸的可塑性機制,設(shè)計人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及學(xué)習(xí)規(guī)則.突觸鞏固機制在人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計中也得到了廣泛應(yīng)用,如模型壓縮[42]和增量學(xué)習(xí)[43]等.
受到突觸鞏固機制的啟發(fā),本文提出一種前饋小世界神經(jīng)網(wǎng)絡(luò)(FSWNN-SC).首先,通過前饋神經(jīng)網(wǎng)絡(luò)正則化對其進行預(yù)訓(xùn)練,保留網(wǎng)絡(luò)中重要的權(quán)值連接、斷開網(wǎng)絡(luò)中不重要的權(quán)值連接以模擬生物神經(jīng)網(wǎng)絡(luò)的突觸鞏固;其次,制定小世界網(wǎng)絡(luò)重連規(guī)則,對斷開的連接進行隨機跨層重連,實現(xiàn)小世界神經(jīng)網(wǎng)絡(luò)的構(gòu)造;最后使用梯度下降法對網(wǎng)絡(luò)進行訓(xùn)練,實現(xiàn)網(wǎng)絡(luò)權(quán)值更新.
對于規(guī)則FNN,本文首先使用網(wǎng)絡(luò)正則化方法對其進行預(yù)訓(xùn)練,旨在通過網(wǎng)絡(luò)稀疏化保留網(wǎng)絡(luò)重要權(quán)值連接、斷開不重要的權(quán)值連接.具體步驟如下:
1)初始化.初始化網(wǎng)絡(luò)結(jié)構(gòu)包括層數(shù)和神經(jīng)元個數(shù)等參數(shù),網(wǎng)絡(luò)的連接權(quán)值設(shè)置為[-1,1]區(qū)間內(nèi)的隨機數(shù).設(shè)置懲罰系數(shù)λ、網(wǎng)絡(luò)學(xué)習(xí)率μ、預(yù)訓(xùn)練迭代步數(shù)S和重連概率P.
2)定義損失函數(shù).即
該損失函數(shù)由兩項組成,其中第1 項E(W)為誤差項,通過式(8)計算得到
其中,M為訓(xùn)練樣本數(shù),dm與為樣本m的期望與實際輸出.第2 項λg(W)是正則化項,其中λ是懲罰系數(shù),g(W)為Lq(0≤q ≤1)范數(shù),即
此處分別列出q=0,1/2,1 時的計算式,即
其中,L為網(wǎng)絡(luò)的總層數(shù),代表第l層的第i個神經(jīng)元與第l+1 層的第j個神經(jīng)元的連接權(quán)值.由于其在原點處不可導(dǎo),將其在原點處進行平滑[44],即
其中,a為接近于0 的常數(shù),本文中取值a=0.005.
3)使用梯度下降法更新網(wǎng)絡(luò)權(quán)值.更新式為
其中,t為迭代步數(shù),ΔW(t)是權(quán)值變化矩陣,矩陣中第l層的第i個神經(jīng)元與第l+1 層的第j個神經(jīng)元的連接權(quán)值變化量可由式(15)計算得到
其中,μ是學(xué)習(xí)率,λ是懲罰系數(shù).按照式(16)計算得到
當(dāng)?shù)螖?shù)達到預(yù)設(shè)步數(shù)S時,訓(xùn)練停止.
4)網(wǎng)絡(luò)稀疏化.根據(jù)設(shè)定重連概率P,計算斷開連接數(shù)Nc.將完成預(yù)訓(xùn)練后的網(wǎng)絡(luò)權(quán)值降序排列,設(shè)置前Nc個連接權(quán)值為0.
通過網(wǎng)絡(luò)預(yù)訓(xùn)練,規(guī)則FNN 將按照重連概率P斷開網(wǎng)絡(luò)不重要的權(quán)值連接,其他權(quán)值連接被保留.
本文對WS 重連規(guī)則進行改進,設(shè)計小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造方法.
標記經(jīng)過預(yù)訓(xùn)練后斷開連接的神經(jīng)元,假設(shè)l層的第i個神經(jīng)元與l+1 層的第j個神經(jīng)元之間的權(quán)值連接被斷開,起始及終止神經(jīng)元分別記為和.
同時設(shè)定約束條件:輸入層與輸出層的神經(jīng)元不能直接相連.
本文所提出的小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造方法可以用圖3 表示,規(guī)則網(wǎng)絡(luò)先經(jīng)過預(yù)訓(xùn)練斷開網(wǎng)絡(luò)中不重要的連接(圖3(a)),然后按照重連規(guī)則進行跨層重連(圖3(b)),最后刪除孤立神經(jīng)元(圖3(c)).
圖3 基于突觸鞏固小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造流程Fig.3 Construction process of small-world neural network based on synaptic consolidation
在規(guī)則前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,本文通過以上重連規(guī)則引入跨層連接構(gòu)造小世界神經(jīng)網(wǎng)絡(luò).兩者輸入層的數(shù)學(xué)描述相同,如式(1)所示.而由于引入了跨層連接,小世界神經(jīng)網(wǎng)絡(luò)隱含層及輸出層的數(shù)學(xué)描述與規(guī)則前饋神經(jīng)網(wǎng)絡(luò)有所不同.
對于隱含層,以小世界神經(jīng)網(wǎng)絡(luò)第l(1<l<L)層的第j個神經(jīng)元為例,其輸出通過式(18)計算得到
其中,ns表示第s層神經(jīng)元的個數(shù),f(·)為激活函數(shù),為第s層第i個神經(jīng)元與第l層的第j個神經(jīng)元之間的連接權(quán)值.若不存在連接,則為0.由式(18)可以看出,第l層隱含層的輸入需要同時考慮來自前面所有層的輸出.
對于輸出層,其輸入需要同時考慮來自所有隱含層的輸出,其輸出通過式(19)計算得到
本文使用梯度下降算法更新小世界神經(jīng)網(wǎng)絡(luò)的連接權(quán)值.首先,基于誤差函數(shù)定義損失函數(shù),即
其中,M是訓(xùn)練樣本數(shù),dm與分別表示樣本m的期望輸出與實際輸出.
按照式(21)更新連接權(quán)值,即
其中,t為迭代步數(shù),ΔW為權(quán)值變化矩陣.矩陣中第l層的第i個神經(jīng)元與第s層的第j個神經(jīng)元的連接權(quán)值變化量可通過式(22)計算得到
其中,μ是學(xué)習(xí)率,為第l(1≤l<s ≤L)層的第i個神經(jīng)元的輸出,可由式(23)計算得到
其中,δd是第d層神經(jīng)元的誤差;為第s層的第j個神經(jīng)元與第d層神經(jīng)元的連接權(quán)值向量;是第s層第j個神經(jīng)元的輸出的導(dǎo)數(shù),通過式(24)計算得到.
當(dāng)?shù)綌?shù)達到最大迭代步數(shù)(itermax)或訓(xùn)練誤差達到均方根誤差(Root mean squared error,RMSE)的期望值RMSEd時,網(wǎng)絡(luò)訓(xùn)練結(jié)束.
本文在規(guī)則前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過網(wǎng)絡(luò)正則化斷開不重要的權(quán)值連接,設(shè)計網(wǎng)絡(luò)重連規(guī)則構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),使用梯度下降算法更新網(wǎng)絡(luò)權(quán)值,算法流程圖如圖4 所示.
圖4 FSWNN-SC 算法流程圖Fig.4 The flowchart of FSWNN-SC
通過實驗仿真,本文首先研究預(yù)訓(xùn)練關(guān)鍵參數(shù)(重連概率P及預(yù)訓(xùn)練次數(shù)S)對實驗結(jié)果的影響,為后續(xù)實驗的參數(shù)選取提供實驗依據(jù);其次,從建模精度及訓(xùn)練時間等方面評價FSWNN-SC 模型的性能及有效性;最后,使用Wilcoxon 符號秩檢驗方法進一步驗證FSWNN-SC 模型相比于其他模型的顯著性優(yōu)勢.
本文選取了4 個UCI 數(shù)據(jù)集[45],包括2 個分類數(shù)據(jù)集(數(shù)據(jù)集1 和數(shù)據(jù)集2)和2 個回歸數(shù)據(jù)集(數(shù)據(jù)集3 和數(shù)據(jù)集4),以及2 個真實數(shù)據(jù)集(數(shù)據(jù)集5 和數(shù)據(jù)集6)進行實驗.數(shù)據(jù)集信息如下:
1)數(shù)據(jù)集1:HTRU2.該分類數(shù)據(jù)集有17 898組樣本,8 個特征變量,1 個輸出變量(取值-1,1分別代表所屬兩種類別).抽取3 278 組樣本,正負樣本比例為1 :1.2,2 295 組樣本用于網(wǎng)絡(luò)訓(xùn)練,983 組樣本用于網(wǎng)絡(luò)性能測試.
2)數(shù)據(jù)集2:Banknote Authentication.該分類數(shù)據(jù)集有1 372 組樣本,4 個特征變量,1 個輸出變量(取值-1,1 分別代表所屬兩種類別),正負樣本比例為1 :1.2492.將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,960 組樣本用于網(wǎng)絡(luò)訓(xùn)練,412 組樣本用于網(wǎng)絡(luò)性能測試.
3)數(shù)據(jù)集3:Boston Housing.該回歸數(shù)據(jù)集有506 組樣本,13 個特征變量,1 個輸出變量.將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,354 組樣本用于網(wǎng)絡(luò)訓(xùn)練,152 組樣本用于網(wǎng)絡(luò)性能測試.
4)數(shù)據(jù)集4:Concrete Compressive Strength.該數(shù)據(jù)集有1 030 組樣本,8 個特征變量,1 個輸出變量.721 組樣本用于網(wǎng)絡(luò)訓(xùn)練,309 組樣本用于網(wǎng)絡(luò)性能測試.
5)數(shù)據(jù)集5:風(fēng)速預(yù)測.風(fēng)速時間序列從中國某風(fēng)電場采集,采樣間隔為2011 年4 月6 日凌晨0:00 至2011 年4 月12 日凌晨0:00,采樣間隔為10 分鐘.用y(t)表示t時刻的風(fēng)速值,使用y(t-5)至y(t)作為網(wǎng)絡(luò)輸入,預(yù)測下一時刻的風(fēng)速值,即y(t+1)網(wǎng)絡(luò)輸出.697 組樣本用于網(wǎng)絡(luò)訓(xùn)練,299組樣本用于網(wǎng)絡(luò)性能測試.
6)數(shù)據(jù)集6:出水生化需氧量(Biochemical oxygen demand,BOD)濃度預(yù)測.該數(shù)據(jù)來自北京市某污水處理廠,共包含365 組數(shù)據(jù),輸入變量包括:a)出水總氮;b)出水氨氮;c)進水總氮;d)進水BOD;e)進水氨氮;f)出水磷酸鹽;g)混合液懸浮固體(Mixed liquid suspended solids,MLSS);h)溶解氧(Dissolved oxygen,DO);i)進水磷酸鹽;j)進水化學(xué)需氧量(Chemical oxygen demand,COD).輸出變量為出水BOD 濃度.265 組樣本用于網(wǎng)絡(luò)訓(xùn)練,100 組樣本用于網(wǎng)絡(luò)性能測試.
為了消除特征向量之間量級不同導(dǎo)致的影響,對6 個實驗的數(shù)據(jù)集都進行歸一化處理,特征變量歸一化至[-1,1],輸出變量歸一化至[0,1].
本文選取基于L1/2范數(shù)(即q=1/2 )的正則化方法進行網(wǎng)絡(luò)預(yù)訓(xùn)練,進而構(gòu)建FSWNN-SC 網(wǎng)絡(luò).實驗設(shè)置超參數(shù),包括網(wǎng)絡(luò)結(jié)構(gòu)、預(yù)訓(xùn)練懲罰系數(shù)λ、學(xué)習(xí)率μ、最大迭代步數(shù)itermax和期望均方根誤差RMSEd等,詳見表1.
表1 實驗超參數(shù)設(shè)置Table 1 Setting of the hyperparameters in experiments
本文使用分類精度(Accuracy,Acc)和標準均方根誤差(Normalized root mean squared error,NRMSE)分別評價模型對分類和回歸實驗的建模精度,具體定義為
其中,K是分類問題中的類別總數(shù),TPk是第k個類別下真陽性樣本總量;M是樣本總量,dm和ym分別為第m個樣本的期望輸出與實際輸出,是網(wǎng)絡(luò)期望輸出的均值.可見,Acc反映了網(wǎng)絡(luò)分類準確性,Acc越大,網(wǎng)絡(luò)性能越好;NRMSE反映了網(wǎng)絡(luò)實際輸出與期望輸出之間的誤差大小,NRMSE越小,網(wǎng)絡(luò)性能越好.
此外,由于預(yù)訓(xùn)練后可能會產(chǎn)生孤立節(jié)點,本文提出的FSWNN-SC 在刪除孤立節(jié)點后,會產(chǎn)生一定的稀疏化作用.為了評價模型的稀疏化程度,定義稀疏度指標為
其中,NI是網(wǎng)絡(luò)初始狀態(tài)下非零權(quán)值的數(shù)量,NF是訓(xùn)練結(jié)束后網(wǎng)絡(luò)中非零權(quán)值的數(shù)量.SP越小表示稀疏化程度越高;反之,SP越大,稀疏化程度越低.
本文實驗所使用的軟件為MATLAB R2021b,操作系統(tǒng)為Windows11,CPU 為AMD 5800H 16 GB.
3.3.1 重連概率P對小世界屬性的影響
如第2.1 節(jié)所述,在預(yù)訓(xùn)練過程中,重連概率P決定了預(yù)訓(xùn)練后需要斷開并進行重連的連接邊數(shù)Nc,直接影響網(wǎng)絡(luò)的小世界屬性.本文通過計算不同P取值情況下的小世界網(wǎng)絡(luò)屬性η值,來研究重連概率P對網(wǎng)絡(luò)小世界屬性的影響.
在本研究中,重連概率P定義為重連邊數(shù)Nc與最大可重連邊數(shù)Nmax的比值,即
其中,最大重連邊數(shù)Nmax取值為可斷開邊數(shù)Nd和可跨層重連邊數(shù)Nr的最小值,即
其中,
其中,nl代表第l層的神經(jīng)元個數(shù).當(dāng)重連概率P=1 時,規(guī)則前饋神經(jīng)網(wǎng)絡(luò)變?yōu)殡S機網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的小世界屬性根據(jù)式(6)計算得出.
本文在[0,1]范圍內(nèi),對P進行不同取值,計算相應(yīng)重連概率下的小世界屬性η值,在各數(shù)據(jù)集上進行驗證,畫出P-η曲線,如圖5 所示.由圖5 可見,在各實驗中,隨著重連概率P的增大,η值均呈現(xiàn)先增大后減小的趨勢,一般在P=0.5 左右,η達到峰值.基于以上實驗結(jié)果,為了保障所建立模型具有較好的小世界屬性,本文中設(shè)置重連概率P=0.5.
圖5 網(wǎng)絡(luò)小世界屬性η與重連概率P的關(guān)系曲線(P-η曲線)Fig.5 The curves for the relationship between the small-world propertyηand the rewiring probabilityP (P-ηcurves)
3.3.2 預(yù)訓(xùn)練次數(shù)S對模型精度的影響
本文在[1,5 000]范圍內(nèi)對預(yù)訓(xùn)練次數(shù)S進行取值,計算不同預(yù)訓(xùn)練次數(shù)下建模精度指標,以研究預(yù)訓(xùn)練次數(shù)對網(wǎng)絡(luò)性能的影響,繪制曲線如圖6所示.
圖6 預(yù)訓(xùn)練次數(shù)對網(wǎng)絡(luò)性能的影響Fig.6 Influence of pre-training epochs on network performance
在分類問題(數(shù)據(jù)集1 和數(shù)據(jù)集2)中,隨著預(yù)訓(xùn)練次數(shù)的增加,測試集的Acc 逐漸減小;在回歸問題(數(shù)據(jù)集3~6)中,隨著預(yù)訓(xùn)練次數(shù)的增加,測試集的NRMSE 逐漸增大.可見,預(yù)訓(xùn)練次數(shù)的增加將會導(dǎo)致網(wǎng)絡(luò)性能變差.因此,為了保證網(wǎng)絡(luò)性能,本文設(shè)置預(yù)訓(xùn)練次數(shù)S為較小值,取值S=20.
本文使用6 個數(shù)據(jù)集,分別從訓(xùn)練過程和測試結(jié)果對提出的FSWNN-SC 網(wǎng)絡(luò)的性能進行評價.FSWNN-SC 網(wǎng)絡(luò)訓(xùn)練過程RMSE 曲線如圖7 所示.可見,在訓(xùn)練過程中,當(dāng)?shù)綌?shù)達到設(shè)定的預(yù)訓(xùn)練次數(shù)時,網(wǎng)絡(luò)按照重連規(guī)則結(jié)構(gòu)發(fā)生變化以構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),訓(xùn)練RMSE 發(fā)生一次跳變,之后快速下降直至網(wǎng)絡(luò)收斂.
圖7 訓(xùn)練過程RMSE 曲線Fig.7 The RMSE curves in the training process
FSWNN-SC 網(wǎng)絡(luò)對測試樣本的分類和預(yù)測效果如圖8 所示.可見,對于分類問題,FSWNN-SC網(wǎng)絡(luò)能夠達到較高的分類精度;對于回歸問題,FSWNN-SC 網(wǎng)絡(luò)能夠較好地對輸出進行擬合,實驗結(jié)果驗證了FSWNN-SC 網(wǎng)絡(luò)的有效性.
圖8 測試集樣本擬合與分類效果Fig.8 Test set sample fitting and classification effects
為了進一步研究FSWNN-SC 網(wǎng)絡(luò)的性能,本文將其與多層前饋神經(jīng)網(wǎng)絡(luò)(FNN)、基于WS 重連規(guī)則構(gòu)造的前饋小世界神經(jīng)網(wǎng)絡(luò)(FSWNN-WS)[32]、基于層連優(yōu)化的新型小世界神經(jīng)網(wǎng)絡(luò)(FSWNNTO)[33]、基于Katz 中心性剪枝的前饋小世界神經(jīng)網(wǎng)絡(luò)(PFSWNN-Katz)[30]、基于正則化(L1/2范數(shù))的刪減型小世界神經(jīng)網(wǎng)絡(luò)(PFSWNN-SL)等模型性能進行對比.所有網(wǎng)絡(luò)設(shè)置相同的初始結(jié)構(gòu),小世界神經(jīng)網(wǎng)絡(luò)的構(gòu)造過程重連概率均設(shè)置為P=0.5,網(wǎng)絡(luò)學(xué)習(xí)率、期望RMSE 和最大迭代次數(shù)均按照表1 進行設(shè)置.實驗獨立運行20 次,通過計算各模型的測試Acc 和測試NRMSE 等性能指標評價模型精度,記錄訓(xùn)練時間對模型的學(xué)習(xí)速度進行評價,同時計算網(wǎng)絡(luò)稀疏度,實驗結(jié)果見表2 和表3.
表2 分類實驗結(jié)果對比Table 2 Comparison results in classification experiments
表3 回歸實驗結(jié)果對比Table 3 Comparison results in regression experiments
從表中可以看出,相比于其他網(wǎng)絡(luò),FSWNNSC 網(wǎng)絡(luò)在分類問題中具有更高的分類精度,在回歸問題中具有更小的測試NRMSE,說明FSWNNSC 能夠獲得更好的建模精度.FSWNN-SC、PFSWNN-SL 和PFSWNN-Katz 模型具有網(wǎng)絡(luò)稀疏性,其中FSWNN-SC 模型通過在網(wǎng)絡(luò)重連過程中刪除產(chǎn)生的孤立節(jié)點實現(xiàn)稀疏化,而PFSWNN-SL和PFSWNN-Katz 是在學(xué)習(xí)過程中分別通過網(wǎng)絡(luò)正則化和合并節(jié)點實現(xiàn)網(wǎng)絡(luò)稀疏化,實驗驗證網(wǎng)絡(luò)稀疏化能夠獲得相對于FSWNN-WS 和FNN 更緊湊的結(jié)構(gòu),然而其訓(xùn)練時間也相應(yīng)增加.雖然FSWNNSC 的稀疏化程度要低于PFSWNN-SL 和PFSWNN-Katz,但是其訓(xùn)練時間相對于PFSWNNSL 和PFSWNN-Katz 縮短,更接近于FSWNNWS 和FNN 的訓(xùn)練時間.相比于FSWNN-TO,FSWNN-SC 的訓(xùn)練時間明顯短,因為FSWNN-SC 沒有引入同層節(jié)點連接,在權(quán)值更新時FSWNN-SC的誤差反傳“路徑長度”比FSWNN-TO 短.同時,通過對比FNN 與其他5 個具有小世界屬性的網(wǎng)絡(luò),驗證了將小世界屬性加入神經(jīng)網(wǎng)絡(luò)模型的設(shè)計中,能夠提高模型精度.綜上所述,通過對比實驗分析可見,本文提出的FSWNN-SC 網(wǎng)絡(luò)在獲得緊湊網(wǎng)絡(luò)結(jié)構(gòu)的同時,具有更高的建模精度.分析其原因,FSWNN-SC 網(wǎng)絡(luò)優(yōu)越的建模精度依賴于其預(yù)訓(xùn)練環(huán)節(jié),該環(huán)節(jié)模仿生物神經(jīng)網(wǎng)絡(luò)的突觸鞏固過程,通過網(wǎng)絡(luò)正則化方法保留了重要的權(quán)值連接并斷開了不重要的權(quán)值連接,使該階段網(wǎng)絡(luò)所學(xué)到的知識得以保留,可以有效避免災(zāi)難性遺忘問題.
為了進一步驗證本文所提出模型是否具有顯著優(yōu)勢,對第3.4 節(jié)的實驗結(jié)果進行Wilcoxon 符號秩檢驗.它是一種非參數(shù)檢驗方法,可以評估多個事件下兩個模型是否有顯著性差異[46],具體流程如下.
步驟 1.提出原假設(shè)H0:兩個模型之間沒有顯著性差異.
步驟 2.對于多個事件,通過式(32)和式(33)分別計算正負秩
其中,di是第i個事件下兩個模型的差異,本文通過精度性能指標的差值計算得到,rank(·)表示降序排名的名次.基于此得到Wilcoxon 統(tǒng)計量,為正負秩兩者中的較小值,即
步驟 3.通過Wilcoxon 統(tǒng)計量計算得到Z的臨界值,計算式為
其中,N是事件數(shù),通過查正態(tài)分布Z值表得到對應(yīng)的Pw,若Pw>0.05,則接受原假設(shè)H0,反之,則拒絕原假設(shè),即兩個模型間存在顯著性差異,且Pw值越小差異越顯著.
針對第3.4 節(jié)中的實驗結(jié)果進行Wilcoxon 符號秩檢驗,其中事件數(shù)為實驗獨立運行的次數(shù)20,分別對比FSWNN-SC 模型與其他5 種模型的性能,檢驗結(jié)果如表4 所示(*表示存在顯著性差異).由表4 可見,本文提出的FSWNN-SC 模型在精度上顯著優(yōu)于其他5 種模型.此外,本文實驗中,FSWNNSC 在不同場景、不同任務(wù)(分類、回歸)下表現(xiàn)出的顯著優(yōu)越性,反映了該模型對不同應(yīng)用環(huán)境的適應(yīng)性及可塑性,同時在實際應(yīng)用中的準確建模反映了其具有一定的抗擾性.
針對WS 構(gòu)造小世界神經(jīng)網(wǎng)絡(luò)方式中隨機斷開規(guī)則網(wǎng)絡(luò)中的權(quán)值連接,可能會造成重要信息丟失,進而導(dǎo)致網(wǎng)絡(luò)精度下降的問題,本文提出了FSWNNSC 模型.該模型具有以下特點:
1)FSWNN-SC 模型使用正則化方法對FNN進行預(yù)訓(xùn)練,斷開對網(wǎng)絡(luò)不重要的權(quán)值連接,以減少重要信息丟失的概率,并制定了重連規(guī)則構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),保證構(gòu)造的小世界神經(jīng)網(wǎng)絡(luò)的性能;
2)FSWNN-SC 模型通過在網(wǎng)絡(luò)重連過程中刪除產(chǎn)生的孤立節(jié)點實現(xiàn)網(wǎng)絡(luò)稀疏化,能夠獲得緊湊的網(wǎng)絡(luò)結(jié)構(gòu);
3)實驗結(jié)果表明,相比于PFSWNN-SL、PFSWNN-Katz、FSWNN-TO、FSWNN-WS 以及FNN,FSWNN-SC 在獲得緊湊結(jié)構(gòu)的同時,在模型精度方面具有顯著優(yōu)勢.