張建喜, 臧德彥
(東華理工大學(xué)測繪工程學(xué)院,江西撫州344000)
主成分分析與BP網(wǎng)絡(luò)組合的大壩變形預(yù)報(bào)
張建喜, 臧德彥
(東華理工大學(xué)測繪工程學(xué)院,江西撫州344000)
將主成分分析與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合應(yīng)用到大壩變形影響因子的優(yōu)化中,建立大壩變形預(yù)測模型??梢杂行У亟档洼斎胍蜃拥木S數(shù),減小因子之間相關(guān)性的影響,簡化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)訓(xùn)練難度,提高預(yù)測的穩(wěn)定性及精度,提升BP網(wǎng)絡(luò)訓(xùn)練的效率,解決由影響因子內(nèi)部相關(guān)性而需引入大量因子的問題。通過實(shí)驗(yàn)結(jié)果對比表明,主成分分析與BP網(wǎng)絡(luò)相結(jié)合的大壩預(yù)報(bào)模型精度及穩(wěn)定性明顯優(yōu)于其他模型。
主成分分析;大壩變形;BP神經(jīng)網(wǎng)絡(luò)
大壩安全監(jiān)測數(shù)據(jù)處理模型通常采用的數(shù)學(xué)模型主要有統(tǒng)計(jì)模型、確定模型、混合模型等(李珍照,1997)。其中統(tǒng)計(jì)模型和混合模型一般多采用回歸分析方法來建立,對事先擬定的因子進(jìn)行篩選及系數(shù)求解,但所選的因子之間有時(shí)會存在嚴(yán)重的相關(guān)性,這種相關(guān)性有時(shí)會對預(yù)測效果產(chǎn)生較大的影響。目前對擬定大壩變形影響因子進(jìn)行系數(shù)求解的方法主要采用的是相關(guān)性判別法。這種方法雖然能準(zhǔn)確確定每一個(gè)影響因子與大壩變形的相關(guān)性,但經(jīng)過相關(guān)性判別只是線性地確定大壩位移影響因子與大壩變形量之間的關(guān)系,并沒有對影響因子之間的相關(guān)性進(jìn)行分析,并且由于影響因子之間存在相關(guān)性,將會引入大量無效變量。主成分分析可以有效地解決變量之間的多重相關(guān)性問題(農(nóng)吉夫等,2008)。本文主要利用主成分分析構(gòu)造神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)矩陣,將主成分分析與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,同時(shí)將傳統(tǒng)的BP網(wǎng)絡(luò)進(jìn)行了改進(jìn),引入了動量訓(xùn)練算法,降低了網(wǎng)絡(luò)對于誤差曲面局部細(xì)節(jié)的敏感性,有效地抑制了網(wǎng)絡(luò)陷入局部極小的問題。建立大壩變形預(yù)測模型,通過matlab編程實(shí)現(xiàn),并將預(yù)測結(jié)果與BP網(wǎng)絡(luò)模型、灰色模型進(jìn)行對比分析,得出基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)可以有效地降低輸入因子的維數(shù),減小因子之間相關(guān)性的影響,簡化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)訓(xùn)練難度,提高了預(yù)測的穩(wěn)定性及精度。
主成分分析(吳翊等,1995)是研究多個(gè)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。通過少數(shù)幾個(gè)主分量解釋多變量的方差,即導(dǎo)出少數(shù)幾個(gè)主分量,使他們盡可能完整地保留原始變量的信息,且彼此不相關(guān),以達(dá)到簡化數(shù)據(jù)的目的。
現(xiàn)以廣州蓄能水電廠河床壩段壩頂?shù)?#觀測點(diǎn)2000年4月12日至2003年4月16日Y向水平位移觀測值為例,說明主成分對大壩位移影響因子的判定的重要性,考慮到大壩位移產(chǎn)生的原因主要由揚(yáng)壓力、溫度、時(shí)效引起,因此,將h,h2,h3,h4,h5,θ,θ2,θ3,θ4,θ5,lnθ,sinG,cosG,sinG*cosG,sin2G,T0(h為上游水位值,θ為觀測值當(dāng)天到起測日之間的累計(jì)天數(shù)除以100,G=2πt/365,t為觀測時(shí)刻距初始時(shí)間的天數(shù))作為大壩位移的影響因子,如果直接將這16個(gè)影響因子作為神經(jīng)網(wǎng)絡(luò)的輸入因子,必然會引入一些冗余的影響因子,所以必須對影響因子與大壩位移的相關(guān)性進(jìn)行判定,本文采用pearson相關(guān)性判別法。假定大壩位移量為y,大壩位移影響因子中的各個(gè)影響要素用x表示,根據(jù)普濟(jì)(2008)pearson相關(guān)系數(shù)
表1 影響因子與大壩位移之間的pearson相關(guān)系數(shù)Tab.1 The pearson coefficient between impact factors and dam displacement
根據(jù)Pearson相關(guān)性顯著性表,確定T0,sinG,cosG,h,h2,h3,h4,h5與大壩位移量顯著相關(guān)。同時(shí),揚(yáng)壓力影響因子h,h2,h3,h4,h5相互之間完全相關(guān)。如果將揚(yáng)壓力影響因子h,h2,h3,h4,h5全部作為神經(jīng)網(wǎng)絡(luò)的輸入因子,勢必會造成信息的重疊。同時(shí)自變量之間的相關(guān)性較大,使輸入矩陣為病態(tài),神經(jīng)網(wǎng)絡(luò)求得的解不穩(wěn)定,且收斂速度很慢(李雪紅等,2001)。主成分分析法就是將彼此之間相關(guān)性比較大的影響因子進(jìn)行簡化,同時(shí)又不影響原有影響因子所代表的信息。對揚(yáng)壓力影響因子的51個(gè)樣本進(jìn)行主成分分析,每個(gè)樣本共有5個(gè)指標(biāo)(變量)對其進(jìn)行描述。這樣便構(gòu)成了階的數(shù)據(jù)矩陣H:變量H有不同的量綱,由此會引起各變量取值的分散程度差異較大,這時(shí)變量H的總方差受方差較大的變量控制,若由原變量的協(xié)方差矩陣出發(fā)進(jìn)行主成分分析,則優(yōu)先考慮了方差較大的變量,不僅給主成分變量的解釋帶來困難,還會造成不合理的結(jié)果。所以為了消除原變量彼此方差差異過大的影響,則需將原變量進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化之后得到矩陣H1:
H1與原始變量H的結(jié)構(gòu)完全相同,代表了原始變量所有信息。對標(biāo)準(zhǔn)化后的變量H1做線性組合分析,得出新的變量指標(biāo)Hk:
變量Hk的維數(shù)相對于H得到了降低,同時(shí)它又能包含變量H中的大部分信息。最終將Hk,T0,sinG,cosG作為大壩位移的影響因子。
BP神經(jīng)網(wǎng)絡(luò)即誤差后向傳播神經(jīng)網(wǎng)絡(luò)是目前神經(jīng)網(wǎng)絡(luò)中使用最廣泛的一類。從結(jié)構(gòu)上,BP網(wǎng)絡(luò)是典型的多層網(wǎng)絡(luò),分為輸入層、隱含層和輸出層,層與層之間多采用全互聯(lián)方式,同一層單元之間不存在相互連接(黃紅女等,2003)。神經(jīng)元結(jié)構(gòu)同普通神經(jīng)元結(jié)構(gòu)類似(危志明等,2009),只是為了學(xué)習(xí)算法的推導(dǎo),將閥值的作用等效為第0個(gè)輸入端,該輸入端的輸入值恒定為1,并且令w0=-θi,于是神經(jīng)元的輸出為:
輸入層接收信息經(jīng)隱含層作用函數(shù)處理后傳出到輸出層。
BP網(wǎng)絡(luò)構(gòu)建過程中訓(xùn)練函數(shù)的選取及訓(xùn)練過程中學(xué)習(xí)速率的選取將直接影響到訓(xùn)練時(shí)間、穩(wěn)定性及預(yù)報(bào)精度。本文基于BP算法(劉金生等,2008)的主要缺點(diǎn):收斂速度慢、局部極值、難以確定隱含層和隱含層節(jié)點(diǎn)個(gè)數(shù)。從而提出了啟發(fā)式的學(xué)習(xí)算法,就是對于表現(xiàn)函數(shù)梯度加以分析,從而改進(jìn)算法,傳統(tǒng)的BP網(wǎng)絡(luò)訓(xùn)練過程是沿著負(fù)梯度方向調(diào)整權(quán)值,并沒有考慮到以前積累的經(jīng)驗(yàn),即以前時(shí)刻的梯度方向,從而常常使學(xué)習(xí)過程發(fā)生振蕩,收斂緩慢。而動量梯度下降法將動量因子加入到權(quán)值調(diào)整過程中,可得:
其中,D(k)表示k時(shí)刻的負(fù)梯度,D(k-1)表示k-1時(shí)刻的負(fù)梯度,η為學(xué)習(xí)率,α∈[0,1]是動量因子。所加入的此動量項(xiàng)減小了學(xué)習(xí)過程的振蕩趨勢,改善了收斂性。但實(shí)踐表明,BP網(wǎng)絡(luò)學(xué)習(xí)過程中學(xué)習(xí)速率η,動量系數(shù)α等值的選取,將直接影響到訓(xùn)練時(shí)間和成果精度(趙斌等,1999)。目前對BP網(wǎng)絡(luò)中學(xué)習(xí)速率,動量系數(shù)的確定沒有統(tǒng)一的計(jì)算模式,只能通過不斷訓(xùn)練,根據(jù)經(jīng)驗(yàn)做出判斷,筆者多次對不同的η,α進(jìn)行訓(xùn)練、預(yù)測。確定學(xué)習(xí)率α=0.05,動量因子α=0.7作為網(wǎng)絡(luò)的訓(xùn)練參數(shù)比較合適,此時(shí)網(wǎng)絡(luò)訓(xùn)練較為穩(wěn)定,網(wǎng)絡(luò)預(yù)報(bào)精度較高。
將經(jīng)過主成分分析所確定的大壩位移影響因子作為BP網(wǎng)絡(luò)的輸入量,以廣州蓄能水電廠河床壩段壩頂?shù)?#觀測點(diǎn)2000年4月12日至2003年4月16日Y向水平位移觀測值作為輸出因子,在BP網(wǎng)絡(luò)訓(xùn)練,預(yù)報(bào)之前,需要確定網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)。目前對BP網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)的確定主要采用0.618黃金分割法,經(jīng)驗(yàn)公式法。由于黃金分割法計(jì)算較為繁瑣,并且BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練存在偶然性,一次性黃金分割法所確定的隱含層節(jié)點(diǎn)數(shù)不一定是最佳的。本文將給予經(jīng)驗(yàn)公式o=2m+1(o為隱含層節(jié)點(diǎn)數(shù),m為輸入節(jié)點(diǎn)數(shù))外加多次訓(xùn)練逐步試探確定最佳隱含層節(jié)點(diǎn)數(shù)。經(jīng)驗(yàn)公式所確定的隱含層節(jié)點(diǎn)數(shù)如表2所示。
表2 基于經(jīng)驗(yàn)公式的隱含層節(jié)點(diǎn)數(shù)Tab.2 The hidden layer nodes based on empirical formula
基于BP網(wǎng)絡(luò),在經(jīng)驗(yàn)公式所確定隱含層節(jié)點(diǎn)數(shù)兩邊進(jìn)行不斷訓(xùn)練,不斷試探,為了體現(xiàn)公平訓(xùn)練,公平預(yù)報(bào)原則,訓(xùn)練參數(shù)都將統(tǒng)一設(shè)置,為了避免訓(xùn)練和預(yù)報(bào)的偶然性,對于每一個(gè)節(jié)點(diǎn)數(shù)都采取訓(xùn)練8次,預(yù)報(bào)8次,訓(xùn)練和預(yù)報(bào)結(jié)果的平均誤差如表3所示。
表3 最佳隱含層節(jié)點(diǎn)數(shù)Tab.3 The best hidden layer nodes
從表3可以看出對于由主成分分析法所確定的影響因子BP網(wǎng)絡(luò)預(yù)報(bào)模型,其最佳隱含層節(jié)點(diǎn)數(shù)為9,傳統(tǒng)方法所確定的影響因子BP網(wǎng)絡(luò)預(yù)報(bào)模型,其最佳隱含層節(jié)點(diǎn)數(shù)為17。
將建立好的BP網(wǎng)絡(luò)輸入樣本數(shù)據(jù)進(jìn)行預(yù)報(bào)。由于原始觀測數(shù)據(jù)的單位不同,因此需要對原始數(shù)據(jù)的自變量和因變量進(jìn)行歸一化處理,本例中的BP神經(jīng)網(wǎng)絡(luò)方法的激活函數(shù)采用sigmoid函數(shù),故將輸入數(shù)據(jù)歸化到(-1,1)可提高網(wǎng)絡(luò)的收斂速度;函數(shù)的因變量范圍為(-1,1),故網(wǎng)絡(luò)的輸出值也應(yīng)歸化到(-1,1)歸一化公式如下:
式中xmax,xmin分別為每組因子變量的最大值和最小值;x,x'分別為每組因子變量規(guī)格化前和規(guī)格化后的值。
選取歸一化后的前40組數(shù)據(jù)作為BP網(wǎng)絡(luò)的訓(xùn)練樣本,對于后11組數(shù)據(jù)進(jìn)行預(yù)測,并用來與原始觀測數(shù)據(jù)建模的BP神經(jīng)網(wǎng)絡(luò)模型、灰色模型預(yù)測結(jié)果進(jìn)行對比分析,為了避免訓(xùn)練和預(yù)報(bào)的偶然性,采取對不同方法所確定的影響因子分別訓(xùn)練8次、預(yù)報(bào)8次的原則,對8次預(yù)測結(jié)果平均值進(jìn)行對比分析(圖1,表4),預(yù)測殘差如圖2所示。
表4預(yù)測結(jié)果Tab.4 The prediction results mm
從圖1和圖2中可以明顯看出,基于主成分分析的BP網(wǎng)絡(luò)預(yù)測精度及穩(wěn)定性明顯優(yōu)于BP網(wǎng)絡(luò)模型、灰色預(yù)測模型。
(1)由本文模型和算例可以看出將主成分分析法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,可以有效地降低輸入因子的維數(shù),減小因子之間相關(guān)性的影響,簡化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)訓(xùn)練難度,提高了預(yù)測的穩(wěn)定性及精度。同時(shí)將傳統(tǒng)的BP網(wǎng)絡(luò)進(jìn)行了改進(jìn),引入了動量訓(xùn)練算法,降低了網(wǎng)絡(luò)對于誤差曲面局部細(xì)節(jié)的敏感性,有效地抑制了網(wǎng)絡(luò)陷入局部極小的問題,其收斂性比傳統(tǒng)的BP網(wǎng)絡(luò)要好,由此得出結(jié)論,基于主成分分析與BP網(wǎng)絡(luò)相結(jié)合的預(yù)報(bào)模型精度及穩(wěn)定性明顯優(yōu)于其他模型。
(2)在大壩變形預(yù)測之前,需要引入大量的前期觀測數(shù)據(jù),而觀測數(shù)據(jù)中的無效數(shù)據(jù)將直接影響到大壩預(yù)測的穩(wěn)定性及精度,怎樣剔除觀測數(shù)據(jù)中的無效數(shù)據(jù)將有待進(jìn)一步探討。
李珍照.1997.大壩安全監(jiān)測[M].北京:中國電力出版社.
農(nóng)吉夫,金龍.2008.基于MATLAB的主成分RBF神經(jīng)網(wǎng)絡(luò)降水預(yù)報(bào)模型[J].熱帶氣象學(xué)報(bào),24(6):713-717.
吳翊,李永樂,胡慶軍.1995.應(yīng)用數(shù)理統(tǒng)計(jì)[M].長沙:國防科技大學(xué)出版社.
普濟(jì).2008.數(shù)理統(tǒng)計(jì)與應(yīng)用第7講 相關(guān)與回歸(2)——相關(guān)系數(shù)[J].中國質(zhì)量,8:85-89.
李雪紅,徐洪鐘,顧沖時(shí),等.2001.主成分神經(jīng)網(wǎng)絡(luò)模型在大壩觀測資料分析中的應(yīng)用[J].大壩觀測與土工測試,25(5):14-16.
黃紅女,華錫生,王鐵生.2003.利用反向傳播神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)大壩的綜合評判[J].水電自動化與大壩監(jiān)測,27(2):56-58.
趙斌,吳中如,張愛玲.1999.BP模型在大壩安全監(jiān)測預(yù)報(bào)中的應(yīng)用[J].大壩觀測與水土測試,23(6):1-3.
劉金生,周煥銀,劉金輝.2008.基于BP神經(jīng)網(wǎng)絡(luò)的撫河水環(huán)境質(zhì)量評價(jià)研究[J].東華理工大學(xué)學(xué)報(bào):自然科學(xué)版,31(1):85-88.
危志明,吳良才.2009.基于GADS工具箱的GPS高程擬合方法[J].東華理工大學(xué)學(xué)報(bào):自然科學(xué)版,32(1):89-92.
The Dam Deformation Forecasting of BP Neural Network and Principal Component Analysis
ZHANG Jian-xi, ZANG De-yan
(Faculty of Surveying Engineering,East China Institute of Technology,F(xiàn)uzhou,JX 344000,China)
The principal component analysis with the BP neural network is applied to the optimization of dam deformation impact factors,build the dam deformation forecast model.It can effectively reduce the input factor of dimensionality,simplify network structure,reduce network training difficulties,improve the stability and precision,reduce the correlation between the impact of factor and the efficiency of BP network training is improved,a large number of factors are introduced by the correlation between factors are resolved.The result shows that the accuracy and stability are predicted by the application of BP neural network based on principal component analysis is better than other models.
the principal component analysis;dam deformation;BP neural network
TV698.2+3
A
1674-3504(2011)03-288-05
10.3969/j.issn.1674-3504.2011.03.014
2010-12-31
江西省教育廳重點(diǎn)科技項(xiàng)目(GJJ10022)
張建喜(1986—),男,碩士研究生,主要從事海洋地形測繪理論與應(yīng)用方向。