王校昌,王大鵬
(蘇州科技大學 土木工程學院,江蘇 蘇州 215011)
傳感器監(jiān)測數(shù)據(jù)丟失或者損壞,是結(jié)構(gòu)健康監(jiān)測(Structural Health Monitoring,SHM)系統(tǒng)的常見情況。此時,需要對缺失數(shù)據(jù)進行恢復(fù)或預(yù)測,通常采用的方法分為基于模型的方法和數(shù)據(jù)驅(qū)動的方法。倪一清等[1]對一個600 m超高層建筑在強臺風作用下的風壓測試數(shù)據(jù),應(yīng)用BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)和廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)兩種方法,進行了缺失數(shù)據(jù)的重構(gòu)。結(jié)果表明,采用貝葉斯(Bayesian)正則化技術(shù)來提高BP神經(jīng)網(wǎng)絡(luò)的泛化能力,效果更好。
Yang等[2]利用最小化稀疏恢復(fù)和核范數(shù)最小化低秩矩陣,來恢復(fù)隨機缺失或損壞的結(jié)構(gòu)振動響應(yīng)數(shù)據(jù)。鮑躍全等[3]提出了基于壓縮采樣恢復(fù)缺失數(shù)據(jù)的方法,通過分析無線傳感器在斜拉橋和空間結(jié)構(gòu)上獲得的加速度時程數(shù)據(jù),進行了驗證。鮑躍全等[4]提出了壓縮感知恢復(fù)缺失數(shù)據(jù)的方法,利用快速無線傳感技術(shù)在斜拉橋上獲得的現(xiàn)場試驗數(shù)據(jù),驗證了方法的可行性。陳智成等[5]提出了一種從基于對數(shù)分位數(shù)密度-再生核希爾伯特空間分布到分布回歸方法,用于恢復(fù)健康監(jiān)測缺失數(shù)據(jù)的概率分布,結(jié)果表明優(yōu)于傳統(tǒng)方法。彭勇等[6]基于經(jīng)驗?zāi)B(tài)分析EMD(Empirical Mode Decomposition,EMD)和門控循環(huán)GRU(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)來預(yù)測高速公路行程時間,取得較好的效果。Mei等[7]使用長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和貝葉斯融合對實時移動帶寬進行了預(yù)測,實現(xiàn)了較高精度地實時預(yù)測。唐鳴等[8]建立了三層LSTM來預(yù)測水位,與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型預(yù)測的結(jié)果進行對比發(fā)現(xiàn),LSTM的預(yù)測結(jié)果較好。
本文擬建立LSTM模型和差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average Model,ARIMA),針對結(jié)構(gòu)健康監(jiān)測常用的FBG(Fiber Bragg Grating,F(xiàn)BG)傳感器和加速度計實測振動信號,對比研究兩種方法用于動態(tài)監(jiān)測信號缺失數(shù)據(jù)的預(yù)測效果。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變體,克服了梯度消失和梯度爆炸的問題,其內(nèi)部結(jié)構(gòu)如圖1所示。LSTM有兩個傳輸狀態(tài):ct(cell state)和ht(hidden state)。所用激活函數(shù)為tanh和sigmoid,輸出值為0和1之間,公式分別如下式(1)與式(2)所示。
圖1 LSTM內(nèi)部結(jié)構(gòu)
LSTM提供了三個門,輸入門決定哪些信息保留下來,保留在記憶單元ct;遺忘門決定t時刻應(yīng)該刪除哪些信息;輸出門控制單元狀態(tài)ct有多少輸出到當前輸出值ht。表述如下。
其中,ct、為t時刻的單元狀態(tài)和更新狀態(tài);ht、ht-1為隱藏狀態(tài);W為對應(yīng)的權(quán)重;bi為對應(yīng)的偏差。
ARIMA(p,d,q)于1970年被提出,被廣泛應(yīng)用于各種時間序列預(yù)測中。其中,p是自回歸項的階數(shù),d是差分階數(shù),q是滯后預(yù)測誤差的階數(shù)。模型可以寫成
采用編程軟件python3.6和pytorch1.5框架進行模型設(shè)計,LSTM模型建模流程如圖2所示。ARIMA建模過程如圖3所示。
圖2 LSTM建模流程
圖3 ARIMA建模流程
試驗?zāi)P蜑楹喼Чぷ咒摿?,兩支點間距為3 m,見圖4。鋼梁上共安裝16個FBG傳感器。其中,沿鋼梁下翼緣一側(cè)10個FBG標距為300 mm,另一側(cè)6個標距為500 mm,調(diào)制解調(diào)設(shè)備的采樣頻率為250 Hz。在梁頂放置6個壓電式加速度度傳感器,動態(tài)采集系統(tǒng)的采樣頻率為100 Hz。使用電磁激振器,采用掃頻方式,對鋼梁進行2 min激振,得到16組FBG波長數(shù)據(jù)和6組加速度數(shù)據(jù),將數(shù)據(jù)截取為若干組3 000(采樣點數(shù))×q(傳感器數(shù)量,本文中為6或者16)的數(shù)據(jù)集,其中90%作為訓練集,10%作為測試集。
圖4 工字鋼梁試驗
數(shù)據(jù)在輸入模型進行訓練前,按照下式進行標準化的預(yù)處理,一組典型標準化數(shù)據(jù)如圖5所示。
圖5 標準化數(shù)據(jù)
4.1.1 參數(shù)選擇 LSTM模型為兩層,第一層為LSTM,第二層為全連接層。LSTM優(yōu)化器選擇自適應(yīng)梯度下降算法(Adam),參數(shù)的梯度傳入模型由Adam計算,損傷函數(shù)選擇交叉熵函數(shù)。交叉熵公式如下:
式中,J是交叉熵損失函數(shù)的值,p和q分別是預(yù)期輸出和預(yù)測輸出(概率),M是類別數(shù)。
本文針對10組不同超參數(shù),用絕對百分比誤差最大值MAX、平均絕對誤差MAE及均方根誤差RMSE,三項指標(具體見下式(12)至式(15)),比較了超參數(shù)對預(yù)測效果的影響,如表1所列。由2、3、4、5組可知,迭代次數(shù)影響計算效率。4、6、7、8組可以看出,隱含層節(jié)點數(shù)增加,誤差減小,計算精度上升。1、4、9、10組可以看出,模型學習率過小會出現(xiàn)精度不夠的現(xiàn)象,學習率過大則出現(xiàn)過擬合現(xiàn)象。
表1 不同超參對預(yù)測精度及計算效率的影響
綜合考慮計算效率和精度影響,本文LSTM模型的學習率選擇為i=0.01、隱含層單元數(shù)為h=32、輸入節(jié)點數(shù)n=2、輸出節(jié)點數(shù)o=1,最佳迭代次數(shù)為1 000次。
4.1.2 參數(shù)選擇 LSTM的訓練損失變化如圖6所示,大概訓練100次后,模型損失開始迅速下降。隨著訓練次數(shù)增加,損失值不斷下降,直至收斂。圖7顯示了部分時間序列的波長和加速度數(shù)據(jù)預(yù)測結(jié)果。
圖6 LSTM模型損失圖
圖7 LSTM預(yù)測效果圖
4.2.1 數(shù)據(jù)平穩(wěn)性檢驗 本文ARIMA模型的自回歸項階數(shù)p=5,差分階數(shù)d=1,滯后預(yù)測誤差階數(shù)q=0。采用ADF(Augmented Dickey-Fuller,ADF)單位根檢測法進行平穩(wěn)性檢測,得到的顯著性檢驗統(tǒng)計量小于三個置信度(10%、5%和1%)。如表2所示,波長和加速度時間序列的統(tǒng)計量(t-Statistic)分別為-10.528 956和-5.459 338,均小于1%測試臨界值-3.432 546和-3.432 552,因此兩種時間序列數(shù)據(jù)滿足平穩(wěn)性要求。
表2 ADF檢驗
4.2.2 預(yù)測結(jié)果 圖8顯示了部分時間序列的波長和加速度數(shù)據(jù)預(yù)測結(jié)果。
圖8 ARIMA預(yù)測效果圖
本文采用了絕對百分比誤差最大值(MAX)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)以及均方根誤差(RMSE)等作為評價指標,來評估LSTM和ARIMA模型在預(yù)測值和實測值之間的差距;R2用于判斷模型好壞,具體公式[9]如下所示。
其中,n為測試樣本總數(shù),y'為樣本預(yù)測值,y為樣本實測值為樣本實測均值。
幾種評價指標的對比結(jié)果如表3所示。結(jié)果顯示,除了對加速度數(shù)據(jù)預(yù)測的RMSE外,LSTM模型的MAX、MAE、MAPE均小于ARIMA模型的相應(yīng)指標;LSTM模型的R2值大于ARIMA模型的R2值,說明LSTM模型的整體預(yù)測效果優(yōu)于ARIMA模型。比較模型訓練時間,ARIMA大概為338 s,而LSTM大概為880 s,效率稍低。
表3 模型誤差指標
本文針對結(jié)構(gòu)健康監(jiān)測中的兩種時間序列數(shù)據(jù):FBG波長時程信號和加速度時程信號,建立LSTM和ARIMA兩種模型,對動態(tài)監(jiān)測信號的缺失數(shù)據(jù)進行了預(yù)測分析,并對兩種模型的預(yù)測效果進行了對比。波長和加速度數(shù)據(jù)首先進行標準化處理,進行一定長度的截斷,作為兩種模型的訓練集和測試集。在LSTM模型中,通過比較10組超參數(shù)對計算效率和精度的影響,選擇確定本文所用LSTM模型的超參數(shù)。由于ARIMA模型對時間序列數(shù)據(jù)有平穩(wěn)性要求,對波長和加速度數(shù)據(jù)進行了ADF檢驗。最后,采用絕對百分比誤差最大值(MAX)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)以及均方根誤差(RMSE)等指標,評估了LSTM和ARIMA模型的預(yù)測效果。結(jié)果表明,LSTM模型的整體預(yù)測效果優(yōu)于ARIMA模型,但在預(yù)測耗時方面,LSTM模型的效率較低。實際工程應(yīng)用中,可根據(jù)數(shù)據(jù)的量級來選擇訓練集的大小。小規(guī)模數(shù)量級中,劃分70%作為訓練集。大規(guī)模數(shù)量級中,可增大訓練集的比例至98%、99%。預(yù)測誤差隨著數(shù)據(jù)丟失率增加而增加。至于丟失多少比例后預(yù)測會失真,這是后續(xù)研究要解決的問題,課題組其他成員正結(jié)合其他算法進一步評估預(yù)測數(shù)據(jù)的有效性。