邱 陽,李 盛,金 亮,張咪咪,王 杰
(1.武漢理工大學(xué)信息工程學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué)光纖傳感技術(shù)與網(wǎng)絡(luò)國家工程研究中心,湖北 武漢 430070;3.小米科技有限責(zé)任公司,湖北 武漢 430070)
監(jiān)測跟蹤橋梁結(jié)構(gòu)的演變趨勢對于確保橋梁安全運營十分重要[1]?;跇蛑番F(xiàn)場傳感器網(wǎng)絡(luò)搭建而成的結(jié)構(gòu)健康監(jiān)測[2]系統(tǒng),可以跟蹤橋梁的受力、變形和振動等結(jié)構(gòu)響應(yīng),是反饋橋梁結(jié)構(gòu)運營狀態(tài)的有效自動化監(jiān)測手段。對于大型斜拉橋健康監(jiān)測系統(tǒng),振動監(jiān)測是診斷和評價結(jié)構(gòu)服役狀態(tài)的重要方式。目前,實際工程中對結(jié)構(gòu)振動的長期實時監(jiān)測主要依靠加速度傳感器[3]。跟蹤加速度監(jiān)測值及其趨勢,并判別其是否在安全閾值范圍內(nèi)的方式,可用于評估和預(yù)測結(jié)構(gòu)的安全性。然而,現(xiàn)場傳感器長期運作帶來的不穩(wěn)定性,采集傳輸鏈路不暢通引入的噪聲干擾,監(jiān)控機房的供電或網(wǎng)絡(luò)中斷等影響,都會對振動監(jiān)測結(jié)果引入異常干擾,且這種干擾的發(fā)生具有隨機性和非均衡性。因此,為了準確地評價橋梁結(jié)構(gòu)的振動狀態(tài),必須識別并剔除上述多種模式異常數(shù)據(jù)帶來的影響[4]。
結(jié)構(gòu)健康監(jiān)測中關(guān)于傳感信號異常診斷的研究方面,文獻[5]指出了傳感器校驗對結(jié)構(gòu)健康狀況評估準確性和可靠性的重要意義,并綜述了可減少測量值與真實值間偏差的傳感器校驗方法。在傳感器較少情況下的異常數(shù)據(jù)診斷研究中,文獻[6]指出基于統(tǒng)計過程控制技術(shù)可有效識別橋梁GPS載波相位監(jiān)測中的微小持續(xù)性偏移。文獻[7]提出基于主成分分析和超球面一類支持向量機的方法用于準確識別橋梁伸縮縫信息。針對規(guī)模較大的傳感器網(wǎng)絡(luò)故障診斷研究中,Huang[8]構(gòu)建了一種基于動態(tài)或自回歸特性多變量的統(tǒng)計模型,并在一個基準有限元結(jié)構(gòu)上檢驗了該方法相較于傳統(tǒng)主成分分析方法的優(yōu)越性。Hernandez[9]針對桁架橋模型,探討了三種基于統(tǒng)計監(jiān)測模型的傳感器故障和異常識別方法的適用性。以上圍繞傳感器故障診斷開展的研究中,考慮的異常數(shù)據(jù)類別數(shù)量和規(guī)模與實際工程相比還較為有限,均未考慮不同模式異常數(shù)據(jù)樣本間的非均衡性影響。隨著計算機硬件性能的提升,機器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)開始被用于處理結(jié)構(gòu)健康監(jiān)測中的分類問題,如文獻[10]綜述性回顧了機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在結(jié)構(gòu)損傷識別領(lǐng)域中的發(fā)展。其中,已有基于計算機視覺通過深度學(xué)習(xí)來識別異常數(shù)據(jù)的相關(guān)研究報道[11-12]。但這種將時間序列信號轉(zhuǎn)化為圖像的特征抽取方法極其消耗計算資源。Li[13]利用縮尺橋梁模型模擬含有異常影響的時間序列信號,并通過建立深度學(xué)習(xí)模型實現(xiàn)了3種異常狀態(tài)與基準態(tài)的高準確率分類。盡管上述相關(guān)研究通過數(shù)值模擬或針對樣本量較少的監(jiān)測數(shù)據(jù),驗證了人工智能方法識別健康監(jiān)測系統(tǒng)傳感信號異常性的可行性,但面對實際工程傳感器網(wǎng)絡(luò)的復(fù)雜信號模式時,樣本的分類標(biāo)簽注解依舊缺乏自動化手段,難以為研究提供具有一定規(guī)模的樣本庫支持。因此,目前各種針對異常監(jiān)測數(shù)據(jù)的診斷識別方法,還缺少對實際監(jiān)測系統(tǒng)長期監(jiān)測數(shù)據(jù)集的檢驗。
針對以上現(xiàn)狀,本文以某座實際大跨度斜拉橋結(jié)構(gòu)健康監(jiān)測系統(tǒng)中38個振動傳感器長達1個月的監(jiān)測數(shù)據(jù)作為對象,開展面向具有多種模式的異常數(shù)據(jù)的識別與分類方法研究。對實際數(shù)據(jù)集中存在的不同模式樣本間數(shù)據(jù)量的非均衡性,以及相同模式樣本間個性化差異的現(xiàn)象,提出了基于統(tǒng)計特征混合與隨機森林(RF)重要性排序識別異常數(shù)據(jù)的方法。面向?qū)嶋H工程監(jiān)測數(shù)據(jù)集,檢驗用于識別不同模式異常數(shù)據(jù)方法的執(zhí)行效果。分析討論采用多種特征混合輸入編排方式時幾種典型機器學(xué)習(xí)分類算法對異常數(shù)據(jù)識別方法的適應(yīng)性。
圖1為基于監(jiān)督學(xué)習(xí)訓(xùn)練的異常數(shù)據(jù)識別與分類方法流程。監(jiān)督學(xué)習(xí)分類訓(xùn)練前,依次開展樣本數(shù)據(jù)增強[14]、統(tǒng)計特征計算、特征重要性排序與排序特征混合。
圖1 異常數(shù)據(jù)識別方法流程
對原始樣本開展數(shù)據(jù)增強是提升監(jiān)督學(xué)習(xí)訓(xùn)練效果的有效方式[15]。目前,數(shù)據(jù)增強的方法主要面向二維圖像信號處理[16]。針對一維信號,增強手段主要是通過對原樣本序列進一步切割來增加樣本容量[17]。此外,也有將一維信號轉(zhuǎn)換為圖片格式后開展數(shù)據(jù)增強的相關(guān)研究[18]。與上述手段不同,提出通過對原始數(shù)據(jù)集進行前向差分求導(dǎo)來實現(xiàn)樣本數(shù)據(jù)量的增強。將結(jié)構(gòu)健康監(jiān)測系統(tǒng)采集到的原始振動監(jiān)測數(shù)據(jù)集記為X={s1,s2,…,sn},其中,si代表第i條原始數(shù)據(jù)樣本。對X進行一階求導(dǎo)并將求導(dǎo)后的數(shù)據(jù)集記為,其中定義為si經(jīng)過前向差分后的結(jié)果。該處理方式通過翻倍增加原樣本量來實現(xiàn)數(shù)據(jù)增強。
為進一步加強監(jiān)督學(xué)習(xí)訓(xùn)練對有效特征的提取能力,采用統(tǒng)計的策略降低X和Xτ中冗余信息對于訓(xùn)練效率的影響。圖1所示的統(tǒng)計特征分別為最大值(Max)、最小值(Min)、平均數(shù)(Mean)、中位數(shù)(Median)、標(biāo)準差(Std)、極差(Range)、有效值(Value)、眾數(shù)(Mode)、峰度(Kurtosis)和偏度(Skewness),將si和的統(tǒng)計特征集分別定義為stai=。其中,sim和分別表示樣本si和的第m種統(tǒng)計特征量。
為衡量樣本中各種統(tǒng)計量與原始樣本間的相關(guān)性強弱,對stai和中的m種統(tǒng)計特征分別按照式(1)計算基于RF的特征重要性指數(shù)(PIM)[19],并依據(jù)PIM值大小對統(tǒng)計特征重要性開展排序,具體流程如下:
①構(gòu)造M棵決策樹;
②當(dāng)前決策樹ktree=1時,得到對應(yīng)袋外數(shù)據(jù)[20]OOBk;
③計算當(dāng)前決策樹對OOBk的預(yù)測誤差errOOBk;
④將OOBk中第i種統(tǒng)計特征的隨機擾動記為,計算當(dāng)前決策樹對的預(yù)測誤差;
⑤對于每一顆決策樹,ktree=2,…M,重復(fù)步驟②到④;
⑥根據(jù)式(1)計算統(tǒng)計特征的重要性。
式中:M為構(gòu)造的決策樹數(shù)量,和errOOBk分別表示對第i種統(tǒng)計參量添加擾動后的袋外數(shù)據(jù)和未添加擾動的袋外數(shù)據(jù)在第ktree棵決策樹情況下的預(yù)測誤差。
依據(jù)統(tǒng)計特征PIM值大小,首先將stai和內(nèi)的m種統(tǒng)計特征由大到小進行重排列。在此基礎(chǔ)上分別從stai和中挑選出不同數(shù)量的統(tǒng)計特征進行組合,形成排序后stai和的子集staisub和,,其中,sik和分別代表stai和中PIM排名第k位的統(tǒng)計特征。然后,將staisub和進行組合,得到用于分類器訓(xùn)練的輸入樣本表達yn,定義。其中,n為k取不同值時特征混合方式的編號。
檢驗識別方法的數(shù)據(jù)集源自某實際大跨度斜拉橋一個月內(nèi)38個加速度傳感器數(shù)據(jù)[21]。如圖2所示,38個傳感器分別安裝在橋梁的不同位置,包含了X,Y和Z三個關(guān)注方向。數(shù)據(jù)采樣頻率為20 Hz,每個傳感器的每一條樣本采樣時長1 h,樣本維度為1×72 000。上述數(shù)據(jù)集已按7種不同模式進行數(shù)據(jù)樣本的標(biāo)簽化[11],由表1知,每一類模式的樣本容量具有非均衡性。
圖2 加速度傳感器現(xiàn)場布置
表1 樣本分類及大小
此外,圖3隨機選擇了各類模式中2條樣本,并繪制了加速度時域波形。其中,橫軸表示采樣時長,縱軸為加速度響應(yīng)幅值??梢悦黠@發(fā)現(xiàn),對于相同的模式,樣本的原始波形之間存在不同程度的差異。
圖3 7類模式樣本的原始數(shù)據(jù)特征
為了避免如表1所示樣本分布不均衡對監(jiān)督學(xué)習(xí)分類訓(xùn)練預(yù)測準確率的影響,以樣本數(shù)量最少的模式4為基準,其他每類模式均隨機抽樣選出527條樣本。均衡化處理后的樣本集X={s1,s2,…,sn}按照前向差分求導(dǎo)策略實現(xiàn)數(shù)據(jù)增強,得到Xτ=。其中,從圖3中可知Missing模式的數(shù)據(jù)存在局部或整體時段出現(xiàn)空值的現(xiàn)象。針對該現(xiàn)象,一階求導(dǎo)處理前利用0替換整體時段內(nèi)的空值,利用整體樣本的均值替換局部時段內(nèi)的空值。盡管前向差分在增強非空樣本集時才具有實際物理意義,但經(jīng)過該方式的統(tǒng)一處理后,38個傳感器可用于訓(xùn)練的總樣本量均實現(xiàn)了翻倍,累計樣本達到了7 378條。按照圖1所示的識別流程,分別計算si和的最大值、最小值、平均數(shù)、中位數(shù)、標(biāo)準差、極差、有效值、眾數(shù)、峰度和偏度。
為了保證特征重要性排序具有可靠性和穩(wěn)定性,通過反復(fù)試算將RF的最大決策樹參數(shù)設(shè)置為10 000,按照式(1)計算10類統(tǒng)計指標(biāo)的PIM值。圖4給出了統(tǒng)計特征重要性排序結(jié)果。
圖4 統(tǒng)計特征PIM排序
根據(jù)PIM值大小,將原始樣本和前向差分后樣本的統(tǒng)計特征從高到低進行排列,得到,。從圖4可知,對原始樣本和前向差分后的樣本,求得的統(tǒng)計特征中重要性靠前的6個統(tǒng)計特征均相同,都包含極差、方差、最小值、峰度、有效值和最大值。
采用經(jīng)過統(tǒng)計特征重要性排序后的6個統(tǒng)計特征替代表達stai和,并將其作為監(jiān)督學(xué)習(xí)訓(xùn)練的最終樣本輸入。訓(xùn)練中,首先將均衡化處理后的X和Xτ分別按照機器學(xué)習(xí)中常用的劃分比例[22-23]7∶3劃分為訓(xùn)練集和測試集。此時,訓(xùn)練集包含2 582條樣本,測試集包含1 107條樣本。其次如表2,比較多種樣本表達作為輸入時的分類學(xué)習(xí)效果,并將原始樣本的時間序列和采用切割方式增強數(shù)據(jù)后的時間序列作為比較基準。其中,每種標(biāo)記代表一類樣本輸入方式。
表2 樣本輸入特征混合方式
評價本文提出識別正常數(shù)據(jù)和6類異常數(shù)據(jù)的方法時,依次使用K鄰近法(KNN)、支持向量機(SVM)、決策樹(DT)、和RF作為有監(jiān)督學(xué)習(xí)的分類器。為使每種分類器達到最佳分類效果,利用網(wǎng)格搜索法[24]對分類器超參數(shù)進行尋優(yōu)。實驗中,監(jiān)督學(xué)習(xí)基于Python下的scikit-learns[25]開展,硬件環(huán)境基于Intel Core i7-9750H CPU,8G RAM和NVIDIA GeForce GTX 1050顯卡的配置開展。
圖5為RF、SVM、KNN和DT四種分類器對應(yīng)于表2在不同特征混合作為輸入情況下,在測試集上的平均識別準確率結(jié)果。由該圖可知,原始樣本未經(jīng)數(shù)據(jù)增強與特征提取時,識別效果僅能達到11%~15%的準確率。嘗試常規(guī)方法對原始樣本切割2~10份開展數(shù)據(jù)增強后,識別準確率有顯著的提升,可以達到77%~85%。而基于提出的數(shù)據(jù)處理策略,樣本增強的規(guī)模僅相當(dāng)于常規(guī)方法中對原始樣本切割2次,但在這種較小規(guī)模的數(shù)據(jù)增強代價下各種分類器下的識別準確率得到了進一步的提升,最佳效果可達到97.10%。其次,在不同特征混合方式下,4種監(jiān)督學(xué)習(xí)分類器的總體平均分類準確率變化趨勢基本相同。在特征組合相同的情況下,RF和DT相比SVM和KNN表現(xiàn)要更好,平均分類準確率要高出約6%。其中,y2作為輸入時,RF和DT識別正常數(shù)據(jù)和異常數(shù)據(jù)的平均準確率均達到了96.11%,但圖6中的混淆矩陣表明,這兩種分類器對于Normal的識別僅能達到88.69%和89.88%的準確率,且該模式易被混淆為Outlier和Minor。
從圖5知,y6作為特征輸入時,4種分類器的平均分類準確率均優(yōu)于其他輸入表達,且RF的識別效果最佳,達到了97.10%。為進一步揭示y6作為輸入時4種分類器對正常數(shù)據(jù)和6類異常數(shù)據(jù)的識別效果,圖7給出了4種分類器在測試集上的混淆矩陣,可以發(fā)現(xiàn)SVM和KNN分類器對于正常數(shù)據(jù)和6類異常數(shù)據(jù)的識別準確率均衡度欠佳,而RF和DT的分類識別效果更加穩(wěn)健,且RF的總體效果更好,對每一類模式的識別準確率均超過了95%。其中,對于Drift、Square和Missing類型的識別率已接近100%。此時,y6相比y2作為樣本輸入時,Normal的識別準確率已由圖6(d)中的88.69%提升到圖7(d)中的96.84%。
圖5 4種分類器在不同特征混合下的分類準確率
圖6 不同分類器在y2輸入方式下測試集混淆矩陣
圖7 不同分類器在y6輸入方式下測試集混淆矩陣
本文面向某座大跨度斜拉橋?qū)崪y振動監(jiān)測數(shù)據(jù),針對正常和6類異常監(jiān)測數(shù)據(jù)的樣本非均衡性及同標(biāo)簽樣本間的局部細節(jié)差異性,提出了基于前向差分求導(dǎo)開展樣本數(shù)據(jù)增強,基于隨機森林重要性排序選取參與表征原始樣本統(tǒng)計特征,以及混合不同數(shù)量統(tǒng)計特征進行異常數(shù)據(jù)識別的方法。采用不同機器學(xué)習(xí)分類器的監(jiān)督學(xué)習(xí)效果顯示,提出的方法可以高準確率地識別正常數(shù)據(jù)和6類異常數(shù)據(jù),且混合部分重要性排序后統(tǒng)計特征來表征原始樣本訓(xùn)練輸入的方式即可達到理想的識別效果。此外,針對具有樣本不平衡特點的工程數(shù)據(jù)開展監(jiān)督學(xué)習(xí)訓(xùn)練時,提出的方法可為增強一維時序特征數(shù)據(jù)樣本量,減少同類樣本間差異性對監(jiān)督學(xué)習(xí)訓(xùn)練的影響等提供借鑒思路。