陳 飛,王 斌,劉 婷,張文靜,高園晨,陳帝伊
(西北農(nóng)林科技大學 水利與工程建筑學院,陜西 楊凌 712100)
水電機組作為水電站的核心部件,維護機組安全穩(wěn)定對電站高效運行有著很大的現(xiàn)實價值。振動信號作為水電機組運行狀態(tài)的外在表現(xiàn)形式,常被用作評價水電機組健康狀態(tài)的重要指標。振動是引發(fā)機組故障的主要原因,據(jù)統(tǒng)計,由于振動導致的故障占到機組總故障的80%[1]。因此,利用振動信號進行水電機組故障識別是常用的診斷方法。
機組常常在高噪聲環(huán)境下工作,故障信號容易受到噪聲干擾,為機組故障識別增加了難度。因此,如何在噪聲環(huán)境下提取有效故障信息,成為了機組故障診斷的關(guān)鍵。文獻中常利用奇異值分解(Singular value decomposition,SVD)[2]、變分模態(tài)分解(Variational mode decomposition,VMD)[3]以及自適應局部迭代濾波(Adaptive local iterative filtering,ALIF)[4]等方法對信號進行降噪,從而實現(xiàn)故障特征有效提取。但是,以上方法降噪過程中不可避免會導致一部分有效故障信息丟失。因此,直接提取信號故障信息需要一種抗噪性能良好的特征提取工具。熵作為度量時序信號復雜性的重要工具,在水電機組特征提取領(lǐng)域有著廣泛的運用[5-8]。文獻[6]將樣本熵和時頻域指標相結(jié)合形成多維特征,有效區(qū)分出機組不同故障類別。然而,樣本熵在處理長時間序列時,需要消耗較長時間[9]。相比于樣本熵,排列熵計算更為簡單和快速[10]。何洋洋等[11]提出一種基于隨機共振和多維度排列熵的水電機組故障診斷模型,有效提取機組故障信息。但是,排列熵忽略了信號振幅之間的差異,從而導致有效信息的丟失[12]。為了克服以上熵的不足,Yang 等[13]提出了一種新的度量信號復雜性工具——注意熵。不同于傳統(tǒng)熵關(guān)注時間序列中所有數(shù)據(jù)的頻率分布,注意熵只注重于序列峰值點間隔的頻率分布情況。因此,注意熵具有超參數(shù)少、運行時間短、對時間序列長度魯棒性強等優(yōu)點。針對注意熵無法在多個尺度綜合衡量時序信號復雜性,本文將注意熵和多尺度熵相結(jié)合,提出了多尺度注意熵(Multiscale attention entropy,MATE)。同時,針對傳統(tǒng)多尺度熵粗?;蛔愕膯栴},受文獻[14]中時移方法思想啟發(fā),提出了一種度量信號復雜度的工具——時移多尺度注意熵(Time-shifted multiscale attention entropy,TSMATE)。通過仿真實驗驗證,TSMATE 具有良好的抗噪性能,可以有效提取水電機組故障信息。
水電機組故障診斷的實質(zhì)是模式識別。將特征信息輸入到分類器中,利用分類器區(qū)分不同故障信號。近些年,隨著人工智能的不斷發(fā)展,機器學習、深度學習等一系列模型被應用于水電機組模型建立[15]、振動趨勢預測[16]以及機組狀態(tài)監(jiān)測[17]等領(lǐng)域。文獻[18-20]利用卷積神經(jīng)網(wǎng)絡、概率神經(jīng)網(wǎng)絡以及支持向量機等算法充當分類器,實現(xiàn)了機組不同故障狀態(tài)的準確識別。但是,存在超參數(shù)難以調(diào)節(jié)、計算復雜度高等問題,阻礙了這些算法在機組故障診斷方面的進一步運用。隨機森林(Random forests,RF)作為集成學習的一種,不僅有精度和效率高的特點,還具備參數(shù)可解釋性強、變量敏感度分析等優(yōu)勢。在軸承故障診斷[21]、地理遙感[22]、作物生長[23]以及風速預測[24]等方面都有著廣泛的應用。本文引入RF 算法作為分類器,完成對機組不同故障信號識別。仿真實驗表明,RF可以高效識別不同狀態(tài)信號。
針對傳統(tǒng)方法難以準確識別高噪聲下不同狀態(tài)的故障信號,本文提出了一種基于TSMATE 和RF 相結(jié)合的水電機組故障診斷模型。首先,受時移思想啟發(fā),提出了一種衡量時間復雜度的工具——TSMATE。通過分析不同信噪比噪聲下機組振動信號的特征分布情況,驗證了TSMATE 具有良好的抗噪性能。然后,針對特征冗雜問題,本文引入主成分分析(Principal component analysis,PCA)進行降維處理,提高了模型運行效率。最后,將降維后的低維特征輸入到RF中,實現(xiàn)了水電機組故障的精確診斷。
2.1 注意熵 Yang 等[13]通過關(guān)注時間序列中關(guān)鍵點變化情況,提出了一種新的度量時序復雜度工具——注意熵。對比傳統(tǒng)熵,注意熵具有對時序長度魯棒性強、無需設置超參數(shù)等優(yōu)點,如圖1 所示,計算時序注意熵可概括為以下幾步:
圖1 注意熵示意圖
(1)如果時間序列中的每一個點都被認為是一個系統(tǒng),其狀態(tài)的變化就可以看作是系統(tǒng)對環(huán)境的調(diào)整。峰值點可以有效表征局部狀態(tài)的上下界變化情況,因此將局部峰值點定義為關(guān)鍵點。
(2)按照{(diào)min-min}、{min-max}、{max-min}以及{max-max}4 種不同策略設定為關(guān)鍵點,并計算相鄰關(guān)鍵點的間隔點數(shù)。
(3)計算相鄰關(guān)鍵點間隔香農(nóng)熵,具體公式見式(1):
式中:p( x )為x 發(fā)生的概率;b 為間隔點種類個數(shù)。
(4)將4 種不同策略計算得到的香農(nóng)熵均值定義為注意熵。
2.2 時移多尺度注意熵(TSMATE) 注意熵僅在單一尺度衡量時序復雜度,難以全面反映出信號的有效信息。針對這個問題,Costa 等[25]提出多尺度熵概念,通過對時序信號進行分割,實現(xiàn)了多尺度度量信號復雜度的目的。本文將多尺度熵和注意熵相結(jié)合,并基于分形理論,提出了TSMATE,克服了傳統(tǒng)多尺度熵粗?;潭炔蛔阋约皡?shù)難以調(diào)節(jié)等問題。TSMATE 具體計算過程如下:
(1)通過式(2)將長度為N 的時序信號分割成k 個子序列。
式中:x 為原始信號的樣本點;k 為分割子序列的個數(shù);Ykβ為第β個子序列。
(2)計算所有尺度時序信號的注意熵,并將這些注意熵的均值定義為該尺度k 下的
式中ATE( Ykβ)為Ykβ的注意熵。
(3)利用式(3)計算所有k 的TSMA(k),將這些值的集合作為TSMATE。
2.3 主成分分析(PCA) 本文將振動信號的TSMATE 作為特征向量。同時,利用PCA 降維技術(shù)克服TSMATE 特征冗雜問題。通過將高度相關(guān)特征變量轉(zhuǎn)化為相互獨立的低維變量,降低數(shù)據(jù)的復雜度,提高模型的訓練效率。PCA 的步驟如下:
(1)將輸入數(shù)據(jù)樣本轉(zhuǎn)化成標準化矩陣。
式 中:rij為變量xi和變量xj的相關(guān)系數(shù);n 為樣本數(shù);m 為特征數(shù);為 第i 個變量的均值;為 第j 個變量的均值;xsi為第s 個樣本中i 變量的值;xsj為第s 個樣本中j 變量的值。
(3)計算相關(guān)系數(shù)矩陣G 的特征方程,得到矩陣的特征值λ和對應特征向量。
(4)通過式(5)和式(6)計算貢獻率κi和累計貢獻率ηi
(5)根據(jù)步驟4,選取PCA 的特征值和特征向量,最終得到降維后的數(shù)據(jù)。
2.4 隨機森林(RF) 將降維特征輸入到分類器中,利用分類器有效區(qū)分不同故障信號。RF 是一種基于Bootstrap 取樣與Bagging 投票的方法。同時,作為集成學習的一種算法,是一個包含多個決策樹的多分類器,并且其輸出的類別是由決策樹輸出的類別的眾數(shù)而定。
Bootstrap 取樣方法是一種有放回的抽樣方法,故可以得到容量與被抽樣樣本相同的樣本。假設樣本容量為無窮大時,約有36.8%的袋外樣本不可以被抽中,這部分數(shù)據(jù)通常用來檢測模型的泛化能力。Bagging 算法是一種集成學習算法,它通過Bootstrap 取樣方法進行多次取樣,形成多個樣本采樣集,每一個采樣集都可訓練成一個弱學習器,各個弱學習器相互獨立,分別對數(shù)據(jù)進行處理并投票,票數(shù)最多的便是算法的結(jié)果。RF 是一種改進的Bagging 算法,它采用CART 決策樹作為弱學習器,故各個決策樹相互獨立,只能保留原始樣本的部分數(shù)據(jù)特征。
RF 的構(gòu)建由以下三個部分組成:
(1)RF 每一輪訓練樣本數(shù)據(jù)時,采用有放回的抽樣方法從樣本數(shù)據(jù)中抽取P 個樣本,并據(jù)此構(gòu)建P 個決策樹。
(2)隨機選擇決策樹的訓練數(shù)據(jù),假設樣本有M 個特征屬性,從M 個特征屬性中隨機選擇l 個特征屬性,作為決策樹的訓練屬性。
(3)生成的P 個決策樹組成一個RF,由每個決策樹共同決定分類結(jié)果。
水電機組故障診斷總體流程如圖2 所示,將振動信號的TSMATE 作為特征向量。針對特征冗雜問題,本文利用PCA對特征向量進行降維處理。最終將降維數(shù)據(jù)輸入到RF模型中,利用RF進行故障識別。
圖2 水電機組故障診斷流程圖
3.1 TSMATE 穩(wěn)定性分析 為驗證TSMATE 的合理性,本文分析了Blue noise、Violet noise、Pink noise 以及Red noise4 種不同的1/f 噪聲(見圖3)下TSMATE 隨信號長度變化情況。
圖3 1/f 噪音信號
如圖4 所示,對比TSMATE 和MATE 在4 種不同噪聲上的分布情況,發(fā)現(xiàn)隨著時序信號長度的減小,MATE 波動逐漸增大,尤其在一些尺度上MATE 值發(fā)生了突變。以時序長度N=1000 的噪聲信號為例,不同噪聲的MATE 分布在尺度因子大于16 時,MATE 值變化劇烈。同時,不同長度噪聲信號MATE 的分布差異過大,4 種噪聲的MATE 波動最大幅值分別達到了0.485、0.443、0.491 以及0.604,說明傳統(tǒng)的粗?;椒ú荒苡行Х指疃绦蛄行盘?。
圖4 TSMATE 和MATE 分 布情況
對比MATE,論文所提的TSMATE 在4 種噪聲的波動最大幅值為0.137、0.158、0.187 以及0.386,說明TSMATE 在不同的時序長度上分布基本一致。并且,隨著尺度因子的增大,TSMATE 值逐漸趨于平穩(wěn),表明TSMATE 對時間長度具有良好的魯棒性。
3.2 數(shù)據(jù)收集 文獻[26]利用轉(zhuǎn)子故障試驗臺,模擬水電機組正常、碰摩、不平衡以及不對中4 種不同類別的振動信號。其中,振動信號的采集頻率為2048 Hz,共采集到360 個振動信號。如圖5 所示,通過對振動信號加入0 dB、1 dB、2 dB 以及3 dB 4 種不同信噪比的噪聲,探究不同噪聲下TSMATE 的特征提取性能。
圖5 不同噪聲的振動信號
3.3 TSMATE 特征提取 為探究TSMATE 在不同噪聲下的特征提取能力,引入多尺度熵(Multiscale entropy,MSE)以及時移多尺度熵(Time-shifted multiscale entropy,TSMSE)進行對比實驗。圖6 清晰表明采用時移思想得到的多尺度熵相較于傳統(tǒng)多尺度熵更為穩(wěn)定,說明了時移思想可以有效克服傳統(tǒng)多尺度熵粗?;蛔愕膯栴}。圖7 分析了機組信號在無噪聲下不同熵的分布情況,同時利用T-分布鄰域嵌入(T-distributed stochastic neighbor embedding,T-SNE)將不同機組狀態(tài)信號的特征三維可視化。從圖中可以看出,TSMATE 有效地將各類故障信號區(qū)分,其它3 種熵都有著不同程度的混疊。其中,采用MATE 和MSE 提取的特征中正常信號、碰摩信號以及不對中信號有少量混疊,而采用TSMSE 提取的特征中碰摩信號和不對中信號也有著少量混疊。以上現(xiàn)象說明,TSMATE 在無噪聲下具有良好的特征提取性能。為進一步分析TSMATE在噪聲下的特征提取情況,這里對振動信號加入0 dB、1 dB、2 dB 以及3 dB 4 種不同強度的噪聲。
圖6 機組信號不同熵分布情況(無噪聲)
圖7 機組信號不同熵特征可視化(無噪聲)
限于篇幅,本文只分析了0 dB 強噪聲下機組振動信號的不同多尺度熵分布情況。如圖8 所示,相較于MATE 等多尺度熵,TSMATE 表現(xiàn)出良好的穩(wěn)定性,在各種狀態(tài)振動信號中TSMATE 熵值基本保持一個穩(wěn)定狀態(tài),說明了TSMATE 是一種穩(wěn)定的特征提取工具。
圖8 機組信號不同熵分布情況(SNR=0 dB)
圖9 分析在0 dB 噪聲干擾下,不同多尺度熵的T-SNE 可視化結(jié)果,發(fā)現(xiàn)MATE 中正常信號和碰摩信號發(fā)生了混疊,不平衡信號和不對中信號也有少量的混雜現(xiàn)象發(fā)生。MSE 中碰摩信號和不對中信號完全混雜在一起,正常信號和碰摩信號也有零星混疊。同樣,TSMSE 碰摩、不對中、不平衡以及正常信號也存在混雜現(xiàn)象。對比以上3 種多尺度熵,TSMATE 僅有個別碰摩信號與正常信號存在混雜。
圖9 機組信號不同熵特征可視化(SNR=0 dB)
圖10展示了不同噪聲下TSMATE特征提取情況,發(fā)現(xiàn)隨著噪聲的增加,不同狀態(tài)信號特征混疊現(xiàn)象不斷加重。分析不同噪聲下特征的三維可視化圖,可以清晰地看出不對中信號和不平衡信號被有效區(qū)分,而正常信號和碰摩信號特征則發(fā)生了混雜,說明噪聲在一定程度上降低了TSMATE 的特征提取效果。總體上看,TSMATE對噪聲具有良好的適應性,在高噪聲下TSMATE也可以提取較好的特征數(shù)據(jù)。
圖10 不同噪聲下TSMATE 特征三維可視化
另外,為探究所提方法的運行效率,比較了TSMATE、MATE、TSMSE 以及MSE 特征提取時間。從表1 中可以看出,TSMATE 和MATE 相對于未改進的多尺度熵只需要耗費更短的時間。MATE 提取機組振動信號特征僅需要10 s,本文所提的TSMATE 也只需要45 s 左右,遠遠低于TSMSE 和MSE。通過上述內(nèi)容分析,說明了論文所提算法是一種高效穩(wěn)定的特征提取工具。
表1 不同熵提取特征時間 (單位:s)
3.4 RF 故障識別 針對特征向量冗雜問題,采用PCA 對4 種不同的熵進行降維處理。將降維后的低維特征輸入到RF 模型中,實現(xiàn)對機組不同故障信號的有效識別。其中,RF 決策樹數(shù)目設置為100,每個決策數(shù)的特征屬性個數(shù)定為5。
為驗證模型的泛化性能,可以通過十折交叉法劃分訓練集和測試集進行測試。如表2 所示,通過對比不同模型的診斷效果,發(fā)現(xiàn)PCA-TSMATE-RF 模型在所有數(shù)據(jù)集中都取得了98%以上的診斷精度,在所有模型中排名第一。從表2 可以看出在SNR=0 dB 時,MSE 和TSMSE 等傳統(tǒng)多尺度熵最高診斷率為92.78%,而所提方法的診斷率為98.06%,比傳統(tǒng)多尺度熵高5.28%。同時,為分析不同診斷模型在強噪聲(SNR=0 dB)下具體診斷情況,本文選取了MATE-RF、TSMATE-RF、PCA-MATE-RF以及PCA-TSMATE-RF 4 種診斷模型進行對比,具體情況見圖11,從圖中看出,PCA-TESMATE-RF模型在識別正常信號和碰摩信號時發(fā)生了一定偏差,這與上節(jié)的特征可視化結(jié)果相吻合,也說明了噪聲會在一定程度上干擾診斷。通過以上分析,驗證了本文所提方法的高效性和精準性。
表2 不同模型的診斷精度
圖11 不同模型診斷率(SNR=0 dB)
針對高噪聲對水電機組故障診斷的干擾,提出了一種基于TSMATE 和RF 相結(jié)合的水電機組故障診斷方法。通過分析仿真實驗,得到以下結(jié)論:
(1)針對MATE 粗?;蛔?,將時移思想引入MATE 中,提出TSMATE。對比不同長度的Blue noise、Violet noise、Pink noise 以及Red noise 下TSMATE 和MATE 分布情況,發(fā)現(xiàn)TSMATE 基本不受時間長度的影響,驗證了TSMATE 對短時序信號具有良好的魯棒性。
(2)對比不同多尺度熵的特征分布情況,發(fā)現(xiàn)TSMATE 提取的特征最為穩(wěn)定。同時,通過T-SNE三維可視化分析不同多尺度熵特征提取情況,發(fā)現(xiàn)不同噪聲干擾下,TSMATE 只有少量的碰摩信號和正常信號發(fā)生了混疊。仿真結(jié)果表明,TSMATE 具有良好的抗噪性能。
(3)為驗證模型的泛化性能,采用十折交叉法劃分訓練集和測試集進行測試。TSMATE-PCA-RF等8 個模型在不同信噪比振動信號的診斷精度對比表明,所提模型在不同強度噪聲下都可以取得最好的診斷效果。例如,在強噪聲(SNR=0 dB)的干擾下,所提方法比傳統(tǒng)多尺度熵高5.28%,同時,采用TSMATE 模型均取得了96%的診斷率。
實驗結(jié)果表明,本文所提的水電機組診斷方法可以精準識別高噪聲環(huán)境下不同故障信號,為水電機組故障診斷提供了新手段。