劉會(huì)平,李大字
(1. 中國(guó)寰球工程有限責(zé)任公司 東南亞地區(qū)管理公司,新加坡 416202;2. 北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)
近年來(lái),伴隨著信息技術(shù)的進(jìn)步與發(fā)展,化工、電力、冶金等傳統(tǒng)工業(yè)都向著大型化、集中化的方向發(fā)展,現(xiàn)代工業(yè)體系中大型設(shè)備的智能化水平有了顯著提高,工作效率得到了大幅提升。然而,先進(jìn)的智能化設(shè)備必然需要更為復(fù)雜的系統(tǒng)結(jié)構(gòu),所需控制的節(jié)點(diǎn)數(shù)目也就必然會(huì)增多,如果此時(shí)生產(chǎn)設(shè)備發(fā)生故障,按傳統(tǒng)的故障診斷方法是很難實(shí)現(xiàn)快速、準(zhǔn)確的故障診斷?,F(xiàn)代工業(yè)生產(chǎn)中會(huì)產(chǎn)生大量的運(yùn)行數(shù)據(jù),基于數(shù)據(jù)的故障診斷方法被廣泛使用[1-3]。
現(xiàn)代石油化工生產(chǎn)過(guò)程往往呈現(xiàn)一種非線性,系統(tǒng)結(jié)構(gòu)較為復(fù)雜,產(chǎn)生的數(shù)據(jù)量非常大,而且系統(tǒng)內(nèi)部產(chǎn)生的故障往往與多個(gè)可測(cè)變量存在復(fù)雜的關(guān)聯(lián),大幅增加了利用數(shù)據(jù)做故障診斷的工作量。主元分析法(PCA)作為一種非常有效的降維技術(shù)[2],對(duì)于處理線性數(shù)據(jù)降低維度的操作具有優(yōu)良的特性,但無(wú)法處理非線性數(shù)據(jù),此時(shí)對(duì)其加入核函數(shù)形成核主元分析法(KPCA),可以實(shí)現(xiàn)非線性數(shù)據(jù)的降維[4-6]。處理復(fù)雜多模態(tài),進(jìn)行關(guān)聯(lián)、預(yù)測(cè)和記憶等能力[3]是當(dāng)前神經(jīng)網(wǎng)絡(luò)普遍擁有的特點(diǎn)。1997年專家提出的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)于時(shí)間序列數(shù)據(jù)具有很好的學(xué)習(xí)效果,同時(shí)解決了梯度消失的問(wèn)題[7-9]。因此,本文提出了一種KPCA與LSTM相結(jié)合的故障診斷方法,通過(guò)田納西-伊斯曼(Tennessee Eastman, TE過(guò)程)化工仿真平臺(tái)檢驗(yàn)過(guò)程故障診斷,結(jié)果表明: 該方法不僅可以有效減少運(yùn)算量,還能提高故障診斷的準(zhǔn)確率。
TE過(guò)程化工仿真平臺(tái)由美國(guó)著名化學(xué)公司Eastman開發(fā),該平臺(tái)模擬實(shí)際流程工業(yè)的生產(chǎn)過(guò)程,工作過(guò)程中各節(jié)點(diǎn)與節(jié)點(diǎn)之間存在強(qiáng)耦合關(guān)聯(lián),引入故障后,按連續(xù)時(shí)間采集工作數(shù)據(jù),收集到的數(shù)據(jù)具有時(shí)變性和非線性。
在仿真平臺(tái)中,經(jīng)過(guò)了22次的仿真運(yùn)行,其中包括1次正常仿真運(yùn)行和21次故障仿真運(yùn)行。生產(chǎn)過(guò)程中有52個(gè)變量被觀測(cè),每一次的仿真運(yùn)行工作為48 h,采集數(shù)據(jù)時(shí)共采集960個(gè)時(shí)刻,在21次帶故障運(yùn)行的過(guò)程中,每一次故障都是在第161個(gè)觀測(cè)時(shí)刻發(fā)生。
為解決流程工業(yè)中的故障診斷問(wèn)題,考慮到實(shí)際生產(chǎn)過(guò)程中數(shù)據(jù)的非線性和時(shí)變性等相關(guān)因素,提出搭建KPCA-LSTM故障診斷模型。該種模型既可以去除不相關(guān)數(shù)據(jù),減少運(yùn)算量,提升運(yùn)行速度,又能精準(zhǔn)地診斷故障,實(shí)現(xiàn)故障數(shù)據(jù)的降低維度處理、故障檢測(cè)、故障預(yù)測(cè)與分類等功能[10-11],最后選擇TE過(guò)程故障數(shù)據(jù)集來(lái)驗(yàn)證該模型的性能?;贙PCA-LSTM故障診斷的流程框架如圖1所示。
圖1 基于KPCA-LSTM故障診斷的流程框架示意
KPCA模型建立在PCA算法之上,為了提高對(duì)非線性數(shù)據(jù)的處理能力而提出來(lái)的。該方法挖掘非線性信息的能力很強(qiáng),便于對(duì)非線性數(shù)據(jù)進(jìn)行降維處理[4-5]。
假設(shè)有一個(gè)低維的、非線性的數(shù)據(jù)集可以寫成式(1)所示的矩陣形式,該矩陣有m×n個(gè)元素,表明數(shù)據(jù)集共有n個(gè)樣本,每個(gè)樣本數(shù)據(jù)有m個(gè)屬性。
(1)
由于該樣本數(shù)據(jù)是非線性的,因此用一個(gè)函數(shù)φ把該樣本數(shù)據(jù)映射到高維空間,在高維空間得到的數(shù)據(jù)矩陣φ(X)就是線性可分的了,結(jié)果如式(2)所示:
φ(X)=[φ(x1)…φ(xn)]
(2)
接下來(lái)計(jì)算協(xié)方差矩陣如式(3)所示:
φ(X)φ(X)Twi=λiwi
(3)
式中:λi——協(xié)方差矩陣的特征值。
根據(jù)向量的相關(guān)知識(shí),空間中的向量wi可由這個(gè)空間中的所有φ(x)線性表達(dá)出來(lái),如式(4)所示:
(4)
將式(4)中的wi代入到式(3)中,同時(shí)消除wi,得到結(jié)果如式(5)所示:
φ(X)φ(X)Tφ(X)α=λiφ(X)α
(5)
式中:α——φ(X)Tφ(X)的特征向量。
由于φ(X)是隱函數(shù)無(wú)法得知其具體表達(dá)式,因此引入核函數(shù)K來(lái)解決該問(wèn)題,如式(6)所示:
K=φ(X)Tφ(X)
(6)
從而式(5)可以化簡(jiǎn)得到式(7):
Kα=λiα
(7)
因此可以求得核矩陣的特征值,計(jì)算出每一個(gè)特征值所對(duì)應(yīng)的主元貢獻(xiàn)率,然后對(duì)主元貢獻(xiàn)率進(jìn)行降序排列,求取累計(jì)主元貢獻(xiàn)率,當(dāng)累計(jì)主元貢獻(xiàn)率超過(guò)90%時(shí)確定主成分,實(shí)現(xiàn)數(shù)據(jù)降維。
KPCA故障檢測(cè)與PCA方法類似,都是利用T2和SPE統(tǒng)計(jì)量進(jìn)行檢測(cè)[6],計(jì)算公式如式(8)~(9)所示:
(8)
(9)
式中:P——經(jīng)KPCA降維后的矩陣,其控制限分別如式(10)和(11)所示:
(10)
式中:Tα——T2控制限;Qα——SPE控制限;1-α——置信度;Fα, k, n-k——服從第一自由度為k,第二自由度為n-k的F分布;cα——標(biāo)準(zhǔn)正態(tài)分布的置信極限,當(dāng)數(shù)據(jù)的統(tǒng)計(jì)量超過(guò)其控制限時(shí),認(rèn)為該數(shù)據(jù)為故障數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)常被用于處理時(shí)間序列的問(wèn)題,但當(dāng)碰到有較長(zhǎng)時(shí)間序列的問(wèn)題時(shí),該方法的效果通常不太理想。因此,對(duì)RNN改進(jìn)得到LSTM,其內(nèi)部結(jié)構(gòu)使得它更適合對(duì)長(zhǎng)時(shí)間序列進(jìn)行分類[7],具體結(jié)構(gòu)如圖2所示。
圖2 LSTM的內(nèi)部結(jié)構(gòu)示意
LSTM的結(jié)構(gòu)主要分為以下三個(gè)部分[8-9]:
1)遺忘門。決定是否丟棄上一個(gè)細(xì)胞中的信息,計(jì)算公式如式(12)所示:
ft=σ(Wf×[ht-1,Xt]+bf)
(12)
2)輸入門。選擇留在細(xì)胞中的信息,更新細(xì)胞狀態(tài),計(jì)算公式如式(13)所示:
(13)
3)輸出門??刂屏飨蚱渌Y(jié)構(gòu)單元的信息流,計(jì)算公式如式(14)所示:
(14)
基于LSTM的故障診斷的模型如圖3所示。
圖3 基于LSTM的故障診斷模型示意
在TE過(guò)程仿真平臺(tái)工作過(guò)程中,從仿真的第160個(gè)觀測(cè)值開始引入故障。
將TE過(guò)程仿真平臺(tái)產(chǎn)生的21類故障數(shù)據(jù)和1類正常無(wú)故障運(yùn)行數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,每1類數(shù)據(jù)的大小分別為960×52和480×52。KPCA中的核函數(shù)選擇最為常用的高斯核函數(shù),σ取值設(shè)置為1×104。
圖4為第1類故障中52個(gè)觀測(cè)變量所對(duì)應(yīng)的主元貢獻(xiàn)率,貢獻(xiàn)率的大小決定了該觀測(cè)變量對(duì)故障的影響程度,將貢獻(xiàn)率降序排列并進(jìn)行累加,得到如圖5所示的累計(jì)主元貢獻(xiàn)率曲線,從圖5中可以看出,當(dāng)主成分個(gè)數(shù)為12個(gè)時(shí),累計(jì)主元貢獻(xiàn)率可達(dá)到90.47%。
圖4 每個(gè)觀測(cè)變量的主元貢獻(xiàn)率示意
圖5 主成分個(gè)數(shù)與累計(jì)主元貢獻(xiàn)率曲線示意
分別計(jì)算降低維度后的數(shù)據(jù)的T2值和SPE值,按T2和SPE控制限的計(jì)算公式分別計(jì)算閾值,檢測(cè)結(jié)果分別如圖6和圖7所示。從圖6,7中可以看出,T2和SPE統(tǒng)計(jì)量分別在167和169時(shí)高于所計(jì)算的閾值,可判斷為故障,準(zhǔn)確率分別為98.44%和98.23%,從而驗(yàn)證了KPCA模型的準(zhǔn)確性。
圖6 基于T2統(tǒng)計(jì)量的故障檢測(cè)曲線示意
圖7 基于SPE統(tǒng)計(jì)量的故障檢測(cè)曲線示意
經(jīng)過(guò)KPCA模型降低維度后的樣本數(shù)據(jù)大小從52×960變成了12×960,將降維后的數(shù)據(jù)輸入LSTM模型進(jìn)行診斷。降維數(shù)據(jù)與原始數(shù)據(jù)的訓(xùn)練用時(shí)比較見表1所列。
表1 降維數(shù)據(jù)與原始數(shù)據(jù)的訓(xùn)練用時(shí)比較
由表1可以看出,使用降低維度后的數(shù)據(jù)大幅提高了模型的訓(xùn)練速度。表2為3類故障數(shù)據(jù)和5類故障數(shù)據(jù)進(jìn)行故障診斷時(shí)的準(zhǔn)確率比較。3類故障分別為1,6和18號(hào)故障,5類故障分別為1,2, 6,13和18號(hào)故障數(shù)據(jù)。
表2 3類和5類故障診斷準(zhǔn)確率比較
由表2可知,LSTM可以較為準(zhǔn)確地診斷出故障類型,但是隨著故障種類的增多,診斷準(zhǔn)確性有所下降。
本文采用KPCA和LSTM相結(jié)合的方法對(duì)TE過(guò)程故障進(jìn)行診斷,實(shí)驗(yàn)結(jié)果表明該方法可以有效地檢測(cè)到故障的發(fā)生并且準(zhǔn)確判斷出故障的類型,同時(shí)經(jīng)過(guò)KPCA降維使得LSTM的訓(xùn)練時(shí)間大幅縮減,提高了診斷的速度。