李 元,姚宗禹
(沈陽化工大學 信息工程學院,沈陽 110142)
在現代工業(yè)中,為了在提高過程系統(tǒng)運行安全性和可靠性的同時,保證化學工程工藝系統(tǒng)中的產品質量,必須對過程進行實時監(jiān)控.數據驅動的過程監(jiān)測和控制技術已廣泛應用于各種工業(yè)過程[1-3],包括化學品、藥品和半導體制造等[4-8].
傳統(tǒng)主成分分析(PCA)是目前常用的多元統(tǒng)計方法,基于PCA的過程監(jiān)測方法已成功地應用于大量工業(yè)過程中.然而,基于PCA的方法均假設過程是線性的,這限制了其在非線性工業(yè)過程中的應用.現代工業(yè)非線性過程大量存在,為了監(jiān)測非線性過程,多種非線性過程檢測方法相繼被提出.
文獻[9]通過在PCA中引入核技術提出了核主元分析(KPCA).而文獻[10-11]提出基于KPCA的連續(xù)過程監(jiān)測的非線性過程監(jiān)測技術,KPCA將非線性低維數據映射到高維空間,使其在高維空間中存在線性關系.相對于PCA方法而言,KPCA方法在故障檢測過程中可以提取系統(tǒng)中的非線性特征信息而不至于丟失重要信息,具有更好的非線性故障檢測能力.但是,KPCA沒有明確地考慮數據的非線性幾何結構可能駐留在流形上的可能性[12],若參數設置不當,核方法的故障檢測性能就無法得到保證.此外,計算核函數耗時較長,影響對實時檢測的需求.
文獻[13-14]提出一種基于自聯想的5層神經網絡的非線性主成分分析 (NLPCA),使用自關聯神經網絡將數據映射到特征空間.文獻[15]提出一種基于主曲線和神經網絡相結合的非線性主成分分析法,并應用于非線性過程監(jiān)測.然而,大部分存在的非線性方法都是基于神經網絡的,需要離線和在線訓練,而且為了計算主元,需要解決非線性優(yōu)化問題,主元的數量必須在神經網絡訓練之前確定,給實際應用帶來不便.
文獻[16]提出一種基于等距離映射(ISOMAP)的故障檢測方法.該方法用等距離映射進行非線性降維,采用自適應準則選取鄰域參數,能夠有效地挖掘過程的非線性特征.但是當流形曲率較大時,流形上的測地距離估計會產生較大的誤差,導致嵌入結果產生變形.文獻[17-18]提出主多項式分析(PPA),通過最小化相應正交子空間中的回歸誤差(或方差)來變形直線主成分,并將其應用于遙感數據處理.文獻[19-20]將PPA法引入到工業(yè)過程的故障檢測和診斷技術上,使用一組靈活的主多項式分量來描述數據,與基于PCA的方法相比,PPA法更能有效地捕捉過程數據中固有的非線性幾何結構.雖然,PPA法的提取曲線主成分可以包含大部分的數據變化,但是其只捕獲過程數據的全局結構,不能有效地保留數據詳細的局部結構信息.
針對工業(yè)過程數據的非線性特征,提出一種基于鄰域保持嵌入(NPE)-主多項式分析的過程故障檢測算法.使用NPE算法提取高維數據的低維子流形,并進行維數約減,同時保持鄰域結構不變.將特征空間的數據應用主多項式分析建立故障檢測模型,計算其檢測統(tǒng)計量及控制限來進行故障檢測.本研究以Tennessee Eastman(TE)化工過程為背景進行仿真實驗,為基于數據驅動的故障檢測領域提供了實踐基礎.
鄰域保持嵌入算法的目的是在保持數據集局部流形結構不變的同時,將給定原始數據X=[x1x2…xn],xi∈RD從D維空間RD映射到一個相對低維的特征空間Y=[y1y2…yn],{yi|yi∈Rd}(d (1)通過樣本間的歐式距離確定每個樣本的前k個近鄰并構造鄰域連接圖. (2)計算鄰接圖中每一條邊上的權重值構成權重矩陣F,確定每個樣本點與其鄰域點之間的重構權向量,并在低維空間中保持每個鄰域的權值不變,使誤差函數達到最小,可由下式計算: (1) (2) (3)計算特征映射矩陣.根據高維空間中的樣本點與其近鄰點之間的權值矩陣F,嵌入低維空間的投影矩陣A可以通過求解損失函數的最小化問題可以得到: (3) 通過拉格朗日函數法可將最優(yōu)化求解問題轉化為廣義特征矩陣中的特征值問題,如下式所示: XTMXai=λXTXai (4) 式中:M=(I-W)T(I-W),I為同維度單位矩陣.求解式(4)中最小的d個特征值所對應的特征向量組成映射矩陣A=[a1a2…ad]∈Rn×d. PPA是一種計算主多項式成分的順序算法.在每一步的計算中,計算出最佳投影數據的向量,通過使用一組主多項式成分從過程數據中學習數據的低維表示,將PCA中的直線主成分更換為曲線的主多項式成分,可以更好地捕捉過程變量的非線性特征[19].給定數據矩陣G為m個變量,n個訓練樣本,PPA對原始數據進行如下分解: (5) (6) (7) Vp=[νp,1νp,2…νp,n] (8) (9) 式中:V?為V的偽逆. (10) (11) (12) 式中:ΛPPA∈Rρ×ρ為對角元素為主多項式分量的方差對角矩陣.PPA的平方預測誤差(SPE)統(tǒng)計量定義如下: (13) (14) T2統(tǒng)計量的控制限可以計算如下: (15) 式中:Fα(ρ,n-ρ)為在顯著性水平θ上具有自由程度ρ和n-ρ的F分布. SPE統(tǒng)計量的控制限可以計算如下: (16) 故障檢測的兩個階段可以分為離線建模和在線監(jiān)測. (1)離線建模.離線建模的步驟如下: 步驟1采集正常工況下的過程數據,將數據進行標準化. 步驟2利用下式計算權重矩陣F,利用得到的權重矩陣根據式(4)計算映射矩陣A. (17) j=1,2,…,k 步驟3在數據矩陣上構造PPA模型,得到對應的主多項式分量與殘差分量,并在主多項式分量空間和殘差空間分別計算T2統(tǒng)計量與SPE統(tǒng)計量. 步驟4計算其對應的監(jiān)測統(tǒng)計量的控制限ξT2和ξSPE;保存訓練模型中所獲得的4個參數ep,Ep,Wp和Vp. (2)在線檢測.在線檢測的步驟如下: 步驟1獲得一個新的樣本xnew,然后使用建模數據的均值和方差對其進行標準化. 步驟2利用投影矩陣A將xnew投影到低維子空間中,得到樣本點ynew. 步驟3利用訓練模型中所學習的模型參數將樣本點ynew映射到主多項式空間和殘差空間,并在對應空間求得T2與SPE統(tǒng)計量. 步驟4將上一步求得的統(tǒng)計量與離線建模步驟中的控制限進行對比,若T2與SPE中任一統(tǒng)計量超過其對應的控制限,則認為該樣本為故障樣本. 通過將基于NPE-PPA的故障檢測方法應用于一個非線性數值實例和TE過程,說明該方法的效率和優(yōu)點,并將應用結果與標準的基于KPCA和PPA的監(jiān)測方法進行比較. 給出了一個非線性仿真實例,說明了該方法在故障檢測方面的有效性.非線性系統(tǒng)由以下方程描述: (18) (19) 式中:s1和s2為系統(tǒng)控制變量;σ1~σ5服從均值為0,標準差為0.01的高斯分布的5個獨立白噪聲.通過仿真生成400個正常樣本組成訓練集進行建模,另外生成200個正常樣本和200個故障樣本作為測試數據集.為該數值仿真實例設定如下2種故障: 故障1對變量x1從第201個樣本至第400個樣本上添加0.2(i-200)來引入斜坡故障,i為樣本數. 故障2對變量x5從第201個樣本至第400個樣本上添加幅值為25%的階躍故障. 接下來,使用前文所提到的數值實例分別應用KPCA、PPA和NPE-PPA這3種方法進行建模分析.在KPCA中,通過85%累計貢獻率來確定主元個數,在PPA和NPE-PPA模型中的主多項式成分和多項式度均設置為2.采用KPCA、PPA和NPE-PPA算法對故障1的檢測結果如圖1所示.從圖1(a)中可以看出,KPCA的SPE統(tǒng)計量能夠檢測出故障的發(fā)生,T2統(tǒng)計量完全不能檢測出故障的發(fā)生.PPA的SPE統(tǒng)計量能夠檢測出故障的發(fā)生,T2統(tǒng)計量在故障發(fā)生一段時間后能夠做出一定的反應,但是故障檢測的精確度低.NPE-PPA的T2統(tǒng)計量和SPE統(tǒng)計量在故障發(fā)生后能立即跳變到控制限以上,并且持續(xù)報警,能夠迅速準確地檢測到故障的發(fā)生. 采用KPCA、PPA和NPE-PPA算法對故障2的檢測結果如圖2所示.從圖2(a)中可以看出,KPCA的兩種統(tǒng)計量均不能有效地檢測出故障的發(fā)生,PPA只有SPE統(tǒng)計量能夠檢測出故障的發(fā)生,NPE-PPA 的兩種統(tǒng)計量能夠迅速準確地檢測到故障的發(fā)生.仿真實驗結果表明,鄰域保持嵌入算法能夠有效地保留數據的局部結構信息,提升主多項式分析處理數據的效果. 圖1 故障1的檢測結果Fig.1 Monitoring results of Fault 1 圖2 故障2的檢測結果Fig.2 Monitoring results of Fault 2 TE過程仿真應用平臺是一個基于實際工業(yè)過程的仿真例子,用于測試過程系統(tǒng)工程中故障檢測和診斷方法的效率[22-23].Tennessee Eastman過程最早由Downs和Vogel提出,其原型是美國伊斯曼化學公司的一個真實工業(yè)過程[24-25].過程主要包括5個操作單元:反應器、冷凝器、循環(huán)壓縮機、氣液分離器以及汽提塔.整個過程中共涉及8種物料成分,分別為主要參加反應的氣體進料U、C、D、E;惰性不可溶進料B;反應副產品F以及反應液態(tài)主產物G和H.在過程中共包含有41個測量變量和12個控制變量,其中,41個測量變量又可以劃分為22個過程測量變量以及19個成分測量變量. 該仿真平臺總共預設了21種故障,具體的故障描述如表1所示,共包含階躍型故障、隨機變化故障、慢偏移故障、閥門粘滯故障、閥門卡死故障以及未知故障.利用在正常操作條件下包含500個觀測值的訓練數據建立模型.測試數據包含一組21個不同的過程故障,這些故障在樣本161引入過程中,即過程在前160個樣本中正常運行,然后從樣本161到結束發(fā)生故障.表1中列出了故障的詳細描述,故障3、9和15是微小故障,由于反饋控制,對整個過程行為的影響不大. 將所提方法與基于KPCA和PPA算法的方法對TE過程的21種故障進行檢測對比.首先,建立統(tǒng)計監(jiān)控模型,在建立 KPCA 模型時,使用主元貢獻率85%來確定其主元個數,在PPA方法和所提方法中使用的PPA模型通過交叉驗證確定,主多項式空間數量設置為4,主多項式的冪設置為3,檢測統(tǒng)計量控制限置信度設置為99%. 表1 TE過程的21種故障Tab.1 Induced 21 faults in TE process 表2匯總了基于KPCA、PPA和NPE-PPA方法對TE過程的21種故障的故障檢測結果,計算了所有21個故障的監(jiān)測統(tǒng)計量的檢測率.針對每一個故障,檢測率最高的值在表中用粗體突出表示.對于故障3、9和15在眾多文獻中被認為很難檢測出來,在本文的研究中也同樣得到證實.基于KPCA和PPA的方法在檢測6個故障(故障5、10、16、19、20和21)方面存在困難,大多數情況下的檢測率小于60%.然而所提出的基于NPE-PPA的故障檢測方法能夠檢測到所有18個故障(除故障3、9和15外),檢出率高于85%.特別是故障5、10和20,基于NPE-PPA方法的故障檢出率比KPCA和PPA高出2~3倍. 圖3 故障5的檢測結果Fig.3 Monitoring results of Fault 5 為了說明基于NPE-PPA檢測方法的優(yōu)越性,分別比較了基于KPCA、PPA和NPE-PPA方法對故障5和10的檢測結果,如圖3和4所示.故障5是TE過程中的冷凝器冷卻入口溫度發(fā)生變化形成的一種階躍故障.由圖3可知,基于KPCA和基于PPA方法的T2和SPE統(tǒng)計量成功地檢測了樣本160~345的故障,而在樣本346之后未能檢測到故障,基于NPE-PPA的T2和SPE統(tǒng)計量都檢測到樣本160至過程結束的大部分故障,具有較高的檢測率和較低的誤報率.故障10是TE過程中物料C進料溫度改變形成的一種隨機變化故障.從圖4可以清楚地觀察到,所提出的基于NPE-PPA的方法比基于KPCA和PPA的方法更敏感,其T2和SPE統(tǒng)計量的變化比基于KPCA和PPA統(tǒng)計量的變化要顯著得多,所提方法對于故障10的SPE統(tǒng)計量的檢測率遠高于其他監(jiān)測統(tǒng)計量(見表2). 表2 3種方法對TE過程21個故障的檢測率Tab.2 Fault detection rates for 21 faults by using three methods in TE process 圖4 故障10的檢測結果Fig.4 Monitoring results of Fault 10 由表2可知,與其他方法的監(jiān)測統(tǒng)計方法相比,所提NPE-PPA方法的SPE統(tǒng)計量在TE過程的大多數故障中提供了最佳的監(jiān)測結果,展示了所提出的基于NPE-PPA方法的故障檢測性能.NPE-PPA算法的檢測效果得到了非常明顯的提升,說明了由NPE-PPA算法投影得到的特征空間包含了更多有效的信息,具有更好的特征提取能力,使得NPE-PPA方法具有更好的分類效果以及較好的故障檢測性能. 本文提出一種基于NPE-PPA的故障檢測算法,通過鄰域保持嵌入算法提取數據局部結構信息,再使用PPA方法通過主多項式分量來捕捉過程數據中潛在的非線性結構.本文通過將其應用于一組非線性數值實例和TE過程的工業(yè)基準過程,驗證了所提出的基于NPE-PPA的故障檢測算法的有效性與優(yōu)越性.應用結果表明,所提出的基于NPE-PPA的故障檢測算法優(yōu)于基于KPCA和PPA的傳統(tǒng)非線性故障檢測方法.2 主多項式分析
3 基于低維子流行空間主多項式分析的故障檢測
4 實驗驗證
4.1 非線性數值實例仿真應用
4.2 TE過程仿真應用
5 結語