郭小萍, 李 婷, 李 元
(沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142)
基于LPP-kNN方法的間歇過程故障監(jiān)視
郭小萍, 李 婷, 李 元
(沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142)
針對批次過程數(shù)據(jù)具有高維、非線性及多模態(tài)等特性,提出一種自適應(yīng)LPP-kNN的過程監(jiān)視方法.利用局部保持映射算法(LPP)提取高維多模態(tài)批次數(shù)據(jù)的自適應(yīng)變換矩陣構(gòu)成新的建模數(shù)據(jù).采用局部近鄰標(biāo)準(zhǔn)化方法(LNS)進行標(biāo)準(zhǔn)化,并利用kNN算法構(gòu)造統(tǒng)計監(jiān)測指標(biāo).最后,通過在半導(dǎo)體工業(yè)實例中的應(yīng)用驗證了所提算法的有效性.
過程監(jiān)視; 間歇過程;k近鄰; 局部保持映射; 局部近鄰標(biāo)準(zhǔn)化
隨著現(xiàn)代社會對多品種、多規(guī)格和高質(zhì)量產(chǎn)品更迫切的市場需求,工業(yè)生產(chǎn)更加倚重于生產(chǎn)小批量、高附加值產(chǎn)品的間歇過程,間歇過程的性能監(jiān)視與故障診斷技術(shù)正日益受到工業(yè)界和學(xué)術(shù)界的關(guān)注和重視.間歇生產(chǎn)過程通常具有高維、多模態(tài)、非線性等特點[1-2].針對高維數(shù)據(jù)的降維,主元素分析(PCA:Principal component analysis)方法是一種廣泛應(yīng)用的線性降維方法,具有局部最優(yōu)特點,但會破壞數(shù)據(jù)之間的拓?fù)浣Y(jié)構(gòu).近年來,局部保持映射(LPP)方法被廣泛應(yīng)用于數(shù)據(jù)降維[3-5],它既能保持原始數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu),又能通過計算數(shù)據(jù)的k近鄰達(dá)到全局最優(yōu),在文本檢索、人臉識別、圖像分類等領(lǐng)域得到了廣泛應(yīng)用.針對數(shù)據(jù)標(biāo)準(zhǔn)化問題,常用的Z-score方法是在假設(shè)原始數(shù)據(jù)符合單中心正態(tài)分布前提下進行的操作,然而在實際工業(yè)生產(chǎn)中獲得的數(shù)據(jù)往往不符合這個假設(shè),對具有多模態(tài)特性的間歇過程數(shù)據(jù)的標(biāo)準(zhǔn)化效果更加不理想.局部近鄰標(biāo)準(zhǔn)化(LNS)方法[6-7]能夠利用采樣點近鄰樣本的均值和標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化,克服數(shù)據(jù)的多模態(tài)性.針對批次數(shù)據(jù)的非線性特點,很多學(xué)者進行了研究.核主元分析方法(Kernel Principal Component Analysis)是常用的一種非線性分析方法[8].支持向量數(shù)據(jù)描述方法(Support Vector Data Description)是由Tax D M J等[9]提出的進行非線性數(shù)據(jù)映射的分析方法.這些方法都使用了核函數(shù)將低維的非線性數(shù)據(jù)映射到高維的線性空間中,然而核寬度的選取目前還沒有公認(rèn)有效的方法,這限制了這些算法在更大范圍的應(yīng)用.基于近鄰思維的kNN算法[10-11]比較有效地實現(xiàn)了復(fù)雜批次過程故障檢測.
本文利用LNS和LPP的優(yōu)點,與kNN檢測方法相結(jié)合提出了基于LPP-kNN的批次過程故障檢測方法.針對每一批次數(shù)據(jù),采用LPP降維,獲得變換矩陣,構(gòu)成新的建模樣本集;按批次方向展開并利用LNS進行標(biāo)準(zhǔn)化;采用kNN方法構(gòu)建故障檢測指標(biāo).最后通過半導(dǎo)體工業(yè)實例驗證了算法有效性.
1.1 局部保持映射(LPP)方法
給定一個數(shù)據(jù)矩陣X=[x1,x2,…,xm],X∈Rm×n,m為特征向量個數(shù),用LPP算法找到一個變換矩陣A,得到的降維后的數(shù)據(jù)矩陣Y=[y1,y2,…,ym],Y∈Rm×I,其中l(wèi)?n.用yi表示xi,yi=ATxi,A=[a0,a1,…,al-1].
具體步驟如下[3]:
定義一個相似矩陣S
(1)
其中Nxi;xj表示xi為xj的k近鄰或者xj為xi的k近鄰.
定義代價函數(shù)J(y)
(2)
其中:yi和yj是近鄰點xi和xj的輸出;Sij為近鄰點xi和xj的近鄰情況.映射過程必須使此代價函數(shù)值最小.該函數(shù)的意義在于當(dāng)所有特征向量映射為低維空間中的特征時,必須保證降維后的特征yi和yj保持原有特征向量的拓?fù)浣Y(jié)構(gòu),即xi和xj的距離足夠近,則yi和yj之間的距離也必須足夠近.
令yi=aTxi,則式(2)為
J(a)=aTX(D-S)XTa
(3)
yTDy=1?aTXDXTa=1
(4)
則上述最小化問題轉(zhuǎn)化為在約束條件aTXDXTa=1下,求解下述問題:
(5)
其中L=D-S,約束條件yTDy=1去除了尺度因素對映射過程的影響,應(yīng)用拉格朗日乘子法對式(5)進行求解,得到方程:
ζ=aTXLXTa-λaTXDXTa
(6)
對方程兩邊求導(dǎo),并令導(dǎo)數(shù)為零,得到方程:
XLXTa=λXDXTa
(7)
函數(shù)最小化問題轉(zhuǎn)化為矩陣特征值求解問題,滿足式(7)的特征向量aii=0,1,…,l-1即是使代價函數(shù)取得最小值時的投影向量,它組成的矩陣A即為降維的變換矩陣,即Y=XA.
1.2 LNS數(shù)據(jù)標(biāo)準(zhǔn)化方法
在數(shù)據(jù)標(biāo)準(zhǔn)化過程中,最常用的方法是Z-score標(biāo)準(zhǔn)化.這種方法基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進行數(shù)據(jù)的標(biāo)準(zhǔn)化.將X的原始值x使用Z-score 標(biāo)準(zhǔn)化到x′.Z-score標(biāo)準(zhǔn)化方法適用于屬性X的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況.其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
但對于多模態(tài)數(shù)據(jù),一般的Z-score標(biāo)準(zhǔn)化方法不能克服數(shù)據(jù)的多模態(tài)特性.本文利用LNS的標(biāo)準(zhǔn)化方法,在克服數(shù)據(jù)多模態(tài)特性的條件下進行標(biāo)準(zhǔn)化,它與Z-score標(biāo)準(zhǔn)化方法的最大不同在于:每個采樣點都利用它近鄰樣本的k近鄰均值和標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化.LNS標(biāo)準(zhǔn)化方法提高了多模態(tài)數(shù)據(jù)檢測數(shù)據(jù)預(yù)處理的準(zhǔn)確性和一致性.
(8)
(9)
對于每一個采樣點,它的k個近鄰來自訓(xùn)練數(shù)據(jù)中的其他采樣,因此xi的標(biāo)準(zhǔn)化方法如下:
(10)
2.1 建立監(jiān)測模型
基本步驟如圖1所示.
(1) 采集正常工況批次數(shù)據(jù),進行數(shù)據(jù)等長化處理,得到標(biāo)準(zhǔn)的三維數(shù)據(jù)表示為X(m×n×k),其中,m表示間歇操作次數(shù)、n表示過程變量個數(shù)、k表示每一次間歇操作的采樣時刻數(shù).
圖1 建模流程
2.2 過程監(jiān)視
過程監(jiān)視步驟如圖2所示.
(1) 對于新來的一批待檢測樣本Xi(n×k),先將其按批次展開成1×(n×k);同時將數(shù)據(jù)預(yù)處理后的建模樣本(m×n×k)也按批次展開成m×(n×k),在m個批次中尋找與展開后待檢測樣本歐氏距離最近的N個近鄰建模批次.
(2) 計算N個近鄰建模批次的均值,并將該均值變換為(n×k)的二維矩陣,用LPP方法求該二維矩陣的變換矩陣A(k×l),并用該變換矩陣對待測樣本Xi(n×k)進行降維;降維后的待測批次數(shù)據(jù)為Yi=XiA,其中Yi為n×l.
(3) 將Yi按照批次展開,用降維并展開的建模數(shù)據(jù)中與其最近的批次數(shù)據(jù)的近鄰均值和標(biāo)準(zhǔn)差進行局部近鄰標(biāo)準(zhǔn)化.
圖2 過程監(jiān)視流程
運用半導(dǎo)體工業(yè)過程數(shù)據(jù)驗證所提LPP-kNN算法的有效性.該工業(yè)數(shù)據(jù)來源于在Lam 9600上進行的半導(dǎo)體鋁蝕反應(yīng)[10-12].包含108批次的正常數(shù)據(jù)和21批次的故障數(shù)據(jù),因為有2個批次的數(shù)據(jù)存在大量丟失的情況,最后采用107批次的正常數(shù)據(jù)和20批次的故障數(shù)據(jù).在107個正常批次數(shù)據(jù)中,95批次用來建模,12批次用來驗證建模的準(zhǔn)確性.最終驗證20批次的故障數(shù)據(jù)能否及時準(zhǔn)確地檢測出來[12].
在LPP-kNN算法應(yīng)用之前,將原始數(shù)據(jù)進行預(yù)處理.首先,從21個中選出17個變量進行建模和檢測;使用最短長度法對不同采樣時刻的各個批次進行等長化處理,將所有批次都處理成85個采樣時刻,并認(rèn)為截去的部分不包含數(shù)據(jù)的重要信息.最后組成(95×17×85)的三向建模數(shù)據(jù),分別對每一批建模數(shù)據(jù)進行LPP降維,之后將降維后的數(shù)據(jù)按批次展開.該過程如圖3所示.
圖3 建模數(shù)據(jù)的預(yù)處理過程
對按批次展開的二維數(shù)據(jù)進行LNS標(biāo)準(zhǔn)化,再應(yīng)用kNN算法進行檢測.與此同時,本論文還將原始半導(dǎo)體數(shù)據(jù)應(yīng)用于多種算法并與LPP-kNN算法進行比較.這些算法包括:①只經(jīng)過Z-score標(biāo)準(zhǔn)化方法的簡單kNN算法;②不經(jīng)過標(biāo)準(zhǔn)化的LPP-kNN算法;③經(jīng)過Z-score標(biāo)準(zhǔn)化的LPP-kNN算法;④本文提出的基于LNS標(biāo)準(zhǔn)化的LPP-kNN算法.實驗結(jié)果如圖4所示.從圖4可看出:本文提出的LNS標(biāo)準(zhǔn)化的LPP-kNN方法能夠?qū)?0個故障批次數(shù)據(jù)全部檢測出來.然而,方法①檢測出16個,方法③檢測出了19個.通過對比方法①和方法③的結(jié)果可以看出:LPP降維方法不僅能夠在保持?jǐn)?shù)據(jù)多模態(tài)特性的條件下減小計算量,還能夠提高故障檢測效率;對比方法②③④可以看出:LNS標(biāo)準(zhǔn)化方法能夠克服多模態(tài)特性,使檢測結(jié)果更精確.
圖4 基于不同方法的故障檢測結(jié)果
本文提出一種基于LNS標(biāo)準(zhǔn)化和LPP降維的LPP-kNN算法,將kNN算法與LNS和LPP的優(yōu)點相結(jié)合.該方法克服了多模態(tài)特性,在保持?jǐn)?shù)據(jù)拓?fù)浣Y(jié)構(gòu)的條件下,用自適應(yīng)的變換矩陣對待測數(shù)據(jù)進行數(shù)據(jù)降維,減小了計算量;同時在離線監(jiān)測中,所提算法比普通標(biāo)準(zhǔn)化和kNN算法相結(jié)合的效果好.半導(dǎo)體工業(yè)過程監(jiān)視結(jié)果驗證了所提方法在故障檢測中的突出優(yōu)越性.
[1] 王姝.基于數(shù)據(jù)的間歇過程故障診斷及預(yù)測方法研究[D].沈陽:東北大學(xué),2010.
[2] 陳勇.基于多元統(tǒng)計分析的生產(chǎn)過程故障診斷研究[D].杭州:浙江大學(xué),2003.
[3] HE X F.Locality Preserving Projections[D].Chicago:The University of Chicago,2005.
[4] ZHENG X,CAI D,HE X F,et al Locality Preserving Clustering for Image Database[C]//Proceedings of the 12thAnnual ACM International Conference on Multimedia.New York:[s.n.],2004:885-891.
[5] 陳綿書,付濰坊,宋瑜,等.基于自適應(yīng)局部保持映射的圖像特征降維算法[J].吉林大學(xué)學(xué)報(信息科學(xué)版),2008,26(5):494-498.
[6] MA H H,HU Y,SHI H B.A Novel Local Neighborhood Standardization Strategy and Its Application in Fault Detection of Multimode Processes[J].Chemometrics and Intelligent Laboratory Systems,2012,118:287-300.
[7] TONG C D,PALAZOGLU A,YAN X F.An Adaptive Multimode Process Monitoring Strategy Based on Mode Clustering and Mode Unfolding[J].Journal of Process Control,2013,23(10):1497-1507.
[8] SCH?LKOPF B,SMOLA A,MüLLER K R.Nolinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.
[9] TAX D M J,DUIN R P W.Support Vector Domain Description[J].Pattern Recognition Letters,1999,20(11):1191-1199.
[10] HE Q P,WANG J.Fault Detection Using thek-nearest Neighbor Rule for Semiconductor Manufacturing Processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4):345-354.
[11] 郭小萍,袁杰,李元.基于特征空間k最近鄰的批次過程監(jiān)視[J].自動化學(xué)報,2014,40(1):135-142.
[12] Eigenvector Research Incorporated.Metal Etch Data for Fault Detection Evaluation[EB/OL].1999-05-24.http://software.eigenvector.com/Data/Etch/index.html.
Abstract: In order to address the high dimensionality and multiple conditions of batch process data,a method of LPP-kNN is proposed in this article.Firstly,this method is based on locality preserving projection(LPP) which can extract adaptive transformation matrix of the Vidor High modal batch data to form a new modeling data.Then,standardization of local neighborhood(LNS) is processed to overcome the data character of multiple conditions.Meanwhile,k-nearest neighbor(kNN) is applied for fault detection with constructing statistical indicators.Finally,a variety of improvedkNN algorithms are applied in semiconductor industry examples and the effectiveness of the proposed method has been verified by comparing.
Keywords: process monitoring; batch process;k-nearest neighbor(kNN); locality preseving projection(LPP); standardization of local neighborhood(LNS)
BatchProcessFaultMonitoringBasedonLPP-kNNMethod
GUO Xiao-ping, LI Ting, LI Yuan
(Shenyang University of Chemical and Technology, Shenyang 110142, China)
10.3969/j.issn.2095-2198.2017.03.014
TP277
A
2016-03-01
國家自然科學(xué)基金面上項目(60774070,61174119);遼寧省教育廳科學(xué)研究一般項目(L2013155);遼寧省博士啟動基金項目(20131089)
郭小萍(1972-),女,山西大同人,副教授,博士,主要從事數(shù)據(jù)驅(qū)動的復(fù)雜過程故障檢測的研究.
2095-2198(2017)03-0261-05