栗茂林 梁 霖 陳元明 徐光華 何康康
1.西安交通大學(xué)工程坊,西安,7100492.西安交通大學(xué)機(jī)械工程學(xué)院,西安,710049
隨著信息獲取技術(shù)的不斷進(jìn)步,描述系統(tǒng)狀態(tài)的信息量越來(lái)越大,導(dǎo)致特征空間維數(shù)不斷增加,從而引發(fā)維數(shù)災(zāi)難等問(wèn)題。在傳統(tǒng)的特征約簡(jiǎn)方法中,主分量分析、獨(dú)立成分分析以及矢量量化等方法要求信號(hào)平穩(wěn)、滿足高斯條件,限制了應(yīng)用范圍。
作為一種新興的多元數(shù)據(jù)處理方法,非負(fù)矩陣分解(non-negative matrix factorization,NMF)可在高維空間中獲得原始數(shù)據(jù)的局部特征,其純加性的表達(dá)方式符合“局部構(gòu)成整體”的認(rèn)知規(guī)律,成為信號(hào)處理、模式識(shí)別等領(lǐng)域的熱門工具。張培林等[1]采用NMF技術(shù)對(duì)發(fā)動(dòng)機(jī)故障信號(hào)進(jìn)行特征參數(shù)提取,獲得了更高的分類精度。李兵等[2]采用二維NMF技術(shù)來(lái)提取時(shí)頻分布矩陣特征參數(shù),得到了較好的診斷效果。除了特征提取外,NMF在復(fù)雜工業(yè)過(guò)程和機(jī)電設(shè)備的監(jiān)測(cè)診斷中也有應(yīng)用[3-4]。
根據(jù)NMF的問(wèn)題模型,可將其求解歸結(jié)為一個(gè)優(yōu)化問(wèn)題,即通過(guò)目標(biāo)函數(shù)來(lái)刻畫它的逼近程度。實(shí)際應(yīng)用中,一般采用交替迭代方法獲得局部最優(yōu)解。常用的乘性迭代算法、梯度下降算法和交替最小二乘算法是基于不同思路提出的,而對(duì)于設(shè)備診斷的特征提取,需要選擇出合適的分解模型。
研究表明,NMF進(jìn)行數(shù)據(jù)約簡(jiǎn)的目的是估計(jì)出原數(shù)據(jù)中的結(jié)構(gòu),而其分解的基向量與K均值聚類中的“類”有相通之處,即具有軟聚類特性。因此,本文從分類性能和迭代效率角度出發(fā),基于NMF的聚類特性,將交替非負(fù)最小二乘算法用于故障診斷,并通過(guò)基矩陣的聚類性優(yōu)化出約束參數(shù)與嵌入維數(shù),最后,通過(guò)測(cè)試數(shù)據(jù)和特征選擇實(shí)例應(yīng)用驗(yàn)證了其有效性。
NMF是一種非負(fù)性約束下的矩陣分解方法,具體可描述如下:給定一個(gè)非負(fù)矩陣V∈Rm×n(m為樣本數(shù),n為特征個(gè)數(shù)),將矩陣V分解成非負(fù)的基矩陣W∈Rm×r和系數(shù)矩陣H∈Rr×n(通常情況下,要求r 非負(fù)矩陣分解可以通過(guò)優(yōu)化迭代來(lái)解決,即通過(guò)目標(biāo)函數(shù)來(lái)刻畫逼近程度,并在非負(fù)約束條件下進(jìn)行迭代求解。距離目標(biāo)函數(shù)中,基于歐氏距離目標(biāo)函數(shù)的優(yōu)化問(wèn)題應(yīng)用較廣泛[5],其表達(dá)式如下: (1) 在目標(biāo)函數(shù)(式(1))中,當(dāng)W和H同時(shí)為變量時(shí),求解最小化問(wèn)題是非凸的,因此采用交替迭代更新W和H以獲得局部解。常用的迭代算法有乘性迭代(multiplicative iterative,MI)、Lin’s投影梯度(Lin’s projected gradient,LPG)及交替最小二乘法(alternating least squares,ALS)。其中,MI算法是針對(duì)歐氏距離目標(biāo)函數(shù)的優(yōu)化問(wèn)題提出的;LPG算法用投影梯度法進(jìn)行更新迭代,采用Armijo規(guī)則來(lái)搜索每次迭代步長(zhǎng);ALS算法根據(jù)庫(kù)恩塔克一階最優(yōu)性條件,采用直接估計(jì)“駐點(diǎn)”的固定點(diǎn)方法獲得局部解[6]。在這三種典型迭代算法中,ALS算法形式更簡(jiǎn)單,理論上分解結(jié)果優(yōu)于MI算法,在處理高維數(shù)據(jù)時(shí)的效率高于LPG算法,缺點(diǎn)是對(duì)噪聲敏感,但可以通過(guò)增加約束條件來(lái)提高優(yōu)化效果。標(biāo)準(zhǔn)ALS算法的更新規(guī)則為 (2) 式中,[·]+表示非負(fù)矩陣。 NMF數(shù)據(jù)約簡(jiǎn)的目的就是估計(jì)出原始數(shù)據(jù)的本質(zhì)結(jié)構(gòu),即獲得基矩陣W。事實(shí)上,基矩陣W也可理解為模式識(shí)別理論中的“模式”,基向量空間就形成了K均值聚類中的“類”[7]。因此,NMF就是要挖掘出原始特征中的本質(zhì)結(jié)構(gòu),發(fā)現(xiàn)其中的“類”,將相似的局部特征聚集為一類,然后用提取出的“類”代表原始特征集。 NMF分解過(guò)程中沒(méi)有正交性約束的要求,即具有軟聚類性,有助于克服一些硬聚類所遇到的問(wèn)題。同時(shí),NMF不受樣本數(shù)據(jù)的限制,無(wú)需預(yù)先確定聚類數(shù),有效提高了其應(yīng)用能力。 為了獲得更穩(wěn)定、優(yōu)質(zhì)的分解結(jié)果,需要對(duì)W和H施加其他約束條件,可同時(shí)對(duì)W和H或只對(duì)其中一個(gè)施加約束。從故障診斷的角度來(lái)說(shuō),希望基矩陣W的聚類效果盡可能好,相關(guān)性盡可能小,也希望權(quán)矩陣H具有一定的稀疏度。因此,對(duì)基矩陣W施加相關(guān)性約束,對(duì)權(quán)矩陣H施加稀疏性約束,最優(yōu)化問(wèn)題轉(zhuǎn)化為[8] (3) 式中,αW為相關(guān)系數(shù),αW≥0;JW(W)為W的跡,JW(W)=tr(WBWT);矩陣B為k階全1矩陣;αH為稀疏化系數(shù);JH(H)為H的跡,JH(H)=tr(HBHT)。 約束條件下,改進(jìn)型ALS的迭代更新準(zhǔn)則為 W←[VHT(HHT+αWB)-1]+ (4) H←[(WTW)-1(WTV-αHB)]+ (5) 診斷應(yīng)用中,約束條件可根據(jù)情況進(jìn)行選擇,可同時(shí)施加兩個(gè)約束,也可只施加其一。約束參數(shù)的選取可通過(guò)基矩陣W的聚類效果進(jìn)行確定。 迭代更新方式對(duì)W、H的初始值很敏感,常用的初始化方法[9-11]中,隨機(jī)初始化法、隨機(jī)Acol初始化法以及模糊C均值初始化法的初始值不唯一,分解結(jié)果不穩(wěn)定,而基于奇異值分解的初始化方法可以獲得唯一的初始值,使得分解結(jié)果穩(wěn)定,具有可復(fù)現(xiàn)性。 選取4個(gè)常用的UCI數(shù)據(jù)集(電離層數(shù)據(jù)集、垃圾郵件分類數(shù)據(jù)集、鋼板缺陷數(shù)據(jù)集以及肺癌數(shù)據(jù)集)對(duì)迭代算法的分解結(jié)果進(jìn)行比較分析,詳情見表1。 表1 測(cè)試數(shù)據(jù)集的描述Tab.1 Description of test datasets 為了驗(yàn)證標(biāo)準(zhǔn)ALS的效果,將其與MI和LPG算法進(jìn)行對(duì)比,其中,嵌入維數(shù)r的選取見表1。由于隨機(jī)初始化的多次處理有可能包含最優(yōu)解,因此,3種算法均采用隨機(jī)初值,統(tǒng)計(jì)10次的迭代結(jié)果。圖1所示為不同迭代算法在4個(gè)數(shù)據(jù)集上應(yīng)用的分類正確率。 由圖1可知,MI算法的分類正確率總體上落后于其他2種算法,僅僅是針對(duì)肺癌數(shù)據(jù)集的分類率優(yōu)于LPG算法;MI算法不穩(wěn)定且易收斂至局部點(diǎn),如圖1a中第10次和圖1c中第3次實(shí)驗(yàn)結(jié)果,分類正確率都處于最低點(diǎn)。LPG算法在三者中的穩(wěn)定性最好,波動(dòng)較小。標(biāo)準(zhǔn)ALS算法可以獲得比MI算法和LPG算法更優(yōu)的解,如圖1a中第2次和圖1d中的所有結(jié)果,但波動(dòng)性比較大,主要是對(duì)噪聲比較敏感。此外,即使是同一種迭代方法,每次實(shí)驗(yàn)結(jié)果都有較大的差距,說(shuō)明隨機(jī)初始值對(duì)NMF影響較大。標(biāo)準(zhǔn)ALS算法在分類性能方面表現(xiàn)良好,而通過(guò)施加約束條件還有提高分解效果的可能。另外,從數(shù)據(jù)集的分解效果來(lái)看,垃圾郵件分類數(shù)據(jù)的3種分解效果基本相同,這與垃圾郵件分類較明確有關(guān)。 采用電離層和垃圾郵件分類數(shù)據(jù)集對(duì)初始化方法進(jìn)行測(cè)試,目標(biāo)函數(shù)為歐氏距離,迭代規(guī)則為標(biāo)準(zhǔn)ALS,嵌入維數(shù)r分別為5和4,評(píng)判標(biāo)準(zhǔn)不變。不同的初始化方法得到的基矩陣W的分類結(jié)果如圖2所示。 (a)電離層數(shù)據(jù)集的分類正確率 (b)垃圾郵件分類數(shù)據(jù)集的分類正確率 (c)鋼板缺陷數(shù)據(jù)集的分類正確率 (d)肺癌數(shù)據(jù)集的分類正確率圖1 三種迭代算法的分類正確率Fig.1 Accuracy of three iterative algorithms 對(duì)于電離層和垃圾郵件分類兩種數(shù)據(jù)集來(lái)說(shuō),最優(yōu)和最差的分解結(jié)果皆由隨機(jī)法和隨機(jī)Acol法獲得,這兩種方法的波動(dòng)性也最大;模糊C均值法與奇異值分解法雖然最終的分類率不如上述兩種方法,但其波動(dòng)性很小,且與最優(yōu)值差距不大。這四種方法當(dāng)中,奇異值分解法的結(jié)果最穩(wěn)定,平均分類率也較高,且具有可重復(fù)性,是最為理想的初始化方法。 (a)電離層數(shù)據(jù)集 (b)垃圾郵件分類數(shù)據(jù)集圖2 兩種數(shù)據(jù)集的初始化方法對(duì)比結(jié)果Fig.2 Comparison with the initial methods for two datasets 圖3 相關(guān)性約束對(duì)電離層數(shù)據(jù)集的影響Fig.3 Effects of the Ionosphere dataset with the correlation constraints 相關(guān)性約束可以減少基矩陣W中的冗余結(jié)構(gòu),有利于控制基向量的冗余性。圖3所示為相關(guān)性約束對(duì)電離層數(shù)據(jù)集的影響結(jié)果,其中,初始化方法和評(píng)判標(biāo)準(zhǔn)不變。顯然,施加約束下的分類正確率略有提高。當(dāng)分類結(jié)果較差(圖3中第10次實(shí)驗(yàn))時(shí),施加相關(guān)性約束后的效果較為明顯。當(dāng)分類結(jié)果已較為理想(圖3中第7次實(shí)驗(yàn))時(shí),約束效果反而變差,究其原因,主要是當(dāng)已較為準(zhǔn)確地提取出數(shù)據(jù)的本質(zhì)結(jié)構(gòu)時(shí),施加約束反而無(wú)法迭代出更好的結(jié)果,為此,在后續(xù)應(yīng)用中不施加相關(guān)性約束條件。 特征約簡(jiǎn)的重點(diǎn)是獲取稀疏的權(quán)矩陣,即希望用極少維度的向量表征數(shù)據(jù)的突出特征。因此,對(duì)鋼板缺陷數(shù)據(jù)集進(jìn)行稀疏性約束,其實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可知,在10次隨機(jī)初始優(yōu)化搜索中,在施加稀疏性約束的情況下,NMF分解得到基矩陣的聚類效果基本都得到了改善,即分類正確率得到了提高。這表明了稀疏約束對(duì)提高特征約簡(jiǎn)效果的有效性。 圖4 稀疏性約束對(duì)鋼板缺陷數(shù)據(jù)集的影響Fig.4 Effects of the Steel plates faults dataset with the sparsity constraints 圖5 不同稀疏度參數(shù)對(duì)電離層數(shù)據(jù)集的影響Fig.5 Effects of the Ionosphere dataset with the different sparsitys 稀疏度約束能夠提高分解質(zhì)量,但稀疏度系數(shù)的不同對(duì)分類效果也有一定的影響。圖5所示為電離層數(shù)據(jù)集在不同稀疏度系數(shù)下的分類正確率變化情況,其中,嵌入維數(shù)r=5,稀疏度系數(shù)在0~0.5內(nèi)變化,KNN分類器的鄰域?yàn)?。曲線變化情況表明,當(dāng)αH=0.4時(shí),分解得到的基矩陣W的聚類效果最好,對(duì)應(yīng)著較大的分類正確率。參數(shù)選擇不佳,則導(dǎo)致約束下的分類效果變差,因此在應(yīng)用中需要根據(jù)分類情況來(lái)優(yōu)選稀疏度系數(shù)。 采用由伊斯曼化學(xué)公司創(chuàng)建的田納西-伊斯曼過(guò)程(Tennessee-Eastman process,TEP)進(jìn)行實(shí)例分析。TEP過(guò)程包含了1種正常狀態(tài)IDV(0)和21種故障狀態(tài)(IDV(1)~I(xiàn)DV(21)),涉及22個(gè)過(guò)程測(cè)量變量(XMEAS(1)~XMEAS(22))、19個(gè)成分測(cè)量值(XMEAS(23)~XMEAS(41))和12個(gè)控制變量(XMV(1)~XMV(12))。22個(gè)過(guò)程測(cè)量變量包括進(jìn)料、反應(yīng)器壓力以及汽提器的流量等信息;19個(gè)成分測(cè)量值為反應(yīng)過(guò)程中各種氣體成分測(cè)量值,都包含高斯噪聲;12個(gè)控制變量描述了進(jìn)料量、分離器罐液流量以及冷卻水流量等信息。其中,攪拌速度變量恒定不變,在應(yīng)用中不包含該項(xiàng),即一共52個(gè)觀測(cè)變量。 從TEP中選擇IDV(2)、IDV(3)、IDV(4)、IDV(5)四類故障數(shù)據(jù)(每類故障480個(gè)樣本)的52個(gè)特征進(jìn)行特征子集的選擇。因此,待分解數(shù)據(jù)為1920×52的高維矩陣V。 特征選擇的目的是從原始52維特征中選出對(duì)故障分類敏感的特征。因此,首先在原始特征中,通過(guò)特征間的相關(guān)系數(shù)剔除掉矩陣V中相關(guān)性較高的冗余特征,將矩陣特征維數(shù)從52維降到16維,則待分解矩陣X為1 920×16維矩陣。其次,評(píng)估不同參數(shù)下分解矩陣X得到的基矩陣W的分類性能,將其中分類性能好的基矩陣作為特征選擇的基礎(chǔ)。在評(píng)估中,低維嵌入維數(shù)r在3~5內(nèi)變化,稀疏度約束αH以0.05的步長(zhǎng)在0~0.5內(nèi)變化,通過(guò)分解基矩陣的聚類情況確定出優(yōu)化的維數(shù)和稀疏度。 圖6所示為不同參數(shù)下基矩陣的分類率曲線,其中,KNN分類器的近鄰數(shù)為5。由圖6可知,在r=5,αH=0.5時(shí)分解得到的基矩陣W的分類性能最好。根據(jù)各基向量在分類性能上的互補(bǔ)性和組合性,剔除掉基矩陣W中的第2和第4冗余基向量,保留第1、3、5基向量,使得彼此間具有結(jié)構(gòu)上的互補(bǔ)性,組合在一起則具有良好的分類性,其投影空間中的樣本分布如圖7所示。 圖6 不同參數(shù)下基矩陣的分類正確率Fig.6 Accuracy curve of basis matrix with different parameters 根據(jù)優(yōu)化參數(shù)確定的權(quán)矩陣H分布能夠進(jìn)行特征選擇,即在最優(yōu)的基矩陣W對(duì)應(yīng)的系數(shù)矩陣H中找出對(duì)應(yīng)行幅值最大的元素,該元素所在的列即為有效特征。 在優(yōu)化參數(shù)確定的系數(shù)矩陣H中,找出對(duì)應(yīng)行幅值最大的元素,該元素所在的列依次為特征16、15和2,對(duì)應(yīng)原始集合特征子集為{52,51,10}。其中,特征52、51和10分別為控制變量XMV(11)、XMV(10)和過(guò)程測(cè)量變量XMEAS(10)。該子集的KNN分類率達(dá)到89.74%。 (a)第1基向量空間中的樣本分布 (b)第3基向量空間中的樣本分布 (c)第5基向量空間中的樣本分布圖7 三個(gè)基向量空間中的樣本分布Fig.7 Distribution of three projection vectors 圖8 子集{52,51,10}的三維樣本分布Fig.8 Distribution of the feature subset{52,51,10} 圖8所示為{52,51,10}所張成的三維空間投影,由樣本分布可知,除IDV(3)故障樣本(“*”)和IDV(5)故障樣本(“□”)之間有一定的重合外,其他故障樣本間都區(qū)分得較為明顯,顯然是一個(gè)較理想的特征子集。 若不考慮稀疏度的約束條件,在r=5的情況下,稀疏度和相關(guān)系數(shù)均取零,選出的特征依次為12、14和15,對(duì)應(yīng)原始集合中的分類特征子集為{41,51,52},該子集的KNN分類率只能達(dá)到81.87%。由此可見,不考慮約束條件的話,識(shí)別效果會(huì)有一定程度的下降。 基于主成分分析的特征選擇結(jié)果為{10,28,47},樣本分布的正確率僅為65.62%,顯然提取的特征子集更不理想。 結(jié)合NMF的聚類性能,在NMF的迭代求解優(yōu)化問(wèn)題基礎(chǔ)上,結(jié)合相關(guān)性約束和稀疏性約束,提出了一種面向NMF聚類性的迭代優(yōu)化算法,通過(guò)基矩陣空間中的分類性能夠選擇出具有最優(yōu)聚類性的嵌入維數(shù)及相關(guān)參數(shù)。通過(guò)測(cè)試數(shù)據(jù)驗(yàn)證了最小二乘迭代算法的有效性以及約束條件的效果,通過(guò)復(fù)雜機(jī)電系統(tǒng)的應(yīng)用實(shí)例驗(yàn)證了特征選擇的有效性。 參考文獻(xiàn): [1]張培林,王懷光,張磊,等.非負(fù)矩陣分解在發(fā)動(dòng)機(jī)故障特征提取中的應(yīng)用[J].振動(dòng)工程學(xué)報(bào),2013,26(6):944-950. ZHANG Peilin,WANG Huaiguang,ZHANG Lei,et al. Feature Extraction for Engine Fault Diagnosis by Utilizing Adaptive Multi-scale Morphological Gradient and Non-negative Matrix Factorization[J]. Journal of Vibration Engineering,2013,26(6):944-950. [2]李兵,米雙山,劉鵬遠(yuǎn),等.二維非負(fù)矩陣分解在齒輪故障診斷中的應(yīng)用[J].振動(dòng)測(cè)試與診斷,2012,32(5):836-840. LI Bing,MI Shuangshan,LIU Pengyuan,et al. Application of Two-dimensional Non-negative Factorization for Gear Fault Diagnosis[J]. Journal of Viaration, Measurement & Diagnosis,2012,32(5):836-840. [3]陳霖,鄒金慧.基于NMF-SVM的復(fù)雜化工過(guò)程故障診斷[J].計(jì)算機(jī)與應(yīng)用化學(xué),2014,31(8):1015-1018. CHEN Lin,ZOU Jinhui.Fault Diagnosis of Complex Chemical Process Based on NMF-SVM [J].Computers and Applied Chemistry,2014,31(8):1015-1018. [4]唐曦凌,梁霖,高慧中,等.結(jié)合連續(xù)小波變換和多約束非負(fù)矩陣分解的故障特征提取方法[J].振動(dòng)與沖擊,2013,32(19):7-11. TANG Xiling,LIANG Lin,GAO Huizhong,et al.Fault Feature Extraction Method Combining Continuous Wavelet Transformation with Multi-consitraint Nonnegative Matrix Factorization[J]. Journal of Vibration and Shock,2013,32(19):7-11. [5]WANG Yuxiong,ZHANG Yujin.Nonnegative Matrix Factorization: a Comprehensive Review[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(6):1336-1353. [6]BERRY M W,BROWNE M,LANGVILLE A N,et al. Algorithms and Applications for Approximate Nonnegative Matrix Factorization[J]. Computational Statistics & Data Analysis,2007,52(1):155-173. [7]LI T,DING C.The Relationships among Various Nonnegative Matrix Factorization Methods for Clustering[C]//Sixth International Conference on Data Mining. Hong Kong,2006:362-371. [8]CICHOCKI A,ZDUNEK R,PHAN A H,et al. Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation [M]. Hoboken:Wiley,2009:203-213. [9]YU Shaohui,ZHANG Yujun,LIU Wenqing,et al. A Novel Initialization Method for Nonnegative Matrix Factorization and Its Application in Component Recognition with Three-dimensional Fluorescence Spectra[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2012,86:315-319. [10]XUE Yun,TONG C S,CHEN Ying,et al. Clustering-based Initialization for Non-negative Matrix Factorization[J]. Applied Mathematics and Computation,2008,205 (2):525-536. [11]JANECEK A,TAN Y. Using Population Based Algorithms for Initializing Nonnegative Matrix Factorization[J]. Lecture Notes in Computer Science, 2011,6729:307-316. (編輯張洋)1.2 迭代準(zhǔn)則
2 面向聚類的非負(fù)矩陣分解算法
2.1 NMF的聚類特性
2.2 施加約束的改進(jìn)型交替最小二乘法
2.3 初始化方法的選擇
2.4 嵌入維數(shù)的選擇
3 實(shí)驗(yàn)分析
3.1 測(cè)試數(shù)據(jù)集
3.2 迭代算法的效果對(duì)比
3.3 初始化方法的影響
3.4 約束條件的影響
4 在特征選擇中的應(yīng)用
4.1 實(shí)例對(duì)象數(shù)據(jù)
4.2 約束參數(shù)和嵌入維數(shù)的選擇
4.3 特征選擇的效果
5 結(jié)語(yǔ)