王濤,李艾華,高運廣,王旭平,蔡艷平
(第二炮兵工程大學機電工程系,西安 710025)
當選定徑向基核函數后,核參數w通常由人工反復試驗或采取交叉驗證法確定。人工方式耗時多、效率低,交叉驗證法計算量大,且上述兩種方式所選核參數也不一定最優(yōu),因此已有一些研究者對核函數及其參數優(yōu)選問題進行了研究。文獻[5]基于矩陣相似度量優(yōu)化徑向基核函數的寬度參數,減小了計算量且取得了較好的分類效果;文獻[6]通過最小化均方預測誤差選擇合適的核函數和參數,提高了模型的泛化能力;文獻[7—9]分別采用遺傳算法、文化算法和粒子群算法對核參數w進行優(yōu)化選擇,取得了較好的分類效果。但上述研究僅考慮核參數w優(yōu)化,并未研究核主元數目k取多少才是最優(yōu)的。
實際上,除了核函數及其參數外,核主元數目k也至關重要。主元數目的多少不僅直接影響特征提取質量和特征壓縮比,而且影響后續(xù)分類器的計算復雜度和分類精度。針對具體問題,確定主元數目的常用方法是累積貢獻率百分比,如果前k個主元的累積貢獻率百分比大于期望值,則k為核主元個數,通常期望值取85%[10]。累積貢獻率百分比屬于一種經驗值方法,通過這種方式確定的主元數目不一定是最優(yōu)的,應尋求主元數目的優(yōu)化選擇方法。此外,文獻[11]研究表明,當選用徑向基核作為核函數時,核參數w對KPCA的性能影響很大,并且當w取不同值時,提取的核主元也不一樣。可見,核參數w和主元數目k對KPCA的影響是集成的,如果指定一個參數的值,然后優(yōu)化另外一個參數是不可取的。
遺 傳 算 法(genetic algorithm,GA)是John Hollnad于1960年代提出的一種智能全局優(yōu)化算法。與窮盡式網格搜索相比,它能夠在更大的參數空間內以較少的搜索次數獲得好的結果。為了解決核參數w和主元數目k的同步優(yōu)化,本文以類別可分性為準則,提出了一種基于自適應遺傳算法的并行優(yōu)化核主元分析算法,并將其應用于柴油機氣閥機構故障特征提取,結果顯示經過核參數和主元數目并行選優(yōu)的KPCA取得了更好的聚類效果。
傳統(tǒng)遺傳算法通常根據不同的優(yōu)化問題,需要反復實驗來確定pc和pm,這是一件繁瑣的工作,而且很難找到適應于每個解的最佳值。針對此問題,Srinvivas等[12]提出一種自適應遺傳算法(Adaptive GA,AGA),其中pc和pm能夠隨適應度自動改變。在自適應遺傳算法中,pc和pm按如下公式進行自適應調整
式中fmax為群體中最大的適應度值;favg為每代群體的平均適應度值;f′為要交叉的兩個個體中較大的適應度值;f為變異個體的適應度值。這里,只要設定k1,k2,k3,k4取(0,1)區(qū)間的值,pc和pm就可以自適應地進行調整。由于自適應遺傳算法具有上述優(yōu)勢,因此本文采用該算法對核參數w和主元數目k進行同步優(yōu)化。
為了采用自適應遺傳算法優(yōu)化核參數w和主元數目k,首先需要定義評估個體參數的適應度準則。KPCA通常被用于提取非線性特征,而特征提取的最終目的是為了增強類別可分性,因此本文以類別可分性作為適應度準則。在分類問題中,通常通過類間距Sb和類內距Sw兩個散度矩陣測度類別間的可分性。Sb的值越大,說明類與類之間的差別越大,分類效果越好;Sw的值越小,說明類內的差別越小,樣本聚類的效果也就越好。因此,可將適應度函數定義為如下表達式
其中Sb和Sw分別是類間和類內散度矩陣,FJ是可分性測度。
可以通過式(4)~(6)在高維特征空間計算Sb和Sw
其中N是訓練樣本數量;C是類別數量;li是第i類中訓練樣本數量;yij是第i類中第j個樣本;mi是第i類中訓練樣本的均值向量;m0是所有類別訓練樣本的均值向量。FJ越大,各類間的可分性越好。
根據上述優(yōu)化準則,核參數w和主元數目k并行優(yōu)化算法的具體流程如圖1所示。
Step1:通過式(4)、(5)分別計算類內矩Sb和類間距Sw散度矩陣;
Step2:通過式(3)構造適應度函數,并將該函數作為遺傳算法優(yōu)化的目標函數;
Step3:給定核參數w和主元數目k的取值范圍以及遺傳算法的種群規(guī)模M、迭代次數T、交叉概率pc、變異概率pm;
Step5:判斷迭代次數t是否達到終止條件。如果t Step6:產生新個體。按交叉概率pc采用算術交叉產生新個體,并將交叉后所產生的新個體及父代中的個體按變異概率pm進行非均勻一致變異,得到一些新個體; Step7:評價新個體。計算個體適應度fi和新種群的整體適應度F1,并選擇新的種群P1; Step8:令t=t+1,P0=P1,F0=F1,返回Step5。 圖1 并行優(yōu)化算法計算流程Fig.1 Flow chart of a parallel optimization algorithm 本文以6135G柴油機為實驗對象,實驗時將柴油機第2缸氣門機構間隙設置成多種不同組合狀態(tài),用以模擬進、排氣門的多種間隙異常故障,實驗具體工況設置如表1所示。其中,氣門正常間隙值為0.30 mm,0.06 mm模擬氣門間隙過小,0.50 mm模擬氣門間隙過大。實驗中柴油機運行狀態(tài)為空載,在轉速穩(wěn)定于1 500 rpm時測量缸蓋的振動信號,采樣方式為等時間采樣,采樣頻率為25 kHz。以第一缸壓縮上止點作為采樣起始點,對缸蓋振動信號進行整周期截取,每類工況各截取40個樣本,共獲得200個原始樣本。取每類前20個樣本,共100個樣本構成訓練集;每類剩余的20個樣本,共100個樣本構成測試集。 通過對整循環(huán)缸蓋振動信號Hilbert包絡的幅值域特征參數、排氣門關閉段振動信號的時序模型特征參數和缸蓋振動信號的小波包頻帶能量百分比特征參數進行分析,最終優(yōu)選均值、均方根值、方根幅值和波形因數4個幅值域特征參數和第1、5、9、12、15個小波包頻帶能量百分比參數構成9維原始特征參數集。 表1 實驗工況設置(單位:mm)Table 1 Experimental conditions setup(Unit:mm) 針對上述訓練集,利用所提并行優(yōu)化算法搜索核參數w和主元數目k的最佳數值。其中,遺傳算法參數的初始值為:交叉概率pc=0.9、變異概率pm=0.2,種群規(guī)模M=60、迭代次數T=1000;核參數w的優(yōu)化范圍為[0.01,20],主元數目k的優(yōu)化范圍為[1,100]。優(yōu)化過程及迭代結果如圖2所示。 從圖中可以看出,在解的優(yōu)化過程中,群體中個體的適應度最大值和平均值雖然有上下波動的情況,但總的來說呈現一種上升的趨勢,達到一定進化代數后,趨于平穩(wěn),從而最終搜索到了問題的最優(yōu)解。對于上述數據集,最優(yōu)解(w,k)=(2.734 0,2.1734),本文取核參數w=2.734 0,主元數目k=2。 圖2 優(yōu)化過程及迭代結果Fig.2 Optimization process and iteration results 按照優(yōu)化得到的核參數w和主元數k進行核主元分析,并對分析結果進行歸一化處理。為了更直觀地觀察柴油機氣閥機構各種工況特征樣本集的可分性,將其投影到二維平面顯示,結果如3所示。圖3(a)為測試集在1―1方向原始分布圖,圖3(b)為測試集在1―1核主元方向的投影圖;圖3(c)為測試集在1―2方向原始分布圖,圖3(d)為測試集在1―2核主元方向的投影圖。 圖3 優(yōu)化KPCA分析結果Fig.3 Analysis results of optimization KPCA 由圖3(a)可知,除了工況2、3外,其它3種工況的測試樣本完全混疊在一起,可分性非常差。而從3(b)可以看出,經過優(yōu)化KPCA分析后,測試樣本在第一核主元方向上的投影就將5種工況完全區(qū)分開了,雖然類內聚類效果不是非常明顯,但各類之間的界限非常明顯??梢?,僅需一個主元就已經能夠將5種工況正確區(qū)分。 由于本文最終的主元優(yōu)化數目為2,因此將測試集投影到1―2核主元方向上。由圖3(c)可知,5種工況雖然可區(qū)分但樣本的聚類性并不好。而經過優(yōu)化KPCA分析后,5種工況樣本的類間距增大,類內距減小,聚類效果明顯增強,可分性得到了大幅提高。 本文提出了一種基于自適應遺傳算法的核參數和主元數目并行優(yōu)化方法。該方法以類別之間的可分性為準則,建立遺傳優(yōu)化目標函數,克服了傳統(tǒng)核參數設置存在盲目性、效率低和未考慮主元數目同步優(yōu)化的問題。將優(yōu)化的核主元分析方法應用于柴油機氣閥機構的特征提取中,結果表明:核參數和主元數目并行優(yōu)化的核主元分析不僅能夠有效降低原始特征向量的維數,而且聚類效果明顯,有效增強了類別之間的可分性,為后續(xù)獲得優(yōu)良的分類精度奠定了基礎。 [1]B Sch?lkopf,A Smola,K R Müller.Nonlinear component analysis as a kerneleigenvalue problem[J].Neural Computation,1998,10(5):1299-1319. [2]Ying Wen,Lianghua He,Pengfei Shi.Face recognition using difference vector plus KPCA[J].Digital Signal Processing,2012(22):140-146. [3]Issam Ben Khediri,Mohamed Limam,Claus Weihs.Variable window adaptive kernel principal component analysis for nonlinear nonstationary process monitoring[J].Computers&Industrial Engineering,2011(61):437-446. [4]Smola A J.Learning with kernels[D].Berlin:Technical University of Berlin,1998 [5]王新峰,邱靜,劉冠軍.核主元分析中核函數參數選優(yōu)方法研究[J].振動、測試與診斷,2007,27(1):62-64. [6]畢小龍,王洪躍,司風琪,徐治皋.基于核主元分析的傳感器故障檢測[J].動力工程,2007,27(4):555-559. [7]Ruixiang Sun,Fugee Tsung,Liangsheng Qu.Evolving kernel principal component analysis for fault diagnosis[J].Computers&Industrial Engineering,2007(53):361-371. [8]黃海燕,柳桂國,顧幸生.基于文化算法的KPCA特征提取方法[J].華東理工大學學報,2008,34(2):256-260. [9]魏秀業(yè),潘宏俠,王福杰.基于粒子群優(yōu)化的核主元分析特征的提取技術[J].振動、測試與診斷,2009,29(2):162-166. [10]Feng wang,Bo cheng,Binggang cao.Machine condition monitoring by nonlinear feature fusion based on kernel principal component analysis with genetic algorithm[C].Third International Conference on Natural Computation(ICNC 2007),24-27Aug.2007(2):665-670. [11]李學軍,楊大煉,郭燈塔,蔣玲莉.基于基座多傳感核主元分析的故障診斷[J].儀器儀表學報,2011,32(7):1551-1557. [12]Srinivas M,Patnaik L M.Adaptive probabilities of crossover and mutation in genetic algorithms[C].IEEE Transactions on Systems,Man and Cybernetics,1994,24(4):656-667.3 應用實例及分析
4 結語