楊 威,皇攀凌,陳彬彬,周 軍,3
(1.山東大學(xué)機械工程學(xué)院,山東 濟南 250061;2.山東大學(xué)高效潔凈機械制造教育部重點實驗室,山東 濟南
250061;3.山東省工業(yè)技術(shù)研究院,山東 濟南 250061)
活塞是柴油機發(fā)動機必不可少的重要零件,活塞喉口與燃燒室直接接觸,其表面質(zhì)量水平對發(fā)動機的性能產(chǎn)生直接影響,因此對活塞喉口進行無損質(zhì)量檢測具有重要意義。智能缺陷識別一直是研究重點,主要通過缺陷特征提取結(jié)合缺陷分類器進行缺陷識別,因此如何提取表征原信號的特征并降低特征空間維度、能否合理選擇缺陷分類器將對缺陷識別準確率產(chǎn)生較大影響。隨著研究不斷加深,各種特征提取與降維方法被提出,同時產(chǎn)生了基于不同理論的缺陷分類方法。
特征提取的過程中,所提取特征維數(shù)太多經(jīng)常會導(dǎo)致特征匹配時過于復(fù)雜,算法的時間復(fù)雜度與維數(shù)成指數(shù)級增長,造成維數(shù)災(zāi)難。數(shù)據(jù)降維的目的是將較高維數(shù)據(jù)轉(zhuǎn)換為較低維數(shù)據(jù)進行表達,同時最大程度上保留原有數(shù)據(jù)間的關(guān)系。低維表示通常會產(chǎn)生比原始的高維數(shù)據(jù)具有較弱依賴關(guān)系的元素。在特征降維技術(shù)中主成分分析是最為經(jīng)典的方法,在故障診斷與缺陷識別領(lǐng)域得到了廣泛應(yīng)用。文獻[2]提出了一種基于主成分判別信息的故障可分性判別方法,實驗證明,該分類過程比傳統(tǒng)分類方法高效。文獻[3]利用PCA對時域高維特征集進行維數(shù)約簡,消除了各特征指標之間的冗余及信息沖突等問題。線性判別分析是一種有監(jiān)督學(xué)習的降維技術(shù),在降維過程中使用類別的先驗知識進行學(xué)習,其數(shù)據(jù)集的每個樣本都是有類別輸出的。LDA方法除了可以用來降維,還可以用來分類。文獻[4]將微分熵與LDA結(jié)合,應(yīng)用于情緒EEG信號提取的特征,實現(xiàn)了對3類情緒的高效分類。文獻[5]利用LDA算法實現(xiàn)了不同目標的紅外光譜鑒別且分類效果優(yōu)于其他算法。樸素貝葉斯分類是一種基于概率模型的分類算法,可以對預(yù)測標簽給出理論上完美的可能性估計。Gaussian?NB模型假定特征分布符合高斯分布,即正態(tài)分布。文獻[6]提出了基于詞嵌入的樸素貝葉斯分類器,提高了文本分類的精度。借鑒上述研究工作,對比分析不同特征降維與分類方法在活塞喉口微細缺陷識別中的效果,選擇最佳性能的缺陷分類模型。將對活塞喉口采集的渦流信號作為研究對象,為提高信號的表征能力,從多域提取信號的特征值進行分析。分別利用PCA和LDA對所提取的特征進行降維,再分別利用基于GaussianNB和LDA的分類方法進行分類。通過對比分類結(jié)果評判數(shù)據(jù)降維與分類方法的
PCA算法通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,在對數(shù)據(jù)進行降維的同時對新求出的“主元”向量的重要性進行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,從而實現(xiàn)降維,該算法流程,如圖1所示。
圖1 PCA算法流程Fig.1 PCA Algorithm Flow
由式(3)所得線性映射矩陣P左乘樣本特征矩陣X:
LDA既是一個降維器,又是一個有監(jiān)督學(xué)習的分類器。LDA的原理與PCA非常類似。不同點在于LDA考慮了每種標簽樣本數(shù)據(jù)集內(nèi)的分布情況。假設(shè)樣本由n種標簽的m維數(shù)據(jù)構(gòu)成,先考慮類內(nèi)原始各維度上的協(xié)方差矩陣:
線性判別分類假設(shè)各個類別的樣本數(shù)據(jù)符合高斯分布,經(jīng)LDA投影后,通過極大似然估計計算各個類別投影數(shù)據(jù)的均值和方差,進而得到該類別高斯分布的概率密度函數(shù)。對于一個新的樣本,將其投影后的樣本特征分別帶入各個類別的高斯分布概率密度函數(shù),計算屬于各個類別的概率,概率最大值對應(yīng)的類別即為預(yù)測類別,從而實現(xiàn)分類。
樸素貝葉斯是應(yīng)用貝葉斯定理進行有監(jiān)督學(xué)習的一種分類模型。利用貝葉斯定理進行分類的偽代碼如下:
for label in 所有標簽:
用貝葉斯公式計算在給定特征值情況下出現(xiàn)該label的后驗概率;預(yù)測標簽←獲得最高后驗概率的label,
對于一個n維的數(shù)據(jù)特征:
其中,x1,x2,…,xn—數(shù)據(jù)的n維特征;y—預(yù)測標簽。
先驗概率P(y)可以根據(jù)經(jīng)驗直接給出,也可以通過自動計算給出,將訓(xùn)練集中每種標簽出現(xiàn)的次數(shù)除以訓(xùn)練總數(shù),即可得到每種標簽的先驗概率。假定n維特征的條件概率分布均符合高斯分布,即:
本實驗采用某活塞公司產(chǎn)品作為實驗樣本,活塞缺陷類型分別 包 括L0.3mm×W0.2mm×H0.1mm 的 槽 型 缺 陷,?0.3mm×D0.1mm的孔洞型缺陷以及無任何缺陷的正?;钊?,不同缺陷類型局部放大圖,如圖2所示。
圖2 活塞喉口缺陷圖Fig.2 Photo of Piston Throat Defect
缺陷識別方案流程圖,如圖3所示。具體缺陷識別方案流程描述如下:
圖3 活塞喉口缺陷識別流程圖Fig.3 Process of Piston Throat Defect Identification
(1)選取活塞樣本,通過非接觸式渦流檢測提取信號。
(2)對采集到的渦流數(shù)據(jù)進行降噪[7],并計算原始信號的信噪比,然后人為添加同等強度的白噪聲作為被處理信號。
(3)對被處理信號分別進行PCA降維和LDA降維。
(4)將缺陷樣本劃分為缺陷樣本訓(xùn)練集合缺陷樣本測試集,并將缺陷樣本訓(xùn)練集分別輸入PCA?LDA、PCA?GaussianNB、LDA?LD、LDA?Gaussian缺陷識別模型進行訓(xùn)練。
(5)將缺陷樣本測試集輸入訓(xùn)練完成的缺陷識別模型中進行分類,并根據(jù)各模型識別缺陷的準確率及訓(xùn)練時間得出性能最好的模型。
各種活塞缺陷類型下采集到的渦流信號時域波形圖,如圖4所示。僅從時域波形上難以判別活塞的缺陷和類型。
圖4 活塞喉口渦流時域信號Fig.4 Eddy Current Time Domain Signal of Piston Throat
為盡可能提取原始渦流信號的絕大部分信息,分別從被處理信號的時域、頻域和時頻域提取特征作為故障特征。其中時域提取均值、標準差、波形系數(shù)等八種參量,頻域內(nèi)提取平均頻率等四種統(tǒng)計量,最后利用經(jīng)驗?zāi)B(tài)分解法(EMD)提取能量信號,以完善時域和頻域特征。信號的部分時域及頻域指標如下:
對各種缺陷類型活塞喉口渦流信號進行EMD 分解,前8階IMF分量的能量比率之和為98%,將前8階IMF分量變換到頻域內(nèi)并計算能量分布情況。歸一化后活塞喉口三種缺陷類型的各階IMF能量分布,如圖5所示。
圖5 活塞喉口不同缺陷狀態(tài)下EMD能量分布Fig.5 EMD Energy Distribution in Piston Throat Under Different Defect States
IMF分量的能量聚集在500Hz以下,將頻譜不均等分為(0~200)Hz、(200~400)Hz、(400~600)Hz、(600~1000Hz)、(1000~4000)Hz、(4000~10000)Hz六段,并計算每一段的能量作為特征值,每個樣本在時域、頻域及時頻域內(nèi)共提取60個特征值。
對比常用的主成分分析及線性判別兩種降維方法,分別針對上述所提取60個特征值進行降維。
4.3.1 PCA降維
計算各維度特征之間的協(xié)方差矩陣,協(xié)方差矩陣中元素越接近1,則兩特征之間相關(guān)性越高,所包含的重疊信息也越多。對所求協(xié)方差矩陣進行奇異值分解,將所得特征值按從大到小順序排列,計算各個特征值的貢獻率及累計貢獻率,如圖6所示。
圖6 特征值貢獻率Fig.6 Eigenvalue Contribution Rate
前十個主成分的累積貢獻率為85.8%(大于85%),則認為所選主成分包含了原始特征的大部分信息,從而構(gòu)建出PCA降維的投影矩陣。對每種缺陷類型的100組樣本所提取的各個域內(nèi)特征值進行PCA降維,PCA降維后各樣本的分布情況,如圖7所示。
圖7 PCA降維后樣本分布圖Fig.7 Sample Distribution After PCA
其中藍色矩形為槽型大缺陷,紅色圓形為孔型小缺陷,黃色*為無缺陷活塞,由于前三個維度累計貢獻率僅為51.8%,三種缺陷類型未能很好地區(qū)分開來,且同種缺陷類型樣本之間分布不聚集。
4.3.2 LDA降維
同樣對每種缺陷類型的100組樣本所提取的各個域內(nèi)特征值進行LDA降維,降維后的維度數(shù)為2維,其方差比分別為0.872和0.128,累計方差比之和為1,已包含原始特征的全部信息。實驗樣本在LDA降維后的分布,如圖8所示。
圖8 LDA降維后樣本分布Fig.8 Sample Distribution After LDA
其中,矩形為槽型大缺陷,圓形為孔型小缺陷,*為無缺陷活塞,三種缺陷類型均可以完全區(qū)分,并且不同缺陷類型之間保留有較大余量,同種缺陷類型樣本之間分布較密集。
每個缺陷樣本由50000個連續(xù)采集的渦流數(shù)據(jù)構(gòu)成,隨機選取槽型缺陷、孔型缺陷及正?;钊?0組(共240組)作為訓(xùn)練集,剩下每種缺陷類型活塞各20組(共60組)作為測試集,并采用五折交叉驗證的方法進行實驗,以便更好地反映分類方法準確率的真實性。為對比兩種降維和分類算法優(yōu)越性,分別對經(jīng)由上述降維方法計算得出的數(shù)據(jù)進行線性判別分類和高斯樸素貝葉斯分類。通過比較準確率及模型訓(xùn)練時間選出性能最好的活塞喉口微細缺陷識別模型。
從表1中實驗結(jié)果可知,對于三種不同缺陷特征,從缺陷識別準確率的角度來看,LDA?LD 及LDA?GaussianNB 可達到100%的準確率,PCA?LD 和PCA?Gaussian 模型準確率略偏低,但均可檢測出槽型大缺陷,對于孔型小缺陷和無缺陷類型不能100%識別出來。從模型訓(xùn)練時間來看,LDA?GaussianNB 模型訓(xùn)練時間最短。因此,綜合缺陷識別準確率及模型訓(xùn)練時間考慮,LDA?GaussianNB模型性能最佳。
表1 活塞喉口缺陷識別實驗結(jié)果Tab.1 Experimental Results of Piston Throat Defect Identification
為準確檢測和識別出活塞喉口微細缺陷的類型,對其渦流信號進行分析,分別從多域多角度提取信號的特征。對所提取的多維特征分別進行PCA和LDA降維,PCA降維后主元數(shù)為10,累計貢獻率為85.8%,LDA降維后維度數(shù)僅為2,且繼承了原始信號的全部信息。分別對降維結(jié)果進行線性判別分類及高斯樸素貝葉斯分類實驗,綜合分析缺陷類型識別準確率和模型訓(xùn)練時間,從表1實驗結(jié)果可得,基于LDA?GaussianNB的缺陷識別方法具有最高的缺陷識別準確率,最短的模型訓(xùn)練時間,說明該方法應(yīng)用于活塞喉口的微細缺陷檢測可達到較高的準確性和高效性。