李超然,趙娜靖,李 碩,王國(guó)濤,2,*
(1.黑龍江大學(xué) 電子工程學(xué)院,哈爾濱 150080;2.哈爾濱工業(yè)大學(xué) 軍用電器研究所,哈爾濱 150001)
由于我國(guó)工業(yè)制造水平有限,多余物粒子會(huì)在密封繼電器生產(chǎn)過程中,封裝于內(nèi)部形成多余物。密封繼電器常處在失重,超重等突發(fā)沖擊的工作環(huán)境。內(nèi)部的多余物粒子會(huì)被沖擊出來,隨機(jī)碰撞,當(dāng)卡在繼電器某些關(guān)鍵的器件和組件部位,就會(huì)對(duì)密封繼電器的穩(wěn)定性和可靠性產(chǎn)生極大的危害,既造成性能的降低,也造成內(nèi)部電路的短路和異常[1]。
2005年,張輝采用彈性球理論,建立了顆粒碰撞噪聲檢測(cè)的動(dòng)力學(xué)模型,為找到最佳振動(dòng)試驗(yàn)條件奠定了基礎(chǔ)[2]。2006年,高宏亮在前人的基礎(chǔ)上研制了基于PIND法的密封電子元器件多余物自動(dòng)檢測(cè)系統(tǒng),實(shí)現(xiàn)組件松動(dòng)的檢測(cè)[3]。2008年王世成針對(duì)軍用電子元器件提出了多余物有無的識(shí)別方法[4]。2011年針對(duì)星載電子設(shè)備,烏英嘎從多余物和可動(dòng)組件的自由度分析,指出多余物脈沖是由強(qiáng)到弱逐漸衰減的過程,而固有機(jī)械信號(hào)是一個(gè)先逐漸上升然后逐漸下降的振動(dòng)衰減過程,提出采用波形對(duì)稱度來區(qū)分固有機(jī)械信號(hào)和多余物信號(hào)[5]。上述方法在工程應(yīng)用方面,解決了密封繼電器多余物檢測(cè)技術(shù)存在的問題,但是檢測(cè)的準(zhǔn)確度還有待提高。
本次實(shí)驗(yàn)將Xgboost算法應(yīng)用到多余物信號(hào)檢測(cè)技術(shù)中,使用網(wǎng)格搜索[6]和k折交叉檢驗(yàn)結(jié)合的方法,搜索出Xgboost樹的最大深度和每棵樹隨機(jī)采樣的最好比例,之后使用參數(shù)調(diào)優(yōu)的Xgboost算法建立分類模型對(duì)密封繼電器中的多余物信號(hào)和組件信號(hào)進(jìn)行分類。
多余物會(huì)在振動(dòng)臺(tái)振動(dòng)的過程中開始在密封繼電器內(nèi)部游離,與密封繼電器壁或其內(nèi)部部件發(fā)生碰撞產(chǎn)生能量,該能量會(huì)被振動(dòng)臺(tái)下方安置的聲發(fā)射傳感器捕獲進(jìn)行轉(zhuǎn)換并輸出為電壓信號(hào)即多余物信號(hào)。在整個(gè)時(shí)間軸上,多余物脈沖信號(hào)產(chǎn)生具有隨機(jī)性,碰撞與尖峰脈沖相對(duì)應(yīng)。多余物脈沖波形見圖1。
圖1 多余物脈沖時(shí)域波形Fig.1 Time domain waveform of the excess pulse
多余物脈沖頻域波形見圖2。由圖2可見,多余物信號(hào)頻率達(dá)到峰值時(shí),會(huì)迅速衰減。外部干擾、外部激勵(lì)條件、多余物的材質(zhì)、粒徑、傳輸介質(zhì)等都會(huì)影響脈沖的頻率特性和形狀,因此多余物信號(hào)變化沒有規(guī)律性。
圖2 多余物脈沖頻域波形Fig.2 Frequency domain waveform of surplus pulse
密封繼電器組件信號(hào)是在進(jìn)行PIND實(shí)驗(yàn)的過程中繼電器內(nèi)部線路連接和電路板、繼電器壁撞擊產(chǎn)生的聲音由振動(dòng)臺(tái)下方安置的傳感器轉(zhuǎn)換成輸出信號(hào)。組件信號(hào)是因?yàn)槔^電器的特殊內(nèi)部構(gòu)造產(chǎn)生的信號(hào),擁有和多余物信號(hào)相似的尖峰脈沖,但是組件信號(hào)波形具有周期性,見圖3。
由圖3可見,在時(shí)間軸上,組件信號(hào)擁有多余物信號(hào)一樣的擁有尖峰脈沖的特點(diǎn),但是組件信號(hào)呈現(xiàn)出明顯的周期性,組件信號(hào)頻域波形見圖4,可見在時(shí)間軸上有一段起振和衰減的過程。
圖3 組件信號(hào)時(shí)域波形Fig.3 Component signal time domain waveform
圖4 組件信號(hào)頻域波形Fig.4 Frequency domain waveform of component signal
由圖1~圖4可見,組件信號(hào)和多余物信號(hào)在頻域和時(shí)域上差別不大。把參考周期設(shè)置為外部震動(dòng)周期,當(dāng)組件脈沖存在于不同周期時(shí),脈沖發(fā)生的時(shí)刻基本一致。
因?yàn)樗蓜?dòng)組件的位置基本固定,組件信號(hào)中不同脈沖的形狀類似,這也是撞擊速度不變,傳播距離固定,傳輸介質(zhì)周期性變化,從而傳感器每次接收到的能量一致。松動(dòng)組件數(shù)量是無法確定的,而且多個(gè)組件脈沖可能存在于一個(gè)振動(dòng)周期中,組件信號(hào)的振動(dòng)發(fā)送不是同步的。在時(shí)間序列上,多余物信號(hào)脈沖序列的產(chǎn)生呈現(xiàn)不規(guī)則性,但是組件信號(hào)脈沖序列的產(chǎn)生呈現(xiàn)周期性。
在脈沖波形形狀上,多余物不同脈沖的不同波形各式各樣,但是組件的脈沖波形相似,多余物信號(hào)和組件信號(hào)在波形形狀上的差別難以區(qū)分。
本次實(shí)驗(yàn)使用的是PIND檢測(cè)系統(tǒng),為了讓密封繼電器內(nèi)部的多余物激活,將系統(tǒng)條件設(shè)置為機(jī)械沖擊,從而給予繼電器內(nèi)部周期性的振蕩。激活后的多余物粒子會(huì)在繼電器空間內(nèi)部發(fā)生碰撞從而產(chǎn)生聲音信號(hào),振動(dòng)臺(tái)下面安置的有聲發(fā)射傳感器會(huì)將其捕捉,然后傳輸?shù)接?jì)算機(jī)上將其顯示成波形,通過PIND系統(tǒng)內(nèi)部的程序進(jìn)行量化,轉(zhuǎn)成數(shù)據(jù)并將重要的特征參數(shù)提取出來。
為了在大量的數(shù)據(jù)中找出有效的特征,從而壓縮空間中的維數(shù),因?yàn)椴煌惖哪P忘c(diǎn)在特征空間中的距離較遠(yuǎn),同類模型點(diǎn)的距離較近,可將特征篩選出來。在眾多的特征中,每次選擇一個(gè)特征保持不變,計(jì)算其信息增益比,通過信息增益比來衡量分類標(biāo)簽和每個(gè)特征之間的相關(guān)度。信息增益比是信息增益g(D,A)與訓(xùn)練集D關(guān)于特征A的值的熵HA(D)之比。信息增益是以特征A劃分?jǐn)?shù)據(jù)集D前的熵與劃分?jǐn)?shù)據(jù)集D后熵的差值,HA(D)的倒數(shù)為懲罰因子,特征個(gè)數(shù)越多,懲罰因子越??;特征個(gè)數(shù)越少,懲罰因子越大。具體公式如下:
(1)
計(jì)算每個(gè)特征的信息增益進(jìn)行排序,尋找出所有特征中信息增益高于平均水平的特征,再計(jì)算這些特征對(duì)應(yīng)的信息增益率,選取信息增益率較高的特征。特征選擇見表1。
表1 特征介紹Table 1 Introduction of features
Xgboost是一種集成樹模型,是在梯度提升算法的基礎(chǔ)上[7-8],將多個(gè)弱分類器集成為一個(gè)強(qiáng)分類器,其本質(zhì)是不同的單個(gè)決策樹的組合[9-10]。因?yàn)椴皇撬械膿p失函數(shù)都是二次函數(shù),所以引入泰勒展開從而進(jìn)行凸優(yōu)化,與此同時(shí)采用了分布式計(jì)算完成了在系統(tǒng)層面的優(yōu)化。算法步驟如下:
目標(biāo)函數(shù):
(2)
通過泰勒展開得
(3)
其中:
(4)
(5)
由
(6)
可得
(7)
定義:
Gj=∑i∈Ijgi,Hj=∑i∈Ijhi
(8)
公式化簡(jiǎn)為
(9)
通過對(duì)wj求偏導(dǎo)等于零可得
(10)
(11)
通過以上各式可得一個(gè)分隔增益公式:
(12)
Xgboost算法中樹的最大深度max_depth和每棵樹隨機(jī)采樣的比例subsample這兩個(gè)參數(shù)對(duì)模型性能有很大的影響。但是當(dāng)前在Xgboost參數(shù)調(diào)優(yōu)上還停留在多次實(shí)驗(yàn)選出參數(shù)的階段上,這樣會(huì)導(dǎo)致模型性能不穩(wěn)定。
針對(duì)這個(gè)問題,本次實(shí)驗(yàn)使用網(wǎng)格搜索和k折交叉檢驗(yàn)結(jié)合的方法選取最優(yōu)參數(shù),設(shè)定網(wǎng)格范圍對(duì)(max_depth,subsample)去進(jìn)行遍歷,每組參數(shù)對(duì)的準(zhǔn)確率使用k折交叉檢驗(yàn)法去計(jì)算,通過最高的準(zhǔn)確率進(jìn)而找到(max_depth,subsample)的全局最優(yōu)解。具體步驟如下:
1)參數(shù)大范圍調(diào)優(yōu)。max_depth設(shè)定的大范圍區(qū)間為[1,9],該區(qū)間以2為步長(zhǎng),subsample設(shè)定的大范圍區(qū)間為[0.1,0.9],該區(qū)間以0.2為步長(zhǎng)。這兩個(gè)區(qū)間構(gòu)成網(wǎng)格,其中每個(gè)網(wǎng)格點(diǎn)對(duì)應(yīng)一個(gè)(max_depth,subample)參數(shù)對(duì)。
2)k折交叉檢驗(yàn)。使用k折交叉檢驗(yàn)的方法,將數(shù)據(jù)集輪流抽取k-1份作為訓(xùn)練數(shù)據(jù),留下的一份作為測(cè)試集,去訓(xùn)練每一組參數(shù)對(duì)應(yīng)的模型,求出每組模型的準(zhǔn)確率。
3)選取大范圍的最優(yōu)參數(shù)。針對(duì)網(wǎng)格中的每一個(gè)交叉點(diǎn)即一個(gè)參數(shù)對(duì),使用k折交叉檢驗(yàn)求出對(duì)應(yīng)參數(shù)的模型進(jìn)行二分類的準(zhǔn)確率,選取準(zhǔn)確率最高的為當(dāng)前最優(yōu)參數(shù)記為(max_depthS,subsampleS)。
4)參數(shù)小范圍調(diào)優(yōu)。把max_depthS上下范圍拓展1,subsampleS上下范圍拓展0.1。因?yàn)橹癕ax_depth區(qū)間步長(zhǎng)是2,subsample區(qū)間步長(zhǎng)為0.2。
5)確定最優(yōu)參數(shù)。重復(fù)Step2和step3,二分類準(zhǔn)確率最高的模型對(duì)應(yīng)的參數(shù)對(duì)即為最優(yōu)參數(shù)。
Xgboost分類器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)是否正確,TP表示將正類預(yù)測(cè)為正類的樣本數(shù)量[11-12],TN表示將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù)量,F(xiàn)P表示將負(fù)類預(yù)測(cè)為正類的樣本數(shù)量,F(xiàn)N表示將正類預(yù)測(cè)為負(fù)類的樣本數(shù)量,本次實(shí)驗(yàn)通過混淆矩陣的形式將4種情況列出,混淆矩陣見表2。
表2 二分類混淆矩陣Table 2 Two-class confusion matrix
定義1:準(zhǔn)確率:
(13)
準(zhǔn)確率越高,分類效果越好,但是在正負(fù)樣本不均衡的情況下,準(zhǔn)確率作為評(píng)判標(biāo)注不合適。需要用precision,recall和f1-measure來評(píng)價(jià)模型的整體性能。
定義2:召回率:被模型判定為正類占數(shù)據(jù)集中所有正類的比例。
(14)
定義3:精確率:在被模型判定為正類別的樣本中,真實(shí)為正類的比例。
(15)
定義4:F-score:精確率和召回率的加權(quán)調(diào)和平均。
(16)
本次實(shí)驗(yàn)通過PIND實(shí)驗(yàn)器采集5組實(shí)驗(yàn)樣本,每組實(shí)驗(yàn)樣本詳情見表3,每組數(shù)據(jù)由多余物信號(hào)數(shù)量和組件信號(hào)數(shù)量組成,正負(fù)樣本的比例近似為1∶2[13-14]。每組實(shí)驗(yàn)樣本隨機(jī)選取3/4樣品數(shù)據(jù)去訓(xùn)練當(dāng)前要進(jìn)行調(diào)優(yōu)的模型,剩下的1/4樣本數(shù)據(jù)作為該模型的測(cè)試集。
表3 5組樣本數(shù)據(jù)Table 3 Main information of 5 groups of sample data
3.3.1 基于網(wǎng)格搜索與k折交叉檢驗(yàn)結(jié)合的調(diào)參方法
以分類準(zhǔn)確率作為每個(gè)(max_depth,subsample)參數(shù)對(duì)的評(píng)價(jià)指標(biāo),先對(duì)參數(shù)進(jìn)行大范圍調(diào)優(yōu)即給予max_depth一個(gè)1到9的閉區(qū)間,以2為步長(zhǎng);subsample一個(gè)0.1到0.9的閉區(qū)間,以0.2為步長(zhǎng)。每個(gè)(max_depth,subsample)參數(shù)對(duì)的準(zhǔn)確率見表4。
由表4可見,subsample=0.5,max_depth=9準(zhǔn)確率最高,即在這個(gè)值附近進(jìn)行小范圍的調(diào)優(yōu)。max_depth的取值區(qū)間為[8,10],subsample的取值區(qū)間為[0.4,0.6],每個(gè)(max_depth,subsample)參數(shù)對(duì)的準(zhǔn)確率見表5。
表4 參數(shù)粗調(diào)表Table 4 Parameter coarse adjustment table
表5 參數(shù)細(xì)調(diào)表Table 5 Parameter adjustment table
由表5可見,subsample=0.6,max_depth=9附近分類效果比較好。選取subsample=0.6,max_depth=9構(gòu)建Xgoost模型進(jìn)行分類驗(yàn)證,對(duì)數(shù)據(jù)采用五折交叉驗(yàn)證進(jìn)行分類,每組數(shù)據(jù)重復(fù)10次實(shí)驗(yàn),得出各分類指標(biāo)的平均值見表6。
由表6可見,使用默認(rèn)參數(shù)的Xgboost算法進(jìn)行二分類時(shí),準(zhǔn)確率和精確率均為0.80~0.85,召回率為0.66~0.72,F(xiàn)-score為0.72~0.77。使用調(diào)優(yōu)Xgboost算法準(zhǔn)確率則提升到0.88左右,精確率提升到0.86左右,召回率提升到0.80左右,F(xiàn)-score提升到0.84左右。
表6 樹的最大深度取9,每棵樹隨機(jī)采樣的比例為0.6Table 6 Maximum depth of the tree is 9, and the random sampling ratio of each tree is 0.6
3.3.2 與其他機(jī)器算法模型的比較
在密封繼電器多余物檢測(cè)領(lǐng)域,支持向量機(jī)算法應(yīng)用的較為廣泛。近幾年,集成算法越來越多地被應(yīng)用到工業(yè)領(lǐng)域中,其中GBDT算法和Adaboost算法比較具有代表性[7-8]。本次實(shí)驗(yàn)使用5組實(shí)驗(yàn)數(shù)據(jù),分別采用基于參數(shù)調(diào)優(yōu)的svm算法,默認(rèn)參數(shù)的Xgboost算法,Xgboost調(diào)優(yōu)算法[9-10],基于梯度提升決策樹(GBDT)算法和基于參數(shù)優(yōu)化的Adaboost算法對(duì)密封繼電器多余物信號(hào)進(jìn)行判斷[11],各算法的準(zhǔn)確率和F-score情況見圖5、圖6。
圖5 各算法的準(zhǔn)確率值Fig.5 Accuracy value of each algorithm
圖6 各算法的F-score值Fig.6 F-score value of each algorithm
在本次實(shí)驗(yàn)使用的5組數(shù)據(jù)集中,使用參數(shù)為subsample=0.6,max_depth=9構(gòu)建的Xgoost模型比使用默認(rèn)參數(shù)的Xgboost算法在準(zhǔn)確率上最高提升幅度為15%,F(xiàn)-score提升了9%。比當(dāng)前工業(yè)上比較成熟的svm算法在準(zhǔn)確率上提升最大幅度為17%,F(xiàn)-score最大的提升幅度為34%。
由圖5、圖6可見,在多余物數(shù)據(jù)集上所有集成算法的準(zhǔn)確率和F-score都高于現(xiàn)在較為成熟的支持向量機(jī)算法,使用基于網(wǎng)格搜索和k折交叉檢驗(yàn)結(jié)合的方式對(duì)Xgboost進(jìn)行調(diào)優(yōu)在準(zhǔn)確率和F-score上都會(huì)比基于梯度提升決策樹(GBDT)算法和基于參數(shù)優(yōu)化的Adaboost算法有小幅度提升[12],因此在密封繼電器多余物信號(hào)檢測(cè)領(lǐng)域,調(diào)優(yōu)后的Xgboost算法能夠有效地提升判斷的準(zhǔn)確率。但是在第4組數(shù)據(jù)中,調(diào)優(yōu)后的Xgboost算法和基于梯度提升決策樹(GBDT)算法的準(zhǔn)確率相同,而且在F-score這個(gè)評(píng)價(jià)指標(biāo)上,使用基于梯度提升決策樹(GBDT)算法略優(yōu)于調(diào)優(yōu)后的Xgboost算法,未來在基于參數(shù)調(diào)優(yōu)Xgboost算法的基礎(chǔ)上結(jié)合其他算法去進(jìn)一步提高整體算法的性能。
本次實(shí)驗(yàn)使用了基于網(wǎng)格搜索和k折交叉檢驗(yàn)相結(jié)合的方法對(duì)Xgboost算法進(jìn)行參數(shù)調(diào)優(yōu),先進(jìn)行大范圍調(diào)優(yōu)再進(jìn)行小范圍調(diào)優(yōu)解決了參數(shù)太多導(dǎo)致耗時(shí)長(zhǎng)的問題,最終選取Xgboost的樹的最大深度為9和每棵樹隨機(jī)采樣的比例為0.6,構(gòu)建出最優(yōu)模型。通過多組實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證該模型的各項(xiàng)指標(biāo)優(yōu)于其自身和其他集成算法,并且比傳統(tǒng)的密封繼電器多余物信號(hào)檢測(cè)技術(shù)有大幅度提升。雖然準(zhǔn)確率大幅度提升,但算法要花費(fèi)更長(zhǎng)的時(shí)間進(jìn)行判別。