基于參數(shù)調(diào)優(yōu)Xgboost算法的多余物信號(hào)檢測(cè)技術(shù)

2020-11-06 09:21李超然趙娜靖王國(guó)濤

黑龍江大學(xué)工程學(xué)報(bào) 2020年3期

李超然，趙娜靖，李碩，王國(guó)濤,2,*

(1.黑龍江大學(xué) 電子工程學(xué)院，哈爾濱 150080;2.哈爾濱工業(yè)大學(xué) 軍用電器研究所，哈爾濱 150001)

0 引言

由于我國(guó)工業(yè)制造水平有限，多余物粒子會(huì)在密封繼電器生產(chǎn)過程中，封裝于內(nèi)部形成多余物。密封繼電器常處在失重，超重等突發(fā)沖擊的工作環(huán)境。內(nèi)部的多余物粒子會(huì)被沖擊出來，隨機(jī)碰撞，當(dāng)卡在繼電器某些關(guān)鍵的器件和組件部位，就會(huì)對(duì)密封繼電器的穩(wěn)定性和可靠性產(chǎn)生極大的危害，既造成性能的降低，也造成內(nèi)部電路的短路和異常[1]。

2005年，張輝采用彈性球理論，建立了顆粒碰撞噪聲檢測(cè)的動(dòng)力學(xué)模型，為找到最佳振動(dòng)試驗(yàn)條件奠定了基礎(chǔ)[2]。2006年，高宏亮在前人的基礎(chǔ)上研制了基于PIND法的密封電子元器件多余物自動(dòng)檢測(cè)系統(tǒng)，實(shí)現(xiàn)組件松動(dòng)的檢測(cè)[3]。2008年王世成針對(duì)軍用電子元器件提出了多余物有無的識(shí)別方法[4]。2011年針對(duì)星載電子設(shè)備，烏英嘎從多余物和可動(dòng)組件的自由度分析，指出多余物脈沖是由強(qiáng)到弱逐漸衰減的過程，而固有機(jī)械信號(hào)是一個(gè)先逐漸上升然后逐漸下降的振動(dòng)衰減過程，提出采用波形對(duì)稱度來區(qū)分固有機(jī)械信號(hào)和多余物信號(hào)[5]。上述方法在工程應(yīng)用方面，解決了密封繼電器多余物檢測(cè)技術(shù)存在的問題，但是檢測(cè)的準(zhǔn)確度還有待提高。

本次實(shí)驗(yàn)將Xgboost算法應(yīng)用到多余物信號(hào)檢測(cè)技術(shù)中，使用網(wǎng)格搜索[6]和k折交叉檢驗(yàn)結(jié)合的方法，搜索出Xgboost樹的最大深度和每棵樹隨機(jī)采樣的最好比例，之后使用參數(shù)調(diào)優(yōu)的Xgboost算法建立分類模型對(duì)密封繼電器中的多余物信號(hào)和組件信號(hào)進(jìn)行分類。

1 多余物檢測(cè)信號(hào)特征分析

1.1 多余物信號(hào)

多余物會(huì)在振動(dòng)臺(tái)振動(dòng)的過程中開始在密封繼電器內(nèi)部游離，與密封繼電器壁或其內(nèi)部部件發(fā)生碰撞產(chǎn)生能量，該能量會(huì)被振動(dòng)臺(tái)下方安置的聲發(fā)射傳感器捕獲進(jìn)行轉(zhuǎn)換并輸出為電壓信號(hào)即多余物信號(hào)。在整個(gè)時(shí)間軸上，多余物脈沖信號(hào)產(chǎn)生具有隨機(jī)性，碰撞與尖峰脈沖相對(duì)應(yīng)。多余物脈沖波形見圖1。

圖1 多余物脈沖時(shí)域波形Fig.1 Time domain waveform of the excess pulse

多余物脈沖頻域波形見圖2。由圖2可見，多余物信號(hào)頻率達(dá)到峰值時(shí)，會(huì)迅速衰減。外部干擾、外部激勵(lì)條件、多余物的材質(zhì)、粒徑、傳輸介質(zhì)等都會(huì)影響脈沖的頻率特性和形狀，因此多余物信號(hào)變化沒有規(guī)律性。

圖2 多余物脈沖頻域波形Fig.2 Frequency domain waveform of surplus pulse

1.2 組件信號(hào)

密封繼電器組件信號(hào)是在進(jìn)行PIND實(shí)驗(yàn)的過程中繼電器內(nèi)部線路連接和電路板、繼電器壁撞擊產(chǎn)生的聲音由振動(dòng)臺(tái)下方安置的傳感器轉(zhuǎn)換成輸出信號(hào)。組件信號(hào)是因?yàn)槔^電器的特殊內(nèi)部構(gòu)造產(chǎn)生的信號(hào)，擁有和多余物信號(hào)相似的尖峰脈沖，但是組件信號(hào)波形具有周期性，見圖3。

由圖3可見，在時(shí)間軸上，組件信號(hào)擁有多余物信號(hào)一樣的擁有尖峰脈沖的特點(diǎn)，但是組件信號(hào)呈現(xiàn)出明顯的周期性，組件信號(hào)頻域波形見圖4，可見在時(shí)間軸上有一段起振和衰減的過程。

圖3 組件信號(hào)時(shí)域波形Fig.3 Component signal time domain waveform

圖4 組件信號(hào)頻域波形Fig.4 Frequency domain waveform of component signal

由圖1～圖4可見，組件信號(hào)和多余物信號(hào)在頻域和時(shí)域上差別不大。把參考周期設(shè)置為外部震動(dòng)周期，當(dāng)組件脈沖存在于不同周期時(shí)，脈沖發(fā)生的時(shí)刻基本一致。

因?yàn)樗蓜?dòng)組件的位置基本固定，組件信號(hào)中不同脈沖的形狀類似，這也是撞擊速度不變，傳播距離固定，傳輸介質(zhì)周期性變化，從而傳感器每次接收到的能量一致。松動(dòng)組件數(shù)量是無法確定的，而且多個(gè)組件脈沖可能存在于一個(gè)振動(dòng)周期中，組件信號(hào)的振動(dòng)發(fā)送不是同步的。在時(shí)間序列上，多余物信號(hào)脈沖序列的產(chǎn)生呈現(xiàn)不規(guī)則性，但是組件信號(hào)脈沖序列的產(chǎn)生呈現(xiàn)周期性。

在脈沖波形形狀上，多余物不同脈沖的不同波形各式各樣，但是組件的脈沖波形相似，多余物信號(hào)和組件信號(hào)在波形形狀上的差別難以區(qū)分。

1.3 數(shù)據(jù)集特征提取與篩選

本次實(shí)驗(yàn)使用的是PIND檢測(cè)系統(tǒng)，為了讓密封繼電器內(nèi)部的多余物激活，將系統(tǒng)條件設(shè)置為機(jī)械沖擊，從而給予繼電器內(nèi)部周期性的振蕩。激活后的多余物粒子會(huì)在繼電器空間內(nèi)部發(fā)生碰撞從而產(chǎn)生聲音信號(hào)，振動(dòng)臺(tái)下面安置的有聲發(fā)射傳感器會(huì)將其捕捉，然后傳輸?shù)接?jì)算機(jī)上將其顯示成波形，通過PIND系統(tǒng)內(nèi)部的程序進(jìn)行量化，轉(zhuǎn)成數(shù)據(jù)并將重要的特征參數(shù)提取出來。

為了在大量的數(shù)據(jù)中找出有效的特征，從而壓縮空間中的維數(shù)，因?yàn)椴煌惖哪Ｐ忘c(diǎn)在特征空間中的距離較遠(yuǎn)，同類模型點(diǎn)的距離較近，可將特征篩選出來。在眾多的特征中，每次選擇一個(gè)特征保持不變，計(jì)算其信息增益比，通過信息增益比來衡量分類標(biāo)簽和每個(gè)特征之間的相關(guān)度。信息增益比是信息增益g(D,A)與訓(xùn)練集D關(guān)于特征A的值的熵HA(D)之比。信息增益是以特征A劃分?jǐn)?shù)據(jù)集D前的熵與劃分?jǐn)?shù)據(jù)集D后熵的差值，HA(D)的倒數(shù)為懲罰因子，特征個(gè)數(shù)越多，懲罰因子越??；特征個(gè)數(shù)越少，懲罰因子越大。具體公式如下：

(1)

計(jì)算每個(gè)特征的信息增益進(jìn)行排序，尋找出所有特征中信息增益高于平均水平的特征，再計(jì)算這些特征對(duì)應(yīng)的信息增益率，選取信息增益率較高的特征。特征選擇見表1。

表1 特征介紹Table 1 Introduction of features

2 基于參數(shù)調(diào)優(yōu)的Xgboost算法

2.1 Xgboost算法

Xgboost是一種集成樹模型，是在梯度提升算法的基礎(chǔ)上[7-8]，將多個(gè)弱分類器集成為一個(gè)強(qiáng)分類器，其本質(zhì)是不同的單個(gè)決策樹的組合[9-10]。因?yàn)椴皇撬械膿p失函數(shù)都是二次函數(shù)，所以引入泰勒展開從而進(jìn)行凸優(yōu)化，與此同時(shí)采用了分布式計(jì)算完成了在系統(tǒng)層面的優(yōu)化。算法步驟如下：

目標(biāo)函數(shù)：

(2)

通過泰勒展開得

(3)

其中：

(4)

(5)

由

(6)

可得

(7)

定義：

Gj=∑i∈Ijgi,Hj=∑i∈Ijhi

(8)

公式化簡(jiǎn)為

(9)

通過對(duì)wj求偏導(dǎo)等于零可得

(10)

(11)

通過以上各式可得一個(gè)分隔增益公式：

(12)

2.2 基于網(wǎng)格搜索和交叉檢驗(yàn)的Xgboost參數(shù)調(diào)優(yōu)

Xgboost算法中樹的最大深度max_depth和每棵樹隨機(jī)采樣的比例subsample這兩個(gè)參數(shù)對(duì)模型性能有很大的影響。但是當(dāng)前在Xgboost參數(shù)調(diào)優(yōu)上還停留在多次實(shí)驗(yàn)選出參數(shù)的階段上，這樣會(huì)導(dǎo)致模型性能不穩(wěn)定。

針對(duì)這個(gè)問題，本次實(shí)驗(yàn)使用網(wǎng)格搜索和k折交叉檢驗(yàn)結(jié)合的方法選取最優(yōu)參數(shù)，設(shè)定網(wǎng)格范圍對(duì)(max_depth,subsample)去進(jìn)行遍歷，每組參數(shù)對(duì)的準(zhǔn)確率使用k折交叉檢驗(yàn)法去計(jì)算，通過最高的準(zhǔn)確率進(jìn)而找到(max_depth,subsample)的全局最優(yōu)解。具體步驟如下：

1)參數(shù)大范圍調(diào)優(yōu)。max_depth設(shè)定的大范圍區(qū)間為[1,9]，該區(qū)間以2為步長(zhǎng)，subsample設(shè)定的大范圍區(qū)間為[0.1,0.9],該區(qū)間以0.2為步長(zhǎng)。這兩個(gè)區(qū)間構(gòu)成網(wǎng)格，其中每個(gè)網(wǎng)格點(diǎn)對(duì)應(yīng)一個(gè)(max_depth，subample)參數(shù)對(duì)。

2)k折交叉檢驗(yàn)。使用k折交叉檢驗(yàn)的方法，將數(shù)據(jù)集輪流抽取k-1份作為訓(xùn)練數(shù)據(jù)，留下的一份作為測(cè)試集，去訓(xùn)練每一組參數(shù)對(duì)應(yīng)的模型，求出每組模型的準(zhǔn)確率。

3)選取大范圍的最優(yōu)參數(shù)。針對(duì)網(wǎng)格中的每一個(gè)交叉點(diǎn)即一個(gè)參數(shù)對(duì)，使用k折交叉檢驗(yàn)求出對(duì)應(yīng)參數(shù)的模型進(jìn)行二分類的準(zhǔn)確率，選取準(zhǔn)確率最高的為當(dāng)前最優(yōu)參數(shù)記為(max_depthS，subsampleS)。

4)參數(shù)小范圍調(diào)優(yōu)。把max_depthS上下范圍拓展1，subsampleS上下范圍拓展0.1。因?yàn)橹癕ax_depth區(qū)間步長(zhǎng)是2，subsample區(qū)間步長(zhǎng)為0.2。

5)確定最優(yōu)參數(shù)。重復(fù)Step2和step3，二分類準(zhǔn)確率最高的模型對(duì)應(yīng)的參數(shù)對(duì)即為最優(yōu)參數(shù)。

3 實(shí)驗(yàn)與仿真分析

3.1 評(píng)價(jià)指標(biāo)

Xgboost分類器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)是否正確，TP表示將正類預(yù)測(cè)為正類的樣本數(shù)量[11-12]，TN表示將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù)量，F(xiàn)P表示將負(fù)類預(yù)測(cè)為正類的樣本數(shù)量，F(xiàn)N表示將正類預(yù)測(cè)為負(fù)類的樣本數(shù)量，本次實(shí)驗(yàn)通過混淆矩陣的形式將4種情況列出，混淆矩陣見表2。

表2 二分類混淆矩陣Table 2 Two-class confusion matrix

定義1：準(zhǔn)確率：

(13)

準(zhǔn)確率越高，分類效果越好，但是在正負(fù)樣本不均衡的情況下，準(zhǔn)確率作為評(píng)判標(biāo)注不合適。需要用precision，recall和f1-measure來評(píng)價(jià)模型的整體性能。

定義2：召回率：被模型判定為正類占數(shù)據(jù)集中所有正類的比例。

(14)

定義3：精確率：在被模型判定為正類別的樣本中，真實(shí)為正類的比例。

(15)

定義4：F-score：精確率和召回率的加權(quán)調(diào)和平均。

(16)

3.2 實(shí)驗(yàn)數(shù)據(jù)

本次實(shí)驗(yàn)通過PIND實(shí)驗(yàn)器采集5組實(shí)驗(yàn)樣本，每組實(shí)驗(yàn)樣本詳情見表3，每組數(shù)據(jù)由多余物信號(hào)數(shù)量和組件信號(hào)數(shù)量組成，正負(fù)樣本的比例近似為1∶2[13-14]。每組實(shí)驗(yàn)樣本隨機(jī)選取3/4樣品數(shù)據(jù)去訓(xùn)練當(dāng)前要進(jìn)行調(diào)優(yōu)的模型，剩下的1/4樣本數(shù)據(jù)作為該模型的測(cè)試集。

表3 5組樣本數(shù)據(jù)Table 3 Main information of 5 groups of sample data

3.3 實(shí)驗(yàn)仿真與分析

3.3.1 基于網(wǎng)格搜索與k折交叉檢驗(yàn)結(jié)合的調(diào)參方法

以分類準(zhǔn)確率作為每個(gè)(max_depth，subsample)參數(shù)對(duì)的評(píng)價(jià)指標(biāo)，先對(duì)參數(shù)進(jìn)行大范圍調(diào)優(yōu)即給予max_depth一個(gè)1到9的閉區(qū)間，以2為步長(zhǎng)；subsample一個(gè)0.1到0.9的閉區(qū)間，以0.2為步長(zhǎng)。每個(gè)(max_depth，subsample)參數(shù)對(duì)的準(zhǔn)確率見表4。

由表4可見，subsample=0.5，max_depth=9準(zhǔn)確率最高，即在這個(gè)值附近進(jìn)行小范圍的調(diào)優(yōu)。max_depth的取值區(qū)間為[8,10]，subsample的取值區(qū)間為[0.4,0.6],每個(gè)(max_depth，subsample)參數(shù)對(duì)的準(zhǔn)確率見表5。

表4 參數(shù)粗調(diào)表Table 4 Parameter coarse adjustment table

表5 參數(shù)細(xì)調(diào)表Table 5 Parameter adjustment table

由表5可見，subsample=0.6，max_depth=9附近分類效果比較好。選取subsample=0.6，max_depth=9構(gòu)建Xgoost模型進(jìn)行分類驗(yàn)證，對(duì)數(shù)據(jù)采用五折交叉驗(yàn)證進(jìn)行分類，每組數(shù)據(jù)重復(fù)10次實(shí)驗(yàn)，得出各分類指標(biāo)的平均值見表6。

由表6可見，使用默認(rèn)參數(shù)的Xgboost算法進(jìn)行二分類時(shí)，準(zhǔn)確率和精確率均為0.80～0.85，召回率為0.66～0.72，F(xiàn)-score為0.72～0.77。使用調(diào)優(yōu)Xgboost算法準(zhǔn)確率則提升到0.88左右，精確率提升到0.86左右，召回率提升到0.80左右，F(xiàn)-score提升到0.84左右。

表6 樹的最大深度取9，每棵樹隨機(jī)采樣的比例為0.6Table 6 Maximum depth of the tree is 9, and the random sampling ratio of each tree is 0.6

3.3.2 與其他機(jī)器算法模型的比較

在密封繼電器多余物檢測(cè)領(lǐng)域，支持向量機(jī)算法應(yīng)用的較為廣泛。近幾年，集成算法越來越多地被應(yīng)用到工業(yè)領(lǐng)域中，其中GBDT算法和Adaboost算法比較具有代表性[7-8]。本次實(shí)驗(yàn)使用5組實(shí)驗(yàn)數(shù)據(jù)，分別采用基于參數(shù)調(diào)優(yōu)的svm算法，默認(rèn)參數(shù)的Xgboost算法，Xgboost調(diào)優(yōu)算法[9-10]，基于梯度提升決策樹(GBDT)算法和基于參數(shù)優(yōu)化的Adaboost算法對(duì)密封繼電器多余物信號(hào)進(jìn)行判斷[11]，各算法的準(zhǔn)確率和F-score情況見圖5、圖6。

圖5 各算法的準(zhǔn)確率值Fig.5 Accuracy value of each algorithm

圖6 各算法的F-score值Fig.6 F-score value of each algorithm

在本次實(shí)驗(yàn)使用的5組數(shù)據(jù)集中，使用參數(shù)為subsample=0.6，max_depth=9構(gòu)建的Xgoost模型比使用默認(rèn)參數(shù)的Xgboost算法在準(zhǔn)確率上最高提升幅度為15%，F(xiàn)-score提升了9%。比當(dāng)前工業(yè)上比較成熟的svm算法在準(zhǔn)確率上提升最大幅度為17%，F(xiàn)-score最大的提升幅度為34%。

由圖5、圖6可見，在多余物數(shù)據(jù)集上所有集成算法的準(zhǔn)確率和F-score都高于現(xiàn)在較為成熟的支持向量機(jī)算法，使用基于網(wǎng)格搜索和k折交叉檢驗(yàn)結(jié)合的方式對(duì)Xgboost進(jìn)行調(diào)優(yōu)在準(zhǔn)確率和F-score上都會(huì)比基于梯度提升決策樹(GBDT)算法和基于參數(shù)優(yōu)化的Adaboost算法有小幅度提升[12]，因此在密封繼電器多余物信號(hào)檢測(cè)領(lǐng)域，調(diào)優(yōu)后的Xgboost算法能夠有效地提升判斷的準(zhǔn)確率。但是在第4組數(shù)據(jù)中，調(diào)優(yōu)后的Xgboost算法和基于梯度提升決策樹(GBDT)算法的準(zhǔn)確率相同，而且在F-score這個(gè)評(píng)價(jià)指標(biāo)上，使用基于梯度提升決策樹(GBDT)算法略優(yōu)于調(diào)優(yōu)后的Xgboost算法，未來在基于參數(shù)調(diào)優(yōu)Xgboost算法的基礎(chǔ)上結(jié)合其他算法去進(jìn)一步提高整體算法的性能。

4 結(jié) 論

本次實(shí)驗(yàn)使用了基于網(wǎng)格搜索和k折交叉檢驗(yàn)相結(jié)合的方法對(duì)Xgboost算法進(jìn)行參數(shù)調(diào)優(yōu)，先進(jìn)行大范圍調(diào)優(yōu)再進(jìn)行小范圍調(diào)優(yōu)解決了參數(shù)太多導(dǎo)致耗時(shí)長(zhǎng)的問題，最終選取Xgboost的樹的最大深度為9和每棵樹隨機(jī)采樣的比例為0.6，構(gòu)建出最優(yōu)模型。通過多組實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證該模型的各項(xiàng)指標(biāo)優(yōu)于其自身和其他集成算法，并且比傳統(tǒng)的密封繼電器多余物信號(hào)檢測(cè)技術(shù)有大幅度提升。雖然準(zhǔn)確率大幅度提升，但算法要花費(fèi)更長(zhǎng)的時(shí)間進(jìn)行判別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡