基于隨機(jī)森林結(jié)合前向序列選擇算法的鐵路隧道防水板檢測數(shù)據(jù)關(guān)鍵影響因素識別

2022-03-12 08:04侯秀林李世林張憲清姜惠峰

鐵道建筑 2022年2期

侯秀林李世林張憲清姜惠峰

1.中國鐵道科學(xué)研究院集團(tuán)有限公司標(biāo)準(zhǔn)計量研究所，北京 100081；2.中鐵檢驗認(rèn)證中心有限公司，北京 100081

通過分析鐵路產(chǎn)品多年檢測產(chǎn)生的大量數(shù)據(jù)，可得到產(chǎn)品的特征指標(biāo)，為創(chuàng)新檢驗檢測方法、提高檢驗檢測效率提供技術(shù)支撐。傳統(tǒng)的影響因素識別方法存在依賴經(jīng)驗、多因素分析能力弱、僅能讀取數(shù)值型特征等問題，導(dǎo)致關(guān)鍵影響因素錯漏?；跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)理論，探索更加智能高效的方法來分析檢驗檢測數(shù)據(jù)，獲得產(chǎn)品的關(guān)鍵影響特征，有助于改進(jìn)后續(xù)同類產(chǎn)品的檢驗工作并指導(dǎo)產(chǎn)品的后續(xù)生產(chǎn)。

鐵路隧道防水板是一種熱塑性塑料［1］，加工流程復(fù)雜，涉及不同材質(zhì)的不同特性，相關(guān)的檢測指標(biāo)高達(dá)26項。TB/T 3360.1—2014《鐵路隧道防水材料第1部分防水板》［2］實行后，防水板檢測不合格率驟增，嚴(yán)重影響了檢測效能。本文基于防水板檢測數(shù)據(jù)，提出隨機(jī)森林（Random Forest，RF）算法與前向序列選擇（Sequential Forward Selection，SFS）算法相結(jié)合的RF?SFS算法并運用于防水板檢測關(guān)鍵特征選擇，獲得影響防水板檢測合格率的關(guān)鍵因素，為智能化鐵路產(chǎn)品檢驗檢測標(biāo)準(zhǔn)編制提供理論支撐和技術(shù)手段。

1 方法介紹

特征選擇方法是近年來機(jī)器學(xué)習(xí)、模式識別和統(tǒng)計學(xué)等領(lǐng)域的重要方法，是獲得模型最好性能特征集的方法［3-6］。該方法分為3類。

1.1 過濾器法

過濾器法通過檢驗特征與目標(biāo)變量之間的關(guān)聯(lián)性與信息內(nèi)容進(jìn)行特征選擇，包含皮爾森相關(guān)系數(shù)法、互信息法等，屬于傳統(tǒng)的數(shù)據(jù)處理方法，特征選擇的過程與后續(xù)建模無關(guān)。其優(yōu)點是易于計算，避免過擬合。缺點是：僅能給出特征相對結(jié)果向量的關(guān)鍵性，不能判定特征是有效特征還是冗余特征；依賴特征與結(jié)果向量之間的關(guān)系，忽略變量之間的關(guān)系，易導(dǎo)致關(guān)鍵特征錯漏；僅能處理數(shù)值型特征，不能直接用于處理離散型特征。

1.2 包裹式法

包裹式法為自定義學(xué)習(xí)器選擇最有利于其性能的特征子集，進(jìn)行迭代優(yōu)化，包含SFS算法與后向序列選擇（Sequential Backward Selection，SBS）算法。SFS算法是指從空集開始搜索，每次選擇一個特征加入到這個特征子集中，通過迭代選出使得學(xué)習(xí)器預(yù)測能力達(dá)到最優(yōu)值的特征子集。包裹式法可以彌補過濾器法的缺點，但容易陷入局部最優(yōu)解，并且由于在特征選擇過程中需多次訓(xùn)練學(xué)習(xí)器，計算開銷較大。

1.3 嵌入式法

嵌入式法在學(xué)習(xí)器訓(xùn)練過程中自動進(jìn)行特征選擇，通過將特征選擇納入訓(xùn)練過程而減少對不同子集進(jìn)行重新分類的計算時間，包含RF算法。RF算法是一種基于決策樹算法的自助聚合算法［7］，已被證明具有很高的準(zhǔn)確性，對異常值和噪聲具有穩(wěn)定性，且能有效規(guī)避過擬合［8］，可直接處理數(shù)值型和離散型數(shù)據(jù)。RF算法在建模時可為每個特征賦予關(guān)鍵性度量，得出特征關(guān)鍵性評分序列。由于RF算法具有隨機(jī)選擇樣本和隨機(jī)選擇特征的特點，建模時使用多個基學(xué)習(xí)器進(jìn)行預(yù)測，最后投票選出最優(yōu)模型［9］。該方法可以檢測到特征之間的相互作用對模型的影響，其缺點是無法判定特征有效性。

2 RF建模

2.1 數(shù)據(jù)清洗

選取2007年—2020年的防水板檢測數(shù)據(jù)作為樣本數(shù)據(jù)集，共計1 405份檢測報告，每份檢測報告包含30項特征。30項特征中包含26個檢測指標(biāo)與4個外部影響因素，它們共同作用于檢測結(jié)果。其中，VA含量、人工候化、拉伸強度、斷裂伸長率、撕裂強度、刺破強度等為數(shù)值型特征；不透水性、生產(chǎn)年份、樣品來源等為離散型特征。此外，將檢測結(jié)果作為目標(biāo)特征，分為合格和不合格兩類。

由于檢測委托項目不同，需檢測的特征項也不盡相同，部分報告存在特征缺失的問題，需對數(shù)據(jù)集進(jìn)行篩選。剔除50%以上特征缺失的數(shù)據(jù)后，有效樣本數(shù)量為1 224份。缺失率前二十的特征缺失模式如圖1所示?？芍笔实呐判蚧景凑諜z測項目呈現(xiàn)聚集性排列。例如，同時缺失刺破強度和VA含量的報告有234份。

圖1 缺失率前二十的特征缺失模式

簡單地去除所有包含缺失值的樣本數(shù)據(jù)將導(dǎo)致有效數(shù)據(jù)不足，所以在使用RF算法建模時對缺失數(shù)據(jù)進(jìn)行補空處理，數(shù)值型特征的空值用中位數(shù)補齊，離散型特征的空值用眾數(shù)補齊，形成有效數(shù)據(jù)集。

2.2 RF模型結(jié)構(gòu)

在總樣本集中隨機(jī)抽取90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集D=｛（x1，y1），（x2，y2），…，（xn，yn）｝，剩余10%作為測試數(shù)據(jù)集。其中，x=(x1，x2，…，xn)為樣本特征向量，y=(y1，y2，…，yn)為檢測結(jié)果。

RF算法模型如圖2所示。

圖2 RF模型結(jié)構(gòu)

1）從訓(xùn)練數(shù)據(jù)集中有放回地取樣，即自助采樣法，得到T個含m個特征的基學(xué)習(xí)器，其中T=｛1，…，t｝，m為基學(xué)習(xí)器使用的特征個數(shù)，M為總特征數(shù)目。

2）輸入特征數(shù)目m，對于每個節(jié)點，隨機(jī)選擇m個特征，再從這個子集中選擇一個最優(yōu)特征進(jìn)行劃分。

3）生成分類樹ht，得到對樣本x的預(yù)測H（x）作為分類結(jié)果：

其中∏（·）為指示函數(shù)。

4）投票選擇最優(yōu)檢測結(jié)果分類［10］。

2.3 模型評估

評估模型的預(yù)測能力有多種指標(biāo)，常用準(zhǔn)確率和受試者工作特征（Receiver Operating Characteristic，ROC）曲線。由于樣本數(shù)據(jù)集中的不合格率僅為14%，屬于不平衡數(shù)據(jù)集，準(zhǔn)確率無法正確地表現(xiàn)模型效果。ROC曲線是反映真陽性率（True Positive Rate）和假陽性率（False Positive Rate）連續(xù)變量的綜合指標(biāo)［11］，對不平衡數(shù)據(jù)具有穩(wěn)健性。因此，選取ROC曲線評估預(yù)測模型的準(zhǔn)確性。

ROC曲線用構(gòu)圖法揭示靈敏性和特異性的相互關(guān)系，通過將連續(xù)變量設(shè)定出多個不同的閾值，從而計算出一系列真陽性率和假陽性率，再以真陽性率為縱坐標(biāo)、假陽性率為橫坐標(biāo)繪制曲線，曲線下面積越大，預(yù)測準(zhǔn)確性越高。AUC（Area Under the Curve）是ROC曲線下的面積。當(dāng)AUC值為0.5時，學(xué)習(xí)器與隨機(jī)猜測模型一致，模型無預(yù)測價值；當(dāng)AUC值為1時，模型為完美學(xué)習(xí)器。通常情況下AUC值在0.5~1.0。

由于RF算法不會產(chǎn)生過擬合現(xiàn)象，隨著基學(xué)習(xí)器增加，RF算法通常會收斂到更低的泛化誤差，再增加基學(xué)習(xí)器的數(shù)目，效果基本不會提升［12］，只會使算法效率降低。考慮運算效率，選擇模型參數(shù)T=500；防水板數(shù)據(jù)有30個特征，根據(jù)式（1）取整選擇m=5。采用十折交叉驗證法得到的均值繪制的ROC曲線見圖3?？芍?，防水板檢測數(shù)據(jù)RF模型的AUC值為99.46%，表明該模型具有非常強的分類預(yù)測能力。

圖3 防水板檢測數(shù)據(jù)RF模型的ROC曲線

3 RF?SFS關(guān)鍵特征識別

3.1 RF關(guān)鍵特征評分算法

RF算法關(guān)鍵特征評分是計算隨機(jī)改變某一特征后RF模型預(yù)測誤差增大的程度［13］。對于樣本T=｛1，…，t｝和訓(xùn)練數(shù)據(jù)集D，評分如下。

1）在自助取樣法中，每個基學(xué)習(xí)器只使用了初始訓(xùn)練集中約2/3的樣本，剩余約1/3的樣本為包外樣本，確定包外樣本集Dt，oob。

2）使用決策樹ht預(yù)測Dt，oob的分類，令Hoob（x）表示對樣本x的包外預(yù)測。

對預(yù)測正確類的次數(shù)加總并計算包外誤差εoob。

3）對于特征M=｛1，…，m｝，在Dt，oob中重新隨機(jī)排列特征xm的值，其余特征的值不變。

4）使用ht通過排列的xm值來預(yù)測Dt，oob的分類，將預(yù)測Dt，oob樣本的正確分類次數(shù)加總并計算排列后的包外誤差

5）在T棵樹上計算包外樣本和排列后包外樣本的誤差差異，取其平均值即為特征m的關(guān)鍵性評分--Pm。

使用樣本數(shù)據(jù)計算30個特征的關(guān)鍵性評分，取十折交叉驗證得出的平均分，按分?jǐn)?shù)從高到低進(jìn)行排序，如圖4所示。可知，關(guān)鍵性評分最高的特征為VA含量，達(dá)43.74，其次為縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率。關(guān)鍵性評分最低的3個特征為縱向低溫彎折性、不透水性、橫向低溫彎折性。

圖4 特征關(guān)鍵性評分排序

3.2 SFS算法

給定總特征集F=｛f1，f2，…，fn｝，f為特征總數(shù)，可將每個特征看做一個候選子集，對f個候選特征子集進(jìn)行建模，評價其預(yù)測能力，假定｛f2｝最優(yōu)，將其作為第一輪的選定子集；然后，在上一輪的選定集中加入一個特征，構(gòu)成包含兩個特征的候選子集，假定在這f-1個候選特征子集中｛f2，f4｝最優(yōu)，且優(yōu)于｛f2｝，于是將｛f2，f4｝作為本輪的選定集。令i∈（0，f］且為整數(shù)，假定運行到第i輪時，最優(yōu)的候選特征子集不如第i-1輪的選定集，則停止生成候選子集，并將上一輪選定的包含i-1個特征的集合作為特征選擇結(jié)果。

3.3 RF?SFS算法

Huang等［14］研究的特征數(shù)量超過200項，使用RF的特征關(guān)鍵性評分序列以步長為10個特征進(jìn)行預(yù)選擇，形成預(yù)選特征集，達(dá)到降維目的，隨后使用傳統(tǒng)SBS方法得出關(guān)鍵特征。該方法適用于特征數(shù)目超過100項的數(shù)據(jù)，一定程度上降低了算法的時間復(fù)雜度，但沒有解決SBS算法易陷入局部最優(yōu)解、導(dǎo)致關(guān)鍵特征錯漏的缺點。

本文提出的RF?SFS方法流程如圖5所示。其中，防水板數(shù)據(jù)中f為30，特征關(guān)鍵性評分序列S順序參見圖4。

圖5 RF?SFS算法流程

RF?SFS算法彌補了RF算法關(guān)鍵特征評分算法無法判別特征有效性的缺點，改進(jìn)了SFS算法隨機(jī)添加特征的方式。根據(jù)特征關(guān)鍵性評分序列由高到低排列，遍歷特征子集，可使SFS算法的時間復(fù)雜度［15］由O（n2）降低至O（1），并且遍歷的方式可以避免算法陷入局部最優(yōu)解。

3.4 關(guān)鍵影響因素識別與分析

選用關(guān)鍵性評分排名前m個特征預(yù)測時的RF模型AUC曲線見圖6?？芍孩賰H選用VA含量一個特征時，ROC曲線的AUC值為66.07%。選用VA含量和縱向撕裂強度兩個特征時，AUC值為73.85%。當(dāng)繼續(xù)加入人工候化橫向斷裂拉伸強度保持率以及年份特征時，RF模型的AUC值分別達(dá)到了96.41%和99.91%。隨著關(guān)鍵特征的加入，模型的預(yù)測能力逐步提升。②當(dāng)AUC值達(dá)到99.98%后，隨著特征數(shù)量增加AUC值逐步降低，說明冗余特征的加入降低了模型的預(yù)測能力。選擇前6個特征時，AUC達(dá)到峰值99.98%，隨后AUC開始下降，表明關(guān)鍵特征集為包含序列前6個特征的K6集合。

圖6 選用關(guān)鍵性評分排名前m個特征預(yù)測RF模型AUC曲線

K6集合中的特征包括VA含量、2個人工候化相關(guān)參數(shù)、2個撕裂強度特征，說明其對檢測結(jié)果的影響較大。實際生產(chǎn)過程中造成不合格主要有4個原因：①產(chǎn)品配方體系不同造成的影響；②填料的選擇不適宜、比例不合理；③再生料添加比例過高，生產(chǎn)過程控制不嚴(yán)；④部分企業(yè)沒有人工候化處理的專用檢測設(shè)備，出廠時沒有進(jìn)行該項的確認(rèn)和驗證試驗。

大量試驗表明，這些原因?qū)е铝水a(chǎn)品VA含量、拉伸性能、撕裂性能不合格，與RF模型預(yù)測是一致的。進(jìn)一步分析得出，人工候化、撕裂強度和VA含量互為關(guān)聯(lián)，VA含量要達(dá)到標(biāo)準(zhǔn)中5%的要求，就必然要增加VA在配方體系中的比重，隨著VA含量增大，分子結(jié)構(gòu)的規(guī)整性變差，材料柔性增大，撕裂強度就會降低，同時導(dǎo)致人工候化性能降低，因此要生產(chǎn)出合格產(chǎn)品，合理的配方體系設(shè)計尤為重要。

除上述5個特征外，年份特征排在第4位。2007年—2020年防水板檢測數(shù)量如圖7所示。2007年防水板檢測數(shù)量很少，從2008年至2015年防水板檢測數(shù)量總體呈上升趨勢，之后稍有回落，在2019年又達(dá)到檢測數(shù)量峰值。從不合格占比來看，2015年和2016年的防水板檢測不合格報告占比較高，這是由于2014年10月30日發(fā)布了防水板新版鐵標(biāo)TB/T 3360.1—2014，增加VA含量不小于5%的要求。為達(dá)到該要求，國內(nèi)許多生產(chǎn)廠家對原有配方體系甚至原材料進(jìn)行變更，導(dǎo)致撕裂性能降低，不滿足標(biāo)準(zhǔn)要求。通過生產(chǎn)工藝、配方調(diào)整和不斷的試驗，從2017年開始不合格的防水板報告占比明顯下降。說明標(biāo)準(zhǔn)發(fā)生變化時，關(guān)鍵特征可能發(fā)生變化，需實時調(diào)整模型。

圖7 防水板檢測數(shù)量

4 模型驗證分析

為了驗證RF?SFS模型識別的關(guān)鍵特征有效性，基于RF?SFS方法獲得的關(guān)鍵性評分序列，將其按照評分遞減的方式分為5組特征子集，每組包含6個特征。以RF模型作為參考，建立防水板檢測數(shù)據(jù)集的分類與回歸樹（Classification and Regression Tree，CART）模型和支持向量機(jī)（Support Vector Machines，SVM）模型，比較RF、SVM、CART模型在不同特征子集下的AUC。

CART模型與RF模型同屬決策樹算法，可直接處理離散型與數(shù)值型特征，但因未使用自助聚合法對樣本進(jìn)行隨機(jī)抽取，在特征多的情況下易出現(xiàn)過擬合。SVM算法與決策樹算法分屬不同種類，其優(yōu)點是不容易受到噪聲、異常數(shù)據(jù)的影響，且不容易出現(xiàn)過擬合，缺點是尋找最優(yōu)模型需要測試不同的核函數(shù)和參數(shù)組合，并且最終訓(xùn)練結(jié)果是復(fù)雜的高維模型，通常無法直觀解釋。由于SVM算法無法直接處理離散型特征，建模前使用獨熱編碼對數(shù)據(jù)進(jìn)行預(yù)處理。

選用不同特征子集時各模型ROC曲線見圖8。可知：①包含所有特征的ROC曲線，RF模型（即RF?SFS模型）表現(xiàn)最好。②當(dāng)選取第1組特征時，3種模型的預(yù)測能力都得到了不同程度的提升。③當(dāng)選取第2組特征時，3種模型的預(yù)測能力出現(xiàn)了明顯下降，主要原因是第2組特征包含冗余特征，導(dǎo)致模型的預(yù)測能力下降。④當(dāng)選擇第3組、第4組特征時，3種模型的預(yù)測能力進(jìn)一步下降，SVM模型和CART模型的預(yù)測能力接近隨機(jī)猜測模型。其中，第4組特征子集的CART模型預(yù)測能力低于隨機(jī)猜測模型。⑤當(dāng)選擇第5組特征子集時，3種模型的預(yù)測能力達(dá)到最低，CART模型和SVM模型的預(yù)測能力低于隨機(jī)猜測模型，RF模型的預(yù)測能力略高于隨機(jī)猜測模型。

圖8 選用不同特征子集時各模型ROC曲線

對比分析上述5組特征子集的計算結(jié)果，RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用第1組特征子集時3種模型的預(yù)測能力均達(dá)到最佳，圖4的關(guān)鍵性評分排序以及第1組特征為防水板檢測數(shù)據(jù)集的關(guān)鍵特征得以驗證。

5 結(jié)論

1）基于機(jī)器學(xué)習(xí)理論對防水板檢測數(shù)據(jù)進(jìn)行預(yù)處理，剔除無效樣本數(shù)據(jù)，獲得有效樣本1 224份，并對缺失數(shù)據(jù)進(jìn)行補空。建立了防水板檢測數(shù)據(jù)的RF模型，使用ROC曲線對模型進(jìn)行評估，AUC值為99.46%，表明模型可有效預(yù)測防水板數(shù)據(jù)。

2）使用RF模型得出防水板特征關(guān)鍵性評分序列，結(jié)合SFS模型找到關(guān)鍵特征與冗余特征的分界點，可將SFS算法的時間復(fù)雜度由O（n2）降低至O（1），并且采用遍歷的方式可以避免算法陷入局部最優(yōu)解。通過RF?SFS方法獲得了6個影響防水板檢測的關(guān)鍵影響因素，包括VA含量、縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率、年份、橫向撕裂強度、人工候化縱向斷裂拉伸強度保持率。在僅選用6個關(guān)鍵特征進(jìn)行檢測時，模型的預(yù)測能力達(dá)到了99.98%。若將其作為標(biāo)準(zhǔn)編制的參考，可提高檢測效率。

3）對比分析了5組特征子集下RF、SVM、CART模型的預(yù)測能力，表明RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用關(guān)鍵影響因素子集時3種模型的預(yù)測能力均達(dá)到最佳，AUC值分別為99.98%、93.03%、90.02%，進(jìn)一步驗證了RF?SFS識別方法的準(zhǔn)確性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡