侯秀林 李世林 張憲清 姜惠峰
1.中國鐵道科學(xué)研究院集團(tuán)有限公司標(biāo)準(zhǔn)計量研究所,北京 100081;2.中鐵檢驗認(rèn)證中心有限公司,北京 100081
通過分析鐵路產(chǎn)品多年檢測產(chǎn)生的大量數(shù)據(jù),可得到產(chǎn)品的特征指標(biāo),為創(chuàng)新檢驗檢測方法、提高檢驗檢測效率提供技術(shù)支撐。傳統(tǒng)的影響因素識別方法存在依賴經(jīng)驗、多因素分析能力弱、僅能讀取數(shù)值型特征等問題,導(dǎo)致關(guān)鍵影響因素錯漏?;跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)理論,探索更加智能高效的方法來分析檢驗檢測數(shù)據(jù),獲得產(chǎn)品的關(guān)鍵影響特征,有助于改進(jìn)后續(xù)同類產(chǎn)品的檢驗工作并指導(dǎo)產(chǎn)品的后續(xù)生產(chǎn)。
鐵路隧道防水板是一種熱塑性塑料[1],加工流程復(fù)雜,涉及不同材質(zhì)的不同特性,相關(guān)的檢測指標(biāo)高達(dá)26項。TB/T 3360.1—2014《鐵路隧道防水材料 第1部分 防水板》[2]實行后,防水板檢測不合格率驟增,嚴(yán)重影響了檢測效能。本文基于防水板檢測數(shù)據(jù),提出隨機(jī)森林(Random Forest,RF)算法與前向序列選擇(Sequential Forward Selection,SFS)算法相結(jié)合的RF?SFS算法并運用于防水板檢測關(guān)鍵特征選擇,獲得影響防水板檢測合格率的關(guān)鍵因素,為智能化鐵路產(chǎn)品檢驗檢測標(biāo)準(zhǔn)編制提供理論支撐和技術(shù)手段。
特征選擇方法是近年來機(jī)器學(xué)習(xí)、模式識別和統(tǒng)計學(xué)等領(lǐng)域的重要方法,是獲得模型最好性能特征集的方法[3-6]。該方法分為3類。
過濾器法通過檢驗特征與目標(biāo)變量之間的關(guān)聯(lián)性與信息內(nèi)容進(jìn)行特征選擇,包含皮爾森相關(guān)系數(shù)法、互信息法等,屬于傳統(tǒng)的數(shù)據(jù)處理方法,特征選擇的過程與后續(xù)建模無關(guān)。其優(yōu)點是易于計算,避免過擬合。缺點是:僅能給出特征相對結(jié)果向量的關(guān)鍵性,不能判定特征是有效特征還是冗余特征;依賴特征與結(jié)果向量之間的關(guān)系,忽略變量之間的關(guān)系,易導(dǎo)致關(guān)鍵特征錯漏;僅能處理數(shù)值型特征,不能直接用于處理離散型特征。
包裹式法為自定義學(xué)習(xí)器選擇最有利于其性能的特征子集,進(jìn)行迭代優(yōu)化,包含SFS算法與后向序列選擇(Sequential Backward Selection,SBS)算法。SFS算法是指從空集開始搜索,每次選擇一個特征加入到這個特征子集中,通過迭代選出使得學(xué)習(xí)器預(yù)測能力達(dá)到最優(yōu)值的特征子集。包裹式法可以彌補過濾器法的缺點,但容易陷入局部最優(yōu)解,并且由于在特征選擇過程中需多次訓(xùn)練學(xué)習(xí)器,計算開銷較大。
嵌入式法在學(xué)習(xí)器訓(xùn)練過程中自動進(jìn)行特征選擇,通過將特征選擇納入訓(xùn)練過程而減少對不同子集進(jìn)行重新分類的計算時間,包含RF算法。RF算法是一種基于決策樹算法的自助聚合算法[7],已被證明具有很高的準(zhǔn)確性,對異常值和噪聲具有穩(wěn)定性,且能有效規(guī)避過擬合[8],可直接處理數(shù)值型和離散型數(shù)據(jù)。RF算法在建模時可為每個特征賦予關(guān)鍵性度量,得出特征關(guān)鍵性評分序列。由于RF算法具有隨機(jī)選擇樣本和隨機(jī)選擇特征的特點,建模時使用多個基學(xué)習(xí)器進(jìn)行預(yù)測,最后投票選出最優(yōu)模型[9]。該方法可以檢測到特征之間的相互作用對模型的影響,其缺點是無法判定特征有效性。
選取2007年—2020年的防水板檢測數(shù)據(jù)作為樣本數(shù)據(jù)集,共計1 405份檢測報告,每份檢測報告包含30項特征。30項特征中包含26個檢測指標(biāo)與4個外部影響因素,它們共同作用于檢測結(jié)果。其中,VA含量、人工候化、拉伸強度、斷裂伸長率、撕裂強度、刺破強度等為數(shù)值型特征;不透水性、生產(chǎn)年份、樣品來源等為離散型特征。此外,將檢測結(jié)果作為目標(biāo)特征,分為合格和不合格兩類。
由于檢測委托項目不同,需檢測的特征項也不盡相同,部分報告存在特征缺失的問題,需對數(shù)據(jù)集進(jìn)行篩選。剔除50%以上特征缺失的數(shù)據(jù)后,有效樣本數(shù)量為1 224份。缺失率前二十的特征缺失模式如圖1所示??芍笔实呐判蚧景凑諜z測項目呈現(xiàn)聚集性排列。例如,同時缺失刺破強度和VA含量的報告有234份。
圖1 缺失率前二十的特征缺失模式
簡單地去除所有包含缺失值的樣本數(shù)據(jù)將導(dǎo)致有效數(shù)據(jù)不足,所以在使用RF算法建模時對缺失數(shù)據(jù)進(jìn)行補空處理,數(shù)值型特征的空值用中位數(shù)補齊,離散型特征的空值用眾數(shù)補齊,形成有效數(shù)據(jù)集。
在總樣本集中隨機(jī)抽取90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},剩余10%作為測試數(shù)據(jù)集。其中,x=(x1,x2,…,xn)為樣本特征向量,y=(y1,y2,…,yn)為檢測結(jié)果。
RF算法模型如圖2所示。
圖2 RF模型結(jié)構(gòu)
1)從訓(xùn)練數(shù)據(jù)集中有放回地取樣,即自助采樣法,得到T個含m個特征的基學(xué)習(xí)器,其中T={1,…,t},m為基學(xué)習(xí)器使用的特征個數(shù),M為總特征數(shù)目。
2)輸入特征數(shù)目m,對于每個節(jié)點,隨機(jī)選擇m個特征,再從這個子集中選擇一個最優(yōu)特征進(jìn)行劃分。
3)生成分類樹ht,得到對樣本x的預(yù)測H(x)作為分類結(jié)果:
其中∏(·)為指示函數(shù)。
4)投票選擇最優(yōu)檢測結(jié)果分類[10]。
評估模型的預(yù)測能力有多種指標(biāo),常用準(zhǔn)確率和受試者工作特征(Receiver Operating Characteristic,ROC)曲線。由于樣本數(shù)據(jù)集中的不合格率僅為14%,屬于不平衡數(shù)據(jù)集,準(zhǔn)確率無法正確地表現(xiàn)模型效果。ROC曲線是反映真陽性率(True Positive Rate)和假陽性率(False Positive Rate)連續(xù)變量的綜合指標(biāo)[11],對不平衡數(shù)據(jù)具有穩(wěn)健性。因此,選取ROC曲線評估預(yù)測模型的準(zhǔn)確性。
ROC曲線用構(gòu)圖法揭示靈敏性和特異性的相互關(guān)系,通過將連續(xù)變量設(shè)定出多個不同的閾值,從而計算出一系列真陽性率和假陽性率,再以真陽性率為縱坐標(biāo)、假陽性率為橫坐標(biāo)繪制曲線,曲線下面積越大,預(yù)測準(zhǔn)確性越高。AUC(Area Under the Curve)是ROC曲線下的面積。當(dāng)AUC值為0.5時,學(xué)習(xí)器與隨機(jī)猜測模型一致,模型無預(yù)測價值;當(dāng)AUC值為1時,模型為完美學(xué)習(xí)器。通常情況下AUC值在0.5~1.0。
由于RF算法不會產(chǎn)生過擬合現(xiàn)象,隨著基學(xué)習(xí)器增加,RF算法通常會收斂到更低的泛化誤差,再增加基學(xué)習(xí)器的數(shù)目,效果基本不會提升[12],只會使算法效率降低。考慮運算效率,選擇模型參數(shù)T=500;防水板數(shù)據(jù)有30個特征,根據(jù)式(1)取整選擇m=5。采用十折交叉驗證法得到的均值繪制的ROC曲線見圖3??芍?,防水板檢測數(shù)據(jù)RF模型的AUC值為99.46%,表明該模型具有非常強的分類預(yù)測能力。
圖3 防水板檢測數(shù)據(jù)RF模型的ROC曲線
RF算法關(guān)鍵特征評分是計算隨機(jī)改變某一特征后RF模型預(yù)測誤差增大的程度[13]。對于樣本T={1,…,t}和訓(xùn)練數(shù)據(jù)集D,評分如下。
1)在自助取樣法中,每個基學(xué)習(xí)器只使用了初始訓(xùn)練集中約2/3的樣本,剩余約1/3的樣本為包外樣本,確定包外樣本集Dt,oob。
2)使用決策樹ht預(yù)測Dt,oob的分類,令Hoob(x)表示對樣本x的包外預(yù)測。
對預(yù)測正確類的次數(shù)加總并計算包外誤差εoob。
3)對于特征M={1,…,m},在Dt,oob中重新隨機(jī)排列特征xm的值,其余特征的值不變。
4)使用ht通過排列的xm值來預(yù)測Dt,oob的分類,將預(yù)測Dt,oob樣本的正確分類次數(shù)加總并計算排列后的包外誤差
5)在T棵樹上計算包外樣本和排列后包外樣本的誤差差異,取其平均值即為特征m的關(guān)鍵性評分--Pm。
使用樣本數(shù)據(jù)計算30個特征的關(guān)鍵性評分,取十折交叉驗證得出的平均分,按分?jǐn)?shù)從高到低進(jìn)行排序,如圖4所示。可知,關(guān)鍵性評分最高的特征為VA含量,達(dá)43.74,其次為縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率。關(guān)鍵性評分最低的3個特征為縱向低溫彎折性、不透水性、橫向低溫彎折性。
圖4 特征關(guān)鍵性評分排序
給定總特征集F={f1,f2,…,fn},f為特征總數(shù),可將每個特征看做一個候選子集,對f個候選特征子集進(jìn)行建模,評價其預(yù)測能力,假定{f2}最優(yōu),將其作為第一輪的選定子集;然后,在上一輪的選定集中加入一個特征,構(gòu)成包含兩個特征的候選子集,假定在這f-1個候選特征子集中{f2,f4}最優(yōu),且優(yōu)于{f2},于是將{f2,f4}作為本輪的選定集。令i∈(0,f]且為整數(shù),假定運行到第i輪時,最優(yōu)的候選特征子集不如第i-1輪的選定集,則停止生成候選子集,并將上一輪選定的包含i-1個特征的集合作為特征選擇結(jié)果。
Huang等[14]研究的特征數(shù)量超過200項,使用RF的特征關(guān)鍵性評分序列以步長為10個特征進(jìn)行預(yù)選擇,形成預(yù)選特征集,達(dá)到降維目的,隨后使用傳統(tǒng)SBS方法得出關(guān)鍵特征。該方法適用于特征數(shù)目超過100項的數(shù)據(jù),一定程度上降低了算法的時間復(fù)雜度,但沒有解決SBS算法易陷入局部最優(yōu)解、導(dǎo)致關(guān)鍵特征錯漏的缺點。
本文提出的RF?SFS方法流程如圖5所示。其中,防水板數(shù)據(jù)中f為30,特征關(guān)鍵性評分序列S順序參見圖4。
圖5 RF?SFS算法流程
RF?SFS算法彌補了RF算法關(guān)鍵特征評分算法無法判別特征有效性的缺點,改進(jìn)了SFS算法隨機(jī)添加特征的方式。根據(jù)特征關(guān)鍵性評分序列由高到低排列,遍歷特征子集,可使SFS算法的時間復(fù)雜度[15]由O(n2)降低至O(1),并且遍歷的方式可以避免算法陷入局部最優(yōu)解。
選用關(guān)鍵性評分排名前m個特征預(yù)測時的RF模型AUC曲線見圖6??芍孩賰H選用VA含量一個特征時,ROC曲線的AUC值為66.07%。選用VA含量和縱向撕裂強度兩個特征時,AUC值為73.85%。當(dāng)繼續(xù)加入人工候化橫向斷裂拉伸強度保持率以及年份特征時,RF模型的AUC值分別達(dá)到了96.41%和99.91%。隨著關(guān)鍵特征的加入,模型的預(yù)測能力逐步提升。②當(dāng)AUC值達(dá)到99.98%后,隨著特征數(shù)量增加AUC值逐步降低,說明冗余特征的加入降低了模型的預(yù)測能力。選擇前6個特征時,AUC達(dá)到峰值99.98%,隨后AUC開始下降,表明關(guān)鍵特征集為包含序列前6個特征的K6集合。
圖6 選用關(guān)鍵性評分排名前m個特征預(yù)測RF模型AUC曲線
K6集合中的特征包括VA含量、2個人工候化相關(guān)參數(shù)、2個撕裂強度特征,說明其對檢測結(jié)果的影響較大。實際生產(chǎn)過程中造成不合格主要有4個原因:①產(chǎn)品配方體系不同造成的影響;②填料的選擇不適宜、比例不合理;③再生料添加比例過高,生產(chǎn)過程控制不嚴(yán);④部分企業(yè)沒有人工候化處理的專用檢測設(shè)備,出廠時沒有進(jìn)行該項的確認(rèn)和驗證試驗。
大量試驗表明,這些原因?qū)е铝水a(chǎn)品VA含量、拉伸性能、撕裂性能不合格,與RF模型預(yù)測是一致的。進(jìn)一步分析得出,人工候化、撕裂強度和VA含量互為關(guān)聯(lián),VA含量要達(dá)到標(biāo)準(zhǔn)中5%的要求,就必然要增加VA在配方體系中的比重,隨著VA含量增大,分子結(jié)構(gòu)的規(guī)整性變差,材料柔性增大,撕裂強度就會降低,同時導(dǎo)致人工候化性能降低,因此要生產(chǎn)出合格產(chǎn)品,合理的配方體系設(shè)計尤為重要。
除上述5個特征外,年份特征排在第4位。2007年—2020年防水板檢測數(shù)量如圖7所示。2007年防水板檢測數(shù)量很少,從2008年至2015年防水板檢測數(shù)量總體呈上升趨勢,之后稍有回落,在2019年又達(dá)到檢測數(shù)量峰值。從不合格占比來看,2015年和2016年的防水板檢測不合格報告占比較高,這是由于2014年10月30日發(fā)布了防水板新版鐵標(biāo)TB/T 3360.1—2014,增加VA含量不小于5%的要求。為達(dá)到該要求,國內(nèi)許多生產(chǎn)廠家對原有配方體系甚至原材料進(jìn)行變更,導(dǎo)致撕裂性能降低,不滿足標(biāo)準(zhǔn)要求。通過生產(chǎn)工藝、配方調(diào)整和不斷的試驗,從2017年開始不合格的防水板報告占比明顯下降。說明標(biāo)準(zhǔn)發(fā)生變化時,關(guān)鍵特征可能發(fā)生變化,需實時調(diào)整模型。
圖7 防水板檢測數(shù)量
為了驗證RF?SFS模型識別的關(guān)鍵特征有效性,基于RF?SFS方法獲得的關(guān)鍵性評分序列,將其按照評分遞減的方式分為5組特征子集,每組包含6個特征。以RF模型作為參考,建立防水板檢測數(shù)據(jù)集的分類與回歸樹(Classification and Regression Tree,CART)模型和支持向量機(jī)(Support Vector Machines,SVM)模型,比較RF、SVM、CART模型在不同特征子集下的AUC。
CART模型與RF模型同屬決策樹算法,可直接處理離散型與數(shù)值型特征,但因未使用自助聚合法對樣本進(jìn)行隨機(jī)抽取,在特征多的情況下易出現(xiàn)過擬合。SVM算法與決策樹算法分屬不同種類,其優(yōu)點是不容易受到噪聲、異常數(shù)據(jù)的影響,且不容易出現(xiàn)過擬合,缺點是尋找最優(yōu)模型需要測試不同的核函數(shù)和參數(shù)組合,并且最終訓(xùn)練結(jié)果是復(fù)雜的高維模型,通常無法直觀解釋。由于SVM算法無法直接處理離散型特征,建模前使用獨熱編碼對數(shù)據(jù)進(jìn)行預(yù)處理。
選用不同特征子集時各模型ROC曲線見圖8。可知:①包含所有特征的ROC曲線,RF模型(即RF?SFS模型)表現(xiàn)最好。②當(dāng)選取第1組特征時,3種模型的預(yù)測能力都得到了不同程度的提升。③當(dāng)選取第2組特征時,3種模型的預(yù)測能力出現(xiàn)了明顯下降,主要原因是第2組特征包含冗余特征,導(dǎo)致模型的預(yù)測能力下降。④當(dāng)選擇第3組、第4組特征時,3種模型的預(yù)測能力進(jìn)一步下降,SVM模型和CART模型的預(yù)測能力接近隨機(jī)猜測模型。其中,第4組特征子集的CART模型預(yù)測能力低于隨機(jī)猜測模型。⑤當(dāng)選擇第5組特征子集時,3種模型的預(yù)測能力達(dá)到最低,CART模型和SVM模型的預(yù)測能力低于隨機(jī)猜測模型,RF模型的預(yù)測能力略高于隨機(jī)猜測模型。
圖8 選用不同特征子集時各模型ROC曲線
對比分析上述5組特征子集的計算結(jié)果,RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用第1組特征子集時3種模型的預(yù)測能力均達(dá)到最佳,圖4的關(guān)鍵性評分排序以及第1組特征為防水板檢測數(shù)據(jù)集的關(guān)鍵特征得以驗證。
1)基于機(jī)器學(xué)習(xí)理論對防水板檢測數(shù)據(jù)進(jìn)行預(yù)處理,剔除無效樣本數(shù)據(jù),獲得有效樣本1 224份,并對缺失數(shù)據(jù)進(jìn)行補空。建立了防水板檢測數(shù)據(jù)的RF模型,使用ROC曲線對模型進(jìn)行評估,AUC值為99.46%,表明模型可有效預(yù)測防水板數(shù)據(jù)。
2)使用RF模型得出防水板特征關(guān)鍵性評分序列,結(jié)合SFS模型找到關(guān)鍵特征與冗余特征的分界點,可將SFS算法的時間復(fù)雜度由O(n2)降低至O(1),并且采用遍歷的方式可以避免算法陷入局部最優(yōu)解。通過RF?SFS方法獲得了6個影響防水板檢測的關(guān)鍵影響因素,包括VA含量、縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率、年份、橫向撕裂強度、人工候化縱向斷裂拉伸強度保持率。在僅選用6個關(guān)鍵特征進(jìn)行檢測時,模型的預(yù)測能力達(dá)到了99.98%。若將其作為標(biāo)準(zhǔn)編制的參考,可提高檢測效率。
3)對比分析了5組特征子集下RF、SVM、CART模型的預(yù)測能力,表明RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用關(guān)鍵影響因素子集時3種模型的預(yù)測能力均達(dá)到最佳,AUC值分別為99.98%、93.03%、90.02%,進(jìn)一步驗證了RF?SFS識別方法的準(zhǔn)確性。