王 裕 徐起秀 郭智威 袁成清
(武漢理工大學(xué),國家水運(yùn)安全工程技術(shù)研究中心,可靠性工程研究所 湖北武漢 430063)
船舶尾軸承是船舶軸系中用于支撐螺旋槳軸的關(guān)鍵部件[1]。隨著綠色航運(yùn)的發(fā)展,水潤滑軸承已逐步替代油潤滑軸承。但水潤滑軸承使用水作為潤滑介質(zhì),由于水的黏度低,對(duì)材料的摩擦磨損性能提出更高的要求,因而提高水潤滑尾軸承在船舶使用過程中的摩擦磨損性能已成為研究重點(diǎn)[2]。
針對(duì)船舶尾軸承的相關(guān)實(shí)驗(yàn)研究很多,已累積了大量數(shù)據(jù)。以水潤滑尾軸承為例,目前已建立其相關(guān)摩擦性能數(shù)據(jù)集。因此,基于大數(shù)據(jù)理論,通過對(duì)原數(shù)據(jù)集進(jìn)行算法建模,尋找數(shù)據(jù)間的關(guān)聯(lián)性,對(duì)于預(yù)測水潤滑尾軸承在不同工況條件下的摩擦性能,指導(dǎo)水潤滑尾軸承的開發(fā)具有重要意義。
隨機(jī)森林算法[3]是一種集成學(xué)習(xí)算法,該算法是在決策樹算法基礎(chǔ)之上進(jìn)一步優(yōu)化的一種算法模型,其原理是以原始數(shù)據(jù)為模型的訓(xùn)練集,進(jìn)行算法的創(chuàng)建,然后再通過創(chuàng)建的算法模型預(yù)測數(shù)據(jù)的變化趨勢(shì)。隨著隨機(jī)森林算法的參數(shù)的不斷優(yōu)化,其性能也更加準(zhǔn)確,可以較為精確地模擬數(shù)據(jù)中存在的未知關(guān)系并用于預(yù)測未知數(shù)據(jù)或者趨勢(shì),通過構(gòu)建隨機(jī)森林學(xué)習(xí)算法模型可以用來實(shí)現(xiàn)數(shù)據(jù)的分類或者預(yù)測回歸[4]。
本文作者運(yùn)用隨機(jī)森林算法挖掘水潤滑尾軸承大量實(shí)驗(yàn)數(shù)據(jù)中的隱藏信息,建立一種多模型思維的隨機(jī)森林算法,可準(zhǔn)確地預(yù)測改性水潤滑尾軸承的摩擦磨損性能。
水潤滑尾軸承的摩擦磨損性能對(duì)保障船舶的航行安全具有重要作用。本文作者所在的課題組,已針對(duì)該改性水潤滑軸承的摩擦磨損性能做了相關(guān)的實(shí)驗(yàn)對(duì)比,獲得了相關(guān)的初始實(shí)驗(yàn)數(shù)據(jù)。文中首先基于原始數(shù)據(jù)集進(jìn)行建模前的數(shù)據(jù)預(yù)處理。
文中研究的改性水潤滑尾軸承為質(zhì)量分?jǐn)?shù)10%聚乙烯蠟改性聚氨酯軸承,該軸承由聚乙烯蠟與聚氨酯聚合而成。首先將聚氨酯加熱至90 ℃,投入聚乙烯蠟后加熱至120 ℃共混,在共混過程中加入消泡劑(M-CDEA),然后加熱至110 ℃,最后定性,得到如圖1所示的實(shí)驗(yàn)樣品。文中將其命名為PU- PEW10[5]。
圖1 PU- PEW10試樣
在PU- PEW10試樣摩擦磨損實(shí)驗(yàn)的數(shù)據(jù)集中,原始數(shù)據(jù)集的特征屬性分別為溫度、壓力、扭矩、轉(zhuǎn)速、功率,以及經(jīng)過實(shí)驗(yàn)得出的摩擦因數(shù)。溫度控制由型號(hào)為HH-21-4的恒溫水箱控制??紤]到試樣磨合期數(shù)據(jù)存在波動(dòng),用于建模的原始數(shù)據(jù)取試樣磨合期后的穩(wěn)定實(shí)驗(yàn)數(shù)據(jù);考慮到恒溫水箱控制水溫時(shí)溫度會(huì)有一定的波動(dòng),文中針對(duì)溫度特征采用正態(tài)分布方法,補(bǔ)足數(shù)據(jù)集。HUANG等[5]的研究表明,在摩擦磨損實(shí)驗(yàn)過程中,影響PU- PEW10試樣摩擦因數(shù)的外部因素主要為溫度、壓力和轉(zhuǎn)速。因此將對(duì)數(shù)據(jù)集整理后,得到如表1所示的可用于隨機(jī)森林算法建模的原始數(shù)據(jù)。
表1 處理后的影響因素?cái)?shù)據(jù)和摩擦因數(shù)結(jié)果集
表1所展示的是將已知的5種工況下的數(shù)據(jù)整合成的一組數(shù)據(jù)。其中,5種工況參數(shù)分別為60 ℃、0.3 MPa,70 ℃、0.3 MPa,80 ℃、0.3 MPa,80 ℃、0.5 MPa以及60 ℃、0.7 MPa。溫度、轉(zhuǎn)速以及壓力都是隨機(jī)森林算法模型的特征屬性,即輸入值,摩擦因數(shù)是模型的輸出值。
隨機(jī)森林算法是一種集成學(xué)習(xí)算法,該算法是基于決策樹算法基礎(chǔ)上集合而成的一種多模型分類算法,因此文中先介紹決策樹算法原理。
決策樹是一種最基本的模型分類回歸算法,是針對(duì)不同結(jié)果集進(jìn)行分類的樹形結(jié)構(gòu)算法。該算法通常包括3個(gè)學(xué)習(xí)步驟,分別為基于特征的選擇、決策樹的生成以及將構(gòu)建的決策樹通過數(shù)據(jù)集進(jìn)行剪枝操作。決策樹算法主要使用ID3算法、C4.5算法以及CART算法。決策樹由節(jié)點(diǎn)和有向邊組成,節(jié)點(diǎn)有2種類型:內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)代表一個(gè)特征或一個(gè)屬性,葉節(jié)點(diǎn)表示一個(gè)類[6]。文中的隨機(jī)森林算法采用的是決策樹算法中的CART原理建模[7],原理如下:
給定一個(gè)訓(xùn)練集(文中的數(shù)據(jù)集為表1中的數(shù)據(jù))
D={(x1,y1),(x2,y2),…,(xn,yn)}
決策樹學(xué)習(xí)是根據(jù)給定的訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)決策樹模型,使它能夠?qū)?shí)驗(yàn)實(shí)例進(jìn)行正確地分類。
文中使用的決策樹CART原理,是基于“基尼指數(shù)(Gini)”來選擇劃分特征屬性[8]。基于CART原理的決策樹模型用基尼系數(shù)最小化準(zhǔn)則來進(jìn)行特征選擇,生成二叉樹。數(shù)據(jù)集D的純度可用基尼系數(shù)來度量:
(1)
(2)
ΔGini(A)=Gini(D)-GiniA(D)
(3)
公式(3)用于計(jì)算基尼系數(shù)的增益,針對(duì)回歸問題應(yīng)用最小平均誤差準(zhǔn)則來檢驗(yàn)?zāi)P偷膬?yōu)劣。文中構(gòu)建模型的數(shù)據(jù)為經(jīng)過預(yù)處理的摩擦因數(shù)數(shù)據(jù)集,將處理后的數(shù)據(jù)應(yīng)用Python編寫決策樹算法模型,直接訓(xùn)練數(shù)據(jù)集,得到訓(xùn)練好的模型并對(duì)其進(jìn)行準(zhǔn)確性驗(yàn)證,即計(jì)算該模型的均方根誤差(MSE),發(fā)現(xiàn)該值為0.0,說明該模型可精確預(yù)測每一組摩擦因數(shù)值。但根據(jù)算法模型應(yīng)用可知,當(dāng)模型預(yù)測的MSE達(dá)到0.0時(shí),表示模型能夠精準(zhǔn)預(yù)測每一組數(shù)值,這種現(xiàn)象稱為“過擬合現(xiàn)象”,在該情況下需要對(duì)原模型進(jìn)行超參數(shù)的調(diào)整,使其泛化能力更好。
調(diào)整超參數(shù)的方法有很多,文中采用網(wǎng)格搜索的方法確定模型的超參數(shù)數(shù)值,即包括樹的深度、節(jié)點(diǎn)數(shù)目等。網(wǎng)格搜索設(shè)置的參數(shù)為′max_depth′=[2, 3, 4, 5, 6, 7, 8, 9, 10], ′min_samples_split′=[4, 8, 12, 16, 20, 24, 28]。′max_depth′指定了決策樹下鉆的深度,′min_samples_split′指定了分裂一個(gè)內(nèi)部節(jié)點(diǎn)(非葉子節(jié)點(diǎn))需要的最小樣本數(shù)。
決策樹構(gòu)建完成后,需對(duì)優(yōu)化后的模型進(jìn)行驗(yàn)證。文中采用偏差方差法對(duì)優(yōu)化后的模型進(jìn)行準(zhǔn)確性驗(yàn)證,通過算法自行計(jì)算,其MSE值為0.143,偏差(Bias)的值為0.055,方差(Variance)的值為0.088??梢?,通過調(diào)整超參數(shù)′max_depth′以及′min_samples_split′的數(shù)值,使得模型有了一定的改進(jìn)。但是一棵決策樹并不能很好地說明預(yù)測的準(zhǔn)確性,最佳的處理方法是應(yīng)用多棵決策樹進(jìn)行預(yù)測值投票,得到最佳的預(yù)測結(jié)果,此時(shí)需要引進(jìn)隨機(jī)森林算法來實(shí)現(xiàn)。
隨機(jī)森林算法是決策樹的集成,是以決策樹為基學(xué)習(xí)器基礎(chǔ)上構(gòu)建bagging的方法,該方法在訓(xùn)練數(shù)據(jù)時(shí),通過每棵決策樹的CART方法,對(duì)數(shù)據(jù)中特征屬性隨機(jī)選擇最優(yōu)作為分類的基礎(chǔ)。采樣時(shí),通過有放回的方法,構(gòu)建多棵決策樹,每棵決策樹基于一定的精度進(jìn)行分類。在此基礎(chǔ)上,每一棵樹再對(duì)預(yù)測或者分類的結(jié)果進(jìn)行投票篩選,使得分類或預(yù)測的結(jié)果精度提高。
文中的隨機(jī)森林算法相對(duì)每個(gè)決策樹設(shè)置有同一個(gè)根節(jié)點(diǎn),該節(jié)點(diǎn)的選擇由隨機(jī)森林算法隨機(jī)選取。從該節(jié)點(diǎn)中隨機(jī)選擇一個(gè)包含m個(gè)特征屬性的子集,再通過篩選的子集擇優(yōu)選擇一個(gè)特征屬性用來劃分,直到獲得最優(yōu)深度及節(jié)點(diǎn)數(shù)。其中m的含義為控制模型隨機(jī)性[9]的程度:當(dāng)m與特征屬性數(shù)量相同時(shí),那么構(gòu)建的基決策樹與直接應(yīng)用決策樹建模一致;如果m取1,則是通過算法選擇一個(gè)特征屬性來劃分;通常使用推薦值,即取m為log2d,其中d為特征屬性數(shù)量[6]。文中的特征屬性數(shù)量有3個(gè),所以d取3,m取log23。
與決策樹算法一樣,將處理后的數(shù)據(jù)集直接用于隨機(jī)森林算法構(gòu)建模型,模擬數(shù)據(jù)后計(jì)算該初始模型的MSE值,得出結(jié)果為0.027。鑒于數(shù)據(jù)量較少,文中采用了K折交叉驗(yàn)證的方法,將數(shù)據(jù)重新進(jìn)行構(gòu)建模型。交叉驗(yàn)證的方法是一種常用的模型選擇方法,該方法的提出是為了解決數(shù)據(jù)不充足問題,其基本思想為重復(fù)使用原始數(shù)據(jù)集。K折交叉驗(yàn)證[10]是應(yīng)用最多的一種交叉驗(yàn)證方法,文中K取值為5,為一個(gè)較為適中的參數(shù)。
交叉驗(yàn)證方法的原理[11]如下:將處理后的數(shù)據(jù)集進(jìn)行數(shù)據(jù)切分,切分的原則是隨機(jī)性,保證數(shù)據(jù)的可信度;將切分后的數(shù)據(jù)集按照一定比例(文中按照8∶2的比例)分為訓(xùn)練集與測試集,對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練并優(yōu)化。通過交叉驗(yàn)證方法得到的不同訓(xùn)練模型并用于投票選擇,然后通過測試集對(duì)每個(gè)模型進(jìn)行誤差計(jì)算,并最終選出誤差最小的模型。
以K=5為例,K折交叉驗(yàn)證的過程是:將處理后的數(shù)據(jù)集切分成5份互不相交、大小一致的數(shù)據(jù)子集;隨機(jī)選取其中的4份數(shù)據(jù)子集訓(xùn)練模型,利用剩下的1份數(shù)據(jù)子集作為測試集驗(yàn)證模型;每進(jìn)行一次交叉驗(yàn)證就將原始數(shù)據(jù)打亂并重新按照8∶2的比例將數(shù)據(jù)重新選擇并拆分為5份;將上述過程執(zhí)行5次,最終算法會(huì)選取其中平均測試誤差最小的模型用于改性水潤滑聚氨酯材料摩擦性能的預(yù)測。
基于上述方法,計(jì)算了優(yōu)化后模型MSE,其值為0.189。MSE值偏大,為此再將模型進(jìn)行網(wǎng)格搜索[12]尋找隨機(jī)森林模型的最佳參數(shù)。首先嘗試12種(3×4)超參數(shù)組合,分別為′n_estimators′= [3, 10, 30], ′max_features′=[2, 4, 6, 8]。其中n_estimators為隨機(jī)森林決策樹的數(shù)目,max_features為用來控制特征子集的數(shù)量,其值越小,隨機(jī)森林算法中的樹形結(jié)構(gòu)差異越大,文中默認(rèn)使用bootstrap重采樣方法,即有放回的可重復(fù)的抽取樣本;然后嘗試6種(2×3)boosting方法進(jìn)行網(wǎng)格搜索最優(yōu)參數(shù),即不放回的進(jìn)行樣本建模,參數(shù)設(shè)置為′bootstrap′=[False], ′n_estimators′=[3, 10], ′max_features′=[1, 2, 3],之后通過算法尋找最優(yōu)的參數(shù)組合。將′bootstrap′設(shè)置為True,即將數(shù)據(jù)集有放回的可重復(fù)的進(jìn)行建模;′max_features′= 2,′n_estimators′= 30,即選取特征子集中的2個(gè)特征屬性組合,建立30棵樹模型。計(jì)算得到優(yōu)化后的模型的MSE值為0.178,可見優(yōu)化后的模型較之前的模型有了更好的泛化能力。
因?yàn)閿?shù)據(jù)集中有5種分類狀況,為了評(píng)估每一類的預(yù)測情況,文中又對(duì)原始數(shù)據(jù)集做了分類算法,然后針對(duì)該模型計(jì)算每一類的接受者操作特征(ROC)曲線值,結(jié)果如圖2所示[11]。
圖2 改性水潤滑軸承摩擦因數(shù)預(yù)測的ROC曲線
如圖2所示,其中class0—class4分別對(duì)應(yīng)上述的5種不同工況,發(fā)現(xiàn)class0類與class2類的面積較低,即得分較低。但是micro-average ROC curve與macro-average ROC curve的平均值分別為0.85與0.86,從整體來看,該算法調(diào)整參數(shù)優(yōu)化后的模型分類較為準(zhǔn)確,沒有出現(xiàn)過擬合或者欠擬合的狀態(tài)。所以優(yōu)化后的模型能夠較準(zhǔn)確地預(yù)測出并分類改性水潤滑軸承的摩擦學(xué)性能。
將所建的模型的均方根誤差(MSE)值進(jìn)行對(duì)比,優(yōu)化前后其值分別為0.03以及0.178。優(yōu)化前MSE值不足0.1,即在預(yù)測每一個(gè)工況時(shí)均能夠準(zhǔn)確預(yù)測摩擦因數(shù),這種現(xiàn)象屬于過擬合現(xiàn)象[13],模型不能完全準(zhǔn)確地預(yù)測水潤滑軸承的摩擦性能。所以,優(yōu)化后的模型比優(yōu)化前的模型擁有更好的泛化性能[14]。隨機(jī)森林算法相較于決策樹算法,屬于一種多模型的算法,從上述分析得知,隨機(jī)森林是將數(shù)據(jù)集劃分成多棵樹來建立模型的一種集成算法,文中通過構(gòu)建30棵決策樹,然后對(duì)其優(yōu)化并擇優(yōu)選擇最佳的模型,構(gòu)建一種較為準(zhǔn)確的隨機(jī)森林算法模型。
圖3所示為優(yōu)化后模型預(yù)測的不同工況下的摩擦因數(shù)。
圖3 隨機(jī)森林算法預(yù)測的不同工況下的摩擦因數(shù)
圖3中,T65N3、T75N3、T75N4、T75N5以及T85N3代表5種不同的工況,分別為65 ℃、0.3 MPa,75 ℃、0.3 MPa,75 ℃、0.4 MPa,75 ℃、0.5 MPa以及85 ℃、0.3 MPa,對(duì)應(yīng)的摩擦因數(shù)預(yù)測值分別為0.18、0.20、0.20、0.18、0.18。
采用表2所示實(shí)驗(yàn)條件,通過實(shí)驗(yàn)測量了該改性水潤滑軸承的摩擦因數(shù)及磨損量。
表2 實(shí)驗(yàn)條件
考慮到實(shí)驗(yàn)過程中改性水潤滑尾軸承和摩擦件之間有一個(gè)磨合階段,所以不同工況下材料的摩擦因數(shù)取磨合之后數(shù)據(jù)的平均值。圖4所示為0.3 MPa下改性水潤滑軸承不同溫度下的平均摩擦因數(shù)。根據(jù)HUANG等[5]的研究結(jié)果,在60~80 ℃之間該種材料的摩擦因數(shù)不斷增加,但是80 ℃后摩擦因數(shù)增加幅度開始下降。而文中實(shí)驗(yàn)在文獻(xiàn)[5]的基礎(chǔ)上將溫度最大范圍增加5 ℃,達(dá)到85 ℃的工況,實(shí)驗(yàn)發(fā)現(xiàn),該材料的平均摩擦因數(shù)出現(xiàn)了下降的趨勢(shì),表明該材料在80~85 ℃之間可能取得負(fù)載0.3 MPa工況下的最大平均摩擦因數(shù)。
圖4 0.3 MPa下改性水潤滑軸承不同溫度下的平均摩擦因數(shù)
實(shí)驗(yàn)過程中測得的材料在0.3 MPa載荷及65、75和85 ℃下的摩擦因數(shù)變化曲線如圖5所示。可得出,在相同的負(fù)載條件下,高介質(zhì)溫度對(duì)于該材料摩擦因數(shù)的穩(wěn)定性和機(jī)械性能都產(chǎn)生了負(fù)面的影響[15-16],其摩擦穩(wěn)定后的摩擦因數(shù)值均在0.15以上,說明高溫對(duì)于該材料的摩擦性能影響較大。
圖5 0.3 MPa及不同水潤滑溫度下的實(shí)時(shí)摩擦因數(shù)
圖6所示為75 ℃溫度及載荷0.3、0.4、0.5 MPa下的實(shí)時(shí)摩擦因數(shù)。在相同的水潤滑溫度條件下,隨著壓力增加,該材料的摩擦因數(shù)呈略微下降的趨勢(shì),且壓力越大,摩擦因數(shù)越穩(wěn)定。產(chǎn)生這種現(xiàn)象的原因可能是,隨著壓力的增加,改性水潤滑聚氨酯與摩擦件之間接觸面變大,貼合效果也越好[17]。通過圖6也可以看出,在研究的載荷范圍內(nèi),載荷的大小對(duì)于該材料摩擦因數(shù)的數(shù)值影響不大,但是對(duì)其穩(wěn)定性影響較大。
圖6 75 ℃及不同壓力下的實(shí)時(shí)摩擦因數(shù)
表3給出了實(shí)驗(yàn)和仿真得到的該改性水潤滑軸承在不同工況下的摩擦因數(shù)及誤差率??梢妼?shí)驗(yàn)值和仿真值誤差率均在5%左右??紤]到在實(shí)驗(yàn)過程中產(chǎn)生的振動(dòng)等因素導(dǎo)致壓力不穩(wěn)的情況,會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果和預(yù)測結(jié)果有一定的偏差,但兩者的偏差較小,所以可認(rèn)為預(yù)測結(jié)果較為準(zhǔn)確。
表3 不同工況下摩擦因數(shù)真實(shí)值與預(yù)測值對(duì)比
比較隨機(jī)森林算法預(yù)測的摩擦因數(shù)值與實(shí)驗(yàn)得出的結(jié)果,可以發(fā)現(xiàn):溫度對(duì)于該改性水潤滑軸承的平均摩擦因數(shù)有較大的影響,在75~85 ℃之間會(huì)產(chǎn)生一個(gè)峰值,此時(shí)該改性水潤滑軸承的磨損會(huì)增加;負(fù)載對(duì)于該材料的平均摩擦因數(shù)的影響較小,但是對(duì)于軸承的運(yùn)轉(zhuǎn)穩(wěn)定性影響較大。
(1)基于大量實(shí)驗(yàn)數(shù)據(jù),建立了一種多模型思維的隨機(jī)森林算法,作為一種基于決策樹的集成算法,提高了計(jì)算精度。
(2)引入ROC曲線,基于構(gòu)建的模型分類器進(jìn)行了準(zhǔn)確度評(píng)價(jià),進(jìn)一步證明了算法的準(zhǔn)確性。隨機(jī)森林算法引入了隨機(jī)性的概念,使得模型不容易過擬合,模型的訓(xùn)練速度快,較為準(zhǔn)確地預(yù)測了改性水潤滑尾軸承的相關(guān)摩擦性能數(shù)據(jù)。
(3)比較隨機(jī)森林算法預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果可以得出:溫度對(duì)于該改性水潤滑軸承的平均摩擦因數(shù)有較大的影響,在75~85 ℃之間會(huì)產(chǎn)生一個(gè)峰值,此時(shí)該改性水潤滑軸承的磨損會(huì)增加;負(fù)載對(duì)于該材料的平均摩擦因數(shù)的影響較小,但是對(duì)于軸承的運(yùn)轉(zhuǎn)穩(wěn)定性影響較大。
(4)文中研究尚有不足之處,即在進(jìn)行摩擦性能預(yù)測時(shí),只針對(duì)一種特定的改性水潤滑軸承進(jìn)行了預(yù)測,下一步研究將會(huì)針對(duì)不同的改性水潤滑軸承的摩擦性能進(jìn)行預(yù)測,使算法預(yù)測更具有普適性。