国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交叉驗證梯度提升決策樹的管道腐蝕速率預測

2021-12-09 01:11:54王曉娜
腐蝕與防護 2021年11期
關鍵詞:集上決策樹預測值

顏 佳,黃 一,王曉娜

(1. 大連理工大學 船舶工程學院,大連 116024; 2. 大連理工大學 物理學院,大連 116024)

輸油管道腐蝕速率的準確預測能夠為管道運營商及時采取有效的維護措施提供依據(jù),對于保障管道安全高效運行具有重要的意義。但是管道的腐蝕速率和腐蝕環(huán)境因素之間存在復雜的非線性關系,很難用傳統(tǒng)的數(shù)理方法建立其數(shù)學模型。近幾年來,更多的學者開始將基于數(shù)據(jù)驅動的機器學習方法引入到腐蝕預測領域,取得了不錯的預測效果。他們采用的方法主要有BP神經(jīng)網(wǎng)絡(BPNN)[1-3]和支持向量機 (SVM)[4-6]等。但是這些方法也有一些缺點:一方面,BPNN與SVM方法需要對輸入信息進行預處理(如正則化,特征映射等)[7],增加了建模的工作量;另一方面,這些方法建立的都是單一全局模型,只能從某一方面對歷史腐蝕數(shù)據(jù)進行學習,學習不夠充分,因此其預測結果具有不穩(wěn)定性,特別是神經(jīng)網(wǎng)絡模型受權重初值的影響較大,得到的結果有時甚至很不理想。

與單一模型不同,集成學習模型能夠重復利用已有數(shù)據(jù)信息訓練多個基學習器,并通過一定的結合策略形成一個強學習器進行預測。已有的研究表明,與單一模型相比,集成模型的預測結果往往具有更高的精確性與魯棒性[8]。而梯度提升決策樹(GBDT)作為一種常見而高效的集成學習方法,近年來在價格預測[9],城市智能交通管理[10-12]和電力系統(tǒng)負荷預測[13-14]等領域得到了廣泛的應用。本工作基于梯度提升決策樹算法建立管道腐蝕速率預測模型,利用k折交叉驗證和網(wǎng)格搜索技術進行參數(shù)尋優(yōu),實例驗證結果表明其具有預測精度高和泛化能力強的優(yōu)點,可為將來的管道腐蝕速率預測提供一種新方法。

1 梯度提升決策樹模型

1.1 提升算法

集成學習方法通過結合某種學習算法構建多個基學習器,提高單個學習器的泛化能力與魯棒性[15]。提升算法是集成學習方法中非常重要的一類,它通常涉及兩個部分——前向分步算法和加法模型[16]。

前向分步算法是指在訓練過程中,下一輪迭代產(chǎn)生的基學習器是在上一輪的基礎上訓練得來的,每增加一個基學習器即是對上一個模型的修正,因此該模型可以用式(1)表示。

Fm(x)=Fm-1(x)+γmhm(x)

(1)

式中:Fm為第m次迭代后得到的集成模型;hm(x)為第m個基學習器;γm為第m個基學習器在集成模型中的權重。

加法模型是指迭代完成后得到的強學習器可表示為多個基學習器線性相加的形式,如式(2)所示。

(2)

式中:FM(x)為最終的集成模型;M為基學習器的個數(shù)。

1.2 梯度提升決策樹(GBDT)

GBDT是FRIEDMAN[17]基于提升算法框架提出的一種新的機器學習方法,同時也是對傳統(tǒng)提升算法的一種改進。其基本思想是把損失函數(shù)的負梯度在當前模型下的值作為模型預測結果的近似殘差,并把該值作為下一個模型的訓練目標,通過迭代過程逐步減小預測偏差[10,18],提高預測精度。GBDT使用決策樹模型作為基學習器。決策樹模型是基于單特征比較構建的,不對數(shù)據(jù)進行預處理也可以很好地擬合數(shù)據(jù)。GBDT將提升算法和決策樹模型兩者的優(yōu)點結合起來,因此被認為是機器學習中功能最強大的算法之一。

假設已知的數(shù)據(jù)集為:

T={(x(i),y(i))|i=1,2,…N}?Rn×R

(3)

(4)

但是,在每一步迭代過程中,對于任意損失函數(shù)L[y,F(x)],依據(jù)式(4)求出最優(yōu)的函數(shù)解h(x)在計算上是十分困難的。因此,一般采用啟發(fā)式算法,通過不斷地迭代來逐步逼近精確解。根據(jù)這個思想,GBDT使用最速下降法來求解該最小化問題。假設選取的損失函數(shù)在當前集成模型Fm-1上可微,則最速下降方向是損失函數(shù)在Fm-1處的負梯度方向,即令:

(5)

則更新模型為:

(6)

其中,步長γm可以通過一維線搜索求得,即:

(7)

為了防止過擬合,F(xiàn)RIEDMAN等[17]提出了一種簡單的正則化方法,通過學習率v來控制每個基學習器對集成模型的貢獻程度,最終的模型則可以表示為:

(8)

1.3 參數(shù)選擇與交叉驗證

由式(8)可以看出,GBDT的預測精度和泛化能力主要取決于集成模型中決策樹的數(shù)量M,學習率v以及每個決策樹模型hm(x)的復雜度(以最大葉子節(jié)點數(shù)J表示)。一般而言,較小的學習率意味著需要更多的決策樹模型才能達到要求的預測精度,而生成過多的決策樹會消耗大量的計算資源[20]。研究表明,將學習率v設置為一個較小的值(v≤0.1),能夠避免因過快逼近造成的過擬合問題,從而減小測試誤差[21]。單棵決策樹的葉子節(jié)點數(shù)越多,本身學習能力就越強,集成模型中需要的決策樹就越少,但這不利于發(fā)揮集成算法的優(yōu)勢。HASTIE等[21]認為在GBDT中,當4≤J≤8時,模型效果表現(xiàn)最佳。

本工作通過k折交叉驗證來尋找模型的最優(yōu)超參數(shù)組合,降低模型潛在的過擬合風險。運行k折交叉驗證時,首先將樣本集隨機劃分為k份,每份的樣本數(shù)量大體相等。然后依次選取第i份數(shù)據(jù)作為測試集,其余k-1份數(shù)據(jù)作為訓練集對模型進行訓練,最終得到k個模型,把k個模型在各自測試集上預測效果的平均值作為判斷該超參數(shù)取值下模型性能的依據(jù)[22]。

k折交叉驗證使用無重復抽樣技術,使得每一個樣本都有一次機會作為測試樣本,提高了數(shù)據(jù)的利用率,是模型性能評估的有效方法[23]。k折交叉驗證選擇最優(yōu)超參數(shù)建立梯度提升決策樹模型的流程圖如圖1所示,其中超參數(shù)集Pi={Mi,vi,Ji}。

圖1 k折交叉驗證選擇最優(yōu)超參數(shù)建立梯度提升決策樹模型的流程圖Fig. 1 Flow chart of selecting optimal hyper-parameters to establish gradient boosting decision tree model through k-fold cross validation

2 GBDT在管道腐蝕速率預測中的應用

2.1 數(shù)據(jù)來源

某輸油管道材料為20號鋼,使用壓力為1.0~5.0 MPa,輸送介質為產(chǎn)地不同的原油。影響該管道內腐蝕速率的主要環(huán)境因素為硫含量,酸值,溫度,流速和壓力,通過正交試驗方法實測得到的腐蝕速率如表1所示[5]。將環(huán)境因素作為模型輸入,腐蝕速率實測值作為期望輸出,建立梯度提升決策樹預測模型。

2.2 建立模型

為了測試模型的泛化能力,首先將所有的樣本按照4∶1的比例隨機劃分為訓練集和測試集。在建模時,選取決策樹數(shù)量M的集合為{50,100,150,200,250},學習率v的集合為{0.001,0.005,0.01,0.025,0.05,0.075}以及每棵決策樹最大葉子節(jié)點數(shù)J的集合為{4,5,6,7,8},利用網(wǎng)格搜索技術遍歷所有可能的參數(shù)組合,根據(jù)最小均方誤差準則,對于訓練集中的數(shù)據(jù)采用5折交叉驗證方法確定模型的最優(yōu)參數(shù)。在交叉驗證時,由于模型從未使用過測試集中的樣本,因此模型在測試集上的預測性能能夠反映其真實的泛化能力。為了進行對比分析,使用BP神經(jīng)網(wǎng)絡(BPNN)和支持向量機(SVM)方法在同一數(shù)據(jù)集上進行建模。

表1 某輸油管道實測腐蝕速率Tab. 1 Measured corrosion rates of an oil pipeline

2.3 預測精度評估指標

為了評估模型的整體性能,選擇均方誤差EMSE,平均絕對百分誤差EMAPE和決定系數(shù)R2等3個指標來衡量模型的預測精度,計算公式分別如式(9)~(11)所示。其中,均方誤差能很好地反映預測誤差的實際情況,平均絕對百分誤差是衡量模型相對誤差最重要的指標,決定系數(shù)是回歸預測擬合優(yōu)度的度量。

(9)

(10)

(11)

3 結果與分析

3.1 模型預測結果比較

在建模中,通過隨機劃分將序號為25,2,24,4和20的樣本劃入測試集,其余樣本作為訓練集。通過網(wǎng)格搜索和交叉驗證得到GBDT模型的最優(yōu)參數(shù)M=100,v=0.075,J=4。GBDT、BPNN和SVM三種模型在訓練集與測試集上的預測值和相對誤差如表2所示,預測值的殘差如圖2所示。

表2 三種模型腐蝕速率的預測值和相對誤差Tab. 2 Predicted corrosion rates and relative errors of three models

從表2和圖2中可以直觀地看出,SVM模型的預測效果較差:一方面其預測值的相對誤差和殘差大都高于BPNN模型與GBDT模型的相對誤差和殘差;另一方面該模型在測試集上的預測殘差遠大于在訓練集上的預測殘差,出現(xiàn)了“過擬合”現(xiàn)象。這說明SVM模型的泛化能力比GBDT模型要差一些。對于腐蝕速率最小的第1個樣本,三種模型預測值的相對誤差都很大,說明模型對于數(shù)據(jù)集中最值的預測能力都有待提高。但三種模型預測值的絕對誤差仍在可接受的范圍內,且相比于BPNN模型與SVM模型,GBDT模型的預測精度有了很大的提高,預測相對誤差僅為5.71%。

圖2 三種模型預測值的殘差Fig. 2 Residual errors of predicted values by three models

為了量化模型的整體預測性能,利用式(9)~(11)計算得到模型預測精度指標如表3所示。

表3 GBDT、BPNN與SVM模型預測精度指標Tab. 3 Prediction accuracy indexes of GBDT,BPNN and SVM models

從表3中可以看出,BPNN和SVM模型預測結果的平均絕對百分誤差分別為6.03%和7.99%,而GBDT模型只有2.25%,且該模型的均方誤差值小;GBDT模型的決定系數(shù)比BPNN和SVM模型的決定系數(shù)更接近于1,說明GBDT模型的整體預測效果最好。

為了消除單個數(shù)據(jù)可能帶來的隨機性誤差,對預測值與實測值進行線性擬合分析,結果如圖3所示。

從圖3中可以看出,三個模型的預測結果都落在理想擬合直線附近。但是相比較而言,BPNN和SVM模型的預測結果的實際擬合直線離理想擬合直線更遠一些。此外,對于最大腐蝕速率樣本點,三種模型的預測結果都明顯地偏離了理想擬合直線,而該樣本點恰好在測試集中,說明三種模型的外推能力都比較弱。

以上各方面的對比分析表明,對于管道腐蝕速率預測,本工作提出的GBDT模型能夠更好地擬合實測數(shù)據(jù),其綜合性能要優(yōu)于BPNN與SVN模型。

圖3 預測值與實測值之間的線性擬合Fig. 3 Linear fitting between predicted values and measured values

3.2 對GBDT模型的進一步分析

由式(8)可以看出,GBDT模型的預測精度受到模型中決策樹數(shù)量M的影響。圖4顯示了當學習率v=0.075,最大葉子節(jié)點數(shù)J=4時,包含不同決策樹數(shù)量的GBDT模型預測值與實測值的對比結果。從圖4中可以看出,隨著M的增加,模型預測值與實測值之間的偏差越來越小,說明增加決策樹能夠提高模型的預測性能。但是當決策樹達到一定數(shù)量后,再增加其數(shù)量對模型預測能力的提升作用不大。為了進一步驗證這一觀點,繪制模型預測值的平均相對誤差與決策樹數(shù)量的關系圖,如圖5所示。

從圖5中可以看出,當決策樹數(shù)量小于70時,GBDT模型在訓練集和測試集上的平均相對誤差隨決策樹數(shù)量的增加都迅速減小,這與BüHLMANN等[24]的分析結果一致,即隨著決策樹數(shù)量的增長,集成模型的預測偏差呈指數(shù)型衰減。當決策樹數(shù)量大于70時,GBDT模型在訓練集上的平均相對誤差繼續(xù)減小,但減小速率變慢,而在測試集上的平均相對誤差略微上升,說明此時模型開始出現(xiàn)“過擬合”現(xiàn)象。在這種情況下,可使模型訓練提前停止,在不降低模型的整體性能的情況下縮短訓練時間。

(a) M=1 (b) M=2 (c) M=5

(d) M=10 (e) M=20 (f) M=50

(g) M=100 (f) M=150 (i) M=200圖4 包含不同決策樹數(shù)量的GBDT模型的預測結果Fig. 4 Prediction results of GBDT model with different number of decision trees

圖5 GBDT模型平均相對誤差與決策樹的數(shù)量之間的關系Fig. 5 Relationship between average relative error and number of decision trees for GBDT model

4 結論

(1) 實例驗證結果表明,對于管道腐蝕速率預測,梯度提升決策樹模型能夠取得很高的預測精度,其預測結果可為了解管道運行狀況及采取適時的維護措施提供參考依據(jù)。

(2) 與廣泛應用的BPNN和SVM預測模型對比可以發(fā)現(xiàn),基于集成思想的梯度提升決策樹模型不僅能很好地擬合已知數(shù)據(jù),而且對未知數(shù)據(jù)具有很強的泛化能力,因此具有更大的實用價值。

(3)在梯度提升決策樹模型構建過程中,隨著決策樹數(shù)量的增加,模型預測偏差的減小程度會迅速降低,因此選擇恰當?shù)臎Q策樹數(shù)量,對于縮短模型的訓練時間和防止“過擬合”現(xiàn)象至關重要。

猜你喜歡
集上決策樹預測值
IMF上調今年全球經(jīng)濟增長預期
企業(yè)界(2024年8期)2024-07-05 10:59:04
加拿大農(nóng)業(yè)部下調2021/22年度油菜籽和小麥產(chǎn)量預測值
±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
Cookie-Cutter集上的Gibbs測度
法電再次修訂2020年核發(fā)電量預測值
國外核新聞(2020年8期)2020-03-14 02:09:19
鏈完備偏序集上廣義向量均衡問題解映射的保序性
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
復扇形指標集上的分布混沌
基于決策樹的出租車乘客出行目的識別
水富县| 兴城市| 富锦市| 大田县| 根河市| 自贡市| 静安区| 陆良县| 泗洪县| 环江| 庆安县| 开阳县| 莫力| 靖宇县| 咸丰县| 红安县| 南阳市| 雷州市| 札达县| 西宁市| 乌苏市| 商南县| 施秉县| 新宾| 江安县| 莒南县| 大余县| 台北县| 巴东县| 民和| 淮安市| 贵阳市| 和顺县| 绥宁县| 鄂托克旗| 扎鲁特旗| 嘉禾县| 永登县| 贵定县| 祁阳县| 长泰县|