基于隨機(jī)森林模型判別礦井涌(突)水水源

2020-06-30 08:48穆文平鄧若晨胡博遠(yuǎn)

科學(xué)技術(shù)與工程 2020年16期

郝謙，武雄，穆文平，鄧若晨，胡博遠(yuǎn)，高原

(中國(guó)地質(zhì)大學(xué)(北京) 水資源與環(huán)境學(xué)院，北京 100083)

隨著礦井開(kāi)采深度的增加，礦井涌(突)水災(zāi)害發(fā)生頻率也逐步增高，對(duì)井下的安全生產(chǎn)造成了嚴(yán)重威脅[1-2]?？焖贉?zhǔn)確判別礦井涌(突)水水源是近年來(lái)礦井水害治理研究的熱點(diǎn)問(wèn)題之一。在過(guò)去的幾十年里，學(xué)者們已經(jīng)提出了許多研究方法來(lái)判斷礦井涌(突)水水源，這些方法可分為三種類型：地下水動(dòng)力學(xué)判別方法、地下水溫度判別方法[3]、水化學(xué)判別方法[4-5]。Wu等[6]對(duì)比了上述三種方法后，得出了水化學(xué)判別方法在實(shí)際運(yùn)用當(dāng)中更具優(yōu)勢(shì)的觀點(diǎn)。溫廷新等[7]、朱慶偉等[8]、朱樂(lè)章[9]在對(duì)礦井涌(突)水水源判別問(wèn)題研究時(shí)，都利用水化學(xué)判別方法選取地下水中的7種主要離子進(jìn)行礦井涌(突)水水源判別。

對(duì)于利用水化學(xué)成分進(jìn)行礦井涌(突)水水源判別時(shí)，應(yīng)用了許多數(shù)學(xué)方法，例如，模糊數(shù)學(xué)理論[10]、灰色關(guān)聯(lián)分析[11-12]、熵權(quán)-模糊綜合判別[13]等。模糊數(shù)學(xué)理論評(píng)判和灰色關(guān)聯(lián)分析等方法都要事先假定模式或主觀規(guī)定一些參數(shù)，導(dǎo)致其評(píng)價(jià)結(jié)果具有主觀性。近幾年，隨著計(jì)算機(jī)技術(shù)的進(jìn)步和數(shù)據(jù)挖掘技術(shù)的顯著提升，利用機(jī)器學(xué)習(xí)手段能避免上述問(wèn)題，提高判別精度。例如，吳巖等[14]利用BP(back propagation)神經(jīng)網(wǎng)絡(luò)；邵良杉等[15]利用支持向量機(jī)(support vector machine，SVM)；王亞等[16]、唐立力[17]利用極限學(xué)習(xí)機(jī)(extreme learning machine，ELM)等機(jī)器學(xué)習(xí)分類器進(jìn)行礦井涌(突)水水源研究。BP神經(jīng)網(wǎng)絡(luò)由Rumelhart提出[18]，其原理是按照誤差逆向傳播算法訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)訓(xùn)練樣本使得輸出結(jié)果誤差最小。SVM方法由Vapnik提出[19-20]，其原理是將數(shù)據(jù)構(gòu)建到高維空間，然后在這個(gè)新空間中求取最優(yōu)線性分類面對(duì)數(shù)據(jù)樣本進(jìn)行分類。ELM方法由黃廣斌提出[21-22]，其原理是利用廣義逆實(shí)現(xiàn)求解輸出權(quán)重的單隱藏層前饋神經(jīng)網(wǎng)絡(luò)，可以快速地完成學(xué)習(xí)過(guò)程。雖然這些方法均可直接應(yīng)用于礦井涌(突)水水源判別，但是模型的性能各有千秋。BP神經(jīng)網(wǎng)絡(luò)雖然可以求解復(fù)雜的非線性映射，但是存在學(xué)習(xí)過(guò)度，收斂速度慢等缺點(diǎn)；SVM雖然有堅(jiān)實(shí)的理論基礎(chǔ)，較快的運(yùn)算速度，但是只可使用間接的方法來(lái)完成多分類，可能導(dǎo)致精度不足；ELM雖然參數(shù)設(shè)置少適用范圍廣，但是輸入層權(quán)重隨機(jī)生成可能導(dǎo)致預(yù)測(cè)結(jié)果不穩(wěn)定等問(wèn)題。

鑒于此，迫切需要一種高精確度、高穩(wěn)定性、并且擁有良好魯棒性的新方法。Breiman[23]提出的隨機(jī)森林模型(random forest,RF)滿足上述條件。在相關(guān)領(lǐng)域隨機(jī)森林模型已經(jīng)用于預(yù)測(cè)礦石的屬性，采空區(qū)自燃[24]等問(wèn)題并取得了良好成績(jī)。本文將其應(yīng)用于礦井涌(突)水水源判別，建立RF 水源判別模型，并與傳統(tǒng)分類模型SVM和ELM進(jìn)行比較[25]。分析隨機(jī)森林模型在礦井涌(突)水水源判別中的適用性，探索其應(yīng)用方法，最后通過(guò)實(shí)例驗(yàn)證，證明方法的有效性。

1 隨機(jī)森林模型判別水源原理

1.1 模型步驟

隨機(jī)森林模型是一種基于Bagging的集成學(xué)習(xí)方法，該方法隨機(jī)有放回的選擇訓(xùn)練數(shù)據(jù)構(gòu)造組合分類器進(jìn)行分類。模型具體步驟如下：

對(duì)一個(gè)包含N個(gè)樣本的訓(xùn)練數(shù)據(jù)樣本集S，令i(i=1,2,…,N)表示樣本序號(hào)，則第i個(gè)樣本的數(shù)據(jù)信息可記作 (xi,yi)，其中，xi為M維向量，表示該樣本的M個(gè)特征，令j(j=1,2,…,M)表示該樣本的第j個(gè)特征，則第i個(gè)樣本的第j個(gè)特征可記作xij；yj為一個(gè)元素，表示樣本i的所屬類別，假設(shè)所有樣本可分為n個(gè)類別，用l(l=1,2,…,n)表示樣本的一個(gè)類別，則該訓(xùn)練數(shù)據(jù)樣本集可表示為

S={(xi,yi),i=1,2,…,N}

(1)

訓(xùn)練數(shù)據(jù)樣本集S也可表示為矩陣的形式：

(X,Y)∈RM×R

(2)

式(2)中：X=(x1,x2,…,xn)T表示N個(gè)樣本的特征矩陣；Y=(y1,y2,…,yn)T表示N個(gè)樣本的分類組成的列向量。

Step 1有放回的隨機(jī)抽樣。從原始訓(xùn)練數(shù)據(jù)樣本集中利用bootstrap采樣方法進(jìn)行抽樣，即從整個(gè)訓(xùn)練數(shù)據(jù)樣本集合中，有放回的進(jìn)行k次隨機(jī)抽取，形成k個(gè)樣本子集Sd(d=1,2,…,k)其中每個(gè)子集包括原訓(xùn)練樣本集S中的大約2/3個(gè)樣本數(shù)據(jù)。

Step 2構(gòu)建決策樹(shù)。針對(duì)每個(gè)樣本子集Sd，從樣本的M個(gè)特征中隨機(jī)挑選m個(gè)特征(m?M),將挑選好的m個(gè)特征數(shù)據(jù)輸入CART算法(該算法在下一小節(jié)中進(jìn)行介紹)構(gòu)建決策樹(shù)。每一個(gè)樣本子集Sd可以構(gòu)建一顆決策樹(shù)，一共構(gòu)建k棵。

Step 3進(jìn)行決策。根據(jù)生成的k棵決策樹(shù)分類器對(duì)新的測(cè)試數(shù)據(jù)xt進(jìn)行預(yù)測(cè)，分類結(jié)果按每棵樹(shù)分類器的投票多少而決定。詳細(xì)計(jì)算過(guò)程如圖1所示。

圖1 隨機(jī)森林模型計(jì)算原理Fig.1 Principles of random forest

1.2 隨機(jī)森林決策樹(shù)構(gòu)建原則

CART(classification and regression trees)算法是隨機(jī)森林構(gòu)建決策樹(shù)的算法，其構(gòu)建過(guò)程為：對(duì)于一個(gè)特定樣本子集Sd，從隨機(jī)挑選的m個(gè)特征中先選取一個(gè)特征mj，按照mj大于等于或者小于某個(gè)實(shí)數(shù)，將樣本子集Sd劃分成兩個(gè)集合Sd1與Sd2，按照式(3)計(jì)算Gini(Sd)。計(jì)算過(guò)程如下：

(3)

對(duì)樣本集合T(一次劃分中可能的取值是Sd1與Sd2) Gini系數(shù)計(jì)算方法如下：

(4)

式(4)中：T表示樣品集；n表示樣本集中所有可能出現(xiàn)類別的總數(shù)；Pi表示樣本集合中第i類樣本出現(xiàn)的概率。

對(duì)劃分好的集合Sd1如果其Gini(Sd1)大于設(shè)定值則選取另一個(gè)特征值重復(fù)上述劃分過(guò)程。經(jīng)過(guò)上述不斷的劃分會(huì)形成如圖2所示的一棵樹(shù)。新的測(cè)試數(shù)據(jù)xt會(huì)按照m的條件分配到不同劃分好的集合中。決策樹(shù)將分配到的集合中概率最高的類別認(rèn)為是xt的類別。經(jīng)過(guò)多次不同的劃分后找到實(shí)數(shù)C#使得Gini(Sd)最小。

圖2 隨機(jī)森林中的一棵CART樹(shù)Fig.2 A CART tree in a random forest

2 判別模型的工程應(yīng)用

2.1 研究區(qū)概述

研究區(qū)為大孤山鐵礦周邊地區(qū)，距鞍山市東南12 km。研究區(qū)為丘陵地形，南北高中間低，多年平均降雨量720.6 mm，礦坑西部有河流從南向北流過(guò)。研究區(qū)主要地層為第四系地層、下白堊統(tǒng)地層、太古宇地層。其中第四系地層主要為黏土，其余地層為同時(shí)期侵入巖以花崗巖為主。受寒嶺斷裂的控制，形成一系列的斷層和破碎帶。具體地質(zhì)情況如圖3。大孤山鐵礦礦坑內(nèi)主要為花崗巖、磁鐵礦、變質(zhì)巖(圖4)。依據(jù)礦區(qū)水文地質(zhì)條件將該地區(qū)可能的礦井涌(突)水水源分為第四系松散孔隙水、花崗巖基巖裂隙水、地表水三大類。

圖3 研究區(qū)地質(zhì)與實(shí)驗(yàn)樣本分布Fig.3 Geological and experimental sample distribution of the study area

圖4 1-1′ 剖面圖Fig.4 1-1′ profile map

第四系孔隙水，補(bǔ)給來(lái)源主要為大氣降水，多以人工開(kāi)采形式排泄為主，部分補(bǔ)給花崗巖基巖裂隙水，主要為SO4-Ca、SO4-Ca-Mg型水，簡(jiǎn)稱孔隙水。

花崗巖基巖裂隙水，補(bǔ)給來(lái)源主要是大氣降水，人工開(kāi)采排泄為主，主要為HCO3-Ca，HCO3-SO4-Ca型水，簡(jiǎn)稱裂隙水。

地表水，大氣降水補(bǔ)給為主，礦化度最高，蒸發(fā)現(xiàn)象顯著，主要為SO4-Mg-Ca型水。

大孤山鐵礦西北巷道為本次預(yù)測(cè)涌水水源研究樣本。起點(diǎn)坐標(biāo)：123°3′17.45″E，41°3′16.09″N，巷道始建于1986年，該巷道為礦石運(yùn)輸發(fā)揮了難以替代的作用近年來(lái)巷道內(nèi)部裂隙多發(fā)并伴有涌水現(xiàn)象。礦井巷道取樣點(diǎn)如圖5所示，取樣巷道入口地面高程68 m，巷道總長(zhǎng)632 m。

圖5 取樣點(diǎn)與巷道位置圖Fig.5 Location map of sampling points and roadway

2.2 評(píng)估指標(biāo)選取

圖6 piper三線圖Fig.6 The piper diagram

矩陣X中數(shù)據(jù)xij標(biāo)準(zhǔn)化的計(jì)算公式如下：

(5)

(6)

實(shí)驗(yàn)結(jié)果證明，通過(guò)標(biāo)準(zhǔn)化可以加快收斂速度并提高精度(表2)。

2.3 隨機(jī)森林參數(shù)確定

RF通過(guò)使樹(shù)從不同的訓(xùn)練數(shù)據(jù)子集中生長(zhǎng)來(lái)增加樹(shù)的多樣性。每棵樹(shù)生長(zhǎng)所選擇的子集通常包含大約2/3的數(shù)據(jù)，子集中不存在的樣本，包含在另一個(gè)名為袋外數(shù)據(jù)(out-of-bag,OOB)的子集中。利用OOB計(jì)算模型的錯(cuò)誤率er表示如下：

表1 水樣數(shù)據(jù)Table 1 Sample data

表2 通過(guò)10次十折交叉驗(yàn)證實(shí)驗(yàn)測(cè)試標(biāo)準(zhǔn)化RF性能Table 2 Standardized RF performance was tested by 10-fold cross validation experiments

(7)

式(7)中：er表示第k棵樹(shù)的OOB錯(cuò)誤率；A表示第k棵樹(shù)OOB數(shù)據(jù)的總數(shù)；a表示第k棵樹(shù)分類結(jié)果錯(cuò)誤的數(shù)據(jù)個(gè)數(shù)。

按照上述方法每個(gè)決策樹(shù)都可以得到一個(gè)OOB錯(cuò)誤率er，將其平均值作為估計(jì)模型的分類性能的指標(biāo)，稱為OOB錯(cuò)誤率。圖7說(shuō)明隨著樹(shù)的棵數(shù)的增加，OOB錯(cuò)誤率逐漸減少并趨于穩(wěn)定。樹(shù)的棵數(shù)k=50的時(shí)候模型比較理想。如果樹(shù)的棵數(shù)繼續(xù)增加會(huì)導(dǎo)致運(yùn)算量加大，但是精度提高不明顯。節(jié)點(diǎn)預(yù)選變量過(guò)多會(huì)導(dǎo)致模型過(guò)擬合判斷精度下降，根據(jù)圖7、表3可以看出m=3時(shí)效果較好，穩(wěn)定性較強(qiáng)。因此，選取的RF模型參數(shù)為：樹(shù)的棵數(shù)k=50，樹(shù)節(jié)點(diǎn)預(yù)選的變量m=3。

表3 k=50時(shí)OOB錯(cuò)誤率Table 3 OOB dislocation rate with k=50

2.4 對(duì)比實(shí)驗(yàn)

交叉驗(yàn)證是一種統(tǒng)計(jì)學(xué)中將數(shù)據(jù)樣本切割成較小子集用來(lái)測(cè)試模型的準(zhǔn)確性的實(shí)用方法。選取十折交叉驗(yàn)證，其原理是將數(shù)據(jù)集隨機(jī)分成十份，輪流將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測(cè)試數(shù)據(jù)，進(jìn)行實(shí)驗(yàn)，測(cè)試結(jié)束即完成了10次實(shí)驗(yàn)。本文中采用隨機(jī)森林模型，對(duì)表1中的水化學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化處理后進(jìn)行10次十折交叉驗(yàn)證并與SVM和ELM預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。

SVM利用libsvm工具箱，選擇高斯核函數(shù)。采用工具箱自帶SVMcgForClass函數(shù)尋找最優(yōu)懲罰系數(shù)C與高斯核函數(shù)幅寬影響系數(shù)γ的值。根據(jù)計(jì)算結(jié)果最優(yōu)的C=5.15，γ=0.01。

ELM利用十折交叉驗(yàn)證的方法尋求ELM最優(yōu)參數(shù)。分別對(duì)1～100個(gè)隱含層神經(jīng)元進(jìn)行十折交叉驗(yàn)證，將得到的正確率取均值繪制成圖8。從圖8中可以看出雖然在40個(gè)隱含層神經(jīng)元的時(shí)候訓(xùn)練樣本正確率穩(wěn)定維持在100%，但是測(cè)試樣本的正確率先上升后下降大約在12個(gè)神經(jīng)元時(shí)達(dá)到最高，過(guò)高的神經(jīng)元個(gè)數(shù)容易導(dǎo)致模型過(guò)擬合，達(dá)不到預(yù)測(cè)的效果。因此，本次實(shí)驗(yàn)選取12個(gè)神經(jīng)元。激活函數(shù)如下：

g(x)=1/(1+e-x)

(8)

圖8 ELM性能測(cè)試Fig.8 ELM performance test

2.5 對(duì)比結(jié)果

進(jìn)行10次十折交叉驗(yàn)證并將每次預(yù)測(cè)的正確率進(jìn)行統(tǒng)計(jì)繪制出圖9。從圖9中可以看出RF的訓(xùn)練樣本100%擬合。RF構(gòu)建決策樹(shù)的時(shí)候遵循隨機(jī)抽樣的原則根據(jù)統(tǒng)計(jì)學(xué)中的大數(shù)定律，重復(fù)實(shí)驗(yàn)次數(shù)越多，隨機(jī)事件的頻率越近似于它的概率的原則。隨著樹(shù)的棵數(shù)的增加只是增加計(jì)算量，不會(huì)導(dǎo)致模型過(guò)擬合使RF可以更好地利用全部數(shù)據(jù)。

對(duì)比圖9(a)及圖9(b)、圖9(c)可以看出隨機(jī)森林可以更好地降低噪聲對(duì)預(yù)測(cè)結(jié)果的干擾，擁有更好的魯棒性。不會(huì)像SVM與ELM一樣因?yàn)椴糠衷肼晫?dǎo)致正確率波動(dòng)。對(duì)比圖9(b)與圖9(c)可以看出SVM的穩(wěn)定性比ELM更優(yōu)秀，這可能與ELM隨機(jī)賦予輸入權(quán)重有關(guān)，導(dǎo)致ELM預(yù)測(cè)結(jié)果波動(dòng)性比較強(qiáng)。RF，SVM在不同十折交叉驗(yàn)證中表現(xiàn)出較高的穩(wěn)定性。根據(jù)表4的總用時(shí)可以看出SVM的速度最快、ELM次之、RF較慢。但是礦井涌(突)水問(wèn)題的研究訓(xùn)練樣本數(shù)目不會(huì)太大。100次用時(shí)32 s的速度可以滿足預(yù)測(cè)要求。

表4 10次十折交叉驗(yàn)證正確率與總用時(shí)Table 4 Accuracy rate and total time of 10 10-fold cross validation

圖9 交叉驗(yàn)證結(jié)果Fig.9 Cross validation results

3 巷道涌水水源預(yù)測(cè)

經(jīng)過(guò)上述實(shí)驗(yàn)可以看出利用標(biāo)準(zhǔn)化以后的RF模型預(yù)測(cè)結(jié)果最優(yōu)，將礦井巷道內(nèi)取得的水化學(xué)數(shù)據(jù)輸入訓(xùn)練好的RF模型中即可快速得到預(yù)測(cè)結(jié)果。礦井巷道水化學(xué)數(shù)據(jù)見(jiàn)表5，預(yù)測(cè)結(jié)果見(jiàn)表6。RF模型會(huì)利用生成的決策樹(shù)分類器對(duì)數(shù)據(jù)K1～K5進(jìn)行預(yù)測(cè)，每個(gè)決策樹(shù)分類器都會(huì)給出一個(gè)預(yù)測(cè)結(jié)果，將預(yù)測(cè)結(jié)果占據(jù)所有結(jié)果的比重稱為得分，最終分類結(jié)果為得分最高的類別。從結(jié)果得分情況可以看出大孤山鐵礦礦井巷道內(nèi)涌水主要來(lái)源于孔隙水，巷道深部有部分源于裂隙水。

表5 礦井巷道中水化學(xué)數(shù)據(jù)Table 5 Hydrochemical data of mine roadway

表6 預(yù)測(cè)結(jié)果Table 6 Predicted results

4 結(jié)論

以大孤山鐵礦為例對(duì)礦井涌(突)水水源判別問(wèn)題進(jìn)行了全面的研究，在判別時(shí)充分考慮人類活動(dòng)影響因子，將反映水天然化學(xué)性質(zhì)的指標(biāo)與反映人類活動(dòng)的指標(biāo)相結(jié)合對(duì)水源進(jìn)行判別，并利用上述指標(biāo)訓(xùn)練了RF模型、SVM模型、ELM模型，得出如下結(jié)論。

(1)經(jīng)過(guò)交叉驗(yàn)證實(shí)驗(yàn)得出RF正確率均值97.38%，優(yōu)于SVM與ELM的87.14%、84.10%。

(2)RF擁有極高的魯棒性和穩(wěn)定性，參數(shù)可以通過(guò)對(duì)OOB錯(cuò)誤率進(jìn)行簡(jiǎn)單的分析后快速取得，并且參數(shù)擁有寬廣的適應(yīng)范圍，即使將樹(shù)的棵數(shù)k設(shè)定的很大也只是增加計(jì)算時(shí)間不影響精度，可以較容易地實(shí)現(xiàn)模型建立。

(3)SVM與ELM對(duì)參數(shù)的選取較敏感，需要借助交叉驗(yàn)證方法或?qū)ｉT為選取參數(shù)開(kāi)發(fā)的算法進(jìn)行參數(shù)選取，操作較為復(fù)雜。

(4)得出了大孤山鐵礦巷道內(nèi)涌水主要來(lái)源于孔隙水，巷道深部有部分源于裂隙水的結(jié)論為以后的防治提供了參考意見(jiàn)。

利用RF進(jìn)行礦井涌(突)水水源判別預(yù)測(cè)結(jié)果準(zhǔn)確率高，操作簡(jiǎn)便。對(duì)此類問(wèn)題具有普適性，可以進(jìn)一步在不同類型礦井中研究利用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡