郝 謙,武 雄,穆文平,鄧若晨,胡博遠(yuǎn),高 原
(中國(guó)地質(zhì)大學(xué)(北京) 水資源與環(huán)境學(xué)院,北京 100083)
隨著礦井開(kāi)采深度的增加,礦井涌(突)水災(zāi)害發(fā)生頻率也逐步增高,對(duì)井下的安全生產(chǎn)造成了嚴(yán)重威脅[1-2]??焖贉?zhǔn)確判別礦井涌(突)水水源是近年來(lái)礦井水害治理研究的熱點(diǎn)問(wèn)題之一。在過(guò)去的幾十年里,學(xué)者們已經(jīng)提出了許多研究方法來(lái)判斷礦井涌(突)水水源,這些方法可分為三種類型:地下水動(dòng)力學(xué)判別方法、地下水溫度判別方法[3]、水化學(xué)判別方法[4-5]。Wu等[6]對(duì)比了上述三種方法后,得出了水化學(xué)判別方法在實(shí)際運(yùn)用當(dāng)中更具優(yōu)勢(shì)的觀點(diǎn)。溫廷新等[7]、朱慶偉等[8]、朱樂(lè)章[9]在對(duì)礦井涌(突)水水源判別問(wèn)題研究時(shí),都利用水化學(xué)判別方法選取地下水中的7種主要離子進(jìn)行礦井涌(突)水水源判別。
對(duì)于利用水化學(xué)成分進(jìn)行礦井涌(突)水水源判別時(shí),應(yīng)用了許多數(shù)學(xué)方法,例如,模糊數(shù)學(xué)理論[10]、灰色關(guān)聯(lián)分析[11-12]、熵權(quán)-模糊綜合判別[13]等。模糊數(shù)學(xué)理論評(píng)判和灰色關(guān)聯(lián)分析等方法都要事先假定模式或主觀規(guī)定一些參數(shù),導(dǎo)致其評(píng)價(jià)結(jié)果具有主觀性。近幾年,隨著計(jì)算機(jī)技術(shù)的進(jìn)步和數(shù)據(jù)挖掘技術(shù)的顯著提升,利用機(jī)器學(xué)習(xí)手段能避免上述問(wèn)題,提高判別精度。例如,吳巖等[14]利用BP(back propagation)神經(jīng)網(wǎng)絡(luò);邵良杉等[15]利用支持向量機(jī)(support vector machine,SVM);王亞等[16]、唐立力[17]利用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)等機(jī)器學(xué)習(xí)分類器進(jìn)行礦井涌(突)水水源研究。BP神經(jīng)網(wǎng)絡(luò)由Rumelhart提出[18],其原理是按照誤差逆向傳播算法訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)訓(xùn)練樣本使得輸出結(jié)果誤差最小。SVM方法由Vapnik提出[19-20],其原理是將數(shù)據(jù)構(gòu)建到高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面對(duì)數(shù)據(jù)樣本進(jìn)行分類。ELM方法由黃廣斌提出[21-22],其原理是利用廣義逆實(shí)現(xiàn)求解輸出權(quán)重的單隱藏層前饋神經(jīng)網(wǎng)絡(luò),可以快速地完成學(xué)習(xí)過(guò)程。雖然這些方法均可直接應(yīng)用于礦井涌(突)水水源判別,但是模型的性能各有千秋。BP神經(jīng)網(wǎng)絡(luò)雖然可以求解復(fù)雜的非線性映射,但是存在學(xué)習(xí)過(guò)度,收斂速度慢等缺點(diǎn);SVM雖然有堅(jiān)實(shí)的理論基礎(chǔ),較快的運(yùn)算速度,但是只可使用間接的方法來(lái)完成多分類,可能導(dǎo)致精度不足;ELM雖然參數(shù)設(shè)置少適用范圍廣,但是輸入層權(quán)重隨機(jī)生成可能導(dǎo)致預(yù)測(cè)結(jié)果不穩(wěn)定等問(wèn)題。
鑒于此,迫切需要一種高精確度、高穩(wěn)定性、并且擁有良好魯棒性的新方法。Breiman[23]提出的隨機(jī)森林模型(random forest,RF)滿足上述條件。在相關(guān)領(lǐng)域隨機(jī)森林模型已經(jīng)用于預(yù)測(cè)礦石的屬性,采空區(qū)自燃[24]等問(wèn)題并取得了良好成績(jī)。本文將其應(yīng)用于礦井涌(突)水水源判別,建立RF 水源判別模型,并與傳統(tǒng)分類模型SVM和ELM進(jìn)行比較[25]。分析隨機(jī)森林模型在礦井涌(突)水水源判別中的適用性,探索其應(yīng)用方法,最后通過(guò)實(shí)例驗(yàn)證,證明方法的有效性。
隨機(jī)森林模型是一種基于Bagging的集成學(xué)習(xí)方法,該方法隨機(jī)有放回的選擇訓(xùn)練數(shù)據(jù)構(gòu)造組合分類器進(jìn)行分類。模型具體步驟如下:
對(duì)一個(gè)包含N個(gè)樣本的訓(xùn)練數(shù)據(jù)樣本集S,令i(i=1,2,…,N)表示樣本序號(hào),則第i個(gè)樣本的數(shù)據(jù)信息可記作 (xi,yi),其中,xi為M維向量,表示該樣本的M個(gè)特征,令j(j=1,2,…,M)表示該樣本的第j個(gè)特征,則第i個(gè)樣本的第j個(gè)特征可記作xij;yj為一個(gè)元素,表示樣本i的所屬類別,假設(shè)所有樣本可分為n個(gè)類別,用l(l=1,2,…,n)表示樣本的一個(gè)類別,則該訓(xùn)練數(shù)據(jù)樣本集可表示為
S={(xi,yi),i=1,2,…,N}
(1)
訓(xùn)練數(shù)據(jù)樣本集S也可表示為矩陣的形式:
(X,Y)∈RM×R
(2)
式(2)中:X=(x1,x2,…,xn)T表示N個(gè)樣本的特征矩陣;Y=(y1,y2,…,yn)T表示N個(gè)樣本的分類組成的列向量。
Step 1有放回的隨機(jī)抽樣。從原始訓(xùn)練數(shù)據(jù)樣本集中利用bootstrap采樣方法進(jìn)行抽樣,即從整個(gè)訓(xùn)練數(shù)據(jù)樣本集合中,有放回的進(jìn)行k次隨機(jī)抽取,形成k個(gè)樣本子集Sd(d=1,2,…,k)其中每個(gè)子集包括原訓(xùn)練樣本集S中的大約2/3個(gè)樣本數(shù)據(jù)。
Step 2構(gòu)建決策樹(shù)。針對(duì)每個(gè)樣本子集Sd,從樣本的M個(gè)特征中隨機(jī)挑選m個(gè)特征(m?M),將挑選好的m個(gè)特征數(shù)據(jù)輸入CART算法(該算法在下一小節(jié)中進(jìn)行介紹)構(gòu)建決策樹(shù)。每一個(gè)樣本子集Sd可以構(gòu)建一顆決策樹(shù),一共構(gòu)建k棵。
Step 3進(jìn)行決策。根據(jù)生成的k棵決策樹(shù)分類器對(duì)新的測(cè)試數(shù)據(jù)xt進(jìn)行預(yù)測(cè),分類結(jié)果按每棵樹(shù)分類器的投票多少而決定。詳細(xì)計(jì)算過(guò)程如圖1所示。
圖1 隨機(jī)森林模型計(jì)算原理Fig.1 Principles of random forest
CART(classification and regression trees)算法是隨機(jī)森林構(gòu)建決策樹(shù)的算法,其構(gòu)建過(guò)程為:對(duì)于一個(gè)特定樣本子集Sd,從隨機(jī)挑選的m個(gè)特征中先選取一個(gè)特征mj,按照mj大于等于或者小于某個(gè)實(shí)數(shù),將樣本子集Sd劃分成兩個(gè)集合Sd1與Sd2,按照式(3)計(jì)算Gini(Sd)。計(jì)算過(guò)程如下:
(3)
對(duì)樣本集合T(一次劃分中可能的取值是Sd1與Sd2) Gini系數(shù)計(jì)算方法如下:
(4)
式(4)中:T表示樣品集;n表示樣本集中所有可能出現(xiàn)類別的總數(shù);Pi表示樣本集合中第i類樣本出現(xiàn)的概率。
對(duì)劃分好的集合Sd1如果其Gini(Sd1)大于設(shè)定值則選取另一個(gè)特征值重復(fù)上述劃分過(guò)程。經(jīng)過(guò)上述不斷的劃分會(huì)形成如圖2所示的一棵樹(shù)。新的測(cè)試數(shù)據(jù)xt會(huì)按照m的條件分配到不同劃分好的集合中。決策樹(shù)將分配到的集合中概率最高的類別認(rèn)為是xt的類別。經(jīng)過(guò)多次不同的劃分后找到實(shí)數(shù)C#使得Gini(Sd)最小。
圖2 隨機(jī)森林中的一棵CART樹(shù)Fig.2 A CART tree in a random forest
研究區(qū)為大孤山鐵礦周邊地區(qū),距鞍山市東南12 km。研究區(qū)為丘陵地形,南北高中間低,多年平均降雨量720.6 mm,礦坑西部有河流從南向北流過(guò)。研究區(qū)主要地層為第四系地層、下白堊統(tǒng)地層、太古宇地層。其中第四系地層主要為黏土,其余地層為同時(shí)期侵入巖以花崗巖為主。受寒嶺斷裂的控制,形成一系列的斷層和破碎帶。具體地質(zhì)情況如圖3。大孤山鐵礦礦坑內(nèi)主要為花崗巖、磁鐵礦、變質(zhì)巖(圖4)。依據(jù)礦區(qū)水文地質(zhì)條件將該地區(qū)可能的礦井涌(突)水水源分為第四系松散孔隙水、花崗巖基巖裂隙水、地表水三大類。
圖3 研究區(qū)地質(zhì)與實(shí)驗(yàn)樣本分布Fig.3 Geological and experimental sample distribution of the study area
圖4 1-1′ 剖面圖Fig.4 1-1′ profile map
第四系孔隙水,補(bǔ)給來(lái)源主要為大氣降水,多以人工開(kāi)采形式排泄為主,部分補(bǔ)給花崗巖基巖裂隙水,主要為SO4-Ca、SO4-Ca-Mg型水,簡(jiǎn)稱孔隙水。
花崗巖基巖裂隙水,補(bǔ)給來(lái)源主要是大氣降水,人工開(kāi)采排泄為主,主要為HCO3-Ca,HCO3-SO4-Ca型水,簡(jiǎn)稱裂隙水。
地表水,大氣降水補(bǔ)給為主,礦化度最高,蒸發(fā)現(xiàn)象顯著,主要為SO4-Mg-Ca型水。
大孤山鐵礦西北巷道為本次預(yù)測(cè)涌水水源研究樣本。起點(diǎn)坐標(biāo):123°3′17.45″E,41°3′16.09″N,巷道始建于1986年,該巷道為礦石運(yùn)輸發(fā)揮了難以替代的作用近年來(lái)巷道內(nèi)部裂隙多發(fā)并伴有涌水現(xiàn)象。礦井巷道取樣點(diǎn)如圖5所示,取樣巷道入口地面高程68 m,巷道總長(zhǎng)632 m。
圖5 取樣點(diǎn)與巷道位置圖Fig.5 Location map of sampling points and roadway
圖6 piper三線圖Fig.6 The piper diagram
矩陣X中數(shù)據(jù)xij標(biāo)準(zhǔn)化的計(jì)算公式如下:
(5)
(6)
實(shí)驗(yàn)結(jié)果證明,通過(guò)標(biāo)準(zhǔn)化可以加快收斂速度并提高精度(表2)。
RF通過(guò)使樹(shù)從不同的訓(xùn)練數(shù)據(jù)子集中生長(zhǎng)來(lái)增加樹(shù)的多樣性。每棵樹(shù)生長(zhǎng)所選擇的子集通常包含大約2/3的數(shù)據(jù),子集中不存在的樣本,包含在另一個(gè)名為袋外數(shù)據(jù)(out-of-bag,OOB)的子集中。利用OOB計(jì)算模型的錯(cuò)誤率er表示如下:
表1 水樣數(shù)據(jù)Table 1 Sample data
表2 通過(guò)10次十折交叉驗(yàn)證實(shí)驗(yàn)測(cè)試標(biāo)準(zhǔn)化RF性能Table 2 Standardized RF performance was tested by 10-fold cross validation experiments
(7)
式(7)中:er表示第k棵樹(shù)的OOB錯(cuò)誤率;A表示第k棵樹(shù)OOB數(shù)據(jù)的總數(shù);a表示第k棵樹(shù)分類結(jié)果錯(cuò)誤的數(shù)據(jù)個(gè)數(shù)。
按照上述方法每個(gè)決策樹(shù)都可以得到一個(gè)OOB錯(cuò)誤率er,將其平均值作為估計(jì)模型的分類性能的指標(biāo),稱為OOB錯(cuò)誤率。圖7說(shuō)明隨著樹(shù)的棵數(shù)的增加,OOB錯(cuò)誤率逐漸減少并趨于穩(wěn)定。樹(shù)的棵數(shù)k=50的時(shí)候模型比較理想。如果樹(shù)的棵數(shù)繼續(xù)增加會(huì)導(dǎo)致運(yùn)算量加大,但是精度提高不明顯。節(jié)點(diǎn)預(yù)選變量過(guò)多會(huì)導(dǎo)致模型過(guò)擬合判斷精度下降,根據(jù)圖7、表3可以看出m=3時(shí)效果較好,穩(wěn)定性較強(qiáng)。因此,選取的RF模型參數(shù)為:樹(shù)的棵數(shù)k=50,樹(shù)節(jié)點(diǎn)預(yù)選的變量m=3。
表3 k=50時(shí)OOB錯(cuò)誤率Table 3 OOB dislocation rate with k=50
交叉驗(yàn)證是一種統(tǒng)計(jì)學(xué)中將數(shù)據(jù)樣本切割成較小子集用來(lái)測(cè)試模型的準(zhǔn)確性的實(shí)用方法。選取十折交叉驗(yàn)證,其原理是將數(shù)據(jù)集隨機(jī)分成十份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行實(shí)驗(yàn),測(cè)試結(jié)束即完成了10次實(shí)驗(yàn)。本文中采用隨機(jī)森林模型,對(duì)表1中的水化學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化處理后進(jìn)行10次十折交叉驗(yàn)證并與SVM和ELM預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
SVM利用libsvm工具箱,選擇高斯核函數(shù)。采用工具箱自帶SVMcgForClass函數(shù)尋找最優(yōu)懲罰系數(shù)C與高斯核函數(shù)幅寬影響系數(shù)γ的值。根據(jù)計(jì)算結(jié)果最優(yōu)的C=5.15,γ=0.01。
ELM利用十折交叉驗(yàn)證的方法尋求ELM最優(yōu)參數(shù)。分別對(duì)1~100個(gè)隱含層神經(jīng)元進(jìn)行十折交叉驗(yàn)證,將得到的正確率取均值繪制成圖8。從圖8中可以看出雖然在40個(gè)隱含層神經(jīng)元的時(shí)候訓(xùn)練樣本正確率穩(wěn)定維持在100%,但是測(cè)試樣本的正確率先上升后下降大約在12個(gè)神經(jīng)元時(shí)達(dá)到最高,過(guò)高的神經(jīng)元個(gè)數(shù)容易導(dǎo)致模型過(guò)擬合,達(dá)不到預(yù)測(cè)的效果。因此,本次實(shí)驗(yàn)選取12個(gè)神經(jīng)元。激活函數(shù)如下:
g(x)=1/(1+e-x)
(8)
圖8 ELM性能測(cè)試Fig.8 ELM performance test
進(jìn)行10次十折交叉驗(yàn)證并將每次預(yù)測(cè)的正確率進(jìn)行統(tǒng)計(jì)繪制出圖9。從圖9中可以看出RF的訓(xùn)練樣本100%擬合。RF構(gòu)建決策樹(shù)的時(shí)候遵循隨機(jī)抽樣的原則根據(jù)統(tǒng)計(jì)學(xué)中的大數(shù)定律,重復(fù)實(shí)驗(yàn)次數(shù)越多,隨機(jī)事件的頻率越近似于它的概率的原則。隨著樹(shù)的棵數(shù)的增加只是增加計(jì)算量,不會(huì)導(dǎo)致模型過(guò)擬合使RF可以更好地利用全部數(shù)據(jù)。
對(duì)比圖9(a)及圖9(b)、圖9(c)可以看出隨機(jī)森林可以更好地降低噪聲對(duì)預(yù)測(cè)結(jié)果的干擾,擁有更好的魯棒性。不會(huì)像SVM與ELM一樣因?yàn)椴糠衷肼晫?dǎo)致正確率波動(dòng)。對(duì)比圖9(b)與圖9(c)可以看出SVM的穩(wěn)定性比ELM更優(yōu)秀,這可能與ELM隨機(jī)賦予輸入權(quán)重有關(guān),導(dǎo)致ELM預(yù)測(cè)結(jié)果波動(dòng)性比較強(qiáng)。RF,SVM在不同十折交叉驗(yàn)證中表現(xiàn)出較高的穩(wěn)定性。根據(jù)表4的總用時(shí)可以看出SVM的速度最快、ELM次之、RF較慢。但是礦井涌(突)水問(wèn)題的研究訓(xùn)練樣本數(shù)目不會(huì)太大。100次用時(shí)32 s的速度可以滿足預(yù)測(cè)要求。
表4 10次十折交叉驗(yàn)證正確率與總用時(shí)Table 4 Accuracy rate and total time of 10 10-fold cross validation
圖9 交叉驗(yàn)證結(jié)果Fig.9 Cross validation results
經(jīng)過(guò)上述實(shí)驗(yàn)可以看出利用標(biāo)準(zhǔn)化以后的RF模型預(yù)測(cè)結(jié)果最優(yōu),將礦井巷道內(nèi)取得的水化學(xué)數(shù)據(jù)輸入訓(xùn)練好的RF模型中即可快速得到預(yù)測(cè)結(jié)果。礦井巷道水化學(xué)數(shù)據(jù)見(jiàn)表5,預(yù)測(cè)結(jié)果見(jiàn)表6。RF模型會(huì)利用生成的決策樹(shù)分類器對(duì)數(shù)據(jù)K1~K5進(jìn)行預(yù)測(cè),每個(gè)決策樹(shù)分類器都會(huì)給出一個(gè)預(yù)測(cè)結(jié)果,將預(yù)測(cè)結(jié)果占據(jù)所有結(jié)果的比重稱為得分,最終分類結(jié)果為得分最高的類別。從結(jié)果得分情況可以看出大孤山鐵礦礦井巷道內(nèi)涌水主要來(lái)源于孔隙水,巷道深部有部分源于裂隙水。
表5 礦井巷道中水化學(xué)數(shù)據(jù)Table 5 Hydrochemical data of mine roadway
表6 預(yù)測(cè)結(jié)果Table 6 Predicted results
以大孤山鐵礦為例對(duì)礦井涌(突)水水源判別問(wèn)題進(jìn)行了全面的研究,在判別時(shí)充分考慮人類活動(dòng)影響因子,將反映水天然化學(xué)性質(zhì)的指標(biāo)與反映人類活動(dòng)的指標(biāo)相結(jié)合對(duì)水源進(jìn)行判別,并利用上述指標(biāo)訓(xùn)練了RF模型、SVM模型、ELM模型,得出如下結(jié)論。
(1)經(jīng)過(guò)交叉驗(yàn)證實(shí)驗(yàn)得出RF正確率均值97.38%,優(yōu)于SVM與ELM的87.14%、84.10%。
(2)RF擁有極高的魯棒性和穩(wěn)定性,參數(shù)可以通過(guò)對(duì)OOB錯(cuò)誤率進(jìn)行簡(jiǎn)單的分析后快速取得,并且參數(shù)擁有寬廣的適應(yīng)范圍,即使將樹(shù)的棵數(shù)k設(shè)定的很大也只是增加計(jì)算時(shí)間不影響精度,可以較容易地實(shí)現(xiàn)模型建立。
(3)SVM與ELM對(duì)參數(shù)的選取較敏感,需要借助交叉驗(yàn)證方法或?qū)iT為選取參數(shù)開(kāi)發(fā)的算法進(jìn)行參數(shù)選取,操作較為復(fù)雜。
(4)得出了大孤山鐵礦巷道內(nèi)涌水主要來(lái)源于孔隙水,巷道深部有部分源于裂隙水的結(jié)論為以后的防治提供了參考意見(jiàn)。
利用RF進(jìn)行礦井涌(突)水水源判別預(yù)測(cè)結(jié)果準(zhǔn)確率高,操作簡(jiǎn)便。對(duì)此類問(wèn)題具有普適性,可以進(jìn)一步在不同類型礦井中研究利用。