王 皓,孫鈞青,曾一凡,尚宏波,王甜甜,喬 偉
(1.煤炭科學(xué)研究總院,北京 100013;2.中煤科工西安研究院(集團)有限公司,陜西 西安 710077;3.陜西省煤礦水害防治技術(shù)重點實驗室,陜西 西安 710077;4.中國礦業(yè)大學(xué)(北京) 國家煤礦水害防治工程技術(shù)研究中心,北京 100083)
黃河流域中段蒙陜接壤區(qū)是我國重要的煤炭生產(chǎn)基地,在能源保供中具有不可替代的戰(zhàn)略地位[1-2]。區(qū)域內(nèi)煤炭資源高強度開采下采動裂隙發(fā)育并溝通上覆多個含水層,不可避免地引發(fā)頂板水害問題[3-4],因此,煤層頂板水害防治一直是蒙陜接壤區(qū)礦井安全生產(chǎn)亟待解決的難題??焖贉?zhǔn)確地判別頂板涌水水源是煤層頂板水害防控的前提[5-6],傳統(tǒng)的礦井水源判別方法主要有水位觀測法、水化學(xué)法[7]、示蹤法[8]等。
近年來,隨著數(shù)學(xué)理論和計算機的發(fā)展,利用水化學(xué)法進(jìn)行水源判別的方法日趨成熟,主要集中在多元統(tǒng)計法[9]、非線性分析法[10]、模糊數(shù)學(xué)[11]和機器學(xué)習(xí)[12]等領(lǐng)域。Cui Mengke[13]、曲興玥[14]和Zhang Haitao[15]等分別利用動態(tài)權(quán)重、馬氏距離和Fisher 判別法構(gòu)建了礦井涌水水源判別模型。與傳統(tǒng)方法相比,機器學(xué)習(xí)算法在處理非線性、高維數(shù)據(jù)中更具優(yōu)勢,且具有較強的自適應(yīng)性[16]。韓忠[17]、紀(jì)卓辰[18]等分別將主成分分析法(Principal Component Analysis,PCA)和BP(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)、Logistic 回歸方法相結(jié)合,使得判別更加快速準(zhǔn)確;郝謙等[19]將隨機森林(Random Forest,RF)判別模型與支持向量機(Support Vector Machine,SVM)、極限學(xué)習(xí)機(Extreme Learning Machines,ELM)判別模型進(jìn)行比較,證明了RF 具有更高的預(yù)測精度和魯棒性。機器學(xué)習(xí)問題常涉及到尋找全局最優(yōu)解或近似最優(yōu)解,而傳統(tǒng)的單點優(yōu)化方法容易陷入局部最優(yōu)解,因此,常用群體智能優(yōu)化算法對機器學(xué)習(xí)模型進(jìn)行優(yōu)化[20]。侯恩科[21]、于小鴿[22]等分別使用自適應(yīng)粒子群算法(Adaptive Particle Swarm Algorithm,APSO)和自適應(yīng)鯨魚算法(Ameliorative Whale Optimization Algorithm,AWOA)對ELM 神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),判別效果都得到了顯著增強;黃敏[23]、胡友彪[24]等分別使用混沌麻雀搜索和粒子群算法對RF 模型進(jìn)行了改進(jìn)。人工魚群算法(Artificial FishSwarms Algorithm,AFSA)作為一種新型的智能仿生算法,具有原理簡單、搜索能力強等優(yōu)勢,在諸多領(lǐng)域均有著廣泛應(yīng)用[25-26]。Jia Dongyao 等[27]使用AFSA 改進(jìn)RF,提高了細(xì)胞的分類性能;李旭鵬等[28]建立了基于AFSA-RF 的流型識別模型,其識別精度與穩(wěn)定性高于未優(yōu)化的RF 模型。
因此,筆者以蒙陜接壤區(qū)的3 個礦井為研究對象,將常規(guī)無機指標(biāo)和總有機碳(Total Organic Carbon,TOC)、UV254、水樣溶解性有機質(zhì)(Dissolved Organic Matter,DOM)熒光光譜等有機指標(biāo)作為判別依據(jù),采用PCA對數(shù)據(jù)集進(jìn)行特征降維,使用人工魚群算法對隨機森林的子樹數(shù)目、樹深和內(nèi)部節(jié)點分裂所需的最小樣本數(shù)進(jìn)行尋優(yōu),通過引入遺傳機制提高AFSA 的全局搜索能力,建立PCA-AFSA-PF 煤層頂板涌水水源判別模型,以提高模型預(yù)測性能,以期為煤層頂板涌水水源的準(zhǔn)確判別提供新方法。
研究區(qū)域為蒙陜接壤區(qū)從東北至西南走向的3 個典型礦井:A 礦、B 礦和C 礦(圖1)。研究區(qū)礦井位于鄂爾多斯盆地之次級構(gòu)造單元陜北斜坡及伊陜單斜區(qū),總體形態(tài)呈向NW 或NWW 微傾的單斜構(gòu)造或近水平地層,無落差較大的斷層和明顯的褶皺構(gòu)造,無巖漿巖活動痕跡;巖體結(jié)構(gòu)以整塊或?qū)訝罱Y(jié)構(gòu)為主,飽水砂層影響巖體穩(wěn)定,局部地段易發(fā)生礦山工程地質(zhì)問題。此外,研究區(qū)地處毛烏素沙漠,地表絕大部分被第四系松散沉積物覆蓋,地貌以風(fēng)蝕風(fēng)積沙漠丘陵和沙漠灘地為主,容易接受地表水和大氣降雨補給;總體地勢北部較高,向南逐漸降低;區(qū)域內(nèi)較大水系有無定河及其支流納林河。
圖1 研究區(qū)位置及地層Fig.1 Location and stratigraphic column of the mines in the Inner Mongolia-Shaanxi border region
研究區(qū)礦井的含煤地層均為侏羅系延安組,地層結(jié)構(gòu)相似(圖1),其主要含(隔)水層自上而下為:第四系孔隙含水層,白堊系洛河組孔隙-裂隙含水層,侏羅系安定組相對隔水層,侏羅系直羅組和延安組裂隙含水層[29]。第四系孔隙發(fā)育,富水性強;白堊系結(jié)構(gòu)疏松且易于接受第四系的補給,富水性相對較好;直羅組與白堊系之間有安定組相對隔水層且裂隙不發(fā)育,富水性較弱;延安組裂隙不發(fā)育,且泥質(zhì)含量隨埋深的增加而增加,滲透性逐漸變差。
研究區(qū)礦井在建設(shè)過程中存在煤層及其直接頂板富水的問題,煤礦掘進(jìn)工程遇到一定阻礙;未來回采過程中直接充水水源為頂板砂巖裂隙水,間接充水水源為白堊系砂巖孔隙裂隙水;周邊礦井基建階段主要防治水問題集中在井巷工程接近煤層頂板及煤層過程中涌水量較大,頂板富水性較強等方面,可以預(yù)見,后續(xù)施工過程中會面臨松散沙層、白堊系志丹群、直羅組砂巖含水層一系列防治水問題。
因此,本文以第四系含水層、白堊系含水層、直羅組含水層和延安組含水層為研究對象,利用水化學(xué)分析和機器學(xué)習(xí)等手段,研究不同含水層水樣水質(zhì)之間的差異。
本次共采集研究區(qū)水樣92 組,包含地下水水樣80 組,礦井水水樣12 組。地下水水樣自上而下包括第四系水樣22 組、白堊系水樣11 組、直羅組水樣24 組和延安組水樣23 組;礦井水水樣12 組用于判別模型的驗證。使用2.5 L 聚乙烯采樣瓶進(jìn)行水樣的采集,嚴(yán)格執(zhí)行裝水、密封、貼標(biāo)等采樣步驟,采集后及時進(jìn)行測定與分析。
參考現(xiàn)行的GB/T 14848-2017《地下水質(zhì)量標(biāo)準(zhǔn)》[30],利用電感耦合等離子體質(zhì)譜儀,對水樣的常規(guī)指標(biāo)進(jìn)行檢測,選取K++Na+、Ca2+、Mg2+、Cl-、S、HC和TDS 這7 項無機指標(biāo)進(jìn)行后續(xù)分析。
需要測定的有機指標(biāo)為TOC、UV254和DOM 三維熒光數(shù)據(jù)。使用multi N/C 2100 專家型總有機碳/總氮分析儀進(jìn)行TOC 的檢測;使用Evolution 60 紫外可見光度計檢測254 nm 處的紫外吸收值。使用熒光分光光度計(HITACHI F-7000)進(jìn)行DOM 熒光數(shù)據(jù)的提取:設(shè)置儀器掃描速度為1 200 nm/min;激發(fā)波長(Excitation Wavelength,EX)為200~420 nm,間隔為5 nm;發(fā)射波長(Emission Wavelength,EM)為240~600 nm,間隔為2 nm;為去除環(huán)境噪聲,使用超純水作為空白,校正水的拉曼散射。
DOM 熒光圖譜包含5 個區(qū)域,分別表示5 種有機物類型(圖2),其中,Ⅰ區(qū)代表酪氨酸,Ⅱ區(qū)代表色氨酸,Ⅲ區(qū)代表疏水性有機酸,Ⅳ代表含色氨酸的類蛋白質(zhì),Ⅴ區(qū)代表海洋性腐植酸[31]。利用平行因子法從所有水樣的熒光數(shù)據(jù)中提取出2 種組分,如圖2 所示,經(jīng)分析:組分1(C1)具有1 個激發(fā)峰(265 nm)和1 個發(fā)射峰(400 nm),包含了疏水性有機酸和類腐植酸,且以后者居多;組分2(C2)具有4 個激發(fā)峰(225 nm/250 nm/280 nm/295 nm)和1 個發(fā)射峰(308 nm),包含了酪氨酸和含色氨酸的類蛋白質(zhì)。水樣各指標(biāo)的檢測結(jié)果及提取的有機組分濃度見表1。
表1 水樣測試結(jié)果Table 1 Water samples analysis findings
圖2 DOM 各組分三維熒光圖譜Fig.2 Three-dimensional fluorescence spectra of various components of dissolved organic matter (DOM)
為分析采集水樣的水化學(xué)特性,利用測試得到的表1 中92 組水樣數(shù)據(jù),分別繪制水化學(xué)Piper 三線圖和水樣各指標(biāo)散點柱狀圖,如圖3、圖4 所示。
圖3 水化學(xué)Piper 三線圖Fig.3 Hydrochemical Piper trilinear diagram
圖4 水樣各指標(biāo)散點柱狀圖Fig.4 Scattered point column for various indicators of water samples
由圖3 可知,第四系水樣中陽離子以Ca2+為主,其次為Mg2+和K++Na+;陰離子以 HC為主,其次為S和Cl-,表現(xiàn)為HCO3-Ca 型水,與大氣降水相似,個別水樣K++Na+濃度較高,表明井田范圍內(nèi)第四系水的補給和運移條件存在不均一性。白堊系含水層水樣以HCO3-Ca·Na 和HCO3-Na·Ca 型水為主,與第四系較為接近,這是由于第四系底部局部發(fā)育離石組隔水層,但其分布不均,結(jié)構(gòu)松散且局部存在天窗,所以白堊系含水層易于接收其上覆含水層補給;同時,白堊系水中Na+濃度略有升高,這是沉積巖的風(fēng)化水解、交代作用、混合作用等綜合作用的結(jié)果。直羅組、延安組和礦井水的水樣均分布于水質(zhì)菱形圖右上部,水化學(xué)類型主要為SO4-Na 和SO4-Na·Ca,以堿及強酸為主,表明因蒸發(fā)濃縮和溶濾作用,造成因補給排泄緩慢,徑流條件差,礦化度較高,水質(zhì)類型復(fù)雜化的現(xiàn)象;這也表明這2 個含水層與淺層第四系水力聯(lián)系較差,這主要與安定組的隔水作用有關(guān)。綜合來看,不同水樣的水化學(xué)類型受到地質(zhì)條件和水-巖相互作用的共同影響,由于水-巖相互作用是一個復(fù)雜而漫長的過程,因此,本研究未考慮水-巖相互作用對水源判識的影響,主要以水樣檢測結(jié)果為數(shù)據(jù)基礎(chǔ),對水源判別方法進(jìn)行研究。
結(jié)合表1 和圖4 進(jìn)行分析可知,無機指標(biāo)K++Na+、Ca2+、Mg2+、Cl-、S的濃度和TDS 在白堊系至直羅組增加明顯,在直羅組至延安組增加不明顯,延安組個別水樣的無機指標(biāo)濃度甚至低于直羅組;UV254和TOC 總體上隨著含水層埋深的增加而降低,但延安組部分水樣其濃度明顯偏高,這主要是由于該地層含有較多的煤炭,地下水在通過這些含煤地層時,溶解并攜帶了較多的有機物;C1 的濃度在不同含水層中沒有明顯區(qū)分;第四系水樣中C2 的濃度較高,這是由于第四系埋深較淺,有利于生物質(zhì)的積累與保存以及微生物的生長。礦井水的各指標(biāo)濃度大小與直羅組水、延安組水相似。
為進(jìn)一步分析水樣中各指標(biāo)的相關(guān)性,利用表1 中前80 組水樣數(shù)據(jù),繪制各指標(biāo)相關(guān)系數(shù)矩陣熱力圖,如圖5 所示。
圖5 相關(guān)系數(shù)矩陣熱力圖Fig.5 Thermodynamic diagram of correlation coefficient matrix
在矩陣熱力圖中,圓圈越大,顏色越接近橙色表示相關(guān)性越強。因此,由圖5 可知,各指標(biāo)之間具有明確的相關(guān)性,其中 S與K++Na+、Ca2+、Mg2+、TDS 具有較強的正相關(guān)性;K++Na+與Ca2+、Mg2+、Cl-、TDS 具有較強的正相關(guān)性;Ca2+、Mg2+與TDS 也具有較強的正相關(guān)性。C2 分別與K++Na+、Ca2+、S、TDS 呈現(xiàn)出了明顯的負(fù)相關(guān)性,這表明數(shù)據(jù)集存在信息冗余,若直接用這11 種指標(biāo)進(jìn)行水源識別,會增加判別模型的復(fù)雜度和計算量,降低最終的判別效率和準(zhǔn)確度。
如前所述,判別指標(biāo)之間較強的相關(guān)性會增加分析的復(fù)雜程度,因此,本文使用PCA 對判別指標(biāo)數(shù)據(jù)集進(jìn)行降維。分別記K++Na+、Ca2+、Mg2+、Cl-、S、HC、TDS、UV254、TOC、C1、C2 為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11,選取前80 組地下水水樣作為訓(xùn)練樣本,由此得到一個80×11 的數(shù)據(jù)矩陣X。對矩陣X進(jìn)行主成分分析,得到其KMO(Kaiser-Meyer-Olkin)值和Bartlett 檢驗結(jié)果[32]。其中,KMO 值為0.770,這表明數(shù)據(jù)中的變量間有足夠的共同變異量。Bartlett 檢驗包括近似卡方、自由度和顯著性水平:其中,近似卡方為943.711,表明觀測到的相關(guān)性與完全隨機的偏差很大,說明數(shù)據(jù)集中的變量之間存在較強的相關(guān)性;自由度為55,意味著數(shù)據(jù)集中包含了相當(dāng)數(shù)量的變量;顯著性水平為0,這也支持變量之間存在相關(guān)性的結(jié)論,因此,可以認(rèn)為在這個數(shù)據(jù)集的變量之間存在足夠的相關(guān)性,適合進(jìn)行主成分分析。
圖6 為數(shù)據(jù)集的PCA 碎石圖,由圖可知,隨著成分?jǐn)?shù)的增加,特征值逐漸減小,在第6 個成分后不再有明顯變化;各指標(biāo)總方差解釋見表2,可以看出前6 個主成分F1-F6的方差累計貢獻(xiàn)率達(dá)到了94.393%,包含了原始數(shù)據(jù)集的絕大部分信息,因此,選取主成分個數(shù)為6,前6 個主成分的數(shù)學(xué)表達(dá)式如下:
表2 總方差解釋Table 2 Total variance interpretations
圖6 PCA 碎石圖Fig.6 PCA macadam
將矩陣X中的值代入式(1)中,得到一個大小為80×6 的矩陣F,該矩陣即為降維后的數(shù)據(jù)集,使用該數(shù)據(jù)集進(jìn)行后續(xù)的模型訓(xùn)練。
RF 算法具有較好的魯棒性和非線性建模能力[19],但需要調(diào)節(jié)的參數(shù)較多,傳統(tǒng)的參數(shù)調(diào)優(yōu)過程又較為耗時且不易找到最佳,會影響水源判別的準(zhǔn)確率。因此,利用人工魚群算法(Artificial Fish Swarm Algorithm,AFSA)對RF 的決策樹數(shù)目(n_estimators)、樹深(depth)和內(nèi)部節(jié)點分裂所需的最小樣本數(shù)(n_split)進(jìn)行尋優(yōu)。令每條人工魚的狀態(tài)(當(dāng)前位置)Xi=(n_estimators,depth,n_split),人工魚當(dāng)前位置的食物濃度(適應(yīng)度)Yi=f(X)為K折交叉驗證后RF 分類器的平均準(zhǔn)確率[33]。
人工魚群的尋優(yōu)機制包括覓食、聚群、追尾和隨機4 種行為[34]。覓食行為基于局部搜索機制,每條人工魚評估當(dāng)前位置的適應(yīng)度,并與鄰近位置進(jìn)行比較,若鄰近位置適應(yīng)度更高,則向該方向移動,否則隨機選擇新方向進(jìn)行探索。聚群行為模仿魚群中個體間的互動,當(dāng)個體發(fā)現(xiàn)周圍同伴處于更優(yōu)位置時,向鄰近同伴的中心位置移動。當(dāng)個體發(fā)現(xiàn)鄰域內(nèi)存在顯著高適應(yīng)度的同伴時,會直接向此位置移動,即執(zhí)行追尾行為。此外,每條魚以一定概率隨機移動(隨機行為),這在一定程度上提高了魚群的探索能力。為了平衡這些行為對人工魚個體移動決策的影響,設(shè)置每種行為的權(quán)重均為0.5。
雖然AFSA 具有較強的收斂能力和適應(yīng)性,但在搜索過程中,個體的移動和選擇機制還是會導(dǎo)致個體陷入局部最優(yōu)解或徘徊在搜索空間的某個區(qū)域。因此,本文在人工魚群算法中引入遺傳機制,遺傳機制包括個體的選擇、交叉和變異3 個過程[35]。個體選擇確保了優(yōu)秀個體的遺傳信息得以保留,交叉和變異通過促進(jìn)遺傳信息的混合重組和引入新的遺傳變異,來增加種群的多樣性。通過這3 個過程,遺傳機制既保證了種群向更優(yōu)解進(jìn)化,也有效避免魚群因過度同質(zhì)化而陷入局部最優(yōu)解。
1)選擇操作
選擇操作的目的是根據(jù)適應(yīng)度從當(dāng)前種群中選擇生存能力高的個體,用以參與下一代的繁殖。
其中,fj(t)為群體中的其他個體;每個個體以概率(t)被選為父代個體。
2)交叉操作
通過交叉操作來組合不同個體的優(yōu)點,產(chǎn)生新的優(yōu)秀個體。
其中,δ取值區(qū)間為0~1,本文取0.8。
3)變異操作
變異操作用于增加種群的多樣性,這里采用非對稱高斯變異[36],通過下式實現(xiàn):
為了使絕大多數(shù)隨機數(shù)落入均值加減一個標(biāo)準(zhǔn)差的范圍內(nèi),設(shè)置高斯變異系數(shù) ε為0.5。
圖7 為改進(jìn)PCA-AFSA-RF 水源判別模型流程圖。首先對原始的水樣指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,該過程分為數(shù)據(jù)標(biāo)準(zhǔn)化和主成分提取兩步。為了使數(shù)據(jù)充分參與模型訓(xùn)練,采用K折(K=1,2,···,K)交叉驗證法進(jìn)行數(shù)據(jù)集的劃分,將第K折作為訓(xùn)練集,其余K-1 折作為驗證集,如此重復(fù)K次,這種方法無需人為劃分訓(xùn)練集與驗證集,還可以避免欠擬合或過擬合的發(fā)生。在隨機森林模型中,對訓(xùn)練集的水樣進(jìn)行隨機采樣,得到多個訓(xùn)練子集,針對每個訓(xùn)練子集,使用基尼指數(shù)(Gini)選擇最佳的決策樹分裂點,使用分類回歸樹(Classification and Regression Trees,CART)算法遞歸地將數(shù)據(jù)集分裂成更小的子集來構(gòu)建決策樹,根據(jù)所有決策樹的投票結(jié)果對驗證集的水樣進(jìn)行類別預(yù)測。利用AFSA 對RF 的決策樹數(shù)目(n_estimators)、樹深(depth)和內(nèi)部節(jié)點分裂所需的最小樣本數(shù)(n_split)進(jìn)行尋優(yōu):首先對AFSA 中所有人工魚的位置進(jìn)行初始化;將每條人工魚的位置傳遞至RF 模型,RF 模型將K次交叉驗證中驗證集水樣的平均判別準(zhǔn)確率作為人工魚的適應(yīng)度返回;AFSA 根據(jù)每條人工魚適應(yīng)度執(zhí)行覓食、聚群、追尾和隨機4 種行為,進(jìn)行位置和適應(yīng)度的初步更新;根據(jù)適應(yīng)度選出參與繁殖的父代,對父代個體進(jìn)行交叉操作,用新的子代個體代替父代;隨后對新種群進(jìn)行變異操作,每個個體以0.5 的概率參與變異;當(dāng)?shù)螖?shù)t達(dá)到最大值T時,算法終止。整個過程在PyCharm2021 環(huán)境中使用Python 語言實現(xiàn)。
圖7 改進(jìn)PCA-AFSA-RF 水源判別模型流程Fig.7 Flow chart of the improved PCA-AFSA-RF water-source discriminant model
使用準(zhǔn)確率(Accuracy,Ac)、精確率(Precision,Pr)、召回率(Recall,Rc)和F-measure 指數(shù)(f1_score,f1)對模型的性能進(jìn)行評估,具體含義如下:
由于需要判別的水樣有4 種類別,因此,這里N取4。對于上述4 個性能指標(biāo),計算所有K次迭代的平均值作為模型的輸出。
在利用PCA 對水化學(xué)數(shù)據(jù)降維后,直接使用RF 模型進(jìn)行學(xué)習(xí),由此構(gòu)建PCA-RF 判別模型,這里對n_estimators,depth和n_split這3 個參數(shù)不做限制,為了符合訓(xùn)練集和驗證集的劃分原則,取交叉驗證的折數(shù)(K)為4 和5,選效果最優(yōu)值。此外,為了與PCA-RF水源判別模型的性能進(jìn)行對比,本文使用SVM、多層感知機(Multilayer Perceptron,MLP)和ELM 分別構(gòu)建PCA-SVM、PCA-MLP 和PCA-ELM 水源判別模型:對PCA-SVM 使用線性核函數(shù),最大迭代次數(shù)為300;PCAMLP 中使用擬牛頓法優(yōu)化器,激活函數(shù)為Logistic;PCA-ELM 的中間層神經(jīng)元數(shù)目為5。結(jié)果見表3,可以看出PCA-RF 判別模型的Ac、Pr、Rc和f1分別為83.00%、83.17%、80.42%和79.57%,遠(yuǎn)高于其他3 種算法,此時K=4。同時,使用上述4 種模型對80 個訓(xùn)練水樣進(jìn)行回代預(yù)測,實驗顯示PCA-RF、PCA-SVM、PCA-MLP 和PCA-ELM 水源判別模型分別出現(xiàn)了5、25、7 和28 個誤判,回代準(zhǔn)確率分別為93.75%、68.75%、91.25%和65.00%,對直羅組水和延安組水的區(qū)分尤為不佳。通過對比,PCA-RF 水源判別模型的各個性能指標(biāo)均優(yōu)于其他3 種模型,因此,后續(xù)用AFSA 對PCA-RF 水源判別模型進(jìn)行優(yōu)化。
表3 4 種水源判別模型性能對比Table 3 Performance comparison of four water-source discriminant models
在PCA-AFSA-RF 水源判別模型中,設(shè)置AFSA 的最大迭代次數(shù)T為100,n_estimators范圍為1~200,depth范圍為1~50,n_split范圍為2~10,人工魚可視范圍為5,步長為4,擁擠度因子為0.5,交叉驗證的折數(shù)K為4,整個過程在PyCharm2021 環(huán)境中使用Python 語言實現(xiàn)。在AFSA 的諸多參數(shù)中,魚群數(shù)量的多少直接影響到搜索空間的覆蓋程度和搜索效率,因此,分別設(shè)置魚群數(shù)量m為10、15、20、30、50,其迭代結(jié)果如圖8所示。由圖可知,在100 次的迭代過程中,魚群數(shù)目為15、20、30 和50 時均在判別準(zhǔn)確率為92.18%處達(dá)到了收斂,其中魚群數(shù)目為20 時收斂速度最快,其最佳參數(shù)組合為n_estimators=17,depth=37,n_split=5;魚群數(shù)目為10 時達(dá)到了收斂但并未收斂到最優(yōu),這是由于數(shù)目過小而陷入了局部最優(yōu)。
為更直觀地體現(xiàn)PCA-AFSA-RF 水源判別模型的優(yōu)勢,繪制了同一水樣數(shù)據(jù)集下PCA-RF 和PCAAFSA-RF 判別模型的性能,如圖9 所示??梢钥闯觯琍CA-AFSA-RF 水源判別模型的4 個判別性能指標(biāo)分別達(dá)到了92.18%、91.11%、87.58%和88.82%,較PCARF 水源判別分別提高了9.18%、7.94%、7.16%和9.25%。
圖9 PCA-AFSA-RF 與PCA-RF 水源判別模型性能對比Fig.9 Performance comparison of PCA-AFSA-RF and PCA-RF water-source discriminant models
為深入分析PCA-AFSA-RF 水源判別模型的擬合效果,分別用上述兩個模型對80 個水樣進(jìn)行回代,結(jié)果如圖10 所示,由圖可知:PCA-AFSA-RF 水源判別模型出現(xiàn)了2 個誤判,分別將17 號(第四系水)和60 號(延安組水)水樣誤判成白堊系水和直羅組水,回代準(zhǔn)確率為97.5%;PCA-RF 水源判別模型出現(xiàn)了5 個誤判,分別將17 號(第四系水)、30 號(白堊系水)、32 號(白堊系水)、66 號(延安組水)、76 號(延安組水)水樣誤判為白堊系水、第四系水、第四系水、第四系水和直羅組水,回代準(zhǔn)確率為93.75%。
圖10 PCA-AFSA-RF 和PCA-RF 水源判別模型回代判別結(jié)果Fig.10 Back substitution results of PCA-AFSA-RF and PCA-RF water-source discriminant models
為進(jìn)一步驗證文中建立的PCA-AFSA-RF 水源判別模型的泛化能力和可靠性,對12 個待測的礦井水水樣進(jìn)行判別,同時與PCA-RF 判別模型進(jìn)行對比。其中,1-3 號礦井水水樣分別取自A 礦井下HF2-1、HF7-2、YS5-2 號探放水鉆孔,探放水鉆孔終孔層位位于直羅組含水層中下段;4-5 號礦井水水樣取自A 礦井下掘進(jìn)巷道涌水點。結(jié)合現(xiàn)場實際判定1-3 號礦井水水樣來自直羅組含水層,4-5 號礦井水水樣來自延安組含水層。6-10 號礦井水水樣分別取自B 礦井下ZJ2、ZJ3、ZJ6、ZJ8、ZJ9 號探放水鉆孔,探放水鉆孔穿過2 號煤層2~3 m 終孔,終孔層位位于延安組含水層。11-12 號礦井水水樣分別取自B 礦副立井巷道出水點。通過對井下探放水鉆孔出水層位及巷道出水點分析可知,6-10 號礦井水水樣來自延安組含水層,11 號礦井水水樣來自直羅組含水層,12 號礦井水水樣來自延安組含水層。記直羅組水為Z,延安組水為Y,具體判別結(jié)果見表4。
表4 礦井水水樣判別結(jié)果Table 4 Discriminant results of water samples from mines
對表4 進(jìn)行分析可知,PCA-AFSA-RF 判別模型將A 礦1-3 號礦井水水樣判別為直羅組水(Z),4-5 號礦井水水樣判別為延安組水(Y);將B 礦6-10 號和12 號礦井水水樣判別為延安組水(Y),11 號礦井水水樣判別為直羅組水(Z),該模型判別結(jié)果與現(xiàn)場實際分析的水源類別相一致。而PCA-RF 判別模型出現(xiàn)了2 個誤判,分別將5 號礦井水水樣誤判為直羅組水(Z),將11 號礦井水水樣誤判為延安組水(Y)。綜合分析,文中建立的PCA-AFSA-RF 煤層頂板涌水水源智能判別模型具有較好的可靠性,可為煤層頂板涌水水源的智能判別提供新方法。
a.由不同來源水樣的無機水化學(xué)指標(biāo)及TOC、UV254和熒光光譜等有機指標(biāo)構(gòu)建了水樣數(shù)據(jù)集,使用PCA 對水樣數(shù)據(jù)集進(jìn)行降維,構(gòu)建PCA-AFSA-RF 煤層頂板涌水水源智能判別模型。
b.實驗顯示,構(gòu)建的PCA-RF 模型的準(zhǔn)確率為83.00%,高于PCA-SVM、PCA-MLP 和PCA-ELM 模型。利用AFSA 對PCA-RF 模型中的決策樹數(shù)目、樹深和內(nèi)部節(jié)點分裂所需的最小樣本數(shù)的最佳組合進(jìn)行尋優(yōu),交叉驗證的準(zhǔn)確率達(dá)到了92.18%,較PCA-RF 判別模型提高了9.18%。
c.利用PCA-AFSA-RF 和PCA-RF 水源判別模型對訓(xùn)練集水樣進(jìn)行回代及對12 個待測礦井水水樣進(jìn)行判別,結(jié)果表明,PCA-AFSA-RF 水源判別模型具有更好的準(zhǔn)確性和泛化能力,可為煤層頂板涌水水源的判別提供新的方法。
d.后續(xù)將深入考慮水文地質(zhì)、工程地質(zhì)、采礦活動以及水-巖作用對煤層頂板涌水水源判別的影響。同時,通過現(xiàn)場定期采樣,不斷更新和擴大訓(xùn)練集水樣,以動態(tài)調(diào)整模型參數(shù)與結(jié)構(gòu),確保建立的判別模型的長效性。
符號注釋:
b和c分別為隨機森林尋優(yōu)參數(shù)的上下限;C為待判別的水源類別個數(shù);fi(t)為第i個人工魚個體在第t代的適應(yīng)度值;fj(t)為第j個人工魚個體在第t代的適應(yīng)度值;K為交叉驗證折數(shù);m為設(shè)定的人工魚群數(shù)量;Mi'i'為實際為類別i'且預(yù)測為類別i'的水樣數(shù)量;Mi'j'為實際為類別i'而預(yù)測為類別j'的水樣數(shù)量;Mj'i'為實際為類別j'而預(yù)測為類別i'的水樣數(shù)量;n為當(dāng)前循環(huán)中的人工魚數(shù)目;N(0,α) 為服從均值為0、標(biāo)準(zhǔn)差為α的正態(tài)分布隨機數(shù);(t)為第i個人工魚個體在第t代被選擇的概率;Pri'為類別i'的精確率;Rci'為類別i'的召回率;t為人工魚群算法當(dāng)前的迭代次數(shù);T為設(shè)置的人工魚群算法最大迭代次數(shù);xi(t)和xi(t+1)分別為第i個人工魚個體在第t代和第t+1 代的位置;xj(t)和xj(t+1)分別為第j個人工魚個體在第t代和第t+1 代的位置;α為高斯變異的標(biāo)準(zhǔn)差;ε為高斯變異系數(shù);δ為交叉操作中的交叉系數(shù)。