肖屈日,趙國彥,劉 建,簡 箏
(1.中南大學資源與安全工程學院,湖南 長沙 410083;2.長沙礦山研究院有限責任公司,湖南 長沙 410012)
在地下采礦工程中,為了安全和便利通常會有意保留部分礦體作為支柱,礦柱的合理留設(shè)不僅有支撐頂板的作用,還能有效地保護巷道和地面建筑物[1]。隨著采掘工作推進、開采向深部延伸,頂板暴露面積慢慢變大、礦柱應力逐漸增加,礦柱失穩(wěn)的風險也愈發(fā)嚴峻。作為影響采空區(qū)穩(wěn)定的關(guān)鍵結(jié)構(gòu)單元[2],礦柱失穩(wěn)可能會導致柱體不同程度的自由面巖石剝落、剪切破壞、內(nèi)部劈裂和地質(zhì)結(jié)構(gòu)面的滑移與潰曲破壞[3],更甚者將引發(fā)冒頂和空區(qū)塌陷事故[4],給礦山企業(yè)(特別是房柱法開采[5]礦山企業(yè))人員和財產(chǎn)安全造成巨大的威脅。因此,開展關(guān)于礦柱穩(wěn)定性的研究對于地下礦山高效開采、災害防治具有重要現(xiàn)實意義。
國內(nèi)外學者針對礦柱的設(shè)計與穩(wěn)定分析問題提出了許多理論方法,如:面積承載理論[6-7]、經(jīng)驗公式法[7-8]、數(shù)值模擬技術(shù)[4-5,9]等。傳統(tǒng)的礦柱穩(wěn)定性分析方法主要根據(jù)這些理論與手段得到礦柱強度、應力等數(shù)據(jù),以礦柱強度與應力之比來衡量礦柱的安全性。盡管這些方法已經(jīng)發(fā)展的十分成熟,但導致礦柱失穩(wěn)的因素眾多,單一經(jīng)驗指標評判存在可靠性低、判別效果差的問題。機器學習方法以多特征指標為輸入,將比較評判過程無形納入學習算法的“黑匣子”中,并借助大量的實例數(shù)據(jù)進行監(jiān)督學習,使得分析更為可靠和高效,近年來被廣泛應用于礦柱設(shè)計和穩(wěn)定性評估中[10-12]。本質(zhì)上,同經(jīng)驗公式法一樣,機器學習算法也是一種基于數(shù)據(jù)的統(tǒng)計方法,但機器學習算法能夠借助計算機的高速計算能力總結(jié)出人類暫時無法歸納出的“經(jīng)驗”。通過機器學習算法逆構(gòu)礦柱穩(wěn)定性影響因素與礦柱狀態(tài)之間的非線性映射關(guān)系來判定未知礦柱的穩(wěn)定性,對指導工程實踐有著積極而深刻的作用。
旋轉(zhuǎn)森林算法是由JUAN J RODRIGUEZ等[13]于2006年提出的新型集成學習算法。與隨機森林等經(jīng)典集成學習算法相比,旋轉(zhuǎn)森林算法能夠生成差異度大且精度較高的基分類器,具有更好的泛化能力,近年來被廣泛應用于生物醫(yī)學[14-15]和模式識別[16]等諸多領(lǐng)域。目前,尚未有關(guān)旋轉(zhuǎn)森林算法在礦柱穩(wěn)定分析方面的應用研究。因此,本文在概述旋轉(zhuǎn)森林相關(guān)理論研究的基礎(chǔ)上,將其引入到礦柱穩(wěn)定性分析中,構(gòu)建出一種基于ICA-RoF算法的硬巖礦柱穩(wěn)定性判別模型,以期為地下礦山的礦柱設(shè)計與安全評價工作提供參考。
旋轉(zhuǎn)森林算法[13]通過對原始樣本特征進行處理,并采用一定的特征變換方法獲取訓練基分類器所需的不同樣本集,以實現(xiàn)基分類器個體間的差異性,從而達到提高分類準確率的目的,其算法流程如圖1所示。首先,定義訓練數(shù)據(jù)集D={X,Y}={(x1,y1), (x2,y2),…,(xn,yn)},其中:xi∈RP是訓練集的輸入;yi∈{C1, C2,…, Cm}是訓練集的輸出;F為訓練集D的特征集。其次,旋轉(zhuǎn)森林算法需要預先給定參數(shù):子集特征數(shù)s和集成規(guī)模L,它們分別代表每一個特征子集所包含的特征指標個數(shù)和集成系統(tǒng)所包含的基分類器個數(shù)。整個算法共分成基分類器生成與基分類器合成兩個階段。
圖1 旋轉(zhuǎn)森林算法流程圖Fig.1 Procedure of rotation forest
(1)基分類器生成階段
①將原始特征集F進行隨機分割,每個子集包含s個特征指標,任意兩個子集間互不相交,無法整除者,將余數(shù)部分歸為一個子集,共得到k個子集,第i個基分類器的第j個特征子集記為Fij。
②從數(shù)據(jù)集X提取Fij全部樣本,采用bootstrap方法隨機抽取75%樣本生成樣本子集Xij。
③按照特征變換算法計算Xij的變換矩陣Wij。
④將變換矩陣Wi1,Wi2,…,Wik按照式(1)排列構(gòu)造稀疏矩陣Wi。
(1)
(2)基分類器合成階段
2)鉆孔沖洗。灌漿前,要進行鉆孔孔壁沖洗和裂隙沖洗,沖洗過程中同步進行抬動觀測。鉆孔沖洗后,孔內(nèi)殘存的沉積物厚度不得超過20cm,需進行鉆孔電視(鉆孔全景成像)的鉆孔需達到孔內(nèi)水清凈。
⑧利用基分類器Gi對x′i進行預測,得到分屬C1, C2,…, Cm的概率P1(x′i),P2(x′i),…,Pm(x′i)。
⑨重復步驟7~8,得到全部基分類器的分類結(jié)果,按照式(2)對分類結(jié)果進行集成。
(2)
⑩將樣本x劃分到概率最大的類別中,得到最終的集成分類結(jié)果。
決策樹是敏感分類器,數(shù)據(jù)的任何微小改變都可能使訓練得到的決策樹構(gòu)造完全不同[14]。因此,特征變換方法對于構(gòu)造有差異的數(shù)據(jù)分量起著至關(guān)重要的作用,并直接影響最終的分類結(jié)果。常用的特征變換方法包括主成分分析(PCA)、非參數(shù)線性判別(NDA)、稀疏隨機映射(SR)和隨機映射(R)等,大量數(shù)據(jù)實驗結(jié)果表明:基于PCA特征變換的旋轉(zhuǎn)森林算法(PCA-RoF)性能最好[17]。
獨立成分分析(ICA)是基于高階統(tǒng)計量的多特征數(shù)據(jù)處理方法,它將數(shù)據(jù)集特征轉(zhuǎn)換為若干個統(tǒng)計獨立的特征組合,從而保證數(shù)據(jù)集的高階統(tǒng)計特性。ICA被視為PCA的一種重要擴展,同樣適合作為旋轉(zhuǎn)森林的特征變化方法,且與其它特征變換算法相比,ICA具有以下優(yōu)勢:提供更符合實際的統(tǒng)計模型,可以更好地確定數(shù)據(jù)在高維空間的位置; 提供了一種非正交基空間,當原始數(shù)據(jù)集存在離群點時,能夠更好地對數(shù)據(jù)信息進行重建;對高階統(tǒng)計信息比較敏感,而PCA只對二階信息敏感。目前,ICA的估計算法主要有4種:FastICA、InfoMax、JADE、Radical-ICA[18]。
關(guān)于礦柱的穩(wěn)定性問題,國內(nèi)外學者有一個普遍共識,即礦柱對采礦所引起荷載的整體響應取決于礦柱的形狀特征、礦柱巖體的地質(zhì)構(gòu)造和圍巖對礦柱所施加的表面約束特性。當圍巖所施加的約束大于礦柱該形狀特征下巖體構(gòu)造所能承受的極限時,礦柱就會發(fā)生破壞[19]。因此,礦柱穩(wěn)定性研究可總結(jié)為如圖2所示的評價體系:礦柱的穩(wěn)定性分析主要分為宏觀的強度評價和微觀的應力評價兩種途徑,理論上來說宏觀強度與微觀應力存在著關(guān)于巖質(zhì)構(gòu)造、形狀特征的一一對應關(guān)系,但由于巖體非均質(zhì)且構(gòu)造受多種因素影響,并無有效的度量方法。因此,在尋找其對應關(guān)系的問題上存在無法攻克的難點,從而催生出一系列逼近關(guān)系的研究方法。表1整理了近年部分文獻的指標選取情況,所有研究方法的考量因素均包含形狀特征量、力學狀態(tài)量和力學極限量三類,三者缺一不可。
(3)
圖2 礦柱穩(wěn)定性評價體系Fig.2 Framework of pillar stability evaluation
表1 相關(guān)文獻的指標選取情況
(4)
PS=0.44·UCS·(0.68+0.52κ)
(5)
其中,κ為礦柱摩擦系數(shù),計算公式為:
(6)
為更全面反應礦柱穩(wěn)定情況、提高識別準確率,本文除選取4個直接指標外,同時將礦柱高寬比K、礦柱約束Cpav、礦柱摩擦系數(shù)κ以及礦柱強度PS納入數(shù)據(jù)庫的指標考量范圍。盡管衍生指標不是直接來源于實際工程,礦柱應力δP也非基于同一方法得出,但更多特征輸入能夠給予模型必要的信息余度和特征選擇的可能性。最重要的是上述指標根據(jù)統(tǒng)計經(jīng)驗得出,是Per John Lunder[7]大量工作的經(jīng)驗成果,經(jīng)過許多研究方法所檢驗,其結(jié)果能夠較為準確地反映礦柱的實際狀況(圖3)。
模型所需基礎(chǔ)數(shù)據(jù)取自文獻[7](共含有178例樣本),剔除掉16例直接指標缺失樣本,得到一個含有162個完整硬巖礦柱樣本的數(shù)據(jù)庫。關(guān)于礦柱穩(wěn)定性的分級標準,各組織和學者觀點不盡相同,其范圍從簡單的“穩(wěn)定/破壞”兩級標準到五級或六級的更精細化標準。為實現(xiàn)分類標準的簡單實用功能和模型對新樣本數(shù)據(jù)的兼容性,本文選取最簡單的“穩(wěn)定/破壞”兩級分類作為模型的分級標準,同時考慮到不穩(wěn)定礦柱的破壞漸進特性,將文獻[7]中通用分級方法的不穩(wěn)定礦柱和破壞礦柱合歸為同一類,穩(wěn)定礦柱依然獨成一類,分別采用“F”和“S”標記礦柱的破壞和穩(wěn)定狀態(tài)。圖3為所建數(shù)據(jù)庫8類特征指標的箱線圖。
模型輸入量為(W,H,δP,UCS,K,Cpav,κ,PS),輸出為“穩(wěn)定/破壞”兩級類別V:“F”和“S”,輸入輸出間存在ICA-RoF算法的映射關(guān)系F(W,H,δP,UCS,K,Cpav,κ,PS)→V,具體檢驗過程如圖4所示。
圖3 礦柱樣本特征箱線圖Fig.3 Boxplots of pillar sample data
圖4 礦柱穩(wěn)定性判別的ICA-RoF模型及其檢驗過程Fig.4 The ICA-RoF model of pillar stability recognition and its testing procedure
模型的構(gòu)建與檢驗均在Python2.7環(huán)境下進行,相關(guān)程序通過調(diào)用NumPy、SciPy和sklearn等庫進行編寫,且在同一平臺上運行,具體的電腦配置為:操作系統(tǒng):Windows 7旗艦版64位;CPU:Intel(R) Core(TM) i3-4160 3.60 GHz;RAM:4.00 GB。基分類器和特征變換方法均直接引用于sklearn庫。其中,基分類器采用CART決策樹(CDT),按信息增益劃分節(jié)點數(shù)據(jù)集,為防止模型過擬合,將節(jié)點最少樣本數(shù)量限制為3%(min_samples_split=0.03),其余采用默認設(shè)置;ICA特征變換矩陣基于FastICA函數(shù)獲得,其參數(shù)設(shè)置為:algorithm='parallel',whiten=True,max_iter=200,tol=0.000 1。
為獲得可靠的ICA-RoF算法映射F→V,用5折交叉驗證方法對訓練集數(shù)據(jù)進行遍歷尋優(yōu)計算,并根據(jù)40次運行結(jié)果的平均識別準確率選取ICA-RoF算法的最優(yōu)參數(shù),運行結(jié)果如圖5所示。尋優(yōu)過程同時對比PCA-RoF算法,可以明顯看到:隨著集成規(guī)模的增加,兩種算法的平均準確率不斷提高,且在集成規(guī)模達到10后逐漸趨于穩(wěn)定;當子集特征數(shù)為4時,兩種算法均獲得最高的識別準確率。兩種基于不同特征變換矩陣的旋轉(zhuǎn)森林算法的規(guī)律不盡相同,但ICA-RoF算法的平均準確率高于PCA-RoF算法,且這一結(jié)果不因集成規(guī)模和子集特征數(shù)大小而改變。考慮到計算時間與集成規(guī)模成正比,故選取L=10、s=4作為模型性能和計算消耗的折中優(yōu)選參數(shù)。
圖5 參數(shù)尋優(yōu)運行結(jié)果Fig.5 Results of searching parameter
當L=10、s=4時,訓練集數(shù)據(jù)200(50×4)次運行結(jié)果的準確率統(tǒng)計特性如表2所示。為客觀反映算法性能、科學檢驗模型效果,本文同時選擇PCA-RoF算法、CDT(基分類器)算法和文獻[23]中所述性能最為優(yōu)越的GPC算法進行了相同條件下的對比研究,結(jié)果見表2。對各算法準確率總體的均值之差進行統(tǒng)計學檢驗(獨立大樣本的Z檢驗),經(jīng)檢驗可認為:在顯著性水平α=0.05的情況下,ICA-RoF算法的平均準確率明顯高于其余3種算法。
同時,根據(jù)上文所構(gòu)建的4種模型對12組測試集數(shù)據(jù)進行判別,判別結(jié)果見表2。從表中的識別結(jié)果可知:除了CDT算法的識別準確率僅為83.33%(10/12)外,ICA-RoF算法和其余兩種算法識別結(jié)果一致,僅有1個誤分類,準確率達91.66%,與實際吻合情況較好,從而說明ICA-RoF硬巖礦柱破壞識別模型同樣具有較強的泛化能力。
與其它模型相比,基于ICA-RoF算法的礦柱穩(wěn)定性判別模型具有如下優(yōu)點:①數(shù)據(jù)處理簡單,對新數(shù)據(jù)的兼容性好,有利于數(shù)據(jù)庫的拓展;② 識別準確率高,泛化能力好,算法映射更為可靠;③決策樹作為基分類器,可以處理連續(xù)變量和類型變量,受異常值影響小。同時,該模型也存在著不可避免的缺點:①算法復雜度大,將耗費更多的計算資源與時間;②對于不平衡數(shù)據(jù)集,ICA-RoF算法的識別結(jié)果將更傾向于數(shù)量更多的類別??傮w來說,使用ICA-RoF算法來識別硬巖礦柱的破壞情況,是完全可行且可靠的,無論對于前期的采礦工程設(shè)計,還是后期的工程災害防治,都有其實際意義。更廣泛的收集礦柱穩(wěn)定性數(shù)據(jù),建立更詳細的數(shù)據(jù)庫,開發(fā)大數(shù)據(jù)平臺,將使該模型的可靠度更高。
表2 不同算法的性能比較
(1)通過分析礦柱破壞機理,總結(jié)歸納礦柱穩(wěn)定性研究的一般方法體系,明確礦柱穩(wěn)定性判別模型應包含形狀特征量、力學狀態(tài)量和力學極限量3方面指標。三者相互聯(lián)系,缺一不可。
(2)礦柱穩(wěn)定性級別采用最簡單的“穩(wěn)定/破壞”兩級分類標準。該分類標準簡單實用,對新樣本數(shù)據(jù)的兼容性好,有利于對數(shù)據(jù)庫進行拓展。
(3)通過對所建模型進行網(wǎng)格式參數(shù)尋優(yōu)計算,發(fā)現(xiàn):礦柱識別準確率會隨著ICA-RoF的集成規(guī)模的增加而增大,當集成規(guī)模達到10后逐漸趨于穩(wěn)定;當子集特征數(shù)為4時,模型整體識別率最高。
(4)通過模型對比實驗可知:ICA-RoF識別模型的識別精度高、泛化能力好,其平均準確率顯著高于PCA-RoF算法、CDT算法和GPC算法(α=0.05)。