卞 凱, 周孟然, 胡 鋒, 來文豪, 閆鵬程, 宋紅萍, 戴榮英, 胡天羽
安徽理工大學電氣與信息工程學院, 安徽 淮南 232001
涌水災害已成為煤礦五大災害中影響礦井安全作業(yè)的第二大災害[1]。 礦井涌水不僅需要現(xiàn)場早期預警, 還需要準確判斷涌水水源的類型[2], 這有利于及時掌握涌水水害信息并采取必要的治理手段, 降低災害所帶來的傷亡事故率與重大經(jīng)濟損失。 煤礦井下涌水水源識別和研究的方法主要有離子濃度法、 同位素分析法、 微量元素法等[3], 這些方法雖然取得了一定的識別效果, 但存在分析時間長、 判別準確性不高、 操作過程復雜等特點[4], 難以根據(jù)其動態(tài)變化迅速提供可靠的信息, 限制了礦井涌水的實時在線分析, 達不到預警效果。
為了解決現(xiàn)有涌水水源識別方法的不足, 激光誘導熒光(laser-induced fluorescence, LIF)被用于礦井水害研究領域, 并結合機器學習和深度學習方法實現(xiàn)了礦井涌水水源類型的快速且準確識別, 取得了良好的鑒別效果; 如何晨陽[5]等采取主成分分析法將小波變換去噪的突水水樣熒光光譜數(shù)據(jù)進行降維處理, 利用K最近鄰算法進行水樣的識別, 達到了極高的分類準確率。 Hu[6]等利用激光誘導熒光技術結合深度學習方法, 提出了一維卷積神經(jīng)網(wǎng)絡方法用于自動識別九種礦井突水水樣, 在不進行復雜的預處理情況下實現(xiàn)了突水水樣的快速、 精準識別。 然而目前這些利用激光誘導熒光對礦井涌水進行識別的機器學習和深度學習方法所建立的都只是分類識別模型, 只能定性的判別涌水的種類, 而不能預測和精準評估不同種類水樣的含量以實現(xiàn)定量分析, 且各屬性因素之間的相關程度未能進行有效分析, 部分訓練模型和調參過程也較為復雜。
隨機森林(random forest, RF)是一種不僅可用于分類結果分析, 還能根據(jù)屬性重要度進行特征選擇, 降低模型的復雜度的高效算法, 如文澤波等[7]利用RF特征選擇算法提取出煙霧特征并結合支持向量機實現(xiàn)了視頻煙霧的檢測。 Brokamp[8]等使用RF模型對城市空氣中的細顆粒物的濃度進行了預測。 Lefkovits[9]等提出了將RF特征選擇算法應用于提升腦腫瘤圖像分割的判別模型。 競爭性自適應重加權算法(competitive adaptive reweighted sampling, CARS)是通過自適應重加權采樣技術消去無用信息的一種變量選擇方法, 能提升運算和建模效率, 如Li[10]等利用CARS結合偏最小二乘線性判別分析用于高果糖玉米糖漿和麥芽糖漿摻假蜂蜜的檢測。 劉珊珊[11]等提出CARS用于激光誘導擊穿光譜來確定豬飼料中銅元素的含量, Wang[12]等采用CARS方法結合近紅外光譜技術對大豆秸稈的生物含量進行快速評價與分析。
偏最小二乘回歸(partial least squareregression, PLSR)是一種新型多元統(tǒng)計回歸分析算法, 可以解決多屬性之間的高度相關性, 避免回歸模型估計失真。 本文通過聯(lián)合RF與CARS方法對熒光光譜屬性進行精簡, 利用精簡后的光譜屬性建立PLSR模型進行水樣預測, 為礦井涌水激光誘導熒光光譜的預測定量評估提供理論依據(jù)。
用如圖1所示的激光誘導熒光涌水光譜系統(tǒng)完成光譜數(shù)據(jù)的采集, 該系統(tǒng)主要由激光器、 光譜儀、 熒光探頭、 光纖和上位機組成。 選用波長為405 nm的藍紫光半導體激光器(北京華源拓達激光技術有限公司), 最大輸出功率為120 mW, 光譜儀選用USB2000+微型光纖光譜儀(美國Ocean optics公司), 內含高靈敏度2 048像素的線性CCD陣列(型號ILX511, 日本索尼公司), 設定其光譜檢測范圍為340~1 021 nm, 分辨率為0.5 nm, 積分時間為1 s/1 000 nm, 浸入式微型熒光探頭(型號FPB-405-V3, 廣東科思凱公司)可插入待測水樣獲取熒光信號。 為了避免其他光源對熒光光譜獲取的干擾, 測量在避光的暗室中進行, 測量將探頭垂直浸入水樣并確保探頭侵入透明容器的高度始終保持一致。 使用計算機上的Spectra Suite軟件進行記錄收集所有樣品的熒光光譜數(shù)據(jù), 算法仿真則是在Matlab R2016b和Origin 2017環(huán)境下運行。
圖1 激光誘導熒光涌水光譜系統(tǒng)
礦井水害約80%是由老空水引起的, 老空水較其他涌水水源有著極強的破壞性, 砂巖水害有著持續(xù)時間長、 溫度高等特點; 將老空水、 砂巖水、 老空水與砂巖水的混合水作為研究對象進行實驗, 水樣在2019年3月采集于安徽省淮南市顧橋煤礦。
由于老空水危害性之大, 其含量嚴重關系到水害的防治工作, 則以老空水為基礎分別混入不同含量的砂巖水, 第一組水樣為老空水含量占總量的0%(純砂巖水), 第二組水樣為老空水含量占總量的50%、 第三組水樣為老空水含量占總量的67%、 第四組水樣為老空水含量占總量的75%、 第五組水樣為老空水含量占總量的80%、 第六組水樣為老空水含量占總量的100%(純老空水)。
將現(xiàn)場采集到的水樣立即進行密封和遮光處理并帶回實驗室儲存, 以保障實驗所采集數(shù)據(jù)的真實性與可靠性, 每種水樣各采集50組, 共300組光譜數(shù)據(jù)作為實驗樣本。
光譜數(shù)據(jù)在傳輸過程中會受到設備、 外界環(huán)境、 操作不當?shù)纫蛩氐母蓴_而存在大量的噪聲信號, 這些干擾信號與有用的光譜數(shù)據(jù)信息疊加在一起會嚴重影響實驗結果[13], 為了避免噪聲干擾, 需要對原始熒光光譜進行濾波去噪處理。 分別對原始光譜采用Savitzky-Golay卷積平滑法(Savitzky-Golay smoothing, S-G)、 局部加權回歸散點平滑法(locally weighted scatterplot smoothing, Lowess)進行去噪處理, 根據(jù)選定回歸模型的評估指標對比原始光譜和去噪后光譜的預測能力, 選擇合適的去噪方法。
隨機森林是一種基于模型聚合思想用于解決分類和回歸問題的算法, 由Breiman于2001年提出[14], 可以在不增加計算復雜度的情況下, 對變量有著較好的解釋作用; RF算法進行屬性約簡主要是刪去重要度較低的屬性, 當加入隨機噪聲后, 袋外數(shù)據(jù)準確率無明顯變化, 說明這個特征對于樣本的預測結果影響不大, 進而說明重要程度較低, 需將其刪去以保留重要度較高的屬性。
RF算法遞歸屬性約簡的步驟如下:
(1)計算每個屬性的重要度W, 并按重要度依次遞減順序降序排列
屬性重要度
W=∑(Error2-Error1)/N
(1)
式(1)中,N為隨機森林樹的棵樹, Error2代表加入噪聲干擾的屬性袋外數(shù)據(jù)誤差, Error1代表屬性的袋外數(shù)據(jù)誤差。
(2)剔除重要度最低的屬性, 剩余的屬性組成新的屬性集合。
(3)利用新組成的屬性集合構建回歸預測模型;
(4)重復步驟(1)和(2), 比較每次遞歸所建PLSR模型的預測精度;
(5)選出預測精度最高, 評估指標最好的一組屬性集合。
競爭性自適應重加權算法是基于達爾文自然選擇方式提出的[15], 通過蒙特卡洛采樣建立回歸模型并計算變量回歸系數(shù)的絕對值權重, 去掉權重小的波長點, 利用交互驗證選出交叉驗證均方根誤差(root mean square error of cross validation, RMSECV)最小的子集, 可有效尋找出最優(yōu)變量組合。
CARS算法進行屬性精簡的步驟如下:
(1)蒙特卡洛采樣, 隨機抽取一定比例樣品作為校正集建立PLSR模型。
(2)計算變量回歸系數(shù)的絕對值權重w, 評價屬性的有用性
(2)
式(2)中,αi為第i個屬性的重要度,q為屬性個數(shù)。
(3)指數(shù)衰減函數(shù)用來去除貢獻度α較小的屬性。
(4)采用ARS采樣技術提取出新的屬性集合X, 建立PLSR模型, 并計算RMSECV。
(5)n次采樣后, 挑選出RMSECV最小的集合為最優(yōu)屬性子集。
最終采用判定系數(shù)R2、 殘差平方和RSS、 校正均方根誤差RMSEC、 預測均方根誤差RMSEP、 平均絕對誤差MAE作為根據(jù)PLSR建立回歸模型的評估指標, 模型R2越高, RSS, RMSEC, RMSEP, MAE越小表明模型具有良好的預測精度和性能。
利用激光誘導熒光涌水光譜系統(tǒng)采集光譜數(shù)據(jù), 呈現(xiàn)出的水樣原始熒光光譜如圖2所示, 不同比例的老空水受激光照射時, 其中的熒光物質會吸收光能, 并釋放能量產(chǎn)生熒光, 形成熒光光譜, 在400~600 nm之間出現(xiàn)峰值; 六組水樣的光譜分布主要分為三個部分, 最上層是老空水光譜, 最下層是砂巖水光譜, 由于這兩種水樣的化學成分和熒光物質濃度不同, 導致其光譜形狀與波峰數(shù)量有很大差異, 容易區(qū)分, 中間部分為老空水分別混入不同含量砂巖水的四組水樣, 這四組水樣化學成分接近, 所呈現(xiàn)的光譜難以進行準確的辨別, 因此, 需要借助機器學習回歸算法對涌水樣本進行精確分析。
分別對原始光譜采用S-G卷積平滑和Lowess平滑方法進行去噪預處理, 都采用3個窗口進行平滑, 如圖3所示。 較原始熒光光譜, 由于第四、 五兩組水樣老空水含量相近, 光譜依然存在部分重疊情況, 但其他重疊部分更為分散, 整體水樣更容易區(qū)分, 說明經(jīng)S-G卷積平滑和Lowess平滑去噪預處理后的涌水熒光光譜更適合光譜分析。
圖2 水樣原始熒光光譜
圖3 預處理后的熒光光譜
原始熒光光譜數(shù)據(jù)共2 048個屬性, 每個屬性都含有不同光譜信息, 不同屬性對于光譜分析的重要性程度存在明顯差異, 非關鍵且重要度低的屬性將會影響涌水水樣回歸模型的建立, 達不到較好的預測效果; 利用RF屬性約簡方法刪除重要度低的屬性, 提升建模的效率和預測能力。 隨機將300組樣本以4∶1的比例劃分, 240組樣本(每組40個樣本)劃分為校正集, 剩余的60組(每組10個樣本)作為預測集, 先對原始光譜及兩種去噪方法分別建立PLSR模型, 再用RF分別對其進行初次屬性約簡; 設置樹的棵數(shù)ntress為200, 如表1所示, 經(jīng)Lowess平滑法去噪后, 模型的預測效果最好, 且經(jīng)過初次約簡的屬性整體重要性程度W較高且相對穩(wěn)定, 最終選用Lowess平滑法去噪的光譜數(shù)據(jù)進行研究。
表1 不同去噪方法預測結果
屬性初次約簡的屬性重要度分布情況如圖4所示, 可以看出在2 048個屬性中, 大部分屬性(共1 662個)的重要度為0, 主要分布在波峰兩側平緩的光譜范圍區(qū)間內, 這些屬性對水樣的預測結果沒有任何影響, 屬于非關鍵光譜數(shù)據(jù)信息, 可以將其刪去, 其中部分屬性由于平滑處理消除了干擾的噪聲信號, 使其具有了重要度, 保留剩下的386個屬性作為初次約簡后的屬性。
圖4 屬性重要度分布
利用RF算法繼續(xù)對初次約簡出的386個屬性進行遞歸約簡, 刪去重要度為0的不相關屬性, 根據(jù)PLSR建立回歸模型, 遞歸循環(huán)16次的RF屬性約簡結果如表2所示, 隨著遞歸次數(shù)不斷增加, 關鍵屬性個數(shù)逐漸遞減且所對應的預測評估指標R2和RSS也在發(fā)生變化, 當遞歸次數(shù)達到6次時, 回歸模型的R2達到最大, RSS達到最小, 預測效果最好, 之后關鍵屬性個數(shù)和整體預測精度都逐漸趨于穩(wěn)定, 則約簡出的223個光譜屬性作為RF算法的最終約簡結果。
約簡后的光譜屬性數(shù)量明顯減少, 模型預測精度得到提升, 為了達到精準評估的要求, 需進一步精簡光譜屬性, 將RF算法約簡后的223個光譜屬性采用CARS算法進行二次約簡。
設定蒙特卡洛采樣次數(shù)為200, 屬性精簡情況如圖5所示, 圖5(a)中表示屬性精簡過程中被選中屬性的變化趨勢, 隨著采樣次數(shù)的逐漸增加, 由于屬性的粗選和精選過程, 被選屬性的選擇速度逐漸減小, 由圖5(b)看出采樣過程中, RMSECV值整體變化趨勢是先減小后增大, 與礦井涌水預測評估無關的熒光光譜信息在RMSECV值減小過程中被剔除, 對照圖5(c) , 當對應藍色標注位置采樣46次時, RMSECV值達到最小值0.021 1, 有用的光譜信息則在之后的采樣過程中被消去而降低了模型的預測能力, CARS算法最終精簡出了77個有用的光譜屬性。
表2 RF屬性約簡結果
圖5 CARS屬性精簡情況
圖6 校正集預測結果
圖7 預測集預測結果
表3 預測結果對比