張 晟 斌,舒 恒,劉 夏 臨,黃 勝,周 浩
(1.中交第二公路勘察設(shè)計(jì)研究院有限公司,湖北 武漢 430056; 2.中國交建隧道與地下空間工程技術(shù)研發(fā)中心,湖北 武漢 430056; 3.中山大學(xué) 土木工程學(xué)院,廣東 珠海 519080)
隨著一系列重大戰(zhàn)略工程的啟動(dòng)與實(shí)施,復(fù)雜環(huán)境下隧道工程的地質(zhì)智能化、精細(xì)化勘察成為工程建設(shè)重難點(diǎn)[1]。傳統(tǒng)垂直鉆探勘察鉆孔離散大、無效鉆進(jìn)多、勘察偏差大,無法適用于沿線地形高差大、交通條件差、穿江過海、高山峽谷等環(huán)境的條件限制,為此部分學(xué)者提出采用水平定向鉆技術(shù)進(jìn)行地質(zhì)勘察的新思路[2]。其具體過程為沿設(shè)計(jì)軸線鉆出勘察孔,后續(xù)在孔內(nèi)開展水壓致裂、綜合測井和孔內(nèi)電視等測試作業(yè),對(duì)重點(diǎn)區(qū)段進(jìn)行非連續(xù)間斷取芯等。一系列測試手段可探明隧道沿線地應(yīng)力大變形、地震斷裂帶分布、涌水量、地溫、水溫等隧道地質(zhì)情況,從而改傳統(tǒng)垂直“點(diǎn)”勘察為水平“線”勘察,有效避免傳統(tǒng)鉆孔勘察的“一孔之見”[3]。目前該項(xiàng)技術(shù)已在新疆烏尉公路天山勝利隧道首次成功運(yùn)用[2],部分學(xué)者也在川藏鐵路建設(shè)上開展了探索[4-6]。
在水平定向鉆地質(zhì)勘察作業(yè)中,鉆孔圍巖質(zhì)量評(píng)價(jià)是隧道設(shè)計(jì)和施工的基石。圍巖分類是評(píng)價(jià)圍巖質(zhì)量的一種主要方法,可較為全面地反映圍巖的強(qiáng)度特征、變形特征和隧洞工作面的穩(wěn)定性特征,可直接用于指導(dǎo)隧洞的設(shè)計(jì)和施工。目前對(duì)隧道圍巖進(jìn)行分類主要采用定性的方法,一般是通過室內(nèi)試驗(yàn)進(jìn)行定量的驗(yàn)證,且需要廣泛的專業(yè)知識(shí)和工程經(jīng)驗(yàn)[7];采用全孔取芯進(jìn)行定性定量分析雖可更直觀地反映圍巖巖性,但受限于過長時(shí)間周期與過高施工成本,在實(shí)際工程中并不適用。
水平定向鉆施工涉及多種儀器設(shè)備、鉆頭鉆具,施工過程中將產(chǎn)生大量數(shù)據(jù),當(dāng)樣本數(shù)量充足且相關(guān)數(shù)據(jù)與圍巖巖性有內(nèi)在聯(lián)系時(shí),運(yùn)用人工智能與大數(shù)據(jù)技術(shù)建立相關(guān)巖性預(yù)測模型也為研究思路之一[8-9]?,F(xiàn)有研究證實(shí)鉆孔參數(shù)與圍巖質(zhì)量之間存在著一定的關(guān)系,將隨鉆參數(shù)應(yīng)用于圍巖智能分類具有信息自動(dòng)采集、實(shí)時(shí)分析、無需額外工作的天然優(yōu)勢。作為人工智能研究的重要方法,機(jī)器學(xué)習(xí)已應(yīng)用于多種類型的隧道分析,如變形預(yù)測、巖性預(yù)測、巖爆預(yù)測、可靠性分析、穩(wěn)定性分析等[10]。特別是對(duì)于高度非線性的問題,機(jī)器學(xué)習(xí)方法往往比傳統(tǒng)的統(tǒng)計(jì)分析方法具有更好的性能和更高的計(jì)算效率。此外機(jī)器學(xué)習(xí)方法具有自動(dòng)分析和持續(xù)學(xué)習(xí)的智能特征,特別適用于圍巖智能分類問題的研究。在巖性識(shí)別領(lǐng)域,已有研究表明隨鉆參數(shù)與地層信息有密切關(guān)系,并基于機(jī)器學(xué)習(xí)算法開展了大量研究,如Honer[11]、Qin[12]、譚卓英[13-14]、岳中琦[15]等基于地勘鉆孔信息與鉆進(jìn)參數(shù)評(píng)判區(qū)分地層巖性;李國和等[16]以地震數(shù)據(jù)作為輸入,以巖性數(shù)據(jù)作為輸出,建立深度信念網(wǎng)絡(luò)(DBN)模型,實(shí)現(xiàn)地層巖性識(shí)別;王光宇等[17]提出基于隨機(jī)森林算法的巖性預(yù)測方法,經(jīng)數(shù)據(jù)不平衡處理后準(zhǔn)確率可達(dá)83%;易文豪等[18]構(gòu)建基于支持向量機(jī)的隧道圍巖模型,巖性識(shí)別的平均準(zhǔn)確度達(dá)到87.9%;此外,Wang[19]、湯志立[20]等也分別基于不同機(jī)器學(xué)習(xí)算法開展了大量關(guān)于巖爆預(yù)測方面的研究。上述研究表明,構(gòu)建基于鉆進(jìn)參數(shù)的機(jī)器學(xué)習(xí)算法模型來識(shí)別巖性,在一定程度上具備可行性與可靠性,但如何對(duì)圍巖巖性定量分析,如何更客觀智能地進(jìn)行圍巖分類,仍需要進(jìn)一步研究。
開展基于隨鉆參數(shù)與算法的超長水平定向鉆鉆孔圍巖智能分類方面的研究,對(duì)推動(dòng)水平定向鉆智能化、精細(xì)化地質(zhì)勘察有著重要意義。工程巖體質(zhì)量評(píng)價(jià)方面,香港大學(xué)岳中琦[15]團(tuán)隊(duì)開發(fā)的鉆孔過程監(jiān)測(DPM)技術(shù)可對(duì)鉆孔時(shí)空數(shù)據(jù)進(jìn)行實(shí)時(shí)快速分析,但其基本都基于傳統(tǒng)的氣動(dòng)潛孔錘旋轉(zhuǎn)沖擊鉆或液壓回旋勘探鉆井。相較而言,采用超長水平定向鉆技術(shù)進(jìn)行鉆孔圍巖分類與評(píng)價(jià)有2個(gè)不同點(diǎn):① 數(shù)據(jù)采集與分析方面,水平定向鉆隨鉆參數(shù)相較氣動(dòng)潛孔錘旋轉(zhuǎn)沖擊鉆更為平穩(wěn),在鉆機(jī)振動(dòng)、鉆機(jī)輸出功率變化、鉆進(jìn)速度等方面波動(dòng)更小,參數(shù)的穩(wěn)定性與連貫性有利于建立鉆進(jìn)參數(shù)與巖體力學(xué)間的確定性關(guān)系[14-15],機(jī)器學(xué)習(xí)分析方法可更適應(yīng)隨鉆參數(shù)隨機(jī)性、不確定性和非線性的特點(diǎn);② 工程應(yīng)用方面,水平定向鉆地質(zhì)勘察一般應(yīng)用于管-隧-洞等超長線性工程,對(duì)孔內(nèi)圍巖確定與分類不僅有全孔/間斷取芯方法,也可利用鉆進(jìn)過程中的鉆孔環(huán)空運(yùn)移巖屑,以及對(duì)測試過程中的孔內(nèi)電視數(shù)據(jù)結(jié)果進(jìn)行驗(yàn)證[2],數(shù)據(jù)來源的廣泛性與真實(shí)性便于工作人員對(duì)孔底情況把握更為清晰,有助于實(shí)現(xiàn)線性工程的超長距離精細(xì)化勘察。
基于此,本文以天山勝利隧道水平定向鉆地質(zhì)勘察項(xiàng)目工程為例,首先介紹鉆孔圍巖巖樣數(shù)據(jù)采集方法及判別結(jié)果;其次對(duì)泥漿壓力、鉆進(jìn)速度及修正孔底鉆進(jìn)壓力等關(guān)鍵鉆進(jìn)參數(shù)進(jìn)行初步分析,建立包含過采樣后820組圍巖分類數(shù)據(jù)庫;之后引入多種機(jī)器學(xué)習(xí)算法構(gòu)建相應(yīng)圍巖預(yù)測模型,并采用網(wǎng)格搜索交叉驗(yàn)證的方法進(jìn)行調(diào)參優(yōu)化,以準(zhǔn)確率、精確率、召回率、F1值等為性能度量指標(biāo)對(duì)各模型分類性能進(jìn)行評(píng)估驗(yàn)證與探討;最后通過與現(xiàn)有圍巖分類方法比較,分析并探討基于隨鉆參數(shù)與算法的超長水平定向鉆鉆孔圍巖智能分類方法的優(yōu)劣勢與發(fā)展趨勢。
在建的新疆天山勝利隧道,是G0711烏尉高速公路中的關(guān)鍵控制性工程,全長近22 km,建成后將有力推動(dòng)南北疆交流互通,為“一帶一路”發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。圖1為隧道軸線及勘察軌跡設(shè)計(jì)圖。根據(jù)隧道初勘資料,隧址區(qū)主要地質(zhì)構(gòu)造為華里西期構(gòu)造區(qū),對(duì)線路有影響的構(gòu)造主要有F6和F7斷裂,其中F6斷裂(博-阿斷裂帶)距離隧道入口處大約1.9 km,影響范圍約200 m,在新構(gòu)造運(yùn)動(dòng)階段仍有活動(dòng);隧道施工環(huán)境極為惡劣,面臨高地應(yīng)力、高海拔、高地震烈度、高寒等特殊環(huán)境,隧道設(shè)計(jì)、施工階段難度極大,對(duì)隧道沿線工程水文地質(zhì)詳細(xì)勘察具有必要性與緊迫性。
圖1 隧道軸線及勘察軌跡設(shè)計(jì)Fig.1 Design of tunnel axis and survey track
作為一種新型變革性地質(zhì)勘察技術(shù),采用水平定向鉆進(jìn)技術(shù)對(duì)隧道沿線進(jìn)行精細(xì)地質(zhì)勘察有其顯著優(yōu)勢與可行性,其超長距離、超高精度、超快速度、超強(qiáng)適應(yīng)能力等“四超”特性可有效避免傳統(tǒng)垂直鉆孔勘察的“一孔之見”[2]。項(xiàng)目使用江蘇谷登工程機(jī)械裝備有限公司生產(chǎn)的GD3500-L型鉆機(jī),現(xiàn)場導(dǎo)向鉆具組合包括9 7/8英寸(250.8 mm)三牙輪鑲齒鉆頭、1.5°172 mm螺桿泥漿馬達(dá)、172 mm無磁鉆鋌與168 mm鉆桿等;除對(duì)鉆進(jìn)過程中相關(guān)鉆進(jìn)參數(shù)進(jìn)行收集外,同時(shí)開展非連續(xù)間斷取芯(1 003 m和1 900 m鉆孔深度位置)、綜合測井、孔內(nèi)電視等測試,以對(duì)相應(yīng)鉆進(jìn)深度的地層有較為精準(zhǔn)的識(shí)別把控。
1.2.1數(shù)據(jù)采集方法
圍巖巖樣數(shù)據(jù)采集主要有巖屑收集、孔內(nèi)電視、間斷取芯等方法,涉及巖樣實(shí)物、視頻等數(shù)據(jù)資料,采集方案基本如下:
(1) 巖屑收集。為確保采集到的巖屑為“新鮮”巖屑,以鉆桿為單位,在現(xiàn)場每根鉆桿正常鉆進(jìn)過程中進(jìn)行巖屑采集。采集時(shí)將準(zhǔn)備好的篩網(wǎng)設(shè)在返漿口,泥漿透過篩網(wǎng)流進(jìn)返漿池,巖屑留在篩網(wǎng)中;將篩網(wǎng)中的巖屑倒入巖屑樣盆,加入無污染清水小心初次清洗濾掉泥漿;將采集到的巖屑保存至自封袋,并寫好標(biāo)簽,每份巖屑不少于500 g;每次取樣后,清除殘留在篩網(wǎng)上的巖屑并清洗巖屑樣盆,以備下次取樣使用。
(2) 孔內(nèi)電視。圖2為孔內(nèi)電視數(shù)據(jù)采集方法,在勘察孔鉆至目標(biāo)孔深后抽出孔內(nèi)所有鉆具,并以孔內(nèi)電視儀器替換前方鉆頭;開啟孔內(nèi)電視設(shè)備并緩慢推入孔內(nèi),對(duì)孔內(nèi)狀況進(jìn)行全程高清視頻錄像,待至孔底緩慢拉回,完成視頻檢測工序。推拉過程中不注入泥漿不旋轉(zhuǎn)鉆桿,相應(yīng)視頻可清晰記錄孔內(nèi)圍巖巖性、節(jié)理裂隙發(fā)育、斷裂破碎帶位置及程度。
圖2 孔內(nèi)電視數(shù)據(jù)采集方法Fig.2 Data acquisition method of in-hole television
(3) 間斷取芯。采用全斷面破碎導(dǎo)向鉆頭鉆出導(dǎo)向孔,待到達(dá)取芯點(diǎn)位置時(shí)(1 003 m和1 900 m鉆孔深度位置)抽出孔內(nèi)所有鉆具,并更換相應(yīng)取芯鉆具推至目標(biāo)取芯位置,待取芯工序完成后再抽出所有鉆具并更換回全斷面破碎不取芯鉆具;重復(fù)上述工序直至完成所有取芯任務(wù)。
1.2.2圍巖分類結(jié)果
鉆孔累計(jì)進(jìn)尺1 003 m處,隨鉆具出孔的巖芯較完整,總長約75 cm,灰綠色凝灰質(zhì)砂巖,為火山碎屑巖,屬沉積巖,主要礦物成分為石英、長石和云母。如圖3所示,累計(jì)進(jìn)尺1 900 m處,隨鉆具出孔的巖芯較破碎,總長約220 cm,花崗閃長巖,為顯晶質(zhì)酸性深成巖,屬巖漿巖,主要礦物成分為斜長石、石英和角閃石、黑云母等。
圖3 進(jìn)尺1 900 m處巖芯實(shí)物Fig.3 Core with drilling length of 1 900 m
圖4所示為孔內(nèi)電視錄像及返出巖屑實(shí)物圖,根據(jù)孔內(nèi)電視可清晰采集全孔沿線圍巖巖性變化、斷層破碎帶的影響范圍及孔內(nèi)涌水狀況等重要信息,得出博-阿斷裂帶的影響范圍在1 928.0~2 063.0 m。根據(jù)巖屑記錄表,得出勘察鉆遇地層巖性依次為凝灰質(zhì)砂巖、花崗閃長巖、碳質(zhì)板巖、石英片巖和片麻狀花崗巖等5種圍巖。
圖4 孔內(nèi)電視錄像及返出巖屑Fig.4 Image of in-hole television and returned rock debris
表1為綜合孔內(nèi)電視視頻與返出巖屑數(shù)據(jù)對(duì)鉆孔圍巖分布的分析結(jié)果,由表1可知,在鉆深0~1 605.0 m、1 605.0~1 748.8 m、1 748.8~1 769.8 m、1 769.8~1 969.8 m、1 969.8~2 088.3 m、2 088.3~2 271.0 m等區(qū)間內(nèi)分別識(shí)別上述5種圍巖,其中鉆孔軌跡內(nèi)凝灰質(zhì)砂巖分布最廣,達(dá)1 605 m,碳質(zhì)板巖分布最小,僅約21 m,并夾雜于花崗閃長巖中;巖屑經(jīng)清洗干燥后開展室內(nèi)XRD實(shí)驗(yàn),5種圍巖巖性構(gòu)造與礦物成分等也不盡相同。
表1 隧道圍巖分布Tab.1 Tunnel surrounding rock distribution
天山勝利隧道水平定向鉆勘察現(xiàn)場收集到的實(shí)測數(shù)據(jù)有鉆桿根數(shù)、鉆進(jìn)深度、泥漿壓力、進(jìn)漿流量、鉆進(jìn)壓力等。其中鉆桿根數(shù)與鉆進(jìn)深度、泥漿壓力與進(jìn)漿流量具有很強(qiáng)的相關(guān)性;而鉆進(jìn)壓力為地面鉆機(jī)所測參數(shù),與孔底鉆具實(shí)際鉆壓具有一定差距,考慮到鉆孔彎曲與摩擦等因素,孔底鉆進(jìn)壓力需在已有鉆進(jìn)深度、軌跡曲線等數(shù)據(jù)基礎(chǔ)上進(jìn)行修正。目前已有學(xué)者提出并歸納相關(guān)計(jì)算公式[21-23]如下:
(1)
a1·an=ax1·axn+ay1·ayn+az1·azn
=|a1|·|an|·cos(Δα)
(2)
式中:F為修正后的孔底鉆壓,kN;Fg為地面測量的鉆機(jī)鉆壓,kN;μ為管孔摩擦系數(shù),一般取0.35;Δα為孔底鉆具與孔口鉆桿所在向量的夾角,(°);a1和an分別代表孔底第一根鉆桿和孔口最后一根鉆桿在三維空間中對(duì)應(yīng)的向量,a1=(ax1,ay1,az1)、an=(axn,ayn,azn),與兩點(diǎn)的斜深、傾角和方位角相關(guān)。
結(jié)合工程現(xiàn)場隨鉆參數(shù)與孔底修正參數(shù)等數(shù)據(jù),確立泥漿壓力P、鉆進(jìn)速度v及修正計(jì)算后的孔底鉆進(jìn)壓力F這3類數(shù)據(jù)為模型自變量,此3類數(shù)據(jù)可從泥漿循環(huán)、鉆頭破巖等工藝反映水平定向鉆實(shí)時(shí)鉆進(jìn)狀態(tài)。以孔內(nèi)電視、返出巖屑等數(shù)據(jù)反饋得出的圍巖巖性為模型因變量,可真實(shí)客觀反映不同鉆進(jìn)深度L下的鉆孔圍巖類型。表2所列為勘察孔工程數(shù)據(jù)。需要指出的是,233組圍巖反演案例中各數(shù)據(jù)指標(biāo)均完整未缺失,表2所列為樣本數(shù)據(jù)庫,其中1代表凝灰質(zhì)砂巖,2代表花崗閃長巖,3代表碳質(zhì)板巖,4代表石英片巖,5代表片麻狀花崗巖。圖5所示為成孔深度下測試數(shù)據(jù),可反映不同鉆進(jìn)深度L下的泥漿壓力P、孔底鉆進(jìn)壓力F、鉆進(jìn)速度v等鉆進(jìn)參數(shù)與圍巖巖性變化,其中鉆孔深度1 928~2 063 m為博-阿斷裂帶影響范圍。由圖5可知,鉆進(jìn)速度v隨鉆進(jìn)深度L有下降趨勢,泥漿壓力P則穩(wěn)步上升,孔底鉆進(jìn)壓力F在前600 m波動(dòng)明顯,后期逐漸平穩(wěn),這也與實(shí)際經(jīng)驗(yàn)相符;鉆孔沿線凝灰質(zhì)砂巖分布最廣,碳質(zhì)板巖分布最小,博-阿斷裂帶發(fā)育于花崗閃長巖與石英片巖之間。
表2 水平定向鉆勘察工程數(shù)據(jù)Tab.2 Horizontal directional drilling survey engineering data
圖5 成孔深度下測試數(shù)據(jù)Fig.5 Test data at hole depth
233組樣本量基本描述見表3,泥漿壓力P最大值為6.00 MPa,均值為4.99 MPa,中位數(shù)為5.00 MPa,呈現(xiàn)一定的左偏特性;孔底鉆進(jìn)壓力F最大值為899.10 kN,均值為577.60 kN,中位數(shù)為569.50 kN,呈現(xiàn)明顯的右偏分布;鉆進(jìn)速度v最大值為23.90 m/h,均值為9.93 m/h,中位數(shù)為9.40 m/h,同樣呈現(xiàn)一定的右偏特性。為了更直觀地表現(xiàn)出評(píng)價(jià)指標(biāo)分布特征,繪制3類變量的分布曲線,如圖6所示。
表3 評(píng)估變量基本信息Tab.3 Basic information of evaluation variables
圖6 評(píng)估變量分布Fig.6 Evaluation variable distribution
在機(jī)器算法分類問題上,數(shù)據(jù)不平衡導(dǎo)致不同標(biāo)簽數(shù)據(jù)分布差異極大,訓(xùn)練模型過多關(guān)注比例較大的特征數(shù)據(jù),致使訓(xùn)練效果不佳,因此有必要進(jìn)行數(shù)據(jù)不平衡處理。圖7為3種評(píng)估指標(biāo)下的巖性識(shí)別參數(shù)三維分布,每種顏色表示一種巖性,可知碳質(zhì)板巖巖樣數(shù)據(jù)相較凝灰質(zhì)砂巖過少,不同巖樣數(shù)據(jù)存在明顯的數(shù)據(jù)不平衡現(xiàn)象。機(jī)器學(xué)習(xí)中通常采用重采樣方法處理不平衡數(shù)據(jù),按采樣形式可分為過采樣、欠采樣和混合采樣,以改變樣本數(shù)量或懲罰機(jī)制為主要處理思路。常用的過采樣方法SMOTE(Synthetic Minority Over-Sampling)算法于2002年[24]被提出,該算法將少數(shù)類樣本的最近鄰樣本作為插值,合成復(fù)制以達(dá)到過采樣??紤]到本工程案例樣本數(shù)據(jù)集較小,在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,為了充分學(xué)習(xí)各類樣本的特征,提高模型的通用性,采用SMOTE算法對(duì)花崗閃長巖、碳質(zhì)板巖、石英片巖、片麻狀花崗巖等巖樣數(shù)據(jù)進(jìn)行過采樣處理。
圖7 巖性識(shí)別的三維分布Fig.7 3D distribution of lithology identification
不同巖性數(shù)據(jù)經(jīng)SMOTE過采樣處理后樣本量均達(dá)到164組,樣本數(shù)據(jù)總量由233組擴(kuò)充至820組。與平衡前相比,各評(píng)估指標(biāo)(泥漿壓力P、鉆進(jìn)速度v、孔底鉆進(jìn)壓力F)均值與標(biāo)準(zhǔn)差變化較小,表明數(shù)據(jù)離散程度未發(fā)生劇烈變化,基本符合數(shù)據(jù)過采樣平衡要求。
機(jī)器學(xué)習(xí)模型輸入?yún)?shù)之間的相關(guān)性對(duì)模型泛化性能可能存在影響,因此有必要對(duì)各參數(shù)之間的相關(guān)性進(jìn)行分析,表4為各參數(shù)之間的Pearson相關(guān)系數(shù)。可知,泥漿壓力P與鉆進(jìn)速度v、孔底鉆進(jìn)壓力F存在一定的負(fù)相關(guān)性,鉆進(jìn)速度v與孔底鉆進(jìn)壓力F相關(guān)性較弱;鉆孔圍巖巖性與3類參數(shù)具有較強(qiáng)相關(guān)性,其中與泥漿壓力P呈正相關(guān),與鉆進(jìn)速度v、孔底鉆進(jìn)壓力F呈負(fù)相關(guān);巖性與各輸入?yún)?shù)間相關(guān)系數(shù)接近,相關(guān)系數(shù)絕對(duì)值在0.53~0.73之間,因此選取這3類指標(biāo)進(jìn)行圍巖分類是可行的。
表4 自變量相關(guān)性矩陣Tab.4 Independent variable correlation matrix
基于Python機(jī)器學(xué)習(xí)工具包(Scikit-learn),使用10種經(jīng)典監(jiān)督學(xué)習(xí)算法來訓(xùn)練鉆孔圍巖分類模型,其中6種常規(guī)算法包括決策樹(DT)、K-近鄰(KNN)、高斯樸素貝葉斯(GNB)、支持向量機(jī)(SVM)、線性判別(LDA)、多層感知機(jī)分類器(MLP)等,4種集成算法包括隨機(jī)森林(RF)、AdaBoost分類器、梯度提升決策樹(GBDT)、袋裝法(Bagging)等。結(jié)合Scikit-learn庫中的10種機(jī)器學(xué)習(xí)算法包,對(duì)模型進(jìn)行訓(xùn)練驗(yàn)證,步驟如下:
(1) 對(duì)輸入數(shù)據(jù)進(jìn)行Min-Max標(biāo)準(zhǔn)化處理,并將處理后的數(shù)據(jù)以7∶3比例分割為訓(xùn)練集與測試集;
(2) 基于Scikit-learn庫中算法包和Python工具分別構(gòu)建10種分類算法模型;
(3) 訓(xùn)練各算法模型,采用5折網(wǎng)格搜索交叉驗(yàn)證以確定各模型最優(yōu)超參數(shù)組合;
(4) 以準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1 score)評(píng)判各預(yù)測模型分類性能。
圍巖智能分類模型建立與分析流程如圖8所示。
圖8 分析流程Fig.8 Analysis flow chart
超參數(shù)(Hyperparameter)是模型初建時(shí)用于控制算法行為的參數(shù),一般需在訓(xùn)練之初人為賦值;算法調(diào)參目的在于使得訓(xùn)練后模型達(dá)到最佳狀態(tài),需要使損失函數(shù)盡可能小,以節(jié)省計(jì)算機(jī)算力與降低泛化誤差。機(jī)器學(xué)習(xí)中調(diào)參可視為多元函數(shù)優(yōu)化問題,目前成熟的調(diào)參方法包括傳統(tǒng)手工搜索、網(wǎng)格搜索、隨機(jī)搜索、貝葉斯搜索等,相關(guān)算法在Scikit-learn庫中均有對(duì)應(yīng)函數(shù)包。
本文在步驟(3)所采取的網(wǎng)格搜索交叉驗(yàn)證(Grid SearchCV)是一種基本的超參數(shù)調(diào)優(yōu)技術(shù),其基本思路為對(duì)指定參數(shù)值或組合窮舉搜索,在指定空間內(nèi)依次遍歷并提出參數(shù)先驗(yàn)候選值,訓(xùn)練學(xué)習(xí)器以驗(yàn)證所有參數(shù)組合,進(jìn)而獲取模型最優(yōu)時(shí)的參數(shù)組合。但由于其對(duì)每種超參數(shù)組合進(jìn)行遍歷驗(yàn)證,導(dǎo)致計(jì)算速度相對(duì)緩慢,對(duì)計(jì)算機(jī)性能提出較高要求。
常用準(zhǔn)確率、精確率、召回率、F1值為分類性能度量指標(biāo)來衡量各模型泛化能力。其中準(zhǔn)確率較為常用[20],其可用于評(píng)估模型整體分類性能,但需召回率等指標(biāo)來具體評(píng)價(jià)模型的優(yōu)異程度。
評(píng)估建立的10種分類算法模型的性能,基于Python機(jī)器學(xué)習(xí)工具包,按照?qǐng)D8流程構(gòu)建基于10種監(jiān)督學(xué)習(xí)算法的圍巖分類模型,其性能評(píng)估結(jié)果如表5與圖9所示。結(jié)果表明,10種不同算法對(duì)凝灰質(zhì)砂巖、花崗閃長巖、碳質(zhì)板巖、石英片巖、片麻狀花崗巖等巖樣分類的精確率分別為0.88~1.00,0.73~0.92,0.58~0.97,0.27~0.99,0.62~0.99,召回率分別為0.60~0.91,0.78~0.95,0.75~1.00,0.43~0.99,0.08~1.00,F1值分別為0.75~0.93,0.78~0.90,0.65~0.98,0.33~0.99,0.15~1.00。5類巖樣的平均召回率為0.86,說明利用鉆進(jìn)參數(shù)建立的機(jī)器學(xué)習(xí)模型在圍巖智能分類中是可行、可靠的。3類評(píng)估指標(biāo)中,F1值作為精確率與召回率的調(diào)和平均值,在評(píng)估二分類問題時(shí)更為適用,對(duì)比分析可知碳質(zhì)板巖與片麻狀花崗巖的F1值均大于其他巖層,大部分算法模型中關(guān)于石英片巖的F1值小于其他巖層,初步說明本文構(gòu)建的算法模型對(duì)碳質(zhì)板巖與片麻狀花崗巖的分類性能較強(qiáng)。同時(shí)不同學(xué)習(xí)算法對(duì)模型分類效果影響顯著:隨機(jī)森林(RF)的分類能力最強(qiáng),F1值最大可達(dá)1.00,說明可非常準(zhǔn)確地分類出測試集中的部分巖層;決策樹(DT)、K-近鄰(KNN)與梯度提升決策樹(GBDT)分類能力較強(qiáng),可達(dá)0.98~0.99;而無論是F1值,還是精確率與召回率,AdaBoost分類器分類表現(xiàn)均較差,其對(duì)于片麻狀花崗巖的F1值與召回率分別只為0.15與0.08,對(duì)石英片巖的精確率也僅為0.27,說明該算法對(duì)本案例工程圍巖分類問題泛化能力較弱,未能對(duì)巖性進(jìn)行準(zhǔn)確分類。
表5 鉆孔圍巖模型性能評(píng)估Tab.5 Performance evaluation of borehole surrounding rock model
圖9 不同算法模型性能評(píng)價(jià)Fig.9 Performance evaluation of different algorithm models
以準(zhǔn)確率作為評(píng)判指標(biāo)分析各算法模型分類性能,除線性判別與AdaBoost分類器外,其他8種監(jiān)督學(xué)習(xí)算法準(zhǔn)確率均高于0.80,說明依托鉆進(jìn)參數(shù)建立的圍巖巖性分類模型具有可行性,相關(guān)算法對(duì)此類問題有較好的可解釋性。由圖9(d)可知,本文所建立的10種分類模型中,隨機(jī)森林表現(xiàn)最好,其次是決策樹與梯度提升決策樹,其準(zhǔn)確率均在0.95以上;高斯樸素貝葉斯、支持向量機(jī)與多層感知機(jī)分類器表現(xiàn)相似,準(zhǔn)確率均在0.86左右;線性判別與AdaBoost分類器表現(xiàn)較差,其中AdaBoost分類器準(zhǔn)確率僅在0.57左右。
不同算法對(duì)應(yīng)不同巖石類型預(yù)測精度不同,其根本還在于巖石自身因素,如巖石可鉆性方面,不同巖層鉆頭破巖的形式不盡相同(貫入破碎、剪切破碎、拉伸破碎等[25]),此外巖屑運(yùn)移規(guī)律、能量耗散形式也會(huì)產(chǎn)生一些影響。以上述4項(xiàng)評(píng)判指標(biāo)評(píng)估各算法對(duì)不同圍巖的分類效果,發(fā)現(xiàn)各分類器在碳質(zhì)板巖與片麻狀花崗巖上表現(xiàn)較好,表明機(jī)器學(xué)習(xí)方法適用于該類巖石,其中又以隨機(jī)森林分類器表現(xiàn)最好。
分析各算法的預(yù)測精度差異原因,還在于算法本身原理與底層邏輯。常規(guī)算法中決策樹相對(duì)于其他算法的預(yù)測準(zhǔn)確率較高,初步分析其原因在于該算法能夠處理不相關(guān)的特征,在小數(shù)據(jù)集上較其余常規(guī)算法更具優(yōu)勢,但也容易出現(xiàn)過擬合問題。集成算法中,Bagging(裝袋算法)和Boosting(提升算法)都是將多重或多個(gè)弱分類器融合成為強(qiáng)分類器的模型融合算法,從而可以提升模型分類效果;由于Bagging是利用數(shù)據(jù)全部特征訓(xùn)練分類器,而隨機(jī)森林在Bagging基礎(chǔ)上增加了隨機(jī)屬性選擇,即只從數(shù)據(jù)全部特征提取一部分訓(xùn)練分類器,其性能與效率也有了較大提升,因此本案例中隨機(jī)森林優(yōu)于Bagging;相較于均勻取樣的Bagging算法,按照錯(cuò)誤率來取樣的Boosting算法一般而言分類精度更優(yōu),基于Boosting的提升決策樹的4項(xiàng)評(píng)判指標(biāo)與隨機(jī)森林相差不大,而對(duì)同樣基于Boosting的AdaBoost分類器,雖然泛化錯(cuò)誤率低但也對(duì)離群點(diǎn)更為敏感,由于本案例原始數(shù)據(jù)集較小并經(jīng)過數(shù)據(jù)不平衡處理,導(dǎo)致AdaBoost的弱分類器數(shù)目不太好設(shè)定,其分類預(yù)測的各項(xiàng)指標(biāo)均弱于其余各項(xiàng)算法。
圍巖分級(jí)方面,國際上已提出的和正在應(yīng)用的圍巖分類方法約有50多種,如中國工程建設(shè)應(yīng)用較多的GB/T 50218-2014《工程巖體分級(jí)標(biāo)準(zhǔn)》中BQ法[26]和GB 50487-2008《水利水電工程地質(zhì)勘察規(guī)范》中HC法[27]等,其多以經(jīng)驗(yàn)為基礎(chǔ)進(jìn)行定性判別,以圍巖質(zhì)量影響指標(biāo)進(jìn)行評(píng)判、打分。諸如GB 50487-2008《水利水電工程地質(zhì)勘察規(guī)范》[27]、TB 10003-2016《鐵路隧道設(shè)計(jì)規(guī)范》[28]、JTG/T D70-2010《公路隧道設(shè)計(jì)細(xì)則》[29]等標(biāo)準(zhǔn)規(guī)范對(duì)圍巖分類(分級(jí))方法均有具體說明,基本都以圍巖穩(wěn)定性及結(jié)構(gòu)特征等為主要判據(jù),圍巖主要分為5~6類,且受到巖石性質(zhì)、巖石完整度、結(jié)構(gòu)面特征、巖體結(jié)構(gòu)與洞軸線關(guān)系、地應(yīng)力水平、地下水等因素影響,測量誤差往往造成對(duì)圍巖分級(jí)判定不準(zhǔn)確。
巖性識(shí)別方面,目前關(guān)于大數(shù)據(jù)算法在巖性識(shí)別的應(yīng)用多為油氣勘探開發(fā)和地質(zhì)鉆探領(lǐng)域,綜合錄井測井工作的數(shù)字化、自動(dòng)化為巖性解釋、評(píng)價(jià)算法模型的建立提供了必要條件[30]。相較而言,隧道圍巖巖性多依據(jù)傳統(tǒng)的定性劃分和定量指標(biāo),需要工作人員根據(jù)經(jīng)驗(yàn)與巖體參數(shù)測試才能準(zhǔn)確判定,如TB 10003-2016《鐵路隧道設(shè)計(jì)規(guī)范》[28]以巖石單軸飽和抗壓強(qiáng)度劃分硬質(zhì)巖或軟質(zhì)巖并確定A~E類圍巖,以巖石風(fēng)化及結(jié)構(gòu)面結(jié)合程度確定巖漿巖、變質(zhì)巖、沉積巖類別,最終確定巖石類型。
無論是巖性識(shí)別還是圍巖分級(jí),都具有影響因素眾多、隨機(jī)性強(qiáng)、相互耦合且高度非線性的特征,由于圍巖與各影響指標(biāo)之間離散,采用傳統(tǒng)方法準(zhǔn)確判定較為復(fù)雜困難。同時(shí),水平定向鉆隨鉆參數(shù)往往與現(xiàn)有分類、分級(jí)指標(biāo)間存在較強(qiáng)聯(lián)系,基于隨鉆參數(shù)與機(jī)器學(xué)習(xí)算法的超長水平定向鉆鉆孔圍巖智能分類方法具有較強(qiáng)可行性與可靠性。
需注意的是,本案例訓(xùn)練測試數(shù)據(jù)均來自天山勝利隧道建設(shè)過程中某一區(qū)間,由于其為中國首次開展相關(guān)技術(shù)的嘗試,數(shù)據(jù)量有限,故只針對(duì)多種機(jī)器學(xué)習(xí)算法在水平定向鉆鉆孔圍巖分類問題展開初步探討與普適性研究,為今后類似工程提供參考與思路。今后,發(fā)展一套適用于超長水平定向鉆勘察的圍巖分類方法是該項(xiàng)新技術(shù)的研究重點(diǎn)之一;圍巖描述也需完成從定性到定量再到綜合集成的轉(zhuǎn)變;同時(shí),機(jī)器學(xué)習(xí)建模完全依靠數(shù)據(jù)驅(qū)動(dòng),忽視了相關(guān)物理力學(xué)關(guān)系,如何處理好數(shù)據(jù)驅(qū)動(dòng)與物理驅(qū)動(dòng)的關(guān)系[31]、如何建立可解釋性強(qiáng)的圍巖智能分類理論、如何提高學(xué)習(xí)的泛化能力是亟需解決的問題。
將超長距離水平定向鉆技術(shù)應(yīng)用于地質(zhì)勘察,可克服現(xiàn)有垂直鉆孔地質(zhì)勘察在深山峽谷高海拔地區(qū)的應(yīng)用限制,改變隧道工程地質(zhì)勘察現(xiàn)狀,有力配合川藏鐵路、西部大開發(fā)等一系列國家戰(zhàn)略規(guī)劃的實(shí)施。本文基于鉆孔返出巖屑、孔內(nèi)電視、間斷取芯及隨鉆參數(shù)等各類數(shù)據(jù),探討基于多種機(jī)器學(xué)習(xí)算法的圍巖智能分類模型性能,結(jié)論如下:
(1) 以泥漿壓力、鉆進(jìn)速度及修正孔底鉆進(jìn)壓力等3類鉆進(jìn)參數(shù)為主要的輸入?yún)?shù),采用SMOTE過采樣方法對(duì)樣本量較小的巖樣數(shù)據(jù)進(jìn)行不平衡處理,平衡后數(shù)據(jù)離散程度變化小,基本符合要求;
(2) 建立的多種機(jī)器學(xué)習(xí)算法模型中,大部分算法對(duì)碳質(zhì)板巖與片麻狀花崗巖的巖本具有較好的分類性能,對(duì)石英片巖的預(yù)測準(zhǔn)確率則較低;
(3) 綜合準(zhǔn)確率、精確率、召回率和F1值等評(píng)估指標(biāo),發(fā)現(xiàn)隨機(jī)森林、決策樹與梯度提升決策樹表現(xiàn)最好,其準(zhǔn)確率均在0.95以上,具有較好的泛化效果;線性判別與AdaBoost分類器表現(xiàn)較差,其中AdaBoost分類器準(zhǔn)確率僅0.57左右,不適用于本案例圍巖智能分類。
綜合多類別測試與數(shù)據(jù),采用機(jī)器學(xué)習(xí)算法對(duì)圍巖進(jìn)行分類具有可行性,可有效避免現(xiàn)有標(biāo)準(zhǔn)規(guī)范的圍巖分類判定指標(biāo)隨機(jī)性強(qiáng)且相互耦合、各參數(shù)存在高度非線性的缺陷,可有效揭示各參數(shù)之間的內(nèi)在規(guī)律,以快速準(zhǔn)確感知地層條件并進(jìn)行圍巖智能分類。由于超長水平定向鉆地質(zhì)勘察正處于初步發(fā)展階段,隨鉆參數(shù)的采集方式、種類、數(shù)量需要進(jìn)一步探討,相關(guān)技術(shù)指標(biāo)仍需進(jìn)一步確立與完善,結(jié)合鉆頭破巖、巖屑運(yùn)移等物理力學(xué)規(guī)律,建立數(shù)據(jù)-物理雙驅(qū)動(dòng)的圍巖智能分類理論與模型也是未來發(fā)展趨勢之一。