李希元,崔健,胡望水,李成立
1 長江大學地球科學學院,武漢 430100 2 江蘇華東八一四地球物理勘查有限公司,南京 210007 3 中國地質(zhì)調(diào)查局沈陽地質(zhì)調(diào)查中心,沈陽 110034
隨著地質(zhì)、地球物理大數(shù)據(jù)時代的到來及地質(zhì)研究工作對地球物理大數(shù)據(jù)解釋的不斷深入,將機器學習與人工智能引入地質(zhì)科學已經(jīng)成為當前地質(zhì)、地球物理大數(shù)據(jù)研究的熱點,人工智能理論與地質(zhì)、地球物理大數(shù)據(jù)的結(jié)合應用具有十分重要的意義(Wang,2007;林香亮等,2018;周永章等,2018;韓啟迪等,2019).作為人工智能的核心,機器學習理論主要是研究計算機模擬或?qū)崿F(xiàn)人類學習行為,從海量、多源、多維度的數(shù)據(jù)中尋找知識規(guī)律并建立學習模型,進而通過已獲得的學習模型對其他數(shù)據(jù)進行分類與預測(楊午陽等,2019).
近年來,在機器學習中,支持向量機(Support Vector Machine,SVM)這種具有代表性的算法被廣泛應用于地學及地球物理研究的各個領域.在巖性識別方面,采用機器學習的方法,利用巖石各組分的含量及標準巖性分類圖版,實現(xiàn)了對巖石巖性的鑒定(楊佳佳,2012;付光明,2017;韓啟迪等,2019;張昭杰和方石,2019);利用火山巖在地球物理方面所表現(xiàn)的重磁電震特征,通過支持向量機實現(xiàn)了對火山巖巖性的預測(張爾華等,2011;朱怡翔和石廣仁,2013;柳成志和滕立惠,2014;牟丹等,2015;吳施楷和曹俊興,2016);根據(jù)不同礦體賦存的地質(zhì)環(huán)境結(jié)合有利成礦的地質(zhì)與地球物理信息,應用機器學習的方法達到對礦體預測目的(向杰等,2019);在三維地質(zhì)建模方面,機器學習方法也取得了較好的應用效果(郭甲騰等,2019).在地震大數(shù)據(jù)處理解釋方面,人們將機器學習方法應用到初至波切除、地質(zhì)層位追蹤、斷層自動檢測、波形分類及巖相預測當中,不僅有效地提高了工作效率,而且大大地增強了地球物理資料處理成果的精度,進一步增強了地質(zhì)解釋成果的可靠性(邴萍萍等,2012;李建軍和倫墨華,2018;周永章等,2018;蔣一然和寧杰遠,2019).從以上可以看到,機器學習在眾多領域得到廣泛的應用并取得了較好的效果,多方面展示了機器學習理論在地學領域具有廣泛的應用前景,不僅提高了工作效率,而且通過機器學習這種人工智能技術在地學各應用領域創(chuàng)新了地球物理處理與解釋方法.
為便于地球物理資料的地質(zhì)解釋,常常通過反演將地球物理異常轉(zhuǎn)換為刻畫地下地質(zhì)體的物性參數(shù)(張志厚等,2021),通過地質(zhì)體的物性特征及分布規(guī)律實現(xiàn)單一或多源地球物理數(shù)據(jù)的地質(zhì)解釋(楊輝等,2002).通過對大量巖石物性數(shù)據(jù)統(tǒng)計可知,存在地球上的各類巖石的物性參數(shù)都不是唯一的,不同巖石種類的物性參數(shù)在數(shù)值上存在一定的交疊,因而利用單一物性參數(shù)所圈定的地質(zhì)體及所確定的地質(zhì)體的屬性存在相當大的不確定性,從而降低了地質(zhì)解釋的可靠性,但具有物性交疊現(xiàn)象的地質(zhì)體,對于同一地質(zhì)體不同位置的物性數(shù)值在物性交會圖上具有一定統(tǒng)計的聚類性(朱怡翔和石廣仁,2013).
人們?yōu)榱嗽鰪姷厍蛭锢碣Y料地質(zhì)解釋成果的可靠性,在同一地區(qū)采用多種地球物理方法進行勘探以便獲得反映地下地質(zhì)體不同物性特征的地球物理場,通過對多源地球物理場的反演獲取反映地質(zhì)體屬性特征的密度、磁化率及電阻率,進而結(jié)合區(qū)域地質(zhì)進行綜合解釋,以便增強地質(zhì)解釋的可靠性(郁軍建等,2015).正像前面所說的那樣,刻畫與描述地質(zhì)體特征的巖石物性在大多情況呈現(xiàn)交疊現(xiàn)象,這為應用多源地球物理場反演得到的獨立物性參數(shù)(密度、磁化率、電阻率)綜合圈定地質(zhì)體及識別地質(zhì)體的巖性帶來極大的困難.
對多源地球物理資料的綜合地質(zhì)解釋常常需要聯(lián)合反演.一般的聯(lián)合反演都是在兩種地球物理資料之間進行(彭淼等,2013;彭國民和劉展,2020)或是人機聯(lián)作最優(yōu)化地質(zhì)解釋(陳建國,1991;周子陽等,2016;吳珍漢等,2021),至多是將一種能夠確定地下地質(zhì)結(jié)構(gòu)的地球物理資料作為模型的約束或作為初始模型(例如,地震解釋得到的構(gòu)造界面或圈定的地質(zhì)體),進一步通過人機聯(lián)作的方式對其余兩種地球物理資料進行聯(lián)合反演與綜合地質(zhì)解釋(汪在君等,2007;李德春等,2012;郭偉等,2014;汪洋等,2020),以期達到同一地質(zhì)模型在給定不同的物性參數(shù)的情況下與所觀測的地球物理響應或是異常達到統(tǒng)一(何展翔等,2005).在兩種以上地球物理聯(lián)合反演中,一般要求巖石物性之間具有一定的相互關系(陳曉等,2017),這種相互關系只能在一定程度上通過擬合多源地球物理異常改變地質(zhì)體的形狀以期提高地質(zhì)解釋的可靠程度,但還不能從本質(zhì)上克服巖石物性具有交疊現(xiàn)象不具有定量相關關系的地質(zhì)體屬性特征的反演與地質(zhì)解釋(徐海波等,2006).近年來,多源地球物理聯(lián)合反演有了較大的進展,研發(fā)了交叉梯度聯(lián)合反演方法,這種方法不需要依賴不同物性參數(shù)間的巖石物性的定量關系,而是假設同一地下區(qū)域不同物性參數(shù)的空間結(jié)構(gòu)分布完全相同或者部分相同.多源地球物理的交叉梯度聯(lián)合反演有效的降低了地球物理資料的多解性,增強了多物性參數(shù)結(jié)構(gòu)的耦合,改善了反演的準確性和穩(wěn)定性,使得參與聯(lián)合反演的地球物理方法的結(jié)果盡最大程度的具有反映地質(zhì)體特征的物性結(jié)構(gòu)的統(tǒng)一性,對于提高地質(zhì)解釋結(jié)果的可靠性、簡化地質(zhì)解釋具有重要的意義(閆政文等,2020),但聯(lián)合反演方法還不是對地質(zhì)體存在物性交疊現(xiàn)象的多源地球物理資料的地質(zhì)解釋方法.
盡管可以通過對地球物理異常的反演得到反映地下地質(zhì)體特征的物性參數(shù)(密度、磁化率、電阻率)的三維分布,但如何對客觀存在物性交疊現(xiàn)象多源地球物理反演結(jié)果實現(xiàn)地質(zhì)體的圈定與巖性的識別并減輕地質(zhì)解釋的復雜性,同時又增強地質(zhì)解釋的可靠性與客觀性是擺在地球物理及地質(zhì)工作者面前的重要課題,也是利用多源地球物理資料可靠圈定與識別地質(zhì)體屬性的關鍵所在.
雖然對于同一地質(zhì)體的巖石物性(密度、磁化率、電阻率)一般不具有三者物性之間的定量相關關系,但同一地質(zhì)體的物性在倆倆的交會圖上卻具有明顯的統(tǒng)計聚類關系,為應用地質(zhì)體物性參數(shù)開展多源地球物理的地質(zhì)解釋奠定了基礎(楊建輝等,2013;甘之翔和張藝,2017;屈挺等,2021).
支持向量機是建立在結(jié)構(gòu)風險最小化原則以及VC維(Vapnik Chervonenkis Dimension)概念基礎上的一種專門針對小樣本的統(tǒng)計學習理論上的分類方法,它屬于有監(jiān)督學習的模型,在有監(jiān)督學習的情況下,每個樣本訓練數(shù)據(jù)都有一個標識值或結(jié)果值(左斌等,2018).支持向量機的這個特性符合利用具有統(tǒng)計聚類特征地質(zhì)體物性參數(shù)的分類性質(zhì),從理論上完全能夠用于對多源地球物理反演的密度體、磁化率體及電阻率體(以下簡稱物性三體)進行地質(zhì)體的圈定及巖性判別的綜合地質(zhì)解釋.
本文以利用多源地球物理數(shù)據(jù)進行多寶山礦集區(qū)3000 m地質(zhì)結(jié)構(gòu)研究為目的,從多源地球物理數(shù)據(jù)的地質(zhì)解釋出發(fā),探索了采用支持向量機構(gòu)建地質(zhì)體分類解釋模型,并利用物性三體進行地質(zhì)體圈定及巖性識別的多源地球物理綜合地質(zhì)解釋的方法.
多寶山礦集區(qū)是我國重要的斑巖型銅鉬礦成礦區(qū),礦產(chǎn)資源較為豐富,礦集區(qū)北西段為矽卡巖型銅鐵礦床與熱液型銅鉬礦,中段為斑巖型銅鉬礦,南東段為熱液型金礦,熱液型和斑巖型礦床是重要的礦床類型.礦集區(qū)內(nèi)多寶山組的安山巖及其碎屑巖中是斑巖型銅礦的重要礦源層,礦集區(qū)內(nèi)斑巖型及矽卡巖型銅(鉬)、銅(鐵)礦床均與中奧陶統(tǒng)多寶山組有關,區(qū)域上,斑巖型銅礦體除以花崗巖作為賦礦圍巖外,均無例外地賦存于多寶山組變安山巖及中性凝灰?guī)r或凝灰砂巖中,多寶山組及銅山組最發(fā)育的地區(qū)也正是斑巖型銅礦床(點)密集分布區(qū).著名的多寶山超大型銅鉬礦、銅山大型銅礦和爭光大型巖金礦(圖1)就在該礦集區(qū)內(nèi).銅鉬、金礦床的形成主要與早奧陶世島弧巖漿活動有關(趙元藝等,2012).
圖1 多寶山礦集區(qū)地質(zhì)簡圖Fig.1 Geological sketch of the Duobaoshan ore concentration area
礦集區(qū)內(nèi)產(chǎn)出的地質(zhì)體主要為古生代地層和島弧巖漿巖,中生代地層和巖漿巖出露較少.產(chǎn)出的地層主要有:下奧陶統(tǒng)多寶山組,呈大面積分布,主要由島弧鈣堿性中性-中酸性火山巖組成,為銅鉬、金礦床成礦的主要母巖;下奧陶統(tǒng)銅山組,主要由弧間盆地淺海相中細粒砂巖、變粉砂巖、板巖組成;中奧陶統(tǒng)裸河組、上奧陶統(tǒng)愛輝組、志留紀黃花溝組為一套連續(xù)沉積地層,主要由弧間盆地淺海-半深海相砂巖、粉砂巖、板巖組成;下泥盆統(tǒng)泥鰍河組主要由弧間殘余盆地淺海-半深海相粉砂巖、板巖組成;上三疊統(tǒng)清水河組不整合于多寶山組之上,主要由鈣堿性中性火山巖組成;下白堊統(tǒng)光華組不整合于多寶山弧盆系之上,主要由鈣堿性酸性火山巖組成;下白堊統(tǒng)九峰山組整合于下白堊統(tǒng)光華組之上,為一套斷陷盆地含煤沉積建造,由砂巖、粉砂巖、泥巖及酸性火山碎屑巖組成(向安平等,2012).
礦集區(qū)內(nèi)侵入巖以奧陶紀花崗閃長(斑)巖、英云閃長巖和中三疊世花崗閃長巖為主.奧陶紀花崗閃長(斑)巖、英云閃長巖分布面積較大,有多個巖體侵入多寶山組,少量閃長巖、閃長玢巖,為典型島弧侵入巖,是銅鉬礦成礦的主要巖漿巖;閃長巖、閃長玢巖、輝長巖規(guī)模較小,呈巖株和巖脈狀侵入多寶山弧盆系.從早奧陶世-晚奧陶世均有侵入巖,以早奧陶世為主.中三疊世的侵入巖主要有花崗閃長巖、英云閃長巖、二長花崗巖和閃長巖,以花崗閃長巖分布面積最大,侵位于多寶山弧盆系邊部,在侵入體邊部的弧盆系中形成一系列韌變形帶;其余分布零星,多以脈狀產(chǎn)出(車合偉等,2015).
支持向量機是基于結(jié)構(gòu)風險最小化原理的基礎上,建立數(shù)學模型進行有限數(shù)據(jù)樣本情況下的統(tǒng)計模式識別(吳施楷和曹俊興,2016;林香亮等,2018;韓啟迪等,2019;張昭杰和方石,2019),支持向量機的這一特性,為利用多源地球物理資料進行地質(zhì)體的圈定與巖性識別奠定了理論基礎.
支持向量機一個最重要的應用就是對數(shù)據(jù)集進行分類.下面從數(shù)學理論方面簡要說明支持向量機對數(shù)據(jù)集的分類原理.首先定義一大小為m×n矩陣X及大小為m的向量Y.
X=[X1,X2,X3,…,Xi,…,Xm],
(1a)
Y=[y1,y2,y3,…,yi,…,ym],
(1b)
在利用支持向量機進行分類時,m為樣本數(shù),n為屬性特征數(shù),X為支持向量機的輸入數(shù)據(jù)集,Xi為具有n個屬性的特征向量,Y為標簽變量,yi是Xi的分類標簽,當數(shù)據(jù)集為二分類時,yi∈(-1,+1).在樣本數(shù)據(jù)集為線性可分時,對于支持向量機二分類問題就會存在形如(2)式的一個超平面完全分開樣本數(shù)據(jù)集.
W·X+b=0,(2)
式中:“·”是向量點積,W為n維超平面的法向量;b為位移項,決定了超平面與原點之間的距離.靠近超平面最近的特征向量離超平面的距離達到極限的超平面稱為最優(yōu)超平面.
最優(yōu)超平面可以通過求解下面的二次凸規(guī)劃問題來獲得.
(3a)
yi(W·Xi+b)≥1,i=1,2,…,m.
(3b)
在樣本數(shù)量較大的情況,可以利用(3)式二次凸規(guī)劃問題的對偶問題(4)式加以求解(韓啟迪等,2019).
(4a)
(4b)
(4c)
式中:α=(α1,α2,…,αm)是Lagrange乘子,W*是最優(yōu)超平面的法向量,b*是最優(yōu)超平面的偏移量.
=sign(W*·Xk+b*),(5)
式中:sign()為符號函數(shù).根據(jù)f(Xk)的符號來確定樣本Xk的分類類別.
對于線性不可分的分類數(shù)據(jù)集,不能再要求所有特征向量都滿足約束條件yi(W·Xi+b)≥1.為此,這里對每個樣本都引進一個松弛變量ξi≥0,把約束條件放松為:
yi(W·Xi+b)≥1-ξi.
(6)
(7)
這樣就把線性不可分問題轉(zhuǎn)化為如下的優(yōu)化問題:
(8a)
yi(W·Xi+b)≥1-ξi,ξi≥0,i=1,2,…,m
(8b)
懲罰系數(shù)C在模型的復雜度和訓練樣本誤差之間起到一種平衡的作用,合適的C參數(shù)能使訓練模型具有較好的泛化能力.
為了利用超平面對非線性樣本數(shù)據(jù)集進行分類,需要對樣本數(shù)據(jù)集進行一些變換,將非線性樣本數(shù)據(jù)集轉(zhuǎn)化為線性樣本數(shù)據(jù)集.為此將原空間中的非線性樣本數(shù)據(jù)集T通過一個非線性映射轉(zhuǎn)換到更高維的特征空間H中,使其在特征空間H中是線性可分的,從而在H空間中建立一個分類超平面(圖2).設:Φ:T→Φ(T)={(Φ(xi,yi)|i=1,2,…,m},使得Φ(T)在H中是線性可分的.將(8b)式中的Xi換成Φ(xi)即可得到如下的最優(yōu)化問題:
(9a)
yi(W·Φ(xi)+b)≥1-ξi,ξi≥0,i=1,2,…,m.
(9b)
圖2 核函數(shù)變換示意圖Fig.2 Schematic diagram of kernel function transformation
利用拉格朗日乘子法,并求解(9)式的對偶問題(10)式.
(10a)
(10b)
在(10a)式中,Φ(x)總是以內(nèi)積(Φ(xi).Φ(xj))的形式出現(xiàn),所以只需從總體上定義一個函數(shù)K(xi,xj),并使K(xi,xj)=(Φ(xi).Φ(xj)),稱K(xi,xj)函數(shù)為核函數(shù).核函數(shù)將原空間樣本非線性數(shù)據(jù)集轉(zhuǎn)換到高維特征空間H中的線性數(shù)據(jù)集,使其在高維特征空間H中實現(xiàn)線性可分.本文應用的是(11)式的徑向基函數(shù)(Radical Basis Function, RBF).
(11)
式中σ為帶寬,σ>0.
在利用支持向量機對具有非線性樣本數(shù)據(jù)集進行分類模型的構(gòu)建時,確定(C,σ)這兩個關鍵參數(shù)對于提高模型分類的準確性和泛化能力具有重要的作用.
本文采用網(wǎng)格搜索尋優(yōu)法來確定最優(yōu)的(C,σ)參數(shù).網(wǎng)格搜索法是將C和σ分別取M個值和N個值,對M×N個(C,σ)的組合分別進行訓練.對于每一組(C,σ)參數(shù),將樣本數(shù)據(jù)集分為K份,其中K-1份作為訓練集,另一份作為測試集,并將K次的平均交叉驗證識別率作為該組(C,σ)參數(shù)的學習精度.掃描M×N個(C,σ)參數(shù),選取學習精度最高的一組為構(gòu)建分類模型的(C,σ)最優(yōu)參數(shù).
基于上述支持向量機的二分類理論就能解決支持向量機進行樣本數(shù)據(jù)集的多分類問題(茍博和黃賢武,2006).支持向量機進行樣本數(shù)據(jù)集的多分類有多種方法,一對一分類是常用的多分類方法.
所謂的一對一分類法就是在共有B個不同類別訓練集T中找出P=B(B-1)/2個不同類別的兩兩組合,分別用兩兩組合的類別樣本組成兩分類問題訓練集T(i,j),然后用求解兩分類問題的SVM分別求得P個判別函數(shù)fi,j(X).判別時將第K個需要分類判別的特征變量Xi分別代入P個判別函數(shù)fi,j(Xk),若fi,j(Xk)=+1判x為i類,i類獲得一票,否則判為j類,j類獲得一票.分別統(tǒng)計k個類別在P個判別函數(shù)結(jié)果中的得票數(shù),得票數(shù)最多的類別就是最終判定的類別(Moreira and Mayoraz,1998;Cutzu,2003;Debnath et al.,2004),以此達到對樣本數(shù)據(jù)集進行多分類的目的.
為了探索利用多源地球物理場采用支持向量機方法進行地質(zhì)體圈定與巖性識別的應用效果,在多寶山銅(金)礦集區(qū)選擇了長12 km,寬7 km的一長方形重點區(qū)域作為方法探索的試驗區(qū)并開展了高精度重力及三維廣域電磁法勘探,兩者勘探網(wǎng)度均為150 m×150 m,在重點區(qū)外圍還部署了總長度130 km的二維重力、電法剖面.在研究區(qū)內(nèi)共采集重力坐標點5048個、廣域電磁法測量坐標點4614個,獲取了面積性高精度重力及高質(zhì)量的三維電法測量資料,重力總精度為±0.032×10-5mGal,電阻率相對誤差為±3.8%.此外,1∶25000的高精度航磁覆蓋整個礦集區(qū),磁力總精度為±4.3 nT.這些資料的取得不僅為多寶山礦集區(qū)3000 m地質(zhì)結(jié)構(gòu)的基礎研究,而且也為應用多源物理場采用支持向量機探索地質(zhì)體的圈定與巖性識別及進行礦集區(qū)深部地質(zhì)結(jié)構(gòu)研究奠定了可靠的資料基礎(圖3、圖4、表1).
圖3 多寶山礦集區(qū)高精度重力勘探測點分布圖Fig.3 Distribution map of high precision gravity prospecting points in Duobaoshan ore concentration area
圖4 多寶山礦集區(qū)廣域電磁法勘探測點分布圖Fig.4 Distribution map of WFEM (Wide Field Electromagnetic Method) prospecting points in Duobaoshan ore concentration area
表1 礦集區(qū)重磁電資料采集工作量統(tǒng)計表Table 1 Statistical table of gravity,magnetism and electricity data collection workload in ore concentration area
為了更全面、系統(tǒng)的分析和研究地層巖石的物性特征及變化規(guī)律,以便認識重磁電異常的成因及對重磁電異常進行綜合地質(zhì)解釋,依據(jù)區(qū)域地質(zhì)圖,在基本涵蓋了多寶山地區(qū)地層及不同巖性侵入體的100處露頭共采集物性樣本974塊.為了解巖(礦)石隨深度的變化特征,在礦集區(qū)已鉆探井中,選取了鉆井深度較大、鉆遇地層及礦石種類較多、具有代表性的6口鉆井,采集了包括含礦巖石的260塊巖心樣本進行了密度、磁化率、電阻率測定.對測定結(jié)果進行了分組統(tǒng)計分析,獲得符合正態(tài)分布的特征值作為巖石樣本的物性測定值,依據(jù)測定分析結(jié)果對物性按巖性、時代、礦化等分別進行了統(tǒng)計分析.將多寶山礦集區(qū)的巖石物性按地層組與巖體分別繪制了密度、磁化率、電阻率區(qū)間分布圖(圖5、圖6),從圖5、圖6可以清楚地看到,同一地層或巖體的巖石物性數(shù)值具有較大的分布區(qū)間,各不同的地層組或巖體之間的物性呈現(xiàn)明顯的交疊現(xiàn)象,根據(jù)礦集區(qū)的巖石物性統(tǒng)計結(jié)果總結(jié)了各類地質(zhì)體的巖石物性響應特征(表2).
表2 礦集區(qū)地質(zhì)體物性響應特征Table 2 Characteristics of physical properties response of geological body in ore concentration area
將所取得的礦集區(qū)三維高精度重磁電資料進行了一些必要的預處理工作,在經(jīng)過航磁化極處理及礦坑重力異常效應校正的基礎上,分別對磁力及重力進行了諸如滑動趨勢分析、小波多尺度分解、匹配濾波等多種重磁異常的分離處理工作,得到了反映地下3000 m以淺地質(zhì)體所產(chǎn)生的重磁異常效應,對廣域電磁法資料進行了靜電校正處理.將經(jīng)過預處理的重磁電資料采用確定性非線性共軛梯度重磁電三維物性反演方法完成重磁電資料的三維反演并獲取了反映地下三維地質(zhì)體結(jié)構(gòu)特征、用于開展支持向量機進行地質(zhì)體分類的物性三體(圖7).
圖5 礦集區(qū)地層物性分布圖Fig.5 Physical distribution map of formation in ore concentration area
圖6 礦集區(qū)巖體物性分布圖Fig.6 Physical distribution map of rock mass in ore concentration area
圖7 多源地球物理數(shù)據(jù)三維網(wǎng)柵圖(a) 三維反演密度數(shù)據(jù)體; (b) 三維反演磁化率數(shù)據(jù)體; (c) 三維反演電阻率數(shù)據(jù)體.Fig.7 3D grid diagram of multi-source geophysical data(a) 3D inversion density data volume; (b) 3D inversion susceptibility data volume; (c) 3D inversion resistivity data volume.
試驗樣本是模型建立與效果檢驗的基礎,獲取具有代表性的樣本對于利用支持向量機應用物性三體進行地質(zhì)體的圈定與巖性識別結(jié)果的合理性具有重要的意義.為了獲取優(yōu)質(zhì)的訓練樣本,收集了多寶山礦集區(qū)內(nèi)的鉆孔巖心、勘探線地質(zhì)剖面以及淺層地質(zhì)模型資料.基于所搜集到的地質(zhì)資料及對礦集區(qū)深部地質(zhì)結(jié)構(gòu)、巖體識別、成礦地質(zhì)體規(guī)律研究的目的,將多寶山礦集區(qū)內(nèi)的地層和巖體共劃分為如表2所示9個大類,能夠滿足礦集區(qū)地質(zhì)成果表達對地球物理解釋的需要.
為了解每類地質(zhì)體的多源地球物理參數(shù)響應特征,優(yōu)選了246個能夠代表9大類地質(zhì)體的樣本,并依據(jù)樣本的三維空間坐標通過三維普通克里格插值方法從物性三體中提取了表征樣本所代表地質(zhì)體類別的密度、磁化率及電阻率值(表3).將各大類地質(zhì)體樣本的物性參數(shù)繪制了密度-電阻率、磁化率-電阻率交會圖(圖8).因多寶山組是礦集區(qū)重要的銅(鉬)礦成礦地層,特別利用117個與成礦關系密切的多寶山組樣本繪制了密度-電阻率、磁化率-電阻率交會圖(圖9).從圖8、圖9可以看到,研究區(qū)內(nèi)多期次的巖體,其多源參數(shù)的響應特征具有很強的聚類性和規(guī)律性,可以通過密度、磁化率、電阻率參數(shù)加以區(qū)分.在地層方面,前奧陶系具有“高密度、強磁性、高電阻率”特征,銅山組具有“高密度、弱磁、中等電阻率”特征,與其他地層有明顯區(qū)分的物性差異,特別是與成礦關系密切的多寶山組在物性交會圖上的聚類效果更佳.各地質(zhì)體物性在交會圖上顯著的聚類性,為利用物性三體采用支持向量機進行圈定地質(zhì)體及巖性的判別的綜合地質(zhì)解釋奠定了重要的基礎.需要說明的是:受磁性礦物含量不同的影響,中奧陶世巖體磁性差異較大,本文將其分為磁性偏強和磁性偏弱兩類.
圖8 地層和巖體多參數(shù)交會圖Fig.8 Crossplot of strata and rock mass with multiple parameters
圖9 多寶山組多參數(shù)交會圖Fig.9 Multi-parameter crossplot of Duobaoshan Group
表3 部分訓練樣本的多源參數(shù)值及分類編碼Table 3 Multi-source parameter values and classification coding of part of training samples
4.2.1 多寶山礦集區(qū)支持向量機分類模型的構(gòu)建過程
(1) 樣本參數(shù)的歸一化處理
根據(jù)鉆孔及區(qū)域地質(zhì)資料,優(yōu)選用于構(gòu)建支持向量機模型的樣本,依據(jù)優(yōu)選出樣本的三維坐標物性三體樣本參數(shù),每個樣本包含密度、磁化率、電阻率三個物性參數(shù)及巖石類型分類標志等四個參數(shù)值.由于反映地質(zhì)體物性特征的物性三體參數(shù)的量綱不同,以至于在數(shù)值上存在數(shù)量級上的差異,為了避免在支持向量機模型構(gòu)建及識別過程中數(shù)據(jù)計算量大及消除個別奇點的影響,需要對數(shù)據(jù)進行歸一化處理,以便達到各類輸入數(shù)據(jù)之間的平衡.因此,在獲取了高質(zhì)量的訓練樣本后,對物性三體參數(shù)進行歸一化處理,采用的處理方法為:設訓練樣本數(shù)據(jù)的某一個特征參數(shù)(或密度,或磁化率,或電阻率)集為xp(p=1,2,…,m),定義該特征數(shù)據(jù)的最大值和最小值分別為xmax=max{xp},xmin=min{xp},將xp歸一化到[0,1]區(qū)間的公式為:
(12)
(2)選取核函數(shù)
選取徑向基核函數(shù),將低維空間的特征變量(物性三參數(shù))映射到高維空間.
(3)樣本加權(quán)處理
基于樣本對SVM 分類模型最大分類間隔的貢獻,為進一步改進對分類模型的學習,采用一種自適應樣本加權(quán)方法.通過給樣本賦予不同權(quán)值有利于提高SVM分類器潛在正確分類能力與整體分類性能.對樣本的加權(quán)實際上有兩部分:一是懲罰系數(shù)C;二是為每個樣本通過自適應算法按對分類模型的貢獻賦予不同的權(quán)值.在自適應賦予權(quán)值的算法中,充分考慮了訓練樣本不平衡的情況及分類樣本對訓練模型泛化能力的影響(鄭瑋,2016;曹萬鵬等,2018).
(4)支持向量機分類模型的構(gòu)建
利用優(yōu)選的地質(zhì)體分類樣本構(gòu)建了利用物性三體進行地質(zhì)體圈定及巖性識別的模型.在構(gòu)建模型的過程中,按給定的范圍應用網(wǎng)格搜索方式采用粗-細網(wǎng)格相結(jié)合的方法有規(guī)律的掃描σ與C并精確地確定這兩個參數(shù),以便獲得具有最大泛化能力的訓練模型.圖10、圖11與圖12展示了隨σ與C的變化,識別模型及判別準確率也隨之變化的過程.從參數(shù)尋優(yōu)過程可以看出,隨著徑向基函數(shù)帶寬σ以及懲罰系數(shù)C的改變,交叉檢驗的正確率也隨之有規(guī)律的變化,交叉驗證正確率81.6%的最高值出現(xiàn)在懲罰系數(shù)C較小的一組參數(shù)上[log(C),log(σ)]=[2,6](圖11).根據(jù)不同帶寬σ和懲罰系數(shù)C的組合,提取了交叉檢驗的正確率由低到高的4個預測結(jié)果(圖12),從圖12中的a、b、c、d(交叉驗證正確率分別為36.7%、46.9%、57.1%、77.6%)的順序可以看出,預測結(jié)果細節(jié)逐漸豐富,各類地質(zhì)體邊界逐漸清晰,與每種地質(zhì)體的物性特征匹配程度更高.依據(jù)交叉驗證正確率最高值為81.6%的(C,σ)重新構(gòu)建了用于多寶山礦集區(qū)多源地球物理資料解釋的分類預測模型.
圖10 參數(shù)尋優(yōu)模擬圖Fig.10 Parameter optimization simulation diagram
圖11 尋優(yōu)參數(shù)變化與交叉驗證正確率關系圖Fig.11 The relationship between optimization parameter variation and cross validation accuracy
圖12 尋優(yōu)過程識別模型變化示意圖(a) 尋優(yōu)參數(shù)組合為σ=2-3, C=2-3; (b) 尋優(yōu)參數(shù)組合為σ=2-1, C=2-1; (c) 尋優(yōu)參數(shù)組合為σ=2-2, C=20; (d) 尋優(yōu)參數(shù)組合為σ=25, C=23.Fig.12 Schematic diagram of model change identification during optimization process(a) The optimization parameter combination is σ=2-3, C=2-3; (b) The optimization parameter combination is σ=2-1, C=2-1; (c) The optimization parameter combination is σ=2-2, C=20; (d) The optimization parameter combination is σ=25, C=23.
4.2.2 多寶山礦集區(qū)地質(zhì)體分類預測
根據(jù)所構(gòu)建的用于多寶山礦集區(qū)多源地球物理資料解釋的分類預測模型,對多寶山礦集區(qū)的物性三體進行了地質(zhì)體分類預測,獲得了多寶山礦集區(qū)從地表至海拔-3000 m范圍內(nèi)的三維地質(zhì)體分類結(jié)果(圖13).從地質(zhì)體分類預測結(jié)果三維空間分布圖(圖13)可以看出,中生界及上奧陶統(tǒng)分布在淺部,深部以巖體和前奧陶系為主(圖13a、圖13b),大規(guī)模的巖體主要分布在研究區(qū)的北部及東南部(圖13c),地質(zhì)體圈定與巖性識別的結(jié)果與多寶山礦集區(qū)的地層與巖體分布的區(qū)域地質(zhì)特征是吻合的.
圖13 預測結(jié)果三維空間分布圖(a) 三維立體圖; (b) 三維柵格圖; (c) 三維巖體分布圖.Fig.13 3D spatial distribution of the predicted results(a) 3D stereogram; (b) 3D raster diagram; (c) 3D rock mass distribution diagram.
為了說明利用物性三體采用支持向量機進行地質(zhì)體分類預測的效果,從物性三體與三維預測地質(zhì)模型中切取了密度、磁化率、電阻率及二維地質(zhì)剖面(圖14d),從剖面圖可以看出,剖面地質(zhì)結(jié)構(gòu)分為兩個部分,左側(cè)以地層為主,右側(cè)以巖體為主,剖面淺部散布著中生界與上奧陶統(tǒng),其他地層大致呈層狀展布,巖體則呈團塊狀.除閃長巖外,其余巖體對應的(圖14a、圖14b、圖14c)基本上為低密度、強磁性、高電阻率區(qū)域,與本區(qū)實測的巖體物性特征一致.
圖14 預測結(jié)果二維剖面圖(a) 重力三維反演數(shù)據(jù)體切片; (b) 電法三維反演數(shù)據(jù)體切片; (c) 磁力三維反演數(shù)據(jù)體切片; (d) 預測地質(zhì)體分類切片.Fig.14 2D profile of the predicted results(a) Section of gravity 3D inversion data; (b) Section of electrical 3D inversion data; (c) Section of magnetic 3D inversion data; (d) Prediction of geological body classification sections.
圖15 地質(zhì)體分類預測模型正演場與實測場對比圖(a) 實測重力場經(jīng)處理后得到的布格重力剩余異常場; (b) 地質(zhì)體分類預測模型正演重力場; (c) 實測航空磁力場經(jīng)處理后得到的磁力剩余異常場; (d) 地質(zhì)體分類預測模型正演磁力場.Fig.15 Comparison of forward field and measured field of geological body classification prediction model(a) Bouguer gravity residual abnormal field obtained after the measured gravity field is processed; (b) Forward gravity field derived from the geological body classification prediction model; (c) The residual magnetic anomaly field obtained after the measured airborne magnetic field is processed; (d) Forward magnetic field derived from the geological body classification prediction model.
為了進一步驗證地質(zhì)體分類預測結(jié)果的可靠性,在利用支持向量機得到地質(zhì)體分類預測模型后,對分類地質(zhì)體填充了相應密度與磁化率的平均值并正演了地質(zhì)體預測模型的重力與磁力異常(圖15b、圖15d),從整體上看,圖15b、圖15d和實測的重磁異常(圖15a、圖15c)具有很強的相似性.由于實際分類地質(zhì)體的密度和磁化率在空間上是變化的,因此,實測的重磁異常與正演的預測模型重磁異常必然存在差異.
應用支持向量機對多源地球物理地質(zhì)解釋的可靠性不僅取決于樣本的代表性,還與以下因素有關.
(1)重磁電三維反演結(jié)果對地質(zhì)體的分辨能力,尤其是提高對深層地質(zhì)體的分辨力;
(2)對實際地質(zhì)體巖性鑒別的準確性直接影響已知樣本所代表地質(zhì)體類別的可靠性,原則上同一地區(qū)的同類地質(zhì)體的巖石物性具備統(tǒng)計的聚類性,但由于地質(zhì)體鑒別的不可靠性,在一定程度上直接影響選取樣本的代表性,對預測地質(zhì)體的可靠性帶來影響.
總的來說,通過對多寶山礦集區(qū)多源地球物理資料的地質(zhì)解釋,展示了支持向量機在多源地球物理地質(zhì)解釋中具有以下三點優(yōu)勢.
(1)實現(xiàn)了多種地球物理資料(不局限于重磁電三種)的快速有效的地質(zhì)解釋;
(2)利用在樣本類別約束下所建立的支持向量機智能模型簡化了對存在地質(zhì)體物性交疊資料的地質(zhì)解釋,實現(xiàn)了對地質(zhì)體的圈定與巖性分類;
(3)突破了利用多源地球物理剖面進行人工比對進行三維地質(zhì)解釋的局限,快速實現(xiàn)了多源地球物理資料的三維地質(zhì)解釋.
總之,本次基于多源地球物理數(shù)據(jù)的支持向量機預測得到的地質(zhì)體分類模型具有較高的可靠性,實現(xiàn)了通過多源地球物理場所反演的物性三體,采用支持向量機對地質(zhì)體圈定及巖性識別地球物理資料綜合地質(zhì)解釋的目標,為多源地球物理場的綜合地質(zhì)解釋提供了有效的方法技術手段.
在多寶山礦集區(qū),通過利用多源地球物理資料,采用支持向量機方法對地質(zhì)體圈定與巖性識別所取得較好的應用效果,得出以下結(jié)論:
(1)巖石物性參數(shù)的交疊現(xiàn)象及地球物理資料反演的物性參數(shù)的連續(xù)性及非唯一性是引起地質(zhì)解釋成果不可靠的重要因素.
(2)地質(zhì)體鑒別的可靠性及準確分類與同類地質(zhì)體巖石物性的代表性對預測地質(zhì)體的可靠性產(chǎn)生一定的影響,提高重磁電對深層地質(zhì)體的分辨力是另一制約地質(zhì)體預測可靠性的因素.
(3)機器學習是多源地球物理大數(shù)據(jù)地質(zhì)解釋的有效技術手段,也是未來多源地球物理數(shù)據(jù)地質(zhì)解釋的發(fā)展趨勢.
(4)在淺部區(qū)域地質(zhì)及鉆井的約束下,選取兼顧深淺地質(zhì)體物性特征具有代表性分類地質(zhì)體的樣本,是決定利用多源地球物理數(shù)據(jù),采用機器學習進行地質(zhì)體圈定與巖性識別應用效果優(yōu)劣的關鍵因素之一.
(5)為提高判別模型的泛化能力,選取合適的核函數(shù)并通過反復訓練模型獲取最優(yōu)參數(shù),足夠數(shù)量的交叉驗證樣本對于避免過擬合,獲得合理的判別模型至關重要.
(6)為利用多源地球物理數(shù)據(jù)所反演的物性數(shù)據(jù)體進行綜合地質(zhì)解釋,機器學習方法開辟了新的途徑,提供了多源地球物理綜合地質(zhì)解釋的新思路,具有廣闊的應用前景.
致謝撰寫本文的過程中得到了中國地質(zhì)調(diào)查局沈陽地質(zhì)調(diào)查中心朱群研究員、楊曉平正高級工程師、邵軍研究員、許逢明博士等人的指導,在此一并致謝.