李瀚波,葉發(fā)旺,張川,李新春,淦清清
(核工業(yè)北京地質(zhì)研究院 遙感信息與圖像分析技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100029)
近年來(lái),越來(lái)越多的國(guó)內(nèi)外學(xué)者提出運(yùn)用大數(shù)據(jù)的思維方式對(duì)地質(zhì)礦產(chǎn)數(shù)據(jù)進(jìn)行分析,而機(jī)器學(xué)習(xí)技術(shù)逐漸成為其中的核心研究領(lǐng)域之一,也有一些學(xué)者開(kāi)展了基于機(jī)器學(xué)習(xí)的成礦預(yù)測(cè)研究。國(guó)際上,Beucher 等在2013 年將徑向基神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于芬蘭西南部土壤中砷元素污染研究,得到區(qū)域內(nèi)砷元素污染概率圖[1]。Geranian 等在2015 年利用支持向量機(jī)、AdaBoost、隨機(jī)森林3 種機(jī)器學(xué)習(xí)算法開(kāi)展伊朗的Kerman 地區(qū)多元地球化學(xué)異常信息提?。?]。Carranza 和Laborte 在2015 年運(yùn)用隨機(jī)森林算法開(kāi)展了菲律賓Baguio 地區(qū)金礦成礦預(yù)測(cè)[3]。
近年來(lái),越來(lái)越多的學(xué)者提出運(yùn)用大數(shù)據(jù)的思維方式對(duì)已有的數(shù)據(jù)進(jìn)行分析,也有一些學(xué)者開(kāi)展了基于機(jī)器學(xué)習(xí)的成礦預(yù)測(cè)研究。趙鵬大分析了地質(zhì)大數(shù)據(jù)特征,提出數(shù)字地質(zhì)是地球科學(xué)的數(shù)據(jù)科學(xué)[4];肖克炎等分析了在大數(shù)據(jù)思維下的礦產(chǎn)預(yù)測(cè)與評(píng)價(jià)的基本理論和方法[5];王登紅等指出了地質(zhì)大數(shù)據(jù)的特點(diǎn)以及在成礦預(yù)測(cè)中的應(yīng)用[6];周永章提出在地質(zhì)數(shù)據(jù)快速增長(zhǎng)的情況下,開(kāi)展智能數(shù)據(jù)處理方法的必要性,并提出機(jī)器學(xué)習(xí)是人工智能的核心[7]。蔡惠慧等利用一維卷積神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)的人工計(jì)算,通過(guò)對(duì)研究區(qū)金多金屬礦的地球化學(xué)元素及地球物理元素?cái)?shù)據(jù)進(jìn)行訓(xùn)練,劃分出4 類(lèi)成礦遠(yuǎn)景區(qū)[8]。王語(yǔ)、周永章等以已知鉆孔數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,運(yùn)用支持向量機(jī)算法對(duì)模擬結(jié)果中的不同參量進(jìn)行訓(xùn)練學(xué)習(xí),建立相應(yīng)的定量找礦預(yù)測(cè)模型,對(duì)研究區(qū)外圍和深部找礦進(jìn)行預(yù)測(cè)評(píng)價(jià)[9]。
在鈾礦地質(zhì)領(lǐng)域,地質(zhì)、礦產(chǎn)、遙感、地球物理、地球化學(xué)等多個(gè)專(zhuān)業(yè)的工作為鈾資源預(yù)測(cè)提供了大量數(shù)據(jù),在大數(shù)據(jù)時(shí)代背景下也需要鈾礦預(yù)測(cè)的方法有所創(chuàng)新[10]。通過(guò)對(duì)國(guó)內(nèi)外學(xué)者研究成果分析后,筆者認(rèn)為鈾資源樣本集合與機(jī)器學(xué)習(xí)技術(shù)結(jié)合的方式,可能是智能化預(yù)測(cè)應(yīng)用方向。本文針對(duì)所建立的巴音戈壁盆地的塔木素-本巴圖地區(qū)鈾成礦信息樣本集合,開(kāi)展了砂巖型鈾資源神經(jīng)網(wǎng)絡(luò)模型建設(shè)方法研究,建立了砂巖型鈾資源機(jī)器學(xué)習(xí)模型,確定了基于機(jī)器學(xué)習(xí)的鈾成礦有利區(qū)預(yù)測(cè)的主要流程,并對(duì)試驗(yàn)區(qū)進(jìn)行了基于機(jī)器學(xué)習(xí)方法的有利區(qū)預(yù)測(cè)。
機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中研究算法的科學(xué)學(xué)科。簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種根據(jù)已有數(shù)據(jù),基于算法、數(shù)據(jù)訓(xùn)練和構(gòu)建模型,進(jìn)行預(yù)測(cè)的一種方法。其中,神經(jīng)網(wǎng)絡(luò)是諸多機(jī)器學(xué)習(xí)算法中的一種,適用于解決成礦預(yù)測(cè)的問(wèn)題。神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),是高度復(fù)雜的非線(xiàn)性動(dòng)力學(xué)習(xí)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有自組織、自學(xué)和自適應(yīng)能力,非常適合應(yīng)用于需要同時(shí)考慮多種要素和條件的信息處理問(wèn)題。神經(jīng)網(wǎng)絡(luò)技術(shù)現(xiàn)在已經(jīng)廣泛應(yīng)用于人工智能、自動(dòng)控制、機(jī)器人、統(tǒng)計(jì)學(xué)等領(lǐng)域的信息處理中。
成礦有利地段優(yōu)選是研究多種地質(zhì)特征相互關(guān)系的工作,在此基礎(chǔ)上完成成礦預(yù)測(cè)。每種地質(zhì)特征可能都反映某種地質(zhì)現(xiàn)象,但特定的地質(zhì)現(xiàn)象是多種地質(zhì)事件綜合反映后的結(jié)果,因此很難通過(guò)簡(jiǎn)單的線(xiàn)性擬合達(dá)到準(zhǔn)確成礦預(yù)測(cè)的目的。而通過(guò)神經(jīng)網(wǎng)絡(luò)建??梢杂?jì)算各種地質(zhì)特征間的復(fù)雜關(guān)系,從而完成基于機(jī)器學(xué)習(xí)的成礦有利區(qū)判斷與預(yù)測(cè)。
砂巖型鈾礦地質(zhì)找礦過(guò)程積累了大量的地、物、化、遙數(shù)據(jù),這些數(shù)據(jù)從不同方面反映了鈾礦找礦特征,因此將不同類(lèi)型數(shù)據(jù)應(yīng)用于有利區(qū)預(yù)測(cè),是目前地質(zhì)工作的一個(gè)重要問(wèn)題。神經(jīng)網(wǎng)絡(luò)算法能夠通過(guò)大量的歷史數(shù)據(jù),逐步建立和完善輸入變量到輸出結(jié)果之間的發(fā)展路徑,當(dāng)數(shù)據(jù)越多,神經(jīng)網(wǎng)絡(luò)就越接近真實(shí)。神經(jīng)網(wǎng)絡(luò)建立后,就能夠通過(guò)不同的輸入變量值,預(yù)測(cè)輸出結(jié)果。
為實(shí)現(xiàn)數(shù)據(jù)挖掘方法及機(jī)器學(xué)習(xí)預(yù)測(cè)等應(yīng)用,需要將試驗(yàn)區(qū)的地質(zhì)、物探、化探、遙感等與成礦有關(guān)的數(shù)據(jù)與鈾礦化數(shù)據(jù)集合在一起,形成統(tǒng)一的鈾礦數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。在鈾礦預(yù)測(cè)中,由于找礦數(shù)據(jù)類(lèi)型多、差別性大等特點(diǎn),不適合用線(xiàn)性數(shù)學(xué)模型來(lái)表達(dá),神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù)比較適合解決上述問(wèn)題。由此,筆者設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的鈾成礦有利區(qū)建模和預(yù)測(cè)的方案。可簡(jiǎn)單描述為:首先建立鈾資源勘查數(shù)據(jù)樣本集合,使用神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型對(duì)鈾資源勘查樣本集合進(jìn)行訓(xùn)練。具體可使用已知鈾礦化級(jí)別作為神經(jīng)網(wǎng)絡(luò)模型的輸出標(biāo)簽,地質(zhì)、物探、化探、遙感等樣本特征要素作為神經(jīng)網(wǎng)絡(luò)輸入要素,進(jìn)行機(jī)器學(xué)習(xí)和訓(xùn)練,完成神經(jīng)網(wǎng)絡(luò)建模。將預(yù)測(cè)區(qū)的鈾成礦相關(guān)要素輸入模型,判斷該預(yù)測(cè)區(qū)的成礦潛力和前景。
通過(guò)對(duì)鈾成礦有利區(qū)建模和預(yù)測(cè)方案的細(xì)化,確定了基于機(jī)器學(xué)習(xí)的鈾成礦有利區(qū)預(yù)測(cè)的主要流程,具體實(shí)現(xiàn)步驟包括(圖1):
圖1 基于機(jī)器學(xué)習(xí)的砂巖鈾成礦預(yù)測(cè)技術(shù)流程圖Fig.1 Flow chart of sandstone uranium metallogenic prediction technology based on machine learning
1)提取樣本特征變量,建立鈾資源勘查樣本集合。對(duì)樣本特征變量進(jìn)行量化處理,一般來(lái)說(shuō),數(shù)據(jù)樣本的地、物、化、遙特征可以通過(guò)相應(yīng)的成果圖件計(jì)算獲得,樣本標(biāo)簽使用鉆孔或已知鈾礦化的礦化級(jí)別獲得。
2)對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),生成研究區(qū)的鈾成礦預(yù)測(cè)區(qū)優(yōu)選神經(jīng)網(wǎng)絡(luò)模型。即針對(duì)已建立的鈾資源樣本集合,使用神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法對(duì)樣本集合進(jìn)行訓(xùn)練,構(gòu)建模型。
3)預(yù)測(cè)成功率檢驗(yàn)。用部分未參與模型建立的已知數(shù)據(jù)作為輸入向量,用訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行識(shí)別檢測(cè),判斷模型的預(yù)測(cè)成功率。
4)生成待預(yù)測(cè)區(qū)規(guī)則網(wǎng)格預(yù)測(cè)點(diǎn),計(jì)算待預(yù)測(cè)點(diǎn)的特征值。通過(guò)GIS 空間分析功能生成待預(yù)測(cè)區(qū)的規(guī)則預(yù)測(cè)點(diǎn),使用空間距離量算和預(yù)測(cè)點(diǎn)位置特征要素柵格圖層讀取,獲取待預(yù)測(cè)點(diǎn)的特征值。
5)使用機(jī)器學(xué)習(xí)模型計(jì)算規(guī)則待預(yù)測(cè)點(diǎn)的成礦概率值。將待預(yù)測(cè)點(diǎn)輸出的特征表格作為機(jī)器學(xué)習(xí)模型的輸入,進(jìn)行機(jī)器學(xué)習(xí)預(yù)測(cè),得到每一個(gè)規(guī)則預(yù)測(cè)點(diǎn)的鈾成礦概率值。
6)針對(duì)規(guī)則預(yù)測(cè)點(diǎn)成礦概率值特征進(jìn)行插值,獲取研究區(qū)的鈾成礦概率圖,數(shù)據(jù)分割得到鈾成礦概率高值區(qū),可以獲取鈾成礦有利區(qū)。
本次機(jī)器學(xué)習(xí)建模與鈾成礦有利區(qū)預(yù)測(cè)試驗(yàn)選擇在巴音戈壁盆地的塔木素-本巴圖地區(qū)進(jìn)行。首先收集了試驗(yàn)區(qū)的鈾礦化、地質(zhì)、物化探、遙感等數(shù)據(jù)和圖件,梳理了塔木素-本巴圖地區(qū)機(jī)器學(xué)習(xí)建模所使用到的鈾成礦特征,具體包括:找礦目標(biāo)層、富鈾體、目標(biāo)層底板埋深、底板埋深坡度、氧化帶前鋒線(xiàn)、沉積相、遙感解譯的排泄構(gòu)造、航放鈾、航放釷、航放鉀、航放鈾釷比、航磁等,共計(jì)12 個(gè)特征項(xiàng)。
開(kāi)展鈾資源樣本集合建設(shè),需要將數(shù)據(jù)樣本標(biāo)簽與地質(zhì)、物探、遙感特征聯(lián)合在一起。在此之前應(yīng)該首先進(jìn)行數(shù)據(jù)預(yù)處理,包括成礦要素的選擇與整合,空間數(shù)據(jù)要素修正、特征圖層的抽取、文件格式的轉(zhuǎn)換以及各種數(shù)據(jù)的投影變換等。
其中一部分?jǐn)?shù)據(jù)以等值線(xiàn)類(lèi)型為主,比如航放、航磁數(shù)據(jù),這些數(shù)據(jù)可插值為柵格圖,使用GIS 空間分析功能計(jì)算礦化位置處的柵格數(shù)值作為樣本相應(yīng)的特征值,完成與標(biāo)簽數(shù)據(jù)的關(guān)聯(lián)。而以矢量格式存在的數(shù)據(jù),可以通過(guò)計(jì)算各類(lèi)要素與鈾礦化標(biāo)簽的空間距離,完成相關(guān)樣本特征的提取。圖2 為試驗(yàn)區(qū)航放鈾與鈾礦化關(guān)系圖,其中鈾礦化數(shù)據(jù)作為鈾資源樣本集合中的標(biāo)簽數(shù)據(jù),可以通過(guò)計(jì)算鈾礦化所在位置的鈾釷比數(shù)值來(lái)批量獲取標(biāo)簽對(duì)應(yīng)的特征值。
圖2 巴音戈壁盆地塔木素-本巴圖地區(qū)航放鈾與鈾礦化關(guān)系圖Fig.2 Relationship between airborne EU and uranium mineralization in Tamusin-Bembatu area in Bayingebi basin
使用該方法計(jì)算了試驗(yàn)區(qū)中所有樣本的目標(biāo)層底板埋深、底板埋深坡度、氧化帶前鋒線(xiàn)、沉積相、遙感解譯的排泄構(gòu)造、航放鈾、航放釷、航放鉀、航放鈾釷比、航磁等特征要素。將鈾礦化級(jí)別標(biāo)簽信息與以上計(jì)算結(jié)果進(jìn)行整合,獲取了研究區(qū)相應(yīng)的鈾礦化樣本集合(表1)。
表1 試驗(yàn)區(qū)用于機(jī)器學(xué)習(xí)建模的部分示意樣本數(shù)據(jù)Table 1 Part of the sample data used for machine learning modeling in the experimental area
根據(jù)基于機(jī)器學(xué)習(xí)的鈾成礦有利區(qū)預(yù)測(cè)流程,筆者針對(duì)所建立的巴音戈壁盆地塔木素-本巴圖鈾成礦信息樣本集合,開(kāi)展了砂巖型鈾資源神經(jīng)網(wǎng)絡(luò)建模試驗(yàn)。
在神經(jīng)網(wǎng)絡(luò)模型中,使用有礦孔和無(wú)礦孔差異較大的特征參數(shù)作為試驗(yàn)區(qū)樣本集合的輸入層,輸入節(jié)點(diǎn)為11 個(gè),具體包括:找礦目標(biāo)層、目標(biāo)層底板埋深、底板埋深坡度、沉積相、遙感解譯的排泄構(gòu)造、航放鈾、航放釷、航放鉀、航放鈾釷比、航放釷鉀比、航磁等。樣本的礦化級(jí)別作為輸出層,節(jié)點(diǎn)為4 個(gè),具體包括:無(wú)礦鉆孔定量化為0,異常點(diǎn)定量化為1,礦化點(diǎn)定量化為2,工業(yè)孔或礦點(diǎn)定量化為3。
用于神經(jīng)網(wǎng)絡(luò)建模的鈾資源勘查樣本總計(jì)為131 個(gè),使用102 個(gè)樣本作為建模樣本,29個(gè)樣本作為測(cè)試模型精度的樣本。通過(guò)多次試驗(yàn),比較測(cè)試數(shù)據(jù)的分類(lèi)精度,確定了神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖如圖3所示。其中,神經(jīng)網(wǎng)絡(luò)模型中間隱層設(shè)置為1層,其中中間層為10 個(gè)節(jié)點(diǎn),激活函數(shù)選擇雙曲正切函數(shù)。
圖3 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.3 Structure diagram of neural network model
通過(guò)不斷試驗(yàn)和調(diào)整模型,得到了試驗(yàn)區(qū)用于鈾礦預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型,通過(guò)測(cè)試樣本數(shù)據(jù)檢測(cè),該機(jī)器學(xué)習(xí)的總體分類(lèi)準(zhǔn)確率為82.7%。
在建立砂巖型鈾資源機(jī)器學(xué)習(xí)模型后,需要生成預(yù)測(cè)區(qū)的規(guī)則預(yù)測(cè)點(diǎn),通過(guò)計(jì)算待預(yù)測(cè)點(diǎn)的特征值組合,代入機(jī)器學(xué)習(xí)模型進(jìn)行計(jì)算每個(gè)待預(yù)測(cè)點(diǎn)的成礦概率值,通過(guò)插值運(yùn)算完成了二連盆地中部的鈾成礦有利區(qū)預(yù)測(cè)。
首先,通過(guò)GIS 空間分析功能生成試驗(yàn)區(qū)的規(guī)則預(yù)測(cè)點(diǎn),共計(jì)約20 萬(wàn)個(gè)點(diǎn),點(diǎn)距約500 m。使用空間距離量算和預(yù)測(cè)點(diǎn)位置特征要素的柵格值讀取,依次計(jì)算待預(yù)測(cè)點(diǎn)的特征值,這些特征值應(yīng)該和所建立的砂巖型鈾資源機(jī)器學(xué)習(xí)模型輸入值相同。完成特征計(jì)算后,將規(guī)則預(yù)測(cè)點(diǎn)的屬性文件組織成可被神經(jīng)網(wǎng)絡(luò)模型讀取的表格形式。將待預(yù)測(cè)點(diǎn)的特征要素代入鈾資源機(jī)器學(xué)習(xí)模型中,可以計(jì)算每個(gè)預(yù)測(cè)點(diǎn)的成礦概率值。對(duì)經(jīng)過(guò)機(jī)器學(xué)習(xí)模型計(jì)算后的規(guī)則點(diǎn)表格進(jìn)行組織,根據(jù)其表格中的坐標(biāo)值將這些規(guī)則點(diǎn)重新寫(xiě)入到GIS 系統(tǒng)中,并輸出為矢量點(diǎn)格式。根據(jù)克里金空間插值方法,對(duì)規(guī)則點(diǎn)的預(yù)測(cè)值屬性進(jìn)行插值,獲取了巴音戈壁盆地塔木素-本巴圖的砂巖型鈾成礦預(yù)測(cè)規(guī)律分布圖(圖4)。
圖4 巴音戈壁盆地基于機(jī)器學(xué)習(xí)的鈾成礦概率分布圖Fig.4 Probability distribution map of uranium metallization based on machine learning in the Bayingebi basin
從巴音戈壁盆地的預(yù)測(cè)結(jié)果來(lái)看,如圖4 所示,塔木素地區(qū)、本巴圖地區(qū)和路登地區(qū)鈾成礦潛力較高,其中本巴圖和路登地區(qū)航放異常明顯,地質(zhì)和遙感特征與已知的塔木素礦床比較接近,可以作為下一步工作的重點(diǎn)。塔木素礦床附近沿北東走向仍然有成礦潛力,此外,烏力吉到銀根地區(qū)沿北東向也有一定的成礦潛力。
1)通過(guò)試驗(yàn)確定了基于機(jī)器學(xué)習(xí)的鈾成礦有利區(qū)預(yù)測(cè)的主要流程,明確了砂巖型鈾資源機(jī)器學(xué)習(xí)模型建立的方法,所建立的預(yù)測(cè)模型實(shí)現(xiàn)了試驗(yàn)區(qū)的鈾成礦有利區(qū)預(yù)測(cè),對(duì)未參與建模的樣本進(jìn)行測(cè)試,準(zhǔn)確率可達(dá)到80%以上。
2)從巴音戈壁盆地的預(yù)測(cè)結(jié)果分析,本巴圖和路登地區(qū)與已知的塔木素礦床成礦特征和條件比較接近,鈾成礦的潛力較高,沿北東向的烏力吉到銀根地區(qū)也有一定的成礦潛力。