国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅(qū)動(dòng)下的礦產(chǎn)預(yù)測(cè)模型構(gòu)建方法研究

2018-09-20 05:24:08朱月琴常力恒
中國(guó)礦業(yè) 2018年9期
關(guān)鍵詞:化探決策樹礦產(chǎn)

聶 虹,朱月琴,常力恒,閆 東

(1.中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083; 2.自然資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037; 3.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037; 4.中國(guó)地質(zhì)大學(xué)(武漢)資源學(xué)院,湖北 武漢 430074; 5.中國(guó)礦業(yè)大學(xué)(北京)地球科學(xué)與測(cè)繪工程學(xué)院,北京 100083)

0 引 言

人類提升對(duì)世界的認(rèn)識(shí)能力的方法就是從現(xiàn)實(shí)世界中發(fā)現(xiàn)規(guī)律,從感性認(rèn)識(shí)上升到理性認(rèn)識(shí)。從自然科學(xué)的角度來(lái)看,人類描述自然規(guī)律的方法是用數(shù)學(xué)公式的方法,將規(guī)律用一個(gè)數(shù)學(xué)公式(或者類似的數(shù)學(xué)工具)表達(dá),這就是所謂的模型(model)或模式(pattern),所謂的數(shù)學(xué)建模就是從大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)量之間關(guān)系并且用數(shù)學(xué)公式的方式體現(xiàn)出來(lái)。建模首先就得有數(shù)據(jù),隨著IT技術(shù)的興起,人類收集了海量的數(shù)據(jù),但傳統(tǒng)的計(jì)算科學(xué)已經(jīng)越來(lái)越難以處理海量的數(shù)據(jù)。為了適應(yīng)數(shù)據(jù)量的飛速膨脹,我們需要一種新的研究工具才能更有效地進(jìn)行科學(xué)計(jì)算,因此,以處理海量數(shù)據(jù)為核心的“第四范式”——數(shù)據(jù)密集型科研應(yīng)運(yùn)而生。這是一個(gè)計(jì)算無(wú)處不在、軟件定義一切、數(shù)據(jù)驅(qū)動(dòng)發(fā)展的新時(shí)代。

大數(shù)據(jù)技術(shù),包括海量數(shù)據(jù)獲取技術(shù),海量數(shù)據(jù)存儲(chǔ)技術(shù),海量數(shù)據(jù)的計(jì)算技術(shù),海量數(shù)據(jù)的分析技術(shù)和數(shù)據(jù)可視化,已成為當(dāng)前第四范式的主要工具。大數(shù)據(jù)正在引發(fā)地球科學(xué)領(lǐng)域異常深刻的革命,大數(shù)據(jù)的關(guān)鍵不在于數(shù)據(jù)的大,而在于思維的新,從數(shù)據(jù)出發(fā),讓數(shù)據(jù)說(shuō)話,依靠人工智能方法,讓機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、可視分析等大數(shù)據(jù)技術(shù)逐步成為必需。大數(shù)據(jù)作為第四科學(xué)范式的研究領(lǐng)域十分寬廣,它將改變地球科學(xué)家的思維方式,從邏輯思維方式轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)的關(guān)聯(lián)思維方式[1]。

如何從數(shù)據(jù)抽象出模型。從理論上講,只要有足夠代表性的樣本(數(shù)據(jù)),就可以運(yùn)用數(shù)學(xué)方法找到一個(gè)或者一組模型的組合使得它非常接近真實(shí)情況。計(jì)算機(jī)技術(shù)的進(jìn)步、大數(shù)據(jù)的普及使得在數(shù)據(jù)驅(qū)動(dòng)下構(gòu)建模型得以實(shí)現(xiàn),對(duì)一個(gè)問(wèn)題暫時(shí)不能用簡(jiǎn)單而準(zhǔn)確的方法解決時(shí),可以根據(jù)以往的歷史數(shù)據(jù),構(gòu)造出近似的模型來(lái)逼近真實(shí)情況,實(shí)際上是用計(jì)算量和數(shù)據(jù)量來(lái)?yè)Q取研究時(shí)間,得到的模型雖然和真實(shí)情況有偏差但是足以指導(dǎo)實(shí)踐。機(jī)器學(xué)習(xí),是人工智能領(lǐng)域的一個(gè)分支,其基本思想是基于數(shù)據(jù)構(gòu)建統(tǒng)計(jì)模型,并利用模型對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè);而深度學(xué)習(xí)基本上是“更深層次”的機(jī)器學(xué)習(xí),運(yùn)用的都是數(shù)據(jù)驅(qū)動(dòng)的思維去構(gòu)建模型。

1 研究方法與模型現(xiàn)狀分析

1.1 數(shù)據(jù)驅(qū)動(dòng)下的模型構(gòu)建方法研究現(xiàn)狀

機(jī)器學(xué)習(xí)可以發(fā)揮出計(jì)算機(jī)在推理和學(xué)習(xí)等方面的能力,實(shí)現(xiàn)自動(dòng)學(xué)習(xí)數(shù)據(jù),從中提取出復(fù)雜的模式,繼而提出智能決策,在金融和醫(yī)學(xué)等領(lǐng)域越來(lái)越受到人們的關(guān)注[2]。

互聯(lián)網(wǎng)金融的興盛,每時(shí)每刻都在產(chǎn)生著海量的各類金融數(shù)據(jù),有效地管理它們并及時(shí)地預(yù)測(cè)與分析發(fā)展其發(fā)展態(tài)勢(shì),更深層次地挖掘出它們背后潛在規(guī)律和內(nèi)在的聯(lián)系,需要將金融數(shù)據(jù)與人工智能、機(jī)器學(xué)習(xí)等緊密地聯(lián)系起來(lái)。金融領(lǐng)域里人工智能和機(jī)器學(xué)習(xí)的應(yīng)用主要以下幾個(gè)部分:面向金融客戶的應(yīng)用、管理層面的應(yīng)用、交易及資產(chǎn)組合管理、監(jiān)管合規(guī)等[3]。金融風(fēng)險(xiǎn)預(yù)測(cè)傳統(tǒng)上依靠經(jīng)驗(yàn)判斷,隨著業(yè)務(wù)量的增大和金融數(shù)據(jù)的日益龐大,傳統(tǒng)的方法已經(jīng)無(wú)能為力,機(jī)器學(xué)習(xí)方法為金融風(fēng)險(xiǎn)預(yù)測(cè)注入了新的動(dòng)力,主要使用的機(jī)器學(xué)習(xí)算法包括人工神經(jīng)網(wǎng)絡(luò)、決策樹、K最近鄰分類算法、貝葉斯網(wǎng)絡(luò)、集成學(xué)習(xí)技術(shù)和支持向量機(jī)等。如:Chen等[4]提出了一種結(jié)合模糊邏輯和人工神經(jīng)網(wǎng)絡(luò)的混合破產(chǎn)預(yù)測(cè)模型,Min等[5]提出的一種基于支持向量機(jī)的破產(chǎn)預(yù)測(cè)模型,Chaudhuri等[6]提出一種基于模糊支持向量機(jī)的破產(chǎn)預(yù)測(cè)模型。Oliveira[7]通過(guò)組合指數(shù)平滑、自回歸積分滑動(dòng)平均模型模型、人工神經(jīng)網(wǎng)絡(luò)模型和支持向量回歸機(jī)來(lái)預(yù)測(cè)金融時(shí)序數(shù)據(jù)。

1.2 數(shù)據(jù)驅(qū)動(dòng)下的礦產(chǎn)預(yù)測(cè)模型研究現(xiàn)狀

礦產(chǎn)預(yù)測(cè)是礦產(chǎn)資源勘查的重要組成,經(jīng)歷了由定性預(yù)測(cè)到定量預(yù)測(cè)的過(guò)程[8](表1),預(yù)測(cè)方法具有復(fù)雜、精細(xì)、多元信息綜合等特點(diǎn)。礦產(chǎn)預(yù)測(cè)的方法可以分為知識(shí)驅(qū)動(dòng)(依據(jù)專家經(jīng)驗(yàn)知識(shí),各類參數(shù)由專家確定)和數(shù)據(jù)驅(qū)動(dòng)[9](對(duì)成礦要素和已知礦點(diǎn)相關(guān)關(guān)系進(jìn)行定量化分析之后,建立數(shù)學(xué)模型)。數(shù)據(jù)驅(qū)動(dòng)的建模方法主要有:證據(jù)權(quán)模型[10-14]、邏輯回歸[15-16]、D-S證據(jù)理論[17-18]、模糊邏輯[19]、人工神經(jīng)網(wǎng)絡(luò)[20-21]、支持向量機(jī)[22-23]和隨機(jī)森林[24-25]等方法應(yīng)用的都很廣泛。

表1 礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià)發(fā)展歷程

近年來(lái),隨著地質(zhì)大數(shù)據(jù)時(shí)代的到來(lái),使得礦產(chǎn)預(yù)測(cè)向定量化、智能化、三維可視化等方向發(fā)展。利用數(shù)據(jù)挖掘等技術(shù),更深層次地識(shí)別和提取出找礦信息,分析礦產(chǎn)資源信息的空間關(guān)聯(lián)性,結(jié)合地質(zhì)、物探、化探、遙感資料,開展綜合信息礦產(chǎn)預(yù)測(cè)工作。

隨著人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的興起,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法在礦產(chǎn)礦產(chǎn)資源評(píng)價(jià)中應(yīng)用的也比較廣泛。如:Brown[26]在礦產(chǎn)資源評(píng)價(jià)中使用了人工神經(jīng)網(wǎng)絡(luò)模型;陰江寧等[27]應(yīng)用Hopfield循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)新疆東天山的銅鎳硫化物礦床進(jìn)行礦產(chǎn)資源評(píng)價(jià);Abedi等[28]在評(píng)價(jià)斑巖銅礦資源中使用了多分類支持向量機(jī);Carranza等[29]在預(yù)測(cè)菲律賓碧瑤地區(qū)金礦資源時(shí)使用了邏輯回歸、證據(jù)權(quán)和隨機(jī)森林三種模型。相較于以前統(tǒng)計(jì)方法,機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì)在于能更好地表現(xiàn)出礦化點(diǎn)和空間要素之間的非線性的復(fù)雜關(guān)系。

但是機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果,仍然受很多不確定因素的影響,比如:模型的優(yōu)化,如何調(diào)整各模型的參數(shù)達(dá)到最優(yōu),使其更加適用于礦產(chǎn)預(yù)測(cè);訓(xùn)練樣本的選擇,訓(xùn)練樣本數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)礦產(chǎn)預(yù)測(cè)也有很大的影響。

本文采用的是決策樹、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)算法來(lái)構(gòu)建礦產(chǎn)預(yù)測(cè)模型,分析三個(gè)模型的性能和評(píng)價(jià)結(jié)果,找出更適合提高礦產(chǎn)預(yù)測(cè)效率的算法模型。

2 數(shù)據(jù)驅(qū)動(dòng)下的礦產(chǎn)預(yù)測(cè)模型構(gòu)建

當(dāng)前的礦產(chǎn)預(yù)測(cè)工作中,應(yīng)用地質(zhì)、物探、化探、遙感等多種綜合信息來(lái)找礦,是當(dāng)下礦產(chǎn)勘查工作發(fā)展的新思路。對(duì)于研究物探、化探資料傳統(tǒng)的方法是找到各種化探和物探異常,再用地質(zhì)理論對(duì)它們進(jìn)行分析和解釋。本文中,改變了傳統(tǒng)的研究思路,將地質(zhì)、物探、化探、遙感數(shù)據(jù)融合起來(lái),將區(qū)域航磁數(shù)據(jù)與化探數(shù)據(jù)統(tǒng)一格式,同時(shí)進(jìn)行計(jì)算處理。運(yùn)用決策樹、支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)構(gòu)建礦產(chǎn)預(yù)測(cè)模型,學(xué)習(xí)區(qū)內(nèi)全部數(shù)據(jù),提取特征,分析預(yù)測(cè)“有礦單元”,即已有礦床(點(diǎn))產(chǎn)出的區(qū)域。具體工作流程如圖1所示。

圖1 建模流程圖

2.1 數(shù)據(jù)預(yù)處理(關(guān)聯(lián)分析)

2.1.1 面向礦產(chǎn)資源信息的空間關(guān)聯(lián)性分析

所謂的關(guān)聯(lián)性分析,即將多源、多類的數(shù)據(jù)綜合起來(lái),探索出數(shù)據(jù)中潛在的相關(guān)關(guān)系和相關(guān)程度,找出數(shù)據(jù)之間的關(guān)聯(lián)性,繼而挖掘出地質(zhì)大數(shù)據(jù)中更深層次的潛在價(jià)值、地質(zhì)要素之間的共生組合規(guī)律等。

礦產(chǎn)資源數(shù)據(jù)具有空間特征、屬性特征、時(shí)間特征等。不同類型的地質(zhì)空間數(shù)據(jù)從某一個(gè)方面反映了地質(zhì)對(duì)象的屬性特征,而對(duì)于空間位置相鄰或相同的數(shù)據(jù),在空間特征上也往往存在著相似性,屬性特征上呈現(xiàn)出一定的空間關(guān)聯(lián)性。因此,可以針對(duì)不同類型的空間數(shù)據(jù),建立數(shù)據(jù)之間基于位置的強(qiáng)關(guān)聯(lián)。將不同專題類型的空間數(shù)據(jù)統(tǒng)一至相同的坐標(biāo)系統(tǒng)下,提取數(shù)據(jù)的空間屬性特征,建立數(shù)據(jù)的空間屬性數(shù)據(jù)庫(kù)。關(guān)聯(lián)性分析則是在空間數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)現(xiàn)和挖掘不同項(xiàng)集之間隱藏的關(guān)聯(lián)關(guān)系。統(tǒng)計(jì)礦床產(chǎn)出位置不同的地質(zhì)現(xiàn)象、地質(zhì)體、地球化學(xué)元素等空間實(shí)體出現(xiàn)的頻數(shù)。將頻數(shù)最高的特征屬性或超過(guò)一定閾值范圍的特征屬性轉(zhuǎn)換為關(guān)聯(lián)規(guī)則[30]。

2.1.2 物化探信息綜合處理

本文是以化探資料為主要信息,結(jié)合地、物、遙資料,開展綜合信息礦產(chǎn)預(yù)測(cè)工作。需要解決兩個(gè)問(wèn)題:一是精準(zhǔn)的異常下限確定——提高原始數(shù)據(jù)精度;二是有效的分幅平差處理——消除系統(tǒng)誤差,提取低緩異常信息。

目前確定異常下限的方法十多種,并且不斷有新方法被提出,不同方法確定的異常下限相差懸殊(達(dá)數(shù)倍)?;劫Y料處理的首要問(wèn)題是準(zhǔn)確確定異常下限。

應(yīng)用分形理論準(zhǔn)確確定了各圖幅、各元素的正異常下限和負(fù)異常上限。

消除各圖幅系統(tǒng)誤差:①分幅定量系數(shù)補(bǔ)償;②分幅相鄰邊沿平均值補(bǔ)償,其共同的問(wèn)題是低緩假異常產(chǎn)生、低緩真異常丟失。本文采取的工作方式是通過(guò)異常下限的準(zhǔn)確確定,以線性擬合方案精確的進(jìn)行分幅平差處理,以確保低緩信息(異常)不被遺漏。

為使物探、化探數(shù)據(jù)能夠同時(shí)進(jìn)行相關(guān)定量處理,選取以化探數(shù)據(jù)坐標(biāo)點(diǎn)為中心,以1 km為直徑范圍內(nèi)平差后航磁數(shù)據(jù)的最大值(ΔTd)和最小值(ΔTx)作為新的航磁參數(shù),如此選擇即考慮到航磁的正、負(fù)異常,同時(shí)兼顧了航磁梯度帶的特征。經(jīng)整理構(gòu)建起全區(qū)樣本——即多個(gè)變量形成的定量處理的數(shù)據(jù)集。

2.2 模型構(gòu)建

選用規(guī)格單元為研究對(duì)象,以物探、化探、遙感數(shù)據(jù)為變量,構(gòu)建起礦產(chǎn)預(yù)測(cè)模型。

2.2.1 標(biāo)記數(shù)據(jù)

在經(jīng)過(guò)物化探信息綜合處理后的數(shù)據(jù)集中每一條記錄對(duì)應(yīng)一個(gè)特定的統(tǒng)計(jì)單元,數(shù)據(jù)取值為0、1。對(duì)于某一找礦證據(jù)或含礦屬性來(lái)說(shuō),1代表單元內(nèi)有礦床(點(diǎn))存在或有找礦證據(jù)存在;0代表無(wú)礦或無(wú)找礦證據(jù)存在[31]。

2.2.2 訓(xùn)練集和測(cè)試集選取

從中選擇一定量的特征數(shù)據(jù)作為訓(xùn)練樣本構(gòu)建算法模型,在總數(shù)據(jù)集中隨機(jī)選取其中一半的數(shù)據(jù),作為訓(xùn)練樣本集進(jìn)行訓(xùn)練,構(gòu)造模型,其余數(shù)據(jù)作為預(yù)測(cè)集,對(duì)訓(xùn)練出的模型進(jìn)行預(yù)測(cè)。

2.2.3 基于決策樹的礦產(chǎn)預(yù)測(cè)模型

決策樹(decision tree),顧名思義,就像一棵樹,是一種特殊的樹形結(jié)構(gòu)。它類似于流程圖的結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的“測(cè)試”,每個(gè)分支表示測(cè)試的結(jié)果,每個(gè)葉節(jié)點(diǎn)表示類標(biāo)簽(在計(jì)算所有屬性之后所采取的決定)。從根到葉的路徑代表分類規(guī)則,從而生成一棵決策樹[32]。進(jìn)行從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說(shuō)就是決策樹。在機(jī)器學(xué)習(xí)中,決策樹是預(yù)測(cè)模型,將預(yù)測(cè)的對(duì)象屬性與對(duì)象值之間建立一種映射關(guān)系。在做數(shù)據(jù)挖掘時(shí),決策樹會(huì)經(jīng)常使用,既可以通過(guò)它來(lái)分析數(shù)據(jù),也可以做預(yù)測(cè)。在做面向礦產(chǎn)預(yù)測(cè)評(píng)價(jià)的機(jī)器學(xué)習(xí)時(shí),決策樹也是用的比較多的一種算法。

2.2.4 基于SVM的礦產(chǎn)預(yù)測(cè)模型

在機(jī)器學(xué)習(xí)中,支持向量機(jī)(support vector machine,SVM)是分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。SVM算法最初是為二值分類問(wèn)題設(shè)計(jì)的,實(shí)現(xiàn)多分類的主要方法是將一個(gè)多分類問(wèn)題轉(zhuǎn)化為多個(gè)二分類問(wèn)題。將給定一組訓(xùn)練樣例,每個(gè)訓(xùn)練樣例標(biāo)記為屬于兩個(gè)類別中的一個(gè)或另一個(gè),通過(guò)這樣的算法延伸,如果有k個(gè)類別的樣本的話,就可以構(gòu)造出了k個(gè)二分類SVM,SVM可被推廣為結(jié)構(gòu)化的支持向量機(jī),推廣后標(biāo)簽空間是結(jié)構(gòu)化的并且可能具有無(wú)限的大小。SVM的優(yōu)勢(shì)體現(xiàn)在可較好地解決小樣本情況下非線性函數(shù)擬合問(wèn)題,并且具有適應(yīng)性強(qiáng)、全局優(yōu)化、訓(xùn)練時(shí)間短、泛化性能好等優(yōu)點(diǎn)。

2.2.5 基于卷積神經(jīng)網(wǎng)絡(luò)的礦產(chǎn)預(yù)測(cè)模型

深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注,它在特征提取和建模上都有著相較于淺層模型顯然的優(yōu)勢(shì)。深度學(xué)習(xí)善于從原始輸入數(shù)據(jù)中挖掘越來(lái)越抽象的特征表示,而這些表示具有良好的泛化能力。它克服了過(guò)去人工智能中被認(rèn)為難以解決的一些問(wèn)題,且隨著訓(xùn)練數(shù)據(jù)集數(shù)量的顯著增長(zhǎng)以及芯片處理能力的劇增,它在目標(biāo)檢測(cè)和計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別和語(yǔ)義分析等領(lǐng)域成效卓然,因此也促進(jìn)了人工智能的發(fā)展。

深度學(xué)習(xí)是包含多級(jí)非線性變換的層級(jí)機(jī)器學(xué)習(xí)方法,深層神經(jīng)網(wǎng)絡(luò)是目前的主要形式,其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺(jué)皮層組織,而卷積神經(jīng)網(wǎng)絡(luò)(CNN)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu)(圖2)。

圖2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

3 實(shí)踐與探索

3.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)來(lái)源為甘肅省北山地區(qū)(含敦煌地塊),將其不同時(shí)期、不同測(cè)區(qū)的10份航空磁測(cè)數(shù)據(jù)資料,3 893 381個(gè)測(cè)量數(shù)據(jù)。其中1∶20萬(wàn)地球化學(xué)水系沉積物測(cè)量圖幅29幅,成圖樣品間距2 km×2 km,樣品數(shù)24 825件,樣本測(cè)試元素39種。區(qū)內(nèi)現(xiàn)已發(fā)現(xiàn)Au礦床(點(diǎn))109個(gè)(中型5個(gè),小型23個(gè),礦點(diǎn)61個(gè),礦化點(diǎn)20個(gè))。

經(jīng)對(duì)全區(qū)不同時(shí)期的物探、化探原始數(shù)據(jù)做分區(qū)、分幅平差處理后,消除原始數(shù)據(jù)因系統(tǒng)誤差對(duì)定量處理結(jié)果產(chǎn)生的影響,不同比例尺航磁測(cè)量數(shù)據(jù)接圖部位的平差后;然后選取以化探數(shù)據(jù)坐標(biāo)點(diǎn)為中心,以1 km為直徑范圍內(nèi)平差后航磁數(shù)據(jù)的最大值和最小值作為新的航磁參數(shù)。將全區(qū)按5 km間距繪制正方形網(wǎng)格,計(jì)算各網(wǎng)格范圍內(nèi)所有樣本39個(gè)化學(xué)元素的均值,選擇航磁數(shù)據(jù)的最大值和最小值(共41個(gè)變量),整理之后便構(gòu)建起全區(qū)24 821個(gè)樣本。其中,2 500個(gè)為已知有礦單元,22 321個(gè)尚未發(fā)現(xiàn)Au礦的單元。

3.2 模型構(gòu)建

處理后的數(shù)據(jù)集24 821條記錄對(duì)應(yīng)一個(gè)特定的統(tǒng)計(jì)單元,數(shù)據(jù)取值為0、1。對(duì)于某一找礦證據(jù)或含礦屬性來(lái)說(shuō),1代表單元內(nèi)有礦床(點(diǎn))存在或有找礦證據(jù)存在;0代表無(wú)礦或無(wú)找礦證據(jù)存在,其中屬性為1的為2 500個(gè),屬性為0的為22 321。

本文中決策樹的構(gòu)造使用的是基于基尼系數(shù)的CART分類樹。①對(duì)于當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)集為D,如果樣本個(gè)數(shù)小于閾值或者沒(méi)有特征,則返回決策子樹,當(dāng)前節(jié)點(diǎn)停止遞歸。②計(jì)算樣本集D的基尼系數(shù),如果基尼系數(shù)小于閾值,則返回決策樹子樹,當(dāng)前節(jié)點(diǎn)停止遞歸。③計(jì)算當(dāng)前節(jié)點(diǎn)現(xiàn)有的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù)。④在計(jì)算出來(lái)的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù)中,選擇基尼系數(shù)最小的特征A和對(duì)應(yīng)的特征值a。根據(jù)這個(gè)最優(yōu)特征和最優(yōu)特征值,把數(shù)據(jù)集劃分成兩部分D1和D2,同時(shí)建立當(dāng)前節(jié)點(diǎn)的左右節(jié)點(diǎn),做節(jié)點(diǎn)的數(shù)據(jù)集D為D1,右節(jié)點(diǎn)的數(shù)據(jù)集D為D2。⑤對(duì)左右的子節(jié)點(diǎn)遞歸的調(diào)用1-4步,生成決策樹。

本文中支持向量機(jī)參數(shù)選擇,懲罰因子C=1.0,本次研究的數(shù)據(jù)中,懲罰因子的變化對(duì)于預(yù)測(cè)結(jié)果的影響不大;核函數(shù)參數(shù)選擇徑向基核函數(shù),表達(dá)式:K(x,z)=exp(γ‖x-z‖2)K(x,z)=exp(γ‖x-z‖2),其中,γ大于0;分類決策參數(shù)decision_function_shape選擇OvO,OvO(one-vs-one)是指每次在所有的T類樣本里面選擇兩類樣本出來(lái),不妨記為T1類和T2類,把所有的輸出為T1和T2的樣本放在一起,把T1作為正例,T2作為負(fù)例,進(jìn)行二元分類,得到模型參數(shù)。我們一共需要T(T-1)/2次分類。

ROC曲線能很容易地查出任意界限值時(shí)的對(duì)性能的識(shí)別能力。ROC曲線越靠近左上角,試驗(yàn)的準(zhǔn)確性就越高。最靠近左上角的ROC曲線的點(diǎn)是錯(cuò)誤最少的最好閾值,其假陽(yáng)性和假陰性的總數(shù)最少(圖3)。

本文中建立的卷積神經(jīng)網(wǎng)絡(luò)模型,設(shè)置32個(gè)濾波器,長(zhǎng)度為3,寬度為3的卷積窗口,通過(guò)大量的實(shí)踐測(cè)試得來(lái)的,這個(gè)大小的卷積核最好用。卷積層數(shù)設(shè)置為4層,因?yàn)閿?shù)據(jù)大小的原因,最終選擇用4層卷積來(lái)實(shí)現(xiàn)。

3.3 分析對(duì)比

從三種模型對(duì)比中,可以看出在有礦點(diǎn)數(shù)據(jù)的預(yù)測(cè)中,決策樹模型更精確,達(dá)到了89%,SVM模型的精確度略低,為83%,CNN模型的精確度相對(duì)偏低,只有55%;在無(wú)礦點(diǎn)預(yù)測(cè)判斷中,SVM模型的精度最好,達(dá)到了100%,CNN模型的精度略低為97%;召回率衡量了分類器對(duì)正例的識(shí)別能力,SVM模型在有礦點(diǎn)預(yù)測(cè)中召回率最高,決策樹模型的在無(wú)礦點(diǎn)預(yù)測(cè)中召回率更高,因此,在本次測(cè)試的數(shù)據(jù)中,CNN模型的精度和召回率偏低,決策樹模型和SVM模型準(zhǔn)確度和召回率更高,更合適這批數(shù)據(jù)的處理(表2)。

圖3 SVM模型的ROC曲線

表2 三個(gè)模型預(yù)測(cè)結(jié)果

模型取值PrecisionRecallF1-scoresupport00.990.990.9922 330決策樹10.890.900.892 491Avg/total0.980.980.982482101.000.980.9922 720SVM10.830.990.902 101Avg/total0.980.980.9824 82100.970.930.9522 321CNN10.550.750.632 500Avg/total0.930.910.9224 821

注:精度(precision)=正確預(yù)測(cè)的個(gè)數(shù)(TP)/被預(yù)測(cè)正確的個(gè)數(shù)(TP+FP);召回率(recall)=正確預(yù)測(cè)的個(gè)數(shù)(TP)/預(yù)測(cè)個(gè)數(shù)(TP+FN);F1=2×精度×召回率/(精度+召回率);Avg/total:各指標(biāo)的加權(quán)平均值。

4 結(jié) 語(yǔ)

本文以甘肅省北山地區(qū)(含敦煌地塊)基于區(qū)域地球化學(xué)信息的物化探綜合信息的Au礦數(shù)據(jù)為例,通過(guò)對(duì)全區(qū)以1 km網(wǎng)格劃分24 821個(gè)格子(研究單元)為樣本數(shù)據(jù)進(jìn)行了基于各類機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法的重新學(xué)習(xí)及分析,其預(yù)測(cè)結(jié)果基本上達(dá)到了預(yù)期結(jié)果。但模型中還有很多需要完善的地方,比如決策樹的剪枝,通過(guò)剪枝能使決策樹對(duì)訓(xùn)練數(shù)據(jù)有很好的分類能力,防止過(guò)擬合現(xiàn)象;針對(duì)當(dāng)前這組訓(xùn)練的數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)模型的效果并不是很理想,可能是數(shù)據(jù)量偏少、樣本單一的原因等。在今后的工作中會(huì)逐步加以改進(jìn),構(gòu)建更合適的礦產(chǎn)預(yù)測(cè)模型。

猜你喜歡
化探決策樹礦產(chǎn)
《礦產(chǎn)綜合利用》征稿啟事
《礦產(chǎn)綜合利用》征稿啟事
西藏?zé)岵鸬V地質(zhì)及物探化探特征
盤點(diǎn)2020國(guó)內(nèi)礦產(chǎn)新發(fā)現(xiàn)(二)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
我國(guó)將24種礦產(chǎn)確定為戰(zhàn)略性礦產(chǎn)
《物探化探計(jì)算技術(shù)》2016年1~6期總要目
基于決策樹的出租車乘客出行目的識(shí)別
盲源分離技術(shù)在化探數(shù)據(jù)處理中的思考與探索
明水县| 军事| 黄大仙区| 深圳市| 青铜峡市| 汉沽区| 蒙阴县| 宝丰县| 太和县| 大荔县| 嘉鱼县| 汉沽区| 新郑市| 三都| 沂水县| 汾阳市| 苍溪县| 秀山| 山东省| 集贤县| 驻马店市| 从江县| 民勤县| 巴林右旗| 平舆县| 平邑县| 荥经县| 彭泽县| 开化县| 临城县| 西充县| 安陆市| 汶川县| 苏尼特左旗| 荆门市| 尼玛县| 岳西县| 江川县| 博乐市| 乐平市| 钟祥市|