朱飛燕
(西安航空職業(yè)技術(shù)學(xué)院,陜西 西安 710089)
全球經(jīng)濟(jì)一體化戰(zhàn)略的深入推進(jìn)為我國(guó)工業(yè)發(fā)展帶來(lái)前所未有的機(jī)遇,作為工業(yè)生產(chǎn)的主要原料,金屬礦產(chǎn)資源受到來(lái)自于各領(lǐng)域的密切與廣泛關(guān)注[1]。當(dāng)前,我國(guó)礦產(chǎn)資源短缺,供不應(yīng)求,因此,國(guó)家戰(zhàn)略明確提出要實(shí)施地質(zhì)找礦戰(zhàn)略工程,加強(qiáng)勘察,進(jìn)行金屬礦等重要礦產(chǎn)資源儲(chǔ)備體系的建立,取得地質(zhì)找礦重大突破。然而,面對(duì)國(guó)家地質(zhì)數(shù)據(jù)爆炸式增長(zhǎng)態(tài)勢(shì)的出現(xiàn),我國(guó)金屬礦勘察工作由原來(lái)的淺部、易識(shí)別逐漸轉(zhuǎn)變?yōu)殡[伏、難識(shí)別,從而加大了找礦難度,因此,勘察工作的成功需要依靠新理論、新技術(shù)方法的提高。積極研究新的更有效的金屬礦產(chǎn)資源信息采集與分析方法,有效提高找礦效率。
大數(shù)據(jù)技術(shù)包括對(duì)海量數(shù)據(jù)的獲取、存儲(chǔ)、計(jì)算、分析及可視化技術(shù),是現(xiàn)階段第4范式的主要工具,正引發(fā)地球科學(xué)領(lǐng)域的深刻變革。數(shù)據(jù)的大并非大數(shù)據(jù)的關(guān)鍵,其關(guān)鍵應(yīng)當(dāng)是思維的新,他從數(shù)據(jù)出發(fā),讓數(shù)據(jù)說(shuō)話,以人工智能方法為支持,逐漸讓機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、可視分析等技術(shù)成為必需[2]。怎樣從數(shù)據(jù)抽象出模型,并對(duì)模型進(jìn)行分析。從理論層面看,只要具備代表性足夠的樣本,便可采取數(shù)學(xué)方法確定一個(gè)或一組模型的組合,使其與真實(shí)情況相類似。計(jì)算機(jī)技術(shù)的進(jìn)步、大數(shù)據(jù)的普及使基于大數(shù)據(jù)的模型構(gòu)建與分析得以實(shí)現(xiàn)。以大數(shù)據(jù)的發(fā)現(xiàn)與挖掘?yàn)槿胧贮c(diǎn),進(jìn)行多金屬礦綜合信息找礦模型的建立,并基于大數(shù)據(jù)機(jī)器學(xué)習(xí)完成找礦模型預(yù)測(cè),為礦產(chǎn)資源大數(shù)據(jù)的發(fā)現(xiàn)與挖掘、找礦模型建立與預(yù)測(cè)工作的開(kāi)展提供可借鑒的方法。
圖1為大數(shù)據(jù)的處理流程[3]。從數(shù)據(jù)源處獲取的數(shù)據(jù),在結(jié)構(gòu)上存在結(jié)構(gòu)、半結(jié)構(gòu)、非結(jié)構(gòu)的不同,需采用特殊的方法進(jìn)行相應(yīng)的處理與集成,使其轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)格式,為后期的處理工作提供便利;之后,運(yùn)用恰當(dāng)?shù)臄?shù)據(jù)分析方法處理與分析這些數(shù)據(jù),在可視化技術(shù)支持下將結(jié)果呈現(xiàn)給用戶。
大數(shù)據(jù)之“大”,本就是數(shù)量多、種類復(fù)雜的體現(xiàn),采用多種方法獲取數(shù)據(jù)甚為關(guān)鍵。在大數(shù)據(jù)處理流程中,最基礎(chǔ)的就是數(shù)據(jù)采集,目前較為常用的數(shù)據(jù)采集手段是:傳感器收取、視頻識(shí)別、數(shù)據(jù)檢索分類等。隨著智能手機(jī)、平板電腦等移動(dòng)設(shè)備的普及,越來(lái)越多的移動(dòng)軟件被開(kāi)發(fā)應(yīng)用,社交網(wǎng)絡(luò)不斷擴(kuò)大,在加快信息流通速度的同時(shí)亦提高了數(shù)據(jù)的采集精度。
主要是處理、清洗已采集到的數(shù)據(jù),并對(duì)其進(jìn)行進(jìn)一步的集成與存儲(chǔ)。經(jīng)各種渠道獲取的數(shù)據(jù)種類與結(jié)構(gòu)十分復(fù)雜,需將其轉(zhuǎn)換為單一或便于處理的結(jié)構(gòu),為后期的數(shù)據(jù)分析打基礎(chǔ)。這些數(shù)據(jù)中可能摻雜一些噪音與干擾項(xiàng),故還需對(duì)他們進(jìn)行“去噪”與清洗,確保數(shù)據(jù)可靠性。常用的數(shù)據(jù)清洗去噪方法是進(jìn)行一些數(shù)據(jù)過(guò)濾器的設(shè)計(jì),采用聚類或關(guān)聯(lián)分析等規(guī)則方法過(guò)濾無(wú)用或錯(cuò)誤的離群數(shù)據(jù)。另外,數(shù)據(jù)的集成與存儲(chǔ)亦十分重要,如果隨意放置已整理好的數(shù)據(jù),會(huì)影響其后期的取用。目前常用的數(shù)據(jù)集成與存儲(chǔ)方法為建立專門的數(shù)據(jù)庫(kù),對(duì)類型不同的數(shù)據(jù)信息進(jìn)行類放置,以此減少數(shù)據(jù)查詢與訪問(wèn)時(shí)間,提高提取效率。
圖1 大數(shù)據(jù)處理基本流程
在整個(gè)大數(shù)據(jù)處理流程中,數(shù)據(jù)分析最為核心,可發(fā)現(xiàn)數(shù)據(jù)的價(jià)值所在。傳統(tǒng)數(shù)據(jù)處理分析方法有數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能算法以及統(tǒng)計(jì)分析等,隨著進(jìn)一步的發(fā)展,云計(jì)算技術(shù)得以出現(xiàn),分布式文件系統(tǒng)GFS、分布式數(shù)據(jù)庫(kù)BigTable、批處理技術(shù)MapReduce、開(kāi)源實(shí)現(xiàn)平臺(tái)Hadoop等均以云計(jì)算為依托,共同為大數(shù)據(jù)的處理與分析提供良好手段。
大數(shù)據(jù)分析結(jié)果的解釋與展示是數(shù)據(jù)信息用戶最關(guān)心的內(nèi)容。隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)分析結(jié)果愈發(fā)復(fù)雜,采用傳統(tǒng)數(shù)據(jù)顯示方式已難以對(duì)數(shù)據(jù)分析結(jié)果的輸出需求予以滿足。為了增強(qiáng)數(shù)據(jù)解釋與展示能力,數(shù)據(jù)可視化技術(shù)(基于集合、基于圖標(biāo)、基于圖像、面向像素等技術(shù))得以出現(xiàn)并得到了快速的發(fā)展,他能形象地展示數(shù)據(jù)分析結(jié)果,為用戶理解與接受提供便利。
針對(duì)多金屬礦找礦需求,基于傳統(tǒng)的多金屬礦綜合信息找礦數(shù)據(jù)應(yīng)用,對(duì)大數(shù)據(jù)技術(shù)加以運(yùn)用,進(jìn)行找礦專題信息數(shù)據(jù)的采集與處理,之后,在大數(shù)據(jù)分析與解釋方法的支持下開(kāi)展多金屬礦綜合信息找礦模型的預(yù)測(cè)工作[4],實(shí)現(xiàn)大數(shù)據(jù)相關(guān)技術(shù)在多金屬綜合信息找礦領(lǐng)域的應(yīng)用,圖2為其技術(shù)方法。
圖2 模型構(gòu)建與預(yù)測(cè)技術(shù)方法
1)多金屬礦綜合信息數(shù)據(jù)采集與處理主要通過(guò)爬蟲(chóng)與正則表達(dá)式爬取與抽取公域網(wǎng)數(shù)據(jù),借助Everything.dll方法全盤搜索與獲取局域網(wǎng)絡(luò)內(nèi)的計(jì)算機(jī)本地?cái)?shù)據(jù),之后,按照統(tǒng)一的清洗與存儲(chǔ)標(biāo)準(zhǔn)執(zhí)行對(duì)所采集到的數(shù)據(jù)的處理操作,得到多金屬礦綜合信息找礦專題大數(shù)據(jù)。
2)數(shù)據(jù)分析與解釋是在獲取的研究區(qū)金屬礦綜合信息找礦專題大數(shù)據(jù)基礎(chǔ)之上,與人工選擇確認(rèn)的方式相結(jié)合對(duì)數(shù)據(jù)進(jìn)行整理,系統(tǒng)歸納并總結(jié)傳統(tǒng)的多金屬礦綜合信息找礦模型,得到研究區(qū)的控礦要素,執(zhí)行對(duì)統(tǒng)一找礦模型數(shù)據(jù)庫(kù)的建立操作。之后,采用大數(shù)據(jù)機(jī)器學(xué)習(xí)方法中的支持向量機(jī)算法分析研究區(qū)數(shù)據(jù)模型,完成找礦模型預(yù)測(cè)。進(jìn)一步地,在原數(shù)據(jù)中添加得到驗(yàn)證的找礦模型,將其作為之后機(jī)器學(xué)習(xí)的訓(xùn)練樣本,豐富數(shù)據(jù)—信息—知識(shí)—價(jià)值服務(wù)—再數(shù)據(jù)的大數(shù)據(jù)應(yīng)用鏈。
找礦模型構(gòu)建即以多金屬礦綜合信息大數(shù)據(jù)為基礎(chǔ),進(jìn)行找礦模型及找礦模型數(shù)據(jù)庫(kù)的建立,提供重要數(shù)據(jù)基礎(chǔ)于后期的機(jī)器學(xué)習(xí)。模型構(gòu)建工作主要涉及數(shù)據(jù)整理與模型數(shù)據(jù)庫(kù)建立兩項(xiàng)工作。
1)數(shù)據(jù)整理:①對(duì)典型礦床式命名與抽象總結(jié)式命名兩類模型名稱進(jìn)行整理,出于對(duì)兩者無(wú)法統(tǒng)一的考慮,將模型中的關(guān)鍵詞統(tǒng)一即可;②整理控礦要素,在模型數(shù)量不斷增加的過(guò)程中,同一控礦要素會(huì)重復(fù)出現(xiàn),然而,不同多金屬礦綜合信息數(shù)據(jù)資料中控礦要素文本數(shù)據(jù)并不嚴(yán)格一致,為了使計(jì)算機(jī)可對(duì)控礦要素進(jìn)行準(zhǔn)確的識(shí)別,需確保同一控礦要素文本數(shù)據(jù)的惟一性。
2)模型數(shù)據(jù)庫(kù)建立,在多金屬礦綜合信息大數(shù)據(jù)的機(jī)器學(xué)習(xí)中,應(yīng)進(jìn)行統(tǒng)一的、對(duì)全部金屬礦床成礦模式或礦床式均有適用性的找礦概念模型數(shù)據(jù)結(jié)構(gòu)的建立。受資料來(lái)源不同、資料記載的成礦地質(zhì)條件與礦產(chǎn)勘察程度存在差異等因素的影響,致使在建立找礦模型時(shí),對(duì)其理解與具體操作并不統(tǒng)一,同一名稱屬不同概念、不同名稱又屬同一內(nèi)涵的情況時(shí)常出現(xiàn)于不同資料中。所以需根據(jù)多金屬礦綜合信息大數(shù)據(jù)建立起找礦模型同控礦要素的對(duì)應(yīng)關(guān)系。
運(yùn)用大數(shù)據(jù)機(jī)器學(xué)習(xí)理論進(jìn)行多金屬礦綜合信息找礦模型預(yù)測(cè),即進(jìn)行能夠讓計(jì)算機(jī)自動(dòng)“學(xué)習(xí)”的算法的設(shè)計(jì),使其自動(dòng)分析多金屬礦綜合信息大數(shù)據(jù),從中獲取隱含的內(nèi)在數(shù)據(jù)規(guī)律,利用規(guī)律預(yù)測(cè)未知的多金屬礦數(shù)據(jù)[5]。
1)支持向量機(jī)原理。在機(jī)器學(xué)習(xí)方法中,支持向量機(jī)是一種以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的監(jiān)督分類算法,在模式識(shí)別、圖像分類等諸多領(lǐng)域均有應(yīng)用。支持向量機(jī)從線性可分情況下的最優(yōu)分類面演化而來(lái),目的在于按風(fēng)險(xiǎn)最小化原理進(jìn)行目標(biāo)函數(shù)的構(gòu)造,盡可能區(qū)分兩類模式,亦即得到一個(gè)最優(yōu)分類超平面。圖3所示為其基本思想。
設(shè)樣本集為(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}。在線性可分的條件下,存在一個(gè)能夠?qū)深悩颖就耆珠_(kāi)的超平面w·x+b=0,他是分類距離最大時(shí)的平面,滿足條件yi[(w·x)+b]≥1,i=1,2,…,n,且分類間隔2/‖w‖最大。
圖3 SVM的基本思想
在線性不可分條件下,SVM經(jīng)非線性映射Φ:Ra→H將樣本映射至高維特征空間,采用原空間的函數(shù)進(jìn)行內(nèi)積運(yùn)算,并在這一高維特征空間執(zhí)行線性分析任務(wù)。以泛函理論為依據(jù),只要一種核函數(shù)符合Mercer條件,他便與某一空間中的內(nèi)積相對(duì)應(yīng)。故在最優(yōu)分類上對(duì)適當(dāng)核函數(shù)予以采用便可完成此種線性不可分的分類問(wèn)題。
2)基于支持向量機(jī)的模型預(yù)測(cè)。應(yīng)用R語(yǔ)言包e1071包含的SVM模型進(jìn)行多金屬礦綜合信息找礦模型預(yù)測(cè),需按以下步驟執(zhí)行。
①優(yōu)化SVM參數(shù)。采用網(wǎng)格尋優(yōu)法對(duì)樣本集進(jìn)行參數(shù)優(yōu)化,明確懲罰因子C與核函數(shù)參數(shù)G的搜索范圍,計(jì)算各樣本集SVM模型的最優(yōu)參數(shù)。之后分別選擇線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)以及神經(jīng)網(wǎng)絡(luò)核函數(shù)參與SVM模型的訓(xùn)練,以已知的樣本組合作為測(cè)試集,按照預(yù)測(cè)到的樣本組合個(gè)數(shù)進(jìn)行最優(yōu)模型的選擇。
②評(píng)價(jià)不同樣本集下SVM模型的預(yù)測(cè)效果。作為模型評(píng)價(jià)的一個(gè)重要指標(biāo),分類精度評(píng)價(jià)主要對(duì)測(cè)試樣本中正確分類的個(gè)數(shù)進(jìn)行統(tǒng)計(jì),得到分類誤差矩陣,并對(duì)其他分類的精度判斷參數(shù)進(jìn)行進(jìn)一步計(jì)算。針對(duì)二分類問(wèn)題,給出一個(gè)分類器與訓(xùn)練樣本集,前者將后者映射至預(yù)測(cè)類別,這時(shí)可能的輸出包括4類,可通過(guò)混淆矩陣來(lái)表示,如表1所示。
表1 混淆矩陣
表1中的主對(duì)角線給出了每一類正確分類的樣本個(gè)數(shù),非對(duì)角線上的元素表示的則是沒(méi)有被正確分類的樣本個(gè)數(shù)。以該矩陣為基礎(chǔ)對(duì)模型進(jìn)行預(yù)測(cè)的參數(shù)包括以下幾類:敏感性=TP/(TP+FN);特異性=TN/(FP+TN);總體精度=(TP+TN)/(TP+FP+FN+TN);誤分類率=(FP+FN)/(TP+FP+FN+TN);假正率=FP/(FP+TN);假負(fù)率=FN/(TP+FN)。
③預(yù)測(cè)制圖。選擇具有代表性的樣本集作為訓(xùn)練樣本,利用SVM回歸方法得到各統(tǒng)計(jì)單元的預(yù)測(cè)概率,進(jìn)行預(yù)測(cè)概率與累計(jì)面積變化曲線的繪制。根據(jù)研究區(qū)域面積的10%、50%與80%分級(jí)預(yù)測(cè)概率,一、二、三級(jí)分別與高、中、低潛力區(qū)對(duì)應(yīng),高與中潛力區(qū)即成礦有利區(qū)。
以內(nèi)蒙古浩布高地區(qū)為例進(jìn)行分析,主要流程含數(shù)據(jù)采集、控礦要素選取、機(jī)器學(xué)習(xí)、模型計(jì)算以及找礦模型輸出。區(qū)域內(nèi)礦床以高鉛鋅多金屬礦床為主,有多處已知多金屬礦點(diǎn)。
基于成礦帶范圍內(nèi)資料解釋,以金屬礦的控礦條件、礦化現(xiàn)象為目標(biāo),建立起各類信息的系統(tǒng)關(guān)聯(lián)性,對(duì)他們之間的相關(guān)關(guān)系進(jìn)行探討[6],建立內(nèi)蒙古浩布高成礦帶的金屬礦綜合信息找礦模型。主要控礦要素包括:①控礦構(gòu)造:以北東向斷裂構(gòu)造為主,礦體的賦存位置在構(gòu)造的疊加復(fù)合處;②含礦地層:二疊系中通大石寨組;③控礦巖體:燕山晚期花崗巖;④接觸帶:燕山晚期花崗巖與二疊系中通大石寨組地層接觸帶;⑤圍巖蝕變:主要是綠泥石化、螢石化等矽卡巖化蝕變;⑥物探:航磁異常在整體上呈低緩之勢(shì),礦化區(qū)以低緩正磁異常為主;⑦區(qū)域化探:水系沉積物Ag、Pb、Zn異??傮w上呈現(xiàn)出北東向展布,有較高吻合度,另外,還有As、Sb、Sn、W等元素異常。
基于GIS進(jìn)行綜合信息找礦專題數(shù)據(jù)庫(kù)的建立,該數(shù)據(jù)庫(kù)包含的數(shù)據(jù)有:①地層、巖漿巖、構(gòu)造、巖脈、蝕變等基礎(chǔ)地質(zhì);②重力異常與航磁異常的物探數(shù)據(jù);③Ag、Pb、Zn與相關(guān)元素地區(qū)化學(xué)異常的化探數(shù)據(jù);④已知礦床與多金屬礦化點(diǎn)等信息標(biāo)志。
根據(jù)已明確的控礦要素與模型數(shù)據(jù)庫(kù),按照100 m×100 m的網(wǎng)格單元對(duì)研究區(qū)進(jìn)行劃分,一個(gè)統(tǒng)計(jì)單元中包含的已知礦點(diǎn)數(shù)量最大為1,對(duì)各單元中10種控礦要素進(jìn)行統(tǒng)計(jì)。經(jīng)處理,確定20個(gè)訓(xùn)練樣本集。
1)SVM參數(shù)優(yōu)化。采用網(wǎng)格尋優(yōu)法優(yōu)化20個(gè)樣本集,明確C與G的范圍為[2-4,24],得到各樣本集最優(yōu)參數(shù)。將已知的礦組合作為測(cè)試集,明確4種函數(shù)下SVM正確預(yù)測(cè)的已知礦組合個(gè)數(shù)。結(jié)果顯示,徑向基核函數(shù)的適應(yīng)性較好,模型訓(xùn)練統(tǒng)一對(duì)該核函數(shù)予以選用。
2)預(yù)測(cè)效果評(píng)價(jià)。以確定的優(yōu)化參數(shù)C與G為基礎(chǔ),對(duì)徑向基核函數(shù)予以選用,就20個(gè)樣本集作SVM訓(xùn)練,結(jié)合混淆矩陣評(píng)價(jià)分類精度,五五為一組,樣本T1~T5、T6~T10、T11~T15、T16~T20的評(píng)價(jià)分類精度分別為75.03%、81.81%、83.49%、85.08%,標(biāo)準(zhǔn)差分別為3.12%、3.88%、2.68%、2.03%。總體而言,樣本集訓(xùn)練數(shù)量一致,分類精度較為穩(wěn)定。另外,在訓(xùn)練樣本集中樣本個(gè)數(shù)的不斷增加,總體分類精度亦有所上升,意味著訓(xùn)練樣本的個(gè)數(shù)在一定程度上影響模型預(yù)測(cè)效果。
3)多金屬礦預(yù)測(cè)制圖。選擇樣本個(gè)數(shù)最多的T20,利用SVM模型進(jìn)行多金屬礦預(yù)測(cè),結(jié)果顯示研究區(qū)的中東部區(qū)域與西北角區(qū)域?yàn)槌傻V的有利區(qū)域。
分析以大數(shù)據(jù)為基礎(chǔ)的多金屬礦綜合信息找礦模型的構(gòu)建與預(yù)測(cè)方法,明確了多金屬礦綜合信息找礦專題數(shù)據(jù)的自動(dòng)采集與處理、分析與解釋具體方案,是大數(shù)據(jù)技術(shù)在礦產(chǎn)領(lǐng)域的應(yīng)用與實(shí)踐。研究過(guò)程中,提出了多金屬礦綜合信息找礦模型的具體建立思路,并對(duì)大數(shù)據(jù)機(jī)器學(xué)習(xí)算法中的支持向量理念加以應(yīng)用進(jìn)行相應(yīng)的預(yù)測(cè)。模型的基礎(chǔ)是地質(zhì)信息與工作程度,這決定多金屬礦綜合信息找礦模型的建立與預(yù)測(cè)具有階段性。在工作程度不斷提高的進(jìn)程中,信息源與信息量均會(huì)對(duì)模型產(chǎn)生影響,通過(guò)建立此模型,可為今后找礦工作提供一定的理論指導(dǎo)。