秦飛龍 成和平 成亞麗 周昕悅 胡涵勁
摘要:合理的數(shù)學(xué)地質(zhì)方法模型可以預(yù)測到深部礦產(chǎn)資源富集位置,礦產(chǎn)資源數(shù)據(jù)格式多樣,傳統(tǒng)的方法難以進行有效處理,并且處理方式大多基于單機上進行,處理速度慢。因此,建立大數(shù)據(jù)分布式并行化Hadoop平臺,對實際礦產(chǎn)資源數(shù)據(jù)進行分布式并行化處理,結(jié)果發(fā)現(xiàn)在Hadoop平臺下不僅能夠完成各類數(shù)據(jù)處理,并且處理速度為單機串行算法處理速度的2 400倍,提高了數(shù)據(jù)處理有效率,有利于礦產(chǎn)預(yù)測。
關(guān)鍵詞:Hadoop平臺;并行化;礦產(chǎn)資源;大數(shù)據(jù)
中圖分類號:P628文獻標(biāo)志碼:A
文章編號:2095-5383(2019)04-0050-05
Research on the Parallel Processing of Big Data of
Deep Mineral Resources based on the Hadoop Platform
QIN Feilong, CHEN Heping, CHEN Yali, ZHOU Xinyue, HU Hanjin
(School of Big Data and Artificial Intelligence, Chengdu Technological University, Chengdu 611730, China)
Abstract:The enrichment location of deep mineral resources can be predicted though establishing a reasonable method with mathematical geological method. However, traditional methods are difficult to deal with the data of mineral resources because the formats of it are various. Besides, the processing methods are mostly based on single computer, which results in slow processing speed. Therefore, a big data platform named Hadoop platform which has the distributed and parallel processing functions was established in this paper. At lastly, the platform was used for the actual data of mineral resources, and the results show that the platform not only can process the different types of data, but also the processing speed is 2 400 times faster than the serial algorithm in single-computer. So, the platform can improve the efficiency of data processing, which is advantageous to mineral prediction.
Keywords:Hadoop platform; parallelization; mineral resources; big data
礦產(chǎn)是國家向前發(fā)展的重要能源基礎(chǔ)。然而,隨著人們對礦產(chǎn)資源不斷開采、過度索取,地球表面及淺部礦產(chǎn)將近枯竭,以至人們越來越難以發(fā)現(xiàn)礦產(chǎn)、識別礦產(chǎn)、利用礦產(chǎn),礦產(chǎn)勘探面臨“三難”問題[1]。向地球第二空間(地球表面500 m以下)尋求深部礦產(chǎn)已成為目前找礦的熱點[2]。近年來人們不斷進行深部礦產(chǎn)預(yù)測研究以此誕生了眾多找礦方法,主要集中為地球化學(xué)找礦方法[3-4]、地球物理找礦方法[5-6]、遙感技術(shù)找礦方法[7-8]。這些成果的不斷積累,為我國預(yù)測深部盲礦提供了寶貴經(jīng)驗。然而礦產(chǎn)資源成礦極具復(fù)雜性,應(yīng)用各種方法預(yù)測礦產(chǎn)資源時,依據(jù)的地質(zhì)數(shù)據(jù)量較大,數(shù)據(jù)種類繁多,如非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等[9],難以進行統(tǒng)一處理,即使能處理,處理速度慢,效率也極低[10],從而需要對各類型地質(zhì)數(shù)據(jù)進行分布式并行化處理,基于地質(zhì)大數(shù)據(jù)的高性能并行計算平臺能夠以高擴展性、高容錯性、高效性、高可靠性地完成數(shù)據(jù)的處理和分析,尤其是分布式Hadoop平臺能夠讓用戶輕松架構(gòu)和使用,對不同類型的地質(zhì)大數(shù)據(jù)數(shù)進行高效化,分布式處理、有效解決上述問題[11]。本文以礦產(chǎn)資源數(shù)據(jù)為背景,構(gòu)建礦產(chǎn)資源大數(shù)據(jù)分布式并行化平臺,進行礦產(chǎn)資源數(shù)據(jù)處理。
1 礦產(chǎn)資源大數(shù)據(jù)Hadoop平臺
Hadoop是Aapche公司為大數(shù)處理設(shè)計的一個開源項目,具有分布大數(shù)據(jù)并行式計算,大數(shù)據(jù)分布式存儲(數(shù)據(jù)量為GB~PB)、可擴展性、高效率、高可靠性等特征[12]。目前,有3種模式進行Hadoop平臺搭建:單機模式,偽分布模式以及全分布模式。單機用于調(diào)試MapReduce程序,偽分布模式在單機情況下增加了代碼調(diào)試和HDFS分布存儲,全分布模式則通過集群進行分布式存儲和高性能并行計算。結(jié)合礦產(chǎn)資源數(shù)據(jù)屬性,本文設(shè)計的礦產(chǎn)資源大數(shù)據(jù)Hadoop平臺主要包括應(yīng)用層、處理層、資源層模塊,見圖1,該平臺能支持每秒1 000條數(shù)據(jù)插入,支持億條級數(shù)據(jù)存儲和管理。礦產(chǎn)資源數(shù)據(jù)主要通過MapReduce進行高性能并行化計算,通過HDFS完成分布公式存儲。其中,MapReduce主要有Map和Reduce的兩個階段工作程序,首先將礦產(chǎn)資源數(shù)分解成若干小塊數(shù)據(jù),對各小塊數(shù)據(jù)使用Map處理,再對Map處理的數(shù)據(jù)結(jié)果進行歸并,在此基礎(chǔ)上采用Reduce對歸并后的數(shù)據(jù)進行處理,將所得結(jié)果輸出到相應(yīng)目錄文件中。HDFS利用Master/Slave結(jié)構(gòu)形式進行數(shù)據(jù)控制,它有多個數(shù)據(jù)節(jié)點Data Node和共用名字節(jié)點Name Node組成。名字節(jié)點對數(shù)據(jù)進行統(tǒng)一分配,映射各類數(shù)據(jù)到相應(yīng)的數(shù)據(jù)節(jié)點上,可以進行打開、創(chuàng)建、重命名、刪除文件等工作,數(shù)據(jù)節(jié)點負責(zé)處理數(shù)據(jù)的讀寫請求,定時為名字節(jié)點上報數(shù)據(jù)。
2 算法并行改造
由于礦產(chǎn)資源數(shù)據(jù)處理算法種類較多,因此本文選取主成分算法進行研究[13],其他礦產(chǎn)資源數(shù)據(jù)處理算法作類似處理即可,設(shè)礦產(chǎn)資源原始數(shù)據(jù)X′=(xij)mn,并行化改造步驟如下:
為變量。再將結(jié)果存入文件TF5中進行輸出。從而礦產(chǎn)資源數(shù)據(jù)并行化處理手段為:
1)數(shù)據(jù)準(zhǔn)備,不同類型的地質(zhì)數(shù)據(jù)均可接入;
2)數(shù)據(jù)在Hadoop平臺HDFS下實施分布式處理,客戶端對Name Node發(fā)出數(shù)據(jù)寫入的要求,并將數(shù)據(jù)分解為多個小塊,依次將各小塊數(shù)據(jù)分配到各個數(shù)據(jù)節(jié)點Data Node中;
3)在各個節(jié)點Data Node上,用戶編寫Map數(shù)據(jù)處理算法函數(shù),并確定運行的相關(guān)參數(shù),輸入和輸出的路徑,并將目標(biāo)數(shù)據(jù)分解為大小相等的若干小塊,方便多個Map同時操作,各個Map函數(shù)處理一個節(jié)點Data Node上的數(shù)據(jù)。數(shù)據(jù)的輸入和輸出將存儲在文件系統(tǒng)中;
4)Map函數(shù)對輸入的數(shù)據(jù)
5)客戶端再對HDFS上的Name Node發(fā)起數(shù)據(jù)讀取的請求,從而Name Node將存儲的數(shù)據(jù)信息返回給客戶端,進而讀取Name Node上的數(shù)據(jù),流程詳見圖2。
3 實際數(shù)據(jù)處理
為體現(xiàn)設(shè)計的礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺處理效果,將其進行數(shù)據(jù)處理研究。數(shù)據(jù)來源于湖北省大冶市銅綠山20萬水系數(shù)據(jù),選取其中的Au、Ag、Cu
元素含量進行主成分析研究,主成分可以提取地質(zhì)變量的綜合信息,有利于地質(zhì)評價。通過大數(shù)據(jù)平臺計算得出元素的主成分結(jié)果如表1所示,特征向量見式(3)。
由表1可知,前2個主成分的特征值累計貢獻率為0.90>0.85,從而選取前兩個主成分就能滿足要求。通過式(3)可以評價出第一主成分Ag、Cu
利用分形算法[14-15]結(jié)合Hadoop平臺得出
Au、Ag、Cu 3種元素異常下限值分別4.50、44.73、30.86,從而得出
元素含量異常分帶(見圖3)和第一,二主成分綜合異常分帶(見圖4)。由圖3、圖4可知,第一主成分異常分帶區(qū)域綜合反映了單元素異常含量分帶區(qū)域,第二主成分異常分帶區(qū)域綜合反映了單元素異常含量分帶區(qū)域,與主成分評價結(jié)果吻合,從而設(shè)計的大數(shù)據(jù)礦產(chǎn)數(shù)據(jù)處理平臺具有合理性。
將礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺與單機串行處理時間進行加速比對比分析(加速比指的是大數(shù)據(jù)平臺處理相同數(shù)據(jù)與單機串行處理形同數(shù)據(jù)所用時間比),隨著數(shù)據(jù)量越大,平臺處理速度較串行處理速度越快,當(dāng)數(shù)據(jù)量達到20萬個數(shù)據(jù)時,處理速度為串行的2 400倍,見圖5。
4 結(jié)論
本文以礦產(chǎn)資源數(shù)據(jù)為背景設(shè)計了礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺,具有如下結(jié)論:
1)設(shè)計了深部礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺,并在平臺中將礦產(chǎn)資源處理算法進行并行化改造,具有國內(nèi)先進處理水平;
2)大數(shù)據(jù)平臺對實際礦產(chǎn)資源數(shù)據(jù)能夠進行合理處理,利用分形算法和主成分方法提取的綜合異常區(qū)域與主成分評價結(jié)果完全吻合;
3)大數(shù)據(jù)并行化處理平臺比單機串行處理礦產(chǎn)資源數(shù)據(jù)速度更快,數(shù)據(jù)越大,效率越高,當(dāng)數(shù)據(jù)量達到20萬時,處理速度是單機的2 400倍。
參考文獻:
[1]趙鵬大. 成礦定量預(yù)測與深部找礦[J]. 地學(xué)前緣, 2007, 14(5): 1-10.
[2]秦飛龍. 原生暈地球化學(xué)和巖心高光譜粗糙集耦合建模與深部礦產(chǎn)預(yù)測研究[D]. 成都: 成都理工大學(xué), 2017.
[3]CHENG Q M. Singularity analysis of magmatic flare-ups caused by India-Asia collisions? [J].Journal of? Geochemical Exploration, 2018, 189: 25-31.
[4]QIN F L, LIU B L, GUO K. Using EVT for geological anomaly design and its application in identifying anomalies in mining areas [J]. Mathematical Problems in Engineering, 2016: 1-11.
[5]QIN F L, LIU J, YAN W Y. The improved ICA algorithm and its application in the seismic data denoising [J]. Journal of Chongqing University (English Edition), 2018, 17(4): 162-170.
[6]李玉錄, 邢利娟, 拜占紅, 等. 綜合物探方法在青海省躍進山鐵礦勘查中的應(yīng)用[J]. 物探與化探, 2018, 42(5): 889-895.
[7]劉原麟, 馬嘉翌, 潘蔚. 高光譜巖心掃描數(shù)據(jù)庫及其應(yīng)用軟件的設(shè)計與實現(xiàn)[J]. 鈾礦地質(zhì), 2018, 34(3): 186-192.
[8]盧燕. 高光譜礦物填圖技術(shù)在金屬礦產(chǎn)和油氣勘查中的應(yīng)用研究[D]. 北京: 中國地質(zhì)大學(xué), 2018.
[9]吳永亮, 賈志杰, 陳建平. 基于大數(shù)據(jù)智能的找礦模型構(gòu)建與預(yù)測[J]. 中國礦業(yè), 2017, 26(9): 79-84.
[10]王亮. 地質(zhì)調(diào)查信息化中大數(shù)據(jù)平臺研究[D]. 武漢: 長江大學(xué), 2014.
[11]任曉霞, 喻孟良, 張鳴之, 等. 基于Hadoop分布式系統(tǒng)的地質(zhì)環(huán)境大數(shù)據(jù)框架探討[J]. 中國地質(zhì)災(zāi)害與防治學(xué)報, 2018, 29(1): 130-134,142.
[12]何迪. 基于Hadoop的大數(shù)據(jù)網(wǎng)絡(luò)安全實體識別方法[J]. 電子技術(shù)與軟件工程, 2019(5): 204.
[13]朱家明, 程倩倩, 朱海龍. 基于主成分分析法土地儲備風(fēng)險的定量評估[J]. 成都工業(yè)學(xué)院學(xué)報, 2015, 18(1): 22-25.
[14]秦飛龍, 劉劍, 李琦, 等. 分線性方法C-A在地球化學(xué)異常提取中的研究[J].云南化工, 2018, 45(2): 84-85.
[15]秦飛龍, 王茜. 多種地球化學(xué)異常算法對比研究及其應(yīng)用[J]. 科技展望, 2016, 26(24): 178.
收稿日期:2019-04-20
基金項目:四川省科技廳計劃項目(2019YJ0375);成都工業(yè)學(xué)院博士基金項目(2018RC022);數(shù)學(xué)地質(zhì)四川省重點實驗室開放基金資助項目(scsxdz2018yb03);成都工業(yè)學(xué)院實驗室開放基金項目(2018ZH10)
第一作者簡介:秦飛龍(1983—),男,講師,博士,研究方向:數(shù)學(xué)地質(zhì)。
通信作者簡介:成和平(1964—),男,教授,碩士,研究方向:應(yīng)用數(shù)學(xué),電子郵箱:820948193@qq.com。