葉發(fā)旺,蔡煜琦,李瀚波,邱駿挺,王建剛
(1.核工業(yè)北京地質(zhì)研究院,遙感信息與圖像分析技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室,北京100029;2.核工業(yè)北京地質(zhì)研究院,中核集團(tuán)鈾資源勘查與評價技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京100029)
大數(shù)據(jù)正以一種顛覆性的技術(shù)革命影響著世界各個領(lǐng)域的各行各業(yè)。鈾資源作為國家戰(zhàn)略資源,無論是在地質(zhì)礦產(chǎn)領(lǐng)域還是軍事裝備領(lǐng)域都具有特殊性。以鈾資源勘查為主的核地質(zhì)領(lǐng)域正積極以大數(shù)據(jù)應(yīng)用為契機(jī),開展新一輪的技術(shù)創(chuàng)新,逐步形成大數(shù)據(jù)理念下的鈾資源勘查新技術(shù)方法,以獲得更快、更準(zhǔn)、更具高價值的鈾資源勘查效果。筆者從鈾資源勘查領(lǐng)域的特點(diǎn)出發(fā),對鈾資源勘查大數(shù)據(jù)技術(shù)創(chuàng)新研究與應(yīng)用的框架思路進(jìn)行了探討。
目前國內(nèi)外學(xué)者對大數(shù)據(jù)的定義及特征還沒有統(tǒng)一的認(rèn)識,各行各業(yè)也只是跟隨使用。麥肯錫咨詢公司將大數(shù)據(jù)定義為一種規(guī)模大到在獲取、存儲、管理、處理方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合”[1];美國權(quán)威研究機(jī)構(gòu)Gartner和百度百科將大數(shù)據(jù)定義為 “是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”[2];維基百科對大數(shù)據(jù)的定義是 “所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)截取、管理和處理,并整理成為人類所能解讀的信息”[3];《大數(shù)據(jù)傻瓜書》對大數(shù)據(jù)概念是 “大數(shù)據(jù)并不是一項單獨(dú)的技術(shù),而是新、舊技術(shù)的一種組合”[4]。從上述國際上幾種比較權(quán)威的觀點(diǎn)可以看出,大數(shù)據(jù)的定義中包含了多個層次的內(nèi)涵,即大數(shù)據(jù)首先是巨量數(shù)據(jù),其次是當(dāng)前沒有或還需要研究的新技術(shù),再次是決策。所以,應(yīng)該從數(shù)據(jù)、技術(shù)、應(yīng)用三個層面來全面理解大數(shù)據(jù)的內(nèi)涵。
1.1.1 數(shù)據(jù)層面
是指大數(shù)據(jù)具有明顯的5V特征 (目前說法不一, 但大多傾向于 4V 或 5V 特征)[2,5-6],即大數(shù)據(jù)主要 “大”在體量 (Volume)、多樣(Variety)、 速度(Velocity)、 真實(shí)(Veracity)、 價值(Value)5個方面。與以往的海量數(shù)據(jù)相比,大數(shù)據(jù)不僅強(qiáng)調(diào)數(shù)據(jù)規(guī)模巨大,而且數(shù)據(jù)內(nèi)涵與屬性更廣、類型更多、數(shù)據(jù)采集速度快速、網(wǎng)絡(luò)化、時效性高;數(shù)據(jù)更加真實(shí)客觀而少被人們主觀污染;單個數(shù)據(jù)價值小,但發(fā)現(xiàn)規(guī)律和決策后獲得價值巨大。從上述數(shù)據(jù)層面的特征來看,大數(shù)據(jù)本質(zhì)上還是數(shù)據(jù),是海量數(shù)據(jù)的發(fā)展,是各種類型傳感器和計算機(jī)、網(wǎng)絡(luò)、云技術(shù)、分布式計算與存儲技術(shù)的廣泛應(yīng)用和運(yùn)算能力極速進(jìn)步而產(chǎn)生的概念發(fā)展和取代。
1.1.2 技術(shù)層面
是指從數(shù)據(jù)采集、存貯、管理、處理、挖掘到形成結(jié)果的整個過程中涉及的各種技術(shù)方法統(tǒng)稱大數(shù)據(jù)技術(shù),是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。缺了數(shù)據(jù),技術(shù)發(fā)揮失去了基礎(chǔ);沒有技術(shù),數(shù)據(jù)則難以上升為認(rèn)知與規(guī)律,實(shí)現(xiàn)不了更高的價值。因此,大數(shù)據(jù)技術(shù)是數(shù)據(jù)與技術(shù)的有機(jī)結(jié)合。大數(shù)據(jù)時代,數(shù)據(jù)將與云計算深度結(jié)合,實(shí)現(xiàn)巨量數(shù)據(jù)分布式存貯、分布式數(shù)據(jù)挖掘和智能化處理。當(dāng)前,與大數(shù)據(jù)密切相關(guān)的技術(shù)主要包括:大規(guī)模并行處理、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)等[2]。從戰(zhàn)略角度上說,大數(shù)據(jù)的價值不在于龐大的數(shù)據(jù)信息本身,而在于對數(shù)據(jù)進(jìn)行專業(yè)化處理,完成數(shù)據(jù) “提純”,從而實(shí)現(xiàn)數(shù)據(jù) “增值”。所以,數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)技術(shù)的關(guān)鍵之關(guān)鍵,是與云計算密不可分的分布式的數(shù)據(jù)挖掘技術(shù),必須采用分布式架構(gòu)和依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)等。
1.1.3 應(yīng)用層面
是指大數(shù)據(jù)應(yīng)用,是大數(shù)據(jù)技術(shù)在各行各業(yè)的應(yīng)用過程。其本質(zhì)是對分布式存儲的多源巨量數(shù)據(jù)通過高性能運(yùn)算環(huán)境,采用一定的數(shù)據(jù)分析及挖掘方法,獲取有價值的信息,尤其是預(yù)測信息,最終體現(xiàn)大數(shù)據(jù)價值。大數(shù)據(jù)應(yīng)用涉及數(shù)據(jù)采集—數(shù)據(jù)存貯-數(shù)據(jù)清洗與讀取—數(shù)據(jù)挖掘-高性能計算-發(fā)現(xiàn)規(guī)律-決策等過程,具體表現(xiàn)為:先用軟件處理各種原始數(shù)據(jù),并將得到的信息或知識存儲在計算機(jī)中;然后基于數(shù)據(jù)編寫程序,利用各種高性能計算機(jī)對海量信息進(jìn)行處理和機(jī)智能化(機(jī)器學(xué)習(xí)、人工智能)數(shù)據(jù)挖掘,尋找隱藏在數(shù)據(jù)中的關(guān)聯(lián),從而發(fā)現(xiàn)未知規(guī)律,獲取有價值的情報信息,從而進(jìn)行決策。大數(shù)據(jù)應(yīng)用需要人們以創(chuàng)新方式使用海量數(shù)據(jù),并采用人工智能技術(shù)來處理自然文本和進(jìn)行知識表述。根據(jù)應(yīng)用的不同層次,大數(shù)據(jù)應(yīng)用有互聯(lián)網(wǎng)的大數(shù)據(jù)、政府的大數(shù)據(jù)、企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個應(yīng)用級別[7],從而實(shí)現(xiàn)大數(shù)據(jù)已經(jīng)展現(xiàn)和即將實(shí)現(xiàn)的美好前景與藍(lán)圖。
總之,大數(shù)據(jù)是一場信息技術(shù)革命的新階段,是發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)革命。它不是單純的數(shù)據(jù)概念,而是巨量數(shù)據(jù)與一系新技術(shù)的結(jié)合,是當(dāng)今世界實(shí)現(xiàn)從數(shù)據(jù)—有用信息—預(yù)測的全新思路,是當(dāng)前關(guān)于數(shù)據(jù)如何采集、存貯、管理、如何數(shù)據(jù)挖掘,實(shí)現(xiàn)更高效預(yù)測、獲得更高價值的一整套技術(shù)方案。因此,大數(shù)據(jù)是涵蓋大數(shù)據(jù)特征、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用等技術(shù)內(nèi)涵的全新理念 (將來有可能形成大數(shù)據(jù)理論)。所以,認(rèn)識大數(shù)據(jù)不能簡單地等同于開放數(shù)據(jù),等同于共享數(shù)據(jù);也不能簡單地將大數(shù)據(jù)等同于海量數(shù)據(jù),因?yàn)榇髷?shù)據(jù)不僅數(shù)量上比海量數(shù)據(jù)更大、更復(fù)雜,而且還包含數(shù)據(jù)量不斷增長的狀態(tài)、以及從數(shù)據(jù)中挖掘出有價值信息的各種技術(shù)。
大數(shù)據(jù)理念無不對各行各業(yè)的技術(shù)創(chuàng)新產(chǎn)生重大而深遠(yuǎn)的影響,指導(dǎo)各行各業(yè)突破新算法、新技術(shù),形成新學(xué)科,從而挖掘巨大的新價值,為實(shí)現(xiàn)國家、企業(yè)更高的經(jīng)濟(jì)效益、社會效益、軍事效益提供了新機(jī)遇。2015年國務(wù)院印發(fā)的 《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》提出各行各業(yè)要探索大數(shù)據(jù)應(yīng)用新的模式,圍繞有數(shù)據(jù)、用數(shù)據(jù)、管數(shù)據(jù),開展先行先試,更好地服務(wù)國家大數(shù)據(jù)發(fā)展戰(zhàn)略[8]。鈾資源勘查作為國家安全和經(jīng)濟(jì)發(fā)展過程中有著特殊地位的地質(zhì)礦產(chǎn)勘查領(lǐng)域,需要在大數(shù)據(jù)理念指導(dǎo)下,開展鈾資源勘查技術(shù)創(chuàng)新,逐步形成大數(shù)據(jù)理念下的鈾資源勘查新技術(shù)方法體系,從而實(shí)現(xiàn)更快更好的鈾資源勘查效果和找礦突破,為國家安全戰(zhàn)略和經(jīng)濟(jì)發(fā)展提供重要支持。
鈾資源勘查大數(shù)據(jù)是地質(zhì)大數(shù)據(jù)的重要組成部分,是大數(shù)據(jù)理念與技術(shù)方法在鈾資源勘查領(lǐng)域的具體實(shí)踐與應(yīng)用,是 “經(jīng)過新技術(shù)處理和數(shù)據(jù)挖掘,可在鈾成礦規(guī)律和找礦預(yù)測獲得更強(qiáng)發(fā)現(xiàn)力和決策力的巨量鈾礦地質(zhì)信息資產(chǎn)”。它既具有國內(nèi)外一般大數(shù)據(jù)的特點(diǎn),又具有鈾資源勘查的特色。
鈾資源勘查大數(shù)據(jù)中的數(shù)據(jù)是通過各種鈾礦勘查技術(shù)手段獲取的直接或間接反映鈾成礦信息或鈾成礦過程的各種數(shù)據(jù)。它具有一般大數(shù)據(jù)的4V特征:1)規(guī)模性:鈾資源勘查涉及不同比例尺、不同精度的時空數(shù)據(jù),總量巨大。從前述提及的 “無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理”[3]這一點(diǎn)來說,恐怕是不言而喻的。當(dāng)前,全國鈾成礦單元有4個成礦域,11個成礦省,49個成礦區(qū)帶,共有近300多個鈾礦床,上萬個鈾礦異常點(diǎn)[9]。從鈾資源勘查大數(shù)據(jù)之一的遙感數(shù)據(jù)來看,其數(shù)據(jù)量就很大。一景空間分辨率4 m的國產(chǎn)高分二號多光譜數(shù)據(jù)達(dá)400 Mb、一景空間分辨率為1 m的國產(chǎn)高分全色波段數(shù)據(jù)達(dá)1.5 Gb;一個覆蓋20 km×1.5 km面積的空間分辨率為2.5 m、波段數(shù)為64的航空高光譜數(shù)據(jù)量達(dá)3 Gb。2)多樣性:鈾資源勘查數(shù)據(jù)包括地質(zhì)觀測數(shù)據(jù)、地球信息探測數(shù)據(jù)、實(shí)驗(yàn)測試數(shù)據(jù)等多種類數(shù)據(jù)。具體類型上有:遙感探測數(shù)據(jù)、地球物理測量數(shù)據(jù)、地球化學(xué)測量數(shù)據(jù)、地質(zhì)礦產(chǎn)調(diào)查數(shù)據(jù)、實(shí)驗(yàn)測試數(shù)據(jù)、地質(zhì)鉆探數(shù)據(jù)、地質(zhì)綜合編圖數(shù)據(jù)等。數(shù)據(jù)空間分布上涉及地球地表至地下深部的各個圈層;數(shù)據(jù)結(jié)構(gòu)上,鈾資源勘查大數(shù)據(jù)包括各種格式的矢量和柵格圖件、文檔、照片、視頻數(shù)據(jù)等、以及關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫和對象關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),其中既有大量結(jié)構(gòu)化數(shù)據(jù),也有許多半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如野外露頭描述數(shù)據(jù)、鉆孔巖心描述數(shù)據(jù)和各種地質(zhì)調(diào)查、勘查報告,以及大量地質(zhì)圖件、素描和照片等。3)價值性:鈾資源勘查各種數(shù)據(jù)雖然小而碎、有的單個信息價值低,但通過數(shù)據(jù)分析和數(shù)據(jù)挖掘,可以發(fā)現(xiàn)重要找礦信息,獲得高價值。例如通過對航空高光譜遙感數(shù)據(jù)識別出來的大量礦物填圖信息與礦化信息的綜合分析和數(shù)據(jù)挖掘,可以發(fā)現(xiàn)鈾、金、銅等重要找礦新線索,從而獲得高的經(jīng)濟(jì)價值。4)高速性:鈾資源勘查領(lǐng)域的數(shù)據(jù)采集通過遙感探測、地質(zhì)調(diào)查、物化探測量、鉆探施工、化學(xué)分析、人工記錄等多種技術(shù)手段和科學(xué)探測、實(shí)驗(yàn)測試方法進(jìn)行,具有數(shù)據(jù)采集快速的特點(diǎn)。最突出的是利用衛(wèi)星、航空等探測技術(shù)手段,快速獲取高空間、高光譜分辨率的遙感信息、高精度的航空放射性等地球物理信息等。當(dāng)然,鈾資源勘查大數(shù)據(jù)中,野外實(shí)測的 “實(shí)體” 數(shù)據(jù)(都是原始數(shù)據(jù),不是 “加工”之后的數(shù)據(jù))的比重遠(yuǎn)比網(wǎng)絡(luò)世界中通過各種各樣模型計算出來或自動記錄的數(shù)據(jù)比重更大。這一定程度上與商業(yè)上的大數(shù)據(jù)的高速性有一定的差異,這是由于地質(zhì)工作注重野外實(shí)踐、注重第一手資料采集、以及專業(yè)規(guī)范管理等特點(diǎn)決定的。
除具有上述一般大數(shù)據(jù)的4V特征外,鈾資源勘查大數(shù)據(jù)還具有數(shù)據(jù)密集型的地質(zhì)時空大數(shù)據(jù)特點(diǎn)[10]。具體表現(xiàn)在:1)鈾資源勘查地質(zhì)大數(shù)據(jù)的時空屬性。鈾礦地質(zhì)學(xué)研究的對象與采集的數(shù)據(jù)具有空間屬性,同時更具有特定的時間性,因?yàn)殁櫟V地質(zhì)數(shù)據(jù)都與地質(zhì)年代相關(guān)聯(lián),不同地質(zhì)時代和不同地區(qū)的巖石、地層、礦床等具有不同的分布特征和規(guī)律;2)鈾資源勘查地質(zhì)大數(shù)據(jù)的多源、異構(gòu)、時空性、相關(guān)性、隨機(jī)性、模糊性和非線性等特征。由于鈾礦地質(zhì)對象影響因素眾多,空間特征復(fù)雜,鈾資源勘查大數(shù)據(jù)存在著 “參數(shù)信息不完全、結(jié)構(gòu)信息不完全、關(guān)系信息不完全和演化信息不完全”[11]的狀況,顯示出數(shù)據(jù)隨時空變遷而數(shù)據(jù)特征各異、多類、多維、多量、多尺度、多時態(tài)等特征;3)鈾資源勘查地質(zhì)大數(shù)據(jù)還有因果性與非因果性的特點(diǎn)。此外,從鈾資源勘查大數(shù)據(jù)的技術(shù)特點(diǎn)來看,在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等技術(shù)方法上也與社會生活和商業(yè)活動大數(shù)據(jù)存在顯著差異;在應(yīng)用實(shí)踐方面,鈾資源勘查大數(shù)據(jù)主要是為鈾礦地質(zhì)領(lǐng)域的鈾資源勘查、鈾成礦規(guī)律研究、鈾礦勘查管理與決策、以及其他相關(guān)應(yīng)用服務(wù)。
如前所說,大數(shù)據(jù)是一場信息技術(shù)革命的新階段。它的出現(xiàn)并存在,代表一個信息時代、一種思維方式和技術(shù)模型。這種新思維方式和新技術(shù)模型所處理的數(shù)據(jù)集合 “不是隨機(jī)樣本,而是全體數(shù)據(jù)”,所容許的數(shù)據(jù)品質(zhì) “不是精確性,而是混雜性”,所揭示的數(shù)據(jù)內(nèi)涵 “不一定是因果關(guān)系,而可能是相關(guān)關(guān)系”。這三個特點(diǎn)是長期困擾鈾礦地質(zhì)進(jìn)行成礦預(yù)測、評價、管理、決策等的難題和難點(diǎn)。大數(shù)據(jù)理論、方法和技術(shù)的引進(jìn),對于突破采樣隨機(jī)性和樣品空間狹小、大量良莠難分的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)無法利用,以及可靠的作用機(jī)理、因果關(guān)系和動力學(xué)模型缺乏,僅憑少量觀測數(shù)據(jù)和固有模式進(jìn)行判斷、 預(yù)測等限制, 無疑有極大的好處[10]。所以,大數(shù)據(jù)理念無疑對地質(zhì)礦產(chǎn)領(lǐng)域的技術(shù)創(chuàng)新提供了更加全面的 “樣本”和方法指導(dǎo),將在促進(jìn)鈾礦地質(zhì)技術(shù)進(jìn)步和找礦突破方面產(chǎn)生重要而深遠(yuǎn)的影響。
當(dāng)前,鈾資源勘查領(lǐng)域?qū)r空數(shù)據(jù)的存貯、管理、分析,主要是基于Mapgis、Arcgis等GIS平臺進(jìn)行的。這些GIS平臺多依賴于技術(shù)提供商,無法滿足大數(shù)據(jù)條件下的鈾資源勘查應(yīng)用,需要研究開源大數(shù)據(jù)框架。同時,如前所述,大數(shù)據(jù)技術(shù)是一整套技術(shù)體系,沒有一種體系架構(gòu)能完美解決所有大數(shù)據(jù)問題,需要根據(jù)實(shí)際的應(yīng)用進(jìn)行研究和開發(fā)。因此,在構(gòu)建大數(shù)據(jù)應(yīng)用環(huán)境時,應(yīng)采用開放式體系結(jié)構(gòu)的混合平臺。據(jù)此,為了充分發(fā)揮鈾資源勘查地質(zhì)大數(shù)據(jù)的作用,使其適應(yīng)分布式計算和高性能計算為主的大數(shù)據(jù)環(huán)境,從鈾資源勘查大數(shù)據(jù)的特點(diǎn)出發(fā),結(jié)合一般大數(shù)據(jù)技術(shù)的優(yōu)勢,鈾資源勘查大數(shù)據(jù)技術(shù)研究可采取如下框架思路(圖1):一是借鑒并采用一般大數(shù)據(jù)技術(shù)[10],二是研發(fā)和改進(jìn)適用鈾礦地質(zhì)的專業(yè)大數(shù)據(jù)技術(shù)。下面重點(diǎn)介紹借鑒并采用一般大數(shù)據(jù)技術(shù)來創(chuàng)新研究鈾資源勘查大數(shù)據(jù)技術(shù)的思路。
借鑒并采用的一般大數(shù)據(jù)技術(shù)主要有:大數(shù)據(jù)的存儲管理體系架構(gòu)和分析處理體系架構(gòu),大規(guī)模并行處理、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)等。
2.1.1 Hadoop大數(shù)據(jù)處理軟件框架
Hadoop是當(dāng)前大數(shù)據(jù)應(yīng)用最廣泛的開源分布式文件存儲系統(tǒng)及并行處理框架[12]其最核心模塊包括Hadoop核心模塊、HDFS與MapReduce[13]。 HDFS (Hadoop Distributed File System)是一種高可用、易擴(kuò)展、高性能且容錯性強(qiáng)的分布式文件存儲系統(tǒng),其設(shè)計本質(zhì)上是為了大量的數(shù)據(jù)能夠橫跨成百上千臺機(jī)器,但是你看到的是一個文件系統(tǒng)而不是很多文件,從而為分布式計算存儲提供了底層支持。采用JAVA語言開發(fā),可以部署在多種普通的廉價機(jī)器上,以集群處理數(shù)量積達(dá)到大型主機(jī)處理性能。Hbase是基于HDFS的分布式列簇存儲數(shù)據(jù)庫,適用于處理半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。Hadoop軟件架構(gòu)為大數(shù)據(jù)處理提供了強(qiáng)大的基礎(chǔ)平臺和工具。通過這個平臺和工具,從數(shù)據(jù)采集→數(shù)據(jù)預(yù)處理→數(shù)據(jù)存貯管理→數(shù)據(jù)分析/挖掘→結(jié)果展現(xiàn)的整個大數(shù)據(jù)處理流程的每個環(huán)節(jié)都有相應(yīng)的工具支持(圖 2)[14]。
圖1 鈾資源勘查大數(shù)據(jù)技術(shù)研究框架思路(據(jù)文獻(xiàn)[10]修改)Fig.1 The study framework idea of Big Data technology for uranium resource exploration (Modified after[10])
圖2 大數(shù)據(jù)平臺處理流程(引自文獻(xiàn)[14])Fig.2 Process flowchart of Big Data platform (After [14])
2.1.2 基于一般大數(shù)據(jù)技術(shù)的技術(shù)改造
Hadoop為鈾資源勘查大數(shù)據(jù)技術(shù)研究提供了強(qiáng)大的一般大數(shù)據(jù)技術(shù)支持。以Hadoop一般大數(shù)據(jù)技術(shù)為基礎(chǔ),可以對鈾礦地質(zhì)領(lǐng)域數(shù)據(jù)采集方法、數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)存貯管理方法、數(shù)據(jù)挖掘方法,數(shù)據(jù)可視化方法進(jìn)行改造。改造過程主要是從任務(wù)分解、數(shù)據(jù)分解、以及數(shù)據(jù)流分解角度,改造各種技術(shù),以適當(dāng)大數(shù)據(jù)環(huán)境,形成鈾資源勘查大數(shù)據(jù)技術(shù)。
1)鈾資源勘查數(shù)據(jù)采集方法。包括數(shù)據(jù)收集、遙感探測、物探測量、化探測量、水文調(diào)查、地質(zhì)調(diào)查、鉆孔勘探、以及其他測量。對這些方法,可以在增加批處理功能、自動采集、實(shí)時增加等功能。
2)鈾資源勘查數(shù)據(jù)預(yù)處理方法。主要有數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)解析、數(shù)據(jù)離散等。對這些方法改造,可以增加數(shù)據(jù)自動檢查、批處理、自動數(shù)據(jù)解析處理、自動數(shù)據(jù)離散化處理等。
3)鈾資源勘查數(shù)據(jù)存貯管理。為了保證大數(shù)據(jù)量、不同結(jié)構(gòu)數(shù)據(jù)的存貯和大數(shù)據(jù)讀取、寫入的快速性,數(shù)據(jù)存貯管理需要在大數(shù)據(jù)技術(shù)軟件框架下,利用不同數(shù)據(jù)模型進(jìn)行數(shù)據(jù)存貯管理,以滿足不同應(yīng)用需求。在鈾礦勘查領(lǐng)域,大數(shù)據(jù)類型多樣、數(shù)據(jù)量巨大,不僅涉及結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),而且涉及非結(jié)構(gòu)化數(shù)據(jù),而且非結(jié)構(gòu)化數(shù)據(jù)中還涉及文字、圖件、視頻、模型等。雖然結(jié)構(gòu)化數(shù)據(jù)可依靠關(guān)系型數(shù)據(jù)庫來存貯,但當(dāng)數(shù)據(jù)結(jié)構(gòu)變化太復(fù)雜時,TB級數(shù)據(jù)處理速度緩慢;對于非結(jié)構(gòu)化數(shù)據(jù),雖然文件系統(tǒng)是主流的存儲選擇,但是在存取、索引及元數(shù)據(jù)管理上不是最優(yōu)。NoSQL非關(guān)系型數(shù)據(jù)庫,既能支持靈活的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),又能在大數(shù)據(jù)體量下有更好的可擴(kuò)展性。同時文件系統(tǒng)也得到了發(fā)展,與對象存儲相映生輝,能更好地支持管理與分析。正因?yàn)镹oSQL的技術(shù)優(yōu)勢,才成為了大數(shù)據(jù)條件下數(shù)據(jù)存貯管理的主要技術(shù)之一。當(dāng)前,NoSQL種類很多,但最主要有Hbase、MongoDB、Cassandra等三種[13]。Hbase正是Hadoop大數(shù)據(jù)框架中用于數(shù)據(jù)存貯管理的數(shù)據(jù)庫技術(shù),因此,將Hadoop大數(shù)據(jù)技術(shù)和其他NoSQL非關(guān)系型數(shù)據(jù)庫的緊密結(jié)合,可以更好地滿足鈾礦勘查領(lǐng)域巨量、多樣等數(shù)據(jù)存貯與快速讀寫需要。
4)鈾資源勘查數(shù)據(jù)挖掘技術(shù)。鈾資源勘查大數(shù)據(jù)挖掘技術(shù)是鈾資源勘查大數(shù)據(jù)技術(shù)研究中最重要方面。其內(nèi)涵是:在鈾礦地質(zhì)時空數(shù)據(jù)庫和數(shù)據(jù)倉庫的基礎(chǔ)上,利用統(tǒng)計學(xué)、模式識別、人工智能、集合論、模糊數(shù)學(xué)、云理論、機(jī)器學(xué)習(xí)、可視化等相關(guān)技術(shù)和方法,以及各種相關(guān)信息技術(shù)手段,從海量多類多層次的時空數(shù)據(jù)、屬性數(shù)據(jù)中提取未知的、有用的和可理解的可靠知識,從而揭示出蘊(yùn)含在鈾礦地質(zhì)科學(xué)大數(shù)據(jù)背后的相關(guān)關(guān)系和演化趨勢,實(shí)現(xiàn)新知識的自動或半自動獲取,為鈾資源勘查預(yù)測、發(fā)現(xiàn)和評價提供依據(jù)。當(dāng)前,對可用于地質(zhì)科學(xué)大數(shù)據(jù)挖掘的常用方法主要有基于概率論的數(shù)據(jù)挖掘方法,基于擴(kuò)展集合論的數(shù)據(jù)挖掘方法,基于仿生學(xué)的數(shù)據(jù)挖掘方法,文本數(shù)據(jù)的挖掘方法,以及可視化法等[10]。其中,基于概率論的數(shù)據(jù)挖掘方法是最常用的方法,如回歸分析法、因子分析法、判別分析法、聚類分析法、證據(jù)權(quán)重法、趨勢分析法、時間序列法,以及克立格分析法等。而諸如模糊數(shù)學(xué)、粗糙集理論和云模型等基于擴(kuò)展集合論的數(shù)據(jù)挖掘方法,人工神經(jīng)網(wǎng)絡(luò)法、蟻群算法和演化算法等基于仿生學(xué)的數(shù)據(jù)挖掘方法對復(fù)雜地質(zhì)信息的挖掘很有前景和價值,是需要研究的重要的數(shù)據(jù)挖掘新方法。同時,文本數(shù)據(jù)挖掘方法是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)為對象的挖掘方法,當(dāng)前研究還不多,也是地質(zhì)大數(shù)據(jù)挖掘中非常關(guān)鍵的技術(shù)方法。在 Hadoop框架下的 MapReduce、Pig、 Hive、 Mahout、 Graphx等技術(shù)支持下,對上述地質(zhì)科學(xué)大數(shù)據(jù)中的各種數(shù)據(jù)挖掘方法進(jìn)行改造,可以創(chuàng)新形成鈾資源勘查大數(shù)據(jù)挖掘技術(shù)。
5)鈾資源勘查數(shù)據(jù)可視化。在鈾資源勘查過程中,常常需要對地質(zhì)現(xiàn)象和地質(zhì)過程進(jìn)行分析和地質(zhì)礦產(chǎn)資源預(yù)測評價。在分析和評價過程中,對于大量的不確定因素,要依靠研究人員本身的知識和經(jīng)驗(yàn)進(jìn)行定性理解、定量估算和關(guān)系描述。從數(shù)學(xué)邏輯角度看,這是一種半結(jié)構(gòu)化或不良結(jié)構(gòu)化甚至非結(jié)構(gòu)化問題,而數(shù)據(jù)可視化正是描述、表達(dá)和理解各種半結(jié)構(gòu)化甚至非結(jié)構(gòu)化問題的關(guān)系和模型的最佳方法和手段[10]。因此,數(shù)據(jù)可視化是鈾資源勘查大數(shù)據(jù)技術(shù)研究中的重要研究內(nèi)容。當(dāng)前,地質(zhì)領(lǐng)域,地質(zhì)時空數(shù)據(jù)可視化從應(yīng)用角度可分為表達(dá)三維可視化、分析三維可視化、過程三維可視化、設(shè)計三維可視化和決策三維可視化等五類[15]。鈾資源勘查大數(shù)據(jù)可視化技術(shù),除對表達(dá)三維可視化、分析三維可視化進(jìn)行改造外,要更加重視大數(shù)據(jù)條件下的過程三維可視化、設(shè)計三維可視化和決策三維可視化技術(shù)進(jìn)行研究,為鈾資源勘查大數(shù)據(jù)挖掘提供更多技術(shù)支持。
針對鈾資源勘查大數(shù)據(jù)特點(diǎn)及研究框架思路,鈾資源勘查大數(shù)據(jù)技術(shù)研究的關(guān)鍵問題主要有:
在鈾礦地質(zhì)勘查過程中,獲取數(shù)據(jù)的手段多樣、條件各異。因此,總是存在一些數(shù)據(jù)質(zhì)量參差不齊的情況。如果這些質(zhì)量參差不齊的數(shù)據(jù)統(tǒng)統(tǒng)進(jìn)入數(shù)據(jù)庫或數(shù)據(jù)存貯管理系統(tǒng),將對有用信息造成嚴(yán)重的干擾,從而影響后期數(shù)據(jù)挖掘的效率和精準(zhǔn)度,進(jìn)而影響鈾成礦預(yù)測、鈾成礦規(guī)律等數(shù)據(jù)挖掘結(jié)果的可靠性和價值。因此,數(shù)據(jù)清洗技術(shù)是鈾礦勘查大數(shù)據(jù)技術(shù)研究中最首要關(guān)鍵技術(shù)。這一技術(shù)主要是對各種鈾礦勘查數(shù)據(jù)進(jìn)行清洗,包括消除重復(fù)數(shù)據(jù)、消除噪聲、遺漏數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換、連續(xù)數(shù)據(jù)的離散化、空值的替代、數(shù)據(jù)子集的隨機(jī)抽取等,從而把數(shù)據(jù)處理成適合于數(shù)據(jù)挖掘的形式,并在數(shù)據(jù)選擇的基礎(chǔ)上對挖掘數(shù)據(jù)作進(jìn)一步的約簡處理,以減少內(nèi)存資源和處理時間,使挖掘更有效。
為了研究鈾成礦作用、成礦機(jī)理和成礦預(yù)測,需要對研究區(qū)地上和地下等具有不同時空特點(diǎn)和屬性特點(diǎn)數(shù)據(jù)的一體化采集、存儲、管理和處理,以便從系統(tǒng)的角度,進(jìn)行各種分析;同時,由于地質(zhì)體、地質(zhì)結(jié)構(gòu)和地質(zhì)過程的極端復(fù)雜性、不可見性和數(shù)據(jù)采集的抽樣方式,導(dǎo)致出現(xiàn)前述的 “結(jié)構(gòu)信息不全、關(guān)系信息不全、參數(shù)信息不全、演化信息不全”的狀況,從而需要對地質(zhì)數(shù)據(jù)進(jìn)行三維、動態(tài)的可視化建模,以便形象、直觀地感知地質(zhì)對象并提高認(rèn)知能力和水平。所以,研究和開發(fā)能夠有效支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)一體化、靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)一體化的鈾礦地質(zhì)多屬性、多態(tài)數(shù)據(jù)一體化存貯管理技術(shù),就顯得十分的必要和重要。因?yàn)?,這一存貯管理技術(shù)為實(shí)現(xiàn)地質(zhì)數(shù)據(jù)的三維動態(tài)可視化提供重要支持。
為了實(shí)現(xiàn)鈾礦地質(zhì)大數(shù)據(jù)的高效管理、調(diào)度和應(yīng)用,還需要發(fā)展完善的高效時空索引技術(shù)。但在目前的時空數(shù)據(jù)庫中,通常缺失并行時空索引的一體化與時空索引結(jié)構(gòu)并行化,嚴(yán)重阻礙了大數(shù)據(jù)時代時空數(shù)據(jù)庫中分布式并行緩存機(jī)制、并行預(yù)調(diào)度與調(diào)度機(jī)制、四維時空數(shù)據(jù)快速檢索調(diào)度、大規(guī)模時空分析等一系列瓶頸問題的有效解決。因此,在鈾礦勘查大數(shù)據(jù)技術(shù)研究中,探索研究和開發(fā)時空索引分布式和并行化一體的時空并行分布檢索技術(shù),就顯得十分關(guān)鍵和重要。從技術(shù)上看,國內(nèi)外提出的分布式并行時空索引(DPSI)多層次理論架構(gòu)和基于間隔關(guān)系算子的并行時空索引(IPSI)方法,突破了高維度下樹形索引層次結(jié)構(gòu)的局限性,實(shí)現(xiàn)了主從模式下的分布式并行時空索引(MSDPSI),以及對等模式下的分布式并行時空索引(PPDPSI)。這些成果顯著提升了分布式并行計算環(huán)境下的數(shù)據(jù)并行時空索引性能,能夠?yàn)殁櫟V地質(zhì)大數(shù)據(jù)時空并行分布索引技術(shù)的研究提供重要技術(shù)支持。
鈾成礦預(yù)測是研究鈾資源勘查大數(shù)據(jù)技術(shù)的最重要目標(biāo)。因此,基于鈾資源勘查大數(shù)據(jù)的成礦預(yù)測技術(shù)是重要的關(guān)鍵技術(shù)。國內(nèi)有不少學(xué)者提出了大數(shù)據(jù)下礦產(chǎn)資源預(yù)測思路[16-17]。當(dāng)前的鈾礦預(yù)測方法,無論是定性或定量方法,大多是根據(jù)典型礦床的勘探資料,從成礦規(guī)律研究揭示的因果關(guān)系理論出發(fā),抽提出若干個特征性的 “找礦標(biāo)志”,形成一種 “成因模型”或 “成礦模式”,然后用這種 “模型”進(jìn)行礦床預(yù)測。這種方法一開始是行之有效的。但是,隨著淺表的、易于發(fā)現(xiàn)的礦床陸續(xù)被找到后,這些 “成因模型”的局限性也逐步顯露出來[10]。利用這種 “成因模型”在已知礦床范圍及外圍進(jìn)行就礦找礦是有效的,但在廣闊的未知區(qū)找礦,這種方法有時顯得無從下手。在這種情況下,追求 “相關(guān)關(guān)系”而不是追求 “因果關(guān)系”的礦床統(tǒng)計預(yù)測方法[17]、 多重分析預(yù)測方法[18]又被不少研究者所重視。不同物質(zhì)之間存在著各種各樣的相關(guān)關(guān)系,因果關(guān)系只是相關(guān)關(guān)系中的一種,不是只有因果關(guān)系才重要[19],有時除因果關(guān)系之外的其他相關(guān)關(guān)系也很重要;通過其他相關(guān)關(guān)系的研究和發(fā)現(xiàn)也能產(chǎn)生價值。面對找礦的新領(lǐng)域、新類型和新深度,可用于建模的相關(guān)知識更加有限,為了發(fā)現(xiàn)新的知識,認(rèn)識新的成礦規(guī)律,我們需要使用的是全部的原始記錄數(shù)據(jù),而不是人為抽取的少量特征數(shù)據(jù)。所以,大數(shù)據(jù)應(yīng)用中,因果分析和相關(guān)分析都十分重要[19]。鈾成礦預(yù)測不僅要對 “成因模型”或 “成礦模式”等因果關(guān)系加強(qiáng)創(chuàng)新研究,更要充分吸收模糊數(shù)學(xué)、粗糙集理論、云模型、人工神經(jīng)網(wǎng)絡(luò)法、蟻群算法等數(shù)據(jù)挖掘新方法,從鈾資源勘查取得的原始記錄數(shù)據(jù)出發(fā),創(chuàng)新研究基于相關(guān)分析的鈾資源勘查找礦預(yù)測新技術(shù)。這是鈾礦勘查領(lǐng)域大數(shù)據(jù)技術(shù)研究的關(guān)鍵之關(guān)鍵。
大數(shù)據(jù)的一個重要特點(diǎn)是非結(jié)構(gòu)化數(shù)據(jù)越來越重要。在鈾礦勘查領(lǐng)域,以往的鈾成礦規(guī)律分析和成礦預(yù)測也主要是利用結(jié)構(gòu)化數(shù)據(jù)。對描述性的非結(jié)構(gòu)化數(shù)據(jù),通常只從中提取少量的 “特征參數(shù)”,并由此建立各種認(rèn)知模式進(jìn)行判斷和預(yù)測,非結(jié)構(gòu)化數(shù)據(jù)的利用很不充分。在大數(shù)據(jù)理念下,如何利用以非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)新知識,提取新規(guī)律,為提高鈾資源勘查效果是鈾資源勘查大數(shù)據(jù)技術(shù)研究中非常重要的問題。因此,鈾礦勘查文本數(shù)據(jù)挖掘技術(shù)研究,對鈾資源勘查大數(shù)據(jù)研究非常重要且關(guān)鍵。
鈾礦地質(zhì)數(shù)據(jù)可視化技術(shù)是鈾資源勘查大數(shù)據(jù)應(yīng)用中的重要關(guān)鍵技術(shù)之一。從應(yīng)用角度出發(fā),鈾資源勘查數(shù)據(jù)可視化可分為表達(dá)三維可視化、分析三維可視化、過程三維可視化、設(shè)計三維可視化和決策三維可視化五類[15]。表達(dá)可視化是以圖形或圖像形式在屏幕或其他介質(zhì)上顯示出來,大多數(shù)可視化屬于這種類型;分析可視化是在可視化環(huán)境中進(jìn)行的各種地質(zhì)空間決策分析,是空間決策支持認(rèn)知過程可視化的核心,主要是借助GIS功能開展的,也是鈾礦地質(zhì)勘查中研究較多的可視化;過程可視化是指在體三維環(huán)境中,開展各種地質(zhì)過程的可視化動態(tài)模擬,以及地質(zhì)作用的可視化虛擬仿真,是使三維靜態(tài)地質(zhì)模型轉(zhuǎn)變?yōu)樗木S動態(tài)地質(zhì)模型的關(guān)鍵步驟[15],鈾礦地質(zhì)研究中,可視化虛擬仿真,就是要實(shí)現(xiàn)鈾成礦過程或作用的三維至四維的仿真模擬,這方面研究還很少或剛開始,加強(qiáng)這方面研究,對鈾成礦理論創(chuàng)新具有重要的技術(shù)支持作用;設(shè)計可視化是在體三維可視化環(huán)境中進(jìn)行各種地質(zhì)工程設(shè)計;決策可視化是在體三維乃至四維可視化環(huán)境中,進(jìn)行礦產(chǎn)資源潛力或成礦地質(zhì)條件評價、礦產(chǎn)資源勘查、開發(fā)等多方案比較、選優(yōu)與制定,是鈾資源三維定型、定深、定量預(yù)測的關(guān)鍵技術(shù)??傊挥袑?shí)現(xiàn)了上述各種可視化,才能夠進(jìn)行更好地進(jìn)行鈾資源勘查大數(shù)據(jù)挖掘。因此,需要努力創(chuàng)新研究與攻關(guān)。
鈾資源勘查地質(zhì)云(鈾礦地質(zhì)云)平臺構(gòu)建,是鈾資源勘查大數(shù)據(jù)技術(shù)應(yīng)用的目標(biāo)之一,也是鈾資源勘查領(lǐng)域進(jìn)行大數(shù)據(jù)應(yīng)用的重要支持平臺。它是充分利用地質(zhì)、礦產(chǎn)、地球物理、地球化學(xué)、遙感、水文、環(huán)境、災(zāi)害、地形、地貌等各種地質(zhì)調(diào)查數(shù)據(jù),在研發(fā)的各種大數(shù)據(jù)技術(shù)支持下,通過數(shù)據(jù)采集、數(shù)據(jù)傳輸、信息提取、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等手段,構(gòu)建的基于鈾礦地質(zhì)大數(shù)據(jù)的云平臺。利用這個平臺,實(shí)現(xiàn)從鈾礦地質(zhì)數(shù)據(jù)到信息、信息到知識、知識到智慧的數(shù)據(jù)開發(fā)與信息轉(zhuǎn)換,服務(wù)于鈾資源預(yù)測評價、鈾礦地質(zhì)基礎(chǔ)研究、鈾礦勘查項目管理、鈾礦勘查決策、以及其他需要的應(yīng)用。鈾資源勘查地質(zhì)云平臺的構(gòu)建,使得鈾礦地質(zhì)專業(yè)人才不需太關(guān)注內(nèi)部計算架構(gòu)就能通過瀏覽器或者應(yīng)用程序界面,提交計算任務(wù)或者服務(wù)請求,從而大大增加鈾礦地質(zhì)數(shù)據(jù)的使用效率,使鈾礦地質(zhì)數(shù)據(jù)攜帶的信息在相關(guān)應(yīng)用領(lǐng)域創(chuàng)造更多價值。
在地質(zhì)領(lǐng)域,大數(shù)據(jù)應(yīng)用已開展了一些研究,如中國地質(zhì)調(diào)查局已開展了 “地質(zhì)云”建設(shè)[20-23],并在 “地質(zhì)云”平臺的框架下,初步形成了地質(zhì)調(diào)查信息服務(wù)集群體系,以充分利用大數(shù)據(jù)技術(shù)服務(wù)國家地質(zhì)公益事業(yè)。同時,中國地質(zhì)調(diào)查局已經(jīng)開始從大數(shù)據(jù)的角度對典型礦床、重要礦種的潛力評價開展試點(diǎn)示范[24-25]。在核地質(zhì)系統(tǒng),現(xiàn)已有一些項目開始涉及大數(shù)據(jù)技術(shù)研究,一些學(xué)者也在思考了大數(shù)據(jù)時代下的鈾礦勘查數(shù)字化發(fā)展[26]。然而,由于鈾資源對國家安全和能源的戰(zhàn)略地位、以及資料保密等原因,鈾資源勘查領(lǐng)域各種數(shù)據(jù)的存儲、共享、復(fù)用等還停留在較低水平,鈾資源勘查大數(shù)據(jù)應(yīng)用研究也才剛剛開始。
大數(shù)據(jù)應(yīng)用是一個長期的系統(tǒng)工程,不是一蹴而就的,而是逐步實(shí)現(xiàn)的。因此,應(yīng)本著 “立足現(xiàn)實(shí),著眼未來”和 “從長遠(yuǎn)和全局著眼,從當(dāng)前和局部入手”的基本原則進(jìn)行大數(shù)據(jù)技術(shù)研究和應(yīng)用。針對鈾資源勘查領(lǐng)域的特殊性,鈾資源勘查大數(shù)據(jù)技術(shù)研究與應(yīng)用可分步分階段來實(shí)施。
第一階段 (2016—2020),全面理解和分析大數(shù)據(jù)內(nèi)涵,建立完整的鈾資源勘查大數(shù)據(jù)應(yīng)用技術(shù)體系與技術(shù)發(fā)展路線圖,初步突破鈾資源勘查大數(shù)據(jù)存貯管理技術(shù)、用于成礦預(yù)測的數(shù)據(jù)挖掘新技術(shù)等關(guān)鍵技術(shù),取得鈾資源勘查大數(shù)據(jù)技術(shù)的階段重要進(jìn)展;第二階段 (2021—2025),構(gòu)建局域網(wǎng)環(huán)境下的鈾資源勘查大數(shù)據(jù)應(yīng)用平臺 (鈾礦地質(zhì)云),突破完全適合于大數(shù)據(jù)環(huán)境下的分布式計算、分布式數(shù)據(jù)挖掘、數(shù)據(jù)可視化等關(guān)鍵技術(shù),實(shí)現(xiàn)鈾資源勘查大數(shù)據(jù)應(yīng)用示范;第三階段(2026—2030)系統(tǒng)完善鈾資源勘查大數(shù)據(jù)應(yīng)用平臺,進(jìn)一步突破智能找礦預(yù)測、智能資源評價、三維-四維可視化等關(guān)鍵技術(shù),全面實(shí)施鈾資源勘查大數(shù)據(jù)戰(zhàn)略,并積極向其他領(lǐng)域拓展,促進(jìn)核地質(zhì)行業(yè)走向真正的大數(shù)據(jù)時代。
大數(shù)據(jù)研究和應(yīng)用是一個系統(tǒng)工程,不同行業(yè)不同學(xué)者對大數(shù)據(jù)的理解和認(rèn)識不一[27],從而影響大數(shù)據(jù)應(yīng)用實(shí)施的決策。對鈾資源勘查領(lǐng)域來說,大數(shù)據(jù)應(yīng)用不只是部分科研人員需要思考的問題,也是管理者、決策者需要考慮的問題。通過加強(qiáng)技術(shù)研討,使核地質(zhì)行業(yè)對大數(shù)據(jù)及大數(shù)據(jù)應(yīng)用實(shí)施的理解有一個比較清晰、相對統(tǒng)一的認(rèn)識,從而加強(qiáng)頂層設(shè)計和項目規(guī)劃,項目落實(shí),使鈾資源勘查大數(shù)據(jù)應(yīng)用研究能夠有計劃、有步驟的實(shí)施。同時,在頂層設(shè)計的基礎(chǔ)上,需要圍繞鈾資源勘查及相關(guān)應(yīng)用急需,有針對性地開展重點(diǎn)研究,取得關(guān)鍵點(diǎn)上的技術(shù)突破。
大數(shù)據(jù)技術(shù)體系中包括許多新技術(shù)新方法,尤其是在信息挖掘和找礦預(yù)測方面更是如此。大數(shù)據(jù)使精細(xì)刻畫成為了可能,使“智能學(xué)習(xí)”變成了可能[28],要加強(qiáng)大數(shù)據(jù)與人工智能的結(jié)合[29-30],使鈾資源勘查大數(shù)據(jù)技術(shù)研究實(shí)現(xiàn)從一般的大數(shù)據(jù)應(yīng)用,升級為高度智能化和自主化的系統(tǒng),創(chuàng)建真正能自主決策、自主行動的智能系統(tǒng)。
在預(yù)研、核能開發(fā)、集團(tuán)自主研發(fā)費(fèi)、地勘費(fèi)等不同渠道項目中,增加鈾資源勘查大數(shù)據(jù)技術(shù)研究經(jīng)費(fèi),從不同項目渠道的特點(diǎn)出發(fā),對鈾資源勘查大數(shù)據(jù)技術(shù)體系中的不同關(guān)鍵技術(shù)、軟件、硬件進(jìn)行研究和開發(fā),形成鈾資源勘查大數(shù)據(jù)技術(shù)研究相對穩(wěn)定的經(jīng)費(fèi)投入,促進(jìn)核地質(zhì)系統(tǒng)鈾資源勘查大數(shù)據(jù)技術(shù)的穩(wěn)步創(chuàng)新發(fā)展和技術(shù)突破,并早日進(jìn)入大數(shù)據(jù)應(yīng)用時代。
每個行業(yè)的大數(shù)據(jù)應(yīng)用都是一個系統(tǒng)工程,涉及多個學(xué)科和多種技術(shù),尤其是計算機(jī)、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù)。相對來說,這些技術(shù)是核地質(zhì)領(lǐng)域人才的弱項。因此,需要加強(qiáng)這方面人才的引進(jìn)和青年骨干人才有針對性的持續(xù)培養(yǎng),為真正實(shí)施鈾資源勘查大數(shù)據(jù)應(yīng)用提供人才基礎(chǔ)。
相對核地質(zhì)領(lǐng)域,其他領(lǐng)域的大數(shù)據(jù)應(yīng)用研究開始相對更早些,國際上也比國內(nèi)要早些。因此,需要加強(qiáng)國內(nèi)外的交流、行業(yè)間交流,學(xué)習(xí)別人的經(jīng)驗(yàn)及技術(shù),為更好地實(shí)施鈾資源勘查大數(shù)據(jù)服務(wù)。
1)認(rèn)識大數(shù)據(jù)的內(nèi)涵,應(yīng)該從數(shù)據(jù)、技術(shù)、應(yīng)用三個層面來全面理解。它不是單純的數(shù)據(jù)概念,而是巨量數(shù)據(jù)與一系列新技術(shù)的結(jié)合,是當(dāng)今世界實(shí)現(xiàn)數(shù)據(jù)—有用信息—預(yù)測的全新思路。因此,大數(shù)據(jù)是涵蓋大數(shù)據(jù)特征、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用等技術(shù)內(nèi)涵的全新理念。
2)鈾資源勘查大數(shù)據(jù)不僅具有一般大數(shù)據(jù)的4V特征,還具有數(shù)據(jù)密集型的地質(zhì)時空大數(shù)據(jù)特點(diǎn)。主要表現(xiàn)在鈾資源勘查地質(zhì)大數(shù)據(jù)的時空屬性、鈾資源勘查地質(zhì)大數(shù)據(jù)的多元(源)、異構(gòu)、時空性、相關(guān)性、隨機(jī)性、模糊性和非線性、以及鈾資源勘查地質(zhì)大數(shù)據(jù)的因果性與非因果性特點(diǎn)等。
3)鈾資源勘查大數(shù)據(jù)技術(shù)研究可采取的框架思路包括:一是借鑒并采用一般大數(shù)據(jù)技術(shù),二是研發(fā)和改進(jìn)適用于鈾礦地質(zhì)的專業(yè)大數(shù)據(jù)技術(shù)。鈾資源勘查大數(shù)據(jù)技術(shù)研究的關(guān)鍵問題主要有:鈾礦地質(zhì)大數(shù)據(jù)清洗技術(shù)、鈾礦地質(zhì)多屬性多態(tài)數(shù)據(jù)一體化存貯管理技術(shù)、鈾礦地質(zhì)大數(shù)據(jù)時空并行分布檢索技術(shù)、基于鈾資源勘查大數(shù)據(jù)的成礦預(yù)測技術(shù)、鈾礦勘查文本數(shù)據(jù)挖掘技術(shù)、基于大數(shù)據(jù)技術(shù)的鈾成礦過程實(shí)時仿真模擬技術(shù)、以及鈾資源勘查地質(zhì)云平臺構(gòu)建等。
4)大數(shù)據(jù)應(yīng)用是一個長期的系統(tǒng)工程,不是一蹴而就的,而是逐步實(shí)現(xiàn)的。針對鈾資源勘查領(lǐng)域的特殊性,鈾資源勘查大數(shù)據(jù)技術(shù)研究與應(yīng)用應(yīng)分步分階段來實(shí)施。同時,為了加快核地質(zhì)系統(tǒng)大數(shù)據(jù)技術(shù)研究,應(yīng)加強(qiáng)頂層設(shè)計、經(jīng)費(fèi)投入、人才培養(yǎng)、以及技術(shù)交流等。