常力恒,朱月琴,汪新慶,張 旋,劉雨江,吳 碩
(1.中國地質(zhì)大學(xué)(武漢)資源學(xué)院,湖北 武漢 430074; 2.自然資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037; 3.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037; 4.中國科學(xué)院大學(xué),北京 100049;5.北京語言大學(xué)出版社,北京 100083)
目前,隨著地質(zhì)資料信息化工作的推進(jìn),形成了大量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。地質(zhì)數(shù)據(jù)中非常重要的一部分是以文獻(xiàn)、報(bào)告等自然語言進(jìn)行表示的。地質(zhì)文獻(xiàn)作為研究成果的高度總結(jié),包含地質(zhì)過程發(fā)生的時(shí)間、空間、特征要素以及與周圍環(huán)境的相互作用、成因耦合等信息。因此,如何從這種泛結(jié)構(gòu)化的、模糊的、定性的海量地質(zhì)文獻(xiàn)報(bào)告中快速的提取數(shù)據(jù),并以獲得的大樣本數(shù)據(jù),綜合、分析、挖掘地質(zhì)資料中的潛在價(jià)值,更好的服務(wù)于地質(zhì)科學(xué)問題的研究是目前面臨的任務(wù)和機(jī)遇。物聯(lián)網(wǎng)、云計(jì)算、虛擬化等信息技術(shù)的發(fā)展以及多節(jié)點(diǎn)分布式的大數(shù)據(jù)平臺建設(shè),為海量數(shù)據(jù)的高性能計(jì)算提供了條件。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能等技術(shù)的革新為地質(zhì)大數(shù)據(jù)的研究提供了方法。
2017年11月“地質(zhì)云”平臺發(fā)布,2018年2月《巖石學(xué)報(bào)》出版了“地質(zhì)大數(shù)據(jù)”專輯,2018年4月在廣州中山大學(xué)舉辦了“全國大數(shù)據(jù)與數(shù)學(xué)地球科學(xué)”學(xué)術(shù)研討會,2018年5月在杭州浙江大學(xué)舉辦了“大數(shù)據(jù)時(shí)代——地質(zhì)學(xué)的挑戰(zhàn)與機(jī)遇”學(xué)術(shù)研討會。應(yīng)用大數(shù)據(jù)的思維方法,開展數(shù)據(jù)的相關(guān)性分析,構(gòu)建地質(zhì)知識庫,實(shí)現(xiàn)問題的智能分析求解,已成為發(fā)展趨勢。
盡管目前知識庫構(gòu)建技術(shù)已逐漸成熟,但在實(shí)際應(yīng)用中依然面臨巨大的困難和挑戰(zhàn)。在地質(zhì)領(lǐng)域中,數(shù)據(jù)類型眾多,數(shù)據(jù)描述無統(tǒng)一規(guī)范,因此在分詞的過程中會出現(xiàn)信息丟失。如何準(zhǔn)確的對地質(zhì)術(shù)語進(jìn)行自動識別、劃分,是構(gòu)建知識庫,進(jìn)行知識計(jì)算面臨的重要問題。由于地質(zhì)數(shù)據(jù)具有時(shí)間跨度大、空間覆蓋范圍廣、數(shù)據(jù)關(guān)聯(lián)性強(qiáng)、不確定性等特點(diǎn)[1-2],導(dǎo)致對于地質(zhì)實(shí)體關(guān)系高度復(fù)雜,地質(zhì)現(xiàn)象、地質(zhì)過程的形成機(jī)理及規(guī)律性無統(tǒng)一的認(rèn)識。因此,在知識的匯聚融合中會出現(xiàn)知識沖突,并隨時(shí)間變化會不斷形成新的認(rèn)識,甚至否定原有認(rèn)識。如何綜合不同數(shù)據(jù)源的資料,構(gòu)建統(tǒng)一知識庫也是目前面臨的問題。
區(qū)域成礦預(yù)測是分析研究區(qū)的地層、大地構(gòu)造、蝕變、巖漿巖等成礦地質(zhì)條件以及物化探異常信息,進(jìn)行綜合評價(jià)圈定找礦靶區(qū)[3]。目前,成礦預(yù)測主要分為以數(shù)據(jù)驅(qū)動和以知識(模型)驅(qū)動為主的兩類方法。數(shù)據(jù)驅(qū)動是從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并進(jìn)行預(yù)測,知識(模型)驅(qū)動是研究成礦規(guī)律,總結(jié)找礦標(biāo)志特征及找礦模型。地質(zhì)數(shù)據(jù)平臺的建設(shè)及數(shù)據(jù)匯聚體系形成,提供了地質(zhì)條件分析的數(shù)據(jù)源。因此,如何充分利用數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中存在的本質(zhì)關(guān)聯(lián)特征,從數(shù)據(jù)中提取控制成礦的關(guān)鍵信息,構(gòu)建地質(zhì)知識庫,建設(shè)地質(zhì)大腦,對于認(rèn)識礦床的形成原因,圈定預(yù)測靶區(qū)具有重要意義。
我國鎢礦資源豐富,類型多樣,分布相對集中??偨Y(jié)不同類型鎢礦的地質(zhì)條件特征,構(gòu)建鎢礦知識庫,對于研究鎢礦成礦規(guī)律以及深部礦產(chǎn)預(yù)測具有一定的指導(dǎo)作用。
目前,知識庫的應(yīng)用主要有智能語義搜索[4]和問答系統(tǒng)[5-6]。而研究人員關(guān)注的更多為應(yīng)用知識庫如何解決目前面臨的問題,如成礦譜系形成的特征分析及關(guān)鍵控制因素,板塊運(yùn)動下物質(zhì)循環(huán)與致礦異常的形成機(jī)理分析。因此,綜合知識庫可以開展地質(zhì)實(shí)體(礦床、控礦要素、巖體)空間關(guān)聯(lián)性分析,理清物質(zhì)相互作用過程。對于地質(zhì)信息工作者可以從知識計(jì)算、智能分析推理進(jìn)行研究。
知識庫是針對某一領(lǐng)域問題求解的需要,將具有相互聯(lián)系的知識集合經(jīng)過組織、分類,并按一定的表示方式在計(jì)算機(jī)中存儲,這些知識包括與領(lǐng)域相關(guān)的理論知識、事實(shí)數(shù)據(jù)及專家經(jīng)驗(yàn)知識[7-10]。建立鎢礦知識庫的目標(biāo)是探索以數(shù)據(jù)驅(qū)動的思想自動分析不同鎢礦類型形成的主要控制因素,定量分析地質(zhì)實(shí)體的相關(guān)性。
目前,大量的學(xué)者對知識庫構(gòu)建進(jìn)行了研究。朱木易潔等[11]介紹了知識圖譜的構(gòu)建方法及構(gòu)建過程;劉嶠等[6]、漆桂林等[12]分析了知識庫構(gòu)建的主要技術(shù);劉嶠等[6]對知識庫構(gòu)建目前存在的問題進(jìn)行了分析。另外在不同學(xué)科領(lǐng)域,構(gòu)建了大量的知識庫。何凱濤等[13]論述了數(shù)字礦床模型的概念,采用樹狀結(jié)構(gòu),建立不同類型銅礦床的礦床地質(zhì)知識模型,采用產(chǎn)生式規(guī)則表示法,構(gòu)建了規(guī)則知識庫;邢寶榮[14]分析了儲層構(gòu)型要素及幾何特征,采用層次分析法,構(gòu)建了辮狀河儲層地質(zhì)知識庫;鐘秀琴等[10]基于OWL本體與Prolog規(guī)則構(gòu)建了平面幾何知識庫;閆洪森等[15]基于本體的思想構(gòu)建了茶葉領(lǐng)域的知識庫。Li等[16]構(gòu)建了判別魚類病癥的規(guī)則知識庫。另外,國內(nèi)外互聯(lián)網(wǎng)公司也推出了自己的知識庫產(chǎn)品,如百度的知心、谷歌的Knowledge Graph、維基百科的Wikidata、微軟的Probase。
建立鎢礦知識庫,需要對知識類型進(jìn)行分類,確定知識存儲的數(shù)據(jù)模型。礦床數(shù)據(jù)模型可以分為礦床模型和找礦模型。礦床模型研究的是礦床形成原因及機(jī)理,預(yù)測要素模型反映了礦床所處的地質(zhì)環(huán)境及物化遙等特性。根據(jù)《Mineral Deposits Models》一書中對礦床地質(zhì)環(huán)境的描述,模型包括巖石類型、結(jié)構(gòu)構(gòu)造、成礦時(shí)代、沉積環(huán)境、構(gòu)造、伴生礦床、礦化蝕變、礦物特征等[17]。礦床學(xué)的書籍中也對礦床研究的主要內(nèi)容進(jìn)行了說明和論述,內(nèi)容包括大地構(gòu)造環(huán)境,物質(zhì)組成、物質(zhì)來源及成礦過程,成礦控制因素,地層、構(gòu)造、巖漿巖、圍巖蝕變與礦床關(guān)系,成因機(jī)理,礦體形態(tài)特征及時(shí)空分布規(guī)律等[18]。關(guān)于找礦模型,成秋明在文獻(xiàn)[19]中說明了找礦標(biāo)志組合包括成礦有利構(gòu)造環(huán)境、有利圍巖條件、有利構(gòu)造條件、巖漿條件、礦體結(jié)構(gòu)與構(gòu)造、礦石礦物、圍巖蝕變、微量元素組合、磁異常、重力異常等。綜合礦床模型及找礦模型建立了鎢礦知識庫存儲的數(shù)據(jù)模型,包括大地構(gòu)造環(huán)境、圍巖條件(巖石類型,結(jié)構(gòu)構(gòu)造)、構(gòu)造條件、巖漿條件(巖石組成、來源)、礦體條件(組成、結(jié)構(gòu)構(gòu)造)、礦石礦物、成礦時(shí)代、蝕變、元素異常組合等(表1)。
表1 知識庫要素模型
根據(jù)全國礦產(chǎn)資源潛力評價(jià)鎢礦數(shù)據(jù)、對鎢礦文獻(xiàn)信息提取的結(jié)果,以及要素模型對數(shù)據(jù)進(jìn)行整理,建立鎢礦知識庫。根據(jù)《重要礦產(chǎn)預(yù)測類型劃分方案》[20],將鎢礦預(yù)測類型劃分為石英脈型、矽卡巖型、斑巖型、云英巖型、陸相火山巖型、沉積變質(zhì)型、層控矽卡巖型和砂礦型等8種。在對數(shù)據(jù)的整理過程中,預(yù)測類型還包括類似A-B形式的復(fù)合類型。目前共形成105條記錄。由于每條記錄所包含描述信息較多,下面僅以一例說明知識庫存儲結(jié)構(gòu)及數(shù)據(jù)(表2)。
表2 鎢礦知識庫中數(shù)據(jù)(示例)
知識庫的建立是為了使計(jì)算機(jī)能夠分析礦床形成條件,從而預(yù)測在不同的地質(zhì)條件下礦體賦存的概率。本文以數(shù)據(jù)的分類為例說明知識庫應(yīng)用的一個(gè)方面。分類是根據(jù)事物的組成、性質(zhì)、功用等不同表現(xiàn)方面,依據(jù)屬性特征的差異性對事物進(jìn)行劃分,將某方面特征相似的事物進(jìn)行歸并。對于礦床則表現(xiàn)在構(gòu)造環(huán)境、物質(zhì)來源、形成過程等多個(gè)方面。正確的劃分礦床類型對于認(rèn)識、指導(dǎo)生產(chǎn)實(shí)踐具有重要意義。
實(shí)驗(yàn)數(shù)據(jù)為1例從數(shù)據(jù)庫中抽取并去除預(yù)測類型的鎢礦記錄。由于數(shù)據(jù)量占篇幅原因選擇記錄中的成礦巖體、賦礦地層巖性、礦物組合、蝕變4個(gè)特征屬性作為數(shù)據(jù)分類的計(jì)算變量。
分類計(jì)算的核心是通過字符串的模糊匹配,分別計(jì)算測試數(shù)據(jù)的每一特征要素與數(shù)據(jù)庫中匹配特征要素的相似度,累加求和所有特征要素相似度,選擇每一種預(yù)測類型相似度最高的值,最后將所有預(yù)測類型對應(yīng)相似度值進(jìn)行綜合排序,相似度最高對應(yīng)的預(yù)測類型則為實(shí)驗(yàn)數(shù)據(jù)的分類結(jié)果。本實(shí)驗(yàn)基于python的fuzz.ratio字符串模糊匹配算法,對數(shù)據(jù)進(jìn)行分類。其中,匹配程度最高為石英脈型,相似度為46.5%,其次相似度分別為矽卡巖型43.25%,斑巖型38.25%。具體計(jì)算結(jié)果如圖1所示。
實(shí)驗(yàn)數(shù)據(jù)對應(yīng)類型為矽卡巖型,與計(jì)算結(jié)果存在一定偏差。根據(jù)文獻(xiàn)[21]可知廣西資源縣牛塘界鎢礦礦石類型以矽卡巖型為主,次為石英脈型和花崗巖型,礦石品位以石英脈型較高。因此實(shí)驗(yàn)數(shù)據(jù)兼具矽卡巖型與石英脈型特征,與計(jì)算結(jié)果基本吻合。表3為相似度對比結(jié)果表。從表中可以看出篩選的結(jié)果數(shù)據(jù)與測試數(shù)據(jù)特征要素匹配程度非常相近。
圖1 分類計(jì)算結(jié)果圖
表3 相似度對比結(jié)果表
數(shù)據(jù)成礦巖體賦礦地層巖性礦物組合蝕變匹配度廣西資源縣牛塘界鎢礦(測試數(shù)據(jù))(矽卡巖型)黑云母花崗、細(xì)-中粒黑云母花崗巖或中-細(xì)粒白云母花崗泥質(zhì)粉砂巖和粉砂質(zhì)泥巖主要金屬礦物有白鎢礦、黃鐵礦、方鉛礦;次要有閃鋅礦、黃銅礦;脈石礦物主要有石英、石榴子石、透輝石、符山石、綠泥石、方解石。次有陽起石、透閃石、斜黝簾石、螢石、鈉長石硅化、黃鐵礦化、碳酸鹽化、綠泥石化、堿性長石化,角巖化、矽卡巖化廣東省南雄棉土窩鎢礦(石英脈型)中細(xì)粒白云母花崗巖變質(zhì)砂巖、板巖和石英斑巖礦物組合:金屬礦物有黑鎢礦、白鎢礦、黃鐵礦、黃銅礦、方鉛礦、閃鋅礦、錫石、輝鉍礦、輝鉬礦、毒砂等;脈石礦物主要有石英(約占90%~95%),其次為長石、綠泥石、電氣石、白云母,少量方解石和石膏等硅化、電氣石化、黃鐵礦化、綠泥石化、絹云母化46.5%特征要素匹配度依次:46%、43%、46%、51%江西省修水香爐山鎢礦(矽卡巖型)黑云母二長花崗巖含炭硅泥質(zhì)灰?guī)r和灰質(zhì)泥巖、中厚層狀條帶狀灰?guī)r金屬礦物有白鎢礦、磁黃鐵礦、黃鐵礦、白鐵礦、黃銅礦、閃鋅礦、方鉛礦等;主要脈石礦物有透輝石、石英、方解石、長石,其次有(絹)白云母、石榴石、透閃石、螢石等云英巖化、硅化、綠泥石化、螢石化和高嶺土化43.25%特征要素匹配度依次:35%,42%、52%、44%
針對實(shí)驗(yàn)結(jié)果,查閱了相應(yīng)礦床地質(zhì)特征描述的文獻(xiàn)資料。根據(jù)文獻(xiàn)[21]對測試數(shù)據(jù)廣西資源縣牛塘界鎢礦的賦礦地層巖性描述為灰黑色變質(zhì)泥質(zhì)粉砂巖、粉砂質(zhì)絹灰黑色變質(zhì)泥質(zhì)粉砂巖、粉砂質(zhì)絹云板巖夾大理巖或矽卡巖化大理巖。而知識庫中該礦床對巖性描述缺少大理巖或矽卡巖化大理巖等關(guān)鍵詞,直接導(dǎo)致計(jì)算結(jié)果存在偏差。造成這一問題的主要原因在于數(shù)據(jù)來源的準(zhǔn)確性,另一個(gè)原因在于字符串匹配算法對于所有詞進(jìn)行同等匹配,即不能識別關(guān)鍵詞,未對敏感詞賦予較高權(quán)重,進(jìn)而增加結(jié)果的準(zhǔn)確性。本文僅對第一種原因進(jìn)行了實(shí)驗(yàn),利用修改后的數(shù)據(jù)重新計(jì)算匹配度,結(jié)果見圖2。對比圖1,圖2中包含矽卡巖的預(yù)測類型的數(shù)據(jù)匹配程度更高,結(jié)果更為準(zhǔn)確。
圖2 修正測試數(shù)據(jù)后計(jì)算結(jié)果圖
從多源海量的數(shù)據(jù)中挖掘知識,分析數(shù)據(jù)之間的相關(guān)性,構(gòu)建地質(zhì)知識庫對于計(jì)算機(jī)自動推理、智能分析、輔助決策具有重要意義。因此本文以礦床模型、成礦預(yù)測理論為指導(dǎo),構(gòu)建了要素模型,結(jié)合潛力評價(jià)數(shù)據(jù)和文獻(xiàn)資料構(gòu)建了鎢礦知識庫。在應(yīng)用實(shí)踐方面,以數(shù)據(jù)分類為例,進(jìn)行了文本的相似度計(jì)算,實(shí)驗(yàn)結(jié)果表明數(shù)據(jù)源的質(zhì)量對結(jié)果劃分具有重要影響。在數(shù)據(jù)準(zhǔn)確,描述完整的情況下,匹配算法可以很好的識別礦產(chǎn)預(yù)測類型。對于另一個(gè)問題,計(jì)算機(jī)自動識別和區(qū)分不同要素變量、不同詞匯的重要性程度,如何融合地質(zhì)專家認(rèn)識對不同信息賦予不同權(quán)重進(jìn)行礦產(chǎn)分類,是下一步工作的研究方向。