魏東琦,江寶得,張靜雅
(1.中國地質(zhì)大學(xué)(武漢)國家地理信息系統(tǒng)工程技術(shù)研究中心,湖北 武漢 430074;2.中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心,陜西 西安 710054;3.地理信息工程國家重點實驗室,陜西 西安 710054)
地質(zhì)工作已邁入大數(shù)據(jù)時代,這為挖掘數(shù)據(jù)內(nèi)在信息,充分發(fā)揮數(shù)據(jù)自身的價值帶來了良好契機(jī)(趙鵬大,2018)。大數(shù)據(jù)是一種高級信息生產(chǎn)力,它促進(jìn)著信息生產(chǎn)方式的改變,并推動數(shù)據(jù)應(yīng)用模式的發(fā)展。正如麥肯錫所說的:“數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長浪潮的到來?!贝髷?shù)據(jù)技術(shù)雖然起源于互聯(lián)網(wǎng)行業(yè),但隨著它的成功應(yīng)用和展示出的強(qiáng)大活力,也對諸多傳統(tǒng)行業(yè)的信息產(chǎn)業(yè)發(fā)展帶來了啟示和不容錯過的機(jī)遇。
在大數(shù)據(jù)時代到來之前的很長一段時間,地質(zhì)領(lǐng)域一直采用一些傳統(tǒng)的數(shù)據(jù)(這里指數(shù)字化的數(shù)據(jù))生產(chǎn)方式,這種記錄和存儲數(shù)據(jù)的方式不夠先進(jìn),但因為簡單被大多數(shù)工作者所使用。這些傳統(tǒng)的生產(chǎn)方式積累了十分豐富的成果數(shù)據(jù),其中蘊(yùn)藏的巨大的價值有待發(fā)現(xiàn)(李超嶺,2015; 陳建平, 2017)。在數(shù)據(jù)的形成過程中,人們往往習(xí)慣將數(shù)據(jù)按照一定的方式組織歸類。眾所周知,在地學(xué)領(lǐng)域一般面對的問題比較復(fù)雜,成果結(jié)論需要多種方式結(jié)合才能很好的表現(xiàn)。這樣形式多樣的數(shù)據(jù)被人為的組織到一起,構(gòu)成一個數(shù)據(jù)集,用于說明某個問題,表述某種結(jié)論等等。這個數(shù)據(jù)集中數(shù)據(jù)內(nèi)容之間、數(shù)據(jù)之間具有某種人為形成的構(gòu)成關(guān)系。這種數(shù)據(jù)集合的數(shù)量十分巨大,數(shù)據(jù)集中的數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主。每個數(shù)據(jù)集合中,數(shù)據(jù)內(nèi)容組織靈活,信息表現(xiàn)形式多樣,數(shù)據(jù)有其內(nèi)在的規(guī)律但無法進(jìn)行嚴(yán)格的模式約束。數(shù)據(jù)中多種價值信息交織在一起,信息總量大但信息點分散,難于梳理提煉和歸納。
筆者研究對象就是具有此類特征的數(shù)據(jù)集,簡稱為非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)集。它們是行業(yè)中的成果數(shù)據(jù),而不是原始采集的數(shù)據(jù)。生產(chǎn)者已對數(shù)據(jù)進(jìn)行了一定程度的加工,并且按照一種合理的方式對信息進(jìn)行了組織和梳理,但由于使用的工具和認(rèn)識水平的限制,使得數(shù)據(jù)的存在形式較為單一,信息之間復(fù)雜的關(guān)聯(lián)關(guān)系不能有效表達(dá),不能方便的發(fā)掘數(shù)據(jù)內(nèi)在的價值。從另一角度上講,人們希望借助一定的技術(shù)方法,挖掘數(shù)據(jù)內(nèi)在的信息,發(fā)現(xiàn)和理解信息內(nèi)容之間的關(guān)系,體現(xiàn)數(shù)據(jù)具有的價值(Ashley, et al., 2014)。從現(xiàn)階段的技術(shù)發(fā)展水平來看,大數(shù)據(jù)技術(shù)應(yīng)該能夠較好的滿足這方面的需求。
從上面的分析可以看出,這類數(shù)據(jù)的存在形式與所需的技術(shù)產(chǎn)生了代差,為解決這個問題會涉及到數(shù)據(jù)管理的很多方面,但建立數(shù)據(jù)合理有效的組織和存儲形式是重要環(huán)節(jié),也是后續(xù)很多工作的基礎(chǔ)。
在對非結(jié)構(gòu)化數(shù)據(jù)的管理和處理方面,主要運用數(shù)據(jù)倉庫、內(nèi)容管理系統(tǒng)等手段,傳統(tǒng)意義上,這些系統(tǒng)對數(shù)據(jù)的持久化組織存儲主要依托關(guān)系數(shù)據(jù)庫這大類技術(shù)體系。王珊等(2011)較為全面的分析了使用關(guān)系型數(shù)據(jù)庫的優(yōu)劣,并指出在大數(shù)據(jù)的時代背景下,隨著新技術(shù)新方法的產(chǎn)生,帶來了非結(jié)構(gòu)化數(shù)據(jù)管理與處理方面自上而下的變革(覃雄派等,2013)。許多研究表明,NoSQL技術(shù)正逐漸成為非結(jié)構(gòu)化數(shù)據(jù)管理的優(yōu)勢性技術(shù),相對于傳統(tǒng)的數(shù)據(jù)操作方式(王梅等,2013),大數(shù)據(jù)技術(shù)體系下“靠近數(shù)據(jù)計算”的設(shè)計理念也更適用于大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的深度分析和知識發(fā)現(xiàn)(Cuzzocrea, et al.,2011; 吳沖龍等,2016)。
一般情況下一個完整的體系,在數(shù)據(jù)組織管理和處理每個層面都有各自的策略和技術(shù)手段,在筆者關(guān)注的數(shù)據(jù)的組織層面,這類策略主要是針對數(shù)據(jù)的建模。在這個問題上,前人已經(jīng)在理論研究和技術(shù)實現(xiàn)上做了很多工作,提出了解決方案,具有代表性的有數(shù)據(jù)空間(dataspaces)(Franklin et al.,2005)以及NoSQL相關(guān)的一大類技術(shù)(謝華成等,2012; 楊鵬等,2018)。筆者將從一個新的角度看待一個地質(zhì)行業(yè)使用傳統(tǒng)方式生產(chǎn)并積累下來的大量成果數(shù)據(jù),研究大型內(nèi)容復(fù)雜數(shù)據(jù)集的內(nèi)容分解提取和組織存儲的技術(shù)方法,建立起數(shù)據(jù)與大數(shù)據(jù)技術(shù)之間的橋梁。借助大數(shù)據(jù)技術(shù)的優(yōu)勢,提高數(shù)據(jù)的信息定位,相關(guān)關(guān)系建立等方面的效率,讓數(shù)據(jù)的深度分析,知識發(fā)現(xiàn)變得更加順暢,賦予此種地質(zhì)數(shù)據(jù)“大數(shù)據(jù)computing的能力”。
內(nèi)容復(fù)雜、信息存儲形式多樣的大型非結(jié)構(gòu)化數(shù)據(jù)集,當(dāng)中的數(shù)據(jù)很少能用預(yù)先定義的模式進(jìn)行組織,更為合理的組織方式往往是在收集和處理數(shù)據(jù)的過程中產(chǎn)生的。再者,由于蘊(yùn)含在內(nèi)容復(fù)雜數(shù)據(jù)集中的信息并非以傳統(tǒng)的關(guān)系數(shù)據(jù)庫方式嚴(yán)格表示,而是大多包含在非結(jié)構(gòu)化的數(shù)據(jù)中。因此,建立基于內(nèi)容和特征的數(shù)據(jù)模型是進(jìn)行有效描述數(shù)據(jù)的關(guān)鍵,同時也是進(jìn)一步知識發(fā)現(xiàn)的實現(xiàn)基礎(chǔ)。
建立基于內(nèi)容和特征的數(shù)據(jù)模型目的在于消除由于內(nèi)容表現(xiàn)形式多樣造成的異構(gòu)和多源化問題,在不丟失信息量的原則上盡量自然的組織和描述數(shù)據(jù)的真實內(nèi)容,使得計算分析能更容易的貼近數(shù)據(jù)描述的本質(zhì),更容易發(fā)現(xiàn)數(shù)據(jù)蘊(yùn)含的知識。筆者利用模型力求對數(shù)據(jù)的內(nèi)在作語義清晰、組織高效的描述性和結(jié)構(gòu)性建模,以便進(jìn)行有效的知識集成、共享和復(fù)用。
定義 2 。主題特征量F={fi|?fi=Id(Di),0≤i≤n},其中fi表示一個維度的主題特征分量,它的取值為某一特征域的標(biāo)識Id(Di)。F是一個n維特征量,但對于任意的fi其僅可映射到唯一的Di,不存在不同fi,fj取值于同一個特征域Di。
由定義1和2可知,子域的個數(shù)等于內(nèi)容實體中特征量的維數(shù)。不同特征量Fm,Fn中的值可以映射到于同一個域Dx,即Fm(i)=Fn(j)=Id(Dx),稱其為享元(flyweight)(這是內(nèi)容實體聚合、分類的一種方式)。
定義3。取D中的有限子集{D1,D2,…,Dn},D1,D2,…,Dn的笛卡爾積為:D1×D2×…×Dn={
定義 4。內(nèi)容實體(content entity)C=(K,V,Rc,F,Dc)是一個五元組,其中:鍵K是全局唯一C的標(biāo)識,V是C表示對象化的原始內(nèi)容(可以是文本對象、空間對象、圖像等),K,V構(gòu)成一一映射關(guān)系;Rc為C與其他項(可以是多個)C’的聯(lián)系(relationship),是面向?qū)ο蟮?,包括泛?Generalization)、關(guān)聯(lián)(Association)、聚合(Aggregation)、組合(Composition)、依賴(Dependency) 5種基本關(guān)系,聯(lián)系可以是一對一的和一對多的,但不能自引用;F為C的主題特征量,對不同的內(nèi)容實體Ci和Cj,特征量的維數(shù)可以不同,并且屬于D的笛卡爾積構(gòu)成的集合;Dc是F中特征分量(特征值)取值的域,Dc是D的一個子域Dc?D。
具有相同取值域Dc的內(nèi)容實體的特征量可以組成一個包。集合的元素是無序的, 并且元素是不同重復(fù)的。包中的元素是無序的,但允許一個元素出現(xiàn)多次。內(nèi)容實體的組成及構(gòu)成關(guān)系如圖1所示。
建立數(shù)據(jù)模型目的是讓模型對數(shù)據(jù)的結(jié)構(gòu)組織和特征描述更加貼近于數(shù)據(jù)的本質(zhì),建模是一個過程,所以數(shù)據(jù)模型需要通過演化一步步清晰數(shù)據(jù)之間的關(guān)系,更貼切的描述主體的特征。數(shù)據(jù)模型可分為初始態(tài)和演化過程2個部分:初始態(tài)是模型對數(shù)據(jù)最初的理解和描述,建立數(shù)據(jù)內(nèi)容的基本的定位方式和相關(guān)關(guān)系,是模型進(jìn)化的基石; 演化是數(shù)據(jù)模型的一個重要特性,指的是模型可以隨著對所表示的主體內(nèi)容的理解,隨著時間和應(yīng)用的變化不斷完善自身。
圖1 內(nèi)容實體的組成要素及它們之間的關(guān)系Fig.1 Components of the content entity and their relationship
筆者使用樹形結(jié)構(gòu)表示模型初始態(tài)的骨架,這樣可以較好的描述復(fù)雜內(nèi)容數(shù)據(jù)集中數(shù)據(jù)諸多要素之間的關(guān)系,建立其最基本的坐標(biāo)定位。為此,使用內(nèi)容實體C來表示內(nèi)容樹的節(jié)點,同時將C退化出一種特殊的C’=(k,Rc,F)用來表示一種純結(jié)構(gòu)性的節(jié)點(后面提到的數(shù)據(jù)集和可再分解的數(shù)據(jù)實體都屬于此種節(jié)點)。于此同時,使用項間關(guān)系Rc表示樹枝,則Rc被具體化為2種關(guān)系{R-parent,[R-children]},即一個節(jié)點的父親節(jié)點和多個孩子節(jié)點。在此需要引入另一個概念。定義5。路徑Ph={ci,ci+1,…,ci+k}是一個非空的有序集合,ci是樹T的任意一個節(jié)點。對任意ci,cj存在且僅存在一條關(guān)聯(lián)路徑Ph。特別的,定義從根結(jié)點到任意內(nèi)容節(jié)點的路徑稱為ci的根路徑,記為:Phroot(ci)。
路徑是一種可行的內(nèi)容樹節(jié)點間原始的關(guān)聯(lián)關(guān)系表示和位置坐標(biāo)的定義,其將原本獨立存在的信息聯(lián)系起來,形成了一個可供操作的整體。
由此,內(nèi)容組織模型是具有層次和特征繼承關(guān)系的樹T(圖2)。T存在root-set、data-set,data-entity和content-entity三個層次的劃分,節(jié)點的深度越深描述粒度越細(xì)。
root-set是邏輯上的根節(jié)點,他的孩子由大量的類型多樣、內(nèi)容結(jié)構(gòu)復(fù)雜的data-set組成,記為如下。
Rs={Ds0,Ds1,…Dsn}。
由于root-set具有超大數(shù)量的子節(jié)點,因此在實現(xiàn)上需要分布式的非關(guān)系型的數(shù)據(jù)庫技術(shù)作為支持(Chang, et al.,2006)。
圖2 內(nèi)容樹模型Fig.2 Content tree model
數(shù)據(jù)集Ds由有限類型的數(shù)據(jù)實體De組成,記為如下。
De用于表示某特定數(shù)據(jù)集中包含數(shù)據(jù)實體的種類(上標(biāo))和數(shù)量(下標(biāo)),例如,a數(shù)據(jù)集包含1篇正文報告、4張附圖、1篇審批報告、3張簡單的統(tǒng)計表等等。每個種類的數(shù)據(jù)會有專門的策略去解析數(shù)據(jù)中包含的內(nèi)容。
數(shù)據(jù)實體是內(nèi)容實體組合成的復(fù)合體。具體來講,De是可用面向?qū)ο笏枷虢5挠蓛?nèi)容實體構(gòu)成的復(fù)雜對象。
內(nèi)容實體好比是原子,內(nèi)容實體好比是分子,數(shù)據(jù)集合就好比是由他們構(gòu)成的物質(zhì)。數(shù)據(jù)實體之間、數(shù)據(jù)內(nèi)部的內(nèi)容之間存在某些聯(lián)系,兩兩之間的原有結(jié)構(gòu)性關(guān)系可以使用路徑描述。
上述提到,數(shù)據(jù)模型基本的結(jié)構(gòu)性特征使用樹狀骨架建模,并使用路徑的概念定義了節(jié)點在整體中的位置坐標(biāo),組織起內(nèi)容節(jié)點之間的關(guān)聯(lián)關(guān)系。然而僅是數(shù)據(jù)建模的開端,更深層次的特征刻畫需要使用特征量和特征域完成,特征量的概念見定義2,其取值于相應(yīng)的特征域,特征域在此分為原生域和演化域2種。在此規(guī)定,原生特征項取值于原生域,其存儲的是域值的原值;演化特征項取值于演化域,其存儲的是域值的引用(reference)。
原生域:原生域是一種schema-first的邏輯結(jié)構(gòu),其有預(yù)先定義的數(shù)據(jù)模式,并且這種模式在模型的生命周期中保持不變。域值的產(chǎn)生嚴(yán)格依賴數(shù)據(jù)模式,構(gòu)建方式遵循pay-before-you-go(Franklin, et al.,2005)的原則。原生域的元素數(shù)據(jù)類型簡單,取值嚴(yán)格準(zhǔn)確,域值之間無關(guān)聯(lián)性。
演化域:其隨著對內(nèi)容的理解逐步加入模型,具有先有數(shù)據(jù)后有模式的pay-as-you-go(Franklin, et al.,2005)的演化特性。域中元素是基于對象的,元素之間可以構(gòu)建復(fù)雜的關(guān)系結(jié)構(gòu)。演化域也是對結(jié)構(gòu)性特征和原生描述性特征表現(xiàn)力有限的一種補(bǔ)充。也就是說,對于任意一個演化域,其中的元素可以是結(jié)構(gòu)性或者是描述性的。
取自原生域的特征值在內(nèi)容樹結(jié)構(gòu)的構(gòu)建過程中被初始化。演化是內(nèi)容樹模型的重要特點,取自演化域的特征值不做任何的假設(shè)和限定,其數(shù)據(jù)模式可以是松散的滯后的,數(shù)據(jù)模式是在數(shù)據(jù)的基礎(chǔ)上根據(jù)內(nèi)容主體的需求逐漸演化而來的。演化域元素是基于對象的,因此元素之間的關(guān)聯(lián)關(guān)系可以是復(fù)雜的,并且也是根據(jù)主體需要動態(tài)建立的,在其上定義的數(shù)據(jù)操作也是best-effort的,即允許次優(yōu)的結(jié)果產(chǎn)生(李玉坤等,2008)。
采用多尺度、細(xì)粒度的內(nèi)容拆分有利于數(shù)據(jù)的深度分析和信息的精確定位,但也因此帶來了內(nèi)容片段數(shù)量的幾何級數(shù)式增長,數(shù)據(jù)的存儲和管理面臨新的挑戰(zhàn),NoSQL技術(shù)的興起為解決此類問題提供了良好的方法。更重要的是,數(shù)據(jù)模型的特征量和特征域的模式滯后的特性導(dǎo)致其更傾向使用NoSQL技術(shù)來實現(xiàn)。因此,使用面向列簇的存儲技術(shù)——HBase是一個較為理想的方案(王梅等,2013;Chang, et al.,2006;謝華成等,2012)。HBase表設(shè)計中,行鍵的設(shè)計至關(guān)重要,由定義3可知,每一個內(nèi)容節(jié)點都有一個唯一根路徑可作為行鍵(rowkey),行鍵的構(gòu)成采用如下策略。
(1)遞歸的將同一父節(jié)點下的子孫節(jié)點按深度為權(quán)值升序存放在連續(xù)的行中,這一點利用Phroot(ci)的排序很容易做到。
(2)如果數(shù)據(jù)項存在或繼承有原生域的值,則將其編碼并附加到行健最后,否則占位補(bǔ)齊。
(3)保證每個rowkey的長度是相等的,并且需要進(jìn)行散列處理。由于面對的問題是大型的數(shù)據(jù)集,所以選用低碰撞概率的散列算法(Biham, et al.,2006)。
(4)為讀操作優(yōu)化行鍵,以便他們可以被快速的讀取。表結(jié)構(gòu)如圖3所示,行鍵是根路徑哈希和原生特征編碼的組合,表中包含2個列簇,proto用于存儲內(nèi)容實體的value、關(guān)系和來自原生域特征值;Evolvement存儲取值自演化域的特征項的值的引用。時間戳簡單起到版本號的作用。演化域內(nèi)元素之間關(guān)系是域內(nèi)部表示范疇,屬于另外的研究領(lǐng)域。
圖3 內(nèi)容樹模型在Hbase中的存儲結(jié)構(gòu)Fig.3 Storage structure of content tree model in HBase
數(shù)據(jù)建模是將原始狀態(tài)的數(shù)據(jù)集中的內(nèi)容解析重構(gòu)成內(nèi)容樹模型的過程,建模分為2個獨立的步驟。步驟一,建立模型的初始態(tài),包括內(nèi)容樹的骨架結(jié)構(gòu)和原生特征項的賦值,由于內(nèi)容樹的繼承特性,下一級別的節(jié)點可以選擇性的繼承其祖先節(jié)點的特征;步驟二,為模型的演化過程,這是通過對節(jié)點內(nèi)值的分析修正原生特征值和增加演化特征值,從而豐富節(jié)點的描述性特征和附加結(jié)構(gòu)性特征。
演化操作是由已知信息得到潛在信息的過程,對于內(nèi)容實體個體,這個操作的結(jié)果將以特性值的形式存在;而對于總體的內(nèi)容實體集合,一種演化操作的所有特征值構(gòu)成一個演化域。前述提到演化域隨著對內(nèi)容的理解逐步加入模型,即演化操作事先知道演化域的取值范圍(包括域值間的關(guān)系),演化操作則按照一定的模式進(jìn)行內(nèi)容實體與域值之間的匹配。
具體來說,針對內(nèi)容樹模型,演化操作的對象是內(nèi)容樹的節(jié)點,已知信息是模型初始過程后形成的一些,可以表示成(Phroot(ci),V(ci), {Rparent(ci), [Rchild(ci)]},F’),其中F’是原生域,演化操作f的結(jié)果是一個新加入的演化域Dx和一個新維度的特征值ex,F(xiàn)’=F’+{ex}。根據(jù)前述數(shù)據(jù)結(jié)構(gòu),演化操作可以使用map-reduce計算框架實現(xiàn)(Dean, et al.,2004)。這種考慮主要是因為作為操作對象的內(nèi)容節(jié)點的數(shù)量級十分巨大,而彼此之間的數(shù)據(jù)結(jié)構(gòu)相對獨立。
對成果地質(zhì)數(shù)據(jù)而言,內(nèi)容模型是能夠突破檔案的界限約束,突破文件邊界的限制,將原先孤立于每個檔案中,每份數(shù)據(jù)中的信息統(tǒng)一整合在一個模型中,增強(qiáng)信息之間的聯(lián)系,簡化獲取信息的步驟,豐富獲取知識的途徑。從圖4可以看到,模型對數(shù)據(jù)的描述粒度逐漸細(xì)分,首先是檔案級目錄元數(shù)據(jù),包括檔案標(biāo)題、檔號、項目編號等元信息;再者是文件級描述,包括空間要素,文檔目錄,附圖、附表、附圖等索引表;最后是將數(shù)據(jù)實體分解后的章節(jié)段落,插圖、表格、圖件要素等內(nèi)容實體。這種金字塔形狀的內(nèi)容粒度劃分,前面幾級是已經(jīng)事實存在的數(shù)據(jù)和數(shù)據(jù)固有的組織形式,最后的內(nèi)容級是此模型的主要內(nèi)容,也是最小粒度級的操作對象。
參照前述數(shù)據(jù)模型的有關(guān)概念和具體化成果地質(zhì)數(shù)據(jù),表1將模型中的概念與現(xiàn)在需要建模的歸檔數(shù)據(jù)層級關(guān)系和數(shù)據(jù)構(gòu)成做了對應(yīng)。
圖4 地質(zhì)成果數(shù)據(jù)的分級組織Fig.4 Hierarchical organization of geological achievement data
表1 成果地質(zhì)數(shù)據(jù)和數(shù)據(jù)模型概念間的對應(yīng)表Tab.1 Correspondence table between achievement geological data and data model concepts
由于筆者目前只對成果地質(zhì)數(shù)據(jù)的建模,所以根Root-Set中只包含一種類型的數(shù)據(jù)集,也就是成果地質(zhì)數(shù)據(jù)集。每一個數(shù)據(jù)集Data-Set表示一檔地質(zhì)成果數(shù)據(jù),例如,如果有5 000檔地質(zhì)成果歸檔數(shù)據(jù),那么Root-Set就包含5 000個Data-Set,可表示成如下形式。
Rs={Ds0,Ds1,…Ds5000}。
如果按照樹狀結(jié)構(gòu)表示Root-set和Data-set的關(guān)系,Root-set可能會有大量的子節(jié)點,這在實際的數(shù)據(jù)結(jié)構(gòu)實現(xiàn)中會做優(yōu)化處理的,不可能會讓一個節(jié)點存在太多的子節(jié)點,但僅從邏輯視角觀察,暫且可以認(rèn)為所有的Data-set全部是Root-set的直接孩子節(jié)點。
段落、表格、圖片、矢量圖等每一個類內(nèi)容實體都將被模型合理的表達(dá),根據(jù)前述的定義,數(shù)據(jù)實體是內(nèi)容實體組合成的復(fù)合體。根據(jù)成果地質(zhì)資料的匯交規(guī)范,按數(shù)據(jù)類型的不同可分為正文、附圖、附表、附件、審批、其他6類,這樣成果地質(zhì)數(shù)據(jù)的數(shù)據(jù)集將包含一個合并分卷后的正文數(shù)據(jù)實體(Z)、零到多個附圖數(shù)據(jù)實體(T)、零到多個附表數(shù)據(jù)實體(B)、零到多個附件數(shù)據(jù)實體(J)、零到多個審批數(shù)據(jù)實體(S)、零到多個其他類數(shù)據(jù)實體(Q)。按照前述關(guān)于數(shù)據(jù)集的定義,可以將數(shù)據(jù)集形式化表示如下形式。
為更直觀說明建模實例,筆者采用UML模型形式化地表示地質(zhì)成果數(shù)據(jù)的建模結(jié)果(圖5)。
圖5 成果地質(zhì)數(shù)據(jù)的建模圖Fig.5 The modeling of the achievement geological data
在地學(xué)領(lǐng)域,由于問題的復(fù)雜性,人們關(guān)注“是什么”多過“為什么”。也就是說地學(xué)領(lǐng)域關(guān)心信息與信息之間的相關(guān)關(guān)系,而不是因果關(guān)系。例如,某種“區(qū)域范圍”內(nèi)會產(chǎn)生某些“礦產(chǎn)”,就是地質(zhì)學(xué)家經(jīng)常研究的問題。在歷史積累下來的大量地質(zhì)成果數(shù)據(jù)中記錄有這2種內(nèi)容的描述,將同一主題信息的內(nèi)容從多樣化的數(shù)據(jù)中分離并合理的匯聚是進(jìn)行知識發(fā)現(xiàn)的基礎(chǔ)。使用筆者數(shù)據(jù)模型和建模方法,可以將文檔、圖件等非結(jié)構(gòu)化數(shù)據(jù)以內(nèi)容實體為最小單元進(jìn)行有效組織,再通過特征的演化方式逐步完善模型對數(shù)據(jù)的整體理解,以“大數(shù)據(jù)”的方式去分析計算、挖掘其內(nèi)部的價值。
筆者通過研究非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)集的內(nèi)容組織和存儲,詳細(xì)論述了支持演化的數(shù)據(jù)模型的建立方法。這種方法的優(yōu)勢在于可以將格式不同的數(shù)據(jù)以一種自然合理的方式組織到一起,還可以通過特征的演化方式逐步完善模型對數(shù)據(jù)的整體理解。這種設(shè)計能夠使非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)以“大數(shù)據(jù)”的方式去分析計算,挖掘其內(nèi)部的價值。這為以傳統(tǒng)方式生產(chǎn)的數(shù)據(jù)的有效管理和知識發(fā)現(xiàn)提供了一個可行的方案。以此為基礎(chǔ),可建立基于大數(shù)據(jù)技術(shù)的地學(xué)信息深度分析與知識發(fā)現(xiàn)利用平臺,構(gòu)建地質(zhì)成果數(shù)據(jù)的價值鏈;建設(shè)地學(xué)信息資源共享與增值示范服務(wù),為全社會的信息整合、資源共享、知識創(chuàng)新創(chuàng)造有利的條件。