王圣潔
(中國地質(zhì)調(diào)查局青島海洋地質(zhì)研究所,青島 266071)
海洋地質(zhì)學是一門年輕的學科,以20世紀60—70年代的“地學革命”達到了輝煌的頂點,成為整個地質(zhì)學變革的龍頭。而我國正處在“文化大革命”的歷史災難之中,我國科學家與這場“地學革命”失之交臂,使我國本來起步很晚的海洋地質(zhì)學與世界的差距更大[1-2]。因此,學界內(nèi)外都有這樣的思考: 經(jīng)過改革開放后40 a的發(fā)展,我國的海洋地質(zhì)學現(xiàn)在處在什么樣的水平?
楊子賡[1]系統(tǒng)總結(jié)了我國海洋地質(zhì)學在20世紀后期的起步和興起: 70年代相繼開展的渤海—黃?!獤|海陸架地質(zhì)-地球物理綜合調(diào)查、南海地質(zhì)-地球物理綜合調(diào)查等工作,獲得了我國海洋地質(zhì)最初的基本資料和認識; 80—90年代,我國在近海實施了一系列專項調(diào)查,并在國際地學合作中開始參與大洋和極地科考。王圣潔等[3]應用信息計量學方法,對我國2000—2012年發(fā)表的論文進行了統(tǒng)計分析,認為我國海洋地質(zhì)研究的重點仍集中在近海海域,研究內(nèi)容主要為盆地構(gòu)造與海洋沉積等基礎研究、天然氣水合物等新能源及近岸環(huán)境與災害地質(zhì)等應用領域。莫杰等[4]對2008年以來最近10 a的海洋地質(zhì)調(diào)查工作進行了綜述: 我國近海海洋綜合調(diào)查與評價(908專項)、1∶100萬管轄海域基礎地質(zhì)調(diào)查等項目的相繼實施,獲得了全覆蓋、高精度的調(diào)查資料; 重點海域油氣資源調(diào)查確定了潛在勘探區(qū)塊,南海天然氣水合物試采獲得實質(zhì)性突破。經(jīng)過幾代人的奮斗,我國海洋地質(zhì)工作迎來了一個蓬勃發(fā)展的時期[5]。
40 a的海洋地質(zhì)工作積累了大量的調(diào)查資料、研究成果和學術(shù)論文,有必要從學科的整體視角進行一次系統(tǒng)的梳理和總結(jié)。本文引入知識體系DIKW(Data-Information-Knowledge-Wisdom,DIKW)概念模型,分析了我國海洋地質(zhì)工作形成的數(shù)據(jù)、信息和知識層次,結(jié)合大數(shù)據(jù)“4V(Volume,Velocity,Variety,Value)”特征,重點探討了我國海洋地質(zhì)知識體系的規(guī)模和增長模式,這不但是學科研究的一次有益嘗試,對于促進海洋地質(zhì)信息科學在管理中的實際應用也具有現(xiàn)實意義。
知識體系又稱知識體系金字塔,其概念涉及“數(shù)據(jù)”“信息”“知識”“智慧”等關鍵詞,這些詞匯最早可追溯到西班牙詩人T.S.Eliot的一首詩(The Rock,1934),其大意是: “生命迷失在生活里,智慧迷失在知識里,知識迷失在信息里,信息迷失在數(shù)據(jù)里”?,F(xiàn)在一般認為,美國Russell L. Ackoff是較早提出知識體系的學者,在其“From Data To Wisdom”的論文中,給出了數(shù)據(jù)、信息、知識、智慧的定義及其關系(圖1)[6]。后來的學者在此概念模型的基礎上有了進一步的論述,使得數(shù)據(jù)、信息、知識、智慧的內(nèi)涵更加明確: ①“數(shù)據(jù)”是反映客觀事物及其性質(zhì)和狀態(tài)的記錄,是人的感官或通過儀器進行觀測獲得的文本、數(shù)字、事實或圖像,數(shù)據(jù)是最原始的記錄,在孤立和分散狀態(tài)時,通常并不具備特定意義; ②“信息”來自數(shù)據(jù)之間的聯(lián)系,從而可以更好地反映“因果關系”,回答“who (誰)” “what (什么)”、“where (哪里)”“when (何時)”等問題; ③“知識”是經(jīng)過篩選的信息,并具有明確的目的和作用,可以回答“how (怎樣)”“why (為什么)”這樣的高階問題; ④“智慧”是人類所具有的一種特有能力,是對知識的深入理解和靈活運用,以及對事物發(fā)展的前瞻性看法。
圖1 DIKW概念模型[6]
知識體系概念的提出,雖然有助于人們理解從數(shù)據(jù)到智慧的層次結(jié)構(gòu)和相互關系,但在實際應用中仍遇到不少困難: ①數(shù)據(jù)、信息、知識之間的界限并不像定義中那樣分明,一個過程的“信息”可能是另一個過程的“數(shù)據(jù)”,有些學者試圖給出判別準則,但仍偏重哲學思考的范疇[7]; ②對于每個具體學科,專業(yè)研究者更加關注細分領域的數(shù)據(jù)獲取與分析,知識體系的整體探討較為少見,以本文討論的海洋地質(zhì)學科為例,由于其僅僅只有70 a的發(fā)展歷史,尚缺少對其知識體系的探討和論述。
知識體系概念模型包括4個層次,這里重點選取其中的數(shù)據(jù)、信息和知識3個層次,以建立關于海洋地質(zhì)知識體系的實例模型。對于模型中的每個層次,從計量單位、數(shù)據(jù)描述、資源匯聚體系和碎片化與移動服務4個方面給出其主要特征(表1),結(jié)合當前業(yè)務工作的實際,指出與海洋地質(zhì)相關的一些特點。
表1 海洋地質(zhì)知識體系實例模型
注: 地質(zhì)資料、地質(zhì)數(shù)據(jù)庫、知識庫包含內(nèi)容類型有計量單位、數(shù)據(jù)描述、大數(shù)據(jù)匯聚體系和碎片化與移動服務。
我國海洋地質(zhì)知識體系的實例模型涵蓋了3個傳統(tǒng)的業(yè)務領域,分別為地質(zhì)資料檔案管理、地質(zhì)數(shù)據(jù)庫建設和知識庫管理。一般認為,資料、數(shù)據(jù)和知識的管理與傳統(tǒng)上的圖書、情報及檔案3個學科密不可分[8],但隨著信息技術(shù)的進步,3個領域的運行模式各自發(fā)生了很大的變化,并對知識體系的形成和管理產(chǎn)生了不同的影響。
(1)地質(zhì)資料檔案管理體系是海洋地質(zhì)知識體系資源匯聚的基礎。新中國建立以來,我國就形成了國家-地方兩級地質(zhì)資料管理體系且一直延續(xù)至今[9],并在地質(zhì)資料檔案資源的匯聚過程中發(fā)揮了保障作用。目前,已有的部省兩級地質(zhì)資料館藏機構(gòu)包括全國地質(zhì)資料館、國土資源實物地質(zhì)資料中心和31個省(區(qū)、市)地質(zhì)資料館,館藏地質(zhì)資料47.55萬種[10-11]。此外,隨著油氣、海洋等地質(zhì)資料委托保管機制在2012年的建立和運行,行業(yè)地質(zhì)資料也逐步納入國家地質(zhì)資料管理體系[12]。值得注意的是,我國地質(zhì)資料檔案管理雖然屬于一個獨立的學科且自行發(fā)展,但有關原始地質(zhì)資料和成果地質(zhì)資料的劃分與定義,與知識體系中的“數(shù)據(jù)層”“信息層”對應良好。
國務院《地質(zhì)資料管理條例》中規(guī)定,地質(zhì)資料是指在地質(zhì)工作中形成的文字、圖表、聲像、電磁介質(zhì)等形式的原始地質(zhì)資料、成果地質(zhì)資料和巖礦心、各類標本、光薄片、樣品等實物地質(zhì)資料?!兜刭|(zhì)資料管理條例實施細則》則進一步明確了原始地質(zhì)資料和成果地質(zhì)資料的范圍,將原始地質(zhì)資料細分為8個專業(yè)合計35類實際資料,將成果地質(zhì)資料細分為10個專業(yè)合計58類地質(zhì)圖件和報告。
隨著地質(zhì)資料工作的重點由檔案管理向信息服務轉(zhuǎn)移,一些傳統(tǒng)管理的局限性開始凸顯: 一是檔案“檔-案卷-件”的計量單位較大,這種“數(shù)據(jù)-信息粒度”不適合進行重組和分析; 二是檔案的保存和使用多數(shù)采用紙質(zhì)媒介,不利于信息碎片化處理及在移動應用中使用。此外,我國海洋地質(zhì)資料采取了委托保管方式,原始地質(zhì)資料在各個海洋地質(zhì)調(diào)查機構(gòu)分別歸檔保存,全國性的大數(shù)據(jù)匯聚機制尚不完善。
(2)地質(zhì)數(shù)據(jù)庫建設推動了海洋地質(zhì)知識體系向數(shù)字化形態(tài)發(fā)展。我國基礎地質(zhì)數(shù)據(jù)庫建設是過去近20 a的一項重要工作。自1998 年開始,中國地質(zhì)調(diào)查局組織開展了各省(市、自治區(qū))地質(zhì)數(shù)據(jù)庫試點建設,截至2015 年底,相繼完成了1∶250萬、1∶50萬、1∶25萬、1∶20萬數(shù)字地質(zhì)圖控件數(shù)據(jù)庫,特別是已經(jīng)完成約4 600幅1∶5萬地質(zhì)圖空間數(shù)據(jù)庫,形成了海量的中大比例尺的區(qū)域地質(zhì)圖空間數(shù)據(jù),包括地質(zhì)圖、礦產(chǎn)圖、第四紀地質(zhì)圖或基巖圖以及有關的地質(zhì)報告、說明書、專題報告等,涵蓋了全國近60 a積累的地質(zhì)成果[13]。我國陸域地質(zhì)數(shù)據(jù)庫建設還包括全國重要礦種礦產(chǎn)地數(shù)據(jù)庫、全國區(qū)域地球化學數(shù)據(jù)庫、1∶20萬全國重砂數(shù)據(jù)庫等專業(yè)內(nèi)容,但這些數(shù)據(jù)庫均為成果地質(zhì)資料數(shù)字化所建,原始地質(zhì)資料并未入庫。
我國區(qū)域海洋地質(zhì)數(shù)據(jù)庫建設則是始于2002年,分為區(qū)域海洋地質(zhì)調(diào)查資料數(shù)據(jù)庫和區(qū)域海洋地質(zhì)成果數(shù)據(jù)庫,兩者同時建設,因此能夠與原始地質(zhì)資料和成果地質(zhì)資料一一對應。區(qū)域海洋地質(zhì)調(diào)查資料數(shù)據(jù)庫包括了地球物理調(diào)查資料(站位與測線資料、海洋重力、海洋磁力、地震資料和淺層剖面調(diào)查資料等)、海洋水深地貌調(diào)查資料(水深、多波束和旁側(cè)聲納調(diào)查資料)、區(qū)域地質(zhì)調(diào)查資料(地層資料、表層沉積物樣品、淺柱狀樣、鉆孔資料等以及相關樣品的測試數(shù)據(jù)),區(qū)域海洋地質(zhì)成果數(shù)據(jù)庫則主要包括重力異常系列圖、磁力異常系列圖、水深圖、地貌圖、環(huán)境系列圖、災害系列圖、構(gòu)造圖、地質(zhì)圖、盆地分布及礦產(chǎn)分布等地質(zhì)圖件[14],可以滿足集中管理、重復使用的實際需求。
此外,區(qū)域海洋地質(zhì)數(shù)據(jù)庫以歸檔調(diào)查資料和成果報告為素材,其建設過程滯后于海洋地質(zhì)調(diào)查的實際進度,加之海洋地質(zhì)資料委托保管的原因,原始調(diào)查資料分散保存在各個調(diào)查機構(gòu),難以構(gòu)建全國性的海洋地質(zhì)大數(shù)據(jù)。2017年以來,隨著“地質(zhì)云1.0”的建成和上線運行,海洋地質(zhì)數(shù)據(jù)共享機制將得到一定程度的改善,海洋地質(zhì)數(shù)據(jù)庫建設、更新和服務會逐漸走向規(guī)范[15-16],其固有的“細粒度”“碎片化”“實時性”的優(yōu)勢也會逐步發(fā)揮作用。
(3)中文文獻數(shù)據(jù)庫是我國海洋地質(zhì)知識體系的主體組成。1998年,世界銀行提出了國家知識基礎設施(National Knowledge Infrastructure,NKI)的概念,旨在建立一個可共享、可操作的多學科知識群; 此后,我國三大中文學術(shù)期刊數(shù)據(jù)庫相繼創(chuàng)立并得到了快速的發(fā)展[17]。以中國知網(wǎng)為例,在不到20 a的時間,CNKI《中國學術(shù)期刊(網(wǎng)絡版)》已經(jīng)發(fā)展成為世界上最大的連續(xù)動態(tài)更新的中文學術(shù)期刊全文數(shù)據(jù)庫,內(nèi)容覆蓋自然科學、工程技術(shù)、農(nóng)業(yè)、哲學、醫(yī)學、人文社會科學等多個領域,收錄國內(nèi)學術(shù)期刊約8 000種,全文文獻總量超過5 000萬篇。
CNKI知識庫具備大數(shù)據(jù)應用的所有特征。這類知識庫不僅期刊論文收錄完整,而且具有近乎實時的匯聚能力。2017年,部分期刊論文已經(jīng)實現(xiàn)了“網(wǎng)絡首發(fā)”,提高了期刊出版、發(fā)行的時效。海洋地質(zhì)是知識庫的學科內(nèi)容之一,因此可以通過檢索和大數(shù)據(jù)分析開展相關知識體系的研究。
2013年,王圣潔等[3]對我國海洋地質(zhì)論文進行了計量分析,利用CNKI知識庫對海洋地質(zhì)論文進行了檢索和統(tǒng)計,從載文的作者分布、學科分布、資助來源、研究層次和研究內(nèi)容等5個方面進行了深入討論,揭示了海洋地質(zhì)研究在我國的最新現(xiàn)狀以及存在的問題,討論了海洋地質(zhì)學科的發(fā)展方向。
由于CNKI等知識庫的存在和便利使用,了解海洋地質(zhì)“知識層”的規(guī)模相對簡單,但由于目前的檢索方式仍不能準確得到需要的檢索結(jié)果,“數(shù)據(jù)清洗”成為其中最煩瑣的環(huán)節(jié)。2013年,王圣潔等[3]對我國海洋地質(zhì)論文進行了主題詞檢索,獲得了2000—2012年的有效論文數(shù)量共162篇。其中,中國地質(zhì)調(diào)查局所屬的青島海洋地質(zhì)研究所論文數(shù)量29篇,廣州海洋地質(zhì)調(diào)查局論文數(shù)量18篇,國家海洋局兩研究機構(gòu)論文數(shù)量合計15篇,中國科學院兩研究機構(gòu)論文數(shù)量合計17篇,4所高校論文數(shù)量合計40篇,其他研究機構(gòu)合計43篇。2015年,王圣潔等[5]又按作者單位對青島海洋地質(zhì)研究所發(fā)表的所有論文進行了檢索,獲得了1979—2013年的有效論文數(shù)量1 804篇,其中2000—2012年的論文數(shù)量為1 239篇。
對比以上2種檢索方式和結(jié)果可以看出,使用主題詞檢索只能檢出部分論文,其檢出率約為2%。因此,通過檢出率和抽樣檢索獲得的論文數(shù)量將可以大致估算出我國海洋地質(zhì)論文的總體規(guī)模,1979—2013年形成的海洋地質(zhì)文獻約為10 077篇(表2)。
表2 我國海洋地質(zhì)論文數(shù)量和館藏地質(zhì)資料的規(guī)模
注: ①根據(jù)2%的檢出率進行估算; ②根據(jù)產(chǎn)出率進行估算,其中包括: 國家海洋局研究機構(gòu)設定為12%,中國科學院研究機構(gòu)設定為24%,高校研究機構(gòu)設定為36%; ③館藏地質(zhì)資料總計中未包含其他研究機構(gòu)。
海洋地質(zhì)資料長期分散在各個調(diào)查研究機構(gòu),進行準確的統(tǒng)計較為困難。2012—2016年,中國地質(zhì)調(diào)查局海洋地質(zhì)資料委托保管系統(tǒng)建設項目得以實施,完成了館藏海洋地質(zhì)資料的整理和統(tǒng)計,獲得了1979—2013年館藏地質(zhì)資料的準確數(shù)據(jù),其中,中國地質(zhì)調(diào)查局所屬的青島海洋地質(zhì)研究所計15 109件,廣州海洋地質(zhì)調(diào)查局計66 388件。仍然采用對論文數(shù)量的估計結(jié)果,可以得到2個研究機構(gòu)的資料-論文產(chǎn)出率為12%和2%。
可以看出,不同海洋地質(zhì)調(diào)查研究機構(gòu)的論文產(chǎn)出與地質(zhì)資料比率存在很大差異??紤]到中國科學院以及高校等研究機構(gòu)的產(chǎn)出率一般更高,在給出其適當?shù)慕?jīng)驗值后就可以通過論文數(shù)量對其可能擁有的原始資料進行估算,計算結(jié)果總計超過10萬件,其中中國地質(zhì)調(diào)查局所屬調(diào)查研究機構(gòu)形成的地質(zhì)資料約占80%(表2)。
由于目前尚未形成海洋地質(zhì)知識體系的完整大數(shù)據(jù),對其整體的增長研究缺乏基礎。選擇青島海洋地質(zhì)研究所開展了案例研究,嘗試通過“解剖麻雀”反映我國海洋地質(zhì)發(fā)展的總體趨勢,其獲得的結(jié)論有一定的參考價值。
從補充統(tǒng)計的數(shù)據(jù)來看(表3),大致以1995—2000年為銜接,之前的15 a里,海洋地質(zhì)論文與資料增長表現(xiàn)為平緩線性增長模式,不僅年度增長量較少,年度變化也較?。?之后的15 a里,論文與資料的累計增長轉(zhuǎn)為典型的快速指數(shù)增長模式,年度增長量持續(xù)大幅度提高,顯示我國海洋地質(zhì)工作處在一個快速發(fā)展的階段,其增長趨勢預計仍將持續(xù)15~20 a的時間[3,5]。需要注意的是,2010年之后,論文與資料的增長出現(xiàn)了相反的趨勢,這可能與海洋地質(zhì)調(diào)查與研究的階段性調(diào)整不無相關。
海洋地質(zhì)論文與資料的階段增長還與國家財政投入密切相關。2000年前后,國土資源部的成立以及中國地質(zhì)調(diào)查局的重新組建,事實上增加了海洋地質(zhì)工作的投入,一系列國家海洋地質(zhì)調(diào)查專項的實施推動了海洋地質(zhì)資料和論文的快速增長[3-5]。此外,地質(zhì)調(diào)查與研究的關系一直是地質(zhì)工作部署中的一個重要問題,海洋地質(zhì)論文和資料的同步增長以及趨勢變化都會帶給我們有益的啟示,當海洋地質(zhì)論文與資料增長顯著相關時,表明地質(zhì)調(diào)查與研究的關系密不可分,當論文數(shù)量與資料增長出現(xiàn)階段差異時,則表明地質(zhì)調(diào)查與研究在其不同的發(fā)展階段各有側(cè)重: 2010年前的青島海洋地質(zhì)研究所,其論文增長快于資料增長,具有所謂“研究型”的特征; 2010年以來,論文增長慢于資料增長的速度,開始顯示出“調(diào)查與研究并重”的特點[5](圖2)。
表3 海洋地質(zhì)資料與發(fā)表論文對比統(tǒng)計[5]
數(shù)據(jù)分別來自CNKI文獻數(shù)據(jù)庫和館藏海洋地質(zhì)資料目錄數(shù)據(jù)庫
引入DIKW概念模型并結(jié)合我國地質(zhì)資料檔案管理、海洋地質(zhì)數(shù)據(jù)庫建設和知識分析,提出了我國海洋地質(zhì)知識體系的實例模型,對知識體系的整體規(guī)模進行了估計,對知識體系的增長模式進行了階段劃分,形成以下主要認識:
(1)我國海洋地質(zhì)知識體系可將傳統(tǒng)地質(zhì)資料檔案管理、現(xiàn)代地質(zhì)數(shù)據(jù)庫建設和正在興起的知識管理3個領域結(jié)合為一個整體,其實例模型的提出有助于在一個更高的理論層次上從整體的視角審視3個方面的工作,有助于合理布局相關業(yè)務,建立和完善大數(shù)據(jù)匯聚體系和機制,發(fā)揮海洋地質(zhì)信息科學與技術(shù)的支撐作用。
(2)改革開放40 a,迎來了我國海洋地質(zhì)調(diào)查研究的快速增長時期,與數(shù)據(jù)層和信息層對應的原始地質(zhì)資料和成果地質(zhì)資料累計達到10萬件,與知識層對應的科研論文超過1萬篇。其中,中國地質(zhì)調(diào)查局占有的海洋地質(zhì)資料超過80%以上,以此為基礎可以快速構(gòu)建我國的海洋地質(zhì)核心大數(shù)據(jù)。
(3)海洋地質(zhì)知識體系和大數(shù)據(jù)應用的目的還是在于“發(fā)現(xiàn)價值”,這方面的研究和實踐依舊薄弱: 一是需要加強知識體系的基礎研究,充分發(fā)揮地學統(tǒng)計、數(shù)據(jù)挖掘等技術(shù)優(yōu)勢,促進海洋地球信息科學的創(chuàng)新和突破; 二是大力推進數(shù)據(jù)、信息的開放與共享,努力在社會大數(shù)據(jù)的多樣性中占據(jù)關鍵位置,切實發(fā)揮海洋地質(zhì)調(diào)查成果支撐和保障自然資源管理的先導作用。