宿曉虹 中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心
原始地質(zhì)資料有著保存地質(zhì)調(diào)查工作信息的原始性、詳實(shí)性和完整性等特點(diǎn),原始地質(zhì)資料數(shù)據(jù)集成是地質(zhì)資料信息化工作的重要組成部分。文章介紹了原始地質(zhì)資料管理所面臨的必須從數(shù)字化到數(shù)據(jù)集成變革的原因。同時(shí)也進(jìn)一步說明了原始地質(zhì)資料數(shù)據(jù)化的重要性和數(shù)據(jù)集成進(jìn)程的必然性,在原始地質(zhì)資料數(shù)據(jù)集成實(shí)際過程中存在的現(xiàn)實(shí)問題及建議,以及做好原始地質(zhì)資料電子化的重要意義。
伴隨著信息化、大數(shù)據(jù)計(jì)算技術(shù)的迅猛發(fā)展,地質(zhì)調(diào)查成果資料信息化也緊跟時(shí)代發(fā)展步伐,成為近年來地質(zhì)資料管理關(guān)注的熱點(diǎn)。為進(jìn)一步滿足社會(huì)對地質(zhì)成果資料的需求,需要不斷地發(fā)掘與整合相關(guān)地質(zhì)資料信息資源,開展基于互聯(lián)網(wǎng)的在線化地質(zhì)資料社會(huì)化查詢和下載服務(wù)。地質(zhì)資料信息化是地質(zhì)資料進(jìn)一步擴(kuò)大社會(huì)服務(wù)網(wǎng)絡(luò)化的前提與基礎(chǔ)。國家和省級(jí)各地質(zhì)資料館作為地質(zhì)調(diào)查成果信息資源系統(tǒng)的重要組成部分,正面臨著從傳統(tǒng)地質(zhì)資料檔案線下查詢和借閱服務(wù)轉(zhuǎn)向互聯(lián)網(wǎng)線上信息化服務(wù)的挑戰(zhàn)。地質(zhì)資料信息化成果對促進(jìn)各類地質(zhì)資料館館藏資料管理與便捷的利用,已逐漸被行業(yè)內(nèi)廣大用戶所接受與重視。
伴隨著地質(zhì)資料信息化成果應(yīng)用領(lǐng)域的不斷拓展,國家和省級(jí)各地質(zhì)資料館館藏海量原始地質(zhì)資料數(shù)據(jù)集成,成為地質(zhì)資料檔案館信息化建設(shè)工作所面對和迫切需要解決的巨大難題之一,也是地質(zhì)工作“一張圖”平臺(tái)建設(shè)所需數(shù)據(jù)的重要來源之一,是地質(zhì)資料管理事業(yè)適應(yīng)信息化時(shí)代發(fā)展的必然趨勢。原始地質(zhì)資料數(shù)據(jù)信息化集成成果,對促進(jìn)館藏地質(zhì)成果資料社會(huì)化利用率與潛在價(jià)值的提升將起到極大的推進(jìn)作用。隨著中國地質(zhì)調(diào)查局“地質(zhì)云3.0”平臺(tái)在互聯(lián)網(wǎng)上的大力應(yīng)用和推廣,行業(yè)內(nèi)用戶和社會(huì)大眾對圖文地質(zhì)資料信息化成果工作的意義也有了全新的認(rèn)識(shí)。但現(xiàn)有紙質(zhì)和部分?jǐn)?shù)字化的原始地質(zhì)資料數(shù)量和有限的利用率,以及再次利用的復(fù)雜性,已遠(yuǎn)不能充分滿足地質(zhì)調(diào)查工作整體規(guī)劃和部署的需要,由于地質(zhì)成果資料數(shù)據(jù)集成程度的不足,對區(qū)域資源評(píng)價(jià)、形勢分析和保障程度論證有較大的分歧,選區(qū)規(guī)劃難以全面制定。
自1999年以來,伴隨著20多年來地質(zhì)調(diào)查工作的全面推進(jìn),地質(zhì)勘查中最基礎(chǔ)的第一手地質(zhì)信息即原始地質(zhì)資料,正在以驚人的數(shù)量和速度匯聚在國家和省級(jí)地質(zhì)資料館或是地質(zhì)調(diào)查項(xiàng)目實(shí)施單位,歸檔的原始地質(zhì)資料絕大多數(shù)是紙質(zhì)和數(shù)字化檔案,數(shù)據(jù)資料歸檔資源所占比例較低,這給原始地質(zhì)資料數(shù)據(jù)集成工作帶來了很大難度。
地質(zhì)科技檔案主要分為原始地質(zhì)資料、成果地質(zhì)資料及地質(zhì)科技資料三大類。原始地質(zhì)資料具有保存信息原始性、系統(tǒng)性、完整性和保存長期性等特點(diǎn)。在有些原始資料中,所涉及到的地質(zhì)、資源數(shù)據(jù)信息,鑒于當(dāng)時(shí)的科學(xué)技術(shù)水平限制,未能正確地進(jìn)行分析、解譯,所得出的結(jié)論可能不夠完整和準(zhǔn)確。有些地質(zhì)工作人員或研究人員由于當(dāng)時(shí)觀點(diǎn)認(rèn)識(shí)的不同,忽略了一些重要的地質(zhì)信息,這也可能造成信息遺漏。隨著科學(xué)技術(shù)水平的發(fā)展和綜合研究能力的提高,我們在重新查閱以往館藏的原始地質(zhì)資料時(shí),需要提取數(shù)據(jù)信息重新進(jìn)行綜合分析或研究,可能會(huì)得到新的信息、新的認(rèn)識(shí),取得較大的地質(zhì)調(diào)查或科研理論突破。所以,原始地質(zhì)資料有著長遠(yuǎn)的、重要的備查和備考作用,它的再次可利用性越來越受到廣大地質(zhì)工作者的重視。
西安地質(zhì)調(diào)查中心原地調(diào)部從地質(zhì)項(xiàng)目設(shè)立初始階段就制定了地質(zhì)資料管理相關(guān)細(xì)則,其中對原始地質(zhì)資料的歸檔內(nèi)容進(jìn)行了詳細(xì)的規(guī)定。隨著時(shí)代的變遷,地質(zhì)資料管理的各項(xiàng)規(guī)章制度不斷細(xì)化修訂,但是原始地質(zhì)資料一直是地質(zhì)資料的重要組成部分。在以往的歲月里因?yàn)楦黝悧l件所限,原始地質(zhì)資料歸檔的載體形式多樣,規(guī)格大小不一,并且多以紙介質(zhì)為主,少量數(shù)字化成果,同時(shí)地質(zhì)資料本身分類繁多,雖然項(xiàng)目工作周期時(shí)間跨度大,數(shù)量繁多,但是地質(zhì)成果資料歸檔管理工作一直延續(xù)從未間斷。
隨著地質(zhì)詳查工作在全國范圍內(nèi)的全面推進(jìn),已有地質(zhì)成果資料已不能滿足項(xiàng)目調(diào)查、研究的需求,許多項(xiàng)目需要查閱調(diào)查區(qū)的第一手原始地質(zhì)資料,用以開展工作區(qū)綜合分析,但翻閱歸檔的傳統(tǒng)紙介質(zhì)資料加大了項(xiàng)目工作人員進(jìn)一步開展工作的繁雜性。另一方面大量的紙介質(zhì)原始地質(zhì)資料匯聚,對各館藏單位的庫房管理也造成了巨大的壓力,原始地質(zhì)資料的數(shù)字化呼聲日益高漲。在此前提下,2008年-2013年中國地質(zhì)調(diào)查局發(fā)展研究中心對重要原始地質(zhì)資料開展數(shù)字化工作,陸續(xù)在天津地質(zhì)調(diào)查中心、沈陽地質(zhì)調(diào)查中心和西安地質(zhì)調(diào)查中心等三家單位進(jìn)行了試點(diǎn),同時(shí)全國已有部分省級(jí)地質(zhì)資料館也開始了原始地質(zhì)資料數(shù)字化,并于2014年制定了相關(guān)標(biāo)準(zhǔn)規(guī)范。但是,全國原有館藏原始地質(zhì)資料數(shù)字化工作因種種客觀原因進(jìn)展緩慢。
為了實(shí)現(xiàn)原始地質(zhì)資料現(xiàn)代化、信息化管理,充分發(fā)揮其在國民經(jīng)濟(jì)建設(shè)中的作用,對其進(jìn)行數(shù)據(jù)集成已是地質(zhì)資料集群化、產(chǎn)業(yè)化大勢所趨。2015年中國地質(zhì)調(diào)查局發(fā)展研究中心就所屬29家單位的成果地質(zhì)資料、原始地質(zhì)地質(zhì)資料等館藏資料進(jìn)行文件級(jí)目錄的摸底工作,為地質(zhì)資料的數(shù)據(jù)集成、信息化工作的開展打下基礎(chǔ)。隨著2019年地質(zhì)調(diào)查在線化工作全面開展,數(shù)據(jù)資料成為近兩年來原始地質(zhì)資料歸檔的主體,但是原有大量館藏紙介質(zhì)和數(shù)字化資料是原始資料數(shù)據(jù)集成工作面臨的巨大瓶頸。由于原始地質(zhì)資料載體的局限性和信息提取的難度較大,截止2018年地質(zhì)信息產(chǎn)品和數(shù)據(jù)的研發(fā)多以成果地質(zhì)資料數(shù)據(jù)集成為基礎(chǔ)。本文結(jié)合西安地質(zhì)調(diào)查中心館藏的原始地質(zhì)資料情況,借鑒西安地質(zhì)調(diào)查中心原始地質(zhì)資料數(shù)據(jù)集成前期的工作經(jīng)驗(yàn)和認(rèn)識(shí),淺談對原始地質(zhì)資料數(shù)據(jù)集成工作面臨的問題和建議。
西安地質(zhì)調(diào)查中心從上世紀(jì)60年代至今積累了海量的紙介質(zhì)原始地質(zhì)資料,從大量紙質(zhì)資料中進(jìn)行數(shù)據(jù)集成所要耗費(fèi)的時(shí)間和人員在2-3年內(nèi)都無法完成。因此原始地質(zhì)資料的數(shù)字化資源是原始資料數(shù)據(jù)快速集成的基礎(chǔ)。截止2015年底,西安地質(zhì)調(diào)查中心完成了館藏715檔原始地質(zhì)資料共計(jì)1578幅(也)地質(zhì)圖件的圖文數(shù)字化,僅占館藏紙介質(zhì)原始地質(zhì)資料的19%,資料圖文數(shù)字化程度較低。
基于傳統(tǒng)觀念地質(zhì)資料管理部門在單位所處的地位和人員配置一直是地質(zhì)資料數(shù)據(jù)集成工作的掣肘。資料管理人員不僅配置嚴(yán)重不足,結(jié)構(gòu)也不甚合理,素質(zhì)亟待提高。原始地質(zhì)資料的數(shù)據(jù)集成是一個(gè)非常龐大的系統(tǒng)工程,它需要基礎(chǔ)工作人員將紙介質(zhì)資料數(shù)字化,專業(yè)人員根據(jù)上層地質(zhì)信息產(chǎn)品和數(shù)據(jù)的設(shè)計(jì)進(jìn)行信息提取、數(shù)據(jù)庫建設(shè)以及開發(fā)多樣化的利用形式。但是在地質(zhì)信息產(chǎn)品和數(shù)據(jù)研發(fā)方面3-4人的團(tuán)隊(duì)配置是遠(yuǎn)遠(yuǎn)無法完成這些繁瑣而大量的工作。受人員編制和其他原因所限,在引進(jìn)人才方面與其他部門相比處于劣勢。
西安地質(zhì)調(diào)查中心在2013-2015年連續(xù)三年開展的地質(zhì)資料數(shù)字化工作,是在中國地質(zhì)調(diào)查局發(fā)展研究中心下達(dá)了資料管理方向的地質(zhì)調(diào)查項(xiàng)目經(jīng)費(fèi)支撐下開展的。彼時(shí)為了解放出專業(yè)技術(shù)人員用來梳理出需求量大的原始地質(zhì)資料,返聘了四個(gè)有多年工作經(jīng)驗(yàn)的資料員,還委托了符合資質(zhì)的專業(yè)數(shù)字化團(tuán)隊(duì)才完成了715檔原始地質(zhì)資料的數(shù)字化工作。2016年后經(jīng)費(fèi)調(diào)整再未設(shè)立相關(guān)項(xiàng)目,資料管理經(jīng)費(fèi)由中心統(tǒng)籌支付,僅能維持資料的接收、驗(yàn)收、借閱、存儲(chǔ)和庫房管理等日常工作運(yùn)行,資料數(shù)字化工作已全面停滯。
現(xiàn)有館藏的原始地質(zhì)資料因當(dāng)時(shí)接收人員的原因,部分歸檔文件存在一定的問題,如部分野外記錄和圖件著墨不規(guī)范,部分文字或圖上的標(biāo)識(shí)已經(jīng)脫墨,模糊不清。部分圖件因使用頻繁,老化破損嚴(yán)重,需要搶救性修復(fù)等問題。這些原因都增加了原始地質(zhì)資料圖文數(shù)字化的困難,阻礙了進(jìn)程。在2013年的試點(diǎn)工作中西安地質(zhì)調(diào)查中心特意做了圖文數(shù)字化的時(shí)間記錄測試,選擇2005年以后歸檔區(qū)域地質(zhì)、礦產(chǎn)調(diào)查及水工環(huán)資料各1檔共計(jì)9851張(頁),資料中有部分文字和圖件歸檔了電子版本,節(jié)約了不少時(shí)間。盡管如此仍然專人專事工作了27天,如下圖所示:
隨著社會(huì)的發(fā)展,地質(zhì)資料定密等級(jí)的依據(jù)一直在修訂完善,因此不同時(shí)期歸檔的原始地質(zhì)資料中同一種資料確定的密級(jí)相差甚遠(yuǎn)。要將現(xiàn)有的館藏原始地質(zhì)資料數(shù)字化,首先就要根據(jù)新的制度重新認(rèn)定密級(jí),這是一項(xiàng)龐大的工作任務(wù)。
原始資料數(shù)據(jù)集成的理想狀態(tài)是根據(jù)自然資源部和中國地質(zhì)調(diào)查局的區(qū)域規(guī)劃,專業(yè)技術(shù)人員結(jié)合本單位所轄研究區(qū)和現(xiàn)有資料策劃開發(fā)市場需求的集成成果?,F(xiàn)在所面臨困境是,上層負(fù)責(zé)的成果集成設(shè)計(jì)的人員不是數(shù)據(jù)集成團(tuán)隊(duì)的成員,策劃的產(chǎn)品只考慮已有資料的擁有范圍和市場的需求,不了解底層的資料數(shù)字化程度處于較低狀態(tài),有效數(shù)據(jù)信息提取程度有限,根本無法滿足上層策劃的數(shù)據(jù)集成要求。任務(wù)下達(dá)后底層的技術(shù)人員再向上反饋所面臨無法完成任務(wù)的原因及可完成的部分內(nèi)容,申請修改上層策劃或部分完成成果集成。這樣的事情時(shí)有發(fā)生,嚴(yán)重影響了地質(zhì)資料信息服務(wù)的進(jìn)程。
原始地質(zhì)資料的數(shù)據(jù)快速集成的第一步必然是圖文資料的數(shù)字化,然而大部分的館藏地質(zhì)資料尚未實(shí)現(xiàn)數(shù)字化。應(yīng)采取以下措施加快館藏地質(zhì)資料圖文數(shù)字化工作。一是加大資金和人員投入。應(yīng)設(shè)立專項(xiàng)資金,才可組織擴(kuò)大專業(yè)團(tuán)隊(duì),快速開展原始地質(zhì)資料的圖文數(shù)字化;二是要加強(qiáng)技術(shù)研究,如柵格圖件矢量化技術(shù)研究,資料老、舊、破修復(fù)技術(shù)研究等,縮減圖文數(shù)字化時(shí)間。
人才在地質(zhì)資料數(shù)據(jù)集成工作中始終處于主導(dǎo)地位。一是借助地質(zhì)資料管理的信息化建設(shè),引入更多的、高素質(zhì)的專業(yè)技術(shù)人員,同時(shí)讓數(shù)據(jù)集成人員有話語權(quán),充分開發(fā)和利用已有原始地質(zhì)資料數(shù)據(jù)信息資源結(jié)合上層規(guī)劃,研發(fā)企業(yè)、科研人員和公眾地質(zhì)資料需求的服務(wù)產(chǎn)品,擴(kuò)大數(shù)據(jù)集成的影響力,從而提升原始地質(zhì)資料數(shù)據(jù)集成工作的重要性,為原始地質(zhì)資料的數(shù)據(jù)化集成工作全面開展奠定基礎(chǔ)。二是有了好的工作局面就可以集結(jié)更多方面的人才,原始地質(zhì)資料各專業(yè)的數(shù)據(jù)集成才可分工明確,信息提取準(zhǔn)確、可靠,區(qū)域面積自然資源數(shù)據(jù)的綜合集成才可無障礙進(jìn)行,原始地質(zhì)資料中存儲(chǔ)的寶貴知識(shí)財(cái)富才可充分利用。
發(fā)揮原始地質(zhì)資料資源的作用,針對熱門資料借取需求,分課題、專業(yè)提供進(jìn)行成果集成,定期跟蹤服務(wù)。利用第一手資料的優(yōu)勢,多提供綜述、述評(píng)、研究報(bào)告等深層次的二次文獻(xiàn)。
原始地質(zhì)資料是地質(zhì)勘查,科學(xué)研究工作中取得的第一手?jǐn)?shù)據(jù)資料,是研究地質(zhì)科學(xué),編寫最終成果——地質(zhì)報(bào)告的基礎(chǔ)和依據(jù),包含著整個(gè)項(xiàng)目的工作周期所有的調(diào)查成果。原始地質(zhì)資料信息內(nèi)容豐富,數(shù)據(jù)準(zhǔn)確,極為寶貴。地質(zhì)資料數(shù)據(jù)集成工作是一項(xiàng)復(fù)雜的系統(tǒng)工程,需要長期細(xì)致的工作,在數(shù)據(jù)集成過程中進(jìn)一步提高認(rèn)識(shí),加快數(shù)據(jù)集成步伐已成為必然。原始地質(zhì)資料數(shù)據(jù)集成是地質(zhì)資料信息化工作的重要組成部分,把傳統(tǒng)的檔案信息管理與網(wǎng)絡(luò)化數(shù)據(jù)化管理相結(jié)合,提高原始地質(zhì)資料的利用率,是地質(zhì)檔案工作者今后一個(gè)時(shí)期的重點(diǎn)工作。把開展原始地質(zhì)資料數(shù)據(jù)化服務(wù),填補(bǔ)地質(zhì)資料館藏信息化內(nèi)容方面的空白,拓寬地質(zhì)資料服務(wù)渠道,為地質(zhì)檔案行業(yè)更好的的開展社會(huì)化服務(wù)提供數(shù)據(jù)支撐工作。