劉敬儀 江洪 廖宇
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系,北京 100190;3.中國(guó)科學(xué)院武漢文獻(xiàn)情報(bào)中心,武漢 430071)
目前,科學(xué)研究已進(jìn)入“第四范式”——數(shù)據(jù)密集型科學(xué),這代表著科學(xué)數(shù)據(jù)在當(dāng)今時(shí)代占有極其重要的位置,是科學(xué)事業(yè)發(fā)展的基礎(chǔ)?!暗谒姆妒健弊钤缬杉贰じ窭子?007年1月發(fā)表的《e-Science:一種科研模式的變革》學(xué)術(shù)演講中提出[1],其指出科學(xué)模擬連同實(shí)驗(yàn)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)經(jīng)軟件處理形成信息和知識(shí),最終被存儲(chǔ)到數(shù)據(jù)中心,科研人員只需從數(shù)據(jù)中心中查找所需數(shù)據(jù),由于數(shù)據(jù)密集型研究具有獨(dú)特技術(shù)支持需求的鮮明特點(diǎn),使其與“第三范式”——計(jì)算科學(xué)區(qū)別開(kāi)來(lái),獨(dú)立為“第四范式”——數(shù)據(jù)密集型科學(xué)。而在新范式的科學(xué)研究環(huán)境中,海量的科學(xué)數(shù)據(jù)是最重要的資源,這就要求科學(xué)界針對(duì)數(shù)據(jù)密集的特點(diǎn),利用新技術(shù)對(duì)科學(xué)數(shù)據(jù)進(jìn)行更有效的管理,不僅在意識(shí)上提升對(duì)數(shù)據(jù)中心重要性的認(rèn)識(shí),同時(shí)應(yīng)更加注重建設(shè)數(shù)據(jù)中心過(guò)程所涉及的方方面面工作。國(guó)務(wù)院辦公廳于2018年4月2日發(fā)布《科學(xué)數(shù)據(jù)管理辦法》,在第三章“采集、匯交與保存”中多次提到應(yīng)將有關(guān)科學(xué)數(shù)據(jù)匯交至科學(xué)數(shù)據(jù)中心,且應(yīng)在建設(shè)較好的科學(xué)數(shù)據(jù)中心基礎(chǔ)上,進(jìn)行優(yōu)化與整合,以形成國(guó)家科學(xué)數(shù)據(jù)中心[2]。綜合可見(jiàn),科學(xué)數(shù)據(jù)中心是開(kāi)展與某特定學(xué)科相關(guān)科學(xué)數(shù)據(jù)管理工作(數(shù)據(jù)生產(chǎn)、數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)保存、數(shù)據(jù)共享、數(shù)據(jù)重用)的必要支點(diǎn),其以學(xué)科專業(yè)數(shù)據(jù)的特點(diǎn)(如重要性、唯一性、可獲得性、可用性、時(shí)效性,科學(xué)價(jià)值與社會(huì)價(jià)值,與其他資源的相關(guān)性)為基點(diǎn),隨著科學(xué)數(shù)據(jù)管理的實(shí)踐發(fā)展而為不斷滿足科研利益相關(guān)者產(chǎn)生的新需求進(jìn)行調(diào)整與改進(jìn)。在科學(xué)研究的新范式下,各學(xué)科更應(yīng)首先積極建設(shè)有關(guān)各學(xué)科的科學(xué)數(shù)據(jù)中心,完善并加強(qiáng)與之相關(guān)工作的開(kāi)展,從而為國(guó)家科學(xué)數(shù)據(jù)管理整體工作的順利進(jìn)行提供基礎(chǔ)保障與有效支撐。
國(guó)內(nèi)外的理論研究主要可以歸納為3個(gè)方面。①數(shù)據(jù)中心工作進(jìn)展情況描述。如張潔等[3]以中國(guó)南北極數(shù)據(jù)中心為研究對(duì)象,主要闡釋了該中心在數(shù)據(jù)共享工程方面的工作進(jìn)展,細(xì)分為中心數(shù)據(jù)的匯交、發(fā)布和網(wǎng)站頁(yè)面更新3個(gè)方面內(nèi)容;李紅星等[4]從數(shù)據(jù)服務(wù)理念與成效兩個(gè)方面對(duì)中國(guó)西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心開(kāi)展研究。②數(shù)據(jù)中心整體介紹。如Benson等[5]對(duì)GenBank開(kāi)展了相關(guān)研究;Witt[6]主要對(duì)普渡大學(xué)圖書館的分布式數(shù)據(jù)管理中心進(jìn)行了研究,指出該中心將圖書館館員,圖書館學(xué)與檔案學(xué)原理,領(lǐng)域科學(xué)、計(jì)算機(jī)與信息科學(xué)及信息技術(shù)相結(jié)合以應(yīng)對(duì)管理科學(xué)數(shù)據(jù)帶來(lái)的挑戰(zhàn)。③數(shù)據(jù)中心建設(shè)探索。如Deshpande等[7]以蛋白質(zhì)數(shù)據(jù)庫(kù)為例,對(duì)其系統(tǒng)建設(shè)等進(jìn)行研究;崔雁[8]調(diào)研了科學(xué)數(shù)據(jù)中心的具體政策并進(jìn)行分析;張思思等[9]以組學(xué)原始數(shù)據(jù)歸檔庫(kù)為依托,對(duì)數(shù)據(jù)類別與使用和運(yùn)行效果方面展開(kāi)論述與說(shuō)明等。
國(guó)內(nèi)外皆已具有一定數(shù)量的科學(xué)數(shù)據(jù)中心,且學(xué)科涵蓋面較廣。①自然科學(xué)領(lǐng)域。如適用于生態(tài)學(xué)、植物學(xué)、遺傳學(xué)、進(jìn)化等的Dryad[10];面向分子生物學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算生物學(xué)等的Protein Data Bank[11];英國(guó)環(huán)境科學(xué)數(shù)據(jù)分析中心[12];我國(guó)以收集、整理、存儲(chǔ)國(guó)內(nèi)乃至國(guó)際上寒區(qū)旱區(qū)領(lǐng)域的科學(xué)數(shù)據(jù)為主的寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心[13];以采集國(guó)內(nèi)病毒學(xué)科的各類病毒活體毒株的保存信息為主的病毒資源基礎(chǔ)數(shù)據(jù)庫(kù)[14]等。②社會(huì)科學(xué)領(lǐng)域。如采集并保存高質(zhì)量藝術(shù)與文化政策數(shù)據(jù)的美國(guó)文化政策與藝術(shù)國(guó)家數(shù)據(jù)中心[15];挪威社會(huì)科學(xué)數(shù)據(jù)服務(wù)中心[16];以確保公民具有獲取城市相關(guān)信息權(quán)利的加拿大區(qū)域城市開(kāi)放數(shù)據(jù)中心[17];由我國(guó)復(fù)旦大學(xué)與美國(guó)哈佛大學(xué)共同合作的復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)平臺(tái)[18]等。
根據(jù)國(guó)內(nèi)外理論研究和實(shí)踐進(jìn)展發(fā)現(xiàn),我國(guó)科學(xué)數(shù)據(jù)中心整體起步比歐美等發(fā)達(dá)國(guó)家較晚,且在某些領(lǐng)域存在科學(xué)數(shù)據(jù)中心發(fā)展緩慢,無(wú)法為新時(shí)期的科研用戶提供對(duì)應(yīng)數(shù)據(jù)服務(wù)的問(wèn)題。同時(shí),科學(xué)研究已進(jìn)入數(shù)據(jù)密集型范式,積極建設(shè)高質(zhì)量科學(xué)數(shù)據(jù)中心是我國(guó)科學(xué)研究躋身國(guó)際前列不可或缺的利刃??茖W(xué)數(shù)據(jù)中心的高效發(fā)展離不開(kāi)相關(guān)經(jīng)驗(yàn)的支撐,通過(guò)文獻(xiàn)調(diào)研、網(wǎng)站內(nèi)容分析及綜合考慮re3data.org上各國(guó)家科學(xué)數(shù)據(jù)中心注冊(cè)和實(shí)際建設(shè)情況,將調(diào)研對(duì)象確定為德國(guó)地球領(lǐng)域的20個(gè)科學(xué)數(shù)據(jù)中心,原因主要有3個(gè)方面:①地球科學(xué)領(lǐng)域與人類生活首要相關(guān),但我國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心數(shù)量較少(10個(gè)),整體建設(shè)尚存不足,不能為本領(lǐng)域科學(xué)數(shù)據(jù)提供全面支撐與服務(wù);②當(dāng)今學(xué)者對(duì)英美兩國(guó)的相關(guān)研究較多,德國(guó)地球科學(xué)數(shù)據(jù)中心數(shù)量因較為龐大適合做特征梳理,同時(shí)缺少學(xué)者關(guān)注;③德國(guó)地球科學(xué)數(shù)據(jù)中心建設(shè)體系較完善,發(fā)展較為成熟,可以為國(guó)內(nèi)地球科學(xué)數(shù)據(jù)中心在技術(shù)與管理系統(tǒng)、人員配備、組織分工和中心相應(yīng)政策制定等方面存在的不足予以啟示。
目前德國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心的建設(shè)數(shù)量為109個(gè)(包括與國(guó)際和其他國(guó)家聯(lián)合建立、自建兩類),位列全球范圍同學(xué)科數(shù)據(jù)中心第二位,次于美國(guó)。根據(jù)中心性質(zhì)對(duì)本文調(diào)研對(duì)象分類,可分為純數(shù)據(jù)提供者、純服務(wù)提供者、混合型(為用戶既提供數(shù)據(jù),又提供與數(shù)據(jù)相關(guān)的服務(wù))3類。
2.1.1 純數(shù)據(jù)提供者
純數(shù)據(jù)提供者共有9個(gè),分別是:①RESA[19],為科學(xué)用戶免費(fèi)提供RapidEye衛(wèi)星編隊(duì)的光學(xué)圖像數(shù)據(jù);②GeoReM[20],是馬克斯·普朗克研究所的數(shù)據(jù)庫(kù),主要收集地質(zhì)和環(huán)境方面的參考材料,包含已發(fā)表的分析數(shù)據(jù)和匯編值,關(guān)于分析值的所有重要元數(shù)據(jù)、示例信息和參考資料,并對(duì)地球化學(xué)領(lǐng)域的3個(gè)數(shù)庫(kù)(GEOROC、NAVDAT和PETDB)加以補(bǔ)充;③DAHITI[21],為水文應(yīng)用提供由多任務(wù)衛(wèi)星測(cè)高得到的湖泊、水庫(kù)、河流和濕地的水位時(shí)間序列;④SAMD[22],是新的標(biāo)準(zhǔn)化大氣測(cè)量數(shù)據(jù)存儲(chǔ)庫(kù),主要觀察、存儲(chǔ)中歐地區(qū)云層和降水的相關(guān)數(shù)據(jù);⑤Chorotree[23],是全球樹(shù)木和灌木分布數(shù)據(jù)的存儲(chǔ)與信息系統(tǒng),以一種有用的、可獲得的方式為專家或非專業(yè)人士提供數(shù)據(jù)和信息;⑥PANGAEA[24],其作為一個(gè)開(kāi)放獲取圖書館,旨在保存、出版和分發(fā)來(lái)自地球系統(tǒng)研究的地質(zhì)參考數(shù)據(jù),并與運(yùn)營(yíng)機(jī)構(gòu)簽訂協(xié)議保證其內(nèi)容的長(zhǎng)期可用性;⑦GeotIS[25],提供與地?zé)衢_(kāi)發(fā)有關(guān)的德國(guó)深層含水層的信息與數(shù)據(jù)匯編,是基于公共互聯(lián)網(wǎng)的信息系統(tǒng),滿足用戶對(duì)地?zé)岬貓D集的全面、大規(guī)模獨(dú)立形式的需求,且可以不斷更新地圖集,通過(guò)可視化溫度、水力特性和相關(guān)地層單位的深度幫助用戶識(shí)別地?zé)釢摿?;⑧GNSS-ISDC[26],目前只提供觀測(cè)數(shù)據(jù)、導(dǎo)航數(shù)據(jù)、氣象數(shù)據(jù)和有限空間覆蓋的優(yōu)質(zhì)數(shù)據(jù)等;⑨GEOROC[27],其數(shù)據(jù)樣本來(lái)自11種不同的地質(zhì)環(huán)境,元數(shù)據(jù)包括緯度和經(jīng)度的地理位置、巖石類別和類型、蝕變等級(jí)、分析方法、實(shí)驗(yàn)室、參考資料和參考文獻(xiàn)。
2.1.2 純服務(wù)提供者
純服務(wù)提供者占比較少,有3個(gè):①C3Grid[28],是德國(guó)氣候共同體的共同倡議,為統(tǒng)一訪問(wèn)異構(gòu)數(shù)據(jù)和分布式數(shù)據(jù)處理而開(kāi)發(fā)一個(gè)基礎(chǔ)設(shè)施;②Data Portal German Marine Research[29],實(shí)施可持續(xù)的電子基礎(chǔ)設(shè)施,以連貫地發(fā)現(xiàn)、查看、下載和傳播海洋研究數(shù)據(jù);③TERENO Data Portal[30],通過(guò)開(kāi)放地理空間信息聯(lián)盟Web服務(wù)從各個(gè)天文臺(tái)收集和發(fā)布的數(shù)據(jù)匯集在一起,并向用戶提供數(shù)據(jù)訪問(wèn)。
2.1.3 混合型
混合型與純數(shù)據(jù)提供者占比相當(dāng),共有8個(gè):①Geo Portal.rlp[31],對(duì)地理數(shù)據(jù)進(jìn)行集中搜索與可視化,通過(guò)電子網(wǎng)絡(luò)建立對(duì)地理數(shù)據(jù)的訪問(wèn);②GEOFON[32],提供可快速跨國(guó)獲取的地震數(shù)據(jù)和大地震源參數(shù),并長(zhǎng)期保持這些數(shù)據(jù)的可獲得性,使得德國(guó)高校和機(jī)構(gòu)科學(xué)家的臨時(shí)實(shí)驗(yàn)數(shù)據(jù)得以保存并具有可獲取性,與合作機(jī)構(gòu)和國(guó)際中心組織的實(shí)時(shí)和存檔數(shù)據(jù)進(jìn)行數(shù)據(jù)交換;③ICDC[33],允許用戶訪問(wèn)來(lái)自現(xiàn)場(chǎng)測(cè)量和衛(wèi)星遙感的氣候相關(guān)數(shù)據(jù)以及在觀測(cè)數(shù)據(jù)基礎(chǔ)上建模的再分析數(shù)據(jù);④FRED[34],存儲(chǔ)并共享來(lái)自湖泊、河流、泥炭地和其他淡水棲息地的觀測(cè)數(shù)據(jù),為方便重用,所有數(shù)據(jù)皆包含文本形式的詳細(xì)元數(shù)據(jù)描述;⑤OSIS[35],為用戶提供文檔交換、公共或個(gè)人微博、論壇以及外部網(wǎng)頁(yè)和服務(wù)的實(shí)現(xiàn),與出版物數(shù)據(jù)庫(kù)/存儲(chǔ)庫(kù)OceanRep建立鏈接;⑥RESPECT[36],揭示厄瓜多爾南部山地雨林的主要生態(tài)系統(tǒng)功能,主要采用兩種方法解決研究問(wèn)題,即新一代地表模型(Land Surface Model)與統(tǒng)計(jì)學(xué)的響應(yīng)-效應(yīng)框架(Response-effect Framework);⑦ISDC[37],是各種地球科學(xué)地理數(shù)據(jù)、相應(yīng)元數(shù)據(jù)、科學(xué)文檔和軟件工具的獲取點(diǎn);⑧CDC[38],為用戶提供包括德國(guó)氣候數(shù)據(jù),以及國(guó)際合作框架下收集和處理的全球氣候數(shù)據(jù)。
數(shù)據(jù)中心存儲(chǔ)著大量的數(shù)據(jù),良好的技術(shù)應(yīng)用與管理系統(tǒng)在中心運(yùn)行中發(fā)揮至關(guān)重要的作用,幫助維護(hù)中心日常工作、測(cè)量并分析海量數(shù)據(jù)以及更有效地管理數(shù)據(jù)等,從而為用戶提供其所需要的數(shù)據(jù)和服務(wù)。調(diào)研中發(fā)現(xiàn),GeoReM共應(yīng)用包含原子吸收光譜法、加速器質(zhì)譜法和陰極溶出伏安法等在內(nèi)的86種分析技術(shù)以更加精準(zhǔn)、全面地測(cè)量對(duì)象并進(jìn)行定性或(及)定量分析,從而將所得數(shù)據(jù)提供給相關(guān)用戶;GeoPortal.rlp采用6種基于開(kāi)源軟件的特定組件為用戶提供數(shù)據(jù)與服務(wù),包括Mapbender(可視化、授權(quán)和服務(wù)注冊(cè)組件)、MAPSERVER(高性能地圖服務(wù)器)、GeoServer(可訪問(wèn)幾何數(shù)據(jù)且具有只讀和讀寫功能的地圖服務(wù)器)、PostgreSQL(基于地理信息系統(tǒng)擴(kuò)展的對(duì)象關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))、TYPO3(用于提供和處理網(wǎng)絡(luò)用戶界面的內(nèi)容管理系統(tǒng))、MediaWiki(在用戶和提供者之間交換信息的媒介);SAMD建立了分布式數(shù)據(jù)服務(wù)器的結(jié)構(gòu)[39],而這些服務(wù)器的中央管理皆是基于Unidata機(jī)構(gòu)的一種稱作“專題實(shí)時(shí)環(huán)境數(shù)據(jù)分發(fā)系統(tǒng)”的數(shù)據(jù)管理系統(tǒng),該系統(tǒng)的好處在于可以簡(jiǎn)化發(fā)現(xiàn)、使用地球空間數(shù)據(jù)的過(guò)程,同時(shí)為領(lǐng)域研究者提供一個(gè)較為簡(jiǎn)便高效的集成環(huán)境并在該環(huán)境中供給、發(fā)布和查詢地球空間數(shù)據(jù)。
人員構(gòu)成與組織分工是數(shù)據(jù)中心建設(shè)過(guò)程中的核心,恰當(dāng)?shù)娜藛T與工作安排可以為中心建設(shè)提供強(qiáng)有力的支撐,在機(jī)構(gòu)與用戶之間發(fā)揮橋梁作用,維護(hù)中心正常運(yùn)轉(zhuǎn)的同時(shí)根據(jù)用戶反饋和需求完善中心建設(shè)。本文在明確列出人員構(gòu)成與組織分工的中心中挑選出職責(zé)分工較為清晰的3個(gè)中心進(jìn)行闡述。GEOROC團(tuán)隊(duì)由4人組成,其中1人負(fù)責(zé)協(xié)調(diào)與數(shù)據(jù)輸入工作、1人負(fù)責(zé)系統(tǒng)管理、其他2人只負(fù)責(zé)數(shù)據(jù)輸入。TERENO Data Portal下設(shè)3個(gè)組織部門,部門分工明確,相輔相成,共同支撐中心開(kāi)展工作:①咨詢委員會(huì),由12個(gè)外部合作伙伴和獨(dú)立專家組成的國(guó)際小組;②科學(xué)指導(dǎo)委員會(huì),由有關(guān)研究中心的代表組成,主要任務(wù)是確定天文臺(tái)的基本結(jié)構(gòu);③協(xié)調(diào)委員會(huì),管理TERENO的日常工作,與前兩個(gè)部門合作,制定并執(zhí)行TERENO活動(dòng)計(jì)劃。GeotIS的人員分為項(xiàng)目管理人和項(xiàng)目職員,管理人目前共有3人,負(fù)責(zé)的工作涵蓋項(xiàng)目管理、信息技術(shù)開(kāi)發(fā)和三維建模等;職員目前有13人,承擔(dān)與信息技術(shù)管理、數(shù)據(jù)庫(kù)管理、儲(chǔ)層描述、編輯及解釋水力數(shù)據(jù)、地理信息系統(tǒng)使用、三維建模、地?zé)嵫b置、能源統(tǒng)計(jì)等相關(guān)的工作。
中心政策是中心有序運(yùn)行的基礎(chǔ),有利于中心高效開(kāi)展管理工作和用戶訪問(wèn)數(shù)據(jù),在調(diào)研的20個(gè)對(duì)象中,除C3Grid、MaNIDA和Chorotree以外,其他17個(gè)中心皆明確標(biāo)注了中心相關(guān)政策,其中,數(shù)據(jù)的質(zhì)量、安全、獲取與可用性是中心數(shù)據(jù)政策最基礎(chǔ)的4個(gè)方面,也是數(shù)據(jù)中心建設(shè)過(guò)程中最需關(guān)注的4個(gè)問(wèn)題。政策中一般要求采用數(shù)據(jù)提供者、機(jī)構(gòu)數(shù)據(jù)管理員協(xié)作的模式嚴(yán)格把控,以便于數(shù)據(jù)的存儲(chǔ)、管理、傳播與復(fù)用,此外,政策中也會(huì)標(biāo)明適用的數(shù)據(jù)范圍、使用途徑和元數(shù)據(jù)信息等內(nèi)容以規(guī)范數(shù)據(jù)提供者上傳數(shù)據(jù)及數(shù)據(jù)復(fù)用者使用數(shù)據(jù)等相關(guān)工作。整理其中較有代表性的政策如下。
2.4.1 IGB環(huán)境場(chǎng)數(shù)據(jù)數(shù)據(jù)政策
該政策由柏林淡水生態(tài)和內(nèi)陸漁業(yè)研究所(Berlin Institute for Freshwater Ecology and Inland Fisheries,IGB)制定,具體有4點(diǎn)核心內(nèi)容:①適用范圍,IGB“長(zhǎng)期生態(tài)研究”項(xiàng)目數(shù)據(jù)和來(lái)自綜合環(huán)境場(chǎng)觀測(cè)或大型場(chǎng)實(shí)驗(yàn)項(xiàng)目的相關(guān)數(shù)據(jù);②元數(shù)據(jù)信息,至少包括地點(diǎn)、時(shí)間、方法、數(shù)據(jù)創(chuàng)建者這4項(xiàng)內(nèi)容(關(guān)于抽樣、抽樣處理、方法、數(shù)據(jù)處理程序名稱和負(fù)責(zé)人信息),所有元數(shù)據(jù)不受訪問(wèn)實(shí)際數(shù)據(jù)的任何限制,都將在IGB主頁(yè)中公開(kāi),具有已執(zhí)行的質(zhì)量控制程序信息;③規(guī)則,所有長(zhǎng)期數(shù)據(jù)皆提供給IGB科學(xué)家用于學(xué)術(shù)、研究、教學(xué)等非營(yíng)利目的,項(xiàng)目環(huán)境數(shù)據(jù)的可訪問(wèn)性遵循特定于項(xiàng)目的數(shù)據(jù)政策(制定于項(xiàng)目啟動(dòng)時(shí),最好依據(jù)IGB長(zhǎng)期數(shù)據(jù)所采用的原則);④免責(zé)聲明,數(shù)據(jù)提供者無(wú)須對(duì)因使用或解釋數(shù)據(jù)集而引致的任何損害或其他后果負(fù)責(zé)。
2.4.2 基爾數(shù)據(jù)管理門戶使用條款
由基爾數(shù)據(jù)管理門戶制定,主要包含6點(diǎn)核心內(nèi)容:①審核,記錄并顯示元數(shù)據(jù)的創(chuàng)建、更新、文件上傳記錄(日期與上傳用戶),并在必要時(shí)根據(jù)請(qǐng)求將注冊(cè)用戶下載文件信息提供給文件所有者;②數(shù)據(jù)安全,分為個(gè)人獲取、團(tuán)體獲取、內(nèi)部獲取和開(kāi)放獲取4個(gè)級(jí)別,元數(shù)據(jù)對(duì)所有用戶可見(jiàn),敏感元數(shù)據(jù)可見(jiàn)性根據(jù)請(qǐng)求或許會(huì)受限制;③權(quán)利,發(fā)布前必須征得數(shù)據(jù)創(chuàng)建者同意;④可用性,數(shù)據(jù)管理處承擔(dān)自創(chuàng)建以來(lái)10年的元數(shù)據(jù)和數(shù)據(jù)文件的保存職責(zé);⑤質(zhì)量,創(chuàng)建者負(fù)責(zé)質(zhì)量控制,為便于他人使用,應(yīng)以通用格式記錄數(shù)據(jù);⑥使用,若用于科研與教學(xué)以外的用途,必須取得創(chuàng)建者書面同意,主要通過(guò)該門戶傳播有關(guān)文件,若轉(zhuǎn)發(fā)給第三方,必須包含本《使用條款》。
2.4.3 PANGAEA信息系統(tǒng)數(shù)據(jù)政策
該政策由PANGAEA制定,具有4點(diǎn)核心內(nèi)容。①原則,通過(guò)科研和教學(xué)群體開(kāi)放獲取其內(nèi)容;向用戶提供科學(xué)界廣泛、易用的數(shù)據(jù)集,提供數(shù)據(jù)存檔,建議用戶正確引用數(shù)據(jù)集或相關(guān)參考文獻(xiàn)。②數(shù)據(jù)條款,元數(shù)據(jù)提交至項(xiàng)目管理處,且在提交或出版時(shí),數(shù)據(jù)標(biāo)簽一直保持不變;提交數(shù)據(jù)時(shí)需使用字典(由PANGAEA數(shù)據(jù)館員維護(hù))中定義的參數(shù)和單位;數(shù)據(jù)一般存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)中;當(dāng)數(shù)據(jù)集龐大或必須具有專有格式時(shí),則將其作為文件系統(tǒng)中的一個(gè)對(duì)象存儲(chǔ),并僅使用元描述鏈接至該文件;任何類型的數(shù)據(jù)都必須始終伴隨著一個(gè)描述(元數(shù)據(jù)),以允許用戶理解和處理數(shù)據(jù);數(shù)據(jù)集粒度和格式由數(shù)據(jù)主要負(fù)責(zé)人定義。③質(zhì)量保證,必須正確存儲(chǔ)提交的歸檔數(shù)據(jù);項(xiàng)目負(fù)責(zé)人和數(shù)據(jù)作者需擔(dān)負(fù)起確??蒲匈|(zhì)量的責(zé)任;數(shù)據(jù)管理員負(fù)責(zé)元數(shù)據(jù)的完整性、格式的一致性和下載的正確性;在數(shù)據(jù)導(dǎo)入后由項(xiàng)目負(fù)責(zé)人/作者在網(wǎng)絡(luò)上驗(yàn)證讀取的數(shù)據(jù)集,并向數(shù)據(jù)管理器提交更正直到最終聚合發(fā)布。④獲取與出版,與出版相關(guān)的任何科學(xué)原始數(shù)據(jù)應(yīng)與稿件一同提交至編輯與數(shù)據(jù)管理處;數(shù)據(jù)集可單獨(dú)使用;更高級(jí)別的數(shù)據(jù)產(chǎn)品也可根據(jù)需要通過(guò)PANGAEA存儲(chǔ);合作機(jī)構(gòu)與數(shù)據(jù)提供者皆要同意存儲(chǔ)至PANGAEA的數(shù)據(jù)通過(guò)適當(dāng)?shù)募夹g(shù)在網(wǎng)絡(luò)上公開(kāi);數(shù)據(jù)提供者可在數(shù)據(jù)未發(fā)布前撤回?cái)?shù)據(jù);根據(jù)歐盟數(shù)據(jù)政策,所有在項(xiàng)目期間收集的數(shù)據(jù)均在項(xiàng)目終止2年后公開(kāi),這與協(xié)調(diào)者、合作伙伴和資助機(jī)構(gòu)之間的協(xié)議可能有所不同;元數(shù)據(jù)僅與可用的事實(shí)數(shù)據(jù)相關(guān);若沒(méi)有在元數(shù)據(jù)中提出其他要求和概述,數(shù)據(jù)將根據(jù)《知識(shí)共享署名許可協(xié)議》提供。
德國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心在明確自身性質(zhì)及支撐機(jī)構(gòu)職責(zé)定位的基礎(chǔ)上,使用了恰當(dāng)?shù)臄?shù)據(jù)測(cè)量、分析技術(shù),維護(hù)和促進(jìn)數(shù)據(jù)管理系統(tǒng)在各個(gè)工作環(huán)節(jié)良好運(yùn)轉(zhuǎn);在各組織流程設(shè)置有優(yōu)秀人員分工把控;同時(shí)具有適合自身發(fā)展的政策支撐建設(shè)。根據(jù)以上特點(diǎn)整理我國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心發(fā)展可采用的概念圖見(jiàn)圖1。
圖1 地球科學(xué)領(lǐng)域數(shù)據(jù)中心發(fā)展概念圖
中心性質(zhì)可分為:①純數(shù)據(jù)提供者,僅為用戶呈現(xiàn)學(xué)科相關(guān)數(shù)據(jù),力求相關(guān)數(shù)據(jù)覆蓋的全面性、可用性和可獲得性;②純服務(wù)提供者,服務(wù)提供者側(cè)重通過(guò)相應(yīng)基礎(chǔ)設(shè)施整合、匯編數(shù)據(jù)以供用戶訪問(wèn)所需數(shù)據(jù);③混合型,將以上兩個(gè)性質(zhì)對(duì)應(yīng)特點(diǎn)相結(jié)合,為用戶提供多方位的服務(wù)。建議國(guó)內(nèi)科學(xué)數(shù)據(jù)中心在建設(shè)之初便明確自身定位,對(duì)應(yīng)以上3個(gè)方面設(shè)立建設(shè)目標(biāo),便于確立自身發(fā)展方向的同時(shí)幫助用戶較為清晰地做出選擇。調(diào)研可知,德國(guó)支撐中心運(yùn)行的各個(gè)機(jī)構(gòu)分工明確,每個(gè)中心皆有支撐其運(yùn)行的機(jī)構(gòu),各司其職,職責(zé)主要分為一般職責(zé)、技術(shù)職責(zé)和資助職責(zé),同一機(jī)構(gòu)在支撐相同中心運(yùn)行時(shí)會(huì)擔(dān)負(fù)多個(gè)職責(zé)。如漢堡大學(xué)綜合氣候數(shù)據(jù)中心在支撐ICDC運(yùn)行時(shí)同時(shí)擔(dān)負(fù)一般、技術(shù)和資助職責(zé),且同一機(jī)構(gòu)在支撐不同中心運(yùn)行時(shí)職責(zé)也會(huì)存在不同,如亥姆霍茲波茨坦中心,德國(guó)地學(xué)研究中心在支撐GNSS-ISDC時(shí)擔(dān)負(fù)一般和技術(shù)職責(zé),在支撐GEOFON時(shí)擔(dān)負(fù)資助、技術(shù)和一般職責(zé)。建議我國(guó)支撐中心建設(shè)的各機(jī)構(gòu)應(yīng)根據(jù)實(shí)際情況與自身優(yōu)勢(shì)承擔(dān)相應(yīng)職責(zé),為中心建設(shè)提供實(shí)質(zhì)幫助并發(fā)揮幫扶作用。
數(shù)據(jù)中心的建設(shè)離不開(kāi)對(duì)技術(shù)與數(shù)據(jù)管理系統(tǒng)的恰當(dāng)應(yīng)用,且地球科學(xué)數(shù)據(jù)具有龐大、復(fù)雜的特點(diǎn),因此建議我國(guó)在中心建設(shè)過(guò)程中與時(shí)俱進(jìn)地選擇合適的數(shù)據(jù)測(cè)量、分析和處理技術(shù)并考慮多種技術(shù)融合共用,從而更好地為用戶提供服務(wù)、支撐中心運(yùn)行,如GeoReM采用近百種適合目標(biāo)數(shù)據(jù)的分析技術(shù)擬為用戶更全面地呈現(xiàn)測(cè)量結(jié)果;GEOFON采用SeisComP?3軟件包為自身運(yùn)轉(zhuǎn)提供支撐,該軟件包在地震數(shù)據(jù)采集、處理和交換等過(guò)程優(yōu)勢(shì)明顯,也被世界其他數(shù)據(jù)中心廣泛應(yīng)用。在選擇維護(hù)、促進(jìn)中心工作的數(shù)據(jù)管理系統(tǒng)時(shí),應(yīng)多關(guān)注系統(tǒng)操作過(guò)程的簡(jiǎn)易性與適配性,以便為用戶節(jié)省獲取相關(guān)數(shù)據(jù)的時(shí)間。根據(jù)調(diào)研,建議我國(guó)考慮TYPO3作為主要支撐系統(tǒng)之一,TYPO3屬于開(kāi)源內(nèi)容管理系統(tǒng),具有較高的友好性已被諸多中心(如GeoPortal.rlp和ICDC等)選擇應(yīng)用,插件概念也可為許多典型需求提供數(shù)百種解決方案,還可做到快速安裝,其他則可考慮選擇諸如Mapbender、MAPSERVER等適用于地球?qū)I(yè)領(lǐng)域的組件及服務(wù)器。
根據(jù)數(shù)據(jù)中心運(yùn)行特點(diǎn),中心組織流程的各個(gè)階段需配備對(duì)應(yīng)的專業(yè)人才開(kāi)展工作,恰當(dāng)運(yùn)用其良好的專業(yè)素養(yǎng)與知識(shí)儲(chǔ)備解決流程中可能出現(xiàn)的問(wèn)題,此外還應(yīng)具有一定的戰(zhàn)略眼光和創(chuàng)新意識(shí),為中心良性發(fā)展奠定深厚基礎(chǔ)。與此同時(shí),建議中心在組織流程設(shè)置方面分為“外循環(huán)”和“內(nèi)循環(huán)”兩部分,其中“外循環(huán)”注重中心整體運(yùn)營(yíng),可主要包含3個(gè)層面:①管理層,負(fù)責(zé)中心各工作的宏觀把控、具體數(shù)據(jù)項(xiàng)目的管理、組織與決策,發(fā)揮主導(dǎo)作用;②支撐層,維護(hù)并及時(shí)更新相關(guān)數(shù)據(jù)測(cè)量、分析技術(shù)與管理系統(tǒng),保證技術(shù)與系統(tǒng)的與時(shí)俱進(jìn)和適用性;③實(shí)操層,運(yùn)用相關(guān)技術(shù)與軟件、審核用戶提交數(shù)據(jù)、了解用戶需求并反饋,發(fā)揮根基作用配合其他層面的組織部門。無(wú)論是何種性質(zhì)的數(shù)據(jù)中心,“內(nèi)循環(huán)”皆應(yīng)圍繞科學(xué)數(shù)據(jù)生命周期進(jìn)行,應(yīng)涵蓋4個(gè)基本環(huán)節(jié):①數(shù)據(jù)產(chǎn)生,使用適當(dāng)工具測(cè)量中心目標(biāo)數(shù)據(jù)、幫助并審核用戶匯交數(shù)據(jù);②數(shù)據(jù)處理,應(yīng)用合適軟件或工具對(duì)收集到的數(shù)據(jù)進(jìn)行分析處理、協(xié)助并督促用戶完成數(shù)據(jù)管理計(jì)劃和元數(shù)據(jù)描述;③數(shù)據(jù)存儲(chǔ),將處理后數(shù)據(jù)按相關(guān)政策與用戶要求妥善存儲(chǔ);④數(shù)據(jù)再用,規(guī)范數(shù)據(jù)引用標(biāo)準(zhǔn)格式。
政策是數(shù)據(jù)中心發(fā)展、運(yùn)行的重要保障,調(diào)研發(fā)現(xiàn)絕大部分中心都有相關(guān)政策加以支撐與輔助,建議我國(guó)科學(xué)數(shù)據(jù)中心在建設(shè)過(guò)程中根據(jù)自身實(shí)際情況制定政策或遵循在世界范圍內(nèi)被較多同類中心采用的政策,但無(wú)論是自身制定或是遵循其他都應(yīng)注意政策的全面性和適用性。建議中心使用的政策應(yīng)包含如下7個(gè)方面:①數(shù)據(jù)描述,數(shù)據(jù)創(chuàng)建者對(duì)提交數(shù)據(jù)加以說(shuō)明與闡釋,包含但不限于時(shí)間、地點(diǎn)、方法與創(chuàng)建者這4方面內(nèi)容;②數(shù)據(jù)質(zhì)量,數(shù)據(jù)創(chuàng)建者與中心數(shù)據(jù)審核人員共同把控;③數(shù)據(jù)安全,根據(jù)用戶需求與中心實(shí)際承受度將存儲(chǔ)數(shù)據(jù)分為若干級(jí)別并對(duì)應(yīng)不同再次使用條件;④數(shù)據(jù)存儲(chǔ)與獲取,注明存儲(chǔ)年限及獲取所需權(quán)限;⑤數(shù)據(jù)可用性,數(shù)據(jù)創(chuàng)建者確保數(shù)據(jù)是可用的但不對(duì)用后結(jié)果負(fù)責(zé);⑥數(shù)據(jù)引用,統(tǒng)一引用格式以便指導(dǎo)他人復(fù)用規(guī)范;⑦數(shù)據(jù)傳播與共享,標(biāo)明數(shù)據(jù)可適用范圍、使用途徑及可共享對(duì)象與條件。
地球科學(xué)數(shù)據(jù)與人類生活緊密相連,建設(shè)并發(fā)展對(duì)應(yīng)的領(lǐng)域數(shù)據(jù)中心更便于科研用戶觀測(cè)、存儲(chǔ)和傳播有關(guān)數(shù)據(jù),利于科研界的數(shù)據(jù)交流,從而促進(jìn)相關(guān)科學(xué)事業(yè)向前發(fā)展。目前我國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心整體建設(shè)數(shù)量少、發(fā)展還不完善,在國(guó)際上尚不具有絕對(duì)競(jìng)爭(zhēng)力,下一步,我國(guó)可借鑒國(guó)外發(fā)展較好的中心發(fā)展經(jīng)驗(yàn)并結(jié)合自身特色選擇更適合的發(fā)展道路與方針,穩(wěn)步向前邁進(jìn)。