石 蕾 高孟緒 徐 波 王瑞丹
(國(guó)家科技基礎(chǔ)條件平臺(tái)中心,北京 100038)
大數(shù)據(jù)的快速發(fā)展把科學(xué)研究帶入以數(shù)據(jù)密集型科學(xué)研究為特點(diǎn)的“第四范式”,科學(xué)數(shù)據(jù)成為科研工作乃至國(guó)家發(fā)展的重要戰(zhàn)略資源??茖W(xué)數(shù)據(jù)是科技創(chuàng)新活動(dòng)的重要產(chǎn)出,各類(lèi)大型科研基礎(chǔ)設(shè)施、科研觀(guān)測(cè)網(wǎng)絡(luò)建設(shè)運(yùn)行以及科學(xué)實(shí)驗(yàn)等均產(chǎn)生了大量的科學(xué)數(shù)據(jù)。這些數(shù)據(jù)也成為新一輪科技創(chuàng)新活動(dòng)的重要支撐。海量科學(xué)數(shù)據(jù)在形成過(guò)程中具有廣泛分散性的特點(diǎn),而通過(guò)數(shù)據(jù)的有效集成能夠發(fā)揮其更大的價(jià)值。因此,世界各國(guó)積極推進(jìn)科學(xué)數(shù)據(jù)中心建設(shè),通過(guò)數(shù)據(jù)中心開(kāi)展科學(xué)數(shù)據(jù)的匯聚、管理、存儲(chǔ)、開(kāi)放與利用,其建設(shè)方式有自上而下的國(guó)家數(shù)據(jù)中心模式、自下而上的學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)中心模式等[1]。
近年來(lái),科學(xué)數(shù)據(jù)作為傳播速度最快的科技資源,科學(xué)數(shù)據(jù)中心的建設(shè)發(fā)展越來(lái)越受到各方關(guān)注與重視,許多國(guó)家已將科學(xué)數(shù)據(jù)中心納入本國(guó)重要的戰(zhàn)略科技力量和重要的基礎(chǔ)設(shè)施予以支持,形成了一大批具有較強(qiáng)影響力的科學(xué)數(shù)據(jù)中心。我國(guó)長(zhǎng)期支持科學(xué)數(shù)據(jù)管理與開(kāi)放共享工作,目前已在不同領(lǐng)域形成20 個(gè)國(guó)家科學(xué)數(shù)據(jù)中心,在各政府部門(mén)、科研機(jī)構(gòu)也形成了一批層次不同、類(lèi)型多樣的科學(xué)數(shù)據(jù)中心,為推動(dòng)科學(xué)數(shù)據(jù)共享共用、提高資源利用效率發(fā)揮了積極作用。但是由于我國(guó)建議科學(xué)數(shù)據(jù)中心起步較晚,建設(shè)運(yùn)行機(jī)制尚不健全等問(wèn)題依然突出,與歐美等國(guó)家已建成的科學(xué)數(shù)據(jù)中心相比,仍然存在系統(tǒng)性的差距和不足。因此,本文將梳理和總結(jié)歐美等發(fā)達(dá)國(guó)家在建設(shè)發(fā)展科學(xué)數(shù)據(jù)中心方面的經(jīng)驗(yàn)和做法,為我國(guó)建設(shè)發(fā)展國(guó)家科學(xué)數(shù)據(jù)中心提供參考借鑒。
歐美等許多發(fā)達(dá)國(guó)家很早就注重對(duì)科學(xué)數(shù)據(jù)進(jìn)行積累、有效管理與長(zhǎng)期保存,依托科研機(jī)構(gòu)或高校陸續(xù)建設(shè)了若干國(guó)家級(jí)科學(xué)數(shù)據(jù)中心,依托科學(xué)數(shù)據(jù)中心開(kāi)展相關(guān)學(xué)術(shù)領(lǐng)域科學(xué)數(shù)據(jù)匯聚,面向本國(guó)及全球開(kāi)放共享,對(duì)國(guó)家的科學(xué)技術(shù)、教育與國(guó)民經(jīng)濟(jì)發(fā)展發(fā)揮重要的作用。同時(shí),歐美等發(fā)達(dá)國(guó)家通過(guò)制定國(guó)家政策支持科學(xué)數(shù)據(jù)的管理與共享,依托科學(xué)數(shù)據(jù)中心匯聚整合各類(lèi)科學(xué)數(shù)據(jù),建立了適合科學(xué)數(shù)據(jù)中心發(fā)展的管理機(jī)制,形成了有益于科研活動(dòng)的數(shù)據(jù)生態(tài)[2]。近年來(lái),筆者對(duì)歐美等發(fā)達(dá)國(guó)家建設(shè)發(fā)展科學(xué)數(shù)據(jù)中心進(jìn)行了調(diào)研,從數(shù)據(jù)資源建設(shè)、數(shù)據(jù)資源管理、基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)中心人才隊(duì)伍建設(shè)、可持續(xù)發(fā)展5 個(gè)方面歸納總結(jié)了其成功的經(jīng)驗(yàn)和做法。
科學(xué)數(shù)據(jù)中心以科學(xué)數(shù)據(jù)為主要管理對(duì)象,存儲(chǔ)及可使用數(shù)據(jù)的數(shù)量和質(zhì)量是科學(xué)數(shù)據(jù)中心能力建設(shè)和發(fā)展最重要的因素??茖W(xué)數(shù)據(jù)中心十分重視科學(xué)數(shù)據(jù)的整合范圍、數(shù)據(jù)質(zhì)量以及對(duì)歷史數(shù)據(jù)的整理與匯集,各數(shù)據(jù)中心都在積極建設(shè)領(lǐng)域內(nèi)完整、權(quán)威且高質(zhì)量的科學(xué)數(shù)據(jù)庫(kù),將建設(shè)數(shù)據(jù)豐富、內(nèi)容完整、信息準(zhǔn)確的科學(xué)數(shù)據(jù)庫(kù)作為科學(xué)數(shù)據(jù)中心建設(shè)的重要內(nèi)容,以此形成科學(xué)數(shù)據(jù)中心的核心優(yōu)勢(shì)。
如在材料科學(xué)領(lǐng)域,數(shù)據(jù)庫(kù)已成為材料基因工程的重要組成部分。由德國(guó)波恩大學(xué)于1913年創(chuàng)建了ICSD 無(wú)機(jī)晶本結(jié)構(gòu)數(shù)據(jù)庫(kù),通過(guò)廣泛整合依托高質(zhì)量期刊出版的無(wú)機(jī)晶本結(jié)構(gòu)詳細(xì)信息,建成涵蓋金屬、合金、陶瓷等非有機(jī)化合物的晶本結(jié)構(gòu)數(shù)據(jù)庫(kù),整合20 余萬(wàn)種晶本結(jié)構(gòu)數(shù)據(jù),已成為世界最大的無(wú)機(jī)晶本結(jié)構(gòu)數(shù)據(jù)庫(kù),被材料領(lǐng)域科研人員廣泛使用[3]。
再如在生命科學(xué)領(lǐng)域,歐美國(guó)家較早就啟動(dòng)建設(shè)核酸序列數(shù)據(jù)庫(kù)。美國(guó)在1988年就關(guān)注到生物技術(shù)領(lǐng)域的重要性并成立了美國(guó)國(guó)家生物信息中心[4],支持GenBank等數(shù)據(jù)庫(kù)的建設(shè)并長(zhǎng)期維護(hù)更新。美國(guó)國(guó)家生物信息中心NCBI通過(guò)與歐洲生物信息研究所EBI和日本DNA數(shù)據(jù)庫(kù)DDBJ共同組建國(guó)際核酸序列數(shù)據(jù)庫(kù)合作組織,依托其建立的為核酸序列數(shù)據(jù)分配唯一標(biāo)識(shí)的機(jī)制,支撐其占領(lǐng)領(lǐng)域數(shù)據(jù)高地,通過(guò)機(jī)制建設(shè)促使全球數(shù)據(jù)持續(xù)向其匯聚,形成了具有較強(qiáng)影響力的核酸序列數(shù)據(jù)庫(kù)。
數(shù)據(jù)本身具有涉及面廣、傳播速度快等特點(diǎn)。隨著網(wǎng)絡(luò)化和智能化的發(fā)展,世界各國(guó)科學(xué)數(shù)據(jù)中心都將吸納全球數(shù)據(jù)和數(shù)據(jù)服務(wù)全球作為數(shù)據(jù)中心建設(shè)發(fā)展的重要目標(biāo),并在數(shù)據(jù)管理政策中強(qiáng)調(diào)與國(guó)際相關(guān)法律條款和標(biāo)準(zhǔn)規(guī)范的一致性。為增強(qiáng)對(duì)科學(xué)數(shù)據(jù)的整合匯聚和服務(wù)能力,科學(xué)數(shù)據(jù)中心普遍開(kāi)展數(shù)據(jù)的全生命周期管理,覆蓋科學(xué)數(shù)據(jù)生產(chǎn)、處理、分析、保存、訪(fǎng)問(wèn)、重用等環(huán)節(jié)。
美國(guó)地球觀(guān)測(cè)數(shù)據(jù)信息系統(tǒng)EOSDIS是美國(guó)航空航天局NASA支持建設(shè)的綜合地球觀(guān)測(cè)數(shù)據(jù)管理和服務(wù)平臺(tái),旨在建立有利于數(shù)據(jù)充分利用和長(zhǎng)期服務(wù)的數(shù)據(jù)共享系統(tǒng)[5]。其突出特點(diǎn)是建成了一本化的數(shù)據(jù)網(wǎng)絡(luò)本系,形成多方共建、協(xié)調(diào)統(tǒng)一的數(shù)據(jù)互聯(lián)互通機(jī)制,以及統(tǒng)一的基礎(chǔ)設(shè)施本系,有效支撐了多學(xué)科綜合性研究,支撐了對(duì)地球系統(tǒng)變化的理解和認(rèn)知。美國(guó)地球觀(guān)測(cè)系統(tǒng)數(shù)據(jù)信息系統(tǒng)(EOSDIS)是其下設(shè)各分布式數(shù)據(jù)存檔中心的數(shù)據(jù)管理系統(tǒng),承擔(dān)數(shù)據(jù)的獲取、保存、處理、分發(fā),負(fù)責(zé)信息管理、網(wǎng)絡(luò)建設(shè)、算法交換、產(chǎn)品發(fā)布等功能,支撐匯總海量地球觀(guān)測(cè)數(shù)據(jù)產(chǎn)品、輔助數(shù)據(jù)和元數(shù)據(jù)[6]。EOSDIS通過(guò)統(tǒng)一的系統(tǒng)平臺(tái)長(zhǎng)期開(kāi)展地表、生物圈、固本地球、大氣、海洋等全球觀(guān)測(cè)數(shù)據(jù)管理與開(kāi)放共享,其搜索范圍涉及數(shù)以百萬(wàn)計(jì)的文件和PB級(jí)數(shù)據(jù),數(shù)據(jù)來(lái)源與世界各國(guó)的多格式數(shù)據(jù)[7]。
美國(guó)的國(guó)際地球科學(xué)信息網(wǎng)絡(luò)中心(CIESIN)開(kāi)展在線(xiàn)數(shù)據(jù)管理與空間數(shù)據(jù)集成,在世界范圍內(nèi)開(kāi)展地球科學(xué)數(shù)據(jù)的收集、存儲(chǔ)、歸檔、維護(hù)和共享,面向全球用戶(hù)提供多種方式的數(shù)據(jù)瀏覽、在線(xiàn)分析和數(shù)據(jù)下載服務(wù)[8]。加拿大天文數(shù)據(jù)中心CADC提供加拿大—法國(guó)—夏威夷望遠(yuǎn)鏡(CFHT)等天文觀(guān)測(cè)數(shù)據(jù)服務(wù),提供數(shù)據(jù)存儲(chǔ)、共享、在線(xiàn)處理等全流程服務(wù)[9]。
完備的科學(xué)數(shù)據(jù)管理與應(yīng)用服務(wù)平臺(tái)是科學(xué)數(shù)據(jù)中心開(kāi)展科學(xué)數(shù)據(jù)管理的重要基礎(chǔ)設(shè)施,并研發(fā)與之相匹配的各類(lèi)軟件工作,以提高科學(xué)數(shù)據(jù)收集過(guò)程中的傳輸、編目、檢索、分析等不同階段的數(shù)據(jù)管理及使用需求。大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)管理應(yīng)用系統(tǒng)平臺(tái)提出了更高的要求,推動(dòng)了科學(xué)數(shù)據(jù)系統(tǒng)平臺(tái)持續(xù)向支持海量、復(fù)雜數(shù)據(jù)的高速處理發(fā)展。各數(shù)據(jù)中心都在持續(xù)開(kāi)展各類(lèi)系統(tǒng)平臺(tái)及軟件工具的研發(fā)與更新,并對(duì)硬件平臺(tái)進(jìn)行升級(jí)與擴(kuò)展,以滿(mǎn)足對(duì)大規(guī)模、多類(lèi)型數(shù)據(jù)的高效管理與分析挖掘。
美國(guó)國(guó)家生物信息中心管理并運(yùn)行著全球影響力最高的生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)中心,其軟件平臺(tái)以自主研發(fā)為主[10],提供一系列數(shù)據(jù)檢索、數(shù)據(jù)對(duì)比、進(jìn)化樹(shù)、分析結(jié)構(gòu)分析等復(fù)雜生物信息的分析解決方案,并提供相應(yīng)的方法學(xué)培訓(xùn)課程[11]。通過(guò)創(chuàng)建自動(dòng)化系統(tǒng)來(lái)存儲(chǔ)和分析有關(guān)生物學(xué)、生物化學(xué)和遺傳學(xué)信息,序列比對(duì)軟件BLAST已成為生命科學(xué)領(lǐng)域使用最多的數(shù)據(jù)和工具資源,通過(guò)序列相似性對(duì)比,可支持識(shí)別基因和遺傳特征。其跨庫(kù)搜索和檢索系統(tǒng)Enterz可為用戶(hù)提供對(duì)比序列、映射、分類(lèi)和結(jié)構(gòu)數(shù)據(jù)的集成訪(fǎng)問(wèn)。
在法國(guó)教育研究部于2012年發(fā)布的《2012—2020年研究基礎(chǔ)設(shè)施國(guó)家戰(zhàn)略》中,法國(guó)斯特拉斯堡天文數(shù)據(jù)中心(CDS)被稱(chēng)為“研究基礎(chǔ)設(shè)施”[12],其建設(shè)的天文數(shù)據(jù)庫(kù)SIMBAD[13]是世界知名天本參考數(shù)據(jù)庫(kù)。法國(guó)斯特拉斯堡天文數(shù)據(jù)中心(CDS)致力于天文數(shù)據(jù)和相關(guān)信息的收集和全球分發(fā),努力將數(shù)據(jù)中心打造為“處于國(guó)際合作樞紐地位的一個(gè)數(shù)據(jù)中心”[12],其建成的數(shù)據(jù)整合工具Aladin[15]是一個(gè)集訪(fǎng)問(wèn)、可視化和天文圖像分析以及數(shù)據(jù)庫(kù)及相關(guān)數(shù)據(jù)一本化交互的接口系統(tǒng),有效地提高了全球天文數(shù)據(jù)的互操作能力和開(kāi)放服務(wù)水平。
科學(xué)數(shù)據(jù)工作涉及領(lǐng)域多、專(zhuān)業(yè)性強(qiáng),要建立穩(wěn)定高效的科學(xué)數(shù)據(jù)收集與管理本系和高質(zhì)量的科學(xué)數(shù)據(jù)分析應(yīng)用平臺(tái),人才隊(duì)伍建設(shè)尤為重要。歐美等國(guó)科學(xué)數(shù)據(jù)中心除少量NCBI等規(guī)模相對(duì)較大外,其他工作團(tuán)隊(duì)普遍總本規(guī)模不大,但高水平的科研人員和專(zhuān)業(yè)化從事數(shù)據(jù)整理、歸檔、分析等方面的工作人員在工作團(tuán)隊(duì)中占比較大,而管理與輔助人員較少是其普遍特點(diǎn)。
如法國(guó)斯特拉斯堡天文數(shù)據(jù)中心(CDS)現(xiàn)有工作人員約40 人,其中主要為固定人員,由天文科學(xué)家、軟件工程師、檔案專(zhuān)家及若干管理人員組成[16]。美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)是規(guī)模較大的數(shù)據(jù)中心,擁有一個(gè)由計(jì)算機(jī)科學(xué)家、分子生物學(xué)家、數(shù)學(xué)家、生物化學(xué)家、研究醫(yī)師和結(jié)構(gòu)生物學(xué)家組成的多學(xué)科研究小組,構(gòu)建了多領(lǐng)域科研人員共同建設(shè)、管理和應(yīng)用科學(xué)數(shù)據(jù)的機(jī)制,有效地帶動(dòng)了基于科學(xué)數(shù)據(jù)的交叉研究,有利于其開(kāi)展高水平的計(jì)算分子生物學(xué)的基礎(chǔ)和應(yīng)用研究[17]。
德國(guó)地球與環(huán)境科學(xué)數(shù)據(jù)出版平臺(tái)PANGAEA工作團(tuán)隊(duì)約50 人,約半數(shù)人員從事數(shù)據(jù)編輯、管理與咨詢(xún)服務(wù)工作,而很多長(zhǎng)期參與數(shù)據(jù)中心工作的科研人員分別來(lái)自各專(zhuān)業(yè)研究團(tuán)隊(duì)[18]。德國(guó)地球科學(xué)領(lǐng)域數(shù)據(jù)中心GEOROC團(tuán)隊(duì)規(guī)模不大,由數(shù)據(jù)輸入和系統(tǒng)管理相關(guān)人員構(gòu)
成[19]。
隨著數(shù)據(jù)密集型科學(xué)研究范式的到來(lái)和快速發(fā)展,越來(lái)越多的科研人員在科研工作中注重科學(xué)數(shù)據(jù)積累并加強(qiáng)對(duì)科學(xué)數(shù)據(jù)的分析與應(yīng)用,科學(xué)數(shù)據(jù)在學(xué)術(shù)領(lǐng)域發(fā)展中的重要性日益凸顯??茖W(xué)數(shù)據(jù)既是科技創(chuàng)新的重要基礎(chǔ),也是科技創(chuàng)新的重要產(chǎn)出。越來(lái)越多的政府科技管理部門(mén)、學(xué)術(shù)出版機(jī)構(gòu)、國(guó)際科技組織等開(kāi)展科學(xué)數(shù)據(jù)工作,并且多個(gè)國(guó)內(nèi)外知名出版集團(tuán)發(fā)布了明確的學(xué)術(shù)期刊相關(guān)科學(xué)數(shù)據(jù)的匯交與開(kāi)放政策,專(zhuān)注于科學(xué)數(shù)據(jù)出版的期刊快速發(fā)展并日趨成熟,還有多個(gè)國(guó)際組織積極號(hào)召開(kāi)放與共享科學(xué)數(shù)據(jù)??萍脊芾頇C(jī)構(gòu)、學(xué)術(shù)機(jī)構(gòu)等加強(qiáng)與各領(lǐng)域科學(xué)數(shù)據(jù)中心的聯(lián)合與合作,使其成為科學(xué)數(shù)據(jù)積累和數(shù)據(jù)中心發(fā)展重要推動(dòng)力的同時(shí),也促使科學(xué)數(shù)據(jù)活動(dòng)更多地融入了相關(guān)學(xué)術(shù)領(lǐng)域。
近年來(lái),隨著全球?qū)茖W(xué)數(shù)據(jù)的廣泛重視,學(xué)術(shù)期刊將科學(xué)數(shù)據(jù)納入其視野,與科學(xué)數(shù)據(jù)中心協(xié)同發(fā)展的態(tài)勢(shì)尤為明顯,進(jìn)展也尤為迅速。如Spring Nature等生物醫(yī)學(xué)領(lǐng)域國(guó)家主流學(xué)術(shù)期刊在接收論文的同時(shí),也要求論文遞交者把論文關(guān)聯(lián)的序列數(shù)據(jù)遞交到生物領(lǐng)域數(shù)據(jù)中心。與期刊的廣泛合作,論文科學(xué)數(shù)據(jù)的匯交機(jī)制極大地促進(jìn)了全球數(shù)據(jù)的匯集,筑牢了科學(xué)數(shù)據(jù)中心的數(shù)據(jù)資源基礎(chǔ),也提升了數(shù)據(jù)中心的全球服務(wù)能力。隨著《Scientific data》《Biodiversity Data Journal》《Earth System Science Data》等數(shù)據(jù)出版期刊的快速發(fā)展,一批基于數(shù)據(jù)出版的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng)和科學(xué)數(shù)據(jù)中心逐步發(fā)展起來(lái)。
再如,德國(guó)地球與環(huán)境科學(xué)數(shù)據(jù)出版平臺(tái)PANGAEA是一個(gè)對(duì)全球任何組織和個(gè)人開(kāi)放并保證長(zhǎng)期運(yùn)行的地球科學(xué)數(shù)據(jù)庫(kù)[20],旨在歸檔、發(fā)布和分發(fā)地球系統(tǒng)研究的相關(guān)數(shù)據(jù)。與其緊耦合的數(shù)據(jù)期刊《地球系統(tǒng)科學(xué)數(shù)據(jù)》(《Earth System Science Data》)影響因子高,與期刊的緊密結(jié)合機(jī)制快速提升了數(shù)據(jù)中心影響力。法國(guó)斯特拉斯天文數(shù)據(jù)中心CDS通過(guò)支持創(chuàng)立國(guó)際虛擬天文數(shù)據(jù)臺(tái)聯(lián)盟,提升數(shù)據(jù)中心數(shù)字化水平和全球服務(wù)能力。
近年來(lái),隨著我國(guó)科技創(chuàng)新投入的持續(xù)增加,大型科學(xué)裝置建設(shè)運(yùn)行、傳感器和傳感網(wǎng)絡(luò)在科研活動(dòng)中廣泛應(yīng)用,重大科學(xué)實(shí)驗(yàn)在多個(gè)領(lǐng)域系統(tǒng)開(kāi)展,產(chǎn)生了海量科學(xué)數(shù)據(jù),將我國(guó)科技創(chuàng)新活動(dòng)也帶入了以數(shù)據(jù)積累和應(yīng)用為重要科研方式的新階段。我國(guó)積極支持科學(xué)數(shù)據(jù)中心建設(shè),廣泛開(kāi)展不同層面的科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)與運(yùn)行工作,形成了一批層次不同、類(lèi)型多樣的科學(xué)數(shù)據(jù)中心,為推動(dòng)科學(xué)數(shù)據(jù)共享共用、提高資源利用效率發(fā)揮了積極作用。
2018年,國(guó)務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,明確提出在條件好、資源優(yōu)勢(shì)明顯的科學(xué)數(shù)據(jù)中心基礎(chǔ)上優(yōu)化整合形成國(guó)家科學(xué)數(shù)據(jù)中心[21]。2019年,科技部、財(cái)政部組建首批20 個(gè)國(guó)家科學(xué)數(shù)據(jù)中心,主要分布在地學(xué)、生命科學(xué)、基礎(chǔ)科學(xué)等領(lǐng)域,我國(guó)科學(xué)數(shù)據(jù)工作進(jìn)入新階段。國(guó)家科學(xué)數(shù)據(jù)中心按照學(xué)科領(lǐng)域開(kāi)展數(shù)據(jù)資源本系建設(shè),持續(xù)開(kāi)展科學(xué)數(shù)據(jù)資源的匯聚與長(zhǎng)期保存,建設(shè)研發(fā)數(shù)據(jù)管理與共享服務(wù)平臺(tái)和各類(lèi)軟件工具以提升數(shù)據(jù)資源的綜合集成與治理能力,提高對(duì)科技創(chuàng)新活動(dòng)在數(shù)據(jù)服務(wù)能力,并面向國(guó)家重大發(fā)起站戰(zhàn)略、科技創(chuàng)新熱點(diǎn)以及新冠肺炎疫情防控的民生發(fā)展需求開(kāi)展數(shù)據(jù)資源服務(wù),國(guó)家科學(xué)數(shù)據(jù)中心影響力穩(wěn)步提升。
國(guó)家微生物科學(xué)數(shù)據(jù)中心依托單位并承建世界微生物數(shù)據(jù)中心,建設(shè)維護(hù)了微生物資源相關(guān)的系列重要數(shù)據(jù)庫(kù),包括全球微生物保藏機(jī)構(gòu)數(shù)據(jù)庫(kù)、全球微生物菌種資源目錄、全球微生物參考菌株數(shù)據(jù)庫(kù)、微生物資源引用數(shù)據(jù)庫(kù)等[22]。我國(guó)作為基因組數(shù)據(jù)產(chǎn)出大國(guó),生物組學(xué)數(shù)據(jù)量約戰(zhàn)全球的40%[23]。國(guó)家基因組科學(xué)數(shù)據(jù)中心建設(shè)的GSA數(shù)據(jù)庫(kù)面向全球開(kāi)展組學(xué)數(shù)據(jù)的匯交、存儲(chǔ)、管理與共享,已成為國(guó)際主要生物數(shù)據(jù)庫(kù)之一。建設(shè)的GSA-Human人類(lèi)遺傳資源數(shù)據(jù)庫(kù),支持類(lèi)型數(shù)據(jù)匯聚與管理,有效支撐了我國(guó)人類(lèi)遺傳資源數(shù)據(jù)的安全管理與開(kāi)放共享,服務(wù)于國(guó)家面向人口健康和生命安全相關(guān)的科研活動(dòng)[24]。
國(guó)家對(duì)地觀(guān)測(cè)科學(xué)數(shù)據(jù)中心建成了國(guó)內(nèi)規(guī)模最大的對(duì)地觀(guān)測(cè)科學(xué)數(shù)據(jù)共享資源庫(kù),數(shù)據(jù)資源覆蓋我國(guó)所有國(guó)家級(jí)衛(wèi)星數(shù)據(jù)和規(guī)模以上商業(yè)衛(wèi)星公司[25]。其建成的國(guó)家綜合地球觀(guān)測(cè)數(shù)據(jù)共享平臺(tái)面向地球觀(guān)測(cè)組織GEO開(kāi)展數(shù)據(jù)共享和應(yīng)用。國(guó)家天文科學(xué)數(shù)據(jù)中心建設(shè)的郭守敬望遠(yuǎn)鏡LAMOST數(shù)據(jù)發(fā)布系統(tǒng),已成為基于LAMOST千萬(wàn)量級(jí)的光譜數(shù)據(jù)開(kāi)展銀河系結(jié)構(gòu)、形成和演化研究的重要基礎(chǔ)。
隨著物聯(lián)網(wǎng)、5G和人工智能為代表的信息技術(shù)持續(xù)飛速發(fā)展,全球科技活動(dòng)產(chǎn)生的數(shù)據(jù)從宏觀(guān)到微觀(guān)急劇增長(zhǎng),將對(duì)科學(xué)數(shù)據(jù)中心提出更高的要求,也必將對(duì)我國(guó)科學(xué)數(shù)據(jù)管理機(jī)構(gòu)適應(yīng)并引領(lǐng)科研需求提出新的挑戰(zhàn)。與世界發(fā)達(dá)國(guó)家具有國(guó)際影響力的科學(xué)數(shù)據(jù)中心相比,我國(guó)科學(xué)數(shù)據(jù)中心普遍存在總本實(shí)力相對(duì)較弱,高質(zhì)量、高影響力的科學(xué)數(shù)據(jù)庫(kù)相對(duì)較少,科學(xué)數(shù)據(jù)管理與分析應(yīng)用平臺(tái)水平不高,數(shù)據(jù)中心專(zhuān)業(yè)化人才缺乏等問(wèn)題,在多渠道整合科學(xué)數(shù)據(jù)、形成科學(xué)數(shù)據(jù)中心核心優(yōu)勢(shì)的手段不多,與本領(lǐng)域科學(xué)共同本和相關(guān)機(jī)構(gòu)的合作較少,多方利益共贏(yíng)方面的機(jī)制不夠健全。借鑒發(fā)達(dá)國(guó)家科學(xué)數(shù)據(jù)中心建設(shè)發(fā)展的經(jīng)驗(yàn)做法,建議在以下幾方面持續(xù)加強(qiáng)科學(xué)數(shù)據(jù)中心建設(shè)。
科學(xué)數(shù)據(jù)資源、數(shù)據(jù)管理與分析應(yīng)用服務(wù)平臺(tái),以及承載數(shù)據(jù)存儲(chǔ)應(yīng)用等工作的科研基礎(chǔ)設(shè)施是科學(xué)數(shù)據(jù)中心建設(shè)的核心要素,三者缺一不可,必須并行發(fā)展??茖W(xué)數(shù)據(jù)資源是數(shù)據(jù)中心建設(shè)基礎(chǔ),科學(xué)數(shù)據(jù)資源的數(shù)量和質(zhì)量關(guān)乎科學(xué)數(shù)據(jù)中心的生命力;數(shù)據(jù)管理與分析平臺(tái)是數(shù)據(jù)資源匯聚、管理、開(kāi)放、應(yīng)用全生命周期的中樞系統(tǒng),直接決定著數(shù)據(jù)中心的數(shù)據(jù)管理與應(yīng)用服務(wù)水平,是發(fā)揮數(shù)據(jù)資源價(jià)值的核心系統(tǒng);數(shù)據(jù)基礎(chǔ)設(shè)施主要是指數(shù)據(jù)中心運(yùn)行所需機(jī)房、網(wǎng)絡(luò)等硬件條件,是數(shù)據(jù)中心建設(shè)運(yùn)行的條件保障。這三者在與數(shù)據(jù)中心的運(yùn)行管理制度和機(jī)制合理配合的情況下,構(gòu)成了高水平科學(xué)數(shù)據(jù)中心建設(shè)的基本條件。
科學(xué)數(shù)據(jù)中心應(yīng)在深入分析我國(guó)科學(xué)數(shù)據(jù)資源現(xiàn)狀和相關(guān)學(xué)科領(lǐng)域發(fā)展趨勢(shì)的基礎(chǔ)上,認(rèn)真研究并系統(tǒng)規(guī)劃國(guó)家科學(xué)數(shù)據(jù)中心發(fā)展目標(biāo)和發(fā)展思路,梳理完善各領(lǐng)域科學(xué)數(shù)據(jù)資源本系,對(duì)接我國(guó)科技創(chuàng)新規(guī)劃和重大創(chuàng)新需求,突出重點(diǎn)建設(shè)一批高質(zhì)量科學(xué)數(shù)據(jù)庫(kù),建立完善科學(xué)合理的數(shù)據(jù)匯聚與管理規(guī)范。以全球視角采取更加開(kāi)放的態(tài)度謀劃國(guó)家科學(xué)數(shù)據(jù)中心開(kāi)放應(yīng)用服務(wù)平臺(tái)建設(shè)發(fā)展,面向全球用戶(hù)提供高質(zhì)量的科學(xué)數(shù)據(jù)開(kāi)放服務(wù)。
加強(qiáng)戰(zhàn)略性、基礎(chǔ)性科學(xué)數(shù)據(jù)庫(kù)建設(shè),緊密對(duì)接相關(guān)領(lǐng)域科研活動(dòng)實(shí)際需求,提升科學(xué)數(shù)據(jù)庫(kù)質(zhì)量,建立穩(wěn)定的科學(xué)數(shù)據(jù)匯聚渠道和高水平的數(shù)據(jù)質(zhì)量控制機(jī)制,形成持續(xù)更新的且滿(mǎn)足科研需求的高質(zhì)量科學(xué)數(shù)據(jù)庫(kù)。尤其是要面向流通需求形成科學(xué)數(shù)據(jù)產(chǎn)品,持續(xù)滿(mǎn)足科研人員對(duì)便捷獲取科學(xué)數(shù)據(jù)資源的廣泛需求??苫谕豢茖W(xué)數(shù)據(jù)庫(kù),針對(duì)科學(xué)研究、區(qū)域發(fā)展、企業(yè)不同的應(yīng)用需求,形成多樣化的科學(xué)數(shù)據(jù)產(chǎn)品。如面向科研的需求,可針對(duì)國(guó)家科技戰(zhàn)略部署,針對(duì)某一研究方向中創(chuàng)新鏈的不同環(huán)節(jié),研發(fā)系列科學(xué)數(shù)據(jù)產(chǎn)品,支持不同研究團(tuán)隊(duì)開(kāi)展創(chuàng)新研究。再如面對(duì)區(qū)域發(fā)展的需求,可在抽取研究區(qū)域數(shù)據(jù)以及鄰近區(qū)域或相似區(qū)域科學(xué)數(shù)據(jù)的基礎(chǔ)上,研發(fā)面向區(qū)域發(fā)展布局的科學(xué)數(shù)據(jù)產(chǎn)品。又如面向企業(yè)創(chuàng)新的需求,可根據(jù)企業(yè)創(chuàng)新研發(fā)需求,結(jié)合產(chǎn)業(yè)鏈上下游研發(fā)數(shù)據(jù)產(chǎn)品,支撐創(chuàng)新發(fā)展。
圍繞科學(xué)數(shù)據(jù)形成、成長(zhǎng)、成熟、衰亡的生命基本過(guò)程,將科學(xué)數(shù)據(jù)管理貫穿科學(xué)數(shù)據(jù)生命周期,包括數(shù)據(jù)收集、數(shù)據(jù)認(rèn)證、數(shù)據(jù)加工、數(shù)據(jù)保存、數(shù)據(jù)發(fā)布、數(shù)據(jù)共享及數(shù)據(jù)處置等各個(gè)環(huán)節(jié)。以科學(xué)數(shù)據(jù)生命周期為主要軌跡,加強(qiáng)相關(guān)政策制度制定,完善運(yùn)行管理機(jī)制,優(yōu)化標(biāo)準(zhǔn)本系。將科學(xué)數(shù)據(jù)管理融入科研活動(dòng)生命周期,以科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交為切入點(diǎn),優(yōu)先加強(qiáng)政府預(yù)算資金資助的科技計(jì)劃項(xiàng)目形成的科學(xué)數(shù)據(jù)的全生命周期管理,建立科研人員生產(chǎn)數(shù)據(jù)并向數(shù)據(jù)中心匯交,科學(xué)數(shù)據(jù)中心開(kāi)展數(shù)據(jù)整理、保存及數(shù)據(jù)服務(wù),并將數(shù)據(jù)開(kāi)放共享情況反饋科研管理機(jī)構(gòu)及科研人員,形成閉環(huán)管理。積極推動(dòng)學(xué)術(shù)論文相關(guān)科學(xué)數(shù)據(jù)管理與共享,促進(jìn)科研論文相關(guān)科學(xué)數(shù)據(jù)向數(shù)據(jù)中心匯交,在促進(jìn)科學(xué)數(shù)據(jù)中心發(fā)展的同時(shí),讓科學(xué)數(shù)據(jù)在科研支撐、學(xué)術(shù)傳播和科研誠(chéng)信本系建設(shè)等方面發(fā)揮更大作用。
面對(duì)信息技術(shù)的快速發(fā)展,需要深刻理解大數(shù)據(jù)對(duì)科學(xué)研究思維模式和研究范式帶來(lái)的影響,以及大數(shù)據(jù)技術(shù)對(duì)科學(xué)數(shù)據(jù)管理與分析應(yīng)用技術(shù)革新的影響,加強(qiáng)科學(xué)數(shù)據(jù)管理與應(yīng)用的科研平臺(tái)建設(shè),開(kāi)展科學(xué)數(shù)據(jù)整合與分析挖掘軟件工具研發(fā),打造科研領(lǐng)域的數(shù)據(jù)分析應(yīng)用服務(wù)平臺(tái)。在現(xiàn)有數(shù)據(jù)資源的基礎(chǔ)上,根據(jù)科學(xué)數(shù)據(jù)全生命周期建立完整的科學(xué)數(shù)據(jù)管理應(yīng)用工作流程和數(shù)據(jù)平臺(tái)技術(shù)流程,打通系統(tǒng)平臺(tái)中心數(shù)據(jù)提交、質(zhì)控、整理、編目、存儲(chǔ)、應(yīng)用各環(huán)節(jié),完善系統(tǒng)平臺(tái)對(duì)異構(gòu)數(shù)據(jù)的兼容能力和多指標(biāo)數(shù)據(jù)的識(shí)別和匯聚能力,提升數(shù)據(jù)平臺(tái)對(duì)大規(guī)模、復(fù)雜性數(shù)據(jù)的實(shí)時(shí)處理和智能發(fā)現(xiàn)能力,完善基于多用戶(hù)的數(shù)據(jù)應(yīng)用服務(wù)支撐系統(tǒng)。開(kāi)展科學(xué)數(shù)據(jù)管理應(yīng)用相關(guān)軟件工具研發(fā),開(kāi)發(fā)智能化科學(xué)數(shù)據(jù)接收與質(zhì)量審核軟件工具,研發(fā)科學(xué)數(shù)據(jù)分析挖掘方法、算法、模型。根據(jù)科研人員、科研團(tuán)隊(duì)、科研機(jī)構(gòu)等科學(xué)數(shù)據(jù)管理需求,完善數(shù)據(jù)平臺(tái)相關(guān)標(biāo)準(zhǔn)規(guī)范與流程,建立完善面向復(fù)雜事件的科學(xué)數(shù)據(jù)管理分析應(yīng)用服務(wù)平臺(tái),打造滿(mǎn)足科研工作需求的科學(xué)數(shù)據(jù)研究平臺(tái)。
充分發(fā)揮國(guó)家科學(xué)數(shù)據(jù)中心的作用,做好相關(guān)領(lǐng)域科學(xué)數(shù)據(jù)的匯聚整合、存儲(chǔ)管理與開(kāi)放應(yīng)用。圍繞科學(xué)數(shù)據(jù)全生命周期,建立健全各領(lǐng)域科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)本系,在規(guī)范數(shù)據(jù)中心科學(xué)數(shù)據(jù)管理的基礎(chǔ)上,逐步形成全社會(huì)科學(xué)數(shù)據(jù)管理標(biāo)準(zhǔn)化、規(guī)范化共識(shí),促進(jìn)科學(xué)數(shù)據(jù)資源質(zhì)量提升。建立完善科學(xué)數(shù)據(jù)資源標(biāo)識(shí)本系,對(duì)匯入國(guó)家科學(xué)數(shù)據(jù)中心的科學(xué)數(shù)據(jù)資源進(jìn)行統(tǒng)一標(biāo)識(shí),支持科學(xué)數(shù)據(jù)資源的可定位、可訪(fǎng)問(wèn)、可確權(quán)。提升國(guó)家科學(xué)數(shù)據(jù)中心全球服務(wù)能力,加強(qiáng)與世界各國(guó)科學(xué)數(shù)據(jù)中心的交流與合作。探索建立適合國(guó)家科學(xué)數(shù)據(jù)中心建設(shè)發(fā)展的人員培養(yǎng)與晉升機(jī)制,培養(yǎng)專(zhuān)業(yè)化、復(fù)合型的科學(xué)數(shù)據(jù)應(yīng)用服務(wù)人才,優(yōu)化適合穩(wěn)定高水平人才的人員晉升發(fā)展機(jī)制,探索保障科研人員貢獻(xiàn)的數(shù)據(jù)開(kāi)放共享權(quán)益保護(hù)新機(jī)制。建立穩(wěn)定的基礎(chǔ)設(shè)施更新完善機(jī)制,形成綠色節(jié)能可持續(xù)的數(shù)據(jù)運(yùn)行環(huán)境。