肖翠
中國科學(xué)院植物研究所,北京 100093
以“關(guān)鍵科學(xué)領(lǐng)域的全球性合作,以及實現(xiàn)該合作的下一代基礎(chǔ)設(shè)施”為著眼點的 e-Science 概念的提出,使得全球性的、跨學(xué)科的、大規(guī)??蒲泻献?,跨越時間、空間、物理障礙的資源共享與協(xié)同工作成為可能。e-Science 技術(shù)的應(yīng)用了改變科學(xué)家們從事科研活動的方法和模式,極大地促進(jìn)交流合作,推動科學(xué)研究的發(fā)展。2002年e-Science 概念引入我國后,特別是不同學(xué)科和領(lǐng)域的大量數(shù)據(jù)庫構(gòu)建以及在此基礎(chǔ)上開展的國內(nèi)外廣泛的科研合作,對我國各個學(xué)科的科研信息化都起到了非常重要的推動作用。國家標(biāo)本資源共享平臺的構(gòu)建以及在此基礎(chǔ)上開展的技術(shù)研發(fā)和廣泛的科研協(xié)作對我國生物多樣性信息學(xué)的發(fā)展起到了非常重要的推動作用。
2003年,我國科技部啟動了“標(biāo)本資源的標(biāo)準(zhǔn)化整理、整合與共享平臺建設(shè)項目”。在此項目的基礎(chǔ)上,衍生了國家標(biāo)本資源共享平臺項目。連續(xù) 15年的持續(xù)建設(shè),國家標(biāo)本資源共享平臺 (National Specimen Information Infrastructure,NSII) 項目目前已經(jīng)成為擁有 1427 萬標(biāo)本記錄,606 萬標(biāo)本照片的國內(nèi)最權(quán)威的標(biāo)本資源共享平臺。如此大的標(biāo)本數(shù)字化量,為本領(lǐng)域的科學(xué)研究、大眾科普起到了怎樣的推動作用。
《科研信息化技術(shù)與應(yīng)用》2017年專門策劃了“國家標(biāo)本資源共享平臺及其應(yīng)用” ???(第 8 卷第 4 期),從整體上介紹了國家標(biāo)本資源共享平臺及其體系。但在內(nèi)容上以 NSII 總平臺[1]、各子平臺[2-4]和特色數(shù)據(jù)[5-8]分析總結(jié)為主,而在技術(shù)應(yīng)用[9-12]和產(chǎn)品開發(fā)[13]內(nèi)容相對較少。為了充分體現(xiàn)科研信息化在國家標(biāo)本資源共享平臺建設(shè)中取得的進(jìn)展,我們策劃了第二期“國家標(biāo)本資源共享平臺應(yīng)用”的???。
第二期更強(qiáng)調(diào) NSII 標(biāo)本數(shù)據(jù)對生物多樣性研究過程中的具體問題的解決,是對數(shù)據(jù)的深層挖掘,更偏向于生物多樣性信息學(xué)的技術(shù)與應(yīng)用層面。第二期??瘡?NSII 數(shù)據(jù)為科學(xué)研究、大眾科普方面著手,基于 1400 多萬份生物標(biāo)本,特別是 1002 萬植物數(shù)字化標(biāo)本,重點側(cè)重 NSII 數(shù)據(jù)在解決不同科學(xué)問題方面的作用。同時,基于 NSII 的標(biāo)本數(shù)字化大數(shù)據(jù),結(jié)合現(xiàn)代比較時髦的人工智能技術(shù),產(chǎn)生的花伴侶、標(biāo)本伴侶等實用性的工具。量變引起質(zhì)變,我國標(biāo)本數(shù)字化的長期積累,終將更好地服務(wù)國家,服務(wù)公眾。
標(biāo)本數(shù)字化對我國標(biāo)本采集空白區(qū)的預(yù)測,新種的發(fā)現(xiàn),特殊物種分布模擬都有一定的助推作用。戴邁凡等 (2018) 根據(jù)中國植物志中記載的 39586 種植物數(shù)據(jù)為基礎(chǔ),與已經(jīng)數(shù)字化的標(biāo)本數(shù)據(jù)庫進(jìn)行比對,探索生物熱點地區(qū)及新種發(fā)現(xiàn)的可能;姜承勇等 (2018) 對 NSII 數(shù)字化植物標(biāo)本和中國科學(xué)院植物研究所標(biāo)本館 (PE) 館藏標(biāo)本數(shù)據(jù)整理分析,繪制植物標(biāo)本區(qū)域分布圖,預(yù)測可能的采集空缺;桂略寧等 (2018) 通過不同標(biāo)本數(shù)據(jù)庫的整理和分析,提出植物采集密度越高,發(fā)現(xiàn)新物種的幾率越大,因此采集密度的調(diào)整將有利于我們對植物類群的保護(hù)與開發(fā);詹琳等 (2018) 對昆明植物所植物標(biāo)本數(shù)據(jù)庫中的藏藥資料收集,整理做出我國藏藥植物的分布圖,對藏藥資源研究提供了有利信息。和麗芳等 (2018) 通過對十大功勞屬數(shù)字化標(biāo)本的研究發(fā)現(xiàn)洪雅十大功勞與其關(guān)鍵節(jié)點的物種的區(qū)別并確定洪雅十大功勞屬的新種地位。
標(biāo)本數(shù)字化有利于我國植物??茖俚难芯?,特別是專科專屬植物標(biāo)本采集地理偏差、標(biāo)本數(shù)據(jù)質(zhì)量的評估。張玉雪等 (2018) 基于國家標(biāo)本資源共享平臺 (NSII) 杜鵑花科的標(biāo)本數(shù)據(jù),分析我國杜鵑花科植物標(biāo)本采集地理偏差;尹朝露等 (2018) 基于 NSII 蘭科標(biāo)本數(shù)據(jù)分析我國蘭科植物標(biāo)本記錄采集地理偏差并給出環(huán)境因子解釋;王凱莉等 (2018) 分析了薔薇科植物標(biāo)本記錄的采集地理偏差;田慧敏等 (2018) 對黃土高原標(biāo)本采集完整性進(jìn)行評估并給出環(huán)境解釋。
NSII 是一個大網(wǎng)絡(luò),始終堅持以標(biāo)本數(shù)字化為核心,并以標(biāo)本輻射至照片、名錄、文獻(xiàn),多脈絡(luò),多渠道,多資源共同維護(hù) NSII 大網(wǎng)絡(luò)。省級植物標(biāo)本館旨在從省級節(jié)點上,完善 NSII 數(shù)據(jù)。陳建平等 (2018) 對于 NSII 省級數(shù)字植物標(biāo)本館的開發(fā)和應(yīng)用做了系統(tǒng)性的展示和介紹,呼吁更多專家通過省級數(shù)字植物標(biāo)本館完善各省標(biāo)本信息,提高標(biāo)本數(shù)據(jù)質(zhì)量。李敏等 (2018) 以植物數(shù)字化標(biāo)本大數(shù)據(jù)為基礎(chǔ),結(jié)合人工智能技術(shù),使得標(biāo)本的自動化識別成為現(xiàn)實,大大提高了標(biāo)本鑒定的水準(zhǔn)。
肖翠等 (2018) 整體上對 NSII 近 15年來積累的植物數(shù)字化資源 (植物標(biāo)本數(shù)字化、彩色照片、植物志書等文獻(xiàn)資料) 進(jìn)行統(tǒng)計分析,特別給出了標(biāo)本數(shù)字化薄弱地區(qū)、標(biāo)本記錄空白區(qū)、標(biāo)本空白科屬、彩色照片空白科屬名錄,通過對外公開薄弱和空白區(qū)的方式,呼吁更多專業(yè)人員共建我國植物資源的數(shù)字化數(shù)據(jù)庫 (標(biāo)本、彩色照片、文獻(xiàn))。進(jìn)而提出NSII未來發(fā)展的幾點思考。
萬里長征,需要穩(wěn)固每塊基石。好的數(shù)據(jù)基礎(chǔ),才能借助現(xiàn)代化工具,更好地服務(wù)科研。NSII 仍然需要以數(shù)據(jù)為核心建設(shè),深入挖掘數(shù)據(jù)的服務(wù)能力。