李茹姣,張欣,宋述慧,王彥青,鄒東,肖景發(fā),2,趙文明,2,章張,2,鮑一明,2
1. 中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心,北京 100101;2. 中國科學院大學,北京 100049
科學數據是國家科技創(chuàng)新和經濟社會發(fā)展的重要基礎性戰(zhàn)略資源,做好科學數據資源的匯交共享、安全管理與挖掘利用具有重要的科學意義和價值。2019年6月10日,科學技術部和財政部聯合發(fā)布了《關于國家科技資源共享服務平臺優(yōu)化調整名單的通知》,公布了多個學科領域的20個國家科學數據中心。其中,國家基因組科學數據中心(National Genomics Data Center,NGDC)(以下簡稱中心)依托中國科學院北京基因組研究所(國家生物信息中心)建設。中心面向我國人口健康和社會可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立基因組科學數據匯交存儲、安全管理、開放共享與整合挖掘的研究體系,研發(fā)基因組科學大數據前沿交叉與轉化應用的新方法和新技術,其目標是成為國際領先的基因組科學數據中心,支撐我國生命與健康科學創(chuàng)新發(fā)展。
中心自成立以來,面向人口健康和重要戰(zhàn)略生物資源,以“存好”“管好”和“用好”基因組科學數據的實際需求為前提,已初步建成具有自主知識產權、安全可控、涵蓋國家人類遺傳資源和重要戰(zhàn)略生物資源的基因組科學數據資源體系[1]。中心匯聚全球數據,提供公共服務,形成了組學“數據—信息—知識”一體化資源系統(tǒng),主要分為:①原始數據倉儲,包括生物項目數據庫(BioProject)、生物樣本數據庫(BioSample)、組學原始數據歸檔庫(genome sequence archive,GSA)[2-3]、人類遺傳資源組學原始數據歸檔庫(genome sequence archive for human,GSA-Human)[4]等;②組學信息庫,包括基因組數據庫(genome warehouse,GWH)[5]、基因組序列變異庫(genome variation map,GVM)[6-7]、基因表達數據庫(gene expression nebulas,GEN)[8]、甲基化數據庫(methylation bank,MethBank)[9-10]等;③組學知識庫,包括水稻多組學數據資源(IC4R)[11]、犬類組學資源庫(iDog)[12]、綿羊組學資源庫(iSheep)[13]、2019新型冠狀病毒信息庫(RCoV19)[14-15]、動植物基因組變異-表型關聯知識庫(GWAS Atlas)[16]、表觀組關聯分析知識庫(EWAS Atlas)[17]等;④在線工具和文獻情報信息平臺,包括生物大數據跨庫搜索引擎BIG Search、基因組科學數據在線分析平臺等。中心已獲得國際同行的高度認可,被國際生物數據領域權威期刊Nucleic Acids Research(《核酸研究》)稱為與美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)、歐洲生物信息學研究所(European Bioinformatics Institute,EBI)并列的“全球主要數據中心”[18]。中心解決了長期以來我國基因組科學數據匯交共享嚴重依賴國際數據庫的問題,為國家基因組科學數據的匯交共享、安全管理和挖掘利用提供了重要支撐。
數據的安全管理指在數據的收集、存儲、使用、加工、傳輸、提供、公開等過程中采取必要的措施,確保數據處于有效保護和合法利用的狀態(tài)。中心嚴格遵循《科學數據管理辦法》和《中華人民共和國數據安全法》等相關法規(guī),目前已建立較完整的基因組科學數據匯交共享機制和安全管理規(guī)范,研發(fā)形成具有自主知識產權的數據庫管理系統(tǒng)和共享平臺,為我國基因組科學數據安全可控的匯交存儲、共享管理與有效利用提供重要保障。
對于所有用戶遞交的數據,如生物研究項目和生物樣本元數據、組學原始數據、基因組序列數據、基因組變異數據等,中心借鑒國際核酸序列數據庫聯盟(International Nucleotide Sequence Database Collaboration,INSDC)[19]的數據匯交標準規(guī)范,分別建立相應數據管理系統(tǒng)對其進行收集和管理。在數據管理系統(tǒng)中,內置多套受控詞表,提供在線向導化信息提交功能,規(guī)范化、結構化管理各類信息,并通過在線校驗和人工審編實現信息的質控和審核,以此確保用戶遞交數據的完整性和可靠性。審核通過后,系統(tǒng)分別為每個遞交到中心的項目、樣本、數據分配唯一可識別的編號,作為檢索和訪問的標識。數據管理系統(tǒng)根據遞交用戶設定的數據公開時間進行可控管理,并依托中心高性能存儲和異地容災的備份機制,定期進行數據更新與異地備份,以全面保證數據的完整性與安全性。對于大型項目及數據,中心則提供高效、安全、專業(yè)化的項目分級管理。
特別強調的是,中心遵循《中華人民共和國人類遺傳資源管理條例》的指導原則,對人類遺傳組學數據資源采取如下六方面的安全管理機制和策略[2,4]。①在數據訪問方式方面,面向人類遺傳資源,提供公開訪問和受控訪問兩種方式。受控訪問的數據采用“申請—審核”的共享方式,即數據使用者需要先向數據管理委員 會(data access committee,DAC)提交申請,審核通過后才有權限訪問、下載并使用數據。②在身份安全認證方面,采取雙重認證方式,用戶除了需要通過單點登錄(single sign-on,SSO)系統(tǒng)的密碼認證,還需要在數據提交和申請下載的人工審核階段進行項目負責人(principal investigator,PI)身份信息核實,以確保數據的可溯源性。③在數據上傳權限方面,系統(tǒng)規(guī)定數據上傳必須使用PI賬號,且需對元數據信息進行脫敏,即不能包含受試者的隱私信息。④在數據存儲空間方面,系統(tǒng)為每個用戶提供獨立的數據存儲空間,有效避免不同用戶之間相互干擾,降低信息泄露的可能性,充分確保數據的安全性和私密性。⑤在數據申請訪問方面,為了保證數據訪問安全,系統(tǒng)規(guī)定只有注冊為PI的用戶才能申請下載數據。⑥在存儲策略和備份機制方面,針對不同訪問級別的數據采用分級存儲策略,并建立完善的多點備份和異地災備機制,以確保數據的安全存儲。
中心在做好數據資源存儲和管理的同時,十分注重數據的整合及應用系統(tǒng)的建設,研發(fā)了一站式跨庫檢索系統(tǒng)和在線分析平臺,并支撐國內外用戶開展組學大數據挖掘應用研究,為科學技術部、國家自然科學基金委員會、中國科學院等資助的4 000多個項目提供數據匯交存儲和共享管理服務。
生物大數據跨庫搜索引擎BIG Search是目前整合全球生物數據庫數量最多的生物大數據跨庫檢索平臺,為全球科研人員提供秒級響應、一站式的跨庫檢索服務,支撐生物大數據的快速發(fā)現與利用。BIG Search整合了中心28個重要的生物數據庫資源[1]以及國內眾多合作伙伴的39個生物數據庫資源,包括北京市神經外科研究所江濤教授團隊的中國腦膠質瘤基因組圖譜數據庫(CGGA)[20]、北京大學崔慶華教授團隊的長非編碼RNA疾病數據庫(LncRNADisease)[21]、北京大學高歌研究員團隊的植物轉錄因子數據庫(PlantTFDB)[22]、華中科技大學郭安源教授團隊的動物轉錄因子數據庫(AnimalTFDB)[23],以及哈爾濱醫(yī)科大學肖云教授團隊的細胞標記物知識庫(CellMarker)[24]等。此外,還整合了國際知名生物信息數據中心的數據資源,包括NCBI的35個數據資源庫[25]和EBI的115個數據集[26],累計數據索引量達到1 TB,記錄數超過11.5億條。
為了促進基因組科學數據的有效挖掘利用,中心已初步建立了基因組科學數據在線分析平臺,目前主要包括:①序列比對在線分析工具,集成了生命科學領域最常用的序列比對軟件BLAST(basic local alignment search tool)[27-28],不僅整合了nt、nr、Swiss-Prot等常用的核酸和蛋白數據庫,還發(fā)揮了中心的特色數據資源優(yōu)勢,提供多種特有的核酸、蛋白序列比對數據庫,包括GWH轉錄本和蛋白序列庫、GEN轉錄本和蛋白質序列庫、新型冠狀病毒基因組代表序列庫、人類長非編碼RNA數據庫LncBook[29]、萬種原生生物核酸和蛋白質序列庫、水稻/高粱/胡蜂等特色物種基因庫[30];②冠狀病毒在線分析平臺[31],由基因組拼接、序列比對、基因組注釋、變異鑒定和注釋、譜系和進化分析等11個模塊組成,滿足快速增長的新型冠狀病毒基因組數據的分析需求,已為國際生物多樣性與健康大數據聯盟(Global Biodiversity and Health Big Data Alliance,BHBD)成員以及來自全國10多個重要口岸的海關檢疫人員提供了線上或現場的使用培訓,為國內外用戶完成了11 628個病毒數據的分析任務。
中心建立的基因組科學數據多維資源體系為新型冠狀病毒的分子溯源與傳播演化、動植物分子育種與遺傳改良、精準醫(yī)學與人口健康等多個研究領域提供了強有力的數據和信息支撐。新型冠狀病毒信息庫RCoV19有效支撐了世界衛(wèi)生組織的SARS-CoV-2全球溯源研究—中國部分[32]、北京新發(fā)地疫情分子溯源[33]和巴基斯坦境內早期新型冠狀病毒傳播演化規(guī)律[34]等研究工作,在全球抗疫過程中發(fā)揮了科技支撐作用。武漢大學研究團隊對從新型冠狀病毒肺炎(COVID-19)患者的支氣管肺泡灌洗液(bronchoalveolar lavage fluid,BALF)和外周血單個核細胞(peripheral blood mononuclear cell,PBMC)樣本中提取的RNA進行了轉錄組測序,揭示了新型冠狀病毒肺炎患者支氣管肺泡灌洗液與外周血單個核細胞的轉錄組學特征[35],并將數據遞交至GSA(CRA002390),該成果發(fā)表后得到了廣泛的關注。華中農業(yè)大學的研究人員利用GVM中豬、馬、牛、山羊、水牛、雞、野馬和熊貓等物種的高密度基因型數據,經過數據再分析與處理,構建了經基因型填補后的13個動物的高質量參考變異組,同時開發(fā)了專業(yè)數據庫Animal-ImputeDB[36],用于在線基因型估算、基因變異搜索和免費下載,為動物遺傳育種和遺傳改良提供了豐富的數據資源,促進了基因型填補在動物遺傳研究中的應用。
在科學技術部及有關部門的大力支持和資助下,中心在數據匯交共享、安全管理和挖掘應用等方面都取得了突破性進展,已建成涵蓋國家人類遺傳資源和重要戰(zhàn)略生物資源的多組學數據資源體系,研發(fā)一站式跨庫檢索系統(tǒng)和在線分析平臺,數據資源總量已超過10 PB,為公益性科學研究和產業(yè)創(chuàng)新發(fā)展,尤其是全球抗疫,提供了重要數據資源和科技支撐。然而,在生物數據統(tǒng)一匯交政策機制、基礎設施和數據智能管理能力、生物信息專業(yè)人才隊伍以及生物數據的國際互通共享等方面仍需極大的提升。為此,筆者提出如下建議。
● 加快完善生物信息資源共享的政策保障措施:加快推動建立科技信息公開制度,確保各類科技項目產生的科學數據能夠全面、及時開放共享,健全科學數據共享管理過程中的保障機制。
● 加強生物信息基礎設施建設和核心軟件系統(tǒng)研發(fā):以生命科學研究的實際需求為導向,建立面向生物信息大數據的基礎設施環(huán)境,研發(fā)多維數據資源的生物數據庫、信息庫和知識庫系統(tǒng)及其關鍵核心軟件和工具,加大對生物信息算法、模型、軟件、工具、數據庫等方面的資助支持力度,切實形成綜合性、權威性的生物信息數據庫以及具有自主知識產權的核心軟件。
● 加大我國生物信息學學科建設及人才隊伍的培養(yǎng):建議盡快推進生物信息學的學科布局和整體規(guī)劃,提升生物信息學的學科級別,成立生物信息學一級學會,并在有較好基礎的大學設立生物信息學院,以此加強基礎人才培養(yǎng),為未來我國生命科學領域的可持續(xù)發(fā)展提供充足的人才儲備。
● 加強生物信息數據與資源的國際合作:一方面,根據國家“一帶一路”倡議,加強與相關國家的科技合作和技術探討,在生命科學領域開展聯合研究,擴大我國生物信息數據體系的影響力;另一方面,加強國內外科學共同體的交流合作,探索與國際社會的數據交換和合作交流,保障資源的全球化利用,最大限度發(fā)揮數據的價值。
致謝
感謝國家基因組科學數據中心的陳梅麗、陳婷婷、杜政霖、郝麗麗、馬利娜、唐碧霞、張思思等在本文撰寫過程中給予的支持和幫助。