儲節(jié)旺 林浩煒
收稿日期:2020-08-21
基金項目:國家社會科學(xué)一般項目“大數(shù)據(jù)環(huán)境下突發(fā)事件應(yīng)急管理情報能力建設(shè)研究”(項目編號:16BTQ066)。
作者簡介:儲節(jié)旺(1969-),男,館長,教授,博士生導(dǎo)師,研究方向:知識管理。林浩煒(1996-),男,碩士研究生,研究方向:知識管理。
摘 要:[目的/意義]旨在深化對國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫的元數(shù)據(jù)研究,提高國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)開放水平。[方法/過程]本文基于基因組學(xué)研究人員的元數(shù)據(jù)功能需求,歸納出結(jié)構(gòu)需求、內(nèi)容需求、關(guān)聯(lián)需求和使用需求4個維度,提出生物醫(yī)學(xué)元數(shù)據(jù)功能需求維度模型。通過引入內(nèi)容結(jié)構(gòu)視圖作為分析元數(shù)據(jù)結(jié)構(gòu)的模型,對國內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫的元數(shù)據(jù)方案進(jìn)行比較研究。[結(jié)果/結(jié)論]國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫可以從數(shù)據(jù)結(jié)構(gòu)優(yōu)化、數(shù)據(jù)質(zhì)量控制、豐富研究條目和分類匯總鏈接4個方面推動數(shù)據(jù)開放的水平。
關(guān)鍵詞:生物醫(yī)學(xué)數(shù)據(jù);數(shù)據(jù)開放;元數(shù)據(jù);功能需求模型
DOI:10.3969/j.issn.1008-0821.2021.01.001
〔中圖分類號〕G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2021)01-0004-09
Comparative Studies and Implications of Typical
Biomedical Metadata Functions
Chu Jiewang Lin Haowei
(School of Management,Anhui University,Hefei 230601,China)
Abstract:[Purpose/Significance]This paper aims to make further research on the metadata of domestic biomedical databases and improve the quality of domestic biomedical data opening.[Method/Process]Based on the metadata function requirements of genomics researchers,this paper summarized the four aspects of structure requirements,content requirements,linkage requirements and application requirements,and proposed the SCLA functional requirements dimension model of biomedical metadata.By introducing content structure view as a model for analyzing metadata structure,this paper made a comparative study on the metadata schemes of biomedical databases at home and abroad.[Results/Conclusion]domestic biomedical databases can promote the level of data openness from four aspects:optimization of data structure,data quality control,enrichment of research items and links of subgroups and summaries.
Key words:biomedical data;data opening;metadata;functional requirements model
隨著超高通量測序方法在基因?qū)W研究領(lǐng)域的應(yīng)用,研究人員能夠更快地獲取生物樣本的基因組序列數(shù)據(jù),大量的原始測序數(shù)據(jù)被保存到公共數(shù)據(jù)庫中,科研人員獲取開放數(shù)據(jù)和展開研究活動要求相關(guān)數(shù)據(jù)的每條序列記錄都可以鏈接到已測序樣本的元數(shù)據(jù)[1]。生物醫(yī)學(xué)數(shù)據(jù)庫中開放數(shù)據(jù)的元數(shù)據(jù)可以描述樣本數(shù)據(jù)集的創(chuàng)建者、時間、位置、機(jī)構(gòu)、上下文、族系等信息,對于查找、檢索和重用上傳到公共數(shù)據(jù)庫中科學(xué)實驗結(jié)果報告十分重要,當(dāng)用戶查找的科學(xué)數(shù)據(jù)未附帶或附帶質(zhì)量較差的元數(shù)據(jù)時,對實驗數(shù)據(jù)進(jìn)行索引和利用的軟件系統(tǒng)可能無法定位和返回原本符合給定搜索條件的搜索結(jié)果[2]。
有關(guān)生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)質(zhì)量的文獻(xiàn)指出許多開放生物醫(yī)學(xué)數(shù)據(jù)存在元數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范的問題。美國聯(lián)邦政府開發(fā)的HealthData.gov由于缺乏一致的數(shù)據(jù)存儲和檢索標(biāo)準(zhǔn),會阻礙研究人員使用數(shù)據(jù)進(jìn)行學(xué)術(shù)研究[3]。Rafael S Gonalves等[1]比較研究了美國國家生物信息中心(National Center for Biotechnology Information,NCBI)管理的BioSample和歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)管理的BioSamples兩個生物醫(yī)學(xué)數(shù)據(jù)庫,發(fā)現(xiàn)存在多數(shù)元數(shù)據(jù)字段名稱和內(nèi)容未標(biāo)準(zhǔn)化且無法控制的情況,可能會阻止相關(guān)數(shù)據(jù)集的搜索和重用。導(dǎo)致元數(shù)據(jù)質(zhì)量下降的原因在于過多使用非結(jié)構(gòu)化文本描述開放生物醫(yī)學(xué)數(shù)據(jù),而很少使用標(biāo)準(zhǔn)化的受控術(shù)語和學(xué)科領(lǐng)域中的本體論概念來控制元數(shù)據(jù)條目的名稱和填充內(nèi)容[4]。有效的解決途徑是選擇合適的標(biāo)準(zhǔn)構(gòu)建元數(shù)據(jù)[1,3],使每個元數(shù)據(jù)條目的填充內(nèi)容準(zhǔn)確統(tǒng)一且遵守相應(yīng)規(guī)范,即使自由擴(kuò)展文本也可以使用受控術(shù)語來描述[5]。
元數(shù)據(jù)標(biāo)準(zhǔn)的選擇最終會影響元數(shù)據(jù)方案的結(jié)構(gòu),編寫元數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)是否合適取決于數(shù)據(jù)使用利益相關(guān)者的需求[6]。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究表明,元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計基于滿足特定的數(shù)據(jù)庫數(shù)據(jù)管理和用戶科研活動的功能需求。國際上現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)如任何基因序列最小信息的最低信息標(biāo)準(zhǔn)(Minimum Information About Any(x)Sequence,MIxS)通過引入特定的“環(huán)境軟件包”實現(xiàn)提高跨庫收集的信息的質(zhì)量、可訪問性和實用性的目的[7],人類病原體/載體基因組序列的標(biāo)準(zhǔn)化元數(shù)據(jù)基于美國國立過敏和傳染病研究所(National Institute of Allergy and Infectious Diseases,NIAID)的GSCID/BRC項目和樣本應(yīng)用標(biāo)準(zhǔn),使研究人員能夠清晰地識別相關(guān)的基因組序列并進(jìn)行比較性的基因組分析[1]。國內(nèi)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究包括結(jié)合生命周期理論的植物學(xué)基因表達(dá)實驗元數(shù)據(jù)模型[8]和五維度的我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范[9],前者旨在完整描述科學(xué)實驗相關(guān)信息,支持不同類型科學(xué)實驗數(shù)據(jù)的語義化關(guān)聯(lián),后者則是為了提供數(shù)據(jù)采集和存儲的技術(shù)標(biāo)準(zhǔn)。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究都體現(xiàn)出功能需求的導(dǎo)向,但是這些文章并沒有討論元數(shù)據(jù)標(biāo)準(zhǔn)被應(yīng)用于不同的具體數(shù)據(jù)庫后產(chǎn)生的差異。服務(wù)不同數(shù)據(jù)庫和研究人員的元數(shù)據(jù)標(biāo)準(zhǔn)所側(cè)重的功能需求不同,使用通用的元數(shù)據(jù)標(biāo)準(zhǔn)如都柏林核心元素集(Dublin Core Element Set,DC)可以在整體上設(shè)立數(shù)據(jù)標(biāo)準(zhǔn)框架,但用戶在上傳研究數(shù)據(jù)后,需要額外的人工操作或使用更好的基礎(chǔ)結(jié)構(gòu)來確保多個字段名稱的有效填充以保證元數(shù)據(jù)質(zhì)量[2],因此需要結(jié)合具體的生物醫(yī)學(xué)數(shù)據(jù)庫對元數(shù)據(jù)標(biāo)準(zhǔn)的功能需求進(jìn)行整理和比較研究。
本文根據(jù)生物醫(yī)學(xué)管理人員對基因組數(shù)據(jù)元數(shù)據(jù)的6項功能需求,歸納每項需求所涵蓋的要素特點(diǎn),提出生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求比較的4個維度:結(jié)構(gòu)需求、內(nèi)容需求、關(guān)聯(lián)需求和使用需求。引用內(nèi)容結(jié)構(gòu)視圖作為元數(shù)據(jù)結(jié)構(gòu)需求的比較模型,并應(yīng)用于選擇的國內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫的元數(shù)據(jù)方案比較,旨在深化國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫的元數(shù)據(jù)研究建設(shè),提高國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)開放的質(zhì)量水平。
1 生物醫(yī)學(xué)元數(shù)據(jù)功能需求
Mark D Wilkinson等[6]提出了科學(xué)數(shù)據(jù)管理的公平(FAIR,F(xiàn)indability,Accessibility,Interoperability,Reusability)數(shù)據(jù)原則,在對科學(xué)數(shù)據(jù)進(jìn)行管理時關(guān)注所有的利益相關(guān)者的需求以提高數(shù)據(jù)質(zhì)量,如研究人員希望能夠共享、重用彼此的研究數(shù)據(jù)和分析報告;提供數(shù)據(jù)分析和處理服務(wù)的技術(shù)供應(yīng)者希望實現(xiàn)軟件工具和工作流程的重復(fù)使用;資助機(jī)構(gòu)更加關(guān)注長期數(shù)據(jù)管理。思考用戶的使用需求可以用來指導(dǎo)開放數(shù)據(jù)庫的元數(shù)據(jù)設(shè)計。Jian Qin等[10]對元數(shù)據(jù)的功能需求進(jìn)行了調(diào)查,將Willis等確定的22項科學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求總結(jié)為基因組學(xué)研究人員的6項元數(shù)據(jù)功能需求,按需求程度從高到低分為可移植性(Portability)、可重用性(Reusability)、可操作性(Manipulability)、充分性(Sufficiency)、互操作性(Interoperability)和模塊性(Modularity),并以關(guān)鍵詞描述需求內(nèi)容[7,11]。
元數(shù)據(jù)功能需求因素的某些方面在設(shè)置元數(shù)據(jù)時會產(chǎn)生重疊,如可移植性和可重用性本質(zhì)上是從不同角度考察元數(shù)據(jù)條目的結(jié)構(gòu),可操作性和互操作性實際都是在考察元數(shù)據(jù)結(jié)構(gòu)設(shè)置對研究人員數(shù)據(jù)處理的影響,這使其作為比較標(biāo)準(zhǔn)不具有明顯的區(qū)分度。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)質(zhì)量研究的文章通常定義各種指標(biāo)來評價元數(shù)據(jù)質(zhì)量,如完整性、準(zhǔn)確性、一致性[3]或完整性、準(zhǔn)確性、出處[2]這樣的衡量標(biāo)準(zhǔn),這為設(shè)計元數(shù)據(jù)功能需求的比較維度提供了思路。本文嘗試從元數(shù)據(jù)功能需求指標(biāo)中提取關(guān)鍵描述字段,將指向相近的字段相結(jié)合歸納生物醫(yī)學(xué)數(shù)據(jù)庫元數(shù)據(jù)比較的主要方向,包括:結(jié)構(gòu)(Structure)需求、內(nèi)容(Content)需求、關(guān)聯(lián)(Linkage)需求、使用(Application)需求,并命名為SCLA維度模型,如圖1所示。
1.1 結(jié)構(gòu)維度:結(jié)構(gòu)簡便,兼容通用
元數(shù)據(jù)結(jié)構(gòu)應(yīng)該層次分明、結(jié)構(gòu)清晰,使用簡練有區(qū)分度的語言以保證用戶能利用最少的關(guān)鍵詞定位到所需信息,便于目標(biāo)數(shù)據(jù)上傳發(fā)布和查詢獲取;整套元數(shù)據(jù)方案的建立需要成熟的架構(gòu)技術(shù)和操作系統(tǒng),保證通過穩(wěn)定的檢索渠道訪問數(shù)據(jù)庫。元數(shù)據(jù)結(jié)構(gòu)設(shè)計需要基于通用的元數(shù)據(jù)標(biāo)準(zhǔn)以支持與其它數(shù)據(jù)庫的協(xié)同操作。一些基因組學(xué)社區(qū)沒有設(shè)計與全球共享有關(guān)的元數(shù)據(jù)[10],許多專業(yè)數(shù)據(jù)庫元數(shù)據(jù)標(biāo)準(zhǔn)的特有結(jié)構(gòu),如MIxS具有很強(qiáng)的獨(dú)特性難以兼容其它數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容。許多通用數(shù)據(jù)庫包含了許多不同類別、樣本容量小的重要數(shù)據(jù)集,這些數(shù)據(jù)集由于數(shù)據(jù)類型各異通常不會使用統(tǒng)一的描述限定[6],使得研究人員存在較低集約化程度下的數(shù)據(jù)可重用性問題。
1.2 內(nèi)容維度:內(nèi)容全面,按需調(diào)整
生物醫(yī)學(xué)數(shù)據(jù)的質(zhì)量關(guān)系到研究人員數(shù)據(jù)利用??茖W(xué)數(shù)據(jù)質(zhì)量得到控制,可以提高科學(xué)數(shù)據(jù)的可重用性,節(jié)約科研人員在數(shù)據(jù)清洗過程中的時間與精力[12]。數(shù)據(jù)庫為支持標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)使用統(tǒng)一的受控詞匯描述樣本信息,元數(shù)據(jù)方案可以提供用以注釋海量數(shù)據(jù)集中的非結(jié)構(gòu)化信息的條目幫助研究人員多方位獲取樣本相關(guān)信息。此外,生物醫(yī)學(xué)元數(shù)據(jù)方案及其內(nèi)容應(yīng)該根據(jù)生物特性和研究人員的數(shù)據(jù)使用需要及時調(diào)整,提供數(shù)據(jù)上傳者可自定的元數(shù)據(jù)拓展包以保證元數(shù)據(jù)標(biāo)準(zhǔn)的可擴(kuò)展和數(shù)據(jù)庫的可持續(xù)[11],使數(shù)據(jù)庫數(shù)據(jù)能夠適應(yīng)知識更新迭代。
1.3 關(guān)聯(lián)維度:相關(guān)聚合,共享交互
元數(shù)據(jù)功能需求指標(biāo)中多次提到需求元數(shù)據(jù)方案提供關(guān)聯(lián)信息的鏈接,幫助用戶全面掌握目標(biāo)數(shù)據(jù)。鏈接是元數(shù)據(jù)條目的一部分,屬于數(shù)據(jù)內(nèi)容需求的范疇,但由于數(shù)據(jù)鏈接的指向受數(shù)據(jù)內(nèi)容的不同而表現(xiàn)出不同的類型,因而單獨(dú)作為一個比較研究的維度。這些以鏈接形式存在元數(shù)據(jù)內(nèi)容可以簡化數(shù)據(jù)結(jié)構(gòu),支持研究人員橫向比較、驗證數(shù)據(jù)的需求,促進(jìn)跨庫內(nèi)容的共享與交互。完整的數(shù)據(jù)鏈接網(wǎng)絡(luò)可以匯集包括數(shù)據(jù)庫、軟件工具、培訓(xùn)資料、云儲存和超級計算機(jī)在內(nèi)的研究資源,支持研究人員在更大范圍內(nèi)查找和共享數(shù)據(jù)。以臨床病例報告(Clinical Case Reports,CCR)為例,臨床病例報告經(jīng)常能夠捕捉到不常見的癥狀和疾病[14],但這些寶貴數(shù)據(jù)來源可能會受宿主所在國家的法律和法規(guī)約束,無法獲得離開所在管轄范圍的許可。歐洲生命科學(xué)數(shù)據(jù)研究基礎(chǔ)設(shè)施(The European Research Infrastructure for Life Science Data,ELIXIR)通過加強(qiáng)聯(lián)合歐洲的基因組表型檔案資源訪問節(jié)點(diǎn),可以在確保符合國家法規(guī)的前提下快速共享2019新型冠狀病毒的臨床宿主數(shù)據(jù)[13]。
此外,元數(shù)據(jù)條目的設(shè)置要根據(jù)數(shù)據(jù)庫類型提供必要的數(shù)據(jù)引用鏈接以支持?jǐn)?shù)據(jù)源的可追蹤性,提供數(shù)據(jù)關(guān)聯(lián)內(nèi)容鏈接簡化數(shù)據(jù)檢索的流程,提供數(shù)據(jù)包和模板下載鏈接實現(xiàn)元數(shù)據(jù)內(nèi)容的可移植性。
1.4 使用維度:分析處理,更新重用
元數(shù)據(jù)條目的設(shè)置應(yīng)該支持研究人員對元數(shù)據(jù)內(nèi)容地處理和分析。從數(shù)據(jù)庫提取下載的資源是否可操作對整個數(shù)據(jù)管理過程至關(guān)重要,這關(guān)系到研究人員能否根據(jù)實驗需要比較不同方案的數(shù)據(jù),并驗證相關(guān)的元數(shù)據(jù)因素。專業(yè)庫使用的元數(shù)據(jù)方案要能夠滿足研究人員的使用需要,并能根據(jù)用戶需要不斷更新完善。同時,數(shù)據(jù)庫也可以通過工具包的形式提供開放獲取的生物計算資源和基礎(chǔ)研究架構(gòu)[13],從而支持研究人員在云基礎(chǔ)架構(gòu)上部署可重用的生物醫(yī)學(xué)數(shù)據(jù)計算分析。
2 基于SCLA維度模型的生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求比較
2.1 基本情況
本文選擇了5個國外病毒數(shù)據(jù)庫和2個國內(nèi)病毒數(shù)據(jù)庫的元數(shù)據(jù)應(yīng)用內(nèi)容結(jié)構(gòu)視圖進(jìn)行比較分析,7個數(shù)據(jù)庫的基本情況,如表1所示。
2.2 比較分析
2.2.1 結(jié)構(gòu)維度
不同元數(shù)據(jù)標(biāo)準(zhǔn)的側(cè)重點(diǎn)不同,所采用的描述字段不同,元數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容存在差異。比較病毒數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)需要引用一定的參考標(biāo)準(zhǔn),朱玲[15]在文章中引入了一種內(nèi)容結(jié)構(gòu)視圖用于比較跨學(xué)科領(lǐng)域的研究數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)。內(nèi)容結(jié)構(gòu)視圖分為識別元數(shù)據(jù)模塊(Identity Metadata)、語義元數(shù)據(jù)模塊(Semantic Metadata)、科研活動上下文(Scientific Context)、時間元數(shù)據(jù)(Temporal Metadata)和地理空間元數(shù)據(jù)(Geospatial Metadata)5個方面,前3個為主要模塊,分別提供識別數(shù)據(jù)集實體信息和相互關(guān)系、學(xué)科分類和跨領(lǐng)域鏈接、確定數(shù)據(jù)集操作流程的功能,如表2所示。
BioSample和GenBank都是由NCBI維護(hù)的生物醫(yī)學(xué)數(shù)據(jù)庫,元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上均未對語義元數(shù)據(jù)和時空元數(shù)據(jù)有集中描述,在科研活動上下文模塊分別使用了7個描述字段,強(qiáng)調(diào)對滿足數(shù)據(jù)研究需求的關(guān)聯(lián)信息的描述。BioSample元數(shù)據(jù)的主體部分是樣本的屬性信息,還包括樣本的基本標(biāo)識符、生物體分類、樣本描述屬性包、上傳者相關(guān)信息和外部定位鏈接URL等,屬性部分元數(shù)據(jù)的類型不固定,受上傳者選擇的樣本描述屬性包決定;GenBank相比BioSample更加重視對識別元數(shù)據(jù)的使用,其每一條由序列和注釋組成記錄都分配有一個唯一的標(biāo)識符,稱為登錄號。登錄號在記錄的整個生命周期中保持不變,不受序列或注釋更改的影響。版本復(fù)合標(biāo)識符由主要登錄號和記錄中序列數(shù)據(jù)的數(shù)字版本號組成,基因序列的每個版本都分配有一個唯一的NCBI標(biāo)識符,稱為GI號,每個GI號對應(yīng)一個唯一的版本標(biāo)識符。當(dāng)對GenBank數(shù)據(jù)庫中的序列進(jìn)行修改會向更新后的序列分配新的GI號,并增加版本標(biāo)識符的版本擴(kuò)展名以保證檢索記錄始終處于最新版本。
ICTVdb不同于一般的生物病毒基因庫,它是病毒分類學(xué)國際委員會管理的數(shù)據(jù)庫,提供對每個物種示例性病毒的信息。ICTV關(guān)注的是病毒分類群的名稱和命名,即物種、屬、科等,因此在內(nèi)容結(jié)構(gòu)視圖上強(qiáng)調(diào)對分類信息的限定,使用了16個語義元數(shù)據(jù)條目,沒有使用過多的識別元數(shù)據(jù),僅包括示例病毒的GenBank和RefSeq登錄號,以及屬于某個物種的病毒的隔離名和通用名。
ViPR使用GSCID-BRC元數(shù)據(jù)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)的特點(diǎn)在于元數(shù)據(jù)構(gòu)成的層次結(jié)構(gòu)分明,由5個主要方面和12個數(shù)據(jù)字段組成的樹狀分支網(wǎng)絡(luò),每個子元素字段之間都有明顯的區(qū)分度。ViPR提供了來自GenBank的識別數(shù)據(jù)、注釋和序列查詢鏈接,元數(shù)據(jù)開發(fā)小組不斷推出新的版本對該標(biāo)準(zhǔn)進(jìn)行完善,使ViPR的元數(shù)據(jù)內(nèi)容實現(xiàn)與其他兼容GSCID-BRC元數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)庫網(wǎng)站的內(nèi)容鏈接。
VIPERdb是基于MySQL開源數(shù)據(jù)庫管理系統(tǒng)的關(guān)系數(shù)據(jù)庫,使用開放源代碼OpenMMS Toolkit將mmCIF格式生物分子結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換為多種數(shù)據(jù)格式[16]。VIPERdb包含了約180個mmCIF詞典中定義的分類表,表列對應(yīng)字典數(shù)據(jù)項,并提供從結(jié)晶參數(shù)到二級結(jié)構(gòu)的內(nèi)容和拓展信息。
國家生物信息中心的2019新型冠狀病毒信息庫(以下簡稱CNCB2019新冠病毒庫)元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上的主體部分集中在上下文模塊,還使用了5個元數(shù)據(jù)條目對數(shù)據(jù)采集發(fā)布的時間、空間信息進(jìn)行了限定。雖然沒有使用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)方案,但使用“序列完整度”和“質(zhì)量評估”這樣的元數(shù)據(jù)條目對基因組序列數(shù)據(jù)的元數(shù)據(jù)質(zhì)量提出了需求。
PHDA是國家人口健康科學(xué)數(shù)據(jù)中心管理的醫(yī)學(xué)數(shù)據(jù)庫集合中心,存儲了大量的生物學(xué)和醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)庫和數(shù)據(jù)記錄,如蝙蝠相關(guān)病毒數(shù)據(jù)庫、嚙齒類相關(guān)病毒數(shù)據(jù)庫、冠狀病毒傳染病本體等。子數(shù)據(jù)庫不是單純的樣本數(shù)據(jù)集合,提供了詳細(xì)的元數(shù)據(jù)條目幫助研究人員掌握子數(shù)據(jù)庫和樣本數(shù)據(jù)的相關(guān)信息。PHDA的子數(shù)據(jù)庫使用了醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn),元數(shù)據(jù)方案采用二級元數(shù)據(jù)條目,將樣本數(shù)據(jù)清晰地劃分為基本信息、描述信息和聯(lián)系信息等部分,根據(jù)數(shù)據(jù)集和子數(shù)據(jù)庫的對象引出下級詳細(xì)的元數(shù)據(jù)內(nèi)容。用戶可以通過一級元數(shù)據(jù)條目準(zhǔn)確定位目標(biāo)的識別元數(shù)據(jù)、分類描述信息、相關(guān)責(zé)任方聯(lián)系信息以及具體的目標(biāo)序列數(shù)據(jù)。
經(jīng)過上述運(yùn)用內(nèi)容結(jié)構(gòu)視圖對7個數(shù)據(jù)庫元數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)的比較可以發(fā)現(xiàn),數(shù)據(jù)庫的元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上主要集中在科研活動上下文模塊,會根據(jù)數(shù)據(jù)庫的類型特點(diǎn)而有所側(cè)重,如GenBank要求對每條序列內(nèi)容、注釋和版本的標(biāo)識,重視使用識別元數(shù)據(jù)條目;ICTVdb關(guān)注病毒分類相關(guān)信息的描述,強(qiáng)調(diào)語義元數(shù)據(jù)模塊。此外,國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫相比國外更加重視元數(shù)據(jù)對樣本時間和空間信息的描述。
2.2.2 內(nèi)容維度
GenBank、BioSample、ViPR和PHDA都提供了記錄樣本非結(jié)構(gòu)化信息的自由文本編輯條目,CNCB2019新冠病毒庫僅提供了樣本數(shù)據(jù)的注釋統(tǒng)計數(shù)。GenBank允許上傳者修改序列數(shù)據(jù)和注釋,同時鼓勵用戶通過NCBI的數(shù)據(jù)上傳網(wǎng)站向GenBank報告數(shù)據(jù)庫發(fā)布數(shù)據(jù)的滯后和可能的數(shù)據(jù)錯誤與內(nèi)容遺漏。BioSample在確定樣本屬性之后為上傳者提供了一個可選的自由文本字段以存儲有關(guān)樣本的非結(jié)構(gòu)化信息,這種結(jié)構(gòu)化信息加非結(jié)構(gòu)化信息的樣本數(shù)據(jù)收錄方式能夠確保樣本信息的完整性,滿足不同用戶的數(shù)據(jù)獲取需求。ViPR基因組序列和變異信息引用了GenBank的數(shù)據(jù)信息,設(shè)置了GenBank定義和GenBank注釋。PHDA子數(shù)據(jù)庫,以蝙蝠相關(guān)病毒數(shù)據(jù)庫為例,在數(shù)據(jù)描述信息元數(shù)據(jù)條目說明了蝙蝠相關(guān)病毒研究的重要性、數(shù)據(jù)庫元數(shù)據(jù)條目、數(shù)據(jù)庫功能用途和數(shù)據(jù)更新特點(diǎn),主要介紹數(shù)據(jù)庫的基本情況,并未描述具體樣本數(shù)據(jù)。
ICTVdb收錄的物種示例病毒數(shù)據(jù)來源于ICTV發(fā)布的在線報告,報告中提供每種物種的示例性病毒權(quán)威列表和VMR電子表格,電子表格收錄了包括尚未在ICTV報告章節(jié)中描述的病毒種類的示例并基于新的信息發(fā)布進(jìn)行更新糾正。
VIPERdb沒有提供非結(jié)構(gòu)化文本編輯的元數(shù)據(jù)條目,研究人員可以對衣殼結(jié)構(gòu)進(jìn)行簡單的修改以確保關(guān)聯(lián)結(jié)構(gòu)之間的一致性,并在聯(lián)機(jī)補(bǔ)充數(shù)據(jù)中加以詳細(xì)說明。
BioSample鼓勵上傳者使用結(jié)構(gòu)化和一致的屬性名稱和值,其上傳門戶網(wǎng)站還為上傳用戶提供包含許多常見的BioSample數(shù)據(jù)類型的專用屬性包(Specialized Packages)和用于自定義描述屬性的泛用屬性包(Generic Packages)。每種專用屬性包都包含一整套描述樣本的相關(guān)屬性,用戶可以使用屬性包中的受控詞匯以結(jié)構(gòu)化的方式來描述樣本信息,推進(jìn)元數(shù)據(jù)的標(biāo)準(zhǔn)化。GenBank序列記錄的登錄號是每條序列的主要標(biāo)識符,不會因序列記錄的更新修改而產(chǎn)生改變,使用登錄號檢索GenBank記錄會得到序列的最新版本。如果序列記錄被更新修改,通過登錄號所獲取的序列數(shù)據(jù)可能與以前文章中所使用的序列數(shù)據(jù)不同。
2.2.3 關(guān)聯(lián)維度
BioSample將樣本元數(shù)據(jù)鏈接到跨多個檔案數(shù)據(jù)庫的相應(yīng)實驗數(shù)據(jù),使得樣本描述支持跨數(shù)據(jù)庫查詢,同時樣本數(shù)據(jù)中也提供了指向其他檔案中的相關(guān)記錄的鏈接,如參考生物樣本(Reference BioSample)作為映射NCBI檔案數(shù)據(jù)的樞紐可以幫助用戶快速找到從給定樣本派生的多種數(shù)據(jù)集和項目。此外,BioSample還與GenBank和BioProjec等外部數(shù)據(jù)庫相互鏈接,幫助導(dǎo)航查找派生數(shù)據(jù)和相關(guān)數(shù)據(jù)。
GenBank是國際核苷酸序列數(shù)據(jù)庫合作組織(the International Nucleotide Sequence Database Collaboration,INSDC)的合作伙伴,元數(shù)據(jù)條目中的登錄號作為唯一應(yīng)用標(biāo)識符在3個協(xié)作數(shù)據(jù)庫GenBank、日本DNA數(shù)據(jù)庫DDBJ和歐洲分子生物學(xué)實驗室核苷酸序列數(shù)據(jù)庫(the European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL-Bank)之間共享,并且每天與歐洲核苷酸檔案庫(ENA)、EMBL-Bank和DDBJ交換數(shù)據(jù),以確保全球范圍內(nèi)統(tǒng)一全面的序列信息覆蓋。此外,GenBank的序列記錄存在指向BioSample數(shù)據(jù)庫的鏈接,提供諸如全基因組關(guān)聯(lián)研究、高通量測序等序列數(shù)據(jù)測量研究中使用的生物材料的其他信息。GenBank還鼓勵用戶在引用數(shù)據(jù)庫信息時使用登錄號,幫助定位相關(guān)信息和延伸信息。
ViPR使用了GenBank的數(shù)據(jù)鏈接,基因序列數(shù)據(jù)的元數(shù)據(jù)條目提供了GenBank序列記錄的登錄號和樣本的定義、注釋和宿主,研究人員可以直接使用登錄號鏈接跳轉(zhuǎn)至GenBank數(shù)據(jù)庫獲取序列記錄的詳細(xì)信息。
VIPERdb的元數(shù)據(jù)條目相比VIPER增加了結(jié)構(gòu)坐標(biāo)和相關(guān)信息的鏈接,除了豐富的有關(guān)病毒衣殼的語義元數(shù)據(jù),如科、屬、T指數(shù)外,還包括指向ICTVdb的相關(guān)分類單元、PubMed的參考文獻(xiàn)和一些相關(guān)的晶體學(xué)信息等。用戶可以通過鏈接從GenBank、ICTVdb、PDB等不同類型的數(shù)據(jù)庫獲取補(bǔ)全關(guān)聯(lián)信息,實現(xiàn)對需求病毒衣殼數(shù)據(jù)的全面挖掘,在不同類型的派生數(shù)據(jù)之間交叉引用。
CNCB2019新型冠狀病毒信息庫用于信息分析所用的全基因組序列來自CNGBdb、GenBank、全球共享流感數(shù)據(jù)倡議組織(Global Initiative on Sharing All Influenza Data,GISAID)和基因組倉庫(Genome Warehouse,GWH)數(shù)據(jù)庫[17],除GISAID數(shù)據(jù)庫的序列信息由于使用權(quán)限原因無法提供下載,其他數(shù)據(jù)庫來源的基因組序列均可通過數(shù)據(jù)來源元數(shù)據(jù)模塊提供的鏈接進(jìn)行選定或批量獲取下載。CNCB新冠病毒庫還提供了冠狀病毒序列、基因組變異、臨床信息和文獻(xiàn)情報的拓展信息資源服務(wù),用戶可以通過數(shù)據(jù)庫中的鏈接進(jìn)入NGDC的基因組倉庫獲取冠狀病毒科的病毒序列相關(guān)研究信息。
PHDA的子數(shù)據(jù)庫提供了當(dāng)前版本數(shù)據(jù)庫來源的鏈接。用戶可以從“附件”和“數(shù)據(jù)”條目下載數(shù)據(jù)包和字典模板,對于缺乏實體數(shù)據(jù)的特殊數(shù)據(jù)庫可以在“數(shù)據(jù)說明”條目發(fā)出實體數(shù)據(jù)的申請。
2.2.4 使用維度
GenBank、ViPR和CNCB2019新冠病毒庫支持用戶對數(shù)據(jù)庫數(shù)據(jù)執(zhí)行基本的基本局部比對搜索工具(Basic Local Alignment Search Tool,BLAST)序列相似性搜索。GenBank使用全面的、基于核苷酸序列的分類方法和鏈接到相關(guān)序列數(shù)據(jù)的分類法瀏覽器,新物種的序列上傳至數(shù)據(jù)庫后需要咨詢NCBI分類法小組以解決有關(guān)命名和分類的問題后再將序列條目公開,避免對數(shù)據(jù)庫索引造成干擾。用于區(qū)分樣本序列數(shù)據(jù)類別的元數(shù)據(jù)能夠幫助用戶對GenBank數(shù)據(jù)進(jìn)行BLAST比對,在數(shù)據(jù)庫序列之間進(jìn)行類比研究[11];ViPR支持研究人員使用自己提供或從ViPR中選擇的序列數(shù)據(jù)與ViPR數(shù)據(jù)庫中選定的序列集合或用戶創(chuàng)建的數(shù)據(jù)集進(jìn)行對比,運(yùn)行BLAST后會輸出每條序列完整的識別元數(shù)據(jù)內(nèi)容、標(biāo)準(zhǔn)比值、期望值、方法、統(tǒng)一性和陽性值;CNCB新冠病毒庫側(cè)重于對2019新型冠狀病毒序列的橫向研究,在元數(shù)據(jù)條目中序列號和相關(guān)ID可以提供每條序列唯一的識別信息,序列完整度和序列長度、質(zhì)量信息鼓勵上傳完整的序列數(shù)據(jù)以支持病毒序列數(shù)據(jù)的對比研究和對原始序列的驗證,每條序列數(shù)據(jù)都記錄有采樣時間地點(diǎn)和樣本提交的時間和單位,支持最多10個基因組序列之間的BLAST比對和74個國家2019新型冠狀病毒序列數(shù)統(tǒng)計和增長趨勢研究。研究人員還可以利用數(shù)據(jù)庫提供的變異注釋和變異鑒定兩種在線工具,將測序原始數(shù)據(jù)與新冠病毒基因組進(jìn)行序列比對,檢測樣本中含有的新冠病毒序列,分析測序數(shù)據(jù)對新冠病毒基因組的覆蓋度、測序深度、錯誤率等信息。
病毒數(shù)據(jù)庫所提供的使用程序和工具服務(wù)基于數(shù)據(jù)庫的元數(shù)據(jù)結(jié)構(gòu)和研究需要,VIPERdb的語言編寫程序提供了一個將PDB坐標(biāo)轉(zhuǎn)化為VIPER坐標(biāo)的腳本,可以自動確定將衣殼信息定向為VIPER方向所需的轉(zhuǎn)換矩陣,并將其存儲在數(shù)據(jù)庫中[16];PHDA數(shù)據(jù)倉儲匯總子數(shù)據(jù)庫的數(shù)據(jù)鏈接,對數(shù)據(jù)跨庫研究的需要更多依賴數(shù)據(jù)庫提供的功能服務(wù)。
3 對我國生物醫(yī)學(xué)元數(shù)據(jù)建設(shè)的啟示和建議
本文在比較分析國內(nèi)外生物醫(yī)學(xué)元數(shù)據(jù)方案標(biāo)準(zhǔn)和功能需求的基礎(chǔ)上,從數(shù)據(jù)結(jié)構(gòu)需求、數(shù)據(jù)內(nèi)容需求、數(shù)據(jù)研究需求和數(shù)據(jù)鏈接需求4個維度對比了國內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫的元數(shù)據(jù)方案。結(jié)合國內(nèi)病毒數(shù)據(jù)庫元數(shù)據(jù)方案的不足,基于基因組學(xué)研究人員的元數(shù)據(jù)功能需求對國內(nèi)提升病毒數(shù)據(jù)開放水平提出建議。
3.1 優(yōu)化數(shù)據(jù)結(jié)構(gòu),推動標(biāo)準(zhǔn)化研究
國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫為了方便實現(xiàn)與外部關(guān)聯(lián)資源的鏈接,使用的元數(shù)據(jù)方案來源于多個學(xué)科的數(shù)據(jù)結(jié)構(gòu)和標(biāo)準(zhǔn),具有很好的兼容性。這種兼容的元數(shù)據(jù)方案能夠幫助通用數(shù)據(jù)庫存儲各種格式的數(shù)據(jù)類型,但是缺乏對數(shù)據(jù)的有效描述和限定,導(dǎo)致數(shù)據(jù)庫內(nèi)部數(shù)據(jù)呈現(xiàn)多樣化,集成程度不斷降低,研究人員的數(shù)據(jù)發(fā)現(xiàn)和使用會更加困難。對于生物醫(yī)學(xué)領(lǐng)域的病毒數(shù)據(jù)庫這類定位重要數(shù)字對象或數(shù)據(jù)使用用途的專用數(shù)據(jù)庫,需要結(jié)合對象的數(shù)據(jù)特點(diǎn)和研究用途設(shè)置元數(shù)據(jù)標(biāo)準(zhǔn),如ICTVdb的元數(shù)據(jù)方案強(qiáng)調(diào)對病毒的語義元數(shù)據(jù)模塊的設(shè)置,并根據(jù)知識更新和數(shù)字對象的變化及時調(diào)整元數(shù)據(jù)標(biāo)準(zhǔn)以提高元數(shù)據(jù)內(nèi)容的質(zhì)量。
為滿足數(shù)據(jù)處理最低需要,國際基因組學(xué)領(lǐng)域已經(jīng)定義了一套最小的核心元數(shù)據(jù)元素集。學(xué)科領(lǐng)域內(nèi)部也需要定義一套通用的病毒數(shù)據(jù)開放元數(shù)據(jù)標(biāo)準(zhǔn)以支持研究人員的跨庫數(shù)據(jù)處理與交互。
3.2 控制數(shù)據(jù)質(zhì)量,促進(jìn)數(shù)據(jù)共享重用
元數(shù)據(jù)對數(shù)據(jù)質(zhì)量表現(xiàn)為準(zhǔn)確性、完整性等,對數(shù)據(jù)質(zhì)量的控制呈現(xiàn)為保持?jǐn)?shù)據(jù)結(jié)構(gòu)一致和可獲取性。國內(nèi)病毒數(shù)據(jù)庫用于控制數(shù)據(jù)質(zhì)量的元數(shù)據(jù)條目指向不一,PHDA的元數(shù)據(jù)條目“數(shù)據(jù)大小”“數(shù)據(jù)記錄數(shù)”“數(shù)據(jù)格式”側(cè)重于對數(shù)據(jù)集的體量和格式標(biāo)準(zhǔn)的控制,CNCB2019新冠病毒數(shù)據(jù)庫使用的“序列完整度”和“質(zhì)量評估”側(cè)重于對數(shù)據(jù)集結(jié)構(gòu)和內(nèi)容標(biāo)準(zhǔn)的控制。標(biāo)準(zhǔn)之間難以橫向比較,可以建立一套通用的最小核心標(biāo)準(zhǔn)評價數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)內(nèi)容應(yīng)該確保支持不同生物主體和數(shù)據(jù)庫類型的數(shù)據(jù)質(zhì)量控制需要,并根據(jù)具體需求特點(diǎn)拓展標(biāo)準(zhǔn)條目。
此外,元數(shù)據(jù)內(nèi)容的質(zhì)量控制一方面受數(shù)據(jù)庫元數(shù)據(jù)條目在數(shù)據(jù)上傳時對數(shù)據(jù)的限定;另一方面還依靠用戶的使用反饋。可以學(xué)習(xí)國外病毒數(shù)據(jù)庫,如BioSample,采用的“結(jié)構(gòu)化標(biāo)準(zhǔn)+非結(jié)構(gòu)化注釋模塊”的方式,利用受控語言統(tǒng)一樣本數(shù)據(jù)結(jié)構(gòu),結(jié)合非結(jié)構(gòu)化詞語描述補(bǔ)充樣本數(shù)據(jù)的拓展、修正信息。
數(shù)據(jù)質(zhì)量良莠不齊是影響數(shù)據(jù)共享和研究人員數(shù)據(jù)重用行為的重要因素,病毒數(shù)據(jù)的質(zhì)量關(guān)系到研究成果的質(zhì)量,數(shù)據(jù)質(zhì)量越高,研究人員的感知有用性越大,越有可能實現(xiàn)數(shù)據(jù)重用行為。
3.3 分類匯總鏈接,構(gòu)建關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)
CNCB2019新冠病毒庫和PHDA數(shù)據(jù)倉儲相比較國外生物醫(yī)學(xué)數(shù)據(jù)庫使用了豐富的關(guān)聯(lián)派生信息的鏈接,鏈接指向不局限于單純關(guān)聯(lián)派生數(shù)據(jù),還提供了完整的數(shù)據(jù)來源索引、數(shù)據(jù)下載和數(shù)據(jù)處理工具??鐜戽溄蛹蠘?gòu)成了全面的學(xué)科研究數(shù)據(jù)內(nèi)容,國內(nèi)病毒數(shù)據(jù)庫可以嘗試將指向、用途類似的鏈接進(jìn)行歸類整合,建立關(guān)聯(lián)數(shù)據(jù)集之間網(wǎng)絡(luò)圖。所形成的鏈接集合可以直觀地呈現(xiàn)某項數(shù)據(jù)的全部關(guān)聯(lián)內(nèi)容以及所關(guān)聯(lián)內(nèi)容的其他關(guān)聯(lián)信息,幫助研究人員發(fā)現(xiàn)諸如流行病起源與未來爆發(fā)風(fēng)險的潛在數(shù)據(jù)聯(lián)系[13],建立新的關(guān)聯(lián)數(shù)據(jù)鏈接以加強(qiáng)對病毒數(shù)據(jù)的數(shù)據(jù)關(guān)系研究。
3.4 豐富研究條目,滿足多樣化需求
CNCB2019新冠病毒庫支持對病毒序列的橫向?qū)Ρ妊芯亢蛯υ紲y序數(shù)據(jù)的數(shù)據(jù)驗證,能夠滿足研究人員對元數(shù)據(jù)條目可操作性的要求。數(shù)據(jù)庫提供了完整的基因組序列數(shù)據(jù)用于比較研究,但涉及數(shù)據(jù)對比研究的元數(shù)據(jù)條目較少且大多使用受控詞匯作為元數(shù)據(jù)內(nèi)容。對比VIPERdb有關(guān)序列對比研究的條目“解析度”“基因組”“T指數(shù)”“子單元數(shù)”“凈表面電荷”“外部SASA”“半徑”“直徑”“球形體積”,CNCB2019新冠病毒庫只有“序列完整度”“序列長度”和“序列質(zhì)量”3個元數(shù)據(jù)條目,且除“序列長度”使用實際測得數(shù)據(jù)以外均使用結(jié)構(gòu)化受控詞匯填充內(nèi)容,對于實際對比研究所能獲得結(jié)論十分有限。國內(nèi)病毒數(shù)據(jù)庫需要根據(jù)研究人員的數(shù)據(jù)研究需求編制新的元數(shù)據(jù)方案版本,支持研究人員多樣化的數(shù)據(jù)研究需求。
參考文獻(xiàn)
[1]Dugan V G,Emrich S J,Giraldo-Calderón G I,et al.Standardized Metadata for Human Pathogen/Vector Genomic Sequences[J/OL].https://doi.org/10.1371/journal.pone.0099979,2020-05-01.
[2]Goncalves R S,Musen M A.The Variable Quality of Metadata About Biological Samples Used in Biomedical Experiments[J/OL].https://doi.org/10.1038/sdata.2019.21,2020-05-01.
[3]Marc D T,Beattie J,Herasevich V,et al.Assessing Metadata Quality of a Federally Sponsored Health Data Repository[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5333273,2020-05-20.
[4]Shah N H,Jonquet C,Chiang A P,et al.Ontology-driven Indexing of Public Datasets for Translational Bioinformatics[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2646250.
[5]Jones P,Cté R G,Cho S Y,et al.PRIDE:New Developments and New Datasets[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238846,2020-05-20.