劉一依,王世民,武 瓊2,趙 飛2,胡建平2,沈麗寧
生物基因數(shù)據(jù)是21世紀重要的國家戰(zhàn)略資源。隨著精準醫(yī)學時代的到來,產生了大量的基因測序數(shù)據(jù)。精準醫(yī)學的核心思想是根據(jù)患者的生物學信息和患者自身所具備的特點,采用特定的醫(yī)療方法對患者實施治療[1]。由于每個機構在管理基因數(shù)據(jù)時采用不同的基因數(shù)據(jù)庫元數(shù)據(jù)方案,所以導致基因數(shù)據(jù)在不同機構之間難以共享[2]。元數(shù)據(jù)即描述數(shù)據(jù)的數(shù)據(jù)[3]。數(shù)據(jù)庫是以某種方式存儲在計算機內、能分享給多個用戶且重復存儲較小的數(shù)據(jù)的集合[4]。元數(shù)據(jù)的功能主要包括挖掘信息、組織信息、實現(xiàn)信息互操作、辨識信息和存儲信息[5]。元數(shù)據(jù)規(guī)范能為數(shù)據(jù)的采集和存儲提供支持,是數(shù)據(jù)庫建設前期的基礎性工作之一,建立元數(shù)據(jù)規(guī)范的目的是建立數(shù)據(jù)庫。
美國、歐洲、日本均建立了各自的人類基因數(shù)據(jù)庫。國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,對我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范的設計有很重要的借鑒意義?;蛐畔①Y源是我國重要的人類遺傳資源,關系到國家戰(zhàn)略安全,而我國人類基因數(shù)據(jù)庫尚未建成[6],人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范也不健全。雖然國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,但不同類別基因數(shù)據(jù)庫中每個數(shù)據(jù)庫的元數(shù)據(jù)有一定的差異性,難以直接借鑒。為了保障我國人類基因信息安全和健全我國人類基因數(shù)據(jù)庫建設標準,本文在調查分析國內外人類基因數(shù)據(jù)庫元數(shù)據(jù)現(xiàn)狀的基礎上,設計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。
人類基因數(shù)據(jù)庫主要分為核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫三大類[7]。核酸序列類數(shù)據(jù)庫包括核糖核酸(Ribonucleic Acid,RNA)和脫氧核糖核酸(Deoxyribonucleic Acid,DNA)的相關信息,DNA和RNA都能儲存遺傳信息;基因組數(shù)據(jù)庫儲存了基因組相關信息,其中基因組包含了細胞內所有的遺傳信息;疾病與遺傳變異數(shù)據(jù)庫包含了與基因有關的疾病與遺傳變異信息。除外傷外,大部分的疾病都和基因有密切關聯(lián)。通過遺傳而攜帶的有問題的基因、后天發(fā)生變異的基因以及個體生活習慣等對正?;虻挠绊懯菍е录膊〉娜蟾驹騕8]。
1.2.1 核酸序列類數(shù)據(jù)庫
核酸序列數(shù)據(jù)庫主要包括Genbank數(shù)據(jù)庫[9]、EMBL數(shù)據(jù)庫[10]和DDBJ數(shù)據(jù)庫[11]。其中,Genbank數(shù)據(jù)庫的元數(shù)據(jù)主要包括基因編號、基因的關鍵詞、基因相關文獻信息、基因的生物學描述等,基因編號是該序列唯一的編號,基因的關鍵詞包括該序列的基因產物等信息,基因相關文獻信息包括基因相關文獻的作者、題目、刊名等信息,基因的生物學描述包括基因的來源、重復序列等信息。EMBL數(shù)據(jù)庫和DDBJ數(shù)據(jù)庫的元數(shù)據(jù)內容與Genbank數(shù)據(jù)庫類似。
1.2.2 基因組數(shù)據(jù)庫
本文調研了Genome數(shù)據(jù)庫[12]和UCSC Genome Browser數(shù)據(jù)庫[13]。這兩個數(shù)據(jù)庫都提供了能檢索及可視化瀏覽人類基因組注釋信息的人類基因組注釋系統(tǒng)。Genome數(shù)據(jù)庫的元數(shù)據(jù)除了包含基因組注釋信息以外,還包含基因所在染色體的名稱、參考序列編號和基因組的生物學描述等信息。
1.2.3 疾病與遺傳變異數(shù)據(jù)庫
本文調研了在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)[14]、單核苷酸多態(tài)性數(shù)據(jù)庫(Database of Single Nuleotide Polymorphisms,dbSNP)[15]、基因組結構變異數(shù)據(jù)庫(Database of Genomic Structural Variation,dbVar)[16]和人類基因變異數(shù)據(jù)庫(Human Genome Variation Database,HGV Database)[17]。
在線人類孟德爾遺傳數(shù)據(jù)庫包含了人類基因突變的信息,其元數(shù)據(jù)包括基因編號、標題、基因相關文獻信息、基因相關生物學信息、貢獻者、提交日期、編輯歷史等。其中生物學信息包括表型基因關系、臨床概要和臨床特征等信息。
單核苷酸多態(tài)性數(shù)據(jù)庫主要收錄與人類疾病相關的基因突變信息,包括小規(guī)模遺傳變異、小規(guī)模多堿基缺失等[18],其元數(shù)據(jù)包括基因編號、基因相關生物學信息、提交記錄等。其中基因相關生物學信息包括位點、等位基因、變異類型等信息。
基因組結構變異數(shù)據(jù)庫主要收錄較大規(guī)模的基因組變異信息,包括大片段的插入、缺失、異位、倒置和拷貝數(shù)多態(tài)等信息,其元數(shù)據(jù)包括編號、研究ID、基因相關生物學信息、提交時間等。其中基因相關生物學信息包括變異類型、所在染色體等信息。
人類基因變異數(shù)據(jù)庫包含基因變異信息,其元數(shù)據(jù)包括編號、名稱、基因相關生物學信息等。其中基因相關生物學信息包括變異類型、相關疾病、表型等信息。
生命科學已經進入大數(shù)據(jù)時代,然而我國缺乏存儲基因數(shù)據(jù)的公共平臺。為順應時代的發(fā)展,中國科學院北京基因組研究所開發(fā)并建設了組學原始數(shù)據(jù)歸檔系統(tǒng)(Genome Sequence Archive,GSA)[19-20]。GSA屬于核酸序列類數(shù)據(jù)庫,其元數(shù)據(jù)主要包括GSA編號、樣本信息、測序反應信息、測序反應序列文件信息等。其中樣本信息包括樣本編號、樣本名稱、樣本類型、貢獻者信息、發(fā)布日期、提交者、提交日期等。
隨著基因技術的不斷進步,基因測序的成本越來越低,獲取基因信息的成本將會逐步降低,從而產生了大量的人類基因信息。人類基因信息是我國重要的遺傳資源,人類基因信息安全是國家戰(zhàn)略安全的重要組成部分。人類基因信息包含人的性格、智力、患某種疾病概率等信息,應加強我國人類基因信息安全管理,避免我國人類基因信息的外泄。為了規(guī)范我國人類遺傳資源的管理,我國先后發(fā)布了《人類遺傳資源管理暫行辦法》和《人類遺傳資源采集、收集、買賣、出口、出境審批行政許可事項服務指南》。建立本土的人類基因數(shù)據(jù)庫可儲存我國人類基因信息,確保我國人類基因信息安全,而我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范是我國人類基因數(shù)據(jù)采集和儲存的基礎性的技術規(guī)范。
人類基因數(shù)據(jù)庫建設標準是人類基因數(shù)據(jù)庫建設的重要內容。與國外人類基因數(shù)據(jù)庫元數(shù)據(jù)相比,國內人類基因數(shù)據(jù)庫元數(shù)據(jù)包含的內容較少,不能滿足未來對基因數(shù)據(jù)的應用需求。雖然國外人類基因數(shù)據(jù)庫元數(shù)據(jù)已經比較成熟,但是每個國家各自的數(shù)據(jù)庫是根據(jù)自身不同需求建立的,每類基因數(shù)據(jù)庫中每個庫的元數(shù)據(jù)都不盡相同。因此我國在建立人類基因數(shù)據(jù)庫時,難以確定遵循哪個數(shù)據(jù)庫的元數(shù)據(jù)。
我國幅員遼闊,人口和民族眾多,生物資源非常豐富。隨著測序技術的進步和生物數(shù)據(jù)急劇增長,政府也制定了一些標準。國內目前已發(fā)布標準有國家標準《生物信息學術語》(GB-T-29859-2013)和地方標準《生物基因信息數(shù)據(jù)庫建設與管理規(guī)范》(SZDB/Z 92-2014)。但是,上述兩個標準都沒有規(guī)定人類基因數(shù)據(jù)庫元數(shù)據(jù)的具體內容,所以我國亟需建立人類基因數(shù)據(jù)庫元數(shù)據(jù)標準。
通過文獻調查和網(wǎng)站檢索等方法,調研了國內外核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫,并從標識維度、關系維度、文獻維度、內容維度和管理維度設計了不同類型基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范[21]。
通過綜合以上核酸序列類數(shù)據(jù)庫元數(shù)據(jù),得出核酸序列類數(shù)據(jù)庫元數(shù)據(jù)主要包括基因編號、基因的關鍵詞、基因相關文獻信息、基因的生物學描述等;然后遵循簡潔、實用、準確的原則,設計了核酸序列數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將核酸序列類數(shù)據(jù)庫的元數(shù)據(jù)分為標識維度、關系維度、文獻維度和內容維度。核酸序列類數(shù)據(jù)庫數(shù)據(jù)元模型見圖1。其中,標識維度是對基因標識信息的描述,關系維度是對基因相關的關鍵詞信息的描述,文獻維度是對基因相關聯(lián)的文獻信息的描述,內容維度是對基因相關生物學信息的描述。每個維度所包含的元數(shù)據(jù)項見表1。
圖1 核酸序列類數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
維度 元數(shù)據(jù) 說明是否可選標識維度 編號(Accession)具有唯一性和永久性必選版本(Version)代表版本號,編號后加小數(shù)點和整數(shù)可選關系維度關鍵詞(Keywords)由該序列的提交者提供,描述該基因的關鍵詞可選文獻維度參考文獻編號(Reference Number)無可選 作者(Authors)無可選標題(Title)無可選雜志名(Journal)無可選評論(Comment)用戶關于此條序列的評論 可選超文本鏈接(Hypertext Link)點擊即可直接調用上述文獻摘要可選內容維度說明(Definition)有關該序列的簡單描述必選數(shù)據(jù)來源(Source)說明該序列的生物體來源和組織來源 必選種屬(Organism) 指出該生物體的分類學地位 必選細胞器(Organelle)該基因是否在某一個特殊的細胞器中必選重復序列(Repeat_Region)基因中所包含的重復序列 必選原序列(Origin)堿基序列必選
通過綜合以上基因組數(shù)據(jù)庫元數(shù)據(jù),得出基因組數(shù)據(jù)庫元數(shù)據(jù)主要包括基因所在染色體名稱、參考序列編號、基因組的生物學描述、基因組注釋信息等;然后設計了基因組數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將基因組數(shù)據(jù)庫元數(shù)據(jù)分為標識維度、內容維度和基因組注釋維度?;蚪M數(shù)據(jù)庫數(shù)據(jù)元模型見圖2。其中,標識維度是對基因組標識信息的描述,內容維度是對基因組相關生物學信息的描述,基因組注釋維度是對基因組注釋信息的描述。每個維度包含的元數(shù)據(jù)項見表2。國外基因組數(shù)據(jù)庫的數(shù)據(jù)中,對于基因組注釋維度的幾個方面數(shù)據(jù)有更詳細的描述。
圖2 基因組數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
維度 元數(shù)據(jù)項 說明是否可選 標識維度染色體名稱(Name) 無 必選參考序列編號(Refseq) 無 必選內容維度GC含量(GC%)五個堿基內GC的比例 可選蛋白質 (Protein) 蛋白質數(shù)量 可選核糖體RNA(rRNA) 核糖體RNA的數(shù)量 可選轉運RNA (tRNA) 轉運RNA的數(shù)量可選其他RNA(Other RNA)其他RNA的數(shù)量可選基因(Gene) 基因的數(shù)量 可選假基因(Pseudogene)假基因的數(shù)量 可選基因組注釋維度比對和序列(Mapping and Sequencing) 無 必選基因和基因預測(Genes and Gene Predictions)無 必選表型和文獻(Phenotype and Literature)無 必選轉錄RNA和表達序列標簽(mRNA and EST)無 必選表達(Expression) 無 必選調節(jié)(Regulation) 無 必選比較基因組(Comparative Genomics) 無 必選變異(Variation) 無 必選重復序列(Repeats) 無 必選
通過綜合以上疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù),得出疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)主要包括編號、標題、基因相關生物學信息、提交時間、編輯歷史等;根據(jù)實用性原則,結合我國實際情況設計了疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將疾病與遺傳變異數(shù)據(jù)庫涉及到的元數(shù)據(jù)分為標識維度、內容維度和管理維度。疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元模型見圖3。其中,標識維度是對基因標識信息的描述,內容維度是對基因相關生物學信息的描述,管理維度是對基因管理信息的描述。每個維度所包含的元數(shù)據(jù)見表3。
圖3 疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
本文收集并整理了國內外人類基因數(shù)據(jù)庫的元數(shù)據(jù),按照標識維度、內容維度、管理維度、關系維度和文獻維度,分別對核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫的元數(shù)據(jù)進行了分類;然后設計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范,目的是為我國人類基因數(shù)據(jù)的采集和儲存提供幫助。但也存在不足之處,本文設計的我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范只是一個初步的規(guī)范,實用價值有限,該規(guī)范仍需進一步檢驗和完善。
為了保障我國人類基因信息安全,相關領域的研究人員應以實用、方便、準確為原則,盡快建立我國的人類基因數(shù)據(jù)庫,并在全國范圍內推廣,防止我國人類基因信息資源的外泄。