王 瀟 王雅瓊 董欣然 吳冰冰 王慧君 盧宇藍(lán) 周文浩
(國(guó)家兒童醫(yī)學(xué)中心/復(fù)旦大學(xué)附屬兒科醫(yī)院兒科研究院分子醫(yī)學(xué)中心 上海 201102)
近年來,高通量測(cè)序技術(shù)(全基因組測(cè)序、臨床外顯子組測(cè)序以及基因檢測(cè)包)在遺傳病診斷中扮演著重要角色。從測(cè)序數(shù)據(jù)中識(shí)別致病遺傳變異,能幫助臨床醫(yī)師明確疾病病因,優(yōu)化疾病管理方案。高通量測(cè)序數(shù)據(jù)分析的主要流程包括對(duì)測(cè)序數(shù)據(jù)的預(yù)處理及變異檢測(cè)、變異注釋、變異篩選和變異分類等[1]。其中,變異的注釋是測(cè)序數(shù)據(jù)分析的基礎(chǔ)。簡(jiǎn)單來說,注釋的內(nèi)容主要包括:數(shù)據(jù)質(zhì)量、變異的基因組位置、所屬基因及轉(zhuǎn)錄本、基因型、人群頻率、對(duì)mRNA 及蛋白質(zhì)的影響、致病性預(yù)測(cè),以及疾病相關(guān)性;在基因?qū)用?,還包括基因名、基因功能、表達(dá)模式、參與的通路以及相關(guān)的疾病或表型等[2]。目前已開發(fā)出許多成熟的注釋工具如ANNOVAR[3]、VEP 等[4],可 以 對(duì) 變 異 進(jìn) 行 自 動(dòng) 注釋。這些工具依賴的數(shù)據(jù)庫(kù)包括公共疾病數(shù)據(jù)庫(kù),如人類孟德爾遺傳疾病在線數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)[5]、人類基因突變數(shù)據(jù)庫(kù)(the Human Gene Mutation Database,HGMD)[6]和ClinVar[7]等。OMIM 目前已收集了超過1.6 萬個(gè)基因和8 600 個(gè)表型信息。HGMD 通過人工收集和審核出版文獻(xiàn)中的遺傳變異信息,截至2020 年6 月收錄超過1 萬個(gè)基因的28 萬個(gè)與疾病相關(guān)的遺傳變異。ClinVar 是一個(gè)面向公眾免費(fèi)的數(shù)據(jù)庫(kù),一千三百多個(gè)機(jī)構(gòu)向其提供了超過80 萬條條目,包含超過50 萬個(gè)與疾病相關(guān)的遺傳變異及相關(guān)注釋信息。
在人類基因組學(xué)迅猛發(fā)展的歷程中,多種基因名和基因注釋版本并行,同一個(gè)遺傳變異在基因?qū)用婧娃D(zhuǎn)錄本層面有不一致表示方式,這給臨床應(yīng)用和科研交流造成極大的困擾,甚至?xí)?dǎo)致疾病診斷失?。?]。目前行業(yè)內(nèi)對(duì)于變異的命名主要依據(jù)人類基因組變異協(xié)會(huì)(Human Genome Variation Society,HGVS)標(biāo)準(zhǔn)[9],基因名主要依據(jù)人類基因命 名 委 員 會(huì)(HUGO Gene Nomenclature Committee,HGNC)提供的核準(zhǔn)基因名[10-11]。然而由于疾病數(shù)據(jù)庫(kù)中收集的信息來源廣、時(shí)間長(zhǎng),有的甚至在人類基因組計(jì)劃開展之前,導(dǎo)致基因及變異的命名方式不符合最新標(biāo)準(zhǔn)。此外,注釋所參考的數(shù)據(jù)庫(kù)版本也在不斷更新。美國(guó)國(guó)家生物技術(shù)信 息 中 心(National Center for Biotechnology Information,NCBI)提供了全面且權(quán)威的基因組檢索數(shù)據(jù)庫(kù),包含可供檢索的基因查詢號(hào)(Entrez Gene ID)[12]和參考序列查詢號(hào)(RefSeq ID)[13]。歐洲生物信息所(EMBL-EBI)維護(hù)的Ensembl 數(shù)據(jù)庫(kù)同樣記錄了所有基因及參考序列的查詢號(hào)[14]。GENCODE 是基因組功能注釋中最常用的數(shù)據(jù)庫(kù),整合ENSEMBL 的人工和自動(dòng)基因注釋信息,提供對(duì) 應(yīng) RefSeq 和 ENSEMBL 查 詢 號(hào) 信 息[15]。GENCODE 從2009 年3 月發(fā)布的v2b 開始,平均每2~3 個(gè) 月 更 新 一 版(https://www.gencodegenes.org/human/releases. html)。最近一次的更新主要完善新的蛋白質(zhì)編碼基因、lncRNA 以及假基因的注釋等[16]。如此高的更新頻率也會(huì)導(dǎo)致注釋數(shù)據(jù)庫(kù)中存在一些尚未更新或被棄用的信息。隨著大部分注釋數(shù)據(jù)庫(kù)中的信息數(shù)量增長(zhǎng)減緩,總體數(shù)量已趨于穩(wěn)定,可以對(duì)數(shù)據(jù)庫(kù)中的基因及變異名稱的準(zhǔn)確性進(jìn)行校驗(yàn)并提供符合指定參考標(biāo)準(zhǔn)版本的正確表示方式。
我們以GENCODE 2020 年4 月發(fā)布的版本v34作為參考標(biāo)準(zhǔn),對(duì)OMIM(2020 年7 月版本)中的所有疾病相關(guān)基因名及HGMD(2020 年7 月版本)、ClinVar(2020 年7 月版本)中的變異逐一進(jìn)行比對(duì)校驗(yàn)。對(duì)校驗(yàn)后有出入的變異提供依據(jù)指定注釋參考更新后的HGNC 基因名稱,轉(zhuǎn)錄本查詢號(hào)(RefSeq,ENSEMBL)和突變表示方式(HGVS)。該工作可以有效提高遺傳變異數(shù)據(jù)分析、解讀、驗(yàn)證和交流的效率,輔助遺傳病診斷和相關(guān)科研工作的順利進(jìn)行。
數(shù)據(jù)來源OMIM 基因注釋信息下載自O(shè)MIM 網(wǎng)站(https://omim.org/downloads,2020 年7 月);HGMD 變 異 注 釋 文 件 下 載 自HGMD 網(wǎng) 站(http://www.hgmd.cf.ac.uk/ac/index.php,2020 年7月);ClinVar 變異注釋文件下載自NCBI ClinVar 網(wǎng)站(https://www.ncbi.nlm.nih.gov/clinvar/,2020 年7 月);人基因組轉(zhuǎn)錄本注釋信息(ENSEMBL 轉(zhuǎn)錄本)以及ENSEMBL 轉(zhuǎn)錄本查詢號(hào)與NCBI RefSeq轉(zhuǎn)錄本查詢號(hào)對(duì)應(yīng)列表均下載自GENCODE 網(wǎng)站(https://www. gencodegenes. org/human/release_34lift37.html,版本34,2020 年4 月)?;蜃⑨屝畔ⅲò珽ntrez 及ENSEMBL 基因查詢號(hào))同樣下載自GENCODE 官 網(wǎng)(版 本19 和34,2020 年4 月)。HGNC 的核準(zhǔn)基因名及對(duì)應(yīng)到其他數(shù)據(jù)庫(kù)的查詢號(hào) 信 息 下 載 自HGNC 數(shù) 據(jù) 庫(kù)(https://www.genenames.org/download/custom/,2020 年7 月)。所用人基因組版本均為GRCh37。
OMIM 基因名校驗(yàn)由于OMIM 對(duì)每個(gè)基因提供了OMIM 查詢號(hào)及其對(duì)應(yīng)的NCBI Entrez 及ENSEMBL 查詢號(hào),我們對(duì)OMIM 的所有基因分別給出校驗(yàn)后的HGNC 和GENCODE 兩種標(biāo)準(zhǔn)基因名,校驗(yàn)結(jié)果以參考列表的形式展示(表1)。具體做法如下:(1)以HGNC 為標(biāo)準(zhǔn)的校驗(yàn)。從HGNC網(wǎng)站下載到HGNC 核準(zhǔn)基因名與OMIM 查詢號(hào)、Entrez 基因查詢號(hào)的對(duì)應(yīng)關(guān)系列表。對(duì)OMIM 中的所有基因首先按照OMIM 查詢號(hào)在HGNC 中進(jìn)行檢索,給出其對(duì)應(yīng)的HGNC 核準(zhǔn)基因名;若該基因在HGNC 中未匹配到OMIM 查詢號(hào),則進(jìn)一步用OMIM 提供的Entrez 基因查詢號(hào)在HGNC 中檢索并給出對(duì)應(yīng)的HGNC 核準(zhǔn)基因名;若仍未匹配到,則認(rèn)為其沒有HGNC 核準(zhǔn)基因名,標(biāo)記為noOMIM2HGNC;若OMIM 未提供某個(gè)基因的Entrez 基因查詢號(hào),則直接標(biāo)記為noEntrez。(2)以GENCODE 為標(biāo)準(zhǔn)的校驗(yàn)。在GENCODE v19 和v34 兩個(gè)版本的數(shù)據(jù)庫(kù)中用ENSEBML 查詢號(hào)進(jìn)行檢索,給出其對(duì)應(yīng)的GENCODE 標(biāo)準(zhǔn)基因名;若該基因在GENCODE v19 或v34 的版本中未匹配到ENSEMBL 查詢號(hào),則認(rèn)為其沒有GENCODE 標(biāo)準(zhǔn)基因名,標(biāo)記為noOMIM2ENSG;若OMIM 未提供某個(gè)基因的ENSEMBL 查詢號(hào),則直接標(biāo)記為noENSG。
HGMD 及ClinVar 的變異匹配校驗(yàn)由于HGMD 和ClinVar 中 的 變 異 以HGVS 規(guī) 則 展 示,我們以GENECODE 數(shù)據(jù)庫(kù)版本v34 中記錄的NCBI RefSeq 和ENSEMBL 參考序列查詢號(hào)為標(biāo)準(zhǔn),對(duì)所有變異以HGVS 規(guī)則表示時(shí)所使用的參考序列查詢號(hào)做校驗(yàn),校驗(yàn)結(jié)果以參考列表的形式展示。具體做法如下:(1)查看數(shù)據(jù)庫(kù)是否提供變異的HGVS 名稱,若未提供相應(yīng)的HGVS,則在HGVS DNA,HGVS protein,RefSeq 及ENSEMBL 列各標(biāo)記為無轉(zhuǎn)錄本編號(hào)(noNM)、無蛋白質(zhì)編號(hào)(noNP)、無 RefSeq 查 詢 號(hào)(noRefSeq)和 無ENSEMBL 查詢號(hào)(noENST)。(2)若數(shù)據(jù)庫(kù)提供了變異的HGVS,則判斷變異是否發(fā)生在外顯子上,若不在外顯子上,進(jìn)一步判斷該變異HGVS 所屬RefSeq 轉(zhuǎn)錄本是否存在(在GENCODE v34 版本中是否有ENSEMBL 轉(zhuǎn)錄本與之匹配),若不存在,則將RefSeq 列和ENSEMBL 列標(biāo)記為noSite2NM 和noSite2ENST;若RefSeq 轉(zhuǎn)錄本存在,則匹配當(dāng)前版本RefSeq 轉(zhuǎn)錄本及ENSEMBL 轉(zhuǎn)錄本查詢號(hào)。若RefSeq 轉(zhuǎn)錄本無法匹配到ENSEMBL 轉(zhuǎn)錄本,則將ENSEMBL 列標(biāo)記為noENST2NM。(3)若變異的HGVS 顯示其發(fā)生在外顯子上,同樣判斷HGVS 中的RefSeq 轉(zhuǎn)錄本是否存在。若不存在,則從變異的基因組坐標(biāo)入手,利用bedtools intersect 工具將其匹配到所有可能的ENSEMBL 轉(zhuǎn)錄本上,若沒有匹配,則ENSEMBL 列標(biāo)記為noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號(hào),若沒有匹配,則RefSeq 列標(biāo)記為noNM2 ENST。(4)若 變 異 處 于 外 顯 子 且HGVS 中 的RefSeq 轉(zhuǎn)錄本存在,則將該RefSeq 轉(zhuǎn)錄本匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本查詢號(hào),并匹配到ENSEMBL 轉(zhuǎn) 錄 本,若 未 匹 配,ENSEMBL 列 標(biāo) 記為noENST2NM。若匹配到ENSEMBL 轉(zhuǎn)錄本,則查詢變異所處的基因組坐標(biāo)是否位于該ENSEMBL 轉(zhuǎn)錄本上。若不在該轉(zhuǎn)錄本上,則按照變異的基因組坐標(biāo)匹配所有可能的ENSEMBL 轉(zhuǎn)錄本,若沒有匹配,則RefSeq 列和ENSEMBL 列各標(biāo)記為noNM2Site 和noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號(hào),若沒有,則RefSeq 列標(biāo)記為noNM2ENST。否則即校驗(yàn)通過。
OMIM 基因名的校驗(yàn)為了確保在基因診斷和研究交流時(shí)采用正確的基因,我們對(duì)最常用的遺傳病致病基因數(shù)據(jù)庫(kù)OMIM 中的所有基因名進(jìn)行校驗(yàn)?;贜CBI 的Entrez 數(shù)據(jù)庫(kù)和ENSEMBL 數(shù)據(jù)庫(kù)提供的基因唯一查詢號(hào)分別比較OMIM 基因與HGNC 和GENCODE 對(duì)應(yīng)的基因名是否吻合(圖1A)。校驗(yàn)結(jié)果見圖2,信息示例見表1,共有17 204 個(gè)OMIM 基 因 編 號(hào),對(duì) 應(yīng)17 201 個(gè) 基 因,其中有3 個(gè)基因是重復(fù)的,即TEC,PLCXD1和XGR。在OMIM 更 新 版 本 中(2020 年10 月),TEC和PLCXD1已保留了唯一正確的條目,而XGR(處于X 與Y 染色體同源區(qū)域)已被移除。86.7% 的OMIM 給出的基因名與HGNC 的核準(zhǔn)基因名是相同的,但仍然存在小部分基因名缺失或錯(cuò)誤的情況,其中有972 個(gè)(5.65%)OMIM 基因名與HGNC核準(zhǔn)基因名不匹配,另外有277 個(gè)(1.61%)基因未提 供Entrez 基 因 查 詢 號(hào)(noEntrez),1 039 個(gè)(6.04%)OMIM 基因給出的Entrez 基因查詢號(hào)沒有匹配到HGNC 核準(zhǔn)基因名(noOMIM2HGNC)。例如,STRK1(MIM:606799)沒有對(duì)應(yīng)的Entrez 基因查詢號(hào)(noEntrez),DYT13(MIM:607671)沒有匹配的HGNC 核準(zhǔn)基因名(noOMIM2HGNC)。再如,MEIR1(MIM:616848)校正后的核準(zhǔn)基因名為MIER1,屬于拼寫錯(cuò)誤。另一個(gè)例子是GLMN(MIM:601749),在OMIM 中給出了GLML,GVM,VMGLOM3 種非正式的基因名。在所有OMIM 校驗(yàn)失敗的基因中,我們列出了73 個(gè)與HGNC 核準(zhǔn)基因名不符的具有表型描述的OMIM 致病基因及其信息(附表2),需要在進(jìn)行基因注釋及診斷報(bào)告時(shí)予以注意。
表1 OMIM 基因校驗(yàn)情況示例Tab 1 Examples of gene validation in OMIM
圖1 基因名及變異校驗(yàn)方法流程Fig 1 Validation pipeline for gene symbols and variants
OMIM 與GENCODE 數(shù)據(jù)庫(kù)比較結(jié)果顯示1 580 個(gè)OMIM 基因沒有給出ENSEMBL 的基因查詢 號(hào)(noENSG,如OMIM 基 因PTPRZ2。 ID:604008),另外有117 個(gè)OMIM 基因的ENSEMBLE基因ID 沒有匹配到GENCODE 的基因名上(noOMIM2ENSG,如OMIM 基 因MIR34A。ID:611172)。由于基因名本身在不斷更新,我們提供了GENCODE 兩個(gè)版本v19 和v34 的基因名,共有952個(gè)OMIM 基因在GENCODE 兩個(gè)版本中是不同的。 例 如OMIM 基 因GPR179(ID:614515)在GENCODE v19 中 是 缺 失 的;OMIM 基 因PRMT9(ID:616125)在v19 的名字為PRMT10。
HGMD 和ClinVar 變異的校驗(yàn)基因診斷中正確描述致病基因的遺傳變異同樣至關(guān)重要。我們對(duì)變異描述遵循HGVS 規(guī)則,例如基因區(qū)的單核苷酸變異或小片段插入缺失變異需標(biāo)明參考序列(轉(zhuǎn)錄本)、位置和變異類型。由于大量基因?qū)?yīng)多個(gè)轉(zhuǎn)錄本,基因組上同一位置的變異對(duì)不同轉(zhuǎn)錄本可能造成不同影響,因此確定變異所屬的轉(zhuǎn)錄本尤為重要。由于預(yù)測(cè)方法及實(shí)驗(yàn)技術(shù)的不斷更新,轉(zhuǎn)錄本本身序列及其查詢號(hào)都在不斷更新,使用錯(cuò)誤或滯后的轉(zhuǎn)錄本信息會(huì)給基因診斷注釋及驗(yàn)證帶來困擾。因此,對(duì)于兩個(gè)常用的致病變異注釋數(shù)據(jù)庫(kù)HGMD 和ClinVar,我 們 以GENCODE v34 作 為 參考標(biāo)準(zhǔn),對(duì)HGMD 和ClinVar 提供的每個(gè)變異的HGVS 所屬轉(zhuǎn)錄本進(jìn)行RefSeq 和ENSEMBL 轉(zhuǎn)錄本查詢號(hào)的匹配和校驗(yàn)(圖1B,附表1)。
統(tǒng)計(jì)結(jié)果見圖2、表2。ClinVar 和HGMD 中分別有83.47%和18.78%的變異,與參考注釋完全匹配。 對(duì)于HGMD,即便忽略蛋白質(zhì)注釋只看mRNA 注釋,也僅有21.33%的變異給出的mRNA轉(zhuǎn)錄本查詢號(hào)完全正確。如果從轉(zhuǎn)錄本的校驗(yàn)率來看,HGMD 的變異所屬的RefSeq 轉(zhuǎn)錄本共有10 859 條,僅17.73%與參考注釋匹配,ClinVar 的變異所屬轉(zhuǎn)錄本共有12 291 條,其中98.01%與參考注釋匹配。對(duì)于HGMD 來說,有78.33%的變異屬于其所在的轉(zhuǎn)錄本版本不是標(biāo)準(zhǔn)的GENCODE v34的版本(如變異CM1613956,NM_152486.2 校驗(yàn)后應(yīng)為NM_152486.3),亟待更新。
表2 HGMD 和ClinVar 變異校驗(yàn)數(shù)量統(tǒng)計(jì)Tab 2 Count summary of variants in HGMD and ClinVar [n(%)]
圖2 OMIM、HGMD 及ClinVar 校驗(yàn)統(tǒng)計(jì)Fig 2 Validation summary of OMIM,HGMD and ClinVar
另外,兩個(gè)數(shù)據(jù)庫(kù)均存在少量變異標(biāo)注的轉(zhuǎn)錄本與參考注釋不一致的情況(HGMD:0.27%,ClinVar:0.17%)。如HGMD 變異CD153139 標(biāo)注轉(zhuǎn)錄本查詢號(hào)為NM_020794.2,該轉(zhuǎn)錄本由于缺乏足夠的證據(jù)而被當(dāng)前RefSeq 數(shù)據(jù)庫(kù)移除(https://www. ncbi. nlm. nih. gov/nuccore/NM_020794.2)。HGMD 數(shù)據(jù)庫(kù)中703 個(gè)變異共對(duì)應(yīng)47 條獨(dú)立的RefSeq 轉(zhuǎn)錄本(附表3),這些轉(zhuǎn)錄本因?yàn)槿狈γ鞔_的實(shí)驗(yàn)證據(jù)、不編碼蛋白質(zhì)、包含內(nèi)含子序列或錯(cuò)誤編碼到鄰近基因等原因已被棄用,或被其他RefSeq 轉(zhuǎn)錄本查詢號(hào)替代(如NM_001257360.1 替代 為 NM_001368809),或 是 NCBI 中 獨(dú) 有(ENSEMBL 中未找到對(duì)應(yīng)記錄)的轉(zhuǎn)錄本。
其他校驗(yàn)錯(cuò)誤還包括(附表1):HGVS 信息缺失(如CM188806)、非外顯子區(qū)的變異、HGVS 中的RefSeq 轉(zhuǎn)錄本不存在(如HGMD 變異CS1912872所在轉(zhuǎn)錄本NM_001291381.1,該轉(zhuǎn)錄本通過預(yù)測(cè)得到,尚未經(jīng)實(shí)驗(yàn)證實(shí))、外顯子區(qū)的變異HGVS 中的RefSeq 未在GENCODE v34 中收錄且根據(jù)基因組位置也無法匹配到ENSEMBL 轉(zhuǎn)錄本上(如HGMD 變 異 CM1813348 所 在 轉(zhuǎn) 錄 本 NM_001171935.1),以及未給出變異所在轉(zhuǎn)錄本預(yù)測(cè)的RefSeq 蛋白質(zhì)查詢號(hào)(如HGMD 變異CR133723)。
遺傳變異的準(zhǔn)確表示是變異數(shù)據(jù)分析的基礎(chǔ),生物信息分析人員常用ANNOVAR、VEP 等綜合注釋工具對(duì)高通量測(cè)序分析數(shù)據(jù)進(jìn)行一步式注釋,而這些工具底層依賴的注釋資源是HGMD 等數(shù)據(jù)庫(kù)。我們?cè)趯?shí)際的分子診斷工作中,發(fā)現(xiàn)常用疾病數(shù)據(jù)庫(kù)注釋出來的部分基因或變異的命名是錯(cuò)誤的,例如查不到其來源,與文獻(xiàn)或其他來源給出的命名不一致,因此對(duì)常用注釋數(shù)據(jù)庫(kù)進(jìn)行基因和變異的校驗(yàn)是減少注釋錯(cuò)誤必不可少的一環(huán)。我們首次對(duì)這些數(shù)據(jù)庫(kù)中所有的基因名和變異所屬轉(zhuǎn)錄本進(jìn)行名稱評(píng)估,并建議相關(guān)科研及工作人員在實(shí)際過程中盡可能選用最新基因注釋版本,并在分析報(bào)告中標(biāo)注基因的版本號(hào),便于后續(xù)人工核查和追溯。本研究對(duì)3 個(gè)疾病注釋數(shù)據(jù)庫(kù)OMIM 基因名和HGMD、ClinVar 的變異進(jìn)行校驗(yàn),結(jié)果顯示數(shù)據(jù)庫(kù)中大部分的基因名和變異的注釋能與參考注釋匹配。然而,在OMIM 中仍有少部分基因存在核準(zhǔn)基因名缺失或基因名變更的情況。HGMD 中也存在大量的變異所標(biāo)注RefSeq 轉(zhuǎn)錄本的版本需要更新;HGMD 及ClinVar 中均存在少量變異所標(biāo)注的轉(zhuǎn)錄本已被棄用或查詢號(hào)改變。在涉及這些基因的變異解讀和研究中需要格外注意。
我們選用GENCODE 參考注釋,是由于GENCODE 注釋系統(tǒng)廣泛地應(yīng)用于大型國(guó)際研究項(xiàng)目,如DNA 元件百科全書項(xiàng)目(Encyclopedia of DNA Elements,ENCODE)[17]、基 因 型 和 組 織 表 達(dá)關(guān) 聯(lián) 數(shù) 據(jù) 庫(kù)(Genotype-Tissue Expression,GTEx)[18]、癌癥基因圖譜計(jì)劃(The Cancer Genome Atlas,TCGA)[19]、基 因 組 集 成 聯(lián) 合(Genome Aggregation Database,gnomAD)[20]、千人基 因組項(xiàng)目(1000 Genomes Project)[21]和人類細(xì)胞圖譜項(xiàng)目(Human Cell Atlas,HCA)[22]等。采 用GENCODE注釋標(biāo)注便于我們?cè)跀?shù)據(jù)分析過程中整合各大數(shù)據(jù)庫(kù)的信息,我們的工具提供新老版本的GENCODE 注釋編號(hào),也便于相關(guān)人員在變異的解讀和后續(xù)研究過程中,在各個(gè)數(shù)據(jù)庫(kù)在線平臺(tái)進(jìn)行人工檢索查詢。由于GENCODE 注釋仍在持續(xù)更新,本文展現(xiàn)的校驗(yàn)結(jié)果具有時(shí)效性,但我們開發(fā)的方法能較為方便地提供更新的校驗(yàn)結(jié)果。除了參考注釋,我們所校驗(yàn)的3 個(gè)數(shù)據(jù)庫(kù)本身也在不斷更新與修正。截至2022 年1 月,OMIM 已記錄了17 857 個(gè)OMIM 條目,與舊版相比,廢除了19 個(gè)條目,新增672 個(gè)條目,在17 185 個(gè)同舊版本相同的條目中(OMIM 查詢號(hào)不變),更新了666 個(gè)基因名。新版HGMD(2021 年11 月)收錄了315 143 條變異記錄,與舊版相比,廢除了17 條記錄,新增52 017 條記錄,對(duì)于其中263 126 個(gè)查詢號(hào)未改變的變異,有247 144 個(gè)位點(diǎn)的轉(zhuǎn)錄本記錄發(fā)生更新(約94%),進(jìn)一步證明舊版本的HGMD 中所記錄的位點(diǎn)所屬轉(zhuǎn)錄本號(hào)確實(shí)存在大量版本滯后的情況。新版ClinVar(2022 年1 月)所記錄的變異條目已達(dá)到907 441 條,與舊版相比,廢除了4 447 條記錄,新增291 457 條記錄,但是其剩余的615 984 個(gè)變異所屬的轉(zhuǎn)錄本均未在新版本中更新,這也說明我們工作的必要性。特別是在臨床報(bào)告解讀過程中,變異標(biāo)注的基因名和轉(zhuǎn)錄本編號(hào)是重要的參考依據(jù),也是后續(xù)實(shí)驗(yàn)驗(yàn)證的憑據(jù)。我們?cè)趯?shí)踐中發(fā)現(xiàn),向?qū)嶒?yàn)人員提供準(zhǔn)確完整的RefSeq 轉(zhuǎn)錄本查詢號(hào),包括版本號(hào)(如NM_152486.3 中“.3”為版本號(hào))是必要的。因?yàn)橄嗤霓D(zhuǎn)錄本號(hào)下不同的版本代表的mRNA序列有較大差異。
另外,在對(duì)變異進(jìn)行轉(zhuǎn)錄本的校驗(yàn)時(shí),我們發(fā)現(xiàn)HGMD 中同一個(gè)基因組坐標(biāo)上的變異會(huì)有屬于多個(gè)轉(zhuǎn)錄本的情況,這樣的變異有18 248 個(gè)。在遇到這些變異時(shí),需要人工核查以給出盡量準(zhǔn)確的表示方式。在實(shí)踐中,對(duì)于多個(gè)轉(zhuǎn)錄的情況,一般會(huì)優(yōu)先選擇變異影響最嚴(yán)重的轉(zhuǎn)錄本,即優(yōu)先考慮導(dǎo)致無義突變,其次是錯(cuò)義突變的轉(zhuǎn)錄本。在基因區(qū)域?qū)用嫔蟽?yōu)先考慮位于外顯子、剪切位點(diǎn)等區(qū)域上的變異所屬的轉(zhuǎn)錄本,而后考慮位于UTR、內(nèi)含子或基因間區(qū)的轉(zhuǎn)錄本。在特定情況下變異影響最嚴(yán)重的轉(zhuǎn)錄本不一定是功能最重要的轉(zhuǎn)錄本,因此可以采取其他轉(zhuǎn)錄本選擇方式,例如APPRIS 數(shù)據(jù)庫(kù)通過蛋白質(zhì)結(jié)構(gòu)、序列功能和保守程度為每個(gè)蛋白質(zhì)編碼基因定義主要轉(zhuǎn)錄本(principal isoform)[23],NCBI 與EMBI-EBI 合作的MANE 項(xiàng)目(Matched Annotation from NCBI and EMBL-EBI,MANE)(https://www. ncbi. nlm. nih. gov/refseq/MANE/)通過專家審核和計(jì)算方法整合RefSeq 和ENSEMBL-GENCODE 注釋信息,為每個(gè)蛋白質(zhì)編碼基因選擇高質(zhì)量的代表性轉(zhuǎn)錄組。也有最新研究提出需要綜合考慮不同轉(zhuǎn)錄本在特定組織中的表達(dá)量[24],來選擇轉(zhuǎn)錄本進(jìn)行變異的解讀。
本文研究了一種便捷的遺傳變異表示的校驗(yàn)方法,并提供了更新的注釋參考信息,為變異數(shù)據(jù)分析、臨床解讀、遺傳咨詢及科研交流提供了有利的參考依據(jù)。
作者貢獻(xiàn)聲明王瀟,王雅瓊 數(shù)據(jù)采集分析,論文撰寫和修訂,圖表繪制。董欣然,吳冰冰,王慧君 可行性分析與監(jiān)督指導(dǎo)。盧宇藍(lán),周文浩 論文構(gòu)思與設(shè)計(jì)。
利益沖突聲明所有作者均聲明不存在利益沖突。
復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版)2022年4期