遺傳病注釋數(shù)據(jù)庫(kù)中基因與變異名稱的校驗(yàn)及更正

2022-08-16 15:38王雅瓊董欣然吳冰冰王慧君盧宇藍(lán)周文浩

復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版) 2022年4期

王瀟王雅瓊董欣然吳冰冰王慧君盧宇藍(lán) 周文浩

（國(guó)家兒童醫(yī)學(xué)中心/復(fù)旦大學(xué)附屬兒科醫(yī)院兒科研究院分子醫(yī)學(xué)中心上海 201102）

近年來，高通量測(cè)序技術(shù)（全基因組測(cè)序、臨床外顯子組測(cè)序以及基因檢測(cè)包）在遺傳病診斷中扮演著重要角色。從測(cè)序數(shù)據(jù)中識(shí)別致病遺傳變異，能幫助臨床醫(yī)師明確疾病病因，優(yōu)化疾病管理方案。高通量測(cè)序數(shù)據(jù)分析的主要流程包括對(duì)測(cè)序數(shù)據(jù)的預(yù)處理及變異檢測(cè)、變異注釋、變異篩選和變異分類等［1］。其中，變異的注釋是測(cè)序數(shù)據(jù)分析的基礎(chǔ)。簡(jiǎn)單來說，注釋的內(nèi)容主要包括：數(shù)據(jù)質(zhì)量、變異的基因組位置、所屬基因及轉(zhuǎn)錄本、基因型、人群頻率、對(duì)mRNA 及蛋白質(zhì)的影響、致病性預(yù)測(cè)，以及疾病相關(guān)性；在基因?qū)用?，還包括基因名、基因功能、表達(dá)模式、參與的通路以及相關(guān)的疾病或表型等［2］。目前已開發(fā)出許多成熟的注釋工具如ANNOVAR［3］、VEP 等［4］，可以對(duì) 變異進(jìn) 行自動(dòng) 注釋。這些工具依賴的數(shù)據(jù)庫(kù)包括公共疾病數(shù)據(jù)庫(kù)，如人類孟德爾遺傳疾病在線數(shù)據(jù)庫(kù)（Online Mendelian Inheritance in Man，OMIM）［5］、人類基因突變數(shù)據(jù)庫(kù)（the Human Gene Mutation Database，HGMD）［6］和ClinVar［7］等。OMIM 目前已收集了超過1.6 萬個(gè)基因和8 600 個(gè)表型信息。HGMD 通過人工收集和審核出版文獻(xiàn)中的遺傳變異信息，截至2020 年6 月收錄超過1 萬個(gè)基因的28 萬個(gè)與疾病相關(guān)的遺傳變異。ClinVar 是一個(gè)面向公眾免費(fèi)的數(shù)據(jù)庫(kù)，一千三百多個(gè)機(jī)構(gòu)向其提供了超過80 萬條條目，包含超過50 萬個(gè)與疾病相關(guān)的遺傳變異及相關(guān)注釋信息。

在人類基因組學(xué)迅猛發(fā)展的歷程中，多種基因名和基因注釋版本并行，同一個(gè)遺傳變異在基因?qū)用婧娃D(zhuǎn)錄本層面有不一致表示方式，這給臨床應(yīng)用和科研交流造成極大的困擾，甚至?xí)?dǎo)致疾病診斷失?。?］。目前行業(yè)內(nèi)對(duì)于變異的命名主要依據(jù)人類基因組變異協(xié)會(huì)（Human Genome Variation Society，HGVS）標(biāo)準(zhǔn)［9］，基因名主要依據(jù)人類基因命名委員會(huì)（HUGO Gene Nomenclature Committee，HGNC）提供的核準(zhǔn)基因名［10-11］。然而由于疾病數(shù)據(jù)庫(kù)中收集的信息來源廣、時(shí)間長(zhǎng)，有的甚至在人類基因組計(jì)劃開展之前，導(dǎo)致基因及變異的命名方式不符合最新標(biāo)準(zhǔn)。此外，注釋所參考的數(shù)據(jù)庫(kù)版本也在不斷更新。美國(guó)國(guó)家生物技術(shù)信息中心（National Center for Biotechnology Information，NCBI）提供了全面且權(quán)威的基因組檢索數(shù)據(jù)庫(kù)，包含可供檢索的基因查詢號(hào)（Entrez Gene ID）［12］和參考序列查詢號(hào)（RefSeq ID）［13］。歐洲生物信息所（EMBL-EBI）維護(hù)的Ensembl 數(shù)據(jù)庫(kù)同樣記錄了所有基因及參考序列的查詢號(hào)［14］。GENCODE 是基因組功能注釋中最常用的數(shù)據(jù)庫(kù)，整合ENSEMBL 的人工和自動(dòng)基因注釋信息，提供對(duì) 應(yīng) RefSeq 和 ENSEMBL 查詢號(hào) 信息［15］。GENCODE 從2009 年3 月發(fā)布的v2b 開始，平均每2～3 個(gè) 月更新一版（https：//www.gencodegenes.org/human/releases. html）。最近一次的更新主要完善新的蛋白質(zhì)編碼基因、lncRNA 以及假基因的注釋等［16］。如此高的更新頻率也會(huì)導(dǎo)致注釋數(shù)據(jù)庫(kù)中存在一些尚未更新或被棄用的信息。隨著大部分注釋數(shù)據(jù)庫(kù)中的信息數(shù)量增長(zhǎng)減緩，總體數(shù)量已趨于穩(wěn)定，可以對(duì)數(shù)據(jù)庫(kù)中的基因及變異名稱的準(zhǔn)確性進(jìn)行校驗(yàn)并提供符合指定參考標(biāo)準(zhǔn)版本的正確表示方式。

我們以GENCODE 2020 年4 月發(fā)布的版本v34作為參考標(biāo)準(zhǔn)，對(duì)OMIM（2020 年7 月版本）中的所有疾病相關(guān)基因名及HGMD（2020 年7 月版本）、ClinVar（2020 年7 月版本）中的變異逐一進(jìn)行比對(duì)校驗(yàn)。對(duì)校驗(yàn)后有出入的變異提供依據(jù)指定注釋參考更新后的HGNC 基因名稱，轉(zhuǎn)錄本查詢號(hào)（RefSeq，ENSEMBL）和突變表示方式（HGVS）。該工作可以有效提高遺傳變異數(shù)據(jù)分析、解讀、驗(yàn)證和交流的效率，輔助遺傳病診斷和相關(guān)科研工作的順利進(jìn)行。

資料和方法

數(shù)據(jù)來源OMIM 基因注釋信息下載自O(shè)MIM 網(wǎng)站（https：//omim.org/downloads，2020 年7 月）；HGMD 變異注釋文件下載自HGMD 網(wǎng) 站（http：//www.hgmd.cf.ac.uk/ac/index.php，2020 年7月）；ClinVar 變異注釋文件下載自NCBI ClinVar 網(wǎng)站（https：//www.ncbi.nlm.nih.gov/clinvar/，2020 年7 月）；人基因組轉(zhuǎn)錄本注釋信息（ENSEMBL 轉(zhuǎn)錄本）以及ENSEMBL 轉(zhuǎn)錄本查詢號(hào)與NCBI RefSeq轉(zhuǎn)錄本查詢號(hào)對(duì)應(yīng)列表均下載自GENCODE 網(wǎng)站（https：//www. gencodegenes. org/human/release_34lift37.html，版本34，2020 年4 月）?；蜃⑨屝畔ⅲò珽ntrez 及ENSEMBL 基因查詢號(hào)）同樣下載自GENCODE 官網(wǎng)（版本19 和34，2020 年4 月）。HGNC 的核準(zhǔn)基因名及對(duì)應(yīng)到其他數(shù)據(jù)庫(kù)的查詢號(hào) 信息下載自HGNC 數(shù) 據(jù) 庫(kù)（https：//www.genenames.org/download/custom/，2020 年7 月）。所用人基因組版本均為GRCh37。

OMIM 基因名校驗(yàn)由于OMIM 對(duì)每個(gè)基因提供了OMIM 查詢號(hào)及其對(duì)應(yīng)的NCBI Entrez 及ENSEMBL 查詢號(hào)，我們對(duì)OMIM 的所有基因分別給出校驗(yàn)后的HGNC 和GENCODE 兩種標(biāo)準(zhǔn)基因名，校驗(yàn)結(jié)果以參考列表的形式展示（表1）。具體做法如下：（1）以HGNC 為標(biāo)準(zhǔn)的校驗(yàn)。從HGNC網(wǎng)站下載到HGNC 核準(zhǔn)基因名與OMIM 查詢號(hào)、Entrez 基因查詢號(hào)的對(duì)應(yīng)關(guān)系列表。對(duì)OMIM 中的所有基因首先按照OMIM 查詢號(hào)在HGNC 中進(jìn)行檢索，給出其對(duì)應(yīng)的HGNC 核準(zhǔn)基因名；若該基因在HGNC 中未匹配到OMIM 查詢號(hào)，則進(jìn)一步用OMIM 提供的Entrez 基因查詢號(hào)在HGNC 中檢索并給出對(duì)應(yīng)的HGNC 核準(zhǔn)基因名；若仍未匹配到，則認(rèn)為其沒有HGNC 核準(zhǔn)基因名，標(biāo)記為noOMIM2HGNC；若OMIM 未提供某個(gè)基因的Entrez 基因查詢號(hào)，則直接標(biāo)記為noEntrez。（2）以GENCODE 為標(biāo)準(zhǔn)的校驗(yàn)。在GENCODE v19 和v34 兩個(gè)版本的數(shù)據(jù)庫(kù)中用ENSEBML 查詢號(hào)進(jìn)行檢索，給出其對(duì)應(yīng)的GENCODE 標(biāo)準(zhǔn)基因名；若該基因在GENCODE v19 或v34 的版本中未匹配到ENSEMBL 查詢號(hào)，則認(rèn)為其沒有GENCODE 標(biāo)準(zhǔn)基因名，標(biāo)記為noOMIM2ENSG；若OMIM 未提供某個(gè)基因的ENSEMBL 查詢號(hào)，則直接標(biāo)記為noENSG。

HGMD 及ClinVar 的變異匹配校驗(yàn)由于HGMD 和ClinVar 中的變異以HGVS 規(guī) 則展示，我們以GENECODE 數(shù)據(jù)庫(kù)版本v34 中記錄的NCBI RefSeq 和ENSEMBL 參考序列查詢號(hào)為標(biāo)準(zhǔn)，對(duì)所有變異以HGVS 規(guī)則表示時(shí)所使用的參考序列查詢號(hào)做校驗(yàn)，校驗(yàn)結(jié)果以參考列表的形式展示。具體做法如下：（1）查看數(shù)據(jù)庫(kù)是否提供變異的HGVS 名稱，若未提供相應(yīng)的HGVS，則在HGVS DNA，HGVS protein，RefSeq 及ENSEMBL 列各標(biāo)記為無轉(zhuǎn)錄本編號(hào)（noNM）、無蛋白質(zhì)編號(hào)（noNP）、無 RefSeq 查詢號(hào)（noRefSeq）和無ENSEMBL 查詢號(hào)（noENST）。（2）若數(shù)據(jù)庫(kù)提供了變異的HGVS，則判斷變異是否發(fā)生在外顯子上，若不在外顯子上，進(jìn)一步判斷該變異HGVS 所屬RefSeq 轉(zhuǎn)錄本是否存在（在GENCODE v34 版本中是否有ENSEMBL 轉(zhuǎn)錄本與之匹配），若不存在，則將RefSeq 列和ENSEMBL 列標(biāo)記為noSite2NM 和noSite2ENST；若RefSeq 轉(zhuǎn)錄本存在，則匹配當(dāng)前版本RefSeq 轉(zhuǎn)錄本及ENSEMBL 轉(zhuǎn)錄本查詢號(hào)。若RefSeq 轉(zhuǎn)錄本無法匹配到ENSEMBL 轉(zhuǎn)錄本，則將ENSEMBL 列標(biāo)記為noENST2NM。（3）若變異的HGVS 顯示其發(fā)生在外顯子上，同樣判斷HGVS 中的RefSeq 轉(zhuǎn)錄本是否存在。若不存在，則從變異的基因組坐標(biāo)入手，利用bedtools intersect 工具將其匹配到所有可能的ENSEMBL 轉(zhuǎn)錄本上，若沒有匹配，則ENSEMBL 列標(biāo)記為noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號(hào)，若沒有匹配，則RefSeq 列標(biāo)記為noNM2 ENST。（4）若變異處于外顯子且HGVS 中的RefSeq 轉(zhuǎn)錄本存在，則將該RefSeq 轉(zhuǎn)錄本匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本查詢號(hào)，并匹配到ENSEMBL 轉(zhuǎn) 錄本，若未匹配，ENSEMBL 列標(biāo) 記為noENST2NM。若匹配到ENSEMBL 轉(zhuǎn)錄本，則查詢變異所處的基因組坐標(biāo)是否位于該ENSEMBL 轉(zhuǎn)錄本上。若不在該轉(zhuǎn)錄本上，則按照變異的基因組坐標(biāo)匹配所有可能的ENSEMBL 轉(zhuǎn)錄本，若沒有匹配，則RefSeq 列和ENSEMBL 列各標(biāo)記為noNM2Site 和noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號(hào)，若沒有，則RefSeq 列標(biāo)記為noNM2ENST。否則即校驗(yàn)通過。

結(jié) 果

OMIM 基因名的校驗(yàn)為了確保在基因診斷和研究交流時(shí)采用正確的基因，我們對(duì)最常用的遺傳病致病基因數(shù)據(jù)庫(kù)OMIM 中的所有基因名進(jìn)行校驗(yàn)?；贜CBI 的Entrez 數(shù)據(jù)庫(kù)和ENSEMBL 數(shù)據(jù)庫(kù)提供的基因唯一查詢號(hào)分別比較OMIM 基因與HGNC 和GENCODE 對(duì)應(yīng)的基因名是否吻合（圖1A）。校驗(yàn)結(jié)果見圖2，信息示例見表1，共有17 204 個(gè)OMIM 基因編號(hào)，對(duì) 應(yīng)17 201 個(gè) 基因，其中有3 個(gè)基因是重復(fù)的，即TEC，PLCXD1和XGR。在OMIM 更新版本中（2020 年10 月），TEC和PLCXD1已保留了唯一正確的條目，而XGR（處于X 與Y 染色體同源區(qū)域）已被移除。86.7% 的OMIM 給出的基因名與HGNC 的核準(zhǔn)基因名是相同的，但仍然存在小部分基因名缺失或錯(cuò)誤的情況，其中有972 個(gè)（5.65%）OMIM 基因名與HGNC核準(zhǔn)基因名不匹配，另外有277 個(gè)（1.61%）基因未提供Entrez 基因查詢號(hào)（noEntrez），1 039 個(gè)（6.04%）OMIM 基因給出的Entrez 基因查詢號(hào)沒有匹配到HGNC 核準(zhǔn)基因名（noOMIM2HGNC）。例如，STRK1（MIM：606799）沒有對(duì)應(yīng)的Entrez 基因查詢號(hào)（noEntrez），DYT13（MIM：607671）沒有匹配的HGNC 核準(zhǔn)基因名（noOMIM2HGNC）。再如，MEIR1（MIM：616848）校正后的核準(zhǔn)基因名為MIER1，屬于拼寫錯(cuò)誤。另一個(gè)例子是GLMN（MIM：601749），在OMIM 中給出了GLML，GVM，VMGLOM3 種非正式的基因名。在所有OMIM 校驗(yàn)失敗的基因中，我們列出了73 個(gè)與HGNC 核準(zhǔn)基因名不符的具有表型描述的OMIM 致病基因及其信息（附表2），需要在進(jìn)行基因注釋及診斷報(bào)告時(shí)予以注意。

表1 OMIM 基因校驗(yàn)情況示例Tab 1 Examples of gene validation in OMIM

圖1 基因名及變異校驗(yàn)方法流程Fig 1 Validation pipeline for gene symbols and variants

OMIM 與GENCODE 數(shù)據(jù)庫(kù)比較結(jié)果顯示1 580 個(gè)OMIM 基因沒有給出ENSEMBL 的基因查詢號(hào)（noENSG，如OMIM 基因PTPRZ2。 ID：604008），另外有117 個(gè)OMIM 基因的ENSEMBLE基因ID 沒有匹配到GENCODE 的基因名上（noOMIM2ENSG，如OMIM 基因MIR34A。ID：611172）。由于基因名本身在不斷更新，我們提供了GENCODE 兩個(gè)版本v19 和v34 的基因名，共有952個(gè)OMIM 基因在GENCODE 兩個(gè)版本中是不同的。例如OMIM 基因GPR179（ID：614515）在GENCODE v19 中是缺失的；OMIM 基因PRMT9（ID：616125）在v19 的名字為PRMT10。

HGMD 和ClinVar 變異的校驗(yàn)基因診斷中正確描述致病基因的遺傳變異同樣至關(guān)重要。我們對(duì)變異描述遵循HGVS 規(guī)則，例如基因區(qū)的單核苷酸變異或小片段插入缺失變異需標(biāo)明參考序列（轉(zhuǎn)錄本）、位置和變異類型。由于大量基因?qū)?yīng)多個(gè)轉(zhuǎn)錄本，基因組上同一位置的變異對(duì)不同轉(zhuǎn)錄本可能造成不同影響，因此確定變異所屬的轉(zhuǎn)錄本尤為重要。由于預(yù)測(cè)方法及實(shí)驗(yàn)技術(shù)的不斷更新，轉(zhuǎn)錄本本身序列及其查詢號(hào)都在不斷更新，使用錯(cuò)誤或滯后的轉(zhuǎn)錄本信息會(huì)給基因診斷注釋及驗(yàn)證帶來困擾。因此，對(duì)于兩個(gè)常用的致病變異注釋數(shù)據(jù)庫(kù)HGMD 和ClinVar，我們以GENCODE v34 作為參考標(biāo)準(zhǔn)，對(duì)HGMD 和ClinVar 提供的每個(gè)變異的HGVS 所屬轉(zhuǎn)錄本進(jìn)行RefSeq 和ENSEMBL 轉(zhuǎn)錄本查詢號(hào)的匹配和校驗(yàn)（圖1B，附表1）。

統(tǒng)計(jì)結(jié)果見圖2、表2。ClinVar 和HGMD 中分別有83.47%和18.78%的變異，與參考注釋完全匹配。對(duì)于HGMD，即便忽略蛋白質(zhì)注釋只看mRNA 注釋，也僅有21.33%的變異給出的mRNA轉(zhuǎn)錄本查詢號(hào)完全正確。如果從轉(zhuǎn)錄本的校驗(yàn)率來看，HGMD 的變異所屬的RefSeq 轉(zhuǎn)錄本共有10 859 條，僅17.73%與參考注釋匹配，ClinVar 的變異所屬轉(zhuǎn)錄本共有12 291 條，其中98.01%與參考注釋匹配。對(duì)于HGMD 來說，有78.33%的變異屬于其所在的轉(zhuǎn)錄本版本不是標(biāo)準(zhǔn)的GENCODE v34的版本（如變異CM1613956，NM_152486.2 校驗(yàn)后應(yīng)為NM_152486.3），亟待更新。

表2 HGMD 和ClinVar 變異校驗(yàn)數(shù)量統(tǒng)計(jì)Tab 2 Count summary of variants in HGMD and ClinVar ［n（%）］

圖2 OMIM、HGMD 及ClinVar 校驗(yàn)統(tǒng)計(jì)Fig 2 Validation summary of OMIM，HGMD and ClinVar

另外，兩個(gè)數(shù)據(jù)庫(kù)均存在少量變異標(biāo)注的轉(zhuǎn)錄本與參考注釋不一致的情況（HGMD：0.27%，ClinVar：0.17%）。如HGMD 變異CD153139 標(biāo)注轉(zhuǎn)錄本查詢號(hào)為NM_020794.2，該轉(zhuǎn)錄本由于缺乏足夠的證據(jù)而被當(dāng)前RefSeq 數(shù)據(jù)庫(kù)移除（https：//www. ncbi. nlm. nih. gov/nuccore/NM_020794.2）。HGMD 數(shù)據(jù)庫(kù)中703 個(gè)變異共對(duì)應(yīng)47 條獨(dú)立的RefSeq 轉(zhuǎn)錄本（附表3），這些轉(zhuǎn)錄本因?yàn)槿狈γ鞔_的實(shí)驗(yàn)證據(jù)、不編碼蛋白質(zhì)、包含內(nèi)含子序列或錯(cuò)誤編碼到鄰近基因等原因已被棄用，或被其他RefSeq 轉(zhuǎn)錄本查詢號(hào)替代（如NM_001257360.1 替代為 NM_001368809），或是 NCBI 中獨(dú) 有（ENSEMBL 中未找到對(duì)應(yīng)記錄）的轉(zhuǎn)錄本。

其他校驗(yàn)錯(cuò)誤還包括（附表1）：HGVS 信息缺失（如CM188806）、非外顯子區(qū)的變異、HGVS 中的RefSeq 轉(zhuǎn)錄本不存在（如HGMD 變異CS1912872所在轉(zhuǎn)錄本NM_001291381.1，該轉(zhuǎn)錄本通過預(yù)測(cè)得到，尚未經(jīng)實(shí)驗(yàn)證實(shí)）、外顯子區(qū)的變異HGVS 中的RefSeq 未在GENCODE v34 中收錄且根據(jù)基因組位置也無法匹配到ENSEMBL 轉(zhuǎn)錄本上（如HGMD 變異 CM1813348 所在轉(zhuǎn) 錄本 NM_001171935.1），以及未給出變異所在轉(zhuǎn)錄本預(yù)測(cè)的RefSeq 蛋白質(zhì)查詢號(hào)（如HGMD 變異CR133723）。

討論

遺傳變異的準(zhǔn)確表示是變異數(shù)據(jù)分析的基礎(chǔ)，生物信息分析人員常用ANNOVAR、VEP 等綜合注釋工具對(duì)高通量測(cè)序分析數(shù)據(jù)進(jìn)行一步式注釋，而這些工具底層依賴的注釋資源是HGMD 等數(shù)據(jù)庫(kù)。我們?cè)趯?shí)際的分子診斷工作中，發(fā)現(xiàn)常用疾病數(shù)據(jù)庫(kù)注釋出來的部分基因或變異的命名是錯(cuò)誤的，例如查不到其來源，與文獻(xiàn)或其他來源給出的命名不一致，因此對(duì)常用注釋數(shù)據(jù)庫(kù)進(jìn)行基因和變異的校驗(yàn)是減少注釋錯(cuò)誤必不可少的一環(huán)。我們首次對(duì)這些數(shù)據(jù)庫(kù)中所有的基因名和變異所屬轉(zhuǎn)錄本進(jìn)行名稱評(píng)估，并建議相關(guān)科研及工作人員在實(shí)際過程中盡可能選用最新基因注釋版本，并在分析報(bào)告中標(biāo)注基因的版本號(hào)，便于后續(xù)人工核查和追溯。本研究對(duì)3 個(gè)疾病注釋數(shù)據(jù)庫(kù)OMIM 基因名和HGMD、ClinVar 的變異進(jìn)行校驗(yàn)，結(jié)果顯示數(shù)據(jù)庫(kù)中大部分的基因名和變異的注釋能與參考注釋匹配。然而，在OMIM 中仍有少部分基因存在核準(zhǔn)基因名缺失或基因名變更的情況。HGMD 中也存在大量的變異所標(biāo)注RefSeq 轉(zhuǎn)錄本的版本需要更新；HGMD 及ClinVar 中均存在少量變異所標(biāo)注的轉(zhuǎn)錄本已被棄用或查詢號(hào)改變。在涉及這些基因的變異解讀和研究中需要格外注意。

我們選用GENCODE 參考注釋，是由于GENCODE 注釋系統(tǒng)廣泛地應(yīng)用于大型國(guó)際研究項(xiàng)目，如DNA 元件百科全書項(xiàng)目（Encyclopedia of DNA Elements，ENCODE）［17］、基因型和組織表達(dá)關(guān) 聯(lián) 數(shù) 據(jù) 庫(kù)（Genotype-Tissue Expression，GTEx）［18］、癌癥基因圖譜計(jì)劃（The Cancer Genome Atlas，TCGA）［19］、基因組集成聯(lián) 合（Genome Aggregation Database，gnomAD）［20］、千人基因組項(xiàng)目（1000 Genomes Project）［21］和人類細(xì)胞圖譜項(xiàng)目（Human Cell Atlas，HCA）［22］等。采用GENCODE注釋標(biāo)注便于我們?cè)跀?shù)據(jù)分析過程中整合各大數(shù)據(jù)庫(kù)的信息，我們的工具提供新老版本的GENCODE 注釋編號(hào)，也便于相關(guān)人員在變異的解讀和后續(xù)研究過程中，在各個(gè)數(shù)據(jù)庫(kù)在線平臺(tái)進(jìn)行人工檢索查詢。由于GENCODE 注釋仍在持續(xù)更新，本文展現(xiàn)的校驗(yàn)結(jié)果具有時(shí)效性，但我們開發(fā)的方法能較為方便地提供更新的校驗(yàn)結(jié)果。除了參考注釋，我們所校驗(yàn)的3 個(gè)數(shù)據(jù)庫(kù)本身也在不斷更新與修正。截至2022 年1 月，OMIM 已記錄了17 857 個(gè)OMIM 條目，與舊版相比，廢除了19 個(gè)條目，新增672 個(gè)條目，在17 185 個(gè)同舊版本相同的條目中（OMIM 查詢號(hào)不變），更新了666 個(gè)基因名。新版HGMD（2021 年11 月）收錄了315 143 條變異記錄，與舊版相比，廢除了17 條記錄，新增52 017 條記錄，對(duì)于其中263 126 個(gè)查詢號(hào)未改變的變異，有247 144 個(gè)位點(diǎn)的轉(zhuǎn)錄本記錄發(fā)生更新（約94%），進(jìn)一步證明舊版本的HGMD 中所記錄的位點(diǎn)所屬轉(zhuǎn)錄本號(hào)確實(shí)存在大量版本滯后的情況。新版ClinVar（2022 年1 月）所記錄的變異條目已達(dá)到907 441 條，與舊版相比，廢除了4 447 條記錄，新增291 457 條記錄，但是其剩余的615 984 個(gè)變異所屬的轉(zhuǎn)錄本均未在新版本中更新，這也說明我們工作的必要性。特別是在臨床報(bào)告解讀過程中，變異標(biāo)注的基因名和轉(zhuǎn)錄本編號(hào)是重要的參考依據(jù)，也是后續(xù)實(shí)驗(yàn)驗(yàn)證的憑據(jù)。我們?cè)趯?shí)踐中發(fā)現(xiàn)，向?qū)嶒?yàn)人員提供準(zhǔn)確完整的RefSeq 轉(zhuǎn)錄本查詢號(hào)，包括版本號(hào)（如NM_152486.3 中“.3”為版本號(hào)）是必要的。因?yàn)橄嗤霓D(zhuǎn)錄本號(hào)下不同的版本代表的mRNA序列有較大差異。

另外，在對(duì)變異進(jìn)行轉(zhuǎn)錄本的校驗(yàn)時(shí)，我們發(fā)現(xiàn)HGMD 中同一個(gè)基因組坐標(biāo)上的變異會(huì)有屬于多個(gè)轉(zhuǎn)錄本的情況，這樣的變異有18 248 個(gè)。在遇到這些變異時(shí)，需要人工核查以給出盡量準(zhǔn)確的表示方式。在實(shí)踐中，對(duì)于多個(gè)轉(zhuǎn)錄的情況，一般會(huì)優(yōu)先選擇變異影響最嚴(yán)重的轉(zhuǎn)錄本，即優(yōu)先考慮導(dǎo)致無義突變，其次是錯(cuò)義突變的轉(zhuǎn)錄本。在基因區(qū)域?qū)用嫔蟽?yōu)先考慮位于外顯子、剪切位點(diǎn)等區(qū)域上的變異所屬的轉(zhuǎn)錄本，而后考慮位于UTR、內(nèi)含子或基因間區(qū)的轉(zhuǎn)錄本。在特定情況下變異影響最嚴(yán)重的轉(zhuǎn)錄本不一定是功能最重要的轉(zhuǎn)錄本，因此可以采取其他轉(zhuǎn)錄本選擇方式，例如APPRIS 數(shù)據(jù)庫(kù)通過蛋白質(zhì)結(jié)構(gòu)、序列功能和保守程度為每個(gè)蛋白質(zhì)編碼基因定義主要轉(zhuǎn)錄本（principal isoform）［23］，NCBI 與EMBI-EBI 合作的MANE 項(xiàng)目（Matched Annotation from NCBI and EMBL-EBI，MANE）（https：//www. ncbi. nlm. nih. gov/refseq/MANE/）通過專家審核和計(jì)算方法整合RefSeq 和ENSEMBL-GENCODE 注釋信息，為每個(gè)蛋白質(zhì)編碼基因選擇高質(zhì)量的代表性轉(zhuǎn)錄組。也有最新研究提出需要綜合考慮不同轉(zhuǎn)錄本在特定組織中的表達(dá)量［24］，來選擇轉(zhuǎn)錄本進(jìn)行變異的解讀。

本文研究了一種便捷的遺傳變異表示的校驗(yàn)方法，并提供了更新的注釋參考信息，為變異數(shù)據(jù)分析、臨床解讀、遺傳咨詢及科研交流提供了有利的參考依據(jù)。

作者貢獻(xiàn)聲明王瀟，王雅瓊數(shù)據(jù)采集分析，論文撰寫和修訂，圖表繪制。董欣然，吳冰冰，王慧君可行性分析與監(jiān)督指導(dǎo)。盧宇藍(lán)，周文浩論文構(gòu)思與設(shè)計(jì)。

利益沖突聲明所有作者均聲明不存在利益沖突。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

遺傳病注釋數(shù)據(jù)庫(kù)中基因與變異名稱的校驗(yàn)及更正

資料和方法

結(jié) 果

討 論

討論