王 道,劉 丹
(中南大學(xué)湘雅二醫(yī)院婦產(chǎn)科,中國 長沙 410011)
新型冠狀病毒(SARS-CoV-2)屬于β-冠狀病毒[1,2],2019年12月底在湖北省武漢市華南海鮮市場爆發(fā)。截至2020年8月11日,已經(jīng)造成全國89 383人感染,超過4 000人死亡;世界衛(wèi)生組織(WHO)報道海外累計確診20 231 007例,累計死亡735 117人。SARS-CoV-2是繼SARS-CoV和MERS-CoV后,引起人類嚴重呼吸系統(tǒng)疾病和死亡的高致病冠狀病毒[3]。SARS-CoV-2基因組是由約30 kb核苷酸組成的單鏈RNA。經(jīng)過研究機構(gòu)早期基因測序,發(fā)現(xiàn)其與中華菊頭蝠的冠狀病毒序列高度相似,推測蝙蝠是SARS-CoV-2的最初天然宿主[4]。SARS-CoV-2主要編碼4種結(jié)構(gòu)蛋白:刺突(S)、包膜(E)、膜(M)和核衣殼(N)[5]。SARS-CoV-2刺突蛋白(S)的受體結(jié)合域(RBD)與宿主受體血管緊張轉(zhuǎn)換酶2(ACE2)相互作用,促進新型冠狀病毒的跨物種和人與人之間的傳播[6]。
以往證據(jù)[7]表明,ACE2不但是SARS-CoV-2的重要受體,而且在心血管系統(tǒng)中起保護作用。ACE2 是腎素-血管緊張素系統(tǒng)的調(diào)節(jié)劑,能催化血管緊張素Ⅱ(Ang Ⅱ)轉(zhuǎn)化為血管緊張素1~7 (Angiotensin 1~7)。而且,ACE2在心臟、腎臟、睪丸、結(jié)腸、肺以及中樞神經(jīng)系統(tǒng)等人體器官廣泛表達[8,9],特別是在非免疫細胞上,如呼吸道、腸上皮細胞、內(nèi)皮細胞、腎細胞和肺泡單核細胞等[10,11]。在人體呼吸系統(tǒng)中,研究者發(fā)現(xiàn),ACE,AngⅡ和AT1R是促進肺損傷的因子,但是ACE2卻能保護肺部免受損傷[7]。近期有學(xué)者稱,SARS-CoV-2刺突蛋白與ACE2的親和力比SARS-CoV高10至20倍[12],暗示這種親和力的增加使得COVID-19更容易在人群之間傳播。因此,ACE2有可能成為預(yù)防COVID-19的潛在靶標。
SARS-CoV-2比SARS-CoV更加“狡猾”,易于突變和重組。冠狀病毒的變異可能會使某些亞型更容易與受體ACE2結(jié)合,從而給各國疫苗研發(fā)帶來新的挑戰(zhàn)。目前,對人ACE2基因的啟動子仍然缺乏報道和系統(tǒng)研究,沒有針對性的抗病毒策略。所以,本文重點利用生物信息學(xué)數(shù)據(jù)庫,預(yù)測人ACE2基因核心啟動子區(qū),對CpG島、轉(zhuǎn)錄因子結(jié)合位點以及SNP位點進行系統(tǒng)分析,這不僅可加快對人類ACE2基因特性和SARS-CoV-2發(fā)病機制的研究進程,也可為預(yù)防COVID-19和藥物治療提供理論基礎(chǔ)。
本研究從GeneBank數(shù)據(jù)庫(http://www.ncbi.nlm.gov/genbank)中查找人ACE2基因序列信息(Gene ID: 59272),mRNA登錄號:NM_001371415。
本研究對人ACE2基因啟動子進行預(yù)測和分析,運用的重要生物信息數(shù)據(jù)庫網(wǎng)站如表1所示。
表1 生物信息學(xué)數(shù)據(jù)庫及網(wǎng)址
1.3.1 人ACE2基因序列的獲取 從GeneBank數(shù)據(jù)庫中檢索“ACE2”, 獲得人類ACE2基因ID為59272,下載FASTA格式獲得基因制表符文件。
1.3.2 人ACE2基因啟動子區(qū)域序列的獲取 從UCSC網(wǎng)站中查找人類ACE2基因,推導(dǎo)出基因組序列(Ch38.p13)及轉(zhuǎn)錄起始位點的準確位置。以轉(zhuǎn)錄起始點(TSS)為界限,截取基因組序列上游2 000 bp 至下游100 bp共2 100 bp的序列,預(yù)測其序列信息中包含ACE2基因可能的啟動子序列。
1.3.3 人ACE2基因啟動子序列的分析 運用啟動子分析軟件Promoter 2.0 Prediction Server,對其啟動子進行預(yù)測。使用Neural Network Promoter Prediction軟件時,對 >0.85序列進行分析。
1.3.4 人ACE2基因轉(zhuǎn)錄因子結(jié)合位點的分析 登錄Gene-Regulatiion網(wǎng)站,選擇AliBaba 2.1程序,輸入ACE2基因啟動子區(qū)域2 100 bp的DNA序列,聯(lián)機TRANSFAC 4. 0數(shù)據(jù)庫,得到轉(zhuǎn)錄因子與ACE2基因的潛在結(jié)合位點。
登錄PROMO網(wǎng)站,對人ACE2基因5′調(diào)控區(qū)轉(zhuǎn)錄因子結(jié)合位點進行預(yù)測,設(shè)置參數(shù):Considering factors選擇Only human factors;Considering sites選擇Only human sites;其它參數(shù)選擇默認值。
登錄JASPAR網(wǎng)站對人ACE2基因5′調(diào)控區(qū)轉(zhuǎn)錄因子結(jié)合位點進行預(yù)測,設(shè)置參數(shù):JASPAR matrix model species選擇Homo sapiens;Number of matrices選擇200;Type選擇Within each matrix;Relative profile score threshold選擇80%,85%,90%及95%。
1.3.5 人ACE2基因啟動子CpG島分析 輸入人ACE2基因上游至5′側(cè)翼2 100 bp的序列,對CpG島可能存在位置進行預(yù)測。使用EMBOSS,MethPrimer和CpG Finder預(yù)測人ACE2基因5′上游2 100 bp序列中甲基化CpG島。
1.3.6 人ACE2啟動子區(qū)SNP篩選及其潛在功能預(yù)測 利用SNP功能分析軟件SNP Function Prediction對人ACE2基因啟動子單核苷酸多態(tài)性 (SNP)位點進行預(yù)測。
ACE2基因GeneBank的登錄號為NC _000023.11,定位于X號染色體p22.2 (圖1)?;蚩傞L107 638 bp(15 494 520~15 602 158 bp),轉(zhuǎn)錄產(chǎn)物NM_001371415379.1,編碼蛋白質(zhì)產(chǎn)物ID為NP_001358344.1。人ACE2基因包含18個外顯子和17個內(nèi)含子,蛋白產(chǎn)物由805個氨基酸組成。
圖1 人ACE2基因染色體定位圖譜Fig. 1 Chromosomal localization of human ACE2 gene
Promoter 2.0 Prediction Server和Neural Network Promoter Prediction預(yù)測的結(jié)果如表2和表3所示。Promoter 2.0預(yù)測的結(jié)果提示,ACE2基因上游可能存在1個啟動子區(qū),其中臨界預(yù)測位于800 bp處。Neural Network Promoter Prediction軟件預(yù)測的結(jié)果提示,ACE2基因上游可能存在2個不同的啟動子序列,其中第一個序列位于1 417~1 467 bp處,Score值為0.88;第二個序列位于1 964~2 014 bp處,Score值為0.96。
表2 Promoter 2.0 Prediction Server 預(yù)測人ACE2基因的啟動子
表3 Neural Network Promoter Prediction Server預(yù)測人ACE2基因的啟動子
運用GeneCopoecia網(wǎng)站對人ACE2基因啟動子克隆搜索,產(chǎn)品編號為HPRM50128。HPRM50128全長1 582 bp,TSS位于產(chǎn)品1 282 bp 的G堿基處。將HPRM50128的序列和人ACE2基因5′調(diào)控區(qū)2 100 bp序列用Blast進行序列比對。結(jié)果顯示5′調(diào)控區(qū)2 100 bp序列的809~2 100 bp與HPRM50128的1~1 292 bp完全相同,5′調(diào)控區(qū)2 100 bp序列的2 090 bp的G堿基與HPRM50128的1 282 bp 的G堿基對應(yīng)。由此,筆者推測人ACE2基因的核心啟動子區(qū)域應(yīng)位于5′調(diào)控區(qū)2 100 bp序列內(nèi)。
AliBaba 2.1聯(lián)合TRANSFAC數(shù)據(jù)庫后,共獲得203個轉(zhuǎn)錄因子結(jié)合位點,主要包括HNF-3,GCN4,Oct-1,TEC1,GR,HNF-1,GATA-1,C/EBPa1p,Hb,F(xiàn)tz,Sp1,c-Ets-1,E4,GAT,A-1,TBP,NF-1,Egr-1,USF,RXR-beta,COUP,D1,NF-kappaB,NRL,HN,F(xiàn)-1,YY1,NF-muE1,E1,MyoD,REB1,C/EBPde1,Eve,REV-ErbA等(圖2);PROMO對人ACE2基因5′調(diào)控區(qū)的轉(zhuǎn)錄因子結(jié)合位點進行預(yù)測,共獲得70個轉(zhuǎn)錄因子結(jié)合部位(圖3);被2種軟件共同預(yù)測到的結(jié)合位點位置相同的轉(zhuǎn)錄因子有24種。
圖2 AliBaba 2.1對人ACE2基因啟動子區(qū)域轉(zhuǎn)錄結(jié)合位點分析的部分結(jié)果Fig. 2 Analysis part results of transcription factor binding sites in the promoter region of human ACE2 gene predicted by AliBaba 2.1
圖3 PROMO對人ACE2基因啟動子區(qū)域轉(zhuǎn)錄結(jié)合位點分析的結(jié)果Fig. 3 Analysis results of transcription factor bindin sites in the promoter region of human ACE2 gene predicted by PROMO
運用JASPAR對人ACE2基因5′調(diào)控區(qū)的轉(zhuǎn)錄因子結(jié)合位點進行預(yù)測,Relative profile score threshold選擇80%,85%,90%及95%,獲得正負鏈上轉(zhuǎn)錄因子結(jié)合位點數(shù)依次為137,66,46及20個,其中Relative profile score threshold選擇95%轉(zhuǎn)錄因子結(jié)合位點預(yù)測結(jié)果見表4。選擇轉(zhuǎn)錄因子“EOMES”,當(dāng)設(shè)置Relative profile score threshold為95%時,獲取7個潛在的轉(zhuǎn)錄因子結(jié)合位點(表5)。
表4 JASPAR 軟件預(yù)測人ACE2基因 5′調(diào)控區(qū)轉(zhuǎn)錄因子結(jié)合位點的結(jié)果
表5 人ACE2基因5′調(diào)控區(qū)序列上EOMES轉(zhuǎn)錄因子結(jié)合位點的預(yù)測結(jié)果
EMBOSS預(yù)測結(jié)果顯示存在1個CpG島,其長度是277 bp,位于預(yù)測序列282~558 bp處(圖4)。MethPrimer預(yù)測結(jié)果顯示1個CpG島位于282~558 bp處,長度為277 bp(圖5)。CpG Finder預(yù)測的CpG島位于290~564 bp,大小為275 bp(圖6),與EMBOSS和MethPrimer預(yù)測結(jié)果高度一致。
圖4 人ACE2基因啟動子區(qū)甲基化CpG島EMBOSS軟件預(yù)測圖譜Fig. 4 Methylated CpG island map of human ACE2 gene predicted by EMBOSS
圖5 人ACE2基因啟動子區(qū)甲基化CpG島MethPrimer 預(yù)測圖譜Fig. 5 Methylated CpG island map of human ACE2 gene predicted by MethPrimer
圖6 人ACE2基因啟動子區(qū)甲基化CpG島CpG Finder預(yù)測圖譜Fig. 6 Methylated CpG island map of human ACE2 gene predicted by CpG Finder
運用SNP Function Prediction進行功能預(yù)測和種族特異性等位基因頻率查詢。結(jié)果顯示, rs12012790,rs4830977,rs4830978,rs4830979,rs5934263,rs5936010和rs997294的保守性極低,在4種人群中rs4830977,rs4830978及rs997294存在種族差別,中國漢族人(CHB)和日本東京人(JPT)的等位基因頻率基本相同(表6)。利用此軟件進一步篩選出rs4830978,rs5934263和rs5936010存在非同義SNP(nsSNP),其等位基因Allele和臨床意義RegPotential得分等信息見表7。
表6 人ACE2基因啟動子區(qū)SNP功能信息和種族特異等位基因頻率預(yù)測
眾所周知,了解SARS-CoV-2感染過程對研發(fā)SARS-CoV-2的藥物和疫苗至關(guān)重要。Donoghue等[13]研究發(fā)現(xiàn)ACE2是羧肽酶(ACE)的同源物,在大多數(shù)組織中都有活性。早期研究表明[14],腎素-血管緊張素系統(tǒng)(RAS)參與了SARS的發(fā)病過程,ACE2起到羧肽酶的作用,與RAS等其他成分一起在調(diào)節(jié)急性肺衰竭的嚴重程度方面起著核心作用。研究者們還發(fā)現(xiàn)COVID-19的流行大爆發(fā)與ACE2基因編碼SARS-CoV-2和SARS-CoV感染人類宿主細胞的受體有密切關(guān)系[15]。但與其它冠狀病毒感染后引起的普通感冒癥狀相比,SARS-CoV-2感染可導(dǎo)致致命肺炎。Cheng等[7]證實了ACE2在急性肺損傷中的保護作用,可調(diào)節(jié)ACE2/Ang 1~7從而減輕冠狀病毒造成的組織損傷。而Hoffmann等[16]和Walls等[17]表明ACE2可促進病毒進入肺上皮表面,這些發(fā)現(xiàn)都提示在SARS-CoV-2感染致病過程中應(yīng)該關(guān)注ACE2的雙重作用。
人類ACE2基因是定位在染色體Xp22.2,全長約107 638 bp,具有單一胞外催化結(jié)構(gòu)域的I型跨膜糖蛋白。許多基因的一個有趣特征是在它們的啟動子區(qū)域5′端有一個CpG島,這對轉(zhuǎn)錄調(diào)控很重要。于是,筆者對ACE2基因5′上游2 100 bp序列運用Promoter 2.0預(yù)測,得出該基因可能存在1個啟動子區(qū),位于800 bp處;Neural Network Promoter Prediction預(yù)測分值>0.8的啟動子有2個,特別是1 964~2 014 bp的區(qū)域,筆者推測可能是人ACE2基因的核心啟動子區(qū)。核心啟動子是結(jié)構(gòu)和功能特殊的調(diào)控序列[18],為轉(zhuǎn)錄機制提供高特異性和親合力的結(jié)合位點。我們還需要進一步了解ACE2基因靶心啟動子的基因組結(jié)構(gòu),把轉(zhuǎn)錄調(diào)節(jié)作為靶向干預(yù)和新型治療策略的重點。
然而在過去幾十年中,科學(xué)家們對ACE2基因啟動子的調(diào)控研究甚少,在本文中AliBaba 2.1和PROMO在ACE2基因的啟動子區(qū)域預(yù)測到24種轉(zhuǎn)錄因子結(jié)合位點,包括 HNF-1,IRF,AP-1,YY1,GR,NF-1,GATA-1,C/EBPalpha,USF,SRY及c-Jun 等。HNF-1是可以結(jié)合到啟動子區(qū)且進化上保守的基序[19],SRY通過介導(dǎo)ACE基因啟動子,下調(diào)ACE2基因啟動子的活性[20]。不足的是軟件預(yù)測到ACE2基因的啟動子區(qū)域可能存在轉(zhuǎn)錄因子潛在的結(jié)合位點,但后續(xù)還需要進一步結(jié)合實驗驗證。
Fan等[21]推斷ACE2啟動子的甲基化異常可能與原發(fā)性高血壓有關(guān),甚至性別還可能影響ACE2甲基化。甲基化修飾對調(diào)節(jié)人ACE2基因的轉(zhuǎn)錄起始發(fā)揮重要作用,從而調(diào)節(jié)基因表達。本研究采用EMBOSS和MethPrimer兩個軟件對ACE2基因啟動子區(qū)CpG島的分析結(jié)果高度一致:即人ACE2基因啟動子區(qū)有1個CpG 島,位于5′端調(diào)控區(qū)2 100 bp 序列的282~558 bp。另外,CpG Finder預(yù)測CpG島也位于90~564 bp,大小為275 bp。
目前,在北京、廣東、吉林、深圳等地報告無癥狀者攜帶SARS-CoV-2,但專家們對其傳播的有效性尚不明確,對聯(lián)防聯(lián)控工作構(gòu)成了重大挑戰(zhàn)[22,23]。人們普遍認為人類基因組 DNA包含一定水平的多態(tài)性,宿主的遺傳背景可能是決定SARS-CoV-2感染的易感性和致病性的重要因素。在非編碼基因的調(diào)控區(qū),筆者研究證實ACE2存在單核苷酸多態(tài)性(SNP),特別是可能以等位基因特異方式影響基因表達水平。結(jié)果表明,亞洲人屬中國漢族人(CHB)和日本東京人(JPT)頻率最高,而歐美人(CEU)最低。人ACE2基因啟動子區(qū)還存在3個非同義SNP(nsSNP): rs4830978,rs5934263和rs5936010,基因型C/T或C/G與nsSNP相關(guān)。Zhao等[24]單細胞測序發(fā)現(xiàn)亞洲人比歐美人具有更高的ACE2表達細胞比例,推測亞洲人屬于易感人群。但Chen等[25]認為ACE2在肺中的表達隨年齡增長而增加,與性別無關(guān)。此外,亞洲人與其他人群在ACE2基因組中沒有獨特的遺傳多態(tài)性。但是,未翻譯部分的UTR-SNP如何影響基因功能的生化證據(jù)仍然很少,nsSNP是否與基因表達和病毒感染的易感性相關(guān)還有待深入研究。
總之,COVID-19不斷爆發(fā)是全球需要面臨的一個嚴重公共衛(wèi)生問題,迄今仍然缺乏針對 SARS-CoV-2的任何特定抗病毒治療。瑞德西韋在國內(nèi)臨床試驗中特別是對于重癥患者的治療獲益有限[26],不過我國的傳統(tǒng)中醫(yī)藥有一定的療效[27]。本研究中,筆者首次獲取ACE2基因的上游序列,預(yù)測啟動子區(qū)域,并且分析了CpG島分布、轉(zhuǎn)錄因子結(jié)合位點以及SNP位點分布的特點,為深入探討ACE2基因啟動子在SARS-CoV-2致病機理的關(guān)鍵作用提供了新的線索。