王 瑚 夏紅飛 馬 旭
1.國家衛(wèi)生計生委科學技術(shù)研究所遺傳優(yōu)生中心(北京,100081);2.北京協(xié)和醫(yī)學院研究生院
基因的定點修飾一直以來都是研究基因功能的重要手段之一,也注定會成為現(xiàn)代分子遺傳學的研究熱點。早期的基因定點修飾技術(shù)是基因打靶,一種基于同源重組的低效的基因修飾技術(shù)。此后,人工核酸內(nèi)切酶的出現(xiàn)改變了這一局面。目前為止,研究者共發(fā)現(xiàn)了三代人工核酸內(nèi)切酶。鋅指核酸內(nèi)切酶(ZFN)是其中的第一代,是由鋅指蛋白(一種可與DNA結(jié)合的蛋白質(zhì))與核酸內(nèi)切酶FokⅠ兩部分融合形成的[1],可在基因組的特定位置切割DNA雙鏈,但繁復的操作和昂貴的成本限制了廣泛應用。第二代人工核酸內(nèi)切酶被稱作類轉(zhuǎn)錄激活因子效應物核酸酶(TALEN),其原理與ZFN類似,均由DNA結(jié)合蛋白與FokⅠ兩部分融合而成,操作較ZFN更簡便、特異性更高,在酵母細胞中應用成功后,迅速擴展到植物、動物以及人類細胞[2-3]。上述兩種人工核酸內(nèi)切酶均為DNA導向。此后,一種操作簡便、成本低廉、作用高效的RNA導向的人工核酸內(nèi)切酶 Clustered Regularly Interspaced Short Palindromic Repeats(CRISPR)/CRISPR-associated(Cas)出現(xiàn)[4],并迅速如狂風暴雨般席卷整個基因編輯領(lǐng)域。
CRISPR/Cas是一種細菌和古細菌的獲得性免疫系統(tǒng)(約90%的古細菌和40%的細菌具有該系統(tǒng)[5]),在RNA的介導下,可以特異性切割外源遺傳物質(zhì),用以抵御噬菌體或質(zhì)粒的入侵。該系統(tǒng)的基因座由tracrRNA(crRNA)基因、Cas核酸酶編碼基因和CRISPR基因座三部分構(gòu)成。其中,CRISPR基因座首先被轉(zhuǎn)錄成前體CRISPR RNA(pre-crRNA),然后在Cas核酸酶的作用下形成成熟的crRNA,由一個間隔序列和部分重復序列組成;tracrRNA基因轉(zhuǎn)錄出的tracrRNA用于指導crRNA成熟;Cas核酸酶主要用于靶DNA的定點切割,也會參與crRNA的成熟。
在行使功能時,CRISPR/Cas系統(tǒng)可分為兩部分:一是處理外來信息,獲取新的間隔序列,主要由核心蛋白Cas1和Cas2完成;二是CRISPR RNA的轉(zhuǎn)錄和加工,以及識別和降解外源遺傳物質(zhì)的過程,據(jù)此又可將CRISPR/Cas系統(tǒng)分為TypeⅠ、TypeⅡ、TypeⅢ3種類型[6]。3種類型所含的標志性Cas蛋白種類有所不同,在crRNA的加工和目標DNA雙鏈的切割過程以及分布中也略有差異:TypeⅠ含標志性蛋白Cas3,同時具備解旋酶和核酸酶功能,此外還含有Cas5、Cas6e、Cas7等蛋白,他們主要參與crRNA的加工,在細菌和古細菌中均有分布;TypeⅡ系統(tǒng)僅存在于細菌中,含有標志性蛋白Cas9,既能參與crRNA的加工,也能降解外來遺傳物質(zhì);而TypeⅢ的標志性蛋白Cas10同樣可以參與crRNA成熟及靶序列降解,其余蛋白如Cas6等可參與crRNA的成熟,該型大多數(shù)存在于古細菌中,只有少數(shù)細菌擁有此型[7]。
CRISPR/Cas系統(tǒng)在發(fā)揮作用時,主要包括如下三個階段[6]。
第一,間隔序列的獲得。本質(zhì)上就是外源遺傳物質(zhì)的一小段DNA整合到宿主菌基因組CRISPR基因座中的過程。外源噬菌體或質(zhì)粒上與間隔序列所對應的序列被稱作protospacer,其5’或3’端2~5個保守的堿基被稱作前間隔序列鄰近基序(PAM)區(qū)[8]。宿主菌首先識別外源核酸并掃描潛在的PAM,將臨近PAM的序列作為候選protospacer,隨后在CRISPR基因座的5’端合成重復序列,最后將新合成的間隔序列整合到重復序列之間;這樣,宿主菌便獲得了間隔序列并能在該外源核酸再次入侵時發(fā)揮作用。
第二,CRISPR基因座的表達。CRISPR基因座首先被轉(zhuǎn)錄成pre-crRNA,之后經(jīng)過一系列的剪切最終形成成熟的crRNA,這個過程需要多種Cas蛋白和核酸內(nèi)切酶的參與[9]。CRISPR基因座在正常情況下表達水平很低[10],一旦有外源遺傳物質(zhì)入侵,其表達水平會被迅速上調(diào)[11]。
第三,干擾外來遺傳物質(zhì)。成熟的crRNA形成之后,與特定的Cas蛋白形成復合物,復合物結(jié)合并掃描外源DNA,crRNA的間隔序列利用堿基互補配對與靶序列結(jié)合,之后復合物能在配對的特定位置將靶序列切割。值得一提的是,在這個過程中PAM序列發(fā)揮了很重要的作用,如果沒有PAM序列或PAM序列突變,即使crRNA與靶序列完美配對,復合物也無法發(fā)揮作用[12]。這也是CRISPR/Cas系統(tǒng)能夠避免發(fā)生自身免疫的手段之一。
在上述提及的3種CRISPR/Cas系統(tǒng)中,由于其簡易性和可操作性,TypeⅡ得到了最廣泛的應用,被改造成迄今為止最有力的基因編輯工具—CRISPR/Cas9。CRISPR/Cas9來源于SF370釀膿鏈球菌株(SF370),Cas9蛋白是一種核酸內(nèi)切酶,包括RuvC和HNH兩個活性中心,在crRNA的指導下可以分別切割DNA的一條鏈,最終造成DNA雙鏈斷裂(DSB)。TypeⅡ型基因座上游還會表達tracrRNA,用于參與crRNA的成熟加工[13]。為了操作方便,現(xiàn)在普遍使用的是crRNA和tracrRNA嵌合在一起的一條RNA鏈,稱之為單鏈向?qū)NA(sgRNA)。
在造成靶序列DSB后,細胞會利用體內(nèi)的修復機制修復損傷的DNA,在修復過程中會造成堿基的突變、插入或缺失,進而有造成該基因失活的可能。利用CRISPR/Cas9的特性,研究者很快就在哺乳動物細胞中成功實現(xiàn)了基因編輯[14-15],隨后該技術(shù)又在多種生物體內(nèi)得到了應用,成功獲得了多種基因修飾后的生物[16]。
利用CRISPR/Cas9系統(tǒng)除了能進行單基因敲除外,如向動物細胞或受精卵中同時注射多個sgRNA,就能得到多個基因敲除的細胞系或個體,相較單基因敲除后再進行交配的辦法,大大節(jié)約了時間和成本。例如Zhou等[17]一次注射靶向5個免疫相關(guān)的sgRNA,一步得到不同免疫基因缺陷的小鼠。利用該系統(tǒng)造成DSB后,如同時提供一段攜帶同源臂的供體DNA,利用體內(nèi)的同源重組機制,可以在基因組中定點插入一段外源序列[18]。除此之外,在基因調(diào)控、基因修復、文庫篩選等領(lǐng)域,CRISPR/Cas9系統(tǒng)均發(fā)揮著重要作用。
在多次入選《Science》年度十大科學突破之后,近年來全世界的研究者對CRISPR/Cas9技術(shù)的關(guān)注達到了前所未有的高度,各項新進展、新突破也如雨后春筍般層出不窮。許多研究者的目光聚焦于編輯的精確性。不可避免的一個問題是,CRISPR/Cas9系統(tǒng)會有脫靶現(xiàn)象發(fā)生[19]。為解決這一問題,研究者發(fā)現(xiàn),首先突變Cas9的RuvC活性中心,使之成為切口酶(Cas9-D10A,切割sgRNA的互補鏈而不是雙鏈),配合兩條距離足夠近但是結(jié)合在不同DNA鏈上的sgRNA;這樣兩個相距很近的單鏈斷裂就會造成DSB[20],而在脫靶序列處只會造成DNA單鏈斷裂,這個修復過程很少發(fā)生突變。
同樣是利用Cas9切口酶,目前已有研究者得到了單核苷酸編輯的轉(zhuǎn)基因小鼠[21],他們使Cas9切口酶與胞苷脫氨酶(CD)融合在一起,復合體CRISPR-nCas9-CD能將一種核苷酸替換為另一種核苷酸,這一復合體因此也被稱作堿基編輯器。這一成果在精準醫(yī)療逐步推進的今天,無疑具有里程碑式的意義。
對Cas9蛋白的改造不止于此,還有研究者通過突變Cas9令其“死亡”(dCas9),即能夠靶向結(jié)合基因組中的特定位點,但是不再切割DNA;這就使其與靶基因的轉(zhuǎn)錄激活結(jié)構(gòu)域(TAD,起分子開關(guān)作用)結(jié)合,進而調(diào)控靶基因的轉(zhuǎn)錄(卻不會損傷靶基因)成為可能[22]。Harrington等[23]則發(fā)現(xiàn)了兩種Cas9抑制蛋白AcrIIC1和AcrIIC3,AcrIIC1可以結(jié)合Cas9中的HNH活性中心,將Cas9限制在一種可以與DNA結(jié)合但沒有內(nèi)切酶活性的狀態(tài);而AcrIIC3會誘導Cas9形成二聚體,阻止Cas9結(jié)合到靶DNA上。
雖然CRISPR/Cas9系統(tǒng)已經(jīng)得到了廣泛的應用,但對其探索從未停止。CRISPR系統(tǒng)最初是來自于細菌和古細菌,而現(xiàn)在卻很少有研究者再將其應用于古細菌中。原核生物中DNA損傷修復主要是靠同源重組(HDR)來完成,而非同源末端連接(NHEJ)非常罕見。事實上,HDR確實更為精密,但如果是為了突變這個基因,NHEJ會更加高效。有研究者在模式古細菌乙酸甲烷八疊球菌中引入了NHEJ機制,大大提高了利用CRISPR/Cas9對古細菌遺傳學的研究效率[24]。
Cas9蛋白找到靶序列需要花多長時間,通過熒光標記Cas9分子的研究結(jié)果表明,一個Cas9分子搜索完成一個細菌基因組(400萬個堿基對)需要花費6小時[25],意味著為了更快地發(fā)現(xiàn)靶序列,需要更多的Cas9分子。
CRISPR/Cas9系統(tǒng)在被應用于定點敲入時,需要提供一段每個末端都存在同源臂的供體DNA,以便封閉切割所造成的空隙。有研究者利用攜帶綠色熒光蛋白的donor DNA轉(zhuǎn)染HEK293T細胞,研究同源臂的長度與編輯成功率的關(guān)系。結(jié)果表明,長度為33~38nt的同源臂與長度為518nt的同源臂的編輯成功率相同,均為10%~20%;而同源臂縮短至15~16nt后,成功率下降了50%。而donor DNA(不含同源臂)的長度在57~993nt時,編輯成功率在10%~50%,長度越短編輯成功率越高;超過1000nt后,成功率會降至0.5%左右[26]。
吸引最多目光的自然還是與人類健康相關(guān)領(lǐng)域。Tmc1是內(nèi)耳中檢測聲波的毛細胞發(fā)揮功能所必須的一個基因,若其發(fā)生突變會導致進行性聽力喪失。有研究者已利用CRISPR/Cas9技術(shù)使該突變版本失活,成功在小鼠中降低了這種聽力喪失[27]。一些更為激進的科學家已經(jīng)在人胚胎中開展了相關(guān)研究,MYBPC3基因突變會導致心臟病,他們成功校正了這一突變[28]。這使我們相信,利用CRISPR/Cas9技術(shù)校正人胚胎中的致病性突變已成為可能。
非編碼RNA(ncRNAs)指不具有蛋白編碼功能的RNA,早期的研究者認為非編碼基因不具備生物學功能,后來的研究發(fā)現(xiàn)這些“垃圾DNA”是具有生物學功能的。有生物學功能的ncRNA主要包括核不均一RNA(hnRNA)、核內(nèi)小RNA(snRNA)、小核仁RNA(snoRNA)、微小RNA(miRNA)和長非編碼RNA(lncRNA)等[29]。這些占轉(zhuǎn)錄組中絕大多數(shù)的ncRNA參與了生物體內(nèi)包括分化、凋亡、免疫等在內(nèi)的幾乎所有生理、病理過程[30]。其中miRNA和lncRNA研究較多,但是利用CRISPR/Cas9技術(shù)對ncRNA編輯的報道卻相對較少。
我們知道,在CRISPR/Cas9系統(tǒng)編輯編碼基因的CDS區(qū)時,只要有個別堿基的插入或缺失,就會影響到開放閱讀框,進而產(chǎn)生錯義突變或無義突變,使整個基因失活。而在編輯ncRNA的DNA時,個別堿基的缺失可能不會使ncRNA整個失活,進而會影響到編輯效果,這也無疑增加了編輯ncRNA的難度。為解決這個問題,研究者主要采用設(shè)計兩條sgRNA進行片段敲除的辦法。
miRNA是一類長約22nt,具有廣泛生物活性的ncRNA,成熟過程主要為:首先,在細胞核中轉(zhuǎn)錄形成pri-miRNA,并由核糖核酸酶Drosha加工成pre-miRNA,隨后進入細胞質(zhì),再在核糖核酸酶Dicer的剪切作用下形成成熟的miRNA[31]。
成熟的miRNA主要通過與靶基因3’UTR上的靶點進行堿基互補配對實現(xiàn)對靶基因的表達調(diào)控,當它與靶點完全互補時,RNA誘導沉默復合體(RISC)使mRNA降解;而當miRNA與靶點序列不完全互補時,RISC則對mRNA翻譯起到抑制作用[32-33]。也有研究表明,miRNA 也會通過結(jié)合來降低lncRNA的表達量[34]。哺乳動物中,大多數(shù)編碼蛋白質(zhì)的mRNA都會受到miRNA的調(diào)控。
之前已有報道證實,可以利用CRISPR/Cas9系統(tǒng)實現(xiàn)多基因的敲除[17]。利用該辦法,有研究者在斑馬魚中注射Cas9蛋白mRNA和位于pre-miR?126a兩側(cè)的兩條sgRNA;還在其中注射Cas9蛋白mRNA和位于一個含有6個miRNA的基因簇兩側(cè)的兩條sgRNA。雖然效率還不甚理想,但均實現(xiàn)了對單個miRNA和miRNA簇的全部敲除[35]。
為解決同時導入兩條sgRNA效率不高的問題,Ho等[36]提出了將雙sgRNA構(gòu)建在同一個載體上的辦法,他們在同一載體上分別引入了U6和H1兩個啟動子,使兩條sgRNA同時表達,成功且高效地在細胞系中切除了一段長約5.6kb的片段。同時,他們還在HEK293、HEK293T、HCT116等細胞系中實現(xiàn)了Cas9和供體質(zhì)粒共同敲除miRNA。他們構(gòu)建了一個包括同源臂,且在同源臂之間含有為loxP-GFP-PU-TK-loxP序列的供體質(zhì)粒,將該質(zhì)粒與傳統(tǒng)的表達sgRNA和Cas9蛋白的質(zhì)粒共轉(zhuǎn)染細胞,利用綠色熒光蛋白(GFP)和嘌呤霉素(PU)進行篩選,得到了loxP-GFP-PU-TK-loxP序列成功置換pre-miR-21的細胞系,再引入Cre重組酶,將loxP位點之間的序列刪去,成功得到了premiR-21完全敲除的細胞系。
CRISPR/Cas9切割的是雙鏈DNA,但是當編碼miRNA的序列被編輯后,能否長期穩(wěn)定地存在下去,有研究者就將敲除miR-17的表達載體和對照載體分別瞬時轉(zhuǎn)染 HT-29和 HCT116細胞,10,20,30天之后分別檢測miR-17的表達量。盡管載體逐漸消失,但是miR-17的表達量在整個過程中持續(xù)下調(diào),這個結(jié)果在裸鼠體內(nèi)也得到了驗證[37],證實CRISPR/Cas9技術(shù)編輯miRNA是可靠而穩(wěn)定的。
miRNA發(fā)揮生物學功能主要依賴于靶向一個或多個mRNA的“種子序列”,有研究證實在同一個miRNA家族內(nèi),數(shù)個miRNA即使擁有相同的種子序列也會有各異的生物學功能。而CRISPR/Cas9則將單獨研究每個miRNA的生物學功能成為可能。miR-106a,miR-17以及 miR-93均能靶向心臟抑制基因Fog2,但是當每個miRNA單獨被敲除時,便可發(fā)現(xiàn)它們針對Fog2的靶向效力不同,進而導致不同程度的心臟分化[38]。
此前,已有不少研究者利用CRISPR/Cas9技術(shù)構(gòu)建了文庫用于蛋白質(zhì)功能的規(guī)?;Y選;現(xiàn)在,也有研究者構(gòu)建了針對miRNAs的CRISPR/Cas9文庫,可以靶向1594(85%)的人miRNA的莖環(huán)結(jié)構(gòu),每個miRNA都會被4~5條sgRNA靶向。利用該文庫,研究者篩選出了5種在宮頸癌中上調(diào)的miRNAs和6種在胃癌中上調(diào)的miRNAs,其中有的miRNA是已知與腫瘤發(fā)生有關(guān)的,也有的是此前未知功能的[39]。
lncRNA長度在200nt以上,但保守性較差。lncRNA結(jié)構(gòu)與mRNA類似,含有多個外顯子,大多也會有5’端“帽子”結(jié)構(gòu)和3’端多聚腺苷酸“尾巴”[30]。lncRNA可以作為信號分子在信號通路中起到調(diào)控作用,也可以引導蛋白招募到特定靶點,還可以與蛋白形成核糖核蛋白復合物,使多種蛋白協(xié)同發(fā)揮作用[40]。現(xiàn)已證實lncRNA與多種疾病均有密切關(guān)系。與miRNA相同,研究者利用同時顯微注射兩條sgRNA的辦法,得到了一條23kb片段缺失的小鼠,缺失部分包括一條lncRNA[41]。已證明lncRNA與多種疾病有關(guān),因此大多數(shù)研究者的目光投向了借助CRISPR/Cas9技術(shù)治療疾病。兩種lncRNA,PVT1和ANRIL被認為與膀胱癌有關(guān),而四環(huán)素可以誘導Cas9的表達。故研究者設(shè)計靶向這兩條lncRNA的CRISPR/Cas9系統(tǒng),并采用四環(huán)素誘導,可以顯著抑制膀胱癌細胞的增殖和遷移,并誘導細胞凋亡[42]。
除癌癥外,CRISPR/Cas9也被用于研究其它疾病。Pax1和Pax9均為生骨節(jié)的早期標志,此外,lnRNA PEAT(Pax1增強子反義轉(zhuǎn)錄物)位于Pax1基因的上游,對該基因的表達起調(diào)控作用。利用CRISPR/Cas9技術(shù)敲除lnRNA PEAT后,突變體胚胎中骨形態(tài)發(fā)生蛋白靶基因的表達得到了適度增加,同時也上調(diào)了核糖體蛋白的表達[43]。內(nèi)皮細胞的血管生成受到很多因素調(diào)控,lncRNA是其中重要因素。研究者綜合利用了質(zhì)譜、免疫共沉淀以及CRISPR/Cas9等技術(shù),在肺和腫瘤患者樣品中尋找調(diào)控血管生成相關(guān)的lncRNA。結(jié)果顯示,MANTIS是其中調(diào)控作用最強烈的lncRNA,在組蛋白去甲基化酶JARID1B的調(diào)控下,MANTIS在特發(fā)性肺動脈高壓患者和用野百合堿處理過的大鼠中表達量下調(diào),而在人成膠質(zhì)細胞瘤患者和被動脈粥樣硬化食物飼喂過的食蟹猴的頸動脈中分離出來的內(nèi)皮細胞中表達量上調(diào)[44]。
除人類疾病外,CRISPR/Cas9技術(shù)編輯lncRNA還有其他方面的應用。植物中l(wèi)ncRNA的功能大多是未知的,利用CRISPR/Cas9技術(shù)在番茄中構(gòu)建lncRNA 1459的缺失突變體,與野生型相比,突變個體在果實成熟過程受到顯著抑制,其中與乙烯和類胡蘿卜素產(chǎn)生相關(guān)的基因表達量顯著下調(diào),揭示了lncRNA 1459在番茄成熟過程中的作用[45]。
同時,也不可忽略CRISPR/Cas9技術(shù)在面對lncRNA編輯時所面臨的挑戰(zhàn)。因許多l(xiāng)ncRNA由雙向啟動子啟動轉(zhuǎn)錄,或者其可能與編碼基因發(fā)生重合。有研究者采用全基因組分析,系統(tǒng)分析了CRISPR技術(shù)是否適用于全部lncRNA。結(jié)果顯示,15925個lncRNA位點中僅有38%可以安全使用CRISPR技術(shù)進行基因編輯,近2/3的位點存在各種各樣的風險或問題[46]。為使CRISPR/Cas技術(shù)更廣泛、更安全地應用于lncRNA編輯中,還需更多的努力和探索。
CRISPR/Cas技術(shù)自問世以來就成為了生物學研究者的“寵兒”,今天仍在迅速發(fā)展和不斷完善的過程中。占轉(zhuǎn)錄組中絕大多數(shù)的ncRNA參與了生物體內(nèi)幾乎所有生理、病理過程,但是相比較編碼基因,我們對ncRNA的了解仍嫌不足。作為研究ncRNA功能的重要手段之一,利用CRISPR/Cas技術(shù)構(gòu)建ncRNA敲除模型必將起著不可或缺的作用。越來越多研究者的目光正在聚焦于此,相信CRISPR/Cas技術(shù)在研究ncRNA功能中注定會有著廣泛的應用和重要的價值,越來越多的ncRNA也會褪去神秘面紗展現(xiàn)在我們面前。