林萌萌 李春娟 閆彩霞 孫全喜 趙小波 王 娟 苑翠玲 單世華
(山東省花生研究所,山東 青島 266100)
隨著基因組測序技術的不斷發(fā)展,不同生物攜帶的遺傳信息已經觸手可及,利用基因編輯技術,人類實現(xiàn)了對生物遺傳信息的定向操控?;蚓庉嫾夹g的發(fā)展經歷了漫長的過程,由最初的大范圍核酸酶、鋅指核酸酶(zinc finger nucleases, ZFNs)、類轉錄激活因子效應物核酸酶(transcription-like activator effector nucleases, TALENs)到CRISPR/Cas9(clustered regularly interspaced short palindromic repeats/CRISPR-associated nuclease 9, Cas9),基因編輯技術的編輯效率和操作性不斷提高,引起了科學界的關注[1]。與以往的技術相比,CRISPR/Cas9技術操作更簡單,應用潛能巨大,被《科學》雜志評為2013年十大科學突破之一。目前,該技術已被廣泛應用于基礎科學、人類疾病治療、作物基因功能及遺傳育種等領域的研究中。
基因編輯技術的本質是在基因組特定部位造成DNA雙鏈斷裂(double-strand breaks, DSBs),斷裂的DNA在修復時容易產生錯誤,造成堿基的插入或刪除,從而影響基因的功能。本文就CRISPR/Cas9基因編輯技術的產生、發(fā)展和應用情況進行了系統(tǒng)闡述,旨在為利用該技術進行農作物種質創(chuàng)新、基因挖掘和育種提供指導與幫助。
真核生物的基因組中擁有數量龐大的遺傳信息,實現(xiàn)對基因序列的操控對于生物學和醫(yī)學領域的研究都具有十分重要的意義。20世紀70年代研究人員首次發(fā)現(xiàn)細菌利用限制性核酸內切酶系統(tǒng)抵御病毒,這給DNA重組技術提供了思路[2-4],據此科學家實現(xiàn)了生物體外的DNA操控。1983年Rothstein[5]首先對酵母細胞特定基因進行敲除,實現(xiàn)了真核生物活細胞的基因編輯。兩年后Capecchi[6]和Smithies等[7]在哺乳動物細胞中通過同源重組的方式實現(xiàn)了外源基因的定點插入。外源基因敲入是研究模式生物基因功能的有效方式,然而基因整合效率低[6]、特異性差[8]等問題影響了其應用。
研究者發(fā)現(xiàn)通過在靶位點處引起DNA雙鏈斷裂可以大大增加基因整合的特異性[9]。在早期的研究中,研究者利用切割位點少的大范圍核酸酶,如識別序列為18 bp的核酸酶Ⅰ-SceⅠ,在老鼠的基因組內引入DNA雙鏈斷裂[9]。盡管這種大范圍核酸酶增加了基因編輯的效率,但是其識別序列較長,靶向基因內存在識別位點的概率極低。
1987年Klug等[10]發(fā)現(xiàn)了鋅指蛋白,這為基因靶向編輯開辟了新紀元。鋅指結構是鋅離子控制的可自我折疊成“手指”形狀的多肽空間構型,可以結合在DNA的特定位置,每個鋅指結構可以識別3個堿基序列。因此,多個鋅指結構可以裝配成復合體來實現(xiàn)DNA的特異結合。通過融合鋅指蛋白和FokⅠ的DNA切割結構域,研究人員裝配出鋅指核酸酶[11]。實踐證明,鋅指核酸酶系統(tǒng)不僅可以在模式生物中大大提高同源重組效率,在人類細胞中也有同樣效果[12-13]。隨著基因編輯研究的逐漸深入,2009年Boch等[14]和Moscou等[15]發(fā)現(xiàn)了來自黃單胞菌屬(Xanthomonas)的一種類轉錄激活因子效應物(transcription activator-like effector, TALE)可以特異性地識別單個堿基。同鋅指核酸酶類似,研究人員將TALE模塊與FokⅠ的DNA切割結構域融合,產生了類轉錄激活因子效應物核酸酶[16-18]。
盡管大范圍核酸酶、鋅指核酸酶以及后來的類轉錄激活因子效應物核酸酶提高了基因編輯的效率,但是在應用上仍存在困難。鋅指核酸酶和類轉錄激活因子效應物核酸酶在靶向不同的位點時,需要重新設計一系列的蛋白來匹配不同的靶點序列,實際操作復雜繁瑣,應用門檻較高。而CRISPR/Cas9基因編輯技術以簡便的操作和極高的效率在技術上實現(xiàn)了革新(圖1)。
注:大范圍核酸酶是經過改造的限制酶,可以識別一段長DNA序列;每個鋅指核酸酶單元識別3個DNA堿基;每個TALE單元識別單個堿基;CRISPR根據sgRNA(small guide RNA)和PAM序列的位置決定靶點。這4種技術都可以引起DNA雙鏈斷裂,進而引發(fā)不同的DNA修復方式。
CRISPR的全稱是成簇規(guī)律間隔短回文重復序列[20],它是由小導向RNA(small guide, sgRNA)介導的基因組定向編輯技術。1987年,日本科學家首先在大腸桿菌中發(fā)現(xiàn)了CRISPR序列[21],其重復序列(repeats)被多個不同的間隔序列(spacers)隔開。計算機分析發(fā)現(xiàn)CRISPR序列存在于40%的細菌與90%的古生菌中[22],這些序列臨近多個保守的CRISPR關聯(lián)蛋白(CRISPR-associated,Cas)基因[20],而且間隔序列均來自于病毒或者外源質粒[22-24]。研究者認為該系統(tǒng)與細菌抵抗外來質?;蛘呤删w有關[22-23,25]。2007年,Rodolphe等[26]首先通過試驗證明了CRISPR系統(tǒng)的工作機制:經過病毒侵染后,細菌的基因組內整合了一段從病毒基因組中獲得的DNA間隔序列,且這段CRISPR位點內的DNA間隔序列可以指引Cas酶抵抗這種病毒。一年后,Brouns等[27]揭示了由間隔序列轉錄出的crRNA(CRISPR RNAs)可以對Cas酶進行操控。2008年,Deveau等[28]發(fā)現(xiàn)不同間隔序列的臨近序列非常相似,這段稱為PAM(protospacer adjacent motifs)的序列對CRISPR系統(tǒng)的工作非常重要。 Garneau等[29]發(fā)現(xiàn)在眾多Cas蛋白中,只有Cas9在嗜熱鏈球菌(Streptococcusthermophilus)中有DNA催化活性。這些發(fā)現(xiàn)都為CRISPR系統(tǒng)成為一種生物技術工具奠定了基礎。2011年,Deltcheva等[30]揭示了Cas9酶的催化受兩條短的RNA控制。此后,CRISPR系統(tǒng)被證明可以作為基因編輯的工具靶向細菌中特定的DNA序列[31-32]。Jinek等[31]對CRISPR系統(tǒng)進行了簡化,使用一條短的sgRNA來替代原來的crRNA和tracrRNA(trans-activation crRNA)。多項研究證明,CRISPR系統(tǒng)可以用于哺乳動物活細胞的基因編輯,展開了基因編輯的新篇章[33-35]。此后,科學家可以通過設計sgRNA序列來特異靶向不同基因,CRISPR作為一項前所未有的基因編輯技術得到廣泛應用。本文統(tǒng)計了2005—2019年關于CRISPR的論文,發(fā)現(xiàn)相關CRISPR的研究論文數目逐年增加,合計超過15 700篇(圖2)。
在細菌和病毒數億年的斗爭中,細菌進化出了多種CRISPR免疫響應系統(tǒng)。不同CRISPR系統(tǒng)主要依據Cas基因的結構來劃分[36-37],目前CRISPR系統(tǒng)主要被分為兩大類,每一類又包括多種不同的CRISPR類型。第一類包括Ⅰ型和Ⅲ型CRISPR系統(tǒng),第二類包括Ⅱ型、Ⅳ型、Ⅴ型和Ⅵ型CRISPR系統(tǒng)[38]。盡管CRISPR/Cas系統(tǒng)類型眾多,目前廣泛應用類型是來自于釀膿鏈球菌(Streptococcuspyogenes)的Ⅱ型CRISPR/Cas9系統(tǒng),該型系統(tǒng)的PAM序列為簡單的5′-NGG-3′,應用較方便。
注:2005-2019年PubMed數據庫收錄的標題或摘要中含有“CRISPR”或“Cas9”的文獻數目。
CRISPR/Cas9系統(tǒng)包含sgRNA和Cas9核酸酶兩部分:sgRNA 5’端1~20 bp的序列為靶點識別序列,通過互補配對決定DNA的切割位置,Cas9核酸酶切割DNA雙鏈[31]。該技術造成的DNA雙鏈斷裂(DSBs)主要通過非同源末端連接(nonhomologous end-joining, NHEJ)或同源重組(homology-directed repair, HDR)兩種方式進行修復[39-40]。
NHEJ修復途徑不依賴DNA同源性,直接將斷裂的DNA連接,由此產生的DNA修復錯誤可能導致基因功能喪失(圖3-a)。該修復途徑易在DNA斷裂處引入或丟失一個至多個堿基,造成基因突變[41]。在提供外源基因作為Donor的情況下,NHEJ修復途徑也可以實現(xiàn)基因插入(圖3-b)或基因替換(圖3-c)[42]。當基因存在兩個靶點時,DNA的斷裂可能導致兩靶點間DNA大片段刪除(圖3-d)[42]。
HDR修復是以含有同源序列的DNA作為模板進行的精確修復方式[43]。姐妹染色單體、同源染色體,或者經過人工修改后具有同源序列的外源DNA都可以作為HDR修復的模板[43]。因此,研究人員可以通過提供含有同源序列的Donor實現(xiàn)基因替換或基因插入(圖3-e)[44]。
注:DNA斷裂雙鏈通過NHEJ和HDR兩種方式進行修復。NHEJ修復方式可能會造成DNA斷裂處的堿基插入或缺失(紅色),產生基因突變(a),外源的DNA供體可能被錯誤連入基因,造成基因插入(b)。兩個靶點造成的斷裂可能造成基因替換(c)或者大片段 丟失(d)[43]。以同源片段作為模板的HDR修復方式是精確的,可以通過提供Donor實現(xiàn)基因替換或基因插入(e)。
研究表明,利用CRISPR/Cas9技術對水稻基因進行編輯,不同靶點的編輯效率不同,編輯效率為21%~67%,其中53.9%的基因編輯類型為單堿基插入,插入的堿基絕大多數為A或T[45]。研究人員對水稻不同基因上的46個靶點進行了編輯,克隆測序結果表明,328條測序結果中280條含有不同類型的突變,177條為雙等位基因突變,81條為純合突變,19條為雜合突變,主要的突變方式是A或T單堿基的插入(54.1%),不同靶點的編輯效率與靶點的GC含量息息相關[46]。在Shan等[47]的研究中,轉基因水稻中的基因編輯效率為4.0%~9.4%。由此可見,不同靶點的基因編輯效率也是不同的,與靶點序列及其所處位置的染色質狀態(tài)、靶點序列、外源載體在染色質上的整合位置等有密切關系。
在自然界中,細菌的CRISPR系統(tǒng)主要用于抵御病毒的侵染。由于病毒的變異速度較快,所以特異性較低的CRISPR系統(tǒng)可能對細菌更加有利。早期的一些研究證實了這種現(xiàn)象的存在,也說明CRISPR系統(tǒng)作為一種基因編輯工具存在著脫靶的風險[48-52]。 Kuscu等[53]和Wu等[54]通過染色質免疫沉淀和高通量測序(chromatin immunoprecipitation and sequencing, ChIP-seq)的方法對脫靶現(xiàn)象進行了研究,結果表明,Cas9的結合位點主要位于染色體的開放區(qū)域,PAM序列遠端的堿基容許一定程度的錯配,但并不是所有的Cas9蛋白的結合位點都會進行DNA切割,DNA切割對序列的特異性要求更加嚴格。靶位點序列的特異性決定了脫靶情況發(fā)生的可能性,靶點序列與其同源序列在PAM鄰近處有大于2 bp的差異,在整個靶序列中有5 bp的差異可有效避免脫靶問題[31, 50]。對于CRISPR/Cas系統(tǒng)來說,PAM序列對于靶位點的識別至關重要,SpCas9的變體SpCas9-NG可將5′-NGG-3′ PAM擴展為5′-NG-3′PAM,有效緩解PAM序列的限制問題[55]。而近期的研究表明,SpCas9-NG可能導致自體靶向編輯,自編輯產生突變的sgRNA仍具有靶向能力,會導致意外的脫靶事件[56]。
基因轉化后的CRISPR/Cas9載體可能會整合到基因組中,使sgRNA和Cas9持續(xù)表達,增加了脫靶風險[43]。目前,可以通過轉化核糖核蛋白(ribonucleoproteins, RNPs)復合體的方法來避免這個問題,同時也避免了轉基因的問題[57-59]。通過全基因組測序的方法可以檢測脫靶的情況,Zhang等[45]對基因編輯的水稻進行了全基因組測序以檢測脫靶問題,結果所有靶點均未出現(xiàn)嚴重的脫靶問題。除了基因組水平的深度測序,BLESS[60]、GUIDE-Seq[61]和Digenome-Seq[62]等多種測序方式也能有效地找到基因組突變位點,檢測基因編輯的情況和脫靶問題。
在植物的基因編輯中,通過設計特異性較高的靶位點可以降低或避免脫靶情況的發(fā)生[63],也可以通過回交或雜交方式將非目標突變分離出去。2020年,Manghwar等[64]對基因編輯脫靶現(xiàn)象的機理和存在的問題進行了闡述,總結了脫靶效應的評估方法等,為降低脫靶風險提供了一定的指導。
隨著CRISPR/Cas9技術在哺乳動物細胞基因編輯的應用,經過改造的CRISPR/Cas9載體也很快用于擬南芥[65-67]、煙草[68-69]、水稻[70-72]、小麥[73]和玉米[74]等植物基因組的定向編輯研究。
Mao等[75]首先對CRISPR/Cas9表達盒進行優(yōu)化,構建了可以在擬南芥和水稻中表達的植物適應性表達盒,并成功對擬南芥和水稻中的基因進行了編輯。2013年,F(xiàn)eng等[76]再次使用由CaMV 35S啟動子引導的Cas9和AtU6-26啟動子或OsU6-2啟動子連接的sgRNA對擬南芥和水稻進行基因編輯,產生了穩(wěn)定的轉基因編輯植株,9個靶位點的基因編輯效率介于5%~84%之間。2014年,F(xiàn)eng等[77]對擬南芥的7個基因進行編輯,并且對基因編輯植株的遺傳情況進行研究,發(fā)現(xiàn)T1、T2和T3植物攜帶突變的比例分別為71.2%、58.3%和79.4%,T1的突變雜合體在T2產生了22%的突變純合體,所有純合突變均能穩(wěn)定地傳遞至下一代。
CRISPR/Cas9載體和轉化方式的優(yōu)化也在逐步進行。Miao等[71]對CRISPR/Cas9系統(tǒng)進行了優(yōu)化,基因的靶點序列首先被克隆到sgRNA的表達載體中,然后再克隆到含有Cas9基因的終載體中。研究人員對水稻葉綠素合成基因CAO1和分蘗夾角基因LAZY1進行定點突變,基因編輯效率分別為83.3%和91.6%。2015年Ma等[46]對Cas9基因的密碼子進行優(yōu)化,并采用Golden Gate Cloning方法構建了適用于單子葉植物和雙子葉植物的高效CRISPR/Cas9載體,成功對水稻和擬南芥的基因進行編輯,大多數突變?yōu)殡p等位基因突變和純合突變。Xie等[78]將tRNA和gRNA嵌合到一起,開發(fā)了從一個多順反子基因生產大量sgRNA的通用策略,成功實現(xiàn)同時對水稻基因組中多個位點的編輯。Gil-Humanes等[79]使用小麥矮病毒復制子作為CRISPR轉化工具,使小麥基因靶向效率提高了10倍以上。
CRISPR/Cas9技術的轉基因安全問題和脫靶問題一直是人們關注重點。2016年,Zhang等[80]通過小麥中瞬時表達CRISPR/Cas9的DNA或RNA,有效地減少了外源基因的整合。2017年,Liang等[57]另辟蹊徑,通過直接向小麥幼胚轟擊CRISPR/Cas9的核糖核蛋白(RNPs)復合體的方法來避免轉基因的產生,結果發(fā)現(xiàn)該方式可以對靶基因進行編輯并且有效減少了脫靶效應。
在花生突變體研究中,通常使用化學誘變的方式誘導產生突變體[81]。2019年,Yuan等[82]率先通過CRISPR/Cas9技術對花生的脂肪酸去飽和酶ahFAD2基因進行了突變,該研究利用花生的原生質體和發(fā)根作為轉化材料,實現(xiàn)了對花生的基因編輯。
利用CRISPR/Cas9技術對基因進行突變操作簡便,然而實現(xiàn)精確的單堿基編輯、基因替換或者基因插入則相對復雜。為此,科學家嘗試了不同的策略,早期主要通過提供外源的DNA作為修復模板或者基因替換的模板進行精確編輯,后期逐漸形成的第二代CRISPR/Cas9基因編輯技術更容易實現(xiàn)單堿基編輯。2013年,Li等[44]將煙草NbPDS基因編輯載體和雙鏈DNA Donor共轉化,利用Donor作為修復模板,通過同源重組途徑實現(xiàn)基因替換。為了防止DNA斷裂處的修復錯誤,2016年,Li等[42]在內含子區(qū)域選擇靶位點,轉化的同時提供基因編輯載體和外源DNA Donor,通過非同源末端連接途徑實現(xiàn)了水稻OsEPSPS基因的替換,獲得了抗除草劑的植株;另一方面,也通過提供Donor實現(xiàn)了1.6 kb的基因插入。2020年,Dong等[83]通過CRISPR/Cas9技術實現(xiàn)了在水稻基因組中的安全位置插入5.2 kb類胡蘿卜素生物合成元件。研究表明,該水稻種子中的類胡蘿卜素含量高,并且形態(tài)及產量特性與野生型相似,為作物精確的基因敲入提供了思路[83]。除了DNA雙鏈或者環(huán)形質??梢宰鳛镈onor以外,單鏈DNA片段也可以作為DNA修復模板[47]。
野生型的Cas9酶可以造成DNA雙鏈斷裂,而第二代基因編輯工具以Cas9切口酶為基礎,可以在不產生DNA雙鏈斷裂的情況下實現(xiàn)靶位點的堿基替換,使單堿基編輯更易實現(xiàn)。這種單堿基編輯工具可以實現(xiàn)胞嘧啶(cytosine, C)到胸腺嘧啶(thymine, T)和腺嘌呤(adenine, A)到鳥嘌呤(guanine, G)的堿基替換[84-86]。2016年,Komor等[86]發(fā)現(xiàn)將Cas9切口酶與APOBEC1脫氨酶和尿嘧啶糖基化酶抑制劑(uricall glycosylase inhibitor, UGI)蛋白融合,可以有效地在靶位點處將C轉化為T。2018年,Gaudelli等[84]將RNA腺苷酸脫氨酶融合Cas9切口酶,可以實現(xiàn)靶點堿基A到G的轉換。這些新型的單堿基編輯策略極大地擴展了基因編輯技術的應用范圍。Kuscu等[87]和Billon等[88]實現(xiàn)了將氨基酸編碼的密碼子轉換為終止密碼子,可以提前終止基因的翻譯。此外,將活性誘導的腺嘌呤脫氨酶與dCas9(dead Cas9)融合成dCas9-AID復合體,由其引發(fā)的基因突變可以作為基因功能篩選的重要手段[89-91]。
CRISPR/Cas9基因編輯植株的鑒定是基因編輯過程的重要步驟[43]。目前,基于PCR和酶切的檢測方法主要有兩種。第一種方式是基于PCR擴增及限制性酶切的PCR/RE(restriction enzyme),Cas9酶切位點(5′-NGG-3′上游3 bp)含限制性酶識別序列時可以使用該方法。完成基因編輯后,通過PCR擴增和限制性酶切反應可以檢測靶點處是否發(fā)生突變[42-43,92-93]。第二種方式是T7EI(T7 endonuclease Ⅰ)酶切檢測,此方法不需要考慮靶位點是否含有限制性酶識別序列[92,94]。以上兩種方法雖能檢測出突變植株,但是要了解基因編輯情況還需通過測序。利用疊峰分析軟件,可以分析突變植株的PCR產物測序結果[95]。
通過PCR和酶切方式檢測突變體相對耗時耗力,Peng等[96]開發(fā)了基于實時熒光定量PCR(quantitative real-time PCR, qPCR)的檢測方式,無需酶切就能從樣品中找出突變體。利用該方法,研究人員成功將水稻、擬南芥、高粱和玉米的突變體從野生型中分離出來。隨著新一代測序技術的發(fā)展,高通量測序的費用已經大幅度降低,準確性提高[43]。通過第二代測序的方法可以大批量檢測CRISPR/Cas9引起的突變,是一個簡便、高效的選擇[97-98]。
研究發(fā)現(xiàn),沒有切割活性的dCas9仍可以緊密結合DNA,這種緊密的結合可干擾轉錄因子和RNA聚合酶Ⅱ與DNA結合[99],由此開發(fā)的CRISPR干擾技術可以干擾轉錄過程,從而抑制基因表達[99]。在此基礎上,將dCas9與有轉錄調控功能的轉錄激活因子或轉錄抑制因子融合,可以有效激活或抑制基因表達[100-101]。
在表觀基因組學研究中,將dCas9與DNA甲基轉移酶融合可以調控特定基因區(qū)域的甲基化情況,進行表觀遺傳學研究[102-105]。
熒光雜交技術(fluorescent in-situ hybridization, FISH)是常用的基因座定位方式[106-107],但由于該技術需要對細胞固定加熱,所以很難在活細胞中應用。通過將dCas9連接熒光標簽,可以在活細胞中實現(xiàn)特定基因座的定位[108]。
在染色質拓樸結構的研究中,CRISPR用于指引染色質形成環(huán)狀結構,為探索染色質結構與功能的關系及染色質結構對基因表達調控的影響提供思路[109]。
除了上述應用之外,CRISPR技術還應用于大規(guī)?;蚬δ芎Y選。該策略需建立包含數千種sgRNA的Cas9/sgRNA池,不同sgRNA靶向基因組的不同位點。通過降低豐度使每個細胞只接收到一種sgRNA。高通量測序可以篩選出突變基因,將突變的基因與表型關聯(lián),獲得基因功能的信息[110]。
隨著CRISPR/Cas9技術的發(fā)展,其應用層面也越來越廣泛,在作物遺傳育種的研究中有廣闊的應用前景。該技術操作簡便,效率較高,為作物種質創(chuàng)新、基因功能研究提供了有效工具。在多倍體作物的基因編輯中,CRISPR/Cas9技術可以同時敲除多個同源基因,極大地提高了基因突變的特異性和有效性[93],為多倍體作物基因編輯提供了技術手段。在作物種質創(chuàng)新上,目前通過精確的基因編輯已經創(chuàng)造出了抗除草劑水稻[111]和高類胡蘿卜素含量的水稻[83]。在未來的研究中,利用CRISPR技術進行精確編輯,研究有價值的生物性狀,提高作物中功能成分含量將是一個新的研究方向。
目前,人們對CRISPR/Cas9基因編輯技術的原理、操作過程和基因編輯特點都有了基本的了解,但是對于基因編輯過程中的編輯效率、脫靶現(xiàn)象和遺傳性問題仍需要更加深地的研究。此外,雖然CRISPR/Cas9技術應用廣泛,但是該技術的轉基因安全性問題和脫靶問題仍存在爭議。該技術目前已實現(xiàn)在不引入外源基因的情況下進行基因編輯[57],檢測不到轉基因痕跡,但是如何進行監(jiān)管仍是政府需要面對的一個問題。將CRISPR/Cas9技術應用于臨床治療不僅存在安全隱患[112],還存在著一系列的倫理爭議,這是我們在發(fā)展技術的同時需要深思的問題。