曹修凱 王珊 葛玲 張衛(wèi)博 孫偉,
(1. 揚州大學教育部農(nóng)業(yè)與農(nóng)產(chǎn)品安全國際聯(lián)合研究實驗室,揚州225009;2. 揚州大學動物科學與技術學院,揚州225009)
過去人們認為遺傳變異和可變多樣連接重組(V(D)J recombination)是造成同一個體不同組織或相同組織不同細胞間基因組DNA異質性的主要原因。而最近研究表明從基因組上脫離形成的環(huán)形DNA是基因組DNA異質性的重要來源,在基因組進化和環(huán)境適應性等方面具有重要意義。染色體外環(huán)形DNA(extrachromosomal circular DNA,eccDNA)指來源于基因組DNA并游離于染色體之外的雙鏈環(huán)狀DNA分子,它在真核生物中普遍存在,如酵母、線蟲、果蠅、植物、哺乳動物等,通常攜帶部分或完整的基因以及功能元件,通過特殊的方式參與機體衰老、耐藥性、腫瘤等的發(fā)生發(fā)展進程。
我國動物育種正處在現(xiàn)代分子生物學技術與傳統(tǒng)育種手段相結合的階段,而分子標記的鑒定對畜禽早期選種具有重要意義。最新研究表明作為癌癥研究熱點的eccDNA或許也可用于畜禽標記輔助選擇:(1)eccDNA介導KIT基因調控牛白色背線性狀[1];(2) 包 含 肌 肉 發(fā) 育 相 關 基 因 AGRIN 的eccDNA在肉用王鴿肌肉中顯著富集[2];(3)包含EPSPS基因的eccDNA使長芒莧對除草劑產(chǎn)生耐藥性,并且可以穩(wěn)定傳遞到子代[3-4]。但eccDNA與單核苷酸變異(SNP)、插入/缺失(Indel)和拷貝數(shù)變異(CNV)等DNA分子標記不同,它存在一定的組織特異性。本文將綜述eccDNA的分類、產(chǎn)生機制、功能研究及鑒定方法等,并就eccDNA在動物育種中的應用前景進行討論。
從1869年Friedrich首次鑒定出DNA,到1953年Watson和Crick揭示DNA雙螺旋結構,前后歷經(jīng)85年,人們才確信染色體中的線性雙鏈DNA是遺傳信息的主要載體[5-6]。但基于細菌基因組環(huán)形DNA的現(xiàn)象,1962年Stahl提出真核生物可能存在染色體環(huán)形DNA分子。1965年,Hotta和Bassel[7]利用電鏡技術發(fā)現(xiàn)豬精子存在基因組染色體外環(huán)形DNA 分子,長度在 0.5 μm-16.8 μm(注 :1 μm ≈3 100 bp[8]),初步證實了 Stahl的推測。同年 Cox 等[9]利用光學顯微鏡在有絲分裂中期的成神經(jīng)細胞瘤細胞中發(fā)現(xiàn)了游離于基因組染色體之外的數(shù)目眾多、成對出現(xiàn)和大小不等的染色體(雙微體,doubleminute,DM)。1967年,Radloff等[10]將 Hela細胞核內環(huán)形DNA與線粒體DNA比較分析發(fā)現(xiàn),細胞核內環(huán)形DNA長度在0.2 μm-19.8 μm,而線粒體DNA長度在(4.81±0.24)μm,前者個數(shù)占后者的20%左右,這項研究進一步證實了真核細胞中存在除線粒體之外的環(huán)形DNA。
1972 年 Smith 等[11]將長度在 0.05 μm-2.0 μm的染色體外環(huán)形DNA定義為小多分散環(huán)狀DNA(small polydisperse circular DNA,spcDNA),并且發(fā)現(xiàn)放線酮處理或細胞接觸抑制會使Hela細胞spcDNA的數(shù)目增加至少10倍以上。深入研究發(fā)現(xiàn)同種細胞或組織的spcDNA在長度和個數(shù)上存在較高異質性[12-14]。20世紀80-90年代,人們利用Sanger雙脫氧鏈終止法、Dot blot、Southern blot和酶切等技術發(fā)現(xiàn)spcDNA存在大量基因組重復序列,如 SINE[15-16]、LINE[17]、串聯(lián)重復序列[18-19]、轉座子序列[20]、rDNA 序列[21]和端粒重復序列[22]等,其中,人染色體外環(huán)形rDNA(extrachromosomal rDNA circle,ERC)長度在 2 kb-20 kb[23],人染色體外環(huán)形端粒(telomeric circle,t-circle)長度在0.7 kb-56.8 kb[24-25],但有關非重復序列型spcDNA的研究報道很少[26-27]。DM是腫瘤特異的,并且存在完整癌基因序列,如肺癌[28]、軟骨肉瘤[29]、神經(jīng)膠質瘤[30-31]、淋巴瘤[32]和骨髓性白血?。?3]等,但DM出現(xiàn)的頻率很低:182/200種腫瘤中鑒定出DM;DM陽性腫瘤類型的病例檢出比為0.26%-44%;DM陽性腫瘤細胞水平檢出比例最低為7%[34-36]。因此,科學家們一度認為spcDNA是eccDNA的主要存在形式,并且spcDNA主要是由重復序列構成的。但隨著高通量測序技術的發(fā)展,人們開始對eccDNA有了新的認識。2012年,Shibata等[37]在小鼠組織和多種細胞系中鑒定出大量長度在200 bp-400 bp的小分子eccDNA,它們主要來源于5′ UTR、外顯子和CpG島等區(qū)域,并將其命名為microDNA。隨后M?ller等[38]在正常人類肌肉組織和白細胞中也鑒定出大量microDNA。2017年,Turner等[39]提出染色體外DNA(extrachromosomal DNA,ecDNA)概念,他們發(fā)現(xiàn)在17種癌癥117種腫瘤細胞系中大約30%的ecDNA是以DM形式存在。之后人們用ecDNA特指腫瘤細胞中長度較大(數(shù)百 kb-數(shù)Mb)并且至少包含一個完整基因的染色體外環(huán)形DNA,而將長度較小的染色體外環(huán)形DNA用eccDNA(extrachromosomal circular DNA,eccDNA,狹義,筆者劃分為 < 100 kb)表示[40-42]。
值得注意的是在早期研究染色體外環(huán)形DNA時,人們提出了一些相關概念,在此筆者做出區(qū)分。1985年,Kinoshita和Kunisada等[43-44]在煙草和小麥中鑒定出cccDNA(covalently closed circular)和spcDNA,隨后認為它們是不同分離富集方法下的同一類分子的兩種不同形態(tài)。1987年,Carroll等[45]將CAD基因重組質粒轉染CAD-/-CHO細胞系,研究DM的形成機制,結果發(fā)現(xiàn)有些細胞基因組整合了質粒,而有些細胞存在包含部分質粒序列和基因組序列環(huán)形分子(作者命名為episome)。深入研究發(fā)現(xiàn),刪除的基因組序列環(huán)化形成episome,episome多聚化形成DM,DM又可以重新整合到基因組,因此游離體是DM的前體[46-51]。eccDNA分類如圖1所示。下文除明確指出外,eccDNA指廣義eccDNA。
圖1 eccDNA的分類Fig.1 eccDNA classification
由上可知,eccDNA在序列長度和特征上有很大的異質性,因此eccDNA的產(chǎn)生可能涉及了不同分子機制,但這些機制似乎都與基因組DNA修復過程有關[52]。筆者將這些機制概括為4大類:同源重組(homologous recombination,HR)、非同源末端連接(non-homologous end joining,NHEJ)、DNA 復 制和轉錄(圖2),其真實性仍需進一步驗證。
圖2 形成eccDNA的潛在機制Fig.2 Possible mechanisms of forming eccDNA
在DNA雙鏈斷裂的情況下,rDNA和tDNA可通過loop結構介導HR分別產(chǎn)生ERC和t-circle[53]。Dillon等[54]為了系統(tǒng)研究microDNA的產(chǎn)生機制,以雞DT40細胞系為模型,分別敲除NHEJ、HR和MMR關鍵蛋白,結果發(fā)現(xiàn)敲除錯配修復關鍵基因MSH3后,microDNA數(shù)量減少了81%,證明了microDNA的產(chǎn)生與DNA錯配修復存在密切關系。此外,microDNA主要來源于GC富集區(qū)、5′ UTR和外顯子區(qū),這些區(qū)域在轉錄時極易形成DNA:RNA三鏈結構R-loop,而該結構參與了DNA損傷和修復過程,因此R-loop可能與microDNA產(chǎn)生有關,但這有待進一步驗證[55]。ODIRA(origin-dependent inverted-repeat amplification)可能也是產(chǎn)生microDNA的機制之一,由于復制泡兩端反向短重復序列的存在,使新生DNA鏈發(fā)生環(huán)化[56]。抑制HR關鍵基因BRCA1或NHEJ關鍵基因DNA-PK會導致含有DHFR基因的ecDNA拷貝數(shù)減少,也可消除結腸癌MTX(甲胺喋呤)抗性細胞中的eccDNA,說明雙鏈斷裂或大片段的DNA序缺失可通過HR或NHEJ環(huán)化形成ecDNA[57-58],包括DM和游離體,游離體可進一步多聚化形成更加復雜的游離體或DM[46,48]。表1列舉了eccDNA機制研究相關文獻。
表1 形成eccDNA的11種潛在機制對應參考文獻Table 1 Corresponding references of 11 kinds of potential mechanisms for eccDNA formation
eccDNA缺少著絲粒和端粒,能夠自我復制(microDNA未知),有絲分裂和減數(shù)分裂時隨機分配到子代細胞,部分eccDNA可以重新整合到基因組同源染色區(qū)域(homogeneously staining region,HSR),并且ecDNA較高染色質開放性強使得eccDNA上調控元件與靶基因互作更強,基因表達水平更高,這些特性極大的增加了細胞異質性和環(huán)境適應性[40-41,71]。eccDNA 功能概括如圖 3。
圖3 eccDNA的功能Fig.3 An overview of current understanding of eccDNA functions
不依賴于端粒酶的t-circle修復途徑對端??勺冄娱L(alternative lengthening of telomeres,ALT)具有重要意義。這種機制最初是在酵母線粒體基因組中發(fā)現(xiàn)的,t-circle可以作為端粒DNA滾環(huán)合成的模板,動植物中廣泛存在的t-circle極有可能具有類似的功能[25,72]。此外,據(jù)估計15%人類永生化細胞系可能通過ALT維持端粒長度[73]。真核生物rDNA拷貝數(shù)可達100-1 000個,以串聯(lián)重復的方式排列在基因組上,以滿足機體對核糖體合成的需求。ERC的產(chǎn)生會導致果蠅基因組rDNA拷貝數(shù)減少,但是其子代生殖細胞rDNA拷貝數(shù)可恢復正常,研究表明ERC可以自我復制并可以重新整合到基因組上維持或增加基因組rDNA的拷貝數(shù)[59]。但是ERC的整合并不多見,因此ERC對維持基因組rDNA拷貝數(shù)的作用仍有待深入研究。
Sinclair等[74]發(fā)現(xiàn)衰老的酵母細胞中會出現(xiàn)大量ERC,在有絲分裂時這些具有自我復制能力的ERC表現(xiàn)出母細胞偏好性,使ERC在母細胞中進一步累積。據(jù)估計,酵母細胞分裂15代之后,每個母細胞含有500-1 000個ERC。大量的ERC會吸附復制和轉錄復合物,使得基因組DNA無法進行有效復制和轉錄,最終導致酵母生長停滯,直至死亡[74]。酵母解螺旋酶Sgs1基因突變會導致ERC的快速積累并發(fā)生早衰,相反,復制叉阻斷蛋白Fob1基因突變會抑制ERC的形成,并延緩衰老[75]。M?ller與Payen等[76-77]研究發(fā)現(xiàn)年輕酵母群中存在近1 800種不同基因組來源的eccDNA,并且絕大多數(shù)eccDNA至少含有蛋白編碼基因的部分序列,但這1 800種eccDNA拷貝數(shù)很少,它們幾乎不會對酵母表型產(chǎn)生影響,任何eccDNA只有大量積累之后才會產(chǎn)生作用[75]?;谝陨鲜聦?,Hull等[75]提出酵母衰老可能是酵母為適應外部或內部環(huán)境富集了某些eccDNA而犧牲了健康的結果,因為基因拷貝數(shù)的擴增會在某種程度上破壞基因調控網(wǎng)絡和蛋白穩(wěn)態(tài)。按照Hull等推測,CuSO4處理酵母后而富集的CUP1 eccDNA可能對酵母衰老也有作用[53],但這需要進一步實驗驗證。
致癌變異EGFR vIII能有效加速膠質母細胞瘤生長,但是它也使表達它的腫瘤細胞對EGFR酪氨酸激酶抑制劑TKI更加敏感。TKI處理之后,腫瘤組織中高表達EGFR vIII的TKI敏感腫瘤細胞比例降低,低表達EGFR vIII的TKI抗性腫瘤細胞比例升高。研究表明腫瘤TKI耐藥性是通過消除包含EGFR vIII的DM而產(chǎn)生的,消失的DM可以整合到基因組HSR上,但當停藥后,這種DM又會快速出現(xiàn),通過該途徑,癌細胞可以逃避癌基因的靶向治療。因此,TKI的脈沖間歇治療可達到更好的靶向抑制效果,同時使腫瘤恢復藥物敏感性[39,78-79]。值得注意的是,EGFR DM在復制過程中也能會產(chǎn)生EGFR DM,進一步提高腫瘤異質性和適應性[79]。在植物中,Koo等[3-4]發(fā)現(xiàn)在抗草甘膦長芒莧中存在包含EPSPS基因的eccDNA,而且eccDNA可以通過有絲分裂和減數(shù)分裂傳給下一代,這表明eccDNA分子可以驅動高等生物的快速適應性進化。
ecDNA是基因擴增的一種形式,ecDNA的非孟德爾遺傳會導致腫瘤內細胞間的異質性增強,促進腫瘤進化[39,80-81]。攜帶完整原癌基因MET、EGRF或MYC的ecDNA可以使腫瘤細胞快速增殖,攜帶完整原癌基因MYCN的ecDNA對腫瘤侵襲和遷移具有重要作用[69,80]。早期的研究認為ecDNA對癌基因表達的貢獻主要是由于基因拷貝數(shù)的增加所致。2019年Wu團隊研究發(fā)現(xiàn)ecDNA對癌基因的表達增高不僅僅由于基因拷貝數(shù)的升高,還包括ecDNA本身高度轉錄活性的貢獻[41]。ecDNA上面缺乏抑制型的組蛋白修飾和高級壓縮結構,導致其開放性比染色體DNA要強,并且ecDNA上的增強子不受絕緣子的束縛,可以與原癌基因產(chǎn)生超遠距離的DNA相互作用,進一步促進基因表達[82-83]。人類正常個體和癌癥個體血清和血漿中存在大量游離的eccDNA,這些eccDNA主要是microDNA[84-85]。切除腫瘤前后,血液中游離的mircoDNA其長度分布會發(fā)生變化,說明microDNA可以作為腫瘤診斷的分子標記[85]。腫瘤異種移植后可以在受體血液中檢測到游離的供體microDNA,說明microDNA可能參與了細胞間通訊[85]。含有ecDNA的腫瘤患者其生存期要顯著低于不含有ecDNA的腫瘤患者,說明ecDNA可以作為腫瘤的預后標記物[86-87]。
目前有關eccDNA對畜禽表型影響的研究已有報道,包括牛白色背線性狀(colour sideness,Cs)和鴿子肌肉發(fā)育。牛白色背線性狀表現(xiàn)為從頭頸至臀尾部的白色背線,屬于顯性遺傳性狀。eccDNA通過影響毛色關鍵基因KIT的表達調控牛白色背線性狀。6號染色體上一段包含KIT基因的492 kb的片段通過環(huán)化形成eccDNA(Durkin等命名為環(huán)形中間體circular intermediate)易位到29號染色體,形成Cs29等位基因。包含Cs29等位基因的一段575 kb的基因組片段環(huán)化后易位到6號染色體,構成Cs6等位基因[1]。eccDNA介導了KIT基因轉座,使其異常表達。M?ller[2]研究發(fā)現(xiàn)肉用王鴿(king pigeon)肌肉組織eccDNA數(shù)目比信鴿(homing pigeon)高9倍,并且在肉用王鴿顯著富集了包含AGRIN基因的eccDNA,而AGRIN基因編碼一種細胞膜蛋白,參與神經(jīng)肌肉接頭的發(fā)育,該基因突變會導致肌肉發(fā)育異常[2]。并且在植物中,Koo與Molin等[3-4]發(fā)現(xiàn)在抗草甘膦長芒莧中存在包含EPSPS基因的eccDNA,而且eccDNA可以通過有絲分裂和減數(shù)分裂傳給下一代,這表明eccDNA分子可以驅動高等生物的快速適應性進化。這些研究結果表明eccDNA或許可以用于畜禽分子標記選擇。但是eccDNA具有一定的時空特異性,類似于mRNA,這會限制其應用。例如,如何利用肌肉組織特異的eccDNA作為分子標記來實現(xiàn)肉用家畜的早期選種?因此,血液中游離的mircoDNA或許可作為未來畜禽分子育種的方向之一。通過前期血液eccDNA的篩選和后期關聯(lián)分析,或許可以鑒定出相關eccDNA標記。
樣品總DNA提取之后,可直接進行顯微觀測,也可利用Hirt法簡單富集低分子量(low molecular weight,LMW)DNA后進行顯微觀測和2D電泳[88-89]。染色體核型分析時,可在光學顯微鏡下觀測到DM[35],但小分子eccDNA則需要電子顯微鏡進行觀測,并且可以估算eccDNA大?。?0](圖4)。2D電泳也可鑒定eccDNA的大小,Cesare等[24]利用2D電泳鑒定出的eccDNA在0.7 kb-56.8 kb。2D電泳通??捎^測到4條泳帶,包括開放環(huán)(open circle)條帶、超螺旋環(huán)(supercoiled circle)條帶、線性DNA(linear DNA)條帶和電泳過程中超螺旋環(huán)轉變?yōu)殚_放環(huán)(supercoilded to open circle)而形成的條帶[88]。開放環(huán)是eccDNA主要構型,但無法確定2D電泳條帶中的開放環(huán)是松散環(huán)(relaxed circle)還是缺口環(huán)(nicked circle)[90]。2D 電泳結合Southern blot等印記技術可以進一步揭示eccDNA序列特征及相對豐度[90]。此外,細胞經(jīng)DAPI染色后,利用電鏡結合ECdetect軟件可實現(xiàn)細胞中ecDNA的計數(shù)[39]。
與質粒提取試劑盒相比,CsCl-EB法從總DNA中富集eccDNA上樣量大、操作繁瑣、缺口環(huán)易丟失,所以目前應用較少[90-92]。富集后的eccDNA可采用Circulome-seq[92]、mobilome-seq[93]、Circle-seq[76]或 CIDER-seq[94]進行高通量測序(圖 4)。Circulome-seq采用Tn5轉座酶在一個反應中完成實現(xiàn)eccDNA線性化、末端修復和接頭連接,極大簡化了文庫構建,可檢測數(shù)百bp-數(shù)百kb的eccDNA;mobilome-seq采用核酸外切酶DNase消化eccDNA富集樣品中的線性DNA,滾環(huán)擴增(rolling circle amplification,RCA)后,進行高通量測序,可用于鑒定反轉座子形成的eccDNA;Circle-seq為了充分消化線性DNA,在核酸外切酶DNase消化之前,先用核酸內切酶Not I對富集的樣品進行處理,所以會造成部分eccDNA的丟失,鑒定范圍在1 kb-38 kb;CIDER-seq可檢測數(shù)百bp-數(shù)百kb的eccDNA,但< 10 kb的eccDNA鑒定準確度更高。該方法對富集后的eccDNA直接進行RCA,沒有進行酶切處理,因此線性基因組得到大量擴增,但該方法采用了SMRT長讀長(long read)測序策略,可以得到更多的split read,這有利于eccDNA的鑒定,因為用于eccDNA鑒定的軟件都依賴于split read。在進行測序文庫構建時可以加入質粒作為對照或內參,可提高驗證文庫構建和后續(xù)數(shù)據(jù)分析的可靠性。依據(jù)eccDNA的數(shù)據(jù)分析原理,可以直接從全基因組測序(whole genome sequencing,WGS)或ATAC-seq 數(shù) 據(jù) 中 鑒 定 eccDNA[39,80,95], 或 者 先富集總DNA中的高分子量(high molecular weight,HMW)DNA,WGS后,進行數(shù)據(jù)分析,可鑒定出更多的 ecDNA[41]。Koche 等[42]證實 100% 的 WGS ecDNA在Circle-seq ecDNA中重現(xiàn),但僅有30% 的WGS eccDNA(狹義)被Circle-seq鑒定出來。目前利用高通量測序數(shù)據(jù)鑒定eccDNA的軟件主要有AmpliconArchitect[96]、AmpliconReconstructor[97]、CIRCexplorer2[98]、Circle_finder[42]、Circle-Map[99]和ECCsplorer[100]等,Prada-Luengo對應用較多的3款軟件進行了對比[99],此處不再詳述。
圖4 eccDNA的鑒定方法Fig.4 Methods for eccDNA identification
eccDNA在真核生物中是普遍存在的,包括動物、植物和酵母等。依據(jù)來源和大小,eccDNA可以劃分為不同種類,它們的產(chǎn)生機制也不盡相同,共涉及了11種模型。但這些模型都缺少直接證據(jù),例如支持eccDNA自我復制的直接證據(jù),因此這些模型仍需要進一步驗證。盡管這些問題尚未解決,但是目前已開發(fā)了可用于單倍型分型的CRISPR-hapC技術[101]。該技術基于CRISPR/Cas9系統(tǒng)敲除基因組片段(兩個SNP位點位于片段兩端),環(huán)化形成eccDNA,使兩個SNP出現(xiàn)在eccDNA接頭處,提取DNA,轉化感受態(tài)細胞后,單克隆測序鑒定基因組單倍型。該技術可以可以實現(xiàn)200 Mb基因組序列單倍型鑒定[101],在功能基因組學研究和因果突變鑒定方面具有廣闊的應用前景。
大分子eccDNA,如ecDNA,通??梢詳y帶完整原癌基因,這使其成為腫瘤研究領域的熱點。并且攜帶eccDNA的腫瘤患者,其生存率顯著低于不攜帶eccDNA的患者,說明大分子eccDNA可以作為腫瘤預后的生物標記[86-87]。在動植物中,大分子eccDNA也可以攜帶完整基因,如KIT和EPSPS在表型變異環(huán)境適應方面發(fā)揮重要作用,并且這種以獲得的表型可以穩(wěn)定地傳遞給下一代[1,3-4]。此外,這種大分子eccDNA在正常組織中含量不低,如鴿子肌肉組織中共有1 083個完整基因存在于eccDNA上[2]。這些結果表明,大分子eccDNA可用于分子標記輔助選擇。但eccDNA存在時空特異性,這在某種程度上限制了其應用,例如,肌肉組織特異的eccDNA在畜禽肉用選育中的應用。因為即便是肌肉組織活體采樣,也會對待測畜禽產(chǎn)生影響,更不用提早期選育。
研究表明,microRNA占eccDNA的絕大部分,它們可以由其他組織釋放到血液循環(huán)系統(tǒng)中[84-85]。通過高通量測序技術,鑒定血液中游離的microDNA,利用qPCR進行相對定量,并與畜禽表型數(shù)據(jù)進行關聯(lián)分析,鑒定可用的microDNA標記。因此,血液游離microRNA的鑒定及其與表型關聯(lián)分析是未來eccDNA應用于畜禽育種的一個重要方向。目前,已有eccDNA專門數(shù)據(jù)庫(eccDNAdb,http://www.eccdnadb.net/),并已收錄了人、小鼠和雞共計170萬個eccDNA,這些數(shù)據(jù)可為關聯(lián)分析提供數(shù)據(jù)支撐。如果血液中microDNA的豐度確實與表型變異存在顯著相關,那其中的分子機制又有哪些。目前,已有人提出了兩種潛在機制:作為分子海綿吸附轉錄因子和轉錄產(chǎn)生非編碼RNA,但目前尚未有任何相關研究報道[60,64,102-103]。這些問題的深入研究,將促進eccDNA在畜禽育種中的應用。