田全召,陳炳旭,趙楊楊,汪聰勇,王紅利,魯沛佳,張子敬,周森森,楊國杰,王二耀,雷初朝,陳 宏,黃永震*
(1 河南省鼎元種牛育種有限公司,河南 鄭州 450000;2 西北農(nóng)林科技大學(xué) 動物科技學(xué)院,陜西 楊凌 712100;3. 郟縣畜牧局,河南 郟縣 467100;4. 河南省農(nóng)業(yè)科學(xué)院 畜牧獸醫(yī)研究所/河南省畜禽繁育與營養(yǎng)調(diào)控重點實驗室,河南 鄭州 450002)
基因變異是生物界普遍存在的現(xiàn)象?;蜃儺愂股矬w具有多樣性,使生物體通過自然選擇而進化。遺傳信息改變的發(fā)生既可以在染色體水平上,它也可以在分子水平的DNA。染色體水平的變異稱為染色體畸變,分為染色體數(shù)目變異和結(jié)構(gòu)變異。由拷貝片段的缺失、重復(fù)、反轉(zhuǎn)和易位引起的突變是基因拷貝數(shù)的突變,但不包括由轉(zhuǎn)座子插入和缺失引起的突變,這些微小的變異卻會造成巨大的遺傳效應(yīng)。2004年IAFFRATE等和2007年SeBAT等在自然遺傳學(xué)中發(fā)表了兩篇關(guān)于CNV的文章,他們首次報道了人類基因組中大量拷貝數(shù)變異多態(tài)性的存在[1-12]。在人類基因組中,CNV的分布是有規(guī)律的。在同源重復(fù)序列或DNA重復(fù)片段中經(jīng)常出現(xiàn),呈顯著正相關(guān),同時CNV的形成還與非同源突變有關(guān)。
根據(jù)人類基因組的研究,在基因組中CNV分布是具有規(guī)律性的,常發(fā)生在特定的重復(fù)序列區(qū)域或低拷貝重復(fù)區(qū)(LCRs)中?;蚪MDNA重復(fù)序列(SD)與CNV呈顯著極性正相關(guān),SD在全基因組的平均密度在4%~5%;在CNV含量豐富的區(qū)域可達25%;在CNV含量匱乏的區(qū)域中只有2%~3%。在對數(shù)據(jù)進行分析研究后,目前CNV的突變機理仍不確切,科學(xué)家有很多猜測,包括非等位同源重組(NAHR)、非同源末端連接(NHEJ)、DNA錯誤復(fù)制的FoSTeS機理等[12]。
在減數(shù)分裂過程中,基因組上不同位點的DNA序列與其重復(fù)序列具有高度的同源性,發(fā)生重組,即非等位同源重組(NAHR)。由于同源序列的倒位、重復(fù)、缺失會引起基因拷貝數(shù)的改變而使染色體結(jié)構(gòu)改變,導(dǎo)致基因組不穩(wěn)定和疾病的產(chǎn)生[1]。NAHR存在重組熱點(hotspot)具有序列傾向性,在其重組熱點中發(fā)現(xiàn)了與同源重組(AHR)相同的序列,說明這段序列很可能是與重組相關(guān)的蛋白質(zhì)的識別位點,它們具有類似的分子機制[13]。
非同源末端連接(NHEJ)是兩個不具有同源性的DNA序列在末端連接,與DNA的非β結(jié)構(gòu)相關(guān)(即左旋Z型DNA和十字型DNA),使染色體重排導(dǎo)致CNV[1]。
復(fù)制叉停滯和模板轉(zhuǎn)換 (Fork Stallingand Template Switching)機制,是DNA復(fù)制叉停滯后,在滯后鏈上由DNA及一系列酶形成的微小片段從模板上脫落,轉(zhuǎn)換到另一個模板上繼續(xù)合成DNA,導(dǎo)致DNA重復(fù)或缺失,產(chǎn)生大量CNV[1]。
3.1.1 CGH芯片 比較基因組雜交(CGH),是一種分子細胞遺傳學(xué)技術(shù),最初用于癌癥生物學(xué)。通過基于微陣列技術(shù),將不同熒光素標(biāo)記的樣本和對照樣本與構(gòu)建的文庫同時雜交,檢測兩個基因拷貝數(shù)的變異[2-8]。CGH結(jié)合消減雜交和FISH技術(shù)檢測兩個或多個基因組之間的相對DNA拷貝數(shù)的變化,并將這些異常的拷貝數(shù)變化定位在染色體上,因此也被稱為DNA拷貝數(shù)核型技術(shù)[4-10]。CGH芯片是一種高靈敏度、高精度、高分辨率的高通量分析方法,檢測精度高??茖W(xué)家根據(jù)制備過程中探針的來源,將比較基因組雜交CHG芯片分為細菌人工染色體CGH芯片和寡核苷酸探針CGH芯片[14]。
3.1.2 高密度SNP芯片 高密度SNP芯片技術(shù)只能用于單雜交,而無需使用兩個DNA樣品(實驗組和對照組)和探針進行雙雜交[2-4]。通過監(jiān)測被測樣品的SNP信號強度,可以進行比較確定基因拷貝數(shù)變異[5-8]。與CGH芯片相比,SNP芯片樣本量少,成本低,可噪比低,假陽性高,Affymetrix和Illumina公司相繼引進了人類全基因組SNP 6.0和Illumina 1M芯片,可用于檢測全基因組CNV多態(tài)性,構(gòu)建高分辨率CNV圖譜[14]。
3.1.3 新一代測序技術(shù) 新一代的測序是將基因組分成大約100 kb的片段,每個片段分別進行測序,然后由大型計算機進行拼接[2]。測序時,將待測DNA片段作為模板,合成互補鏈[4]。對每個基部延伸進行激光掃描,以確定哪一個基底(四個堿基沒有被預(yù)處理),同樣的標(biāo)記在激光下顯示不同的顏色,很容易完成測序[5-11]。新一代CNV檢測測序技術(shù)可分為兩種方法:基于序列對的方法和基于讀取深度的分析方法[10]。新一代測序技術(shù)具有高通量、低成本、高速度、操作簡單、不需要大量專業(yè)知識等優(yōu)點[11]。它可以應(yīng)用于大規(guī)模物種測序和人類基因組研究,費用比CGH芯片低廉。缺點是不能準(zhǔn)確描述基因重排的斷裂點和基因結(jié)構(gòu)式[7-14]。
對于已知序列的CNV進行檢測可用以下這四種方法:Southern雜交(Southern 熒光原位雜交(FISH)、實時定量PCR(qPCR)、短熒光片段定量多重PCR(QMPSFQ)、多重擴增探針雜交(MAPH)和依賴鏈多重連接依賴探針擴增(MLPA)。這四種方法具有快速可靠,可檢測多個位點,提高了通量等優(yōu)點[2-4]。
4.1.1 帕金森 帕金森病(PD),又稱特發(fā)性帕金森病(PD),又稱驚厥性麻痹(震顫性麻痹),是老年人神經(jīng)系統(tǒng)常見的退行性疾病。它的特點是靜態(tài)震顫,緩慢運動,增加肌肉張力和不穩(wěn)定的姿勢?;蚪M中存在許多與PD相關(guān)的基因,至少有13個基因被發(fā)現(xiàn)[1]。例如,SNCA的CNV鑒定是由于基因拷貝數(shù)的增加,表明基因的劑量效應(yīng)是帕金森病的原因之一[6-8]。
4.1.2 阿爾茨海默病 阿爾茨海默病(AD),又稱老年性癡呆病,是一種中樞神經(jīng)系統(tǒng)退行性疾病,是最常見的老年癡呆病。主要神經(jīng)精神癥狀為使人發(fā)生進行性記憶障礙、認知障礙、人格改變和語言障礙,嚴重影響人的社會、職業(yè)和生活功能。AD的病因和發(fā)病機制尚未闡明,基因組中有許多與AD相關(guān)的基因,研究人員已鑒定出至少15個基因影響AD的發(fā)生,如APP基因編碼淀粉樣蛋白早期蛋白[1],APP基因拷貝數(shù)的增加是治療阿爾茨海默病的機制,APP蛋白的過度表達是阿爾茨海默病的原因。AD還與21三體綜合征有關(guān)[6]。
4.1.3 艾滋病 艾滋病,又稱后天性免疫缺陷綜合征(或獲得性免疫缺陷綜合征,AIDS),是由人類免疫缺陷病毒(HIV)引起的逆轉(zhuǎn)錄病毒感染,因免疫系統(tǒng)受到損傷和各種病毒的侵襲,導(dǎo)致各種臨床癥狀的集合,被稱為綜合征。簡單的疾病可以通過直接接觸口腔、生殖器、肛門等的粘膜組織(粘膜)或病毒血液、精液、陰道分泌物和母乳傳播[1]。例如,CC3L1蛋白是一種抑制HIV的趨化因子,研究表明攜帶CCL3L1拷貝數(shù)較低的人群更容易感染HIV[6]。
4.1.4 孤獨癥 自閉癥,也被稱為孤獨癥或自閉癥,是彌漫性發(fā)育障礙(PDD)的代表性疾病。它表現(xiàn)為人類語言交際能力的喪失、社會交際的障礙、狹隘的興趣和刻板的重復(fù)行為。塞巴特等研究了165個孤獨癥家庭和99個控制家庭,以找出CNV是否導(dǎo)致孤獨癥。在這些ASD患者中,新突變產(chǎn)生的CNV數(shù)量顯著增加,而對照組中很少,但患者中大部分表現(xiàn)為CNV缺失[1],他們得出結(jié)論CNV是孤獨癥的一個重要因素,特別是缺失型 CNV,是孤獨癥的一個重要的風(fēng)險因素[6]。
4.1.5 智障 精神發(fā)育遲滯(MR),又稱精神發(fā)育遲滯俗稱智障,一般指認知活動的持續(xù)性障礙,是指大腦器官損傷或發(fā)育不完全引起的整個心理活動的障礙。例如,弗洛尼亞等人對X連鎖精神發(fā)育遲滯(XLMR)患者的300個家系進行了研究[1],在六個不相關(guān)的非綜合征性XLMR男性個體的Xp11.22上鑒定出6個重復(fù)CNV,表明重復(fù)型CNV增加了智力低下的風(fēng)險[6]。
為了實現(xiàn)CNV與表型的關(guān)聯(lián)分析,需要準(zhǔn)確定位CNV基因組的位置,找出準(zhǔn)確的斷點。我們還應(yīng)該充分了解CNV等位基因在群體中的數(shù)量和頻率分布,并建立客觀可行的標(biāo)準(zhǔn),以減少假陽性。但由于CNV分型精度差、畜禽CNV圖譜清晰度差、CNV基因分型精度低、成本高,目前尚處于起步階段[2]。
4.2.1 豬 2008年,F(xiàn)adistaJ等在12個無親緣關(guān)系的杜洛克公豬的4、7、14和17號染色體上發(fā)現(xiàn)了37個拷貝數(shù)變異區(qū)域(CNVRs)[15-20,13]。2010年,Yuliaxis等在利比亞長白豬的全基因組中發(fā)現(xiàn)了49個CNVRs[17]。2011年,余少波等在通城豬、杜洛克豬及它們的后代中發(fā)現(xiàn)了44個CNVRs,在豬的13號染色體上存在32個CNVR;牛玉娜等發(fā)現(xiàn)在KIT基因上,長白豬的實際拷貝數(shù)為2,杜洛克豬的實際拷貝數(shù)為1,大白豬的實際拷貝數(shù)為2,她推測五指山豬的拷貝數(shù)應(yīng)為1;王韜測定出在KIT基因上,紅毛杜洛克豬拷貝數(shù)為2,白毛杜洛克拷貝數(shù)為3~6,大白豬的拷貝數(shù)為5或6;而KIT基因與豬的毛色相關(guān),使顯性白色毛,拷貝數(shù)增加會使豬毛色變黑[19-20,13]。2015年,Wang等[15]對豬基因進行研究,發(fā)現(xiàn)了3個CNVs與肉質(zhì)關(guān)聯(lián)的QTL區(qū)域重疊。 2017年,Revilla等發(fā)現(xiàn)與CNV關(guān)聯(lián)的CLGA4、CYP4X1、GPAT2、PLA2G2A、MOGAT2和PRKG1基因與豬的脂肪等生長性狀相關(guān)[16]。
豬繁殖與呼吸綜合征(PRRS)是一種破壞性疾病,對養(yǎng)豬業(yè)造成重大經(jīng)濟損失。Hay等人為檢測與PRRS病毒感染的群體特異性宿主反應(yīng)相關(guān)的拷貝數(shù)變化(CNVs),利用SNP60串珠芯片在660只豬上進行全基因組CNV分析,發(fā)現(xiàn)了7 097個CNVs和271個CNV區(qū)域(CNVRs)。該研究結(jié)果表明,CNVs可能與PRRS病毒的群體特異性宿主反應(yīng)有關(guān)?;谔禺愋訡NVRs的基因注釋,研究結(jié)果表明干擾素和白細胞介素等分子與宿主對PRRS病毒感染的反應(yīng)密切相關(guān)。該研究為利用基因變異,特別是CNVs,可作為消除或減輕PRRS影響的一種補救或方法,可能對豬肉行業(yè)有利。結(jié)合基于SNP的結(jié)果,該研究的CNV結(jié)果可能有助于鑒定易感動物,或允許使用標(biāo)記輔助選擇類型來減輕這種疾病的影響[21]。
RAN等人采用實時定量聚合酶鏈反應(yīng)(qPCR)方法,驗證了用單核苷酸多態(tài)性(SNP)陣列檢測香豬6號染色體上一個496 kb CNV區(qū)域的MTHFSD基因。該實驗的統(tǒng)計分析表明,MTHFSD基因CNVs顯著改變湘豬產(chǎn)仔數(shù)性狀,獲得CNV的個體產(chǎn)仔數(shù)大于缺失CNV的個體。得出MTHFSD作為RNA結(jié)合蛋白,在豬繁殖過程中發(fā)揮著重要作用,調(diào)控MTHFS mRNA代謝的結(jié)論[22]。
Anderson等檢測了美國肉類動物研究中心72頭實驗豬群的全基因組序列。結(jié)果發(fā)現(xiàn),在抽樣的群體中,從24頭公豬和48頭母豬中發(fā)現(xiàn)了4566個拷貝數(shù)變異。與CNVs重疊的基因在感官感知、G蛋白偶聯(lián)受體和細胞對刺激的反應(yīng)方面得到了富集。此外,CNVs與許多經(jīng)濟相關(guān)性狀的QTL重疊,包括胴體重量、平均日增重、脂肪與肉的比值、估計胴體瘦肉含量和初生重[23]。
4.2.2 牛 2009年,張良志等發(fā)現(xiàn)CNV與肉用性狀呈正相關(guān)[20]。2011年,Stothard等在黑色安格斯牛和荷斯坦牛中進行研究,發(fā)現(xiàn)CNV與牛的免疫、產(chǎn)奶等性狀相關(guān)[20]。2011年,Hou等[13]對牛的基因組進行研究,發(fā)現(xiàn)了811個拷貝數(shù)候選區(qū)域,它們與牛的免疫力和抵抗力提高有重要影響。Kijas等將CNVs與牛的特征聯(lián)系起來,發(fā)現(xiàn)大約有0.5%的?;蚬灿?1個CNVs,82%的CNVs至少包含一個基因,影響表型變異,CNV在基因多樣性中占有重要地位。L.Y.Xu等[3]對在世界范圍內(nèi)的8個品種牛進行分析,發(fā)現(xiàn)不同牛種CNV與牛種群體結(jié)構(gòu)和在地理上不同分布有很高的相關(guān)性。2012年,Brickhart等在牛的全基因組中測序,發(fā)現(xiàn)了1 265個CNV區(qū)域,在CNV區(qū)域中發(fā)現(xiàn)多個QTLs與牛的生長肉質(zhì)相關(guān)[19,13]。2013年Xu等[25]對秦川、南陽、魯西三個牛品種研究,發(fā)現(xiàn)CNV與MICALL2基因轉(zhuǎn)錄表達呈負相關(guān)性,對牛的表型有積極影響;2015年,Shi和Xu[b]對秦川、南陽、晉南、咸安牛等品種研究,發(fā)現(xiàn)I3DNACNVs與LEPR基因表達呈顯著負相關(guān),對牛的體重、體高、體長有積極影響;2016年,Dasilva等對牛的基因組研究發(fā)現(xiàn)688個CNVRs中與牛的采食量、妊娠期時長、脂肪、肌肉、體重等重要經(jīng)濟性狀相關(guān)的286個QTL區(qū)域重疊;2017年,Letaief等1 095個CNV與牛奶質(zhì)量相關(guān)的10個QTL區(qū)域重疊,與產(chǎn)奶量相關(guān)的43個QTL區(qū)域重疊,與健康狀況相關(guān)的27個QTL區(qū)域重疊,與胴體相關(guān)的73個QTL區(qū)域重疊[17]。
鳥苷酸結(jié)合蛋白2(GBP2)基因在細胞增殖中起重要作用。zhang等確定了中國6個主要牛種的466個個體中存在GBP2 CNV(相對于安格斯牛),并確定其與生長的關(guān)系。統(tǒng)計分析顯示GBP2基因CNV1和CNV2與生長性狀顯著相關(guān)。該研究表明GBP2基因的CNVs可被作為中國肉牛分子育種的標(biāo)志[26]。
Strillacci等人對瓦爾多斯坦紅皮牛(VRP)進行拷貝數(shù)變異掃描,并將VRP中檢測到的CNVs與意大利Brown Swiss (IBS)和墨西哥Holstein (HOL)發(fā)表的研究中檢測到的CNVs進行了比較。VRP與IBS之間有474個區(qū)域重疊,而VRP與HOL之間只有313個區(qū)域重疊,說明在同源種群中,如阿爾卑斯山脈其遺傳背景更為相似[4]。
為了鑒定表型相關(guān)的CNVs (paCNVs),促進育種的研究進展。Cao等人將已發(fā)表的CNV數(shù)據(jù)映射到個體數(shù)量性狀位點圖譜上,將致因基因與表型聯(lián)系起來。該研究報道了黃牛常染色體3 (BTA3)中潛在的CNV,檢測出了官能結(jié)合蛋白4 (GBP4)內(nèi)的CNV與成年牛的體高顯著相關(guān)[27]。
4.2.3 羊 2009年,F(xiàn)ontanesi等將牛的13號染色體序列來獲得羊中含有ASIP和AHCY基因區(qū)域,發(fā)現(xiàn)品種之間的CNV具有差異,且CNV使羊的毛色發(fā)生變化[15-19,13]。 2008年,Zhao等在內(nèi)蒙古白絨山羊和陜北白絨山羊中的KAP基因中發(fā)現(xiàn),CNV與絨山羊的羊絨品質(zhì)有相關(guān)性[20]。2011年,楊樹猛等對16只不同毛色藏羊的有關(guān)毛色的Agouti基因進行研究,發(fā)現(xiàn)CNV具有穩(wěn)定性和遺傳性[13]。2015年,王維[28]發(fā)現(xiàn)Y染色體的ZNF280BY基因的拷貝數(shù)變異影響種山羊的繁殖性能[g]。2016年,Menzi等發(fā)現(xiàn)與波爾山羊毛色相關(guān)的EDNRA基因拷貝數(shù)影響山羊白色毛的覆蓋度[16]。2017年,Yang等[29]在世界范圍的綿羊基因進行CNV檢測,發(fā)現(xiàn)與CNV重疊的BTG3、PTGS1和PSPH基因與胎兒、肌肉、骨骼有相關(guān)性。2017年,Ma等對富含CNV區(qū)域與胚胎骨骼相關(guān),其中DLX3基因影響羊毛彎曲程度[16]。
Liu等利用ADAPTmap項目生成的山羊SNP50基因分型數(shù)據(jù),研究了山羊CNV分布的多樣性。該研究利用PennCNV在50個山羊品種的1 023個樣本中鑒定了6 286個假定的CNV。研究顯示,在不同地理區(qū)域,包括西亞、東地中海、阿爾卑斯和地中海地區(qū),群體中CNV存在差異。該研究發(fā)現(xiàn)了幾個重要的CNV重疊基因(如EDNRA、ADAMTS20、ASIP、KDM5B、ADAM8、DGAT1、CHRNB1、CLCN7、EXOSC4),它們參與了局部適應(yīng),如皮毛顏色、肌肉發(fā)育、代謝過程、骨轉(zhuǎn)移和胚胎發(fā)育。該研究在全球山羊種群中生成了廣泛的CNV圖譜,為山羊基因組及其功能注釋提供了新的見解[30]。
4.2.4 禽 2008年,Griffin等繪制的雞和火雞的遺傳圖譜,發(fā)現(xiàn)了16個品種間的CNV[18-20]。2008年,Elferink[31]等對雞催乳素受體基因和精子鞭毛蛋白2基因進行CNV的研究,發(fā)現(xiàn)CNV與雞羽毛生長有關(guān)。2008年,賈先波[32]對2個品種的蛋雞進行檢測,發(fā)現(xiàn)了265個CNVR,占雞的全基因組的3%。2009年,Wright等對性別決定域Y-box5基因的第一內(nèi)含子拷貝數(shù)變異與雞冠表型豆冠有關(guān)[20]。2009年,Skinner等將北京鴨中存在32個CNV,其中5個也在雞和火雞的CNV區(qū)域中存在[15]。2010年,Wang等[33]對科尼什肉雞、來航雞、洛島紅雞3個品種的雞進行研究,發(fā)現(xiàn)96個CNVs,占雞的全基因組等編碼基因的序列。2010年,張榮等對杏花雞、隱性白洛克雞及同胞后代560個個體進行研究,發(fā)現(xiàn)了3824個CNV[18]。2011年,Wang等[34]使用400k AgilentCHG基因芯片繪制了中國地方雞和商業(yè)雞的部分染色體CNV圖譜,發(fā)現(xiàn)了130個CNVRs。
雞嘴畸形導(dǎo)致采食量減少,降低生產(chǎn)性能。為了揭示喙畸形背后的遺傳機制,Bai等使用Affymetrix雞高密度600 K數(shù)據(jù)芯片對48只畸形喙和48只正常雞進行全基因組CNV檢測。最終結(jié)果表明LRIG2基因在雞畸形喙中表達較低,可以將其視為畸形喙的關(guān)鍵因素[35]。
性別決定區(qū)Y-box 6 (Sox6)在斑馬魚和小鼠的快速肌纖維分化中起關(guān)鍵作用,但Sox6是否在雞骨骼肌發(fā)育中起作用尚不清楚。通過AccuCopy和CNVplex分析,Lin等鑒定了兩種與雞基因組水平上的不同性狀顯著相關(guān)的拷貝數(shù)多態(tài)性(CNPs)。研究結(jié)果表明,SOX6的拷貝數(shù)數(shù)量與SOX6的表達水平呈正相關(guān),SOX6通過上調(diào)雞肌肉生長相關(guān)基因的表達水平,促進骨骼肌細胞的增殖和分化[36]。
馬立克病(MD)是一種主要影響雞群的高傳染性、致病性和致癌性疾病,雞家系 63 和72它們的重組同源菌株(RCS)對MD具有不同的易感性,是研究MD遺傳抗性復(fù)雜機制的理想模型,Xu等使用Affymetrix Axiom HD 600k SNP基因分型陣列研究了這些自交雞系的拷貝數(shù)變異(CNV)。結(jié)果表明,家系 72兩個CNV缺失可能有助于MD易感性[25]。
目前,CNV的研究取得了一系列的重要成果,但仍有許多問題沒有得到解決,例如,大多數(shù)的物種的CNV仍是未知的;人類基因組中還有很多CNV等待我們?nèi)グl(fā)現(xiàn),對于已知的CNV我們還不能深入的了解其原理功能。未來,我們需要探索更加深層次的方面,對CNV的產(chǎn)生、分布、生物效應(yīng)、選擇進行研究,將CNV與基因表達調(diào)控的關(guān)系挖掘出來,在某一階段可能會利用這些發(fā)現(xiàn)治愈這些復(fù)雜的疾病,并為畜禽的遺傳育種提供分子層面的理論基礎(chǔ)。