鄭珂暉 黎哲鎮(zhèn) 葉景山 周富杰 溫永仙
摘要:[目的]探索基于自然群體隨機交配的單個印跡QTL的定位方法,分析影響定位準確性的關鍵因素。[方法]若印跡QTL決定的某一性狀為數(shù)量性狀,假設該性狀與標記之間的關系存在線性關系,可以采用最小二乘法進行印跡QTL定位和遺傳參數(shù)的估計。利用計算機模擬單點模擬標記、水稻真實自然群體標記進行印跡QTL定位,比較在不同最小等位基因頻率(Minor allele frequency,MAF)、不同遺傳率、不同隨機交配輪數(shù)下的統(tǒng)計功效與參數(shù)估計精度,印跡QTL的顯著性采用F檢驗和t檢驗。[結果]通過模擬研究,證明該試驗設計對于檢測單個印跡QTL是有效的,在MAF大于5%時,印跡遺傳率大于10%時,定位與遺傳參數(shù)估計趨于無偏。[結論]采用自然群體隨機交配產(chǎn)生作圖群體,可以用來進行單個印跡QTL的定位,定位的結果較好,是一種有效的試驗設計,為下一步進行多個印跡QTL奠定了基礎。
關鍵詞:自然群體;關聯(lián)分析;F檢驗;印跡QTL;隨機交配
中圖分類號:Q348文獻標志碼:A 文章編號:1008-0384(2019)12136407
0 引言
[研究意義]自然群體往往不是嚴格的遺傳群體,如:種質(zhì)資源、野生種等,它一般不用通過先構建親本再進行交配產(chǎn)生F2代以后再用自交、回交等方法來產(chǎn)生。相對于結構群體,它的遺傳背景一般并不清晰,往往采用關聯(lián)分析來進行QTL定位。全基因組關聯(lián)分析”’主要基于基因的連鎖不平衡,用以判斷表型性狀與遺傳標記之間的關聯(lián)性。在全基因組上對逐點掃描遺傳標記,依次判斷每個標記與相關表型性狀的關聯(lián)水平。關聯(lián)分析方法出現(xiàn)以后,有力地推動了數(shù)量遺傳學的發(fā)展,對于水稻、玉米等作物以及豬、牛等家畜的育種改良起了重要的推動作用。印跡效應是一種表觀遺傳效應,指的是由于親本產(chǎn)生的配子根據(jù)其來源父本或母本,使得配子中某些基因呈現(xiàn)特異的表達或沉默,造成子代體細胞中某些等位基因表達活性不同的現(xiàn)象。印跡在某些植物的胚乳形成、哺乳動物的胚胎發(fā)育、人類的一些罕見疾病的形成中起著重要的作用。[前人研究進展]由于全基因組數(shù)據(jù)往往十分龐大,關聯(lián)分析對計算的要求較高。為了簡化計算,早期研究人員進行關聯(lián)分析時往往將只考慮加性效應,而忽略顯性與印跡等效應。近些年來,有部分研究人員將印跡效應引入到全基因組關聯(lián)分析中。Marcos等采用SNP作為遺傳標記,采用回歸方法來定位與豬背膘、日增重等性狀相關聯(lián)的SNP,并估計加性、顯性和印跡3種遺傳效應值。Hu等采用GWAS技術分析了印跡基因組對小鼠BMI指數(shù)的影響,研究表明印跡可以世代傳播,對小鼠的BMI指數(shù)具有一定的影響。Steven等通過研究發(fā)現(xiàn):基因組印跡對在小鼠對于錐蟲的抗性具有重要的作用,并在小鼠染色體上定位到了與錐蟲抗性相關的3個印跡QTL。Wen等利用永久F2群體來進行印跡QTL定位,可以無偏估計印跡QTL位置和加性、顯性和印跡3種遺傳效應。[本研究切入點]自然群體的構建需要花費大量的人力與物力,若將自然群體隨機交配產(chǎn)生后代,則相對可以用較低廉的價格獲得遺傳信息豐富的群體。目前,基于自然群體隨機交配的方法來定位印跡QTL目前尚未見到報道。由于基因組印跡具有親本特異的特點,所以,在進行印跡QTL定位時,需要知道某個株系的父本或母本。直接采用自然群體不能夠直接進行印跡QTL的定位,但可以將自然群體作為初始群體,進行隨機交配,產(chǎn)生F2群體,可以用較小的初始群體來獲得一個大的F2群體,該群體包含的遺傳重組事件較為豐富,可以用作印跡QTL定位。[擬解決的關鍵問題]建立性狀與加性、顯性、印跡關系的遺傳模型、給出單個印跡QTL定位與印跡QTL顯著性檢驗的方法。
1試驗設計
假設有1個已知標記基因型的自然群體,將自然群體植株間進行隨機交配產(chǎn)生隨機交配群體,采用隨機區(qū)組設計,調(diào)查二倍體植株性狀表型值,生成隨機交配群體如圖1所示。
2 遺傳模型與定位方法
假設基因組上某個位置上存在與表型性狀關聯(lián)的位點,這個位點控制某個性狀,那么我們可以定義下列遺傳模型:
我們可以推導出,它的理論均值為:
等位基因替代效應的平均效應(the average effectof allele substitution)可以通過式4計算得到:
3 單標記印跡QTL定位方法
假設有一個自然群體進行隨機交配后,產(chǎn)生了個體數(shù)目為n的群體,為此我們建立了以下線性模型
為了簡單起見,本研究采取單標記關聯(lián)分析,采用最小二乘法回歸分析,對基因組上的標記進行逐點掃描,對于式9,我們提出假設H:a=d=h=0,其備擇假設H:a,d和h不全為零。若僅檢驗印跡效應,我們提出假設Ho:h=0,其備擇假設H:h≠0,我們采用F檢驗來檢測標記的顯著性,因為是單個標記的檢驗,直接用0.05或0.01下的F臨界值進行判斷。由于這里有3種遺傳效應,那么顯然的,如果:
對于給點的顯著性水平,可以構建統(tǒng)計量,該統(tǒng)計量服從F(P,n-p-1)的F分布,則有式10。
式中,RSS代表隨機殘差平方和,ESS為回歸平方和,n為樣本數(shù),p為變量個數(shù),此處取值為3。如果方程總體通過了顯著性檢驗以后,再逐個對x、z、t做t檢驗,檢驗各變量是否顯著。F統(tǒng)計量與t統(tǒng)計量計算簡單,使用計算機運算速度較快,可以逐點計算全基因組上每個位點的F值,并對每個位點的3種效應估計值進行t檢驗,將F最大(超過臨界值,且通過t檢驗)的點作為可能的印跡QTL位點。
4 模擬研究
為了驗證該方法的可行性,我們采用計算機來模擬驗證,由于本文僅是基于自然群體隨機交配的進行印跡QTL定位方法的初步研究,目的在探討其可行性,所以進行2個模擬:第一是采用單點模擬,假設已知QTL位置,僅考察其參數(shù)估計的準確度和精度,及其是否達到顯著性;第二是采用實際的水稻的基因型數(shù)據(jù)進行模擬,驗證其可行性。
4.1單點模擬研究
由于自然群體有別于結構群體,自然群體的遺傳結構是不清晰的,在群體中有大量的進化事件摻雜其中,群體結構較為復雜。在群體中,等位基因A,a的基因頻率往往不是1:1,甚至有可能是很極端的,如可能在0.05以下,就是罕見變異。那么自然群體中在不同基因頻率下,基于自然群體隨機交配產(chǎn)生的群體,我們所建立的遺傳模型和提出相應地印跡QTL檢測方法與效應估計方法是否還能有效,我們通過模擬來進行檢驗。在這里,僅考察所建立的遺傳模型在不同的MAF下相應地參數(shù)估計和顯著檢驗方法是否可行。
我們假定僅有單點標記,在遺傳模型中
y=u+ax+dz+ht+ε i=1,2,…,n (11)
進行參數(shù)估計,在此基礎上,首先我們對方程進行F檢驗,看其是否存在QTL(a,d和h不全為零),在此基礎上進一步對印跡效應做顯著性檢驗(h≠0)。
根據(jù)式9可以計算出印跡效應的大小如式12所示。
再計算環(huán)境方差,最終產(chǎn)生表型值,這樣就可以考慮遺傳率的不同,隨機交配次數(shù)不同的功效,參數(shù)估計等。
文獻[18]根據(jù)印跡與加性、顯性的關系將它們分成5種印跡類型,如表2所示。
對這5種類型的iQTL進行模擬定位并對模擬結果進行討論,由于在GWAS研究中,研究人員關心的往往是MAF大于0.05的這部分標記,所以,將MAF,即p設置0.05、0.1兩種情況,設q=1-p,常數(shù)C取4、10兩種情況,iQTL的遺傳率設置為5%、10%、15%三個水平,印跡效應根據(jù)式12進行推算。根據(jù)表2中的5種印跡類型得出a、d的值。假設自然群體作為初始群體,包含100個株系,利用該自然群體進行隨機交配6、20輪產(chǎn)生F2群體。每種情況重復100次,100次參數(shù)估計的標準誤偏差提供了參數(shù)估計誤差標準,顯著性水平取為0.05,限于篇幅,此處僅列出C=10,交配20輪的結果,結果見表3。
結果表明:在MAF較小,為0.05時,即使iQTL的遺傳率達到15%,其檢測功效和參數(shù)估計的標準誤都較高,當MAF達到0.1以上時,其檢測功效就較高了;隨著MAF的增大,遺傳率的增加,其估計的標準誤逐漸減小。在和遺傳率相同的條件下,隨著C值的增加,其參數(shù)估計的標準誤也增加,其原因還有待于進一步的研究。即使在MAF高于0.05時,當遺傳率為5%時,效應值估計有一定的誤差,檢測功效也較低,當遺傳率在10%以上的時候,效應估計就較為精準。所以可以看出基因頻率和遺傳率是影響iQTL定位效果的因素。此外,隨著交配次數(shù)的增加,iQTL的檢測功效隨之增加,參數(shù)估計的標準誤隨之減少,從5種iQTL來看,PEP、PEM、DIPOD、DIPUD在MAF、遺傳率、C值相同的情況下,其iQTL檢測效果相似,然而DIB的iQTL檢測效果略差些,這說明加性效應和顯性效應影響了iQTL定位。
綜上所述,如果某個性狀的表型值由一個iQTL確定,那么不論它是上述五種類型中的哪種類型,只要在MAF大于0.1且遺傳率大于10%時,其檢測功效均較好,說明我們的提出的方法在自然群體隨機交配產(chǎn)生的F2群體上定位單個iQTL是有效的。
4.2 基于水稻基因型數(shù)據(jù)單個位點的模擬研究
為了驗證該方法在實際中的實施情況,我們采用韓斌院士課題組發(fā)布的水稻自然群體的數(shù)據(jù)集,該數(shù)據(jù)集收集了960多種水稻種質(zhì)資源。為了簡化研究的問題,對原始數(shù)據(jù)進行了預處理,把其中粳稻的254個株系取出,并將MAF小于0.05的SNP位點去掉,并去除了所有的缺失位點,最終得到了一個包含16382個SNP,在本模擬中,假定這些SNP是等間距分布在一條染色體上,每個SNP間的距離為1kb,254個株系的數(shù)據(jù)集作為原始群體。原始群體采用隨機交配的方式生成隨機交配群體,在進行模擬前,統(tǒng)計各個位點的SNP頻率。從圖2可知,在自然群體中,每個位置上的SNP的MAF并不是均衡的。
假定一個位于470kb位置的這個SNP與某個表型性狀關聯(lián),群體均值為u=10。模擬前,先計算該位點的SNP頻率p和g,印跡效應根據(jù)公式12進行推算(C值取2,4,6三種組合)。根據(jù)表2中的5種印跡類型得出a,d的值,根據(jù)前面的模擬結果,iQTL的遺傳力水平設置為10%和15%,利用自然群體進行3、5、7次隨機交配,產(chǎn)生隨機交配群體。每種模擬情況重復100次,100次參數(shù)估計的標準誤偏差提供了參數(shù)估計誤差標準,閾值可用Bonferroni校正,顯著性水平為0.05。此處,限于篇幅,僅列出C值取2、6,交配輪數(shù)為7次的結果,見表4,交配以后得到的隨機交配群體中470kb處的SNP的頻率p為0.54,則q為0.46,接近于1:1。由于在模擬時選擇的iQTL位置上的MAF接近于0.5,從真實數(shù)據(jù)的模擬結果來看:當遺傳率為10%、15%時,5種類型的iQTL定位都具有較好的結果,iQTL所在位置的估計較為準確,各參數(shù)估計的準確度和精度達到較好的效果,而且檢測功效也較高,在15%時所有類型的iQTL檢測功效均為100%。結果表明,隨著交配次數(shù)的增加,參數(shù)估計的精度也得到提高,這符合我們的構想,當樣本量增加時,其估計的準確度和精度得到提高;對于常數(shù)C值,從表可以看出,隨著C值的增加,其參數(shù)估計的精度逐漸下降,其原因還有待于進一步研究;從5種類型的印跡QTL來看,在相同的條件下,DIB的檢測功效較差,而其余4種DIPOD,DIPUD,PEM,PEP檢測的功效相近,由此可見:加性效應和顯性效應對iQTL的檢測具有一定的影響。
5 討論
我們提出了基于自然群體隨機交配產(chǎn)生的F2群體進行iQTL定位的思想,構建其初步的定位方法,通過單點模擬,全基因組的單點模擬說明基于自然群體隨機交配產(chǎn)生的群體進行iQTL定位是可行的,當然這里沒有考慮其他因素(如群體結構等)的干擾。模擬表明,在不考慮其他因素的影響下,該iQTL定位方法的檢測功效,以及參數(shù)估計的準確度和精度都較好。
雖然自然群體的群體遺傳結構不清晰,但在GWAS時代,測序成本不斷降低,甚至可以直接對個體進行測序。所以,基因型頻率可以看成已知的,基于自然群體隨機交配產(chǎn)生的群體,只要交配次數(shù)足夠,就可以產(chǎn)生較大的樣本;從初步研究模擬也可以看出,隨著交配次數(shù)的增加,其檢測功效,參數(shù)估計的精度也增加。
在全基因組關聯(lián)分析(GWAS)中,是以長期重組后保留下來的基因或位點間連鎖不平衡為基礎,在獲得群體表型數(shù)據(jù)和基因型數(shù)據(jù)后,采用統(tǒng)計方法檢測標記與性狀之間關聯(lián)的分析方法,一般以自然群體或種質(zhì)資源為研究材料,遺傳結構較為復雜。在進行GWAS時,要求遺傳背景一致或者相似的群體,但在未知群體結構的關聯(lián)分析研究中,由不同亞群引起的MAF的差異會造成假關聯(lián)。通常采用基因組控制、基于家系的關聯(lián)分析檢驗和主成分分析等方法控制。一般而言:基于自然群體隨機交配產(chǎn)生的群體會產(chǎn)生結構分層,所以在這種情況下,必須要控制因為結構分層造成的假關聯(lián),在后續(xù)的工作中,可以利用混合線性模型,傳遞不平衡分析等其他方法來進行印跡QTL定位方法的研究。