国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全基因組分析技術(shù)的魚類育種技術(shù)原理與應(yīng)用

2022-03-23 06:28石米娟張婉婷程瑩寅夏曉勤
關(guān)鍵詞:表型位點(diǎn)測(cè)序

石米娟 ,張婉婷 ,程瑩寅 ,夏曉勤 *

(1.中國(guó)科學(xué)院水生生物研究所,武漢 430072;2.中國(guó)科學(xué)院種子創(chuàng)新研究院,北京 100101)

近十余年來,高通量測(cè)序技術(shù)的快速發(fā)展逐步消除了基因組測(cè)序的成本與技術(shù)壁壘,單個(gè)物種基因組的測(cè)序組裝已由舉全球之力[1]變成單個(gè)實(shí)驗(yàn)室獨(dú)立承擔(dān)[2],已完成測(cè)序的魚類基因組數(shù)目呈指數(shù)上升,“萬種魚基因組計(jì)劃(Fish 10K)”更是昭示著魚類后基因組時(shí)代的來臨[3]。隨后,多學(xué)科交叉融合以及相應(yīng)技術(shù)的推陳出新則構(gòu)成了后基因組時(shí)代的“主旋律”。全基因組序列與功能注釋是所有基因組相關(guān)應(yīng)用的基礎(chǔ),其將序列與功能相聯(lián)系,極大地提高了各類組學(xué)研究以及育種中性狀因果位點(diǎn)預(yù)測(cè)研究的準(zhǔn)確性與可讀性。此外,對(duì)于育種研究而言,全基因組序列信息還為經(jīng)濟(jì)性狀相關(guān)位點(diǎn)的定位與遺傳機(jī)制的解析打開了方便之門。魚類很多經(jīng)濟(jì)性狀是由多個(gè)微效基因共同作用而決定的,傳統(tǒng)標(biāo)記密度低且很難定位至基因水平,而全基因組分子標(biāo)記與表型性狀的關(guān)聯(lián)研究更全面、更精準(zhǔn)地定位于目標(biāo)性狀相關(guān)的基因或分子模塊,為育種對(duì)象的分子選育和遺傳改造提供更為精準(zhǔn)的候選靶標(biāo)。本文梳理了基于全基因組分析的魚類育種相關(guān)技術(shù),介紹了全基因組關(guān)聯(lián)分析(genome-wide association studies,GWAS)、全基因組連鎖分析(genome-wide linkage analysis,GWLA)、全基因組選擇(genomic selection,GS)等研究進(jìn)展,旨在推動(dòng)全基因組分析技術(shù)在魚類育種研究中的應(yīng)用。

1 全基因組分子標(biāo)記

1.1 魚類育種主要分子標(biāo)記

目前魚類研究中常用的分子標(biāo)記有2種:簡(jiǎn)單重復(fù)序列(simple sequence repeat,SSR)標(biāo)記和單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)標(biāo)記。SSR標(biāo)記即微衛(wèi)星(microsatellite)標(biāo)記,是由幾個(gè)固定的核苷酸單元組成的一段串聯(lián)重復(fù)序列,其重復(fù)單元的數(shù)目在不同個(gè)體中不一樣,因而呈現(xiàn)不同長(zhǎng)度的片段,這種差異需要依靠高分辨率的聚丙酰胺凝膠電泳檢測(cè)[4]。SSR標(biāo)記的多態(tài)性較高,但串聯(lián)的重復(fù)單元在復(fù)制時(shí)容易發(fā)生鏈滑動(dòng),因而SSR在試驗(yàn)和遺傳過程中的穩(wěn)定性都略差。SNP標(biāo)記是基因組上具有多態(tài)性的單核苷酸座位,一般通過測(cè)序或芯片雜交進(jìn)行檢測(cè),其穩(wěn)定性好,但多態(tài)性受限于有限的堿基類型(ATCG),實(shí)際上絕大多數(shù)的SNP標(biāo)記在群體中只有2種類型,即二態(tài)性。簡(jiǎn)而言之,這2種標(biāo)記雖然都廣泛分布在基因組上,但由于標(biāo)記的性質(zhì)不同,兩者在多態(tài)性、穩(wěn)定性、檢測(cè)手段等方面均不相同。

1.2 SSR與SNP標(biāo)記的應(yīng)用與局限性

基因組選育分析都需要先獲得指定樣本中全部候選分子標(biāo)記的分型矩陣,這一過程在邏輯上包括2個(gè)步驟:①候選標(biāo)記開發(fā);②候選標(biāo)記分型。對(duì)沒有參考基因組的物種而言,SSR標(biāo)記的開發(fā)比較耗費(fèi)資源,而有參考基因組的物種只需要使用程序從基因組序列中進(jìn)行重復(fù)單元的識(shí)別與調(diào)取即可,已有一些數(shù)據(jù)庫(kù)收錄并整理了這類標(biāo)記信息以供使用[5]。SSR標(biāo)記的分型需要通過大量的PCR擴(kuò)增和聚丙酰胺凝膠電泳來完成,所需的PCR反應(yīng)數(shù)目為候選標(biāo)記數(shù)和樣本個(gè)體數(shù)的乘積,樣本量和候選標(biāo)記數(shù)越大導(dǎo)致試驗(yàn)規(guī)模和成本越可觀。因此,SSR標(biāo)記更適用于候選標(biāo)記數(shù)較少或者目標(biāo)群體較小的研究[6]。

各物種的基因組上SNP含量豐富,其數(shù)目一般數(shù)十倍甚至百倍于SSR標(biāo)記。對(duì)目標(biāo)群體的所有選定樣本進(jìn)行測(cè)序(基因組重測(cè)序或簡(jiǎn)化基因組測(cè)序等)[7-8],然后與參考基因組進(jìn)行比對(duì),對(duì)單一比對(duì)位點(diǎn)進(jìn)行SNP calling等一系列處理[9-10],即可篩選出SNP位點(diǎn),并且獲得它們?cè)谒袠颖局械姆中?。這種方法耗費(fèi)較小,能一次性獲得大量的SNP,可以有效彌補(bǔ)SNP多態(tài)性低的影響。隨著高通量測(cè)序技術(shù)的普及,SNP標(biāo)記的應(yīng)用越來越廣,已成為水產(chǎn)育種常用的分子標(biāo)記類型。

1.3 標(biāo)記的發(fā)掘與改進(jìn)

參考基因組對(duì)于SNP標(biāo)記的發(fā)掘和注釋有關(guān)鍵性的作用。雖然缺乏參考基因組也可以依據(jù)測(cè)序片段的相似性進(jìn)行聚類而發(fā)掘SNP標(biāo)記[11-13],但這種無參的標(biāo)記發(fā)掘方法極易引入重復(fù)序列導(dǎo)致的“偽SNP”位點(diǎn),而且所發(fā)掘的SNP位點(diǎn)沒有功能注釋,無法進(jìn)一步解讀。隨著魚類基因組信息的逐步完善,有參的標(biāo)記發(fā)掘?qū)⒊蔀橹髁鳌?/p>

高通量測(cè)序技術(shù)可以有效地降低試驗(yàn)強(qiáng)度,所以也有研究者嘗試將SSR標(biāo)記同高通量測(cè)序相結(jié)合。但由于SSR序列容易產(chǎn)生“鏈滑動(dòng)”,PCR擴(kuò)增會(huì)導(dǎo)致相同的SSR片段最終呈現(xiàn)為不同長(zhǎng)度片段的混合物。高通量測(cè)序從建庫(kù)到上機(jī)一般需要2次PCR擴(kuò)增,會(huì)將這一問題更加復(fù)雜化。如果某些SSR標(biāo)記在不同個(gè)體間的長(zhǎng)度差異不大,就容易因測(cè)序錯(cuò)誤而無法區(qū)分,故而高通量測(cè)序技術(shù)僅適用于SSR標(biāo)記長(zhǎng)度差別較大的樣本分型[8,14]。

SSR標(biāo)記不適合進(jìn)行高通量測(cè)序,SNP標(biāo)記的分型多態(tài)性又太低,已有研究者嘗試開發(fā)既適用于高通量測(cè)序、又有適當(dāng)分型多態(tài)性的標(biāo)記。微單體型(micro-haplotype,MH)標(biāo)記是一段包含多個(gè)SNP位點(diǎn)的短片段序列,可以通過測(cè)序數(shù)據(jù)獲得,多態(tài)性較高,已用于草魚親子鑒定[15],顯示了較好的應(yīng)用前景。目前,對(duì)這類標(biāo)記的基因組分布情況、突變率和正確性等的研究尚處于開發(fā)前期。

2 全基因組標(biāo)記與表型性狀的關(guān)聯(lián)分析

2.1 分析技術(shù)

根據(jù)計(jì)算方式的不同,全基因組大量分子標(biāo)記與特定表型性狀的關(guān)聯(lián)分析可以分為2種類型:①對(duì)所有標(biāo)記逐一進(jìn)行獨(dú)立計(jì)算分析的單位點(diǎn)關(guān)聯(lián)分析技術(shù);②對(duì)所有標(biāo)記進(jìn)行整體求解的全位點(diǎn)整體分析技術(shù)。

單位點(diǎn)關(guān)聯(lián)分析技術(shù)研究單個(gè)標(biāo)記與性狀的關(guān)聯(lián)性,從而發(fā)掘效應(yīng)基因或位點(diǎn),在遺傳疾病研究和動(dòng)植物育種中被廣泛應(yīng)用。從目標(biāo)性狀來看,關(guān)聯(lián)分析可以分為質(zhì)量性狀座位(qualitative trait locus)關(guān)聯(lián)分析和數(shù)量性狀座位(quantitative trait locus,QTL)關(guān)聯(lián)分析2種類型,大多數(shù)經(jīng)濟(jì)性狀屬于數(shù)量性狀。從研究群體來看,這類研究又可以劃分為針對(duì)隨機(jī)群體的全基因組關(guān)聯(lián)分析(GWAS)和針對(duì)家系群體的全基因組連鎖分析(GWLA)。

數(shù)量遺傳學(xué)研究常基于不同環(huán)境和不同家系,對(duì)目標(biāo)表型的方差進(jìn)行拆分,計(jì)算可遺傳的基因型值,即育種值,然后分析該值對(duì)表型的影響程度,并據(jù)此確定個(gè)體種質(zhì)的優(yōu)劣,這是在育種中被廣泛采用的選育和分析技術(shù)。早期將一個(gè)親本當(dāng)作一個(gè)整體來研究,僅僅依靠不同代系、不同環(huán)境下大量相關(guān)個(gè)體的表型數(shù)據(jù)來計(jì)算親本的育種值,后來引入分子標(biāo)記能極大地增加基因型值計(jì)算的準(zhǔn)確度。2001年,Meuwissen等[16]又提出了基于隨機(jī)群體的基因組選擇(GS)育種,旨在將群體中所有的QTL都用于估計(jì)育種值,而并非依賴人為設(shè)定的閾值來界定中高貢獻(xiàn)度的QTL座位或其他特定的已知位點(diǎn)。該技術(shù)是全位點(diǎn)整體分析技術(shù),在牛[17]、豬[18]的育種中都取得了不俗的成績(jī)。

2.2 GWAS、GWLA和GS的主要區(qū)別

GWAS和GWLA都屬于單位點(diǎn)關(guān)聯(lián)分析技術(shù),GS則是全位點(diǎn)分析技術(shù)。它們都是首先在全基因組范圍內(nèi)建立分子標(biāo)記與表型性狀的關(guān)系,然后篩選出選擇育種的目標(biāo)個(gè)體或基因操作育種的分子靶標(biāo)(圖1)。GWAS與GWLA的主要差別在于適用群體和關(guān)聯(lián)算法的選擇。一般來說,GWAS是在隨機(jī)群體中利用哈迪溫伯格(Hardy-Weinberg,HW)平衡對(duì)標(biāo)記進(jìn)行過濾,再通過統(tǒng)計(jì)檢驗(yàn)計(jì)算標(biāo)記和表型相關(guān)的概率;GWLA則是利用家系所對(duì)應(yīng)的孟德爾分離比進(jìn)行標(biāo)記過濾,并計(jì)算待測(cè)標(biāo)記與表型連鎖的概率;GS在隨機(jī)群體和家系中均可計(jì)算基因組估計(jì)育種值(genomic estimated breeding value,GEBV),從而評(píng)估個(gè)體基因型對(duì)表型的貢獻(xiàn)度,只是對(duì)于家系數(shù)據(jù)而言,還需要引入親緣關(guān)系矩陣來計(jì)算家系的影響。

圖1 基于全基因組分析的魚類育種技術(shù)Fig.1 Technology of fish breeding based on whole genome analyses

對(duì)于單位點(diǎn)關(guān)聯(lián)分析而言,需要根據(jù)群體、性狀和標(biāo)記密度的特點(diǎn)選擇相適應(yīng)的算法。這些算法對(duì)于性狀關(guān)聯(lián)位點(diǎn)的判定大都依據(jù)相關(guān)統(tǒng)計(jì)量的閾值,而這種閾值的設(shè)定一般具有主觀性。雖然也有一些檢測(cè)閾值合理性的方法,比如置換檢驗(yàn)等,但單位點(diǎn)關(guān)聯(lián)分析往往只適合尋找關(guān)聯(lián)度較高的QTL位點(diǎn),低貢獻(xiàn)度的QTL容易被忽略。而有些數(shù)量性狀的表型是很多低貢獻(xiàn)度QTL位點(diǎn)疊加作用的結(jié)果,這無疑影響了該類方法在實(shí)際工作中的應(yīng)用。全位點(diǎn)分析方法雖然不存在這種困擾,但是大量標(biāo)記的引入導(dǎo)致無法精確求解,只能使用各種近似求解法,而這些方法的結(jié)果往往不一致。

3 全基因組標(biāo)記與表型性狀相關(guān)聯(lián)技術(shù)

3.1 單位點(diǎn)關(guān)聯(lián)分析技術(shù)

單位點(diǎn)關(guān)聯(lián)分析的目的在于檢測(cè)單個(gè)標(biāo)記是否與目標(biāo)性狀相關(guān)聯(lián),即基因型的不同是否會(huì)導(dǎo)致目標(biāo)性狀的改變。在實(shí)際應(yīng)用中,質(zhì)量性狀與數(shù)量性狀所適用的關(guān)聯(lián)分析算法不同。對(duì)于質(zhì)量性狀而言,根據(jù)性狀的表型可以將樣本分成不同的組別,從而檢查不同組別之間的基因型分布特征是否相同。以簡(jiǎn)單的二元質(zhì)量性狀(如某種疾病的有無)為例,在群體中某個(gè)具有3種基因型(AA、Aa和aa)的標(biāo)記,在對(duì)照組(control)中的樣本基因型AA:Aa:aa為1:2:1,假設(shè)處理組與對(duì)照組沒有差異,即零假設(shè)(H0)。那么,在由40個(gè)樣本組成的處理組(case)中這3種基因型的期望數(shù)目應(yīng)為10:20:10。若實(shí)際觀察值為24:12:4,經(jīng)卡方檢驗(yàn),P=0.006<0.01,說明處理組的觀察值極顯著地偏離了期望值,零假設(shè)不成立,因此可以認(rèn)為這個(gè)標(biāo)記與處理組的性狀相關(guān)聯(lián)。

對(duì)于數(shù)量性狀而言,表型值往往是連續(xù)變化的,一般不適合根據(jù)表型從群體中區(qū)分對(duì)照組和處理組,而是比較幾種基因型之間的表型數(shù)據(jù)分布是否存在差異。比較常見的做法是通過某種廣義線性模型(generalized linear model,GLM)或混合線性模型(mixed linear model,MLM)來評(píng)估包括基因型在內(nèi)的多種因素對(duì)表型的影響。以 MLM 模型(y=μ+αX+βZ+γW+e)為例,個(gè)體的表型值(y)被分解成5種成份:①μ為表型的總體均值;②αX表示一些固定效應(yīng)因子(如群體結(jié)構(gòu)、性別、年齡等)的影響;③βZ為基因型(Z)的遺傳標(biāo)記效應(yīng),一般作為固定效應(yīng),也有人認(rèn)為作為隨機(jī)效應(yīng)更為恰當(dāng)[19];④γW一般指?jìng)€(gè)體親緣關(guān)系的影響,是隨機(jī)效應(yīng);⑤e是環(huán)境因素帶來的隨機(jī)誤差。通過回歸分析可得到β的估計(jì)值,以該值的大小和統(tǒng)計(jì)顯著性來判定一個(gè)標(biāo)記是否與某種表型存在直接的關(guān)聯(lián)性。

3.2 全位點(diǎn)整體分析技術(shù)

分子遺傳學(xué)往往關(guān)注與性狀相關(guān)的單個(gè)或多個(gè)分子位點(diǎn),而數(shù)量遺傳學(xué)最初是將每個(gè)親本作為一個(gè)整體來研究相關(guān)個(gè)體和表型數(shù)據(jù)的關(guān)系,并通過遺傳方差的分解,解析目標(biāo)性狀在代系傳遞中的規(guī)律。作為全位點(diǎn)整體分析技術(shù)的主要代表,GS育種延續(xù)了這一思路,并以全基因組標(biāo)記來代替?zhèn)€體樣本。GS育種一般需要通過1個(gè)訓(xùn)練樣本集來估計(jì)方程參數(shù),再利用方程計(jì)算測(cè)試樣本集中各個(gè)待測(cè)樣本的育種值,最后根據(jù)育種值篩選合適的樣本作為優(yōu)良種質(zhì)進(jìn)行培育。

在訓(xùn)練集中,以所有樣本的全基因組標(biāo)記位點(diǎn)為自變量,以樣本的目標(biāo)表型為因變量,用于構(gòu)建方程。假設(shè)有n個(gè)標(biāo)記位點(diǎn),構(gòu)建模型為y= ∑aixi+ε,其中,y為表型值,xi代表第i個(gè)標(biāo)記位點(diǎn),ε為隨機(jī)誤差而ai是需要估計(jì)的參數(shù)。將訓(xùn)練集中所有樣本的表型值以及基因型值帶入方程中用來估計(jì)ai。這種方法所面臨的問題是標(biāo)記位點(diǎn)數(shù)目龐大而檢測(cè)樣本的數(shù)目相對(duì)較少,即自變量數(shù)目遠(yuǎn)大于因變量數(shù)目,自由度不夠,造成參數(shù)估計(jì)因難。針對(duì)上述問題常用的解決方法是將SNP效應(yīng)當(dāng)作隨機(jī)效應(yīng),再用最小二乘法、GBLUP、BayesA和BayesB以及一些衍生方案,其中以BayesB模型的效果較好[16-20]。

4 全基因組分析技術(shù)在魚類育種中的應(yīng)用

4.1 GWAS技術(shù)在魚類育種中的應(yīng)用

4.1.1 GWAS分析過程 GWAS是針對(duì)隨機(jī)群體而設(shè)計(jì)的關(guān)聯(lián)分析,最初應(yīng)用于人類疾病相關(guān)基因位點(diǎn)的分析[21-23]。經(jīng)濟(jì)魚種類繁多,許多魚都還處于未經(jīng)人工選育的階段,這類魚的野生群體通常也可以看作一個(gè)隨機(jī)群體。單純從技術(shù)角度來看,GWAS的應(yīng)用比較簡(jiǎn)單。在群體中隨機(jī)選擇樣本之后,通過測(cè)序或基因芯片獲得個(gè)體的標(biāo)記分型,然后通過各種統(tǒng)計(jì)檢驗(yàn)來評(píng)估各個(gè)標(biāo)記與表型之間的關(guān)聯(lián)性,包括以下步驟。

①標(biāo)記預(yù)處理。一般會(huì)從檢出率、最小等位基因頻率 (minor allele frequency,MAF)、HW 平衡3個(gè)方面對(duì)標(biāo)記進(jìn)行篩選,過濾不可靠的標(biāo)記。檢出率即檢測(cè)到該標(biāo)記的樣本比例,較低的標(biāo)記需過濾掉;MAF較低的標(biāo)記是測(cè)序錯(cuò)誤導(dǎo)致的;不符合HW平衡的標(biāo)記一般需要摒棄。

②群體分層檢測(cè)。所謂群體分層,是指采用的隨機(jī)群體樣本中包含1個(gè)或多個(gè)近緣小群體。如果采樣群體由幾個(gè)家系組成,各家系小群體之間的一般性基因組差異很容易被判定為高關(guān)聯(lián)的位點(diǎn),嚴(yán)重影響GWAS結(jié)果的準(zhǔn)確性。為了判斷群體是否分層,可以對(duì)所有樣本的二態(tài)性標(biāo)記進(jìn)行主成分分析(principal component analysis,PCA)[24],觀察樣本的聚類情況,若樣本出現(xiàn)明顯的聚類,則表明存在群體分層,需要去除分層樣本,或?qū)⒎謱尤后w屬性也作為變量納入計(jì)算。

③位點(diǎn)與性狀相關(guān)性分析。分析算法的選擇與研究的具體情況,尤其是性狀類型相關(guān)??偟膩碚f,質(zhì)量性狀一般選用卡方檢驗(yàn),計(jì)算處理組是否偏離了預(yù)期值;而數(shù)量性狀可選用廣義線性模型,檢驗(yàn)不同基因型個(gè)體的表型值是否遵從相同分布。對(duì)于一些特殊的應(yīng)用場(chǎng)景,比如處理組與對(duì)照組數(shù)據(jù)嚴(yán)重不平衡的情況下,還需要采用其他模型[25]。經(jīng)過以上計(jì)算獲得GWAS的原始結(jié)果,包括用于評(píng)價(jià)單個(gè)標(biāo)記與性狀相關(guān)聯(lián)與否的P值,一般來說,P值越小,位點(diǎn)與性狀的相關(guān)性越高。

4.1.2 GWAS的相關(guān)問題 由于P值大小受樣本的性狀、數(shù)目及個(gè)別樣本分型的缺失和錯(cuò)誤等的影響,對(duì)于GWAS分析的結(jié)果還應(yīng)當(dāng)盡量通過標(biāo)記的連鎖不平衡(linkage disequilibrium,LD)、標(biāo)記相關(guān)的基因功能注釋信息或擴(kuò)大群體樣本量加以驗(yàn)證,才能形成較為可靠的結(jié)論。假設(shè)有3個(gè)SNP位點(diǎn)在所有樣本中都呈現(xiàn)緊密連鎖狀態(tài),即完全的LD。由于技術(shù)的原因,其中1個(gè)標(biāo)記在某些樣本上的分型可能缺失,而另1個(gè)標(biāo)記在某些樣本上分型錯(cuò)誤,最后1個(gè)標(biāo)記既無缺失也無錯(cuò)誤,這將導(dǎo)致P值本該完全相同的這3個(gè)SNP標(biāo)記最終P值都不相同,甚至差距較大。更糟糕的是,如果P值最小的標(biāo)記是由于分型錯(cuò)誤而產(chǎn)生,再將其作為最終的效應(yīng)位點(diǎn)會(huì)得出錯(cuò)誤的結(jié)論。

為了解決上述問題,可以在全基因組范圍查找狀態(tài)同源(identical by state,IBS)區(qū)域,以代替單個(gè)SNP位點(diǎn),同一IBS區(qū)域下的SNP呈完全LD。尋找IBS的簡(jiǎn)單方法是計(jì)算所有標(biāo)記兩兩間的LD值(如D’或r2),設(shè)定LD閾值來定義高相關(guān)的標(biāo)記群,并將這種標(biāo)記集合定義為1個(gè)IBS。這種方法計(jì)算量很大,100萬個(gè)SNP位點(diǎn)需要計(jì)算近5×1011個(gè)LD值。因此在實(shí)際操作中,一般沿著基因組序列的順序計(jì)算某一區(qū)域內(nèi)標(biāo)記之間的LD值,然后繪制LD值與標(biāo)記間距的曲線,確定LD閾值,用于定義IBS區(qū)域[26-27]。這種處理方法對(duì)基因組的正確性,尤其是SNP位點(diǎn)在基因組上排序的正確性要求較高。所有的上述步驟都有相應(yīng)的軟件可使用,GWAS常用的軟件有PLINK[28-29]等。

4.2 GWLA技術(shù)在魚類育種中的應(yīng)用

4.2.1 GWLA分析過程 GWLA基于家系群體計(jì)算標(biāo)記與性狀連鎖的概率,一般需要先構(gòu)建合適的家系群體,獲得親本和大量子代(≥100尾)的全基因組SNP分型矩陣,構(gòu)建遺傳連鎖圖譜(連鎖圖),最后基于連鎖圖來進(jìn)行QTL定位。

養(yǎng)殖魚類通常是體外受精且產(chǎn)卵量大,僅靠一對(duì)親本就可以一次性產(chǎn)生大量的后代,能夠方便地構(gòu)建家系群體。然而,其代系周期較長(zhǎng),不易獲得純系,難以像作物那樣構(gòu)建回交(back cross,BC)、F2和RIL等近交系(inbreeding)群體,所以對(duì)經(jīng)濟(jì)魚類開展GWLA研究時(shí),往往直接使用兩尾雜合親魚直接構(gòu)建子一代家系,即遠(yuǎn)交系(outbreeding)群體。

從理論上來說,參考基因組是非常精細(xì)的物理圖譜,可以用于QTL定位。然而,現(xiàn)有大多數(shù)魚類參考基因組的質(zhì)量達(dá)不到GWLA的要求,一些組裝錯(cuò)誤妨礙了它們的應(yīng)用,尤其是當(dāng)SNP的順序存在問題時(shí),會(huì)導(dǎo)致QTL估計(jì)出錯(cuò)。相反,連鎖圖能提供更可靠的標(biāo)記順序框架來輔助QTL定位。盡管作物中較為成熟的各類GWLA方法和軟件大多基于近交群體,但不能直接用于魚類的遠(yuǎn)交系群體,目前也有少數(shù)為遠(yuǎn)交群體設(shè)計(jì)的連鎖圖構(gòu)建軟件,較為常用的有JoinMap[30]和OneMap[31-32]。

與GWAS類似,GWLA的QTL定位也是檢驗(yàn)表型與單個(gè)標(biāo)記的基因型之間是否存在相關(guān)性,常用的統(tǒng)計(jì)量是LOD。若僅檢測(cè)單個(gè)標(biāo)記和性狀之間的關(guān)聯(lián),在有參考基因組的情況下,連鎖圖存在與否對(duì)最終單個(gè)標(biāo)記的P值影響很小,計(jì)算P值的統(tǒng)計(jì)方法和GWAS也很類似。因此,在許多高密度遺傳圖譜與QTL定位研究中,如果同時(shí)進(jìn)行QTL定位和GWLA分析,一般能取得很好的一致性[33]。但是在實(shí)際過程中,如果分子標(biāo)記不夠密集,則QTL可能被定位在2個(gè)遺傳距離不緊臨的標(biāo)記的間區(qū)。計(jì)算這類QTL就需要利用區(qū)間作圖或復(fù)合區(qū)間作圖[34]等方法獲得連鎖圖。目前常用的QTL定位軟件有MapQTL[35]和R/qtl[36-37]。

4.2.2 GWLA的相關(guān)問題 魚類GWLA面臨的問題主要為連鎖圖的構(gòu)建。連鎖相可以輔助計(jì)算2個(gè)標(biāo)記的遺傳距離,但遠(yuǎn)交系群體標(biāo)記間的連鎖相是未知的。從分子層面來看,遠(yuǎn)交系群體全基因組所有的SNP標(biāo)記可以看作是“假測(cè)交”類標(biāo)記(一個(gè)親本純合,另一個(gè)親本雜合)和雙雜合標(biāo)記(ab×ab)的混合。未知連鎖相對(duì)“假測(cè)交”類標(biāo)記影響不大,但對(duì)于雙雜合的標(biāo)記而言,只能通過統(tǒng)計(jì)推斷來判斷標(biāo)記間可能的遺傳距離。連鎖圖的構(gòu)建就是基于標(biāo)記間的遺傳距離矩陣尋找權(quán)重最小路徑,以便將所有標(biāo)記串聯(lián)起來,這一過程是計(jì)算機(jī)算法中著名的“郵遞員問題”,只能利用各種統(tǒng)計(jì)模型或算法進(jìn)行近似求解[38]。由此可見,遠(yuǎn)交系的數(shù)據(jù)需要經(jīng)過標(biāo)記距離和標(biāo)記順序2步近似求解,嚴(yán)重降低了連鎖圖的準(zhǔn)確性。

如果從一對(duì)親本魚的全基因組中篩選出所有雙純合的分子標(biāo)記(aa×bb),其家系可視為近交系群體,就可以使用現(xiàn)有的作物遺傳分析軟件,基于這些標(biāo)記在F2代、BC子代等群體中的基因型表現(xiàn)來定位QTL,即在標(biāo)記層面構(gòu)建“假近交系”。在該情況下,所篩選標(biāo)記的連鎖相是已知的,常用的作物分析軟件或流程皆可使用,但必需放棄大量非純合的分子標(biāo)記,甚至是效應(yīng)位點(diǎn),這無疑會(huì)影響最終結(jié)果的準(zhǔn)確性和完整性。

4.3 GS技術(shù)在魚類育種中的應(yīng)用

4.3.1 GS分析過程 GS分析利用全基因組的SNP位點(diǎn)來估計(jì)個(gè)體的育種值,最早應(yīng)用于畜牧業(yè)中。GS分析首先構(gòu)建并訓(xùn)練預(yù)測(cè)方程,然后使用預(yù)測(cè)方程計(jì)算待測(cè)樣本的育種值。預(yù)測(cè)方程的訓(xùn)練過程需要獲得訓(xùn)練樣本的目標(biāo)表型數(shù)據(jù)以及全基因組的SNP位點(diǎn)分型矩陣。在后期獲得測(cè)試樣本的目標(biāo)表型值之后,也可將待測(cè)樣本再納入訓(xùn)練集進(jìn)行預(yù)測(cè)方程的再優(yōu)化,為后續(xù)的魚種選育提供更精準(zhǔn)的預(yù)測(cè)。該步驟是GS育種的關(guān)鍵,好的預(yù)測(cè)方程能在測(cè)試樣本中獲得更為精準(zhǔn)的育種值,而育種值正是選擇育種的依據(jù),據(jù)此可以選擇合適的樣本作為親本進(jìn)行培育。

4.3.2 GS的相關(guān)問題 訓(xùn)練樣本集可以來源于隨機(jī)群體或家系群體。選擇隨機(jī)群體時(shí),對(duì)GWAS產(chǎn)生負(fù)面影響的因素也同樣會(huì)降低GS算法的準(zhǔn)確性,比如群體分層和標(biāo)記的分型錯(cuò)誤或缺失,應(yīng)在計(jì)算模型中納入親緣關(guān)系矩陣和利用多SNP的IBS來降低相應(yīng)的負(fù)面影響[39]。相比之下,家系群體更具優(yōu)越性,在家系中育種值計(jì)算的準(zhǔn)確度遠(yuǎn)高于隨機(jī)群體[40-41],盡管家系群體性狀表型的豐富程度一般低于隨機(jī)群體。無論哪種群體,育種值的準(zhǔn)確度都會(huì)隨著目標(biāo)性狀遺傳力的降低而降低,而隨著訓(xùn)練集樣本數(shù)目的增多而上升[40-41]??偟膩碚f,具有真實(shí)效應(yīng)的QTL位點(diǎn)在所使用的全部位點(diǎn)中的占比以及這些效應(yīng)位點(diǎn)在訓(xùn)練集和測(cè)試集樣本中分型的準(zhǔn)確性決定了GS分析結(jié)果的準(zhǔn)確度。因此,研究人員嘗試通過GWAS來盡可能的尋找效應(yīng)QTL位點(diǎn),減少噪音自變量,從而提高GS的準(zhǔn)確度[42-43]。然而這樣容易漏掉許多低效力的QTL位點(diǎn),與設(shè)計(jì)GS的初衷相悖。

魚類的GS研究一般使用隨機(jī)群體[43-44],可用軟件較多,如 ASREML(http://www.vsni.co.uk/software/asreml)或 DMU(http://dmu.ghpc.au.dk/dmu/),魚類育種研究者也在探索更為精準(zhǔn)的全基因組育種值估計(jì)方法[44-45]。對(duì)于魚類家系,尤其是遠(yuǎn)交家系,目前尚無相應(yīng)的GS分析軟件和流程。

5 全基因組育種技術(shù)存在的問題和建議

單位點(diǎn)關(guān)聯(lián)分析與整體關(guān)聯(lián)技術(shù)本質(zhì)上并不存在群體選擇的差異性。雖然水產(chǎn)育種研究中GWLA使用較多[46],但技術(shù)的選擇完全取決于研究目的。若是為了獲得候選的基因及其單體型,單位點(diǎn)關(guān)聯(lián)分析技術(shù)是首選,所獲得的基因和單體型可以結(jié)合分子標(biāo)記輔助選擇(molecularmarker assisted selection,MAS)育種或者基因編輯技術(shù)來加快育種進(jìn)程;如果需要從大量的子代群體中尋找合適的后備親本,則GS更為恰當(dāng)。

需要注意的是,從目前的實(shí)踐來看,無論是關(guān)聯(lián)分析找到的SNP位點(diǎn)還是GS構(gòu)建的育種值計(jì)算方程,都僅適用于相近的群體,即訓(xùn)練集來源于待測(cè)試集,或者兩者間存在緊密關(guān)系。如果跨群體使用,效果都欠佳,這一點(diǎn)GS表現(xiàn)尤其明顯,這可能是由于在分析過程中都僅考慮了可以穩(wěn)定遺傳的加性效應(yīng),而沒有將上位效應(yīng)等其他基因互作納入計(jì)算?,F(xiàn)實(shí)中生物體基因的互作復(fù)雜程度遠(yuǎn)超現(xiàn)有研究,如何解決這類問題也是遺傳研究者們的研究方向之一。

6 結(jié)語

顛覆性的技術(shù)必然會(huì)帶來相關(guān)行業(yè)與相關(guān)技術(shù)的革新,高通量測(cè)序技術(shù)的普及為生物學(xué)各研究領(lǐng)域都注入了新的活力。隨著各種經(jīng)濟(jì)魚類基因組的測(cè)序完成,魚類育種技術(shù)也在悄然發(fā)生變化,魚創(chuàng)新品種選育工作正在跨入一個(gè)新的時(shí)代。比如與高通量測(cè)序相結(jié)合的液相芯片技術(shù)和多重PCR技術(shù),可以一次性實(shí)現(xiàn)對(duì)大量樣本多個(gè)靶向位點(diǎn)的測(cè)序,直接通過軟件分析獲得結(jié)果,而不需要人工解讀電泳圖,因此速度快、效率高,極大地節(jié)省了人力、物力資源。在靶向位點(diǎn)已經(jīng)確定的情況下,這一技術(shù)可廣泛地應(yīng)用于物種遺傳多樣性檢測(cè)、品種/品系鑒定、家系與親緣關(guān)系分析乃至分子標(biāo)記輔助育種,尤其適用于成千上萬甚至更高數(shù)量級(jí)樣本的高通量檢測(cè)。毫無疑問,高通量測(cè)序?qū)⑹沟酶鞣N魚類不同性狀的分子標(biāo)記或QTL鑒定越來越普遍。隨著各類分子標(biāo)記與位點(diǎn)的逐步發(fā)掘,收錄這類分子信息的魚類育種數(shù)據(jù)庫(kù)也將出現(xiàn),將分散的零碎信息集中起來。這類信息平臺(tái)的充實(shí)和完善將進(jìn)一步方便全基因組水平的遺傳分析,使研究人員有可能為特定性狀篩選出強(qiáng)相關(guān)的分子模塊或標(biāo)記,以少量標(biāo)記實(shí)現(xiàn)對(duì)候選親魚的大規(guī)模篩查,從而大大縮短育種周期,加快經(jīng)濟(jì)魚類的育種進(jìn)程。在這個(gè)過程中,如何借鑒其他物種經(jīng)驗(yàn)盡快開發(fā)出真正適合魚類特點(diǎn)的整套基因組育種分析技術(shù),同時(shí)搭建和維護(hù)各種經(jīng)濟(jì)魚類的分子信息綜合平臺(tái),值得魚類遺傳學(xué)研究者思考和努力。

猜你喜歡
表型位點(diǎn)測(cè)序
Pd改性多活性位點(diǎn)催化劑NH3-SCR脫硝反應(yīng)機(jī)理研究
多環(huán)境下玉米保綠相關(guān)性狀遺傳位點(diǎn)的挖掘
基于衰老相關(guān)分泌表型理論探討老年慢性阻塞性肺疾病患者衰弱發(fā)生機(jī)制
新一代高通量二代測(cè)序技術(shù)診斷耐藥結(jié)核病的臨床意義
宏基因組測(cè)序輔助診斷原發(fā)性肺隱球菌
生物測(cè)序走在前
探訪“人類表型組”
表型組研究:中國(guó)后發(fā)先至
相信科學(xué)!DNA追兇是如何實(shí)現(xiàn)的?
作物表型組學(xué)和高通量表型技術(shù)最新進(jìn)展(2020.2.2 Plant Biotechnology Journal)
连云港市| 五原县| 清徐县| 南昌市| 灌南县| 普洱| 台州市| 阜康市| 兴化市| 宕昌县| 泰宁县| 蓬安县| 罗城| 赤峰市| 海盐县| 贞丰县| 湟源县| 教育| 读书| 车险| 晋州市| 收藏| 横山县| 兴文县| 萝北县| 察隅县| 桂东县| 定南县| 黎城县| 南溪县| 敖汉旗| 通城县| 齐齐哈尔市| 深泽县| 永丰县| 洱源县| 安远县| 宁陵县| 彭泽县| 济源市| 菏泽市|