包振民,王明玲,李 艷,張玲玲,胡曉麗,黃曉婷,胡景杰,王 師
(中國海洋大學(xué)海洋生命學(xué)院海洋生物遺傳育種教育部重點實驗室,山東青島266003)
基于核基因組標(biāo)記的群體遺傳學(xué)研究中的數(shù)學(xué)分析方法*
包振民,王明玲,李 艷,張玲玲,胡曉麗,黃曉婷,胡景杰,王 師
(中國海洋大學(xué)海洋生命學(xué)院海洋生物遺傳育種教育部重點實驗室,山東青島266003)
近些年來,各種數(shù)學(xué)分析方法被廣泛的應(yīng)用于群體遺傳學(xué)的研究中。然而,對這些數(shù)學(xué)分析方法的應(yīng)用缺乏統(tǒng)一的認(rèn)識,某些研究甚至存在著誤用、亂用等現(xiàn)象。對近些年來基于核基因組標(biāo)記的群體遺傳學(xué)研究中主要采用的數(shù)學(xué)分析方法進(jìn)行了系統(tǒng)的歸納整理,明晰了它們的適用條件和范圍。同時,也綜述了顯性分子標(biāo)記中對隱性等位基因頻率估算的研究進(jìn)展以及常用的群體遺傳學(xué)分析軟件包含的主要數(shù)學(xué)分析方法,對合理應(yīng)用這些參數(shù)和軟件進(jìn)行群體遺傳學(xué)分析具有指導(dǎo)意義。
群體;分子標(biāo)記;數(shù)學(xué)分析方法;隱性等位基因頻率
生物群體內(nèi)或群體間的動態(tài)變化規(guī)律是群體遺傳學(xué)研究的核心內(nèi)容。傳統(tǒng)的群體遺傳學(xué)研究主要采用野外調(diào)查和形態(tài)標(biāo)記等手段,但往往難以克服野外調(diào)查周期長、分辨率有限及環(huán)境條件難以控制等問題。分子標(biāo)記技術(shù)的出現(xiàn),有效地克服了傳統(tǒng)研究手段的缺陷,迅速成為群體遺傳學(xué)研究的主要手段。隨著群體遺傳學(xué)研究的深入,眾多針對分子標(biāo)記的數(shù)學(xué)分析方法被發(fā)展出來以用于解析生物群體內(nèi)或群體間的動態(tài)變化規(guī)律,例如等位基因數(shù)目(Number of alleles)[1]、雜合度(Heterozygosity)[2]、有效群體大?。‥ffective population size)[3-10]、Hardy-Weinberg平衡(Hardy-Weinberg Equilibrium)[11-12]、遺傳距離(Genetic distance)[13-16]和基因流(Gene flow)[17-23]等。對這些數(shù)學(xué)分析方法的應(yīng)用,國內(nèi)研究尚缺乏統(tǒng)一性認(rèn)識,某些研究甚至存在著誤用、亂用等現(xiàn)象。但迄今為止,尚未見有研究對這些數(shù)學(xué)分析方法進(jìn)行系統(tǒng)的歸納整理。
本文綜述了近年來基于核基因組標(biāo)記的群體遺傳學(xué)研究中主要采用的數(shù)學(xué)分析方法,重點對這些方法進(jìn)行系統(tǒng)的歸納整理,以明晰它們的適用條件和范圍。同時,也對顯性分子標(biāo)記中隱性等位基因頻率的估算的研究進(jìn)展以及常用的群體遺傳學(xué)分析軟件包含的主要數(shù)學(xué)分析方法進(jìn)行了歸納整理。
對群體遺傳學(xué)分析中常用的數(shù)學(xué)分析方法的歸類見表1。首先,根據(jù)數(shù)學(xué)分析方法分析的是群體的遺傳規(guī)律還是群體的變異規(guī)律,將其分為兩大類。其次,將分析群體變異規(guī)律的數(shù)學(xué)分析方法進(jìn)一步分為群體內(nèi)遺傳多樣性和群體間遺傳分化2類。
表1 群體遺傳學(xué)分析中常用的數(shù)學(xué)分析方法Table 1 Mathematic analysis methods for the research of population genetics
1.1.1 Hardy-Weinberg平衡 Hardy-Weinberg定律是1908年由英國學(xué)者Hardy和德國學(xué)者Weinberg各自獨立提出的關(guān)于群體內(nèi)基因頻率和基因型頻率變化的規(guī)律。其中心內(nèi)容是:在隨機交配的大群體內(nèi),若沒有突變、選擇、漂變或遷移因素的作用,則基因頻率和基因型頻率將在世代間保持恒定。符合上述條件的群體即為H-W平衡群體。
1.1.1.1 H-W平衡群體的檢驗 H-W平衡群體的檢驗通常主要采用卡方檢驗(χ2test)、似然比檢驗(Likelihood ratio test)或精確檢驗(Exact test)來判別實測的基因型頻率與理論推斷數(shù)值是否相符合,從而確定該群體是否處于平衡狀態(tài)??ǚ綑z驗和似然比檢驗為過去的研究中所主要采用,但由于經(jīng)常存在1個或多個基因型有低的期望值,而使這2種檢驗可能會得出不可靠的結(jié)果。1個常用的解決方法就是采用合并策略,如:分成純合子和雜合子。但合并的策略會導(dǎo)致某些信息的丟失?;谶@個原因,精確檢驗被認(rèn)為更為適合于檢驗H-W平衡群體[22]。對1個位點存在2種以上等位形式的情況,Guo和Thompson[23]提出了2個方法應(yīng)用于精確檢驗:蒙特卡羅法(Monte Carlo method)和馬爾科夫鏈法(Markov Chain method)。通常,蒙特卡羅法對小數(shù)據(jù)集(每位點含少于50~75個觀測值)運算速度更快;而馬爾科夫鏈法對大數(shù)據(jù)集可得到更好的運算結(jié)果。
1.1.1.2 Wright固定指數(shù) Wright固定指數(shù)(F)用于檢驗群體實際觀測雜合度與理論期望雜合度的偏離程度及原因。其計算公式為[24]:
式中:Ho為實際觀測雜合度,He為理論期望雜合度。當(dāng)F=0時,群體符合H-W平衡;當(dāng)F<0時,群體實際雜合度超過期望雜合度;當(dāng)F>0時,群體實際雜合度低于期望雜合度。
1.1.2 有效群體大小 在實際群體內(nèi),并不是所有個體都能同等地參加繁殖過程。實際群體所具有的相當(dāng)于理想群體繁育個體數(shù)目的個體數(shù)稱為有效群體大小。預(yù)測實際群體的有效群體大小主要應(yīng)用于群體遺傳保護(hù)方面(如種質(zhì)資源庫的建立、群體衰退的鑒定等)。直接估測有效群體大小是非常困難的,尤其是對于自然種群,因為這涉及一些參數(shù)的測定,如不同個體存活力和繁殖率的測定等。為了解決這個問題,一些間接估測有效種群大小的方法已被發(fā)展。這些方法主要基于:
①等位基因頻率的時序變化
其基本原理:通過分析群體經(jīng)過t世代后等位基因頻率的時序變化,來計算有效群體大小。其計算公式為[1]:
式中:t為世代數(shù)目;S0和St分別為0世代和t世代取樣個體數(shù)目;F為Fk相對各位點的平均值。Fk可由下面3式之一得出:
盡管Waples和Teel[5]通過修正使得2次取樣間隔可在一代之內(nèi),但該方法仍需要2次取樣樣品。
②連鎖不平衡
其基本原理:通過分析群體連鎖不平衡的情況,來計算有效群體大小。其計算公式為[6]:
式中:S為樣本大?。籶、q分別為位點1等位基因A和位點2等位基因B的頻率;D為連鎖不平衡的度量值。該方法缺點:當(dāng)樣品的分析位點數(shù)目較少時,易產(chǎn)生較大誤差。
③雜合子過剩
其基本原理:基于小數(shù)目的親本產(chǎn)生F1子代,會出現(xiàn)暫時的雜合子過?,F(xiàn)象,根據(jù)這種現(xiàn)象即可計算建立者群體大小。其計算公式為[7]:
式中:Ho為實際觀測雜合度,He為理論期望雜合度。
④等位基因數(shù)目的減少
其基本原理:剛經(jīng)歷過瓶頸(Bottleneck)的群體,與經(jīng)歷瓶頸前群體(即Control群體)相比,其等位基因數(shù)目會相應(yīng)地減少,根據(jù)減少的等位基因數(shù)目,即可推斷出群體的有效大小。其計算公式為[8]:
式中:C和k可由SAS軟件nlin過程進(jìn)行估算。
1.1.3 連鎖不平衡 群體中2個或2個以上位點等位基因非隨機關(guān)聯(lián)現(xiàn)象稱為連鎖不平衡或配子相不平衡。產(chǎn)生連鎖不平衡的原因主要有:①被考察的群體來源于具有等位基因A、a和B、b不同頻率的2個群體,這2個亞群體混合的時間不足以產(chǎn)生完全的隨機化;②位于同一條染色體上的2個突變體距離較近,二者之間未經(jīng)足夠的世代,通過重組來分離;③某些基因座的等位基因組合有選擇優(yōu)勢而維持較高頻率。
衡量位點間連鎖不平衡的統(tǒng)計量有很多,最常見的是r2和D′。二者的基本組分是度量觀測單倍型頻率與期望單倍型頻率的差異(Dab)。
式中:πAB為單倍型AB的頻率;πA、πB為位點A和B的頻率
①r2
其計算公式為[25]:
②D′
其計算公式為[26]:
這里,r2著重的是對突變和重組的估計;D′著重的僅是對重組的估計,因而對重組差異的估計更為精確[27]。但是在小樣品或低等位基因頻率時,r2和D′的估計都不甚理想。
1.2.1 群體內(nèi)遺傳多樣性
1.2.1.1 等位基因數(shù)目與有效等位基因數(shù)目 等位基
因數(shù)目即群體內(nèi)某位點全部的等位基因總數(shù),其是衡量群體內(nèi)遺傳多樣性的一個最基本指標(biāo)。有效等位基因數(shù)目(Ae)即可維持在有限群體中的等位基因數(shù)目[9]。
式中:Pi為等位基因i的頻率。相比而言,有效等位基因數(shù)目在衡量群體內(nèi)遺傳多樣性方面有著更為廣泛的應(yīng)用。
1.2.1.2 多態(tài)位點比率 多態(tài)位點比率即具有2個或2個以上等位基因的位點占全部位點的百分率。它是1個相對籠統(tǒng)的衡量群體內(nèi)遺傳多樣性的指標(biāo)。通常以群體內(nèi)某位點最高等位基因頻率小于某個域值時,作為多態(tài)性位點的判斷標(biāo)準(zhǔn)。如對同工酶來說,域值為0.95;而對微衛(wèi)星而言,域值定為0.99比較合適。
1.2.1.3 香農(nóng)多樣性指數(shù) 香農(nóng)多樣性指數(shù)主要基于數(shù)學(xué)角度同時考慮等位基因數(shù)目與豐度來衡量群體的遺傳多樣性,其應(yīng)用較為廣泛。其公式為[28]:
Sheldon[29]修正的香農(nóng)多樣性指數(shù)可以消除不同群體間樣本大小對多樣性指數(shù)的影響。其公式為:
以上式中:Pi為等位基因i在群體中出現(xiàn)的頻率;N為群體樣本大小。
1.2.1.4 雜合度 雜合度即群體內(nèi)雜合子個體數(shù)占全部個體數(shù)的比例,主要基于遺傳角度來衡量群體內(nèi)遺傳多樣性水平。對所有位點的雜合度求平均即為觀測雜合度(Ho);期望雜合度(He)是基于等位基因頻率從Hardy-Weinberg平衡公式計算得到。平均期望雜合度又稱為Nei基因多樣度(He)。其計算公式為[10]:
式中:n為位點總數(shù);hi為第i個位點的雜合度,xj為第j個等位基因的頻率。
觀測雜合度在應(yīng)用于衡量群體內(nèi)遺傳多樣性時,有時存在問題(如:對某個標(biāo)記位點,若群體所有個體的基因型都為AA或aa,則Ho=0,但He卻不為0),所以,期望雜合度應(yīng)用得更為廣泛。但期望雜合度的計算需假設(shè)群體符合H-W平衡,若群體嚴(yán)重偏離HW平衡,則須采用其它指標(biāo)(如香農(nóng)多樣性指數(shù))來衡量群體內(nèi)遺傳多樣性。
1.2.2 群體間遺傳分化
1.2.2.1 FST和GSTFST又稱為近交系數(shù),是進(jìn)行群體間遺傳分化概括分析最常用的方法之一。FST指示特定基因座位在群體間的分化程度[30]。FST的計算主要采用如下2種方法:
①基于基因頻率方差
其計算公式為:
式中:p為某等位基因在整個群體中的頻率,其方差為Var(p)
②基于雜合度
其計算公式為:
式中:HS為多個亞群體內(nèi)期望雜合度的平均值;HT為整個群體的期望雜合度。
但Wright的FST在實際應(yīng)用中存在一些問題,如該模型是由共顯性雙等位基因位點推導(dǎo)而來、等級結(jié)構(gòu)較少等。因此不同學(xué)者又在Wright的FST基礎(chǔ)之上建立或完善了與之相關(guān)的各種參數(shù)。
當(dāng)分析群體間在許多基因座位上的平均分化程度時,可以計算GST[31-32]。其計算公式為:
式中:H′T為整個群體的平均雜合度;H′S為亞群體內(nèi)平均雜合度。
1.2.2.2 AMOVA Excoffier等[33]發(fā)展了1種分子方差分析(Analysis of Molecular Variance,AMOVA)方法。該方法通過估計單倍型或基因型之間的進(jìn)化距離,進(jìn)行遺傳變異的等級剖分,并提出了與FST類似的ΦST來度量亞群體間的分化。AMOVA方法適用于所有類型的遺傳學(xué)數(shù)據(jù),可以在不需要假設(shè)的情況下直接對顯性標(biāo)記數(shù)據(jù)進(jìn)行分析,加上相應(yīng)分析軟件WINAMOVA[34]的應(yīng)用,使得各種單倍型和顯性標(biāo)記數(shù)據(jù)在群體遺傳結(jié)構(gòu)研究中得到了廣泛的應(yīng)用。
該方法的基本原理[35]:假定在1組或多組群體中,第k組第j個群體的第i個單倍型(或基因型)的xijk頻率向量可用一個線型可加模型假定:
式中:x是在整個研究中xijk的未知期望值,a是組(或地區(qū))的效應(yīng),b是群體的效應(yīng),c是群體內(nèi)單倍型(或基因型)的效應(yīng)。這3個效應(yīng)具可加性、隨機性、獨立性,且分別具方差通過等級剖分計算組間、組內(nèi)/群體間、群體內(nèi)方差組分的期望值,分別計算各個等級對總遺傳變異的貢獻(xiàn)率。相應(yīng)的ΦST由以下公式計算:
式中:ΦST、ΦCT、ΦSC分別反映群體間、組間、群體內(nèi)的遺傳分化。
1.2.2.3遺傳距離 遺傳距離是用來對群體間遺傳分化程度進(jìn)行量化分析的指標(biāo)。目前,關(guān)于遺傳距離的統(tǒng)計方法眾多,這里主要介紹較為常用的Nei遺傳距離(基于基因頻率)和Jaccard遺傳距離(基于基因型頻率),以及基于逐步突變模型的ASD和(δu)2。
①Nei遺傳距離
Nei遺傳距離是基于無限基因突變模型的應(yīng)用最廣泛的距離測度。該模型假定每次突變產(chǎn)生1種新的當(dāng)前種群不存在的等位基因。這就意味著如果2個等位基因相同,則沒有突變發(fā)生;如果2個等位基因不同,則至少發(fā)生1次突變,但不清楚這種情況下突變發(fā)生的具體次數(shù)。突變的分布服從泊松(Poisson)分布。
如果基因的替換速率對于所有位點都相同,其表達(dá)式為:
式中:p為某位點某等位基因在群體x中的頻率;q為某位點某等位基因在群體y中的頻率。
如果基因替換的速率對于所有位點并不相同,D會過低估計每個位點基因替換的累積數(shù)目,則一個更合適的遺傳距離的測度由下式給出[11]:
式中:J′xy、J′xx和J′yy分別為Jxy、Jxx和Jyy的幾何平均值。
②Jaccard遺傳距離
Jaccard遺傳距離是基于基因型頻率的常用距離測度,適合于顯性遺傳標(biāo)記數(shù)據(jù)的計算。其表達(dá)式為[12]:
式中:Axy為x和y群體具有相同基因型的數(shù)目;Bxy為x和y群體全部基因型的總數(shù)。
③ASD和(δu)2
ASD和(δu)2均為基于逐步突變模型的距離測度。該模型假定突變是逐步發(fā)生的,主要針對同功酶電荷差異或微衛(wèi)星重復(fù)次數(shù)差異進(jìn)行遺傳距離的計算。
ASD的計算公式為[13]:
式中:Fi、Fj分別為群體A中第i個等位基因頻率和群體B中第j個等位基因頻率。在逐步突變模型下,ASD與時間成線性函數(shù)關(guān)系。但其缺陷是未考慮距離的方差。
(δu)2的計算公式為[14]:
式中:μA、μB為群體A和群體B等位基因大小的均數(shù)。(δu)2從ASD發(fā)展而來,更適合于測度親緣關(guān)系較遠(yuǎn)的群體之間的遺傳距離。
1.2.2.4 基因流 當(dāng)一些個體從1個群體遷移至另1個群體時,就會產(chǎn)生基因流動,即基因流。基因流是影響群體內(nèi)部和群體之間遺傳變異程度的重要因素。對基因流的研究,近些年來越來越受到重視。它對群體遺傳學(xué)、進(jìn)化生物學(xué)、保護(hù)遺傳學(xué)、生態(tài)學(xué)有著極其重要的作用。對基因流的研究主要分為直接方法和間接方法。傳統(tǒng)上,主要采用直接方法(如標(biāo)記-重捕法等)估測基因流的大小,但其精確性有很大局限性,而且對大的群體應(yīng)用非常困難。隨著分子標(biāo)記技術(shù)的發(fā)展,對基因流的研究逐漸向分子水平過渡,目前,大部分研究主要采用間接方法進(jìn)行群體間基因流的研究。
①島嶼模型中的Nm和距離隔離模型中的Nb
島嶼模型是Wright[15]提出的用于描述群體遺傳結(jié)構(gòu)的經(jīng)典模型。該模型的基本思想是假設(shè)1個群體分化為無限多個亞群體,亞群體在空間呈離散分布,每個亞群體接受一小部分來自整個群體的遷移個體。遷移率與遷移基因頻率在任一世代內(nèi)假設(shè)為常數(shù)。島嶼模型中的Nm為每代遷入的有效個體數(shù),即基因流的估計值。其計算公式為:
一般來講,Nm的值遠(yuǎn)小于1時將導(dǎo)致較強的種群分化,而Nm值大于4的群體可以作為1個單一隨機交配群體。
距離隔離模型由Wright[16-17]提出。與島嶼模型情況相反,距離隔離模型中的群體在空間上呈連續(xù)分布。由于有限的短距離基因遷移(即個體間交配僅局限于小范圍內(nèi)進(jìn)行),遠(yuǎn)距離分開的不同個體群由于有限距離的基因遷移而產(chǎn)生遺傳分化。該模型的1個重要參數(shù)就是鄰近群體大小(Nb),它被定義為一定范圍內(nèi)能隨機交配的個體數(shù)量,其作用與島嶼模型中的Nm一樣。其計算公式為:
式中:r為個體間能隨機交配范圍的半徑;d為群體密度。
利用Nm和Nb推斷基因流的缺點是:限制條件非常多,對現(xiàn)實群體而言,一些條件難以滿足。
②共祖檢驗
共祖檢驗主要是通過追蹤個體的祖先譜系關(guān)系,來推斷個體是否為遷移個體或遷移個體后代,可獲得群體間長時間的基因流的估計值。該檢驗放寬了一些限制條件(如短期內(nèi)群體的擴(kuò)張,非交互式遷移等)。但仍然要求群體有恒定的大小或連續(xù)4 Ne代確定的擴(kuò)張方向[18]。
③指定檢驗
指定檢驗根據(jù)個體的基因型,將個體指定到其來源群體(該基因型可能發(fā)生的最大概率的群體)中去。由于指定檢驗主要依據(jù)短期內(nèi)遷移個體或其后代的基因型存在暫時的不平衡現(xiàn)象,所以該方法只能推斷短期內(nèi)(一般在幾代之內(nèi))的基因流估計值。目前,已有一些統(tǒng)計軟件可進(jìn)行指定檢驗,如:Pritchard等[19]開發(fā)的Structure和Schneider等[20]開發(fā)的Arlequin。
④Bayesian推斷
Wilson和Rannala[21]根據(jù)Bayesian理論提出的利用個體多位點基因型來估算群體間新近的遷移率的新方法。相比而言,這一方法需要更少得假設(shè)條件,甚至可應(yīng)用于非H-W平衡的群體。目前,該方法已可由相應(yīng)的統(tǒng)計軟件Bayes Ass來實現(xiàn)。
1.2.2.5 空間自相關(guān)分析 空間自相關(guān)分析是1種統(tǒng)計方法,被廣泛應(yīng)用于描述群體遺傳變異的空間格局。主要應(yīng)用于在空間呈連續(xù)或團(tuán)塊分布的群體??臻g自相關(guān)分析的第一步是將取樣點標(biāo)定在圖上,作成一個取樣點分布平面。然后,根據(jù)不同距離層次,在平面相關(guān)點之間建立關(guān)聯(lián)(蓋比列關(guān)聯(lián)Gabriel connection或最近鄰體關(guān)聯(lián)Nearest neighbor connection),確定不同取樣點對的權(quán)。常采用二元加權(quán)系統(tǒng),即關(guān)聯(lián)的取樣點i和j之間Wij=Wji=1,不關(guān)聯(lián)的取樣點i和j之間Wij=Wji=0。構(gòu)建完成關(guān)聯(lián)矩陣W后,即可計算空間自相關(guān)分析系數(shù)??臻g自相關(guān)分析系數(shù)主要有如下幾種:
①Moran系數(shù)I
其計算公式為[36]:
式中:N是樣品數(shù)目;Ai和Aj是樣品i和j的等位基因頻率值;珡A是所有樣品等位基因頻率的平均值;Wij是給定距離層次上關(guān)聯(lián)矩陣W的元素。I值介于-1和1之間。
②Geary系數(shù)C
其計算公式為[37]:
C值介于0和2之間。一般認(rèn)為,Moran系數(shù)I可以提供更為整體性的指標(biāo);Geary系數(shù)C對鄰近關(guān)聯(lián)對的差異更為敏感。
③Mentel系數(shù)Z
其計算公式為[38]:
式中:Nij為樣品i和j間的遺傳距離。Z值介于0和1之間,主要用于檢測樣品間遺傳距離和地理距離間的相關(guān)性。
上述幾種自相關(guān)分析系數(shù)的方法在遇到遺傳障礙出現(xiàn),不同地理區(qū)域之間有明顯差異的情況時,分析會出錯[39]。因此,F(xiàn)ranz等[40]提出用Monmonier最大化差異運算法則來確定地理模型的邊界,從而進(jìn)一步將遺傳變異跟地理模型做關(guān)聯(lián)分析。
在眾多的分子標(biāo)記中,RAPD和AFLP等顯性標(biāo)記,由于具有無需預(yù)先知道基因組信息、可在短時間內(nèi)完成大量樣品的分析工作等優(yōu)點,在許多研究領(lǐng)域獲得了廣泛的應(yīng)用。但由于它們是顯性標(biāo)記,不能區(qū)分純合子和雜合子,在基因頻率的統(tǒng)計上存在著很大的困難。目前,對顯性分子標(biāo)記中隱性等位基因頻率的估算主要有以下幾種方法:
①平方根法
其計算公式為[41]:
式中:m為隱性純合體的個體數(shù);n為個體總數(shù)。平方根法是過去較為常用的方法,此法要求群體符合H-W平衡且易產(chǎn)生較大偏差。
②LM法
其計算公式為[42]:
LM法也要求符合H-W平衡,且對當(dāng)m≤3時的位點不予計算,因而,該法受樣本大小的影響很大,偏向于選擇隱性等位基因頻率高的位點,會造成有偏估計。
③FIS值法
在群體偏離H-W的情況下,Chong等[43]提出了1個估測隱性等位基因頻率的方法,即利用對同一群體進(jìn)行的共顯性標(biāo)記分析(同工酶或SSR)計算得到的FIS值來估測隱性等位基因頻率。解如下方程,可得q′:
式中:FIS為根據(jù)共顯性標(biāo)記計算得到的該群體的固定指數(shù)。
④Bayesian法
Bayesian法是Zhivotovsky[44]基于Bayesian理論提出的估算隱性等位基因頻率的新方法。
在群體符合H-W平衡的條件下,其計算公式為:
式中:Pr(m|q)為在隱性等位基因頻率為q的前提下,樣品中含有m個隱性純合體的概率;Pr(q)為樣品隱性等位基因頻率為q的概率。
在群體偏離H-W非平衡的條件下,其計算公式為:
與前述方法相比,Bayesian法可獲得更為準(zhǔn)確的隱性等位基因頻率的估計值。
目前,有關(guān)群體遺傳學(xué)分析的軟件數(shù)目眾多。以上介紹的數(shù)學(xué)分析方法幾乎都可由軟件自動實現(xiàn)。群體遺傳學(xué)分析中常用的數(shù)學(xué)分析軟件包有:TFPGA、Arlequin、GDA、GENEPOP、Gene Strut、POPGENE、等。對這些常用的分析軟件所包含的主要數(shù)學(xué)分析方法的總結(jié)見表2。
表2 常用的群體遺傳學(xué)分析軟件及其包含的主要數(shù)學(xué)分析方法一覽Table 2 Common software of population genetics and mathematic analysis methods included
續(xù)表2
目前,國內(nèi)已開展了大量的利用分子標(biāo)記技術(shù)進(jìn)行群體遺傳多樣性和群體遺傳結(jié)構(gòu)分析的研究工作,然而如何正確使用相關(guān)數(shù)學(xué)分析方法,合理地分析和處理數(shù)據(jù),仍是值得注意的問題。本文對群體遺傳學(xué)分析中常用的數(shù)學(xué)分析方法、顯性分子標(biāo)記中隱性等位基因頻率的估算方法以及常用的群體遺傳分析軟件進(jìn)行了系統(tǒng)的歸納整理,明確了常用遺傳參數(shù)的適用條件和范圍,對合理地應(yīng)用這些遺傳參數(shù)進(jìn)行群體遺傳學(xué)分析具有指導(dǎo)意義。
[1] Kimuraz M,Crow J F.The number of alleles that can be maintained in a finite population[J].Genetics,1964,49:725-738.
[2] Nei M.Molecular Population Genetics and Evolution[M].Amsterdam:North-Holland Publishing Company,1975.
[3] Waples R S.A generalized approach of estimating effective population size from temporal changes in allelic frequency[J].Genetics,1989,121:379-391.
[4] Nei M,Tajima F.Genetic drift and estimation of effective population size[J].Genetics,1981,98:625-640.
[5] Pollak E.A new method for estimating the effective population size from allele frequency changes[J].Genetics,1983,104:531-548.
[6] Krimbas C B,Tsakas S.The genetics of Dacus oleae.V.changes of esterase polymorphism in a natural population following insecticide control-selection or drift[J].Evolution,1971,25:454-460.
[7] Waples R S,Teel D J.Conservation genetics of Pacific Salmon I.Temporal changes in allele frequency[J].Conservation Biology,1990,4:144-156.
[8] Waples R S.Genetic methods for estimating the effective size of Cetacean populations.1991:279-300 in Genetic Ecology of Whales and Dolphins[M].Hoelzel A R ed.London:Special Issue 13.International Whale Commission,1991.
[9] Pudovkin A I,Zaykin D V,Hedgecock D.On the potential for estimating the effective number of breeders from heterozygote-excess in progeny[J].Genetics,1996,144:383-387.
[10] Launey S,Barre M,Gerard A,et al.Population bottleneck and effective size in Bonamia ostreae-resistant populations of Ostrea edulis as inferred by microsatellite markers[J].Genet Res Camb,2001,78:259-270.
[11] Haldane J B S.An exact test for randomness of mating[J].Journal of Genetics,1954,52:631-635.
[12] Guo S W,Thompson E A.Performing the exact test of Hardy-Weinberg proportion for multiple alleles[J].Biometrics,1992,48:361-372.
[13] Nei M.Interspecific gene differences and evolutionary time estimated from electropho retic data on protein identity[J].Amer Natur,1971,105:385-398.
[14] Jaccard P.Nouvelles recherches sur la distribution florale[J].Bull Soc Vaud Sci Nat,1908,44:223-270.
[15] Goldstein D B,Ruiz Linares A,Cavalli-Sforza L L,et al.An E-valuation of Genetic Distances for Use with Microsatellite Loci[J].Genetics,1995,139:463-471.
[16] Goldstein D B,Linares A R,Cavalli-Sforza L L,et al.Genetic absolute dating based on microsatellites and the origin of modern humans[J].Proc Natl Acad Sci,1995,92:6723-6727.
[17] Wright S.Evolution in Mendelian populations[J].Genetics,1931,16:97-159.
[18] Wright S.Breeding structure of populations in realtion to speciation[J].Ammican Naturalist,1940,74:232-248.
[19] Wright S.Isolation by distance[J].Genetics,1943,28:114-138.
[20] Kingman J F C.On the genealogy of large populations[J].J Appl Prob,1982,19A(Sup):27-43.
[21] Pritchard J K,Stephens M,Donnelly P J.Inference of population structure using multilocus genotype data[J].Genetics,2000,155:945-959.
[22] Schneider S,Roessli D,Excoffier L.Arlequin:a software for population genetics data analysis[CP/DK].Genetics and Biometry Lab,Dept.of Anthropology,Switzerland:University of Geneva,2000.
[23] Wilson G A,Rannala B.Bayesian inference of recent migration rates using multilocus genotypes[J].Genetics,2003,163:1177-1191.
[24] Wright S.The interpretation of population structure by F-statistics with special regard to systems of mating[J].Evolution,1965,19:395-420.
[25] Hill W G,Robertson A.Linkage disequilibrium in finite populations[J].Theor Appl Genet,1968,38:226-231.
[26] Lewontin R C.The interaction of selection and linkage.I.General considerations;heterotic models[J].Genetics,1964,49:49-67.
[27] Flint-Garcia S A,Thornsberry J M,Buckler E S.IV structure of linkage disequilibrium in plants[J].Annu Rev Plant Biol,2003,54:357-374.
[28] Shannon C E,Weaver W.The mathematical theory of communication[M].Urbana:University of Illinois at Urbana-champaign,1949.
[29] Sheldon A L.Equitability indices:dependence on the species count[J].Ecology,1969,50:466-467.
[30] Wright S.The genetical structure of populations[J].Ann Eugen,1951,15:323-354.
[31] Nei M.Genetic distance between populations[J].Amer Natur,1972,106:283-292.
[32] Nei M.Analysis of gene diversity in subdivided populations[J].Proc Natl Acad Sci USA,1973,70:3321-3323.
[33] Excoffier L,Smouse P E,Quattro J M.Analysis of molecular variance inferred from metric distances among DNA haplotypes:applications to human mitochondrial DNA restriction data[J].Genetics,1992,131:479-491.
[34] Excoffier L.Analysis of molecular variance(AMOVA)version 1.55[CP/DK].Genetics and Biometry Laboratory,Switzerland:University of Geneva,1993.
[35] 張富民,葛頌.群體遺傳學(xué)研究中的數(shù)據(jù)處理方法I.RAPD數(shù)據(jù)的AMOVA分析[J].生物多樣性,2002,10:438-444.
[36] Moran P A P.Notes on continuous stochastic phenomena[J].Biometrika,1950,37:17-23.
[37] Geary R C.The contiguity ratio and statistical mapping[J].The Incorporated Statistician,1954,5:115-145.
[38] Manly B F J.Randomization,bootstrap and Monte Carlo methods in biology[M].London:Chapman &Hall,1997.
[39] Manni F,Guerard E,Heyer E.Geographic Patterns of(Genetic,Morphologic,Linguistic)Variation[J].Human Biology,2004,76:173-190.
[40] Monmonier M.Maximum-difference barriers:An alternative numerical regionalization method[J].Geogr Anal,1973,3:245-261.
[41] Clark A G,Lanigan C M S.Prospects for estimating nucleotide divergence with RAPDs[J].Mol Biol Evol,1993,10:1096-1111.
[42] Lynch M,Milligan B G.Analysis of population genetic structure with RAPD markers[J].Mol Ecol,1994,3:91-99.
[43] Chong D K,Yang R C,Yeh F C.Nucleotide divergence between populations of trembling aspen(Populus tremuloides)estimated with RAPDs[J].Curr Genet,1994,26:374-376.
[44] Zhivotovsky L A.Estimating population structure in diploids with multilocus dominant DNA markers[J].Molecular Ecology,1999,8:907-913.
Mathematical Analysis Methods Used in Population Genetics Studies Based on Nuclear Genome Markers
BAO Zhen-Min,WANG Ming-Ling,LI Yan,ZHANG Ling-Ling,HU Xiao-Li,HUANG Xiao-Ting,HU Jing-Jie,WANG Shi
(The Key Laboratory of Marine Genetics and Breeding,Ministry of Education,College of Marine Life Sciences,Ocean University of China,Qingdao 266003,China)
In recent years,a variety of mathematical analysis methods have been widely used in population genetics studies.However,lack of a unified undestanding of the application of these methods has led to misuse and abuse them in some instances.In this study,we reviewed major mathematical analysis methods recently used in population genetics based on nuclear genome markers.These methods were classified and their applicable conditions and limitations were shown,which is essential to apply them correctly.Moreover,we also reviewed recent progress of estimating recessive allele frequency and major mathematical analysis methods included in popular software packages for population genetic analyses,which is instructive for researchers to make appropriate use of these methods or softwares.
population;molecular marker;mathematical analysis method;recessive allele frequency
Q347
A
1672-5174(2011)11-048-09
國家高技術(shù)研究發(fā)展計劃項目(2006AA10A408);公益性行業(yè)科研專項(nyhyzx07-047);現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項資助
2010-04-26;
2011-05-19
包振民(1961-),男,教授,博導(dǎo),主要從事海洋貝類分子遺傳與育種的研究。E-mail:zmbao@ouc.edu.cn
責(zé)任編輯 朱寶象