殷詩舒,何 俊,黃生強(qiáng)*,吳曉林,2,3*
(1.湖南農(nóng)業(yè)大學(xué) 動(dòng)物科學(xué)技術(shù)學(xué)院,湖南 長沙 410128;2.紐勤公司生物統(tǒng)計(jì)和生物信息部,內(nèi)布拉斯加州 林肯,美國 68504;3.威斯康星大學(xué) 動(dòng)物科學(xué)系,威斯康星 麥迪遜,美國 53706)
Meta分析中文通常翻譯為元分析、后設(shè)分析、整合分析、綜合分析或薈萃分析,是一類可以綜合多項(xiàng)研究結(jié)果的統(tǒng)計(jì)分析方法。該方法通過對(duì)以往若干項(xiàng)研究結(jié)果進(jìn)行系統(tǒng)定量綜合分析,從而得到一個(gè)新的、更為可靠的的研究結(jié)論。Meta分析方法的使用可追溯到17世紀(jì)的天文學(xué)研究[1]??枴て柹?Karl Pearson)發(fā)表于1904年《英國醫(yī)學(xué)雜志》的一篇論文,用Meta分析的方法綜合了幾個(gè)傷寒接種實(shí)驗(yàn)的臨床研究結(jié)果[2-3],這也是臨床研究中第一個(gè)Meta的研究報(bào)告。1940年,杜克大學(xué)心理學(xué)家Pratt等[4]出版了一本關(guān)于Meta分析的論文集,其中包括了從1882年到1939年間共145篇有關(guān)的研究論文。Meta分析在醫(yī)學(xué)研究上的應(yīng)用始于1955年,從20世紀(jì)70年代開始,教育研究領(lǐng)域提出了一些復(fù)雜的Meta分析統(tǒng)計(jì)模型,Glass首先使用了Meta分析這個(gè)術(shù)語[5]。
Meta分析的基本思想是假設(shè)K個(gè)試驗(yàn)研究了某一特定的研究對(duì)象,每個(gè)研究都有一定的估計(jì)準(zhǔn)確性,同時(shí)也存在一定的估計(jì)誤差。因此,借助于一定的統(tǒng)計(jì)學(xué)方法,可以綜合所有K個(gè)研究結(jié)果,從而獲得對(duì)于該研究對(duì)象可靠性更高的研究結(jié)論。Meta分析的具體方法很多,但實(shí)質(zhì)上這些方法都是計(jì)算各項(xiàng)研究結(jié)果的一個(gè)加權(quán)平均值,不同之處在于這些權(quán)重的計(jì)算方法以及對(duì)于未知參數(shù)的不確定性的評(píng)估方式上的一些差異。因此,Meta分析通過綜合評(píng)估以前的研究結(jié)果,可對(duì)研究對(duì)象做出更為高效和可靠的統(tǒng)計(jì)估計(jì)(推論)。此外,Meta分析還可以對(duì)比不同的研究結(jié)果,發(fā)現(xiàn)它們之間的變異(差異)或者一些內(nèi)在規(guī)律,研究他們之間可能存在的關(guān)系[6]。因此,Meta分析又是對(duì)特定研究問題的系統(tǒng)性評(píng)估方法[7]。
1.1.1 試驗(yàn)設(shè)計(jì) Meta分析首先要確定研究問題和研究目標(biāo),然后確定下步研究方案、文獻(xiàn)檢索的方法與策略以及統(tǒng)計(jì)模型和統(tǒng)計(jì)方法的選擇等。這是Meta分析的第一步,或相當(dāng)于Meta分析的試驗(yàn)設(shè)計(jì)。所有的研究都必須有一個(gè)特定的問題,但研究問題本身并不等同于研究目的。例如,研究某個(gè)候選基因的效應(yīng),目的可能是通過多項(xiàng)研究結(jié)果來重新估計(jì)其效應(yīng),或是在多群體間評(píng)估其效應(yīng)的一致性(或差異性),或是在更大的群體中驗(yàn)證其效應(yīng),或是利用Meta分析的結(jié)果來指導(dǎo)設(shè)計(jì)新的研究。因?yàn)檠芯磕康牟煌?,Meta分析在方法設(shè)計(jì)、統(tǒng)計(jì)模型和實(shí)際實(shí)施上也是不一樣的。
Meta分析不能只用已經(jīng)發(fā)表論文的數(shù)據(jù),因?yàn)閷W(xué)術(shù)期刊一般都傾向于選擇性地發(fā)表統(tǒng)計(jì)分析上顯著的研究結(jié)果,從而導(dǎo)致Meta分析的結(jié)果產(chǎn)生偏差,這情形被稱為“檔案抽屜問題”(the file drawer problem),又稱為“發(fā)表偏差”(publication bias)。因此,Meta分析若只考慮已經(jīng)發(fā)表的論文的研究結(jié)果,將不足以代表所考察問題研究的總體。因此減少M(fèi)eta分析偏差的一種實(shí)用的方法是在分析中考慮一些未發(fā)表的研究結(jié)果[8-9]。作為未發(fā)表的文獻(xiàn)數(shù)據(jù)庫,可以搜索各大學(xué)的碩博士研究論文以及一些公共書目數(shù)據(jù)庫。例如,NTIS(國家技術(shù)信息服務(wù))包括了由600多個(gè)美國聯(lián)邦機(jī)構(gòu)贊助的所有研究項(xiàng)目(http://www.ntis.gov/)。
1.1.2 文獻(xiàn)檢索 文獻(xiàn)檢索最常用的是公共文獻(xiàn)檢索庫,例如Web of Science(https://login.webofknowledge.com/)或PubMed(https://www.ncbi.nlm.nih.gov/pubmed/)。手動(dòng)搜索這些數(shù)據(jù)庫需要指定搜索語句和搜索方法。為了方便文獻(xiàn)檢索,大多數(shù)圖書館都已經(jīng)將文獻(xiàn)檢索的控制詞匯添加到索引系統(tǒng)中,這些控制詞匯包括書籍的分類代碼和主題以及文章的描述符等。實(shí)際的檢索往往是復(fù)式的,常包括兩個(gè)以上的項(xiàng)目。例如,在PubMed中檢索發(fā)表在Genetics(美國遺傳學(xué)會(huì)的遺傳學(xué)雜志)上的乳腺炎(mastitis)QTL,其搜索方式如下:(QTL AND mastitis AND Genetics[journal])。其中“QTL”和“mastitis”都是PubMed中使用的Mesh標(biāo)題,“Genetics”是所要檢索的學(xué)術(shù)期刊的名稱,“[journal]”是學(xué)術(shù)期刊的名稱的搜索字段標(biāo)簽。
1.1.3 檢索文獻(xiàn)的評(píng)估和搜索成功與否的評(píng)判 文獻(xiàn)檢索中要收集的內(nèi)容很多。以QTL的Meta分析為例,通常包括研究報(bào)告的出版信息(例如作者,發(fā)表年份,出版物來源),物種和品種(包括地理亞群類型),統(tǒng)計(jì)分析方法和統(tǒng)計(jì)模型,QTL位置和效應(yīng)大小等。然后需要評(píng)估所搜集的每一個(gè)原始研究的質(zhì)量,以決定是否可以將該研究結(jié)果納入到Meta分析中[10]。Cook等[11]提供了一些框架性的規(guī)則,如果違反了這些規(guī)則,就會(huì)影響到對(duì)于原始研究結(jié)果的解釋和其研究質(zhì)量。Chalmers等[12]提出了一個(gè)評(píng)估原始研究的評(píng)分方法,包括三個(gè)方面:研究設(shè)計(jì),研究實(shí)施和數(shù)據(jù)分析。例如,兩位讀者在對(duì)作者和資料來源均不知情的情況下,從這三個(gè)方面對(duì)各研究報(bào)告的質(zhì)量進(jìn)行評(píng)分,然后計(jì)算出一個(gè)百分比分?jǐn)?shù),作為對(duì)檢索的文獻(xiàn)評(píng)估的依據(jù)。一個(gè)比較正式的方法是需要組成一個(gè)專家小組,來最終決定一項(xiàng)原始研究的結(jié)果是否可以納入到Meta分析中。
現(xiàn)有文獻(xiàn)數(shù)量巨大,不可能獲得與研究課題有關(guān)的每一篇文獻(xiàn)。文獻(xiàn)檢索一般采用檢索的查出率(Recall)和精確率(Precision)這兩個(gè)概念來描述搜索過程的成功率和相關(guān)文獻(xiàn)檢出的成功率。文獻(xiàn)查出率代表了文獻(xiàn)檢索過程的成功率,計(jì)算方法如下:
文獻(xiàn)查出率(R)=[(實(shí)際檢出的相關(guān)文獻(xiàn)數(shù)量)/((應(yīng)該檢索文獻(xiàn)的總數(shù)量)]×100%
(1)
文獻(xiàn)查出率越高,表明文獻(xiàn)檢索過程的成功率也越高。但應(yīng)該檢索的文獻(xiàn)總數(shù)量往往是未知的,因此總數(shù)量(分母)通常按照某些眾所周知的經(jīng)驗(yàn)或規(guī)則設(shè)定。文獻(xiàn)精確率反應(yīng)了所檢索文獻(xiàn)的正確(或錯(cuò)誤)的比率。
計(jì)算公式如下:
文獻(xiàn)精確率(P)=(實(shí)際檢出且符合主題的文獻(xiàn)數(shù)量)/(實(shí)際檢出文獻(xiàn)總數(shù)量)
(2)
文獻(xiàn)檢索的目標(biāo)是有盡可能高的文獻(xiàn)查出率和精確率。實(shí)際檢索中,這個(gè)目標(biāo)可以通過使用一定搜索策略的組合來實(shí)現(xiàn)。
1.2.1 定義Meta分析的研究結(jié)果指標(biāo) 文獻(xiàn)檢索收集了原始研究的結(jié)果之后,需要確定一個(gè)共有的研究結(jié)果指標(biāo)作為Meta分析的數(shù)據(jù)。例如,QTL或候選基因的Meta分析可以用QTL(基因)位置,效應(yīng)大小,或者是任何一個(gè)假設(shè)檢驗(yàn)或統(tǒng)計(jì)分析的統(tǒng)計(jì)量(比如P值,或是LOD分?jǐn)?shù))。Meta分析通常對(duì)原始研究的指標(biāo)的選擇幾乎沒有控制,而是依賴于從原始研究中所能夠獲得的結(jié)果。并且,對(duì)于同一個(gè)主題的多項(xiàng)原始研究而言,其研究結(jié)果的指標(biāo)也可能不盡一樣,因此需要做一些換算。例如,Wu和Hu[13]介紹了用原始研究中的數(shù)據(jù)對(duì)于QTL位置和QTL效應(yīng)做換算的一般性方法。
1.2.2 選擇統(tǒng)計(jì)分析方法和統(tǒng)計(jì)模型 目前可以應(yīng)用于Meta分析的統(tǒng)計(jì)模型很多。本文由于篇幅所限,簡要介紹固定效應(yīng)Meta分析模型(fixed-effect meta-analytical model)、隨機(jī)效應(yīng)Meta分析模型(random-effect meta-analytical model)以及兩點(diǎn)混合分布Meta分析模型(two-point mixture meta-analytical model)。其它有關(guān)的Meta分析統(tǒng)計(jì)模型,例如隨機(jī)效應(yīng)的貝葉斯Meta分析模型和非參數(shù)的DPP-Meta分析模型,參見有關(guān)文獻(xiàn)[14-15]。
Meta分析最常用的模型是固定效應(yīng)模型和隨機(jī)效應(yīng)模型。設(shè)定收集了K個(gè)獨(dú)立的研究結(jié)果,每個(gè)研究結(jié)果都估計(jì)了某個(gè)效應(yīng)量(γi)及其標(biāo)準(zhǔn)差(Si2)。設(shè)θi為第i個(gè)獨(dú)立研究中該效應(yīng)量的真實(shí)值。而該真實(shí)效應(yīng)未知,有待估計(jì)。就統(tǒng)計(jì)模型而言,不同Meta分析方法的主要區(qū)別在于對(duì)所估計(jì)效應(yīng)量的假設(shè)上的差異。
固定效應(yīng)Meta分析模型假設(shè)該效應(yīng)量的真實(shí)值在所有K個(gè)獨(dú)立研究中是相同的(同質(zhì)性假設(shè))。因此,各獨(dú)立研究所估計(jì)效應(yīng)量的差異是源于試驗(yàn)的抽樣誤差。設(shè)定所估計(jì)的效應(yīng)量服從正態(tài)分布:
γi~N(θi,σi2)
(3)
式中:θ1=θ2=…=θn=θ,σi2為 γi的方差。在Meta分析中,γi的方差是未知的,但可以用樣本方差(Si2)作為其近似估計(jì)值。固定效應(yīng)Meta分析模型中的未知效應(yīng)量θ可以用最大似然法(maximum likelihood,ML)估計(jì)[13]。
實(shí)際情況中,某效應(yīng)量的真實(shí)值可能是不同的(異質(zhì)性假設(shè))。如在候選基因(包括QTL)的Meta分析中,常常會(huì)考慮到兩種異質(zhì)性情形[13]:位點(diǎn)異質(zhì)性和效應(yīng)異質(zhì)性。位點(diǎn)異質(zhì)性指一個(gè)基因位點(diǎn)可能在一些群體中有效應(yīng),但在另一些群體中沒有效應(yīng)。效應(yīng)異質(zhì)性指一個(gè)基因?qū)τ谒腥后w都有效應(yīng),但其效應(yīng)大小因群體而異。存在效應(yīng)異質(zhì)性的情形下,所估計(jì)效應(yīng)量的變異決定于其真實(shí)效應(yīng)的變化以及各獨(dú)立研究中的抽樣誤差。
隨機(jī)效應(yīng)的Meta分析模型假設(shè)每個(gè)獨(dú)立研究中該效應(yīng)量的真實(shí)值都不一樣,后者服從一個(gè)均值為0、方差為σ2的正態(tài)分布:
θi~N(μ,σ2)
(4)
因此,每個(gè)獨(dú)立研究中估計(jì)的效應(yīng)量服從如下正態(tài)分布:
γi~N(μ,σ2+Si2)
(5)
隨機(jī)效應(yīng)Meta分析模型中的未知參數(shù)(μ和σ2)可以通過約束最大似然法(REML)估計(jì)[13]。從隨機(jī)效應(yīng)模型所估計(jì)的各獨(dú)立研究的效應(yīng)量又稱為最佳線性無偏預(yù)估(BLUP)。顯然,如果σ2=0,等價(jià)于所研究效應(yīng)量的同質(zhì)性假設(shè)成立。則隨機(jī)Meta分析模型(4)就等同于固定效應(yīng)Meta分析模型(3)。但是如果存在效應(yīng)量的異質(zhì)性(σ2>0),固定效應(yīng)Meta模型會(huì)低估其真實(shí)效應(yīng)量的方差,使計(jì)算的P值偏小,從而夸大統(tǒng)計(jì)顯著性,使假陽性率升高。兩點(diǎn)混合分布的Meta分析模型描述的是位點(diǎn)異質(zhì)性:所研究的效應(yīng)量在一些群體中不為零(有效應(yīng)),而在另一些群體中為零(沒有效應(yīng))。假設(shè)每個(gè)獨(dú)立研究的效應(yīng)量服從正態(tài)分布,就可以用式(4)來描述,所不同的是, 對(duì)于一些群體,θi=θ,而對(duì)于另一些群體,θi=0。γi~α×(θi~N(θ,Si2))+(1-α)×(θ≡0)。該模型中的未知參數(shù)可以用最大期望算法(expectation-maximum algorithm,EM)來計(jì)算[13]。
Meta分析的軟件很多,比如:CMA、MetAnalysis、MetaWin、MIX、RevMan、以及WEasyMA。這些軟件在功能、適用性和價(jià)格方面存在一些差別。但是對(duì)于相同的模型,這些軟件所計(jì)算的結(jié)果基本上是相同的[16]。Meta分析的R軟件包也非常多。目前在CRAN (The Comprehensive R Archive Network;https://cran.r-project.org/) Meta分析(或相關(guān))的R軟件包就有93個(gè)(https://CRAN.R-project.org/view=MetaAnalysis)。這些R軟件包可以用來處理不同學(xué)科和不同統(tǒng)計(jì)模型的Meta分析問題。以下簡單介紹三個(gè)比較實(shí)用的Meta分析R軟件包:
(1)Metaphor: 可以處理固定效應(yīng),隨機(jī)效應(yīng)和混合效應(yīng)的Meta分析模型,創(chuàng)建各種類型的元分析圖[17]。(2)Bayesmeta: 用于貝葉斯隨機(jī)效應(yīng)Meta分析,提供對(duì)于模型參數(shù)的聯(lián)合和邊緣后驗(yàn)概率分布,預(yù)測(cè)分布,收縮效應(yīng),后驗(yàn)預(yù)測(cè)P值等功能[18]。(3)MultiMeta:可以處理多變量全基因組關(guān)聯(lián)研究(GWAS)的Meta分析。多變量設(shè)置意味著每個(gè)單核苷酸多態(tài)性(SNP)的結(jié)果包括幾個(gè)效應(yīng)大小(也被稱為“β系數(shù)”,每個(gè)性狀一個(gè)),以及相應(yīng)的方差值,還包括beta之間的協(xié)方差。該軟件包可以繪制QQ圖,曼哈頓圖以及各種自定義的匯總圖[19]。
數(shù)量性狀基因座(QTL)指與特定表型性狀相關(guān)的DNA區(qū)域。QTL定位研究是用連鎖分析的方法,通過與決定數(shù)量性狀的基因相連鎖的分子標(biāo)記,來檢測(cè)和估計(jì)這些基因的位置和效應(yīng)。在過去幾十年里,動(dòng)植物的QTL定位研究結(jié)果層出不窮。由于研究所使用的參考群體各不相同,許多問題隨之產(chǎn)生。例如,對(duì)于影響某個(gè)經(jīng)濟(jì)性狀的QTL而言,其染色體上的位置和效應(yīng)在群體間或者是物種間的關(guān)系如何,是否具有可比性或一致性。Meta分析就可以幫助回答這些問題,并解決不同研究間的不確定性和分歧。然而用Meta分析來綜合評(píng)估多個(gè)QTL研究的結(jié)果具有較大的挑戰(zhàn)性,因?yàn)檫@些研究在標(biāo)記密度,連鎖圖譜,樣本大小,種群類型,實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)方法等方面都是不同的。如Goffinet和Gerber[20]提出了一種基于模型選擇的QTL數(shù)量及其位置的Meta分析策略來研究QTL的一致性。Etzel和Guerra[21]用Meta分析的方法來解決研究之間的異質(zhì)性問題,從而可以更加精確估計(jì)QTL的位置和遺傳效應(yīng)。Veyrieras等[22]提出了一個(gè)兩步法的Meta分析方法,以整合多個(gè)獨(dú)立的QTL作圖試驗(yàn)的結(jié)果。Wu等[13]對(duì)QTL定位的Meta分析方法進(jìn)行了比較系統(tǒng)性的綜述和回顧。QTL定位的Meta分析一般考察QTL效應(yīng)或顯著性檢驗(yàn)的P值。此外,Wu等[15]還將非參數(shù)的DPP模型應(yīng)用于QTL位置的Meta分析,該模型可以根據(jù)QTL位置分族(類),每一類可能代表同一個(gè)QTL,或者是包括了功能相關(guān)或是在遺傳圖譜上連鎖的一組QTL。
Meta分析應(yīng)用于動(dòng)物QTL定位的研究起步相對(duì)較晚。雖然Meta分析方法在動(dòng)物QTL定位上的研究報(bào)道數(shù)量不多,但是已經(jīng)應(yīng)用到主要的家畜物種,如牛、豬、羊[23]和雞[24]。Ben和Goddard[25]使用Meta分析法估計(jì)影響數(shù)量性狀的基因效應(yīng)的分布。Khatkar等[26]通過文獻(xiàn)綜合和Meta分析的方法,發(fā)現(xiàn)了若干個(gè)效應(yīng)一致性的染色體區(qū)域,其中比較引人注目的是6號(hào)染色體上49cM和87cM這兩個(gè)位置上的QTL,分別解釋了牛奶產(chǎn)量的4.2%和3.6%的遺傳變異。Silva等[27]用Meta分析的方法重新評(píng)估了豬4號(hào)染色體上的QTL定位結(jié)果,表明Meta分析所檢出的顯著QTL的數(shù)量要少于原始研究的QTL數(shù)量,并且與原始研究相比,Meta分析將QTL置信區(qū)間降低了85%,更加適合于QTL的精細(xì)定位研究。劉璐等[28]研究結(jié)果表明,Meta分析可以有效整合多個(gè)原始研究中的結(jié)果,最終得到的QTL定位的統(tǒng)計(jì)功效高于每個(gè)研究結(jié)果,還可以更加精確地估計(jì)其效應(yīng)。
家畜和家禽的全基因組關(guān)聯(lián)分析(GWAS)現(xiàn)在已廣泛應(yīng)用于鑒定復(fù)雜性狀的遺傳變異,不僅大大豐富了畜禽標(biāo)記輔助選擇中可利用的分子標(biāo)記,還為這些性狀分子機(jī)理的探索提供了重要依據(jù)[29]。
利用Meta分析的方法可以重新整合和評(píng)估以往的GWAS研究結(jié)果。GWAS的Meta分析通??疾旆肿訕?biāo)記(如SNP)的相關(guān)效應(yīng)或顯著性檢驗(yàn)的P值。Bolormaa等[30]發(fā)現(xiàn)多性狀的Meta分析模型不僅可以提高QTL的檢出功效(power),而且還可區(qū)分對(duì)于多性狀有一因多效(pleiotropic)的QTL和在染色體位置上連鎖的影響不同性狀的QTL。Pausch等[31]用Meta分析的方法重新評(píng)估了多個(gè)奶牛品種DNA序列數(shù)據(jù)的GWAS結(jié)果,共鑒定了25個(gè)QTL,其中6號(hào)和20號(hào)染色體上顯著的QTL還包括ABCG2和GHR這兩個(gè)基因中的兩個(gè)錯(cuò)義突變。奶牛的腸道甲烷(CH4)產(chǎn)量與乳脂肪酸(FA)分布之間存在一定關(guān)系,Lingen等[32]由此利用Meta分析牛奶FA曲線具有一定預(yù)測(cè)單位飼料CH4產(chǎn)量的潛力。Rabiee等[33]用Meta分析方法研究了添加脂肪的奶牛日糧對(duì)牛奶產(chǎn)量和成分的影響。Laud[34]使用Meta分析模型和序列數(shù)據(jù),提高了用多品種GWAS方法定位QTL的準(zhǔn)確度。Silvia等[35]用系統(tǒng)文獻(xiàn)綜合和Meta分析方法評(píng)估了人畜共患病系統(tǒng),通過對(duì)坦桑尼亞牛中布魯氏菌屬(Mycobacteriumspp)和錐蟲屬(Trypanosomaspp)的流行率估計(jì),結(jié)果顯示研究之間具有高度異質(zhì)性。
眾多研究表明,Meta分析能夠?qū)⒏鳘?dú)立的研究結(jié)果統(tǒng)一分析整理、驗(yàn)證和尋找新的研究點(diǎn)。如為了鑒定與豬肉性狀相關(guān)的顯著基因組區(qū)域,Bernal等[36]使用了3個(gè)豬數(shù)據(jù)集(美國肉類動(dòng)物研究中心,商業(yè)和密歇根州立大學(xué)豬資源群體)的數(shù)據(jù),證實(shí)了先前報(bào)道的pHu,PRL和CKL(PRKAG3)和SF(CAPN1和CAST)的候選基因,并鑒定出CKL、IMF(ACSF3)和CIE a*(GYS1和FTL)的新候選基因。Meta分析還具有強(qiáng)大的識(shí)別基因組位點(diǎn)的功能,Guo等[37]對(duì)豬四肢長度的GWAS-meta分析中共鑒定出16個(gè)位點(diǎn),其中包括4個(gè)新位點(diǎn),還找出兩個(gè)與豬肢骨長度相關(guān)的候選基因HMGA1和PLAG1。Minozzi等[38]采用GRAMMAR-CG方法使用兩種不同定義的對(duì)照種群進(jìn)行全基因組關(guān)聯(lián)分析,證實(shí)了12號(hào)染色體上的關(guān)聯(lián)SNP,以及僅在意大利群體中發(fā)現(xiàn)的未分配SNP與ParaTB;此外,當(dāng)ELISA和組織陽性動(dòng)物與組織陰性樣品進(jìn)行比較時(shí),還發(fā)現(xiàn)了幾個(gè)額外的基因組區(qū)域與ParaTB相關(guān)。在過去十余年里,基因組預(yù)測(cè)和基因組選擇日益成為動(dòng)物遺傳改良的主流方法[39]。Bernal Rubio等[40]研究表明,Meta分析增加了關(guān)聯(lián)分析的統(tǒng)計(jì)效率,還可以在統(tǒng)計(jì)模型中考慮種群結(jié)構(gòu)和不同種群間方差組分的異質(zhì)性。
候選基因(candidate gene,CG)為鑒定和表征復(fù)雜表型的主要基因提供了一種策略,如生產(chǎn)性狀對(duì)疾病的易感性。候選基因大體上分為兩類,一類是在功能上相關(guān),或者是假定參與所研究性狀的調(diào)節(jié)和表達(dá)的基因,另一類是在遺傳連鎖圖譜上位于所發(fā)現(xiàn)QTL的區(qū)間內(nèi)的基因。前者稱為功能性候選基因(functional candidate gene),后者稱為位置性候選基因(positional candidate gene)。CG分析的優(yōu)點(diǎn)是它既不需要開發(fā)像QTL定位研究的遺傳分離群體(參考群體),也不需要像GWAS那樣做高密度分子標(biāo)記的遺傳分型。因此CG研究在試驗(yàn)方法上簡便易行,試驗(yàn)成本也相對(duì)較低。CG分析僅僅考察所研究基因的多態(tài)性與目標(biāo)性狀變異間的關(guān)聯(lián)性?;蛘邔?duì)于某個(gè)疾病性狀,發(fā)病和健康動(dòng)物之間該基因的頻率是否存在顯著差異。過去的幾十年里,有大量候選基因的研究報(bào)道。但對(duì)于某一個(gè)特定性狀和基因而言,它們之間的關(guān)聯(lián)性往往在不同的研究、不同的群體,甚至是同一個(gè)群體的不同重復(fù)試驗(yàn)中也可能存在差異。造成這些差異的原因可能是遺傳性的,也可能是環(huán)境因素,甚至于可能與試驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)方法、統(tǒng)計(jì)模型和統(tǒng)計(jì)方法,以及人為誤差有關(guān)。Meta分析為重新整合和評(píng)估以往的研究結(jié)果提供了一個(gè)有效的方法。候選基因的Meta分析,通??疾旌蜻x基因的效應(yīng)大小或者其顯著性檢驗(yàn)的P值。所采用的統(tǒng)計(jì)模型一般為固定效應(yīng)模型和隨機(jī)效應(yīng)模型。例如Wu等[15]將貝葉斯參數(shù)模型和非參數(shù)模型應(yīng)用于候選基因的Meta分析。
Meta分析在畜禽候選基因上應(yīng)用比較廣泛。在已發(fā)表的研究中,Alfoso[41]使用固定效應(yīng)模型和隨機(jī)效應(yīng)模型的Meta分析方法,研究了ESR PvuII基因的多態(tài)性與母豬產(chǎn)仔數(shù)之間的關(guān)系,發(fā)現(xiàn)“AA”基因型組母豬的窩產(chǎn)仔數(shù)顯著降低,并且該基因的效應(yīng)在研究群體間具有明顯的異質(zhì)性。Grigoryev等[42]對(duì)人類、豬、大鼠和小鼠模型中腎臟IRI的基因表達(dá)譜進(jìn)行Meta分析,分別確定了10個(gè)和11個(gè)新的候選基因,在驗(yàn)證了這種新方法的同時(shí)也可以把實(shí)驗(yàn)結(jié)果應(yīng)用到人類的疾病中。LU等[43]利用Meta分析與基因組富集分析(GSEA)對(duì)不同物種肝細(xì)胞癌(HCC)基因表達(dá)的芯片數(shù)據(jù)進(jìn)行分析,結(jié)果顯示在Meta分析下,包括cdc25a在內(nèi)的25個(gè)基因在細(xì)胞周期途徑中有差異表達(dá),結(jié)合GSEA綜合分析,確定了HCC發(fā)病機(jī)理的關(guān)鍵途徑和基因。Purfield等[44]為了了解奶牛和肉牛產(chǎn)犢性能,使用高密度基因芯片進(jìn)行了全基因組關(guān)聯(lián)研究,最后對(duì)每個(gè)產(chǎn)犢性能特征進(jìn)行三個(gè)品種(荷斯坦,夏洛來和利穆贊)的Meta分析,結(jié)果顯示產(chǎn)犢性能的一部分遺傳變異是所有三個(gè)品種共同的。Tetens等[45]使用Illumina EquineSNP50芯片對(duì)782匹德國血統(tǒng)馬進(jìn)行了影響馬肩隆高度的基因座全基因組關(guān)聯(lián)掃描,結(jié)果證實(shí)了與其他馬群體最近報(bào)道一致的ECA3,并且找到了一個(gè)代表該QTL的強(qiáng)候選基因座LCORL/NCAPG。Casas等[46]對(duì)肉牛循環(huán)中25-羥基維生素D(25OHD)濃度相關(guān)的基因組區(qū)域的基因進(jìn)行研究,鑒定出了CYP2J2為與牛血清中25OHD濃度相關(guān)的候選基因。這些研究結(jié)果均表明Meta分析的確可以綜合以往的研究結(jié)果,確定和鑒定出候選基因,驗(yàn)證基因的功能性。
Meta分析是一種功能強(qiáng)大的系統(tǒng)研究方法,能夠?yàn)榭茖W(xué)研究及時(shí)間決策提供有效的幫助。該方法可使用統(tǒng)計(jì)學(xué)方法來整合多項(xiàng)研究結(jié)果,提高統(tǒng)計(jì)分析的效率和統(tǒng)計(jì)推理的可靠性和準(zhǔn)確性,解決不同研究之間的不一致和不確定性,同時(shí)也是對(duì)多項(xiàng)研究做系統(tǒng)評(píng)價(jià)的統(tǒng)計(jì)方法。Meta分析的結(jié)果實(shí)質(zhì)上是對(duì)研究結(jié)果的加權(quán)平均,該方法的優(yōu)點(diǎn)主要有:分析結(jié)果可以推廣到更大的群體;隨著更多數(shù)據(jù)的使用,可提高估算的精確性和準(zhǔn)確性,又可增加統(tǒng)計(jì)功效提高檢測(cè)效果;可以量化和分析不同研究結(jié)果的不一致性。如是因?yàn)槌闃诱`差不一致,還是研究結(jié)果(部分)受研究間異質(zhì)性的影響;可對(duì)總結(jié)性統(tǒng)計(jì)量(群體均值)做假設(shè)檢驗(yàn);包括利用間接變量(moderator)來解釋研究之間的差異;可以用于研究發(fā)表偏差。
但是,Meta分析中存在的問題也是客觀存在的。除了前面提到的“檔案抽屜問題”(發(fā)表偏差)外,其他的問題包括與不報(bào)告非統(tǒng)計(jì)學(xué)顯著效應(yīng)的研究有關(guān)的問題(缺乏對(duì)于不顯著結(jié)果的統(tǒng)計(jì)資料)和與統(tǒng)計(jì)方法有關(guān)的問題(對(duì)于統(tǒng)計(jì)模型的選擇具有很大的主觀性,以及各種統(tǒng)計(jì)模型的內(nèi)在假設(shè)可能是不符合實(shí)際情況的)等。此外,對(duì)于Meta分析的批評(píng)還包括一些Meta分析的研究結(jié)論也可能被一定的社會(huì)經(jīng)濟(jì)和政治原因所影響[47]。
Meta分析統(tǒng)計(jì)模型的發(fā)展,包括參數(shù)模型、半?yún)?shù)模型和非參數(shù)模型[13]。且統(tǒng)計(jì)方法仍然在發(fā)展之中,新的統(tǒng)計(jì)方法和統(tǒng)計(jì)計(jì)算技術(shù)也將繼續(xù)出現(xiàn)。如殷詩舒等[48]提出了一個(gè)并行計(jì)算的DPM-Meta分析模型,并且通過模擬數(shù)據(jù)應(yīng)用于候選基因的研究。該研究從大數(shù)據(jù)并行計(jì)算的角度,推導(dǎo)出可以準(zhǔn)確估計(jì)總體數(shù)據(jù)SNP效應(yīng)的公式,證明了用加權(quán)平均的方法,并行計(jì)算各子集數(shù)據(jù)估計(jì)的SNP效應(yīng),如果該權(quán)重為估計(jì)SNP效應(yīng)的方差的倒數(shù)(即精確度),等同于一個(gè)固定效應(yīng)的Meta分析模型。