王娜娜 張毓洪 楊 澤
交互作用是指兩個(gè)或多個(gè)因素相互發(fā)生作用而產(chǎn)生的一種效應(yīng)。當(dāng)兩個(gè)或多個(gè)因素共同作用于某一事件,其效應(yīng)大于或小于各因素共同作用的效應(yīng)時(shí),可認(rèn)為因素間存在交互作用,前者稱(chēng)為協(xié)同效應(yīng)(cooperative effect),后者稱(chēng)為拮抗效應(yīng)(antagonistic effect)。醫(yī)學(xué)研究證實(shí),罕有疾病是純粹由單一的遺傳或者環(huán)境因素決定的,尤其是基因-基因交互作用在許多疾病,特別是常見(jiàn)的慢性疾病(高血壓、糖尿病、哮喘等)發(fā)病中,具有非常重要的意義。
探討基因-基因交互作用,根據(jù)不同個(gè)體的遺傳因素尋找相互之間可能存在的交互作用,對(duì)制定有效的疾病預(yù)防控制干預(yù)措施,提高群體健康素質(zhì)具有非常重要的理論研究意義和實(shí)用價(jià)值;更有效地檢測(cè)和分析交互作用也是近年一直困擾醫(yī)學(xué)及其關(guān)聯(lián)學(xué)科研究與發(fā)展的難題。在進(jìn)行多基因交互作用分析過(guò)程中,模型中常常會(huì)產(chǎn)生較多的參數(shù),但樣本含量相對(duì)較少;小樣本研究中,由于過(guò)度擬合,給統(tǒng)計(jì)方法學(xué)研究提出了許多新問(wèn)題,比如眾所周知的“維度困擾”。由于每個(gè)基因有多個(gè)位點(diǎn),如果統(tǒng)計(jì)分析不考慮位點(diǎn)之間的相互作用將會(huì)使模型的效能大大降低。交互作用分析時(shí),眾多的分類(lèi)影響因素及其組合會(huì)產(chǎn)生高緯度的列聯(lián)表,這就導(dǎo)致列聯(lián)表中有些格子的頻數(shù)為O,出現(xiàn)所謂“空格子"(null cells count)情況,這對(duì)交互作用分析提出了新要求,交互作用階數(shù)越高,解釋分析問(wèn)題就越復(fù)雜。有關(guān)研究交互作用的方法很多,現(xiàn)主要介紹MDR方法。
2001年Ritchie等[1]第一次提出了多因子降維法(multifactor dimensionality reduction,MDR),“因子”是交互作用研究中的變量(如基因型或環(huán)境因素),“維”是指研究的多因子組合中因子(如基因型)的數(shù)目,以疾病易感性分類(lèi)(高危、低危)的方式建立模型,將研究中的多個(gè)因子看作一個(gè)多因子組合(基因型組合),這樣就把高維的結(jié)構(gòu)降低到一維兩水平(即高危或低危),即為“降維”。這是一種非參數(shù)、無(wú)需遺傳模式的分析方法,適用于病例對(duì)照研究或患病不一致同胞對(duì)設(shè)計(jì),只需具備各位點(diǎn)的遺傳數(shù)據(jù)(例如SNPs),即可進(jìn)行基因-基因交互作用的分析,而無(wú)需其他特殊條件。
1.1 MDR方法基本原理
MDR方法實(shí)際上是一種組合劃分方法(combinatorial partitioning method,CPM)的擴(kuò)展[2],雖然所針對(duì)的結(jié)局變量的類(lèi)型不同,CPM要求連續(xù)變量,而MDR針對(duì)的是諸如疾病狀態(tài)等分類(lèi)變量,但它們都是采用數(shù)據(jù)降維的策略,以解決在有限的樣本量條件下,分析高維數(shù)據(jù)之間交互作用的問(wèn)題。
1.2 MDR 方法分析步驟(見(jiàn)圖 1 所示)[3~5]
圖1 MDR方法基本步驟示意圖
第一步,將所有數(shù)據(jù)隨機(jī)地的分成10等份,其中9份作為訓(xùn)練樣本,1份作為檢驗(yàn)樣本。
第二步,從眾多研究因素中選擇n個(gè)因子,組成n個(gè)因子的不同組合(n個(gè)因子就代表n維),這些因子可以是SNP或者是分類(lèi)明確的環(huán)境因素。
第三步,根據(jù)n個(gè)因子的不同水平,將個(gè)體劃分為不同的分類(lèi),如圖中的單元格所示,左側(cè)條帶表示病例,右側(cè)條帶表示對(duì)照。
第四步,計(jì)算每個(gè)格子的病例數(shù)與對(duì)照數(shù)的比值,若其病例與對(duì)照之比大于某個(gè)閾值(例如≥1),則標(biāo)記為高危,反之則標(biāo)記為低危,這樣就把n維的結(jié)構(gòu)降低到一維兩水平(即高危或低危)。
第五步,多因子分類(lèi)的集合中包含了MDR模型中各因子的組合,在所有的組合中,選擇個(gè)體錯(cuò)分最小的那個(gè)MDR模型,該模型在所有模型中具有最小的預(yù)測(cè)誤差。
第六步,通過(guò)十重交叉驗(yàn)證評(píng)估模型的預(yù)測(cè)誤差,選擇預(yù)測(cè)誤差最小的模型作為最終的模型,取10次檢驗(yàn)的預(yù)測(cè)誤差平均值,作為模型相關(guān)預(yù)測(cè)誤差的無(wú)偏估計(jì)。
1.3 模型評(píng)估與檢驗(yàn)[6]
交叉驗(yàn)證(cross validation)和置換檢驗(yàn)(permutation test)是評(píng)估MDR模型統(tǒng)計(jì)學(xué)意義的兩個(gè)重要手段。交叉驗(yàn)證一致性通過(guò)以下方法衡量:對(duì)每次的十重交叉驗(yàn)證,比較同一個(gè)位點(diǎn)/因子組的驗(yàn)證次數(shù)。如果因子組合只發(fā)生在一個(gè)亞組中,為最小值1;如果所有10個(gè)亞組確定的都是相同的位點(diǎn)/因子組合,則為最大值10。通過(guò)十重交叉驗(yàn)證,在一定程度上可以避免因數(shù)據(jù)轉(zhuǎn)換的偶然性,使Ⅰ類(lèi)誤差增大而產(chǎn)生假陽(yáng)性結(jié)果的影響。預(yù)測(cè)誤差是衡量MDR模型在獨(dú)立檢驗(yàn)的亞組中預(yù)測(cè)危險(xiǎn)狀態(tài)的指標(biāo),其通過(guò)十重交叉驗(yàn)證的亞組中每一個(gè)的預(yù)測(cè)誤差的平均值來(lái)計(jì)算。最佳模型的假設(shè)檢驗(yàn)可以通過(guò)使用不同的隨機(jī)數(shù)進(jìn)行置換檢驗(yàn),來(lái)評(píng)估交叉驗(yàn)證一致性和預(yù)測(cè)誤差估計(jì)值的大小,確定該模型與那些無(wú)關(guān)聯(lián)的模型相比是否更合適。
研究中國(guó)人群與前列腺癌風(fēng)險(xiǎn)基因的關(guān)聯(lián),選取124例病例和 138例對(duì)照人群,對(duì) TET2(rs7679673),LMTK2(rs6465657),8q24 區(qū)(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因上的五個(gè)多態(tài)性位點(diǎn)進(jìn)行了單個(gè)位點(diǎn)的關(guān)聯(lián)研究,結(jié)果顯示染色體8q24區(qū)上rs12543663位點(diǎn)可能與前列腺癌發(fā)生風(fēng)險(xiǎn)相關(guān)(P=0.046;OR,1.883;95%CI,1.006-3.526),其他位點(diǎn)尚未有研究確切的說(shuō)明其關(guān)聯(lián)。采用MDR方法分析此5個(gè)多態(tài)性位點(diǎn)的交互作用發(fā)現(xiàn)(見(jiàn)表1,圖2,3),模型的交叉驗(yàn)證一致性相同的兩個(gè)模型,兩位點(diǎn)模型(rs17021918和 rs1512268)和四位點(diǎn)(rs7679673,rs6465657,rs17021918和 rs1512268)的模型,但由于只有兩位點(diǎn)模型檢測(cè)樣本有統(tǒng)計(jì)學(xué)意義(P=0.0089)。所以最佳模型包含了PDLIM5基因的1個(gè)位點(diǎn)(rs17021918)和NKX3-1基因上的rs1512268位點(diǎn),因此,該研究提示 PDLIM5基因rs17021918位點(diǎn)與NKX3-1基因rs1512268位點(diǎn)之間,可能存在基因-基因交互作用。有樹(shù)狀圖可看出TET2基因rs7679673和LMTK2基因rs6465657位點(diǎn)有協(xié)同作用,而PDLIM5基因rs17021918和NKX3-1基因rs1512268位點(diǎn)有更強(qiáng)的協(xié)同作用。
表1 MDR方法分析多位點(diǎn)交互作用的模型
圖2 PDLIM5(rs17021918)和 NKX3-1(rs1512268)基因交互作用分析單元格圖
圖3 TET2(rs7679673),LMTK2(rs6465657),8q24 區(qū)(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因交互作用分析樹(shù)狀圖
3.1 MDR是一種非參數(shù)、無(wú)需遺傳模式的分析方法,適用于病例對(duì)照研究或患病不一致同胞對(duì)設(shè)計(jì),只需具備各位點(diǎn)的遺傳數(shù)據(jù)(例如SNP),即可進(jìn)行基因-基因交互作用的分析,而無(wú)需其他特殊條件。與其他傳統(tǒng)的統(tǒng)計(jì)學(xué)建模方法相比,其優(yōu)點(diǎn)在于可以大大降低建模所需的自由度,MDR方法的主要特點(diǎn)是:①并不需要指定遺傳模式(顯性或隱性遺傳)和交互作用模型(線(xiàn)性或非線(xiàn)性模型,加法或乘法模型);②結(jié)合MDR Software程序包,可以識(shí)別多個(gè)SNP位點(diǎn)之間的高階交互作用。③在分析各因素、各水平問(wèn)交互作用時(shí)并不考慮主效應(yīng)。因此當(dāng)潛在的主效應(yīng)沒(méi)有統(tǒng)計(jì)學(xué)意義時(shí),它仍然可以發(fā)現(xiàn)高階交互作用。
3.2 MDR僅僅能發(fā)現(xiàn)交互作用,如果主效應(yīng)有意義時(shí),它不能揭示主效應(yīng);MDR發(fā)現(xiàn)交互作用的能力隨著研究因子數(shù)K的降低而減小,所以當(dāng)交互作用存在且是低維度時(shí),MDR幾乎無(wú)能為力[7];在處理高階交互作用的時(shí)候,很可能出現(xiàn)有的格子觀(guān)察值為零的情況:在病例和對(duì)照例數(shù)接近時(shí),按高危、低危進(jìn)行分類(lèi)是非常不穩(wěn)定的。
MDR方法適合對(duì)病例對(duì)照研究或患病不一致同胞對(duì)設(shè)計(jì)進(jìn)行2~6個(gè)基因位點(diǎn)或環(huán)境因素的交互作用分析,目前已成功應(yīng)用于散發(fā)性乳腺癌、心房顫動(dòng)和原發(fā)性高血壓等疾病的研究[8],但這也只是為研究遺傳流行病學(xué)交互作用提供一種可選擇的方法或策略。固然,它也有一些不足之處:當(dāng)主效應(yīng)或已知的協(xié)同作用存在時(shí),用MDR方法很難得到最終的模型,例如MDR提示最佳模型為四因子模型,但它并不能明確是四因子之間都有交互作用,還是兩組單獨(dú)的兩因子交互作用,抑或是兩個(gè)主效應(yīng)加上另外兩因子的交互作用等[9],并且MDR同樣也會(huì)受到遺傳異質(zhì)性的嚴(yán)重影響[10],必須引起注意。此外,等位基因關(guān)聯(lián)或連鎖不平衡對(duì)MDR效能和Ⅰ類(lèi)錯(cuò)誤的影響還未知,這特別是在評(píng)估位點(diǎn)內(nèi)交互(顯性、隱性)時(shí)更重要。提供關(guān)于效能和樣本量的詳細(xì)說(shuō)明也很重要,比如進(jìn)行3個(gè)、4個(gè),甚至10個(gè)位點(diǎn)交互作用的研究需要多少數(shù)據(jù)?一般認(rèn)為,幾乎沒(méi)有任何一種方法可以理想化地用于所有情況下的數(shù)據(jù)分析,而MDR更可能成為得到一致結(jié)果的幾種方法之一[11]。在后基因組時(shí)代,遺傳流行病學(xué)研究的主要目標(biāo)是了解各基因的功能,其中包括基因-基因、基因-環(huán)境之間復(fù)雜的交互作用。雖然目前尚不能奢望能夠完全解釋全部的基因-基因交互作用,但至少可能對(duì)多基因疾病中相對(duì)重要的一些交互作用予以探討,這也將有助于今后對(duì)多基因疾病更全面的認(rèn)識(shí)。當(dāng)然,對(duì)于簡(jiǎn)單的基因-基因的統(tǒng)計(jì)學(xué)交互作用的研究。
1 Ritchie MD,Hahn LW,Roodi N,et al.Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J].Am J Hum Genet,2001,69:138-147.
2 Nelson MR,Kardia SL,F(xiàn)errell RE,et al.A combinatorial partitioning method to identify multi locus genotypic partions that predict quantitative trait variation[J].Genome Res,2001,11:458-470.
3 HAHN,L,R1TCHIE,M.AND MOORE,J.Multifactor dimensionality reduction software for detecting gene-gene and gene-environment interaction [J].Bioinformatics,2003,19:376-382.
4 Moore,J.H.and William,S.M.New strategies for identifying gene-gene interactions in hypertension[J].Ann.Med,2002,34:88-95.
5 Moore,J.H.et al.Symbolic discriminate analysis of microarray data in autoimmune disease[J].Genet.Epidemi01,2002,23:57-69.
6 駱常好.懲罰logistic回歸與多因子降維法交互作用分析及其應(yīng)用[D].山西醫(yī)科大學(xué),2009.
7 MEE YOUNG PARK.Penalized logistic regression for detecting gene interactions[J].Biostatistics,2008,9(1):30-50.
8 Moore JH.Computational analysis of gene-gene interactions using multifactor dimensionality reduction [J].Expert Rev Mol Deign,2004,4:795-803.
9 Coffey CS,Hebert PR,Ritchie MD,et al.An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene interactions on risk of myocardial infarction:the importance of model validation [J].BMC Bioinformatics,2004,5:49.
10 Ritchie MD.Hahn LW.Moore JH.Power of multifactor dimensionality reduction for detecting gene-gene interactions in the presence of genotyping error,missing data,photocopy,and genetic heterogeneity[J].Genet Epidemiology,2003,24:150-157.
11 唐迅,李娜,胡永華.用多因子降維法分析基因-基因交互作用[J].中華流行病學(xué)雜志,2006,27(5):437-441.