国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

校正腫瘤純度影響的差異表達(dá)基因分析

2018-11-12 01:53:52張偉偉吳志強(qiáng)
關(guān)鍵詞:純度線性癌癥

張偉偉, 吳志強(qiáng)

(東華理工大學(xué) 理學(xué)院,江西 南昌 330013)

癌癥是一類由于細(xì)胞分裂和凋亡機(jī)制失常而導(dǎo)致的疾病,通常表現(xiàn)為惡性腫瘤(Hanahan et al., 2011)。差異表達(dá)的基因可能直接或間接關(guān)系到癌癥的發(fā)生和易感性。差異表達(dá)基因的檢測能夠從基因?qū)哟谓沂景┌Y的發(fā)生機(jī)理并且能夠更好地探索癌癥治療的新方法(Wu et al., 2013)。

腫瘤樣本的差異表達(dá)分析通常是將腫瘤樣本和正常樣本直接進(jìn)行比對。然而,臨床上獲得的腫瘤組織往往包含不同比例的正常細(xì)胞,如果不考慮正常細(xì)胞的混入,直接進(jìn)行差異甲基化/基因表達(dá)或樣本聚類等下游分析,勢必會導(dǎo)致結(jié)果出現(xiàn)偏差甚至錯誤。在表觀遺傳層面上,針對腫瘤純度導(dǎo)致差異甲基化分析出現(xiàn)偏差的問題,Zheng等(2017)提出了腫瘤純度校正的差異甲基化分析模型 InfiniumDMC。Zhang等(2017)提出了一種考慮腫瘤細(xì)胞純度的腫瘤樣本亞型聚類方法 InfiniumClust。同樣,腫瘤樣本的“不純”也會使腫瘤樣本在基因上的均值估計產(chǎn)生偏差,進(jìn)而導(dǎo)致差異表達(dá)分析結(jié)果出現(xiàn)偏差。為此Aran等(2015)將腫瘤純度作為線性“協(xié)變量”加入回歸模型,盡管這樣做得到了更多差異表達(dá)的基因。但是,通過分析發(fā)現(xiàn),腫瘤純度與基因差異之間的關(guān)系是乘性的而非原來認(rèn)為的線性關(guān)系。忽視腫瘤純度,或者將腫瘤純度作為“協(xié)變量”加入回歸模型都會使差異分析結(jié)果出現(xiàn)偏差。

為解決上述問題,本文在正態(tài)分布假設(shè)下構(gòu)建了腫瘤樣本基因表達(dá)量的混合概率模型,通過廣義最小二乘法和Wald檢驗來確定每個基因在癌癥和正常細(xì)胞之間的差異性,并通過TCGA數(shù)據(jù)分析來說明所提模型的優(yōu)越性。

1 考慮腫瘤細(xì)胞純度的差異表達(dá)基因模型

基因的原始數(shù)據(jù)不服從正態(tài)分布,經(jīng)過log2變換后數(shù)據(jù)的正態(tài)性會變強(qiáng)。圖1以肺腺癌為例,圖1a顯示肺腺癌正常樣本變換前后基因正態(tài)分布擬合檢驗的統(tǒng)計量,每個點代表一個基因,顯然變換后的統(tǒng)計量變得更加小,特別是對于那么違反正態(tài)假設(shè)的基因,因此log2變換有助于數(shù)據(jù)正態(tài)化。其次,對變換后的正常樣本進(jìn)行正態(tài)分布擬合檢驗,圖1b顯示大部分p值均分分布,這表明正態(tài)分布假設(shè)對于絕大多數(shù)基因是成立的。雖然有一小部分基因具有較小的p值,但這些基因可能是正常樣本中不同細(xì)胞的差異表達(dá)基因。因此,在以下模型假設(shè)中可以將每個基因在正常樣本中的表達(dá)量假設(shè)成一個單一的正態(tài)分布。

圖1 正常樣本上所有基因正態(tài)分布檢驗的p值和統(tǒng)計量Fig.1 P-values and statistics for the normal distribution of all genes in normal samples

Yis′ =(1-λs)Xis+λsYis

=(1-λs)Xis+λs(Xis+δis)

=Xis+λsδis

令Zi=[Xi1,Xi2,…,Xin0,Yi1′,Yi2′…,Yin1′]。其中前n0項為正常樣本的基因表達(dá)量,后n1項為腫瘤樣本的基因表達(dá)量。上述問題變?yōu)榫€性模型Zis=mi+asμi+s,s=1,2,…,n0+n1。模型的參數(shù)可以通過廣義最小二乘法來求解,令

把腫瘤純度作為線性模型的一個實驗設(shè)計因子引入,會降低腫瘤樣本的內(nèi)部方差,因此,從理論上來說對于差異表達(dá)基因的估計會有所提升。選取 InfiniumPurify估計的腫瘤細(xì)胞純度數(shù)據(jù),并將所提方法命名為LinReg,通過與limma (Ritchie et al., 2015)在TCGA的14種癌癥類型(正常樣本數(shù)量超過10個的癌癥類型)上的差異分析比較來說明所提方法的優(yōu)越性。

2 TCGA腫瘤樣本差異表達(dá)基因分析結(jié)果

圖2 兩種方法在不同癌癥類型中各指標(biāo)比對圖Fig.2 Comparison diagram of the two methods in different cancer types

首先,把每一種癌癥類型的腫瘤樣本隨機(jī)平均分成兩份,將這兩份腫瘤樣本分別和正常樣本利用limma和LinReg進(jìn)行差異表達(dá)基因分析(圖2)。在同樣的顯著性指標(biāo)下(FDR < 0.001),對每一種方法將這兩組探測到的差異表達(dá)基因取交集,并且來比較一下交集中所包含的基因的數(shù)量。圖2a顯示對于絕大多數(shù)TCGA的癌癥類型,線性模型比limma得到了更多的交集基因,表明線性方法相比較limma具有更好的探測出診斷生物標(biāo)志物的性能。接下來比較這兩種方法在同樣的顯著性指標(biāo)下(FDR < 0.001)得到的差異表達(dá)的基因數(shù)量。如圖2b所示,對于絕大多數(shù)TCGA的癌癥類型,線性模型比limma得到了更多的差異表達(dá)的基因,表明線性方法敏感性更強(qiáng)。雖然不同癌癥類型具有不同的病理學(xué)基礎(chǔ)和差異表達(dá)的基因,但從整體上看,不同癌癥類型應(yīng)具有一些相同點,這些共有的性質(zhì)會帶來癌癥類型之間較高的統(tǒng)計量相關(guān)性。圖2c中列舉了不同癌癥類型與其他癌癥類型的平均統(tǒng)計量相關(guān)性,結(jié)果同樣表明線性方法比limma的相關(guān)性更強(qiáng),說明其更具一致性。最后,來分析一下差異表達(dá)基因的生物學(xué)意義。選取FDR最小的前2 000個基因,將這2 000個基因與KEGG的“PATHWAY_IN_CANCER”上的328個基因取交集,來看一下這14種癌癥上兩種方法的交集基因個數(shù)。圖2d顯示線性方法在BLCA,BRCA,ESCA,KICH,KIRC,LIHC,LUSC,PRAD,STAD和UCEC這10種癌癥上具有更多的交集中的基因,其中LinReg在UCEC上的交集基因的個數(shù)幾乎是limma的5倍。這些結(jié)果說明線性方法得到的基因更具有生物學(xué)意義,這些基因?qū)τ诎┌Y診斷和治療具有重要意義。

圖3 只被線性方法探測到的差異表達(dá)的基因與腫瘤純度的關(guān)系Fig.3 The relationship between differentially expressed genes only detected by linear method and tumor purities

為了更好地理解腫瘤純度在差異表達(dá)基因分析中所起的作用,本文任意選取了一個只能被LinReg探測到差異的基因來研究該問題。圖3左面面板顯示該基因log2變換后在腫瘤樣本和正常樣本的表達(dá)量分布,該基因的均值在兩組之間是沒有差異的,limma檢驗的p值為0.872;中間的面板顯示該基因在腫瘤樣本上log2變換后的表達(dá)量和腫瘤樣本純度的相關(guān)系數(shù),相關(guān)系數(shù)達(dá)-0.67;右面面板顯示校正腫瘤純度后,兩組之間均值有明顯差異,利用LinReg進(jìn)行檢驗發(fā)現(xiàn)p=9.41×10-33。這些結(jié)果說明腫瘤樣本間較大的組內(nèi)方差是由于腫瘤樣本的純度引起的,因此利用癌旁的正常樣本進(jìn)行線性提純后,發(fā)現(xiàn)該基因在兩組之間具有明顯差異,這個結(jié)果進(jìn)一步說明了差異分析時校正腫瘤純度的必要性。

3 結(jié)論

本文針對腫瘤樣本“不純”導(dǎo)致差異分析結(jié)果出現(xiàn)偏差的問題,構(gòu)建了腫瘤樣本基因表達(dá)量的混合概率模型。該模型是把腫瘤純度作為影響差異表達(dá)基因分析的因素引入差異分析,相比直接使用腫瘤樣本作為癌癥細(xì)胞樣本與正常樣本直接比對的方法更加合理,有效避免了因為腫瘤樣本“不純”而導(dǎo)致差異表達(dá)分析出現(xiàn)的偏差。同樣腫瘤純度也影響著基因共表達(dá)網(wǎng)絡(luò)和共甲基化網(wǎng)絡(luò),計劃將

在進(jìn)一步工作中構(gòu)建腫瘤純度校正的基因共表達(dá)網(wǎng)絡(luò)和共甲基化網(wǎng)絡(luò),并分析其與傳統(tǒng)的共表達(dá)/共甲基化網(wǎng)絡(luò)在功能模塊分析中的差異。

猜你喜歡
純度線性癌癥
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
退火工藝對WTi10靶材組織及純度的影響
線性回歸方程的求解與應(yīng)用
留意10種癌癥的蛛絲馬跡
二階線性微分方程的解法
癌癥“偏愛”那些人?
海峽姐妹(2018年7期)2018-07-27 02:30:36
對癌癥要恩威并施
特別健康(2018年4期)2018-07-03 00:38:08
不如擁抱癌癥
特別健康(2018年2期)2018-06-29 06:13:42
色彩的純度
童話世界(2017年29期)2017-12-16 07:59:32
間接滴定法測定氯化銅晶體的純度
高唐县| 吴桥县| 全南县| 滨州市| 金湖县| 包头市| 建昌县| 甘肃省| 方城县| 承德市| 华池县| 涟水县| 新田县| 小金县| 镇坪县| 历史| 普兰店市| 伊川县| 新田县| 衡东县| 三台县| 阜平县| 元阳县| 马尔康县| 惠来县| 景德镇市| 天长市| 莎车县| 石棉县| 雅安市| 禄劝| 灵璧县| 迁西县| 常德市| 黄龙县| 桂林市| 崇礼县| 灌南县| 灌云县| 巨鹿县| 西藏|