国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

加權關聯(lián)共表達網(wǎng)絡在篩選致病候選基因上的優(yōu)勢分析

2013-10-27 02:30汪偉平汪曉銀華中農業(yè)大學理學院湖北武漢430070
長江大學學報(自科版) 2013年4期
關鍵詞:共表達相似性表型

王 駿,汪偉平,汪曉銀 (華中農業(yè)大學理學院,湖北 武漢 430070)

周 磊 (華中農業(yè)大學生命科學技術學院,湖北 武漢 430070)

加權關聯(lián)共表達網(wǎng)絡在篩選致病候選基因上的優(yōu)勢分析

王 駿,汪偉平,汪曉銀 (華中農業(yè)大學理學院,湖北 武漢 430070)

周 磊 (華中農業(yè)大學生命科學技術學院,湖北 武漢 430070)

面對多基因疾病的致病基因篩選的難題,加權關聯(lián)共表達網(wǎng)絡模型作為一種新的基于圖論和統(tǒng)計學的生物信息挖掘方法,較其他傳統(tǒng)方法以其較好的預測精確度,完備的生物學理論以及實現(xiàn)的簡潔可行,有著較好應用前景。重點將加權關聯(lián)共表達網(wǎng)絡與基于網(wǎng)絡距離和基于疾病表性相似性這2大主流方法進行實例對比分析,以體現(xiàn)加權關聯(lián)共表達網(wǎng)絡在致病候選基因篩選上的優(yōu)勢性。

加權關聯(lián)共表達網(wǎng)絡;基于網(wǎng)絡距離法;基于疾病表性相似性;致病候選基因

人類疾病的基因組學研究已進入到多基因疾病這一難點。由于多基因疾病既是最常見的又是人們了解最少的人類遺傳疾病,它們是多個基因相互作用所致,往往又不遵循孟德爾遺傳規(guī)律。這方面的研究需要在人群和遺傳標記的選擇、數(shù)學模型的建立、統(tǒng)計方法的改進等方面進行艱苦的努力[1]。

多基因疾病的遺傳異質性,基因上位顯性,低外顯率,表達多變性和基因多效性,以及環(huán)境因素的影響,這些因素使得尋找復雜疾病基因異常困難[2]。同時傳統(tǒng)疾病基因識別方法存在諸多局限性。一方面需要耗費大量人力物力搜集樣本并獲取數(shù)據(jù),而另一方面在實際中其定位精度往往難以滿足要求。

以真實生物系統(tǒng)為對象,通過建立一個能夠很好地反映生物系統(tǒng),具有有限參數(shù)的數(shù)學模型,并提供有效的計算方法,對限定關聯(lián)基因組區(qū)域的基因進行排序,篩選出與給定疾病最相關的基因,是目前解決這一問題的有效途徑。

1 基于網(wǎng)絡的疾病基因預測方法

由于基因與疾病關系在生物學上的復雜性,基于網(wǎng)絡的疾病基因預測模型被越來越多的學者所認可和接受?;诰W(wǎng)絡的疾病基因預測方法大體分為2類:基于網(wǎng)絡距離的方法和基于疾病表性相似性的網(wǎng)絡方法。這些方法的不同之處在于其基本假設和具體實現(xiàn)。

致病基因預測的一般框架如下:對給定的n個候選基因,其中包含一個或多個致病基因,預測的目標是通過某種模型賦予每個候選基因一個得分,使得致病基因得分盡量高。

1.1基于網(wǎng)絡距離的方法

基于網(wǎng)絡距離的方法的基本假設如下:同種疾病的致病基因在網(wǎng)絡中相互靠近。如果已知部分致病基因,則可根據(jù)其他基因到致病基因的距離對其他基因進行排序。如果沒有已知疾病基因,則需要依賴更多的數(shù)據(jù)[3]。

1)依賴已知致病基因 由于大約一半的人類疾病有至少一個已知的致病基因,對于這類疾病,對候選基因的打分可以看作一個信號在網(wǎng)絡中傳播的過程:已知致病基因作為信號源發(fā)出信號,信號沿著網(wǎng)絡中的路徑從一個節(jié)點傳播到相鄰節(jié)點,并且隨著傳播的進行即距離的增加,信號逐漸減弱。網(wǎng)絡中其他節(jié)點接收到的信號強弱則可以作為基因與疾病關系強度的一個估計。于是問題轉化為如何定義和使用網(wǎng)絡中的距離,方法有最近鄰近法和最短路徑法2種。

最近鄰近法僅考慮直接相互作用的基因,即一階鄰居之間距離為 1,而其余為無窮,實質是一種“數(shù)鄰居”的策略:如果一個基因周圍有很多致病基因,則該基因也很有可能是致病基因。該策略的性能依賴于相互作用數(shù)據(jù)(基因網(wǎng)絡)的選取,不同基因網(wǎng)絡數(shù)據(jù)之間的差別很大,但都大大優(yōu)于隨機挑選的結果。

最短路徑法更適用與不同基因在同一個蛋白復合體中,而不是同一個通路中。以最短路徑長度作為距離可以考慮到所有聯(lián)通的節(jié)點之間的影響。修正了最近鄰方法中的一些局限性,2個能相關的基因并不一定直接相互作用。這2個可能在同一個生物過程的不同時刻起作用,但仍然導致相同的疾病。

2)不依賴已知致病基因 基于網(wǎng)絡距離的方法在沒有'先驗基因'情況下雖然可依據(jù)同樣的假設,即疾病的致病基因相互之間存在緊密關聯(lián),來預測其致病基因。前提是至少有2個存在致病基因的連鎖區(qū)間,同時需要依賴更多的數(shù)據(jù),在預測的精確度上可能效果不如已知致病基因的情形。

1.2基于疾病表性相似性的網(wǎng)絡方法

基于疾病表性相似性的網(wǎng)絡方法的基本假設如下:功能相關的基因導致表型相似的疾病。即不僅同一種疾病的致病基因傾向于緊密相關,相似疾病的致病基因之間也存在一定程度的關聯(lián)[4]。

一個疾病可以用一組描述其臨床癥狀的詞匯來表示。基于這點,可以通過量化2個疾病之間癥狀的重合來量化其相似性,稱之為疾病的表型相似性。van Driel[5]等通過文本挖掘的方式計算了5080 種人類疾病之間兩兩的表型相似性。Lage[6]等提出了一種加權的最近鄰法,將表型相似性與最近鄰法相結合,即待研究基因致病的可能性由最近鄰所包含的致病基因決定,每個致病基因的權重為該基因導致的疾病與所研究的疾病之間的表型相似性。

2 加權關聯(lián)共表達網(wǎng)絡

使用網(wǎng)絡模型分析的思想雖已達到共識,但傳統(tǒng)方法中也存在著很多不完善的地方,致病基因預測的一般輸入數(shù)據(jù):疾病表型即疾病臨床表現(xiàn)、蛋白質相互作用關系以及疾病與基因的關聯(lián)信息數(shù)據(jù)。而以上研究中使用的網(wǎng)絡基本為基因網(wǎng)絡和疾病網(wǎng)絡,還有它們的關聯(lián)網(wǎng)絡。在基因網(wǎng)絡中,節(jié)點代表基因,而邊代表基因或其編碼的蛋白質之間的相互作用。在疾病網(wǎng)絡中,節(jié)點代表疾病,邊代表疾病之間的表型重疊[7]。

但在實際中,蛋白質相互作用關系數(shù)據(jù)并不算完備,疾病與基因的關聯(lián)信息只是部分目前已知的有顯著關系的基因與疾病。即其方法最終的精確度一定程度上取決于作為輸入的已知信息量的大小。也正如基于網(wǎng)絡距離的方法,必須依賴至少一個已知的致病基因才有較好的應用?;诩膊”硇韵嗨菩缘木W(wǎng)絡方法,其預先輸入的表型相似性矩陣也是較主觀的,雖然給最近鄰法加了權重,但仍避免不了最近鄰法的局限性。

新的已知信息的補充和完善有一定的客觀性,對于科學研究來說,用已知或先驗來預測未知,其實現(xiàn)過程方法不論如何改進,已知或先驗的信息量大小及其客觀性對預測精度有較大影響的事實是不會變的。那么不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且理論完備符合生物學原理的方法是有待探討的。加權關聯(lián)共表達網(wǎng)絡正是這樣一種方法[8-9],以下結合實例說明。

3 實例分析

3.1數(shù)據(jù)預處理

所需數(shù)據(jù)為目標疾病的所有n個致病候選基因在不同個體樣本上的基因表達譜,近年來隨著DNA微陣列技術的發(fā)展,在基因表達譜的提取上帶來了便利。由此得到矩陣X=(xij)n×m,n表示致病候選基因數(shù)目,m為樣本數(shù),每個基因即為網(wǎng)絡結點。另外樣本特征T=(tk)1×m,tk可取一定范圍內的實數(shù),表示疾病狀態(tài)。

由于相似性變換與通過實驗得到的基因表達譜具有一致性,即能在盡量小的信息損失下生成基因間的相似性矩陣,具體可以使用Pearson或Jacknife的相關性檢驗系數(shù),最后得到相似性矩陣(Sij)n×n。

3.2鄰接陣轉換

加權網(wǎng)絡的實質從圖論的觀點來說為賦權圖,即表現(xiàn)為基因的鄰接矩陣,將(Sij)n×n向鄰接陣轉換,轉化函數(shù)一般采用Sigmoid和Power,得到鄰接矩陣(aij)n×n。

值得說明的是,上述轉化函數(shù)的參數(shù)的選取是依據(jù)構建出的網(wǎng)絡,符合最佳貼近無尺度拓撲網(wǎng)絡的原則,即選參中使用了回歸的方法,這也是該方法的創(chuàng)新之一。

近年來很多復雜網(wǎng)絡被發(fā)現(xiàn)有無尺度拓的特性,表現(xiàn)為在其結點度分布沒有一個特定的平均值指標,即大多數(shù)節(jié)點的度在此附近,度分布時,其遵守冪律分布。在視圖中表現(xiàn)為大部分節(jié)點只有少數(shù)幾個連結,而某些節(jié)點卻擁有與其他節(jié)點的大量連結。目前已證實生物代謝網(wǎng)絡也具有上述性質。即該基因共表達網(wǎng)絡建立時應以滿足生物網(wǎng)絡具有的無尺度拓撲的標準,否則建立的網(wǎng)絡是違背生物學原理。在此假設下采用冪律分布的表征特點經行回歸的方法選取構建網(wǎng)絡時的參數(shù)。

3.3拓撲重疊差異性量度矩陣

3.4網(wǎng)絡聚類和模塊識別

對差異性度量矩陣采用系統(tǒng)聚類或層次聚類的方法,進行模塊識別。模塊是指具有高度拓撲重疊性質的集群。生物學解釋為導致外部病癥急劇變化的基因會聚集在一起。

圖1 基因的聚類分析及模塊顏色標注

圖2 模塊與致病特性的相關性

圖1是以糖尿病致病基因篩選為例,依據(jù)基因的差異性量度矩陣進行層次聚類的樹狀圖,圖1的顏色標注表示不同樹狀分支所屬的模塊。實例所選基因數(shù)為7023個,最終得到13個模塊,說明基因的聚類效果好,很好的構建出了符合生物代謝網(wǎng)絡無尺度的特性。即模型既符合生物學假設,并且對原始數(shù)據(jù)經行變換后,使其變成了易于反映數(shù)據(jù)內部本質特征的形式,對后續(xù)的數(shù)據(jù)分析工作帶來了便利。

3.5關聯(lián)外部信息

模塊核心基因E定義為該模塊內的基因的表達矩陣的第一主成份基因。

模塊關系指數(shù)MMblue(i):

MMbiue(i)=cor(xi,Eblue)

描述基因i與blue模塊的模塊核心基因Eblue的相關性。模塊重要性度量即為該模塊的核心基因與樣本特征T的相關性,即不同基因的致病可能性的得分。

為了區(qū)分方便,分別為模塊命名并計算其樣本特征T的相關性(見圖2),找到與外部病癥相關最高的模塊,同時可以得出該模塊中各基因的致病得分,得到數(shù)目比其他方法少的致病基因,為后續(xù)進一步的生物實驗設計提供了依據(jù)。

4 結 語

綜上所述,加權關聯(lián)共表達網(wǎng)絡與傳統(tǒng)基因網(wǎng)絡方法相比,不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且采用最新生物網(wǎng)絡的無尺度特性的假設建立簡單可行模型,通過事實證明了其在致病候選基因篩選上的優(yōu)勢。

[1]龐樂君.基因組學和蛋白質組學對新藥研發(fā)的影響[D].中國人民解放軍軍事醫(yī)學科學院,2005.

[2]范巍.基因分型錯誤對病例對照方法估計疾病外顯率的影響研究[D]. 楊凌:西北農林科技大學,2011.

[3]彭佳揚.代謝網(wǎng)絡中功能模塊挖掘和進化分析研究[D].長沙:中南大學,2011.

[4]王宗堯.基于蛋白質網(wǎng)絡的人類遺傳致病基因預測算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2011.

[5]van Driel M A. A new web-based data miningtool for the identification of candidate genes for human genetic disorders[J].EurJ Hum Genet,2003,11: 57-63.

[6]Lage K, Karlberg E O, Storling Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007, 25: 309-316.

[7]Zhang B, Horvath S.A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology,2005,4(1):1128-1128.

[8]Langfelder P,Horvath S.WGCNA: an R package for weighted correlation network analysis[J].BMC Bioinformatics,2008,9(1):559-559.

[9]Li A, Horvath S.Network neighborhood analysis with the multi-node topological overlap measure[J]. Bioinformatics,2007, 23(2): 222-231.

2012-11-26

湖北省自然科學基金項目(2011CDB152);國家大學生創(chuàng)新性實驗計劃項目(1210504024)。

王駿(1990-),男,碩士生,現(xiàn)主要從事數(shù)學建模方面的研究工作。

汪曉銀(1971-),男,博士,教授,現(xiàn)主要從事數(shù)學建模方面的教學與研究工作;E-mail:wxywxq@163.com。

O29

A

1673-1409(2013)04-0036-04

[編輯] 洪云飛

猜你喜歡
共表達相似性表型
一類上三角算子矩陣的相似性與酉相似性
UdhA和博伊丁假絲酵母xylI基因共表達對木糖醇發(fā)酵的影響
侵襲性垂體腺瘤中l(wèi)ncRNA-mRNA的共表達網(wǎng)絡
淺析當代中西方繪畫的相似性
建蘭、寒蘭花表型分析
低滲透黏土中氯離子彌散作用離心模擬相似性
中國流行株HIV-1gag-gp120與IL-2/IL-6共表達核酸疫苗質粒的構建和實驗免疫研究
共表達HIV-1與IL-6核酸疫苗質粒誘導小鼠免疫原性的研究
GABABR2基因遺傳變異與肥胖及代謝相關表型的關系
慢性乙型肝炎患者HBV基因表型與血清學測定的臨床意義
姚安县| 西华县| 达尔| 和田县| 疏附县| 白城市| 赤壁市| 泊头市| 偃师市| 达州市| 贡山| 龙南县| 莱芜市| 潼南县| 扎兰屯市| 应城市| 广德县| 峡江县| 石台县| 温州市| 伊金霍洛旗| 安远县| 广饶县| 郁南县| 界首市| 姜堰市| 民丰县| 那曲县| 乌拉特中旗| 宁武县| 从化市| 新昌县| 岢岚县| 漳州市| 垫江县| 靖远县| 齐齐哈尔市| 吴川市| 涪陵区| 丰都县| 郑州市|