国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于小波的腫瘤基因表達(dá)數(shù)據(jù)聚類分析模型

2011-01-31 06:12:02黃文佳馮鐵男王翼飛
關(guān)鍵詞:噪音結(jié)腸癌聚類

黃文佳, 馮鐵男, 王翼飛

(上海大學(xué)理學(xué)院,上海200444)

基因芯片(gene chips)是目前最主要的且發(fā)展最早、最快的生物芯片[1].將待測樣本標(biāo)記后與基因芯片進(jìn)行雜交,經(jīng)激光共聚焦熒光掃描儀掃描,通過電腦系統(tǒng)處理、分析即可得到相應(yīng)的信號值.信號值代表了結(jié)合在探針上的待測樣本中特定大分子的信息,從而可檢測對應(yīng)片段是否存在及存在量的多少.狹義的基因芯片又叫DNA微陣列(DNA microarray),主要包括cDNA微陣列和寡核苷酸微陣列.

DNA芯片技術(shù)作為一種高通量的基因表達(dá)分析平臺,通過一次試驗就能獲得成千上萬個基因的表達(dá)數(shù)據(jù),該技術(shù)已被廣泛應(yīng)用于生物醫(yī)學(xué)、疾病診斷和藥物篩選等多個領(lǐng)域[2].由于基因表達(dá)的信號值常常受到噪音的污染,而傳統(tǒng)的研究方法無法將其去除,因此經(jīng)常在發(fā)現(xiàn)特異表達(dá)基因時出現(xiàn)較高的假陽性,降低了樣本聚類的準(zhǔn)確率,并且對研究基因表達(dá)模式、提取分類特征基因等帶來了一定的困難.

小波變換(wavelet transformation)是空間(時間)和頻率的局部變換,因而能有效地從信號中提取信息,通過伸縮和平移等運算功能,可對函數(shù)或信號進(jìn)行多尺度的細(xì)化分析,特別適用于非穩(wěn)定信號的信息提?。?].

為解決聚類過程中存在的一些問題,本研究通過對基因表達(dá)數(shù)據(jù)進(jìn)行小波變換,降低表達(dá)值中的噪音,從而為提取出基本信息建立了一種新的聚類分析模型.通過該模型選取的特異表達(dá)基因,對于腫瘤樣本的分類、腫瘤疾病的診斷和治療都具有重要意義.

1 聚類分析模型

1.1 傳統(tǒng)的腫瘤聚類分析模型

腫瘤聚類分析模型[4]假設(shè)具有相同或相似表達(dá)模式的基因功能相同或相近,因此通過聚類分析可以將基因分為不同的類型,同時選取出少量的特異表達(dá)基因?qū)颖具M(jìn)行聚類.

腫瘤聚類分析模型的主要流程如下:①獲取基因表達(dá)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理和歸一化;② 依次計算每個基因的綜合屬性,將每個基因在不同樣本中的表達(dá)值轉(zhuǎn)化為一個數(shù)值;③選取少量的特異表達(dá)基因,選擇一種聚類分析方法對基因和樣本分別進(jìn)行聚類,將表達(dá)模式相似的基因聚為一類,這些基因可能具有相同或相似的功能.通過對樣本聚類,可以將正常樣本聚為一類或?qū)⒓膊颖揪蹫橐活?,也可將疾病樣本分為不同的疾病亞型,這將為進(jìn)一步深入研究腫瘤疾病提供重要的信息.

1.2 改進(jìn)的聚類分析模型

傳統(tǒng)的腫瘤聚類分析模型由于芯片的背景噪音等常會產(chǎn)生假陽性,導(dǎo)致較高的錯聚率.本研究建立了一種改進(jìn)的聚類分析模型(見圖1),其創(chuàng)新點在于運用小波變換的方法來降低噪音.通過小波變換,可以有效去除假陽性的差異表達(dá)基因,從而降低樣本的錯聚率.這里的錯聚率是指聚到錯誤類別的樣本個數(shù)占樣本總數(shù)的比率.

1.2.1 基因排序

對基因表達(dá)數(shù)據(jù)集的每一行(即一個基因在不同樣本中的表達(dá)值)進(jìn)行逐個記分,得分越高則基因的差異表達(dá)程度越高.將基因按照記分高低排序,挑選得分高的基因作為特異表達(dá)基因.

圖1 腫瘤基因表達(dá)數(shù)據(jù)聚類分析模型Fig.1 Cluster analysis model of tumor gene expression data

1.2.2 耦合雙向聚類

耦合雙向聚 類(coupled two-way clustering,CTWC)是Getz等[7]提出的一種無監(jiān)督聚類框架.該聚類方法是一個迭代的過程,通過采用啟發(fā)式的方法尋找由穩(wěn)定的樣本簇和基因簇構(gòu)成的子矩陣,從而得到穩(wěn)定的聚類結(jié)果.該方法動態(tài)地利用了樣本簇和基因簇之間的關(guān)系,交替地使用基因簇作為特征聚類樣本或者使用樣本簇作為特征聚類基因,最終得到生物學(xué)上相關(guān)的基因聚類簇和樣本聚類簇[8].

本研究選定的錯聚率閾值為15%.若樣本聚類的錯聚率低于閾值,說明該數(shù)據(jù)集存在的噪音不大,無需進(jìn)行小波變換來降低噪音;若高于閾值,說明該數(shù)據(jù)集存在較大的噪音,需要通過小波變換來降低噪音.

1.2.3 小波變換

若基因表達(dá)數(shù)據(jù)存在較大的噪音,則需采用一種科學(xué)的數(shù)據(jù)處理方法來降低噪音.小波變換作為近年來信號去噪的一個有力工具,能以非常小的失真度實現(xiàn)對信號的壓縮與消噪[9],其表達(dá)式為C(scale,time_position)=∫f(τ)Ψ(scale,τ)dτ.通過小波變換,信號可以被分解為高頻部分和低頻部分.對于被噪音污染的信號,小波將其分解為代表近似信號特征的低頻部分和代表噪音及擾動的高頻部分[4,10].

本研究采用雙正交小波3.3(biorthogonal wavelet 3.3)進(jìn)行3個層次的離散小波變換(見圖2).通常經(jīng)小波變換后,信號的噪音可被有效地降低.小波將該信號值進(jìn)行了3層分解,即

其中A1層保留了信號的基本特征,A2和A3層只保留了少量的低頻信號,D1,D2和D3層包含了原始信號在不同層次下的噪音及擾動信號.本研究選用A1層近似表示基因的原始信號值并對其進(jìn)行分析.

圖2 對原始信號進(jìn)行3個層次的離散小波變換Fig.2 Using discrete wavelet to transform the original signal at level 3

1.2.4 剔除相關(guān)性強的基因

由于通過RFSC篩選出的特異表達(dá)基因中可能存在功能相同或相似的基因,即存在一定的冗余基因;而從生物學(xué)的角度分析,基因之間存在調(diào)控和相互作用,這在表達(dá)譜中反映為不同基因在表達(dá)水平上存在一定程度的相關(guān)性[4],據(jù)此可以進(jìn)行冗余基因的排除.

算法的主要步驟如下:①計算特異表達(dá)基因兩兩之間的相關(guān)系數(shù),若有n個特異表達(dá)基因,則計算n(n+1)/2次;②對計算出的基因兩兩之間的相關(guān)系數(shù)進(jìn)行排序,挑選出相關(guān)系數(shù)最高的2個基因,剔除得分較低的基因;③ 再次進(jìn)行聚類,當(dāng)樣本錯聚率高于閾值時,返回到步驟②,當(dāng)樣本錯聚率低于閾值時,停止;④找出樣本錯聚率達(dá)到最低時的最少基因數(shù)目,將這些基因作為特異表達(dá)基因.

第i和第j個基因的相關(guān)系數(shù)的計算公式為

當(dāng)i=j時,基因的自相關(guān)系數(shù)rij=1;當(dāng)i≠j時,rij的取值在0~1之間.

2 應(yīng)用算例

2.1 材料

本研究以腫瘤基因表達(dá)譜為研究對象,選取Alon等[11]公布的結(jié)腸癌基因表達(dá)數(shù)據(jù)集作為分析數(shù)據(jù).該數(shù)據(jù)包含62個樣本(數(shù)據(jù)的下載地址為http://microarray.princeton.edu/oncology/affydata/ index.html),每個樣本均含2 000個基因的表達(dá)數(shù)據(jù),其中40個樣本被診斷為結(jié)腸癌(Tumor),其余22個樣本為正常樣本(Normal).

2.2 分析過程與結(jié)果

本研究以上述結(jié)腸癌基因表達(dá)數(shù)據(jù)集為例來進(jìn)行實際分析.通過RFSC對結(jié)腸癌數(shù)據(jù)集的每個基因進(jìn)行打分,從2 000個基因中挑選出39個得分最高的特異表達(dá)基因.

2.2.1 選取特征基因

對39個結(jié)腸癌特異表達(dá)基因及62個樣本進(jìn)行耦合雙向聚類,得到的樣本聚類圖如圖3所示,其中圖3(a)由未經(jīng)小波處理挑選出的特異表達(dá)基因聚類得到,樣本錯聚率達(dá)到33.87%,圖3(b)由經(jīng)過小波處理后挑選出的特異表達(dá)基因聚類得到,樣本錯聚率為11.29%.由圖可見,通過小波處理有效地降低了原始信號的噪音以及樣本的錯聚率,對比之前未經(jīng)小波變換處理的原始信號,處理后的信號通過耦合雙向聚類得到了更好的效果.

圖3 耦合雙向聚類得到的結(jié)腸癌樣本聚類圖Fig.3 Cluster tree of colon samples through CTWC

2.2.2 剔除假陽性基因

經(jīng)過小波變換后,部分假陽性基因被有效剔除.探針號為R99907的基因在未經(jīng)小波變換處理之前被判定為特異表達(dá)基因,但通過小波變換對該基因的信號值進(jìn)行2層分解(見圖4)后,該基因被認(rèn)定為冗余基因而被剔除.從圖4可以看出,有一個正常樣本的表達(dá)值達(dá)到了2 029.322,遠(yuǎn)遠(yuǎn)高于其他19個正常樣本的平均表達(dá)值70.186.假設(shè)該樣本與其他樣本存在顯著差異,通過 t-檢驗得出該樣本(Normal-11)的p-value為5.588 6E-020(當(dāng)p-value<0.05,拒絕假設(shè)),因此該樣本與其他正常樣本不存在顯著差異,是一個被噪音污染的基因.另外,通過查詢NCBI數(shù)據(jù)庫可知,該基因為干擾素調(diào)節(jié)因子-2,是轉(zhuǎn)錄因子基因家族中的一員,其基因符號為IRF2.IRF2競爭性抑制IRF1介導(dǎo)轉(zhuǎn)錄激活的干擾素α和β,還具有組蛋白H4的轉(zhuǎn)錄激活因子的作用,但通過查詢結(jié)腸癌的基因調(diào)控通路,目前暫時還沒有發(fā)現(xiàn)該基因與結(jié)腸癌的發(fā)生有直接的聯(lián)系.

圖4 探針號為R99907的基因原始信號的小波多尺度分解圖Fig.4 Wavelet multiresolution decomposition of original signal of gene R99907

2.2.3 聚類結(jié)果分析

本研究通過建立一種聚類分析模型來分析結(jié)腸癌數(shù)據(jù)集.采用小波變換對表達(dá)信號值降噪,剔除了結(jié)腸癌特異表達(dá)基因中相關(guān)性強的基因,并從篩選出的39個特異表達(dá)基因中剔除了12個冗余基因,從中挑選出27個特異表達(dá)基因(見表1).通過對這27個特異表達(dá)基因及62個樣本進(jìn)行耦合雙向聚類,樣本的錯聚率為8.06%.聚類效果如圖5所示,圖中的第1~25行被聚為Normal類,第26~62行被聚為Tumor類.特異表達(dá)基因被聚為4類:第1~17列的基因被聚為1,2類,這2類基因在腫瘤樣本中相對下調(diào)表達(dá);第18~27列被聚為3,4類,這2類基因在腫瘤樣本中相對上調(diào)表達(dá).Alon等[11]提出可以依靠數(shù)量更少的基因?qū)颖具M(jìn)行聚類,并選出了500個基因進(jìn)行實驗,得到了較低的錯聚率.通過對比幾種不同的聚類模型(見表2)可知,改進(jìn)的聚類分析模型不但降低了樣本的錯聚率,也減少了對樣本進(jìn)行聚類的基因數(shù)量,改進(jìn)后的腫瘤聚類分析模型取得了較好的效果.

2.2.4 關(guān)于腫瘤基因表達(dá)譜的分析結(jié)果

(1)樣本聚類結(jié)果.

62個樣本聚類結(jié)果表明,所有樣本分類基本準(zhǔn)確,其中正類樣本(Normal)的錯聚率為4.54%,負(fù)類樣本(Tumor)的錯聚率為10.00%,總的樣本錯聚率為8.54%.

(2)特異表達(dá)基因.

根據(jù)分析結(jié)果可知,27個基因在結(jié)腸癌中差異表達(dá),其中17個基因在結(jié)腸癌樣本中相對下調(diào)表達(dá);10個基因相對上調(diào)表達(dá).在結(jié)腸癌中下調(diào)表達(dá)的基因主要有:細(xì)胞功能調(diào)控相關(guān)基因CRSP1;蛋白質(zhì)調(diào)控相關(guān)基因CDH3,CKS1B;蛋白質(zhì)編碼相關(guān)基因DES,MYL9,CLNS1A;核糖蛋白合成相關(guān)基因SND1;細(xì)胞通訊相關(guān)基因 ITGA6,轉(zhuǎn)錄相關(guān)基因FBL.下調(diào)表達(dá)的基因主要有:核酸和蛋白質(zhì)綁定功能、轉(zhuǎn)錄因子激活功能的基因PABPC1;離子膜轉(zhuǎn)運功能基因PLP2;編碼免疫蛋白的相關(guān)基因HSPD1;調(diào)節(jié)酶活性的相關(guān)基因ACHY.

本研究通過改進(jìn)的聚類分析模型所發(fā)現(xiàn)的27個特異表達(dá)基因在結(jié)腸癌中保持差異表達(dá),因此,可以推斷這些基因在正常組織癌變的過程中所起到的重要作用,與結(jié)腸癌的發(fā)生可能存在著密切的聯(lián)系.

表1 結(jié)腸癌數(shù)據(jù)集的特異表達(dá)基因Table 1 Specific expressed genes of colon tumor dataset

圖5 27個基因的耦合雙向聚類效果圖Fig.5 Cluster of 27 genes through CTWC

表2 幾種不同聚類分析模型的結(jié)果對比Table 2 Results contrast of different cluster analysis models %

3 結(jié)束語

近年來,研究基因表達(dá)數(shù)據(jù)的方法層出不窮,但對于如何從大量基因中剔除冗余基因、去除表達(dá)信號中的噪音仍然是研究的難題.本研究針對腫瘤基因數(shù)據(jù)的聚類問題所建立的模型只需提取少量的基因就能用于腫瘤樣本的聚類.但是在進(jìn)行小波變換去噪的過程中也可能將某些有意義的基因剔除,如果能夠構(gòu)造一種專門用于給基因表達(dá)數(shù)據(jù)去噪的小波,將有助于該模型成為基因表達(dá)數(shù)據(jù)分析的有力工具.

[1] 王翼飛,史定華.生物信息學(xué)——智能化算法及其應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2006:221-243.

[2] 李瑤.基因芯片數(shù)據(jù)分析與處理[M].北京:化學(xué)工業(yè)出版社,2006:162-180.

[3] 飛思科技產(chǎn)品研發(fā)中心.MATLAB6.5輔助小波分析和應(yīng)用[M].北京:電子工業(yè)出版社,2003:151-184.

[4] 王樹林.基于基因表達(dá)譜的腫瘤分類研究進(jìn)展[M]∥黃德雙,劉海燕,施蘊渝,等.生物信息學(xué)中的智能計算理論與方法研究.合肥:中國科學(xué)技術(shù)大學(xué)出版社,2007:56-64.

[5] GOLUBT R,SLONIMD K,TAMAPYOP,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.

[6] FUREYT S,CRISTIANININ,DUFFYN,et al.Support vector machine classification and validation of cancer tissue samples using microarray expression data[J].Bioinformatics,2000,16(10):906-914.

[7] GETZG,LEVINEE,DOMANYE.Coupled two-way clustering analysis of gene microarray data[J].PNAS,2000,97(22):12079-12084.

[8] 趙宇海,王國仁,印瑩.一種用于基因表達(dá)數(shù)據(jù)的無參數(shù)聚類算法[J].計算機應(yīng)用,2005,25(6):1388-1391.

[9] 冉啟文,譚立英.小波分析與傅里葉變換及應(yīng)用[M].北京:國防工業(yè)出版社,2002:52-87.

[10] RAINERK,GUNNARS,MARCUSO,et al.Discovering functional gene expression patterns in the metabolic network of Escherichia coli with wavelets transforms[J].BMC Bioinformatics,2006,7:119-132.

[11] ALONU,BARKAIN,NOTTERMAND A,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proc Nat Acad Sci USA,1999,96(12):6745-6750.

猜你喜歡
噪音結(jié)腸癌聚類
噪音,總是有噪音!
無法逃避的噪音
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
噪音的小把戲
白噪音的三種用法
Coco薇(2017年9期)2017-09-07 22:09:28
MicroRNA-381的表達(dá)下降促進(jìn)結(jié)腸癌的增殖與侵襲
結(jié)腸癌切除術(shù)術(shù)后護理
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
中西醫(yī)結(jié)合治療晚期結(jié)腸癌78例臨床觀察
扶绥县| 凉城县| 中方县| 陕西省| 长武县| 永平县| 遂平县| 唐河县| 盐津县| 中阳县| 洪江市| 息烽县| 绥芬河市| 盐源县| 襄垣县| 木兰县| 平顶山市| 龙里县| 松潘县| 梅州市| 海南省| 陆丰市| 沅江市| 渝中区| 茶陵县| 图们市| 喀喇沁旗| 客服| 会同县| 河间市| 广东省| 友谊县| 钟山县| 白山市| 赤水市| 宝山区| 丰顺县| 静宁县| 宁海县| 通榆县| 阳城县|