基于熵信息處理和PCA的腫瘤基因表達譜分類識別

2014-03-26 05:29汪沁紫鮑文霞

生物學(xué)雜志 2014年6期

汪沁紫，王年，宋豪，鮑文霞

(安徽大學(xué) 計算智能與信號處理教育部重點實驗室，合肥 230039)

腫瘤類型的識別一直是生物醫(yī)學(xué)研究的重點和難點。近年來隨著DNA微陣列技術(shù)[1]的發(fā)展，利用腫瘤基因表達譜進行深入地研究可以了解腫瘤的發(fā)生發(fā)展機制，有助于人們發(fā)現(xiàn)新的疾病亞型，進而提高治療效果。但是由于基因表達譜數(shù)據(jù)的分析難度遠遠超出傳統(tǒng)分析方法所能處理的范疇，因此采用快速有效的方法分類處理腫瘤基因?qū)ν七M腫瘤醫(yī)學(xué)的發(fā)展有至關(guān)重要的作用。

自從Golub等人[2]在1999年首次提出一種以“信噪比”為指標成功地對白血病的兩個亞型樣本進行分類研究以后，面對基因表達譜數(shù)據(jù)樣本少、維數(shù)高和冗余基因多等難題，諸多研究提供了新的思路。如2000年，Alizadeh等人[3]通過聚類分析的方法發(fā)現(xiàn)了兩種淋巴瘤的亞型；除此之外還出現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)法[4]、貝葉斯法[5]和支持向量機法[6]。隨著解決方案的不斷更新完善，能夠分析處理的能力也在不斷增強。2002年，Singh等人[7]利用“信噪比”為指標，結(jié)合K近鄰算法實現(xiàn)了對前列腺癌樣本進行了分類研究；孔薇等人[8]利用改進稀疏非負矩陣分解技術(shù)對乳腺癌基因表達譜數(shù)據(jù)進行雙向聚類從而挖掘與乳腺癌發(fā)病密切相關(guān)的基因及其生物過程；阮曉鋼等人[9]提出一種CLUSTER_S2N的方法對急性白血病的基因表達譜進行分類預(yù)測實驗。與此同時，近年來多種理論的融合方法也得到快速發(fā)展：像使用熵信息處理與支持向量機結(jié)合[10]的方法對前列腺癌基因表達數(shù)據(jù)進行了有效處理；結(jié)合了主成分與獨立成分分析方法被用于識別胃癌相關(guān)差異表達基因以提高結(jié)果的準確度和可信度[11]；以及鄰接矩陣分解結(jié)合主成分分析的方法尋找結(jié)腸癌信息基因等[12]。這些方法通常相對于單一理論，其效果具有一定的優(yōu)勢。

通過分析已有的腫瘤分類方法及考慮到基因表達譜研究的廣泛應(yīng)用前景和價值，本文提出一種基于熵信息處理和PCA理論對腫瘤基因進行分類處理的方法。首先對基因表達數(shù)據(jù)進行篩選并計算各個基因的熵，然后提取出熵最大的若干基因作為特征基因，為了進一步減少冗余，最后本文采用PCA方法進行降維處理從而得到樣本的主成分量。經(jīng)真實數(shù)據(jù)實驗及其他方法的對比，本文方法的有效性得到了驗證。

1 熵信息

熵信息[13]描述的是信源的不確定性，是信源中所有目標的平均信息量。這種信息度量的方法是由香農(nóng)( C E Shannon)提出的，一個消息出現(xiàn)的概率越小, 它所帶來的信息量就越大, 反之, 它所帶來的信息量就越小。近年來，熵信息的應(yīng)用[14-16]十分地廣泛。下面是熵信息的具體描述：熵信息在信息論中是作為度量信息量的一種尺度，變量的不確定性越大，熵就越大，則包含的信息量也就越大?，F(xiàn)假設(shè)基因變量X的概率分布為：

(1)

則X的熵信息定義如下形式：

(2)

對每個基因，計算相應(yīng)的H，依據(jù)H的大小對基因進行篩選, 挑選熵值大的基因作為特征基因。在本文實驗中，假設(shè)所有基因符合均值為μi，方差為0.5的正態(tài)分布，以此初步去除不相關(guān)基因從而達到數(shù)據(jù)規(guī)模的降低。

2 PCA

PCA，即主成分分析[17]，作為一種有效地線性數(shù)據(jù)壓縮和降維的工具，其應(yīng)用越來越廣泛[18-20]。其實質(zhì)是確定原變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij，把原來多個變量劃分為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法?，F(xiàn)就PCA給出如下簡要描述：假定有n個樣本，每個樣本有p個變量，構(gòu)成一個n×p階的數(shù)據(jù)矩陣X如下：

設(shè)xi,x2,…,xp為原變量指標，z1,z2,…,zm(m≤p)為新變量指標，滿足式(6)

(6)

其中系數(shù)lij的確定原則為：1)zi與zj(i≠j;i,j=1,2,…,m)相互無關(guān)；2)z1是x1,x2,…xp的一切線性組合中方差最大者；z2是與z1不相關(guān)的x1,x2,…,xp的所有線性組合中方差最大者；…；zm是與z1,z2,…,zm-1都不相關(guān)的x1,x2,…,xp的所有線性組合中方差最大者。則lij的計算為：

(7)

新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xp的第1，第2，…，第m主成分。一般取累計貢獻率達80%以上的特征值為λ1,λ2,…,λm所對應(yīng)的第1、第2、…、第m(m≤p)個主成分。

3 實驗

3.1 實驗步驟

本文以急性白血病基因表達譜數(shù)據(jù)以及前列腺癌基因表達譜數(shù)據(jù)為例。白血病基因表達譜數(shù)據(jù)中含有52個樣本，其中24個為急性淋巴性白血病(AML)，28個為急性粒性白血病(ALL)，每個樣本中含有12564個基因；前列腺癌基因表達數(shù)據(jù)共有102個樣本，其中正常樣本50個，癌癥樣本52個，每個樣本包含12600條基因(數(shù)據(jù)來自于http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi)。

分類算法具體步驟如下：

1)運用熵信息對超高維基因表達譜數(shù)據(jù)進行初選取，對所有基因進行重要性記分并按降序排列；得到特征基因子集；

2)由于特征基因子集間仍存在相關(guān)性，進而利用PCA對子集進行進一步冗余剔除；

3)利用SVM分類器對得到的無冗余且具有正交性信息的基因特征進行真實實驗驗證在各類中客觀地、真實地表達值，消去各種外界因素導(dǎo)致的出格點，即突變值；

4)對二組公開的基因表達譜數(shù)據(jù)集進行分類驗證并給出分析。

3.2 實驗結(jié)果與分析

本文首先利用熵信息處理對白血病數(shù)據(jù)集進行了實驗，保留了ALL類和AML類中客觀地基因表達值，同時剔除了一些異常值(即出格點)，再獲取基因特征子集，通過PCA方法的變換，將白血病樣本映射到一個低維特征空間，其實驗結(jié)果如圖1和圖2所示。

圖1 熵信息處理選取白血病數(shù)據(jù)80個基因的表達譜

圖2 3維空間下白血病樣本分布

利用熵信息方法對白血病樣本的每個基因進行重要性記分，降序排列后選取記分高的80個基因，通過顏色等級劃分并歸一化后顯示于圖1，由藍色趨紅表明基因表達值越來越大，同時可以發(fā)現(xiàn)有一定的顏色分塊現(xiàn)象，說明選取的基因具有較好的分類信息。但是選取的基因間仍然存在著信息冗余，導(dǎo)致顏色分塊現(xiàn)象還不夠顯著，因此通過主成分分析進行主要分類信息提取與冗余信息壓縮，在提取基因子集信息的主成分為3時，圖2給出了白血病樣本的空間位置分布，其中尤其是在第一主成分坐標軸上，所有ALL類樣本的PC-1<2，而所有AML 類樣本的PC-1>2，從而實現(xiàn)了一個很好的區(qū)分與識別。

圖3不同基因子集與不同主成分組合下的分類識別率

圖3給出了由不同規(guī)?；蜃蛹c不同主成分組合下的白血病數(shù)據(jù)分類效果，主成分個數(shù)PC-n小于6時，其識別率波動較大，但都呈現(xiàn)增長趨勢，隨著PC-n的增加，即使基因子集規(guī)模Gene-Subset不斷變化，其識別率都能穩(wěn)定在近乎100%，說明本方法識別白血病數(shù)據(jù)是有效的，可行的。

圖4 前列腺癌數(shù)據(jù)在不同特征基因子集下的分類結(jié)果

按同樣思路給出結(jié)腸癌數(shù)據(jù)的實驗結(jié)果，以實現(xiàn)正常樣本與癌癥樣本的正確識別。

在圖4的8個子圖中，前列腺癌數(shù)據(jù)分類識別率隨著PC-n的增加呈上升趨勢并趨于穩(wěn)定，當PC-n>8時，識別率均在90%左右，發(fā)現(xiàn)利用PCA選取有限個主分量就能較好地表達樣本特征，以及實現(xiàn)對數(shù)據(jù)中冗余信息的壓縮，最終得到較高地識別效果。

本文將Sigh等人[7]以“信噪比”作提取特征基因指標以及阮曉剛等人[9]提出了CLUSTER_S2N方法提取特征基因等方法與本文方法進行比較，結(jié)果如表1所示。

表1 實驗結(jié)果比較

近來，SVM作為一種流行的、有效的分類方法，得到了廣泛關(guān)注。同時SVM對高維小樣本的處理能力具有獨特的優(yōu)勢。因此，本文選用SVM方法來實現(xiàn)腫瘤的識別。經(jīng)過多次實驗， SVM在選則高斯核函數(shù)(σ=3)、C=200的參數(shù)設(shè)置下，上述3種方法都能等到較高且穩(wěn)定的識別率，由于本文主要是對比3種方法選取基因特征的有效性，所以對SVM不再過多闡述。本文方法與其他方法的對比結(jié)果如表1所示，可以發(fā)現(xiàn)本文的方法在識別精度上具有一定優(yōu)勢。在處理白血病數(shù)據(jù)時，由于本文方法很好地將熵信息處理和PCA方法的優(yōu)勢相結(jié)合，信息熵的算法在篩選基因時可以最大程度不損壞基因的總信息量，PCA算法則可以對篩選后的基因特征子集進行冗余信息的有效消除，其實驗結(jié)果可以達到100%。而對于樣本數(shù)較多的前列腺癌數(shù)據(jù)，其實驗結(jié)果中的正確率相比其他方法而言也是非?？捎^的。

4 結(jié)論

利用DNA微陣列，本文提出了一種結(jié)合熵信息處理和PCA技術(shù)的腫瘤分類方法，經(jīng)過實驗驗證了該方法對腫瘤類型識別的可行性與有效性。由于本方法利用了PCA除冗余，在處理信息量大的基因特征子集時會降低正確率，因此在第一步粗選取時特征基因子集的保留方法有待改善。

通過實驗證明了本方法對腫瘤類型識別的可行性與有效性，與其他方法相比具有一定的普適性。

參考文獻：

[1]楊春梅, 萬柏坤, 梁慧嬡，等. DNA微陣列技術(shù)及其在生物醫(yī)學(xué)中的應(yīng)用[J]. 國外醫(yī)學(xué).生物醫(yī)學(xué)工程分冊, 2002, 25(5): 203-206.

[2]Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring [J]. Science, 1999, 286(5439): 531-537.

[3]Alizadeh A A, Elsen M B, Davis R E, et al. Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J]. Nature, 2000, 403(12): 503-511.

[4]Khan J, Wei J S, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J]. Nature Medicine, 2001,7( 6): 673-679.

[5]Haferlach T, Kohlmann A, Wieczorek L, et al. Clinical utility of microarray-based gene expression profiling in the diagnosis and sub classification of leukemia: report from the international microarray innovations in Leukemia study group [J]. Journal of Clinical Oncology, 2010, 28 (15): 2529-2537.

[6]王晶, 周曠. 基于支持向量機的腫瘤基因識別[J]. 計算機與數(shù)字工程, 2011, 39(9): 3-6.

[7]Singh D, Febbo P G, Ross K, et al. Gene expression correlates of clinical prostate cancer behavior [J]. Cancer Cell, 2002, 1(2): 203-209.

[8]孔薇, 王娟, 牟曉陽. 基于改進稀疏非負矩陣分解方法的乳腺癌微陣列表達數(shù)據(jù)分析[J]. 安徽醫(yī)科大學(xué)學(xué)報, 2013, 48(7): 725-729.

[9]阮曉鋼, 晁浩. 腫瘤識別過程中特征基因的選取[J].控制工程，2007,14(4):373-380.

[10]莊振華, 王年, 李學(xué)俊, 等. 癌癥基因表達數(shù)據(jù)的熵度量分類方法[J]. 安徽大學(xué)學(xué)報, 2010, 34(2): 73-76.

[11]陳戰(zhàn)雷, 李博宇, 李益, 等. 結(jié)合主成分與獨立成分分析識別胃癌相關(guān)差異表達基因的方法研究[J]. 生物醫(yī)學(xué)工程學(xué)雜志, 2013, 30(5): 915-918.

[12]陳樂, 王年, 蘇亮亮, 等. 基于鄰接譜主分量分析的腫瘤分類方法[J]. 安徽大學(xué)學(xué)報:自然科學(xué)版, 2011, 35(4): 86-91.

[13]Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27: 379-423, 623-656.

[14]Wu Y, Zhou Y, Saveriades G, et al. Local Shannon entropy measure with statistical tests for image randomness [J]. Information Sciences, 2013, 222(10): 323-342.

[15]Liu C, Li K, Zhao L, et al. Analysis of heart rate variability using fuzzy measure entropy [J]. Computers of Biology and Medicine, 2013, 43(2): 100-108.

[16]Chou Y C, Yen H Y, Sun C C, et al. An integrate method for performance of women in science and technology based on entropy measure for objective weighting [J]. Quality & Quality , 2014, 48(1): 157-172.

[17]Abdi H, Williams L J. Principal component analysis [J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459.

[18]Ding S, Zhang P, Ding E, et al. On the application of PCA technique to fault diagnosis[J]. Tsinghua Science & Technology, 2010, 15(2): 138-144.

[19]Kremic E, Subasi A, Hajdarevic K, et al. Face recognition implementation for client server mobile application using PCA[J]. Information Technology Interfaces, 2012, 25(28): 435-440.

[20]Molenaar P, Wang Z, Newell K M. Compressing movement information via principal components analysis (PCA): contrasting outcomes from the time and frequency domains[J]. Human Movement Science, 2013, 32(6): 1495-1511.