左常玲, 夏百花
(安徽三聯(lián)學(xué)院電子電氣工程學(xué)院,安徽 合肥 230601)
在基因表達(dá)譜數(shù)據(jù)中,與腫瘤相關(guān)基因只占極少數(shù),大量基因在不同腫瘤、腫瘤亞型以及正常狀態(tài)下表達(dá)幾乎沒(méi)有變化。或受外界環(huán)境污染、技術(shù)限制、人為讀數(shù)錯(cuò)誤等影響而出現(xiàn)異常值,通常把這些基因記為噪聲。如果分析整個(gè)基因表達(dá)譜,則會(huì)使信息基因(能識(shí)別腫瘤類型的基因)被噪聲所淹沒(méi),使之無(wú)法有效從微陣列數(shù)據(jù)中獲取分類信息。
為更有效獲取信息基因,降低后續(xù)處理復(fù)雜度以及除去噪聲的影響,研究分為兩步:異常值基因的初步處理和基于圖譜性質(zhì)的信息基因的選取。
彌漫大B細(xì)胞淋巴瘤(DLBCL)的基因表達(dá)譜數(shù)據(jù)可描述為一個(gè)MatrixG=(gi,j)M×N,M、N分別為樣本規(guī)模和基因變量規(guī)模,首先進(jìn)行歸一化處理,如式(1)所示:
(1)
(2)
(3)
若(3)式成立,則消去該基因,從上式可以看出T是衡量一類中基因表達(dá)值偏離均值水平程度,T越大,表明該基因的表達(dá)情況越偏離均值水平,則視為異常值。實(shí)驗(yàn)中T取值1.1。
(1)構(gòu)建關(guān)系矩陣
對(duì)任意基因gj=[g1,jg2,j…gM,j]T,M表示樣本規(guī)模,將基因gj在樣本中的表達(dá)值看作為一個(gè)點(diǎn),其點(diǎn)間邊的權(quán)值wi,k為高斯權(quán)函數(shù),如(4)式所示:
(4)
接著構(gòu)建Laplace 矩陣:
(5)
則得到一個(gè)M×M關(guān)系矩陣R,該矩陣展現(xiàn)了基因在各樣本中表達(dá)值之間的親近關(guān)系。
(2)對(duì)關(guān)系矩陣進(jìn)行奇異值分解(SVD)
(3)構(gòu)建理想分類模板
分類問(wèn)題(只關(guān)注二分類問(wèn)題,多分類可以類推),其實(shí)可以看成是與分類模板之間的匹配問(wèn)題,提出的分類模板描述為:假設(shè)有若干樣本分屬A與B兩類,每個(gè)樣本有N個(gè)特征。A類有M1個(gè)樣本;B類有M2個(gè)樣本。針對(duì)某一特征可以設(shè)計(jì)出這樣一個(gè)分類模板:
圖1 理想分類模板示意圖
可以根據(jù)該特征來(lái)判定一未知樣本屬于A類,或者B類。
(6)
(4)計(jì)算模板與譜特征夾角系數(shù)
cos(SDLBCL,SDLBCL_Template)=
(7)
cos(SFL,SFL_Template)=
(8)
綜合DLBCL類與FL類譜特征與模板夾角系數(shù):
cos(S,S_Template)=κ×
cos(SDLBCL,SDLBCL_Template)+(1-κ)×
cos(SFL,SFL_Template)
(9)
(5)建立評(píng)價(jià)函數(shù),選取信息基因子集
好的信息基因,在不同類別中,d越大越好;同類中,cos(S,S_Template)越大越好,故構(gòu)建以下評(píng)價(jià)函數(shù),實(shí)現(xiàn)對(duì)信息基因的選?。?/p>
F_cost=η·d·cos(S,S_Template)
(10)
其中,η是放大因子,實(shí)驗(yàn)中η=100,便于評(píng)價(jià)函數(shù)的比較。對(duì)每個(gè)基因都進(jìn)行上述(1)~(5)步的計(jì)算,選取F_cost較大的作為信息基因子集,實(shí)現(xiàn)對(duì)基因表達(dá)譜數(shù)據(jù)的降維與噪聲的降噪處理。
利用當(dāng)前流行的分類器SVM進(jìn)行分類實(shí)驗(yàn),其核函數(shù)采用高斯核函數(shù),Sigma為高斯噪聲的標(biāo)準(zhǔn)差,實(shí)驗(yàn)步驟如下:
Step 1:對(duì)DLBCL數(shù)據(jù)進(jìn)行歸一化處理;
Step 2:對(duì)DLBCL數(shù)據(jù)的異常值初步處理;
Step 3:按照基于圖譜性質(zhì)的信息基因選取的(1)~(5)步驟實(shí)現(xiàn)信息基因的提?。?/p>
Step 4:運(yùn)用SVM實(shí)現(xiàn)DLBCL數(shù)據(jù)的分類,并作出分析。
圖譜方法作為一種新手段應(yīng)用于DLBCL的分類,實(shí)驗(yàn)了模擬數(shù)據(jù)以驗(yàn)證其可行性。模擬數(shù)據(jù)是由四組點(diǎn)集構(gòu)成,每組分兩類即A類與B類,數(shù)據(jù)是隨機(jī)產(chǎn)生,具體如表1所示:
表1 四組模擬數(shù)據(jù)
AB0、AB2、AB10和AB40四組數(shù)據(jù)的平面顯示,其A類與B類的可分性越來(lái)明顯,如圖2(a)所示;圖2(b)給出了對(duì)應(yīng)點(diǎn)集的特征值分布。
圖2(a) AB0、AB2、AB10和AB40點(diǎn)集分布圖。x、y表示點(diǎn)的坐標(biāo);圖2 (b) 為(a)對(duì)應(yīng)點(diǎn)集構(gòu)造Laplace圖后經(jīng)SVD分解得到的特征值分布,橫坐標(biāo)是特征值序號(hào),
圖3 選取不同信息基因數(shù)時(shí),SVM(Sigma=45)
對(duì)DLBCL數(shù)據(jù)的分類結(jié)果
圖4 選取170個(gè)信息基因,SVM高斯核中Sigma的不同
取值對(duì)分類正確率的影響
從模擬數(shù)據(jù)可以看出,類內(nèi)點(diǎn)越近,類間點(diǎn)越遠(yuǎn),則特征值分布展現(xiàn)出的兩條帶狀——A類與B類越明顯,從而驗(yàn)證了圖的譜特征分布可以很好的識(shí)別不同樣本類型。
如圖3所示,運(yùn)用提出的方法選取信息基因,在信息基因數(shù)L=60時(shí),準(zhǔn)確率已達(dá)到近90%,隨著信息基因數(shù)的增加,分類準(zhǔn)確率越來(lái)越高,當(dāng)L=170時(shí),77個(gè)樣本僅有1個(gè)被錯(cuò)分,隨后準(zhǔn)確率趨于穩(wěn)定。而圖4展示了變量Sigma變化對(duì)分類結(jié)果影響不大,分類準(zhǔn)確率都大于95%。
從圖3和圖4中可知,信息基因選取170時(shí),分類正確率達(dá)到最好的效果,表明了這170個(gè)基因包含了最多分類信息,故對(duì)這些基因分析其變化幅度如圖5所示:
圖5 170個(gè)信息基因的平均變化幅度
(每個(gè)基因都?xì)w一化到-1到1之間),即MCAGE
圖6 不同變化幅度范圍內(nèi),信息基因數(shù)統(tǒng)計(jì)
根據(jù)圖5對(duì)信息基因的平均變化幅度進(jìn)行統(tǒng)計(jì),MCAGE值可根據(jù)|μj,DLBCL-μj,FL|/2計(jì)算。如圖6所示,在DLBCL和FL類中,信息基因的MCAGE主要在0到0.15之間,占信息基因總數(shù)的81.77%,大于0.15的只有極少數(shù),并且MCAGE最大不超過(guò)0.35。
圖譜理論應(yīng)用于生物信息學(xué)是一個(gè)新的研究方向?;趫D譜方法分析基因表達(dá)譜數(shù)據(jù),對(duì)基因構(gòu)圖,獲取圖的譜特征分布,并將其作為刻畫(huà)該基因與腫瘤類型相關(guān)性的新途徑。模擬實(shí)驗(yàn)和真實(shí)實(shí)驗(yàn)結(jié)果可以驗(yàn)證此研究方法是可行的和有效的。DLBCL數(shù)據(jù)實(shí)驗(yàn)中,無(wú)論信息基因選取的多少,還是分類器中參數(shù)的調(diào)整,分類準(zhǔn)確率都在85%以上,其最優(yōu)分類準(zhǔn)確率是98.7%,結(jié)果是令人滿意的。
對(duì)選取的信息基因的分析中,MCAGE反映了每個(gè)信息基因在DLBCL類和FL類中表達(dá)值的平均變化幅度。由圖6顯示,與DLBCL類別判定有關(guān)的基因有80%變化幅度范圍在0.15以下,變化幅度越大,信息基因數(shù)越少。經(jīng)上分析,在一定程度上圖5和6給出了與DLBCL類型識(shí)別有關(guān)的信息基因的表達(dá)規(guī)律,以輔助腫瘤專家識(shí)別和治療DLBCL。