孫 鑫
(泰州學(xué)院數(shù)理學(xué)院,江蘇 泰州 225300)
白血病是血液系統(tǒng)常見的惡性腫瘤,以血液與骨髓中成熟白細(xì)胞及其前體不受控制的惡性增殖為特征[1]。白血病是最常見的癌癥,而急性髓細(xì)胞白血病(AML)是一種嚴(yán)重危害人類健康的惡性血液系統(tǒng)疾病,在兒童急性白血病中的發(fā)生率占15%~30%[2]。近年來,我國AML發(fā)病率逐漸增高[3-4],給家庭及社會造成了嚴(yán)重的負(fù)擔(dān)[5]。隨著大量基因序列數(shù)據(jù)的出現(xiàn),基因芯片技術(shù)成為基因序列數(shù)據(jù)研究的重點(diǎn)?;蛐酒诩膊☆A(yù)測、太空探索、藥物開發(fā)、食品安全、個體化治療、農(nóng)業(yè)生物等領(lǐng)域都有一定的應(yīng)用。目前,醫(yī)生主要根據(jù)臨床經(jīng)驗(yàn)進(jìn)行診斷,精確度不高,如果將基因芯片技術(shù)應(yīng)用于檢查中,能夠快速判斷疾病的原因及類型,針對性地制定科學(xué)合理的治療方案。白血病對人類健康威脅較大,對AML患者進(jìn)行基因芯片分析將顯著提高診斷的準(zhǔn)確性,有利于疾病治療。但基因芯片包含大量的數(shù)據(jù),難以直接分析原始數(shù)據(jù),故對基因芯片數(shù)據(jù)的降維至關(guān)重要,其便于人們快捷地從基因芯片大數(shù)據(jù)中提取關(guān)鍵信息。
基因芯片數(shù)據(jù)可以看作是一個N×M的矩陣:
其中,M為樣本個數(shù),N為基因個數(shù)(一般情況下N?M);行向量Xi=(xi1,xi2,…,xiM)表示基因i在M個樣本下的表達(dá)水平;列向量Xj=(x1j,x2j,…,xNj)T為在第j個樣本中每個基因的表達(dá)水平;元素xij為基因i在第j個樣本中的表達(dá)水平?;谠摶虮頂?shù)據(jù)矩陣進(jìn)行分析,從國家生物技術(shù)信息中的GEO基因數(shù)據(jù)庫獲取數(shù)據(jù),選取AML的原始數(shù)據(jù)集。表1為該數(shù)據(jù)集的樣本類型及基因個數(shù)。AML的數(shù)據(jù)集包含兩種類型的樣本,即突變型(mutated)與野生型(wide-type),共78個。其中突變型樣本量為57,野生型樣本量為21,每個樣本包含13 515個基因,故將該數(shù)據(jù)集視為一個13 515×78的基因芯片數(shù)據(jù)矩陣。
表1 AML數(shù)據(jù)集的樣本類型與基因數(shù)Tab.1 Sample type and gene number of AML dataset
AML的原始數(shù)據(jù)集包含探針信息,故對該數(shù)據(jù)進(jìn)行預(yù)處理,獲取基因表達(dá)譜數(shù)據(jù),并將其對數(shù)化處理。對處理后的數(shù)據(jù)進(jìn)行差異表達(dá)分析,從而篩選表達(dá)顯著的基因。差異基因是指一個基因在不同環(huán)境壓力條件下呈現(xiàn)顯著差異表達(dá)的基因?;虿町惐磉_(dá)分析可以篩選出差異表達(dá)顯著的基因,倍數(shù)法是最簡單的差異分析方法。一般令FC=xs/xd,其中xs為實(shí)驗(yàn)條件的基因表達(dá)值,xd為對照條件的基因表達(dá)值,如果某基因的FC值小于0.5或大于2,則說明該基因差異表達(dá)顯著。
計算AML基因芯片原始數(shù)據(jù)中每個基因的FC值及其差異顯著性檢驗(yàn)的P值,P值越小說明基因表達(dá)差異越顯著。繪制火山圖用以反映總體基因的差異表達(dá)情況。如圖1所示,火山圖的橫坐標(biāo)是log2(FC),縱坐標(biāo)是-lgP,圖中每點(diǎn)表示每個基因。平行于Y軸有兩條虛線,分別為X=1與X=-1,X=-1左側(cè)的點(diǎn)表示FC<0.5的基因,X=1右側(cè)的點(diǎn)表示FC>2的基因。平行于X軸的虛線是Y=1.3(-lg0.05),Y=1.3上方的點(diǎn)表示p值小于0.05的基因,故將圖中綠色與紅色部分的基因標(biāo)記為差異表達(dá)顯著的基因。
圖1 火山圖Fig.1 Volcano plot
AML基因芯片數(shù)據(jù)中包含較多差異表達(dá)顯著的基因,篩選后對這部分基因進(jìn)一步分析。為了嚴(yán)格篩選基因,設(shè)定FC值大于1.5或小于2/3,設(shè)定P<0.05、P<0.01、P<0.001 三組顯著性檢驗(yàn)水平,分別篩選基因數(shù)據(jù)集,三組數(shù)據(jù)集包含的基因個數(shù)如表2所示。
表2 三組數(shù)據(jù)集中的基因個數(shù)Tab.2 Number of genes in 3 datasets
對基因芯片數(shù)據(jù)進(jìn)行降維處理,有一些基因承擔(dān)相同的功能,可以用綜合性指標(biāo)來描述相似性。主成分分析是一種常用的降維方法,對篩選出來的三組基因數(shù)據(jù)集分別進(jìn)行主成分分析,觀測其結(jié)果。
探討P<0.05數(shù)據(jù)集的主成分分析結(jié)果。根據(jù)表3,前3個主成分的累計方差貢獻(xiàn)率為80.18%,達(dá)到80%的門檻,而越往后每個主成分的方差貢獻(xiàn)率逐漸下降,無限接近0,增長率也逐漸平穩(wěn),故選取前3個主成分代表原有的78個樣品點(diǎn)。
表3 P<0.05數(shù)據(jù)集的主成分方差貢獻(xiàn)率Tab.3 Principal component variance contribution rate of P<0.05 dataset
3個主成分的表達(dá)式為:F1=0.12X1+0.12X2+0.11X3+0.11X4+…+0.11X78,F2=0.03X1+0.06X2-0.03X3-0.001X4+…+0.15X78,F3=0.15X1+0.15X2+0.12X3+0.25X4+…-0.08X78。
觀察3個主成分的表達(dá)式可以發(fā)現(xiàn),F1的系數(shù)在0.11左右波動,相對平穩(wěn),說明該主成分的基因表達(dá)水平波動較平穩(wěn),說明F1可視為基因表達(dá)水平的平均狀態(tài),故對F1不做具體研究。F2的系數(shù)變化較大,且時正時負(fù),波動范圍較廣,說明F2中基因表達(dá)差異顯著。計算第二主成分的得分并排序,選取前20名及后20名的基因,對篩選出的基因功能再做深入研究,從而達(dá)到降維目的。F3與F2一樣,波動水平也不平穩(wěn),也可能表示某種基因表達(dá)模式。同樣選取前20名及后20名的基因,研究這些基因功能對AML的影響。
表4為P<0.05數(shù)據(jù)集中F2得分前20名與后20名的基因,將這些基因視為影響AML的關(guān)鍵基因。
表4 P<0.05數(shù)據(jù)集的第二主成分關(guān)鍵基因Tab.4 Second principal component key gene of P<0.05 dataset
表5為P<0.05數(shù)據(jù)集中F3得分前20名與后20名的基因。觀察表4、表5發(fā)現(xiàn),HOXA9、VCAN等基因重復(fù)出現(xiàn),說明這些基因差異表達(dá)更為顯著,在AML中具有一定的作用。
表5 P<0.05數(shù)據(jù)集的第三主成分關(guān)鍵基因Tab.5 Third principal component key gene of P<0.05 dataset
對P<0.01與P<0.001的數(shù)據(jù)集同樣進(jìn)行主成分分析,篩選關(guān)鍵基因,結(jié)果發(fā)現(xiàn),HOXA9基因在這兩個數(shù)據(jù)集中都差異表達(dá)顯著。根據(jù)3組數(shù)據(jù)集的主成分得分排名結(jié)果發(fā)現(xiàn),HOXA9基因高頻出現(xiàn),說明HOXA9差異表達(dá)十分顯著,其在AML中起著至關(guān)重要的作用。相關(guān)研究證實(shí),HOXA9基因在造血干細(xì)胞的擴(kuò)增中發(fā)揮著關(guān)鍵作用,是調(diào)控胚胎干細(xì)胞向造血細(xì)胞轉(zhuǎn)化的關(guān)鍵分子,該基因在急性髓細(xì)胞白血病中發(fā)生失調(diào)[6],故該基因功能異??赡軙?dǎo)致AML的發(fā)生。
運(yùn)用差異表達(dá)分析篩選差異表達(dá)顯著的基因,將數(shù)據(jù)分成3組數(shù)據(jù)集,利用主成分分析提取第二、三主成分得分排名前20名及后20 名的基因作為關(guān)鍵基因。結(jié)果顯示,HOXA9基因均高頻出現(xiàn),說明HOXA9基因差異表達(dá)顯著,是影響AML的關(guān)鍵基因,在AML中發(fā)揮著重要的作用?;蛐酒夹g(shù)應(yīng)用廣泛,但基因芯片包含的數(shù)據(jù)量巨大,目前的主要任務(wù)是尋找研究基因大數(shù)據(jù)的方法。主成分分析可用于提取基因芯片數(shù)據(jù)中的關(guān)鍵基因,但也有不足之處。篩選基因時,基因數(shù)目的確定沒有具體標(biāo)準(zhǔn),可能會對后續(xù)研究造成影響,要么增加后續(xù)工作量,要么忽略某些關(guān)鍵基因。需進(jìn)一步探討更快速有效的基因芯片數(shù)據(jù)降維方法。