陸華英,梁春華,李科蓮
(1.廣西醫(yī)科大學(xué)附屬武鳴醫(yī)院檢驗(yàn)科,廣西 南寧;2.南寧市第二人民醫(yī)院,廣西 南寧;3.廣西中醫(yī)藥大學(xué)第一附屬醫(yī)院,廣西 南寧)
胃腸道間質(zhì)瘤(Gastrointestinal Stromal Tumors,GIST)于1983年被首次提出,是指原發(fā)于胃腸道、大網(wǎng)膜和腸系膜的c-KIT(CD117,一種干細(xì)胞因子受體)染色陽(yáng)性的梭形細(xì)胞或上皮樣細(xì)胞的一組間葉源性腫瘤[1]。從我們對(duì)GIST的一般認(rèn)知分析,GIST最常發(fā)生于胃,其發(fā)病率為60%~70%[2];GIST大體病理表現(xiàn)為腫瘤直徑2~20cm不等,境界清楚的質(zhì)硬腫塊,切面呈灰白色或紅棕色,囊性或?qū)嵭?,也可伴有壞死及黏液變性[3]。GIST臨床表現(xiàn)為男女之比2:1,常見(jiàn)于中老年人。同時(shí),GIST是一種交界性腫瘤,一般分為低度惡性和高度惡性[4]。
值得注意的是,GIST臨床表現(xiàn)多樣,大小也存在較大差異。因其非特異的臨床表現(xiàn),給GIST的臨床診斷帶來(lái)巨大的困難[5]。在臨床上,胃間質(zhì)瘤的發(fā)現(xiàn)可能因消化道癥狀經(jīng)內(nèi)鏡檢出,但其診斷與分期基本依靠CT檢查[6]。GIST影像學(xué)表現(xiàn)多樣,主要影像學(xué)診斷要點(diǎn)包括腫瘤與腸壁的關(guān)系,即生產(chǎn)方式,強(qiáng)化特點(diǎn)及其他圖像特征,比如鈣化、壞死等。GIST生長(zhǎng)方式包括腔外型、腔內(nèi)型、內(nèi)生型及混合型[7]。較大腫瘤其內(nèi)可伴壞死、液化,強(qiáng)化方式以明顯不均勻強(qiáng)化居多。值得注意的是,GIST不同的生長(zhǎng)方式,導(dǎo)致腫瘤與周圍組織關(guān)系不同,尤其是外生性、混合型病變。因而極易導(dǎo)致影像學(xué)誤診[8]。所以,GIST的良惡性的早期診斷是臨床較為關(guān)注的問(wèn)題[9]。
同時(shí),隨著大數(shù)據(jù)及生物信息學(xué)的快速發(fā)展,大數(shù)據(jù)共享已成為當(dāng)前研究的趨勢(shì)。已有不少關(guān)于GIST進(jìn)展變化的測(cè)序和芯片的研究報(bào)道[10]。但尚未進(jìn)行深入的探索。因此,本研究主要通過(guò)WGCNA綜合分析挖掘出于GIST惡化進(jìn)展過(guò)程中的潛在關(guān)鍵基因及信號(hào)通路。該挖掘信息有可能為后人繼續(xù)GIST惡化進(jìn)展過(guò)程研究提供新的研究思路。
本研究的GIST惡化進(jìn)展過(guò)程中的GSE136755基因表達(dá)譜數(shù)據(jù)及臨床信息來(lái)源于GEO數(shù)據(jù)庫(kù)[11]。該數(shù)據(jù)集是基于GPL17077平臺(tái),包括65例GIST,其中包括6個(gè)轉(zhuǎn)移灶和59個(gè)胃,小腸,直腸,直腸癌的原發(fā)性腫瘤。在數(shù)據(jù)分析之前需要對(duì)下載的數(shù)據(jù)進(jìn)行預(yù)處理,包括提取樣本信息、構(gòu)建基因表達(dá)矩陣、將探針名轉(zhuǎn)化為基因名,最終獲得行名為樣本名、列名為基因名的矩陣和行名為樣本名、列名為臨床信息的矩陣用于后續(xù)分析。
安裝R軟件WGCNA包,為節(jié)省計(jì)算機(jī)運(yùn)算消耗的內(nèi)存,本研究選取表達(dá)量方差大于所有方差四分位數(shù)的基因。剔除離群樣本并確保基因表達(dá)矩陣的樣品號(hào)與臨床信息的樣品號(hào)一一對(duì)應(yīng)。按照無(wú)尺度網(wǎng)絡(luò)的標(biāo)準(zhǔn)選擇合適的加權(quán)系數(shù)β,并用此系數(shù)將相關(guān)矩陣轉(zhuǎn)化為鄰接矩陣,此后通過(guò)拓?fù)渲丿B(topological matrix,TOM)計(jì)算基因間的關(guān)聯(lián),基于TOM值進(jìn)行層次聚類建樹(shù)。建樹(shù)的方法采用動(dòng)態(tài)混合剪切法(dynamic tree cut),將相異度作為距離測(cè)度,設(shè)定最小模塊尺寸為30,進(jìn)行模塊識(shí)別并繪制基因樹(shù)狀圖。
基于樣本的臨床信息表對(duì)模塊的性狀進(jìn)行關(guān)聯(lián)分析,尋找和GIST惡化進(jìn)展性狀顯著相關(guān)的模塊用于后續(xù)分析。采用以下方式幫助識(shí)別相關(guān)性較高的模塊:首先,我們計(jì)算模塊的特征值與表型的相關(guān)系數(shù)(即module eigengene E,ME值)、定義基因的顯著性(gene significance,GS)來(lái)表示基因和表型之間的相關(guān)性;然后,我們選擇取所有基因GS絕對(duì)值的平均數(shù)即模塊顯著性(module significance,MS)表示該模塊與表型之間的相關(guān)性;最后,我們選取模塊與表型之間的相關(guān)系數(shù)最大的、且P值小于0.05的模塊用于后續(xù)分析。
我們篩選出與表型高度相關(guān)的模塊后,還需要對(duì)模塊下的基因進(jìn)行核心基因篩選。我們首先利用softConnectivity函數(shù)計(jì)算上述被選出來(lái)的模塊內(nèi)基因的連接度,篩選出模塊內(nèi)連接度前30的基因。同時(shí),我們將上一步選取的與臨床表型相關(guān)的模塊內(nèi)的基因構(gòu)建PPI網(wǎng)絡(luò),并篩選出Degree最大的前30個(gè)基因。最后我們?nèi)∵@兩者的交集基因?yàn)楹诵幕颉?/p>
在本研究中,為了進(jìn)一步挖掘這些核心基因在GIST惡化進(jìn)展過(guò)程中所發(fā)揮的分子生物學(xué)機(jī)制。我們用R軟件的clusterProfile包對(duì)這些核心基因進(jìn)行GO和KEGG信號(hào)通路富集分析。以P.adjust<0.05為篩選標(biāo)準(zhǔn)。
GSE136755數(shù)據(jù)集被檢索到并被下載下來(lái),一共是65個(gè)樣本,其中,女性26例,女性39例。在這個(gè)數(shù)據(jù)集內(nèi),他們把GIST分為兩個(gè)階段,分別是惡性GIST(轉(zhuǎn)移和高危GIST)和低惡性GIST(低危和極低危GIST)GIST。隨后我們對(duì)下載后的數(shù)據(jù)進(jìn)行整理(id轉(zhuǎn)換和矩陣處理),其中,基因表達(dá)矩陣含有18652個(gè)基因;臨床信息矩陣為行名為樣本名、列名分別是GIST等級(jí)(level)、性別(gender)和年齡(age)。
首先,為減少運(yùn)算時(shí)計(jì)算機(jī)消耗的內(nèi)存,選取基因表達(dá)量的方差大于所有方差四分位數(shù)的4663個(gè)基因(即選取在各個(gè)樣本中變化較大的基因)進(jìn)行后面的運(yùn)算。基因表達(dá)矩陣應(yīng)進(jìn)行缺失值處理(刪除缺失值較多的基因)和離群樣本的剔除。根據(jù)樣本聚類的距離鑒定離群樣本,剔除離群樣本后最終有61個(gè)樣本納入后續(xù)分析(圖1A)。
隨后,我們進(jìn)行軟閾值的篩選。為滿足共表達(dá)網(wǎng)絡(luò)符合無(wú)尺度網(wǎng)絡(luò),即出現(xiàn)連接度為k的節(jié)點(diǎn)的對(duì)數(shù)lgk與該節(jié)點(diǎn)出現(xiàn)的概率的對(duì)數(shù)lg[p(k)]呈負(fù)相關(guān),且相關(guān)系數(shù)應(yīng)>0.8。我們使用R軟件WGCNA包進(jìn)行構(gòu)建權(quán)重共表達(dá)網(wǎng)絡(luò),使用分析包自動(dòng)選擇的軟閾值計(jì)算得到軟閾值β=5(圖1B)。
最后,我們劃分基因模塊。確定軟閾值后,通過(guò)動(dòng)態(tài)剪切樹(shù)法進(jìn)行模塊初步識(shí)別并合并相似模塊,設(shè)置每個(gè)基因網(wǎng)絡(luò)模塊最少的基因數(shù)目為30,最終得到11個(gè)模塊(grey-82個(gè)基因,turquoise-1192個(gè)基因,blue-992個(gè)基因,brown-981個(gè)基因,yellow-290個(gè)基因,green-274個(gè)基因,red-255個(gè)基因,black-205個(gè)基因,pink-178個(gè)基因,magenta-121個(gè)基因,purple-93個(gè)基因),其中灰色模塊是無(wú)法聚集到其他模塊的基因集合(圖1C)。
如圖2A所示,根據(jù)各個(gè)模塊的特征向量,分別計(jì)算這些模塊與3個(gè)表型(level、gender和age)的相關(guān)性。結(jié)果顯示,綠色、藍(lán)色和棕色模塊與腫瘤level的相關(guān)性較高(分別是-0.42、0.37和-0.28),且P值均小于0.05。而洋紅色、粉紅色、紫色、紅色、綠松石、黑色、黃色、灰色、模塊與腫瘤level的相關(guān)性則較低(圖2A)。
為了進(jìn)一步篩選出核心基因。我們首先使用blue模塊內(nèi)的992個(gè)基因上傳STRING數(shù)據(jù)庫(kù),構(gòu)建PPI網(wǎng)絡(luò)(圖2B,以中間值信度=0.4為條件),并通過(guò)CytoHubba插件篩選簇Degree前30的基因。同時(shí),我們利用softConnectivity函數(shù)計(jì)算blue模塊內(nèi)基因的連接度,篩選出模塊內(nèi)連接度前30的基因。最后,兩者的的交集基因(16個(gè)基因,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C)被當(dāng)作為核心基因(圖2C和2D)。
在本研究中,為了進(jìn)一步挖掘這些核心基因在GIST惡化進(jìn)展過(guò)程中所發(fā)揮的分子生物學(xué)機(jī)制。核心基因的GO富集分析結(jié)果顯示,這16個(gè)潛在的關(guān)鍵基因主要富集在與細(xì)胞分裂增殖相關(guān)過(guò)程等方面(如chromosome segregation,mitotic nuclear division,organelle fission等)。同時(shí),核心基因的GO富集分析結(jié)果顯示,這16個(gè)潛在的關(guān)鍵基因主要富集在細(xì)胞周期、增殖等方面。
目前來(lái)說(shuō),GIST還是醫(yī)學(xué)上的新詞,是21世紀(jì)初才正式命名和普遍使用的醫(yī)學(xué)新概念??梢哉f(shuō),GIST是直到本世紀(jì)才被重新認(rèn)識(shí)的“新”疾病[12]。由于GIST起病隱匿,且容易被常規(guī)檢測(cè)手段忽略,該病往往在疾病晚期才被發(fā)現(xiàn),因此會(huì)對(duì)患者造成致命的傷害[13]。GIST是一種具有潛在惡性傾向的侵襲性腫瘤,有學(xué)者評(píng)價(jià)它“盡管它不是癌,卻一樣可以?shī)Z人性命?!癎IST的惡性程度與腫瘤的大小密切相關(guān),如果不予以重視,腫塊逐漸增大,則會(huì)對(duì)患者的生命健康造成嚴(yán)重的損傷。所以早發(fā)現(xiàn),早治療對(duì)于間質(zhì)瘤的治療十分重要[14]。雖然有越來(lái)越多的患者正受到GIST的威脅,但遺憾的是GIST仍然未能引起公眾足夠重視。之所以沒(méi)有引起人們的注意,是因?yàn)镚IST早期癥狀具有一定的隱蔽性。同時(shí),GIST惡化進(jìn)展的機(jī)制不詳也限制了人們對(duì)胃腸間質(zhì)瘤的認(rèn)識(shí)[16]。因此,本研究主要通過(guò)前人發(fā)表的關(guān)于GIST惡化進(jìn)展的芯片數(shù)據(jù),通過(guò)綜合的生物信息學(xué)方法挖掘出GIST惡化進(jìn)展?jié)撛诘年P(guān)鍵基因和其可能涉及分子生物學(xué)過(guò)程(GO Term和KEGG信號(hào)通路)。
圖A:樣本聚類分析熱圖。顏色強(qiáng)度與疾病狀態(tài)(風(fēng)險(xiǎn)程度)、性別和年齡成正比。圖B:軟閾值確定。前者是分析各種軟閾值功效(β)的無(wú)標(biāo)度擬合指數(shù);后者是分析各種軟閾值功率的平均連通性;5是最合適的功效值。圖C:基因聚類樹(shù)和模塊劃分。圖中的每個(gè)分支代表一個(gè)基因,下面的每種顏色代表一個(gè)共表達(dá)模塊。
圖A: GIST惡化進(jìn)展和診斷年齡相關(guān)的基因模塊鑒定。圖B:PPI網(wǎng)絡(luò)。從內(nèi)至外,依次是Degree>30,30≥Degree>20,20≥Degree>5,5≥Degree。圖C:韋恩圖。為WGCNA分析內(nèi)連接度最高的30個(gè)基因和藍(lán)色模塊基因內(nèi)Degree最高的30個(gè)基因的交集。圖D:16個(gè)基因在各樣本內(nèi)的表達(dá)聚類熱圖。
圖A:16個(gè)關(guān)鍵基因的GO富集分析。分為BP、CC和MF。這里僅顯示富集最明顯的前10個(gè)GO條目。圖B:16個(gè)關(guān)鍵基因的KEGG信號(hào)通路富集分析。
本研究利用生物信息學(xué)方法,對(duì)GIST數(shù)據(jù)集GSE136755進(jìn)行WGCNA分析,篩選出與GIST惡化進(jìn)展相關(guān)的基因模塊。結(jié)果顯示blue模塊內(nèi)的992個(gè)基因與GIST惡化進(jìn)展密切相關(guān)。為進(jìn)一步篩選與GIST惡化進(jìn)展相關(guān)的關(guān)鍵基因,將blue模塊內(nèi)的992個(gè)基因構(gòu)建PPI網(wǎng)絡(luò),并通過(guò)CytoHubba插件篩選簇Degree前30的基因。同時(shí),我們利用softConnectivity函數(shù)計(jì)算blue模塊內(nèi)基因的連接度,篩選出blue模塊內(nèi)連接度前30的基因。最后,我們篩選出16個(gè)與GIST惡化進(jìn)展相關(guān)的關(guān)鍵基因。本文研究結(jié)果顯示,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C與GIST惡化進(jìn)展過(guò)程密切相關(guān),提示這些關(guān)鍵基因可能對(duì)GIST病人的預(yù)后具有一定的預(yù)測(cè)價(jià)值。
BUB1為紡錘體檢測(cè)點(diǎn)蛋白,作為有絲分裂檢測(cè)點(diǎn)的重要功能蛋白,調(diào)節(jié)細(xì)胞周期及有絲分裂。有研究指出,BUB1在腎癌及乳癌等多種腫瘤中過(guò)表達(dá),且其突變及過(guò)表達(dá)與染色體不穩(wěn)定性、細(xì)胞分化和衰老相關(guān),可促進(jìn)腫瘤的發(fā)生及進(jìn)展[16,17]。KIF作為驅(qū)動(dòng)蛋白超家族中的成員,可調(diào)節(jié)紡錘體的形成、染色體的分離和胞質(zhì)分裂,其表達(dá)異??梢鹑旧w分離失敗和胞質(zhì)分裂不完全,從而引起細(xì)胞異常、增殖和分化,誘發(fā)腫瘤形成,其異常表達(dá)已經(jīng)在多種惡性腫瘤中得到證實(shí)[18-20]。有研究表明,KIF14敲低可下調(diào)Skp2和Cks1的表達(dá),進(jìn)而抑制蛋白酶體依賴性p27Kip1泛素化,p27Kip1的增加抑制細(xì)胞周期蛋白的表達(dá),包括CCNB1、CCND1和CCNE1,從而抑制腫瘤發(fā)生及進(jìn)展[21]。ASPM(assembly factor for spindle microtubules)是一種與人類中心粒蛋白相關(guān)的基因,其研究主要涉及在人腦方面[22]。AURKA(aurora kinase A)編碼的蛋白是一種細(xì)胞周期調(diào)節(jié)激酶,在染色體分離過(guò)程中似乎與紡錘體極的微管形成和/或穩(wěn)定有關(guān);該基因編碼蛋白存在于有絲分裂間期的中心體和紡錘體兩極,可能在腫瘤的發(fā)展和進(jìn)展中起作用[23]。BIRC5(baculoviral IAP repeat containing 5)是凋亡抑制因子(IAP)基因家族的成員,其編碼抑制凋亡細(xì)胞死亡的負(fù)調(diào)節(jié)蛋白。IAP家族成員通常包含多個(gè)桿狀病毒IAP重復(fù)序列(BIR)域,但該基因僅編碼一個(gè)BIR域的蛋白質(zhì)。其編碼蛋白也缺乏C端環(huán)指結(jié)構(gòu)域,在胎兒發(fā)育和大多數(shù)腫瘤中基因表達(dá)較高,而在成人組織中表達(dá)較低[24]。與此同時(shí),CDCA8、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C都是眾所周知的在細(xì)胞分裂增殖等過(guò)程中發(fā)揮作用。這與我們生物信息學(xué)挖掘的一致。但就目前對(duì)于胃腸間質(zhì)瘤惡化進(jìn)展的分子生物學(xué)機(jī)制來(lái)說(shuō),還沒(méi)有深入的關(guān)于這些基因?qū)τ谄錂C(jī)制的研究。
因此,我們的這些基因有可能為后人研究GIST惡化進(jìn)展的分子生物學(xué)機(jī)制研究提供新的思路。但我們這僅僅是通過(guò)生物信息學(xué)的方式挖掘,這些基因的作用仍有待進(jìn)一步的體外和體內(nèi)實(shí)驗(yàn)的驗(yàn)證。
本研究通過(guò)構(gòu)建WGCNA網(wǎng)絡(luò)篩選出與GIST發(fā)生及惡化進(jìn)展過(guò)程密切相關(guān)的16個(gè)潛在關(guān)鍵基因,這16個(gè)潛在的關(guān)鍵基因可能通過(guò)細(xì)胞分裂等相關(guān)通路來(lái)影響GIST發(fā)生及惡化過(guò)程。該挖掘信息有可能為后人繼續(xù)GIST惡化進(jìn)展過(guò)程研究提供新的研究思路。