陳煒康,潘青,張瑜紅,冼磊
(1.廣西醫(yī)科大學,廣西壯族自治區(qū) 南寧 530021;2.廣西醫(yī)科大學 第一附屬醫(yī)院,廣西壯族自治區(qū) 南寧 530021;3.廣西醫(yī)科大學第二附屬醫(yī)院,廣西壯族自治區(qū) 南寧 530007)
肺癌仍然是全世界癌癥相關死亡的主要原因,肺癌所有階段的平均5年生存率只有16%,根據(jù)流行病學估算未來幾十年這種趨勢還將進一步增加[1]。由于早期肺癌無癥狀,大多數(shù)病例被發(fā)現(xiàn)時已經是晚期,晚期肺癌患者預后不良,5年相對生存期估計為5.2%[2]。相反,局限性肺癌患者的5年相對生存率為57.4%。因此,早期發(fā)現(xiàn)肺癌(在發(fā)生遠處轉移之前)將顯著降低肺癌死亡率。由于患者在發(fā)現(xiàn)肺癌時所處的分型和階段對患者的生存預后非常關鍵[3]。因此,為了早期診斷肺癌,人們付出了巨大的努力。
食管癌:食管癌是世界上的八大常見惡性腫瘤之一,在腫瘤相關死亡中排行第六位[4]。同時,食管癌的發(fā)生率正在逐年攀升[5]。并且不同地區(qū)發(fā)生率有較大不同。食管癌有食管鱗狀細胞癌和食管腺癌兩種主要的病理類型[4]。食管癌的發(fā)病機制非常復雜,食管鱗狀細胞癌的主要原因是反流性胃炎和Barrett 食管等[6],而食管腺癌由多種機制引起,暫不清楚具體機制。目前已被證明食管癌進展過程中的重要分子機制有激素滅活、腫瘤抑制基因的抑制、基因突變等[7]。
肺癌和食管癌都是常見的惡性腫瘤,同時也是我國癌癥相關死亡的主要癌癥。這兩種腫瘤有很多相似之處,如鱗狀細胞癌是主要的組織病理學類型,吸煙、飲酒是主要風險因素[8-9]。肺和食道惡性病變同時發(fā)生也不罕見,食管癌血性轉移通常較早累計肺部。較多證據(jù)表明肺癌和食管癌有很多遺傳學上的相關性,例如都和Casp 和Cyp2a6 基因有關[10-11]。雖然已有研究證實了肺癌與食管癌之間的關聯(lián),但相關的病因學和遺傳學研究還很有限,需要進一步的研究。
在本研究中,從gene expression Omnibus (GEO)數(shù)據(jù)庫下載了一個肺癌基因表達譜和一個食管癌基因表達譜。GEO 是一個提供可靠遺傳信息的免費綜合數(shù)據(jù)庫。在肺癌和食管癌數(shù)據(jù)集中,通過比較正常和疾病樣本的基因表達水平來確定差異表達基因(DEGs)。然后比較這兩種疾病的差異表達基因,得到它們的共同基因。我們通過基因本體論(GO)、京都基因和基因組百科全書(KEGG)和蛋白質相互作用(PPI)網絡分析,確定了在這兩種疾病中同時具有重要功能的關鍵基因。
肺癌、食管癌和正常對照的微陣列數(shù)據(jù)集下載于Gene Expression Omnibus (GEO) 數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov / geo)。60例肺癌患者和60例健康對照標本的基因表達譜被納入GSE19804數(shù)據(jù)集。在GSE57130 數(shù)據(jù)集中,24例食管癌患者和12例健康對照標本被納入分析。
利用R 語言中“l(fā)imma”包,以|log2FC| >1 和校正P<0.05 為標準分別篩選肺癌和食管癌與正常對照樣本之間的差異表達基因[12]。分別鑒定出兩種疾病的DEGs 后,鑒定出同時在兩種疾病中都差異表達的基因用于后續(xù)研究。
GO(Gene Ontology)[13]是 基 因 本 體 聯(lián) 合會(Gene Ontology Consortium)所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白功能進行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標準,適用于各個物種,包括分子功能(MF)、生物過程(BP)和細胞成分(CC)三個部分。在P<0.05 的條件下,利用R 語言中的ggplot2 對肺癌和食管癌共同的DEGs 進行GO 和KEGG[14]通路富集分析。
我們使用蛋白質搜索工具STRING 11.5 (https://string-db.org/) 繪制了一個PPI 網絡圖來探索共同差異表達基因之間的相互關系。交互作用所需的最低得分的統(tǒng)計顯著性標準是中等置信度(0.400)。最后將結果導入《Cytoscape 3.8.2》(https://cytoscape.org)[15],利用插件cytoHubba篩選關鍵基因。在網絡中,節(jié)點和線分別代表蛋白質和蛋白質-蛋白質之間的相互作用[16]。功能齊全的插件cytoHubba 可以在(http://hub.iis.sinica.edu.tw/cytohubba/)下載。
我們利用SPSS 20.0 (SPSS, Inc, Chicago, IL, USA)軟件建立關鍵基因的受試者工作特征(receiver operating characteristic, ROC)曲線和曲線下面積(area under curve, AUC)來進一步分析篩選出的關鍵基因是否具有可靠性?;虻脑\斷價值P<0.05 認為差異具有統(tǒng)計學意義。
圖1 顯示了本研究的流程示意圖。我們將肺癌數(shù)據(jù)集(GSE19804) 中的60例肺癌患者和60例健康對照樣本的基因表達譜進行比較得到了1176 個DEGs。同樣方法,我們將食管癌數(shù)據(jù)集(GSE57130)中24例食管癌患者和12例健康對照標本進行比較鑒定出了1640 個DEGs。最后通過聚類分析發(fā)現(xiàn)在兩種疾病中同時存在的DEGs有194 個(圖4)
圖1 數(shù)據(jù)分析流程圖
圖2 肺癌的熱圖 Group 1-對照組; Group 2- 肺癌
圖3 食管癌的熱圖 Group 1-對照組; Group 2- 食管癌
圖4 肺癌和食管癌的韋恩圖
圖5 為兩種疾病共同的194 個差異基因的GO和KEGG 通路分析結果。BP 分析結果:泌尿生殖系統(tǒng)的發(fā)生發(fā)展、白細胞游走、抗生素耐藥性、細胞外基質等結構的形成等;CC 分析結果主要包括:內質網、彈力纖維、膠原蛋白、細胞外基質、細胞間連接成分等;MF 分析結果包括:抗氧化活性、過氧化物酶活性、RAGE 受體活動、細胞骨架的結構成分的形成、細胞粘附分子結合等功能;通路分析結果有:IL ?17 信號通路、TGF ?β 信號通路、以及與細胞粘附分子、白細胞遷移、動脈粥樣硬化相關的信號通路。
圖5 GO 和KEGG 通路富集分析。(A) BP. (B) CC. (C) MF. (D) KEGG
我們利用PPI 網絡將關鍵基因與普通基因區(qū)分 開 來。如 圖6 所 示,CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF 與其他蛋白的相互作用更多。它們是蛋白質相互作用網絡中最重要的節(jié)點。
為了確定上述分析中的前6 個關鍵基因是否具有診斷價值,我們構建了ROC 曲線,并分別計算了曲線下面積( AUC)。圖7 顯示肺癌患者與對照組CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF的AUC 分 別為:0.859、0.904、0.876、0.942、0.879 和0.906。圖8 顯示食管癌患者與正常對照組CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF 的AUC 分別為:1.000、0.933、1.000、1.000、1.000、1.000。這六個關鍵基因在兩種疾病數(shù)據(jù)集中經過驗證后AUC都遠大于0.5,提示這些基因診斷價值較高。
圖7 肺癌中前6 個關鍵基因的ROC 曲線分析
圖8 食管癌中前6 個關鍵基因的ROC 曲線分析
肺癌和食管癌都是我國發(fā)病率較高的癌癥。兩種癌癥都因為早期癥狀不明顯,導致臨床上絕大多數(shù)患者首診時已為晚期,經積極治療,5年生存率仍然非常低。既往有大量研究表明,肺癌和食管癌術后肺部并發(fā)癥均多見,且患者術后肺部并發(fā)癥為患者死亡的主要原因[17,18]。因此,進一步深入了解肺癌和食管癌的分子機制,尋找適用于早期診斷的分子指標以及治療靶點是目前肺癌和食管癌研究的方向[19]。
在本研究中,我們發(fā)現(xiàn)肺癌和食管癌之間共有194 個共同的差異基因,將其中6 個關鍵基因(CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF)在肺癌和食管癌患者中的診斷價值進行了評估。這些關鍵基因可能在肺癌和食管癌的發(fā)生發(fā)展中發(fā)揮關鍵作用。
CDKN3:細胞周期素依賴性激酶抑制劑3(CDKN3)在細胞周期和增殖中起關鍵作用[20,21]。CDKN3 通過與細胞周期蛋白結合發(fā)揮其功能,從而導致CDK1 和CDK2 蛋白去磷酸化并抑制細胞周期進程[22]。CDKN3 的表達及其致癌作用已在各種類型的癌癥中得到廣泛研究[23]。Zang 等人已經證明,CDKN3 在肺腺癌中高水平表達,并且與較差的生存結果相關[24]。既往有體內和體外實驗研究發(fā)現(xiàn),miR-181d-5p 通過Akt 信號通路失活抑制CDKN3 基因而產生對非小細胞肺癌的抑制作用,從而為非小細胞肺癌的治療提供了新的治療策略[25]。Zhao Xiao 等人的研究發(fā)現(xiàn)與正常組織相比,CDKN3 基因在肺腺癌(ADC)和鱗狀細胞癌(SCC)中表達上調[24]。之前的一項研究報道顯示CDKN3通過激活AKT 信號通路來調節(jié)食道鱗狀細胞癌(ESCC)的進展且CDKN3 可以作為ESCC 治療的潛在有效治療靶點[26]。
CCNB2:細胞周期蛋白B2 (Cyclin B2, CCNB2)是細胞周期蛋白家族的一員,它調控細胞周期蛋白依賴性激酶(Cyclin dependent kinases, CDKs)的活性,不同的細胞周期蛋白在細胞周期的特定階段在空間和時間上發(fā)揮作用[27]。CCNB2 通常通過激活CDK1 激酶來觸發(fā)G2/M 進程轉化[28]。此外,血清循環(huán)中CCNB2 mRNA 的表達水平在癌癥患者中增加,并與癌癥分期和轉移狀態(tài)相關[29]。既往有研究發(fā)現(xiàn),CCNB2 蛋白的過表達與非小細胞肺癌的臨床進展和預后不良相關[30]。此外,Ma Xiao 等人發(fā)現(xiàn)CCNB2 是肺腺癌癌變和發(fā)展的中樞基因,可作為肺腺癌的潛在生物標志物和靶點[31]。目前CCNB2 與食管癌的研究較少,這將可以作為后續(xù)的研究方向。
BUB1:BUB1 是一種保守的絲氨酸/蘇氨酸有絲分裂激酶[32]。已發(fā)現(xiàn)該酶除了在紡錘體裝配檢驗點(SAC)信號傳導中有作用,同時,Bub1 還促進染色體排列,后期促進復合物/環(huán)體(APC/C)激活等[33]。既往已有研究表明該基因與肺癌和食管癌都有關聯(lián),如:Chen Xiuwen 等人發(fā)現(xiàn)小細胞肺癌組織與配對的相鄰非癌組織相比BUB1 基因表達上調[34],同時姚伶俐等人發(fā)現(xiàn)Bub1 基因及其蛋白、Mad2 蛋白低表達與食管癌發(fā)生的關系密切,Bub1低表達在食管癌的發(fā)展和轉移中具有重要作用[35]。
TOP2A:拓撲異構酶IIα(TOP2A),是一種核蛋白,分子量約為170 kDa,在DNA 合成、RNA 轉錄和有絲分裂的染色體分離中有重要作用。Grenda Anna 等人認為TOP2A 基因的多態(tài)性可能與非小細胞肺癌患者化療毒性和生存預測因素有關[36]。Du Xiaomei 等人通過實驗發(fā)現(xiàn),TOP2A 基因在人肺腺癌細胞中表達上調,并通過生物信息學分析支持該發(fā)現(xiàn)。Zhang Shuyao 等人發(fā)現(xiàn),TOP2A 基因在食管癌組織中高度表達[37]。
TYMS:胸苷酸合酶(TYMS)是DNA 合成中的關鍵酶,其編碼的胸苷酸成酶(TS)是嘧啶核苷酸合成的限速酶,是腫瘤生長的重要因子。Feng Wei等人的研究證實,TYMS 中rs3819102 基因多態(tài)性可能增加對環(huán)境因素的敏感性,并增加患肺癌的風險[38]。也有人發(fā)現(xiàn)TYMS 的表達量與肺腺癌患者以鉑類為基礎的化療治療的存活率下降有關[39]。Arakawa Yasuhiro 等人發(fā)現(xiàn)TYMS 多態(tài)性的存在可以幫助識別食管鱗狀細胞癌患者5 - 氟尿嘧啶(DCF)化療期間出現(xiàn)的嚴重低鈉血癥[40]。
CENPF:著絲粒蛋白F(Centromere Protein F, CENPF)是一種分子量為367 kDa 的核定位蛋白.近幾年的研究表明,CENPF 可能參與細胞周期的調控。它在有絲分裂前期開始增加,在有絲分裂期定位于動粒,末期開始迅速降解[41]。肺腺癌組織中CENPF mRNA 表達顯著升高(P<0.001)同時CENPF 上調與肺腺癌患者的病理分期、無復發(fā)生存率(RFS)以及總生存率(OS)顯著正相關[42]。Su Peng 等人的實驗表明CENPF 基因在食管癌組織中高度表達[43]。
本研究使用GEO 下載了1 個肺癌數(shù)據(jù)集和1個食管癌數(shù)據(jù)集。然后將肺癌和食管癌患者的數(shù)據(jù)集與正常樣本進行比較,得到DEGs。最后,對這些差異基因進行聚類分析,得到194 個交集基因。通過GO 和KEGG 富集分析,我們獲得了與細胞周期相關的富集結果。通過構建PPI 網絡,篩選出了CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF等6 個關鍵基因。最后通過SPSS 軟件驗證其診斷價值。我們的發(fā)現(xiàn)闡明了肺癌和食管癌的進展,也為這兩種疾病的診斷和治療提供了新的思路。
本研究有一定的局限性。首先,雖然關鍵基因被證明能夠預測肺癌和食管癌兩種疾病的進展,但沒有進行相關實驗來證實這些結果。我們的研究小組正在進行體外和體內的研究來驗證這些基因。其次,由于我們只選擇了兩個數(shù)據(jù)集,樣本量相對較小,結果可能并不適用于所有的人群。需要一個包含更多物種和種群的大樣本研究來進行比較。
注:數(shù)據(jù)可用性:本研究的數(shù)據(jù)來自公共數(shù)據(jù)庫GEO,沒有創(chuàng)建任何新的數(shù)據(jù)集。目前的研究遵循GEO 數(shù)據(jù)訪問政策和發(fā)布指南。