楊萬霞,潘云燕,李 雪,管沛文,尤崇革
(蘭州大學(xué)第二醫(yī)院檢驗醫(yī)學(xué)中心,中國甘肅 蘭州 730030)
近年來,全世界胰腺癌發(fā)病率明顯上升[1],其預(yù)后極差,死亡率極高,癥狀出現(xiàn)后平均壽命僅為1年左右。美國疾病控制與預(yù)防中心(Centers for Disease Control and Prevention,CDC)的最新數(shù)據(jù)顯示:胰腺癌的5年生存率僅為8%,在美國已躍居所有腫瘤致死率第4 位[2],在我國也已高居第6 位[3]。胰腺癌起病隱匿,80%的胰腺癌患者在確診時已經(jīng)發(fā)現(xiàn)有轉(zhuǎn)移[4],這嚴(yán)重威脅著人們的身心健康。因此,從分子水平探究胰腺癌的早期標(biāo)志物,做到早期診斷就顯得尤為重要。相關(guān)研究表明,DNA 修復(fù)基因異常在胰腺癌中起著重要作用,90%的胰腺癌可能存在K-ras 基因第12 號密碼子的點突變[5~6]; K-ras、p53、SMAD4 基因突變與胰腺癌的不良預(yù)后有關(guān)[7~8]。周期蛋白依賴性激酶1 (cyclin-dependent kinase 1,CDK1)屬于絲氨酸/蘇氨酸蛋白激酶家族,在細(xì)胞周期中與基因修復(fù)密切相關(guān)[9],其異常表達(dá)與多種腫瘤的發(fā)生相關(guān)[10~12],但CDK1 與胰腺癌的發(fā)生及預(yù)后關(guān)系尚不清楚。
基因表達(dá)譜(gene expression omnibus,GEO)數(shù)據(jù)庫為癌癥相關(guān)基因表達(dá)譜的生物信息學(xué)挖掘提供了可能[13]。本研究首先通過生物信息學(xué)方法篩選出胰腺癌芯片數(shù)據(jù)GSE16515 中的差異表達(dá)基因(differentially expressed genes,DEGs),并對其進(jìn)行GO 分析和KEGG 通路富集分析,然后通過構(gòu)建蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò),篩選出hub 基因并驗證,旨在為胰腺癌分子機(jī)制的進(jìn)一步研究提供生物信息學(xué)依據(jù)。
本研究從 GEO (https://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫下載基因芯片數(shù)據(jù)集GSE16515,芯片總共包含52 例樣本,其中36 例為胰腺癌患者腫瘤組織樣本(男性22 人,女性14 人,年齡為49~84);16 例為胰腺癌患者正常組織樣本(男性12 人,女性 4 人,年齡為 51~84)。芯片平臺是 GPL570[HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array,表達(dá)數(shù)據(jù)為expression profiling by array,種屬為Homo sapiens。
用 GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/)[14]在線工具分析胰腺癌樣本與正常樣本的基因數(shù)據(jù)。將胰腺癌組織芯片GSE16515 矩陣數(shù)據(jù)的探針名轉(zhuǎn)化為基因名,對原始數(shù)據(jù)進(jìn)行去重等處理后,以|log2FC|>2 且 P<0.01 的標(biāo)準(zhǔn)篩選出DEGs,用R 語言繪制熱圖。
為了解DEGs 的功能,我們用DAVID(the Database for Annotation,Visualization and Integrated Discovery,http://david.abcc.ncifcrf.gov/)[15]在線分析數(shù)據(jù)庫對DEGs 進(jìn)行GO 分析和KEGG 通路分析,以P<0.05 為差異有統(tǒng)計學(xué)意義。
通過在線分析網(wǎng)站STRING (Search Tool for the Rtrieval of Interacting Genes,https://string-db.org/)[16]得到DEGs 的蛋白質(zhì)互作網(wǎng)絡(luò),以TSV 格式導(dǎo)出。將所得源文件導(dǎo)入Cytoscape 進(jìn)行可視化分析,并用插件cytoHubba 進(jìn)行hub 基因分析,同時采用MCC 算法,選取排名靠前的10 個hub 基因。
為進(jìn)一步明確胰腺癌可能的信號通路,我們在進(jìn)行PPI 網(wǎng)絡(luò)構(gòu)建后,用Cytoscape 軟件中的MCODE 插件對PPI 網(wǎng)絡(luò)進(jìn)行聚類分析,得到PPI功能模塊,然后用DAVID 數(shù)據(jù)庫將功能模塊中的基因進(jìn)行KEGG 通路分析。
為驗證hub 基因的功能,我們利用GEPIA(Gene Expression Profiling Interactive Analysis,http://gepia.cancer-pku.cn/)[17]數(shù)據(jù)庫分析 hub 基因在胰腺癌組織和正常組織中的表達(dá)水平,并繪制hub 基因的Kaplan-Meier 生存曲線。
為評價hub 基因在胰腺癌組織及細(xì)胞系中的表達(dá)水平,我們利用CCLE (Cancer Cell Line Encyclopedia,https://portals.broadinstitute.org/ccle/)[18]數(shù)據(jù)庫分析了hub 基因在轉(zhuǎn)錄組水平的表達(dá)情況。下載數(shù)據(jù)為mRNA expression (Affy),得到hub基因在不同腫瘤中的表達(dá)情況,然后篩選出胰腺癌細(xì)胞數(shù)據(jù),并根據(jù)其表達(dá)值繪圖,以分析hub基因在胰腺癌不同細(xì)胞類型中的表達(dá)水平。
通過對基因芯片GSE16515 進(jìn)行數(shù)據(jù)分析,總共獲得376 個DEGs(胰腺癌組/正常對照組),其中上調(diào)基因和下調(diào)基因分別為301 個和75 個。差異基因在兩組中的表達(dá)情況如圖1 所示。
圖1 差異基因熱圖分析Fig.1 Heatmap analysis of differential genes
GO 可分為生物過程(biological process,BP)、細(xì)胞組分(cellular component,CC)和分子功能(molecular function,MF)。采用 DAVID 對 376 個 DEGs進(jìn)行GO 和KEGG 通路富集分析。DEGs 生物過程主要涉及信號轉(zhuǎn)導(dǎo)、凋亡過程、細(xì)胞增殖、蛋白質(zhì)水解作用、氧化還原過程、細(xì)胞外基質(zhì)分解、細(xì)胞黏附、膠原蛋白分解代謝等。細(xì)胞學(xué)組成分析顯示這些基因大多參與細(xì)胞表面、膜錨定、質(zhì)膜組成、頂端等離子體膜、內(nèi)質(zhì)網(wǎng)腔、高爾基腔、膠原蛋白三聚物、細(xì)胞外基質(zhì)、細(xì)胞外區(qū)、細(xì)胞外泌體等的組成。分子功能的變化主要集中在離子結(jié)合、氧化還原酶活性、金屬內(nèi)肽酶活性、結(jié)構(gòu)分子活性、膠原蛋白結(jié)合、肌動蛋白結(jié)合等。KEGG 通路富集分析表明,差異基因主要涉及細(xì)胞外基質(zhì)受體交互通路、蛋白質(zhì)消化和吸收、PI3K-Akt 信號通路、p53 信號通路、癌癥途徑、腫瘤的轉(zhuǎn)錄調(diào)控失調(diào)、視黃醇代謝、甘油三酯代謝等(圖2)。
將376 個顯著差異基因輸入STRING 數(shù)據(jù)庫,然后將所得數(shù)據(jù)導(dǎo)入Cytoscape 中,利用插件cytoHubba 找出排名靠前的10 個hub 基因,分別為 CDK1、CCNB1、CDC20、TOP2A、PTTG1、BUB1、RRM2、CENPF、DLGAP5、ASPM (圖 3A)。其中,節(jié)點度最高的CDK1 的PPI 網(wǎng)絡(luò)圖如圖3B 所示。
用Cytoscape 軟件中的MCODE 插件對PPI網(wǎng)絡(luò)進(jìn)行聚類分析,得到MCODE 得分排名靠前的兩個PPI 功能模塊(圖4)。通過DAVID 在線分析工具對模塊中包含的基因進(jìn)行KEGG 通路分析,發(fā)現(xiàn)其主要涉及細(xì)胞周期、p53 信號通路、蛋白質(zhì)消化吸收、ECM-受體相互作用、PI3K-Akt 信號通路、血小板激活信號通路(表1,表2)。
用GEPIA 數(shù)據(jù)庫驗證10 個hub 基因在胰腺癌組織(179 例)和正常組織(171 例)中的表達(dá)差異,發(fā)現(xiàn)10 個hub 基因均在胰腺癌組織中高表達(dá),差異有統(tǒng)計學(xué)意義(P<0.05),其中hub 基因中節(jié)點度最高的CDK1 的表達(dá)水平如圖5A 所示。進(jìn)一步用GEPIA 數(shù)據(jù)庫繪制胰腺癌中hub 基因高表達(dá)組和低表達(dá)組的Kaplan-Meier 生存曲線,結(jié)果顯示除了CDC20 和CENPF 高、低表達(dá)組的生存期無明顯差異外,其余8 個hub 基因高表達(dá)的胰腺癌患者的生存期明顯低于低表達(dá)患者,差異有統(tǒng)計學(xué)意義(P<0.05)。CDK1 與胰腺癌患者生存期的關(guān)系如圖5B 所示。
為進(jìn)一步探究CDK1 在胰腺癌中的表達(dá)水平,我們通過CCLE 數(shù)據(jù)庫檢索了CDK1 在40 種不同類型惡性腫瘤中的表達(dá)情況,結(jié)果顯示胰腺癌中CDK1 有較高的表達(dá)水平(圖6A),而且CDK1在胰腺癌不同細(xì)胞株中均有較高的表達(dá)(圖6B)。
胰腺癌早期診斷困難,死亡率較高,從分子生物學(xué)水平研究其早期標(biāo)志物能有效提高胰腺癌的檢出率。基因芯片技術(shù)和生物信息學(xué)分析技術(shù)已廣泛用于基因的篩查,本研究采用生物信息學(xué)方法對GEO 數(shù)據(jù)庫中的胰腺癌基因芯片數(shù)據(jù)集GSE16515 進(jìn)行了分析。
圖2 胰腺癌中差異表達(dá)基因的GO 分析和KEGG 通路富集分析Fig.2 Enrichment analysis of GO and KEGG pathway of DEGs in pancreatic cancer
表1 功能模塊A 內(nèi)基因的KEGG 通路分析Table 1 KEGG pathway analysis of genes in functional module A
表2 功能模塊B 內(nèi)基因的KEGG 通路分析Table 2 KEGG pathway analysis of genes in functional module B
圖3 差異基因所編碼蛋白質(zhì)的PPI 分析圖和關(guān)鍵基因篩選結(jié)果(A) DEGs 的 PPI 網(wǎng)絡(luò)圖; (B) CDK1 的 PPI 網(wǎng)絡(luò)放大圖。Fig.3 PPI analysis of proteins encoded by DEGs and screening of key genes(A) PPI network diagram of DEGs; (B) PPI network amplification diagram of CDK1.
圖4 功能模塊圖(A) MCODE 得分 17; (B) MCODE 得分 9.176。Fig.4 Functional module diagram(A) MCODE score 17; (B) MCODE score 9.176.
圖5 胰腺癌中CDK1 的驗證結(jié)果(A) 胰腺癌中CDK1 的表達(dá)(紅色表示179 例胰腺癌組織,灰色表示171 例正常組織,*:P<0.05); (B) CDK1 的表達(dá)與胰腺癌預(yù)后的關(guān)系(紅線表示高表達(dá)組,藍(lán)線表示低表達(dá)組)。Fig.5 Validation of CDK1 in pancreatic cancer(A) Expression of CDK1 in pancreatic cancer (red represents 179 pancreatic cancer tissues,and gray represents 171 normal tissues,*:P<0.05); (B)Relationship between CDK1 expression and pancreatic cancer prognosis(the red line represents the high expression group,and the blue line represents the low expression group).
文中共篩選出376 個DEGs,其中上調(diào)基因和下調(diào)基因分別為301 個和75 個。為進(jìn)一步了解這些差異基因的功能,我們進(jìn)行了GO 分析,結(jié)果顯示胰腺癌相關(guān)基因大多富集于胞外區(qū),參與生物體膜的組成,與細(xì)胞增殖、凋亡等過程有關(guān),介導(dǎo)的分子功能有離子結(jié)合、氧化還原酶活性、金屬內(nèi)肽酶活性、膠原蛋白結(jié)合、肌動蛋白結(jié)合等。而細(xì)胞周期的異常與腫瘤的發(fā)生發(fā)展密切相關(guān)[19],故推測DEGs 可通過細(xì)胞周期等過程參與胰腺癌的發(fā)生發(fā)展。之前的研究指出,細(xì)胞周期進(jìn)程是錨定依賴性的[20],需要細(xì)胞外基質(zhì)受體交互通路整合跨膜受體并形成肌動蛋白相關(guān)黏附復(fù)合物[21~22]。一項胰腺癌系統(tǒng)分析的研究指出,細(xì)胞外基質(zhì)受體交互通路在胰腺癌的進(jìn)展中起著重要作用[23]。相關(guān)研究報道,作為核轉(zhuǎn)錄因子的p53 蛋白可通過激活多種靶基因的表達(dá),誘導(dǎo)細(xì)胞DNA 損傷,促進(jìn)腫瘤細(xì)胞凋亡[24~25];PI3K-Akt 通路在腫瘤中起著非常重要的作用[26]。此外,研究表明PI3K/Akt/mTOR 信號通路也參與胰腺癌的進(jìn)程[27]。與上述報道一致,本文的KEGG 通路富集分析結(jié)果表明,差異基因主要涉及細(xì)胞外基質(zhì)受體交互通路、PI3K-Akt 通路、p53 通路等,由此得出,胰腺癌的發(fā)生與細(xì)胞外基質(zhì)受體交互通路、PI3K-Akt 通路、p53 通路等密切相關(guān)。
圖6 CCLE 數(shù)據(jù)庫中CDK1 在不同惡性腫瘤及胰腺癌細(xì)胞系中的表達(dá)(A) CDK1 在不同惡性腫瘤中的表達(dá); (B) CDK1 在胰腺癌細(xì)胞系中的表達(dá)。Fig.6 Expression levels of CDK1 in different malignant tumors and pancreatic cancer cell lines in CCLE database(A) Expression of CDK1 in human malignant tumors; (B) Expression of CDK1 in different cell lines of pancreatic cancer.
此外,文中篩選的10 個hub 基因CDK1、CCNB1、CDC20、TOP2A、PTTG1、BUB1、RRM2、CENPF、DLGAP5 和ASPM 均在胰腺癌組織中顯著高表達(dá)。其中,CDK1、BUB1 和CDC20 在胰腺癌的研究中已有報道[28~29],但是關(guān)于這些分子的具體作用機(jī)制仍不清楚; 而有關(guān)CCNB1、TOP2A 在胰腺癌中的作用機(jī)制則已有相對深入的研究[30~31]。本文篩選出來的節(jié)點度最高的CDK1 屬于絲氨酸/蘇氨酸蛋白激酶家族,其高表達(dá)與胰腺癌不良預(yù)后顯著相關(guān)。CDK1 與CCNB1 結(jié)合形成的異二聚體是真核細(xì)胞有絲分裂G2/M 期轉(zhuǎn)換所必需的蛋白激酶,而腫瘤的發(fā)生與細(xì)胞周期的異常有著密不可分的關(guān)系。近期研究表明,在許多腫瘤中CDK1表達(dá)活躍,其可作為黑色素瘤[32]、膽管癌[33]及結(jié)腸癌[34]等的臨床預(yù)后標(biāo)志物。由此推測,CDK1 可能與促進(jìn)胰腺癌細(xì)胞有絲分裂、增殖、侵襲轉(zhuǎn)移有關(guān)。
綜上所述,我們通過生物信息學(xué)分析確定了胰腺癌差異表達(dá)的基因,并且由蛋白質(zhì)互作和CCLE 數(shù)據(jù)庫分析可知,CDK1 在胰腺癌中是一種高表達(dá)分子,有望成為胰腺癌早期診斷新的分子標(biāo)志物和治療靶標(biāo)。但本研究的芯片數(shù)據(jù)為單中心研究,代表性較差。因此,后續(xù)還需要進(jìn)行一系列實驗來驗證本文的預(yù)測結(jié)果。