景曉瑩,彭 亮,謝娜娜,呂環(huán)環(huán),黨 潔,2,馬占兵,2
(1.寧夏醫(yī)科大學基礎醫(yī)學院,銀川 750004;2.寧夏醫(yī)科大學生育力保持教育部重點實驗室,銀川 750004)
胰腺導管腺癌(pancreatic ductal adenocarcinoma,PDAC)是一種惡性程度極高并具有高度侵襲性的消化道惡性腫瘤。因其5 年生存率不足7%,是惡性腫瘤中預后最差的[1-2]。PDAC 早期的癥狀隱匿、不典型[3],約80%的患者被確診時為中晚期或出現轉移,已錯失最佳手術根治的窗口和機會。即使成功實施手術干預,術后12 個月內的復發(fā)率和轉移率仍高達60%[4]。因此,準確有效的生物標記物篩選及其分子機制研究對于PDAC的診斷、治療和不良預后改善具有十分重要的臨床意義和研究價值。
加權基因共表達網絡(weighted gene co-expression network analysis,WGCNA)已被廣泛用于尋找各種癌癥中的樞紐基因。癌癥基因組圖譜(the cancer genome atlas,TCGA)數據庫中缺乏正常組織的PDAC 樣本,差異表達數據不完整。因此,本研究整合基因型-組織表達數據庫(genotypetissue expression,GTEx)數據庫中正常對照組織的表達數據,有效地克服TCGA 數據庫對照樣本不足的問題。通過差異表達分析,獲得PDAC 原發(fā)癌全面的轉錄組表達譜,并使用WGCNA、蛋白質相互作用網絡(protein-protein interaction,PPI)網絡分析結合表達生存分析,獲得核心風險基因,以識別潛在準確的PDAC 生物標記物。
PDAC 組織的RNA-seq 數據來自TCGA,匹配的正常組織表達數據來自GTEx[5]。過濾去除基因表達值低于lcpm 剪切閾值80%以上的樣本,通過filterByExpr 函數去除表達矩陣中不表達或低表達的基因。最后納入共312 個樣本,包含147 例原發(fā)腫瘤組織,165 例正常組織(圖1)。
圖1 數據下載、處理和分析流程
使用edgeR 包篩選差異表達基因(differential expression genes,DEGs),以>1且調整P<0.05 為標準,篩選DEGs 并繪制熱圖和火山圖。
基因本體(gene ontology,GO)包含生物過程(biological process,BP)、細胞組成(cellular component,CC)以及分子功能(molecular function,MF)3 個部分的信息,可用于基因歸類注釋[6]。京都基因與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)是整合了基因組、化學和系統(tǒng)功能信息的通路注釋數據庫[7]。本研究采用FunRich 軟件對PDAC 的DEGs 進行GO 和KEGG富集分析及可視化[8]。
通過WGCNA R 包構建加權基因共表達網絡[9]。根據無尺度網絡擬合指數和平均連接度,選擇合適的軟閾值,以確保無標度拓撲,使其滿足無尺度網絡和較好的網絡連接性。利用拓撲重疊矩陣(topological overlap matrix,TOM)相似度和相應的不相似度(diss TOM)將鄰接度轉換為TOM。用動態(tài)樹切分法將至少30 個高度相關的共表達基因聚集成不同顏色的模塊[10]。WGCNA 采用分層聚類方法識別基因模塊,并用不同顏色來表示。通過計算模塊和臨床表型之間的相關性(correlation),篩選出與臨床表型顯著相關的基因。最后,計算模塊內的基因表達與性狀的相關性GS 值和某個基因表達與模塊內基因主成分表達的相關系數MM 值,設置參數cor.gene Module Membership>0.8 和cor.gene Trait Significance>0.2,從而識別和鑒定出模塊基因。
獲得候選核心風險基因,利用Cytoscape Gene MINIA 插件,構建PPI 網絡和MCODE 插件篩選網絡核心基因。采用默認參數,聚類算法為MCC。
使用GEPIA2 在線數據庫(http://gepia2.cancer-pku.cn/#index)對篩選出的PDAC 核心風險基因進行表達、生存分析,其生存分析主要包括生存率和風險比(hazard ratio,HR)。P≤0.05 為差異有統(tǒng)計學意義。
使用SPSS 25.0 統(tǒng)計學軟件繪制受試者工作特征(receiver operating characteristic curve,ROC)曲線,并計算ROC 曲線下的面積(area under curve,AUC),評估對腫瘤和正常組織的區(qū)分能力。
經選取上調和下調各Top 50 的基因進行無監(jiān)督垂直聚類分析,結果顯示,DEGs 能夠顯著區(qū)分PDAC 組織和正常組織(圖2A)。經差異表達分析,共篩選出4 346 個DEGs,其中包含2 284個上調基因和2 062 個下調基因(圖2B)。
圖2 差異表達基因聚類熱圖和火山圖
為進一步分析DEGs 的功能,將DEGs 輸入FunRich 進行GO 和KEGG 富集分析。DEGs 中BP 主要包括細胞外和質膜整體等(圖3A);CC主要包括細胞通訊和細胞生長等(圖3B);MF 主要包括細胞黏附分子活性和受體活性等(圖3C)。KEGG 通路富集分析PDAC 中的DEGs 與間充質向上皮細胞轉變(EMT)、上皮細胞向間充質轉變(MET)和整合素細胞表面相互作用等信號通路密切相關(圖3D)。
圖3 DEGs 的GO 和KEGG 富集分析
通過繪制樣本聚類樹,設定剪切高度為90,去除異常值(圖4A),進行樣本聚類和表型關聯分析(圖4B)。根據無尺度網絡擬合指數和平均連接度計算軟閾值(圖4C),根據基因模塊連通性確定軟閾值(圖4D),選取β=10(無標度R2=0.8,斜率=-2.11)作為網絡構建軟閾值(圖4E),并根據TOM 矩陣構建基因間的分層聚類樹(圖4F)。表型-模塊關聯分析結果顯示,lightgreen 模塊與TNM 分期有相關性(r=0.33,P=0.02),magenta模塊與腫瘤大小程度有相關性(r=0.3,P=0.03),grey 模塊與組織學分級有相關性(r=0.34,P=0.02)(圖5A~圖5C),且能夠較好區(qū)分腫瘤組織和正常對照(圖5D)。進一步將lightgreen、magenta 和grey 模塊分別作為關鍵模塊進行GS 和MM 分析,lightgreen 模塊的GS 與MM 有相關關系(r=0.27,P<0.001)(圖6A);magenta 模塊的GS與MM 有相關關系(r=0.39,P<0.001)(圖6B);grey模塊的GS 與MM 有相關關系(r=0.54,P<0.001)(圖6C)。對各顏色模塊的連通性進行分析,發(fā)現lightgreen 模塊的基因顯著性與連通性有相關關系(r=0.33,P=0.001 3);magenta 模塊的基因顯著性與連通性有相關關系(r=0.12,P=0.046);grey模塊的基因顯著性與連通性有相關關系(r=-0.26,P=0.006 8)(圖6D)。最后,經過多重檢驗矯正后P<0.01,剔除非編碼基因后,lightgreen 模塊篩選出42 個基因,magenta 模塊篩選出271 個基因,grey 模塊篩選出96 個基因,后結合差異表達分析結果,最終篩選出50 個基因(表1)。
圖4 加權基因共表達網絡的構建
圖5 共表達模塊與臨床表型的相關性分析
表1 從每個模塊中選擇的核心基因
采用Cytoscape 構建WGCNA 模塊基因的PPI 網絡。設置參數cor.gene Module Membership>0.8 和cor.gene Trait Significance>0.2 用于篩選模塊中的核心基因。共獲得36 個候選基因,采用聚類分析方法和MCC 算法,最后獲得22 個核心基 因(TOP2A、MAD2L1、TPX2、RACGAP1、PRC1、KIF23、NUSAP1、PLK1、SMC4、CHEK1、CENPU、CENPN、TYMS、FEN1、PCNA、CDC6、INCENP、ARHGAP11A、SPAG5、ATAD2、RRM1、NCAPG2)(圖7)。PPI 網絡中顏色是MCC 分析的度量值映射,圈的大小是PPI 得分映射。
圖7 PPI 構建和核心基因篩選
通過在線網站GEIPA 搜尋PPI 網絡得分前10 個的核心風險基因在PDAC 和正常組織中的表達趨勢。結果顯示,核心基因在PDAC 樣本中的表達量均高于正常對照組(P 均>0.05)(圖8A~圖8J)。生存分析顯示,TPX2(HR=2.2,P=0.000 26)、PRC1(HR=2,P=0.001 3)、KIF23(HR=1.9,P=0.002 9)、RACGAP1(HR=1.9,P=0.003 1)和NUSAP1(HR=1.8,P=0.004 6)等核心基因高表達與PDAC不良預后均相關(圖9A~圖9J)。
圖8 前10 個核心基因在腫瘤組織和非腫瘤組織中差異表達的箱線圖
圖9 前10 個核心基因的生存分析曲線
10 個基 因 的AUC 值(MAD2L:0.999、TPX2:0.998、TOP2A:0.997、RACGGAP1:0.995、KIF23:0.995、NUSAP1:0.995、PLK1:0.992、PRC1:0.989、SMC4:0.986、CHEK1:0.986)均>0.5,表明核心風險基因對腫瘤和正常組織具有良好的區(qū)分和診斷能力(表2)。
表2 基于不同核心風險基因預測PDAC 的ROC 分析
PDAC 是一種病死率高、診療困難的消化道惡性腫瘤,預后極差。對于腫瘤發(fā)生潛在機制的研究可能是PDAC 診斷、治療和延長患者生存時間的關鍵。高通量測序技術的發(fā)展為其分子病理、臨床診斷和靶向治療提供了新的希望[11]。
WGCNA 作為有效的基于表型-基因表達權重關聯分析的方法,能夠有效提取高維基因表達數據中有效的模塊信息,已被廣泛用于疾病相關基因的挖掘[12]。在本研究中,通過聯合GTEx 中正常組織數據,有效克服TCGA 數據庫中PDAC 正常對照缺乏的問題,剔除異常和低表達樣本,通過差異表達分析,最終獲得了PDAC 全面的轉錄組表達譜,為PDAC 基因表達和功能研究提供了較好的數據集。
經差異表達分析,本研究共篩選出4 346 個DEGs,其中上調基因2 284 個,下調基因2 062個。對前125 個上調和下調基因聚類分析顯示,DEGs 可以顯著區(qū)分PDAC 組織和正常組織。通過富集分析,模塊基因所涉及的BP 主要包括細胞外、質膜整體和質膜;CC 主要包括細胞通訊、細胞生長和信號轉導;MF 主要包括細胞黏附分子活性、受體活性和催化活性。利用WGCNA 分析篩選了與PDAC 組織學分級、腫瘤大小和TNM分期密切相關的grey 模塊、magenta 模塊和lightgreen 模塊,進一步區(qū)分共表達網絡和36 個PPI網絡候選基因。通過生物信息學分析鑒定出10個核心基因,包括TOP2A、MAD2L1、TPX2、RACGAP1、PRC1、KIF23、NUSAP1、PLK1、SMC4、CHEK1,最后經過ROC 曲線的驗證,與PDAC 的進展和預后密切相關。這些核心基因的表達在PDAC 和正常組織之間差異有統(tǒng)計學意義。同時,它們與PDAC 的組織學分級高度相關,可能是潛在的生物標記物。以上結果可能有助于改善PDAC 患者的治療決策、風險分層和預后預測。
這10 個核心基因通過對腫瘤細胞周期的調控,參與了腫瘤的發(fā)生和增殖。本研究中,篩選獲得的NUSAP1、PRC1 和SMC4 基因在PDAC 中研究相對較少。其中,NUSAP1 是一種在多種生物學功能中起著關鍵作用的微管相關蛋白,包括紡錘體組裝、染色體分離、胞質分裂、微管交聯、捆綁和附著在染色體上[13]。研究[14]表明,NUSAP1 參與了多種人類惡性腫瘤的生物學行為調控,如胰腺癌、膠質母細胞瘤、肝細胞癌、前列腺癌、胃癌等。PRC1 是有絲分裂早期CDK1(Cdc2/細胞周期蛋白B)磷酸化的細胞質分裂所必需的微管相關蛋白。PRC1 被敲除的細胞通常經歷間期、前期和中期;但紡錘體中心區(qū)域的結構在后期出現異常,導致細胞因子的異常表達和雙核或多核細胞的形成[15],從而促進腫瘤的發(fā)生和進展[16]。PRC1的過表達可通過調節(jié)Wnt 信號通路的致癌作用,導致早期復發(fā)和患者的不良預后。PRC1 的下調也被證明可以顯著抑制胃癌細胞的增殖,減少單層集落的形成,并抑制胃癌細胞的侵襲性和轉移[16]。PRC1 在PDAC 中異常表達,并顯著富集于EMT過程中,提示PRC1 基因可能通過Wnt 信號通路參與PDAC 的EMT 過程,但需要進一步實驗研究證明。SMC4 是細胞分裂中的凝縮蛋白,參與細胞分裂過程中的染色體凝集、姐妹染色單體的凝聚、DNA 修復和復制[17]。SMC4 可通過激活宮頸癌中的NF-κB 通路促進宮頸癌的發(fā)生[18]。在侵襲性乳腺癌細胞中,SMC4 的mRNA 表達上調。上調的mRNA 可以提高CDK1 在進入有絲分裂時驅動染色質壓縮的敏感性,增強癌細胞的侵襲性、增殖活性和去分化能力[18]。SMC4 的高表達可能通過增強TOP2A 的作用而增加雙鏈DNA 斷裂,并導致乳腺上皮細胞中的突變、錯配和獨特的染色體重排[19]。過表達SMC4 可激活JAK2/Stat3和TGFβ/Smad 通路,促進癌細胞的侵襲性[20]。SMC4 與PDAC 的發(fā)病機制密切相關,其高表達導致PDAC 的預后差[17,21]。
綜上所述,本研究經過不同生物信息學分析方法,發(fā)現grey 模塊與PDAC 組織學分級高度相關,結合表達和生存分析,從模塊中篩選出了TPX2、PRC1、KIF23、RACGAP1、NUSAP1、PLK1、SMC4、MAD2L1、TOP2A、CHEK1 等核 心風險基因。以上基因中,部分已在PDAC 相關研究中報道,而大部分基因在PDAC 中作用機制尚無明確報道。通過注釋發(fā)現,核心風險基因可能通過調控細胞周期、DNA 復制、EMT 等生物學過程參與PDAC 的發(fā)病和預后,但上述基因的功能需要進一步實驗證實??傊?,本研究通過系統(tǒng)的基因差異表達和WGCNA 分析,進一步結合生存分析和ROC 曲線的驗證,發(fā)現了一系列重要的PDAC 核心風險基因,為PDAC 未來的臨床診療與更好的預后干預提供了潛在的分子理論基礎。