国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生物信息學的胃癌早期診斷預測模型研究

2022-12-17 03:21趙博璇李建偉
生物信息學 2022年4期
關(guān)鍵詞:子網(wǎng)關(guān)鍵胃癌

趙博璇,劉 明,李建偉

(河北工業(yè)大學 人工智能與數(shù)據(jù)科學學院,天津 300401)

胃癌是一種極為常見的惡性腫瘤,其發(fā)生于胃粘膜上皮細胞,在全球癌癥死亡率排名中位居第二[1]。在我國,胃癌擁有較高的發(fā)病率和死亡率,位列我國惡性腫瘤的第三位,且全球新發(fā)胃癌病例中約有一半來自中國[2-3]。胃癌患者的早期癥狀不顯著,難以引起人們重視,只有當腫瘤細胞增殖影響胃部正常功能時,患者才出現(xiàn)較為明顯的癥狀。根據(jù)胃癌早期發(fā)病機制建立診斷預測模型,及早發(fā)現(xiàn)胃癌患者,可使患者避免錯過早期治療的最佳時機,輔以有效治療可以極大提升胃癌患者的五年生存率。本研究通過生物信息學技術(shù)對胃癌基因表達數(shù)據(jù)進行特征處理,采用機器學習算法構(gòu)建胃癌早期診斷預測模型,為胃癌早期診斷的研究提供了新思路和新方法。

隨著高通量生物技術(shù)和生物信息學的迅猛發(fā)展,不斷有學者根據(jù)人類基因表達譜數(shù)據(jù)對胃癌開展各種層面的研究。JIANG K等通過對GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫中的 GSE29272數(shù)據(jù)集進行研究,發(fā)現(xiàn)了5個可能代表胃癌的新型預后生物標志物(ASPN、COL1A1、FN1、VCAN和MUC5AC)[4]。Chen J等人根據(jù)TCGA(The Cancer Genome Atlas,TCGA,https://portal.gdc.cancer.gov)數(shù)據(jù)庫中胃癌患者的遺傳和臨床數(shù)據(jù),通過構(gòu)建加權(quán)基因共表達網(wǎng)絡(luò)分析,得到7個影響胃癌患者生存的基因(PDGFRB、COL8A1、EFEMP2、FBN1、EMILIN1、FSTL1 和KIRREL)[5]。對人類胃癌組學數(shù)據(jù)的探索可為胃癌的預防、治療和診斷提供強有力的幫助。本研究的工作流程主要包括數(shù)據(jù)下載與處理、胃癌早期診斷關(guān)鍵基因的篩選和診斷預測模型的構(gòu)建3個部分。其中關(guān)鍵基因的篩選通過差異基因分析、PPI網(wǎng)絡(luò)分析和診斷效能分析等3個步驟完成,并對差異基因進行GO和KEGG富集分析。

1 數(shù)據(jù)與處理

1.1 數(shù)據(jù)描述與下載

TCGA即癌癥基因組圖譜數(shù)據(jù)庫,它從創(chuàng)建至今已收錄了30多種類型癌癥的基因組學數(shù)據(jù),存儲了豐富的與癌癥相關(guān)的各類信息[6]。TCGA 數(shù)據(jù)庫中胃癌基因表達數(shù)據(jù)由二代測序技術(shù)(RNA-seq)獲得,用戶利用官方下載工具gdc-client,可下載基因表達豐度為read count值形式的原始表達數(shù)據(jù),并可同時獲得相關(guān)的臨床數(shù)據(jù)。GTEx(Genotype-Tissue Expression,GTEx,https://gtexportal.org/home)名為基因型-組織表達數(shù)據(jù)庫。截至2015年底,它已包括大約900名尸體捐贈者的大量尸檢樣本數(shù)據(jù),涵蓋50多個組織[7]。

在本研究中,從TCGA數(shù)據(jù)庫中篩選得到201個胃癌樣本,其中正常組織 32個,早期胃癌組織樣本為169個(56例癌癥I期,113例癌癥II期)。TCGA數(shù)據(jù)庫記錄的正常組織測序結(jié)果較少,大量病人的正常組織測序數(shù)據(jù)并未包含在內(nèi),如胃癌正常組織樣本量與癌組織早期樣本量相差近5倍。為增加正常組織樣本量,本研究通過GTEx數(shù)據(jù)庫官網(wǎng)下載原始表達矩陣文件和樣本信息文件,根據(jù)樣本信息從表達矩陣中提取出174個正常胃部組織的基因表達數(shù)據(jù)。

1.2 數(shù)據(jù)預處理

對獲得的TCGA和GTEx的胃癌原始表達數(shù)據(jù)集進行預處理,通過篩選同時存在于兩個數(shù)據(jù)庫的基因,最終得到二者的聯(lián)合數(shù)據(jù)集。該數(shù)據(jù)集共包含375個樣本,正常組織和胃癌早期組織樣本分別為206個和169個(見表1)。

表1 基因表達數(shù)據(jù)集描述信息Table 1 Description of gene expressiondataset (個)

2 方 法

2.1 差異表達分析

TCGA和GTEx為不同平臺的測序數(shù)據(jù),其數(shù)據(jù)因獲取的方式不同而存在批次差異,在進行差異分析前先進行批次效應(yīng)處理[8]。本研究使用R平臺(R 4.0.3,https://www.r-project.org)中自帶去批次效益函數(shù)的Deseq2軟件包對TCGA和GTEx聯(lián)合數(shù)據(jù)集進行批次效益去除和差異表達基因(Differentially expressed genes, DEGs)篩選。Deseq2軟件包僅支持未經(jīng)標準化的read count形式的數(shù)據(jù)類型[9],設(shè)置|log2FC|>2,Benjamini Hochberg校正后的差異顯著性閾值P.adj<0.05。

2.2 富集分析

基因本體論(Gene Oncology, GO)分析被廣泛應(yīng)用于降低復雜性和全基因組的表達研究,其包括分子功能(Molecular Function,MF)、細胞組分(Cellular Component, CC)和生物過程(Biological process, BP)3部分。KEGG通路富集分析采用的是京都基因與基因組百科全書數(shù)據(jù)庫((Kyoto Encyclopedia of Genes and Genomes,KEGG),它是一個基因功能系統(tǒng)分析庫,包括基因組、化學和系統(tǒng)功能等信息。本研究利用R語言的clusterProfiler軟件包實現(xiàn)差異基因的GO和KEGG富集分析,富集篩選閾值設(shè)定為經(jīng)Benjamini Hochberg校正后的P<0.05。

2.3 PPI網(wǎng)絡(luò)分析

STRING數(shù)據(jù)庫(https://string-db.org)整合了蛋白質(zhì)間所有已知關(guān)聯(lián)和預測關(guān)聯(lián),包括物理相互作用和功能關(guān)聯(lián),從多個數(shù)據(jù)源收集評分證據(jù),收錄了千萬種蛋白質(zhì)間的相互作用[10]。通過STRING數(shù)據(jù)庫構(gòu)建蛋白質(zhì)間的相互作用(Protein-protein interaction,PPI)網(wǎng)絡(luò),可得到關(guān)系密切的蛋白基因集,有助于篩選關(guān)鍵基因。利用Cytoscape(Cytoscape 3.7.0,https://cytoscape.org)軟件中的MCODE插件搜索提取PPI網(wǎng)絡(luò)中的關(guān)鍵子網(wǎng),關(guān)鍵子網(wǎng)中的基因即可被認為是候選關(guān)鍵基因。

2.4 診斷效能分析

通過MedCalc(MedCalc 19.1,https://www.medcalc.org)軟件對候選關(guān)鍵基因的診斷能力進行評價分析。基于受試者工作特征曲線(Receiver Operating Characteristic,ROC)[11]、曲線下面積(AUC)、敏感性和特異性等指標可以評估關(guān)鍵基因的識別能力。隨著ROC曲線下面積的增大,關(guān)鍵基因?qū)ξ赴┰缙谧R別能力逐漸增大,本研究設(shè)置AUC值大于0.9的基因可作為早期診斷關(guān)鍵基因。

2.5 診斷預測模型構(gòu)建

使用Python(Python 3.7.4,https://www.python.org) 機器學習擴展包 scikit-learn開發(fā)實現(xiàn)分別基于支持向量機(Support Vector Machines,SVM)[12]、隨機森林(Random Forest,RF)[13]、樸素貝葉斯(Naive Bayes Model,NBM)[14]、 K 近鄰(K-Nearest Neighbor,KNN)[15]、極致梯度提升(eXtreme Gradient Boosting,XGBoost)[16]和自適應(yīng)提升(Adaptive Boosting,AdaBoost)[17]的胃癌早期診斷預測模型。

2.6 模型驗證與評估

不同算法訓練得到的分類器模型在訓練集上具有不同的表現(xiàn),廣泛應(yīng)用的評價指標有:準確率(Accuracy)、精確率(Precision)、召回率(Recall)[18]、F1_score[19]、ROC曲線和AUC值等。AUC定義為ROC曲線下面積值,AUC作為一個數(shù)值,其越大說明分類模型越好[20]?;煜仃嚦1挥米鞫诸惸P偷脑u判指標[21]。

3 結(jié)果分析

3.1 差異表達分析

對于TCGA和GTEx聯(lián)合數(shù)據(jù)集,通過Deseq2軟件包進行批次效益去除并篩選差異表達基因,得到1 524個DEGs,包含735個上調(diào)基因和789個下調(diào)基因,其火山圖(見圖1)。

圖1 胃癌組織與正常組織間DEGs火山圖Fig.1 Volcano map of DEGs between gastric cancer tissue and normal tissue

3.2 GO富集分析

通過clusterProfiler軟件包對差異基因進行GO和KEGG功能富集分析。GO富集分析結(jié)果中共包含501個條目,其中細胞組分條目48條,分子功能條目125條,生物過程條目328條。將P.adjust值按照升序排列,分別選取三部分前10條目進行展示(見圖2)。分析表明差異基因主要富集于生物過程上,包括表皮細胞分化、肌肉系統(tǒng)過程和皮膚發(fā)育等;細胞組分功能主要富集于細胞外基質(zhì)、細胞頂端和轉(zhuǎn)運復合體;分子功能主要富集于受體配體活性、信號受體及內(nèi)肽酶活性,主要結(jié)果(見表2)。

表2 GO功能富集分析部分結(jié)果Table 2 Partial results of GO function enrichment analysis

圖2 顯著富集的GO termFig.2 Significantly enriched GO terms

KEGG通路富集分析結(jié)果中共包含32個條目,差異基因主要富集在神經(jīng)活性配體-受體相互作用、細胞因子-細胞因子受體相互作用和cAMP 信號等通路。將經(jīng)Benjamini Hochberg校正后的P值按升序排列,選擇前10條目進行氣泡圖繪制(見圖3)。表3全面地展示了將通路包含基因數(shù)量按照降序排列的前10條目結(jié)果。

表3 KEGG通路富集分析部分結(jié)果Table 3 Partial results of KEGG pathway enrichment analysis

圖3 KEGG通路富集分析氣泡圖Fig.3 Bubble chart of KEGG pathway enrichment analysis

3.3 PPI網(wǎng)絡(luò)分析

利用STRING數(shù)據(jù)庫對1 524個DEGs構(gòu)建其PPI網(wǎng)絡(luò),并通過Cytoscape軟件中的MCODE插件獲得每個蛋白質(zhì)相互作用子網(wǎng)的評分,按照得分遞減順序提取前兩名的子網(wǎng)為關(guān)鍵子網(wǎng)(見圖4)。兩個關(guān)鍵子網(wǎng)中共包含的58個基因作為胃癌早期診斷候選關(guān)鍵基因。

圖4 關(guān)鍵子網(wǎng)的PPI網(wǎng)絡(luò)圖Fig.4 PPI network of key subnetworks

分別對兩個關(guān)鍵子網(wǎng)中包含的基因進行GO功能富集分析,富集分析結(jié)果表明關(guān)鍵子網(wǎng)1所包含的33個基因主要富集在生物過程上,包括粒細胞趨化、趨化因子介導信號通路和G蛋白耦聯(lián)受體信號通路等;關(guān)鍵子網(wǎng)2所包含的25個基因主要富集于生物過程的角質(zhì)細胞分化和交聯(lián)肽。

3.4 診斷效能分析

基于基因表達數(shù)據(jù),利用MedCalc軟件對58個候選關(guān)鍵基因進行診斷效能分析,結(jié)果分別在圖5中進行展示。提取AUC值大于0.9的基因,最終得到10個胃癌早期診斷關(guān)鍵基因,它們分別為CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E。關(guān)鍵基因的診斷效能結(jié)果如表4所示,其敏感性和特異性均高于70%。

圖5 候選關(guān)鍵基因ROC曲線Fig.5 ROC curve of candidate key genes

表4 基于關(guān)鍵基因的早期胃癌分類效果Table 4 Classification effect of early gastric cancer based on key genes

3.5 診斷預測模型構(gòu)建

利用10個胃癌早期診斷關(guān)鍵基因構(gòu)建胃癌的早期診斷模型,具體步驟如下:

1)提取出10個關(guān)鍵基因在TCGA聯(lián)合GTEx數(shù)據(jù)集的表達值形成新的表達譜矩陣。

2)將來源于TCGA聯(lián)合GTEx數(shù)據(jù)集的169個早期胃癌樣本和206個正常樣本分別隨機提取1/11組成獨立測試集,用于驗證診斷預測模型的魯棒性和泛化能力。獨立測試集共包括33個樣本,胃癌早期樣本和正常樣本數(shù)量分別為15個和18個,余下的342個樣本用作訓練集,流程(見圖6)。

圖6 胃癌早期診斷預測模型流程圖Fig.6 Flow chart of early diagnosis and prediction model of gastric cancer

在含有342個樣本的訓練集上采用十折交叉驗證法構(gòu)建基于SVM、RF、NBM、KNN、XGBoost、AdaBoost 6種算法的診斷預測模型。在訓練集中,SVM、RF、NBM、XGBoost、AdaBoost 5種模型均具有十分優(yōu)秀的表現(xiàn),各個指標得分均高于0.9,KNN模型表現(xiàn)略微遜色(見表5)。根據(jù)圖7的ROC曲線圖可知,各個模型均具有極高的AUC值。

圖7 訓練集ROC曲線Fig.7 ROC curve of training set

表5 6個模型在訓練集中的評價指標Table 5 Evaluation indicators of six models on training set

在含有 33個樣本的獨立測試集上對6個模型的預測性能進行驗證。據(jù)表6可知各個模型性能均有一定程度的下降。圖8的ROC曲線表明在獨立測試集上各個模型仍然具有較高的AUC值。綜合6個模型在訓練集和獨立測試集上的表現(xiàn),在本研究中,研究性能最出色、魯棒性最高和泛化能力最好的模型是基于極致梯度提升算法構(gòu)建的胃癌診斷預測模型。

表6 6個模型在獨立測試集中的評價指標Table 6 Evaluation indicators of six models on independent test set

圖8 獨立測試集ROC曲線Fig. 8 ROC curve of independent test set

4 討 論

通過檢索公開數(shù)據(jù)庫收集胃癌基因表達數(shù)據(jù)信息,利用生物信息學方法進行胃癌早期診斷關(guān)鍵基因的挖掘,最終得到10個關(guān)鍵基因(CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E)。

Wang H等[22]通過多種生物信息學分析方法發(fā)現(xiàn)CXCL11與胃癌腫瘤免疫浸潤顯著相關(guān),其高表達可以作為胃癌預后和腫瘤浸潤的潛在生物標志物,為EBVaGC的免疫治療提供了新視角。Jie Yi等[23]對TCGA數(shù)據(jù)庫中正常組織及胃癌組織數(shù)據(jù)進行統(tǒng)計分析,結(jié)果表明CCR8在胃癌組織中表達上調(diào),并與胃癌患者的不良生存相關(guān)。Zhang C等[24]探索胃癌中程序性死亡配體 1(PD-L1)相關(guān)基因,體外實驗驗證闡明CXCL9/10/11-CXCR3 通過激活胃癌細胞中的 STAT 和 PI3K-Akt 信號通路上調(diào) PD-L1 的表達。Chen X等[25]利用qPCR分析胃癌標本中CXCL1和CXCL8的表達,認為CXCL1 和 CXCL8通過與受體CXCR2結(jié)合協(xié)同參與胃癌細胞增殖、凋亡和遷移過程。相關(guān)臨床數(shù)據(jù)表明CXCL1和CXCL8的低表達與胃癌不良預后的特征顯著相關(guān),包括AFP水平、腫瘤大小和TNM分期。Chen X等[26]還通過研究CXCL家族與胃癌發(fā)展的關(guān)系,結(jié)論表明CXCL6梯度與B細胞的絕對數(shù)相關(guān),CXCL家族在胃癌的發(fā)病機制中具有重要作用,可以作為胃癌發(fā)展的標志物。

幽門螺桿菌感染相關(guān)的慢性炎癥是胃癌的主要原因,Yin H等[27]利用TCGA和GEO 數(shù)據(jù)庫,分析識別到CCL20為幽門螺桿菌感染相關(guān)的胃癌關(guān)鍵差異表達基因。Feng M等[28]采集270名胃癌患者的腫瘤樣本和匹配的相鄰正常組織,其研究數(shù)據(jù)表明APLN的表達水平和腫瘤分化、淋巴結(jié)和遠處轉(zhuǎn)移密切相關(guān),可以用作評估臨床特征和預測胃癌患者的預后的標志。腹膜轉(zhuǎn)移(PM)是胃癌治療手術(shù)最常見的失敗原因之一,Zhang J等[29]利用差異分析識別到HTR1E為高風險PM患者的關(guān)鍵基因。

Alberto等[30]通過研究從32名胃癌患者的冰凍腫瘤樣本獲得的基因表達譜數(shù)據(jù),利用方差分析和差異表達分析等方法,得到了3個與淋巴結(jié)轉(zhuǎn)移風險較高的胃癌關(guān)鍵基因(Bik、aurorakinaseB和eIF5A2)?;陉P(guān)鍵基因建立邏輯回歸診斷預測模型用于預測淋巴結(jié)狀態(tài),該模型正確預測出32例胃癌患者中30例淋巴結(jié)狀態(tài),模型準確率為93.75%。該胃癌診斷預測模型為極致梯度提升診斷預測模型,其在訓練集和獨立測試集準確率分別為96.78%和93.94%,具有較好的預測效果。

5 結(jié) 論

通過生物信息學方法挖掘了胃癌早期診斷的10個關(guān)鍵基因,利用MedCalc軟件分析可知,該10個關(guān)鍵基因?qū)φ颖竞臀赴┰缙跇颖揪哂休^高的分類識別能力,可以作為早期胃癌診斷及研究的靶點。

本文特色之處在于基于關(guān)鍵基因的表達數(shù)據(jù),通過分析多種機器學習算法,實現(xiàn)了診斷預測模型的構(gòu)建,并最終選擇了XGBoost診斷預測模型為最優(yōu)模型。該模型在訓練集和獨立測試集上的具有最好的綜合性能,可以作為一種無創(chuàng)性檢查早期胃癌的手段,具有良好的應(yīng)用前景。通過篩選關(guān)鍵基因構(gòu)建了早期胃癌診斷預測模型,為提高胃癌早期診斷的研究提供了新的思路和方法。本研究不足之處在于對胃癌發(fā)生機制的研究不夠深入全面,轉(zhuǎn)錄組學數(shù)據(jù)的分析并不能完全闡釋機體總體變化;此外,本文研究內(nèi)容僅為生物信息學診斷預測層面,缺少體內(nèi)或體外實驗支撐。在后續(xù)研究中,要加強與生物實驗相結(jié)合,開發(fā)出更加實用、更加準確地胃癌早期診斷預測模型。

猜你喜歡
子網(wǎng)關(guān)鍵胃癌
考慮荷電狀態(tài)的交直流微電網(wǎng)多模式協(xié)調(diào)控制策略
硝酸甘油,用對是關(guān)鍵
新形勢下深化改革開放的關(guān)鍵一招
高考考好是關(guān)鍵
子網(wǎng)劃分問題研究及應(yīng)用
航天器多子網(wǎng)時間同步系統(tǒng)設(shè)計與驗證
P53及Ki67在胃癌中的表達及其臨床意義
胃癌組織中LKB1和VEGF-C的表達及其意義
胃癌組織中VEGF和ILK的表達及意義
中醫(yī)辨證結(jié)合化療治療中晚期胃癌50例
额尔古纳市| 阿瓦提县| 获嘉县| SHOW| 鄂托克旗| 丰台区| 绵竹市| 大名县| 河源市| 景东| 祁门县| 兰坪| 克山县| 太康县| 新津县| 汶川县| 青神县| 遂宁市| 始兴县| 金溪县| 秦皇岛市| 灵丘县| 酒泉市| 吉木乃县| 南木林县| 廉江市| 扎兰屯市| 六枝特区| 滁州市| 邯郸市| 康定县| 化德县| 南川市| 正定县| 广饶县| 大同市| 漳浦县| 荣昌县| 潜江市| 衡东县| 抚州市|