夏文韜 王筠 嚴(yán)鑫平
摘? 要:胰腺癌(PAAD)是一種發(fā)生在胰腺的惡性腫瘤,起病隱匿,早期診斷困難,進(jìn)展迅速,生存時間短,是預(yù)后最差的惡性腫瘤之一,被稱為“癌中之王”。胰腺癌的致病因素目前還尚不清楚,但生物標(biāo)志物的發(fā)現(xiàn)為胰腺癌的預(yù)后診斷指明了一個方向。文章采用了數(shù)據(jù)挖掘的方法對多個胰腺癌的RNA基因表達(dá)數(shù)據(jù)進(jìn)行分析,挖掘出可能用于胰腺癌診斷的生物標(biāo)志物。最后經(jīng)生存分析驗(yàn)證,發(fā)現(xiàn)NDC80,CDC20,CCNB1,KIF11這四個標(biāo)志物可能對胰腺癌的治療起到減輕疼痛和降低病情惡化程度的作用。
關(guān)鍵詞:胰腺癌;生物標(biāo)志物;基因表達(dá);limma;Kaplan-Meier;數(shù)據(jù)挖掘
中圖分類號:TP391? ? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)05-0120-04
Application of Data Mining in Pancreatic Adenocarcinoma
XIA Wentao, WANG Yun, YAN Xinping
(School of Information Engineering, Jingdezhen Ceramic University, Jingdezhen? 333403, China)
Abstract: Pancreatic Adenocarcinoma (PAAD) is a malignant tumor that occurs in the pancreas with insidious onset, difficult early diagnosis, rapid progression and short survival time. It is one of the malignant tumors with the worst prognosis. Pancreatic Adenocarcinoma is known as the “king of cancers”. The pathogenic factors of Pancreatic Adenocarcinoma are currently unclear, but the discovery of biomarkers points to another direction for the prognosis and diagnosis of Pancreatic Adenocarcinoma. In this paper, the method of data mining is used to analyze the RNA gene expression data of multiple patients with Pancreatic Adenocarcinoma, and the biomarkers that may be used for the diagnosis of Pancreatic Adenocarcinoma are mined. Finally, after verification by survival analysis, it is found that the four biomarkers of NDC80, CDC20, CCNB1 and KIF11 may play a role in reducing pain and the degree of disease deterioration in the treatment of Pancreatic Adenocarcinoma.
Keywords: Pancreatic Adenocarcinoma; biomarker; gene expression; limma; Kaplan-Meier; data mining
0? 引? 言
胰腺癌(PAAD)是威脅人類健康和生命的惡性腫瘤之一,且五年的總體生存率不到1%,是一個預(yù)后非常差的惡性腫瘤。目前,胰腺癌患者最常用的治療方法是放療和化療[1]。近年來,隨著生物信息學(xué)技術(shù)的快速發(fā)展,可以方便地收集到各種癌癥的高通量組學(xué)數(shù)據(jù),為癌癥的診斷提供了新的方向。通過組學(xué)數(shù)據(jù)了解癌癥分子在多個水平上的改變,從而找出具有重要意義的生物標(biāo)志物。目前,人類也發(fā)現(xiàn)了許多與癌癥發(fā)生、發(fā)展的相關(guān)標(biāo)志物,但是關(guān)于胰腺癌相關(guān)的生物標(biāo)志物還很少見。本文基于基因表達(dá)數(shù)據(jù),利用數(shù)據(jù)挖掘的方法找出可能用于胰腺癌診斷的標(biāo)志物。
1? 數(shù)據(jù)和方法
1.1? 道德規(guī)范和知情同意書
由于沒有招募患者和收集個人信息,因此不需要倫理批準(zhǔn)和患者同意,研究中包含的數(shù)據(jù)均來自公共數(shù)據(jù)庫(GEO)。
1.2? 數(shù)據(jù)收集
基因表達(dá)數(shù)據(jù)可以按照以下步驟獲得。(1)進(jìn)入GEO數(shù)據(jù)庫主頁https://www.ncbi.nlm.nih.gov/geo/,輸入關(guān)鍵詞“胰腺癌”并點(diǎn)擊搜索。(2)在“研究類型”選項(xiàng)中選擇“Expression profiling by array”,在“Top Organisms”中選擇“Homo sapiens”。為了擴(kuò)大樣本量,我們選擇了兩個胰腺癌的數(shù)據(jù),根據(jù)上述標(biāo)準(zhǔn),我們獲取了基因表達(dá)數(shù)據(jù)GSE16515和GSE91035,剔除異常值后,GSE16515包含了16個正常樣本和36個腫瘤樣本,GSE91035包含了23個正常樣本和25個腫瘤樣本,表1顯示了數(shù)據(jù)集的詳細(xì)信息。
1.3? 熱圖分析和差異基因的鑒定
熱圖是一個以顏色變化來顯示數(shù)據(jù)的矩陣,可以簡單地聚合大量數(shù)據(jù),并使用一種漸進(jìn)的色帶直觀地展現(xiàn)空間數(shù)據(jù)的相對大小。生物學(xué)中熱圖經(jīng)常用于展示多個基因在不同樣本中的表達(dá)水平。然后可以通過聚類等方式查看不同組(如疾病組和正常組組)特有的形式。熱圖分析是以各樣本中基因的表達(dá)量繪制熱圖,在圖中每列表示一個樣本,每行表示一個基因,圖中的顏色的深淺表示基因在該樣本中的表達(dá)量[2]。本文將使用R語言中的‘pheatmap包對基因表達(dá)數(shù)據(jù)進(jìn)行熱圖分析。
Limma是一種基于廣義線性模型的差異表達(dá)篩選方法,首先對每個基因的表達(dá)擬合一個線性模型,然后用經(jīng)驗(yàn)貝葉斯(Empirical Bayes)或其他方法進(jìn)行殘差分析獲得合適的t統(tǒng)計量,并針對小樣本實(shí)驗(yàn)的方差估計進(jìn)行優(yōu)化,使得分析的結(jié)果更加可靠[3]。本文使用R語言中的‘limma包進(jìn)行差異分析,以獲得腫瘤樣本與正常樣本間的差異基因。對于要識別差異基因的RNA基因表達(dá)數(shù)據(jù),閾值應(yīng)滿足|logFC|>1.5,p-value<0.05。不同樣本中的基因存在差異表達(dá),該基因可能與胰腺癌的發(fā)生、發(fā)展有潛在的關(guān)系,所以我們有理由相信差異基因之間的重疊與胰腺癌的治療有潛在的關(guān)系,本文采用兩個基因表達(dá)數(shù)據(jù)差異基因之間的交集[4,5]。
1.4? PPI網(wǎng)絡(luò)分析和關(guān)鍵基因的篩選
在轉(zhuǎn)錄調(diào)控相關(guān)的文獻(xiàn)中,我們經(jīng)常能夠看到蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein proteininteraction network, PPI network)用于挖掘核心的調(diào)控基因。具體而言,就是蛋白通過彼此之間的相互作用構(gòu)成一個網(wǎng)絡(luò),來參與生物信號傳遞、基因表達(dá)調(diào)節(jié)、能量和物質(zhì)代謝及細(xì)胞周期調(diào)控等生命過程的各個環(huán)節(jié)。隨后,通過STRING數(shù)據(jù)庫(https://string-db.org/)檢索了編碼蛋白間可能的潛在相互作用,并構(gòu)建了蛋白質(zhì)相互作用網(wǎng)絡(luò)并表示出來[6],目的是描述這些基因或蛋白之間存在怎樣的相互關(guān)系,例如物理接觸、靶向調(diào)節(jié)等,最終闡述生物體中有意義的分子調(diào)節(jié)網(wǎng)絡(luò),有助于從系統(tǒng)的角度研究疾病分子機(jī)制、發(fā)現(xiàn)新藥靶點(diǎn)等。
根據(jù)上述的標(biāo)準(zhǔn),我們將識別出的重疊的差異基因?qū)胱址當(dāng)?shù)據(jù)庫(https://string-db.org/),獲得重疊的DEGs產(chǎn)物之間的相互作用,并利用Cytoscape軟件構(gòu)建和可視化一個PPI網(wǎng)絡(luò)[7],最后利用插件cytoHubba從PPI網(wǎng)絡(luò)中篩選出關(guān)鍵的生物標(biāo)志物。
1.5? 生存分析驗(yàn)證
Kaplan-Meier法簡稱K-M法,又稱乘積極限法(Product-
limit Estimate),由英國科學(xué)家Kaplan和Meier于1958年提出,利用概率乘法原理計算存活率,該法為非參數(shù)方法,不需要對被估計資料分布進(jìn)行任何假設(shè),主要用于未分組小樣本資料估計生存率,也可用于大樣本資料[8]。
通過對數(shù)秩檢驗(yàn)(log-rank test)的Kaplan-Meier生存分析用于驗(yàn)證篩選出的關(guān)鍵基因,P<0.05的值被認(rèn)為具有統(tǒng)計學(xué)意義。
2? 實(shí)證分析
2.1? 熱圖分析和差異分析篩選
為了驗(yàn)證數(shù)據(jù)的合理性,我們進(jìn)行了皮爾遜熱圖分析,顯示了樣本之間的相關(guān)性,以判斷數(shù)據(jù)是否可行。皮爾遜相關(guān)系數(shù)用于表示樣本之間的相關(guān)性,相關(guān)系數(shù)的值介于-1~1之間。當(dāng)該值接近0時,相關(guān)性較低,而該值接近-1或1時,相關(guān)性較高。如圖1所示,是GSE16515和GSE91035基因表達(dá)數(shù)據(jù)中樣本的皮爾遜相關(guān)分析圖。圖中樣本之間的相關(guān)系數(shù)不相等,但這并不意味著樣本之間存在因果關(guān)系,相關(guān)系數(shù)為1或-1的樣本很少,這表明樣本之間的重復(fù)性很低。從皮爾遜熱圖分析的結(jié)果可以看出,數(shù)據(jù)的選擇是有一定意義的。
火山圖可以幫助我們更加直觀地識別變化較大且具有統(tǒng)計意義的基因[9]。如圖2(a)、(b)所示,根據(jù)基因表達(dá)數(shù)據(jù)繪制的火山圖。圖中的每個點(diǎn)代表一個檢測到的基因,紅色點(diǎn)代表上調(diào)基因,綠色點(diǎn)代表下調(diào)基因,黑色點(diǎn)代表無顯著差異的基因。在圖2(a)、(b)中,兩條黑色垂直線的外側(cè)是具有|logFC|>1.5的基因,黑色水平線的上側(cè)是p值小于0.05的基因。從垂直軸看,離水平軸越遠(yuǎn),p值越小,基因差異越顯著。經(jīng)過差異分析,GSE16515基因表達(dá)數(shù)據(jù)包括2 352個上調(diào)基因和935個下調(diào)基因,GSE91035基因表達(dá)數(shù)據(jù)包括2 156個上調(diào)基因和1 413個下調(diào)基因,這些識別出來的上調(diào)基因和下調(diào)基因,就是我們所需要的差異基因。
最后,將GSE16515和GSE91035篩選出來的差異基因通過繪制維恩圖[10]將兩個數(shù)據(jù)的差異基因取交集后(如圖3所示),共篩選出1 459個重疊基因?yàn)椴町惢颉?/p>
2.2? 建立PPI網(wǎng)絡(luò)并識別關(guān)鍵基因
通過在線網(wǎng)站https://string-db.org/和Cytoscape軟件建立PPI網(wǎng)絡(luò)(如圖4所示),進(jìn)一步探索DEGs之間的相互作用。本文僅對節(jié)點(diǎn)數(shù)大于等于8的單個網(wǎng)絡(luò)進(jìn)行進(jìn)一步分析(少于8個節(jié)點(diǎn)的網(wǎng)絡(luò)被排除在外),并計算網(wǎng)絡(luò)各節(jié)點(diǎn)的連通度。然后使用插件cytoHubba從PPI網(wǎng)絡(luò)中篩選出前8個關(guān)鍵基因MAD2L1,NDC80,CDC20,CCNA2,BUB1,CENPE,KIF11,CCNB1(如圖5所示)。
2.3? 生存分析驗(yàn)證
為了探索單個差異基因的潛在預(yù)后價值,本文對PPI網(wǎng)絡(luò)篩選出的前8個關(guān)鍵基因進(jìn)行了生存分析[11]。在這8個關(guān)鍵基因中,共有4個基因與較差的生存顯著相關(guān)(如圖6所示),從而說明這四個基因(NDC80,CDC20,CCNB1,KIF11)對胰腺癌的治療有潛在的價值(p<0.05)。
3? 結(jié)? 論
GEO數(shù)據(jù)庫的數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于癌癥的預(yù)后預(yù)測,因此,在這項(xiàng)研究中我們基于GEO數(shù)據(jù)庫中的多個基因表達(dá)數(shù)據(jù)挖掘出可能影響胰腺癌治療的相關(guān)基因。
根據(jù)基因表達(dá)數(shù)據(jù),我們利用R語言中的‘limma包分析了GSE16515和GSE91035之間的差異基因,并篩選了兩者差異基因的重疊基因。最后將得到的重疊基因?qū)胱址當(dāng)?shù)據(jù)庫(https://string-db.org/),經(jīng)過Cytoscape可視化分析發(fā)現(xiàn)8個潛在的生物標(biāo)志物(MAD2L1,NDC80,CDC20,CCNA2,BUB1,CENPE,KIF11,CCNB1)可能對胰腺癌的治療有幫助,最后通過Kaplan-Meier生存分析驗(yàn)證,得出4個基因(NDC80,CDC20,CCNB1,KIF11)可以被認(rèn)為是胰腺癌治療的生物標(biāo)志物。
該研究的優(yōu)點(diǎn)是使用了多個基因表達(dá)數(shù)據(jù)并利用數(shù)據(jù)挖掘方法來找出潛在的生物標(biāo)志物。雖然已經(jīng)做了仔細(xì)的生物信息學(xué)分析,但仍有一些局限性。在未來,可以繼續(xù)探索其他方法在其他組學(xué)數(shù)據(jù)中的應(yīng)用,并且我們也將繼續(xù)改進(jìn)本研究的方法。不足之處是,后續(xù)還需要在本文研究的基礎(chǔ)上,增添一定的臨床試驗(yàn)予以驗(yàn)證。
參考文獻(xiàn):
[1] 劉宗超,李哲軒,張陽,等.2020全球癌癥統(tǒng)計報告解讀 [J].腫瘤綜合治療電子雜志,2021,7(2):1-14.
[2] YU C,LIN Chang,LIN Y,et al. Clustering heatmap for visualizing and exploring complex and high-dimensional data related to chronic kidney disease [J].J Clin Med,2020,9(2):403.
[3] LIU S,WANG Z,ZHU R,et al. Three differential expression analysis methods for rna sequencing:limma,edger,deseq2 [J/OL].J Vis Exp,2021(175):(2022-09-12).https://pubmed.ncbi.nlm.nih.gov/34605806/.
[4] QIU W,QI B,LIN W,et al. Predicting the lung adenocarcinoma and its biomarkers by integrating gene expression and dna methylation data [J/OL].Front Genet,2022,13:926927(2022-09-12).https://pubmed.ncbi.nlm.nih.gov/35846148/.
[5] 陳玉升,郭楊,申漢威,等.膠質(zhì)瘤差異表達(dá)基因篩選、功能富集和相關(guān)信號通路生物信息學(xué)分析 [J].中華醫(yī)學(xué)雜志,2019,99(29):2311-2314.
[6] ZOU X,AN K,WU Y,et al. PPI network analyses of human WD40 protein family systematically reveal their tendency to assemble complexes and facilitate the complex predictions [J].BMC Syst Biol,2018,12(Suppl 4):41.
[7] DONCHEVA N T,MORRIS J H,GORODKIN J,et al. Cytoscape stringapp:network analysis and visualization of proteomics data [J].J Proteome Res,2019,18(2):623-632.
[8] SCHOBER P,VETTER T R. Kaplan-meier curves,log-rank tests,and cox regression for time-to-event data [J].Anesthesia & Analgesia,2021,132(4):969-970.
[9] 陳亮.基于多種生物數(shù)據(jù)的miRNA簇進(jìn)化與miRNA腫瘤標(biāo)志物研究 [D].長春:吉林大學(xué),2016.
[10] 鮑宗博,高瑩,劉建偉.從Venn圖看信息論中各信息量之間的關(guān)系 [J].高等數(shù)學(xué)研究,2020,23(1):69-72+75.
[11] 鄭建清,黃碧芬.基于Kaplan-Meier plotter數(shù)據(jù)庫分析CD(44)基因表達(dá)狀態(tài)對卵巢癌生存結(jié)局的影響 [J].吉林醫(yī)學(xué),2022,43(1):5-7.
作者簡介:夏文韜(1996—),男,漢族,江蘇宜興人,碩士研究生在讀,主要研究方向:數(shù)據(jù)挖掘和生物大數(shù)據(jù)處理;通訊作者:王筠(1992—),女,漢族,江西景德鎮(zhèn)人,助教,主要研究方向:統(tǒng)計學(xué)理論與應(yīng)用研究。
收稿日期:2022-11-02