宿家銘,彭 景,陳海敏,周 盈,史 揚,董昭熙,溫雅軒,林子萱,柳紅芳
(1.北京中醫(yī)藥大學(xué),北京 100029;2.北京中醫(yī)藥大學(xué)東直門醫(yī)院,北京 100700)
糖尿病腎?。╠iabetic nephropathy,DN)作為糖尿病最主要的微血管病變之一,已成為全世界終末期腎病的最常見原因[1],嚴(yán)重影響患者的預(yù)期壽命和生存質(zhì)量。目前尚無特效的治療方案,仍以治療原發(fā)病延緩病情進(jìn)展為主[2]。因此,對DN 發(fā)病與進(jìn)展機制的探索是腎臟病學(xué)和內(nèi)分泌學(xué)者亟需解決的難題。傳統(tǒng)觀點認(rèn)為DN 主要以腎小球病變?yōu)橹?,但隨著對DN 腎小管間質(zhì)氧化應(yīng)激損傷、細(xì)胞凋亡和自噬、血管生成異常以及過度炎癥反應(yīng)活化等腎臟損害機制研究的深入,研究結(jié)果提示腎小管病變和腎間質(zhì)纖維化在DN 的發(fā)生和發(fā)展中起重要作用,甚至認(rèn)為其損傷早于腎小球病變,并可作為預(yù)測DN 進(jìn)展的相對獨立因素[3]。
當(dāng)前生物信息學(xué)方法被廣泛應(yīng)用于研發(fā)與診斷或預(yù)后相關(guān)的生物標(biāo)志物,但考慮樣本量有限造成的高假陽性率,可能難以在單芯片數(shù)據(jù)分析中獲得可靠的結(jié)果[4]。遂本研究利用生物信息學(xué)多芯片聯(lián)合分析方法全面搜索GEO 數(shù)據(jù)庫中所有現(xiàn)存DN 患者腎小管間質(zhì)組織基因測序芯片,尋找與DN腎小管間質(zhì)損傷特異性相關(guān)的差異表達(dá)基因(differentially expressed genes,DEGs),并嘗試聯(lián)合機器學(xué)習(xí)算法對核心基因進(jìn)行判斷篩選,同時研究相關(guān)基因可能存在的具體富集途徑和免疫浸潤機制,結(jié)合臨床特征相關(guān)性分析評估危險因素,從而揭示涉及DN 腎小管間質(zhì)損傷相關(guān)病理、生理過程的分子機制,探索潛在的生物標(biāo)志物,為DN 的早期診斷和靶向治療提供理論參考和科學(xué)依據(jù)。
在GEO 數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo)中以“diabetic nephropathy”為關(guān)鍵詞檢索基因芯片數(shù)據(jù),納入排除標(biāo)準(zhǔn)如下:(1)人類mRNA 表達(dá)數(shù)據(jù)集;(2)所有樣本為腎小管間質(zhì)組織;(3)數(shù)據(jù)集應(yīng)包含對照組和實驗組,且各組樣本量大于2。篩選后獲取人類DN 樣本基因表達(dá)譜公共數(shù)據(jù)集GSE30122、GSE47185 和GSE99340 作 為 聯(lián) 合 芯 片數(shù)據(jù)集,而GSE104954 作為獨立驗證數(shù)據(jù)集,下載各矩陣數(shù)據(jù)集文件及相應(yīng)的平臺文件,詳細(xì)信息見表1。
表1 數(shù)據(jù)集詳細(xì)信息Tab 1 Dataset details
基于平臺注釋信息,將各數(shù)據(jù)集中探針I(yè)D 轉(zhuǎn)換為“Entrez ID”。 合 并GSE30122、GSE47185 和GSE99340 矩陣文件為聯(lián)合芯片數(shù)據(jù)集,運用R 軟件(版本4.2.0)Sva 包中函數(shù)Batch normalization 對數(shù)據(jù)集進(jìn)行批次校正后,通過“l(fā)imma”包對標(biāo)準(zhǔn)化的基因表達(dá)譜進(jìn)行差異分析,并使用貝葉斯方程多重檢驗校正,以|log2FC|>1 和校正后P<0.05 作為標(biāo)準(zhǔn)篩選出DEGs,利用ggplot2 包繪制DEGs 的火山圖,pheatmap 包繪制DEGs 的熱圖。
為了探索DEGs 的主要功能和途徑,通過R 軟件中“Bioconductor”軟件包對DEGs 進(jìn)行基因本論(gene ontology,GO)富集和KEGG(kyotoencyclopedia of genes and genomes)通路富集分析,以P<0.05為標(biāo)準(zhǔn)篩選出具統(tǒng)計學(xué)意義的生物過程(biological process,BP)、細(xì)胞成分(cellular component,CC)、分子功能(molecular function,MF)以及信號通路。為了得到更全面的結(jié)果,采用基因集富集分析(gene set enrichment analysis,GSEA)方 法,選 擇c5.go.v7.4.symbols.gmt 和c2.cp.kegg.v7.4.symbols.gmt 作為參考基因集,使用GSEA 軟件對聯(lián)合芯片數(shù)據(jù)集中DN 患者的校正基因表達(dá)矩陣分別進(jìn)行1 000 次模擬分析,獲取GO 和KEGG 富集分析結(jié)果。
利用R 軟件對以上獲得聯(lián)合芯片數(shù)據(jù)集的校正基因表達(dá)矩陣進(jìn)行免疫浸潤分析,從CIBERSOFT 官網(wǎng)(https://cibersort.stanford.edu/)下載22種免疫細(xì)胞基因表達(dá)數(shù)據(jù),使用R 軟件“e1071”包計算每個樣品中22 種免疫細(xì)胞占比,繪制免疫浸潤豐度圖。分別使用“corrplot”包、“vioplot”包繪制相關(guān)性熱圖和小提琴圖,用以分析免疫細(xì)胞浸潤分布相關(guān)性及其差異,P<0.05 代表兩組間差異有顯著性意義。
機器學(xué)習(xí)算法可獲得更精細(xì)的模型,已廣泛應(yīng)用于生物標(biāo)志物的探索,本研究引入最小絕對值收斂和選擇算子(LASSO)、支持向量機-遞歸特征消除(SVM-RFE)與隨機森林(RF)3 種機器學(xué)習(xí)算法[5]。LASSO 由“glmnet”R 包構(gòu)建,在擬合廣義線性模型的同時進(jìn)行變量篩選和復(fù)雜度調(diào)整;SVMRFE 是一種有監(jiān)督的機器學(xué)習(xí)技術(shù),可根據(jù)遞歸對特征進(jìn)行排序[6];RF 通過建立決策樹分類器模型對分類變量進(jìn)行反復(fù)迭代評分,產(chǎn)生高精確性分類特征,共同篩選聯(lián)合芯片數(shù)據(jù)集中核心基因。
將GSE104954 作為獨立的驗證數(shù)據(jù)集,采用非配對t檢驗,P<0.05 為差異有統(tǒng)計學(xué)意義,驗證篩選出的核心基因在兩組間表達(dá)差異。隨后,建立受試者工作曲線(ROC),計算ROC 曲線下面積(AUC)值,分別評估核心基因診斷DN 的效能。
整合核心基因在聯(lián)合芯片數(shù)據(jù)集中表達(dá)矩陣,使用邏輯回歸分析構(gòu)建預(yù)測模型,利用R 軟件可視化為列線圖,預(yù)測DN 患者的腎小管間質(zhì)損傷,采用ROC 曲線以辨別模型性能。
Nephroseq 數(shù) 據(jù) 庫(https://www. nephroseq.org)是存儲了腎臟疾病及其對照組的基因表達(dá)數(shù)據(jù)的臨床數(shù)據(jù)庫,被廣泛用于腎臟病的研究[7]。本研究通過該數(shù)據(jù)庫對篩選出的核心基因進(jìn)行驗證,采用Pearson 相關(guān)分析探索核心基因于DN 腎小管間質(zhì)組織表達(dá)情況對DN 患者腎小球濾過率(GFR)、24 h 蛋白尿、血肌酐、尿素氮等臨床指標(biāo)的影響,P<0.05 為差異有統(tǒng)計學(xué)意義。
聯(lián)合芯片數(shù)據(jù)集總計包含46 名DN 患者和37名健康對照者樣本,批次校正后各數(shù)據(jù)集間的數(shù)據(jù)分布趨于一致,結(jié)果見圖1。根據(jù)篩選標(biāo)準(zhǔn)與健康對照者相比,總計獲得107 個DN 腎小管間質(zhì)組織相關(guān)DEGs,其中26 個基因下調(diào),81 個基因上調(diào)。為顯示DEGs 的變化及聚類關(guān)系,繪制火山圖和熱圖,見圖2。
圖1 芯片數(shù)據(jù)集的標(biāo)準(zhǔn)化Fig 1 Standardization of chip data set
圖2 DEGs 的火山圖(A)和熱圖(B)Fig 2 Volcano plots(A)and heatmap(B)of differentially expressed genes
將篩選出的107 個DEGs 靶點導(dǎo)入R 軟件進(jìn)行GO 富集分析,其中生物學(xué)過程主要涉及到內(nèi)肽酶活性的調(diào)節(jié)、肽酶活性的調(diào)節(jié)、水解酶活性的負(fù)調(diào)節(jié)、白細(xì)胞介導(dǎo)免疫和細(xì)胞因子產(chǎn)生的正調(diào)節(jié)等;細(xì)胞組分則包括了膠原蛋白-含有細(xì)胞外基質(zhì)、分泌顆粒腔和細(xì)胞質(zhì)泡腔等;分子功能主要富集在細(xì)胞外基質(zhì)結(jié)構(gòu)成分、酶抑制劑活性和肽酶調(diào)節(jié)活性等。KEGG 通路富集結(jié)果共34 條,主要相關(guān)通路為金黃色葡萄球菌感染、補體和凝血級聯(lián)、細(xì)胞黏附分子、吞噬體、細(xì)胞外基原(extracellular matrix,ECM)-受體相互作用、Th1 和Th2 細(xì)胞分化等,見圖3。進(jìn)一步通過GSEA 富集分析發(fā)現(xiàn),在DN 患者腎小管間質(zhì)基因表達(dá)矩陣中,活躍的GO 功能主要富集于適應(yīng)性免疫反應(yīng)、淋巴細(xì)胞介導(dǎo)免疫、免疫效應(yīng)器過程的調(diào)節(jié)等免疫相關(guān)過程;活躍的KEGG通路主要富集于細(xì)胞黏附分子、細(xì)胞因子-細(xì)胞因子受體相互作用、ECM-受體相互作用等相關(guān)通路,見圖4。
圖3 DEGs 的GO 分析(A)和KEGG 分析(B)Fig 3 GO analysis(A)and KEGG analysis(B)of differentially expressed genes
圖4 DN 腎小管間質(zhì)基因表達(dá)矩陣的GSEA 富集分析Fig 4 GSEA enrichment analysis of tubulointerstitial gene expression matrix in DN
構(gòu)建87 名健康對照者和71 名DN 患者腎小管間質(zhì)組織的免疫細(xì)胞含量矩陣,顯示了22 種免疫細(xì)胞在不同樣本中浸潤分布差異,見圖5A。通過免疫細(xì)胞相關(guān)性分析發(fā)現(xiàn),嗜酸性粒細(xì)胞與幼稚B 細(xì)胞之間相互作用最明顯且呈正相關(guān)(r=0.66),見圖5B。與健康對照者相比,DN 患者腎小管間質(zhì)組織內(nèi)22 種免疫細(xì)胞組間浸潤顯著(P<0.05)的有5種,其中記憶性靜息CD4 T 細(xì)胞、γδ T 細(xì)胞、靜息肥大細(xì)胞和中性粒細(xì)胞上調(diào),CD8 T 細(xì)胞下調(diào),見圖5。
圖5 22 種免疫細(xì)胞浸潤分析結(jié)果Fig 5 Infiltration of 22 kinds of immune cells
分別利用LASSO 回歸、SVM-RFE 算法和RF算法對DN 腎小管間質(zhì)組織DEGs 進(jìn)一步篩選,其中構(gòu)建LASSO 回歸模型并進(jìn)行交叉驗證,誤差最小值對應(yīng)16 種特征基因,SVM-RFE 算法通過5 折交叉驗證后挑選出8 種特征基因,RF 算法鑒定了10個特征基因。取交集得到MARCKSL1、CX3CR1、FSTL1、AGR2、GADD45B5 個核心基因,見圖6。
圖6 機器學(xué)習(xí)算法篩選DN 腎小管間質(zhì)損傷核心基因Fig 6 The core genes of DN with tubulointerstitial injury were screened by machine learning algorithm
使用GSE104954 驗證數(shù)據(jù)集進(jìn)行外部交叉驗證,結(jié)果顯示:與健康對照者相比,DN 患者腎小管間 質(zhì) 內(nèi)MARCKSL1、CX3CR1和FSTL1基 因 表 達(dá)顯著上調(diào),而GADD45B基因表達(dá)顯著下調(diào),同聯(lián)合芯片數(shù)據(jù)集內(nèi)表達(dá)趨勢一致,但AGR2 表達(dá)量差異無統(tǒng)計學(xué)意義,見圖7A~E。同時,ROC 曲線顯示篩選出的5 個核心基因在驗證數(shù)據(jù)集(圖7F~J)內(nèi)對區(qū)分DN 患者與健康對照者具有較高的診斷效能(AUC>0.7)。
圖7 核心基因驗證的結(jié)果Fig 7 The verification results of core genes
基于聯(lián)合芯片數(shù)據(jù)集的核心基因表達(dá)矩陣,通過邏輯回歸構(gòu)建預(yù)測模型并可視化為列線圖,預(yù)測模型的C 指數(shù)為0.994,具有較高的關(guān)聯(lián)度。此外,ROC 曲線表明,與其他單一核心基因模型相比,組合列線圖模型在預(yù)測DN 患者腎小管間質(zhì)損傷方面的性能最高,見圖8。
圖8 列線圖預(yù)測模型Fig 8 Model of prediction nomogram
核心基因表達(dá)與DN 臨床特征的相關(guān)性通過已有的腎病臨床數(shù)據(jù)庫(Nephroseq)進(jìn)行驗證,檢索得到ERCB Nephrotic Syndrome TubInt(10 名DN 患者)、Ju CKD TubInt(17 名DN 患者)、Schmid Diabetes TubInt(9 名DN 患 者)、Woroniecka Diabetes TubInt(10 名DN 患者)等4 個DN 腎小管間質(zhì)組織基因表達(dá)和臨床特征數(shù)據(jù)集,Pearson 相關(guān)分析發(fā)現(xiàn),基因MARCKSL1、CX3CR1和AGR2的表達(dá)與DN 患者GFR(mL/min)呈負(fù)相關(guān),見圖9A~C;基因MARCKSL1、FSTL1和GADD45B的 表 達(dá) 與DN 患者尿蛋白(g/d)水平呈正相關(guān),見圖9D~F。余結(jié)果無統(tǒng)計學(xué)意義,故未在圖中列出。
圖9 關(guān)鍵基因臨床特征分析結(jié)果Fig 9 The clinical characteristics results of core genes
DN 腎小管間質(zhì)損傷并非繼發(fā)于腎小球病變,而在DN 早期存在且于疾病進(jìn)展中發(fā)揮重要作用,所以相關(guān)生物標(biāo)志物的研究成為DN 早期診斷的突破口之一[8,9]。本研究基于GEO 數(shù)據(jù)庫中2022 年1月前的DN 患者腎小管間質(zhì)組織基因測序芯片,利用生物信息學(xué)方法聯(lián)合機器學(xué)習(xí)技術(shù)探索潛在分子機制。
在DN 患者與健康對照者樣本之間共獲得107個DEGs 與DN 腎小管間質(zhì)病變特異性相關(guān),綜合DEGs 富集分析結(jié)果發(fā)現(xiàn)DN 腎小管間質(zhì)損傷中免疫失調(diào)和炎性反應(yīng)、細(xì)胞因子作用、ECM 沉積等機制尤為突出,深入探究發(fā)現(xiàn)各病理損傷之間存在緊密聯(lián)系,并最終指向腎間質(zhì)纖維化。腎間質(zhì)纖維化是DN 進(jìn)行性腎功能衰竭的重要原因,也是DN 進(jìn)展至終末期腎病的最終結(jié)局[10]。ECM 過度沉積決定了腎間質(zhì)纖維化的程度和進(jìn)展[11],DN 早期局部浸潤的免疫炎性細(xì)胞釋放出多種細(xì)胞因子、生長因子和血管活性物質(zhì)造成腎臟固有細(xì)胞損傷,激活纖維蛋白原、纖連蛋白等多種ECM 蛋白轉(zhuǎn)錄并滲入受損部位,同時在細(xì)胞黏附分子的介導(dǎo)下將成纖維細(xì)胞和免疫細(xì)胞黏附于受損處以促進(jìn)修復(fù)或清除病原體[12,13]。但隨著免疫微炎癥狀態(tài)的長期浸潤和高糖刺激持續(xù)存在,損傷后修復(fù)延伸為病理改變[14],腎小管間質(zhì)中ECM 過度沉積,且部分水解成具有生物活性的片段,刺激周圍細(xì)胞轉(zhuǎn)化為難以降解的膠原蛋白和纖連蛋白等纖維化ECM,導(dǎo)致正常腎臟組織結(jié)構(gòu)和功能喪失,形成腎間質(zhì)纖維化損傷[15,16]。遂基于本研究基因富集途徑推測免疫失調(diào)和炎性反應(yīng)為DN 腎小管間質(zhì)損傷使動因素,而ECM 沉積造成的腎間質(zhì)纖維化為最終結(jié)局。
進(jìn)一步通過免疫浸潤分析發(fā)現(xiàn)記憶性靜息CD4 T 細(xì) 胞、γδ T 細(xì) 胞、靜 息 肥 大 細(xì) 胞、中 性 粒 細(xì)胞、CD8 T 細(xì)胞等許多免疫系統(tǒng)成分參與DN 腎小管間質(zhì)損傷,盡管DN 并非“免疫介導(dǎo)”為主的腎臟疾病,但大量研究證實先天免疫和適應(yīng)性免疫異常造成的炎癥反應(yīng)失調(diào)導(dǎo)致DN 患者進(jìn)行性腎功能損害[17],包括多種免疫和炎性細(xì)胞(T 淋巴細(xì)胞、單核/巨噬細(xì)胞、中性粒細(xì)胞等)、炎性因子[血管內(nèi)皮生長因子、腫瘤壞死因子-α(TNF-α)、轉(zhuǎn)化生長因子-β 1、白介素(IL)、C 反應(yīng)蛋白、NF-κB、結(jié)締組織生長因子CTGF、單核細(xì)胞趨化蛋白MCP-1 等]通過多種信號通路和相互交叉作用,加劇機體微炎癥狀態(tài)與氧化應(yīng)激反應(yīng),共同促進(jìn)了ECM 沉積、細(xì)胞凋亡、腎小管硬化以及腎臟血流動力學(xué)改變,造成腎功能持續(xù)惡化,故近年來認(rèn)為DN 是一種免疫炎癥性疾病[18,19]。
為了實現(xiàn)DN 的早期診斷與評估預(yù)后,利用機器學(xué)習(xí)方法發(fā)現(xiàn)了DN 腎小管間質(zhì)損傷新的分子特征,包括MARCKSL1、CX3CR1、FSTL1、AGR2和GADD45B,并通過ROC 曲線和列線圖預(yù)測模型證實了出色的診斷效能。其中MARCKSL1在多種組織中表達(dá)[20],參與調(diào)控細(xì)胞遷移、分泌、增殖和分化等多種生理活動,現(xiàn)有研究表明MARCKSL1在免疫系統(tǒng)中發(fā)揮重要的調(diào)節(jié)作用,包括促進(jìn)炎癥細(xì)胞的遷移以及細(xì)胞因子的分泌,可通過抑制其磷酸化進(jìn)而抑制p38、JNK MAPKs 和NF-κB,降低TNF-α和IL-6 等炎性細(xì)胞因子水平,同時影響巨噬細(xì)胞、中性粒細(xì)胞的遷移和黏附[21],但在DN 腎小管間質(zhì)免疫浸潤與微炎癥狀態(tài)中的功能和作用有待深入挖掘;多項臨床研究已證實CX3CR1在DN 患者的腎臟中表達(dá)上調(diào)[22],且Song 等[23]研究認(rèn)為CX3CR1通過上調(diào)ECM 合成而在DN 中發(fā)揮重要作用,抑制CX3CR1可減少DN 小鼠模型的ECM 沉積,改善腎臟巨噬細(xì)胞浸潤與纖維化,因此可能成為防治DN的有效靶點;FSTL1是一種成纖維細(xì)胞衍生的細(xì)胞因子,與多種組織器官(腎、肝、肺等)纖維化密切相關(guān)[24,25],經(jīng)臨床和基礎(chǔ)研究證實FSTL1在慢性腎臟病患者體內(nèi)表達(dá)上調(diào),且促進(jìn)腎臟纖維化、炎癥和細(xì)胞凋亡過程,可能為慢性腎臟病新的治療靶點;AGR2可通過多種途徑參與細(xì)胞增殖和生長,目前在腫瘤發(fā)生、發(fā)展及靶向治療中的作用日益得到認(rèn)可[26],而在驗證數(shù)據(jù)集中并未表現(xiàn)出顯著差異,但Zhou 等[27]研 究 結(jié) 果 同 樣 認(rèn) 為AGR2為DN 腎 小 管間質(zhì)病變關(guān)鍵樞紐基因之一;GADD45B參與細(xì)胞周期阻滯、細(xì)胞存活或凋亡及DNA 損傷修復(fù)等過程,少數(shù)研究報道高糖可刺激db/db 小鼠腎臟組織和人近端腎小管上皮細(xì)胞中GADD45B的高表達(dá),促進(jìn)腎小管上皮-間充質(zhì)轉(zhuǎn)化和細(xì)胞凋亡,但也指出GADD45B可能在其他細(xì)胞系和不同疾病模型中具有抗凋亡作用[28],而本研究發(fā)現(xiàn)其在DN 患者腎小管間質(zhì)組織中表達(dá)下調(diào)顯著。
另一方面,DN 臨床特征表現(xiàn)為GFR 惡化、進(jìn)行性蛋白尿、血清肌酐和尿素氮水平升高等進(jìn)行性腎功能損害,研究發(fā)現(xiàn)相對于腎小球病變,腎小管間質(zhì)損傷對腎功能惡化的判斷更加靈敏[29]。本研究基于核心基因在Nephroseq 數(shù)據(jù)庫中進(jìn)行臨床特征相關(guān)性分析,發(fā)現(xiàn)MARCKSL1、CX3CR1和AGR2的表達(dá)與DN 患者GFR、尿蛋白水平具有相關(guān)性,提示對判斷DN 患者病情進(jìn)展具有一定意義。由此本研究結(jié)果充分表明MARCKSL1、CX3CR1、FSTL1在DN 腎小管間質(zhì)損傷中具有良好的診斷與預(yù)測效能,甚至有足夠潛力作為DN 治療靶點,而AGR2和GADD45B還有待進(jìn)一步深入研究。
綜上所述,基于整合GEO 數(shù)據(jù)庫中DN 腎小管間質(zhì)組織差異表達(dá)的基因圖譜,借助生物信息學(xué)聯(lián)合機器學(xué)習(xí)方法,闡釋了相關(guān)生物標(biāo)志物在DN 腎小管間質(zhì)損傷中的生物學(xué)意義,也為診斷DN 的生物標(biāo)志物和治療靶點提供新的思路,但相關(guān)檢測方法以及具體應(yīng)用的范圍和準(zhǔn)確性仍需進(jìn)一步開展實驗驗證。
作者貢獻(xiàn)說明:
宿家銘、彭景、董昭熙:統(tǒng)計分析數(shù)據(jù)并進(jìn)行結(jié)果的分析與解釋,負(fù)責(zé)撰寫論文;宿家銘、陳海敏、史揚、董昭熙:共同完成論文相關(guān)數(shù)據(jù)資料的獲取和處理;周盈、溫雅軒、林子軒、彭景:協(xié)助完成數(shù)據(jù)分析和討論;柳紅芳:提供本文思路并指導(dǎo)寫作。
所有作者聲明不存在利益沖突關(guān)系。