劉艷玲,劉 靜,童明瓊,范 娜,王曉玥,孫 婉
(德州學院 醫(yī)藥與護理學院,山東 德州 253023)
慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease,COPD)是一種典型的具有進行性、不可逆的氣流限制和反復呼吸道癥狀的慢性呼吸系統(tǒng)疾病,致殘率和病死率很高,全球40歲以上發(fā)病率已高達9-10%[1-2]。COPD并非單一疾病,它不僅損傷肺組織,同時還會損傷包括心臟、骨骼、免疫系統(tǒng)、消化系統(tǒng)和中樞神經(jīng)系統(tǒng)在內(nèi)的肺外器官和組織,COPD目前已成為全球第三大死因[3-4]。
COPD患者肺部的慢性炎癥反應可導致肺實質(zhì)組織受損,并破壞正常的修復功能和防御機制,導致小氣道纖維化,最終產(chǎn)生氣體陷閉和進行性氣流受限,成為導致氣道阻力增加的主要因素[5-6]。由此可見,COPD與小氣道病變息息相關,盡早干預輕中度COPD患者的小氣道病變,對于延緩病程具有重要意義。研究表明,被診斷為肺癌的患者中40%-70%患有COPD[7],而COPD患者的肺癌發(fā)病率為16.7‰,且最長見的病理類型是肺鱗狀細胞癌(Lung Squamous Cell Carcinoma,LUSC)[8]。對于吸煙者來說,COPD患者患肺癌的幾率是非COPD患者的4~6倍[9],并且輕中度COPD患者患肺癌的幾率較重度COPD更高,這可能與輕中度COPD患者存在炎癥和氧化應激增高有關[10]。目前,COPD與肺癌共存機制尚不清楚,如果能夠探尋COPD合并肺癌的預測因子,研究兩者共同的發(fā)病機制,發(fā)現(xiàn)新的治療靶點,可為COPD的預防、治療和肺癌的早期診斷、降低死亡率提供理論依據(jù)。
目前,關于COPD的生物信息學研究還較少,王小樂等通過對COPD患者肺泡巨噬細胞的芯片數(shù)據(jù)集進行生物信息學分析,共獲得43個差異表達基因,且與免疫和炎癥的發(fā)生和發(fā)展有關[11]。谷雨等對COPD 患者肺組織的芯片數(shù)據(jù)進行了生物信息學分析,找到了FGG, FGA, IL-6, SERPINE1和SPP1 5個Hub基因,根據(jù)調(diào)控途徑的進一步分析發(fā)現(xiàn)差異基因表達可能與代謝及細胞生物功能異常有關[12]。
本研究采用生物信息學方法,從GEO(Gene Expression Omnibus)數(shù)據(jù)庫中篩選3個COPD芯片數(shù)據(jù)集,挖掘COPD患者小氣道上皮細胞(Small airway epithelium,SAEC)的差異表達基因(Differentially Expressed Genes,DEGs)以及潛在的生物標記物,并通過基因本體(Gene Ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析預測DEGs的功能及參與的代謝途徑。通過對DEGs進行COPD的蛋白質(zhì)網(wǎng)絡互作分析,構建PPI(Protein-Protein Interaction)網(wǎng)絡,并使用Cytoscape軟件中的CytoHubba和MCODE篩選子模塊和Hub基因。最后將10個Hub基因通過TCGA和GTEx數(shù)據(jù)庫驗證其在LUSC樣本中的差異表達情況及差異基因間的相關性,為確定COPD 的分子標記物及COPD與LUSC共存的DEGs奠定一定的基礎。
使用“COPD”作為關鍵詞,在GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)中搜索并選擇了3個芯片數(shù)據(jù)集:GSE11784、GSE11906和GSE20257,均來自于GPL570平臺(Affymetrix Human Genome U133 Plus 2.0 Array,Affymetrix,Inc)。由于芯片數(shù)據(jù)都出自威爾·康奈爾醫(yī)學院遺傳醫(yī)學系實驗室,其中的部分樣本在不同芯片間存在重復,去除重復樣本后,最終GSE11784納入53例正常對照和14例COPD患者,GSE11906納入46例正常對照和15例COPD患者,GSE20257納入22例正常對照和9例COPD患者(見表1),3個芯片共納入159例樣本,其中包含121例正常對照和38例COPD患者。
表1 GEO數(shù)據(jù)庫COPD芯片數(shù)據(jù)集Table 1 COPD microarray datasets from GEO database
1.2.1 微陣列數(shù)據(jù)處理
分別對3個數(shù)據(jù)集探針的矩陣文件取log2,然后使用Perl 5.0軟件(http://www.perl.org)對數(shù)據(jù)進行注釋、合并,再通過R軟件(4.0.3版本)的sva和limma包對合并后的數(shù)據(jù)進行批次校正。
1.2.2 DEGs分析
使用R軟件中的Limma包對正常樣本和COPD樣本進行比較,在校正后的P值(AdjP)<0.05的條件下鑒定DEGs。
1.2.3 Go和KEGG 富集分析
使用R軟件中的ClusterProfiter和org.Hs.eg.db包進行GO和KEGG富集分析,以P<0.05定義差異具有統(tǒng)計學意義。
1.2.4 PPI網(wǎng)絡分析
使用在線網(wǎng)站STRING(http://string-db.org)分析DEGs的相互作用關系,選擇最小交互作用得分>0.4的蛋白質(zhì)對構建PPI網(wǎng)絡。然后分別使用Cytoscape中的MCODE(degreecut≥2,nodescorecut≥0.2,K-core≥2,maxdepth=100)和CytoHubba插件篩選重要的子模塊和Hub基因。
1.2.5 Hub基因在TCGA和GTEx數(shù)據(jù)庫中的顯著性驗證
使用在線網(wǎng)站GEPIA(Gene Expression Profiling Interactive Analysis) (http://gepia.cancer-pku.cn/index.html),選擇TCGA和GTEx數(shù)據(jù)庫中的LUSC樣本(486例)和正常樣本(338例)對Hub基因進行差異性驗證(|Log2FC|>2,p-value<0.05,JitterSize=0.4)。
1.2.6 Hub基因的相關性分析
使用在線網(wǎng)站GEPIA網(wǎng)站,選擇TCGA數(shù)據(jù)庫中的LUSC樣本(486例)和正常樣本(50例)對Hub基因進行差異分析。
通過對GSE11784、GSE11906和GSE20257進行RNA水平上正常樣本和COPD樣本分析,共獲得76個 DEGs ,包括 52個上調(diào)基因和24個下調(diào)基因(見表2),DEGs的火山圖和熱圖(見圖1和圖2)。
圖1 DEGs的火山圖Fig.1 Volcano plot for DEGs注:圖中紅點代表顯著上調(diào)基因,綠點代表顯著下調(diào)基因,黑點代表非顯著表達基因,所有差異表達基因符合矯正后p值<0.05.
圖2 COPD和正常樣本DEGs熱圖Fig.2 Heat map for DEGs between COPD and normal samples注:圖中從紅色到綠色,基因表達水平逐漸下降,所有差異表達基因符合矯正后p值<0.05;N代表正常樣本,T代表腫瘤樣本.
表2 三個GEO數(shù)據(jù)集中的76個DEGsTable 2 A total of 76 DEGs in three GEO datasets
通過R軟件的ClusterProfiter和org.Hs.eg.db包進行DEGs的GO 富集分析(見表3),DEGs主要富集在受體-配體活性、信號受體激活劑活性、四吡咯結合、內(nèi)肽酶活性、血紅素結合和G蛋白偶聯(lián)受體結合等功能上。
表3 COPD差異表達基因的GO富集分析Table 3 GO enrichment analysis of DEGs in COPD samples
通過R軟件的ClusterProfiter包進行DEGs的KEGG代謝通路分析,結果(見如圖3和表4),DEGs主要富集在細胞色素P450對外源物質(zhì)的代謝、化學致癌、花生四烯酸代謝和甲狀腺激素合成4條代謝途徑中。
表4 COPD差異表達基因的KEGG代謝通路富集分析Table 4 KEGG pathway analysis of DEGs in COPD samples
圖3 COPD差異表達基因的KEGG代謝通路富集分析Fig.3 KEGG enrichment analysis of DEGs in COPD注:X軸代表差異基因中與該通路相關的基因數(shù)與整個差異基因總數(shù)的比值,Y軸代表KEGG富集通路.
使用在線網(wǎng)站STRING (http://string-db.org) 對52個上調(diào)基因和24個下調(diào)基因進行COPD的蛋白質(zhì)互作分析,構建PPI網(wǎng)絡(見圖4),每個基因代表一個節(jié)點,每2個蛋白質(zhì)之間的連線代表一個關系對,總共有36個節(jié)點和51個關系對。
圖4 COPD差異基因的PPI網(wǎng)絡Fig.4 PPI network of DEGs in COPD samples注:圖中圓圈代表基因,連線代表基因間蛋白質(zhì)的相互作用.
使用Cytoscape軟件中的MCODE從PPI網(wǎng)絡中篩選得到2個功能模塊(見圖5),進一步使用CytoHubba來確定Hub基因(見圖6),評分前十位的基因分別是SPP1、EGF、CCL2、ALDH3A1、BMP4、SPRR3、KRT6A、BPIFB2、CYP1A1和SPRR1B,且都屬于上調(diào)基因。與圖5比較發(fā)現(xiàn),這10個基因有7個存在于兩個功能模塊中,因此將這10個基因作為Hub基因做進一步分析對于COPD患病機理及分子
圖5 用MCODE插件從PPI網(wǎng)絡中篩選獲得兩個關鍵功能模塊(A和B)Fig.5 PPI network of two key modules obtained by MCODE in cytoscape(A and B)
圖6 通過PPI網(wǎng)絡篩選10個Hub基因Fig.6 Ten hub genes screened by PPI network注:圖中顏色越深,基因評分越高.
機制具有一定的研究意義。
TCGA (The Cancer Genome Atlas)是一個涵蓋33種癌癥及對應正常樣本的數(shù)據(jù)庫,GTEx (Genotype Tissue Expression)數(shù)據(jù)庫僅包含正常人的樣本,通常與TCGA數(shù)據(jù)庫結合使用,以彌補TCGA正常樣本的不足。本研究中,為探尋COPD與LUSC共同的生物標記物,將GEO數(shù)據(jù)庫中獲得的COPD的10個Hub基因在TCGA和GTEx數(shù)據(jù)庫的LUSC樣本中進行差異性驗證?;騍PP1、ALDH3A1、SPRR3、KRT6A和SPRR1B均具有顯著性差異(見圖7),表明這5個基因是COPD和LUSC共同的DEGs。進一步分析發(fā)現(xiàn),SPP1和ALDH3A1、SPRR3和KRT6A呈顯著正相關(見圖8),其它基因間無顯著性關系。
圖7 Hub基因SPP1(a)、ALDH3A1(b)、SPRR3(c)、KRT6A(d)、SPRR1B(e)在TCGA和GTEx數(shù)據(jù)庫中LUSC樣本中的差異性驗證Fig.7 Significance verification of SPP1(a), ALDH3A1(b), SPRR3(c), KRT6A(d), and SPRR1B(e) in LUSC samples in TCGA and GTEx databases
圖8 Hub基因相關性分析Fig.8 Correlation analysis of hub genes注:A:SPP1和ALDH3A1相關性分析,B:KRT6A和SPRR3相關性分析.
COPD是一種常見的以持續(xù)氣流受限為特征的疾病,氣流受限進行性發(fā)展,與氣道和肺臟對有毒顆?;驓怏w的慢性炎性反應增強有關[13]。小氣道管腔狹窄,空氣阻力將成倍增加,周圍氣道阻力增高是小氣道病變的重要病理生理學特征,故當小氣道有炎癥或痰液阻塞,很容易造成閉合、萎陷,COPD病變也多從小氣道開始[14]。
本研究以小氣道上皮細胞為研究對象,篩選3個COPD的GEO芯片數(shù)據(jù)集進行生物信息學分析,獲得了52個上調(diào)基因和24個下調(diào)基因。GO分析發(fā)現(xiàn)DEGs主要富集在受體-配體活性、信號受體激活劑活性、四吡咯結合、內(nèi)肽酶活性、血紅素結合和G蛋白偶聯(lián)受體結合等功能上,KEGG代謝通路主要集中在細胞色素P450對外源物質(zhì)的代謝、化學致癌、花生四烯酸代謝和甲狀腺激素合成4條途徑上。進一步分析發(fā)現(xiàn)參與GO和KEGG代謝通路的DEGs均為上調(diào)基因,這些功能和代謝通路均與COPD發(fā)病機理有密切關系。程序性細胞死亡受體1(PD-1)通過與其配體PD-L1結合,負調(diào)控T淋巴細胞活化及效應功能,參與免疫耐受的維持,從而促進了COPD的發(fā)生和發(fā)展過程[15]。乙酰膽堿受體M3是引起氣道平滑肌收縮的主要受體,激活后發(fā)生構象改變,并進一步激活磷脂酶C,催化二磷酸磷脂酰肌醇水解為三磷酸肌醇,促進鈣離子通道開放,引起氣道平滑肌收縮,氣流阻力增大[16]?;ㄉ南┧崾窃谘仔苑磻杏杉毎ち字诹字窤2催化下產(chǎn)生的,并經(jīng)過酶促反應生成多種代謝物,它們可以通過多種途徑刺激呼吸道中的傷害性感受器,導致炎性細胞聚集而發(fā)生局部效應[17]。由此可見篩選得到的差異表達基因在COPD的發(fā)病機制中占有重要地位,可為后續(xù)研究奠定良好的基礎。
進一步取交互作用得分>0.4的蛋白質(zhì)構建PPI網(wǎng)絡,發(fā)現(xiàn)共有36個基因參與到網(wǎng)絡構建中,為獲得關鍵基因,使用Cytoscape軟件中的MCODE和CytoHubba插件對PPI網(wǎng)絡圖進行分析,分別獲得了兩個重要的子模塊和10個Hub基因,比較發(fā)現(xiàn)有7個Hub基因位于子模塊中,其中ALDH3A1和CYP1A1為細胞色素P450對外源物質(zhì)的代謝和化學致癌途徑中的重要基因(見表4),因此可初步認為篩選得到的Hub基因對于進一步研究COPD患病機理及分子機制具有一定的研究意義。為尋求COPD與LUSC共存的DEGs,將10個Hub基因通過TCGA和GTEx數(shù)據(jù)庫驗證其在LUSC中的差異表達情況,從而確定SPP1、ALDH3A1、SPRR3、KRT6A和SPRR1B為COPD與LUSC共存的DEGs。進一步分析其相關性發(fā)現(xiàn)僅SPP1和ALDH3A1、SPRR3和KRT6A間呈顯著正相關(見圖8),目前尚未有該基因對間作用機制的相關報道,是否存在共同的調(diào)節(jié)因子還有待進一步研究。
早期研究并沒有發(fā)現(xiàn)SPP1與COPD之間的聯(lián)系[18],血液分析結果顯示癌癥分期和SPP1表達水平相互矛盾[19],而最新報道表明SPP1在COPD和肺癌患者中均高表達,并且與肺癌較低的生存率密切相關[20],這與本研究結果一致,可以初步認為COPD中SPP1的高表達與患肺癌風險增加有關,SPP1可能是一個治療靶點,用于延緩COPD患者肺癌的發(fā)展,提高其生存時間。
ALDH3A1屬于乙醛脫氫酶家族3中的成員A1,在人體的胃、食道和肺中含量較高。通過前列腺腫瘤異種移植的動物實驗發(fā)現(xiàn)ALDH3A1可以促進前列腺腫瘤細胞肺轉移的發(fā)生[21]。ALDH3A1基因表達還與大肝癌早期復發(fā)轉移關系密切,并且該基因表達越高,復發(fā)轉移時間越長[22]。目前關于ALDH3A1對COPD和LUSCD之間的關系還鮮有報道,通過KEGG代謝通路分析我們可以看到ALDH3A1參與了細胞色素P450對外源物質(zhì)的代謝和化學致癌兩個途徑(見表4)。細胞色素P450是人體內(nèi)主要的多環(huán)芳烴代謝酶,參與內(nèi)外源性物質(zhì)的代謝,對于化學致癌物來說,可把無活性的前致癌物激活轉變?yōu)殡娮踊衔铮c DNA或蛋白質(zhì)結合,導致癌變。由于ALDH3A1在COPD和LUSC中均上調(diào),可以認為高表達的ALDH3A1加速了細胞色素P450對外源物質(zhì)尤其是化學致癌物質(zhì)的代謝,從而促進了COPD和LUSC的發(fā)生和發(fā)展。
SPRRs為一類富含脯氨酸蛋白的基因家族,該家族共有4個成員:SPRR1、SPRR2、SPRR3和SPRR4。它們蛋白產(chǎn)物的中央片段均由串聯(lián)重復的氨基酸(XKXPEPXX(X為任意氨基酸))序列組成:SPRR1、SPRR3和SPRR4為8個,SPRR2為9個。本研究涉及到的Hub基因為SPRR1B和SPRR3。研究表明這兩個基因參與多種癌癥的發(fā)生和發(fā)展。SPRR1B在口腔鱗癌組織中過表達,從而影響細胞增長[23],它還參與黑色素瘤的轉移[24],并且是氣道上皮細胞鱗狀細胞分化的早期生物標志物,其表達下調(diào)伴隨細胞的惡性轉化[25]。通過meta和Kaplan-Meier分析,發(fā)現(xiàn)SPRR1B在肺腺癌組織中表達增強,敲除該基因可抑制肺腺癌細胞增殖、遷移和侵襲;此外,通過火山圖發(fā)現(xiàn)肺癌組織中SPRR3的表達水平也明顯增高[26]。同樣,SPRR1B和SPRR3在肺癌H1299細胞系中均過表達[27]。本研究與前人結果一致,SPRR1B和SPRR3在COPD和LUSC中均表達上調(diào),提示這兩個基因在COPD和LUSC發(fā)生機制的探討中具有潛在的研究價值,建議SPRR家族基因與COPD和肺癌的關系應進一步深入研究。
綜上所述,SPP1、ALDH3A1、SPRR3、KRT6A和SPRR1B可作為COPD 的分子標記物及LUSC的DEGs,尤其是ALDH3A1和SPRR家族基因與COPD和LUSC間的關系及作用機制,有望做進一步深入的研究,為找到COPD和LUSC新的治療靶點提供理論依據(jù)。