羅立才
(高州市人民醫(yī)院,廣東 高州 525200)
近年來(lái)乙型肝炎病毒(HBV)感染在發(fā)展中國(guó)家逐年激增,已受到各國(guó)政府重視。隨著近年來(lái)積極推廣擴(kuò)大乙型肝炎(以下簡(jiǎn)稱乙肝)疫苗接種計(jì)劃的實(shí)施,乙肝發(fā)病率已有所下降。但據(jù)統(tǒng)計(jì),我國(guó)仍有約1億人受到肝病影響,主要是HBV[1]。調(diào)查顯示[2],慢性HBV感染占病毒相關(guān)肝癌(HCC)病例的80%,與未感染人群相比,HBV感染者罹患HCC的風(fēng)險(xiǎn)比普通人群高15~20 倍。在基因?qū)用妫芯縃BV相關(guān)HCC發(fā)生的關(guān)鍵途徑并尋找能夠防治HCC的潛在靶標(biāo)迫在眉睫。近年來(lái)基因芯片技術(shù)在生命科學(xué)中日益受到重視,研究成果亦層出不窮。基因芯片數(shù)據(jù)庫(kù)的頻繁更新為我們研究HBV在個(gè)體基因表達(dá)差異提供強(qiáng)大的研究基礎(chǔ)。本研究主要通過(guò)基因芯片公共數(shù)據(jù)庫(kù)(GEO)獲取基因芯片數(shù)據(jù),應(yīng)用多種生物數(shù)據(jù)庫(kù)篩選HBV感染肝細(xì)胞的差異表達(dá)基因,分析這些基因在預(yù)測(cè)肝癌預(yù)后中的作用,為臨床醫(yī)師評(píng)估HCC患者預(yù)后提供重要理論依據(jù)。
本研究分析的乙型病毒性肝炎相關(guān)基因表達(dá)數(shù)據(jù)芯片從美國(guó)國(guó)立生物技術(shù)信息中心GEO數(shù)據(jù)庫(kù)中下載,編號(hào)GSE118295。實(shí)驗(yàn)平臺(tái)為GPL570,Affymetrix Human Genome U133 Plus 2.0 Array,該數(shù)據(jù)包含6 例樣本,其中HBV感染陰性原代肝細(xì)胞3 例,HBV感染陽(yáng)性原代肝細(xì)胞3 例。
1.2.1 評(píng)估基因芯片質(zhì)量
登錄GEO數(shù)據(jù)庫(kù),下載編號(hào)GSE118295基因數(shù)據(jù)。本研究利用Rx64 3.6.1軟件對(duì)芯片質(zhì)量進(jìn)行繪圖分析。
1.2.2 數(shù)據(jù)處理及差異基因分析
將原始數(shù)據(jù)導(dǎo)入R軟件并調(diào)用RMA法進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算基因表達(dá)量;確定數(shù)據(jù)的Gene symbol,對(duì)數(shù)據(jù)信息用K最近鄰(KNN)分類(lèi)算法填充缺失值;啟動(dòng)R軟件調(diào)用R語(yǔ)言LIMMA包對(duì)數(shù)據(jù)信息進(jìn)行分析,通過(guò)Bayes檢驗(yàn)統(tǒng)計(jì)方法得到差異基因。差異基因篩選標(biāo)準(zhǔn):LogFC(fold change)>1,adj.P.Val<0.05。差異基因數(shù)據(jù)用R軟件繪圖進(jìn)行展示。
1.2.3 差異基因的生物學(xué)分析
運(yùn)用注釋、可視化和集成發(fā)現(xiàn)(DAVID)數(shù)據(jù)庫(kù)進(jìn)行富集分析,導(dǎo)入差異基因后選擇功能注釋、細(xì)胞組分、分子功能、生物途徑、KEGG通路進(jìn)行分析。
1.2.4 差異基因編碼蛋白的相互作用分析
蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI network)主要應(yīng)用于研究疾病分子的相互作用機(jī)制。目前字符串(STRING)數(shù)據(jù)庫(kù)是世界上最大的蛋白質(zhì)數(shù)據(jù)庫(kù),常用作研究蛋白互作關(guān)系。本次研究通過(guò)STRING數(shù)據(jù)庫(kù)(https://string-db.org/cgi/input.pl)分析、預(yù)測(cè)蛋白互作關(guān)系,篩選條件為minimum required interaction score>0.9,Cytoscape篩選PPI網(wǎng)絡(luò)排前10名的核心差異表達(dá)基因。
1.2.5 驗(yàn)證差異基因及生存分析
登錄基因表達(dá)譜數(shù)據(jù)動(dòng)態(tài)分析數(shù)據(jù)庫(kù)-GEPIA(Gene Expression Profiling Interactive Analysis,http://gepia.cancer-pku.cn/),鍵入篩選出10 個(gè)關(guān)鍵節(jié)點(diǎn)基因,驗(yàn)證其在人體的正常組織及肝癌組織的差異表達(dá),最后進(jìn)行生存分析,篩選可預(yù)測(cè)HCC預(yù)后的靶標(biāo)基因。
控制基因芯片的質(zhì)量有利于保存數(shù)據(jù)的真實(shí)性和完整性,對(duì)后續(xù)分析非常重要。本研究芯片質(zhì)量控制由R軟件實(shí)施,主要通過(guò)繪制相對(duì)標(biāo)準(zhǔn)差圖(NUSE)、RNA降解圖判定。結(jié)果顯示芯片質(zhì)量可靠,數(shù)據(jù)的標(biāo)準(zhǔn)差接近,NUSE值在1附近(見(jiàn)圖1)。此外,在實(shí)驗(yàn)過(guò)程中如發(fā)生RNA降解,則定量結(jié)果不可控,數(shù)據(jù)誤差較大。本次研究繪制的RNA降解圖(RNA degradation plot)顯示RNA未見(jiàn)明顯降解(見(jiàn)圖2)。
圖1 相對(duì)標(biāo)準(zhǔn)差圖(NUSE)
圖2 RNA降解圖
經(jīng)R軟件處理原始數(shù)據(jù),對(duì)比正常肝細(xì)胞組及感染HBV肝細(xì)胞組。本次研究得到1 041 個(gè)差異基因,其中表達(dá)上調(diào)323 個(gè),表達(dá)下調(diào)718 個(gè),對(duì)差異基因進(jìn)行聚類(lèi)分析(見(jiàn)圖3,圖4)。
圖3 差異表達(dá)基因熱圖
adj.P.Val為校正后P值,LogFC為兩組間表達(dá)量的比值,對(duì)其取以2為底的對(duì)數(shù)值。根據(jù)LogFC(fold change)>1,adj.P.Val<0.05對(duì)差異表達(dá)基因進(jìn)行分類(lèi)
經(jīng)DAVID數(shù)據(jù)庫(kù)行基因本體(GO)富集分析顯示差異基因主要分布。第一,細(xì)胞組分:細(xì)胞外間隙、胞外區(qū)、胞外外泌體;第二,生物途徑:環(huán)氧化酶P450通路;第三,分子功能:受體結(jié)合(見(jiàn)圖5)。京都基因和基因組百科全書(shū)(KEGG)通路分析顯示,差異基因主要參與補(bǔ)體及凝血級(jí)聯(lián)反應(yīng)、糖酵解/糖異生、視黃醇代謝、過(guò)氧化物酶體增殖物激活受體(PPAR)信號(hào)通路、碳代謝、代謝途徑、初級(jí)膽汁酸生物合成、癌癥中的蛋白聚糖、膽汁分泌等信號(hào)通路(見(jiàn)圖6)。
extracellular space為細(xì)胞外間隙,extracellular region為胞外區(qū),extracellular exosome為胞外外泌體,epoxygenase P450 pathway為P450通路,receptor binding為受體結(jié)合
圖6 KEGG通路分析
通過(guò)STRING數(shù)據(jù)庫(kù)對(duì)1 041 個(gè)差異基因進(jìn)行蛋白質(zhì)相互作用網(wǎng)絡(luò)分析(見(jiàn)圖7)。Cytoscape軟complement and cogulation cascades為補(bǔ)體和凝血級(jí)聯(lián),Glycolysis/Gluconeogenesis為糖酵解/糖異生,Retinol metabolism為視黃醇代謝,PPAR signaling pathway為PPAR信號(hào)通路,Carbon metabolism為碳代謝,Biosynthesis of antibiotics為生物合成的抗生素,Metabolic pathways為代謝途徑,Primary bile acid biosynthesis為初級(jí)膽汁酸生物合成,Proteoglycans in cancer為癌癥中的蛋白聚糖,Bile secretion為膽汁分泌件篩選蛋白互作網(wǎng)絡(luò)結(jié)果中排前10名的核心基因見(jiàn)圖8,分別為激肽原1(KNG1)、α-2-HS-糖蛋白(AHSG)、凝血因子ⅴ(F5)、轉(zhuǎn)鐵蛋白(TF)、趨化因子C-X-C基序配體1(CXCL1)、載脂蛋白A2(APOA2)、表皮生長(zhǎng)因子(EGF)、載脂蛋白E(APOE)、肌糖蛋白C(TNC)、多功能蛋白聚糖(VCAN)。
圖7 STRING數(shù)據(jù)庫(kù)對(duì)1 041 個(gè)差異基因進(jìn)行蛋白質(zhì)相互作用網(wǎng)絡(luò)分析圖
圖8 蛋白互作網(wǎng)絡(luò)分析結(jié)果中篩選排前10 名的核心基因
登錄GEPIA數(shù)據(jù)庫(kù)鍵入10 個(gè)核心差異基因,分析結(jié)果顯示該10個(gè)核心基因在消化道腫瘤中表達(dá)量存在差異(見(jiàn)圖9),其中APOA2在肝癌表達(dá)最高。通過(guò)快速單基因搜索,結(jié)果顯示APOA2,APOE,KNG1,AHSG,F(xiàn)5和TF在肝臟腫瘤中高表達(dá),CXCL1在食道、結(jié)腸腫瘤中高表達(dá),EGF在腎臟腫瘤中高表達(dá),TNC在腦腫瘤中高表達(dá),VCAN在腦、胰腺腫瘤中高表達(dá)。選取在肝臟腫瘤中高表達(dá)的6 個(gè)關(guān)鍵基因進(jìn)行表達(dá)量分析(見(jiàn)圖10)。生存分析結(jié)果顯示:KNG1高表達(dá)與肝癌預(yù)后密切相關(guān),表現(xiàn)為高表達(dá)組5 年生存率更優(yōu)(見(jiàn)圖11)。
LIHC為肝細(xì)胞肝癌,CHOL為膽管癌,COAD為結(jié)腸癌,EACA為食管癌,PAAD為胰腺癌,READ為直腸癌,STAD為胃癌
X軸:T-腫瘤,N-正常組織;Y軸:基因表達(dá)量,參數(shù):[log2(TPM+1)]
藍(lán)實(shí)線:低表達(dá)KNG1組;藍(lán)虛線:低表達(dá)組95%置信區(qū)間;紅實(shí)線:高表達(dá)KNG1組;紅虛線:高表達(dá)組95%置信區(qū)間。TPM:每百萬(wàn)條reads的轉(zhuǎn)錄本;Logrank p: logrank檢驗(yàn);HR:風(fēng)險(xiǎn)比;P(HR):HR的檢驗(yàn)P值
患者感染HBV后主要風(fēng)險(xiǎn)為肝纖維化、肝硬化,隨著疾病進(jìn)展,肝代償功能失調(diào),最終引發(fā)HCC。目前臨床已對(duì)HCC的致病機(jī)制取得了一定共識(shí),認(rèn)為病毒復(fù)制本身并不直接產(chǎn)生細(xì)胞毒性,而宿主免疫系統(tǒng)對(duì)感染肝細(xì)胞的炎癥反應(yīng)是最終導(dǎo)致免疫介導(dǎo)肝臟損害的關(guān)鍵。亞太地區(qū)經(jīng)擴(kuò)大HBV疫苗接種措施,已有效降低了肝癌發(fā)病率,但仍約有1 億人受到肝病影響。HBV感染仍是導(dǎo)致亞太地區(qū)慢性肝損傷和HCC的主要因素[3]。面對(duì)極為龐大的患病基數(shù),我國(guó)每年乙肝病毒相關(guān)肝癌患者死亡案例仍居高不下,給患病家庭帶來(lái)沉重的經(jīng)濟(jì)、心理負(fù)擔(dān),因此從基因?qū)用鎸ふ野袠?biāo)對(duì)于防治HCC顯得尤為重要。
基因芯片于20世紀(jì)80年代中期上市,其測(cè)序原理是通過(guò)與一組已知序列的核酸探針雜交進(jìn)行核酸序列測(cè)定以獲得一組完全互補(bǔ)的探針序列,據(jù)此可重組出靶核酸序列,目前在生命科學(xué)領(lǐng)域應(yīng)用廣泛。生物信息學(xué)則從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。近年來(lái)不斷有科研人員利用基因芯片公共數(shù)據(jù)庫(kù)(GEO)、生物信息數(shù)據(jù)庫(kù)(DAVID)、基因表達(dá)譜數(shù)據(jù)動(dòng)態(tài)分析數(shù)據(jù)庫(kù)(GEPIA)、蛋白質(zhì)互作數(shù)據(jù)庫(kù)(STRING)等生命科學(xué)的頂尖數(shù)據(jù)庫(kù)發(fā)表了一些高質(zhì)量的研究成果[4-7]。
本次研究共得到1 041 個(gè)差異基因,其中表達(dá)上調(diào)323個(gè),表達(dá)下調(diào)718個(gè),GO富集分析顯示差異基因主要分布于細(xì)胞外間隙、胞外區(qū)、胞外外泌體等細(xì)胞組分,而生物途徑則與環(huán)氧化酶P450通路相關(guān),在分子功能上影響受體結(jié)合。環(huán)氧化酶P450通路在肝癌中出現(xiàn)基因富集現(xiàn)象,這與Ding等[8]研究的在肝癌患者中環(huán)氧化酶P450顯著下調(diào)結(jié)果一致。在外泌體領(lǐng)域,有研究人員報(bào)道[9]腫瘤細(xì)胞可分泌外泌體與鄰近或遠(yuǎn)處的細(xì)胞產(chǎn)生通訊,從而促進(jìn)腫瘤的進(jìn)展和轉(zhuǎn)移。KEGG通路分析顯示本次研究的差異基因涉及多種信號(hào)通路,其中初級(jí)膽汁酸生物合成在肝癌中的作用已在腸道菌群介導(dǎo)的膽汁酸代謝通過(guò)NKT細(xì)胞調(diào)控肝癌的研究中得到證實(shí)[10]。PPARγ信號(hào)通路在肝臟疾病中的作用則研究得較為深入,研究顯示上調(diào)PPARγ通路可防治肝纖維化[11]。
蛋白互作網(wǎng)絡(luò)分析顯示KNG1和APOA2等在肝癌高表達(dá)。有學(xué)者[12-13]通過(guò)蛋白質(zhì)組學(xué)和免疫組織化學(xué)將KNG1鑒定為大腸癌早期階段的潛在標(biāo)志物。目前KNG1的研究主要集中于結(jié)直腸癌、膠質(zhì)細(xì)胞瘤[14]、慢性阻塞性肺疾病[15]、靜脈血栓形成[16]、血管性水腫[17]、增生性玻璃體視網(wǎng)膜病變[18]等疾病,也有報(bào)道在慢性丙型肝炎病毒伴發(fā)肝癌患者中KNG1升高[19-20],但目前KNG1是否能作為一個(gè)預(yù)測(cè)肝癌預(yù)后的基因靶標(biāo)鮮有報(bào)道。因此我們決定利用GEPIA數(shù)據(jù)庫(kù)對(duì)此進(jìn)行探索,設(shè)定LogrankP<0.05為排除抽樣誤差的標(biāo)準(zhǔn),分析結(jié)果顯示HCC患者KNG1高表達(dá)組在5 年生存率對(duì)比中更占優(yōu)勢(shì),提示KNG1具有預(yù)測(cè)HCC預(yù)后的潛力。
本研究利用生物信息學(xué)技術(shù)探索感染乙肝病毒肝細(xì)胞差異表達(dá)基因在預(yù)測(cè)肝癌預(yù)后中的作用,結(jié)果顯示KNG1有望成為指導(dǎo)預(yù)測(cè)HCC患者預(yù)后的基因靶標(biāo),但由于GEPIA數(shù)據(jù)庫(kù)中沒(méi)有對(duì)HCC進(jìn)行細(xì)分,因此無(wú)法直接分析KNG1在乙肝相關(guān)肝癌這一特定病種中的作用,進(jìn)一步利用生物信息學(xué)技術(shù)在不同病因HCC中的作用機(jī)制將會(huì)為臨床提供更準(zhǔn)確的早期診治及預(yù)后分析依據(jù)。