魏熙胤 臧鳳琳
基因芯片技術(shù)的迅猛發(fā)展使得在同一時間點(diǎn)上檢測大量基因的表達(dá)水平成為可能,進(jìn)而從中篩選出差異表達(dá)基因,可以幫助人們進(jìn)一步了解乳腺癌的發(fā)病機(jī)制。迄今為止,人們對于乳腺癌初始分子特征改變的認(rèn)識仍然有限。初期癌組織前體的改變逐漸成為研究熱點(diǎn),包括增生病變以及組織學(xué)上正常的上皮組織。其中,對乳腺癌上皮組織細(xì)胞異常
基因的研究可以彌補(bǔ)人們對乳腺癌發(fā)生認(rèn)識的不足。研究表明,乳腺癌患者的乳腺上皮雖然在組織學(xué)上是正常的,但是其中存在一些隱蔽性的異常,而人們對這些異常在癌癥發(fā)生中的作用卻知之甚少[1]。本研究運(yùn)用基因芯片的方法對乳腺癌患者組織學(xué)正常的上皮細(xì)胞和正常人的上皮細(xì)胞進(jìn)行生物信息學(xué)分析,從中發(fā)現(xiàn)異常的基因信號,進(jìn)而實(shí)現(xiàn)對乳腺癌的早期診斷。
1.1 芯片數(shù)據(jù)的獲取 數(shù)據(jù)主要來自2部分。一是Tripathi等[1]使用的數(shù)據(jù)集GSE9574。該數(shù)據(jù)集共包括29個樣本,全部來源于組織學(xué)上正常的顯微切割乳腺上皮。其中14個樣本來自組織學(xué)上正常的乳腺癌上皮,全部為雌激素受體(ER)陽性;另外15個樣本來自接受乳房整形切術(shù)、無明顯乳腺癌特征的患者。提取以上樣本的RNA制作芯片,使用af?fymetrix的人類基因組U133A芯片(HG-U133A)。二是Gra?ham等[2]使用的數(shù)據(jù)集GSE20437。該數(shù)據(jù)集中共有42個樣本,其中18個樣本為組織學(xué)上正常的乳腺癌上皮,包括9個ER陽性和9個ER陰性樣本;18個樣本為乳房整形切除手術(shù)的乳腺上皮;6個樣本為預(yù)防性乳腺癌切除手術(shù)的乳腺上皮。提取RNA制作芯片,芯片平臺同樣為HG-U133A。為了與Tripathi等[1]的數(shù)據(jù)集合并,只選用GSE20437中9個ER陽性樣本和18個乳房整形切除手術(shù)樣本進(jìn)行合并。本研究的初始數(shù)據(jù)集包括23個乳腺癌乳腺上皮樣本和33個乳房整形切除術(shù)乳腺上皮樣本。根據(jù)箱線圖,將嚴(yán)重偏離總體樣本的樣本去掉,最終獲得19個乳腺癌上皮樣本以及25個乳房整形切除術(shù)上皮樣本。
1.2 芯片數(shù)據(jù)的處理 原始數(shù)據(jù)集用R語言軟件包進(jìn)行處理,包括affy和affycoretools。通過RMA算法對原始數(shù)據(jù)進(jìn)行背景校正、標(biāo)準(zhǔn)化以及表達(dá)值計(jì)算。將44例樣本打亂3次,抽取35個作為訓(xùn)練集,其余9個作為測試集。第1次的數(shù)據(jù)集中,訓(xùn)練集包括14個乳腺癌上皮樣本和21個乳房整形切除術(shù)上皮樣本;測試集包括5個乳腺癌上皮樣本和4個乳房整形切除術(shù)上皮樣本;第2次數(shù)據(jù)集中,訓(xùn)練集包括14個乳腺癌上皮樣本和21個乳房整形切除術(shù)上皮樣本,測試集包括5個乳腺癌上皮樣本和4個乳房整形切除術(shù)樣本;第3次樣本集中訓(xùn)練集包括16個乳腺癌上皮樣本和19個乳房整形切除術(shù)樣本,測試集包括3個乳腺癌上皮樣本和6個乳房整形切除術(shù)樣本。使用Limma方法從訓(xùn)練集中篩選P值小于0.05的差異表達(dá)基因。將差異表達(dá)基因上傳至DAVID(http://da?vid.abcc.ncifcrf.gov/home.jsp)網(wǎng)站進(jìn)行通路富集分析。將富集到KEGG以及BioCarta數(shù)據(jù)庫中的基因提取出來,提取在芯片中對應(yīng)的表達(dá)值作為訓(xùn)練模型的特征值。本研究采取的分類方法為SVM在R語言中的e1071軟件包。
1.3 預(yù)測結(jié)果的衡量 本文中選用了3個預(yù)測指標(biāo)來衡量預(yù)測方法的準(zhǔn)確度,分別為準(zhǔn)確度(Ac)、敏感度(Sn)以及特異度(Sp)。計(jì)算公式如下:
其中TP、TN、FP、FN分別代表真陽性、真陰性、假陽性以及假陰性。
2.1 差異表達(dá)基因的獲取 第一部分?jǐn)?shù)據(jù)的差異表達(dá)探針為28個(17個基因),第二部分探針14個(12個基因),第三部分為18個差異表達(dá)探針(14個基因)。將這些基因分別富集到KEGG和BioCarta數(shù)據(jù)庫中的信號通路上,從而得到富集到信號通路上的差異表達(dá)基因,見表1。
Table 1 The differentially expressed genes enriched in KEGG and BioCarta database表1 在KEGG和BioCarta數(shù)據(jù)庫中富集到的差異表達(dá)基因
2.2 分類結(jié)果比較 差異表達(dá)基因主要富集在轉(zhuǎn)錄以及MAPK信號通路上。使用KEGG信號通路中富集到的基因作為特征值建議模型的預(yù)測精度優(yōu)于BioCarta信號通路。將KEGG和BioCarta中富集到的基因合并起來共同作為特征值,其預(yù)測精度與將所有差異表達(dá)基因作為特征值建立的模型精度一致,見表2,但是特征值卻分別從22個縮減到7個,14個縮減到3個,18個縮減到4個。KEGG和Bio?Carta中富集到的基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS。
Table 2 Comparison of the accuracy between different methods表2 不同方法的預(yù)測精度比較
通過生物信息學(xué)的手段對乳腺癌的研究屢見不鮮,如使用基因表達(dá)譜對乳腺癌預(yù)后的預(yù)測,運(yùn)用生物信息學(xué)的手段從乳腺癌和正常細(xì)胞系中鑒定融合基因[3],從基因表達(dá)模式中預(yù)測乳腺癌特征[4]。目前乳腺癌上皮細(xì)胞的基因表達(dá)譜僅用來提取差異表達(dá)基因,比較正常個體與癌癥患者在基因表達(dá)上的差異以及在信號通路上的富集情況。本研究使用乳腺癌上皮細(xì)胞的基因表達(dá)譜建立乳腺癌分類模型,并使用通路富集的方法來過濾差異表達(dá)基因,從而使目的基因個數(shù)在保持預(yù)測模型精度不變的情況大大縮減,達(dá)到降低干擾的目的,能夠更加合理的解釋乳腺癌的發(fā)病機(jī)制。
Tripathi等[1]從14個乳腺癌樣本(ER陽性)和15個乳房整形切除術(shù)的乳腺上皮細(xì)胞基因芯片中獲得了127個探針(105個基因)差異表達(dá),其中有三分之二的基因與癌發(fā)生有關(guān),并且主要富集在轉(zhuǎn)錄、G蛋白相關(guān)以及生物運(yùn)動活性通路和MAPK通路上。Graham等[2]對18個乳腺癌個體(9個ER陽性和9個ER陰性)、19個乳房整形切除術(shù)正常個體以及6個預(yù)防疾病而進(jìn)行乳房整形切除術(shù)的個體的乳腺上皮細(xì)胞進(jìn)行基因芯片分析,從中獲得了98個探針(86個基因)在乳房整形切除術(shù)正常個體和乳腺癌個體之間差異表達(dá),而且這86個基因大多富集在與轉(zhuǎn)錄相關(guān)的通路以及MAPK通路上。
本研究結(jié)果顯示,差異表達(dá)基因主要富集在MAKP和轉(zhuǎn)錄相關(guān)的信號通路上,與Tripathi等[1]和Graham等[2]的研究結(jié)果一致。另外,用KEGG信號通路中富集到的基因作為特征值與BioCarta信號通路中富集到的基因作為特征值相比能更好的對乳腺癌進(jìn)行分類,這些基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS?;騄UN又稱為c-Jun,是第1個細(xì)胞原癌基因,在乳腺癌中高表達(dá)。基因FOS又稱為c-fos,也是原癌基因。研究表明PADI4與EIK-1協(xié)同作用導(dǎo)致c-fox在乳腺癌中高表達(dá)[5]。Kataoka等[6]提出FOSB在癌癥基質(zhì)中的表達(dá)是一個獨(dú)立的評價癌癥預(yù)后的指標(biāo)。有研究表明DUSP1是乳腺孕激素抗增殖和抗炎活動中的一個重要的調(diào)節(jié)因子[7]。以上均提示本研究模型中的特征基因與乳腺癌高度相關(guān),KEGG和BioCarta中富集到的基因表達(dá)水平可作為乳腺癌的早期診斷標(biāo)準(zhǔn)。
[1]Tripathi A,King C,de la Morenas A,et al.Gene expression abnor?malities in histologically normal breast epithelium of breast cancer patients[J].Int J Cancer,2008,122(7):1557-1566.
[2]Graham K,de las Morenas A,Tripathi A,et al.Gene expression in histologically normal epithelium from breast cancer patients and from cancer-free prophylactic mastectomy patients shares a similar profile[J].Br J Cancer,2010,102(8):1284-1293.doi:10.1038/sj. bjc.6605576.
[3]Asmann YW,Hossain A,Necela BM,et al.A novel bioinformatics pipeline for identification and characterization of fusion transcripts in breast cancer and normal cell lines[J].Nucleic Acids Res,2011, 39(15):e100.doi:10.1093/nar/gkr362.
[4]Desriac N,Postollec F,Coroller L,et al.Prediction of Bacillus wei?henstephanensis acid resistance:The use of gene expression pat?terns to select potential biomarkers[J].Int J Food Microbiol,2013, 167(1):80-86.doi:10.1016/j.ijfoodmicro.2013.03.014.
[5] Zhang X,Gamble MJ,Stadler S,et al.Genome-wide analysis re?veals PADI4 cooperates with Elk-1 to activate c-Fos expression in breast cancer cells[J].PLoS Genet,2011,7(6):e1002112.doi: 10.1371/journal.pgen.1002112.
[6]Kataoka F,Tsuda H,Arao T,et al.EGRI and FOSB gene expres?sions in cancer stroma are independent prognostic indicators for epi?thelial ovarian cancer receiving standard therapy[J].Genes Chromo?somes Cancer,2012,51(3):300-312.doi:10.1002/gcc.21916.
[7]Chen CC,Hardy DB,Mendelson CR.Progesterone receptor inhibits proliferation of human breast cancer cells via induction of MAPK phosphatase 1(MKP-1/DUSP1)[J].J Biol Chem,2011,286(50): 43091-102.doi:10.1074/jbc.M111.295865.