李瑞華,田國祥,郭曉娟,李豹,張軍,呂軍,5
癌癥是一種世界范圍內(nèi)的疾病,嚴重威脅人類的健康和生命?!妒澜绨┌Y報告》預(yù)測,全球癌癥將由2012年的1400萬人遞增至2025年的1900萬人[1]。如何科學(xué)地對癌癥進行預(yù)防控制已成為目前全球性的重大公共衛(wèi)生問題[2]。根據(jù)傳統(tǒng)指標如腫瘤大小、臨床分期、病理分級、淋巴結(jié)轉(zhuǎn)移數(shù)目等對癌癥患者進行診療的預(yù)后差異較大。因此,從基因水平出發(fā), 尋找與癌癥密切相關(guān)的差異表達基因或基因突變對于癌癥的精準化治療顯得尤為重要[3]?;蛐酒夹g(shù)是基因水平研究的主要手段之一,將一定數(shù)量的DNA片段作為探針按照一定規(guī)則有序排列, 固化于固相介質(zhì)表面, 并生成二維DNA探針陣列[4]。隨著精準醫(yī)學(xué)的不斷發(fā)展,目前基因芯片技術(shù)已廣泛應(yīng)用于腫瘤臨床治療和預(yù)測[3],隨之產(chǎn)生了海量癌基因芯片數(shù)據(jù),Oncomine數(shù)據(jù)庫就是一個經(jīng)典的癌基因芯片數(shù)據(jù)庫,它整合了TCGA、GEO的部分數(shù)據(jù),能夠幫助研究者篩選一些有價值的靶分子或預(yù)測表型,并提供了多種分析工具,可視化地展示癌癥和正常組織差異表達分析、共表達分析、元分析等,同時還可以進行藥物敏感性、突變或甲基化引起的表達變化等方面的分析。Oncomine數(shù)據(jù)庫的樣本量大,質(zhì)量高,可視化分析效能強,為廣大的腫瘤學(xué)及生信研究者提供了寶貴的腫瘤基因的相關(guān)資料。例如Rugge等[5]對Oncomine中食道癌芯片數(shù)據(jù)進行差異分析和元分析后,將PDCD4作為目的基因開展后續(xù)的研究;Varisli[6]利用Oncomine共表達分析方法和差異分析方法預(yù)測Fam83D的功能。
研究者可通過Oncomine官方網(wǎng)站申請賬號,獲得部分數(shù)據(jù)。首先進入Oncomine數(shù)據(jù)庫官網(wǎng):https://www.oncomine.org/,首頁上方界面展示了數(shù)據(jù)庫數(shù)據(jù)收錄情況:目前Oncomine已收錄了715個數(shù)據(jù)集,包含86 733個樣本的芯片數(shù)據(jù),界面左側(cè)為登錄界面(圖1)。新用戶點擊“Not a user?Register now!”即進入賬號注冊界面(圖2)。依次填寫信息進行注冊,注意注冊郵箱必須是非營利機構(gòu)(院?;蜓芯繖C構(gòu))郵箱。信息填寫完成后,點擊“SUBMIT”確認注冊。
圖1 Oncomine數(shù)據(jù)庫首頁
一般5 min內(nèi)申請者注冊郵箱將收到Oncomine數(shù)據(jù)庫的回復(fù)郵件,郵件內(nèi)含有登錄賬號和密碼(圖3)。首次登錄時會提示修改密碼,按提示修改密碼后,注冊郵箱會收到附有鏈接的驗證郵件,點擊鏈接完成密碼修改,即注冊完成。
圖2 Oncomine數(shù)據(jù)庫賬號注冊
圖3 Oncomine數(shù)據(jù)庫回復(fù)郵件
2.1 基因表達差異分析 以研究結(jié)直腸癌與正常組織的基因表達差異為例,登陸Oncomine數(shù)據(jù)庫后,在界面左側(cè)“Primary Fliter”下依次選擇“Analysis Type”、“Differential Analysis”、“Cancervs. Normal Analysis”、“Colorectal Cancer vs.Normal Analysis”,即得到結(jié)直腸癌與正常組織的基因表達差異(圖4)。通過在界面中間列選擇不同的數(shù)據(jù)子集可分別查看相應(yīng)的數(shù)據(jù),默認顯示第一個數(shù)據(jù)子集的結(jié)果,本例中為“Alon Colon”。界面右側(cè)即為比較結(jié)果,用漸變色塊展示了各個樣本中的基因表達情況,其中藍色表示低表達,紅色表示高表達。每一個色塊代表一個樣本的表達數(shù)據(jù),將鼠標移動到色塊上時會出現(xiàn)對應(yīng)數(shù)據(jù)信息的浮動窗口。還可以通過右上角的下拉菜單選擇顯示結(jié)直腸癌中Overexpression基因以及under-expression基因。
圖4 結(jié)直腸癌與正常組織的差異表達
2.2 多數(shù)據(jù)集整合檢索基因表達差異分析(元分析) 根據(jù)研究目的,在界面中間列勾選所需要的數(shù)據(jù)集,點擊上方的Compare按鈕。比如要研究結(jié)腸粘液腺癌相關(guān)的差異表達基因,可勾選各個結(jié)直腸癌研究下“Colon Mucinous Adenocarcinomavs. Normal”相關(guān)的樣品分析,點擊上方的“Compare”,得到元分析結(jié)果,即在多個研究結(jié)果中,結(jié)腸粘液腺癌中高表達的分子(圖5)。結(jié)果中還展示了中位秩、P值、基因名稱,結(jié)合元分析結(jié)果,選擇有研究價值的靶分子進行深入研究。
圖5 結(jié)腸粘液腺癌基因表達差異元分析
2.3 特定靶分子的檢索 以NEBL為例進行檢索,在Search欄中輸入“NEBL”進行搜索,頁面右上角“OTHER VIEWS” 下拉菜單選擇“Gene Summary View”,可得到NEBL在膀胱癌、腦癌、乳腺癌、宮頸癌等多種腫瘤中的表達情況(圖6)。表格中不同顏色的色塊代表表達程度,藍色表示NEBL在對應(yīng)的腫瘤中是低表達,紅色表示高表達,灰色表示沒有數(shù)據(jù)。色塊中的數(shù)字代表符合篩選條件的研究數(shù)量。點擊色塊及表格中的淺藍色字體可直接進入相應(yīng)研究的數(shù)據(jù)界面,例如點擊圖6中表格里淺藍色字“Bladder Cancer”,可得到NEBL在膀胱癌中的表達數(shù)據(jù)頁面(圖7)。
圖6 NEBL在多種腫瘤中的表達情況
圖7 NEBL在膀胱癌中的表達情況
除這種方法外,還可直接在檢索特定靶分子在特定腫瘤中的表達,如研究NEBL在結(jié)直腸癌中的表達,可在Search欄里輸入“NEBL”,在“Primary Filters”里依次選擇“Analysis Type”、“Differential Analysis”“Cancervs.Normal Analysis”、“Colorectal Cancervs. Normal Analysis”,然后在中間界面選擇要研究的數(shù)據(jù)集分析,本例選擇TCGA下的“Colon Mucinous Adenocarcinomavs. Normal”進行研究,界面上數(shù)據(jù)集下方還顯示該分析的簡要結(jié)果,包括P值、變化倍數(shù)、數(shù)值秩,比如NEBL在Colon Mucinous Adenocarcinoma中的表達是正常組織的4.511倍,P值是1.26E-15,秩是66(圖8)。通過圖形上方的Reporter下拉菜單還可以選擇不同的探針。
圖8 NEBL在結(jié)直腸癌中的表達情況條形圖(基于TCGA數(shù)據(jù)集)
點擊圖8中橢圓框內(nèi)示意的按鈕,可將單個樣品的條形圖切換為箱線統(tǒng)計圖(圖9)。
2.4 多基因共表達分析 仍以NEBL為例,檢索結(jié)直腸癌中與NEBL共表達的基因,在Search欄輸入“NEBL”進行搜索,“Primary Fliters”里依次選擇“Analysis Type”、“Coexpression Analysis”,在“Cancer Type”里選擇“Colorectal Cancer”,然后在中間列數(shù)據(jù)集列表里選擇“Coexpression”(圖10),可得到與目標基因NEBL具有相同表達相關(guān)性的分子,按照正相關(guān)系數(shù)從高到低的順序排列(圖11)。
圖9 NEBL在結(jié)直腸癌中的表達情況箱線圖(基于TCGA數(shù)據(jù)集)
圖10 結(jié)直腸癌中與NEBL共表達的基因檢索條件
圖11 與NEBL具有表達相關(guān)性的分子
Oncomine數(shù)據(jù)庫集合了世界上最全的基因組DNA拷貝數(shù)、突變、融合基因和mRNA表達的芯片和深度測序結(jié)果[7],部分數(shù)據(jù)免費向公眾開放,為相關(guān)科研人員提供了極高質(zhì)量的腫瘤基因芯片數(shù)據(jù)。本文旨在介紹Oncomine數(shù)據(jù)庫的賬號申請及數(shù)據(jù)挖掘方法,以幫助廣大研究者提供高效精準的腫瘤基因分析途徑,減少初學(xué)者在探索軟件過程中浪費時間和精力,提高工作效率。