顧星博 李 昂 溫 琪 焦辛妮 劉 艷△
Rstudio和隨機(jī)叢林在高維全基因組學(xué)數(shù)據(jù)分析中的應(yīng)用*
顧星博1,2李 昂1溫 琪1焦辛妮1劉 艷1△
目的 結(jié)合Rstudio和Random Jungle兩款軟件的優(yōu)勢(shì),通過遠(yuǎn)程登錄簡(jiǎn)便、快捷地實(shí)現(xiàn)全基因組學(xué)數(shù)據(jù)的分析。方法 在服務(wù)器端搭建Rstudio Server,封裝隨機(jī)叢林R程序并對(duì)英國(guó)威康信托病例對(duì)照協(xié)會(huì)(WTCCC)高血壓真實(shí)數(shù)據(jù)進(jìn)行分析,通過Rstudio Sweave動(dòng)態(tài)生成分析結(jié)果。結(jié)果 在客戶端即可通過網(wǎng)絡(luò)瀏覽器登陸服務(wù)器端搭建好的Rstudio Server;數(shù)據(jù)量較大時(shí),封裝后的隨機(jī)叢林程序在Rstudio Server中運(yùn)算速度方面相對(duì)于R randomForest包優(yōu)勢(shì)明顯。2001名高血壓病例及3004名對(duì)照的22條染色體共有490032個(gè)SNP位點(diǎn),根據(jù)真實(shí)標(biāo)簽通過10次隨機(jī)叢林過程篩選出穩(wěn)定排序在前20位的SNPs位點(diǎn),其Cochron-Armitage檢驗(yàn)的P值也有10個(gè)排進(jìn)前11位。結(jié)論 全基因組學(xué)數(shù)據(jù)的處理會(huì)消耗很多的時(shí)間和內(nèi)存,普通計(jì)算機(jī)根本無(wú)法承受,Random Jungle軟件的命令行運(yùn)行方式又不易于數(shù)據(jù)處理、算法組合或嵌套及結(jié)果的再現(xiàn)、可視化,在服務(wù)器端搭建Rstudio Server并結(jié)合Random Jungle的分析策略可有效地應(yīng)用于全基因組學(xué)數(shù)據(jù)分析,簡(jiǎn)化分析過程、提高分析速度和效率、方便實(shí)現(xiàn)分析結(jié)果的動(dòng)態(tài)輸出及再現(xiàn)。
全基因組關(guān)聯(lián)分析 SNPs Rstudio 隨機(jī)森林 隨機(jī)叢林
隨著人類基因組測(cè)序技術(shù)的飛速發(fā)展,全基因組關(guān)聯(lián)研究(genome-wide association studies,GWAS)方法已在全球范圍內(nèi)廣泛應(yīng)用于復(fù)雜疾病關(guān)聯(lián)的候選區(qū)域篩選當(dāng)中[1]。GWAS所涉及到的(single-nucleotide polymorphisms,SNPs)位點(diǎn)數(shù)目可達(dá)數(shù)十萬(wàn)甚至上百萬(wàn),其交互作用中位點(diǎn)的組合更為復(fù)雜,對(duì)如此海量數(shù)據(jù)進(jìn)行處理分析時(shí)將面臨一個(gè)重要的問題即運(yùn)算負(fù)擔(dān)問題,這決定著能否方便、快捷、有效地對(duì)數(shù)據(jù)進(jìn)行處理分析。本研究旨在提出在服務(wù)器端搭建Rstudio Server并與隨機(jī)叢林相結(jié)合的一種新的高維數(shù)據(jù)分析策略,使運(yùn)用R和隨機(jī)森林進(jìn)行GWAS數(shù)據(jù)分析成為可能,同時(shí)將分析結(jié)果通過Rstudio Sweave進(jìn)行動(dòng)態(tài)呈現(xiàn)。
1.Rstudio
Rstudio是基于C++開發(fā)的一種R語(yǔ)言的集成開發(fā)環(huán)境(IDE),相比于R的工作界面其功能更加人性化,除可應(yīng)用于各種操作系統(tǒng)的桌面版本之外,其特有的Server版本可在Linux服務(wù)器上進(jìn)行配置,用戶通過網(wǎng)頁(yè)瀏覽器即可使用Rstudio,使得在高性能計(jì)算機(jī)上遠(yuǎn)程多人同時(shí)在線對(duì)大型數(shù)據(jù)進(jìn)行運(yùn)算及程序開發(fā)成為可能,而且Rstudio同時(shí)支持Sweave和Tex,可使輸出結(jié)果動(dòng)態(tài)呈現(xiàn)并以極為靈活的方式創(chuàng)建出符合出版質(zhì)量的分析報(bào)告形式[2]。
(1) Rstudio Server的搭建
最新版本的Rstudio Server v0.98需要Debian 6/Ubuntu 10.04或者Red Hat/CentOS 5.4以上操作系統(tǒng)環(huán)境,在目標(biāo)服務(wù)器的系統(tǒng)中添加CRAN庫(kù)后通過命令安裝最新版本R[3],然后再通過命令安裝Rstudio Server,并對(duì)Rstudio Server進(jìn)行配置,即在/etc/rstudio目錄下創(chuàng)建并編輯rserver.conf.txt和rsession.conf.txt,這兩個(gè)文本文件將分別包含與服務(wù)器運(yùn)行相關(guān)和與R運(yùn)行相關(guān)的配置信息(主要的配置信息見表1),配置完成之后管理員即可在服務(wù)器終端使用通過命令添加用戶。
(2)Rstudio Sweave
Sweave是R與LaTeX的結(jié)合,旨在打造一個(gè)可重復(fù)的統(tǒng)計(jì)分析流程[4]。LaTeX主要用于文章、書籍和研究報(bào)告的排版,是Leslie Lamport基于TeX排版語(yǔ)言編寫的一組宏代碼,擁有更為規(guī)范的命令。Sweave最早只是一個(gè)R程序包,需通過包中函數(shù)Sweave對(duì)已通過文本編輯器編譯過的Rnw格式的noweb文件進(jìn)行處理,進(jìn)而生成tex格式的LaTeX文件,最后再通過LaTeX文本編譯器進(jìn)行編譯生成PDF格式的報(bào)告。目前Rstudio的開發(fā)團(tuán)隊(duì)已將Sweave整個(gè)“移植”到了Rstudio當(dāng)中,只需事先在操作系統(tǒng)中安裝好LaTeX組件即可對(duì)源代碼直接進(jìn)行編譯。
2.分析方法
(1)Cochron-Armitage檢驗(yàn)
Cochron-Armitage檢驗(yàn)是由William Cochran和Peter Armitage提出的[5],用于分析一個(gè)二分類變量和另外一個(gè)二分或多分類變量之間的關(guān)聯(lián)性,是對(duì)Pearson卡方檢驗(yàn)的修改,Cochron-Armitage檢驗(yàn)是最為常用的GWAS單變量分析方法之一,本研究使用運(yùn)算效率高的PLINK軟件進(jìn)行Cochron-Armitage檢驗(yàn)的計(jì)算。
(2)隨機(jī)叢林
隨機(jī)森林(random forset,RF)[6]作為一門經(jīng)典的數(shù)據(jù)挖掘方法,已在多項(xiàng)研究中應(yīng)用于基因組學(xué)數(shù)據(jù)分析[7],在篩選交互作用時(shí)RF比傳統(tǒng)的單位點(diǎn)分析方法更具有優(yōu)勢(shì)。但以往的RF分析軟件(如R中randomForest包)源代碼主要由Fortran編寫,會(huì)受到運(yùn)算時(shí)間和內(nèi)存的限制。隨機(jī)叢林(random jungle,RJ)是近年來(lái)發(fā)展起來(lái)的RF多核并行運(yùn)算軟件包,可在Linux和Windows環(huán)境下使用。RJ在繼承了最為常用的R中randomForset包功能的同時(shí)對(duì)原有隨機(jī)森林方法進(jìn)行了擴(kuò)展[8],如除可計(jì)算常用Gini重要性評(píng)分、Permutation重要性評(píng)分之外還可計(jì)算Meng式重要性評(píng)分及條件重要性評(píng)分;在變量篩選方面補(bǔ)充了可靈活設(shè)置的后退法并且對(duì)構(gòu)建森林時(shí)CART的類型進(jìn)行了補(bǔ)充。
RJ源代碼由C++編寫,且其程序框架也不同于其他RF分析軟件,在處理高維數(shù)據(jù)時(shí)運(yùn)算時(shí)間及內(nèi)存使用上的優(yōu)勢(shì)極為突出。但其操作需通過命令行的方式,在數(shù)據(jù)處理時(shí)輸入和輸出都是獨(dú)立的文本格式文件并不方便后續(xù)的整理、分析及可視化,因此本研究將RJ在Rstudio Server中以函數(shù)的形式進(jìn)行了封裝,從而提供了一個(gè)中間層使RJ和工作站中已搭建的Rstudio Server之間無(wú)縫接入。封裝完成之后在Rstudio Server中調(diào)用RJ的數(shù)據(jù)分析結(jié)果可與直接使用RJ軟件結(jié)果一致。
(1)數(shù)據(jù)來(lái)源
本研究數(shù)據(jù)來(lái)源于課題組申請(qǐng)下載的英國(guó)威康信托病例對(duì)照協(xié)會(huì)(WTCCC)于2007年公布的英國(guó)白種人全基因組高血壓SNPs數(shù)據(jù)[9],該數(shù)據(jù)包括2001名高血壓病例及3004名對(duì)照(其中1958年英國(guó)出生隊(duì)列1504人,血站獻(xiàn)血者1500人),22條染色體共490032個(gè)SNP位點(diǎn)。
(2)數(shù)據(jù)預(yù)處理與質(zhì)量控制
首先,利用Python語(yǔ)言編寫的腳本程序?qū)⒃璫hiamo格式數(shù)據(jù)轉(zhuǎn)換成tped/tfam格式數(shù)據(jù),并參考數(shù)據(jù)下載時(shí)WTCCC所提供的剔除的調(diào)查者編號(hào)對(duì)不滿足GWAS人群分層現(xiàn)象的樣本給予剔除(WTCCC采用MDS plot、主成分分析等方法剔除樣本);其次,使用PLINKv1.07[10]對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制,主要剔除標(biāo)準(zhǔn)除參照WTCCC質(zhì)量控制標(biāo)準(zhǔn)之外還將最小等位基因頻率(minor allele frequency,MAF)小于0.05的位點(diǎn)進(jìn)行了剔除,得到1952個(gè)病例和2938個(gè)對(duì)照個(gè)體共360302個(gè)SNP位點(diǎn)的ped/map格式數(shù)據(jù);最后,利用PLINK軟件將ped/map格式數(shù)據(jù)轉(zhuǎn)換成可在R中進(jìn)行分析的raw格式數(shù)據(jù)。
(3)分析流程與程序運(yùn)行背景
第一步,在工作站Rstudio Server中通過RJ篩選重要性評(píng)分位于前100位的位點(diǎn),重復(fù)10次;第二步,利用permutation過程將病例對(duì)照標(biāo)簽打亂,再使用RJ計(jì)算打亂后的前100位位點(diǎn)的重要性評(píng)分,并與打亂前結(jié)果(即第一步的分析結(jié)果)進(jìn)行比較,同樣重復(fù)10次;第三步,將打亂前結(jié)果中重要性評(píng)分均穩(wěn)定靠前的SNP位點(diǎn)與單變量Cochron-Armitage檢驗(yàn)的結(jié)果進(jìn)行比較。
本研究的工作站環(huán)境為L(zhǎng)inux操作系統(tǒng),Intel至強(qiáng)5600,CPU主頻2.93GHz,12核64G內(nèi)存。通過預(yù)實(shí)驗(yàn),考慮隨機(jī)叢林OOB分類錯(cuò)誤率以及運(yùn)算負(fù)擔(dān),設(shè)定RJ運(yùn)行的主要參數(shù)mtry=36000(0.1P,P為全部SNPs位點(diǎn)數(shù)),ntree為5000,重要性評(píng)分計(jì)算方式選擇與R中randomForest包Permutation重要性評(píng)分相同的Liaw Score,標(biāo)簽置換前后20次運(yùn)算均采用5 CPUs并行。輸出結(jié)果利用自行編寫的Rnw格式的Sweave腳本程序在Rstudio Server中進(jìn)行編譯直接生成PDF文檔報(bào)告,并方便后期的查看和驗(yàn)證。
1.Rstudio Server的啟動(dòng)與登陸
管理員通過運(yùn)行rstudio-server start命令啟動(dòng)Rstudio Server,若在運(yùn)行過程中對(duì)相應(yīng)的配置文件進(jìn)行了更改,則需運(yùn)行rstudio-server restart命令重啟服務(wù),以使服務(wù)器重新讀取更新的配置信息。Rstudio Server服務(wù)運(yùn)行后,用戶在客戶端的網(wǎng)絡(luò)瀏覽器中通過IP即可登陸,在登陸頁(yè)面中輸入帳號(hào)和密碼后出現(xiàn)使用界面,使用界面中包含有R控制臺(tái)、文件管理器、軟件包管理器、圖形輸出窗口等,即客戶端能調(diào)用遠(yuǎn)程目標(biāo)服務(wù)器所提供的R的各項(xiàng)功能。Rstudio Server可實(shí)現(xiàn)多人同時(shí)登陸,每個(gè)用戶會(huì)有自己的獨(dú)立目錄,他人不能訪問,可保證隱私性;另外,也可設(shè)立每個(gè)用戶都能訪問的公共目錄,方便對(duì)他人代碼或程序進(jìn)行調(diào)用,從而對(duì)代碼和程序進(jìn)行更好的管理與共享。
2.RJ和RF在Rstudio Server中運(yùn)行速度比較
圖1為在Rstudio Server中利用模擬的SNPs數(shù)據(jù)集比較RJ和RF(R中randomForest包)在串行(非并行)和多核并行時(shí)的運(yùn)算時(shí)間(RF采用randomForest包和foreach包進(jìn)行并行)。模擬數(shù)據(jù)集源自于R中MDR包train數(shù)據(jù)集,該數(shù)據(jù)集包含446名病例和554名對(duì)照共5000個(gè)SNPs位點(diǎn)和一個(gè)二分類表型變量,接近常見疾病的真實(shí)數(shù)據(jù)且方便在R中直接利用命令加載。實(shí)驗(yàn)過程中分別保留該數(shù)據(jù)集100、500、1000、5000個(gè)位點(diǎn),建立5000棵樹在單核和10核環(huán)境下運(yùn)行。
可以看出,在單核環(huán)境下RJ運(yùn)算速度明顯優(yōu)于RF且隨著SNPs位點(diǎn)數(shù)量的增多,提速效果越明顯(5000位點(diǎn)時(shí)RJ耗時(shí)172秒,比randomForest快26.34倍)。在10核并行環(huán)境下,當(dāng)SNPs位點(diǎn)數(shù)為100時(shí)RJ耗時(shí)48秒比f(wàn)oreach包并行后的randomForest慢4.38倍;SNPs位點(diǎn)數(shù)量為500和1000時(shí),兩種方法運(yùn)算時(shí)間相近(RJ略慢于RF);而當(dāng)SNPs位點(diǎn)數(shù)量達(dá)到5000時(shí),RJ僅耗時(shí)74秒,比RF快42.13倍。
3.WTCCC高血壓GWAS實(shí)際數(shù)據(jù)分析
(1) 隨機(jī)叢林篩選致病SNPs位點(diǎn)
標(biāo)簽打亂前后20次5 CPUs并行運(yùn)算,共耗時(shí)207.39h,平均每次耗時(shí)10.37h。RJ篩選的重要性評(píng)分位于前100位位點(diǎn)的分布圖(見圖2)中,橫坐標(biāo)為重要性評(píng)分值,縱坐標(biāo)為概率密度值。由圖中可以看出打亂病例對(duì)照標(biāo)簽前位點(diǎn)的重要性評(píng)分相對(duì)較高,而打亂病例對(duì)照標(biāo)簽后位點(diǎn)的重要性評(píng)分都處于很低的水平,提示利用RJ篩選出的SNPs位點(diǎn)對(duì)病例與對(duì)照有很好的分類能力。
(2)隨機(jī)叢林結(jié)果與Cochron-Armitage檢驗(yàn)篩選結(jié)果的比較
通過隨機(jī)叢林篩選出10次平均重要性評(píng)分穩(wěn)定排序在前20位的SNPs位點(diǎn)(見表2)共匹配到12個(gè)基因(位點(diǎn)與基因匹配采用了課題組利用dbSNP數(shù)據(jù)庫(kù)自行更新的基因映射信息,若1個(gè)SNP位點(diǎn)在某個(gè)基因內(nèi)部或距離較近則認(rèn)為此SNP位點(diǎn)與該基因相關(guān)),TUSC3基因和LCORL基因各有2個(gè)位點(diǎn),LOC100422352基因和MIR378D1基因各有4個(gè)位點(diǎn),其他8個(gè)基因各有1個(gè)位點(diǎn);對(duì)比Cochron-Armitage檢驗(yàn)的P值排序結(jié)果可見,有9個(gè)位點(diǎn)的Cochron-Armitage檢驗(yàn)的P值排序也在前10位,且TUSC3基因、LCORL基因、LOC100422352基因和MIR378D1基因各有1個(gè)位點(diǎn)(rs7837736、rs1553460、rs10843660、rs16837871和其他8個(gè)基因的6個(gè)位點(diǎn)(rs1528356、rs4131463、rs825148、rs17116117、rs6840033、rs10499044)Cochron-Armitage檢驗(yàn)P值有統(tǒng)計(jì)學(xué)意義(P<5×10-7)。
(3)Rstudio Sweave結(jié)果輸出
在Rstudio中通過運(yùn)行已編寫完成的Sweave腳本程序,將數(shù)據(jù)分析代碼嵌入到PDF文檔報(bào)告即在報(bào)告中動(dòng)態(tài)插入R輸出結(jié)果的同時(shí),也就將結(jié)果的計(jì)算過程明確地記錄下來(lái),方便過后進(jìn)行查看和驗(yàn)證;另外,還可以免去繁瑣的復(fù)制、粘貼和重新格式化結(jié)果的過程。
1.高維組學(xué)數(shù)據(jù)的數(shù)據(jù)量龐大,其數(shù)據(jù)分析過程也更為復(fù)雜,通常需要團(tuán)隊(duì)多人多階段協(xié)作完成。R在處理大數(shù)據(jù)時(shí)表現(xiàn)的并不盡如人意[11],而Rstudio Server的搭建可為團(tuán)隊(duì)協(xié)作提供一個(gè)統(tǒng)一的程序運(yùn)行及文件管理平臺(tái),在高性能計(jì)算機(jī)上可有效地避免因本地設(shè)備條件限制、機(jī)器性能不足等可能導(dǎo)致的大型統(tǒng)計(jì)運(yùn)算工作難以實(shí)現(xiàn)的問題。在工作站搭建Rstudio Server之后,客戶端用戶不再需要一系列R的安裝與配置,只需在有互聯(lián)網(wǎng)的前提下使用網(wǎng)頁(yè)瀏覽器即可在熟悉的軟件環(huán)境中進(jìn)行數(shù)據(jù)的處理分析,使用戶在擺脫了硬件架構(gòu)、系統(tǒng)平臺(tái)束縛的同時(shí),也可實(shí)現(xiàn)數(shù)據(jù)分析與計(jì)算的高效化、快捷化。
2.在Rstudio Server中封裝后的隨機(jī)叢林R程序可有效地結(jié)合Rstudio與Random Jungle兩個(gè)軟件的優(yōu)勢(shì),在數(shù)據(jù)量較大時(shí)運(yùn)算速度方面的優(yōu)勢(shì)極為明顯,且方便數(shù)據(jù)處理、程序調(diào)用、結(jié)果輸出及可視化,亦可令整個(gè)流程便于驗(yàn)證和重現(xiàn);即便是隨機(jī)叢林與其他算法進(jìn)行更為復(fù)雜的組合或嵌套時(shí),也可在R中方便地得以實(shí)現(xiàn)。而Sweave則可令整個(gè)分析流程動(dòng)態(tài)實(shí)現(xiàn),即只需在Rstudio中對(duì)事先編寫好的相應(yīng)程序進(jìn)行改動(dòng),即對(duì)相應(yīng)部分的代碼稍作調(diào)整之后點(diǎn)擊編譯即可自動(dòng)生成分析報(bào)告,從而使整個(gè)分析流程更加高效、便捷、可重復(fù)。
3.本文在預(yù)分析時(shí)在不同γ2值條件下,提取的標(biāo)簽SNP對(duì)RJ分析結(jié)果的影響較大,且為盡量保證不遺漏一些效應(yīng)相對(duì)較弱的位點(diǎn),因此事先并未進(jìn)行prune SNP,直接利用封裝后的RJ程序?qū)?jīng)質(zhì)量控制之后的360302個(gè)SNPs位點(diǎn)進(jìn)行分析。5 CPUs并行運(yùn)算平均僅耗時(shí)為10.37h/每次,且隨機(jī)叢林所篩選的SNPs位點(diǎn)對(duì)疾病具有很好的分類能力,在病例對(duì)照標(biāo)簽打亂前后位點(diǎn)的重要性評(píng)分差距明顯,重要性評(píng)分排序前20的位點(diǎn)中Cochron-Armitage檢驗(yàn)的P值也有10個(gè)排進(jìn)前11位,尤其是重要性評(píng)分排序前8的位點(diǎn)兩種方法結(jié)果一致性很好,說(shuō)明隨機(jī)叢林能夠很好地篩選出主效應(yīng)相對(duì)較強(qiáng)的位點(diǎn);另一方面, Cochron-Armitage檢驗(yàn)的P值還有10個(gè)位點(diǎn)排名較為靠后, 提示隨機(jī)叢林能發(fā)現(xiàn)一些 Cochron-Armitage檢驗(yàn)顯示的效應(yīng)相對(duì)較弱的位點(diǎn),分析其原因可能在于位點(diǎn)間存在交互作用。盡管如此,基于隨機(jī)森林的特征篩選方法在結(jié)果解釋方面仍面臨著挑戰(zhàn),其篩選交互作用的能力易受位點(diǎn)主效應(yīng)的影響,在高維數(shù)據(jù)分析過程中更多的時(shí)候可能僅是扮演了一個(gè)初篩的角色[12]。
[1] Moore JH,Asselbergs FW,Williams SM.Bioinformatics challenges for genome-wide association studies.Bioinformatics,2010,26(4):445-455.
[2]Rstudio.http://www.rstudio.com/products/rstudio/.
[3]Rstudio Server.http://www.rstudio.com/products/rstudio/download-server/.
[4]謝益輝.Sweave:打造一個(gè)可重復(fù)的統(tǒng)計(jì)研究流程.http:// cos.name/2010/11/reproducible-research-in-statistics/
[5]Armitage P.Tests for linear trends in proportions and frenquencies.Biometrics,1955,11(3):375-386.
[6]Breiman L.Random forests.Machine learning,2001,45(1):5-32.
[7]武曉巖,李康.基因表達(dá)數(shù)據(jù)判別分析的隨機(jī)森林方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(6):491-494.
[8] Schwarz DF,Konig IR,Ziegler A.On safari to Random Jungle:a fast implementation of Random Forests for high-dimensional data.Bioinformatics,2010,29(14):1752-1758.
[9]WellcomeTrust Case Control,Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls.Nature,2007,447(7145):661-678.
[10]Purcell S,B Neale,K Todd-Brown,et al.PLINK:a tool set for whole-genomeassociation and population- based linkage analyses.The American Journal of Human Genetics,2007,81(3):559-575.
[11]VincentZoonekynd.Statistics with R(2007).
[12] Lin HY,Chen YA,Tsai,et al.TRM:a powerful two-stage machine learning approach for identifying SNP-SNP interactions.Annals of human genetics,2012,76(1):53-62.
(責(zé)任編輯:鄧 妍)
The Application of Rstudio and Random Jungle in High-dimensional Genome-wide Data
Gu Xingbo,Li Ang,Wen Qi,et al.
(School of Public Health,Harbin Medical University(150081),Heilongjiang)
Objective Combining the advantages of Rstudio and Random Jungle software to realize the efficient analysis of genome-wide data via remote login.Methods To set up the Rstudio Server,use the packaged Random Jungle R program to analyze the Wellcome Trust Case Control Consortium hypertension GWAS data and generate the dynamic analysis results.Results Client side people can login the Rstudio Server through a web browser; When the amount of data is large,the packaged Random Jungle grogram speed obviously faster than the R randomForest package.2001 cases of HT affected individuals and 3004 controls of 22 chromosomes with total 490032 SNPs.The top 20 SNPs identified by RJ which use actual label on 10 times that also have 10 in top 11 of Cochron-Armitage testPvalues.Conclusion Genome-wide data processing will cost a lot of time and memory and it incompetent to afford by ordinary computers completely.Random Jungle Software’s command-line operation mode may not be easy to data processing,algorithm combinations,reproduction of results and visualizations.The provided analysis of the strategy which combines the Rstudio and Random Jungle software can be well applied in GWAS data analysis.This strategy can simplify the analysis process,improving the speed and efficiency of the data analysis.Furthermore,it is convenient to achieve dynamic output and reproduction.
GWAS;SNPs;Rstudio;Random Forest;Random Jungle
*國(guó)家自然科學(xué)基金(30972537,81172741)
1.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
2.哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院心內(nèi)科
△通信作者:劉艷,E-mail:liuyan@ems.hrbmu.edu.cn;