国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

SRA數(shù)據(jù)庫(kù)架構(gòu)及二代測(cè)序數(shù)據(jù)共享

2019-12-27 07:25李瑞華田國(guó)祥郭曉娟李豹張軍呂軍
關(guān)鍵詞:檢索測(cè)序界面

李瑞華,田國(guó)祥,郭曉娟,李豹,張軍,呂軍,5

以454測(cè)序技術(shù)、Solexa基因組分析技術(shù)、SOLiD測(cè)序技術(shù)及Thermo Sciences/Ion Torrent半導(dǎo)體芯片測(cè)序技術(shù)為主流的二代測(cè)序技術(shù)的出現(xiàn)意味著高通量測(cè)序的實(shí)現(xiàn)[1,2],人類進(jìn)行一系列基因組水平的研究被帶入了一個(gè)更高層次。大規(guī)模的基因組研究和高通量測(cè)序技術(shù)的不斷發(fā)展,使生物數(shù)據(jù)面臨井噴式增長(zhǎng)[3],由于二代測(cè)序技術(shù)可同時(shí)對(duì)大量短片段測(cè)序,這些海量測(cè)序數(shù)據(jù)將具極其復(fù)雜性及高通量性,使得存儲(chǔ)傳統(tǒng)測(cè)序數(shù)據(jù)的一些數(shù)據(jù)庫(kù)如Trace Archives數(shù)據(jù)庫(kù)等不能適應(yīng)新的測(cè)序結(jié)果。鑒于此,在2007年底,NCBI(National Center for Biotechnology Information)推出SRA數(shù)據(jù)庫(kù),主要用來(lái)儲(chǔ)存、顯示、下載、分析及共享二代測(cè)序數(shù)據(jù)。SRA數(shù)據(jù)庫(kù)建立伊始,名為Short Read Archive,后來(lái)改為Sequence Read Archive[4]。SRA建立至今,各項(xiàng)測(cè)序數(shù)據(jù)數(shù)量急劇上升(圖1),目前已成為美國(guó)國(guó)立衛(wèi)生研究院(NIH)存儲(chǔ)二代測(cè)序數(shù)據(jù)的主要數(shù)據(jù)庫(kù)[5],同時(shí)是國(guó)際核苷序列聯(lián)合數(shù)據(jù)庫(kù)(INSDC)的一部分,可與歐洲生物信息學(xué)中心(EBI)和日本DNA數(shù)據(jù)庫(kù)(DDBJ)之間進(jìn)行數(shù)據(jù)共享。

圖1 SRA數(shù)據(jù)庫(kù)收錄數(shù)據(jù)增長(zhǎng)曲線

1 SRA數(shù)據(jù)庫(kù)的數(shù)據(jù)組織架構(gòu)

1.1 Meta數(shù)據(jù)指與測(cè)序?qū)嶒?yàn)及其實(shí)驗(yàn)樣品相關(guān)的數(shù)據(jù),如實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)設(shè)計(jì)、測(cè)序平臺(tái)、樣本數(shù)據(jù)等等,Meta數(shù)據(jù)又包含以下層次:

①S t u d y——研究課題 s t u d y 的檢索號(hào)(accession number)以前綴DRP,ERP或SRP開(kāi)頭。study是就實(shí)驗(yàn)?zāi)繕?biāo)而言的,一個(gè)study包含一個(gè)或多個(gè)experiment。

②Sample——樣本信息 sample的檢索號(hào)以前綴DRS,ERS或SRS開(kāi)頭。sample可以包括物種信息、菌株(品系)信息、家系信息、表型數(shù)據(jù)、臨床數(shù)據(jù),組織類型等。

③Experiment——實(shí)驗(yàn)信息 experiment的檢索號(hào)以前綴DRX,ERX或SRX開(kāi)頭。experiment是SRA數(shù)據(jù)庫(kù)的最基本單元,對(duì)一個(gè)或多個(gè)樣本進(jìn)行測(cè)序,產(chǎn)生的測(cè)序數(shù)據(jù)以runs的形式存儲(chǔ)于SRA[4]。大多數(shù)描述性信息都是在SRA experiment級(jí)別捕獲的,并將顯示在公共記錄中,提交者須為每個(gè)experiment提供清晰且信息豐富的標(biāo)題和說(shuō)明。

1.2 序列數(shù)據(jù)包括序列及其質(zhì)量信息等,在SRA數(shù)據(jù)庫(kù)中以run為單元存儲(chǔ)。run的檢索號(hào)以前綴DRR,ERR或SRR開(kāi)頭。一個(gè)實(shí)驗(yàn)可以包含一個(gè)或多個(gè)run。

2 SRA數(shù)據(jù)庫(kù)的基本使用

進(jìn)入SRA數(shù)據(jù)庫(kù)官網(wǎng):https://www.ncbi.nlm.nih.gov/sra,點(diǎn)擊SRA Toolkit Documentation(圖2)。

在SRA Toolkit Documentation頁(yè)面選擇SRA Toolkit Installation and Configuration Guide(圖3),打開(kāi)提供的下載鏈接(圖4),找到與電腦操作系統(tǒng)相對(duì)應(yīng)的下載工具安裝包(圖5),進(jìn)行SRA Toolkit下載,下載成功后將壓縮包解壓,解壓后可見(jiàn)一bin文件夾,各種測(cè)序下載工具和多種的數(shù)據(jù)格式轉(zhuǎn)換工具即在該文件夾內(nèi),其中“prefetch”是常用的數(shù)據(jù)下載工具,“fastqdump”是常用的fastq格式轉(zhuǎn)換工具(圖6)。

在S R A 數(shù)據(jù)庫(kù)首頁(yè)搜索框內(nèi)輸入相關(guān)研究,可以是疾病名稱或者序列數(shù)據(jù)等(本文以“肺癌lung cancer”為例),或點(diǎn)擊搜索框下的“advanced”進(jìn)入高級(jí)檢索界面,通過(guò)限定詞進(jìn)行更精確的檢索(圖7),SRA提供了“OR、AND、NOT”即“或與非”幾個(gè)操作以達(dá)到更精確方便的查找。

通過(guò)在SRA數(shù)據(jù)庫(kù)搜索“l(fā)ung cancer”,結(jié)果顯示目前有17 714個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集鏈接下均提供相應(yīng)的SRA ID,界面右側(cè)還顯示對(duì)應(yīng)物種的數(shù)據(jù)集個(gè)數(shù)(圖8),點(diǎn)擊每一個(gè)數(shù)據(jù)集鏈接均可進(jìn)入相應(yīng)詳細(xì)信息界面。

選擇打開(kāi)任一個(gè)數(shù)據(jù)集鏈接,即可得到其詳細(xì)信息界面,以第一個(gè)數(shù)據(jù)集為例,打開(kāi)后顯示該數(shù)據(jù)集不同層次數(shù)據(jù)的項(xiàng)目編碼(圖9)。點(diǎn)擊study項(xiàng)目編碼,得到該study的詳細(xì)信息(圖10),顯示這個(gè)研究的實(shí)驗(yàn)數(shù)、run數(shù)及數(shù)據(jù)量,本例中study包含15個(gè)experiments和15個(gè)runs。

圖2 SRA數(shù)據(jù)庫(kù)官方網(wǎng)站首頁(yè)

圖3 SRA Toolkit Documentation頁(yè)面

圖4 SRA Toolkit下載鏈接

圖5 下載SRA Toolkit安裝包

圖6 SRA Toolkit內(nèi)bin文件夾下各項(xiàng)工具

圖7 SRA數(shù)據(jù)庫(kù)首頁(yè)進(jìn)行檢索

圖8 搜索研究疾病所得數(shù)據(jù)集

圖9 數(shù)據(jù)集詳細(xì)信息

圖10 study詳細(xì)信息

分別點(diǎn)擊圖9中All experiments及All runs(或點(diǎn)擊圖10中顯示的實(shí)驗(yàn)數(shù)15及run數(shù)15),可依次得到experiments及runs的詳細(xì)信息(圖11~12)。

圖11 experiments的詳細(xì)信息

圖12 runs的詳細(xì)信息

圖13 下載安裝aspera connect

3 SRA數(shù)據(jù)庫(kù)序列數(shù)據(jù)下載

從SRA數(shù)據(jù)庫(kù)下載高通量的序列數(shù)據(jù),可直接在SRA數(shù)據(jù)庫(kù)網(wǎng)頁(yè)下載或者利用上文提到的SRA Toolkit下載,但兩種方法均耗時(shí)過(guò)長(zhǎng),此時(shí)可采用一種大數(shù)據(jù)下載工具Aspera。首先下載Aspera:到Aspera網(wǎng)站(https://downloads.asperasoft.com/en/downloads/8?list)下載操作系統(tǒng)對(duì)應(yīng)的aspera connect,進(jìn)行安裝(圖13)。

安裝完成后,將其安裝路徑下的bin目錄添加到環(huán)境變量中,具體步驟是:首先復(fù)制該文件所在的路徑,打開(kāi)控制面板→“系統(tǒng)”(或系統(tǒng)與安全)→“高級(jí)系統(tǒng)設(shè)置”,點(diǎn)擊右下角的“環(huán)境變量”,在“環(huán)境變量”界面“系統(tǒng)變量”中選擇“Path”,點(diǎn)擊編輯,將所復(fù)制路徑粘貼到變量值后方,注意路徑之間要用分號(hào)隔開(kāi),點(diǎn)擊全部的“確定”鍵保存,環(huán)境變量即設(shè)置成功。

打開(kāi)計(jì)算機(jī)命令提示符(方法有很多,這里介紹一種:按“win+r”鍵打開(kāi)運(yùn)行面板,輸入“cmd”,點(diǎn)擊“確定”),使用下方命令進(jìn)行下載所需數(shù)據(jù):

ascp -v -k 1 -T -l 200m -i "C:UsersAdministratorAppDataLocalProgramsAsperaAspera Connectetcasperaweb_id_dsa.putty"dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/dra2/DRR/000001/DRR001472 ./

上述命令中C:UsersAdministratorAppDataLocalProgramsAsperaAspera Connect是aspera connect的安裝路徑,traces/dra2/DRR/000001/DRR001472是所需數(shù)據(jù)的路徑,可根據(jù)實(shí)際需要進(jìn)行更改,本文以“DRR001472”為例進(jìn)行介紹,路徑獲取方式如下圖(圖14)(直接在圖14中點(diǎn)擊右下方紅色框內(nèi)鏈接也可直接下載,但下載速度常較慢)。運(yùn)行上述命令即可得到DRR001472數(shù)據(jù)文件(圖15)。

4 將原始數(shù)據(jù)轉(zhuǎn)換為fastq格式

由于適用于大部分生物軟件的是fastq格式數(shù)據(jù),所以我們需要將下載的原始數(shù)據(jù)轉(zhuǎn)換為fastq格式。具體方法是:打開(kāi)命令運(yùn)行界面,輸入以下內(nèi)容并運(yùn)行:fastq-dump DRR001472,即可進(jìn)行格式轉(zhuǎn)換(圖16),轉(zhuǎn)換完成后,fastq格式數(shù)據(jù)存在于原始數(shù)據(jù)相同目錄下(圖17)。

圖14 DRR001472下載路徑獲取

圖15 DRR001472序列下載成功

圖16 fastq格式數(shù)據(jù)轉(zhuǎn)換

圖17 fastq格式數(shù)據(jù)轉(zhuǎn)換

5 總結(jié)

隨著大數(shù)據(jù)時(shí)代降臨,呈爆炸式井噴式激增的海量數(shù)據(jù)資源在各個(gè)領(lǐng)域開(kāi)始量化進(jìn)程[6]。數(shù)據(jù)的可再利用性、數(shù)據(jù)共享政策正引起全球普遍重視[7]。SRA數(shù)據(jù)庫(kù)作為存儲(chǔ)二代測(cè)序原始數(shù)據(jù)的代表性數(shù)據(jù)庫(kù),接受來(lái)自各種測(cè)序項(xiàng)目數(shù)據(jù)[8],對(duì)于廣大生物信息學(xué)研究者提供了極具前景及研究?jī)r(jià)值的生物分析平臺(tái)。本文從SRA數(shù)據(jù)庫(kù)架構(gòu)、數(shù)據(jù)下載及數(shù)據(jù)格式轉(zhuǎn)換方面等進(jìn)行相關(guān)介紹, 旨在減少科研工作者在數(shù)據(jù)獲取、軟件使用方面所花費(fèi)的時(shí)間和精力,提高科研效率。

猜你喜歡
檢索測(cè)序界面
兩種高通量測(cè)序平臺(tái)應(yīng)用于不同SARS-CoV-2變異株的對(duì)比研究
微重力下兩相控溫型儲(chǔ)液器內(nèi)氣液界面仿真分析
生物測(cè)序走在前
外顯子組測(cè)序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
國(guó)企黨委前置研究的“四個(gè)界面”
一種可用于潮濕界面碳纖維加固配套用底膠的研究
瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
扁平化設(shè)計(jì)在手機(jī)界面中的發(fā)展趨勢(shì)
在IEEE 數(shù)據(jù)庫(kù)中檢索的一點(diǎn)經(jīng)驗(yàn)
一種基于Python的音樂(lè)檢索方法的研究