閻光甫 張利莉
微生物物種豐富、分布廣泛,是一類具有巨大開發(fā)潛力的生物資源和基因資源。因其長(zhǎng)期以來有著重要的研究?jī)r(jià)值,世界各國(guó)對(duì)微生物資源的研究和開發(fā)競(jìng)爭(zhēng)日益激烈。隨著對(duì)微生物資源研究不斷深入和規(guī)模的相繼擴(kuò)大,出現(xiàn)了一系列與微生物相關(guān)的數(shù)據(jù)分析工具及網(wǎng)站[1],而安裝和維護(hù)這些生物信息軟件不但耗時(shí),而且不宜普及和維護(hù)。微生物信息資源平臺(tái)的建立,旨在給微生物研究人員提供一個(gè)“一站式”的在線生物科研平臺(tái),提高科研工作效率,加快微生物資源的相關(guān)研究。
本平臺(tái)屬于小型的科研網(wǎng)絡(luò)系統(tǒng),初步建立在PC上,通過分配靜態(tài)IP接入校園網(wǎng)。采用Ubuntu Server 10.04的Linux作為服務(wù)器操作系統(tǒng),Web服務(wù)由Apache 2.2.14提供,通過集成功能模塊實(shí)現(xiàn)具體分析功能。選擇B/S(Brower/Server,瀏覽器/服務(wù)器)結(jié)構(gòu)作為其工作運(yùn)行模式的結(jié)構(gòu),實(shí)現(xiàn)過程如圖1所示。
圖1 B/S結(jié)構(gòu)的實(shí)現(xiàn)過程
本平臺(tái)所需的所有軟件均為免費(fèi)開源軟件,可以從互聯(lián)網(wǎng)免費(fèi)下載,在開源協(xié)議下可免費(fèi)、自由使用。相關(guān)軟件的功能及下載地址見表1。
表1 軟件的功能描述及下載地址
采用光盤引導(dǎo)安裝。系統(tǒng)安裝完畢后,在 /etc/apt/sources.list中更改速度最快的更新源進(jìn)行系統(tǒng)升級(jí)。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的服務(wù)包括執(zhí)行Web服務(wù)的A-pache Web Server并配置CGI腳本支持。除此之外,要給執(zhí)行CGI的文件夾賦予相應(yīng)讀寫和運(yùn)行權(quán)限。為了方便管理,還需安裝 Webmin[4],并配置 ufw實(shí)現(xiàn)防火墻功能,使用sudo ufw allow對(duì)內(nèi)網(wǎng)部分ip段開啟web服務(wù)端口。
安裝apache服務(wù):sudo apt-get install apache2安裝ufw防火墻:sudo apt-get install ufw
對(duì)CGI腳本的支持需要在httpd.conf配置文件中相應(yīng)目錄處添加下列代碼:
Options ExecCGI
AddHandler cgi-script cgi pl
1.3.1 Web 界面 Blast的配置
WWWBLAST是NCBI開發(fā)的一套使用廣泛的獨(dú)立 BLAST(Basic Local Alignment Search Tool,基本局部相似性比對(duì)搜索工具)程序,核酸和蛋白質(zhì)序列的相似性分析。包含在各種平臺(tái)下使用的版本。從表1給出的地址用wget下載并解壓至 /var/www/blast。
1.3.2 數(shù)據(jù)庫(kù)的格式化
從 NCBI的 ftp 站點(diǎn) ftp://ftp.ncbi.nlm.nih.gov/blast/db/中下載所需要的數(shù)據(jù)庫(kù)。對(duì)于本地自建數(shù)據(jù)庫(kù),先將fasta格式的序列寫入一個(gè)文件里面。使用formatdb命令對(duì)數(shù)據(jù)庫(kù)進(jìn)行格式化,并在目錄下的配置文件blast.rc中添加格式化好的核酸序列數(shù)據(jù)庫(kù)名稱,同時(shí)在網(wǎng)頁(yè)文件的源代碼中添加數(shù)據(jù)庫(kù)的鏈接和相應(yīng)的數(shù)據(jù)庫(kù)名稱,為BLAST程序添加數(shù)據(jù)庫(kù)。核酸序列的格式化命令如下:
formatdb-p F -i nucleotide_db_name-o T/F
-p表示所要格式化的數(shù)據(jù)庫(kù)的類型,F(xiàn)表示nucleotide。
在表1的Primer3地址中下載Primer3-core、primer3-web - htdpcs-0.3.0.tar.gz和 primer3 -web- cgi- bin -0.3.0.tar.gz,并別解壓在/var/www/primer3/htdocs、/var/www/primer3/cgi - bin和/var/www/primer3/cgi-bin/primer3-web-cgi-bin-0.3.0目錄中。運(yùn)行前需要從 http://cpan.org下載并安裝 perl的 cgi.pm模塊。配置 httpd.conf和增加文件夾權(quán)限使primer3中cgi-bin目錄能夠執(zhí)行CGI腳本。
網(wǎng)站總體設(shè)計(jì)方案需要充分考慮到本地微生物科研的需求及可實(shí)現(xiàn)性。按照本地微生物科研需求,本平臺(tái)主要提供基于BLAST的在線序列比對(duì)和基于Primer3的在線引物設(shè)計(jì),并配合Webmin實(shí)現(xiàn)圖形化的操作、配置和維護(hù)。整個(gè)平臺(tái)功能組成的層次結(jié)構(gòu)如圖2所示。
圖2 平臺(tái)的功能組成
微生物信息資源平臺(tái)的各種功能模塊通過Web服務(wù)集成在一個(gè)站點(diǎn)中,由發(fā)布的網(wǎng)站頁(yè)面鏈接集成,在瀏覽器地址欄中輸入站點(diǎn)ip訪問。平臺(tái)各模塊功能的實(shí)現(xiàn)均靠Web服務(wù)器的腳本程序,配合相互獨(dú)立的數(shù)據(jù)庫(kù)運(yùn)行。
比較和確定某一特定的序列在某一給定的數(shù)據(jù)庫(kù)中部分或全部序列的相似性是生物信息學(xué)中最基本和最有價(jià)值的工作[10]。BLAST是一套應(yīng)用廣泛的序列相似性比較的工具,基于啟發(fā)式的算法可以獲得序列匹配的近似最優(yōu)解,因而BLAST的最大優(yōu)勢(shì)在于運(yùn)行速度快。由于本地Blast針對(duì)核酸序列,因此去掉蛋白質(zhì)比對(duì)功能,模塊分為 BLASTN、TBLASTN、TBLASTX、MEGABLAST,其各部分的數(shù)據(jù)庫(kù)、檢索序列及功能注釋如表2所示。
表2 BLAST各種程序數(shù)據(jù)庫(kù)、檢測(cè)序列及其功能注釋
Primer3由Whitehead Institute和Howard Hughes Medical Institute的Steve Rozen與Helen Skaletsky開發(fā),是一款優(yōu)秀的批量設(shè)計(jì)PCR引物、雜交探針、測(cè)序引物的工具,可通過設(shè)定各種標(biāo)簽來指定引物設(shè)計(jì)參數(shù),從而篩選 PCR目的引物,返回引物的相關(guān)信息。
進(jìn)入Primer3引物設(shè)計(jì)的界面,在“Paste source sequence below(5'→3')”下面的文本框里面把模板序列5'→3'方向粘帖進(jìn)去,不用考慮數(shù)字或者空格。通過重要參數(shù)設(shè)定,如“Product Size Ranges”、“Primer Size”和“Primer Tm”,點(diǎn)擊 Pick primers獲得設(shè)計(jì)的引物。
Webmin能更好的實(shí)現(xiàn)以圖形化界面的形式對(duì)操作系統(tǒng)及各種服務(wù)進(jìn)行配置和維護(hù),從而簡(jiǎn)化了通過命令符對(duì)服務(wù)器進(jìn)行維護(hù)的過程。通過webmin對(duì)服務(wù)進(jìn)行配置和定時(shí)備份,可提高系統(tǒng)的穩(wěn)定性,同時(shí)簡(jiǎn)化維護(hù)過程。
ufw是Ubuntu系統(tǒng)的一個(gè)簡(jiǎn)易防火墻配置工具,底層調(diào)用 iptables處理,功能簡(jiǎn)單實(shí)用。通過Ubuntu的ufw服務(wù),可限制平臺(tái)對(duì)外開放的端口以及訪問該平臺(tái)的IP段,增加了系統(tǒng)的安全性。
使用Ubuntu Server的Linux系統(tǒng)建立網(wǎng)絡(luò)科研平臺(tái)有諸多優(yōu)勢(shì)。首先,Linux系統(tǒng)本身具有的穩(wěn)定性是諸如Windows等操作系統(tǒng)所無法超越的。另外,開源的軟件成本低,更新周期短。在開源環(huán)境下有豐富的開源軟件,其apt-get方式的軟件安裝和更新簡(jiǎn)化了系統(tǒng)的維護(hù)和軟件的安裝過程,因而使用Ubuntu作為本科研平臺(tái)的操作系統(tǒng)無疑是一個(gè)很好的選擇。
在局域網(wǎng)構(gòu)建Blast序列檢索對(duì)序列有較高的保密性,同時(shí)避免了網(wǎng)絡(luò)堵塞和延時(shí),極大的縮短了序列比對(duì)操作所花費(fèi)的時(shí)間。而微生物信息資源平臺(tái)中所用的Blast數(shù)據(jù)庫(kù)從NCBI中鏡像得到,這種數(shù)據(jù)庫(kù)的鏡像操作與數(shù)據(jù)庫(kù)的實(shí)時(shí)更新存在一定的延時(shí)。另外,通過構(gòu)建具體的核酸序列數(shù)據(jù)庫(kù)或二次數(shù)據(jù)庫(kù)[11],消除公共數(shù)據(jù)庫(kù)中的冗余,可以進(jìn)行有目的、更精準(zhǔn)的比對(duì),這樣會(huì)大大提高比對(duì)的目的性和結(jié)果的精確性?;赪eb的Primer3在線引物設(shè)計(jì)免去了安裝應(yīng)用程序的過程,直接可在線設(shè)計(jì)引物,并可結(jié)合本地的 BLAST功能對(duì)引物進(jìn)行驗(yàn)證。
總之,在擁有一定規(guī)模的科研單位中構(gòu)建微生物信息資源平臺(tái),對(duì)科研有著一定的支撐作用,簡(jiǎn)化科研過程中對(duì)于數(shù)據(jù)的處理和分析。通過將該系統(tǒng)與本實(shí)驗(yàn)室建立的微生物數(shù)據(jù)庫(kù)相關(guān)聯(lián),可以更好的對(duì)微生物數(shù)據(jù)進(jìn)行挖掘和探索。
[1] 陳潤(rùn)生.生物信息學(xué)及其研究進(jìn)展[J].醫(yī)學(xué)研究通訊,2002,31(12):1-5.
[2] 希爾.Ubuntu官方指南[M].北京:人民郵電出版社,2007:5-12.
[3] 李蔚澤.Ubuntu Linux入門到精通[M].北京:機(jī)械工業(yè)出版社,2007:19-52.
[4] 張旭華.用Webmin遠(yuǎn)程管理Linux系統(tǒng)服務(wù)器[J].計(jì)算機(jī)與現(xiàn)代化,2006,(9):47-49.
[5] Altschul SF,Gish W,Miller W etc.Basic local alignment search tool[J].JMol Biol,1990,215(3):403 -410.
[6] Madden T L,Tatusov R L,Zhang J.Applications of network BLAST server[J].Methods Enzymol,1996,266:131-141.
[7] Gish W,States D J.Identification of protein coding regions by database similarity search[J].Nature Genet,1993,3(3):266-272.
[8] 張成崗,張利達(dá),歐陽(yáng)曙光等.序列同源性分析軟件Blast的WEB界面構(gòu)建及其應(yīng)用[J].生物化學(xué)與生物物理進(jìn)展,2001,28(6):916-918.
[9] Rozen S,Skaletsky H.Primer3 on the WWW for general users and for biologist programmers[J].Methods in Molecular Biology,2000,132:365-386.
[10] 歐陽(yáng)平.生物信息數(shù)據(jù)庫(kù)與序列分析[J].微生物學(xué)通報(bào),2007,42(3):24-25.
[11] 潘雪峰.基于代理程序開發(fā)核酸序列二次數(shù)據(jù)庫(kù)[J].計(jì)算機(jī)與數(shù)字工程,2009,8(37):80-82.