国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種用于構(gòu)建表達(dá)載體的合成生物學(xué)數(shù)據(jù)庫(kù)

2016-04-28 01:03:00
生物信息學(xué) 2016年1期
關(guān)鍵詞:數(shù)據(jù)庫(kù)

方 剛

(西安文理學(xué)院,生物與環(huán)境工程學(xué)院, 西安 710065)

?

一種用于構(gòu)建表達(dá)載體的合成生物學(xué)數(shù)據(jù)庫(kù)

方剛

(西安文理學(xué)院,生物與環(huán)境工程學(xué)院, 西安 710065)

摘要:由于基因測(cè)序及DNA合成技術(shù)與工具的突破性進(jìn)展,生物工程正在加速發(fā)展,導(dǎo)致合成生物學(xué)的出現(xiàn)。本文介紹了一種用于構(gòu)建表達(dá)載體的合成生物學(xué)數(shù)據(jù)庫(kù)。闡述了如何利用MySQL數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)對(duì)合成生物學(xué)數(shù)據(jù)庫(kù)gene_bank進(jìn)行查詢,并借助BioEdit軟件對(duì)其中的多克隆位點(diǎn)(MCS)進(jìn)行序列分析,通過(guò)查詢與分析找出這一合成生物學(xué)數(shù)據(jù)庫(kù)的特點(diǎn)。

關(guān)鍵詞:合成生物學(xué);數(shù)據(jù)庫(kù);MySQL查詢

由Science雜志數(shù)據(jù)庫(kù)搜索查詢,該刊最早于1911年33卷有兩篇文章出現(xiàn)“合成生物學(xué)”一詞。由Scirus搜索引擎搜索,合成生物學(xué)一詞最早出現(xiàn)于1911年7月8日著名醫(yī)學(xué)刊物《柳葉刀》發(fā)表的一篇書(shū)評(píng)中。后來(lái)雖然斷斷續(xù)續(xù)出現(xiàn)過(guò)多次,但在1980年第一次以“基因外科術(shù):合成生物學(xué)的開(kāi)始”為題出現(xiàn)在德文刊物的一篇長(zhǎng)篇論文[1]。隨著人類基因組計(jì)劃的完成,2000年以后,合成生物學(xué)一詞在學(xué)術(shù)刊物及互聯(lián)網(wǎng)上逐漸大量出現(xiàn)。對(duì)于近幾年合成生物學(xué)的突然變熱,不同的人對(duì)其有不同的解釋。著名科普刊物 The Scientist為此專門(mén)采訪了一些合成生物學(xué)領(lǐng)域的參與者[2],其中加州大學(xué)伯克利分校(UCB)的化學(xué)工程教授Keasling說(shuō):合成生物學(xué)正在用“生物學(xué)”進(jìn)行工程化,就像用“物理學(xué)”進(jìn)行“電子工程”,用“化學(xué)”進(jìn)行“化學(xué)工程”一樣。目前合成生物學(xué)與傳統(tǒng)的重組DNA技術(shù)之間的界限仍然是模糊的。從根本上說(shuō),合成生物學(xué)正在利用獲得的生物“零件”進(jìn)行下一層次的工作——對(duì)細(xì)胞進(jìn)行實(shí)際的工程化。是利用我們所確信的一些標(biāo)準(zhǔn)“零件”構(gòu)造新生物系統(tǒng)的工程?!昂铣缮飳W(xué)組織”網(wǎng)站上公布的合成生物學(xué)的定義包括兩條路線:(1)新的生物零件、組件和系統(tǒng)的設(shè)計(jì)與建造;(2)對(duì)現(xiàn)有的、天然的生物系統(tǒng)的重新設(shè)計(jì)[3]。

合成生物學(xué)建立在“標(biāo)準(zhǔn)生物組件(BioBrick)”的基礎(chǔ)上[4-5],所謂的標(biāo)準(zhǔn)生物構(gòu)件就是一些具有生物學(xué)意義的DNA分子。合成生物學(xué)就是在活細(xì)胞中使用這些可互換的標(biāo)準(zhǔn)生物組件重新組合構(gòu)造新的生物系統(tǒng),并加以操縱來(lái)實(shí)現(xiàn)某種特定的生理功能。隨著生物學(xué)的工程化和現(xiàn)代分子生物學(xué)的迅猛發(fā)展,這些所謂的“BioBrick”是以海量的形式出現(xiàn)的,對(duì)這些標(biāo)準(zhǔn)生物組件信息的組織、存儲(chǔ)和操控必然依賴現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)。本文就是通過(guò)使用現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)從常用的質(zhì)粒表達(dá)載體中提取“生物組件”信息,將這些載體拆解成“零件”,提取信息加以組織、存儲(chǔ),然后期望使用這些零件構(gòu)建新的載體。

1常用質(zhì)粒載體數(shù)據(jù)庫(kù)gene_bank

數(shù)據(jù)庫(kù)是信息系統(tǒng)的核心,在信息社會(huì)中占據(jù)著舉足輕重的地位。數(shù)據(jù)庫(kù)技術(shù)主要研究如何科學(xué)地組織、存儲(chǔ)和管理數(shù)據(jù)庫(kù)中的數(shù)據(jù)。簡(jiǎn)單地說(shuō),數(shù)據(jù)庫(kù)是存儲(chǔ)、管理數(shù)據(jù)的容器:嚴(yán)格地說(shuō),數(shù)據(jù)庫(kù)是“按照某種數(shù)據(jù)結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行組織,存儲(chǔ)和管理的容器”[6]。合成生物學(xué)信息的組織、存儲(chǔ)、管理以及操控就是依賴于現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)。

Gene_bank數(shù)據(jù)庫(kù)是源于常用質(zhì)粒載體的數(shù)據(jù)庫(kù),這些質(zhì)粒可以用來(lái)傳染12種不同的宿主細(xì)胞(包括大腸桿菌、釀酒酵母、植物細(xì)胞、哺乳動(dòng)物細(xì)胞、昆蟲(chóng)細(xì)胞等),這一信息在數(shù)據(jù)庫(kù)中已予以存儲(chǔ)。這是一個(gè)“生物組件”數(shù)據(jù)庫(kù),我們可以使用它來(lái)構(gòu)造設(shè)計(jì)新的載體。每一個(gè)質(zhì)粒載體的genbank文檔中的FEATURES區(qū)域包含具有生物學(xué)意義的序列,可以用作開(kāi)發(fā)標(biāo)準(zhǔn)生物組件(BioBrick)[7]。

通過(guò)Perl語(yǔ)言編寫(xiě)程序,可以提取FEATURES區(qū)域的信息。提取的信息包括features名,所有的注釋信息即note,重要的是提取各個(gè)features的序列信息,需要按照各features的起止號(hào)碼,根據(jù)ORIGIN區(qū)域的序列信息提取各個(gè)features的準(zhǔn)確序列。將提取的信息輸入MySQL數(shù)據(jù)庫(kù)。輸入時(shí)產(chǎn)生兩個(gè)表,其中plasmids表包括了每個(gè)質(zhì)粒的總體信息(包括完整的genbank文檔)。Features表中包含了從質(zhì)粒genbank文檔FEATURES區(qū)域提取的信息,其中FEATURES名被定義為feature_qualifier,而第一個(gè)注釋即note在數(shù)據(jù)庫(kù)中被定義為feature_name (FEATURES名),第二個(gè)note被定義為description即FEATURES的描述,表中還包含各FEATURES的起止號(hào)碼和相對(duì)應(yīng)的準(zhǔn)確序列信息。genebank_feature表對(duì)各個(gè)feature_qualifier的含義進(jìn)行了描述。snapgene_qualifier表和genocad_qualifier表是對(duì)各個(gè)feature_qualifier在兩種流行的合成生物學(xué)軟件Snapgene[8]和GenoCAD[8]中的含義的描述,表結(jié)構(gòu)與genebank_feature的表結(jié)構(gòu)基本一致。Gene_bank這一關(guān)系型數(shù)據(jù)庫(kù)中最重要的是features表,這個(gè)表里包含就是從質(zhì)粒載體“拆解”下來(lái)的合成生物學(xué)“零件”信息,可以使用這些信息來(lái)開(kāi)發(fā)BioBrick。該數(shù)據(jù)庫(kù)源于常用質(zhì)粒載體,與標(biāo)準(zhǔn)生物組件(BioBrick)數(shù)據(jù)庫(kù)的組織與結(jié)構(gòu)有所不同[5-6],其中最大的不同在于它源于成熟商業(yè)化的質(zhì)粒可用來(lái)開(kāi)發(fā)新的商用載體,而標(biāo)準(zhǔn)生物組件數(shù)據(jù)庫(kù)主要支持iGEM(International Genetically Engineered Machine)競(jìng)賽。

2gene_bank數(shù)據(jù)庫(kù)的SQL查詢

利用MySQL查詢gene_bank數(shù)據(jù)庫(kù)的操作如下。

2.1打開(kāi)MySQL

Windows+R——>cmd(進(jìn)入DOS)——>mysql -u root -p——>password

2.2顯示庫(kù)表

show databases;

use gene_bank;

show tables;

經(jīng)過(guò)查詢可知,gene_bank數(shù)據(jù)庫(kù)中共有5張表,分別是features,genebank_features,genocad_qualifier,plasmids,snapgene_qualifier。

2.3查詢表結(jié)構(gòu)

2.3.1Desc plasmids

Plasmid(質(zhì)粒)表中共有7個(gè)字段,如圖1所示。其中plasmid_id即質(zhì)粒號(hào);plasmid_name即質(zhì)粒名;definition是對(duì)質(zhì)粒的基本描述;sequence是質(zhì)粒的序列信息;complete_genbank_text區(qū)存儲(chǔ)完整的質(zhì)粒genbank文檔;is_circular表示如果該質(zhì)粒是環(huán)形閉合的該區(qū)域值為1否則為0;origin表示質(zhì)粒來(lái)源的數(shù)據(jù)集。

2.3.2Desc features

Features(特性)表中共有10個(gè)字段,如圖2所示。其中feature_id即features號(hào);feature_name即features名稱;description是對(duì)該features的基本描述;feature_qualifier表示該features是屬于哪一類;complement表示該features是否是反向互補(bǔ)序列,如果是該區(qū)域值取1否則取0;start表示該features在它所屬質(zhì)粒中序列的起始號(hào);end表示該features在質(zhì)粒中序列的終止號(hào);sequence表示該features的序列信息;plasmid_id表示該features所屬質(zhì)粒的號(hào);flag區(qū)域表示該features的序列是否含有除a,g,c,t之外的特殊字符,如果含有則予以標(biāo)出。

圖1 表plasmids的查詢結(jié)果Fig.1 The result of querying table plasmids

圖2 表features 的查詢結(jié)果Fig.2 The result of querying table features

2.3.3Desc genebank_features

Genebank_features表中共有3個(gè)字段,如圖3所示。其中qualifier_id表示feature_qualifier的號(hào)碼;feature_qualifier就是各個(gè)feature_qualifier的名稱;description是對(duì)各個(gè)feature_qualifier含義的解釋。

2.4查詢feature表中的總記錄

Select count(*) as totalItem from features; 17 760 結(jié)果features表中總共有17 760條記錄

Select count(*) from features where sequence is NULL; 0

Select count(distinct sequence) as totalsequence from features; 2 137sequence字段沒(méi)有NULL值,完全不同的sequence只有2 137個(gè),因此有大量sequence是冗余的,冗余的序列信息被標(biāo)識(shí)并保留。

圖3 表genebank_features 的查詢結(jié)果Fig.3 The result of querying table genebank_features

2.5綜合查詢

Select feature_name,sequence,description,feature_qualifier,count(feature_id) from features group by feature_name,sequence,description,feature_qualifier having count(feature_id)>1 order by count(feature_id) desc;

通過(guò)這個(gè)語(yǔ)句,可以查詢到feature_name、feature_qualifier、description、sequence四者均相同的features有哪些,通過(guò)查詢可知AmpR promoter,AmpR,ori,T7 promoter是使用最多的四種features(分別是781次、516次、454次、452次)。這一查詢的意義在于知曉哪些序列使用最為普遍頻繁,為下一步開(kāi)發(fā)BioBrick做準(zhǔn)備。

Select feature_name,sequence,description,feature_qualifier, count(feature_id) from features group by feature_name,sequence, description,feature_qualifier having feature_name='MCS' order by count(feature_id) desc;

通過(guò)這個(gè)語(yǔ)句,可以查詢到當(dāng)features是MCS(多克隆位點(diǎn))時(shí),所用序列的統(tǒng)計(jì)次數(shù),可以得到使用次數(shù)最多的序列,并且feature_qualifier是misc_feature, 對(duì)于這些序列用BioEdit做了分析,可以顯示其中詳細(xì)的多克隆位點(diǎn)。這一查詢的意義在于知曉哪些多克隆位點(diǎn)使用最為普遍頻繁,可以用來(lái)提取較為有效的多克隆位點(diǎn)構(gòu)建克隆或表達(dá)載體。

3gene_bank數(shù)據(jù)庫(kù)的意義

關(guān)于標(biāo)準(zhǔn)生物構(gòu)件數(shù)據(jù)庫(kù),最著名的莫過(guò)于麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)倡導(dǎo)的Standard Biological Parts[9]。但是之前還少有基于成熟并常用的克隆、表達(dá)載體的數(shù)據(jù)庫(kù)[10]。Gene_bank數(shù)據(jù)庫(kù)就是源于常用質(zhì)粒載體的數(shù)據(jù)庫(kù),我們可以使用它構(gòu)造新的載體。

Gene_bank數(shù)據(jù)庫(kù)源于成熟常用的商業(yè)化質(zhì)粒載體,可以用來(lái)開(kāi)發(fā)用作BioBrick。

Gene_bank數(shù)據(jù)庫(kù)便于合成生物學(xué)家查詢合成生物學(xué)研究所需要的數(shù)據(jù),了解各個(gè)組件的具體信息,組合成新的生物系統(tǒng)。

4前景與展望

合成生物學(xué)將催生下一次生物技術(shù)革命。目前,科學(xué)家們已經(jīng)不局限于非常辛苦地進(jìn)行基因剪接,而是開(kāi)始構(gòu)建遺傳密碼,以期利用合成的遺傳因子構(gòu)建新的生物體。合成生物學(xué)在未來(lái)幾年有望取得迅速進(jìn)展。據(jù)估計(jì),合成生物學(xué)在很多領(lǐng)域?qū)⒕哂袠O好的應(yīng)用前景,這些領(lǐng)域包括更有效的疫苗的生產(chǎn)、新藥和藥物的改進(jìn)、以生物學(xué)為基礎(chǔ)的制造、可再生能源利用、生產(chǎn)可持續(xù)能源、環(huán)境污染的生物治理、可以檢測(cè)有毒化學(xué)物質(zhì)的生物傳感器。本文通過(guò)從常用的質(zhì)粒載體中獲取序列信息,將完整的質(zhì)粒序列拆成“零件”構(gòu)建成數(shù)據(jù)庫(kù),提供給合成生物學(xué)家使用。以期從這些零件中提取元素構(gòu)建新的表達(dá)載體。

參考文獻(xiàn)

[1]HOBOM B. Gene surgery:on the threshold of synthetic biology[J]. Medizinische Klinik,1980,75(24):834-841.

[2]LUCENTINI, L. Just what is synthetic biology[J].The Scientist,2006,20(1):36.

[3]趙學(xué)明,王慶昭. 合成生物學(xué):學(xué)科基礎(chǔ)、研究進(jìn)展與前景展望[J]. 前沿科學(xué), 2007,(3):56-66.

ZHAO Xueming, WANG Qingzhao. Synthetic biology: fundamentals, advances and prospect[J].Frontier Science, 2007,(3):56-66.

[4]SHETTY R P , ENDY D. Knight T F Jr. Engineering BioBrick vectors from BioBrick parts[J].Journal of Biological Engineering, 2008,2(1):5.

[5]孔祥盛. MySQL核心技術(shù)與最佳實(shí)踐(第一版)[M]. 北京: 人民郵電出版社, 2012.

KONG Xiangsheng. MySQL core technology & best practice(1sted.) [M].Beijing:Posts & Telecom Press, 2012.

[6]ADAMES N R , WILSON M L , FANG G , et al. GenoLIB:A database of standard biogical parts derived from a library of common plasmid features[J].Nucleic Acids Research, 2015 ,43(10):4823.

[7]COOLING M T , ROUILLY V , MISIRLI G , et al. Standard virtual biological parts: a repository of modular modeling components for synthetic biology[J].Bioinformatics, 2010, 26(7): 925-931.

[8]CZAR M J, CAI Y, PECCOUD J. Writing DNA with GenoCAD[J]. Nucleic Acids Research, 2009, 37(Web Server issue):W40-W47 .

[9]SMOLKE C D. Building outside of the box: iGEM and the BioBricks Foundation[J]. Nature Biotechnology, 2009, 27(12):1099-1102.

[10]CAI Y, WILSON M L, PECCOUD J. GenoCAD for iGEM: a grammatical approach to the design of standard-compliant constructs[J].Nucleic Acids Research, 2010,38(8):2637-2644.

A synthetic biology database for constructing expression vector

FANG Gang

(SchoolofBiologicalandEnvironmentalEngineering,Xi’anUniversity,Xi’an710065,China)

Abstract:Due to the breakthrough in the Gene Sequencing and DNA Synthesis Technology. Biological and genetic Engineering developed rapidly and resulted in the emergence of Synthetic Biology. A database of synthetic biology,which aims at constructing expression vector, was introduced in this paper. By using MYSQL database management system (DBMS), the Synthetic Biology database of gene_bank were queried. The sequences of multiple clone sites (MCS) were analyzed. In order to figure out some of the characteristic of this database, comprehensive analysis was carried out.

Keywords:Synthetic biology;Database;MySQL query

中圖分類號(hào):K826.15

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1672-5565(2016)01-039-04

doi:10.3969/j.issn.1672-5565.2016.01.07

作者簡(jiǎn)介:方剛,男,副教授,研究方向:合成生物信息學(xué);E-mail : yuxiangqd@163.com.

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61173113)。

收稿日期:2015-09-06;修回日期:2015-11-15.

猜你喜歡
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
兩種新的非確定數(shù)據(jù)庫(kù)上的Top-K查詢
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
寻甸| 珠海市| 丰原市| 吴川市| 汉沽区| 揭西县| 兴和县| 兴山县| 丰原市| 土默特左旗| 宣武区| 南乐县| 民县| 大英县| 阿拉尔市| 桑植县| 新化县| 吉安市| 枞阳县| 台州市| 普格县| 翁源县| 五常市| 鹤庆县| 蕲春县| 邯郸县| 东兰县| 探索| 锡林浩特市| 灵台县| 固镇县| 遵义县| 南宫市| 宜丰县| 赤壁市| 扎囊县| 廊坊市| 乌拉特前旗| 上高县| 林口县| 靖安县|