国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用爬蟲構(gòu)建生物細(xì)胞器基因組數(shù)據(jù)庫

2019-06-11 09:54:12陳琦吉嘉銘徐逸卿
電子技術(shù)與軟件工程 2019年7期
關(guān)鍵詞:細(xì)胞器鍵值字段

文/陳琦 吉嘉銘 徐逸卿

本研究以物種細(xì)胞器基因組數(shù)據(jù)為對象做分析,在不損壞原始數(shù)據(jù)的情況下大批量整合,提供一種完善且高效的基因數(shù)據(jù)獲取、分析方式。細(xì)胞器指細(xì)胞內(nèi)具有特定功能的子單元。在真核細(xì)胞中有著不同種類的細(xì)胞器,而原核生物本身不具有細(xì)胞器,但有些則含有基于蛋白質(zhì)的細(xì)菌微室,被認(rèn)為是原始的細(xì)胞器。

葡萄Vitis vinifera是最古老的果樹種之一,與多個(gè)物種存在遺傳進(jìn)化關(guān)系,對葡萄的基因分析有助于了解其進(jìn)化發(fā)育和其他相近物種遺傳特征。國內(nèi)外學(xué)者使用線粒體DNA和葉綠體DNA的分子生物學(xué)分析獲取細(xì)胞器基因組的特征,對細(xì)胞器基因組的分析是理解其遺傳進(jìn)化的重要途徑。線粒體基因組具有高拷貝數(shù)、高替代率、母系遺傳等特點(diǎn),線粒體DNA被廣泛用作許多領(lǐng)域的工具。葉綠體基因組編碼蛋白質(zhì)對光合作用功能非常重要,人們在研究其基因序列的時(shí)候發(fā)現(xiàn)它在物種的進(jìn)化、遺傳、系統(tǒng)發(fā)育關(guān)系等方面具有重要的作用。

基因組數(shù)據(jù)庫為基因研究提供所需的物種種屬、細(xì)胞器類別、基因序列等重要數(shù)據(jù)。隨著生產(chǎn)完整基因組序列的效率提高,難以使用原始文獻(xiàn)進(jìn)行廣泛比較?,F(xiàn)有的物種數(shù)據(jù)庫沒有標(biāo)準(zhǔn)化且存在錯(cuò)誤數(shù)據(jù)導(dǎo)致沒有能夠承擔(dān)該任務(wù)的工具,通常還缺乏充分利用這些數(shù)據(jù)的描述符。曾被許多生物學(xué)家所使用的GOBASE數(shù)據(jù)庫,組織并整合了與細(xì)胞器相關(guān)的分子序列、RNA二級結(jié)構(gòu)和遺傳圖譜,以及所有真核物種的分類信息,該數(shù)據(jù)庫于2010年8月停止維護(hù)更新。行業(yè)中缺少一個(gè)專用于細(xì)胞器基因組的數(shù)據(jù)庫,也缺乏對基于細(xì)胞器基因組相關(guān)研究的后續(xù)支持。

1 材料與方法

1.1 數(shù)據(jù)庫與數(shù)據(jù)格式

選用NCBI的Genome庫獲取物種的細(xì)胞器基因組數(shù)據(jù),相應(yīng)的數(shù)據(jù)文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負(fù)責(zé)提供GenBank DNA序列數(shù)據(jù)庫,并與個(gè)別實(shí)驗(yàn)室和其他序列數(shù)據(jù)庫進(jìn)行協(xié)調(diào),為每種生物體分配了唯一的標(biāo)識符以供識別。同時(shí)提供了一個(gè)序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列,可在15秒內(nèi)在數(shù)據(jù)庫內(nèi)完成序列比較[8]。GenBank序列數(shù)據(jù)庫收集了所有公開可用的核苷酸序列、蛋白質(zhì)序列和基因圖譜等信息。GenBank數(shù)據(jù)庫包含序列文件,索引文件等,對其所含的數(shù)據(jù)和基因序列進(jìn)行分析、拆離和存儲(chǔ)是本研究的重點(diǎn)。

1.2 信息抓取流程

使用相關(guān)數(shù)據(jù)接口和爬蟲處理來自NCBI中細(xì)胞器基因組數(shù)據(jù),對核苷酸序列和蛋白序列等序列進(jìn)行特征識別和提取,最終構(gòu)建物種的細(xì)胞器基因組數(shù)據(jù)庫,為做進(jìn)一步的生物學(xué)相關(guān)研究提供了數(shù)據(jù)支持。細(xì)胞器基因組是NCBI參考序列項(xiàng)目的一部分,該項(xiàng)目為本研究提供了源數(shù)據(jù)。本研究的數(shù)據(jù)處理以葡萄的葉綠體基因組(NC_007957.1)和線粒體基因組(NC_012119.1)為例作為分析對象。每個(gè)物種的細(xì)胞器基因組都被分配了一個(gè)唯一可識別的索引編號。根據(jù)已獲得的編號序列,以統(tǒng)一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text)。

設(shè)計(jì)爬蟲訪問拼接后的路徑地址,通過索引編號的檢索逐個(gè)獲取。再以同樣的方式下載線粒體基因組數(shù)據(jù)。分析文本特征之后將其中功能不同的數(shù)據(jù)和序列提取出來分別存儲(chǔ),該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示,圖中左側(cè)字段的層級關(guān)系,將被程序分離處理轉(zhuǎn)換為數(shù)據(jù)庫中對應(yīng)的鍵間關(guān)系。文件轉(zhuǎn)化為數(shù)組對象,利用不同區(qū)域的特征確定該字段所在層級。在此基礎(chǔ)上建立文本分析模型。使用程序?qū)⒄麄€(gè)文本劃分為層次分明的數(shù)個(gè)字符串,提取字段為鍵,緊跟在后的字符串為值填充數(shù)據(jù)庫。枚舉空白字符數(shù)為0的鍵值,獲得一級目錄的最大深度。使用正則式匹配無縮進(jìn)字符串,結(jié)果如圖1中紅框所示。以此類推,以縮進(jìn)層次為特征分別枚舉出第二層級(圖1中藍(lán)框)和第三層級(圖1中綠框)的關(guān)鍵字和對應(yīng)信息。第四層級到達(dá)了堿基序列和蛋白質(zhì)序列的層次,單獨(dú)使用不同的算法對其進(jìn)行處理,“/”后的字段是第四層的鍵值,遍歷所有文件,獲得第四級目錄字段出現(xiàn)的深度。從中再次提取出關(guān)鍵字如source下的/organism、/organelle、/mol_type等鍵值。

分塊取值并填充到鍵值樹,將結(jié)果插入數(shù)據(jù)庫。按照生成的鍵值樹結(jié)構(gòu)建立數(shù)據(jù)庫,并根據(jù)字段和屬性自動(dòng)生成數(shù)據(jù)表,編寫程序?qū)⒏鲗蛹壍逆I值插入到數(shù)據(jù)表中。一至三級存放文件索引字段及相對應(yīng)的信息,第四級存放如核苷酸序列、蛋白質(zhì)序列的長文本。分離層次后在數(shù)據(jù)庫中建立相對應(yīng)的數(shù)據(jù)表。便于相關(guān)研究對不同序列的要求,對數(shù)據(jù)庫中的數(shù)據(jù)信息進(jìn)行了分類和導(dǎo)出。分別生成相應(yīng)的文本文件和基因示意圖,以文件樹的結(jié)構(gòu)存放在服務(wù)器中供研究人員下載調(diào)取。整體目錄結(jié)構(gòu)、文件信息、序列數(shù)據(jù)等將被自動(dòng)化腳本定期更新后上傳至服務(wù)器供訪問。將分析結(jié)果用算法實(shí)現(xiàn)并與下載用的爬蟲程序整合,將流程自動(dòng)化,使其能夠自動(dòng)訪問NCBI下載并更新細(xì)胞器基因組的數(shù)據(jù),按照特征分析、分類,生成對應(yīng)的數(shù)據(jù)表及相應(yīng)的字段,寫入數(shù)據(jù)庫。為相關(guān)基于細(xì)胞器基因組的研究,例如構(gòu)建系統(tǒng)發(fā)育樹、基因共線性分析等提供了數(shù)據(jù)條件。

2 結(jié)果與分析

功能完備且便于使用的細(xì)胞器基因組數(shù)據(jù)庫的出現(xiàn)為相關(guān)生物學(xué)研究提供了極大的助力。至2019年初,本研究建立的數(shù)據(jù)庫共收錄相關(guān)細(xì)胞器基因組數(shù)據(jù)共12130組,其中線粒體基因組9185個(gè),葉綠體基因組2374個(gè),質(zhì)體571個(gè)。如圖2自1990年以來各細(xì)胞器基因組通過測序收錄的數(shù)量,線粒體基因組的測序數(shù)量自2000年后數(shù)量大幅增長,自2005年至今新增加的通過測序的線粒體基因組數(shù)量已翻了十倍。葉綠體基因組和質(zhì)體基因組自2005年起每年新增測序數(shù)量也有明顯增長。由于葉綠體僅出現(xiàn)在大部分高等植物細(xì)胞和藻類中、質(zhì)體僅出現(xiàn)在植物細(xì)胞中,能獲取到葉綠體或質(zhì)體樣本的物種有限,導(dǎo)致了葉綠體基因組和質(zhì)體基因組測序數(shù)量增長速度受到了限制。

基因測序技術(shù)的發(fā)展是使測序數(shù)量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出,這是由線粒體的本身生物特性導(dǎo)致的。線粒體在生物體中分布廣泛,可輕松獲取大量樣本。動(dòng)物線粒體DNA比核遺傳標(biāo)記發(fā)展更快,同時(shí)也是系統(tǒng)發(fā)育和進(jìn)化生物學(xué)的支柱。本研究結(jié)合了來自NCBI的細(xì)胞器基因組數(shù)據(jù)及相關(guān)計(jì)算機(jī)算法,設(shè)計(jì)構(gòu)建了一個(gè)更易于研究使用的專業(yè)細(xì)胞器基因組數(shù)據(jù)庫,分析了不同細(xì)胞器基因組測序研究的組成與發(fā)展趨勢,為相關(guān)生物學(xué)研究提供了數(shù)據(jù)依據(jù),為更好地發(fā)展如構(gòu)建系統(tǒng)發(fā)育樹等研究項(xiàng)目打下了基礎(chǔ)。

圖1:基因文件四層級分級示意圖

圖2:不同年份細(xì)胞器基因組的總測序數(shù)量

猜你喜歡
細(xì)胞器鍵值字段
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
我國科學(xué)家繪制“生命暗物質(zhì)”圖譜
非請勿進(jìn) 為注冊表的重要鍵值上把“鎖”
細(xì)胞器
植物細(xì)胞器DNA的新功能
——可作為磷酸鹽庫再利用!
蔬菜(2018年12期)2018-01-16 05:27:32
一鍵直達(dá) Windows 10注冊表編輯高招
電腦愛好者(2017年9期)2017-06-01 21:38:08
CNMARC304字段和314字段責(zé)任附注方式解析
無正題名文獻(xiàn)著錄方法評述
關(guān)于CNMARC的3--字段改革的必要性與可行性研究
注冊表值被刪除導(dǎo)致文件夾選項(xiàng)成空白
益阳市| 涟水县| 乌鲁木齐县| 诸城市| 泗阳县| 体育| 康定县| 兴国县| 台东市| 开平市| 司法| 缙云县| 屏边| 莫力| 涞源县| 镇赉县| 灯塔市| 益阳市| 竹山县| 清镇市| 文登市| 萍乡市| 遵化市| 香河县| 吴忠市| 冕宁县| 灌南县| 新龙县| 迁安市| 大庆市| 金沙县| 定南县| 聂拉木县| 安徽省| 会宁县| 东兰县| 富平县| 融水| 文山县| 平舆县| 通许县|