利用爬蟲構(gòu)建生物細(xì)胞器基因組數(shù)據(jù)庫

2019-06-11 09:54:12陳琦吉嘉銘徐逸卿

電子技術(shù)與軟件工程 2019年7期

文/陳琦吉嘉銘徐逸卿

本研究以物種細(xì)胞器基因組數(shù)據(jù)為對象做分析，在不損壞原始數(shù)據(jù)的情況下大批量整合，提供一種完善且高效的基因數(shù)據(jù)獲取、分析方式。細(xì)胞器指細(xì)胞內(nèi)具有特定功能的子單元。在真核細(xì)胞中有著不同種類的細(xì)胞器，而原核生物本身不具有細(xì)胞器，但有些則含有基于蛋白質(zhì)的細(xì)菌微室，被認(rèn)為是原始的細(xì)胞器。

葡萄Vitis vinifera是最古老的果樹種之一，與多個(gè)物種存在遺傳進(jìn)化關(guān)系，對葡萄的基因分析有助于了解其進(jìn)化發(fā)育和其他相近物種遺傳特征。國內(nèi)外學(xué)者使用線粒體DNA和葉綠體DNA的分子生物學(xué)分析獲取細(xì)胞器基因組的特征，對細(xì)胞器基因組的分析是理解其遺傳進(jìn)化的重要途徑。線粒體基因組具有高拷貝數(shù)、高替代率、母系遺傳等特點(diǎn)，線粒體DNA被廣泛用作許多領(lǐng)域的工具。葉綠體基因組編碼蛋白質(zhì)對光合作用功能非常重要，人們在研究其基因序列的時(shí)候發(fā)現(xiàn)它在物種的進(jìn)化、遺傳、系統(tǒng)發(fā)育關(guān)系等方面具有重要的作用。

基因組數(shù)據(jù)庫為基因研究提供所需的物種種屬、細(xì)胞器類別、基因序列等重要數(shù)據(jù)。隨著生產(chǎn)完整基因組序列的效率提高，難以使用原始文獻(xiàn)進(jìn)行廣泛比較?，F(xiàn)有的物種數(shù)據(jù)庫沒有標(biāo)準(zhǔn)化且存在錯(cuò)誤數(shù)據(jù)導(dǎo)致沒有能夠承擔(dān)該任務(wù)的工具，通常還缺乏充分利用這些數(shù)據(jù)的描述符。曾被許多生物學(xué)家所使用的GOBASE數(shù)據(jù)庫，組織并整合了與細(xì)胞器相關(guān)的分子序列、RNA二級結(jié)構(gòu)和遺傳圖譜，以及所有真核物種的分類信息，該數(shù)據(jù)庫于2010年8月停止維護(hù)更新。行業(yè)中缺少一個(gè)專用于細(xì)胞器基因組的數(shù)據(jù)庫，也缺乏對基于細(xì)胞器基因組相關(guān)研究的后續(xù)支持。

1 材料與方法

1.1 數(shù)據(jù)庫與數(shù)據(jù)格式

選用NCBI的Genome庫獲取物種的細(xì)胞器基因組數(shù)據(jù)，相應(yīng)的數(shù)據(jù)文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負(fù)責(zé)提供GenBank DNA序列數(shù)據(jù)庫，并與個(gè)別實(shí)驗(yàn)室和其他序列數(shù)據(jù)庫進(jìn)行協(xié)調(diào)，為每種生物體分配了唯一的標(biāo)識符以供識別。同時(shí)提供了一個(gè)序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列，可在15秒內(nèi)在數(shù)據(jù)庫內(nèi)完成序列比較[8]。GenBank序列數(shù)據(jù)庫收集了所有公開可用的核苷酸序列、蛋白質(zhì)序列和基因圖譜等信息。GenBank數(shù)據(jù)庫包含序列文件，索引文件等，對其所含的數(shù)據(jù)和基因序列進(jìn)行分析、拆離和存儲(chǔ)是本研究的重點(diǎn)。

1.2 信息抓取流程

使用相關(guān)數(shù)據(jù)接口和爬蟲處理來自NCBI中細(xì)胞器基因組數(shù)據(jù)，對核苷酸序列和蛋白序列等序列進(jìn)行特征識別和提取，最終構(gòu)建物種的細(xì)胞器基因組數(shù)據(jù)庫，為做進(jìn)一步的生物學(xué)相關(guān)研究提供了數(shù)據(jù)支持。細(xì)胞器基因組是NCBI參考序列項(xiàng)目的一部分，該項(xiàng)目為本研究提供了源數(shù)據(jù)。本研究的數(shù)據(jù)處理以葡萄的葉綠體基因組（NC_007957.1）和線粒體基因組（NC_012119.1）為例作為分析對象。每個(gè)物種的細(xì)胞器基因組都被分配了一個(gè)唯一可識別的索引編號。根據(jù)已獲得的編號序列，以統(tǒng)一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑（http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text）。

設(shè)計(jì)爬蟲訪問拼接后的路徑地址，通過索引編號的檢索逐個(gè)獲取。再以同樣的方式下載線粒體基因組數(shù)據(jù)。分析文本特征之后將其中功能不同的數(shù)據(jù)和序列提取出來分別存儲(chǔ)，該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示，圖中左側(cè)字段的層級關(guān)系，將被程序分離處理轉(zhuǎn)換為數(shù)據(jù)庫中對應(yīng)的鍵間關(guān)系。文件轉(zhuǎn)化為數(shù)組對象，利用不同區(qū)域的特征確定該字段所在層級。在此基礎(chǔ)上建立文本分析模型。使用程序?qū)⒄麄€(gè)文本劃分為層次分明的數(shù)個(gè)字符串，提取字段為鍵，緊跟在后的字符串為值填充數(shù)據(jù)庫。枚舉空白字符數(shù)為0的鍵值，獲得一級目錄的最大深度。使用正則式匹配無縮進(jìn)字符串，結(jié)果如圖1中紅框所示。以此類推，以縮進(jìn)層次為特征分別枚舉出第二層級（圖1中藍(lán)框）和第三層級（圖1中綠框）的關(guān)鍵字和對應(yīng)信息。第四層級到達(dá)了堿基序列和蛋白質(zhì)序列的層次，單獨(dú)使用不同的算法對其進(jìn)行處理，“/”后的字段是第四層的鍵值，遍歷所有文件，獲得第四級目錄字段出現(xiàn)的深度。從中再次提取出關(guān)鍵字如source下的/organism、/organelle、/mol_type等鍵值。

分塊取值并填充到鍵值樹，將結(jié)果插入數(shù)據(jù)庫。按照生成的鍵值樹結(jié)構(gòu)建立數(shù)據(jù)庫，并根據(jù)字段和屬性自動(dòng)生成數(shù)據(jù)表，編寫程序?qū)⒏鲗蛹壍逆I值插入到數(shù)據(jù)表中。一至三級存放文件索引字段及相對應(yīng)的信息，第四級存放如核苷酸序列、蛋白質(zhì)序列的長文本。分離層次后在數(shù)據(jù)庫中建立相對應(yīng)的數(shù)據(jù)表。便于相關(guān)研究對不同序列的要求，對數(shù)據(jù)庫中的數(shù)據(jù)信息進(jìn)行了分類和導(dǎo)出。分別生成相應(yīng)的文本文件和基因示意圖，以文件樹的結(jié)構(gòu)存放在服務(wù)器中供研究人員下載調(diào)取。整體目錄結(jié)構(gòu)、文件信息、序列數(shù)據(jù)等將被自動(dòng)化腳本定期更新后上傳至服務(wù)器供訪問。將分析結(jié)果用算法實(shí)現(xiàn)并與下載用的爬蟲程序整合，將流程自動(dòng)化，使其能夠自動(dòng)訪問NCBI下載并更新細(xì)胞器基因組的數(shù)據(jù)，按照特征分析、分類，生成對應(yīng)的數(shù)據(jù)表及相應(yīng)的字段，寫入數(shù)據(jù)庫。為相關(guān)基于細(xì)胞器基因組的研究，例如構(gòu)建系統(tǒng)發(fā)育樹、基因共線性分析等提供了數(shù)據(jù)條件。

2 結(jié)果與分析

功能完備且便于使用的細(xì)胞器基因組數(shù)據(jù)庫的出現(xiàn)為相關(guān)生物學(xué)研究提供了極大的助力。至2019年初，本研究建立的數(shù)據(jù)庫共收錄相關(guān)細(xì)胞器基因組數(shù)據(jù)共12130組，其中線粒體基因組9185個(gè)，葉綠體基因組2374個(gè)，質(zhì)體571個(gè)。如圖2自1990年以來各細(xì)胞器基因組通過測序收錄的數(shù)量，線粒體基因組的測序數(shù)量自2000年后數(shù)量大幅增長，自2005年至今新增加的通過測序的線粒體基因組數(shù)量已翻了十倍。葉綠體基因組和質(zhì)體基因組自2005年起每年新增測序數(shù)量也有明顯增長。由于葉綠體僅出現(xiàn)在大部分高等植物細(xì)胞和藻類中、質(zhì)體僅出現(xiàn)在植物細(xì)胞中，能獲取到葉綠體或質(zhì)體樣本的物種有限，導(dǎo)致了葉綠體基因組和質(zhì)體基因組測序數(shù)量增長速度受到了限制。

基因測序技術(shù)的發(fā)展是使測序數(shù)量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出，這是由線粒體的本身生物特性導(dǎo)致的。線粒體在生物體中分布廣泛，可輕松獲取大量樣本。動(dòng)物線粒體DNA比核遺傳標(biāo)記發(fā)展更快，同時(shí)也是系統(tǒng)發(fā)育和進(jìn)化生物學(xué)的支柱。本研究結(jié)合了來自NCBI的細(xì)胞器基因組數(shù)據(jù)及相關(guān)計(jì)算機(jī)算法，設(shè)計(jì)構(gòu)建了一個(gè)更易于研究使用的專業(yè)細(xì)胞器基因組數(shù)據(jù)庫，分析了不同細(xì)胞器基因組測序研究的組成與發(fā)展趨勢，為相關(guān)生物學(xué)研究提供了數(shù)據(jù)依據(jù)，為更好地發(fā)展如構(gòu)建系統(tǒng)發(fā)育樹等研究項(xiàng)目打下了基礎(chǔ)。

圖1：基因文件四層級分級示意圖

圖2：不同年份細(xì)胞器基因組的總測序數(shù)量

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

利用爬蟲構(gòu)建生物細(xì)胞器基因組數(shù)據(jù)庫

1 材料與方法

1.1 數(shù)據(jù)庫與數(shù)據(jù)格式

1.2 信息抓取流程

2 結(jié)果與分析