張衛(wèi)婷
(咸陽職業(yè)技術(shù)學(xué)院 陜西省咸陽市 712000)
蛋白質(zhì)的折疊識(shí)別,可以理解為在蛋白質(zhì)眾多序列中準(zhǔn)確識(shí)別其三維立體結(jié)構(gòu)特殊類型,該應(yīng)用是作為生物信息學(xué)重點(diǎn)研究方向存在。在蛋白質(zhì)的一級(jí)序列中,常使用字母對(duì)標(biāo)準(zhǔn)氨基酸進(jìn)行表示,而其序列信息在借助文本文件儲(chǔ)存在相關(guān)數(shù)據(jù)庫中。世界范圍內(nèi)最大蛋白質(zhì)序列數(shù)據(jù)庫當(dāng)屬美國(guó)國(guó)立生物技術(shù)信息中心(NationalCenter for Biotechnology Information)的NR (Non-Redundant Protein Sequence Database)數(shù)據(jù)庫。NR 數(shù)據(jù)庫與常見的MySQL數(shù)據(jù)庫有所不同,其應(yīng)用fasta 格式的文本文件,格式雖然簡(jiǎn)單,但是內(nèi)容卻異常豐富,使用該格式完成蛋白質(zhì)序列儲(chǔ)存工作,這讓許多文本分析數(shù)學(xué)算法無須額外處理,直接應(yīng)用在分析蛋白質(zhì)序列工作中即可[1]。
目前蛋白質(zhì)從折疊識(shí)別會(huì)覆蓋蛋白質(zhì)所有序列,直到構(gòu)建三維空間停止,而應(yīng)用方法主要是穿線法(Threading),即將目標(biāo)序列作為“針”,在由蛋白質(zhì)構(gòu)建三維空間中進(jìn)行穿梭,以科學(xué)方法對(duì)序列和結(jié)構(gòu)是否具備高匹配度嚴(yán)格分析。匹配程度而打分分?jǐn)?shù)具有正相關(guān)聯(lián)系。而對(duì)于蛋白質(zhì)的折疊情況進(jìn)行識(shí)別,其理論應(yīng)用基礎(chǔ)為蛋白質(zhì)即便序列并不是太過相似條件下,其空間結(jié)構(gòu)也存在相似影響潛力,可以理解為蛋白質(zhì)是擁有弱同源性[2]。在生物發(fā)展歷程中,蛋白質(zhì)為保證在自我復(fù)制時(shí)仍可以擁有完整功能,就需要保證結(jié)構(gòu)擁有保持穩(wěn)定性質(zhì),而序列則會(huì)被各類突變因素影響,呈現(xiàn)變化狀態(tài)??梢詫⒃撎匦悦枋龀傻鞍踪|(zhì)結(jié)構(gòu)比擁有相對(duì)保守序列。在這種條件影響下,可以從自然界發(fā)現(xiàn)序列并不相似,而結(jié)構(gòu)卻有相同特征蛋白質(zhì)結(jié)構(gòu)。而文本分析對(duì)于蛋白質(zhì)折疊的識(shí)別具有重要意義。目前科研界推崇一種以文本分析為主,將機(jī)器學(xué)習(xí)作為輔助工具使用的新型方法。應(yīng)用該方法時(shí),借助文本分析提供信息檢索這項(xiàng)服務(wù)完成相關(guān)工作。在將某蛋白質(zhì)一級(jí)結(jié)構(gòu)查詢清楚,對(duì)于折疊蛋白質(zhì)識(shí)別目標(biāo),就是將應(yīng)用囊括可能性固定模板,以序列,以及結(jié)構(gòu)相關(guān)性科學(xué)排序,可以將其看作由百度搜索引擎,根據(jù)用戶向網(wǎng)站輸入查詢內(nèi)容,會(huì)在網(wǎng)頁中顯示關(guān)聯(lián)度排名。而使用該分析算法,蛋白質(zhì)擁有相似度越高。理論上會(huì)擁有更有優(yōu)勢(shì)排名次序。所以,文本分析就是站在總體角度運(yùn)行一種策略,可以理解為通過搜索引擎相關(guān)算法方式,實(shí)現(xiàn)蛋白質(zhì)折疊類型高效檢索。而向機(jī)器學(xué)習(xí)輸入蛋白質(zhì)特征向量,即設(shè)計(jì)參數(shù),該研究可以用于表示蛋白質(zhì)序列,以及分析結(jié)構(gòu)相似性所有蛋白質(zhì)指標(biāo)。
作為表述蛋白質(zhì)擁有的三維空間重要工具,文本在蛋白質(zhì)研究中具有重要地位。雖然其結(jié)構(gòu)可借助三維圖形顯示,而真實(shí)對(duì)蛋白質(zhì)結(jié)構(gòu)完成存儲(chǔ)工作卻為文本文件,并應(yīng)用PDB 格式存儲(chǔ)到相關(guān)電腦或數(shù)據(jù)庫中。而PDB 數(shù)據(jù)庫對(duì)于生物大分子結(jié)構(gòu)擁有超過16萬數(shù)據(jù)存儲(chǔ)量,過半數(shù)為蛋白質(zhì)結(jié)構(gòu)相關(guān)文件。正因?yàn)橥ㄟ^文本完成蛋白質(zhì)結(jié)構(gòu)文件存儲(chǔ),也讓文本分析在蛋白質(zhì)結(jié)構(gòu)具體分析中發(fā)揮重大作用奠定良好條件,包括但不限于將信息從數(shù)據(jù)庫中提取、充分對(duì)數(shù)據(jù)展開分析,以及對(duì)蛋白質(zhì)結(jié)構(gòu)選擇性優(yōu)化等[3]。
根據(jù)外表形態(tài)和應(yīng)用功能,可以將生物體內(nèi)所有蛋白質(zhì)劃分為三類,分別是纖維狀蛋白、球狀蛋白、膜蛋白。在蛋白質(zhì)中,膜蛋白相對(duì)特殊,真實(shí)二級(jí)結(jié)構(gòu)并不具備較高預(yù)測(cè)準(zhǔn)確率。其原因可能是膜蛋白在結(jié)構(gòu)為生物膜之中,導(dǎo)致膜蛋白在跨膜區(qū)和非跨膜區(qū)無論是實(shí)際區(qū)別,還是具體功能,都存在較大差異。所以,膜蛋白和球蛋白擁有完全不同生化特性。精準(zhǔn)獲得膜蛋白在跨膜區(qū)和非跨膜區(qū)數(shù)據(jù)信息,可以為判斷膜蛋白真實(shí)生物學(xué)功能提供有效幫助。所以,面向膜蛋白二級(jí)結(jié)構(gòu),展開預(yù)測(cè)算法開發(fā),同樣為生物研究重要發(fā)展方向。
Docker不僅具備信息開放性,在應(yīng)用也可以有效保證安全可靠,所以在生物信息學(xué)實(shí)際應(yīng)用具有重要價(jià)值。
2.1.1 跨平臺(tái)支持
跨平臺(tái)支持。在生物信息學(xué)研究水平不但深入,各類信息數(shù)據(jù)呈指數(shù)形式快速增長(zhǎng),超過270 項(xiàng)的開源軟件都為生物信息學(xué)提供技術(shù)應(yīng)用??墒牵罅繉?shí)用性工具卻使用各種編程語言編寫,例如C++、Python 等,不同語言需要各自運(yùn)行環(huán)境,以及相應(yīng)配置,才能完成高效使用目的。Docker 提供引用跨平臺(tái)能力,并不需要特殊配置,即可在不同服務(wù)環(huán)境下提供最優(yōu)質(zhì)的功能與,保證成果可以在多種條件下依舊復(fù)現(xiàn),也可以多次使用工具而不發(fā)生影響結(jié)果的特殊情況[4]。
2.1.2 整合服務(wù)器
針對(duì)基因組完成測(cè)序數(shù)據(jù)相關(guān)分析,其研究對(duì)象不僅需要落實(shí)大規(guī)模資源計(jì)算,例如序列比對(duì)、基因組注釋,不要求過多計(jì)算,但是仍需要保持高度警惕處理的數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)也在研究范圍內(nèi)。這種不確定具體資源效果,對(duì)于許多獨(dú)立科研單位難以使用當(dāng)前已獲得測(cè)序數(shù)據(jù),進(jìn)一步提升對(duì)基因分析難度。但是Docker 卻可以將大量計(jì)算資源全部整合,并以彈性方式完成擴(kuò)充,從而借助最小成本,實(shí)現(xiàn)最大化硬件利用。
2.1.3 高效開發(fā)
在對(duì)生物信息學(xué)產(chǎn)生數(shù)據(jù)信息分析時(shí),無論是輸入還輸出都要面對(duì)海量數(shù)據(jù)處理規(guī)模,這導(dǎo)致大部分測(cè)序數(shù)據(jù)常會(huì)擁有GB 級(jí)別規(guī)模,對(duì)于省級(jí)或者國(guó)家級(jí)科研項(xiàng)目則會(huì)出現(xiàn)TB 級(jí)別,即便是最長(zhǎng)應(yīng)用參考序列,其規(guī)模也在保持在GB 級(jí)別,這導(dǎo)致在實(shí)際應(yīng)用中會(huì)產(chǎn)生反復(fù)調(diào)試,并對(duì)問題反復(fù)修正,雖然是眾多應(yīng)用軟件開發(fā)必須要經(jīng)歷內(nèi)容,可是海量數(shù)據(jù)會(huì)在本地?cái)?shù)據(jù)庫以及遠(yuǎn)端服務(wù)器內(nèi)產(chǎn)生多次重復(fù)性傳遞,消耗大量分析時(shí)間,在實(shí)際應(yīng)用中也會(huì)出現(xiàn)數(shù)據(jù)復(fù)制時(shí)產(chǎn)生錯(cuò)誤。但是Docker 卻在本地服務(wù)器上衍生數(shù)十個(gè)可以容納數(shù)據(jù)信息容器,并將所有容器中全部部署Docker 的同一鏡像,從而高效完成線上模擬實(shí)踐作業(yè)。而且,開源式社區(qū)也提供大量系統(tǒng)調(diào)試工具,也讓鏡像擁有改進(jìn)能力,減少資源反復(fù)查找所需[5]。
2.1.4 高效利用資源
在生物信息學(xué)研究中,高通量測(cè)序技術(shù)會(huì)產(chǎn)生大量遠(yuǎn)超過摩爾定律上限數(shù)據(jù)量,第二代技術(shù)已經(jīng)在數(shù)據(jù)產(chǎn)生方面已經(jīng)超過第一代100 ~ 1000 倍,但是很對(duì)測(cè)序數(shù)據(jù)的分析能力卻在多年中沒有得到更多提升。但是Docker 卻可以讓啟動(dòng)以秒級(jí)單位計(jì)算,擁有較強(qiáng)運(yùn)行能力,從而將研究重心集中于數(shù)據(jù)分析,其他產(chǎn)生時(shí)間消耗工序則被大量省略,有效降低系統(tǒng)負(fù)載,進(jìn)而提高整體應(yīng)用效率。
通過Docker,將大量應(yīng)用型工具和相關(guān)數(shù)據(jù)信息全部封裝于不發(fā)生信息復(fù)制錯(cuò)誤的單一鏡像內(nèi),提供分析人員便利應(yīng)用化條件,這讓Docker 在生物信息學(xué)應(yīng)用越加廣泛,部分研究人員已經(jīng)將該技術(shù)當(dāng)開發(fā)首選方案。由BLASR、BWA 等構(gòu)成NanoOK,其功能主要為多序列比對(duì),并實(shí)現(xiàn)序列匹配,具體用途則是通過宏基因組充分比對(duì),并以此為分析依據(jù),展開應(yīng)用更為廣泛的多樣本分析,重點(diǎn)關(guān)注多序列基因比對(duì);而SBMLDock 則將研究對(duì)象放在數(shù)據(jù)模型上,通過模型不同構(gòu)成比對(duì),對(duì)于模型組成部分完成檢測(cè),并將可能存在理解偏差進(jìn)行注釋,最后相關(guān)數(shù)據(jù)信息提取等一系列作業(yè),將生物學(xué)模型以系統(tǒng)化方式完成分析;而floweatchR 借助EBImage,將細(xì)胞以顯微形式獲取圖像信息,并對(duì)其進(jìn)行分析,從而對(duì)確定細(xì)胞在檢測(cè)時(shí)真實(shí)位置,與檢測(cè)對(duì)細(xì)胞外界刺激產(chǎn)生運(yùn)動(dòng)狀態(tài)全部分析,最后獲得相應(yīng)細(xì)胞軌跡,對(duì)于細(xì)胞在常態(tài)、外界刺激等研究具有重要參考價(jià)值。通過大量鏡像信息,借助標(biāo)準(zhǔn)化輸入輸出流程,完成參數(shù)控制,并讓多種分析應(yīng)用工具擁有同樣接口,對(duì)于以往軟件配置難度有效件降低,并提升應(yīng)用分析效率,打破過去資源共享各種阻礙。較為典型當(dāng)屬SBMLDock 會(huì)提供以SBML格式對(duì)數(shù)數(shù)據(jù)書寫鏡像。而CWL 標(biāo)準(zhǔn)已經(jīng)得到全球基因組學(xué)認(rèn)可,健康聯(lián)盟也對(duì)其表示支持,現(xiàn)在廣泛應(yīng)用于癌癥基因組研究項(xiàng)目當(dāng)中,實(shí)用性較強(qiáng)[6]。
Docker 可以將多種技術(shù)軟件,將通過串聯(lián)方式組成分析流程,將其全部封裝于鏡像中,并讓技術(shù)人員在應(yīng)用時(shí)可以保持相同執(zhí)行標(biāo)準(zhǔn)。而且,針對(duì)具體分析流程而制作Docker 鏡像,在生物信息學(xué)研究中,也可以作為一種應(yīng)用成果使用。例如將Illumina HiSeq數(shù)據(jù)平臺(tái)提供測(cè)序數(shù)據(jù)作為研究對(duì)象,則可以提供專門負(fù)責(zé)數(shù)據(jù)傳輸,可以做到數(shù)據(jù)質(zhì)量控制實(shí)踐應(yīng)用Docker 鏡像,并在鏡像中封裝多種工具,例如FastQC。而以Docker 為工具,將病毒全部基因組檢測(cè)順序,并將病毒變異完整全流程高效分析,包括對(duì)病毒串聯(lián)基因組,并完成質(zhì)量控制,將序列和生物基因進(jìn)行比對(duì),對(duì)病毒變異情況全面檢測(cè),并將分析病毒組全部時(shí)間步驟注釋。也可以針對(duì)原核生物基因組展開分析,評(píng)估基因組,并將其與其他原核生物在對(duì)比后,選擇最具有參考價(jià)值基因組,用于以后實(shí)驗(yàn)選擇。借助Docker 也可以提升生物醫(yī)學(xué)在分析作業(yè)效率。借助Tophat2 工具集可以將RNA 序列完整分析,并將該流程以數(shù)據(jù)形式保存在合適存儲(chǔ)設(shè)備中,而SAKE 則負(fù)責(zé)對(duì)基因組變異全面檢測(cè),提升分析效率,BLAST 則將檢測(cè)對(duì)象調(diào)整到非編碼RNA 區(qū)域。通過應(yīng)用Docker 工具集,可以對(duì)生物信息學(xué)大量需要消耗計(jì)算時(shí)間,數(shù)據(jù)信息繁瑣量任務(wù)簡(jiǎn)化,在復(fù)用性方面得到研究學(xué)界一致認(rèn)可[7]。而借助Galaxy 數(shù)據(jù)分析平臺(tái),以SADI 前端標(biāo)準(zhǔn),并從可視化視角對(duì)Docker 分析,可以從其鏡像完成UniProt 數(shù)據(jù)庫高效訪問,并對(duì)信息精準(zhǔn)查詢,面對(duì)數(shù)據(jù)可以做到有效統(tǒng)計(jì),對(duì)問題快速追蹤。保證可以在短時(shí)間內(nèi)處理應(yīng)用過程,提升分析質(zhì)量,應(yīng)用較為便捷。
無論是文本分析還是Docker,都在生物信息學(xué)表現(xiàn)良好,其應(yīng)用價(jià)值也被國(guó)內(nèi)各類研究高校的科研人員廣泛認(rèn)可,未來仍有進(jìn)一步發(fā)展良好趨勢(shì)。而我國(guó)目前針對(duì)生物信息學(xué)應(yīng)用仍處于初級(jí)階段,真正應(yīng)用內(nèi)容仍有待挖掘,希望未來包括生物在內(nèi)多種科研領(lǐng)域,可以將人工智能技術(shù)充分發(fā)揮,推動(dòng)我國(guó)科研水平穩(wěn)定提升。