本期『生物信息』專欄主持人 陳 偉
諾貝爾化學獎獲得者沃特·吉爾伯特不僅發(fā)明了DNA 的化學測序方法,他在自然雜志上的雄文“TowardaParadigmShiftinBiology”也吹響了計算機科學改變生物學研究的號角。此外,他還是著名的“RNA 世界”假說的提出者。從此之后,RNA 尤其是非編碼RNA 相關(guān)的實驗與生物信息學基礎(chǔ)研究,一直是生物醫(yī)學領(lǐng)域的前沿與熱點。目前mRNA 疫苗與RNA 干擾藥物的應(yīng)用研究也已成果累累,相關(guān)疫苗與藥物紛紛上市,正在對現(xiàn)有生物醫(yī)藥產(chǎn)業(yè)產(chǎn)生革命性的影響。
在這篇論文中,作者重點關(guān)注細菌的必需非編碼RNA。這些RNA 不僅是合成生物學中最小基因組等基礎(chǔ)研究的重要對象,也是抗菌藥物開發(fā)等應(yīng)用研究的新型靶標。對于如此重要的數(shù)據(jù),當然需要一個專門的數(shù)據(jù)庫來有效組織、存儲與管理,DBEncRNA 應(yīng)運而生。該數(shù)據(jù)庫目前有來自20 株細菌的884 條記錄,包括了ncRNA 序列、物種、類別、培養(yǎng)條件等一系列相關(guān)的基礎(chǔ)與實驗信息。該數(shù)據(jù)庫也集成了BLAST 數(shù)據(jù)庫搜索比對、RNA 二級結(jié)構(gòu)預(yù)測與可視化等一系列生物信息學工具。此外,所有數(shù)據(jù)可以免費一鍵下載。相信這樣的一個好的數(shù)據(jù)資源將極大助力相關(guān)研究人員開發(fā)出高效的細菌必需非編碼RNA 的計算機識別方法,進一步助力最小基因組與抗菌藥物開發(fā)等基礎(chǔ)與應(yīng)用研究。
多序列比對是識別未知基因功能、基因間保守區(qū)域的有效方法。隨著基因測序技術(shù)的快速發(fā)展,基因序列數(shù)據(jù)的快速增長,現(xiàn)有比對算法和軟件已不能有效解決大規(guī)模的多序列比對問題。該文對傳統(tǒng)的星比對算法做了比對精度上的改進,通過引入Profile 比對模式,并結(jié)合樹比對的指導樹比對方法,為星比對構(gòu)造出了一個特殊的“鏈”式結(jié)構(gòu),在一定程度上改善了星比對的比對精度。在此基礎(chǔ)上,通過簡化中心序列的選取,即將最長的序列作為比對的中心序列,降低了比對的時間。
該研究為星比對算法的改進提供了一種新思路,但仍有改進空間。雖然采用的鏈式比對指導樹結(jié)構(gòu)減少了比對時間,但在一定程度上降低了比對精度。未來可以對鏈式結(jié)構(gòu)進行進一步改進,以提高比對精度,同時進一步改進profile 比對的高時間復(fù)雜度問題。