左光宏 郝柏林
分類是人類認識自然、探索事物本質及其規(guī)律的基本出發(fā)點之一。對生命形式最早的分類系統能上朔到古希臘哲學家亞里士多德(Aristotle)。對于物種間親緣關系與分類系統的研究,不僅加深人們對于自然界的認識,還能為一些與人類生命健康有關的應用科學,如醫(yī)學微生物學與環(huán)境元基因組學等帶來重要的信息,從而改善人類的生產、生活。傳統的物種分類與親緣關系的研究,無論是林奈(Carolus Linnaeus)的分類系統,還是達爾文(Charles Robert Darwin)在《物種起源》中初次設想的來自共同祖先的親緣關系,都是根據生物的形態(tài)特征。這在動、植物等宏觀生物的分類中取得了比較合理的結果。然而占地球上生命物質一半以上的原核生物[1],卻很難使用這些傳統的方法來實現分類。這是因為當尺度下降到微米級,不但生物形態(tài)難以刻畫,并且相同的形態(tài)可能來自完全不同的物種。1985年Carl Woese和同事們分析當時僅有的約400條16S rRNA序列,提出了基于系統發(fā)生的主要細菌門類描述[2]。時至今日,基于16S rRNA序列分析的構樹方法現在已經被大多數生物學家接受。盡管16S rRNA序列分析取得了很大成功,但是它在種以下的層次缺乏分辨能力[3,4]。而環(huán)境元基因組學、醫(yī)藥微生物學等應用,區(qū)分亞種(Subspecies)、生態(tài)型(Ecotypes)、血清型(Serotypes)、生物變種(Biovars)等菌株種以下的分類需求卻與日俱增。
全基因組包含了生物全部的遺傳信息,其內涵遠遠豐富于16S rRNA序列,所以分析全基因組數據能夠更加準確與細致地研究物種的演化與分類。要提高分辨能力,就需要更好地利用全基因組的信息[5]。而且,隨著測序技術的發(fā)展,可供研究的全基因組數據越來越多。根據美國國立生物技術信息中心(NCBI)數據顯示,截至2015年10月,已完成測序的基因組項目有7 435個,而正在進行的測序計劃則多達32 976個,而且這些數字還在快速增加。另外,針對某些特定問題,還有更為龐大的測序計劃。例如,2012年8月,美國食品與藥物管理局、加州大學戴維斯分校以及安捷倫科技公司發(fā)起了旨在對10萬種食源性致病菌全基因組的測序計劃。針對物種演化研究與分類學的全基因組測序計劃,2007年5月,美國能源部聯合基因組中心JGI推出“細菌和古細菌基因組百科全書(GEBA)”計劃[6];2009年8月,我國深圳華大基因研究院倡導了“萬種微生物基因計劃”。這些海量的全基因組數據,為基于基因組的系統發(fā)生學與分類學的研究提供了豐富的素材。
素材的積累為研究奠定了基礎,同時也對研究方法提出了更高的要求。迄今對生物演化與分類的研究,主要基于對單個或少數“同源基因”的序列聯配(Sequence alignment)。隨著基因組數目增加,這些方法變得不太適用。首先是基因組多樣性。就已測序的原核生物基因組而言,即使除去一些高度退化的細菌內共生菌,小的基因組不到50萬核苷酸和500個基因[7],而較大的細菌基因組則超過1300萬核苷酸和9 380個基因[8]。這使得挑選“同源基因”變得困難。物種數的增多又使得序列聯配遇到計算瓶頸;而且,挑選“同源基因”的做法也不能最大限度地利用基因組信息。因此急需發(fā)展不僅不依靠序列聯配,同時還能最大限度地利用全基因組信息的研究方法。
我們研究組于2003年提出了基于全基因組的親緣關系與分類研究方法——組分矢量構樹法(Composition vector tree,簡稱 CVTree)[9]。它不需要挑選同源基因,不進行序列比對,從根本上避開了人為干預對結果可能造成的影響。除某些極端情況外,分類結果幾乎不受基因組大小的影響,從而非常適合用來構造跨門、跨界,甚至跨超界的生命之樹的構建。目前CVTree方法已經成功應用到許多物種的分類研究之中,包括病毒[10]、原核生物[11-15]、真菌[16]、葉綠體序列[17]及人類的腸道元基因組[18]。研究表明,CVTree具有比傳統方法更高的分辨力,這使得CVTree方法有望解決過去難以區(qū)分的屬內、種內的親緣關系問題。為了方便用戶使用CVTree方法,我們同時開發(fā)了網絡服務器[19,20]。為了適應當前基因組數據的海量增加,又開發(fā)新版的CVTree網絡服務器——CVTree3[21]。除了性能的提高之外,CVTree3服務器還將由CVTree方法生成的親緣關系樹與物種的分類系統自動進行比較,并在網頁上以可交互作用的形式顯示,為進一步研究原核生物的親緣關系與分類系統提供方便。本文將簡要介紹CVTree核心算法與CVTree3的使用流程,并利用三個典型實例來介紹CVTree3的可能應用。
組分矢量構樹法(CVTree)是一種基于全基因組研究物種親緣關系的方法。它首先統計基因組中特定長度短串組,為每個物種構造一個高維代表矢量;然后用矢量之間的夾角余弦計算物種間的遺傳距離 ;最后使用鄰接法(Neighbor-joining)[22,23]進行構樹。它不需要挑選同源基因,不進行序列聯配,從根本上避開了人為干預對結果可能造成的影響。實踐表明,基于蛋白質序列的組分矢量方法與傳統的分類系統能更好的吻合,下面就以蛋白質序列為例來簡要說明CVTree算法。
假設我們需要對一個給定物種,構造基于長度的組分矢量。首先對該基因組的各個基因以長度為窗口,每次滑動一個殘基的方式從前向后移動,并求出各種串的出現頻度即次數,記為f(a1a2…aK)。則該串的出現概率是:
式中,NK為K串的總數目。將其用條件概率表達,
則可得:
此時做一個Markov假定,假設中K串的出現概率p(a1a2…aK)不依賴于第一個字母a1,則:
而對于條件概率p(aK|a2a3…aK-1),我們可以通過統計更短的串獲得,即:
由此,我們可以根據K-1串和K-2串來推測出K串概率:
式中,p0表示這個K串概率是由K-1串和K-2串的出現概率給出的估計。把直接統計的K串頻度f與估計值f0之間的偏差作為考察值:
將每類K串對應的考察值v(a1a2…aK)作為分量構成一個組分矢量。顯然當估計值f0=0時,真值f也為0,此時該維度上的分量設為0。所有這些分量按照統一的固定順序排列,就得到該物種的組分矢量 V=(v1,v2,…,vm),其中 M=20K。
對于N個物種得到N個這樣的組分矢量Vt,其中是物種的編號,介于1與N之間。它們的遺傳距離矩陣D是一個對角元素為0的N×N對稱矩陣。每個元素對應物種間的遺傳距離,由組分矢量的夾角的余弦值給出,其數學表達如下:
最后,基于該遺傳距離矩陣D,使用鄰接法就可以構建親緣關系樹。
1.2.1 基本功能 雖然CVTree的算法本身并不復雜,但是要從頭實現卻也并不容易,所以我們開發(fā)了CVTree方法的網絡服務器,用戶可以通過互聯網方便的使用該算法。為了適應當前基因組數據的海量增加,我們開發(fā)了最新的CVTree網絡服務器CVTree3,用戶可以通過 http://tlife.fudan.edu.cn/cvtree3 訪問。相對于之前的兩個版本的CVTree網絡服務器,CVTree3的性能顯著提升。就硬件而言,它專享兩臺具有四路32核、512 G內存的高性能計算集群。同時,為了充分利用計算集群的性能,我們重新設計和編寫了核心程序,實現并行化,還從整體上優(yōu)化了運算過程,從而使效率最大化。此外,為了方便用戶在本地使用CVTree方法進行研究,我們還將CVTree3的核心程序單獨抽離出來,做成開源的軟件包。用戶可以從https://www.github.com/ghzuo/cvtree 下載和編譯本地版本的CVTree程序。
進入上述地址即可打開CVTree3首頁。我們提供了一個Example項目,用戶可以在首頁點擊“Example”按鍵,查看和瀏覽這個項目,或者選擇“Load/Create Project”新建一個自己項目。點擊之后即可得到如圖 1所示的項目設置頁面。對于每個新建的項目,系統自動分配一個由數字與下劃線組成的項目號并且顯示在頁面頂部(圖 1),若從“Example”按鍵進入,則項目顯示為 “example”。在此頁面,用戶可以選擇CVTree方法的基本參數,如:使用DNA序列還是蛋白質序列、短串的長度K(可多選)等。在CVTree3服務器中,我們內置了大量已知分類信息的全基因組,目前包含338種古菌,2 850種細菌,以及8個真核生物作為外類群備選。用戶在此頁面中部可按類別選擇它們,若想逐條選擇則點擊“See Detail”進入逐條選擇頁面。此外,用戶還可以上傳自己的基因組到CVTree3服務7 d后系統會自動刪除。器,它們顯示在頁面的下部。所有參數與基因組都設置好之后,點擊右邊的綠色按鈕“All parameters are fine,Run Project”,即可以提交程序到服務器上運行了。
用戶不能修改Example項目,若是由“Example”項目進入該頁面,點擊該按鍵則不會有反應。若只使用內建的基因組數據,系統會很快給出結果;若上傳了自己的數據,則需要 等待。等待時間視上傳基因組與選擇的內建基因組數目以及相關參數而定。項目在服務器上運行時,用戶可以關閉瀏覽器,這不會影響項目的運行。需要查看項目運行情況與計算結果時,只要使用項目編號從首頁導入該項目即可。用戶也可以選擇在基本參數選項中填入Email,則當項目計算完畢后系統會通知用戶。需要注意的是,每個項目在完成后,只在服務器上保持7d,
圖1 CVTree3網絡服務器的設置界面頂
1.2.2 親緣關系與分類的自動比對系統 除了性能的提升,將生成的親緣關系樹與分類系統進行自動比較是CVTree3的又一個亮點。服務器在運行的過程中,除了使用CVTee算法進行親緣關系的分析以外,還會同時得到的親緣關系與分類系統進行比較。我們綜合參考了NCBI分類數據庫與Bergey’s Manual等數據,對內建的菌株給出了譜系信息。用戶上傳的數據,缺省的信息被設置為未知(Unclassified)。用戶可以結合已知的譜系信息來推測未知的分類信息,這也是CVTree3網絡服務器的一項重要功能。另外,用戶可以在上傳基因組的方框中上傳分類信息文件,上傳該信息文件的格式與方法請見用戶手冊。
所有的計算都進行完畢后,圖 1右上角會顯示藍色按鈕“See Result”,可以查看計算結果。首先看到的是一個按照菌株的分類階梯顯示的親緣關系與分類系統的對比結果(圖 2)。在對比親緣關系與分類系統的過程中,我們依靠的關鍵概念是“單源枝(Monophyly)”。所謂單源枝是指,若某個分類單元剛好對應著親緣關系樹上的一個枝, 即分類單元內包含的菌株對應于該分枝下的所有枝葉所代表的菌株。所以,當某個枝為單源時,則說明親緣關系與分類系統對于當前的數據集合是一致的。除了按分類系統顯示單源性,我們還按分類級別統計了單源枝的數目,分別列在圖 2的兩個未顯示的Tab頁面“Monophyly”與“None”中。圖 2的第4個Tab則列出了一些分類關系不確定即Unclassified菌株,這些菌株在統計過程中并沒有被計入。
圖2 按分類階梯顯示的單源枝截圖
1.2.3 交互式親緣關系樹顯示系統 交互式的親緣關系樹顯示是CVTree3的第3個亮點。點擊圖 2右上角的按鈕“See Tree”即可以看到這棵親緣關系樹。圖 3是一幅CVTree3親緣樹的截圖,用戶可以從CVTree3的Example中獲得這棵親緣樹,在Web頁面上它是一棵動態(tài)的樹,每個節(jié)點都可以打開或收縮,從而調整樹的顯示方式。此外,與普通的親緣關系樹不同,該親緣關系樹在計算過程中,已自動與分類系統進行了比較與標記,所以用戶可以方便的從親緣樹查看每個枝的分類屬性。如圖 3所示,我們將樹展開到門的級別,其中的顏色表明,由CVTree方法得到親緣樹在 門的級別上絕大部分與傳統的分類系統保持一致。除此之外,我們還提供了很多方便的操作方式,例如,在親緣樹上搜索自己感興趣的物種與分類單元,系統會根據用戶要求自動調整樹的顯示方式,以突出用戶感興趣的內容;結合其它生物學知識,用戶可以對菌株的譜系屬性試行調整,系統會根據新提交的譜系信息重新對比與標記親緣關系樹。CVTree3服務器還可以輸出高質量的圖以供展示和發(fā)表。有關交互操作的詳細描述與操作方法可參閱在線手冊。
物種親緣關系與分類具有天然的聯系,因此CVTree的一個重要應用:可以方便地使用親緣關系對物種進行初步鑒定。在CVTree3服務器中,我們內置了大量已知分類信息的全基因組。用戶只需要上傳未知原核生物的全基因組數據,將它們和我們內置的全基因組數據混合生成親緣樹,就可以通過內置全基因組的譜系信息來推測上傳的未知菌株的分類地位。
圖3 由CVTree方法得到的親緣樹并根 據分類信息展開到門一級
圖4 上傳基因組與內部基因組的親緣關系
圖 4所示也是CVTree3中Example的親緣樹。該樹所使用的數據集與圖 3相同,通過CVTree3的交互作用,我們讓它更有效的顯示“未知”物種的基因組的分類地位。我們從互聯網下載了兩個并沒有包含在內建數據庫之中的全基因組作為“未知”物種來進行測試。圖 4中棕色顯示的Kutzneria_albida_DSM_43870.UPLOAD{1}就是其中之一。該“未知”菌株,與Pseudonocardiaceae科的其它幾個屬的菌株同處于一個枝內,同時又與它們保持屬一級的獨立性,即與其它幾個屬相互并列。所以我們可以判定,上傳的這個“未知”菌株應該是Pseudonocardiaceae科下的一個在CVTree3內建數據庫中沒有反映的“新”屬。顯然,這與我們從其它渠道了解到的信息,包括它的 命名,是一致的。
基于未知菌株的全基因組序列,使用CVTree3可以對菌株進行親緣與分類鑒別研究。雖然使用16S rRNA序列的聯配也可以進行類似的研究,但是由于信息量的限制,使用16S rRNA方很難進行種以下的分類單元的研究,這正是CVTree方法的優(yōu)勢所在。由于CVTree方法合理的利用了全基因組信息,它的分辨率顯著高于16S rRNA,從而可以進行種以下親緣關系的研究。下面我們以冰島硫化葉菌(Sulfolobus islandicus)來說明這種應用。
圖5 十個冰島硫化葉菌(Sulfolobus islandicus)菌株與其采集地
硫化葉菌是一類極端嗜熱嗜酸古菌,多存在于地熱泉、火山熱泉與泥漿噴口處。冰島硫化葉菌因最早發(fā)現于冰島而得名。由于環(huán)境限制,在演化上相對隔絕,所以不同采集地的菌株基因組,具有一些不同的特征。在CVTree3的內建數據庫中,共收集了10個屬于該物種的菌株,它們來自4個不同的采集地。如圖 5所示,在由CVTree方法建立的親緣關系也顯著地表現出其采集地的地理位置。首先,來自美洲的4個菌株與來自歐洲的6個菌株分成兩個大枝,然后再根據其采集地的不同,進一步分成為4個較小的分枝。也就是說,從CVTree得到的親緣關系,有效地反應了地理隔絕帶來的演化效果[24]。除了這種由地理位置帶來的種以下的分化外,種以下的分類單元,如亞種、生態(tài)型、血清型、生物變種等,在CVTree構建的親緣關系樹中得以體現的例子,在我們的研究過程中還遇到很多。但是需要說明的是,這些因素之間又會交互影響。例如,相同亞種的不同血清型與相同血清型的不同亞種,對于化膿性鏈球菌在CVTree上有較好的關聯,而對于肺炎鏈球菌就不那么清晰,還需要結合專業(yè)知識有針對性地進行研究。
在以上兩個例子中,我們使用CVTree方法作為獨立的檢測工具,重現了與其它研究一致的結果。實際上基于CVTree方法,我們還能對現有的分類系統提供某些新的具有建設性的意見。例如,大腸桿菌(Escherichia coli)與志賀氏痢疾桿菌(Shigella),這兩類腸道菌在形態(tài)上非常相似,都是革蘭氏陰性桿菌,但是由于志賀氏痢疾桿菌在病理學上的特異性,它們被單獨分類為一個屬。另一方面,在基于部分基因的分類研究中,各種志賀氏痢疾桿菌常常與埃希氏細菌屬下的大腸桿菌混雜在一起[25,26],很多人就據此認為志賀氏痢疾桿菌與大腸桿菌應該是同一個種下的不同菌株。
我們用CVTree研究了埃希氏菌屬與志賀氏痢疾桿菌屬。如圖 6所示,所有的志賀氏痢疾桿菌屬的菌株都插入了埃希氏桿菌的屬中,它們與大腸桿菌最靠近,但是也同所有的大腸桿菌分開。所有的志賀氏痢疾桿菌也單獨分開。它們之間的分界也是明確的。這就表明志賀氏痢疾桿菌與大腸桿菌并非同種,它們屬于埃希氏菌屬,是大腸桿菌的姊妹種[27]。這是與目前流行觀念不一致的看法,但它既區(qū)分了志賀氏痢疾桿菌與大腸桿菌,又反映了前者在病理上的特殊性。這說明CVTree的高分辨力對于醫(yī)學實踐中致病菌的檢測會有所幫助。
當前測序技術的革新帶來了海量的基因組數據,為基于全因組數據的數據分析提供了豐富素材,同時也對發(fā)展合適的計算工具帶來挑戰(zhàn)。各種計算瓶頸與人為選擇所導致的差異促使我們去研究無參數和不依靠序列聯配的方法。基于全基因組的CVTree方法的提出與改進,就是在這一前提下的努力結果。它合理地利用了全基因組的信息,高效地實現了基于全基因組的親緣關系和分類系統研究。它一方面能與傳統的分類系統保持較好的一致性,另一方面它還提供了研究種以菌株的分辨能力,并且為解決一些具有特殊分類需求的問題提供幫助。我們新開發(fā)的CVTree3網絡服務器,運行在并行的高性能硬件上,是一款高效與方便的基于全基因組的親緣關系與分類系統的研究工具。它的使用界面非常友好,實現了親緣關系與分類系統的自動比較,允許用戶在瀏覽器上進行交互式操作。隨著測序技術的提高,菌株測序的成本不久將低于鑒定它的“濕”實驗的預算,生物工作者今后不必進行太多的鑒定實驗,只要拿到菌株的全基因組,將它提交到CVTree3網絡服務器上,就可以對它的分類特性進行初步判定。我們更希望,CVTree方法將來能夠成為闡明原核生物親緣關系與分類系統的定義性的工具。
圖6 志賀氏痢疾桿菌屬(Shigella)與埃希氏菌屬(Escherichia)的親緣關系樹
致謝:感謝戚繼、徐昭博士對CVTree網絡服務器2004和2009版本的貢獻以及參與CVTree3的討論。感謝復旦大學物理系和應用表面物理國家重點實驗室資助購進用于CVTree3的并行集群系統,使得整個研究項目得以持續(xù)進行。
[1]Whitman WB, Coleman DC, Wiebe WJ . Prokaryotes:the unseen majority[J]. Proc Natl Acad SciUSA, 1998, 95:6578-6583.
[2]Woese CR, Stackebrandt E, Macke TJ, Fox GE. A phylogenetic definition of the major eubacterial taxa[J]. Syst Appl Microbiol,1985, 6:143-151.
[3]Staley JT. The bacterial species dilemma and the genomicphylogenetic species concept[J]. Philos Trans R Soc Lond B Biol Sci, 2006, 361:1899-1909.
[4]Yarza P, Richter M, Peplies J, et al. The all-species living tree project:a 16S rRNA-based phylogenetic tree of all sequenced type strains[J]Syst Appl Microbiol, 2008, 31(4), 241-250.
[5]Whitman WB. Intent of the nomenclatural code and recommendations about naming new species based on genomic sequences[J]. Bull Bergey’s Int Soc Microb Syst, 2011, 2:135-139.
[6]Wu D, Hugenholtz P, Mavromatis K, et al. A Phylogeny-driven genomic encyclopaedia of Bacteria and Archaea[J]. Nature, 2009,462:1056-1060.
[7]Goffeau A. Life with 482-Genes[J]. Science, 1995, 270:445-446.
[8]Schneiker S, Perlova O, Kaiser O, et al. Complete genome sequence of the myxobacterium Sorangium cellulosum[J]. Nat Biotechnol,2007, 25:1281-1289.
[9]Qi J, Wang B, Hao B. Whole proteome prokaryote phylogeny without sequence alignment:a k-string composition approach[J]. J Mol Evol, 2004, 58:1-11.
[10]Gao L, Qi J, Wei H, et al. Molecular phylogeny of coronaviruses including human molecular phylogeny of coronaviruses including human[J]. Chinese Sci Bull, 2003, 48:1170-1174.
[11]Hao BL. A few pieces of mathematics inspired by real biological data.[M]//Ge ML, Oh CH, Phua KK. Proceedings of the Conference in Honor of C N Yang's 85th Birthday. World Scientific Pub Co Inc, 2008.
[12]Hao BL, Gao L. Prokaryotic branch of the tree of life:a composition vector approach[J]. J Syst Evol, 2008, 46:258-262.
[13]Hao BL, Long MY, Gu HY, et al. Whole-genome based prokaryotic branches in the tree of life[C]. Darwin 200 Beijing Int Conf,2010:102-103.
[14]Li QA, Xu Z, Hao B. Composition vector approach to whole-genomebased prokaryotic phylogeny:success and foundations[J]J Biotechnol, 2010, 149:115-119.
[15]Zuo G, Xu Z, Hao B. Phylogeny and taxonomy of archaea:a comparison of the whole-genome-based CVTree approach with 16S rRNA sequence analysis[J]. Life, 2015, 5:949-968.
[16]Wang H, Xu Z, Gao L, Hao B. A fungal phylogeny based on 82 complete genomes using the composition vector method[J]Bmc Evol Biol, 2009, 9:1471-2148.
[17]Chu KH, Qi J, Yu ZG, Anh V. Origin and phylogeny of chloroplasts revealed by a simple correlation analysis of complete genomes[J]. Mol Biol Evol, 2004, 21:200-206.
[18]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J].Nucleic Acids Res, 2013, 41:1-10.
[19]Qi J, Luo H, Hao B. CVTree:A phylogenetic tree reconstruction tool based on whole genomes[J]Nucleic Acids Res, 2004, 32:45-47.
[20]Xu Z, Hao BL. CVTreeUpdate:A newly designed phylogenetic study platform using composition vectors and whole genomes[J]Nucleic Acids Res, 2009, 37:W174-W178.
[21]Zuo G, Hao B. CVTree3 web server for whole genome-based and alignment-free prokaryotic phylogeny and taxonomy[J]Genomics Proteomics Bioinforma, 2015, (in press).
[22]Saitou N, Nei M. The neighbour joining method:a new method for reconstructing phylogenetic trees[J]Mol Biol Evol, 1987, 4(4):406-425.
[23]MihaescuR, Levy D, Pachter L. Why neighbor-joining works[J].Algorithmica(New York), 2009, 54:1-24.
[24]Zuo G, Hao B, Staley JT. Geographic divergence of ‘sulfolobus islandicus’ strains assessed by genomic analyses including electronic DNA hybridization confirms they are geovars[J].Antonie Van Leeuwenhoek, 2014, 105(2):431-435.
[25]Brenner DJ, Fanning GR, Miklos GV, Steigerwalt AG. Polynucleotide sequence relatedness among Shigella species[J]. Int J Syst Bacteriol, 1973, 23:1-7.
[26]Brenner DJ, Fanning GR, Skerman FJ, Falkow S. Polynucleotide sequence divergence among strains of Escherichia coli and closely related organisms[J]. J Bacteriol, 1972, 109:953-965, 1972.
[27]Zuo G, Xu Z, Hao B. Shigella strains are not clones of Escherichia coli but sister species in the genus Escherichia[J]Genomics Proteomics Bioinforma, 2013, 11:61-65.