王曉君++滕琳
摘要:鑒于生物圈中微生物資源的巨大開發(fā)潛力以及測序技術不斷發(fā)展,宏基因組學研究的不斷深入,微生物群落已經(jīng)被看作一個整體來進行分析并且已經(jīng)得到廣泛應用。然而由于微生物的多樣性以及微生物菌群的復雜性,使得精確確定和定量宏基因組數(shù)據(jù)中的分類單元成為宏基因組數(shù)據(jù)分析的難點。已有的宏基因組數(shù)據(jù)標記分析工具無法解決微生物群落預測結果重現(xiàn)的穩(wěn)健性、準確性以及處理非冗余標記物方面遇到的問題。筆者提出了一個新的基于宏基因組自助抽樣(metagenomic bootstrap)的生物標志物選擇方法,它結合了mRMR(minimal redundancy maximal relevance)和自助抽樣方法(bootstrapping),可以更加穩(wěn)健、準確而有效地通過對宏基因組數(shù)據(jù)的挖掘實現(xiàn)非冗余標記物的篩選。基于模擬數(shù)據(jù)集,通過其與2種自上而下的方法(Metastats、LEfSe)以及自下而上的方法(Wilcoxon秩和檢驗)進行對比,表明本方法可以在較高準確率的基礎上更加穩(wěn)健地選擇更多的非冗余生物標志物。
關鍵詞:宏基因組;生物標志物;mRMR;自助抽樣法
中圖分類號: Q789文獻標志碼: A文章編號:1002-1302(2016)05-0056-04
微生物一直被人們視為巨大的生物資源,尤其是其龐大的基因組數(shù)據(jù)包含有大量不為人知的新功能基因,將對人類的生產(chǎn)、生活做出卓越貢獻[1]。然而,微生物資源中九成以上的微生物是不可培養(yǎng)的,也就意味著在新基因探索的道路上,人類面臨著不小的困難。新一代測序技術的出現(xiàn)將幫助人們揭示不可(或難)培養(yǎng)微生物的基因組信息,從而發(fā)現(xiàn)新的微生物或新的功能基因。隨著微生物基因組數(shù)據(jù)庫的不斷壯大,人們普遍意識到宏基因組數(shù)據(jù)分析的難點,宏基因組數(shù)據(jù)中生物標志物的鑒定以及應用非常重要。但宏基因組數(shù)據(jù)分析并不簡單,研究顯示,微生物群落展現(xiàn)出了非同一般的主體間可變性,更不可思議的是,此可變性竟然出現(xiàn)在人類和環(huán)境菌群中[2-3]。目前,人們已知的宏基因組生物標志物的鑒定方法有2種:一種是自下而上的方法,主要包括Wilcoxon秩和檢驗[4],測試每個分類單元,選擇群體間具有差異的元素作為標志物;另外一種是自上而下的方法,主要包括Metastats、LEfSe。雖然這2種方法都可以用來統(tǒng)計評估宏基因組數(shù)據(jù)的差異,對生物標志物進行鑒定,但這些方法很難解決數(shù)據(jù)分析結果重現(xiàn)的穩(wěn)健性、冗余性等問題。筆者提出一個自上而下的結合mRMR[5]和自助抽樣法從微生物宏基因組樣本中篩選生物標志物的方法,此方法首先分析微生物群落的整體分布,然后進行生物標志物篩選,不同于傳統(tǒng)生物標志物篩選的是,它結合了mRMR,能更為有效地避免了生物冗余標志物這一難題。
1材料與方法
1.1模擬數(shù)據(jù)集的產(chǎn)生
S1模擬數(shù)據(jù)集:根據(jù)文獻,微生物群落的分類分布都遵循正態(tài)分布,故而基于正態(tài)分布,產(chǎn)生模擬數(shù)據(jù)集S1(S1未列出,僅說明特性,其具體的結構類似于下面即將產(chǎn)生的數(shù)據(jù)集S3,只是在生成數(shù)據(jù)時產(chǎn)生的是正態(tài)分布的數(shù)據(jù),不同分類之間的差異指的是均值差異。)。S1中共有1 000個變量和120個樣本,包含2個分類(每個分類包含3個亞類,每個亞類包含20個樣本)。對于每一個樣本來說,都包含10個真標志物組(10個變量/組)和1個假標志物組(900個變量/假標志物)。數(shù)據(jù)集S1的特性是真標志物中的2個分類組均值差異較大,在每個分類內部,亞類之間的差異很小(在每個標志物組內,雖然生成數(shù)據(jù)時沒有差異,但是由于隨機函數(shù)的緣故,差異在所難免)。S2模擬數(shù)據(jù)集:筆者分析以前本實驗室口腔微生物宏基因組數(shù)據(jù)[6]發(fā)現(xiàn),微生物群落的宏基因組數(shù)據(jù)的分布不單是正態(tài)分布這么簡單,往往會有10%的變量符合正態(tài)分布和伽瑪分布2種混合分布模式,因此基于正態(tài)和伽瑪混合分布產(chǎn)生模擬數(shù)據(jù)集S2(表1)。數(shù)據(jù)集S2有2個重要特性:第一,對于真標志物,2個分類組參數(shù)shape(伽瑪分布中的1個重要參數(shù))或者均值差異較大,每個分類內部亞類之間的差異較小;第二,對于假標志物,它們在分類、亞類之間均值沒有差異(每個標志物組內隨機差異如S1所述)。此外,處在相同標志物組內的變量被認為是冗余的變量。S3模擬數(shù)據(jù)集:根據(jù)之前口腔樣本數(shù)據(jù)發(fā)現(xiàn),超過40%的變量僅符合伽瑪分布,因此基于伽瑪分布產(chǎn)生模擬數(shù)據(jù)集S3(表2)。數(shù)據(jù)集S3區(qū)別于S2的特性在于真標志物中S3數(shù)據(jù)集的2個分類組在參數(shù)shape上差異較大,在每個分類內,亞類之間的差異較小。
在真標志物中,一個小方格是一個25(樣本)×10(變量)的矩陣。矩陣每一列的值都是由正態(tài)分布函數(shù)或者伽馬分布函數(shù)(利用R語言中rnorm或者rgamma函數(shù)實現(xiàn))產(chǎn)生的。表格中填充淺灰色的格子表示由伽馬分布函數(shù)產(chǎn)生,填充深灰色的格子表示由正態(tài)分布函數(shù)產(chǎn)生。而假標志物組中,每一個都是一個25(樣本)×900(變量)的矩陣,其數(shù)值由正態(tài)分布函數(shù)產(chǎn)生。
每個包含在真標志物中小方格都是一個20(樣本)×10(變量)的矩陣。矩陣每列的值都由伽馬分布函數(shù)(利用R語言中rgamma函數(shù)實現(xiàn))產(chǎn)生。但對于假標志物組,每個格子都是一個20(樣本)×300(變量)的矩陣,其數(shù)值也是由伽馬分布函數(shù)產(chǎn)生。
1.2分析流程
歸一化:為了減少原始數(shù)據(jù)的噪聲,增強mRMR方法選擇具有識別能力的變量,模擬數(shù)據(jù)集需要進行離散化,即用原始數(shù)據(jù)的均值(μ)和標準差(σ)對數(shù)據(jù)進行離散化。任何數(shù)據(jù)大于μ+σ/2轉換為1,小于μ-σ/2轉換為-1,其他數(shù)據(jù)轉換為0。同時,原始的讀長數(shù)目需要進行歸一化,轉換為相對豐度,即每個變量的讀長數(shù)除以所有樣本在該變量中的讀長總數(shù),每個變量的總和為1(變量中80%都是0將被忽略)。主要分析流程:歸一化后的數(shù)據(jù)采用變量篩選和自助重抽樣2個步驟進行去冗余,具體流程見圖1。第一步的參數(shù)為1~M,其中M為第一次變量篩選時被mRMR篩選出的候選變量,用于區(qū)分不同樣本(可能含有冗余變量);第二步為自助重抽樣,參數(shù)為2~B;第三步為變量排序,參數(shù)是3~M′,這些變量是上一步抽樣中被mRMR選出的,當所有的自助重抽樣與變量選取完成后,按照變量出現(xiàn)次數(shù)進行排序,選取最終M′個變量作為最終用戶需要的變量(M>M′)。
2結果與討論
2.1基于宏基因組的自助抽樣方法的參數(shù)選擇
此方法過程主要包括3步:變量篩選步驟、自助重抽樣和變量篩選過程以及變量排序,整個過程包含3個主要參數(shù),分別是M、M′、B,它們對于選擇生物標記物的質量有重大影響。對于模擬數(shù)據(jù)集S1來說,參數(shù)M設置為50。當M等于50時,幾乎全部的非冗余變量都會被mRMR從1 000個變量中選出,考慮到計算的效率,50已經(jīng)足夠,因此沒有選擇更高的標準。對于參數(shù)B的選擇,筆者設置了一系列自助重抽樣次數(shù)的梯度,結果顯示,當B超過40時,被選擇出來的真標記物s不再增加(由于原始數(shù)據(jù)s的不固定性,因此選擇多個s來表征數(shù)據(jù)的變化趨勢)(圖2)。B值設為40。同樣的道理,對于數(shù)據(jù)集S2、S3中M′的選擇,結果與S1具有一致性(圖3)。由于S1只包含10個真標記物組,因此參數(shù)M′設置為10(最為理想的結果是每個標志物組中含有1個變量M′)。因此,將整體數(shù)據(jù)集參數(shù)M、B、M′分別設置為50、40、10。對本研究中基于自助抽樣的生物標志物選擇方法進行了去冗余性和準確性分析,來考察本方法是否更適合于宏基因組數(shù)據(jù)分析。冗余率、非冗余率計算公式如下:
冗余率=冗余的標志物數(shù)目選擇標志物總數(shù)目×100%;(1)
非冗余率=特異的真生物標記物數(shù)選擇標志物總數(shù)目×100%。(2)
2.2去冗余性分析
由圖4可知,對于數(shù)據(jù)集S2、S3,本研究的新方法得到了最好的分析結果(表3),同時在數(shù)據(jù)集S1中,也得到了很好的區(qū)分效果。此外,本研究基于自助抽樣的新方法較其他方法得到了更多的非冗余真標志物。宏基因組數(shù)據(jù)量龐大,各種各樣的微生物基因片段都包含其中,表征微生物種屬特性及其功能的特異性標準是研究生物標志物的意義所在。在復雜的數(shù)據(jù)庫中尋找特異的生物標志物來重構菌群的復雜性,因此其選擇的冗余性不可避免。本試驗基于自助抽樣方法很好地解決了冗余性這個難題,對于后續(xù)宏基因組工作有重要的應用價值。
2.3穩(wěn)健性分析
基于3個模擬數(shù)據(jù)集,筆者分析比較了本方法與其他已經(jīng)在宏基因組研究中應用的方法(如LEfSe、Metastats、Wilcoxon)在穩(wěn)健性方面存在的差異。對于每種方法,選擇100個生
物標志物(等于每個數(shù)據(jù)集中真生物標志物數(shù)目)計算100個生物標志物的百分率,結果見圖5、表4。在已有的研究方法中,Wilcoxon在3個模擬數(shù)據(jù)集中的穩(wěn)健性是最高的,本方法與Wilcoxon方法在3個數(shù)據(jù)集上相當,甚至表現(xiàn)更好?;诤昊蚪M數(shù)據(jù)生物標志物選擇的方法,選擇出的生物標志物具有較少的冗余固然重要,但是能夠選擇出在不同分組樣本中有差異的生物標志物是前提。本方法的穩(wěn)健性能夠保證選出的生物標志物能夠代表或者區(qū)分不同的樣本,只有這樣的生物標志物才有生物學意義。
2.4分類準確性分析
分類準確性是生物標志物選擇方法是否具有競爭力的重要指標。分類準確率計算公式如下:
分類準確率=準確分類的樣本數(shù)目測試樣本中樣本總數(shù)×100%。(3)
此部分只采用S2及S3作為驗證分類準確率與否的數(shù)據(jù)集,由于S1數(shù)據(jù)集內部區(qū)分非常明顯,對于任何一種區(qū)分方法都能實現(xiàn)很好的分類結果,因此在后2個數(shù)據(jù)集中分析比較這幾種方法的優(yōu)劣更有意義。分類時,使用這4種方法選擇的10個標志物來建模。其中,每個數(shù)據(jù)集都有2類,每類含有60個樣本,采用50個樣本作為訓練數(shù)據(jù)集,10個樣本作為檢驗數(shù)據(jù)集,結果顯示,在2個數(shù)據(jù)集準確性的分析中,基于自助抽樣的方法較其他3種方法具有更高的分類準確性以及最小的區(qū)分結果變異性,即最小的s(標準方差)值(圖6)。分類準確性是筆者選擇方法的一個重要指標,基于自助抽樣方法與其他生物標志物選擇方法相比,在分類準確性方面具有非常明顯的優(yōu)勢,在今后對于宏基因組研究中,本方法可以很好地實現(xiàn)對于生物標志物的選擇。
3結論
目前宏基因組數(shù)據(jù)缺乏生物標志物的背景信息,使得利用各種方法預測宏基因組生物標志物變得困難[7]。筆者提出了將基于自助抽樣的方法用于宏基因組生物標志物的鑒定,它是一個自上而下的方法,結合了mRMR方法和自助重抽樣技術?;谀M數(shù)據(jù)集,通過其與2種自上而下的方法(Metastats、LEfSe)以及自下而上的方法(Wilcoxon秩和檢驗)進行對比,表明本方法可以在較高準確率的基礎上更加穩(wěn)健地選擇更多的非冗余生物標志物。但本方法在鑒定功能性的生物標志物方面不是非常理想,還需進一步完善。
參考文獻:
[1]Ndimba B K,Ndimba R J,Johnson T S,et al.Biofuels as a sustainable energy source:An update of the applications of proteomics in bioenergy crops and algae[J]. Journal of Proteomics,2013,93:234-244.
[2]Pedros-Alio C. Marine microbial diversity:can it be determined? [J]. Trends in Microbiology,2006,14(6):257-263.
[3]Liao,L,Xu X W,Jiang X W,et al. Microbial diversity in deep-sea sediment from the cobalt-rich crust deposit region in the Pacific Ocean[J]. Microbiology Ecology,2011,78(3):565-585.
[4]Bauer D F. Constructing confidence sets using rank statistics[J]. Journal of the American Statistical Association,1972,67(339):687-690.
[5]Ding C,Peng H C. Minimum redundancy feature selection from microarray gene expression data[C]. Proceedings of the 2003 IEEE Bioinformatics Conference,2003:523-528.
[6]Huang S,Li R,Zeng X W,et al. Predictive modeling of gingivitis severity and susceptibility via oral microbiota[J]. The ISME Journal,2014,8(9):1768-1780.
[7]高岳. 應用宏基因組技術從微生物中獲得活性物質的研究進展[J]. 江蘇農業(yè)科學,2014,42(1):5-8.趙劍波,郭繼英,姜全,等. 桃抗重茬砧木GF677組培快繁技術[J]. 江蘇農業(yè)科學,2016,44(5):60-61,68.