曹海濤 , 朱靜 ,馬云鵬 , 崔興華
新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052
腸道菌群是指生活在宿主腸道內(nèi)所有微生物的集合,包括細(xì)菌、病毒和真菌。越來越多的研究顯示,宿主的健康狀況與腸道菌群存在密切聯(lián)系。高通量測(cè)序技術(shù)的應(yīng)用及各個(gè)國家支持的大規(guī)模腸道菌群計(jì)劃的實(shí)施,為揭示腸道菌群與宿主的健康狀況提供了必要的數(shù)據(jù)支撐,同時(shí)也產(chǎn)生了大量的微生物組數(shù)據(jù),如人類微生物組項(xiàng)目(human microbiome project,HMP)[1]、比利時(shí)弗萊明腸道菌群計(jì)劃(Flemish gut flora project,F(xiàn)GFP)[2]和我國開展的廣東省腸道菌群計(jì)劃[3]等。隨著人工智能的興起,適用于復(fù)雜數(shù)據(jù)分析的機(jī)器學(xué)習(xí)受到了研究人員的青睞。例如,Najafabadi等[4]探究了深度學(xué)習(xí)在大數(shù)據(jù)分析中的應(yīng)用和挑戰(zhàn);Hernández等[5]探究了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在微生物組研究中的應(yīng)用。利用微生物組數(shù)據(jù)+機(jī)器學(xué)習(xí)來進(jìn)行醫(yī)療診斷已成為生物醫(yī)學(xué)領(lǐng)域一個(gè)新興的研究熱點(diǎn)。
機(jī)器學(xué)習(xí)可作為微生物組數(shù)據(jù)的處理方法,如主成分分析、數(shù)據(jù)歸一化、特征選擇等。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)處理后可以消除冗余的數(shù)據(jù),改變微生物組數(shù)據(jù)高維、稀疏的特點(diǎn),并在一定程度上提升模型預(yù)測(cè)的精度;同時(shí)機(jī)器學(xué)習(xí)也可作為預(yù)測(cè)模型的核心建模算法,包括K近鄰(K nearest neighbors,KNN)[6]、支持向量機(jī)(support vector machine,SVM)[7]、人工神經(jīng)網(wǎng)絡(luò)(artificial neutral network,ANN)等。Hacllar等[8]利用KNN構(gòu)建炎癥性腸病預(yù)測(cè)模型;Assegie等[9]使用K-近鄰(KNN)算法和SVM構(gòu)建了肝病分類模型;Liu等[10]使用SVM構(gòu)建肥胖預(yù)測(cè)模型;Reiman等[11]使用ANN構(gòu)建肝硬化預(yù)測(cè)模型;Nasser等[12]使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建肺癌檢測(cè)模型;Lyngdoh等[13]利用5種監(jiān)督機(jī)器學(xué)習(xí)算法分析糖尿病模型的預(yù)測(cè),使用 KNN 分類器實(shí)現(xiàn)了 76% 的穩(wěn)定和最高準(zhǔn)確度等。但這些預(yù)測(cè)模型都是基于特定的機(jī)器學(xué)習(xí)算法和微生物組數(shù)據(jù),因此普遍存在在特定數(shù)據(jù)集表現(xiàn)良好,而泛化能力不足的情況。
本文綜述了機(jī)器學(xué)習(xí)算法在基于腸道微生物組數(shù)據(jù)預(yù)測(cè)宿主表型方面中的應(yīng)用,以及腸道微生物及微生物組中常用的5種機(jī)器學(xué)習(xí)算法(線性回歸、支持向量機(jī)、K-近鄰、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò))的原理,重點(diǎn)歸納了機(jī)器學(xué)習(xí)算法在腸道菌群與宿主健康相關(guān)研究中的應(yīng)用現(xiàn)狀,應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型的一般規(guī)律,以期為推動(dòng)機(jī)器學(xué)習(xí)進(jìn)行腸道菌群宿主表型預(yù)測(cè)提供參考依據(jù)。
人體腸道內(nèi)含有大量的共生菌,由上千種微生物組成,包括古生菌、真菌、細(xì)菌、原生生物、病毒等,其中細(xì)菌是最主要的定殖菌[14],因此腸道是人體微生物菌群最復(fù)雜的部位之一。目前,尚無研究證明腸道菌群中細(xì)菌種類的確切數(shù)目,一般認(rèn)為腸道菌群中含有500~1000種細(xì)菌[15],但也有研究者發(fā)現(xiàn)腸道菌群中細(xì)菌的種類超過3500種[16],數(shù)量約為100萬億,總重量約為1~2 kg。由此可知,腸道菌群是人體免疫有機(jī)體的重要組成部分[17],也被認(rèn)為是人體腸道內(nèi)的另一個(gè)“器官”[18]。
腸道中的微生物大多為專性厭氧菌,種類超過50個(gè)門[19],如此龐大數(shù)量的細(xì)菌處于動(dòng)態(tài)平衡狀態(tài)中,具有高度的多樣性、穩(wěn)定性、抗逆性和耐藥性,而腸道微生物菌群的紊亂則與多樣性和共生性的喪失有關(guān)[20]。腸道菌群中主要有擬桿菌、乳桿菌、大腸桿菌、腸球菌4種細(xì)菌,其中擬桿菌屬和犁頭霉屬在腸道微生物中的豐度最高,占腸道微生物總量的90%以上[21]。這些數(shù)量眾多的腸道微生物主要通過自身的代謝產(chǎn)物或代謝產(chǎn)生的活性成分來調(diào)節(jié)宿主的新陳代謝,進(jìn)而影響宿主的健康狀況。
宿主表型是指為微生物菌群定殖以及其他寄生生物提供生存環(huán)境的生物體可觀察的性狀或特征,如生理、生化和行為方面的特性,是被定殖或寄生生物體所有性狀的總和。腸道菌群可以提高宿主的免疫機(jī)能,促進(jìn)營養(yǎng)物質(zhì)吸收[22],維持宿主免疫屏障的完整性[23]。研究發(fā)現(xiàn),腸道菌群消化產(chǎn)物短鏈脂肪酸是宿主腸道上皮細(xì)胞的重要營養(yǎng)物質(zhì),可以促進(jìn)宿主腸道上皮細(xì)胞的生長及分化,對(duì)維持腸道屏障的完整性具有重要作用[24],可防止腸源性內(nèi)毒素進(jìn)入血液引起代謝性內(nèi)毒素血癥[25];同時(shí),宿主所處的地理環(huán)境、年齡、飲食習(xí)慣、服用藥物史、疾病以及細(xì)菌之間的相互作用均會(huì)影響腸道菌群的豐度[26]。
腸道菌群會(huì)影響宿主免疫系統(tǒng)功能,而腸道菌群豐度和腸道微生態(tài)結(jié)構(gòu)的改變可以引起腸道菌群失調(diào)[27]。一旦發(fā)生腸道菌群失調(diào),腸道內(nèi)的有益菌群(如雙歧桿菌、乳酸菌、擬桿菌等)就會(huì)減少,而有害菌群(如產(chǎn)生毒素的擬桿菌,大腸桿菌、梭菌等)則會(huì)增加,且有害菌分泌的多種毒性因子會(huì)損傷腸道上皮細(xì)胞,導(dǎo)致多種疾病的發(fā)生,如腸易綜合征(irritable bowel syndrome,IBS)[28]、結(jié)直腸癌(colorectal cancer,CRC)[29]、炎癥性腸?。╥nflammatory bowel disease,IBD)[30]、自閉癥(autism spectrum disorder,ASD)[31-32]、肥胖(obese)[33]、2型糖尿?。╰ype 2 diabetes,T2D)[34]等。上述研究表明腸道菌群與宿主的多種疾病存在相關(guān)性,研究腸道菌群與宿主之間的關(guān)系,可為精準(zhǔn)醫(yī)療提供可能[35-36],進(jìn)而使利用腸道菌群干預(yù)宿主的疾病治療成為現(xiàn)代醫(yī)學(xué)治療的一種新興手段[37]。
近年來的研究表明,腸道菌群與宿主的健康狀態(tài)和疾病之間存在密切關(guān)聯(lián)。這意味著腸道菌群的組成和豐度可能與宿主的疾病風(fēng)險(xiǎn)、發(fā)展和病程有關(guān)。這種關(guān)聯(lián)不僅涵蓋了消化系統(tǒng)相關(guān)的疾病,還包括了許多其他疾病,如免疫系統(tǒng)疾病、代謝性疾病和神經(jīng)系統(tǒng)疾病等。
隨著人工智能的興起與發(fā)展,目前機(jī)器學(xué)習(xí)已應(yīng)用于生命科學(xué)的各個(gè)領(lǐng)域,如癌癥檢測(cè)、藥物開發(fā)、行為預(yù)測(cè)、人臉識(shí)別、語義分析、推薦個(gè)性化治療等,且在復(fù)雜的微生物組學(xué)相關(guān)研究中應(yīng)用效果顯著[38]。第二代DNA測(cè)序技術(shù)的普及使微生物組學(xué)數(shù)據(jù)激增,傳統(tǒng)的人工統(tǒng)計(jì)學(xué)方法已經(jīng)無法適應(yīng)這種高維、稀疏、數(shù)據(jù)量龐大的微生物組學(xué)分析,而機(jī)器學(xué)習(xí)可以從海量復(fù)雜的數(shù)據(jù)中,挖掘其內(nèi)部潛在的信息,節(jié)省了大量人力和時(shí)間,提高了工作效率,已經(jīng)逐漸成為微生物組學(xué)研究的主流方法[39]。而隨著機(jī)器學(xué)習(xí)、計(jì)算機(jī)硬件及相關(guān)數(shù)學(xué)理論的發(fā)展,產(chǎn)生了一種新技術(shù)方法——深度學(xué)習(xí)(deep learning,DL)。該方法無需人工干預(yù)就可以自動(dòng)捕捉到復(fù)雜數(shù)據(jù)中隱藏的數(shù)據(jù)結(jié)構(gòu),將其應(yīng)用于腸道菌群數(shù)據(jù)分析中,可以揭示菌群與宿主健康之間的關(guān)系,從而對(duì)宿主的疾病及健康狀況等方面進(jìn)行決策[40]。盡管目前機(jī)器學(xué)習(xí)尚未普及到臨床應(yīng)用中,但這預(yù)示著未來有望充分利用機(jī)器學(xué)習(xí)技術(shù)來處理、分析和解釋大規(guī)模的微生物組數(shù)據(jù),從而深入理解微生物與宿主之間的相互作用,為醫(yī)學(xué)、生態(tài)學(xué)和生物技術(shù)領(lǐng)域帶來新的突破和創(chuàng)新。
人工智能發(fā)展主要有機(jī)器學(xué)習(xí)、自然語言處理、基于規(guī)則的專家系統(tǒng)和機(jī)器人學(xué)習(xí)這4種類型[41]。機(jī)器學(xué)習(xí)可以在短時(shí)間內(nèi)處理大量的數(shù)據(jù),但是也受制于計(jì)算機(jī)的處理能力、數(shù)據(jù)量的大小及算法復(fù)雜性。截至目前,機(jī)器學(xué)習(xí)已成為微生物菌群領(lǐng)域中最常用的人工智能技術(shù)[42]。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、概率論、最優(yōu)化、凸分析等學(xué)科,其主要特點(diǎn)是模仿人類的學(xué)習(xí)行為,從復(fù)雜的數(shù)據(jù)規(guī)律或模式中獲取新的知識(shí),挖掘其中潛在的信息,是人工智能的核心。機(jī)器學(xué)習(xí)通常按照數(shù)據(jù)是否帶有標(biāo)簽分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)[43]。按照數(shù)據(jù)是否為離散型,合為分類問題和回歸問題[44]。宿主表型預(yù)測(cè)是利用帶有標(biāo)簽的腸道菌群數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,利用輸入的腸道菌群數(shù)據(jù)預(yù)測(cè)宿主的健康情況,即為有監(jiān)督的學(xué)習(xí)。常用于腸道菌群分析的5種機(jī)器學(xué)習(xí)算法有支持向量機(jī)(support vector machine,SVM)、K-近鄰、線性回歸、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)。
2.2.1 支持向量機(jī) 支持向量機(jī)是一種二元分類模型,其目的是尋找一個(gè)超平面對(duì)數(shù)據(jù)進(jìn)行劃分,可以使用核函數(shù)進(jìn)行非線性分類。對(duì)高維的腸道菌群數(shù)據(jù)具有很好的適用性,是腸道菌群領(lǐng)域應(yīng)用較廣泛的一種機(jī)器學(xué)習(xí)模型。2018年,Xu等[45]利用支持向量機(jī)構(gòu)建預(yù)測(cè)模型,根據(jù)基因編碼蛋白序列信息預(yù)測(cè)阿爾茨海默?。╝lzheimer disease,AD),準(zhǔn)確率達(dá)到85.7%。有研究利用支持向量機(jī)和人類微生物組項(xiàng)目數(shù)據(jù)庫構(gòu)建微生物組分類器,結(jié)果發(fā)現(xiàn)分類精度、敏感性和特異性均較高[46]。SVM用于診斷皮膚病和預(yù)測(cè)心血管疾病,準(zhǔn)確率分別達(dá)到95.39%和85%[47]。
如圖1A所示,支持向量機(jī)的目標(biāo)是在兩個(gè)類別之間創(chuàng)建一個(gè)決策邊界,從而能夠在一個(gè)或多個(gè)特征向量中預(yù)測(cè)標(biāo)簽。該決策邊界又稱為超平面,以這樣一種方式定向,其距離可能是從每個(gè)類別中最接近的數(shù)據(jù)點(diǎn),而這些最近的點(diǎn)被稱為支持向量。按公式(1)給定一個(gè)標(biāo)記的訓(xùn)練數(shù)據(jù)集。
圖1 支持向量機(jī)Fig. 1 Support vector machine
式中,xi是一個(gè)特征向量,yi是訓(xùn)練化合物i的類別標(biāo)簽(負(fù)或正)。最優(yōu)超平面可以定義為公式(2)。
其中,w是權(quán)重向量,x是輸入特征向量,b是偏差。
支持向量機(jī)的另一種用途是核方法,它使我們能夠?qū)Ω呔S的非線性模型建模。在非線性問題中,可以使用核函數(shù)向原始數(shù)據(jù)添加額外的維度,從而使其在高維空間中成為線性問題,如圖1B所示,在二維數(shù)據(jù)無法線性劃分時(shí)將二維上升到三維以成功創(chuàng)建超平面。
支持向量機(jī)的優(yōu)點(diǎn)在于:①復(fù)雜性主要取決于支持向量的數(shù)目,而不是高維的樣本空間,可以減輕高維的微生物數(shù)據(jù)所造成的影響;②對(duì)數(shù)據(jù)的異常值不敏感,具有較好的魯棒性;③可以使用凸優(yōu)化找到全局最小值;④適用性較廣泛。而支持向量機(jī)的缺點(diǎn)在于:①對(duì)多分類問題表現(xiàn)不夠好;②對(duì)大數(shù)據(jù)量的計(jì)算周期較長;③對(duì)自身參數(shù)選擇比較敏感。
2.2.2 K近鄰 K近鄰是根據(jù)距離選取K個(gè)樣本點(diǎn)數(shù)據(jù)來推測(cè)預(yù)測(cè)點(diǎn)的類別。2018年,Wu等[48]利用K近鄰證明了2型糖尿病(type 2 diabetes,T2D)、類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis,RA)和肝硬化(liver cirrhosis,LC)等疾病的微生物組生物標(biāo)志物與表型之間存在顯著相關(guān)性。
如圖2所示,測(cè)試樣本應(yīng)歸入第一類的藍(lán)色三角形或是第二類的五角星形。如果k=3(虛線圓圈)它被分配給第一類,那么有2個(gè)三角形和1個(gè)五角星形在內(nèi)側(cè)圓圈之內(nèi)。如果k=11(實(shí)線圓圈)它被分配到第二類(5個(gè)三角形與6個(gè)五角星形在外側(cè)圓圈之內(nèi)),同樣的方法也可以擴(kuò)展到三維空間。
圖2 K近鄰Fig. 2 K nearest neighbors
K近鄰算法的優(yōu)點(diǎn)在于:①容易理解,易實(shí)現(xiàn);②適用于非線性分類;③算法調(diào)整方便,且便于調(diào)整K的數(shù)量以及距離;④對(duì)數(shù)量大的樣本具有較好的適用性。K近鄰算法的缺點(diǎn)在于:①對(duì)特征比較多的樣本計(jì)算開銷較大;②對(duì)樣本不均衡的情況表現(xiàn)較差。
2.2.3 線性回歸 線性回歸指利用線性方程對(duì)數(shù)據(jù)進(jìn)行擬合,是最常見的回歸算法,其含有1個(gè)自變量和1個(gè)因變量,且二者存在線性關(guān)系,即可用一條直線表示,也被稱為一元線性回歸。腸道菌群數(shù)據(jù)通常含有2個(gè)以上的自變量,多采用多元線性回歸,其最重要的2個(gè)變形是加入了L1正則化的Lasso回歸和L2正則化的嶺回歸。Lasso回歸的突出優(yōu)勢(shì)是加入了懲罰函數(shù),使得相對(duì)不重要的特征項(xiàng)系數(shù)變?yōu)?,相當(dāng)于進(jìn)行了特征選擇。嶺回歸則是將特征系數(shù)縮小到接近0,而不刪除任何特征項(xiàng),提高了預(yù)測(cè)精度,但也增加了解釋復(fù)雜度。2021年,Yao等[49]利用線性回歸觀測(cè)到結(jié)直腸癌(colorectal cancer,CRC)患者微生物菌群多樣性降低,且利用分辯微生物組方法可以有效檢測(cè)結(jié)直腸癌。Li等[50]研究了基于線性回歸的蛋白質(zhì)中鋅結(jié)合位點(diǎn)預(yù)測(cè)的整合方法,可以應(yīng)用于基于序列信息的鋅結(jié)合位點(diǎn)識(shí)別,也可用于推斷蛋白質(zhì)功能,并且更有利于治療某些疾病。
如圖3所示,展示了一個(gè)橫坐標(biāo)表示真實(shí)值,縱坐標(biāo)表示預(yù)測(cè)值的散點(diǎn)圖,線性回歸就是要找到一條直線(圖中的紅色線)來盡可能地?cái)M合圖中的數(shù)據(jù)點(diǎn)。
圖3 線性回歸Fig. 3 Linear regression
線性回歸的優(yōu)點(diǎn)在于:①對(duì)小數(shù)據(jù)量、關(guān)系結(jié)構(gòu)較為簡(jiǎn)單的樣本效果較好;②算法較為基礎(chǔ),容易理解,可解釋性較強(qiáng)。線性回歸的缺點(diǎn)在于不能較好地?cái)M合非線性數(shù)據(jù)。
2.2.4 隨機(jī)森林 隨機(jī)森林的本質(zhì)是包含多個(gè)決策樹的分類器的集合,而決策樹的優(yōu)勢(shì)在于使數(shù)據(jù)形式易于理解[51]。決策樹可以從眾多不熟悉的數(shù)據(jù)集合中提取出一系列規(guī)則,創(chuàng)建規(guī)則的過程就是機(jī)器學(xué)習(xí)的過程。隨機(jī)森林是一種在生物學(xué)和基因組學(xué)中應(yīng)用越來越廣泛的方法,其不僅適用于二分類,也適合多分類。Pasolli等[52]根據(jù)隨機(jī)森林構(gòu)建的炎癥性腸病預(yù)測(cè)模型準(zhǔn)確率達(dá)到0.89,肥胖預(yù)測(cè)模型準(zhǔn)確率達(dá)到0.66。Yang等[53]采用多種方法構(gòu)建華東地區(qū)心血管疾病模型,包括多元回歸模型、分類和回歸樹、樸素貝葉斯、袋裝樹、Ada Boost和隨機(jī)森林,實(shí)驗(yàn)結(jié)果表明隨機(jī)森林優(yōu)于其他方法,曲線下面積(area under curve, AUC)為0.787,且比基準(zhǔn)有顯著改善。
圖4展示了隨機(jī)森林的示例:首先對(duì)數(shù)據(jù)集使用Bootstrap方法對(duì)樣本進(jìn)行重抽樣,然后將得到的每個(gè)樣本輸入決策樹中進(jìn)行分類,最后將若干個(gè)弱分類器的分類結(jié)果進(jìn)行投票選擇,根據(jù)投票決定最終結(jié)果。
圖4 隨機(jī)森林Fig. 4 Random forests
隨機(jī)森林算法的優(yōu)點(diǎn)在于:①對(duì)復(fù)雜高維的數(shù)據(jù)展現(xiàn)出較好的適用性;②可用于篩選重要特征;③泛化能力較強(qiáng);④可以處理樣本的缺失特征。隨機(jī)森林的缺點(diǎn)在于:①偏向選擇投票最多的特征;②可能產(chǎn)生過度匹配的問題。
2.2.5 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)作為一種運(yùn)算模型,是對(duì)人腦神經(jīng)元網(wǎng)絡(luò)的抽象,由大量神經(jīng)元節(jié)點(diǎn)相互連接而成,每個(gè)節(jié)點(diǎn)就是一種特定的激勵(lì)函數(shù)。兩個(gè)節(jié)點(diǎn)之間連接信號(hào)的加權(quán)值稱為權(quán)重,相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶,其主要包含輸入層、隱藏層、輸出層3個(gè)部分,輸入層接收外部的數(shù)據(jù);隱藏層不能由系統(tǒng)外部觀察;輸出層實(shí)現(xiàn)結(jié)果的輸出。使用人工神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型時(shí),通常對(duì)數(shù)據(jù)量有極高的要求,并且訓(xùn)練中參數(shù)的調(diào)參也更為嚴(yán)格,訓(xùn)練結(jié)果也更加不可預(yù)知和不可解釋。2017年,Reiman等[11]利用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)構(gòu)建疾病預(yù)測(cè)模型,分類精度較傳統(tǒng)方法更高。Tejamma等[54]使用卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)心臟病,取得了非常好的效果。
圖5 展示人工神經(jīng)網(wǎng)絡(luò)模式:網(wǎng)絡(luò)最左的一層為輸入層,將多組數(shù)據(jù)(比如OTU1到OTUn)輸入到輸入層中的n個(gè)輸入神經(jīng)元中,輸入層中的數(shù)據(jù)傳輸?shù)诫[藏層中,隱藏層會(huì)根據(jù)已經(jīng)訓(xùn)練好的參數(shù)對(duì)數(shù)據(jù)進(jìn)行處理,最后隱藏層將數(shù)據(jù)傳輸?shù)捷敵鰧?,并由輸出層將結(jié)果輸出。
圖5 人工神經(jīng)網(wǎng)絡(luò)Fig. 5 Artificial neutral network
人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于:①相較于傳統(tǒng)機(jī)器學(xué)習(xí),人工神經(jīng)網(wǎng)絡(luò)可以處理海量數(shù)據(jù);②計(jì)算能力較強(qiáng);③算法不斷被優(yōu)化。而人工神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)包括:①“黑箱”操作,結(jié)果解釋性不高;②計(jì)算耗時(shí)耗力;③模型訓(xùn)練需要更多的數(shù)據(jù)來滿足。
1917年,Wehkamp等[55]首次分離出大腸桿菌,明確了微生物菌群在宿主中具有抵抗有害菌的作用。1965年,Schaedler等[56]首次將微生物菌群移植到無菌老鼠體內(nèi),揭示了微生物菌群對(duì)宿主健康發(fā)育的重要性,這創(chuàng)立了利用無菌宿主研究腸道菌群作用的新方法。1989年,研究發(fā)現(xiàn)微生物菌群對(duì)宿主的免疫系統(tǒng)具有調(diào)節(jié)作用[57]。2005年提出的第二代測(cè)序技術(shù)顯著提升了基因測(cè)序深度,可以從分類層級(jí)上分析微生物菌群,有助于研究者深入了解微生態(tài)的功能與特征[58]。2007年實(shí)施的人類微生物組項(xiàng)目[59]以及2012年開始的美國腸道菌群計(jì)劃[60]標(biāo)志著微生物菌群研究從個(gè)體走向大規(guī)模人群。
第二代DNA測(cè)序技術(shù)可對(duì)人體皮膚、口腔、胃、腸道、腹腔等部位的微生物群落進(jìn)行分析,這些微生物群落即為人類微生物群。研究發(fā)現(xiàn),微生物群對(duì)人類健康有重要影響[61-62],因此,對(duì)這些微生物菌群的研究,有利于研究人員開發(fā)新的診斷工具和治療方法以判斷人類身體健康狀況和治療相關(guān)疾?。?3-64],但不同的方法診斷和治療結(jié)果可能存在明顯的差異[65-66]。隨著微生物組數(shù)據(jù)的不斷增加,僅依靠傳統(tǒng)的人工統(tǒng)計(jì)方法可能需要幾個(gè)月甚至幾年的時(shí)間,而人工智能為分析海量數(shù)據(jù)提供了一種快速高效的方式,目前已經(jīng)廣泛運(yùn)用于微生物組學(xué)相關(guān)研究中。
近年來,利用機(jī)器學(xué)習(xí)預(yù)測(cè)疾病的相關(guān)研究較多(表1),其具有良好的疾病預(yù)測(cè)能力,且可根據(jù)特征選擇和特異性標(biāo)記提高預(yù)測(cè)精度[67]。已有研究證實(shí),唾液微生物群可以作為無創(chuàng)診斷膽管炎的標(biāo)記物[68]和預(yù)測(cè)口腔異味(預(yù)測(cè)精度達(dá)97%),并且深度學(xué)習(xí)可以獲得比傳統(tǒng)機(jī)器學(xué)習(xí)更高的準(zhǔn)確率[69];Dadkhah等[70]研究發(fā)現(xiàn)監(jiān)督式機(jī)器學(xué)習(xí)算法對(duì)復(fù)雜高維的微生物群數(shù)據(jù)有更好的適用性,并且進(jìn)行特征選擇可以有效地提高預(yù)測(cè)精度。以上研究證明,微生物菌群和宿主表型存在一定的關(guān)系,在這些疾病研究中算法的普遍預(yù)測(cè)精度可達(dá)到70%以上,甚至更高。利用微生物數(shù)據(jù)使用機(jī)器學(xué)習(xí)來預(yù)測(cè)宿主的健康狀況一般為二分類問題,其中AUC值和F1分?jǐn)?shù)(F1 score)可作為二分類模型的評(píng)價(jià)指標(biāo)。F1分?jǐn)?shù)為查準(zhǔn)率和召回率的調(diào)和平均值,其中查準(zhǔn)率(precision)表示預(yù)測(cè)正樣本中的準(zhǔn)確比例,召回率(recall)表示預(yù)測(cè)正確的正樣本占所有正樣本的比例。接收者操作特征(receiver operating characteristic,ROC)曲線也稱為接受者工作特性曲線,其x軸為假陽性率(在所有真實(shí)值為負(fù)的樣本中,預(yù)測(cè)錯(cuò)誤所占的比例),y軸為真陽性率(即召回率)。AUC值是ROC曲線圍成的一個(gè)面積值,理想的情況下AUC為1,即所有的樣本都被正確分類;若AUC=0.5,則證明模型的性能和隨機(jī)猜測(cè)相符;若AUC<0.5,則證明模型的性能不如隨機(jī)猜測(cè),幾乎沒有應(yīng)用價(jià)值。一般選取AUC值在0.5~1之間具有研究價(jià)值。
表1 機(jī)器學(xué)習(xí)不同疾病預(yù)測(cè)所使用算法及預(yù)測(cè)精度示例Table 1 Examples of algorithms and prediction accuracy of different diseases predicted by machine learning
在構(gòu)建預(yù)測(cè)模型時(shí),針對(duì)數(shù)據(jù)特點(diǎn)、應(yīng)用場(chǎng)景及評(píng)價(jià)標(biāo)準(zhǔn)需要選擇特定的機(jī)器學(xué)習(xí)算法,不同的算法有不同的特性與優(yōu)勢(shì)[71],一般通過對(duì)比實(shí)驗(yàn)選取較優(yōu)的算法(表1)。通過本文介紹的5種機(jī)器學(xué)習(xí)的特點(diǎn)以及在不同數(shù)據(jù)集上的性能表現(xiàn),得出構(gòu)建預(yù)測(cè)模型時(shí)選取機(jī)器學(xué)習(xí)算法的一般規(guī)律。①根據(jù)數(shù)據(jù)的特點(diǎn)來選擇算法。數(shù)據(jù)特點(diǎn)包括數(shù)據(jù)形式(如數(shù)值型、文字型或布爾型)、數(shù)據(jù)量大小、數(shù)據(jù)冗余程度、缺失數(shù)據(jù)比例、數(shù)據(jù)均衡性等。在選取建模算法前將數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)值型才能保證算法的運(yùn)行;數(shù)據(jù)量較大可以選擇適合大樣本學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)[72],數(shù)據(jù)量較小則可以選擇適合小樣本學(xué)習(xí)的線性回歸、支持向量機(jī)、K近鄰、隨機(jī)森林;數(shù)據(jù)冗余較大、不均衡、缺失比例高時(shí)可優(yōu)先選擇隨機(jī)森林。②根據(jù)需求選擇算法。需求包括運(yùn)行的時(shí)空復(fù)雜度,模型的可解釋性,分類或回歸問題等,如依據(jù)預(yù)測(cè)的目標(biāo)類型是數(shù)值變量或者類別變量選擇是回歸算法還是分類算法;要求較好的模型可解釋性時(shí)可以選擇線性回歸和支持向量機(jī);針對(duì)多分類問題可以選擇隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò);對(duì)于時(shí)空復(fù)雜度要求較高的K近鄰、人工神經(jīng)網(wǎng)絡(luò)算法則需要充分考慮計(jì)算機(jī)的硬件配置能否支撐起模型的運(yùn)行。此外,在選取建模方法時(shí)應(yīng)具體問題具體分析,綜合考慮算法在時(shí)空復(fù)雜度、可解釋性、普適性等方面的情況,結(jié)合前人的研究成果選取適合的算法,使得算法在預(yù)測(cè)模型中能夠充分發(fā)揮自身優(yōu)勢(shì)。
腸道微生物并不是僅依靠幾種細(xì)菌就能夠?qū)λ拗鳟a(chǎn)生影響,而是大規(guī)模的微生物菌群協(xié)同作用的結(jié)果。當(dāng)今機(jī)器學(xué)習(xí)應(yīng)用于腸道菌群分析已較普遍,極大地推動(dòng)了新型診療手段的發(fā)展。機(jī)器學(xué)習(xí)的應(yīng)用有助于科研人員了解特定腸道菌群與宿主之間的關(guān)系,并挖掘它們深層次的特征,同時(shí)通過對(duì)篩選出來的特定靶點(diǎn)菌群進(jìn)行機(jī)器學(xué)習(xí)預(yù)測(cè)及人工干預(yù),用于臨床輔助診斷和治療。雖然科學(xué)技術(shù)的發(fā)展為人類提供了大量宿主與微生物菌群之間關(guān)系的信息[73],促進(jìn)了微生物學(xué)的發(fā)展,但仍存在機(jī)器學(xué)習(xí)預(yù)測(cè)精度不高、模型泛化能力不足、可解釋性不強(qiáng)、模型容易過擬合、調(diào)動(dòng)參數(shù)復(fù)雜等問題。因此,機(jī)器學(xué)習(xí)還需要在算法優(yōu)化、特征提取、增加可解釋性等方面進(jìn)行改進(jìn),如利用仿生網(wǎng)絡(luò)來進(jìn)行算法優(yōu)化及參數(shù)調(diào)整,以及使用融合方法代替單一方法來進(jìn)行特征選擇等。隨著深度學(xué)習(xí)的興起,對(duì)于大型的腸道菌群數(shù)據(jù)(>104),深度學(xué)習(xí)算法將會(huì)取得比傳統(tǒng)機(jī)器學(xué)習(xí)更精確的預(yù)測(cè)結(jié)果[74]。本文為利用機(jī)器學(xué)習(xí)對(duì)腸道菌群宿主表型預(yù)測(cè)提供了一定的參考依據(jù),而隨著人工智能技術(shù)的飛速進(jìn)步,機(jī)器學(xué)習(xí)正在逐漸滲透到生物信息學(xué)、生物醫(yī)學(xué)和生物分類等領(lǐng)域,為這些領(lǐng)域帶來了深刻的變革和創(chuàng)新。這種趨勢(shì)對(duì)于加速科學(xué)研究、醫(yī)學(xué)診斷和生物多樣性研究都具有重要意義。